научный журнал «Актуальные исследования» #30 (109), август '22

Модели, методы и алгоритмы больших данных и интеллектуальный анализ данных

В данной статье рассмотрены технологии Data Mining и отмечены основные этапы обработки данных. Представлена архитектура Data Mining и показаны основные методы. Сосредоточены на основных задачах Data Mining. Были оценены основные инструменты технологий Data Mining.

Аннотация статьи
интеллектуальный анализ данных
этапы Data Mining
Идентификация исходной информации
выборка данных
которые необходимо проанализировать
извлечение соответствующей информации из данных
идентификация значений ключа из выделенного набора данных
интерпретация и отчетность результатов
Ключевые слова

Достижения в области технологий распознавания и хранения данных, а также значительный рост таких технологий, как поиск в Интернете, цифровое изображение и видеонаблюдение, создали множество высокопроизводительных наборов данных с большими объемами. Большая часть данных хранится в цифровом виде на электронных носителях, что дает огромный потенциал для разработки методов автоматического анализа, классификации и поиска данных. В дополнение к росту объема данных также увеличилось разнообразие доступных данных (текст, изображение и видео). Недорогие цифровые и видеокамеры сделали доступными огромные архивы изображений и видео. Распространенность RFID-меток или транспондеров из-за их низкой стоимости и небольших размеров привела к развертыванию миллионов датчиков, способных передавать данные в режиме реального времени. Электронные письма, блоги, данные транзакций и миллиарды веб-страниц каждый день создают терабайты новых данных. Многие из этих потоков данных не структурированы, что затрудняет их анализ.

Полученное за последнее десятилетие внушительное увеличение мощности и скорости обработки данных, позволило науке перейти от ручных, трудоемких и рутинных действий к быстрому, легкому и автоматизированному анализу данных. В то время как основная проблема технологов баз данных заключалась в том, чтобы найти эффективные способы хранения, извлечения и обработки данных, основная проблема сообщества машинного обучения заключалась в разработке методов обучения знаний из данных. Чем сложнее и обширнее собираемые массивы данных, тем больше возможностей для извлечения интересующих сведений. В связи с чем широкое применение получили технологии Data Mining. В процессе перехода от аналогового к цифровому, большие наборы данных были сгенерированы, собраны и сохранены, открывая статистические шаблоны, тенденции и скрытую в данных информацию, способные помочь при построении прогностических шаблонов. Исследования показывают, что интеллектуальный анализ данных быстрее и гораздо более интуитивно понятен, чем традиционный анализ данных. История показывает, что мы являемся свидетелями революционных изменений в исследованиях. Сбор данных полезен для очистки данных, предварительной обработки данных и интеграции баз данных. Исследователи могут найти любые аналогичные данные из базы данных, которые могут привести к любым изменениям в исследовании. Идентификация любых совпадающих последовательностей и корреляция между любыми действиями могут быть известны. Визуализация данных и интеллектуальный анализ данных дают нам четкое представление о данных.

Data Mining – это междисциплинарная область, возникновение и развитие которой произошло на базе таких наук как прикладная математика и статистика, распознавание образов, ИИ, теория баз данных и др., посвященная научным методам, процессам и системам, направленным на извлечение знаний или сведений из данных, представленных в различных структурированных или неструктурированных формах.

Data Mining – это набор методологий, используемых при анализе данных из разных измерений и перспектив, поиска ранее неизвестных скрытых шаблонов, классификации и группировки идентифицированных отношений, данных и суммирования. Сегодня Data Mining используется компаниями с сильной ориентацией на потребителя, такими как розничные, финансовые, коммуникационные и маркетинговые организации. Добыча данных позволяет этим компаниям определять отношения между «внутренними» факторами, такими как цена, позиционирование продукта или навыки персонала, и «внешними», такими как экономические показатели, конкуренция и демографические данные клиентов. Это позволяет им определить, какое влияние эти отношения могут оказать на продажи, удовлетворенность клиентов и корпоративную прибыль. Наконец, эти технологии позволяют им «развернуть» сводную информацию для просмотра подробных транзакционных данных и поиска способов применения этих знаний для улучшения бизнеса.

В последние годы интеллектуальная обработка данных широко используется в областях науки и техники, таких как биоинформатика, генетика, медицина, образование и электроэнергетика. При изучении генетики человека Data Mining помогает решить важную задачу понимания отношения индивидуальных вариаций последовательности ДНК человека и восприимчивости к болезням. Один из методов интеллектуального анализа данных, который используется для выполнения этой задачи, известен как многофакторное понижение размерности.

В целом, Data Mining технологии имеют большой потенциал для улучшения системы здравоохранения. Они используют данные и аналитику для выявления лучших практик, способных улучшить уход и снизить затраты. Исследователи используют различные подходы к интеллектуальному анализу данных, такие как многомерные базы данных, машинное обучение, компьютерные вычисления, визуализация данных и статистика. Анализ данных может использоваться для прогнозирования объема пациентов в каждой категории. Разрабатываются процессы, которые гарантируют, что пациенты получат надлежащую помощь в нужном месте и в нужное время. Также данные технологии могут помочь страховщикам здравоохранения выявлять мошенничество. Миллиарды долларов были потеряны в результате мошенничества, естественно не только в среде здравоохранения. Традиционные методы обнаружения мошенничества являются трудоемкими и сложными. Сбор данных помогает в предоставлении значимых шаблонов и превращении данных в информацию. Любая достоверная и полезная информация – это знания. Совершенная система обнаружения мошенничества должна защищать информацию всех пользователей. Контролируемый метод включает сбор образцов записей, которые классифицируются как мошеннические или немощные. Модель построена с использованием этих данных, и алгоритм делается для определения того, является ли запись мошеннической или нет.

Аналитические методы, используемые при интеллектуальном анализе данных, часто являются известными математическими алгоритмами и методами. Однако, новаторство заключается именно в применении этих методов для общих бизнес-задач, что стало возможным благодаря увеличению доступности данных, их недорого хранения и обработки. Кроме того, использование графических интерфейсов привело к тому, что инструменты стали более понятны и просты, вследствие чего бизнес-эксперты могут легко их использовать.

Data Mining – это пятиступенчатый процесс:

  • Идентификация исходной информации;
  • Выборка данных, которые необходимо проанализировать;
  • Извлечение соответствующей информации из данных;
  • Идентификация значений ключа из выделенного набора данных;
  • Интерпретация и отчетность результатов.

Первый и, возможно, самый сложный шаг в интеллектуальном анализе данных – это постановка бизнес-цели. Это самый важный этап. Если не знать, что искать, будет сложно выбрать типы, алгоритмы и модели машинного обучения (ML), чтобы получить необходимую информацию.

Второй шаг – подготовка данных. Если вы определили цель анализа, ваши специалисты по данным могут подобрать соответствующий набор данных, чтобы полученная информация была полезна для вашего бизнеса. Специалисты по данным должны очистить данные – устранить дублирующуюся и некорректную информацию, восполнить недостающие значения, так как все это может помешать алгоритмам и инструментам интеллектуального анализа данных дать нужные вам результаты.

Третий шаг – построить модель и выявить паттерны. Вот над этим и работают приведенные ниже методы и инструменты. В интеллектуальном анализе данных могут использоваться алгоритмы глубокого обучения с контролируемыми или неконтролируемыми методами обучения.

Четвертый и последний шаг – оценка результатов интеллектуального анализа данных, чтобы внести изменения в процессы или предпринять действия, полезные для бизнеса.

Методы интеллектуального анализа данных

Методы интеллектуального анализа данных позволяют специалистам по данным и предприятиям более эффективно использовать большие объемы данных. Среди методов можно назвать следующие:

  • Отслеживание паттернов – это фундаментальный метод выявления закономерностей, например, увеличение продаж снегоуборочных лопат во время снегопада. Но только нужные вам закономерности не столь очевидны.
  • Классификация – это еще один метод, который позволяет распределить данные по разным категориям и присвоить им какой-либо класс. Например, на основе их финансовой истории можно классифицировать клиентов банка как клиентов с низким, средним или высоким уровнем платежеспособности.
  • Ассоциация – еще один метод, связанный с отслеживанием паттернов. Он ищет переменные, связанные друг с другом в определенные моменты. Примером может служить понимание того, что когда покупатель кладет в корзину макароны, выбор соуса будет его следующим действием, а после соуса будет выбран сыр пармезан.
  • Выявление аномалий – еще один метод интеллектуального анализа данных, который ищет исключения в наборах данных. Примером может служить резкий всплеск продаж женщинам мужских товаров в США в июне, потому что, оказывается, женщины покупают подарки ко дню отца за неделю или две до праздника.
  • Кластеризация – этот метод по своей природе похож на метод классификации. Данные сгруппированы на основе их сходства. Например, покупатели объединены в группы (кластеры) на основе частоты покупок или располагаемого дохода.
  • Регрессия – это способность предсказывать значение на основе прошлых значений. Регрессия определяет среднее значение с течением времени, потому что такие вещи, как цены на жилье, со временем будут колебаться немного выше или ниже текущей средней цены.
  • Прогнозирование – это метод интеллектуального анализа данных, который позволяет предприятиям прогнозировать стоимость товаров и услуг в будущем.

Инструменты интеллектуального анализа данных

Инструменты интеллектуального анализа данных позволяют повысить влияние интеллектуального анализа данных на производительность компании. Вот некоторые из лучших инструментов на сегодняшний день:

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

В работе рассмотрены основные этапы интеллектуального анализа данных. Показана архитектура Data Mining, изложены основные методы. Внимание было уделено основным задачам Data Mining. Были оценены основные инструменты технологий Data Mining.

Текст статьи
  1. https://www.trendmicro.com
  2. https://ppt-online.org
  3. http://ti.math.msu.su
Список литературы