Достижения в области технологий распознавания и хранения данных, а также значительный рост таких технологий, как поиск в Интернете, цифровое изображение и видеонаблюдение, создали множество высокопроизводительных наборов данных с большими объемами. Большая часть данных хранится в цифровом виде на электронных носителях, что дает огромный потенциал для разработки методов автоматического анализа, классификации и поиска данных. В дополнение к росту объема данных также увеличилось разнообразие доступных данных (текст, изображение и видео). Недорогие цифровые и видеокамеры сделали доступными огромные архивы изображений и видео. Распространенность RFID-меток или транспондеров из-за их низкой стоимости и небольших размеров привела к развертыванию миллионов датчиков, способных передавать данные в режиме реального времени. Электронные письма, блоги, данные транзакций и миллиарды веб-страниц каждый день создают терабайты новых данных. Многие из этих потоков данных не структурированы, что затрудняет их анализ.
Полученное за последнее десятилетие внушительное увеличение мощности и скорости обработки данных, позволило науке перейти от ручных, трудоемких и рутинных действий к быстрому, легкому и автоматизированному анализу данных. В то время как основная проблема технологов баз данных заключалась в том, чтобы найти эффективные способы хранения, извлечения и обработки данных, основная проблема сообщества машинного обучения заключалась в разработке методов обучения знаний из данных. Чем сложнее и обширнее собираемые массивы данных, тем больше возможностей для извлечения интересующих сведений. В связи с чем широкое применение получили технологии Data Mining. В процессе перехода от аналогового к цифровому, большие наборы данных были сгенерированы, собраны и сохранены, открывая статистические шаблоны, тенденции и скрытую в данных информацию, способные помочь при построении прогностических шаблонов. Исследования показывают, что интеллектуальный анализ данных быстрее и гораздо более интуитивно понятен, чем традиционный анализ данных. История показывает, что мы являемся свидетелями революционных изменений в исследованиях. Сбор данных полезен для очистки данных, предварительной обработки данных и интеграции баз данных. Исследователи могут найти любые аналогичные данные из базы данных, которые могут привести к любым изменениям в исследовании. Идентификация любых совпадающих последовательностей и корреляция между любыми действиями могут быть известны. Визуализация данных и интеллектуальный анализ данных дают нам четкое представление о данных.
Data Mining – это междисциплинарная область, возникновение и развитие которой произошло на базе таких наук как прикладная математика и статистика, распознавание образов, ИИ, теория баз данных и др., посвященная научным методам, процессам и системам, направленным на извлечение знаний или сведений из данных, представленных в различных структурированных или неструктурированных формах.
Data Mining – это набор методологий, используемых при анализе данных из разных измерений и перспектив, поиска ранее неизвестных скрытых шаблонов, классификации и группировки идентифицированных отношений, данных и суммирования. Сегодня Data Mining используется компаниями с сильной ориентацией на потребителя, такими как розничные, финансовые, коммуникационные и маркетинговые организации. Добыча данных позволяет этим компаниям определять отношения между «внутренними» факторами, такими как цена, позиционирование продукта или навыки персонала, и «внешними», такими как экономические показатели, конкуренция и демографические данные клиентов. Это позволяет им определить, какое влияние эти отношения могут оказать на продажи, удовлетворенность клиентов и корпоративную прибыль. Наконец, эти технологии позволяют им «развернуть» сводную информацию для просмотра подробных транзакционных данных и поиска способов применения этих знаний для улучшения бизнеса.
В последние годы интеллектуальная обработка данных широко используется в областях науки и техники, таких как биоинформатика, генетика, медицина, образование и электроэнергетика. При изучении генетики человека Data Mining помогает решить важную задачу понимания отношения индивидуальных вариаций последовательности ДНК человека и восприимчивости к болезням. Один из методов интеллектуального анализа данных, который используется для выполнения этой задачи, известен как многофакторное понижение размерности.
В целом, Data Mining технологии имеют большой потенциал для улучшения системы здравоохранения. Они используют данные и аналитику для выявления лучших практик, способных улучшить уход и снизить затраты. Исследователи используют различные подходы к интеллектуальному анализу данных, такие как многомерные базы данных, машинное обучение, компьютерные вычисления, визуализация данных и статистика. Анализ данных может использоваться для прогнозирования объема пациентов в каждой категории. Разрабатываются процессы, которые гарантируют, что пациенты получат надлежащую помощь в нужном месте и в нужное время. Также данные технологии могут помочь страховщикам здравоохранения выявлять мошенничество. Миллиарды долларов были потеряны в результате мошенничества, естественно не только в среде здравоохранения. Традиционные методы обнаружения мошенничества являются трудоемкими и сложными. Сбор данных помогает в предоставлении значимых шаблонов и превращении данных в информацию. Любая достоверная и полезная информация – это знания. Совершенная система обнаружения мошенничества должна защищать информацию всех пользователей. Контролируемый метод включает сбор образцов записей, которые классифицируются как мошеннические или немощные. Модель построена с использованием этих данных, и алгоритм делается для определения того, является ли запись мошеннической или нет.
Аналитические методы, используемые при интеллектуальном анализе данных, часто являются известными математическими алгоритмами и методами. Однако, новаторство заключается именно в применении этих методов для общих бизнес-задач, что стало возможным благодаря увеличению доступности данных, их недорого хранения и обработки. Кроме того, использование графических интерфейсов привело к тому, что инструменты стали более понятны и просты, вследствие чего бизнес-эксперты могут легко их использовать.
Data Mining – это пятиступенчатый процесс:
- Идентификация исходной информации;
- Выборка данных, которые необходимо проанализировать;
- Извлечение соответствующей информации из данных;
- Идентификация значений ключа из выделенного набора данных;
- Интерпретация и отчетность результатов.
Первый и, возможно, самый сложный шаг в интеллектуальном анализе данных – это постановка бизнес-цели. Это самый важный этап. Если не знать, что искать, будет сложно выбрать типы, алгоритмы и модели машинного обучения (ML), чтобы получить необходимую информацию.
Второй шаг – подготовка данных. Если вы определили цель анализа, ваши специалисты по данным могут подобрать соответствующий набор данных, чтобы полученная информация была полезна для вашего бизнеса. Специалисты по данным должны очистить данные – устранить дублирующуюся и некорректную информацию, восполнить недостающие значения, так как все это может помешать алгоритмам и инструментам интеллектуального анализа данных дать нужные вам результаты.
Третий шаг – построить модель и выявить паттерны. Вот над этим и работают приведенные ниже методы и инструменты. В интеллектуальном анализе данных могут использоваться алгоритмы глубокого обучения с контролируемыми или неконтролируемыми методами обучения.
Четвертый и последний шаг – оценка результатов интеллектуального анализа данных, чтобы внести изменения в процессы или предпринять действия, полезные для бизнеса.
Методы интеллектуального анализа данных
Методы интеллектуального анализа данных позволяют специалистам по данным и предприятиям более эффективно использовать большие объемы данных. Среди методов можно назвать следующие:
- Отслеживание паттернов – это фундаментальный метод выявления закономерностей, например, увеличение продаж снегоуборочных лопат во время снегопада. Но только нужные вам закономерности не столь очевидны.
- Классификация – это еще один метод, который позволяет распределить данные по разным категориям и присвоить им какой-либо класс. Например, на основе их финансовой истории можно классифицировать клиентов банка как клиентов с низким, средним или высоким уровнем платежеспособности.
- Ассоциация – еще один метод, связанный с отслеживанием паттернов. Он ищет переменные, связанные друг с другом в определенные моменты. Примером может служить понимание того, что когда покупатель кладет в корзину макароны, выбор соуса будет его следующим действием, а после соуса будет выбран сыр пармезан.
- Выявление аномалий – еще один метод интеллектуального анализа данных, который ищет исключения в наборах данных. Примером может служить резкий всплеск продаж женщинам мужских товаров в США в июне, потому что, оказывается, женщины покупают подарки ко дню отца за неделю или две до праздника.
- Кластеризация – этот метод по своей природе похож на метод классификации. Данные сгруппированы на основе их сходства. Например, покупатели объединены в группы (кластеры) на основе частоты покупок или располагаемого дохода.
- Регрессия – это способность предсказывать значение на основе прошлых значений. Регрессия определяет среднее значение с течением времени, потому что такие вещи, как цены на жилье, со временем будут колебаться немного выше или ниже текущей средней цены.
- Прогнозирование – это метод интеллектуального анализа данных, который позволяет предприятиям прогнозировать стоимость товаров и услуг в будущем.
Инструменты интеллектуального анализа данных
Инструменты интеллектуального анализа данных позволяют повысить влияние интеллектуального анализа данных на производительность компании. Вот некоторые из лучших инструментов на сегодняшний день:
- MonkeyLearn
- RapidMiner Studio
- Sisense for Cloud Data Teams
- Alteryx Designer
- Qlik Sense
- Orange
В работе рассмотрены основные этапы интеллектуального анализа данных. Показана архитектура Data Mining, изложены основные методы. Внимание было уделено основным задачам Data Mining. Были оценены основные инструменты технологий Data Mining.