Термин «интеллектуальный анализ данных» фигурировал в академических журналах еще в 1970 году, но по-настоящему популярным он стал только в 1990-х после появления интернета. Тогда компаниям потребовалось анализировать большие объемы разнородных данных, чтобы отыскать нетривиальные паттерны и научиться предсказывать поведение клиентов. Обычные модели статистики оказались неспособны справиться с этой задачей.
Революция больших данных происходит благодаря эволюции технологий, где технология позволяет фирмам собирать чрезвычайно огромный объем данных, распространяя знания среди своих клиентов, партнеров, конкурентов на рынке. Чем глубже мы погружаемся в технологии, тем больше мы соединяем физический мир с виртуальным, имея в виду, например, IoT (Интернет вещей) как сеть физических устройств, соединенных вместе и способных обмениваться данными.
Когда мы говорим о больших данных, мы подразумеваем комбинацию структурированных, полуструктурированных и неструктурированных данных, собираемых организациями и используемых в различных проектах в сочетании с инструментами прогнозного моделирования и передовыми приложениями для анализа больших данных. Упомянутые выше классификации данных очень важны для понимания в связи с быстрым увеличением количества полуструктурированных и неструктурированных данных в настоящее время, с одной стороны, и передовым развитием инструментов, которые облегчают управление и анализ этих классов данных, с другой стороны.
Структурированные данные могут создаваться машинами и людьми, имеющими заранее определенную (фиксированную) модель данных, формат, структуру, которые разработчик базы данных может создать таким образом, чтобы сущности могли группироваться вместе для формирования связей. Это упрощает хранение, анализ и поиск структурированных данных. Реляционная база данных является типичным примером структурированных данных, в которых таблицы связаны между собой с помощью уникальных идентификаторов и языка запросов для взаимодействия с данными. Сегодня предполагаемый объем структурированных данных составляет менее 20 процентов от общего объема всех данных, в то время как гораздо больший процент всех данных в нашем мире составляют неструктурированные данные.
Неструктурированные данные не имеют внутренней структуры, не могут содержаться в базе данных по строкам и столбцам, и не имеет связанной модели данных. Неструктурированные данные обычно хранятся в виде различных типов файлов, например текстовых документов, PDF-файлов, фотографий, видео, аудиофайлов, контента социальных сетей, спутниковых снимков, веб-сайтов и расшифровок / записей колл-центра. По сравнению со структурными данными, хранящимися в электронных таблицах или реляционных базах данных, неструктурированные данные обычно хранятся в базах данных NoSQL, приложениях и хранилищах данных. Огромное количество информации в неструктурированных данных сегодня может быть автоматически обработано с помощью алгоритмов искусственного интеллекта.
Полуструктурированные данные в основном представляют собой смесь структурных и неструктурированных данных, обладает некоторыми определяющими или согласованными характеристиками с некоторой структурой, но не соответствует модели данных. Полуструктурированные данные не имеют фиксированной или жесткой схемы, не могут храниться в виде строк и столбцов в базах данных, но содержат теги и элементы в виде метаданных, которые используются для группировки данных и описания способа их хранения. Примеры полуструктурированных источниками данных являются электронные письма, XML и другие разметки языки, двоичные исполняемые файлы, пакеты TCP/IP, архивированные файлы и веб-страницы.
Первые системы Data Mining предназначались для обработки данных о продажах в супермаркетах по нескольким параметрам, включая их объем по регионам и тип продукта.
В целом функции интеллектуального анализа данных можно разделить на две широкие категории:
- Интеллектуальный анализ данных обнаружения. Интеллектуальный анализ данных обнаружения применяется к целому ряду методов, которые находят шаблоны внутри ваших данных без каких-либо предварительных знаний о том, какие шаблоны существуют. Примеры интеллектуального анализа данных обнаружения: кластеризация; анализ связей; частотный анализ и т.д.
- Интеллектуальный анализ прогнозных данных. Интеллектуальный анализ прогнозных данных применяется к целому ряду методов, которые находят взаимосвязи между определенной переменной (называемой целевой переменной) и другими переменными в ваших данных. Примеры методов интеллектуального анализа прогнозных данных: классификация; прогнозирование значений; правила ассоциации и т.д.
Модели интеллектуального анализа данных применяются для нескольких типов задач:
- прогнозирование: оценка продаж, предсказание нагрузки сервера и т.д.;
- риск и вероятность: выбор подходящих заказчиков для целевой рассылки, определение точки баланса для рискованных сценариев, и т.д.;
- рекомендации: определение продуктов, которые будут продаваться вместе, и т.д.;
- поиск последовательностей: анализ выбора заказчиков во время совершения покупок;
- группирование: разделение заказчиков или событий на кластеры, и т.д.
Интеллектуальный анализ данных в основном используется отраслями, обслуживающими потребителей, в том числе в сфере розничной торговли, в финансах и маркетинге. Предприятиям анализ больших данных позволяет согласовывать планы поставок с прогнозами спроса, а также обнаруживать проблемы производства на ранних стадиях и успешно инвестировать в бренд. Кроме того, производители могут спрогнозировать износ производственных активов и запланировать техническое обслуживание и ремонт, чтобы не останавливать линию выпуска продукции.
Однако, к сожалению, в области производства не наблюдается аналогичного исследовательского интереса и активности, несмотря на потенциальные выгоды. Можно объяснить разные причины:
- Большинство исследователей в области производства не знакомы с алгоритмами и инструментами интеллектуального анализа данных.
- Большинство исследователей теоретического интеллектуального анализа данных не знакомы с предметной областью производства.
- Те немногие исследователи, которые владеют как алгоритмами интеллектуального анализа данных, так и предметной областью производства, не имеют доступа к часто закрытым и конфиденциальным данным производственных предприятий.
Усилия по изучению использования интеллектуального анализа данных на производственных предприятиях начались всего несколько лет назад, в основном исследователями в области производства. Однако большая часть производственных исследователей не знакомы с алгоритмами DM и с тем, какая область производства подходит для DM. Современные производственные системы и процессы очень сложны и запутанны.
Существует множество этапов операций и множество переменных, связанных интеллектуальный анализ данных при производстве: характер и последствия для каждой операции на каждом этапе. Даже самые опытные инженеры, которым поручено контролировать переменные для обеспечения стабильного качества, сокращения сроков и снижения затрат, сталкиваются с проблемами, которые имеют неизвестные причины дефектов и сбоев в системе и процессах. Эти проблемы приводят к изменчивости продукта, его размножению и браковке.
Инженеры по системам и процессам всегда пытаются понять взаимосвязь между переменными, используя модели систем и процессов, которые основаны на математике с большим количеством допущений. DM возлагает это бремя на компьютеры для быстрого и исчерпывающего поиска тех взаимосвязей, которые полезны для производственных систем и процессов. Обладая этими знаниями, системные инженеры и технологи могут сосредоточиться на улучшении системы и процесса.
Существует множество программ, которые могут выполнять задачи Data Mining. Например: SAS Enterprise Miner, Microsoft Analysis Services, SAS Customer Intelligence 360, SAS Credit Scoring, Board, SAS Revenue Optimization, RapidMiner и другие.
Резюмируя, можно сказать, что проблема применение методов Data Mining в производственных системах являются чрезвычайно актуальной.