Автор(-ы):
Ли Синь
Секция
Информационные технологии
Ключевые слова
Аннотация статьи
В данной статье рассмотрены технологии Data Mining и отмечены основные этапы обработки данных. Представлена архитектура Data Mining и показаны основные методы. Сосредоточены на основных задачах Data Mining. Были оценены основные инструменты технологий Data Mining.
Текст статьи
Достижения в области технологий распознавания и хранения данных, а также значительный рост таких технологий, как поиск в Интернете, цифровое изображение и видеонаблюдение, создали множество высокопроизводительных наборов данных с большими объемами. Большая часть данных хранится в цифровом виде на электронных носителях, что дает огромный потенциал для разработки методов автоматического анализа, классификации и поиска данных. В дополнение к росту объема данных также увеличилось разнообразие доступных данных (текст, изображение и видео). Недорогие цифровые и видеокамеры сделали доступными огромные архивы изображений и видео. Распространенность RFID-меток или транспондеров из-за их низкой стоимости и небольших размеров привела к развертыванию миллионов датчиков, способных передавать данные в режиме реального времени. Электронные письма, блоги, данные транзакций и миллиарды веб-страниц каждый день создают терабайты новых данных. Многие из этих потоков данных не структурированы, что затрудняет их анализ.
Полученное за последнее десятилетие внушительное увеличение мощности и скорости обработки данных, позволило науке перейти от ручных, трудоемких и рутинных действий к быстрому, легкому и автоматизированному анализу данных. В то время как основная проблема технологов баз данных заключалась в том, чтобы найти эффективные способы хранения, извлечения и обработки данных, основная проблема сообщества машинного обучения заключалась в разработке методов обучения знаний из данных. Чем сложнее и обширнее собираемые массивы данных, тем больше возможностей для извлечения интересующих сведений. В связи с чем широкое применение получили технологии Data Mining. В процессе перехода от аналогового к цифровому, большие наборы данных были сгенерированы, собраны и сохранены, открывая статистические шаблоны, тенденции и скрытую в данных информацию, способные помочь при построении прогностических шаблонов. Исследования показывают, что интеллектуальный анализ данных быстрее и гораздо более интуитивно понятен, чем традиционный анализ данных. История показывает, что мы являемся свидетелями революционных изменений в исследованиях. Сбор данных полезен для очистки данных, предварительной обработки данных и интеграции баз данных. Исследователи могут найти любые аналогичные данные из базы данных, которые могут привести к любым изменениям в исследовании. Идентификация любых совпадающих последовательностей и корреляция между любыми действиями могут быть известны. Визуализация данных и интеллектуальный анализ данных дают нам четкое представление о данных.
Data Mining – это междисциплинарная область, возникновение и развитие которой произошло на базе таких наук как прикладная математика и статистика, распознавание образов, ИИ, теория баз данных и др., посвященная научным методам, процессам и системам, направленным на извлечение знаний или сведений из данных, представленных в различных структурированных или неструктурированных формах.
Data Mining – это набор методологий, используемых при анализе данных из разных измерений и перспектив, поиска ранее неизвестных скрытых шаблонов, классификации и группировки идентифицированных отношений, данных и суммирования. Сегодня Data Mining используется компаниями с сильной ориентацией на потребителя, такими как розничные, финансовые, коммуникационные и маркетинговые организации. Добыча данных позволяет этим компаниям определять отношения между «внутренними» факторами, такими как цена, позиционирование продукта или навыки персонала, и «внешними», такими как экономические показатели, конкуренция и демографические данные клиентов. Это позволяет им определить, какое влияние эти отношения могут оказать на продажи, удовлетворенность клиентов и корпоративную прибыль. Наконец, эти технологии позволяют им «развернуть» сводную информацию для просмотра подробных транзакционных данных и поиска способов применения этих знаний для улучшения бизнеса.
В последние годы интеллектуальная обработка данных широко используется в областях науки и техники, таких как биоинформатика, генетика, медицина, образование и электроэнергетика. При изучении генетики человека Data Mining помогает решить важную задачу понимания отношения индивидуальных вариаций последовательности ДНК человека и восприимчивости к болезням. Один из методов интеллектуального анализа данных, который используется для выполнения этой задачи, известен как многофакторное понижение размерности.
В целом, Data Mining технологии имеют большой потенциал для улучшения системы здравоохранения. Они используют данные и аналитику для выявления лучших практик, способных улучшить уход и снизить затраты. Исследователи используют различные подходы к интеллектуальному анализу данных, такие как многомерные базы данных, машинное обучение, компьютерные вычисления, визуализация данных и статистика. Анализ данных может использоваться для прогнозирования объема пациентов в каждой категории. Разрабатываются процессы, которые гарантируют, что пациенты получат надлежащую помощь в нужном месте и в нужное время. Также данные технологии могут помочь страховщикам здравоохранения выявлять мошенничество. Миллиарды долларов были потеряны в результате мошенничества, естественно не только в среде здравоохранения. Традиционные методы обнаружения мошенничества являются трудоемкими и сложными. Сбор данных помогает в предоставлении значимых шаблонов и превращении данных в информацию. Любая достоверная и полезная информация – это знания. Совершенная система обнаружения мошенничества должна защищать информацию всех пользователей. Контролируемый метод включает сбор образцов записей, которые классифицируются как мошеннические или немощные. Модель построена с использованием этих данных, и алгоритм делается для определения того, является ли запись мошеннической или нет.
Аналитические методы, используемые при интеллектуальном анализе данных, часто являются известными математическими алгоритмами и методами. Однако, новаторство заключается именно в применении этих методов для общих бизнес-задач, что стало возможным благодаря увеличению доступности данных, их недорого хранения и обработки. Кроме того, использование графических интерфейсов привело к тому, что инструменты стали более понятны и просты, вследствие чего бизнес-эксперты могут легко их использовать.
Data Mining – это пятиступенчатый процесс:
Первый и, возможно, самый сложный шаг в интеллектуальном анализе данных – это постановка бизнес-цели. Это самый важный этап. Если не знать, что искать, будет сложно выбрать типы, алгоритмы и модели машинного обучения (ML), чтобы получить необходимую информацию.
Второй шаг – подготовка данных. Если вы определили цель анализа, ваши специалисты по данным могут подобрать соответствующий набор данных, чтобы полученная информация была полезна для вашего бизнеса. Специалисты по данным должны очистить данные – устранить дублирующуюся и некорректную информацию, восполнить недостающие значения, так как все это может помешать алгоритмам и инструментам интеллектуального анализа данных дать нужные вам результаты.
Третий шаг – построить модель и выявить паттерны. Вот над этим и работают приведенные ниже методы и инструменты. В интеллектуальном анализе данных могут использоваться алгоритмы глубокого обучения с контролируемыми или неконтролируемыми методами обучения.
Четвертый и последний шаг – оценка результатов интеллектуального анализа данных, чтобы внести изменения в процессы или предпринять действия, полезные для бизнеса.
Методы интеллектуального анализа данных
Методы интеллектуального анализа данных позволяют специалистам по данным и предприятиям более эффективно использовать большие объемы данных. Среди методов можно назвать следующие:
Инструменты интеллектуального анализа данных
Инструменты интеллектуального анализа данных позволяют повысить влияние интеллектуального анализа данных на производительность компании. Вот некоторые из лучших инструментов на сегодняшний день:
В работе рассмотрены основные этапы интеллектуального анализа данных. Показана архитектура Data Mining, изложены основные методы. Внимание было уделено основным задачам Data Mining. Были оценены основные инструменты технологий Data Mining.
Рецензент – Благодельський А. С.
Список литературы
Поделиться
Ли С.. Модели, методы и алгоритмы больших данных и интеллектуальный анализ данных // Актуальные исследования. 2022. №30 (109). С. 17-20. URL: https://apni.ru/article/4418-modeli-metodi-i-algoritmi-bolshikh-dannikh