Введение
Многие предприятия строят свои стратегии на автоматизации и применении новых технологий производства путем использования различных инструментов. Одним из таких инструментов является интеллектуальный анализ данных (data mining) Развитие компьютерных технологий сделало владение системами управления знаниями, хранилищами данных или витринами данных и их эксплуатацию более простыми и экономичными, чем когда-либо. Это особенно важно для того, чтобы идти в ногу с меняющимися потребностями клиентов и бизнеса. Менеджеры должны понимать, что для прогресса необходимо стратегически расположить знания и знания сотрудников. Организация должна обладать способностью выполнять повседневные операции и постоянно совершенствоваться. Различные технологии могут использоваться для отслеживания и мониторинга эффективности деятельности организации по нескольким направлениям, чтобы гарантировать соответствие тенденциям и ценностям. В противном случае можно получить важные сигналы и предпринять действия по улучшению физических цепочек создания стоимости или цепочек создания стоимости ресурсов и их взаимодействия с соответствующими цепочками создания стоимости информации и знаний.
Интеллектуальный анализ данных можно использовать в следующих областях производства:
- Интеллектуальный анализ данных при разработке продукта
- Интеллектуальный анализ данных при оценке времени выполнения производственного заказа
- Интеллектуальный анализ данных в области качества
- Интеллектуальный анализ данных в управлении цепочками поставок
- Интеллектуальный анализ данных в производственной среде «Точно в срок»
Методология
Сбор данных
Подготовка исходных данных для исследования интеллектуального анализа данных обычно отнимает большую часть усилий и времени, затрачиваемых на весь процесс интеллектуального анализа данных. Приступая к работе над проблемой интеллектуального анализа данных, сначала необходимо свести все данные воедино в виде набора экземпляров. Данные должны быть собраны, интегрированы и очищены.
Инструмент интеллектуального анализа данных
В этой статье как инструмент интеллектуального анализа данных используется библиотека Python scikit-learn. Эта библиотека включает себя практически все методы интеллектуального анализа данных, в частности методы случайного леса.
Вывод правил и знание
Большинства используемых методов, описания структуры, представляющие шаблоны определяют тип технических решений.
Различные типы технологий:
- Таблицы решений
- Деревья решений
- Правила классификации
- Правила ассоциации
- Кластеры
- Используемые алгоритмы
Таблицы принятия решений
Самый простой и элементарный способ представления результатов машинного обучения состоит в том, чтобы сделать их такими же, как и входные данные, – в виде таблицы принятия решений. Создание таблицы принятия решений может потребовать выбора некоторых атрибутов. Проблема, конечно, в том, чтобы решить, какие атрибуты исключить, не влияя на окончательное решение (рис. 1). Количество итераций зависит от имеющихся данных, и чем больше итераций, тем выше точность полученных результатов.
Рис. 1. Решающие правила
Деревья решений
Подход «разделяй и властвуй» к проблеме обучения на основе набора независимых примеров естественным образом приводит к стилю представления, называемому деревом решений (рис. 2). Узлы в дереве решений связаны с тестированием определенного атрибута. Конечные узлы предоставляют классификацию, которая применяется ко всем экземплярам, достигающим конечного узла. Если атрибут, проверяемый на узле, является номинальным, число дочерних узлов обычно равно числу возможных значений атрибута.
Рис. 2. Дерево решений
Алгоритм случайного леса (Random Forest) – универсальный алгоритм машинного обучения, суть которого состоит в использовании ансамбля решающих деревьев. Само по себе решающее дерево предоставляет крайне невысокое качество классификации, но из-за большого их количества результат значительно улучшается. Также это один из немногих алгоритмов, который можно использовать в абсолютном большинстве задач.
Благодаря своей гибкости Random Forest применяется для решения практически любых проблем в области машинного обучения. Сюда относятся классификации (RandomForestClassifier) и регрессии (RandomForestRegressor), а также более сложные задачи, вроде отбора признаков, поиска выбросов/аномалий и кластеризации.
Практическое исследование
Одной из важнейших в производстве является задача прогнозирования возможных дефектов. Для этого можно использовать методы интеллектуального анализа данных, в частности метод случайного леса.
Рассмотрим задачу построения прогнозирующих правил для обнаружения дефекта автомобильного двигателя по 7 параметрам.
Технические характеристики двигателей были получены из отдела качества предприятия. В таблице 1 ниже приведены данные. В данных приведены технические характеристики 15 двигателей, которые были протестированы на качество. 0 подразумевает, что эти двигатели не соответствовали требованиям тестов качества, 1-качественный двигатель
Р1 –диаметр поршня (мм);
Р2 – ход поршня (мм);
Р3 – вес мотора (кг);
Р4 – зазор колена на вале (мм);
Р5 – внутренний зазор клапанов (мм);
Р6 – наружный диаметр поршня (мм);
Р7 – мощность мотора (kw)
Y– 1/0 (качественный/ брак)
Собранные экспериментальные данные представлены в таблице.
Таблица
p1 |
p2 |
p3 |
p4 |
p5 |
p6 |
p7 |
y |
37.6 |
44 |
70 |
0.012 |
0.26 |
37.75 |
0.1 |
1 |
37.3 |
43 |
68 |
0.014 |
0.19 |
37.78 |
0.099 |
0 |
37.9 |
46 |
73 |
0.034 |
0.18 |
37 |
0.097 |
1 |
37.7 |
43 |
72 |
0.035 |
0.23 |
37.8 |
0.104 |
1 |
37.5 |
42 |
70 |
0.044 |
0.3 |
37.79 |
0.106 |
1 |
37.8 |
46 |
68 |
0.037 |
0.29 |
37.74 |
0.103 |
1 |
37.6 |
45 |
69 |
0.038 |
0.27 |
37.54 |
0.098 |
1 |
37.7 |
43 |
70 |
0.027 |
0.18 |
37.69 |
0.104 |
0 |
37.9 |
44 |
72 |
0.028 |
0.31 |
37.86 |
0.106 |
1 |
37.8 |
45 |
71 |
0.031 |
0.2 |
37.78 |
0.109 |
1 |
37.7 |
46 |
75 |
0.018 |
0.25 |
37.77 |
0.11 |
1 |
37.9 |
44 |
76 |
0.019 |
0.24 |
37.79 |
0.095 |
0 |
37.8 |
47 |
70 |
0.027 |
0.18 |
37.75 |
0.102 |
1 |
37.3 |
42 |
72 |
0.028 |
0.23 |
37.86 |
0.103 |
1 |
37.5 |
47 |
73 |
0.016 |
0.22 |
37.73 |
0.099 |
0 |
Данные подготовлены в формате CSV в Ms Excel.
Ниже представлены результаты работы программы в виде одного из деревьев.
Рис. 3. Дерево решений
На основе дерева можно вывести следующие правила:
If р4>0.028 then y=1
If p4<=0.028 and p7<=0.49 y=0
If p4<=0.028 and p7<=0.49 and p2<= 43.5 then y=0
If p4<=0.028 and p7<=0.49 and p2>= 43.5 then y=1
Данные о точности представлены ниже
Confusion Matrix:
[[0 1]
[0 3]]
Accuracy: 0.75
Precision: 0.75
Recall: 1.0
F1-Score: 0.8571
ROC AUC: 0.5
Заключение
В этой статье описывается модель для принятия решений, основанная на знаниях, полученных с помощью методов интеллектуального анализа данных. В качестве модели использовался метод случайного леса, а в качестве инструментального средства Python Scikit-learn. Указаны основные пределы контроля и граничные условия, необходимые для различных характеристик двигателя. С помощью этого метода можно определить источник ошибки. Растущий объем данных в обрабатывающей промышленности и сфере услуг является сложной задачей для этого необходимы исследования инструментов, которые выявляют уникальные свойства данных. Интеллектуальный анализ данных – это дисциплина, которая предлагает инструменты для анализа данных и поиска знаний.