Пусть имеется обучающая выборка L, и выбрано множество алгоритмов (классификации или регрессии) 𝐴ଵ , … , 𝐴k. Эти алгоритмы называются базовыми алгоритмами. Для объединения решений используется специальный алгоритм, который называется мета-алгоритмом. Входными данными мета-алгоритма являются решения базовых алгоритмов. Например, в случае мета-классификатора, его входными данными являются решения базовых классификаторов, т.е. его входом является множество меток классов, к которым базовые классификаторы отнесли описание входного объекта. Множество меток на входе мета-алгоритма интерпретируется как множество признаков нового признакового пространства. Коллективные методы (Ensemble Methods) принятия решений представляют собой группу методов, позволяющих рассмотреть гораздо больше возможных альтернатив в групповом решении чем в индивидуальном [1].
Это – мета-алгоритмы, которые объединяют несколько методов машинного обучения в одну прогностическую модель, с целью повышения точности и улучшения результатов. Коллективы – это наборы обучающих машин, которые каким-то образом объединяют свои решения, или алгоритмы обучения, или разные представления данных, или другие специфические характеристики, чтобы получить более надежные и более точные прогнозы в задачах обучения с учителем и без. В литературе для обозначения коллективов, которые работают вместе для решения задачи машинного обучения, использовалось множество терминов: ансамбль, слияние, комбинация, агрегация, комитет, но в данной работе используется термин «коллектив» в его самом широком значении, чтобы охватить весь спектр комбинированных методов. В настоящее время коллективные методы представляют собой одно из основных современных направлений исследований в области машинного обучения.
В процессе формирования коллективов методов необходимо пройти следующие этапы:
- предварительная обработка данных (отбор информативных признаков, отбор экземпляров выборки, нормирование данных, восстановление пропусков, удаление выбросов и т.д.);
- выбор структуры использования отдельных алгоритмов (агентов) (параллельная, последовательная или смешанная);
- выбор агентов, в зависимости от постановки задачи (линейная регрессия, метод опорных векторов, искусственная нейронная сеть, метод k – ближайших соседей, деревья решений, системы на нечеткой логике, правила индукции и т.д.);
- выбор алгоритма формирования коллектива агентов (бэггинг, бустинг, случайный лес, блендинг, стэкинг и т.д.);
- выбор способа агрегирования результатов отдельных моделей (простое или взвешенное голосование, усреднение (взвешенное или невзвешенное), ранжирование и т.д.);
- выбор критериев оценки качества полученного результата (F – мера, ROS – кривые, критерий ССС, критерий MSE и т.д.) [2].
Комбинирование (агрегирование) моделей дает синергетический эффект, при котором недостатки агентов по отдельности компенсируются достоинствами других, что в свою очередь объясняется возможностью использования более обширного пространства гипотез относительно структуры данных для получения наиболее точной гипотезы. Одним из дополнительных подходов к гибридизации моделей является разбиение всего множества исходных данных на отдельные кластеры, имеющие однородные статистические характеристики, и построение для них отдельных агентов. Проблема состоит в правильности разбиения на кластеры. При этом, каждый агент имеет свою специфическую область применения. К примеру, одни агенты лучше справляются с задачами, в которых объекты каждого класса описаны «шарообразными» областями многомерного пространства; другие же предназначены для поиска «ленточных» классов и т.д. Также на различных объектах выборки один агент может ошибаться, в то время как другие дают верный ответ. В случае, когда данные имеют разнородную природу (рисунок), для выделения групп объектов также целесообразно применять не один агент, а набор различных агентов. Комбинация отдельных технологий в коллективе может компенсировать недостатки обучающих алгоритмов отдельных агентов, а также позволяет получить более эффективные решения в условиях «зашумленных» данных, при наличии в них «пропусков». Соответственно, коллектив может дать больший эффект, чем применение отдельного агента, увеличивая эффективность и надежность системы в целом [2].
Рис. Пример расположения данных