Метод динамического взвешивания разнородных признаков в гибридных рекомендательных системах

Кязимли Минара Дашгын гызы

Аннотация статьи

В статье рассматривается метод построения гибридной рекомендательной системы, основанный на динамическом взвешивании результатов контентного и коллаборативного подходов. В отличие от систем с жестким переключением, предлагаемый метод позволяет плавно сочетать экспертные характеристики объектов и поведенческие паттерны пользователей. Описана математическая модель весовых коэффициентов и приведены результаты сравнительного анализа точности предсказаний.

Текст статьи

Введение

Рекомендательные системы являются важным компонентом современных информационных сервисов, включая электронную коммерцию, мультимедийные платформы и социальные сети. Их основная задача заключается в предоставлении пользователям персонализированных рекомендаций на основе анализа различных источников данных, таких как история взаимодействий, характеристики объектов и контекстные параметры.

Развитие рекомендательных систем (РС) прошло путь от простых эвристик до сложных ансамблей моделей. Одной из ключевых проблем остается поиск «золотой середины» между использованием метаданных объектов и историей взаимодействий. Ранее исследованные методы автоматического переключения (Switching Hybrid) эффективно решают проблему «холодного старта», однако они обладают существенным недостатком – дискретностью принятия решения. В момент переключения система резко игнорирует один тип данных в пользу другого, что может приводить к потере точности в переходных состояниях профиля пользователя.

Целью данной работы является разработка метода динамического взвешивания разнородных признаков в гибридных рекомендательных системах, позволяющего адаптивно изменять вклад различных компонентов модели в зависимости от характеристик пользователя и объектов.

Объекты и методы исследования

Объектом исследования являются гибридные рекомендательные системы, использующие несколько источников данных для формирования рекомендаций.

Рассмотрим математическую модель гибридизации. Основная идея метода заключается в формировании итогового прогнозного рейтинга как линейной комбинации результатов двух независимых моделей:

, (1)

Где:

P_CB(u,i) – прогноз контентно-ориентированной модели (Content-Based);
P_CF(u,i) – прогноз модели коллаборативной фильтрации (Collaborative Filtering);
ω_c, ω_f – весовые коэффициенты, причем ω_c + ω_f = 1.

Для извлечения признаков объектов используется модель векторного пространства. Каждый объект описывается вектором весов TF-IDF. Сходство между профилем пользователя p_u (формируемым как среднее векторов объектов, которые ему понравились) и кандидатом q_i рассчитывается через косинусное расстояние:

, (2)

Это позволяет системе рекомендовать объекты, похожие по описанию на те, что пользователь выбирал ранее, даже если у этих объектов еще нет истории оценок.

В качестве второго компонента используется алгоритм матричной факторизации SVD++, который учитывает не только явные рейтинги, но и неявную обратную связь (просмотры без оценки). Модель раскладывает матрицу взаимодействий на матрицы скрытых факторов пользователей U и объектов V:

(3)

Здесь μ – общий средний рейтинг, b_i и b_u – смещения (bias) объекта и пользователя, y_j – векторы неявных предпочтений, а R(u) – это набор объектов, с которыми пользователь взаимодействовал (смотрел, кликал, добавлял в корзину), но не обязательно ставил оценку.

Новизна предлагаемого подхода – алгоритма динамического взвешивания – заключается в расчете веса ω_c на основе «информационной зрелости» профиля пользователя. Мы вводим функцию доверия к коллаборативному методу f(N_u), зависящую от количества оценок пользователя N_u:

, (4)

Где N₀ – точка перегиба (например, 20 оценок), а k – коэффициент крутизны перехода. Таким образом, для новых пользователей доминирует контентный подход (), а по мере накопления данных система плавно переходит к коллаборативному анализу, не отключая контентную составляющую полностью.

Результаты и их обсуждение

Для проведения экспериментальной оценки был использован набор данных MovieLens 100k, содержащий 100 000 оценок от 943 пользователей по 1682 фильмам. Плотность матрицы взаимодействий составила приблизительно 6.3%, что является репрезентативным показателем для исследования проблемы разреженности данных. Данные были разделены на обучающую (80%) и тестовую (20%) выборки.

Для измерения точности предсказания вещественного рейтинга использовалась метрика MAE (Mean Absolute Error):

, (5)

Для оценки качества ранжирования (топ-N рекомендаций) – метрика nDCG:

, (6)

В таблице представлены сравнительные характеристики разработанной взвешенной модели и базовых подходов.

Таблица

Результаты тестирования моделей

Метод	MAE (общий)	MAE (холодный старт)	nDCG
Контентная модель (TF-IDF)	0.812	0.825	0.612
Коллаборативная фильтрация (SVD)	0.745	1.210	0.695
Метод переключения (Switching Hybrid)	0.712	0.854	0.738
Предлагаемая взвешенная модель	0.684	0.821	0.782

Результаты экспериментального тестирования (табл) демонстрируют превосходство предлагаемой взвешенной модели над классическими и комбинированными подходами по всем ключевым метрикам:

Минимизация ошибки (MAE): Разработанная модель показала самый низкий уровень ошибки (0.684), что на 3.9% точнее метода переключения и на 8.2% точнее чистой коллаборативной фильтрации. Это говорит о высокой точности предсказания конкретных оценок пользователей.
Решение проблемы «холодного старта»: В условиях дефицита данных о пользователях предлагаемый метод (MAE 0.821) работает стабильнее всех. Он не только исправляет критический провал SVD-алгоритма (1.210), но и оказывается эффективнее метода переключения, обеспечивая более плавную адаптацию к профилю пользователя.
Качество ранжирования (nDCG): Рост метрики до 0.782 свидетельствует о том, что система стала значительно лучше распределять объекты в списке рекомендаций, поднимая наиболее релевантные позиции вверх.

Переход от жесткого переключения к динамическому взвешиванию позволил объединить сильные стороны контентного и коллаборативного анализов, обеспечив стабильно высокое качество рекомендаций как для новых, так и для активных пользователей.

Заключение

В данной статье представлен и исследован метод взвешенной гибридизации в рекомендательных системах. Основным научным результатом является разработка механизма динамической адаптации весов, который обеспечивает плавный переход от контентного анализа к учету коллективного опыта. Полученные данные подтверждают, что такая архитектура более устойчива к изменениям объема пользовательских данных и обеспечивает более качественное ранжирование в условиях разреженных матриц.

Дальнейшие исследования будут направлены на внедрение в модель механизмов глубокого обучения (Deep Hybrid Models) для автоматического извлечения признаков из неструктурированных данных.

Список литературы

Lathia N., Hailes S., Capra L. A study of the dynamic features of recommender systems – University College London, 2010.
Ricci F., Rokach L., Shapira B. Recommender Systems Handbook, 3rd ed. – Springer, 2022.
Zhang Y., et al. Dynamic Weighting Mechanisms in Hybrid Recommender Systems – ACM Computing Surveys, 2024.
Фальк К. Рекомендательные системы на практике – Москва: ДМК Пресс, 2020.
Шалев-Шварц Ш., Бен-Давид Ш. Идеи машинного обучения: от теории к алгоритмам – М.: ДМК Пресс, 2019.
Шолле Франсуа. Глубокое обучение на Python – Санкт-Петербург, 2022.

Метод динамического взвешивания разнородных признаков в гибридных рекомендательных системах

Цитирование

Похожие статьи

Другие статьи из раздела «Информационные технологии»