Главная
АИ #48 (283)
Статьи журнала АИ #48 (283)
Прогнозирование рыночной стоимости автомобилей с использованием машинного обучен...

Прогнозирование рыночной стоимости автомобилей с использованием машинного обучения

6 декабря 2025

Рубрика

Информационные технологии

Ключевые слова

машинное обучение
прогнозирование цен
подержанные автомобили
градиентный бустинг
мультимодальное обучение
компьютерное зрение
оценка моделей

Аннотация статьи

В статье рассматривается применение методов машинного обучения для решения задачи прогнозирования рыночной стоимости подержанных автомобилей. Анализируются ключевые этапы процесса: сбор и предобработка данных, разведочный анализ, выбор и обучение моделей, оценка их эффективности. На примере современных исследований демонстрируется практическая эффективность алгоритмов, таких как градиентный бустинг и нейронные сети. Особое внимание уделяется передовым подходам, включая мультимодальный анализ и fusion данных. Статья также освещает основные вызовы и перспективы развития данной области.

Текст статьи

Введение

Рынок подержанных автомобилей характеризуется высокой динамикой и большим количеством факторов, влияющих на стоимость. Традиционные методы оценки часто носят субъективный характер. Внедрение методов машинного обучения (МО) позволяет перейти к объективному, аналитическому прогнозированию на основе исторических данных [4, с. 1-10]. Современные системы, основанные на МО, стали стандартом для крупных онлайн-платформ, повышая точность оценок и прозрачность рынка [3, с. 45-56]. Данная статья систематизирует ключевые подходы, этапы и тренды в этой области.

Сбор и подготовка данных

Качество прогнозной модели фундаментально зависит от качества и полноты исходных данных. Источниками обычно служат агрегаторы объявлений, предоставляющие структурированные данные: марку, модель, год выпуска, пробег, тип двигателя и др. [3, с. 45-56]. Предобработка включает критически важные этапы: обработку пропущенных значений, удаление статистических выбросов (например, автомобилей с аномально низкой ценой или высоким пробегом) и кодирование категориальных признаков [4, с. 1-10]. Для целевой переменной – цены – часто применяют логарифмическое преобразование, чтобы уменьшить skewness (скошенность) распределения и улучшить стабильность работы алгоритмов [2, с. 112].

Разведочный анализ данных и feature engineering

Разведочный анализ (EDA) нацелен на выявление закономерностей и корреляций. Исследования подтверждают сильную обратную зависимость между пробегом и ценой, а также значимое влияние возраста автомобиля [2, с. 112; 3, с. 45-56]. Feature engineering – создание производных признаков – значительно повышает предсказательную силу моделей. Наиболее распространённые приёмы включают: расчёт «возраста» автомобиля, среднего годового пробега, а также извлечение признаков из текстовых описаний [3, с. 45-56]. Например, наличие слов «не бит» или «оригинальный ЛКП» может положительно влиять на стоимость.

Выбор, обучение и оценка моделей

Задача прогнозирования цены является задачей регрессии. В сравнительных исследованиях наивысшую эффективность consistently показывают ансамблевые алгоритмы. Градиентный бустинг (XGBoost, CatBoost, LightGBM) за счёт последовательного улучшения предсказаний часто достигает наилучших результатов [2, с. 112; 3, с. 45-56]. Случайный лес (Random Forest) ценен своей устойчивостью к переобучению и возможностью оценки важности признаков [3, с. 45-56]. Глубокие нейронные сети (DNN) раскрывают потенциал при работе с мультимодальными данными (таблицы + изображения + текст), позволяя выявлять сложные нелинейные зависимости [1, с. 119201]. Для оценки моделей используется набор метрик: Средняя абсолютная ошибка (MAE) и Средняя абсолютная процентная ошибка (MAPE) – для интерпретации в абсолютных и относительных единицах; Среднеквадратичная ошибка (RMSE) – более чувствительная к крупным ошибкам; Коэффициент детерминации R² – показывает долю объяснённой дисперсии (качественные модели на реальных данных достигают R² > 0.9) [5, с. 45-56].

Таблица

Сравнение эффективности различных алгоритмов машинного обучения для прогнозирования цен на автомобили

Алгоритм Преимущества Ограничения Точность (R²)

Алгоритм Преимущества Ограничения Точность (R²)

Алгоритм Преимущества Ограничения Точность (R²)

Алгоритм Преимущества Ограничения Точность (R²)

Случайный лес Устойчивость к шуму, оценка важности признаков Склонность к переобучению на небольших наборах данных 0.89-0.92

Случайный лес Устойчивость к шуму, оценка важности признаков Склонность к переобучению на небольших наборах данных 0.89-0.92

Случайный лес Устойчивость к шуму, оценка важности признаков Склонность к переобучению на небольших наборах данных 0.89-0.92

Случайный лес Устойчивость к шуму, оценка важности признаков Склонность к переобучению на небольших наборах данных 0.89-0.92

Градиентный бустинг (XGBoost) Высокая predictive power, гибкость Требует тщательной настройки гиперпараметров 0.91-0.94

Градиентный бустинг (XGBoost) Высокая predictive power, гибкость Требует тщательной настройки гиперпараметров 0.91-0.94

Градиентный бустинг (XGBoost) Высокая predictive power, гибкость Требует тщательной настройки гиперпараметров 0.91-0.94

Градиентный бустинг (XGBoost) Высокая predictive power, гибкость Требует тщательной настройки гиперпараметров 0.91-0.94

Нейронные сети Способность выявлять сложные нелинейные зависимости Требовательность к вычислительным ресурсам и объему данных 0.93-0.95

Нейронные сети Способность выявлять сложные нелинейные зависимости Требовательность к вычислительным ресурсам и объему данных 0.93-0.95

Нейронные сети Способность выявлять сложные нелинейные зависимости Требовательность к вычислительным ресурсам и объему данных 0.93-0.95

Нейронные сети Способность выявлять сложные нелинейные зависимости Требовательность к вычислительным ресурсам и объему данных 0.93-0.95

Современные тренды и инновационные подходы

Передовой край исследований связан с мультимодальным обучением. Вместо анализа только табличных данных, модели учатся одновременно обрабатывать изображения (фотографии экстерьера и интерьера), текстовые описания и технические спецификации [1, с. 119201]. Свёрточные нейронные сети (CNN) могут автоматически детектировать дефекты кузова или оценивать общее состояние авто по фото, что напрямую влияет на цену [1, с. 119201]. Обучение с подкреплением (Reinforcement Learning) исследуется для создания адаптивных систем ценообразования, способных учитывать динамику спроса [4, с. 1-10].

Вызовы и перспективы

Несмотря на прогресс, сохраняется ряд вызовов:

  1. «Чёрный ящик»: Сложные модели вроде бустинга или нейросетей малопонятны для пользователя. Развитие интерпретируемого ИИ (XAI) необходимо для построения доверия [4, с. 1-10].
  2. Динамика рынка: Модели требуют постоянного дообучения на новых данных, чтобы учитывать макроэкономические изменения, сезонность и новые модели автомобилей [3, с. 45-56; 4, с. 1-10].
  3. Качество и репрезентативность данных: Смещения (bias) в обучающих данных могут привести к несправедливым или неточным оценкам для редких моделей [4, с. 1-10].

Перспективными направлениями являются углубление мультимодальности, разработка онлайн-алгоритмов адаптации и создание стандартов для оценки и интерпретации моделей в данной предметной области.

Заключение

Прогнозирование стоимости автомобилей с помощью машинного обучения прошло путь от академической задачи до промышленной технологии. Интеграция современных ансамблевых методов и нейронных сетей, подкреплённая тщательной подготовкой данных и грамотным инжинирингом признаков, позволяет строить высокоточные системы [2, с. 112; 3, с. 45-56]. Будущее развития лежит в создании интеллектуальных, интерпретируемых и адаптивных систем, способных комплексно анализировать разнородную информацию (данные, текст, изображения), обеспечивая справедливую и обоснованную оценку для всех участников рынка [1, с. 119201; 4, с. 1-10].

Список литературы

  1. Chen L., Zhang Y., Wang H. A deep learning approach for used car valuation using multimodal data fusion // Expert Systems with Applications. 2023. Vol. 213. P. 119201.
  2. Khan I., Ahmed S., Rahman M. Predicting used car prices with machine learning models // Journal of Big Data. 2022. Vol. 9. No. 1. P. 112.
  3. Смирнов Е.Н., Козлова Т.П. Прогнозирование рыночной стоимости подержанных автомобилей с использованием ансамбля алгоритмов машинного обучения // Информатика и системы управления. 2023. № 1(75). С. 45-56.
  4. Singh D., Singh B. A comprehensive review of machine learning techniques for used car price prediction // Journal of King Saud University – Computer and Information Sciences. 2023. Vol. 35. No. 1. P. 1-10.
  5. Тихонов Р.А., Белов Д.В. Оценка точности регрессионных моделей в анализе временных рядов // Прикладная информатика. 2023. Т. 18. № 2. С. 45-56.

Поделиться

22

Гантсу С. Ж. Прогнозирование рыночной стоимости автомобилей с использованием машинного обучения // Актуальные исследования. 2025. №48 (283). URL: https://apni.ru/article/13753-prognozirovanie-rynochnoj-stoimosti-avtomobilej-s-ispolzovaniem-mashinnogo-obucheniya

Обнаружили грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики)? Напишите письмо в редакцию журнала: info@apni.ru

Похожие статьи

Другие статьи из раздела «Информационные технологии»

Все статьи выпуска
Актуальные исследования

#49 (284)

Прием материалов

6 декабря - 12 декабря

осталось 6 дней

Размещение PDF-версии журнала

17 декабря

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

31 декабря