1. Введение
В условиях современной цифровой экономики предприятия сталкиваются с необходимостью повышения эффективности управления. Одним из важных инструментов является прогнозирование экономических показателей, таких как выручка, прибыль и объем продаж.
Традиционные методы, например ARIMA или экспоненциальное сглаживание, широко используются, однако их применение ограничено при наличии сложных зависимостей в данных. В связи с этим всё большее внимание уделяется методам машинного обучения.
Объектом исследования являются экономические временные ряды предприятия.
Предмет исследования – методы машинного обучения для их прогнозирования.
Целью данной работы является практическое применение моделей машинного обучения для прогнозирования и анализ их эффективности
2. Обзор литературы
В последние годы наблюдается рост интереса к применению машинного обучения для анализа временных рядов. Исследования показывают, что современные алгоритмы способны учитывать сложные зависимости в данных.
Ансамблевые методы, такие как Random Forest и XGBoost, показывают хорошие результаты при работе с экономическими данными. Они устойчивы к шуму и не требуют сложной настройки.
Нейронные сети, особенно LSTM, используются для моделирования временных зависимостей. Они позволяют учитывать долгосрочные связи между наблюдениями.
Однако многие исследования сосредоточены только на точности моделей. Вопрос интерпретируемости часто остается недостаточно изученным.
3. Данные и их особенности
В работе использовались временные ряды, отражающие экономические показатели предприятия. Это могут быть данные о выручке, продажах или других финансовых показателях.
Особенности данных:
- наличие сезонности;
- влияние внешних факторов;
- изменение структуры данных со временем.
Перед анализом данные были подготовлены:
- удалены пропуски;
- проведена нормализация;
- добавлены лаговые признаки;
- учтены календарные факторы.
Такая подготовка позволяет повысить качество прогнозирования.
4. Методы исследования
В исследовании были использованы три модели:
Random Forest
Данный метод основан на построении множества деревьев решений. Он хорошо работает с различными типами данных и устойчив к шуму.
XGBoost
Это алгоритм градиентного бустинга, который обеспечивает высокую точность и эффективность. Он часто используется в практических задачах.
LSTM
Модель относится к нейронным сетям и используется для анализа временных рядов. Она учитывает последовательность данных и может выявлять сложные зависимости.
Для оценки качества использовались:
- MAE;
- MAPE.
Данные были разделены:
- 80% – обучение;
- 20% – тест.
5. Экспериментальная часть
В рамках исследования были обучены три модели. Каждая модель использовала одинаковый набор данных.
Дополнительно применялись методы feature engineering:
- лаговые признаки;
- сезонные индикаторы.
Результаты представлены в таблице:
Таблица
Сравнение моделей по показателям MAE и MAPE
Модель | MAE | MAPE |
Random Forest | 13.2 | 8.5% |
XGBoost | 10.6 | 7.0% |
LSTM | 9.7 | 6.3% |
Полученные значения показывают различия в точности моделей.
Результаты показывают, что использование методов машинного обучения позволяет повысить точность прогнозирования.
6. Анализ результатов
Анализ показывает, что модель LSTM демонстрирует наилучшую точность. Однако её применение требует больше вычислительных ресурсов.
Модель XGBoost показала хорошие результаты при меньших затратах, что делает её более удобной для практического использования.
Random Forest уступает по точности, но отличается стабильностью.
Дополнительно был проведён анализ с использованием SHAP. Он показал, что:
- важную роль играют предыдущие значения;
- сезонность влияет на результат;
- некоторые внешние факторы также значимы;
Это позволяет лучше понять поведение моделей.
7. Обсуждение
Результаты исследования показывают, что выбор модели зависит от конкретной задачи.
Если важна точность – можно использовать LSTM.
Если важен баланс – лучше XGBoost.
Также важно учитывать:
- сложность модели;
- ресурсы;
- возможность интерпретации.
Для бизнеса интерпретируемость часто играет ключевую роль.
8. Заключение
В статье показано, что методы машинного обучения могут эффективно использоваться для прогнозирования экономических показателей.
Наиболее важными факторами являются:
- качество данных;
- выбор модели;
- интерпретируемость.
В дальнейшем исследование может быть расширено за счёт использования более сложных моделей и дополнительных данных.
Практическая значимость работы заключается в возможности применения предложенных методов в реальных задачах бизнеса.
.png&w=384&q=75)
.png&w=640&q=75)