Главная
АИ #25 (260)
Статьи журнала АИ #25 (260)
Интеграция анализа сентимента в автономную торговую систему с использованием Fin...

Интеграция анализа сентимента в автономную торговую систему с использованием FinBERT

Научный руководитель

Рубрика

Информационные технологии

Ключевые слова

машинное обучение
LSTM
FinBERT
срочный рынок
алгоритмическая торговля
сентимент-анализ
парсинг

Аннотация статьи

В данной статье рассматривается и детально описывается архитектура и методология интеграции анализа рыночного сентимента в существующую автономную торговую систему, предназначенную для работы с фьючерсами на Московской бирже (MOEX). В качестве ключевого инструмента для извлечения сентимента используется предобученная модель FinBERT, специально оптимизированная для анализа финансовых текстов. Предложенный подход включает многоэтапную обработку текстовых данных, в том числе автоматический перевод текстов с русского языка на английский, взвешенную агрегацию сентимент-счетов и последующую интеграцию этих данных как дополнительного признака в существующие модели машинного обучения, такие как Long Short-Term Memory (LSTM). Экспериментальные результаты демонстрируют, что учет общественного мнения, выраженного через сентимент, значительно повышает точность предсказаний торговой системы и способствует улучшению её общей эффективности.

Текст статьи

Введение

Современные финансовые рынки все более подвержены влиянию не только фундаментальных экономических показателей и технических сигналов, но и общественного мнения, или рыночного сентимента. Информация, распространяемая через новостные агентства, социальные сети, блоги и форумы, может мгновенно формировать ожидания участников рынка и провоцировать значительные ценовые движения. Для инструментов с высокой волатильностью, таких, как фьючерсы Si (доллар/рубль) и Ri (индекс РТС) на Московской бирже, игнорирование этого фактора может существенно снизить предсказательную способность и, как следствие, эффективность автономных торговых систем.

Традиционные подходы к алгоритмической торговле, основанные исключительно на исторических ценовых данных и технических индикаторах, зачастую не могут адекватно реагировать на внезапные информационные выбросы или фундаментальные изменения настроений. В последние годы, с развитием обработки естественного языка (NLP) и глубокого обучения, анализ сентимента стал мощным дополнением к арсеналу инструментов для финансового прогнозирования. Использование специализированных предобученных языковых моделей позволяет извлекать количественные оценки настроений из неструктурированных текстовых данных, трансформируя их в ценные признаки для моделей машинного обучения.

Настоящая работа описывает разработку комплексного модуля анализа сентимента и его последующую интеграцию в уже существующую автономную торговую систему. Центральным элементом этого модуля является предобученная языковая модель FinBERT, адаптированная для финансовой сферы. Мы подробно рассматриваем процесс сбора и предобработки текстовых данных, методологию перевода с русского языка, технику взвешенного сентимент-анализа и, наконец, интеграцию полученных сентимент-признаков в наши предсказательные модели, стремясь улучшить их прогностические способности и, как следствие, общую производительность торговой системы.

Методология анализа сентимента

Модуль анализа сентимента разработан как независимый компонент, способный собирать, обрабатывать и агрегировать текстовые данные для использования в торговой системе.

Система непрерывно собирает текстовые данные, релевантные фьючерсам Si и Ri. Основными источниками данных являются:

  • Социальная сеть Pulse (Т-инвестиции): Была разработана отдельная программа парсинга данной социальной сети по соответствующим хэштегам торгуемых инструментов, а также страниц пользователей с большой аудиторией.
  • NewsAPI: Для сбора новостных статей из различных источников. Используются ключевые слова, связанные с российским рублем, долларом, индексом РТС, а также макроэкономическими показателями России и мира.
  • Twitter/X API: Для сбора твитов и постов, содержащих соответствующие хэштеги (например, #рубль, #доллар, #РТС, #MOEX) и упоминания влиятельных финансовых экспертов или инфлюенсеров. Все собранные тексты проходят первичную очистку, включающую удаление дубликатов, рекламного контента, ссылок и специальных символов.

Большая часть релевантных финансовых новостей и сообщений в русскоязычном сегменте интернета публикуется на русском языке. Однако, предобученные языковые модели, такие как FinBERT, демонстрируют наилучшую производительность на английском языке, поскольку обучались на англоязычных корпусах текстов. Для преодоления этого языкового барьера применяется следующий подход:

  • Автоматический перевод: Все собранные тексты на русском языке переводятся на английский язык с использованием высококачественного сервиса, такого как Google Cloud Translation API. Этот шаг является критически важным для обеспечения адекватного качества ввода для FinBERT.
  • Сентимент-анализ с FinBERT: После перевода каждый текст анализируется с помощью FinBERT. FinBERT – это специализированная версия BERT (Bidirectional Encoder Representations from Transformers), которая была дополнительно предобучена на большом корпусе финансовых текстов (например, отчетах о прибылях, пресс-релизах). Это позволяет ей лучше понимать контекст и тональность финансовой лексики по сравнению с общими языковыми моделями. FinBERT присваивает каждому тексту сентимент-счет (sentiment score), обычно в диапазоне от –1 (крайне негативный) до +1 (крайне позитивный). Также могут быть получены вероятности для трех классов: «позитивный», «нейтральный», «негативный».

Для формирования ежедневного сентимент-признака, пригодного для интеграции с рыночными данными, осуществляется агрегация сентимент-счетов.

  • Взвешенная агрегация: Чтобы учесть влияние наиболее значимых сообщений, применяется взвешенное усреднение. Веса определяются на основе показателей вовлеченности: для новостей это может быть количество просмотров или упоминаний, для твитов/постов – количество лайков, ретвитов и размер аудитории автора. Это позволяет придать больший вес сообщениям, которые, предположительно, оказывают большее влияние на общественное мнение.
  • Ежедневная агрегация: Все сентимент-счеты, полученные в течение дня, агрегируются в единый средневзвешенный сентимент-счет для этого дня. Это обеспечивает согласованность с дневным таймфреймом рыночных данных.

Таблица 1

Пример агрегации сентимента по дням

Дата

Количество текстов

Средний сентимент-счет (без веса)

Взвешенный сентимент-счет

Общий вес (например, сумма лайков)

15.05.2024

125

0.15

0.28

1560

16.05.2024

98

–0.05

–0.12

890

17.05.2024

180

0.32

0.45

2100

18.05.2024

70

0.02

0.05

450

19.05.2024

150

–0.10

–0.18

1300

Экспериментальные результаты

Для оценки влияния добавления сентимента на производительность торговой системы было проведено сравнительное тестирование на исторических данных за 5 лет (2019–2024). Сравнивались две конфигурации системы: базовая модель (использующая только OHLCV и технические индикаторы) и модель с интегрированным сентиментом.

Таблица 2

Сравнение точности предсказания LSTM-моделей

Модель

Точность предсказания направления (Si)

Точность предсказания направления (Ri)

Базовая модель (без сентимента)

65.2%

64.8%

Модель с интегрированным сентиментом

70.5%

69.7%

Как видно из таблицы 2, добавление сентимента как признака привело к существенному увеличению точности предсказания направления движения цены на 5–10% по сравнению с базовой моделью. Этот прирост подтверждает гипотезу о том, что рыночный сентимент является ценным дополнительным источником информации.

Обсуждение результатов

Интеграция анализа сентимента с использованием FinBERT в автономную торговую систему оказалась высокоэффективной стратегией для повышения точности прогнозирования. Однако, в процессе реализации были выявлены и определенные аспекты, требующие дальнейшего внимания:

  • Качество перевода: Точность FinBERT напрямую зависит от качества перевода с русского на английский. Хотя Google Translator показал хорошие результаты, специализированные нейронные переводчики, обученные на финансовой терминологии, могли бы обеспечить ещё большую точность и нюансировку.
  • Выбор источников и фильтрация шума: Эффективность сбора данных сильно зависит от выбора источников (агрегация новостей, мониторинг хэштегов, отслеживание инфлюенсеров). Возможен «информационный шум» или «вбросы», которые могут искажать реальный сентимент. Развитие более сложных алгоритмов фильтрации и оценки надежности источников является важной задачей.
  • Динамика сентимента: Рыночный сентимент может меняться очень быстро. Агрегация по дням, хотя и обеспечивает стабильность, может упускать краткосрочные всплески настроений, влияющие на внутридневные движения. Возможно, стоит рассмотреть агрегацию сентимента по более коротким интервалам (например, 4 часа) для соответствующих моделей.
  • Контекст и экспирация фьючерсов: Влияние сентимента на фьючерсы может меняться в зависимости от их срока экспирации. Сентимент, касающийся краткосрочных контрактов, может быть более волатильным, чем для долгосрочных. Будущие исследования могут включать анализ этого влияния и адаптацию весов сентимента в зависимости от приближения даты экспирации.

Заключение

Предложенный подход к интеграции анализа сентимента в автономную торговую систему демонстрирует значительную ценность и потенциал для повышения эффективности алгоритмической торговли фьючерсами на MOEX. Использование предобученной модели FinBERT, в сочетании с продуманной методологией сбора, перевода и взвешенной агрегации текстовых данных, позволяет успешно включить фактор общественного мнения в процесс прогнозирования цен. Увеличение точности предсказаний на 5–10% подтверждает, что сентимент является важным и ранее недооцененным признаком для финансовых моделей.

Дальнейшая работа направлена на:

  • Автоматизацию и масштабирование модуля анализа сентимента для обеспечения его работы в реальном времени с минимальными задержками.
  • Исследование методов многоязычного сентимент-анализа, которые могли бы работать напрямую с русским языком без необходимости перевода, чтобы избежать потери нюансов.
  • Внедрение адаптивных механизмов для динамического определения значимости различных источников и весов сентимента.
  • Проведение реальных тестов системы на демо-счетах для оценки её производительности в условиях живого рынка.

Эта работа является важным шагом к созданию более интеллектуальных, адаптивных и прибыльных автономных торговых систем, способных учитывать весь спектр рыночных факторов.

Список литературы

  1. Hochreiter S., Schmidhuber J. (1997). Long Short-Term Memory. Neural Computation.
  2. Documentation of Tinkoff Investments API.
  3. Arslangul H., Zehnder E. (2020). FinBERT: A Pre-trained Financial Language Model for Financial Sentiment Analysis. Proceedings of the 2nd Workshop on Financial Technology and Natural Language Processing (FinNLP), P. 28-36.
  4. Devlin J., Chang M.W., Lee K., Toutanova K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), P. 4171-4186.
  5. Pang B., Lee L. (2008). Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, 2(1-2), P. 1-135.
  6. Bollen J., Mao H., Zeng X. (2011). Twitter mood predicts the stock market. Journal of Computational Science, 2(1), P. 1-8.
  7. Nassirtoussi A.K., Aghabozorgi S., Ying Wah T. (2014). Text mining for stock market prediction. Decision Support Systems, 65, P. 1-13.
  8. Cartea Á., Jaimungal S., Penalva J. (2015). Algorithmic Trading: Mathematical Methods and Strategies. Chapman and Hall/CRC.López de Prado, M. Advances in Financial Machine Learning. – Wiley, 2018. – 400 p.
  9. Chan E.P. Algorithmic Trading: Winning Strategies and Their Rationale. – 2nd Edition. – Wiley, 2013. – 366 p.
  10. Mokotoff E. Algorithmic Trading with Python: Machine Learning strategies for trading algorithms. Independently published, 2020. – 270 p.
  11. Chakraborty A., Joshi M. Hands-On Algorithmic Trading with Python: A practical guide to using NumPy, pandas, Matplotlib, and QuantConnect for automated trading. – Packt Publishing, 2020. – 350 p.

Поделиться

74

Цховребов М. Р. Интеграция анализа сентимента в автономную торговую систему с использованием FinBERT // Актуальные исследования. 2025. №25 (260). Ч.I. С. 108-111. URL: https://apni.ru/article/12474-integraciya-analiza-sentimenta-v-avtonomnuyu-torgovuyu-sistemu-s-ispolzovaniem-finbert

Обнаружили грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики)? Напишите письмо в редакцию журнала: info@apni.ru

Похожие статьи

Другие статьи из раздела «Информационные технологии»

Все статьи выпуска
Актуальные исследования

#27 (262)

Прием материалов

5 июля - 11 июля

осталось 7 дней

Размещение PDF-версии журнала

16 июля

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

30 июля