Разработка программного модуля для распознавания эмоционального состояния пользователей на основе анализа текста и голоса

Лимпфуд Дими Криснов Аристод

Аннотация статьи

В статье рассматривается разработка программного модуля для мультимодального распознавания эмоций человека на основе анализа текстовой и голосовой информации. Актуальность темы обусловлена потребностью в создании эмпатичных интерфейсов для систем психологической поддержки, клиентского сервиса и образования. Анализируются современные подходы к решению задачи, включая методы глубокого обучения для обработки естественного языка и речевых сигналов. Предлагается архитектура модуля, объединяющая анализ акустических характеристик речи и семантики текста с использованием нейросетевых моделей. Описываются этапы сбора данных, их предобработки, обучения и интеграции модуля в прикладные системы.

Текст статьи

Введение

Современный этап развития искусственного интеллекта характеризуется стремлением не просто к пониманию семантики речи, но и к распознаванию эмоционального контекста коммуникации. Эмоциональный искусственный интеллект призван стать мостом между человеком и машиной, позволяя цифровым помощникам адекватно реагировать на психологическое состояние пользователя. Традиционные системы анализа часто воспринимают информацию буквально, упуская такие нюансы, как сарказм, скрытое недовольство или стресс, что критически важно в таких сферах, как телемедицина, службы психологической поддержки и клиентский сервис.

Разработка программного модуля, способного анализировать как вербальный (текст), так и паралингвистический (акустические характеристики голоса) каналы коммуникации, является актуальной научно-технической задачей. Как отмечается в современных исследованиях, мультимодальный подход позволяет повысить точность распознавания и сделать системы более устойчивыми к шумам и неоднозначности информации. Целью данной работы является описание процесса проектирования и разработки такого модуля, от выбора архитектуры нейросетей до его практической реализации.

1. Анализ предметной области и постановка задачи

1.1. Мультимодальная природа эмоций

Эмоциональное состояние человека выражается комплексно. В голосе эмоции проявляются через изменения частоты основного тона (F0), энергии сигнала, темпа речи и паузации. В тексте (расшифровке речи) эмоции кодируются лексически (выбор слов) и синтаксически (структура предложений). Современные исследования показывают, что комбинация этих модальностей позволяет достичь точности распознавания до 75–85%, что превосходит одно модальные системы.

1.2. Классификация эмоциональных состояний

В рамках разработки модуля целесообразно опираться на психологически обоснованные модели. Наиболее распространенной является классификация, включающая базовые эмоции: радость, грусть, гнев, удивление, страх, отвращение, а также нейтральное состояние. Дополнительно вводится анализ сентимента (тональности) – определение положительной, отрицательной или нейтративной окраски высказывания.

1.3. Обзор существующих решений

Исследователи активно предлагают методы для решения данной задачи. Так, коллектив Санкт-Петербургского ФИЦ РАН разработал систему MASAI, распознающую эмоции по видео, звуку и тексту. В Белорусском государственном университете информатики и радиоэлектроники проведен детальный анализ подходов глубокого обучения для речевых эмоций. Для русского языка эффективность показывают модели семейства RuBERT (для текста) и HuBERT/GigaAM (для аудио).

2. Архитектура программного модуля

Предлагаемый программный модуль должен иметь гибкую микросервисную архитектуру, обеспечивающую обработку входящих данных в реальном времени или в пакетном режиме.

Модуль ввода данных. Отвечает за прием аудиопотока (микрофон, файл) и текста (непосредственный ввод или результат ASR). На этом этапе производится первичная нормализация сигнала.

Модуль предобработки:

Для аудио: удаление шумов, нормализация громкости, выделение сегментов, содержащих речь (VAD – Voice Activity Detection).
Для текста: приведение к нижнему регистру, удаление стоп-слов, лемматизация (например, с использованием библиотеки pymorphy2 для русского языка).

Модуль извлечения признаков:

Акустические признаки: извлечение Mel-спектрограмм, MFCC (мел-частотные кепстральные коэффициенты), а также признаков просодики (высота тона, энергия). Для глубокого обучения часто используется сырая спектрограмма, подаваемая на вход сверточной нейросети.
Текстовые признаки: токенизация и эмбеддинги слов. Используются предобученные трансформеры (например, RuBERT), преобразующие текст в контекстно-зависимые векторные представления.

Модуль классификации (Ядро). Основная логика работы. Здесь происходит фьюжн (объединение) признаков из двух модальностей. Возможны подходы:

Ранний фьюжн: объединение признаков на входе классификатора.
Поздний фьюжн: усреднение или взвешивание результатов двух независимых классификаторов.Современные архитектуры, такие как улучшенная Mamba, предлагают эффективные механизмы кросс-модального внимания для интеграции данных с линейной вычислительной сложностью.

Модуль вывода и интеграции. Предоставляет API для внешних систем (веб-приложений, чат-ботов, CRM). Возвращает результат в формате JSON с меткой эмоции и значением уверенности модели.

3. Инструментарий и технологический стек

Для реализации модуля предлагается использовать следующий стек технологий, основанный на анализе успешных проектов и открытых источников:

Язык программирования: Python 3.10+ как стандарт для задач машинного обучения.
Фреймворки глубокого обучения: PyTorch или TensorFlow. PyTorch предпочтителен благодаря динамическому вычислительному графу и широкой поддержке исследовательских моделей.
Библиотеки для аудиообработки: librosa, torchaudio для извлечения признаков; soundfile для работы с файлами.
Библиотеки для NLP: transformers от Hugging Face (для загрузки BERT и аналогичных моделей), pymorphy2 (для лемматизации русского языка).
Модели: для распознавания речи (ASR): Whisper от OpenAI или GigaAM от Сбера; для эмоций из аудио: EmoNet-подобные архитектуры или специализированные модели из репозиториев LAION; для эмоций из текста: RuBERT (fine-tuned на корпусах типа CEDR или Ru-GoEmotions).
Инструменты для развертывания: Docker для контейнеризации, FastAPI для создания асинхронного API, Celery для управления очередями задач при пакетной обработке.

4. Процесс разработки и обучения

Процесс создания модуля включает несколько ключевых этапов, схожих с методологией, описанной в практических кейсах.

Сбор и подготовка данных. Для обучения необходимы размеченные датасеты. Для русского языка доступны такие корпуса, как Dusha, CEDR, Ru-GoEmotions. Важным этапом является анализ баланса классов: если каких-то эмоций (например, «отвращения») недостаточно, производится объединение классов (например, «гнев» + «недовольство») для улучшения качества обучения.

Обучение моделей. Проводится экспериментирование с различными архитектурами. Как показывает практика, комбинация "BERT + логистическая регрессия" или использование fine-tuned трансформеров дает наилучшие результаты (точность выше 83%). Для аудиомодальности эффективны сверточные нейросети (CNN) и трансформеры (HuBERT), обученные на спектрограммах.

Оценка качества. Для оценки используется метрика accuracy (доля правильных ответов), а также матрица ошибок (confusion matrix), позволяющая понять, какие эмоции модель путает чаще всего (например, «страх» и «удивление» акустически близки).

5. Примеры внедрения и перспективы

Разработанный модуль может быть интегрирован в различные прикладные решения. В сфере клиентского сервиса речевая аналитика на его основе позволит автоматически выявлять неудовлетворенных клиентов на ранних стадиях диалога и маркировать звонки с высоким уровнем негатива.

В образовательных системах модуль способен анализировать эмоциональное состояние студента во время лекции, определяя моменты непонимания или потери интереса. В перспективе возможно развитие модуля для распознавания сарказма, где тональность текста расходится с эмоциональной окраской голоса, а также добавление видеомодальности (анализ мимики) для создания комплексных систем эмоционального ИИ.

Заключение

Разработка программного модуля для распознавания эмоций по тексту и голосу является сложной, но выполнимой задачей, стоящей на стыке компьютерной лингвистики, цифровой обработки сигналов и глубинного обучения. Предложенная архитектура, использующая современные нейросетевые модели (трансформеры) и методы мультимодального фьюжна, позволяет достичь высокой точности классификации. Применение такого модуля открывает новые возможности для создания адаптивных и эмпатичных пользовательских интерфейсов в самых разных областях – от маркетинга до здравоохранения. Дальнейшее развитие работы видится в оптимизации моделей для работы на мобильных устройствах (edge computing) и расширении спектра распознаваемых эмоциональных оттенков.

Список литературы

Министерство науки и высшего образования РФ. Разработана система распознавания эмоций человека по видео и речи [Электронный ресурс] // URL: https://www.minobrnauki.gov.ru/press-center/news/nauka/98437/ (дата обращения: 20.02.2026).
Краснопрошин Д.В., Вашкевич М.И. Анализ подходов к построению систем распознавания эмоций по речи с использованием методов глубокого обучения // Big Data и анализ высокого уровня: сб. науч. ст. XI Междунар. науч.-практ. конф. – Минск: БГУИР, 2025. – С. 343-353.
LAION-AI. Emotion Annotations / EmoNet – Voice Annotation Toolkit [Электронный ресурс] // GitHub. – URL: https://github.com/LAION-AI/emotion-annotations (дата обращения: 20.02.2026).
Skillfactory. Чат-бот с эмпатией: студенты Skillfactory научили текстовую нейросеть распознавать эмоции [Электронный ресурс] // Блог Skillfactory. – 2025. – URL: https://blog.skillfactory.ru/chat-bot-s-empatiei/ (дата обращения: 20.02.2026).
Научная Россия. Методы распознавания эмоций в текстах и аудиозаписях [Электронный ресурс] // sci-ru.org. – 2024. – URL: https://sci-ru.org/articles/metody-raspoznavania-emocij-v-tekstah-i-audiozapisah (дата обращения: 20.02.2026).
Беспалов А. Разработка модуля для извлечения, предобработки и анализа данных видеолекций для системы дистанционного обучения (Development of a Module for Extracting, Preprocessing and Analyzing Video Lecture Data for a Distance Learning System) // ВКР НИУ ВШЭ. – 2025.
BSS. Оптимизация процесса анализа голосовых коммуникаций с помощью речевой аналитики [Электронный ресурс] // Блог BSS. – 2025. – URL: https://bssys.com/blog/optimizatsiya-protsessa-analiza-golosovykh-kommunikatsiy-s-pomoshchyu-rechevoy-analitiki/ (дата обращения: 20.02.2026).
Санкт-Петербургское отделение РАН. Разработана система распознавания эмоций человека по видео и речи [Электронный ресурс] // СПбО РАН. – 2025. – URL: https://spbran.ru/news/razrabotana-sistema-raspoznavaniya-emociy-cheloveka-po-video-i-rechi (дата обращения: 20.02.2026).
Запольский М.М. Улучшенная мультимодальная архитектура Mamba для распознавания эмоций в речи // ВКР НИУ ВШЭ. – 2025.
Roistat. Что делает речевая аналитика [Электронный ресурс] // Блог Roistat. – 2025. – URL: https://roistat.com/rublog/chto-delaet-rechevaja-analitika/ (дата обращения: 20.02.2026).

Разработка программного модуля для распознавания эмоционального состояния пользователей на основе анализа текста и голоса

Цитирование

Похожие статьи

Другие статьи из раздела «Информационные технологии»