Главная
АИ #21 (256)
Статьи журнала АИ #21 (256)
Генерация жестикуляции с применением искусственного интеллекта на основе текстов...

Генерация жестикуляции с применением искусственного интеллекта на основе текстового ввода

Научный руководитель

Рубрика

Информационные технологии

Ключевые слова

искусственный интеллект
генерация жестикуляции
текст в жестикуляцию
анализ движений тела
MediaPipe
Whisper
траектории движений

Аннотация статьи

Генерация естественной жестикуляции на основе текстового ввода остается актуальной задачей в сфере искусственного интеллекта, особенно для создания реалистичных виртуальных аватаров, анимации и робототехники. В данной статье представлен подход к автоматизации синтеза жестов с использованием нейросетевой модели, обученной на датасете из 7 часов видео, обработанных в CapCut. Для извлечения данных применены инструменты Whisper (транскрипция аудио) и MediaPipe (анализ движений тела), а предложенная модель объединяет текстовые эмбеддинги с кинематическими последовательностями.

Текст статьи

Современные технологии человеко-машинного взаимодействия всё чаще требуют создания систем, способных воспроизводить не только речь, но и невербальные элементы коммуникации, такие как жестикуляция. Жесты играют ключевую роль в передаче эмоций, акцентов и смысловых нюансов, что особенно важно для виртуальных ассистентов, анимационных персонажей или социальных роботов. Однако автоматическая генерация естественных и контекстно-зависимых движений тела на основе текста остается сложной задачей.

Процесс сбора данных включал несколько этапов, объединенных в последовательный пайплайн.

На первом этапе исходные видеозаписи длительностью 7 часов были нарезаны в CapCut на фрагменты, фокусируясь на сценах с выраженной жестикуляцией, синхронизированной с речью; это позволило исключить паузы, фоновые движения и шумы, сохранив только релевантные для обучения данные.

Далее для каждого видеофрагмента с помощью Whisper выполнялась транскрипция аудио в текст с точными временными метками начала и конца каждой реплики, включая обработку пауз, интонаций и частичное распознавание эмоциональной окраски речи.

Параллельно через MediaPipe (модули Pose и Holistic) извлекались ключевые точки тела в формате 3D-координат: 8 точки скелета (только туловище и предплечье), 21 точка рук (суставы пальцев), что дало детальное представление о динамике движений.

Для синхронизации текстовых транскрипций и кинематических данных использовались временные метки из текстовых данных и данных MediaPipe.

Автоматизация обеспечивалась скриптом на Python, где цикл последовательно обрабатывал каждый видеофайл.

image.png

Рис. 1. Структура полученного датасета

На рисунке 1 изображена структура полученного датасета, в котором объединены текстовые и жестовые данные. Где text – текст, извлеченный из видео. Type – один из типов позы Media Pipe. Landmark_Id – id сустава, соответствующего своему типу позы. X, Y, Z – координаты точек суставов, Frame – номер кадра в анимации.

Архитектура нейронной сети для генерации жестикуляции имеет вид, представленный на рисунке 2.

Текст подается на вход в предобученную модель BERT, где он преобразуется в эмбеддинги и его размерность корректируется до 512D, для возможности его дальнейшей обработки с помощью механизма внимания.

С другой стороны, данные о жестах подаются в Frame Encoder, где они кодируются в скрытое пространство и их размерность так же приводится к 512D для тех же целей.

image.png

Рис. 2. Архитектура нейронной сети для генерации жестикуляции

Данные подаются в блок Cross-Attention, где между ними устанавливаются связи с помощью механизма внимания для того, чтобы модель могла лучше уловить и обучиться зависимости между текстовыми и жестовыми признаками.

После обработки данные попадают в Frame Decoder, где из них в обратном порядке получаются данные о жестах.

image.png

Рис. 3. Результаты обучения модели

На рисунке 3 представлены результаты обучения модели. Видно, что общие потери модели стабильно уменьшаются, что указывает на то, что модель обучается улавливать зависимости.

На рисунке 4 изображен график накопления ошибки MAE. Видно, что к 150 значение ошибки практически стабильно. На 150 и 200 кадрах наблюдаются скачки, что говорит о том, что модель хуже справляется с длинными жестами. После 250 кадра наблюдается резкий рост ошибки, что значит, что модель не справляется с генерацией жестов такой длины.

image.png

Рис. 4. Накопление ошибки MAE

Список литературы

  1. Vaswani A., et al. (2017). Attention Is All You Need. NeurIPS. arXiv:1706.03762
  2. Devlin J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. arXiv:1810.04805.
  3. Goodfellow, I., et al. (2014). Generative Adversarial Networks. NeurIPS. arXiv:1406.2661.
  4. Бенгфорт Б., Билбро Р., Охеда Т. Б46 Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. – СПб.: Питер, 2019. – 368 с.: ил. – (Серия «Бестселлеры O’Reilly»).

Поделиться

127

Швалев И. Е. Генерация жестикуляции с применением искусственного интеллекта на основе текстового ввода // Актуальные исследования. 2025. №21 (256). Ч.I. С. 98-101. URL: https://apni.ru/article/12168-generaciya-zhestikulyacii-s-primeneniem-iskusstvennogo-intellekta-na-osnove-tekstovogo-vvoda

Обнаружили грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики)? Напишите письмо в редакцию журнала: info@apni.ru

Похожие статьи

Другие статьи из раздела «Информационные технологии»

Все статьи выпуска
Актуальные исследования

#22 (257)

Прием материалов

31 мая - 6 июня

осталось 4 дня

Размещение PDF-версии журнала

11 июня

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

25 июня