Применение искусственного интеллекта при работе с мультимедийной информацией

Толкачев Сергей Владимирович

Аннотация статьи

Интернет-пространство постоянно развивается и совершенствуется, одним из важных этапов подобного прогресса стало внедрение алгоритмов искусственного интеллекта в сферу журналистики и медиакоммуникаций. Исследователи отмечают, что каждый год все активнее внедряется в отечественную медиасреду принципиально новых систем, которые начинают изучать тысячи написанных настоящими журналистами материалов, огромные массивы информации, и в итоге алгоритмы искусственного интеллекта создают собственные публикации.

Весьма перспективными выглядят работы по внедрению элементов искусственного интеллекта в системе мультимедиа. Они обладают способностью «чувствовать» среду общения, адаптироваться к ней и оптимизировать процесс общения с пользователем; они подстраиваются под читателей, анализируют круг их интересов, помнят вопросы, вызывающие затруднения, и могут сами предложить дополнительную или разъясняющую информацию. Системы, понимающие естественный язык, распознаватели речи еще более расширяют диапазон взаимодействия с компьютером.

Текст статьи

Основная часть

Искусственный интеллект (ИИ) – это не инструмент или программа, а отдельное направление компьютерных наук. Специалисты по ИИ разрабатывают системы, которые анализируют информацию и решают задачи аналогично тому, как это делает человек.

Благодаря возможности ИИ обрабатывать и анализировать большие объемы данных, он может помочь в создании оптимальных и эффективных процессов. Например, ИИ может анализировать данные о производственных процессах и определять, какие параметры или действия приводят к наилучшим результатам. Это позволяет оптимизировать процессы и улучшить качество продукции или услуг [1].

Кроме того, ИИ может помочь в автоматизации рутинных задач и упростить рабочие процессы. Например, ИИ может автоматически обрабатывать и классифицировать большие объемы документов или архивов, что позволяет сэкономить время и ресурсы компании. Также ИИ может выполнять монотонные и рутинные задачи, освобождая сотрудников от них и позволяя им сосредоточиться на более важных и творческих заданиях [2].

Искусственный интеллект играет ключевую роль в повышении эффективности и оптимизации процессов анализа мультимедийных данных. Он не только позволяет обрабатывать и интерпретировать большие объемы информации, но и помогает в автоматизации и улучшении различных рабочих процессов. В результате компании и организации могут достичь большей производительности, эффективности и качества работы.

ИИ использует алгоритмы, которые позволяют компьютеру обрабатывать большие объёмы данных и находить в них закономерности. На основе этих закономерностей он может делать выводы, предсказывать события или принимать решения [2].

Представим, что наш мозг – это огромная команда сотрудников, которые вместе работают над разными проектами. Искусственный интеллект – это попытка создать такую же команду с помощью компьютеров и программ. Простой пример ИИ – это шахматный компьютер, который может анализировать ситуацию на доске и делать ходы, основанные на определённых правилах и тактиках. Он имитирует процесс мышления человека при игре в шахматы, но делает это с помощью алгоритмов и вычислений [2].

Иногда ИИ путают с нейросетью, но это справедливо только отчасти. Нейросети – это один из подходов к созданию ИИ, который вдохновлён системой нейронов в мозге. Вместо того чтобы писать сложные алгоритмы для решения задач, нейросети обучаются на основе большого количества данных и находят в них закономерности [2].

Нейросеть в машинном обучении – это математическая модель, которая работает по принципу нейронной сети живого организма. В отличие от нейросети животного, которая передаёт сигнал от мозга к другим органам и полностью регулирует жизнедеятельность организма, компьютерная нейросеть учится решать только ту задачу, которую ей ставит человек.

Яркий пример, задача голосовых умных помощников, таких как Алиса в Яндекс Станции, – научиться отвечать на вопросы человека и поддерживать разговор с ним.

Хотелось бы отметить, что существует между терминами «машинный интеллект» и «машинное обучение», которые нередко считают синонимами и употребляют в значении искусственного интеллекта. Машинным интеллектом можно называть примитивные алгоритмы и устройства, такие как: боты, мобы (любой нестатичный объект в компьютерной игре), роботы-пылесосы, управляющие программы баллистических ракет и автокоррекция текста. Когда «машинное обучение» шире и определяет современные алгоритмы, позволяющие машинам думать подобно людям, находить нетривиальные решения проблем, а главное – учиться так, как учатся люди и вообще живые существа, – методом проб и ошибок [3].

Так же примером применения мультимедиа, можно привести в искусстве. Это могут служить «музыкальные CD-ROM, которые позволяют не только прослушивать (с высочайшим качеством) произведения того или иного композитора, но и просматривать на экране партитуры, выделять и прослушивать отдельные темы или инструменты, знакомиться с рецензиями, просматривать текстовые фото- и видеоматеpиалы, относящиеся к жизни и творчеству композитора, составу и расположению оркестра и хора, истории к устройству каждого инструмента оркестра и т.п.» Выпущены, в частности, CD-ROM, посвященные 9-й симфонии Бетховена, «Волшебной флейте» Моцарта, «Весне священной» Стравинского. Другой пример – это занесение на интерактивные видеодиски фондов художественных музеев; эти работы уже ведутся и в России [3].

Помимо «информационных» применений должны проявиться и «кpеативные», позволяющие создавать новые произведения искусства. Уже сейчас мультимедиа становится незаменимым авторским инструментом в кино и видеоискусстве. Автор фильма за экраном такой настольной системы собирает, «оpанжиpует», создает произведения из заранее подготовленных – нарисованных, отснятых, записанных и т.п. – фрагментов. Он имеет практически мгновенный доступ к каждому кадру отснятого материала, возможность диалогового «электронного» монтажа с точностью до кадра. Ему подвластны всевозможные видеоэффекты, наложения и преобразования изображений, манипуляции со звуком, «сборка» звукового сопровождения из звуков от различных внешних аудио источников, из банка звуков, из программ звуковых эффектов. Далее, применение обработанных или сгенерированных компьютером изображений может привести к появлению новой изобразительной техники в живописи или кино.

Все это доказывает о перспективности внедрения элементов искусственного интеллекта в системе мультимедиа. Они обладают способностью «чувствовать» среду общения, адаптироваться к ней и оптимизировать процесс общения с пользователем; они подстраиваются под читателей, анализируют круг их интересов, помнят вопросы, вызывающие затруднения, и могут сами предложить дополнительную или разъясняющую информацию. Системы, понимающие естественный язык, распознаватели речи еще более расширяют диапазон взаимодействия с компьютером [3].

Искусственные интеллекты пригодятся для создания прототипов, сокращения времени и реализации крупных мультимедийных проектов с маленькими командами.

Постоянно появляющиеся мультимедийные приложения и услуги приводят к появлению огромного количества данных, что дает повод для проведения исследований и анализа этих данных. Появляются такие формы мультимедийных исследований, как анализ изображений/видеоконтента, поиск видео или изображений, рекомендации, потоковое мультимедиа и т. д. Кроме того, с другой стороны, искусственный интеллект развивается все быстрее, что делает это время идеальным для использования мультимедиа с богатым содержанием для более интеллектуальных приложений [3].

Мультимедийный интеллект относится к экосистеме, созданной при применении искусственного интеллекта к мультимедийным данным. Мультимедиа может стимулировать исследования в области искусственного интеллекта, обеспечивая эволюцию алгоритмов и продвигая ИИ к достижению человеческого уровня восприятия и понимания. Кроме этого, искусственный интеллект может стимулировать мультимедийные данные, делая их более понятными и надежными благодаря способности рассуждать. Приложения для потокового видео по требованию используют алгоритмы ИИ для анализа демографических данных и поведения пользователей и рекомендуют контент, который им нравится смотреть [4].

В результате эти платформы, работающие на базе ИИ, фокусируются на предоставлении пользователям контента, учитывающего их конкретные интересы, что приводит к созданию действительно индивидуального опыта. Таким образом, мультимедийный интеллект – это замкнутый цикл между мультимедиа и ИИ, где они взаимно влияют и улучшают друг друга.

Некоторые веб-сайты генерируют и распространяют фальшивые новости в дополнение к законным новостям, чтобы раззадорить общественность по поводу событий или общественных проблем. ИИ помогает в обнаружении и управлении таким контентом, а также в его модерации или удалении перед распространением на интернет-платформах, таких как сайты социальных сетей. Все платформы, включая Facebook, LinkedIn, Twitter, Instagram и т.д., используют мощные алгоритмы ИИ в большинстве своих функций. Сервисы целевой рекламы, рекомендательные сервисы, рекомендации по работе, обнаружение мошеннических профилей, обнаружение вредоносного контента и т.д. имеют в своем составе ИИ [4].

Мультимедиа и искусственный интеллект взаимосвязаны и как они влияют на различные отрасли. Тем не менее, это обширная тема для исследований, поскольку медиаинтеллект все еще находится в стадии становления, когда алгоритмы ИИ все еще учатся на основе отдельных медиа, а мы создаем другие алгоритмы для их совместного использования. Еще есть возможности для эволюции алгоритмов ИИ, которые будут понимать все мультимедийные данные в сингулярности, подобно тому, как это делает человек [4].

Искусственный интеллект также может использоваться для создания и улучшения видеоновостей. Технология способна анализировать текстовые данные, к которым нужно сгенерировать видео, а затем смонтировать имеющиеся видеоматериалы так, чтобы они соответствовали новости.

Ещё одна функция, которую предоставляет ИИ, – цифровой ведущий. Как правило, диджитал аватар генерируется специально под запрос пользователя, а затем ведущий представляет необходимые материалы в видеоформате. Компания Synthesia, среди клиентов которой агентства Reuters и BBC, уже предоставляет услугу цифрового ведущего. Аналогичную функцию на российском медиарынке предоставляет Сбер. Цифровой персонаж Сбера «Елена» даже транслировалась как соведущая на канале РБК в 2021 году [4].

Вместе с появлением технологии искусственно сгенерированного ведущего усугубилась и проблема создания дипфейков. Дипфейк – это продукт наложения изображения на видео, который может использоваться в некорректных целях и вводить зрителей в заблуждение.

Также ИИ способен создавать не только видео, но и музыкальный контент. Технология напоминает подбор иллюстрации для текста, только в случае с аудио, ИИ анализирует ключевые слова материала и находит музыку, подходящую под подкаст, видеоролик или, например, музыкальное сопровождение в общественных местах, ресторанах и кафе. Пример сервиса по генерации музыки – AIVA [4].

Заключение

Искусственный интеллект позволяет автоматически обрабатывать и анализировать мультимедийные данные, такие как фотографии, видео и аудио. Это включает в себя распознавание объектов, лиц, звуков, анализ эмоций и тематическое моделирование. ИИ также может интерпретировать мультимедийные данные, предоставляя контекстную информацию и делая выводы на основе выявленных образцов и закономерностей [5].

Список литературы

Астахова Т.Ю. Искусственный интеллект: будущее или смерть журналистики? 2018 г.
Замков А.В., Крашенинникова М.А., Лукина М.М., Цынарёва Н.А. Роботизированная журналистика: от научного дискурса к журналистскому образованию (Электронный ресурс), 2017 г.
Суходолов А.П., Бычкова А.М., Ованесян С.С. Журналистика с искусственным интеллектом. Вопросы теории и практики журналистики. 2019 г.
Чертовских О.О., Чертовских М.Г. Искусственный интеллект на службе современной журналистики: история, факты и перспективы развития. Вопросы теории и практики журналистики. 2019 г.
Шестерина А.М., Шестерин Н.О. О корректности использования термина «искусственный интеллект» в медиасфере. Ученые записки Новгородского государственного университета. 2020 г.

Применение искусственного интеллекта при работе с мультимедийной информацией

Похожие статьи

Другие статьи из раздела «Информационные технологии»