Технология машинного перевода

Авторы:

Родионов Кирилл Владимирович

Рубрика

Технические науки

Ключевые слова

машинный перевод
искусственный интеллект
статистический машинный перевод
гибридный машинный перевод
нейронный машинный перевод
машинный перевод на основе правил
движок машинного перевода

Аннотация статьи

В данном докладе рассматривается такое понятие как машинный перевод. Говоря простым языком, машинный перевод (МП) – это процесс, при котором компьютерная программа автоматически переводит текст с одного исходного языка на другой целевой язык. Машинный перевод имеет долгую и интересную историю, уходящую корнями в 1950-е годы. Со временем технология превратилась в жизнеспособное решение для быстрого и точного перевода. Достижения в области искусственного интеллекта (ИИ), обработки естественного языка и вычислительных возможностей сделали машинный перевод мейнстримом.

Текст статьи

Преимущества машинного перевода (МП)

Машинный перевод является важным инструментом в процессе перевода. Его можно использовать отдельно или в сочетании с постредактированием человека. У МП есть три основных преимущества при использовании его в работе:

Высокая скорость перевода

Машинный перевод может переводить миллионы слов в огромных объемах. Но скорость – не единственное преимущество. МП использует искусственный интеллект (ИИ), чтобы обучаться по мере перевода большего количества контента. Кроме того, существуют памяти переводов и системы для работы с ними, которые помогают организовать и структурировать данные. Так же все это сильно помогает, когда вам нужно быстро перевести контент на несколько языков.

Большой выбор языков

Большинство крупных поставщиков машинного перевода могут переводить от 50 до 100 языков. Эти просистемы достаточно мощны и позволяют переводить несколько языков одновременно в рамках локализации глобальных проектов и обновлять документацию к ним. МП хорошо зарекомендовал себя в таких языковых парах, как английский-французский или английский-испанский.

Снижение затрат

Даже когда для постредактирования требуются переводчики-люди, машинный перевод сокращает время и стоимость перевода. МП берет на себя первоначальную тяжелую работу, создавая простые переводы, которые переводчик-человек может уточнять и редактировать. Таким образом, готовый текст максимально соответствует первоначальному замыслу текста, а контент можно быстро и эффективно локализовать.

Типы машинного перевода

Существует четыре различных типа машинного перевода: статистический машинный перевод, машинный перевод на основе правил, гибридный машинный перевод и нейронный машинный перевод.

Машинный перевод на основе правил

Машинный перевод на основе правил является прародителем современного машинного перевода. В данном случае контент переводится на основе грамматических правил. С момента разработки машинного перевода на основе правил в технологии машинного перевода произошли значительные успехи, поэтому у него есть несколько недостатков. Эти недостатки включают в себя необходимость большого количества человеческого постредактирования и добавления языков вручную. Несмотря на такое низкое качество перевода, он полезен в простых ситуациях, когда требуется перевод для быстрого понимания смысла.

Статистический машинный перевод

СМП работает путем построения статистической модели взаимосвязей между текстовыми словами, фразами и предложениями. Затем он применяет эту модель перевода ко второму языку и преобразует те же элементы в новый язык. СМП несколько лучше машинного перевода на основе правил, но по-прежнему имеет много схожих проблем.

Гибридный машинный перевод

ГМП представляет собой смесь машинного перевода на основе правил и статического машинного перевода. ГМП использует память переводов, что делает его гораздо более эффективным с точки зрения качества. Однако даже у ГМП есть свои недостатки, самым большим из которых является необходимость редактирования человеком.

Нейронный машинный перевод

НМТ использует искусственный интеллект для изучения языков и постоянного улучшения этих знаний. Таким образом, он стремится имитировать нейронные сети в человеческом мозгу. НМТ более точен, чем другие типы перевода с использованием искусственного интеллекта. С НМП проще добавлять языки и переводить контент. Поскольку НМП обеспечивает более качественные переводы, он быстро становится стандартом в разработке инструментов машинного перевода.

НМП работает путем включения обучающих данных. В зависимости от потребностей пользователя данные могут быть общими или пользовательскими.

  • Общие данные: это сумма всех данных, полученных из переводов, выполненных с течением времени механизмом машинного перевода. Эти данные создают универсальный инструмент перевода для различных приложений, включая текст, голос и другие документы.
  • Пользовательские или специализированные данные: это обучающие данные, передаваемые в механизм машинного перевода для создания специализации в предметной области. Сюда относятся такие тематики, как механика, дизайн, программирование или любая другая дисциплина с собственными специализированными глоссариями и словарями.

Рекомендации по машинному переводу

Ниже представлены факторы, которые следует учитывать при выборе инструмента машинного перевода для вашего проекта:

  • Бюджет. Иногда нейронный машинный перевод обходится дороже, чем статический машинный перевод, но улучшение качества перевода может оправдать затраты.
  • Отрасль. В некоторых отраслях требуется перевод сложного и технического языка, что требует более сложной обработки, которую обеспечивает нейронный машинный перевод.
  • Языковая пара. СМП лучше всего работает для определенных языковых пар. Например, языки с латинским алфавитом, похожим синтаксисом и лингвистическими правилами наиболее совместимы с машинным переводом.
  • Объем контента. НМП требует большого количества исходного текста для обработки и обучения, поэтому он не подходит для маленьких проектов.
  • Работа с клиентом / внутренняя документация. Контент, предназначенный для клиентов, такой как рекламные или маркетинговые тексты, отражающие качество бренда, требует наиболее сложной комбинации машинного перевода и постредактирования квалифицированными переводчиками. Когда важны стоимость и время, основная внутренняя документация или переписка сотрудников могут быть переведены с помощью базового машинного перевода.

Какой движок машинного перевода лучше?

Известные технологические компании, такие как Google, Amazon и Microsoft, используют НМП для работы своих движков машинного перевода. Когда мы сравниваем разные движки, важно понимать, что они постоянно учатся и совершенствуются. Ниже перечислены основные движки машинного перевода.

  • Google Translate

Google Translate – первый движок машинного перевода, который использовал нейронную обработку языка и машинное обучение на основе многократного использования. Данный движок считается одним из ведущих систем машинного перевода по количеству применений, количеству языков и интеграции с поиском.

  • Amazon Translate

Amazon Translate интегрирован с Amazon Web Services (AWS). Согласно некоторым исследованиям Amazon Translate обеспечивает более точные переводы на определенные языки, особенно на китайский.

  • Microsoft Translator

Microsoft Translator интегрирован в такие продукты, как MS Office и Skype. Эта функция обеспечивает мгновенный перевод в документах и программах.

  • Watson Language Translator

Watson Language Translator – это инструмент машинного перевода от IBM. Он интегрирован в IBM Watson Data и IBM Watson Studio. Данные инструменты помогают управлять данными и создавать модели искусственного интеллекта.

  • DeepL Translate

DeepL Translate – это независимый движок машинного перевода, разработанный маленькой компанией из Германии. Благодаря запатентованному нейронному искусственному интеллекту компании DeepL обеспечивает более естественный и проработанный перевод. За последние годы популярность Deepl во всем мире значительно возросла.

Список литературы

  1. Арнольд И. В. Основы научных исследований в лингвистике. – Высшая школа, 1991. – 140 с.
  2. Philipp Koehn «Statistical Machine Translation» – Cambridge University Press, 2009 – 446 p.

Поделиться

1580

Родионов К. В. Технология машинного перевода // Технологии, образование, наука: стратегия прорыва : сборник научных трудов по материалам Международной научно-практической конференции 6 мар. 2020г. Белгород : ООО Агентство перспективных научных исследований (АПНИ), 2020. URL: https://apni.ru/article/4103-tekhnologiya-mashinnogo-perevoda

Другие статьи из раздела «Технические науки»

Все статьи выпуска
Актуальные исследования

#18 (200)

Прием материалов

27 апреля - 3 мая

осталось 7 дней

Размещение PDF-версии журнала

8 мая

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

17 мая