Наблюдая за продолжающейся эволюцией использования машинного перевода в индустрии профессионального перевода, мы видим, что достигли точки, когда у нас есть некоторые полезные идеи о том, как добиться успешных результатов при использовании машинного перевода. С моей точки зрения, как долгосрочного наблюдателя и эксперта-аналитика использования машинного перевода предприятиями, некоторые из них включают:
- Адаптация и настройка универсального механизма машинного перевода, выполненные с опытом, как правило, дают лучший результат, чем простое использование универсальной общедоступной системы машинного перевода.
- Работа с улучшенными базовыми движками, созданными экспертами, скорее всего, даст лучшие результаты, чем использование опций с открытым исходным кодом с ограниченным опытом. Хотя создавать системы машинного перевода на платформах с открытым исходным кодом стало проще, настоящий опыт требует длительного воздействия и повторных экспериментов.
- Алгоритмы, лежащие в основе Neural MT, стали в значительной степени коммерциализированными, и переход с одной платформы NMT на другую дает мало преимуществ.
- Чем больше данных, тем лучше, ТОЛЬКО если они чистые, релевантные и применимы к рассматриваемому варианту использования предприятия. Сегодня можно сказать, что (обучающие) данные часто имеют большее значение, чем используемые алгоритмы, но качество и организация данных являются решающим фактором для достижения успешных результатов.
- Подавляющее большинство переводчиков по-прежнему относятся к машинному переводу с большим скептицизмом и считают его малополезным, в основном из-за многократного воздействия некомпетентно развернутых систем машинного перевода, которые используются для снижения вознаграждения переводчика. Получение активной и заинтересованной поддержки переводчика остается проблемой для большинства разработчиков машинного перевода, а получение этого одобрения является явным показателем превосходного опыта.
- Попытки сравнить различные системы машинного перевода в значительной степени безуспешны или вводят в заблуждение, поскольку они, как правило, основаны на нерелевантных данных испытаний или делают выводы на основе очень малых выборок.
- Большое количество вариантов корпоративного использования ограничено скудными ресурсами обучающих данных, поэтому попытки адаптации и настройки имеют ограниченный успех.
Я скептически отношусь к достоверности многих сравнений, которые мы видим сегодня между системами машинного перевода, созданными LSP, и «независимыми» оценщиками из-за сомнительных используемых методологий оценки. Оценщики часто выдают красивые графики, но столь же часто дают вводящие в заблуждение результаты, требующие дальнейшего изучения. Тем не менее, эти сравнительные оценки различных систем машинного перевода все же могут быть полезны для получения приблизительного представления о производительности общих систем этих поставщиков машинного перевода. В течение последних нескольких лет ModernMT постоянно фигурирует среди самых эффективных систем машинного перевода по многим различным оценкам, и поэтому я решил встретиться с командой ModernMT, чтобы лучше понять их технологию и философию продукта и понять, что может быть движущей силой этого постоянного преимущества в производительности. Уровень прозрачности и ожидаемый характер ответов от команды ModernMT были освежающими по сравнению с другими беседами, которые у меня были с другими разработчиками MT.
Путь МП здесь начался более 10 лет назад с Moses и Statistical MT, но в отличие от большинства других долгосрочных инициатив МП, о которых я знаю, эта работа с самого начала была очень ориентирована на переводчика. Система активно использовалась переводчиками, работавшими в Translated, а системы машинного перевода постоянно адаптировались и модифицировались для удовлетворения потребностей производственных переводчиков. Это центральное намерение проекта, и важно не замалчивать это, поскольку это ЕДИНСТВЕННАЯ известная мне инициатива машинного перевода, в которой приемка переводчика используется в качестве основного критерия на постоянной основе при определении того, следует ли использовать машинный перевод для производственной работы. или нет. Операционные менеджеры просто не будут использовать машинный перевод, если он не добавляет ценности производственному процессу и вызывает недовольство переводчиков. На протяжении многих лет постоянное сотрудничество с переводчиками в ModernMT приводило к изменениям в системе машинного перевода и процессах разработки, чтобы достичь текущего статуса-кво, когда добавленная стоимость и эффективность машинного перевода очевидны для всех заинтересованных сторон. Долгосрочное сотрудничество между переводчиками и разработчиками машинного перевода, а также вносимые в результате модификации системы и процесса являются ключевой причиной того, почему ModernMT так хорошо справляется как с общими сравнениями систем машинного перевода, так и особенно с сравнениями адаптированных/индивидуализированных машинных переводов.
Таким образом, переводчики, которые активно используют платформу ModernMT, чаще всего делают это с помощью MateCat, CAT-инструмента с открытым исходным кодом, который связывает вместе MyMemor и (большой общий репозиторий TM с бесплатным доступом, содержащий около 50 миллиардов слов). ) вместе с ModernMT или другими платформами машинного перевода. МП представляется переводчикам в качестве альтернативы ПП на регулярной основе, а исправления динамически и систематически используются для постоянного совершенствования движков ModernMT. Trados и другие CAT-инструменты также могут беспрепятственно подключаться к серверной части ModernMT, но в этих системах могут наблюдаться менее немедленные улучшения качества выходных данных машинного перевода. Однако это не остановило около 25 000 загрузок плагина ModernMT для Trados в магазине приложений SDL. Переводчикам, выполняющим производственную работу для Translated, часто предоставляется выбор использования Google вместо ModernMT, но большинство из них узнали, что результаты ModernMT быстро улучшаются благодаря корректирующей обратной связи и что совместный ввод также проще, и поэтому предпочитают его, как показано в опросах ниже. . На протяжении многих лет эволюция продукта ModernMT была обусловлена изменениями, направленными на выявление и сокращение усилий по постредактированию, а не на оптимизацию оценок BLEU, как это сделали большинство других компаний.
В отличие от большинства опытов MTPE, индивидуальный опыт переводчика здесь характеризуется следующим:
- Тесная и симбиотическая связь между релевантной памятью переводов и машинным переводом даже на уровне пользовательского интерфейса переводчика.
- Система машинного перевода, которая постоянно обновляется и потенциально может улучшаться с каждым отдельным взаимодействием и единицей корректирующей обратной связи.
- Немедленные возможности запуска проекта, так как не требуется пакетный процесс обучения машинному переводу
- Контроль переводчика над всеми управляющими данными, используемыми в проекте, означает очень простой контроль над терминологией и согласованностью терминов, отражая последние ТМ и лингвистические предпочтения.
- Корректирующая обратная связь, предоставляемая системе МП, является динамичной и непрерывной и может оказать немедленное влияние на следующее предложение, выдаваемое системой МП.
- Одна из очень немногих систем машинного перевода, доступных сегодня, которые могут обеспечить контекстно-зависимый перевод.
- Измеримое и ощутимое сокращение усилий по постредактированию и UX переводчика по сравнению с другими платформами машинного перевода.
- Постоянный бесплатный доступ к CAT-инструменту, необходимому для интеграции MT с TM, и активное взаимодействие с MT с возможностью использования других высоко оцененных CAT-инструментов, если это необходимо.
Память здесь относится к пользовательским входным данным TM и глоссариям для настройки общей системы в соответствии с потребностями текущей задачи перевода.
ModernMT описывает себя как «платформу адаптивного машинного перевода на основе экземпляров». Это означает, что он может немедленно приступить к адаптации и настройке выходных данных машинного перевода для предметной области клиента без этапа пакетной настройки. Нет необходимости в длительной (часы/дни/недели) подготовке данных и предварительном обучении. Также нет необходимости ждать и собирать достаточное количество корректирующих отзывов, чтобы обновлять и улучшать движок машинного перевода на постоянной основе. Он учится все время.
Быстрая адаптация к уникальному для клиента языку и терминологии является, пожалуй, самым важным требованием для глобального предприятия, и, таким образом, это оптимальный дизайн для предприятий, который оптимально работает с их специализированным и уникальным контентом. Это также верно и для LSP, если уж на то пошло. ModernMT может адаптировать систему машинного перевода всего одним предложением, хотя результаты будут лучше, если будет предоставлено больше данных. Команда сказала мне, что 100 000 слов (10–12 000 предложений), как правило, дают стабильно хорошие результаты, превосходящие любой универсальный движок. Долгосрочное влияние этого тесного сотрудничества с переводчиками, которые вносят постоянные исправления, отзывы о критических требованиях для повышения эффективности и рабочего процесса, а также тщательный сбор правильных данных, приводит к тому типу относительных рейтингов производительности, которые ModernMT теперь регулярно видит. как само собой разумеющееся. Можно даже сказать, что они создали устойчивое конкурентное преимущество.
Я всегда чувствовал, что правильно спроектированное сотрудничество человека и машины, скорее всего, превзойдет подход к проектированию машинного перевода, который полностью полагается только на алгоритмы и/или данные. Мы можем видеть, что это правда, из сравнительных результатов крупных общедоступных порталов MT, которые, вероятно, имеют в 100 или более раз больше ресурсов и бюджета, чем ModernMT. Понимание задачи перевода и вытекающие из нее директивы, получаемые в результате постоянной обратной связи с переводчиком, — это компонент, которого не хватает большинству современных систем машинного перевода. Гэри Маркус и другие эксперты по искусственному интеллекту громко указывали на эту машину. Само по себе обучение и данные — не лучший путь вперед, и для достижения лучших результатов необходимо больше человеческого управления и символических знаний.
ModernMT — это продукт машинного перевода с учетом контекста, который учится на исправлениях пользователя. В последнее время в исследовательском сообществе машинного перевода наблюдается растущий интерес к обеспечению большей степени контекстуальной осведомленности в системах машинного перевода, и ModernMT также изучает возможности реализации этого. В текущей производственной версии это уже реализовано, и эта функция продолжает развиваться с точки зрения скорости, эффективности и возможностей.
Анализатор контекста ModernMT анализирует весь текст документа, подлежащий переводу, за миллисекунды, прежде чем выполнить перевод. Этот анализ ищет и определяет отличительную терминологию и внутренний стиль документа. Затем эта информация используется для автоматического выбора наиболее подходящих частных памяти переводов, загруженных пользователем для данного конкретного документа. Это приводит к тому, что движок выбирает инвентарь памяти переводов, который лучше всего отражает правильную терминологию и стиль письма. Именно этот перечень использует механизм машинного перевода для настройки вывода в режиме реального времени для каждого предложения документа.
Поскольку переводчики Translated, работающие с ModernMT, регулярно имеют возможность сравнивать вывод MT с выводом Google Translate, разработчики постоянно следят за предпочтениями переводчика. Это гарантирует, что переводчики всегда работают с выводом машинного перевода, который они считают наиболее полезным, и что разработчики понимают, когда их собственные механизмы нуждаются в улучшении или расширении. Следующие диаграммы основаны на отзывах переводчиков во время производственной работы и показывают явное предпочтение быстро улучшающейся производительности движка ModernMT. Это предпочтение наблюдается во внутренних оценках переводчиков, работающих в производственном режиме, а не просто в выборочном наборе тестов, и это также было подтверждено независимыми сторонними оценками как с автоматическими оценками, так и с человеческими оценками. Все они последовательно показывают, что настройки ModernMT регулярно превосходят большинство других в независимых сравнительных оценках. Силы, обеспечивающие эту превосходную производительность, являются результатом философии дизайна и долгосрочного сотрудничества человека и машины, которые не могут быть легко воспроизведены другими.
Недавние сравнительные оценки, проведенные независимыми третьими сторонами, также подтверждают это предпочтение с использованием различных методов оценки, которые включают как человеческие, так и автоматизированные показатели, как показано ниже. Вполне разумно предположить, что это преимущество в производительности сохранится, по крайней мере, в краткосрочной перспективе.
Конфиденциальность данных
В ответ на вопрос о конфиденциальности данных Давиде Кароселли, вице-президент по продуктам ModernMT, ответил: «Любой контент, отправленный в ModernMT, будь то память «TMX» или исправление MTPE от профессионального переводчика, сохраняется в области личных данных пользователя. Фактически, только вы сможете получить доступ к своим ресурсам и настроить ModernMT под них; никоим образом другой пользователь не сможет использовать тот же инвентарь для своей системы, а сам ModernMT не сможет использовать это содержимое, кроме как исключительно для предложения вашей персонализированной услуги перевода.
Кроме того, ModernMT использует самые современные технологии шифрования для предоставления своих облачных услуг. Наши центры обработки данных, рабочие процессы и офисные операции сертифицированы по стандарту ISO 27001:2013».
Локальные возможности
В то время как основная часть текущей клиентской базы ModernMT работает с безопасным облачным развертыванием, команда ModernMT также определила ряд возможностей локального развертывания для тех предприятий, которые нуждаются в безопасности, контроле и гарантированной конфиденциальности данных, которые характеризуют некоторые национальные потребности. Безопасность, финансовые, юридические и медицинские/фармацевтические требования. Основы с открытым исходным кодом большей части инфраструктуры ModernMT должны сделать ее особенно интересной для правительственных разведывательных и правоохранительных органов США, которым требуются крупномасштабные многоязычные возможности обработки данных для приложений обнаружения электронных данных и наблюдения за социальными сетями.
Учитывая, что ModernMT — это платформа машинного перевода с непрерывным обучением, которая динамически обучается при каждом исправлении, существует потребность в большей инфраструктуре графического процессора, чем в некоторых других локальных решениях на рынке. Тем не менее, большое внимание уделяется эффективности вычислений, чтобы свести к минимуму ИТ-пространство, необходимое для его развертывания на предприятии, и, судя по предоставленной мне информации, их возможности очень похожи на конкурентные альтернативы как с точки зрения требований к оборудованию, так и цен на программное обеспечение. Затраты на оборудование связаны с ожидаемой пропускной способностью, поскольку для удовлетворения высоких требований к пропускной способности требуется больше оборудования. Как и в случае с большинством возможностей машинного обучения, только предприятия с компетентными ИТ-командами могут реализовать это как внутреннее развертывание, и большинство LSP и отделов локализации увидят более низкую общую стоимость владения при развертывании в облаке.
Готовность предприятия
Поскольку ModernMT развился из мира локализации, он уже оптимизирован для случаев использования MT, где существует значительная потребность в подходе, ориентированном на человека. Мы все больше и больше видим эту модель в качестве предпочтительного подхода для взрывных объемов контента локализации. Вариант использования локализации, возможно, является наиболее сложным вариантом использования машинного перевода, поскольку он требует очень высокого качества начального вывода, с которым переводчики готовы работать, и может быть доказано, что машинный перевод повышает производительность и эффективность.Варианты использования локализации. требуют высочайшего качества выходных данных машинного перевода с самого начала по сравнению с вариантами использования, связанными с обнаружением электронных данных, наблюдением в социальных сетях, электронной коммерцией, обслуживанием клиентов и поддержкой, которые более терпимы к более низкому качеству выходных данных машинного перевода для гораздо больших объемов данных. Очень немногие разработчики машинного перевода добились успеха в высоком качестве и быстром реагировании, необходимых для варианта использования локализации, и многие пытались и потерпели неудачу. Вот почему внедрение машинного перевода LSP так низко. Однако успех ModernMT в сложном сценарии использования локализации дает им очень хорошие позиции для других вариантов использования MT, что доказывает их растущий успех в этих других вариантах использования.
Пример ASTW иллюстрирует успех ModernMT в переводах, ориентированных на интеллектуальную собственность (патенты) и науки о жизни, где простота настройки сложной терминологии и морфологии, способность непрерывно и быстро учиться на корректирующей обратной связи и превосходный опыт MTPE по сравнению по сравнению с другими решениями машинного перевода быстро сделало его предпочтительным решением.
ModernMT в настоящее время является нашим любимым механизмом машинного перевода, особенно в «патентных переводах и в секторе наук о жизни, поскольку он оказался надежным, эффективным, качественно лучше своих конкурентов, легко настраиваемым и выгодно с точки зрения стоимости».
Мы видим, что гиганты электронной коммерции понимают положительное влияние перевода огромных объемов каталога и пользовательского CX-контента на стимулирование роста международной выручки на примере eBay, Amazon и Alibaba. ModernMT теперь является механизмом машинного перевода, обеспечивающим многоязычное расширение веб-контента Airbnb и переводящим для них многие миллиарды слов в месяц. Пользовательский контент влияет на будущих клиентов, и перевод этого контента имеет большое значение для стимулирования и развития международного бизнеса. Интересно, что ModernMT начал эту инициативу почти без памяти переводов, и ему пришлось выполнять специализированный эвристический анализ контента Airbnb для создания учебного материала.
ModernMT достиг этого уровня с очень небольшими инвестициями в инфраструктуру продаж и маркетинга. По мере того, как это будет развиваться и расширяться, я буду удивлен, если ModernMT не продолжит расширять и расширять свое корпоративное присутствие, поскольку корпоративные покупатели начинают понимать, что тесно интегрированная платформа для совместной работы человека и машины, которая постоянно обучается, является ключом к созданию успешных результатов MT. . Я знаю, что ведется много других громких корпоративных дискуссий, и я ожидаю, что большинство корпоративных покупателей, которые оценят платформу ModernMT, скорее всего, сочтут ее предпочтительным и экономичным способом реализации крупномасштабных решений MT таким образом, чтобы резко повышает вероятность успеха.
Будущие направления
Давиде также упомянул мне, что его команда тесно связана с сообществом ИИ в Италии, экспериментировала с GPT-3 и BERT и будет продолжать делать это до тех пор, пока не появятся четкие приложения с добавленной стоимостью, которые поддерживают и улучшают их продукт машинного перевода. ModernMT имеет тесные отношения с Pi Campus и, таким образом, регулярно взаимодействует со светилами в сообществе ИИ, например. Лукаш Кайзер, который расскажет об улучшениях в архитектуре Transformer в конце этого месяца.
С другой стороны, несколько месяцев назад я участвовал в ответе на вопрос, заданный Лукой ДиБиасе, директором по исследованиям Imminent. Тот же вопрос он задавал многим светилам переводческой индустрии, а также мне. Вопрос уже вызвал несколько дискуссий в Твиттере.
Язык — это технология или культура?
Мой ответ был следующим, но я думаю, что вы можете найти многие другие ответы более интересными и полными, если вы перейдете по этой ссылке или посмотрите некоторые из других комментариев в Твиттере.
Ни то, ни другое. Язык — это средство общения и протокол обмена информацией, в котором используются звуки, символы и жесты. Язык иногда может использовать технологии для усиления, расширения охвата сообщений и ускорения обмена информацией и знаниями. Язык может создать культуру, если он используется в группе и используется в соответствии с хорошо понятными протоколами и нормами. Межкультурная коммуникация может также означать межвидовое общение, например, при общении с собаками и лошадьми.
Исследовательский центр Translated только что выпустил публикацию Imminent, отличающуюся особым стилем в сочетании с интересным содержанием, которое, я думаю, большинство представителей языковой индустрии сочтет привлекательным и заслуживающим пристального внимания.
Первоначально опубликовано на https://kv-emptypages.blogspot.com.