Наше стремление к пониманию моделей ИИ никогда не закончится, поскольку у нас есть так много моделей, методов и наборов данных с открытым исходным кодом, доступных для всех типов потребностей ИИ. От языковых моделей до простых моделей обнаружения, которые дают двоичные результаты, которые в дальнейшем можно использовать в качестве обучающих данных для моделей машинного обучения и тому подобного.

Недавно компания Meta опубликовала новое исследование и предложила SeamlessM4T: многоязычный и мультимодальный машинный перевод!



На шаг дальше в больших языковых моделях

Что нужно для создания Babel Fish — инструмента, который поможет людям переводить речь на любые два языка?

В то время как недавние прорывы в текстовых моделях позволили расширить охват машинного перевода за пределы 200 языков, унифицированные модели перевода речи в речь еще не достигли аналогичных успехов.

В частности, традиционные системы перевода речи в речь полагаются на каскадные системы, состоящие из множества подсистем, выполняющих перевод постепенно, что делает недоступными масштабируемые и высокопроизводительные унифицированные системы перевода речи.

Чтобы устранить эти пробелы, Meta представляет SeamlessM4T — многоязычный и мультимодальный машинный перевод — единую модель, которая поддерживает перевод речи в речь, перевод речи в текст, перевод текста в речь, перевод текста в текст и автоматическое распознавание речи на 100 языках.

Для этого Meta использовала 1 миллион часов аудиоданных открытой речи для изучения речевых представлений с самоконтролем с помощью w2v-BERT 2.0. Впоследствии мы создали мультимодальный корпус автоматически выровненных речевых переводов, получивший название SeamlessAlign.

В ходе этого исследования, отфильтрованного и объединенного с размеченными людьми и псевдоразмеченными данными (всего 406 000 часов), была разработана первая многоязычная система, способная переводить с английского языка и на него как речь, так и текст.

На Fleurs SeamlessM4T устанавливает новый стандарт перевода на несколько целевых языков, достигая улучшения на 20 % BLEU по сравнению с предыдущим уровнем развития прямого перевода речи в текст.

По сравнению с сильными каскадными моделями, SeamlessM4T повышает качество перевода на английский язык на 1,3 балла BLEU при преобразовании речи в текст и на 2,6 балла ASR-BLEU при преобразовании речи в речь.

При использовании CVSS и по сравнению с двухэтапной каскадной моделью преобразования речи в речь производительность SeamlessM4T-Large выше на 58%.

Предварительные человеческие оценки результатов перевода речи в текст показали столь же впечатляющие результаты; что касается переводов с английского, баллы XSTS для 24 оцениваемых языков стабильно превышают 4 (из 5).

Что касается английского языка, то произошло значительное улучшение по сравнению с базовым уровнем WhisperLarge-v2 для 7 из 24 языков. Для дальнейшей оценки нашей системы мы разработали Blaser 2.0, который позволяет оценивать речь и текст с той же точностью, что и его предшественник, когда дело касается оценки качества.

Проверенная на надежность, наша система лучше справляется с фоновыми шумами и изменениями динамиков при преобразовании речи в текст (в среднем улучшение составляет 38 % и 49 % соответственно) по сравнению с современная современная модель.

Крайне важно отметить, что исследователи оценили SeamlessM4T с точки зрения гендерной предвзятости и дополнительной токсичности для оценки безопасности перевода. По сравнению с современным уровнем техники мы сообщаем о снижении дополнительной токсичности в наших результатах перевода до 63%.

Наконец, весь вклад в эту работу, включая модели, код вывода, рецепты тонкой настройки, поддерживаемые нашим улучшенным набором инструментов моделирования Fairseq2, и метаданные для воссоздания нефильтрованных 470 000 часов работы SeamlessAlign, находятся в открытом доступе.



Подпишитесь, чтобы узнать больше об искусственном интеллекте! Путешествие — ИИ Жасмин Бхарадия