- Полууправляемый нейронный машинный перевод с регуляризацией согласованности для языков с низким уровнем ресурсов (arXiv)
Автор: Вьет Х. Фам, Тханг М. Фам, Джианг Нгуен, Лонг Нгуен, Дьен Динь.
Аннотация: Появление глубокого обучения привело к значительному прогрессу в машинном переводе. Однако для большинства исследований требовался большой параллельный набор данных, который является дефицитным и дорогостоящим для создания и даже недоступен для некоторых языков. В этой статье представлен простой, но эффективный метод решения этой проблемы для языков с низким уровнем ресурсов путем добавления высококачественных пар предложений и обучения моделей NMT в полууправляемой манере. В частности, наш подход сочетает в себе кросс-энтропийную потерю для контролируемого обучения с KL-дивергенцией для неконтролируемой моды с учетом псевдо- и расширенных целевых предложений, полученных из модели. Мы также представляем фильтр на основе SentenceBERT для повышения качества дополненных данных за счет сохранения семантически схожих пар предложений. Экспериментальные результаты показывают, что наш подход значительно улучшает базовые показатели NMT, особенно для наборов данных с низким уровнем ресурсов с показателем BLEU 0,46–2,03. Мы также демонстрируем, что использование обучения без учителя для дополненных данных более эффективно, чем повторное использование целевых предложений, основанных на реальных данных, для обучения с учителем.
2. Выборочная дистилляция знаний для неавторегрессивного нейронного машинного перевода (arXiv)
Автор: Минь Лю, Юй Бао, Чэнци Чжао, Шуцзянь Хуан.
Аннотация: Благодаря извлечению знаний на уровне последовательности неавторегрессионный преобразователь (NAT) достигает больших успехов в задачах нейронного машинного перевода. Однако существующая дистилляция знаний имеет побочные эффекты, такие как распространение ошибок от учителя к учащимся NAT, что может ограничивать дальнейшее совершенствование моделей NAT и редко обсуждается в существующих исследованиях. В этой статье мы представляем выборочную дистилляцию знаний, вводя оценщик NAT для выбора удобных для NAT целей, которые имеют высокое качество и просты в освоении. Кроме того, мы представляем простой, но эффективный метод прогрессивной дистилляции для повышения производительности NAT. Результаты экспериментов с несколькими языковыми направлениями WMT и несколькими репрезентативными моделями NAT показывают, что наш подход может реализовать гибкий компромисс между качеством и сложностью обучающих данных для моделей NAT, достигая высокой производительности. Дальнейший анализ показывает, что удаление только 5% необработанных переводов может помочь NAT превзойти своего аналога, обученного на необработанных данных, примерно на 2,4 BLEU.