Преодоление проблем с данными в нейронном машинном переводе

С развитием глубоких нейронных сетей точность машинного перевода значительно повысилась, но проблема межъязыкового общения человека не решена. Например, в задачах высокоточного синхронного перевода машинный перевод все еще нуждается в доработке. Для перевода романов машинный перевод не сравним с человеческим переводом.

Проблемы машинного перевода

● Подборка переводов

Человеческий язык очень широк и глубок, и явление полисемии очень распространено. Возьмем, к примеру, китайский и английский языки, смотреть может означать смотреть, видеть, смотреть, читать и т. д. Это требует, чтобы машинный перевод не был простым преобразованием слов, а должен был сделать правильный выбор перевода после знания подлежащего и сказуемого. разными словами и словосочетаниями.

● Регулировка порядка слов

В зависимости от языкового и культурного происхождения, привычки людей выражать свои мысли также различны. Например, китайцы часто говорят перевернутые предложения. Обычно субъект, глагол и дополнение, выраженные в китайском языке, могут стать субъектом, дополнением и глаголом в японском языке. Чем длиннее предложение, тем сложнее корректировка порядка слов.

● Скудный учебный корпус

В настоящее время в мире существует более 5000 языков, и машины могут делать только наиболее часто используемые языки, основанные на статистических результатах больших данных. Обучающие данные на рынке в основном сосредоточены на нескольких широко используемых языках, а на другие языки приходится очень мало.

Учитывая нехватку языковых корпусов меньшинств, профессиональные поставщики данных могут помочь исследователям быстрее собирать языковые корпуса. Datatang накопил около 2 миллиардов единиц данных обработки естественного языка (NLP), охватывающих параллельный корпус в более чем 30 странах.

Данные китайско-английского параллельного корпуса

3 060 000 наборов параллельных переводов между китайским и английским языками. Он хранится в txt файлах. Он охватывает такие файлы, как путешествия, медицина, ежедневные и телевизионные игры. Были проведены очистка данных, десенсибилизация и проверка качества. Его можно использовать в качестве основной базы данных корпуса в текстовом файле данных, а также использовать в машинном переводе.

Китайско-корейские параллельные корпусные данные

5 280 000 наборов параллельных переводов между Китаем и Кореей, которые хранятся в текстовых файлах. Он охватывает многие области, включая путешествия, медицину, ежедневные телеигры. Были проведены очистка данных, десенсибилизация и проверка качества. Его можно использовать в качестве основной базы данных корпуса в текстовом файле данных, а также использовать в машинном переводе.

Параллельные данные японско-английского языка

Японский и английский параллельный корпус, всего 380 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.

Данные англо-корейского параллельного корпуса

Английский и корейский параллельный корпус, всего 1340 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.

Китайско-французские параллельные корпусные данные

1 миллион пар предложений — данные китайско-французского параллельного корпуса должны храниться в формате txt. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, телевизионные игры и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.

Данные китайско-японского параллельного корпуса

2 миллиона пар предложений — данные китайско-японского параллельного корпуса должны храниться в формате txt. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, телевизионные игры и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.

Данные англо-русского параллельного корпуса

Английский и русский параллельные корпуса, всего 1 080 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.

Данные китайско-германского параллельного корпуса

5,14 миллиона пар предложений — данные китайско-германского параллельного корпуса хранятся в текстовом формате. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, новости и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.

Конец

Если вам нужны услуги передачи данных, свяжитесь с нами: info@datatang.com.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning