С развитием глубоких нейронных сетей точность машинного перевода значительно повысилась, но проблема межъязыкового общения человека не решена. Например, в задачах высокоточного синхронного перевода машинный перевод все еще нуждается в доработке. Для перевода романов машинный перевод не сравним с человеческим переводом.

Проблемы машинного перевода

● Подборка переводов

Человеческий язык очень широк и глубок, и явление полисемии очень распространено. Возьмем, к примеру, китайский и английский языки, смотреть может означать смотреть, видеть, смотреть, читать и т. д. Это требует, чтобы машинный перевод не был простым преобразованием слов, а должен был сделать правильный выбор перевода после знания подлежащего и сказуемого. разными словами и словосочетаниями.

● Регулировка порядка слов

В зависимости от языкового и культурного происхождения, привычки людей выражать свои мысли также различны. Например, китайцы часто говорят перевернутые предложения. Обычно субъект, глагол и дополнение, выраженные в китайском языке, могут стать субъектом, дополнением и глаголом в японском языке. Чем длиннее предложение, тем сложнее корректировка порядка слов.

● Скудный учебный корпус

В настоящее время в мире существует более 5000 языков, и машины могут делать только наиболее часто используемые языки, основанные на статистических результатах больших данных. Обучающие данные на рынке в основном сосредоточены на нескольких широко используемых языках, а на другие языки приходится очень мало.

Учитывая нехватку языковых корпусов меньшинств, профессиональные поставщики данных могут помочь исследователям быстрее собирать языковые корпуса. Datatang накопил около 2 миллиардов единиц данных обработки естественного языка (NLP), охватывающих параллельный корпус в более чем 30 странах.

Данные китайско-английского параллельного корпуса

3 060 000 наборов параллельных переводов между китайским и английским языками. Он хранится в txt файлах. Он охватывает такие файлы, как путешествия, медицина, ежедневные и телевизионные игры. Были проведены очистка данных, десенсибилизация и проверка качества. Его можно использовать в качестве основной базы данных корпуса в текстовом файле данных, а также использовать в машинном переводе.

Китайско-корейские параллельные корпусные данные

5 280 000 наборов параллельных переводов между Китаем и Кореей, которые хранятся в текстовых файлах. Он охватывает многие области, включая путешествия, медицину, ежедневные телеигры. Были проведены очистка данных, десенсибилизация и проверка качества. Его можно использовать в качестве основной базы данных корпуса в текстовом файле данных, а также использовать в машинном переводе.

Параллельные данные японско-английского языка

Японский и английский параллельный корпус, всего 380 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.

Данные англо-корейского параллельного корпуса

Английский и корейский параллельный корпус, всего 1340 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.

Китайско-французские параллельные корпусные данные

1 миллион пар предложений — данные китайско-французского параллельного корпуса должны храниться в формате txt. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, телевизионные игры и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.

Данные китайско-японского параллельного корпуса

2 миллиона пар предложений — данные китайско-японского параллельного корпуса должны храниться в формате txt. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, телевизионные игры и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.

Данные англо-русского параллельного корпуса

Английский и русский параллельные корпуса, всего 1 080 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.

Данные китайско-германского параллельного корпуса

5,14 миллиона пар предложений — данные китайско-германского параллельного корпуса хранятся в текстовом формате. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, новости и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.

Конец

Если вам нужны услуги передачи данных, свяжитесь с нами: info@datatang.com.