С развитием глубоких нейронных сетей точность машинного перевода значительно повысилась, но проблема межъязыкового общения человека не решена. Например, в задачах высокоточного синхронного перевода машинный перевод все еще нуждается в доработке. Для перевода романов машинный перевод не сравним с человеческим переводом.
Проблемы машинного перевода
● Подборка переводов
Человеческий язык очень широк и глубок, и явление полисемии очень распространено. Возьмем, к примеру, китайский и английский языки, смотреть может означать смотреть, видеть, смотреть, читать и т. д. Это требует, чтобы машинный перевод не был простым преобразованием слов, а должен был сделать правильный выбор перевода после знания подлежащего и сказуемого. разными словами и словосочетаниями.
● Регулировка порядка слов
В зависимости от языкового и культурного происхождения, привычки людей выражать свои мысли также различны. Например, китайцы часто говорят перевернутые предложения. Обычно субъект, глагол и дополнение, выраженные в китайском языке, могут стать субъектом, дополнением и глаголом в японском языке. Чем длиннее предложение, тем сложнее корректировка порядка слов.
● Скудный учебный корпус
В настоящее время в мире существует более 5000 языков, и машины могут делать только наиболее часто используемые языки, основанные на статистических результатах больших данных. Обучающие данные на рынке в основном сосредоточены на нескольких широко используемых языках, а на другие языки приходится очень мало.
Учитывая нехватку языковых корпусов меньшинств, профессиональные поставщики данных могут помочь исследователям быстрее собирать языковые корпуса. Datatang накопил около 2 миллиардов единиц данных обработки естественного языка (NLP), охватывающих параллельный корпус в более чем 30 странах.
Данные китайско-английского параллельного корпуса
3 060 000 наборов параллельных переводов между китайским и английским языками. Он хранится в txt файлах. Он охватывает такие файлы, как путешествия, медицина, ежедневные и телевизионные игры. Были проведены очистка данных, десенсибилизация и проверка качества. Его можно использовать в качестве основной базы данных корпуса в текстовом файле данных, а также использовать в машинном переводе.
Китайско-корейские параллельные корпусные данные
5 280 000 наборов параллельных переводов между Китаем и Кореей, которые хранятся в текстовых файлах. Он охватывает многие области, включая путешествия, медицину, ежедневные телеигры. Были проведены очистка данных, десенсибилизация и проверка качества. Его можно использовать в качестве основной базы данных корпуса в текстовом файле данных, а также использовать в машинном переводе.
Параллельные данные японско-английского языка
Японский и английский параллельный корпус, всего 380 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.
Данные англо-корейского параллельного корпуса
Английский и корейский параллельный корпус, всего 1340 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.
Китайско-французские параллельные корпусные данные
1 миллион пар предложений — данные китайско-французского параллельного корпуса должны храниться в формате txt. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, телевизионные игры и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.
Данные китайско-японского параллельного корпуса
2 миллиона пар предложений — данные китайско-японского параллельного корпуса должны храниться в формате txt. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, телевизионные игры и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.
Данные англо-русского параллельного корпуса
Английский и русский параллельные корпуса, всего 1 080 000 групп; исключена политическая, порнографическая, личная информация и другая чувствительная лексика; он может быть базовым корпусом для анализа текстовых данных, используемых в машинном переводе и других областях.
Данные китайско-германского параллельного корпуса
5,14 миллиона пар предложений — данные китайско-германского параллельного корпуса хранятся в текстовом формате. Он охватывает несколько областей, таких как туризм, лечение, повседневная жизнь, новости и т. д. Была проведена десенсибилизация данных и проверка качества. Его можно использовать в качестве базового корпуса для анализа текстовых данных в таких областях, как машинный перевод.
Конец
Если вам нужны услуги передачи данных, свяжитесь с нами: info@datatang.com.