Машинное обучение и персонал
Мой страх перед машинным обучением заменит меня как языкового специалиста - и почему мне нужно его преодолеть.
В начале 2017 года Booking.com стала одной из ведущих компаний, экспериментировавших с нейронным машинным переводом (NMT). Не волнуйтесь, я объясню, что это такое, позже.
Инновации всегда были одной из ключевых движущих сил успеха Booking.com, поэтому это неудивительно. Но для людей вроде меня, которые зарабатывают переводом и локализацией, новости также открыли ящик пандоры гипотетических ситуаций, когда нас заменяют боты, работающие с данными.
Как языковые специалисты, мы не полагаемся только на наши знания при переводе и локализации контента. Мы тоже используем данные; например, воспоминания о переводах, которые представляют собой списки предыдущих переводов, над которыми мы работали. Используя эти воспоминания, мы можем переводить контент в зависимости от контекста, который подходит для местного рынка и клиента (что является ключевым отличием перевода от локализации).
Использование данных в форме пассивной памяти переводов звучит довольно мягко по сравнению с NMT. Недавно я посетил конференцию по Data Science, организованную для сообщества Data Science на Booking.com, где присутствовали представители офисов по всему миру. Больше всего меня заинтриговала презентация о нейронном машинном переводе на Booking.com. В докладе, представленном Нишикант Дханука, старшим специалистом по данным, возглавляющим команду, работающую над нейронным машинным переводом (NMT), было рассмотрено, как и где машинное обучение, управляемое данными, используется в этой новой области. Причина, по которой эта презентация мне понравилась, заключалась в том, что я надеялся, что она наконец-то прольет свет на головоломку между языковым специалистом и машинным переводом.
Нейронный машинный перевод на Booking.com
На Booking.com описания отелей, номеров и названия отелей переводятся командами переводчиков-фрилансеров на 43 языка. Эти фрилансеры используют Инструменты перевода Google, основанные на методе статистического машинного перевода (SMT). Для турецкого языка SMT не лучше тостера при переводе творческих текстов, таких как идиомы, тогда как NMT больше похож на Аву из Ex Machina, пугающе близкую к человеку. Позвольте мне объяснить почему:
SMT разбивает исходное предложение на части, а затем переводит эти части по фразе. Для языковых пар, таких как английский-турецкий, результатом текстов, созданных с помощью SMT, часто является неправильный (и в основном веселый) перевод. Представьте, что вы читаете о том, как кто-то буквально жарит большую рыбу в середине предложения о чьем-то карьерном росте. Именно так Google переводит английскую идиому «есть рыба побольше для жарки» на турецкий. Вот где SMT сильно отстает от способности человека понимать текст как часть контекста. В результате тексты, созданные с помощью SMT, нуждаются в серьезном редактировании нашими фрилансерами, прежде чем они станут удобочитаемыми.
Турецкий язык недавно стал одним из языков, тестируемых с помощью NMT. Этот процесс требует сочетания автоматизированной и человеческой оценки текста, переведенного с помощью NMT, чтобы обеспечить глубокое обучение алгоритма. С человеческой стороны нужна была помощь моей команды. Я был уверен, что NMT постигнет участь текстов SMT, но результаты доказали обратное. За редким исключением, тексты выглядели так, как будто они были работой лингвиста-человека.
Сценарии судного дня
Один из первых вопросов, который задали после презентации NMT на конференции, был: «Когда эти алгоритмы сделают нашу работу устаревшей?» Я уже работал над подобными сценариями ужасов в своей голове. Услышав такое же беспокойство, высказанное кем-то из технических специалистов, подтвердили только те сценарии, которые я придумал. Но Дханука поспешил заявить, что NMT будет использоваться только для менее креативных текстов, и добавил, что люди всегда будут частью процесса, помогающего этим алгоритмам работать.
Я понял это только позже: я был настроен скептически, потому что боялся, что меня заменят технологии, и мой страх мешал осознать, что эти алгоритмы могут выполнять рутинные части моей работы за меня. Я не видел, чтобы эти алгоритмы позволили мне сосредоточиться на более творческой и полезной работе. Я слишком много внимания уделял тому, что могло пойти не так, чтобы понять преимущества.
Проблема, с которой я столкнулся с этой новой технологией, напомнила мне интервью с Кевином Келли, редактором-основателем WIRED и философом в области технологий. Келли объясняет, как технологии последнего десятилетия превратились из полезного инструмента в нечто очень близкое к нашему собственному существу. Возникает вопрос: Кто мы?, И тот же вопрос применим к NMT. Если эти технологии постепенно приближаются к тому, чтобы выполнять работу лингвиста-человека, тогда в чем состоит моя работа?
Этот вопрос имеет экзистенциальный характер, и это может быть источником моего страха, но я не могу найти ответ на этот вопрос, избегая технологий. Технологии развиваются вместе с нами, хотим мы того или нет. Мой скептицизм не заставляет NMT уйти - мне только трудно понять, где я вписываюсь в эту картину. У меня нет возможности остановить эволюцию этой технологии, но я могу понять, как использовать ее в своих интересах.
Как специалисту по языкам, работающему с людьми, которые предоставляют одни из лучших локализованных продуктов, необходимо пересмотреть нашу роль с помощью развивающихся технологий, чтобы оставаться лучшими. Единственный способ сделать это - погрузиться глубже и лучше узнать эти технологии.
Мы всегда ищем новых специалистов по локализации. Хочешь к нам присоединиться? Подайте заявку здесь.