Введение:
ERNIE 2.0 — это система непрерывного предварительного обучения для понимания языка, в которой предварительные задания можно постепенно создавать и изучать посредством многозадачного обучения.
Алгоритмы, предшествовавшие Эрни, в основном фокусировались на одновременном появлении слов и предложений, но вместе с тем Эрни привносит понимание на уровне токенов, на структурном уровне и на семантическом уровне.
Основное преимущество – непрерывное обучение. Направлено на обучение модели с помощью нескольких последовательных задач, чтобы она запоминала предыдущие задачи.
Ключевые вклады прошлых алгоритмов (2018–2019):
- ELMO — предлагаемые контекстно-зависимые функции из языковой модели.
- OPEN AI GPT — встроенные трансформеры
- BERT – Модель маскированного языка и задача прогнозирования предложения в ходе предварительного обучения.
- XLM — интегрирует кросс-язычные модели.
- MT-DNN — совместное изучение нескольких контролируемых задач в GLUE[14] на основе предварительно обученной модели.
- XLNET — обобщенный авторегрессионный метод предварительного обучения, который изучает двунаправленные контексты, максимизируя ожидаемую вероятность для всех перестановок порядка факторизации.
Структура модели:
- Transformer Encoder — Ernie 2.0 использует многоуровневый преобразователь, аналогичный BERT. Токен [CLS] добавляется в начало. Токен [SEP] добавляется между несколькими входными сегментами.
- Встраивание задачи. Каждой задаче присваивается уникальный идентификатор в диапазоне от 0 до nN.
- Вход в модель — Токен + Сегмент + Позиция + Встраивание задачи
Задания перед тренировкой:
Задачи Word Aware —
Задача маскирования знаний — прогноз всей замаскированной фазы и именованного объекта.
Задание на использование заглавных букв. Основано на предположении, что заглавные слова имеют большее семантическое значение. Помогает в задаче как НЭР.
Задача прогнозирования отношения токена к документу — чтобы предсказать, появляется ли токен в одном сегменте и в другом экземпляре. Помогает придать важность конкретным токенам.
Задачи с учетом структуры —
Изменение порядка предложений — абзац случайным образом разбивается на сегменты от 1 до m и применяется задача классификации k классов. Это помогает в изучении отношений между предложениями.
Задача на расстояние между предложениями. Это задача классификации 3-х классов, где «0 означает, что предложения являются смежными; «1» предложения находятся в одном документе, а «3» означает, что предложения находятся в другом документе.
Семантические задачи —
Задача на дискурсивные отношения — предсказать семантическую/риторическую связь между двумя предложениями.
Задача релевантности IR — это задача классификации 3-х классов, где «0» означает запрос, а заголовок строго подразумевается; «1» означает, что запрос и заголовок слабо подразумеваются, а «3» означает, что запрос и заголовок не имеют значения.