DeBERTa (BERT с улучшенным декодированием и распутанным вниманием) улучшает модели BERT и RoBERTa, используя два новых метода.
- Первый — это механизм распутанного внимания, в котором каждое слово представлено с помощью двух векторов, которые кодируют его содержимое и позицию соответственно, а весовые коэффициенты внимания среди слов вычисляются с использованием распутанных матриц их содержания и относительных позиций соответственно.
- Во-вторых, усовершенствованный декодер маски используется для включения абсолютных позиций в слой декодирования для прогнозирования замаскированных токенов при предварительном обучении модели.
- Кроме того, для тонкой настройки для улучшения обобщения моделей используется новый метод обучения виртуальных противников.
Распутанное внимание
В отличие от BERT, где каждое слово во входном слое представлено с помощью вектора, который представляет собой сумму встраивания его слова (содержимого) и встраивания позиции, каждое слово в DeBERTa представлено с помощью двух векторов, которые кодируют его содержимое и положение соответственно, а внимание веса среди слов вычисляются с использованием распутанных матриц на основе их содержания и относительного положения соответственно. Это мотивировано наблюдением, что вес пары слов зависит не только от их содержания, но и от их относительного положения.
Для маркера в позиции i в последовательности мы представляем его с помощью двух векторов, {Hi} и {Pi,j}, которые представляют его содержимое и относительное положение с маркером в позиции j соответственно. Расчет перекрестного внимания между токенами i и j можно разбить на четыре компонента:
То есть вес внимания пары слов может быть вычислен как сумма четырех оценок внимания с использованием распутанных матриц их содержания и позиций как содержание-к-содержимому, содержание-к-позиции, позиция-к-содержимому и позиция-к-контенту. к-позиция.
Взяв в качестве примера одностороннее внимание, стандартную операцию само-внимания можно сформулировать следующим образом:
Обозначим k как максимальное относительное расстояние, δ как относительное расстояние от маркера i до маркера j, которое определяется как:
Мы можем представить распутанное внимание к себе со смещением относительной позиции как
Улучшенный декодер маски
DeBERTa включает абсолютные вложения позиций слов прямо перед уровнем softmax, где модель декодирует замаскированные слова на основе агрегированных контекстных вложений содержимого и позиций слов.
Есть два метода включения абсолютных позиций. Модель BERT включает абсолютные позиции во входном слое. В DeBERTa мы включаем их сразу после всех слоев Transformer, но перед слоем softmax для прогнозирования маскированных токенов. Таким образом, DeBERTa фиксирует относительные позиции во всех слоях Transformer и использует только абсолютные позиции в качестве дополнительной информации при декодировании замаскированных слов. Таким образом, мы называем компонент декодирования DeBERTa Enhanced Mask Decoder (EMD).
Точная настройка инварианта масштаба
SiFT — это новый алгоритм обучения виртуальных противников, который повышает стабильность обучения за счет применения возмущений к нормализованным вложениям слов.
В частности, при тонкой настройке DeBERTa для последующей задачи НЛП в экспериментах SiFT сначала нормализует векторы встраивания слов в стохастические векторы, а затем применяет возмущение к нормализованным векторам вложения. Было обнаружено, что нормализация существенно повышает производительность точных моделей. Улучшение более заметно для более крупных моделей DeBERTa.
Бумага
DeBERTa: BERT с улучшенным декодированием и распутанным вниманием 2006.03654
Просмотреть все темы этой серии здесь