DeBERTa (BERT с улучшенным декодированием и распутанным вниманием) улучшает модели BERT и RoBERTa, используя два новых метода.

  • Первый — это механизм распутанного внимания, в котором каждое слово представлено с помощью двух векторов, которые кодируют его содержимое и позицию соответственно, а весовые коэффициенты внимания среди слов вычисляются с использованием распутанных матриц их содержания и относительных позиций соответственно.
  • Во-вторых, усовершенствованный декодер маски используется для включения абсолютных позиций в слой декодирования для прогнозирования замаскированных токенов при предварительном обучении модели.
  • Кроме того, для тонкой настройки для улучшения обобщения моделей используется новый метод обучения виртуальных противников.

Распутанное внимание

В отличие от BERT, где каждое слово во входном слое представлено с помощью вектора, который представляет собой сумму встраивания его слова (содержимого) и встраивания позиции, каждое слово в DeBERTa представлено с помощью двух векторов, которые кодируют его содержимое и положение соответственно, а внимание веса среди слов вычисляются с использованием распутанных матриц на основе их содержания и относительного положения соответственно. Это мотивировано наблюдением, что вес пары слов зависит не только от их содержания, но и от их относительного положения.

Для маркера в позиции i в последовательности мы представляем его с помощью двух векторов, {Hi} и {Pi,j}, которые представляют его содержимое и относительное положение с маркером в позиции j соответственно. Расчет перекрестного внимания между токенами i и j можно разбить на четыре компонента:

То есть вес внимания пары слов может быть вычислен как сумма четырех оценок внимания с использованием распутанных матриц их содержания и позиций как содержание-к-содержимому, содержание-к-позиции, позиция-к-содержимому и позиция-к-контенту. к-позиция.

Взяв в качестве примера одностороннее внимание, стандартную операцию само-внимания можно сформулировать следующим образом:

Обозначим k как максимальное относительное расстояние, δ как относительное расстояние от маркера i до маркера j, которое определяется как:

Мы можем представить распутанное внимание к себе со смещением относительной позиции как

Улучшенный декодер маски

DeBERTa включает абсолютные вложения позиций слов прямо перед уровнем softmax, где модель декодирует замаскированные слова на основе агрегированных контекстных вложений содержимого и позиций слов.

Есть два метода включения абсолютных позиций. Модель BERT включает абсолютные позиции во входном слое. В DeBERTa мы включаем их сразу после всех слоев Transformer, но перед слоем softmax для прогнозирования маскированных токенов. Таким образом, DeBERTa фиксирует относительные позиции во всех слоях Transformer и использует только абсолютные позиции в качестве дополнительной информации при декодировании замаскированных слов. Таким образом, мы называем компонент декодирования DeBERTa Enhanced Mask Decoder (EMD).

Точная настройка инварианта масштаба

SiFT — это новый алгоритм обучения виртуальных противников, который повышает стабильность обучения за счет применения возмущений к нормализованным вложениям слов.

В частности, при тонкой настройке DeBERTa для последующей задачи НЛП в экспериментах SiFT сначала нормализует векторы встраивания слов в стохастические векторы, а затем применяет возмущение к нормализованным векторам вложения. Было обнаружено, что нормализация существенно повышает производительность точных моделей. Улучшение более заметно для более крупных моделей DeBERTa.

Бумага

DeBERTa: BERT с улучшенным декодированием и распутанным вниманием 2006.03654

Просмотреть все темы этой серии здесь