Объяснение документов 08: DeBERTa

DeBERTa (BERT с улучшенным декодированием и распутанным вниманием) улучшает модели BERT и RoBERTa, используя два новых метода.

Первый — это механизм распутанного внимания, в котором каждое слово представлено с помощью двух векторов, которые кодируют его содержимое и позицию соответственно, а весовые коэффициенты внимания среди слов вычисляются с использованием распутанных матриц их содержания и относительных позиций соответственно.
Во-вторых, усовершенствованный декодер маски используется для включения абсолютных позиций в слой декодирования для прогнозирования замаскированных токенов при предварительном обучении модели.
Кроме того, для тонкой настройки для улучшения обобщения моделей используется новый метод обучения виртуальных противников.

Распутанное внимание

В отличие от BERT, где каждое слово во входном слое представлено с помощью вектора, который представляет собой сумму встраивания его слова (содержимого) и встраивания позиции, каждое слово в DeBERTa представлено с помощью двух векторов, которые кодируют его содержимое и положение соответственно, а внимание веса среди слов вычисляются с использованием распутанных матриц на основе их содержания и относительного положения соответственно. Это мотивировано наблюдением, что вес пары слов зависит не только от их содержания, но и от их относительного положения.

Для маркера в позиции i в последовательности мы представляем его с помощью двух векторов, {Hi} и {Pi,j}, которые представляют его содержимое и относительное положение с маркером в позиции j соответственно. Расчет перекрестного внимания между токенами i и j можно разбить на четыре компонента:

То есть вес внимания пары слов может быть вычислен как сумма четырех оценок внимания с использованием распутанных матриц их содержания и позиций как содержание-к-содержимому, содержание-к-позиции, позиция-к-содержимому и позиция-к-контенту. к-позиция.

Взяв в качестве примера одностороннее внимание, стандартную операцию само-внимания можно сформулировать следующим образом:

Обозначим k как максимальное относительное расстояние, δ как относительное расстояние от маркера i до маркера j, которое определяется как:

Мы можем представить распутанное внимание к себе со смещением относительной позиции как

Улучшенный декодер маски

DeBERTa включает абсолютные вложения позиций слов прямо перед уровнем softmax, где модель декодирует замаскированные слова на основе агрегированных контекстных вложений содержимого и позиций слов.

Есть два метода включения абсолютных позиций. Модель BERT включает абсолютные позиции во входном слое. В DeBERTa мы включаем их сразу после всех слоев Transformer, но перед слоем softmax для прогнозирования маскированных токенов. Таким образом, DeBERTa фиксирует относительные позиции во всех слоях Transformer и использует только абсолютные позиции в качестве дополнительной информации при декодировании замаскированных слов. Таким образом, мы называем компонент декодирования DeBERTa Enhanced Mask Decoder (EMD).

Точная настройка инварианта масштаба

SiFT — это новый алгоритм обучения виртуальных противников, который повышает стабильность обучения за счет применения возмущений к нормализованным вложениям слов.

В частности, при тонкой настройке DeBERTa для последующей задачи НЛП в экспериментах SiFT сначала нормализует векторы встраивания слов в стохастические векторы, а затем применяет возмущение к нормализованным векторам вложения. Было обнаружено, что нормализация существенно повышает производительность точных моделей. Улучшение более заметно для более крупных моделей DeBERTa.

Бумага

DeBERTa: BERT с улучшенным декодированием и распутанным вниманием 2006.03654

Просмотреть все темы этой серии здесь

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning