Представление на уровне предложения было горячей темой в НЛП. До BERT мы использовали усреднение вложений слов в предложение из модели word2vec. В эпоху BERT мы используем модель большого языка, используя токен CLS для представления на уровне предложений.

В этой статье представлена ​​SimCSE (простая структура встраивания контрастных предложений), документ, принятый на EMNLP2021. Бумага и код.

Я представлю эту статью в четырех разделах: фон контрастного обучения, SimCSE без учителя, анизотропия и результаты эксперимента. Обратите внимание, что в документе также обсуждается контролируемая версия, но она не является предметом этой статьи.

Контрастный фон обучения

Цель контрастивного обучения состоит в том, чтобы сгруппировать схожие точки данных и «оттолкнуть» разнородные в пространстве встраивания. Входные данные представляют собой набор парных примеров, где две точки данных в паре семантически связаны. Затем цель обучения показана ниже, где h — встраивание предложений из моделей BERT.

Обычно мы должны построить пару в мини-пакете. В задачах CV мы можем просто повернуть или перевернуть картинку, чтобы получить качественную «семантически» связанную картинку. Но в задачах НЛП наивная модификация, даже простое переключение предложения, может радикально изменить его абстрактное значение.

Основным вкладом этой статьи является использование стандартной операции отсева для создания высококачественных обучающих пар. Он масштабируем и лучше подходит для обычного увеличения данных, используемого в задачах НЛП.

Как измерить качество контрастного обучения? Ответ — согласованность и единообразие. Выравнивание используется для расчета ожидаемого расстояния между парами, в то время как однородность используется для измерения того, насколько разбросаны вложения. (представьте, что вложения образуют гиперсферу в скрытом пространстве) Для подробного анализа проверьте бумагу Понимание обучения контрастному представлению через выравнивание и единообразие на гиперсфере.

SimCSE без присмотра

Учитывая набор предложений, мы используем одно и то же предложение дважды в качестве входных данных и получим два разных вложения из-за операции исключения в модели BERT. Затем мы используем эти два в качестве положительной пары для цели обучения. Это очень полезно и просто по идее: встраивания никогда не бывают одинаковыми даже для одного и того же предложения с самого начала, поэтому естественным образом происходит минимальное увеличение данных.

На приведенном ниже рисунке авторы сравнивают производительность стандартного исключения и других методов увеличения, таких как обрезка, удаление слов, замена синонимов или модель маскированного языка.

Кроме того, в документе показано, что цель обучения неконтролируемого SimCSE лучше, чем традиционное предсказание следующего предложения и два отдельных кодировщика.

Согласно эксперименту, производительность является наилучшей, когда показатель отсева составляет 0,1.

Проблема анизотропии

Это относится к проблеме того, что выученные вложения занимают узкий конус в векторном пространстве, что сильно ограничивает их выразительность. Это естественным образом связано с однородностью: оба говорят о том, что вложения должны быть равномерно распределены в скрытом пространстве.

Два предыдущих способа решения проблемы:

Цель обучения для контрастного обучения в этой статье может быть выражена следующим уравнением, где первый член сохраняет сходство положительных примеров, а второй раздвигает отрицательные пары:

Результаты тестовых задач STS

Тестовые задачи семантического текстового сходства (STS) за 2012–2016 годы (STS12, STS13, STS14, STS15, STS16, STS-B) измеряют родство двух предложений на основе косинусного сходства двух представлений. Критерием оценки является корреляция Пирсона.

Задача связанности SICK (SICK-R) обучает линейную модель выводить оценку от 1 до 5, указывающую на связанность двух предложений. Для того же набора данных (SICK-E) можно рассматривать как проблему классификации трех классов с использованием меток следствия (классы — «связь», «противоречие» и «нейтральный»). Показателем оценки для SICK-R является корреляция Пирсона и точность классификации для SICK-E.

Результат SOTA для SimCSE показан ниже.

Рекомендации