Представление на уровне предложения было горячей темой в НЛП. До BERT мы использовали усреднение вложений слов в предложение из модели word2vec. В эпоху BERT мы используем модель большого языка, используя токен CLS для представления на уровне предложений.
В этой статье представлена SimCSE (простая структура встраивания контрастных предложений), документ, принятый на EMNLP2021. Бумага и код.
Я представлю эту статью в четырех разделах: фон контрастного обучения, SimCSE без учителя, анизотропия и результаты эксперимента. Обратите внимание, что в документе также обсуждается контролируемая версия, но она не является предметом этой статьи.
Контрастный фон обучения
Цель контрастивного обучения состоит в том, чтобы сгруппировать схожие точки данных и «оттолкнуть» разнородные в пространстве встраивания. Входные данные представляют собой набор парных примеров, где две точки данных в паре семантически связаны. Затем цель обучения показана ниже, где h — встраивание предложений из моделей BERT.
Обычно мы должны построить пару в мини-пакете. В задачах CV мы можем просто повернуть или перевернуть картинку, чтобы получить качественную «семантически» связанную картинку. Но в задачах НЛП наивная модификация, даже простое переключение предложения, может радикально изменить его абстрактное значение.
Основным вкладом этой статьи является использование стандартной операции отсева для создания высококачественных обучающих пар. Он масштабируем и лучше подходит для обычного увеличения данных, используемого в задачах НЛП.
Как измерить качество контрастного обучения? Ответ — согласованность и единообразие. Выравнивание используется для расчета ожидаемого расстояния между парами, в то время как однородность используется для измерения того, насколько разбросаны вложения. (представьте, что вложения образуют гиперсферу в скрытом пространстве) Для подробного анализа проверьте бумагу Понимание обучения контрастному представлению через выравнивание и единообразие на гиперсфере.
SimCSE без присмотра
Учитывая набор предложений, мы используем одно и то же предложение дважды в качестве входных данных и получим два разных вложения из-за операции исключения в модели BERT. Затем мы используем эти два в качестве положительной пары для цели обучения. Это очень полезно и просто по идее: встраивания никогда не бывают одинаковыми даже для одного и того же предложения с самого начала, поэтому естественным образом происходит минимальное увеличение данных.
На приведенном ниже рисунке авторы сравнивают производительность стандартного исключения и других методов увеличения, таких как обрезка, удаление слов, замена синонимов или модель маскированного языка.
Кроме того, в документе показано, что цель обучения неконтролируемого SimCSE лучше, чем традиционное предсказание следующего предложения и два отдельных кодировщика.
Согласно эксперименту, производительность является наилучшей, когда показатель отсева составляет 0,1.
Проблема анизотропии
Это относится к проблеме того, что выученные вложения занимают узкий конус в векторном пространстве, что сильно ограничивает их выразительность. Это естественным образом связано с однородностью: оба говорят о том, что вложения должны быть равномерно распределены в скрытом пространстве.
Два предыдущих способа решения проблемы:
- постобработка: устранение компонентов доминирующего принципа или сопоставление вложений с изотропными распределениями. Проверьте эту бумагу Отбеливание представлений предложений для лучшей семантики и более быстрого поиска для получения дополнительной информации.
- добавить регуляризацию во время обучения: проверьте эту бумагу Улучшение генерации нейронного языка с помощью управления спектром для управления спектром.
Цель обучения для контрастного обучения в этой статье может быть выражена следующим уравнением, где первый член сохраняет сходство положительных примеров, а второй раздвигает отрицательные пары:
Результаты тестовых задач STS
Тестовые задачи семантического текстового сходства (STS) за 2012–2016 годы (STS12, STS13, STS14, STS15, STS16, STS-B) измеряют родство двух предложений на основе косинусного сходства двух представлений. Критерием оценки является корреляция Пирсона.
Задача связанности SICK (SICK-R) обучает линейную модель выводить оценку от 1 до 5, указывающую на связанность двух предложений. Для того же набора данных (SICK-E) можно рассматривать как проблему классификации трех классов с использованием меток следствия (классы — «связь», «противоречие» и «нейтральный»). Показателем оценки для SICK-R является корреляция Пирсона и точность классификации для SICK-E.
Результат SOTA для SimCSE показан ниже.
Рекомендации
- https://arxiv.org/abs/2104.08821
- https://github.com/princeton-nlp/SimCSE
- Jianlin Su, Jiarun Cao, Weijie Liu и Yangyiwen Ou.
2021. Отбеливание представлений предложений для лучшей семантики
ter и более быстрого поиска. Препринт arXiv
arXiv:2103.15316. https://arxiv.org/pdf/2103.15316.pdf - Линсяо Ван, Цзин Хуан, Кевин Хуан, Цзиниу Ху,
Гуантао Ван и Цюаньцюань Гу. 2020. Улучшение генерации нейронного языка с контролем спектра. В Международной конференции по обучению Репрезентация
(ICLR). https://openreview.net/forum?id=ByxY8CNtvr - Тунчжоу Ван и Филипп Изола. 2020. Понимание обучения контрастному представлению посредством
выравнивания и единообразия на гиперсфере. В Межнациональной конференции по машинному обучению (ICML),
страницы 9929–9939. https://proceedings.mlr.press/v119/wang20k/wang20k.pdf - https://nlpprogress.com/english/semantic_textual_similarity.html