- GLUE-X: оценка моделей понимания естественного языка с точки зрения обобщения вне распространения (arXiv)
Автор: Линьи Ян, Шуйбай Чжан, Либо Цинь, Яфу Ли, Йидун Ван, Ханьмэн Лю, Цзиндун Ван, Син Се, Юэ Чжан.
Аннотация: Известно, что предварительно обученные языковые модели (PLM) улучшают производительность обобщения моделей понимания естественного языка за счет использования больших объемов данных на этапе предварительного обучения. Однако проблема обобщения вне распределения (OOD) остается проблемой во многих задачах НЛП, что ограничивает применение этих методов в реальном мире. В этой статье представлена первая попытка создания единого эталонного теста под названием GLUE-X для оценки надежности OOD в моделях NLP, подчеркивая важность надежности OOD и предоставляя информацию о том, как измерить надежность модели и как ее улучшить. Эталонный тест включает 13 общедоступных наборов данных для тестирования OOD, и оценки проводятся по 8 классическим задачам NLP по 21 широко используемому PLM, включая GPT-3 и GPT-3.5. Наши результаты подтверждают необходимость повышения точности OOD в задачах NLP, поскольку значительное снижение производительности наблюдалось во всех настройках по сравнению с точностью в распределении (ID).
2. Использование утвердительных интерпретаций отрицания улучшает понимание естественного языка (arXiv)
Автор: Md Mosharaf Hossain, Eduardo Blanco.
Аннотация: Отрицание представляет собой проблему во многих задачах понимания естественного языка. Вдохновленные тем фактом, что понимание отрицаемого утверждения часто требует от людей вывода утвердительных интерпретаций, в этой статье мы показываем, что это приносит пользу моделям для трех задач понимания естественного языка. Мы представляем автоматизированную процедуру сбора пар предложений с отрицанием и их утвердительных интерпретаций, в результате чего получается более 150 000 пар. Экспериментальные результаты показывают, что использование этих пар помогает (а) T5 генерировать утвердительные интерпретации отрицаний в предыдущем тесте, и (б) классификатор на основе RoBERTa решает задачу вывода на естественном языке. Мы также используем наши пары для создания нейронного генератора plug-and-play, который при наличии отрицания утверждения генерирует утвердительную интерпретацию. Затем мы включаем предварительно обученный генератор в классификатор на основе RoBERTa для анализа настроений и показываем, что это улучшает результаты. Важно отметить, что наше предложение не требует каких-либо ручных усилий.