Руководство по применению НЛП с помощью больших предварительно обученных языковых моделей.

Когда мы думаем о поисковых системах, мы думаем о Google, возможно, именно так вы нашли этот пост. За этим движком стоят разные модели, запрашивающие ваш результат, и одна из них — BERT (представления двунаправленного кодировщика от преобразователей).BERT — это пример предварительно обученной языковой модели на основе преобразователя (PLM). , причина, по которой это так важно, заключается в том, что она радикально меняет поле обработки естественного языка (NLP), и нам нужно обратить на это внимание. В этом посте мы напишем об интересной статье: Последние достижения в обработке естественного языка с помощью больших предварительно обученных языковых моделей.

Есть причина для высокой оценки этих моделей, давайте немного разберемся с техническими вопросами. Построить задачу классификации НЛП (x/y); y является целью, мы разрабатываем функции вручную, чтобы представить x, а затем применяем модель машинного обучения (наивную байесовскую или логистическую регрессию или любую другую), чтобы изучить функцию.

Но используя глубокие нейронные сети, он изучает функции и типы моделей классификации, которые следует использовать для задачи, и, поскольку языки имеют общие последствия с задачами НЛП, мы можем ожидать, что во всех задачах НЛП будут общие представления функций из одной задачи. Языковая модель учится предсказывать слова из ранее заданных слов, что также является общим явлением, следовательно, это предварительно обученная языковая модель (PLM).

Так почему же эта бумага важна?

В документе объясняется, как можно использовать PLM в НЛП, используя три подхода: выполнение предварительного обучения с большими немаркированными наборами данных и последующая работа в точке интереса; Кроме того, прогнозирование отсутствующих слов в наборе данных и, наконец, использование задач НЛП в качестве генератора текста. Я раскрою их в следующих параграфах.

Предварительная подготовка и точная настройка

Начнем с того, что первый сдвиг парадигмы PLM заключается в использовании его для обучения большого набора немаркированных данных с использованием фундаментальных универсальных языковых представлений, которые полезны для ряда задач НЛП, что позволяет избежать обучения новой модели с нуля. Хотя эта идея довольно старая, она использовалась с другими контролируемыми задачами, такими как маркировка частей речи (POS), распознавание именованных объектов (NER). Однако это изменилось с появлением структуры архитектуры Transformers, которая позволяет каждому слову улавливать все предыдущие слова, кроме целевого, что делает его более эффективным при вычислении. Есть три класса этих моделей. Во-первых, модели авторегрессионного языка обучены предсказывать следующее слово из предыдущих слов. Во-вторых, Маскированные языковые модели обучены предсказывать «замаскированные» слова, основанные на других словах в последовательности. Наконец, языковая модель кодировщика-декодера — это объединение предыдущих моделей в одну. Он учится генерировать слово с вводом или учится максимизировать последовательность слов.

Как подать заявку

Чтобы использовать эту стратегию, в задаче НЛП мы можем использовать встраивание контекста, что включает в себя тонкую настройку всего PLM и использование выходных данных в качестве встраивания для следующей архитектуры, которая снова обучается для конкретной задачи НЛП. . Кроме того, путем точной настройки PLM мы можем точно настроить некоторые слои PLM и некоторые выходные данные для встраивания в один и их совместного обучения. Это подходит для классификации последовательностей. И тонкая настройка PLM в настраиваемых моделях, при достаточной вычислительной мощности и данных некоторые задачи требуют дополнительной архитектуры после языковой модели. Это подходит для задач маркировки последовательностей.

Обучение на основе подсказок

Второй сдвиг парадигмы PLM относится к практике добавления коротких фраз, чтобы побудить PLM выполнить определенную задачу. Использование подсказок обеспечивает лучшее согласование между новой задачей НЛП и целью предварительного обучения, что позволяет лучше использовать знания, полученные в ходе предварительного обучения. Существует три основных подхода к этим сдвигам. Начнем с того, что обучение на основе инструкций и демонстраций может потребовать больших наборов данных. Кроме того, обучение на основе шаблонов – широко используется, поскольку при нем задачи НЛП объединяются в задачу перед обучением с использованием разработанных шаблонов с открытыми слотами и с использованием PLM для заполнения слов или фраз в шаблонах. создание этого вывода в виде метки задачи (может применяться как извлечение информации или исследование знаний). И третий подход — обучение на прокси-задачах — это когда шаблон играет непрямой подход в задаче НЛП. . Разница между этим и остальными заключается в использовании контролируемых задач понимания естественного языка (NLU) в качестве прокси вместо самоконтролируемого языкового моделирования для целевой задачи (может применяться как классификация эмоций или извлечение событий).

НЛП как генерация текста

Еще одним изменением парадигмы PLM является переформулировка задач НЛП в виде генерации текста. Хотя некоторые задачи НЛП уже являются задачами генерации текста, здесь будет использоваться подход первой или второй парадигмы для выполнения конкретной интересующей задачи. Одним из преимуществ этого подхода является использование структуры преобразования текста в текст для решения различных задач NLP с помощью архитектур кодировщика-декодера, создания многозадачного обучения, а также переноса обучения между задачами разного характера.

Бонус

Кроме того, чтобы дополнить эти три парадигмы PLM для НЛП, их можно использовать для генерации данных, которые улучшают системы НЛП двумя способами: данные, сгенерированные PLM, можно комбинировать с исходными обучающими данными для улучшения моделей НЛП, в которых обучающие данные имеют пропущенные значения. ; Кроме того, использование вспомогательных данных, генерируемых PLM, чтобы пролить свет на интересные аспекты моделей НЛП, такие как уточняющие вопросы и борьба за ответы, помогает ученому понять сильные и слабые стороны модели. Одним из недостатков принятия этой модели глубокого обучения является отсутствие объяснений ее решения, что вызывает проблемы при отладке.

Что нужно знать и недостатки

Одним из способов использования PLM является их объединение между парадигмами. Обучение на основе подсказок часто использует возможности генерации текста PLM для создания слов, фраз или предложений. Как инженер машинного обучения, тип данных, загружаемых в эту модель, зависит от ее назначения. Некоторым PLM требуются миллиарды слов, а другим требуется от 10 до 100 миллионов слов, чтобы в достаточной мере приобрести семантические функции.

Еще одна вещь, которую следует учитывать, — это развитие глубокого обучения в целом и использование PLM в частности, которые резко увеличили объем вычислений, используемых в NLP, что привело к значительному воздействию на окружающую среду.

Кроме того, нам необходимо понимать, что теоретическое понимание представленных парадигм является предварительным, поскольку мы не понимаем, что делает эти парадигмы такими успешными, и можно ли обобщить их успех на модели и языки.

Заключение

Эта статья посвящена бумаге, объясняющему трендовые парадигмы, использующие предварительно обученные языковые модели для НЛП. Резюмируя каждую парадигму и способы их применения. Мы поняли, как можно использовать предварительно обученные языковые модели для генерации данных для повышения производительности в задачах НЛП.

Тексты на естественном языке по-прежнему являются основным источником информации для понимания и анализа продуктов. Таким образом, разработка и оптимизация этой предварительно обученной языковой модели привели к повышению эффективности автоматизации ручных процессов, что сегодня привело к новым достижениям в области естественного языка. Однако можно ли это применить ко всем языкам?

Ресурс



Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку здесь.