Как применить обработку естественного языка с помощью больших предварительно обученных языковых моделей

Руководство по применению НЛП с помощью больших предварительно обученных языковых моделей.

Когда мы думаем о поисковых системах, мы думаем о Google, возможно, именно так вы нашли этот пост. За этим движком стоят разные модели, запрашивающие ваш результат, и одна из них — BERT (представления двунаправленного кодировщика от преобразователей).BERT — это пример предварительно обученной языковой модели на основе преобразователя (PLM). , причина, по которой это так важно, заключается в том, что она радикально меняет поле обработки естественного языка (NLP), и нам нужно обратить на это внимание. В этом посте мы напишем об интересной статье: Последние достижения в обработке естественного языка с помощью больших предварительно обученных языковых моделей.

Есть причина для высокой оценки этих моделей, давайте немного разберемся с техническими вопросами. Построить задачу классификации НЛП (x/y); y является целью, мы разрабатываем функции вручную, чтобы представить x, а затем применяем модель машинного обучения (наивную байесовскую или логистическую регрессию или любую другую), чтобы изучить функцию.

Но используя глубокие нейронные сети, он изучает функции и типы моделей классификации, которые следует использовать для задачи, и, поскольку языки имеют общие последствия с задачами НЛП, мы можем ожидать, что во всех задачах НЛП будут общие представления функций из одной задачи. Языковая модель учится предсказывать слова из ранее заданных слов, что также является общим явлением, следовательно, это предварительно обученная языковая модель (PLM).

Так почему же эта бумага важна?

В документе объясняется, как можно использовать PLM в НЛП, используя три подхода: выполнение предварительного обучения с большими немаркированными наборами данных и последующая работа в точке интереса; Кроме того, прогнозирование отсутствующих слов в наборе данных и, наконец, использование задач НЛП в качестве генератора текста. Я раскрою их в следующих параграфах.

Предварительная подготовка и точная настройка

Начнем с того, что первый сдвиг парадигмы PLM заключается в использовании его для обучения большого набора немаркированных данных с использованием фундаментальных универсальных языковых представлений, которые полезны для ряда задач НЛП, что позволяет избежать обучения новой модели с нуля. Хотя эта идея довольно старая, она использовалась с другими контролируемыми задачами, такими как маркировка частей речи (POS), распознавание именованных объектов (NER). Однако это изменилось с появлением структуры архитектуры Transformers, которая позволяет каждому слову улавливать все предыдущие слова, кроме целевого, что делает его более эффективным при вычислении. Есть три класса этих моделей. Во-первых, модели авторегрессионного языка обучены предсказывать следующее слово из предыдущих слов. Во-вторых, Маскированные языковые модели обучены предсказывать «замаскированные» слова, основанные на других словах в последовательности. Наконец, языковая модель кодировщика-декодера — это объединение предыдущих моделей в одну. Он учится генерировать слово с вводом или учится максимизировать последовательность слов.

Как подать заявку

Чтобы использовать эту стратегию, в задаче НЛП мы можем использовать встраивание контекста, что включает в себя тонкую настройку всего PLM и использование выходных данных в качестве встраивания для следующей архитектуры, которая снова обучается для конкретной задачи НЛП. . Кроме того, путем точной настройки PLM мы можем точно настроить некоторые слои PLM и некоторые выходные данные для встраивания в один и их совместного обучения. Это подходит для классификации последовательностей. И тонкая настройка PLM в настраиваемых моделях, при достаточной вычислительной мощности и данных некоторые задачи требуют дополнительной архитектуры после языковой модели. Это подходит для задач маркировки последовательностей.

Обучение на основе подсказок

Второй сдвиг парадигмы PLM относится к практике добавления коротких фраз, чтобы побудить PLM выполнить определенную задачу. Использование подсказок обеспечивает лучшее согласование между новой задачей НЛП и целью предварительного обучения, что позволяет лучше использовать знания, полученные в ходе предварительного обучения. Существует три основных подхода к этим сдвигам. Начнем с того, что обучение на основе инструкций и демонстраций может потребовать больших наборов данных. Кроме того, обучение на основе шаблонов – широко используется, поскольку при нем задачи НЛП объединяются в задачу перед обучением с использованием разработанных шаблонов с открытыми слотами и с использованием PLM для заполнения слов или фраз в шаблонах. создание этого вывода в виде метки задачи (может применяться как извлечение информации или исследование знаний). И третий подход — обучение на прокси-задачах — это когда шаблон играет непрямой подход в задаче НЛП. . Разница между этим и остальными заключается в использовании контролируемых задач понимания естественного языка (NLU) в качестве прокси вместо самоконтролируемого языкового моделирования для целевой задачи (может применяться как классификация эмоций или извлечение событий).

НЛП как генерация текста

Еще одним изменением парадигмы PLM является переформулировка задач НЛП в виде генерации текста. Хотя некоторые задачи НЛП уже являются задачами генерации текста, здесь будет использоваться подход первой или второй парадигмы для выполнения конкретной интересующей задачи. Одним из преимуществ этого подхода является использование структуры преобразования текста в текст для решения различных задач NLP с помощью архитектур кодировщика-декодера, создания многозадачного обучения, а также переноса обучения между задачами разного характера.

Бонус

Кроме того, чтобы дополнить эти три парадигмы PLM для НЛП, их можно использовать для генерации данных, которые улучшают системы НЛП двумя способами: данные, сгенерированные PLM, можно комбинировать с исходными обучающими данными для улучшения моделей НЛП, в которых обучающие данные имеют пропущенные значения. ; Кроме того, использование вспомогательных данных, генерируемых PLM, чтобы пролить свет на интересные аспекты моделей НЛП, такие как уточняющие вопросы и борьба за ответы, помогает ученому понять сильные и слабые стороны модели. Одним из недостатков принятия этой модели глубокого обучения является отсутствие объяснений ее решения, что вызывает проблемы при отладке.

Что нужно знать и недостатки

Одним из способов использования PLM является их объединение между парадигмами. Обучение на основе подсказок часто использует возможности генерации текста PLM для создания слов, фраз или предложений. Как инженер машинного обучения, тип данных, загружаемых в эту модель, зависит от ее назначения. Некоторым PLM требуются миллиарды слов, а другим требуется от 10 до 100 миллионов слов, чтобы в достаточной мере приобрести семантические функции.

Еще одна вещь, которую следует учитывать, — это развитие глубокого обучения в целом и использование PLM в частности, которые резко увеличили объем вычислений, используемых в NLP, что привело к значительному воздействию на окружающую среду.

Кроме того, нам необходимо понимать, что теоретическое понимание представленных парадигм является предварительным, поскольку мы не понимаем, что делает эти парадигмы такими успешными, и можно ли обобщить их успех на модели и языки.

Заключение

Эта статья посвящена бумаге, объясняющему трендовые парадигмы, использующие предварительно обученные языковые модели для НЛП. Резюмируя каждую парадигму и способы их применения. Мы поняли, как можно использовать предварительно обученные языковые модели для генерации данных для повышения производительности в задачах НЛП.

Тексты на естественном языке по-прежнему являются основным источником информации для понимания и анализа продуктов. Таким образом, разработка и оптимизация этой предварительно обученной языковой модели привели к повышению эффективности автоматизации ручных процессов, что сегодня привело к новым достижениям в области естественного языка. Однако можно ли это применить ко всем языкам?

Ресурс

Последние достижения в обработке естественного языка с помощью больших предварительно обученных языковых моделей: обзор
Большие предварительно обученные языковые модели на основе преобразователя, такие как BERT, коренным образом изменили естественный язык …arxiv.org

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку здесь.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning