Обучение с подкреплением на основе отзывов людей (RLHF): расширение возможностей ChatGPT с руководством пользователя

Переход с GPT-3.5 на ChatGPT

Введение

В этом сообщении блога я буду обсуждать, как OpenAI перешел от моделей GPT-3.5 к ChatGPT. Я буду объяснять концепцию обучения с подкреплением на основе отзывов людей и то, как оно помогло модели сделать нетоксичные и основанные на фактах результаты. В сообщении блога Модели авторегрессии для обработки естественного языка я обсуждал авторегрессионную природу предварительно обученных генеративных преобразователей и их архитектурные детали. Этот пост является продвижением к этому блогу. Так что, если вы не читали предыдущий пост, посмотрите его. После выпуска GPT-3 в 2020 году команда OpenAI работала над серией моделей, которые они назвали серией моделей GPT-3.5. Они обучили модель сочетанию текста и кода. В эту серию входят четыре модели. Это code-davinci-002, text-davinci-002, text-davinci-003 и gpt-3.5-turbo-0301. GPT-3.5 turbo был усовершенствованием text-davinci-003 и был оптимизирован для общения в чате. Итак, основным изменением, внесенным командой OpenAI, стало использование обучения с подкреплением. Позвольте мне сначала объяснить основы обучения с подкреплением.

Обучение с подкреплением

Обучение с подкреплением — это ветвь машинного обучения, в которой мы должны обучить агента находить политику (набор шагов), которая является оптимальной и максимизирует совокупное вознаграждение. Позвольте мне объяснить это с помощью примера, показанного ниже.

Агент находится в локации (1,1). Он может делать один шаг за раз, то есть одно действие. Если он доберется до персика (2,3), он получит награду +5, но если доберется до яблока (3,3), он получит награду +10. Загвоздка в том, что за каждый шаг, который агент делает в пустую ячейку, агент теряет одно очко (-1). Агент должен эффективно разработать оптимальную политику (набор действий), которая максимизирует совокупное вознаграждение. Эта симуляция заканчивается, когда агент достигает любого фрукта. Вся эта симуляция запускается много раз, пока модель не научится максимизировать награды. Ниже показаны две политики:

Совокупная награда за левый полис +3, а за правый полис +5. Таким образом, правильная политика является оптимальной политикой. Обучение с подкреплением особенно подходит для задач с последовательным принятием решений, когда действия влияют на последующие состояния и вознаграждения.

Обучение с подкреплением на основе отзывов людей

Обучение с подкреплением на основе обратной связи с человеком (RLHF) относится к особому подходу к обучению с подкреплением, при котором руководство человека включается в процесс обучения. RLHF стремится использовать опыт и знания людей-демонстраторов для ускорения и улучшения обучения агентов обучения с подкреплением. Я объясню весь процесс RLHF, используемый в ChatGPT, в 3 шага.

Шаг 1. Контролируемая тонкая настройка GPT-3.5

На первом этапе формируется набор данных подсказок, состоящий из подсказок из разных доменов. Затем мы берем подсказку одну за другой и передаем ее маркировщику, который определяет наиболее желательный вывод для этой подсказки. Затем подсказки и эти человеческие метки объединяются для формирования нового набора данных, который используется предварительно обученным GPT-3.5 для точной настройки. Это помогает модели узнать, какие результаты люди ожидают и желают.

Шаг 2. Обучение модели вознаграждения

На втором этапе мы предоставляем языковой модели подсказку и извлекаем из нее несколько выходных данных. Модель способна выдавать разные результаты из одной подсказки из-за разных стратегий декодирования. Жадный метод всегда выводит слово с наибольшей вероятностью. Метод Top-k случайным образом выбирает слово из пула k-слов с наивысшей вероятностью. Выборка ядра случайным образом выбирает слово из пула слов, вероятность которых в сумме составляет p. Температура — это значение от 0 до 1, которое определяет стохастичность модели. Температура 1 даст больше случайных выходов, а температура 0 будет жадным выходом. Игровая площадка OpenAI имеет хорошее представление для изучения стратегий декодирования на выходе.

После того, как модель произвела несколько выходных данных, этикетировщик заполнит форму, показанную ниже, для каждого выходного сигнала. Маркировщик поставит оценку выходу и ответит на несколько категоричных вопросов. Эти категоричные вопросы сообщают, что было не так с выводом. Какое этическое соображение нарушал этот вывод? Таким образом, все ответы будут ранжированы от лучшего к худшему.

Все эти метки и ответы модели теперь используются для обучения модели вознаграждения. Модель вознаграждения будет принимать два ответа на одно приглашение и вычислять вознаграждениеr для каждого ответа. Функция потерь для этой модели рассчитывается на основе человеческих ярлыков и вознаграждений, назначенных моделью вознаграждения. Если первый ответ лучше, то есть вознаграждение за первый ответ больше, то потери будут низкими, но если второй ответ лучше, то потери будут высокими.

Шаг 3. Обновление политики с помощью PPO

На третьем этапе мы вводим новое приглашение в настроенный GPT-3.5, полученный на первом этапе. Эта модель будет генерировать ответ на это приглашение. Мы возьмем это приглашение и ответ и будем использовать его в качестве входных данных для нашей обученной модели вознаграждения со второго шага. Модель вознаграждения будет вознаграждением за ответ. Мы будем использовать эту награду для обучения нашего точно настроенного GPT-3.5. Модель должна научиться максимизировать значение вознаграждения.

Точная настройка GPT-3.5 обновляется с использованием модели вознаграждения в форме вознаграждения. Модель обновляется с помощью Проксимальной политики оптимизации. Цель PPO состоит в том, чтобы максимизировать общее вознаграждение за ответы, сгенерированные моделью, путем включения вознаграждения в проигрыш.

Вышеупомянутая функция потерь PPO состоит из двух основных компонентов: суррогатной целевой функции и механизма ограничения. Суррогатная целевая функция измеряет производительность политики и направляет обновления параметров, в то время как механизм ограничения контролирует объем обновлений политики для обеспечения стабильности.

Заключительные замечания

В заключение, включение обучения с подкреплением на основе обратной связи с человеком (RLHF) знаменует собой значительный прогресс в области обработки естественного языка. Используя опыт и руководство людей-демонстраторов, RLHF может произвести революцию в обучении и поведении интеллектуальных агентов. Изучение отзывов людей привело к тому, что ChatGPT производит более желательные, нетоксичные и основанные на фактах результаты. В следующем сообщении блога я подробно расскажу о методах эффективной тонкой настройки параметров (PEFT), таких как LoRA, Prefix Tuning, P-Tuning и QLoRA.

Спасибо, что прочитали!

Подпишитесь на меня в LinkedIn!

Ссылки

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning