Переход с GPT-3.5 на ChatGPT

Введение

В этом сообщении блога я буду обсуждать, как OpenAI перешел от моделей GPT-3.5 к ChatGPT. Я буду объяснять концепцию обучения с подкреплением на основе отзывов людей и то, как оно помогло модели сделать нетоксичные и основанные на фактах результаты. В сообщении блога Модели авторегрессии для обработки естественного языка я обсуждал авторегрессионную природу предварительно обученных генеративных преобразователей и их архитектурные детали. Этот пост является продвижением к этому блогу. Так что, если вы не читали предыдущий пост, посмотрите его. После выпуска GPT-3 в 2020 году команда OpenAI работала над серией моделей, которые они назвали серией моделей GPT-3.5. Они обучили модель сочетанию текста и кода. В эту серию входят четыре модели. Это code-davinci-002, text-davinci-002, text-davinci-003 и gpt-3.5-turbo-0301. GPT-3.5 turbo был усовершенствованием text-davinci-003 и был оптимизирован для общения в чате. Итак, основным изменением, внесенным командой OpenAI, стало использование обучения с подкреплением. Позвольте мне сначала объяснить основы обучения с подкреплением.

Обучение с подкреплением

Обучение с подкреплением — это ветвь машинного обучения, в которой мы должны обучить агента находить политику (набор шагов), которая является оптимальной и максимизирует совокупное вознаграждение. Позвольте мне объяснить это с помощью примера, показанного ниже.

Агент находится в локации (1,1). Он может делать один шаг за раз, то есть одно действие. Если он доберется до персика (2,3), он получит награду +5, но если доберется до яблока (3,3), он получит награду +10. Загвоздка в том, что за каждый шаг, который агент делает в пустую ячейку, агент теряет одно очко (-1). Агент должен эффективно разработать оптимальную политику (набор действий), которая максимизирует совокупное вознаграждение. Эта симуляция заканчивается, когда агент достигает любого фрукта. Вся эта симуляция запускается много раз, пока модель не научится максимизировать награды. Ниже показаны две политики:

Совокупная награда за левый полис +3, а за правый полис +5. Таким образом, правильная политика является оптимальной политикой. Обучение с подкреплением особенно подходит для задач с последовательным принятием решений, когда действия влияют на последующие состояния и вознаграждения.

Обучение с подкреплением на основе отзывов людей

Обучение с подкреплением на основе обратной связи с человеком (RLHF) относится к особому подходу к обучению с подкреплением, при котором руководство человека включается в процесс обучения. RLHF стремится использовать опыт и знания людей-демонстраторов для ускорения и улучшения обучения агентов обучения с подкреплением. Я объясню весь процесс RLHF, используемый в ChatGPT, в 3 шага.

Шаг 1. Контролируемая тонкая настройка GPT-3.5

На первом этапе формируется набор данных подсказок, состоящий из подсказок из разных доменов. Затем мы берем подсказку одну за другой и передаем ее маркировщику, который определяет наиболее желательный вывод для этой подсказки. Затем подсказки и эти человеческие метки объединяются для формирования нового набора данных, который используется предварительно обученным GPT-3.5 для точной настройки. Это помогает модели узнать, какие результаты люди ожидают и желают.

Шаг 2. Обучение модели вознаграждения

На втором этапе мы предоставляем языковой модели подсказку и извлекаем из нее несколько выходных данных. Модель способна выдавать разные результаты из одной подсказки из-за разных стратегий декодирования. Жадный метод всегда выводит слово с наибольшей вероятностью. Метод Top-k случайным образом выбирает слово из пула k-слов с наивысшей вероятностью. Выборка ядра случайным образом выбирает слово из пула слов, вероятность которых в сумме составляет p. Температура — это значение от 0 до 1, которое определяет стохастичность модели. Температура 1 даст больше случайных выходов, а температура 0 будет жадным выходом. Игровая площадка OpenAI имеет хорошее представление для изучения стратегий декодирования на выходе.

После того, как модель произвела несколько выходных данных, этикетировщик заполнит форму, показанную ниже, для каждого выходного сигнала. Маркировщик поставит оценку выходу и ответит на несколько категоричных вопросов. Эти категоричные вопросы сообщают, что было не так с выводом. Какое этическое соображение нарушал этот вывод? Таким образом, все ответы будут ранжированы от лучшего к худшему.

Все эти метки и ответы модели теперь используются для обучения модели вознаграждения. Модель вознаграждения будет принимать два ответа на одно приглашение и вычислять вознаграждениеr для каждого ответа. Функция потерь для этой модели рассчитывается на основе человеческих ярлыков и вознаграждений, назначенных моделью вознаграждения. Если первый ответ лучше, то есть вознаграждение за первый ответ больше, то потери будут низкими, но если второй ответ лучше, то потери будут высокими.

Шаг 3. Обновление политики с помощью PPO

На третьем этапе мы вводим новое приглашение в настроенный GPT-3.5, полученный на первом этапе. Эта модель будет генерировать ответ на это приглашение. Мы возьмем это приглашение и ответ и будем использовать его в качестве входных данных для нашей обученной модели вознаграждения со второго шага. Модель вознаграждения будет вознаграждением за ответ. Мы будем использовать эту награду для обучения нашего точно настроенного GPT-3.5. Модель должна научиться максимизировать значение вознаграждения.

Точная настройка GPT-3.5 обновляется с использованием модели вознаграждения в форме вознаграждения. Модель обновляется с помощью Проксимальной политики оптимизации. Цель PPO состоит в том, чтобы максимизировать общее вознаграждение за ответы, сгенерированные моделью, путем включения вознаграждения в проигрыш.

Вышеупомянутая функция потерь PPO состоит из двух основных компонентов: суррогатной целевой функции и механизма ограничения. Суррогатная целевая функция измеряет производительность политики и направляет обновления параметров, в то время как механизм ограничения контролирует объем обновлений политики для обеспечения стабильности.

Заключительные замечания

В заключение, включение обучения с подкреплением на основе обратной связи с человеком (RLHF) знаменует собой значительный прогресс в области обработки естественного языка. Используя опыт и руководство людей-демонстраторов, RLHF может произвести революцию в обучении и поведении интеллектуальных агентов. Изучение отзывов людей привело к тому, что ChatGPT производит более желательные, нетоксичные и основанные на фактах результаты. В следующем сообщении блога я подробно расскажу о методах эффективной тонкой настройки параметров (PEFT), таких как LoRA, Prefix Tuning, P-Tuning и QLoRA.

Спасибо, что прочитали!

Подпишитесь на меня в LinkedIn!

Ссылки

  1. Блог ChatGPT
  2. Модельный ряд ГПТ-3,5
  3. Проксимальная оптимизация политики
  4. Обучение с подкреплением через обратную связь с человеком
  5. Основные концепции обучения с подкреплением
  6. Учимся обобщать по отзывам людей