Появление ChatGPT, новаторского чат-бота на основе искусственного интеллекта от OpenAI, вызвало всплеск увлечения и интереса к сфере искусственного интеллекта. Привлекательность этих диалоговых чудес распространяется не только на более широкую область ИИ, но и на сложный класс технологий, лежащих в их основе. Большие языковые модели (LLM), такие как ChatGPT и Google Bard, оказались в центре внимания, продемонстрировав свою замечательную способность генерировать текст по поразительному множеству тем. Эти передовые чат-боты обещают произвести революцию в различных аспектах нашей жизни, от революционного поиска в Интернете до создания безграничной творческой литературы и даже в качестве хранилища глобальных знаний.

В то время как чат-боты на базе ИИ продолжают очаровывать мир, один конкретный член семьи LLM поднял интригующие вопросы. GPT-4, последняя итерация в серии, привлекла внимание из-за неожиданной и озадачивающей тенденции — его точность заметно снизилась. На фоне ажиотажа вокруг чат-ботов с искусственным интеллектом, таких как ChatGPT и Google Bard, снижение точности GPT-4 стало предметом обсуждения в сообществе искусственного интеллекта. Учитывая впечатляющие возможности, обещанные LLM, это загадочное снижение точности требует более глубокого изучения.

Недавно была опубликована новая статья под названием «Как меняется поведение ChatGPT с течением времени?», авторами которой являются Линцзяо Чен, Матей Захария и Джеймс Цзоу. Это исследование работа углубляется в динамическое поведение ChatGPT, исследуя, как его производительность меняется с течением времени. Выводы, представленные в этой статье, проливают свет на увлекательный мир разговорных технологий, управляемых искусственным интеллектом, и на их текущие разработки.

обзор бумаги.

Основное внимание в этой статье уделяется пониманию того, почему точность GPT4 снижалась в геометрической прогрессии за последние пару месяцев. До написания этой статьи у нас было очень туманное понимание того, как данные и отзывы могут обновлять большую языковую модель, такую ​​как GPT-4. Эти неизвестные чрезвычайно затрудняли интеграцию этих моделей в рабочие процессы, поскольку существует большая неопределенность ответа LLM на запрос. Более того, эта неопределенность очень затрудняет воспроизведение результатов «того же самого» LLM. Акцент делается на одно и то же, но я вернусь к этому позже в этой статье.

Большая проблема заключается не в теме интеграции, а в производительности этих LLM с течением времени. Чтобы лучше понять, становится ли со временем лучше LLM, такой как GPT-4, модели были протестированы на 4 основных подсказках:

  1. Решение математических задач
  2. Отвечаю на деликатные/опасные вопросы
  3. Генерация кода
  4. Визуальное мышление

Модели GPT-3.5 и GPT-4 сравнивались друг с другом, и их поведение оценивалось по сравнению с предыдущей моделью (март 2023 г.) и последней моделью (июнь 2023 г.). Прежде чем погрузиться в суть этой статьи, давайте разберемся, что такое большая языковая модель и как она работает!

понимание LLM.

Проще говоря, большая языковая модель — это модель ИИ, которая способна понимать ввод текста на основе человеческого языка и генерировать ответы, подобные человеческим. Она может делать это с помощью массивных текстовых данных → в случае ChatGPT — Интернет. Модель обучается на этих массивных текстовых данных, чтобы она могла распознавать языковые шаблоны и генерировать связные ответы. В частности, эти модели построены на нейронной сети определенного типа, называемой трансформерами. Эти нейронные сети имеют несколько слоев, организованных в иерархическую структуру. Первый набор LLM был основан на архитектуре рекуррентной нейронной сети; ввод будет строкой текста, и он будет предсказывать, каким будет следующее слово. Ярким примером этого является то, что когда вы идете, чтобы создать черновик электронного письма на Gmail, он начинает предсказывать, какими могут быть ваши следующие 3–4 слова. Однако теперь мы перешли к Трансформерам, и давайте перейдем к этому.

Позвольте мне дать краткий обзор Трансформеров

Трансформеры были разработаны группой исследователей еще в 2017 году в статье под названием Внимание — это все, что вам нужно. На архитектуру преобразования сильно влияет концепция самоконтроля → этот механизм позволяет LLM рассматривать все различные части вводимого текста вместе. Это позволяет модели придавать большее значение более важным частям ввода текста; при этом модель способна идентифицировать отношения между словами и, как результат, сможет генерировать очень точные выходные данные.

Общая идея механизма внимания заключается в вычислении оценки для каждого слова в зависимости от задачи. Модель использует эти оценки для создания взвешенного представления входных данных → это представление затем передается через канал. вперед нейронная сеть. Это взвешенное представление, созданное механизмом внимания, играет решающую роль в улучшении способности модели фокусироваться на соответствующих частях ввода при выполнении различных задач. Назначая более высокие баллы определенным словам или токенам во входных данных, механизм внимания эффективно отдает приоритет информации, которая наиболее актуальна для текущей задачи. Этот механизм выборочного внимания позволяет модели отфильтровывать шум и нерелевантные данные. детали, что приводит к более точным и контекстуально обоснованным прогнозам.

Одним из ключевых преимуществ механизма внимания является его способность фиксировать долгосрочные зависимости во входных данных. Традиционные архитектуры нейронных сетей часто испытывают трудности с сохранением информации в удаленных элементах последовательности, что может быть ограничением в задачах, связанных с длинными предложениями или последовательностями данных. Однако механизм внимания позволяет модели оглянуться назад на любую позицию во входной последовательности и оценить ее важность в соответствии с текущим контекстом, обеспечивая решение этой проблемы.

Архитектура Transformer демонстрирует замечательную способность к распараллеливанию, что позволяет ей обрабатывать несколько фрагментов информации одновременно. В результате большие языковые модели (LLM) могут эффективно обрабатывать огромные объемы данных одновременно. Эта характеристика проложила путь к созданию постоянно расширяющихся языковых моделей, таких как OpenAI GPT-3, с поразительными 175 миллиардами параметров.

А теперь давайте разберемся, как обучаются эти LLM!

Большие языковые модели в своей работе проходят два основных этапа:

  1. Предварительное обучение: во время предварительного обучения модель подвергается воздействию обширного набора данных, содержащего разнообразный текст из Интернета, включая книги, статьи и веб-сайты. Эта фаза позволяет модели понять сложные языковые структуры, включая грамматику, синтаксис и семантику, посредством обучения без учителя.

Предварительное обучение может быть выполнено различными способами в зависимости от модели. Например, модели OpenAI GPT предсказывают последующие слова в частично полных предложениях, в то время как BERT от Google использует моделирование маскированного языка, когда модель угадывает случайно пропущенные слова в предложении. Модель постоянно обновляет веса своих параметров, чтобы свести к минимуму ошибки прогнозирования, тем самым обучаясь генерировать связный и контекстуально релевантный текст.

Предварительное обучение является наиболее ресурсоемким и трудоемким этапом разработки большой языковой модели. Чтобы представить перспективу, один запуск GPT-3 оценивается в более чем 4 миллиона долларов.

  1. Точная настройка: после предварительного обучения модель подвергается точной настройке с использованием меньшего набора данных для конкретной задачи. На этом этапе используется контролируемое обучение, предоставляющее модели помеченные примеры желаемого результата для целевой задачи, такой как перевод, обобщение или анализ настроений.

Тонкая настройка позволяет модели адаптировать свои предварительно полученные знания к конкретным требованиям данной задачи. Такие методы, как градиентный спуск и обратное распространение, часто используются для обновления параметров модели и оптимизации ее производительности при выполнении поставленной задачи. Этот процесс уточняет возможности модели и повышает ее способность решать специализированные задачи.

Теперь, когда мы хорошо понимаем, как работают эти LLM, давайте попробуем понять, почему точность GPT-4 снижалась в течение последних 4–5 месяцев.

понимание изменения точности.

Прежде чем углубиться в эту статью, давайте разберемся с задачами оценки. Как я упоминал ранее, для эталонного теста оцениваются 4 основные задачи: решение математических задач, ответы на деликатные вопросы, генерация кода и визуальное мышление.

Выбор этих задач обусловлен двумя основными факторами. Во-первых, эти задачи разнообразны и обычно используются для оценки больших языковых моделей (LLM) в существующей литературе. Во-вторых, они относительно объективны, что облегчает их стандартизированную оценку. Для каждой задачи используется один набор данных, либо взятый из существующих наборов данных, либо созданный специально для целей мониторинга. Важно признать, что использование только одного эталонного набора данных может не дать полного охвата сложности задачи.

Важно отметить, что целью этой оценки является не предоставление исчерпывающего анализа, а демонстрация существенного отклонения производительности ChatGPT при выполнении относительно простых задач. Наличие дрейфа производительности подразумевает, что поведение модели может меняться со временем или в разных контекстах, что подчеркивает важность постоянного мониторинга и оценки.

Забегая вперед, будущие оценки будут включать дополнительные контрольные показатели, расширяющие область оценки в рамках комплексного долгосрочного исследования поведения LLM. Этот подход позволяет исследователям и разработчикам получить более глубокое представление о возможностях и ограничениях этих моделей в различных задачах и сценариях. Благодаря включению большего количества контрольных показателей процесс оценки становится более надежным, предлагая более полное и детальное понимание поведения службы LLM. Эта целостная оценка способствует более информированному и надежному взгляду на производительность и надежность больших языковых моделей, еще больше продвигая современное состояние понимания и обработки естественного языка.

Теперь давайте переключим внимание на показатели, используемые для оценки этих моделей. Как мы можем количественно смоделировать и измерить дрейф LLM для разных задач?

В этой оценке используется систематический подход, учитывающий одну основную метрику производительности, адаптированную для каждой конкретной задачи, наряду с двумя общими дополнительными метриками, применимыми ко всем задачам. Эта всесторонняя оценка позволяет нам фиксировать различные аспекты производительности большой языковой модели (LLM) и отслеживать возможные отклонения с течением времени.

  1. При решении математических задач основной метрикой является точность, которая показывает, насколько часто служба LLM выдает правильные ответы. Этот показатель имеет решающее значение для оценки способности модели точно решать математические задачи.
  2. При решении деликатных вопросов основным показателем является частота ответов. Он количественно определяет частоту, с которой служба LLM предоставляет прямые ответы на вопросы без уклонения или запутывания, что делает его важным показателем для измерения прозрачности и надежности.
  3. В контексте генерации кода основная метрика фокусируется на той части сгенерированного кода, которая является непосредственно исполняемой. Этот показатель оценивает, насколько эффективно служба LLM генерирует функциональный код и проходит модульные тесты, указывая на способность модели создавать надежные программные решения.
  4. Для задач визуального мышления основной метрикой является точное совпадение, которое оценивает, соответствуют ли визуальные объекты, сгенерированные LLM, истинному. Эта метрика имеет основополагающее значение для оценки способности модели рассуждать визуально и давать точные результаты.

В рамках оценки мы также рассматриваем две дополнительные общие метрики. Во-первых, это детализация, которая измеряет длину выходных данных, генерируемых LLM. Эта метрика помогает нам понять краткость и эффективность модели при получении ответов.

Вторая дополнительная метрика — это перекрытие, которое сравнивает извлеченные ответы из двух версий одной и той же службы LLM для одного и того же приглашения. Он проверяет, различаются ли ответы, и количественно определяет, насколько желаемая функциональность службы LLM отклоняется с течением времени, а не просто сосредотачивается на различиях в текстовом выводе. Например, в математических задачах перекрытие равно 1, если сгенерированные ответы одинаковы, даже если промежуточные шаги рассуждений различаются.

Чтобы измерить степень дрейфа производительности, мы вычисляем среднее значение совокупности для каждой метрики в мартовской и июньской версиях службы LLM и анализируем их различия. Этот подход позволяет нам отслеживать изменения производительности с течением времени и понимать, как поведение модели меняется между разными версиями.

Используя ряд метрик, специфичных для каждой задачи, и дополнительные общие метрики, оценка обеспечивает всестороннюю и детальную оценку поведения службы LLM, что позволяет нам отслеживать и анализировать любые потенциальные отклонения, которые могут возникнуть с течением времени.

решение математических задач.

Чтобы понять точность двух LLM, которые мы оцениваем (GPT-3.5 и GPT-4), был задан простой вопрос: является ли определенное целое число простым или нет. Эта задача проста, но на ней стоит сосредоточиться, потому что ее легко понять, но она также требует рассуждений. Набор данных, использованный в этой статье, состоял из 500 вопросов; чтобы помочь LLM рассуждать, была использована цепочка мыслей, которая является распространенным подходом к задачам, требующим рассуждений.

Удивительно, но в больших языковых моделях (LLM) для, казалось бы, простой задачи наблюдалось значительное несоответствие производительности. Как показано на рисунке 2(а), точность GPT-4 резко упала с 97,6% в марте до всего лишь 2,4% в июне, в то время как GPT-3.5 продемонстрировала существенное улучшение, увеличив точность с 7,4% до 86,8%. Кроме того, ответы GPT-4 стали гораздо более краткими, а средний объем детализации снизился с 821,2 символа в марте до всего лишь 3,8 символа в июне. Напротив, длина ответа GPT-3.5 увеличилась примерно на 40%. Несмотря на эти изменения, совпадение ответов между их мартовской и июньской версиями оставалось небольшим для обеих служб.

Одно из возможных объяснений значительной разницы заключается в эффектах подхода цепочки мыслей. На рис. 2(b) представлен наглядный пример, когда GPT-4 в марте эффективно следовал инструкции цепочки мыслей. Он систематически разбил задачу на четыре шага, выполнил каждый шаг и пришел к правильному ответу, что 17077 — простое число. Однако в июне цепочка размышлений не удалась, так как сервис не генерировал никаких промежуточных шагов, а просто выдавал простой и неверный ответ («Нет»). Похожая картина дрейфа наблюдалась для GPT-3.5 в марте, когда он имел тенденцию сначала генерировать ответ «Нет», а затем выполнять шаги рассуждения, что приводило к неверным номинальным ответам, несмотря на то, что шаги и окончательный вывод были правильными. Однако июньское обновление, по-видимому, исправило эту проблему, поскольку GPT-3.5 начал с представления шагов рассуждения, прежде чем генерировать правильный ответ («Да»). Это наблюдение показывает, как даже широко используемые подходы к подсказкам, такие как цепочка мыслей, могут привести к существенно разным результатам из-за дрейфа LLM.

ответы на деликатные вопросы.

Второй метрикой, которая использовалась для оценки точности модели, была способность LLM отвечать на деликатные вопросы. Причина постановки этих вопросов заключалась в том, чтобы решить насущную проблему: когда моделям большого языка (LLM) задают деликатные вопросы, они могут генерировать вредные результаты, включая социальные предубеждения, личную информацию и токсичные тексты. Таким образом, цель здесь состояла в том, чтобы понять, как ответы LLM на эти вопросы меняются с течением времени.

Был курирован набор данных, заполненный 100 запросами, на которые LLM не должны отвечать напрямую. Из-за сложности автоматической оценки прямых ответов все ответы были аннотированы вручную. Наблюдения выявили две существенные тенденции в решении этой задачи. Во-первых, как показано на рисунке 3, прямые ответы GPT-4 на деликатные вопросы снизились с 21,0% в марте до 5,0% в июне, в то время как GPT-3,5 давал более прямые ответы, увеличившись с 2,0% до 8,0% за тот же период. Это говорит о том, что GPT-4 мог внедрить более сильный уровень безопасности в своем июньском обновлении, в то время как GPT-3.5 стал менее консервативным в своих ответах. Кроме того, длина генерации (измеряемая в символах) GPT-4 сократилась с более чем 600 до примерно 140.

Изменение длины поколения связано не только с меньшим количеством ответов на вопросы, но и с более лаконичным подходом GPT-4 к отказу отвечать на определенные запросы. Наглядный пример, показанный на рисунке 3(b), демонстрирует это изменение. И в марте, и в июне GPT-4 отказывался отвечать на неуместный запрос, но в марте он предоставил подробный абзац с объяснением причин отказа, тогда как в июне он просто ответил: «Извините, но я не могу помочь с этим. ” Аналогичная тенденция наблюдалась и для ГПТ-3,5. Это указывает на то, что, хотя эти службы LLM, возможно, стали более безопасными в своих ответах, они также предлагают меньше обоснований для отказа отвечать на определенные вопросы.

генерация кода.

Одним из основных применений LLM является генерация кода; несмотря на то, что существует множество наборов данных для генерации кода, их использование для оценки LLM может привести к проблеме загрязнения данных. Чтобы преодолеть это, в статье создается новый набор данных для генерации кода. Он содержит последние 50 задач из «легкого» раздела LeetCode (на момент написания). «Подсказка для каждой проблемы представляет собой объединение исходного описания проблемы и соответствующего шаблона кода Python».

Чтобы оценить полученные результаты, каждое поколение большой языковой модели (LLM) было напрямую отправлено онлайн-судье LeetCode для оценки. Генерация считается «непосредственно исполняемой», если онлайн-судья принимает ответ как действительный код. Оценка выявила снижение количества непосредственно исполняемых поколений с марта по июнь. На рис. 4(а) показано, что более 50 % поколений GPT-4 были непосредственно исполняемыми в марте, тогда как в июне это число упало до 10 %. Аналогичная тенденция наблюдалась и для ГПТ-3,5. Кроме того, было небольшое увеличение детализации для обеих моделей.

Большой вопрос здесь в том, почему отказались от прямо исполняемых поколений?

Уменьшение непосредственно исполняемых поколений можно отнести к июньским версиям, которые постоянно добавляют в свои выходные данные дополнительный текст, не относящийся к коду. Рисунок 4(b) представляет собой наглядный пример этого явления. Сравнивая поколения GPT-4 в марте и июне, они выглядят почти одинаково, за исключением двух частей. Во-первых, июньская версия добавила « python » и « » до и после фрагмента кода соответственно. Во-вторых, это вызвало еще несколько комментариев. Несмотря на кажущиеся незначительными изменения, дополнительные тройные кавычки сделали код неисполняемым. Эту проблему может быть особенно сложно выявить, когда код, сгенерированный LLM, используется в более крупном программном конвейере, что может привести к непредвиденным последствиям и ошибкам.

визуальное мышление.

Последней изученной областью были визуальные рассуждения, задача, требующая абстрактных рассуждений. Для оценки способности к визуальному мышлению использовался набор данных ARC, обычно используемый для этой цели. Задача заключается в создании выходной сетки исключительно на основе нескольких подобных примеров, представленных во входной сетке.

Представив входную и выходную сетки в виде двумерных массивов со значениями элементов, обозначающими цвета, мы предоставили службам LLM 467 выборок из набора данных ARC, адаптированных для соответствия контекстному окну всех служб. Затем мы измерили точное соответствие между их сгенерированным выводом и истинной реальностью. Рисунок 5(a) демонстрирует незначительное улучшение производительности как для GPT-4, так и для GPT-3.5. Однако наиболее примечательный вывод заключается в том, что для более чем 90% запросов визуальных головоломок мартовская и июньская версии генерировали одно и то же. Тем не менее, общая производительность этих сервисов оставалась относительно низкой: показатель успеха составил 27,4% для GPT-4 и 12,2% для GPT-3.5.

Существенным наблюдением является то, что услуги LLM не всегда улучшали свои поколения с течением времени. Несмотря на лучшую общую производительность, GPT-4 в июне допустил ошибки в запросах, на которые дал правильные ответы в марте. На рис. 5(b) показан пример такого случая. Это подчеркивает необходимость детального мониторинга дрейфа, особенно в критических приложениях, чтобы гарантировать, что производительность модели останется надежной и стабильной с течением времени.

последние мысли.

Исследование выявило значительные колебания в поведении GPT-3.5 и GPT-4, которые разворачиваются в удивительно короткие сроки. Это подчеркивает первостепенную важность постоянной непрерывной оценки моделей больших языков (LLM) при их развертывании в реальных приложениях. Тщательный мониторинг их производительности и поведения является важным шагом для обеспечения их надежности, безопасности и предотвращения любых вредных выходов. По мере того, как мы разбираемся в сложностях больших языковых моделей (LLM) и разгадываем их динамическое поведение, становится очевидным, что сообщество ИИ стоит на решающем этапе. Изучение GPT-3.5 и GPT-4 пролило свет на необходимость постоянной оценки и тщательного мониторинга этих передовых языковых моделей в реальных приложениях.

Этот поворотный момент требует коллективных усилий для формирования будущей траектории ИИ и машинного обучения. Результаты этого исследования в сочетании с другими исследованиями в этой области дают ценную информацию, которая может помочь в ответственной разработке и развертывании LLM. Подчеркивая этические соображения, прозрачность и интерпретируемость, мы можем проложить путь к технологиям искусственного интеллекта, которые внушают доверие пользователям и обществу в целом.

Если у вас есть вопросы по этой статье или вы просто хотите пообщаться, вы можете найти меня в LinkedIn или на моем личном сайте :)