Введение
Искусственный интеллект (ИИ) уже много лет меняет мир и развивается циклически, полагаясь на преимущества масштаба вычислений, данных и моделей для постоянного достижения качественного скачка по сравнению с количественными изменениями. В частности, недавнее появление большой языковой модели (LLM) ChatGPT заставило нас пересмотреть реальность разработки ИИ с учетом его преимуществ масштаба. Фактически, профессор Рич Саттон — выдающийся деятель обучения с подкреплением в современном ИИ — в своей статье 2019 года Горький урок высказал аналогичные размышления о таком вычислительном чуде приложений глубокого обучения.
В то время методы глубокого обучения нейронных сетей (DNN), в том числе сверточная нейронная сеть (CNN), рекуррентная нейронная сеть (RNN) и глубокое обучение с подкреплением (RL), уже изменили компьютерное зрение (CV), распознавание речи и компьютерные технологии. go, а также продемонстрировал большой потенциал в обработке естественного языка (NLP). В частности, глубокая модель CNN ResNet превзошла все предыдущие современные методы CV и даже превзошла возможности человека в испытании ImageNet ILSVRC 2016 года (см. Ниже).
Кроме того, публикация Google метода Transformer в 2017 году, за которым последовали языковые модели на основе Transformer, такие как BERT и GPT, вызвала большие надежды на прорыв DNN в НЛП. Одной из общих характеристик этих моделей является их большой масштаб: высокая вычислительная мощность, большие наборы данных и огромные размеры моделей. Более того, появляются различные методы DNN, и производительность постоянно улучшается, заставляя людей затаить дыхание, хотя они и представить себе не могли, что возможности ChatGPT появятся сегодня.
Учитывая применение большой модели в различных практических сценариях в последние годы, особенно внимание, вызванное такими моделями, как LaMDA, ChatGPT, Dall E-2, MidJourney и Stable Diffusion, по-прежнему полезно изучить размышления Саттона об этой реальности.
Размышления о «Горьком уроке»
В своей статье «Горький урок» профессор Саттон, кажется, говорит, что «будущее развития ИИ будет зависеть от того, как использовать безграничные вычислительные ресурсы, а не пытаться привить машинам больше человеческих знаний и понимания». Наша интерпретация его «горького урока» заключается в том, что успех разработки ИИ зависит от преимущества масштаба, где масштаб относится к вычислительным ресурсам (вычислениям и данным) и согласованным моделям. «Горький урок» также в какой-то мере отражает реальность развития ИИ. Похоже, мы можем далее утверждать, что развитие ИИ примерно следует новой разрушительной S-образной кривой (как показано ниже) со следующими тремя основными фазами:
- В какой-то момент ИИ сталкивается с узкими местами… и появляется более общий метод с более крупной моделью, превосходящий предыдущие методы по производительности и возможностям, основанный на чрезмерно больших вычислениях и гораздо больших наборах данных.
- Прорыв новой и более крупной модели приносит новую надежду и волнение. Практики ИИ охотно пытаются понять, объяснить и улучшить новую модель и методы; они пытаются идеалистически определить и найти локальную структуру и закономерности, которые могут быть независимыми от сложного внешнего мира; они пробовали различные методы, такие как упрощение модели, прививка к другим методам или подключение к конкретным вертикальным сценариям, надеясь на дальнейшую оптимизацию и улучшение модели в меньшем масштабе.
- Однако эти усилия могут не дать ожидаемых результатов вовремя или столкнуться с узкими местами, поскольку более общий метод и даже более крупная модель появляются из ниоткуда и превосходят предыдущие методы и усилия по производительности и возможностям, требуя еще большей вычислительной мощности и больших наборов данных. И цикл возвращается к 2.
Искусственный интеллект уже много лет разрушает и развивается циклично, непрерывно совершая качественный скачок от количественных изменений. С появлением крупных моделей, таких как ChatGPT, специалисты по искусственному интеллекту пересматривают реальность развития искусственного интеллекта с преимуществом масштаба. Как специалисты по ИИ должны понимать большие модели, такие как ChatGPT, и их масштабные преимущества?
Как кто-то предложил, мы можем разделить практиков ИИ на два основных лагеря, называемых «Фракцией подключаемых модулей» и «Фракцией холодного старта». Практики «Фракции холодного старта» обычно начинают все с нуля, отбрасывая текущие ограничения своего понимания мира, но они верят в силу вычислительного масштаба. Они часто остаются незамеченными в течение длительного времени, но как только они выходят из своего молчания, новые методы и новые крупные модели, которые они привносят, могут вызвать шок или даже переворот в отрасли; такие модели, как ChatGPT и Stable Diffusion, имеют такую природу и часто появляются из ниоткуда.
«Фракция подключаемых модулей» находится на второй стадии упомянутой выше S-образной кривой. Они пытаются внедрить некоторые структуры в модели и адаптировать общие модели к различным вертикальным сценариям с помощью улучшенных методов. Например, они пытаются подключить модель к конкретному приложению, используя частные или проприетарные данные для предметной области, чтобы переобучить и улучшить модель или компенсировать недостатки модели в вертикальной области. Другим примером является то, что большие модели имеют десятки миллиардов параметров и требуют большого количества вычислений и мощности для запуска, что делает их финансовыми и экологическими проблемами, и они пытаются упростить или уменьшить размерность модели, включая такие методы, как дистилляция модели или сокращение. , удаление гаек и болтов, которые могут не понадобиться в модели в вертикальном поле, и уменьшение размера модели для снижения эксплуатационных расходов. Кроме того, большие модели используются в качестве переходных слоев, вводя, прививая и интегрируя другие вертикальные приложения, чтобы компенсировать недостатки моделей, такие как математические рассуждения.
Эти методы исправления кажутся очень привлекательными. Это усилие ценно, особенно при установлении разумных ожиданий. Но бесплатного обеда не бывает, и эти усилия по упрощению и оптимизации больших моделей совсем непросты. Специалисты по ИИ должны взвесить все за и против; важное предостережение заключается в том, что эти методы могут быть менее эффективными или даже создавать новые проблемы, если ими не грамотно управлять. Поскольку модель дорабатывается для улучшения определенных вертикальных сценариев или уменьшается в размерах и размерах для снижения эксплуатационных расходов и воздействия на окружающую среду или адаптируется для интеграции других вертикальных моделей и функций, исходные общие базовые возможности модели и возможности обобщения могут ослабнуть (см. следующий раздел о преимуществах масштаба и появлении), или даже привести к несогласованным значениям или даже рискам безопасности.
«Горький урок» профессора Саттона предназначен для «Фракции подключаемых модулей», потому что реальность может заключаться в том, что они заняты на втором этапе, разбираясь или еще не соображая, как поступить и переварить текущую модель, в то время как « Фракция холодного старта» может внезапно появиться, а новые модели и методы полностью превзойдут текущую модель по производительности и возможностям и оставят работу «Фракции подключаемых модулей» далеко позади. Конечно, восприятие профессора Саттона выходит за рамки только поверхности «Фракции подключаемых модулей» и «Фракции холодного старта» и углубляется в более глубокие вопросы о том, как понимать и познавать мир, или существует ли упрощенная структура или шаблон. , или стоит ли исследовать и понимать эту структуру (если считается, что она существует).
Этот спор может продолжать обостряться; могут также продолжать появляться новые проблемы. Например, помимо вычислительной мощности, как избежать узких мест из-за обучающего набора данных? Этот вопрос уже стал вызовом для исследований в области робототехники, и некоторые практики называют его горьким уроком 2 (Karol Hausman, 2023). Таким образом, проблема может заключаться в том, чтобы найти другие источники, предоставляющие достаточно данных для обучения роботов, чтобы роботы могли учиться на достижениях в других областях и получать больше данных.
Однако независимо от того, что произойдет, преимущество масштаба ИИ, безусловно, сохранится.
Большие модели: преимущества масштаба и появление
Одна из ключевых проблем, которую пытается решить ИИ, заключается в том, как в полной мере использовать данные о человеческих знаниях и опыте (включая знания, записанные на различных носителях, помеченные или не помеченные человеком данные, прошлые взаимодействия с окружающей средой или данные, полученные с помощью симуляторов) для создания высокопроизводительного Модель ИИ для удовлетворения различных потребностей людей в прогнозировании. Первый прорыв в области ИИ сейчас произошел в языковых моделях по многим причинам, но главным образом потому, что язык играет важную роль в нашей жизни, работе, обучении, религии и политической деятельности, а также в выражении наших эмоций и рассуждений. Поэтому у нас также есть большое количество языковых данных, включая текстовые данные в Интернете, тексты книг, компьютерный код, данные Википедии и т. д., которые можно использовать для обучения языковых моделей. В настоящее время большие языковые модели демонстрируют три важные возможности (Яо Фу и др., 2022):
- Генерация языка: следуя языковым подсказкам, модель генерирует предложения для завершения подсказок или дает разумные ответы. Сегодня это также наиболее распространенный способ взаимодействия людей с языковыми моделями. Кроме того, он может понимать или генерировать компьютерный код.
- Обобщенное обучение: обучение в контексте — это базовая способность современных больших языковых моделей; модель следует нескольким примерам данной задачи, а затем генерирует ответ для новых тестовых случаев. Модель ChatGPT может автоматически генерировать эффективные ответы на новые инструкции, которых она никогда раньше не видела; он также может выполнять сложные рассуждения, используя цепочки мыслей (CoT). Это, по-видимому, важные эмерджентные способности языковых моделей.
- Знание мира: с помощью модели ChatGPT фактические знания и знания здравого смысла до 2021 года в принципе могут быть синтезированы.
Откуда берутся эти способности? Конечно, способность обрабатывать естественный язык и генерировать компьютерный код обусловлена целями обучения языковому моделированию. В настоящее время большие модели унифицированы под архитектурой Transformer, и в основном существует два типа каркасов предварительно обученных моделей: BERT и GPT. BERT — это предварительно обученная модель, основанная на двунаправленном языковом представлении Transformer-Encoder и применяемая к различным задачам НЛП посредством точной настройки. Однако большинство больших языковых моделей в настоящее время используют однонаправленные авторегрессионные модели предварительного обучения типа GPT, основанные на архитектуре Transformer-Decoder, такие как ChatGPT, GPT-3, PaLM, MT-NLG и LaMDA. Модели типа GPT применяются к последующим задачам посредством вывода на основе подсказок. Это может быть связано с тем, что GPT-подобная архитектура может гибко обрабатывать задачи как понимания, так и генерации унифицированным образом; с другой стороны, вывод на основе подсказок больше соответствует поведению пользователя, а режим GPT лучше, чем BERT, при решении последующих задач с помощью методов на основе подсказок.
Такие модели, как GPT-3, могут дать хорошие результаты с помощью подсказок Zero-shot (экземпляры не нужны), One-shot (нужен только один экземпляр) и Few-shot (необходимо несколько экземпляров). С помощью этих подсказок модель большого языка соответствующим образом корректирует свое пространство ответов, чтобы адаптироваться к сценарию проблемы. Когда количество инструкций, используемых для обучения модели, достаточно, модель может также генерировать правильный ответ на новые инструкции, которые она никогда раньше не видела. Таким образом, сверхбольшие модели, такие как ChatGPT, обычно демонстрируют относительно удовлетворительные способности к обобщению.
Большие языковые модели, по сути, объединяют и запоминают огромное количество человеческих знаний и опыта и могут давать соответствующие ответы по мере необходимости. Например, ChatGPT использует учебный корпус из 300 миллиардов слов для своих знаний о мире. Модели требуют достаточных размеров (например, 1750 миллиардов параметров ChatGPT) для хранения большого объема знаний; особенно для наукоемких задач производительность модели тесно связана с ее размером, поэтому эти языковые модели часто бывают очень большими.
Преимущество масштаба модели наблюдалось в ранних практиках глубоких нейронных сетей (ГНС), так называемое преимущество глубины. В целом DNN обладают более богатыми выразительными возможностями, чем неглубокие сети; для достижения производительности многослойной нейронной сети с использованием однослойной нейронной сети потребуется экспоненциальное количество вычислительных нейронов. Для многомерных и разреженных больших языковых моделей, появившихся в последние годы, люди не только подтвердили их преимущество в глубине, но также наблюдали на основе большого количества экспериментов и опыта, что производительность больших моделей следует так называемому масштабированию. законов (Kaplan et al., 2020; Hoffmann et al., 2022). Закон масштабирования в основном относится к взаимосвязи между производительностью и выразительностью больших моделей и размером набора данных, количеством параметров модели и объемом вычислений, которые подчиняются степенным законам (см. рисунок ниже). Вообще говоря, чем больше параметров, чем больше набор данных и чем больше вычислительных ресурсов у большой модели, тем выше ее производительность и способность к обобщению. Конечно, реальная ситуация может быть более сложной, и масштабы вычислений, данных и модели должны совпадать. Согласно Hoffmann et al (2022), современные большие языковые модели значительно недообучены отчасти из-за несоответствия размеров обучающих наборов данных.
Преимущество масштаба больших языковых моделей не ограничивается только повышением производительности. Дальнейшие наблюдения показали, что, когда масштаб больших моделей достигает определенного уровня, возможности модели могут претерпевать качественные изменения по сравнению с количественными, а производительность может расти скачком (как показано на графике), могут появляться новые способности, в том числе те, кто учится в контексте и делает сложные рассуждения, используя цепочку мыслей (см. Обучение в контексте, Браун и др., 2020 г. и CoT, Вей и др., 2022 г.).
Хотя существуют различные интерпретации возможностей обучения в контексте и рассуждений на основе CoT в больших языковых моделях, эти способности к обучению отличаются от способности к обобщению, достигаемой за счет точной настройки, поэтому не требуют настройки параметров модели. Некоторые специалисты по ИИ называют эту способность учиться «как учиться» способностью к метаобучению. Этот качественный скачок в способности больших моделей к обучению известен как эмерджентное поведение (как показано на рисунке). Механизм того, почему предварительно обученные модели с большим языком способствуют эмерджентному поведению, такому как обучение в контексте и некоторые способности к рассуждению CoT, еще не полностью понят.
Выводы
Статья профессора Саттона «Горький урок» является отражением реальности масштабного преимущества ИИ. Большие модели, такие как ChatGPT, получают свои возможности из огромного количества человеческих знаний и данных об опыте. Эти большие модели машинного обучения имеют преимущество масштаба и могут иметь разные возможности для применения к различным задачам. Такие организации, как Google, Microsoft, Meta, OpenAI, Anthropic, Stability AI и MidJourney, вложили огромные средства в создание этих крупных моделей, которые затем создают продукты, влияющие на миллиарды людей. Эти модели уже могут быть интегрированы в зрелые продукты (такие как поиск Google и Microsoft Teams), создавать новые возможности (такие как ChatGPT, CoPilot, Stable Diffusion и MidJourney и т. д.) и стать центром экосистемы для стартапов следующего поколения. С одной стороны, их масштабы могут продолжать расширяться, постоянно бросая вызов нашему пониманию мира; нам необходимо получить более четкое представление о развивающихся возможностях этих моделей и использовать их потенциал и преимущества для различных приложений. С другой стороны, ведутся многочисленные дебаты вокруг рисков, связанных с этими моделями, таких как потенциальная токсичность, нечестность, распространение дезинформации, а также этические и юридические проблемы, связанные с их данными и практикой развертывания. В свете смеси волнения и страха, порождаемой большими моделями, крайне важно, чтобы мы тщательно оценивали и смягчали эти проблемы и риски, углубляли наше научное понимание их воздействия, особенно с точки зрения согласования с человеческими ценностями, и гарантировали, что их преимущества становятся доступными для человечества.