Демистификация больших языковых моделей: руководство для начинающих по пониманию ChatGPT и друзей

Начальные заметки

С возвращением, Посвященный.

- Если вы начинаете наше путешествие отсюда, мы ценим ваше желание отправиться в мир искусственного интеллекта. Однако для более глубокого понимания и начала вашего посвящения мы настоятельно рекомендуем вам углубиться в информацию, представленную в следующей статье: Нажмите здесь

– Если вы оказались здесь после приема красной таблетки, значит, вы отправились в путь знаний и открытий. Мир ИИ и генеративного ИИ таит в себе огромный потенциал и множество загадок. Ваш первый шаг? Погрузитесь в Матрицу, чтобы ощутить силу и возможности этого нового мира.

Отправляйтесь в путь с умом и всегда задавайте вопросы окружающему миру.

За последний год чат-боты с искусственным интеллектом, такие как ChatGPT, BARD или Claude2, покорили мир, поразив людей своими человеческими способностями к общению. Такие термины, как «большие языковые модели» и «трансформеры», продолжают появляться, чтобы объяснить технологию, лежащую в их основе.

В этом руководстве для начинающих я раскрою тайну ключевых понятий, чтобы вы могли понять, как эти системы творят чудеса. Мы рассмотрим:

- Что такое большая языковая модель?
- Понимание токенов
- Масштаб обучающих данных
- Как учатся LLM
- Вероятностное генерирование текста
- Создание разнообразия в ответах
- Приложения и ограничения

Давайте начнем!

Что такое большая языковая модель?

Давайте вернемся к нашему раннему образованию для некоторого контекста. В детстве мы начали с изучения 26 букв алфавита. Мы объединили буквы в слова типа «игрушка» и «комната». Но если мы соединим случайные буквы, например «toyyyz», нам скажут, что это не настоящее слово.

С математической точки зрения слово «toyyyz» крайне невероятно, а слово «toy» вероятно. Слова имеют присущие им оценки вероятности. Таким образом, словам можно присвоить балл, отражающий вероятность их существования. Например, «игрушка» может иметь оценку 99%, тогда как «toyyyz» будет очень низкой, например 0,0002%.

Затем мы научились объединять слова в правильные предложения, используя грамматические правила. Возьмем предложение: «Кот милый». Это правильный синтаксис. Но почему бы нам не сказать: «Кошки милые»? Поскольку правила грамматики говорят нам, что слово «кошка» имеет единственное число, поэтому мы используем «is» вместо «are». Как и словам, последовательностям слов можно присвоить оценки вероятности. Так что «Кот на столе» более вероятен, чем «Кот на прививке».

Так что же такое LLM?

LLM или Большая языковая модель — это системы искусственного интеллекта, обученные понимать и генерировать человеческий язык. Он поглощает огромные объемы текста — книги, новостные статьи, веб-страницы и многое другое. «Декодируя» весь этот текст, он учится предсказывать следующее слово (или, точнее, токен) в предложении на основе предыдущих токенов, анализируя большие тексты для статистического изучения закономерностей и структуры языка.

Воспринимайте это как игру в угадайку. Если я приведу предложение «Кот на…», вы можете догадаться, что следующим токеном может быть «крыша», «кровать» или «коврик». Это именно то, что делает LLM, только в гораздо большем масштабе.

Теперь я просто использовал термин «токен» вместо «слово», что является важным различием. Давайте сначала проясним ключевую концепцию, называемую токенами.

Токены: строительные блоки для понимания языка

В языковых моделях **токен** представляет собой единицу текста (например, слово или последовательность символов), которую модель рассматривает как один элемент. Токены позволяют моделям лучше понимать языковые нюансы.

Давайте посмотрим на пример. В социальных сетях люди редактируют сообщения, чтобы обойти фильтры, используя в словах такие символы, как «*». Допустим, кто-то опубликовал сообщение «Я убил своего кота», но изменил его на «Я убил своего кота», чтобы избежать удаления.

Если модель ИИ понимает только целые слова, «кошка» — это одно слово, а «ca *t» — два. Но в случае с токенами модель рассматривает обе версии как одну и ту же фразу. Вместо слов он понимает **токены** в контексте.

Токены могут представлять целые слова, символы или последовательности символов, в зависимости от архитектуры модели. Эта гибкость помогает моделям более разумно интерпретировать язык.

Например, фраза «Я люблю свою кошку» будет разбита на 5 токенов-слов:

["Я люблю своего кота"]

Но мы также могли бы токенизировать по символу, превратив его в:

[“I”, “l”, “o”, “v”, “e”, “m”, “y”, “c”, “a”, “t”]

Токенизация позволяет моделям понимать тексты как структурированные последовательности, а не как неделимое целое.

Таким образом, хотя GPT-3 обучается на токенах слов, другие модели, такие как LLaMA, могут обучаться на токенах последовательностей символов. Это дает модели большую гибкость в понимании языка.

Но какой объем данных LLM «потребляет» и кодирует с помощью токенов? Масштабы ошеломляют.

Масштаб обучающих данных: стоимость миллиардов книг!

Давайте поймем масштаб данных, используемый для таких LLM, как LlaMa. Последний LLM от Meta называется LLaMA-2. Он был обучен на 2 триллионах токенов, полученных из текстовых данных, таких как книги, веб-сайты и т. д., для изучения языковых моделей.

Давайте представим, как выглядят 2 триллиона токенов:

Предположим, что средняя книга содержит около 500 000 символов, включая пробелы. Эта цифра может варьироваться, но это правдоподобная оценка для среднего романа, и каждый токен в среднем равен 4 символам.

- Если средняя книга содержит ~500 000 символов, она содержит ~125 000 токенов
- 2 триллиона токенов равны ~ 16 миллиардам книг!
- При 100 000 книг в библиотеке это 160 миллионов данных библиотек🤯

Таким образом, во время обучения LLaMA-2 по сути «читает» сотни миллионов библиотек, чтобы статистически понять язык. Эта необработанная шкала позволяет ему свободно общаться практически на любую тему.

Теперь, когда мы знаем, сколько данных поглощают LLM, как они на самом деле извлекают из них уроки?

Как LLM учатся на данных: предварительное обучение и тонкая настройка

LLM учатся на данных в два ключевых этапа:

1. Предварительная тренировка

В ходе предварительного обучения LLM усваивает огромное количество разнообразных текстов — книг, статей, веб-сайтов и т. д. Он изучает глубокие закономерности и статистические структуры реального языка.

В частности, его обучают предсказывать следующий токен (слово или символ) в предложении на основе предыдущей последовательности. Например:

- Предложение: «Кот находится на…»
- Модель предсказывает следующий токен: «коврик», «кровать», «диван» и т. д.

Повторное выполнение этих прогнозов на обширных наборах данных позволяет модели достичь более глубокого понимания языка.

2. Точная настройка

После предварительного обучения модель настраивается под конкретные задачи путем обучения на специализированных наборах данных.

Например, степень LLM может быть адаптирована к медицинским учебникам и записям пациентов, чтобы точно отвечать на вопросы о здоровье.

Это адаптирует общие языковые возможности модели к специализированным областям и задачам. Точная настройка имеет решающее значение для раскрытия всего потенциала LLM.

Однако студенты LLM не «понимают» язык так, как люди. Они становятся очень хороши в статистических прогнозах, но не понимают смысла.

Далее мы рассмотрим, как они генерируют прогнозы.

Как LLM генерируют текст вероятностно

При генерации текста LLM прогнозирует следующий токен, присваивая оценки вероятности всем возможным словам, которые могут последовать за ним. Вероятности исходят из статистических закономерностей, которые он наблюдал во время обучения.

Например:

- Предложение: «Кот лежит на…»
- «коврик» — вероятность 78%
- «диван» — 15%
- «авокадо» — 0,01%

Вместо того, чтобы просто выбирать слово с наивысшим рейтингом, модель может использовать «софтмаксную выборку», чтобы иногда случайным образом выбирать слова с более низким рейтингом. Это делает результаты более естественными и разнообразными.

Объединив эти шаги прогнозного токена вместе, модель может генерировать целые абзацы связного текста на основе распознаваемых ею шаблонов. Однако, поскольку ему не хватает истинного понимания, могут возникнуть странные ошибки.

Как мы сейчас объясним, два метода, называемые температура и выборка top-k, еще больше улучшают изменчивость и креативность результатов LLM.

Создание разнообразия: температура и отбор проб Top-k

Два ключевых метода позволяют LLM производить более разнообразные и интересные результаты:

Температура. Управляет случайностью прогнозов. Более высокие значения заставляют модель исследовать больше творческих возможностей. Более низкие значения делают его консервативным и предсказуемым.

Выборка Top-k — учитываются только k k наиболее вероятных токенов для каждого прогноза, а не все из них. Это позволяет избежать маловероятных токенов, сохраняя при этом некоторую случайность.

При правильном балансе температуры и выборки top-k мы можем управлять LLM для получения широкого спектра высококачественных результатов. Определенные настройки параметров могут даже вызвать более «творческую личность».

Эти достижения позволяют LLM использовать расширяющийся спектр практических приложений, несмотря на их ограничения.

Приложения и ограничения больших языковых моделей

Благодаря своим расширенным возможностям генерации текста, LLM совершают прорывы во многих областях:

– Разговорный искусственный интеллект. Чат-боты, такие как ChatGPT, для поиска информации, обслуживания клиентов и т. д.

- Создание контента – автоматическое создание статей, историй, кода и многого другого.

- Перевод — высококачественный перевод между языками.

– Обобщение – сжатие документов в краткие сводки.

Однако у LLM есть существенные ограничения по сравнению с человеческим интеллектом:

- Им не хватает истинного понимания языка и мира
- Могут генерировать правдоподобный, но неверный или бессмысленный текст
- Предвзятость обучающих данных распространяется на поведение модели
- Креативность ограничена по сравнению с человеческой оригинальностью

Таким образом, хотя программы LLM во многих отношениях чрезвычайно эффективны, мы должны использовать их ответственно. Сочетание этих моделей с надзором со стороны человека раскрывает их потенциал роста и одновременно сводит к минимуму ущерб.

Тщательное оперативное проектирование также имеет решающее значение для того, чтобы LLM вели себя так, как предполагалось. Мы могли бы рассказать об эффективных подсказках в будущей статье — дайте мне знать в комментариях, если вы найдете это полезным!

Дорога впереди

Подводя итог, можно сказать, что модели большого языка — это революционный шаг в области искусственного интеллекта, но они все еще далеки от понимания языка на человеческом уровне. При ответственной разработке и использовании они могут обеспечить огромный прогресс в таких областях, как образование, наука, доступность и за их пределами. Но мы также должны активно устранять их ограничения и риски.

Нео, я надеюсь, что это руководство пролило свет на загадку, окружающую ChatGPT и аналогичные LLM. Если у вас останутся вопросы, изложите их, и в другой раз я разъясню дальше. Когда мы отправляемся вперед, горизонт сияет потенциалом. Наша судьба — понять, как лучше всего использовать мощь этого языкового ИИ.

Для более глубокого понимания посмотрите мое видео на эту тему.

@capsule_ai

Следуйте за мной в LinkedIn:

Сообщение от AI Mind

Спасибо, что являетесь частью нашего сообщества! Перед тем, как ты уйдешь:

👏 Аплодируйте истории и подписывайтесь на автора 👉
📰 Больше контента смотрите в AI Mind Publication
🧠 Улучшайте свои подсказки AI легко и БЕСПЛАТНО
🧰 Откройте для себя Интуитивные инструменты искусственного интеллекта

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning