Коллекция языковых моделей с открытым исходным кодом, обученная на триллионах токенов

Meta, ранее известная как Facebook, запустила свою последнюю и мощную коллекцию моделей больших языков (LLM) под названием LLaMA¹.

В объявлении Facebook в пятницу, 24 февраля 2023 года, генеральный директор Марк Цукерберг подчеркнул важность LLM и их влияние на множество приложений с естественным языком: «LLM продемонстрировали многообещающие возможности в создании текста, ведении бесед, обобщении письменных материалов и многом другом. сложные задачи, такие как решение математических теорем или предсказание структуры белка. Meta привержена этой открытой модели исследований, и мы сделаем нашу новую модель доступной для исследовательского сообщества ИИ»².

Цель Meta — демократизировать доступ к этой технологии и сделать ее более доступной для исследователей, у которых может не быть доступа к большому количеству инфраструктуры. Отсутствие доступа мешает исследователям глубже понять эти модели, в том числе то, как они работают и как решать такие проблемы, как предвзятость, токсичность и дезинформация¹.

LLaMA отличается от других систем, таких как ChatGPT от OpenAI, Microsoft Bing или невыпущенный Bard от Google. Он предназначен не для общего разговора или публичного использования, а скорее как исследовательский инструмент для экспертов в этой области.

LLaMA — последнее дополнение к растущему списку впечатляющих языковых моделей, включая GPT-3, Gopher, Chinchilla и PaLM. В документе³ сообщается об исключительной производительности, превосходящей GPT-3 в большинстве тестов и конкурирующей с лучшими доступными моделями³. Что наиболее примечательно, так это тот факт, что LLaMA достигает самых современных результатов с моделями в 10 раз меньше, чем GPT-3 (LLaMA-13B).

Технические достижения

В отличие от Chinchilla, PaLM или GPT-3, подход, используемый авторами, использует исключительно общедоступные данные, совместимые с открытым исходным кодом³. Хотя есть некоторые исключения, такие как OPT, GPT-NeoX, BLOOM и GLM, ни один из них не может конкурировать с PaLM-62B или Chinchilla с точки зрения производительности. Авторы используют источники данных, которые использовались для обучения других LLM, с ограничением использования только общедоступных данных.

Основываясь на последних разработках в области LLM, сеть, используемая авторами, основана на архитектуре трансформатора⁴. Они внесли существенные изменения в исходную архитектуру и интегрировали несколько улучшений, которые впоследствии были предложены и применены в различных моделях, таких как PaLM. Наиболее примечательными были использование предварительной нормализации (GPT-3), функции активации SwiGLU (PaLM) и вращающихся вложений (GPTNeo)³.

Для обучения своих моделей авторы внедрили несколько недавних оптимизаций для повышения скорости обучения. При обучении модели с параметрами 65B их код способен обрабатывать примерно 380 токенов/сек/GPU на графическом процессоре 2048 A100 с 80GB RAM. Это означает, что обучение их набору данных, содержащему 1,4 Т токенов, занимает около 21 дня³.

Воздействие на окружающую среду

Как упоминалось ранее, обучение LLM часто влечет за собой использование значительных вычислительных ресурсов, таких как высокопроизводительные графические процессоры, в течение длительных периодов времени, что приводит к значительному потреблению энергии. Это потребление энергии способствует увеличению углеродного следа LLM, вызывая опасения по поводу их устойчивости и воздействия на окружающую среду. Более того, по мере увеличения использования LLM увеличивается и углеродный след, что делает его насущной проблемой, требующей решения.

Авторы стремятся внести положительный вклад в сокращение будущих выбросов углерода, выпустив свои предварительно обученные модели. Доступность этих моделей может уменьшить вычислительные ресурсы, необходимые для обучения новых моделей, что может привести к потенциальному снижению энергопотребления, связанного с обучением LLM. Кроме того, некоторые модели (LLaMA-7B, LLaMA-13B) относительно малы и могут обучаться на одном графическом процессоре, что еще больше сводит к минимуму воздействие на окружающую среду, связанное с их использованием.

Запрос доступа к LLaMA

Чтобы защитить свою целостность и предотвратить неправомерное использование, LLaMA распространяется по некоммерческой лицензии, предназначенной для исследовательских целей. Доступ к модели будет предоставляться отдельным академическим, государственным, неправительственным, образовательным и корпоративным исследовательским лабораториям на индивидуальной основе.

Чтобы подать заявку на доступ, перейдите по этой ссылке и заполните предоставленную форму Google. Чтобы использовать модель, клонируйте репозиторий Github, предоставленный исследовательской группой по адресу facebookresearch/llama⁵, и следуйте приведенным там инструкциям.

Дальнейшие исследования

LLaMA вызвала много шума из-за структуры LLaMA 13B, которая работает лучше, чем GPT-3, хотя она в 10 раз меньше. Группа базовых моделей обеспечивает более высокую скорость вывода и возможности помощника в реальном времени, подобные ChatGPT, при этом они эффективны и могут работать на одном графическом процессоре.

Тем не менее, LLaMA не был точно настроен для задач обучения с учебным процессом обучения с подкреплением на основе обратной связи с человеком (RLHF), обеспечивающим больше возможностей, подобных ChatGPT. Чтобы заполнить пробел, ChatLLaMA⁶ был представлен как первая реализация процесса RLHF с открытым исходным кодом, которая использует LLaMA.

ChatLLaMA позволяет создавать службы в стиле ChatGPT на основе предварительно обученных моделей LLaMA. По сравнению с исходным ChatGPT процесс обучения и логический вывод с одним GPU значительно быстрее и дешевле благодаря меньшему размеру архитектур LLaMA. Библиотека также поддерживает все архитектуры модели LLaMA (7B, 13B, 33B, 65B), поэтому пользователи могут точно настроить модель в соответствии со своими предпочтениями в отношении времени обучения и производительности вывода.

Заключение

Введение LLaMA в Meta знаменует собой еще одну важную веху в области больших языковых моделей. В документе сообщается об исключительной производительности: LLaMA превосходит GPT-3 в большинстве тестов и достигает результатов, сравнимых с лучшими моделями, доступными в настоящее время. Внедрение LLaMA, наряду с другими впечатляющими языковыми моделями, такими как Gopher, Chinchilla и PaLM, сигнализирует о захватывающих перспективах будущих исследований в области обработки естественного языка.

Присоединяйтесь к моему списку рассылки, чтобы получать новый контент, как только я его опубликую!

Если вам нравится читать такие истории и вы хотите поддержать меня как писателя, подумайте о том, чтобы зарегистрироваться и стать участником Medium. Это 5 долларов в месяц, что дает вам неограниченный доступ к статьям о Python, машинном обучении и науке о данных. Если вы зарегистрируетесь по моей ссылке, я получу небольшую комиссию без каких-либо дополнительных затрат для вас.



Рекомендации

[1] Команда Meta AI, Представляем LLaMA: фундаментальную модель большого языка с 65 миллиардами параметров, https://ai.facebook.com/blog/large-language-model- лама-мета-ай/

[2] Марк Цукерберг, https://m.facebook.com/story.php?story_fbid=pfbid0tZ4Vt9nT887f1R998hgEP6diLipt8DZKhj8w4QSTygfEPgxvqtfPRJFTGLvYfj9ql&id=4

[3] H. Touvron, T. Lavril, G. Izacard, et al. LLaMA: Open and Efficient Foundation Language Models, https://research.facebook.com/file/1574548786327032/LLaMA--Open-and-Efficient-Foundation-Language-Models.pdf

[4] Ашиш Васвани, Ноам Шазир, Ники Пармар и др. Внимание — это все, что вам нужно, arXiv:1706.03762

[5] facebookresearch/llama, LLaMA, https://github.com/facebookresearch/llama

[6] nebuly-ai/nebullvm, chatllama, https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama