Введение
Языковые модели — это мощные инструменты, которые могут генерировать тексты на естественном языке на основе заданных входных данных или контекста. У них много применений в обработке естественного языка, таких как обобщение текста, ответы на вопросы, создание диалогов и многое другое. Однако большинство существующих языковых моделей либо предварительно обучены на больших корпусах текстов, которые могут не отражать конкретную область или интересующую задачу, либо настроены на небольшие наборы данных, которые могут не отражать разнообразие и богатство естественного языка.
Чтобы решить эту проблему, группа исследователей из Alignment Lab, исследовательской организации, занимающейся продвижением выравнивания и безопасности искусственного интеллекта, разработала новую языковую модель под названием OpenOrca-Preview1–13B. Эта модель является частью проекта OpenOrca, целью которого является создание открытых моделей генерации текста, которые могут генерировать связные и разнообразные тексты в различных предметных областях и задачах.
OpenOrca-Preview1–13B — это языковая модель, разработанная командой Open-Orca. Модель была разработана как попытка воспроизвести набор данных, созданный для Microsoft Orca Paper. Девизом разработки этой модели было превзойти текущий уровень развития общедоступных моделей в этом классе при очень меньшем бюджете на обучение.
Что такое OpenOrca-Preview1–13B?
OpenOrca-Preview1–13B — это языковая модель, которая точно настроена на небольшом подмножестве (6%) набора данных инструкций Open-Orca1. Набор данных инструкций Open-Orca — это попытка воспроизвести документ Orca.
Ключевые функции OpenOrca-Preview1–13B
OpenOrca-Preview1–13B обладает некоторыми впечатляющими функциями, которые делают его уникальной и мощной языковой моделью. Вот некоторые из этих особенностей:
- Он настроен на небольшое подмножество (6%) набора данных инструкций Open-Orca, который представляет собой большой и разнообразный набор текстов из различных источников, таких как книги, новостные статьи, Википедия, Reddit, Twitter и т. д. Это означает, что модель может генерировать тексты для любой предметной области или задачи, не требуя никаких дополнительных данных или тонкой настройки.
- В процессе тонкой настройки использовались 8 графических процессоров A100–80G в течение 15 часов, что является относительно коротким временем по сравнению с другими языковыми моделями, требующими нескольких дней или недель обучения. Это означает, что модель эффективна и масштабируема и может быть легко обновлена или улучшена с помощью новых данных или методов.
- Товарная стоимость тонкой настройки составила менее 200 долларов, что является очень низкой ценой по сравнению с другими языковыми моделями, обучение которых стоит тысячи или миллионы долларов. Это означает, что модель является доступной и доступной, и ее может использовать любой, кто интересуется или нуждается в генерации открытого текста.
- Команда утверждает, что они достигли 60% улучшения производительности рассуждений по сравнению с Vicuna, которая является еще одной языковой моделью, основанной на GPT-3, которая использовалась в качестве основы в статье Orca. Это означает, что модель эффективна и интеллектуальна и может решать сложные логические задачи, требующие логики, здравого смысла и общих знаний.
Возможности/вариант использования OpenOrca-Preview1–13B
OpenOrca-Preview1–13B — это не только мощная языковая модель для генерации текста с открытым кодом, но и универсальный инструмент для решения различных задач обработки естественного языка, включающих понимание и манипулирование текстом. Некоторые из примеров:
Генерация текста. Эта задача включает в себя создание текстов на естественном языке, которые являются связными, беглыми и релевантными заданным вводным данным или контексту. Например, вы можете использовать OpenOrca-Preview1–13B для создания:
- Информативный, привлекательный и оригинальный контент для статей, историй или блогов.
- Интерактивные, реалистичные и персонализированные диалоги для чат-ботов, игр или симуляций.
- Описательные, лаконичные и запоминающиеся подписи к изображениям или видео.
Классификация текста. Эта задача включает в себя отнесение текста к предопределенным классам или категориям на основе его содержания или значения. Например, вы можете использовать OpenOrca-Preview1–13B для классификации:
- Электронные письма или сообщения как спам или не спам в зависимости от их темы или тела.
- Тексты как положительные, отрицательные или нейтральные в зависимости от их настроений или эмоций.
- Документы, относящиеся к разным темам или областям на основе их ключевых слов или тем.
Анализ настроений. Эта задача включает в себя выявление и извлечение настроений или эмоций, выраженных в фрагменте текста. Например, вы можете использовать OpenOrca-Preview1–13B для анализа:
- Отзывы клиентов или обзоры как удовлетворенные, неудовлетворенные или нейтральные в зависимости от их тона или языка.
- Публикации или комментарии в социальных сетях как счастливые, грустные, злые или удивленные в зависимости от их смайликов или выражений.
- Описания или характеристики продуктов как привлекательные, скучные или сбивающие с толку на основе их прилагательных или модификаторов.
Оценка эффективности с другими моделями
Модель OpenOrca-Preview1–13B была оценена в задачах на сложные рассуждения от BigBench-Hard и AGIEval, как указано в документе Orca. Средняя производительность OpenOrca-Preview1–13B на BigBench-Hard составила 0,3753, а средняя производительность на AGIEval — 0,3638.
В статье Orca производительность их модели была измерена по сравнению с Vicuna по этим оценкам. Команда OpenOrca сделала то же самое и обнаружила, что их средний балл составляет примерно 60% от общего улучшения, показанного в документе Orca. Это означает, что OpenOrca-Preview1–13B достигла 60% улучшения только с 6% данных!
Команда OpenOrca сообщит о своих результатах на веб-сайте HuggingFace в таблице лидеров Open LLM, как только они их получат. Это позволит лучше понять производительность OpenOrca-Preview1–13B по сравнению с другими моделями.
Как получить доступ к этой модели и использовать ее?
OpenOrca-Preview1–13B — это языковая модель, к которой можно получить доступ и использовать через веб-сайт Hugging Face. Пожалуйста, посетите веб-сайт Hugging Face или свяжитесь с командой OpenOrca для получения дополнительной информации о местном использовании или инструкций по использованию модели.
Если вам интересно узнать больше о модели OpenOrca-Preview1–13B, все соответствующие ссылки, включая статью об Orca и статью об Orca, которую я недавно опубликовал, приведены в разделе «Источник» в конце этой статьи.
Заключение
OpenOrca-Preview1–13B — впечатляющая языковая модель, созданная командой Open Orca. Он был обучен на большом и разнообразном наборе данных текста из разных источников, но использовал лишь небольшую его часть (6%). Он продемонстрировал свою способность генерировать высококачественные тексты для любой предметной области или задачи, не требуя никаких дополнительных данных или тонкой настройки. Он также продемонстрировал свой интеллект и уравновешенность, хорошо справляясь со сложными логическими задачами и избегая вредных или вводящих в заблуждение текстов. Будет интересно посмотреть, как эта модель будет развиваться и улучшаться при обучении на полном наборе данных.
источник
Модель OpenOrca — https://huggingface.co/Open-Orca/OpenOrca-Preview1-13B
Пространство open-Orca — https://huggingface.co/Open-Orca
Ссылка компании — https://alignmentlab.ai/
Бумага Orca — https://arxiv.org/abs/2306.02707
Статья об Or ca — https://medium.com/aimonks/orca-a-13-billion-parameter-model-that-outperforms-other-llms-by-learning-from-gpt-4-eef7dc9b86dc
Первоначально опубликовано на https://socialviews81.blogspot.com.