Что произошло на этой неделе в AI by Louie

На этой неделе мы были рады прочитать, как Демис Хассабис обсуждает грядущую новую модель Gemini Large Language от Deepmind. Исторически сложилось так, что DeepMind в первую очередь посвящала свои усилия обучению с подкреплением (RL) и оставалась относительно спокойной в разработке больших языковых моделей (LLM). Тем не менее, DeepMind стоял за документом Chinchilla, который с тех пор стал эталоном для обучения LLM, а также представил Sparrow в 2022 году. В этом году в Deepmind произошло много изменений: Deepmind недавно объединился с Google Brain и объединил ресурсы для усилий по искусственному интеллекту, и мы Жду новостей от Deepmind. В недавней разработке DeepMind представила свой последний проект под названием Gemini, будущий конкурент ChatGPT.

Предыдущий акцент DeepMind на обучении с подкреплением (AlphaGo) оказался очень полезным, поскольку подход RLHF (обучение с подкреплением на основе отзывов людей) служил секретным ингредиентом впечатляющей производительности чат-агентов, таких как ChatGPT. По словам Демиса Хассабиса, генерального директора DeepMind, Gemini сочетает в себе возможности систем типа AlphaGo с глубоким пониманием языка, присущим LLM. Модель все еще находится в стадии разработки и, как ожидается, останется таковой еще несколько месяцев. Как отметил Хассабис, для завершения этого проекта могут потребоваться инвестиции в размере от десятков до сотен миллионов долларов.

Мы очень рады видеть непрерывные инновации на переднем крае LLM, таких как GPT-4, и усилия других компаний по еще большему расширению границ возможностей этих моделей. Более того, растет ожидание новой волны прорывов в LLM, особенно в связи с огромным увеличением обучающих вычислений, доступных ведущим компаниям ИИ после недавних поставок графических процессоров Nvidia H100 с тензорными ядрами. Нам интересно посмотреть, будут ли увеличенные бюджеты вычислений для этих моделей использоваться в первую очередь для более сложных шагов и архитектур обучения, больших наборов обучающих данных или увеличенных параметров модели.

– Луи Питерс, соучредитель и генеральный директор компании Towards AI

Горячие новости

  1. DeepMind заявляет, что их следующий чат-бот будет конкурировать с ChatGPT

DeepMind разрабатывает нового чат-бота Gemini, который должен составить конкуренцию и потенциально превзойти ChatGPT от OpenAI. Используя достижения AlphaGo и языковые возможности LLM, DeepMind стремится установить господство на рынке генеративного ИИ.

2. ElevenLabs представляет свою голосовую библиотеку

ElevenLabs недавно представила Voice Library, платформу сообщества, интегрированную с многоязычной моделью, которая облегчает разработку реалистичных синтетических голосов с согласованными первичными речевыми характеристиками для коммерческих приложений. Инструмент Voice Design позволяет пользователям настраивать возраст, пол и акцент для создания уникальных и естественно звучащих голосов.

3. MosaicML соглашается присоединиться к Databricks для создания генеративного искусственного интеллекта для всех

MosaicML, стартап, занимающийся демократизацией крупномасштабного обучения и вывода нейронных сетей, объявил о сотрудничестве с Databricks в рамках сделки на 1,3 миллиарда долларов. Партнерство направлено на продвижение достижений в области программного обеспечения для генеративного ИИ и расширение охвата клиентов при одновременном расширении инженерных возможностей.

4. Продвижение инноваций с помощью искусственного интеллекта с открытым исходным кодом: генеральный директор Hugging Face дает показания перед Конгрессом США

Генеральный директор Hugging Face Клеман Деланг недавно выступил перед Конгрессом США с показаниями об искусственном интеллекте с открытым исходным кодом. В своем выступлении он подчеркнул важность искусственного интеллекта с открытым исходным кодом для продвижения инноваций, продвижения честной конкуренции и обеспечения ответственного развития. Деланге подчеркнул, что принципы открытого исходного кода демократизируют ИИ и способствуют более инклюзивному и совместному будущему в этой области.

5. Положение о возмещении убытков Adobe разработано, чтобы ослабить опасения предприятий по поводу произведений искусства, созданных с помощью ИИ

Adobe предлагает оговорку о возмещении убытков для решения проблем с авторскими правами, связанных с их генеративным инструментом искусственного интеллекта Firefly. Обучая модель легальному контенту и обещая покрыть любые претензии в отношении авторских прав, Adobe стремится облегчить беспокойство корпоративных пользователей и обеспечить законность и безопасность произведений искусства, созданных искусственным интеллектом.

Пять 5-минутных чтений/видео, чтобы вы продолжали учиться

  1. Объявляем первый вызов машинному обучению

Google объявил о первом конкурсе Machine Unlearning Challenge, в котором участвуют академические и промышленные исследователи. Эта новая область машинного обучения направлена ​​на устранение влияния определенных обучающих примеров из модели для защиты прав на конфиденциальность. Задача, проводимая на Kaggle, направлена ​​​​на оценку забывания моделей, забывающих о качестве и полезности моделей, и дает информацию для улучшения.

2. Восхождение инженера ИИ

В статье рассматривается появление инженерии ИИ как специализированной области и описываются необходимые навыки для достижения успеха в этой области. В нем подчеркивается важность глубокого понимания алгоритмов машинного обучения, обработки данных и языков программирования, а также способности преодолевать разрыв между исследованиями и реализацией для создания практических решений ИИ.

3. Революция генеративного ИИ: изучение современного ландшафта

В этой статье представлен обзор текущего состояния генеративного ИИ с акцентом на его способность генерировать связный текст, изображения и код. В нем обсуждаются известные модели, такие как Transformer, семейство GPT, модели Palm, модель Chinchilla, модель Megatron Turing и модели LlaMa. В посте также исследуется потенциальное влияние генеративного ИИ в различных областях, включая анимацию, игры, искусство, фильмы и архитектуру.

4. ИИ и автоматизация работы

ChatGPT и генеративный ИИ способны революционизировать то, как мы работаем. Однако насколько эта трансформация отличается от предыдущих волн автоматизации, охвативших последние два столетия? Кроме того, какие последствия это имеет для занятости? В этой статье рассматриваются революционные технологии прошлого и делается попытка представить будущее влияние ИИ на характер работы.

5. Что такое лангчейн и зачем мне как разработчику?

Langchain переживает значительный рост как один из самых быстрорастущих проектов с открытым исходным кодом в истории. В этом посте рассказывается о том, как LangChain позволяет разработчикам выполнять невероятные проекты, предлагая общий обзор его возможностей. Автор также делится личным отчетом о своем эксперименте с фреймворком.

Бумаги и репозитории

  1. Проклятие рекурсии: обучение на сгенерированных данных заставляет забыть о моделях

В этом документе рассматриваются потенциальные последствия для GPT-{n}, поскольку LLM все чаще вносят значительный вклад в язык, доступный в Интернете. Он показывает, что использование сгенерированного моделью контента во время обучения приводит к необратимым дефектам в результирующих моделях, что приводит к исчезновению хвостов исходного распределения контента. Если выходные данные тщательно не курируются, можно столкнуться с явлением, известным как «крах модели».

2. BradyFU/Awesome-Multimodal-Large-Language-Models

Репозиторий содержит тщательно отобранную коллекцию документов и наборов данных по мультимодальным моделям больших языков (MLLM). Он предлагает ценную информацию о различных аспектах, таких как мультимодальная настройка инструкций, обучение в контексте, цепочка мыслей и визуальное мышление с помощью LLM.

3. На пути к языковым моделям, которые могут видеть: компьютерное зрение сквозь призму естественного языка

В документе представлена ​​LENS (Language Models Enhanced to See), модульный подход, направленный на решение проблем компьютерного зрения путем использования возможностей больших языковых моделей (LLM). В системе используется языковая модель для анализа выходных данных набора независимых и описательных модулей зрения, которые в совокупности предлагают исчерпывающую информацию об изображении.

4. Более эффективный способ обучения модели CLIP

В дополнение к недавней работе CLIPA, которая вводит закон обратного масштабирования для обучения CLIP, в этой статье представлена ​​CLIPA-v2. CLIPA-v2 повышает эффективность моделей сопоставления изображения и текста, таких как CLIP, за счет использования более коротких последовательностей. Точность нулевого снимка ImageNet составляет 81,1%, при этом требуется всего 10 000 долларов ресурсов.

5. Сквозное автономное вождение: вызовы и границы

Этот обзор предлагает всесторонний анализ более 250 статей, охватывающих различные аспекты, такие как мотивация, дорожная карта, методология, проблемы и будущие тенденции в сквозном автономном вождении. В нем рассматривается несколько критических проблем, включая мультимодальность, интерпретируемость, причинно-следственную путаницу, надежность и модели мира, среди прочего.

Понравились эти статьи и сводки новостей? Получайте ежедневный обзор на почту!

Раздел сообщества Learn AI Together!

Еженедельный подкаст об искусственном интеллекте

В выпуске подкаста Что такое ИИ на этой неделе Луи Бушар берет интервью у Петара Величковича, научного сотрудника DeepMind и доцента в Кембридже. Петар делится своим мнением о ценности докторской степени, подчеркивая ее роль в качестве шлюза для исследований и возможности, которые она предоставляет для установления связей и адаптации. Он также освещает развивающийся ландшафт исследований ИИ, подчеркивая важность разнообразного опыта и вклада. Интервью дает ценные взгляды на академические круги и промышленность, роль ученого-исследователя, работу в DeepMind, преподавание и значение любопытства в проведении эффективных исследований. Настройтесь на YouTube, Spotify или Apple Podcasts, если вас интересуют исследования ИИ!

Предстоящие события сообщества

Сообщество Learn AI Together Discord проводит еженедельные семинары по искусственному интеллекту, чтобы помочь сообществу учиться у отраслевых экспертов, задавать вопросы и получать более глубокое представление о последних исследованиях в области искусственного интеллекта. Присоединяйтесь к нам на бесплатных интерактивных видеосеансах, которые еженедельно проводятся в прямом эфире на Discord, посещая наши предстоящие мероприятия.

  1. Группа чтения временных рядов: конформное предсказание и его подробное применение.

В критически важных областях, таких как медицинские диагнозы и критически важные для безопасности системы, количественная оценка неопределенности прогнозов в машинном обучении имеет решающее значение. Конформное предсказание предлагает надежную основу для этой цели. Это позволяет количественно оценить неопределенность для любой модели машинного обучения в качестве уровня постобработки, не требуя перенастройки модели. Присоединяйтесь к нам для предстоящего выступления, в котором мы углубимся в приложения конформного предсказания. Участникам рекомендуется ознакомиться с идеями, опубликованными на канале MLBoost на YouTube, до начала мероприятия.

Присоединяйтесь к мероприятию здесь и узнайте, как конформное прогнозирование повышает надежность принятия решений за счет измерения неопределенности, выходящей за рамки традиционных точечных прогнозов.

Дата и время: 7 июля 2023 г., 10:00 по восточному поясному времени

2. Группа чтения: Модель сегментирования чего угодно (SAM)

Еженедельная группа чтения Learn AI Together представляет информативные презентации и обсуждения последних достижений в области ИИ. Это (бесплатное) мероприятие предлагает прекрасную возможность учиться, задавать вопросы и общаться с членами сообщества. На этой неделе основное внимание будет уделено обзору статьи Segment Anything, недавней публикации Meta research. Вы можете получить доступ к статье здесь и присоединиться к обсуждению здесь.

Дата и время: 8 июля 2023 г., 22:00 по восточному поясному времени

Добавьте наш календарь Google, чтобы увидеть все наши бесплатные мероприятия по искусственному интеллекту!

Мем недели!

Мем поделился neon8052

Избранный пост сообщества из Discord

Akshitireddy разработал проект с открытым исходным кодом под названием Interactive LLM Powered NPC, который революционизирует способ взаимодействия пользователей с неигровыми персонажами (NPC) в играх. Этот проект позволяет пользователям участвовать в захватывающих беседах с неигровыми персонажами, используя свои микрофоны для разговора, слушая их голоса и наблюдая реалистичную анимацию лица. Проект направлен на улучшение игрового процесса в ранее выпущенных играх, таких как Cyberpunk 2077, Assassin’s Creed, GTA 5 и других популярных играх с открытым миром. Проверьте это на GitHub и поддержите другого члена сообщества. Делитесь своими отзывами и вопросами в теме здесь!

AI-опрос недели!

Присоединяйтесь к обсуждению в Discord.

TAI Кураторский раздел

Статья недели

Обучение и развертывание пользовательских моделей обнаружения объектов без единой строки кода, Питер ван Люнтерен

Обнаружение объектов — это метод компьютерного зрения, используемый для идентификации конкретных объектов на изображениях. В то время как многочисленные онлайн-руководства охватывают обнаружение объектов, ни одно из них не предлагает автоматизированный метод, который устраняет необходимость в программировании. В этом руководстве автор представляет EcoAssist, приложение с открытым исходным кодом, размещенное на GitHub, которое упрощает обнаружение объектов и делает его очень доступным для пользователей.

Наши обязательные к прочтению статьи

Горилла: все, что вам нужно знать от Мухаммад Архам

Последняя модель искусственного интеллекта Google позволяет виртуальную примерку одежды с неизменными деталями и гибкими позами от Shen Huang

Познакомьтесь с vLLM: платформа с открытым исходным кодом Калифорнийского университета в Беркли для сверхбыстрого и дешевого обслуживания LLM от Jesus Rodriguez

10 особенностей Sklearn Treasure, которые упускают из виду 99% онлайн-курсов от Bex T.

Если вы заинтересованы в публикации с помощью Towards AI, ознакомьтесь с нашими рекомендациями и зарегистрируйтесь. Мы опубликуем вашу работу в нашей сети, если она соответствует нашим редакционным политикам и стандартам.

Предложения о работе

Инженер-исследователь (прототипирование) GitHub Next @GitHub (удаленно)

Инженер по продукту, PropTech @Picket Homes (Нэшвилл, Теннесси, США)

Разговорный ИИ-дизайнер @Cresta (Remote)

Инженер передового развертывания @Cohere (удаленно)

Исследователь машинного обучения @Shiru (удаленно)

Инженер данных среднего уровня @pulseData (удаленно)

Инженер по машинному обучению @Acentra Health (удаленно)

Хотите поделиться здесь вакансией? Обращайтесь по адресу [email protected].

Если вы готовитесь к следующему собеседованию по машинному обучению, обязательно посетите наш ведущий веб-сайт для подготовки к собеседованию, confetti!