Или как действовать так, будто вы знаете о крупнейшем развитии искусственного интеллекта со времен CNN

Это часть 1 в серии из 3 частей, посвященных трансформаторам для производителей продукции. Щелкните здесь, чтобы перейти к части 2.

Обращать внимание. Обработка естественного языка (NLP) прошла переломный момент, изменивший отрасль. За последний год с помощью одной модели: преобразователя внимания, основанного на внимании, было решено более 20 давних проблем НЛП с результатами, близкими к человеческим. Эта модель была разработана и опубликована в декабре 2017 года, и с тех пор она положила начало гонке вооружений между Google и OpenAI, причем обе лаборатории с каждым выпуском новой модели разрушают самые современные результаты. Поскольку такие модели, как GPT-3, вызывают фурор в средствах массовой информации, лица, принимающие решения, задаются вопросом, насколько велико это развитие. Эта серия предназначена для ознакомления менеджеров по продуктам, основателей и инвесторов с новыми достижениями в исследованиях НЛП, объясняя только основные технические аспекты, уделяя основное внимание бизнесу и потребностям пользователей.

Часть 1: Трансформеры

Первое, что нужно знать: текстовые данные являются последовательными (вы читаете это слева направо, верно?). НЛП моделирует проблемы рекурсивно, то есть двигаясь по тексту слева направо, шаг за шагом. Вы можете представить, что каждый рекурсивный шаг включает передачу некоторой информации из того, что только что прочитала модель, которая может иметь отношение к текущей задаче. В конце концов, модель может сохранять только определенное количество информации на каждом этапе. Слово за словом требует, чтобы модель повторила правую руку 50 или 100 раз, чтобы вспомнить, что вы упомянули, что вы вегетарианец в начале разговора.

Теперь модель преобразователя представляет собой структуру кодер-декодер для моделирования последовательности в последовательность, которая полностью полагается на механизм внимания для выявления глобальных зависимостей между вводом и выводом (Vaswani et al., 2017) [1]. Важная вещь, которую нужно знать о модели преобразователя, заключается в том, что она сместила модели НЛП с решения языковых проблем пословно к их последовательному решению. Выполнение последовательности за последовательностью требует выполнения правильной передачи, может быть, один раз. Внезапно можно эффективно уловить зависимости на большом расстоянии. Но это только верхушка айсберга.

Внезапно можно эффективно уловить зависимости на большом расстоянии.

Более важным, чем то, что моделируют преобразователи между последовательностями, является то, что они моделируют внутри последовательностей.

Мое первое знакомство с моделями кодировщика-декодера пришло из области компьютерного зрения, где сверточные нейронные сети (CNN) используются для абстрагирования значимых функций из входного изображения. Внимание на самом деле движет очень похожим развитием в области НЛП, которое CNN продвинули в компьютерном зрении. То, что делает внимание похожим на свертки, заключается в том, что они оба являются методами выделения признаков из тензора.

С технической точки зрения, свертки создают логарифмическую длину пути между любыми двумя пикселями входного изображения, в то время как внимание допускает постоянную длину пути между любыми двумя словами во входной последовательности. Оба создают эффективные способы моделирования зависимостей во входных данных. Кроме того, оба варианта легко распараллелить, что позволяет моделировать множество независимых функций.

С практической точки зрения, CNN воспринимают полное изображение и выделяют значимые характеристики изображения, такие как цвета, текстуры, тени и контуры, и все это одновременно. Внимание делает то же самое с предложением или абзацем, но дает такие же эффективные результаты. Трансформаторы извлекают значимую информацию из последовательности намного лучше, чем любая предыдущая модель НЛП.

Трансформаторы извлекают значимую информацию из последовательности, намного лучше, чем любая предыдущая модель НЛП.

Насколько велика эта сделка на самом деле?

Внимание привлекло к тексту множество тех же возможностей, что и CNN. Чтобы понять грядущее влияние трансформеров, основанных на внимании, достаточно взглянуть на то, что CNN сделали с рынком искусственного интеллекта в 2012 году, когда Alexnet разбил вызов классификации изображений Imagenet, и компьютерное зрение внезапно стало коммерчески жизнеспособным.

В период с 2013 по 2018 год количество приобретений ИИ выросло более чем в 6 раз, в том числе рекордное количество приобретений ИИ в 2018 году - 166 - на 38% больше, чем в прошлом году [2]. С появлением новых разработок в области компьютерного зрения, таких как беспилотные автомобили и беспилотные летательные аппараты, рынок компьютерного зрения выглядит так, как будто ему еще есть куда работать.

По сути, рост рынка НЛП должен быть очень похож на рост рынка компьютерного зрения. Конечно, есть и отличия. Хотите понять их различия? Просто ответьте на несколько серьезных вопросов:

  1. Каков размер рынка и потенциал роста обработки текста по сравнению с обработкой изображений?
  2. Что означает наличие устойчивого рынка компьютерного зрения с мощной технологией CNN для принятия и развития новой технологии НЛП?
  3. Как рыночные условия на ближайшие 10 лет соотносятся с рыночными условиями за последние 10 лет?

Приложения

Для чего нужен трансформатор? Как Вы этим пользуетесь? Какие есть приложения? В дополнение к модели трансформатора, есть две модели, построенные на основных модификациях трансформатора, создающего большие волны в космосе: GPT, который был разработан OpenAI, и BERT, который был разработан Google Research. У каждого из них есть свои сильные и слабые стороны, если вы не спросите кого-нибудь из Google Research или OpenAI. Разбивка их архитектур ясно покажет их приложения, сильные и слабые стороны. (Мой следующий пост будет посвящен GPT, так что следите за обновлениями.)

Хотя каждая модель, вероятно, займет свою нишу в течение следующих нескольких лет, (Raffel et al, 2020) [3] недавно продемонстрировали, что:

  1. Исходная модель преобразователя лучше подходит для задач преобразования текста в текст, если их масштабировать с архитектурой BERT или GPT.
  2. Все задачи НЛП можно оформить как задачи преобразования текста в текст.

Вывод: если у вас ограниченный бюджет, модель-трансформер лучше всего подходит для перевода одной последовательности в другую. На этой диаграмме приведены примеры такого перевода.

Примечание. Зеленые и синие потоки соответствуют действительности и подходят для данной модели трансформатора. Красный и желтый потоки можно оптимизировать как преобразование текста в скаляр (1,0 для красного потока).

Для задач, не связанных с переводом (например, красные и желтые потоки), лучше подходит другая архитектура модели (о которой я расскажу в следующих статьях). Если у вас ограниченный бюджет, просто используйте огромный трансформатор для всего.

Как показано в приведенном выше примере, перевод является широким. Он может переключаться между языками (с английского на немецкий), а также по стилю (от полной формы до обобщенной). Перевод охватывает весь спектр языков, стилей, синтаксисов, жанров и т. Д. Вы можете превратить естественный язык в код, формальный язык в сленг или статьи в заголовки и описания. Однако, поскольку большинство этих захватывающих экспериментов фактически проводилось с GPT-3, я сохраню более подробный обзор для следующего поста.

использованная литература

[1] Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Лайон Джонс, Эйдан Н. Гомес, Лукаш Кайзер и Илья Полосухин. Внимание - это все, что вам нужно. Препринт arXiv arXiv: 1706.03762, 2017.

[2] CB Insights. Гонка за искусственный интеллект: технические гиганты спешат создать стартапы в области искусственного интеллекта. CB Insights Research, CB Insights, 14 августа 2020 г., www.cbinsights.com/research/top-acquirers-ai-startups-ma-timeline/.

[3] Колин Раффел, Ноам Шазир, Адам Робертс, Кэтрин Ли, Шаран Наранг, Майкл Матена, Янки Чжоу, Вэй Ли и Питер Джей Лю. Изучение ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст. Препринт arXiv arXiv: 1910.10683, 2019.