Внимание стало одной из самых актуальных тем в глубоком обучении. Давайте рассмотрим его важность в повторяющихся нейронных сетях.
Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:
В 2017 году команда Google Brain опубликовала знаменитую статью Внимание - все, что вам нужно, положившую начало революции трансформеров и предварительно обученных моделей. До этого документа Google в течение нескольких лет исследовал модели, основанные на внимании. Сегодня я хотел бы вернуться к более ранней статье Google от 2016 года, которая была первой статьей, которую я прочитал о предмете внимания.
Внимание - это когнитивная способность, на которую мы все время полагаемся. Просто попытаться прочитать эту статью - сложная задача с нейробиологической точки зрения. В это время вас, вероятно, засыпают электронными письмами, новостями, уведомлениями на нашем телефоне, обычным раздражающим вмешательством коллеги и другими отвлекающими факторами, которые заставляют ваш мозг крутиться во многих направлениях. Чтобы прочитать эту крошечную статью или выполнить множество других познавательных задач, вам нужно сосредоточиться, вам нужно внимание.
Внимание - это когнитивный навык, который имеет решающее значение для формирования знаний. Однако динамика внимания оставалась загадкой для нейробиологов на протяжении веков, и совсем недавно мы сделали важные открытия, которые помогают объяснить, как работает внимание. В контексте программ глубокого обучения создание динамики внимания кажется очевидным шагом для улучшения знаний моделей и их адаптации к различным сценариям. Встраивание механизмов внимания в системы глубокого обучения - это зарождающаяся и активная область исследований. В 2016 году исследователи из команды Google Brain опубликовали статью, в которой подробно описали некоторые ключевые модели, которые можно использовать для имитации внимания в глубоких нейронных сетях.
Как работает внимание?
Чтобы понять внимание в системах глубокого обучения, было бы полезно взглянуть на то, как это когнитивное явление происходит в человеческом мозге. С точки зрения нейробиологии внимание - это способность мозга выборочно концентрироваться на одном аспекте окружающей среды, игнорируя другие. Текущее исследование определяет два основных типа внимания, которые связаны с разными областями мозга. Объектно-ориентированное внимание часто относится к способности мозга сосредотачиваться на определенных объектах, таких как изображение раздела в этой статье. Пространственное внимание в основном связано с сосредоточением внимания на определенных местах. Оба типа внимания актуальны в моделях глубокого обучения. В то время как объектно-ориентированное внимание может использоваться в таких системах, как распознавание изображений или машинный перевод, пространственное внимание актуально в сценариях глубокого обучения с подкреплением, таких как беспилотные автомобили.
Внимательные интерфейсы в глубоких нейронных сетях
Что касается систем глубокого обучения, существуют различные методы, которые были созданы для имитации различных типов внимания. В исследовательском документе Google рассматриваются четыре фундаментальные модели, относящиеся к рекуррентным нейронным сетям (RNN). Почему именно RNN? Что ж, RNN - это тип сети, который в основном используется для обработки последовательных данных и получения знаний более высокого уровня. В результате RNN часто используются в качестве второго шага для уточнения работы других моделей нейронных сетей, таких как сверточные нейронные сети (CNN) или генеративные интерфейсы. Встраивание механизмов внимания в РНС может помочь улучшить знания о различных глубоких нейронных моделях. Команда Google Brain определила следующие четыре метода привлечения внимания к моделям RNN:
· Нейронные машины Тьюринга. Один из простейших интерфейсов внимания, нейронные машины Тьюринга (NTM), добавляют структуру памяти к традиционным RNN. Использование структуры памяти позволяет банкомату указать раздел «распределения внимания», который описывает область, на которой должна сосредоточиться модель. Реализации NTM можно найти во многих популярных фреймворках глубокого обучения, таких как TensorFlow и PyTorch.
· Адаптивное время вычисления: это совершенно новый метод, который позволяет RNN выполнять несколько этапов вычислений для каждого временного шага. Как это связано с вниманием? Очень просто, стандартные RNN выполняют одинаковый объем вычислений на каждом шаге. В методах адаптивного времени вычислений используется модель распределения внимания к количеству шагов, которые нужно выполнять каждый раз, что позволяет уделять больше внимания конкретным частям модели.
· Нейронный программист: увлекательная новая область в области глубокого обучения, нейронные программистские модели фокусируются на обучении созданию программ для решения конкретной задачи. Фактически, он учится создавать такие программы, не нуждаясь в примерах правильных программ. Он обнаруживает, как создавать программы как средство для выполнения некоторой задачи. Концептуально методы нейронного программирования пытаются преодолеть разрыв между нейронными сетями и традиционными методами программирования, которые можно использовать для развития механизмов внимания в моделях глубокого обучения.
· Интерфейсы внимания. Интерфейсы внимания используют модель RNN, чтобы сосредоточиться на определенных участках другой нейронной сети. Классический пример этой техники можно найти в моделях распознавания изображений с использованием дуплекса CNN-RNN. В этой архитектуре RNN будет фокусироваться на определенных частях изображений, генерируемых CNN, чтобы уточнить их и улучшить качество знаний.
Внимание становится одним из важнейших элементов архитектуры современных нейронных сетей, но в то же время мы только начинаем работать в этой области. Интересная особенность внимания заключается в том, что это не совершенно новая архитектура нейронной сети, а способ дополнить существующие архитектуры новыми возможностями. Архитектуры, основанные на внимании, такие как Transformers, стали одним из самых важных достижений в последние годы глубокого обучения, и нам не терпится увидеть, что будет дальше.