Биосистемы воспринимают мир, обрабатывая тусклые входные данные от зрения, слуха, осязания и т. д. Модели восприятия в глубоком обучении разрабатываются для индивидуальных модальностей, опираясь на определенные предположения, например. сетчатые структуры в видении. Эти априорные предположения вводят индуктивные предубеждения, но ограничивают модели единичными модальностями. В этой статье представлен Perceiver — модель, основанная на Transformers с несколькими архитектурными предположениями о входных отношениях. Он масштабируется для обработки больших входных данных, используя механизм асимметричного внимания для итеративной фильтрации входных данных в скрытое узкое место.
Методология
Общая предлагаемая архитектура показана на следующем рисунке:
Архитектура восприятия
Предлагаемая архитектура состоит из двух основных компонентов:
- Слой Cross Attention сопоставляет входные данные со скрытым пространством
- Скрытый преобразователь сопоставляет скрытое пространство с другим скрытым пространством
Воспринимающий чередует слой перекрестного внимания и латентный преобразователь, чтобы имитировать то, как человеческий мозг отображает информацию более высокого измерения в пространство более низкого измерения, чтобы сгруппировать информацию, а затем генерирует подходящие выходные данные.
Укрощение квадратичной сложности с перекрестным вниманием
Архитектура восприятия решает проблему масштабирования архитектуры внимания на большие и общие входные данные. Преобразователи и модули перекрестного внимания используют внимание «запрос-ключ-значение» (QKV), при этом каждый элемент обрабатывается сетями запросов, ключей и значений. Это приводит к трем массивам, сохраняющим размерность индекса M входных данных. Однако использование Transformers на больших входных данных, таких как изображения или аудио, затруднено, потому что сложность внутреннего внимания QKV является квадратичной по размерности входного индекса. Размерность индекса изображения M обычно очень велика (M=50176 для изображений ImageNet 224x224), а 1 секунда звука при стандартной частоте дискретизации соответствует примерно 50 000 необработанных аудиосэмплов. Эта проблема усложняется для мультимодальных входных данных.
Чтобы решить эту проблему, они вводят асимметрию: в то время как K и V являются проекциями входного массива байтов, Q является проекцией изученного скрытого массива с индексной размерностью N ≪ M , где скрытая индексная размерность N является гиперпараметром . Результирующая операция перекрестного внимания имеет сложность O(MN).
Глубина развязки со скрытым трансформатором
Выходной сигнал модуля Cross Attention формирует входной сигнал в сеть Q, создавая узкое место. Они создают глубокие, выразительные Трансформеры в скрытом пространстве из-за узкого места в стоимости O(N2). Архитектуры, основанные на восприятии, могут использовать более глубокие трансформеры без допущений, специфичных для предметной области, в отличие от эффективных трансформеров, которые используют уровни линейной сложности.
Сложность байтового преобразователя составляет O(LM^2), тогда как сложность скрытого преобразователя составляет O(LN^2) (N‹‹M) в зависимости от количества слоев L и размерности индекса. Сложность архитектуры составляет O(MN + LN^2), разделяя размер и глубину входных данных, что позволяет добавлять слои Transformer со стоимостью, не зависящей от размера входных данных. Это позволяет создавать большие сети для крупномасштабных данных; например, наш лучший результат ImageNet использует сеть из 48 скрытых блоков Transformer, что невозможно со связанными входными сетями размер-глубина.
Итеративное перекрестное внимание и распределение веса
Скрытый размер массива позволяет напрямую моделировать пиксели и использовать более глубокие преобразователи, но серьезность узких мест ограничивает захват необходимых входных данных. Несколько слоев перекрестного внимания могут быть структурированы для многократного извлечения входной информации и балансировки дорогостоящих перекрестных посещений с более дешевыми, избыточными скрытыми самообслуживаниями. Дополнительные уровни перекрестного внимания повышают производительность, но увеличивают требования к вычислительным ресурсам из-за линейной зависимости от размера входных данных. Разделение веса между соответствующими блоками каждого скрытого слоя Transformer и/или Cross Attention повышает эффективность параметров модели и уменьшает переобучение, одновременно повышая производительность проверки. Разделение веса приводит к уменьшению количества параметров в 10 раз в экспериментах ImageNet. Архитектура функционально представляет собой RNN с входной проекцией Cross Attention, узким местом скрытой размерности и скрытым рекуррентным ядром Transformer. Разделение веса использовалось для аналогичных целей в «Трансформерах».
Эксперименты
Они оценивают Perceiver по трем задачам: изображение, звук и облако точек модуля. В оставшейся статье я показываю только результат задачи Image. Если вы хотите узнать больше о результатах этой статьи, пожалуйста, найдите время, чтобы ознакомиться с оригинальными статьями.
Эта модель использует неразделенные веса в своем начальном перекрестном внимании, но разделяет веса для всех последующих слоев. Начальный и более поздние слои перекрестного внимания дают качественно разные карты внимания: в то время как ранние модули демонстрируют четкие следы входного образа (собака выскакивает на многих картах внимания), карты внимания более поздних модулей проявляются как высококонтрастные. частотные клетчатые решетки. В то время как карты внимания для модулей 2 и 7 имеют схожую структуру, конкретные детали соответствующих карт различаются, что предполагает, что сеть обращает внимание на разные наборы пикселей на последующих этапах. Полосовая структура карт внимания с переменной частотой, по-видимому, отражает пространственно-частотную структуру кодировок положения признаков Фурье, используемых в ImageNet. Этот тартановый паттерн отсутствует в сетях с полностью выученными кодировками положения, что позволяет предположить, что он, по крайней мере, частично связан с функциями Фурье.
В этой статье я кратко излагаю свою точку зрения на бумагу. Я надеюсь, что вы сможете узнать больше об этом после прочтения. Я также предлагаю ссылку на видео о статье, надеюсь, вам понравится!!!!
Если вам понравилась статья, пожалуйста, дайте мне немного 👏, поделитесь статьей и следуйте за мной, чтобы узнать больше о мире мультиагентного обучения с подкреплением. Вы также можете связаться со мной в LinkedIn, Instagram, Facebookи Github.