Новая модель способна делать прогнозы на основе абстрактных прогнозов, а не деталей на уровне пикселей.
Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 160 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:
В прошлом году Янн ЛеКун, главный научный сотрудник Meta AI, представил архитектуру, которая может создать новую основу для автономного интеллекта. Основная идея архитектуры заключалась в том, чтобы подражать способности людей и животных разрабатывать когнитивные модели мира без необходимости накапливать огромные объемы данных или проходить болезненные циклы экспериментов. Архитектура опирается на методы обучения с самоконтролем (SSL) в качестве основного строительного блока и включает в себя несколько компонентов, которые соответствуют когнитивным способностям человека, таким как память или восприятие. На прошлой неделе Meta AI представила I-JEPA, первую модель, основанную на амбициозной архитектуре г-на Лекуна.
Новая модель основана на концепции Joint Embedding Predictive Architecture (JEPA), и аналогичные модели основаны на наблюдении, что люди без особых усилий накапливают огромное количество фоновых знаний, просто наблюдая за окружающим миром. Считается, что эта информация, основанная на здравом смысле, играет решающую роль в обеспечении разумного поведения, включая эффективное приобретение новых концепций, обоснование и планирование. По сути, JEPA направлен на предсказание представления одной части ввода (например, изображения или текста) на основе представления других частей того же ввода.
Хороший способ понять JEPA — сравнить его с другими архитектурами SSL. Существует несколько распространенных архитектур, используемых в SSL для захвата взаимосвязей между входными данными. Цель состоит в том, чтобы присвоить высокое значение энергии несовместимым входам и низкое значение энергии совместимым входам. Эти архитектуры включают в себя:
(a) Архитектуры совместного встраивания (инвариантные):Эти архитектуры учатся генерировать похожие вложения для совместимых входных данных (x, y) и разные вложения для несовместимых входных данных.
(b) Генеративные архитектуры:Эти архитектуры ориентированы на прямое восстановление совместимого сигнала y из входного сигнала x. Они используют сеть декодера, обусловленную дополнительными переменными (возможно, скрытыми), такими как z, чтобы помочь в процессе реконструкции.
© Архитектуры прогнозирования совместного встраивания:Эти архитектуры специализируются на прогнозировании вложений совместимого сигнала y на основе входного сигнала x. Они используют сеть предикторов, обусловленную дополнительными переменными (возможно, скрытыми), такими как z, чтобы облегчить точное предсказание.
Используя эти различные архитектуры, JEPA и аналогичные модели используют возможности прогнозирования и скрытые переменные для улучшения понимания и обработки входных данных, что в конечном итоге обеспечивает разумное поведение и эффективное получение знаний.
I-JEPA
I-JEPA, или прогностическая архитектура совместного встраивания на основе изображений, использует концепцию прогнозирования отсутствующей информации в рамках абстрактного представления, которое соответствует общему пониманию людей. В отличие от генеративных методов, которые прогнозируют на уровне пикселей или токенов, I-JEPA фокусируется на абстрактных целях прогнозирования, которые сводят к минимуму ненужные детали на уровне пикселей, тем самым побуждая модель изучать больше семантических функций. Важным аспектом дизайна I-JEPA для создания семантических представлений является принятие стратегии многоблочного маскирования. Эта стратегия делает упор на прогнозирование больших блоков, содержащих важную семантическую информацию, с использованием информативного и пространственно распределенного контекста.
В контексте I-JEPA один контекстный блок используется для прогнозирования представлений различных целевых блоков, происходящих из одного и того же изображения. Кодер контекста, реализованный как Vision Transformer (ViT), обрабатывает только видимые патчи контекста. Предсказатель, с другой стороны, использует более узкий ViT, используя выходные данные кодировщика контекста для предсказания представлений целевого блока в определенном месте. Этот процесс прогнозирования зависит от позиционных токенов, связанных с целью. Целевые представления согласуются с выходными данными целевого кодировщика, которые подвергаются обновлениям весов во время каждой итерации посредством экспоненциального скользящего среднего весов контекстного кодировщика.
Визуальное изображение демонстрирует, как предсказатель учится моделировать семантику мира. Для каждого изображения часть за пределами синего прямоугольника кодируется и предоставляется предсказателю в качестве контекста. Предсказатель создает представление ожидаемого содержимого в области, заключенной в синий прямоугольник. Чтобы проиллюстрировать прогноз, генеративную модель обучают создавать эскиз, отражающий содержимое, представленное выходными данными предиктора. Пример вывода в синем поле демонстрирует распознавание предиктором семантики, относящейся к различным частям, таким как макушка головы собаки, лапа птицы или ноги волка, а также противоположная сторона здания.
Чтобы понять возможности модели, стохастический декодер обучается отображать предсказанные представления из I-JEPA обратно в пространство пикселей. Эта оценка подчеркивает способность модели точно фиксировать неопределенность положения и генерировать части объекта высокого уровня с правильной позой, такие как голова собаки или передние лапы волка. Таким образом, I-JEPA демонстрирует способность получать высокоуровневые представления частей объекта, не жертвуя локализованной информацией о положении в изображении.
Meta AI сравнил I-JEPA с различными архитектурами компьютерного зрения на ImageNet с замечательными результатами.
I-JEPA представляет собой важную веху в развитии SSL. Обучение на абстрактных представлениях изображений — важная способность человеческого познания, которая не была воссоздана в масштабных системах ИИ. Будем надеяться, что вскоре мы увидим некоторые принципы I-JEPA в других архитектурах компьютерного зрения.