- Идентификация общих декодируемых понятий в человеческом мозгу с использованием базовых моделей языка изображений (arXiv)
Автор: Кори Эфирд, Алекс Мерфи, Джоэл Зилберберг, Алона Фише.
Аннотация: Мы представляем метод, который использует преимущества высококачественных предварительно обученных мультимодальных представлений для исследования мелкозернистых семантических сетей в человеческом мозгу. Предыдущие исследования документально подтвердили функциональную локализацию в головном мозге, при этом различные анатомические области предпочтительно активируются для разных типов сенсорной информации. Известно много таких локализованных структур, включая веретенообразную область лица и область парагиппокампального места. Это поднимает вопрос о том, специализированы ли дополнительные области мозга (или соединения областей мозга) для других важных семантических понятий. Чтобы идентифицировать такие области мозга, мы разработали подход, основанный на данных, для выявления визуальных концепций, которые можно расшифровать из массивного набора данных функциональной магнитно-резонансной томографии (фМРТ). Наш анализ в целом разбит на три раздела. Во-первых, полностью подключенная нейронная сеть обучается отображать реакции мозга на результаты базовой модели языка изображений, CLIP (Radford et al., 2021). Впоследствии метод уменьшения размерности контрастивного обучения выявляет декодируемые мозгом компоненты пространства CLIP. В заключительном разделе нашего анализа мы локализуем общие декодируемые концепции в мозгу, используя метод оптимизации маскирования вокселей, чтобы создать пространство общих декодируемых концепций (SDC). Точность нашей процедуры проверяется путем сравнения ее с предыдущими экспериментами по локализации, которые определяют области для лиц, тел и мест. В дополнение к этим понятиям, соответствующие области мозга которых уже были известны, мы локализуем представления новых понятий, которые являются общими для участников, в других областях человеческого мозга. Мы также демонстрируем, как этот метод можно использовать для проверки мелкозернистых семантических сетей для отдельных участников. Мы предполагаем, что этот расширяемый метод также может быть адаптирован для изучения других вопросов на стыке ИИ и нейронауки.
2. К моделям основы для научного машинного обучения: характеристика поведения масштабирования и переноса (arXiv)
Автор: Шашанк Субраманян, Питер Харрингтон, Курт Койцер, Вахид Бхимджи, Дмитрий Морозов, Майкл Махони, Амир Голами.
Аннотация: Предварительно обученные модели машинного обучения (ML) показали высокую производительность для широкого круга приложений, в частности, для обработки естественного языка (NLP) и компьютерного зрения (CV). Здесь мы изучаем, как предварительное обучение можно использовать для приложений научного машинного обучения (SciML), особенно в контексте трансферного обучения. Мы изучаем поведение передачи этих моделей, поскольку (i) масштабируется размер предварительно обученной модели, (ii) масштабируется размер набора обучающих данных ниже по течению, (iii) физические параметры систематически вытесняются из распределения и (iv) как единая модель, предварительно обученная на сочетании различных физических задач, может быть адаптирована к различным последующим приложениям. Мы обнаружили, что при правильной настройке обучение с переносом может помочь достичь желаемого уровня точности с использованием на несколько порядков меньшего количества последующих примеров (в различных задачах, которые могут быть даже вне распределения), чем обучение с нуля, с последовательным поведением в широком диапазоне. ряд нижестоящих примеров. Мы также обнаружили, что точная настройка этих моделей дает больший прирост производительности по мере увеличения размера модели по сравнению с обучением с нуля новым последующим задачам. Эти результаты справедливы для широкого круга задач обучения PDE. В целом, наши результаты демонстрируют потенциал парадигмы «предварительной подготовки и точной настройки» для задач SciML, демонстрируя путь к построению базовых моделей SciML. Мы открываем исходный код для воспроизводимости