1. Мультимодальное самоконтролируемое обучение для рекомендации (arXiv)

Автор: Вэй Вэй, Чао Хуан, Лянхао Ся, Чусю Чжан.

Аннотация: Появление мультимодальных платформ для обмена информацией в Интернете (например, TikTok, Youtube) позволяет персонализированным рекомендательным системам включать различные модальности (например, визуальные, текстовые и акустические) в скрытые пользовательские представления. В то время как существующие работы по мультимодальным рекомендациям используют функции мультимедийного контента для улучшения встраивания элементов, их возможности представления модели ограничены сильной зависимостью от меток и слабой надежностью на разреженных данных о поведении пользователя. Вдохновленные недавним прогрессом в обучении с самоконтролем в решении проблемы нехватки меток, мы исследуем получение сигналов самоконтроля с эффективным изучением предпочтений пользователя с учетом модальности и кросс-модальных зависимостей. С этой целью мы предлагаем новый метод мультимодального обучения с самоконтролем (MMSSL), который решает две ключевые задачи. В частности, чтобы охарактеризовать взаимозависимость между совместным представлением пользователя и элемента и мультимодальным семантическим представлением элемента, мы разрабатываем парадигму обучения интерактивной структуры с учетом модальности посредством состязательных возмущений для увеличения данных. Кроме того, чтобы зафиксировать эффекты, которые модели взаимодействия пользователя с учетом модальности будут переплетаться друг с другом, вводится кросс-модальный контрастный подход к обучению, чтобы совместно сохранить интермодальную семантическую общность и разнообразие пользовательских предпочтений. Эксперименты с наборами данных реального мира подтверждают превосходство нашего метода в том, что он предлагает большой потенциал для мультимедийных рекомендаций по сравнению с различными современными базовыми уровнями. Реализация выпущена по адресу: https://github.com/HKUDS/MMSSL.

2. Самоконтролируемое изучение разделенных инвариантных эквивариантных представлений (arXiv)

Автор : : Квентин Гарридо, Лоран Наджман, Янн Лекун

Аннотация: Недавний прогресс был достигнут в изучении инвариантных или эквивариантных представлений с самоконтролируемым обучением. В то время как инвариантные методы оцениваются на крупномасштабных наборах данных, эквивариантные оцениваются в меньших, более контролируемых условиях. Мы стремимся преодолеть разрыв между ними, чтобы изучить более разнообразные представления, подходящие для широкого круга задач. Мы начинаем с набора данных под названием 3DIEBench, состоящего из визуализаций 3D-моделей более 55 классов и более 2,5 миллионов изображений, где у нас есть полный контроль над преобразованиями, применяемыми к объектам. Далее мы представляем архитектуру предиктора, основанную на гиперсетях, для изучения эквивариантных представлений без возможного коллапса до инвариантности. Мы вводим SIE (Split Invariant-Equivariant), который сочетает в себе предиктор на основе гиперсети с представлениями, разделенными на две части, одна инвариантная, другая эквивариантная, для изучения более богатых представлений. Мы демонстрируем значительный прирост производительности по сравнению с существующими методами в задачах, связанных с эквивариантностью, как с качественной, так и с количественной точки зрения. Далее мы анализируем введенный нами предиктор и показываем, как он управляет изученным скрытым пространством. Мы надеемся, что и наш представленный набор данных, и подход позволят изучать более богатые представления без присмотра в более сложных сценариях.