- Гипотеза лотерейного билета для Vision Transformers(arXiv)
Автор: Сюань Шэнь, Чжэнлунь Конг, Минхай Цинь, Пейян Дун, Гэн Юань, Синь Мэн, Хао Тан, Сяолун Ма, Янжи Ван
Аннотация. Обычная гипотеза лотерейного билета (LTH) утверждает, что существует разреженная подсеть внутри плотной нейронной сети и надлежащий метод случайной инициализации, называемый выигрышным билетом, такой, что его можно обучить с нуля до почти так же хорош, как плотный аналог. Между тем исследования ЛТХ в преобразователях зрения (ВиТ) практически не оценены. В этой статье мы сначала показываем, что обычный выигрышный билет трудно найти на уровне веса ViTs существующими методами. Затем мы обобщаем LTH для ViT для входных изображений, состоящих из фрагментов изображений, вдохновленных входной зависимостью ViT. То есть существует подмножество патчей входного изображения, так что ViT можно обучить с нуля, используя только это подмножество патчей, и достичь такой же точности, что и ViT, обученные с использованием всех патчей изображения. Мы называем это подмножество входных патчей выигрышными билетами, которые представляют значительный объем информации во входных данных. Кроме того, мы представляем простой, но эффективный метод поиска выигрышных билетов во входных патчах для различных типов ViT, включая DeiT, LV-ViT и Swin Transformers. В частности, мы используем селектор билетов для генерации выигрышных билетов на основе информативности патчей. Тем временем мы строим другое случайно выбранное подмножество патчей для сравнения, и эксперименты показывают, что существует явная разница между производительностью моделей, обученных с помощью выигрышных билетов, и случайно выбранных подмножеств.
2. Сильная гипотеза лотерейного билета с ε — возмущением(arXiv)
Автор:Чжэян Сюн, Фаншо Ляо, Анастасиос Кириллидис
Выдержка: Сильная гипотеза лотерейного билета (LTH) утверждает существование подсети в достаточно большой случайно инициализированной нейронной сети, которая аппроксимирует некоторую целевую нейронную сеть без необходимости обучения. Мы распространяем теоретическую гарантию сильной литературы по LTH на сценарий, более похожий на исходный LTH, путем обобщения изменения веса на этапе предварительной подготовки до некоторого возмущения вокруг инициализации. В частности, мы сосредоточимся на следующих открытых вопросах: допуская возмущение в масштабе ε случайных начальных весов, можем ли мы уменьшить требование чрезмерной параметризации для сети-кандидата в сильном LTH? Кроме того, совпадает ли изменение веса по SGD с хорошим набором таких возмущений? Мы отвечаем на первый вопрос, сначала расширяя теоретический результат о сумме подмножеств, чтобы разрешить возмущение кандидатов. Применяя этот результат к настройке нейронной сети, мы показываем, что такое ε-возмущение снижает требование чрезмерной параметризации сильного LTH. Чтобы ответить на второй вопрос, мы с помощью экспериментов показываем, что возмущенный вес, достигнутый прогнозируемым SGD, показывает лучшую производительность при сильном сокращении LTH.