- DAS: поиск нейронной архитектуры с помощью отличительной оценки активации (arXiv)
Автор: Юцяо Лю, Хайпэн Ли, Яньань Сунь, Шуайчэн Лю.
Аннотация: Поиск нейронной архитектуры (NAS) — это автоматический метод, который может искать хорошо выполненные архитектуры для конкретной задачи. Хотя NAS превосходит спроектированную человеком архитектуру во многих областях, высокие вычислительные затраты на оценку архитектуры, которые она требует, сдерживают ее развитие. Возможным решением является прямая оценка некоторых метрик на начальном этапе архитектуры без какого-либо обучения. Оценка NAS без обучения (WOT) — это такая метрика, которая оценивает окончательную обученную точность архитектуры за счет способности различать разные входные данные на уровне активации. Однако оценка WOT не является атомарной метрикой, а это означает, что она не представляет собой фундаментальный показатель архитектуры. Вклад этой статьи состоит из трех частей. Во-первых, мы разделяем WOT на две атомарные метрики, которые представляют отличительную способность сети и количество единиц активации, и изучаем лучшие правила комбинации, называемые (отличительный показатель активации) DAS. Мы доказываем правильность развязки теоретически и подтверждаем эффективность правил экспериментально. Во-вторых, чтобы повысить точность прогнозирования DAS для удовлетворения практических требований поиска, мы предлагаем стратегию быстрого обучения. Когда DAS используется в сочетании со стратегией быстрого обучения, это дает больше улучшений. В-третьих, мы предлагаем набор данных под названием Darts-training-bench (DTB), который заполняет пробел, связанный с отсутствием обучающих состояний архитектуры в существующих наборах данных. Предлагаемый нами метод имеет улучшения в 1,04–1,56 раза по сравнению с NAS-Bench-101, Network Design Spaces и предлагаемым DTB.
2. От Xception до NEXcepTion: новые дизайнерские решения и поиск нейронной архитектуры (arXiv)
Автор: Хадар Шавит, Филип Ятельницкий, Пол Мор-Пуигвентос, Войтек Ковальчик.
Аннотация: В этой статье мы представляем модифицированную архитектуру Xception, сеть NEXcepTion. Наша сеть имеет значительно более высокую производительность, чем исходная Xception, достигнув точности 81,5% в наборе данных проверки ImageNet (улучшение на 2,5%), а также увеличив пропускную способность на 28%. Другой вариант нашей модели, NEXcepTion-TP, достигает 81,8% точности первого уровня, аналогично ConvNeXt (82,1%), но имеет на 27% более высокую пропускную способность. Наша модель является результатом применения улучшенных процедур обучения и новых проектных решений в сочетании с применением поиска нейронной архитектуры (NAS) в меньшем наборе данных. Эти выводы требуют пересмотра старых архитектур и переоценки их потенциала в сочетании с последними улучшениями.