Ссылка: https://openreview.net/forum?id=fmgYOUahK9
Авторы: Роберт Джон Николас Болдок, Хартмут Меннел, Бехнам Нейшабур
Теги: Глубокое обучение, Пример сложности, Сложность набора данных, Учебная программа
Код: —
Видео:https ://papertalk.org/papertalks/37152
Разное. информация: Принято участие в NeurIPS’21

Что?

В данной работе авторы пытаются разобраться в «сложных» примерах в обучении. Сложность здесь означает, на примере, какая мощность модели нужна, чтобы подогнать ее под данную этикетку. Авторы также пытаются понять, что делает данный пример сложным? Пример неоднозначный? Это похоже на другой класс? и так далее..

Почему?

Большая часть исследований глубокого обучения сосредоточена на попытках понять индуктивные предубеждения архитектур глубокого обучения или предложить новые сети для повышения производительности тестовых задач. Мы принимаем наборы данных как должное. В этой статье рассматривается набор данных и делается попытка сделать некоторые выводы о различных типах изображений, присутствующих в данных. Как?

Как?

Экспериментальная установка: для заданного набора данных (скажем, CIFAR-10) авторы поддерживают постоянную сеть (скажем, ResNet-18). Авторы экспериментировали с несколькими наборами данных, такими как CIFAR-10, CIFAR-100, FMNIST, SVHN, и с различными архитектурами, такими как ResNet-18, VGG16 и MLP. MLP состоит из 7 скрытых слоев шириной 2048 с активациями ReLU.

Прежде чем перейти к основным результатам статьи, определимся с некоторыми терминами.

Сложность примера.Есть много способов определить сложность примера. В этой статье авторы определяют сложность как наименьшую глубину, за которой представление данного примера начинает классифицироваться в правильном классе. Авторы используют зонд k-NN для классификации на каждом уровне.

Показатель согласованности.Для данного примера, допустим, мы обучаем n моделей с разными начальными значениями инициализации, а на данных обучения, за исключением примера, показатель согласованности определяется как % моделей, в которых прогноз совпадает с прогнозом. присвоенный ярлык.

Консенсус-класс. В данном примере для «n» обученных моделей консенсус-класс задается большинством классификаторов.

Показатель консенсуса-согласованности.Для данного примера это процент моделей, в которых прогноз совпадает с меткой консенсуса.

Энтропия прогноза. В данном примере, когда мы прогнозируем класс с использованием «n» моделей, мы вычисляем энтропию для каждой из вероятностей класса.

Пример. Чтобы понять три приведенные выше концепции, давайте рассмотрим простой пример. Давайте возьмем изображение кошки, и мы обучили 1 классификатор с данным изображением кошки в обучении, и мы делаем k-NN на разных глубинах предсказания, и мы замечаем, что на глубине 6 и выше представление изображения всегда классифицируется как «кошка», поэтому пример сложности 6 здесь.

Теперь давайте обучим еще 100 классификаторов с разными начальными значениями инициализации, исключив это изображение кота из обучающих данных. Теперь 70 классификаторов предсказали это изображение как «собаку», 30 классификаторов предсказали как «кошку». Таким образом, показатель согласованности равен 0,3, а класс консенсуса — «собака». И показатель согласованности консенсуса будет 0,7.

Энтропия прогноза равна -(0,7log_2 0,7 + 0,3log2 0,3) [поскольку мы получили 0 прогнозов для остальных классов.]

Основные анализы и выводы:

  1. Некоторые наборы данных сложнее, чем другие наборы данных, так как в большинстве примеров попадают в более высокие диапазоны глубины. CIFAR-100 намного сложнее, чем Fashion MNIST. (См. рис. 1, слева)
  2. Корреляция между глубинами предсказания данного набора данных между двумя моделями, если архитектуры имеют одинаковое индуктивное смещение, т. Е. ResNet и VGG более коррелированы, чем VGG и MLP, поскольку первая пара представляет собой сверточные архитектуры. (Рис. 1, справа)
  3. Для простых примеров согласованность может быть как высокой, так и низкой, но согласованность консенсуса высока! Это означает, что модель может очень легко соответствовать этим примерам, однако метка прогноза может не совпадать с меткой истинности в отсутствие метки. (Рис.2)
  4. В сложных примерах (с более высокой глубиной предсказания) некоторые примеры можно уверенно подогнать под правильную метку, однако некоторые трудно подобрать при отсутствии метки. (Рис.2)
  5. Глубина предсказания может быть нижней границей согласованности всех примеров. (т. е. глубина предсказания может дать грубую оценку неопределенности примера, но это неопределенность относительно класса консенсуса, а не истинного класса) (рис. 2)
  6. Простые примеры также изучаются раньше в процессе (рис. 3; слева).
  7. Данные с меньшей глубиной прогнозирования имеют в среднем большие входные и выходные поля, и эти отклонения входных и выходных полей уменьшаются по мере увеличения глубины прогнозирования. (Рис. 3; в центре справа) [выходной запас — это разница между наибольшим и вторым по величине логитом, а враждебный входной запас — это наименьшая норма, необходимая для враждебного возмущения на входе, чтобы изменить предсказание класса модели]
  8. Энтропия предсказания самая низкая для примеров с меньшей глубиной предсказания. (Рис. 4)

Почему некоторые примеры сложны?

Авторы также пытаются понять сложность примеров, задавая следующие 3 вопроса.

«Этот пример выглядит неправильно?»; «Легко ли классифицировать этот пример только при наличии метки?»; «Является ли этот пример неоднозначным как с меткой, так и без нее?».

Чтобы понять этот вопрос, нам нужно посмотреть на сложность примера, когда пример является частью обучения и когда он не является частью обучения. На следующих графиках показана средняя глубина предсказания для 250 моделей ResNet-18 (поезд 90:10, разделение val — 25 моделей, где отсутствует пример, и 225 моделей, где присутствует пример).

Мы можем разложить левый график на 2 графика, где класс консенсуса =GT, а когда нет. Давайте рассмотрим правильный сюжет. Точки с большой глубиной как на поезде, так и на разветвлении val являются наиболее неоднозначными, с метками или без них их трудно распознать. Мы видим несколько примеров из класса птиц.

Когда мы смотрим на примеры, где класс консенсуса != GT, есть 2 типа, (1) точки легко помещаются в val, но не в поезд — это точки, которые выглядят как разные классы / возможно, неправильно помечены [точки, возможно, ближайшие к границе решения], как и на рисунке выше, птицы очень похожи на самолет. (2) точки легко укладываются в train, но не в val — это неоднозначные точки без метки. Их легко сопоставить с метками, однако их трудно классифицировать, если в обучающих данных нет похожих точек.

Следовательно, мы можем разделить все точки на ~ 4 категории [PD -> глубина прогноза]

  1. Простые примеры: (Низкий PDVal., Низкий PDTrain)
  2. Похоже на другой класс: (Низкий PDVal., Высокий PDTrain)
  3. Неоднозначно, если не указана метка: (Высокий PDVal., Низкий PDTrain)
  4. Неоднозначно: (высокий PDVal., высокий PDTrain)

Комментарии:

Это интересный анализ. В статье, по сути, вводится новая метрика сложности для примеров, и авторы строят историю вокруг нее и пытаются интуитивно объяснить, что такое пограничные случаи.

Хотя бумага слишком плотная. Экспериментов и сюжетов очень много, но хотелось бы, чтобы авторы сократили анализ и потратили больше времени на выстраивание интуиции, почему мы наблюдаем такие тенденции.

Еще одна проблема, с которой я столкнулся, заключается в том, что мы вычисляем класс консенсуса из набора моделей и используем те же модели для расчета согласованности консенсуса. это как-то похоже на обман. Но опять же, мы работаем не с бинарным классом, а с многоклассовыми задачами, так что все может быть в порядке...