Обзор статьи

Обзор статьи: Объяснение грокинга через эффективность схемы

Унгроккинг и полугрокинг

Бумажная ссылка

Понятие «грокинг» относится к явлению в нейронных сетях, когда сеть, которая изначально запоминает обучающие данные, но плохо работает с новыми, невидимыми данными, в конечном итоге учится хорошо обобщать после дальнейшего обучения. Авторы предполагают, что это происходит потому, что нейронная сеть может обучиться двум видам решений: запоминающему решению и обобщающему решению. Обобщающее решение медленнее осваивается, но в конечном итоге более эффективно и дает лучшие результаты на новых данных.

Гипотеза состоит в том, что эффективность запоминания схем снижается по мере увеличения набора данных, в то время как обобщающие схемы сохраняют свою эффективность. Это означает, что существует критический размер набора данных, при котором и запоминание, и обобщение будут одинаково эффективны.

Авторы проверяют и подтверждают четыре новых предсказания об этом поведении. Он также наблюдает два удивительных поведения: Ungrokking, когда сеть сначала хорошо обобщает, но затем возвращается к плохой генерализации. Полу-грокинг, при котором сеть со временем учится обобщать, но лишь в ограниченной степени, вместо того, чтобы достичь идеального обобщения.

Три ингредиента для гроккинга

В концепции гроккинга в нейронных сетях существуют два типа схем (внутренние механизмы, которые нейронные сети используют для расчета выходных данных): один для запоминания данных, а другой для обобщения. Обе схемы находятся под влиянием двух противоположных сил. Потери кросс-энтропии приводят к увеличению размера логитов классификатора, что повышает достоверность модели, а уменьшение веса приводит к уменьшению параметров модели. Эти силы должны быть сбалансированы для достижения любого локального минимума функции потерь.

Гроккинг возникает при наличии трех ключевых элементов:

  • Схемы обобщения и запоминания. Оба типа схем могут обеспечить хорошие результаты обучения, но только схема обобщения хорошо работает на невидимых тестовых данных.
  • Эффективность: обобщающая схема более эффективна, чем схема запоминания, то есть она достигает того же уровня перекрестной энтропийной потери на обучающем наборе, но с меньшим количеством параметров.
  • Скорость обучения. Обобщающая схема обучается медленнее, чем схема запоминания. В результате на ранних этапах обучения преобладает схема запоминания, обеспечивающая более быстрое обучение, но она показывает плохие результаты тестов.

Процесс грокка разворачивается в два этапа: на начальном этапе схема запоминания быстро усваивается, что приводит к высоким результатам тренировок, но плохим результатам тестов. По мере обучения начинает действовать более эффективная, но медленнее обучающаяся схема обобщения. Это «перераспределяет» норму параметра из схемы запоминания в обобщающую схему, что приводит к улучшению обобщения на тестовых данных.

Экспериментальные данные подтверждают, что при наличии всех этих трех ингредиентов наблюдается стандартное поведение грокинга. Если какой-либо из этих элементов отсутствует или изменен, модель не может продемонстрировать феномен грокинга.

Почему обобщающие схемы более эффективны

Связь эффективности с размером набора данных

При обучении классификаторов на наборах данных добавление большего количества данных не обязательно делает классификатор более эффективным. В этом контексте эффективность имеет тенденцию оставаться стабильной или даже снижаться по мере увеличения размера набора данных. Если классификатор может хорошо обобщать, его эффективность, скорее всего, останется неизменной, даже когда будут введены новые точки данных. Однако если классификатору не удастся обобщить, его эффективность, вероятно, снизится, поскольку ему будет сложно адаптироваться к новой информации.

Обобщающая схема может сохранять свою эффективность, поскольку ей не нужно существенно изменять свои параметры для адаптации к новым данным. С другой стороны, схема запоминания имеет тенденцию терять эффективность по мере роста набора данных, поскольку ей необходимо корректировать свои параметры для каждой новой точки данных.

Эффективность этих схем как функция размера набора данных вводит понятие «критического размера набора данных». Ниже этого порога схемы запоминания, как правило, более эффективны, поскольку они могут легко адаптироваться к небольшому объему данных. Выше этого порога обобщающие схемы получают преимущество в эффективности, что может привести к «грокингу» или внезапному скачку в понимании или производительности модели.

Интересно, что сила снижения веса (регуляризация для предотвращения переобучения) не влияет на этот критический порог. Хотя это может повлиять на другие аспекты модели, снижение веса не меняет точку, в которой схемы обобщения становятся более эффективными, чем схемы запоминания. Таким образом, понимание взаимосвязи между размером набора данных, эффективностью классификатора и снижением веса может дать представление о том, когда может произойти гроккинг.

Последствия кроссовера: ангрокинг и полугрокинг

Ungrokking происходит, когда сеть, обученная на большем наборе данных (размер, превышающий критический), дополнительно обучается на меньшем наборе данных (размер меньше критического). В этом новом контексте запоминание схем становится более эффективным, чем обобщение схем, что приводит к снижению производительности тестов. Это контрастирует с гроккингом, при котором производительность тестов улучшается. Унгроккинг можно рассматривать как частный случай катастрофического забывания, хотя и с некоторыми отличиями:

  • Это ожидается только для наборов данных меньше критического размера;
  • Это может произойти не только при добавлении новых образцов, но и при удалении существующих;
  • Степень забывания не зависит от снижения веса;

Полу-грокинг происходит, когда сеть обучается на наборе данных размера, близкого к критическому, где обе схемы одинаково эффективны. Есть два возможных результата: либо одна из цепей будет доминировать, что приведет либо к наличию, либо к отсутствию гроккинга, либо возникнет сочетание обеих цепей, что приведет к средним результатам теста. Во втором сценарии сеть первоначально покажет хорошее обучение, но плохую производительность тестов, после чего последует улучшение результатов тестов, что называется полу-грокингом.

Эксперименты

Обсуждение

Авторы предлагают решение вопроса, почему глубокие нейронные сети могут хорошо обобщать, даже если они легко запоминают случайные метки. Они предполагают, что схемы, предназначенные для обобщения, более эффективны, чем схемы для запоминания, когда набор данных достаточно велик и присутствует снижение веса. Однако они признают наличие ограничений, таких как использование убывания веса для его объяснения и рассмотрение только одного вида ограничений — нормы параметра. Гроккинг наблюдался даже без снижения веса, что позволяет предположить, что могут иметь место и другие эффекты регуляризации.