Наука о данных, глубокое обучение

Почему Dropout так эффективен в глубокой нейронной сети

Dropout - это простой способ уменьшить зависимости в глубокой нейронной сети.

В этой статье вы можете изучить Dropout, каковы плюсы и минусы регуляризации по сравнению с отсевом, как работает метод Dropout в глубоком обучении и каковы эффективные способы использования Dropout в глубоком обучении и как реализовать отсев в глубокая нейронная сеть?

Что означает отказ от глубокого обучения?

Выпадение означает выпадение единиц, которые скрыты и заметны в нейронной сети. Dropout - ошеломляюще популярный метод преодоления переобучения в нейронных сетях.

Фреймворк Deep Learning становится все более глубоким. С этими более крупными сетями мы можем добиться большей точности прогнозов. Однако несколько лет назад этого не было. У Deep Learning была проблема с переоснащением.

В тот момент, примерно в 2012 году, в своей статье Хинтон предложил идею Dropout путем случайного исключения подмножеств функций на каждой итерации процедуры обучения. Эта концепция произвела революцию в глубоком обучении. Значительная часть достижений, которые мы имеем с Deep Learning, приписывается Dropout.

Каковы плюсы и минусы регуляризации по сравнению с отсевом?

До исключения значительная область исследований была в области регуляризации. Внедрение методов регуляризации в нейронных сетях, например, штрафов за вес L1 и L2, началось с середины 2000-х годов. Тем не менее, эти регуляризации не решали полностью проблему переобучения.

Wager et al. в своей статье 2013 года регуляризация отсева была лучше, чем L2-регуляризация для изучения весов для функций.

Как метод отсева работает в глубоком обучении?

Dropout - это метод, при котором случайно выбранные нейроны отбрасываются во время обучения. Они «выпадают» произвольно. Это означает, что их вклад в активацию нижестоящих нейронов временно устраняется при прямом проходе, и никакие обновления веса не применяются к нейрону при обратном проходе.

Вы можете представить, что, если нейроны случайно выпали из сети во время обучения, этот другой нейрон должен будет вмешаться и обработать изображение, необходимое для прогнозирования отсутствующих нейронов. Считается, что это приводит к тому, что сеть изучает различные независимые внутренние представления.

Несмотря на то, что отсев оказался исключительно успешной техникой, причины ее успеха еще недостаточно понятны на теоретическом уровне.

Мы видим стандартный проход с прямой связью: веса умножают входные данные, добавляют смещение и передают его в функцию активации. Вторая последовательность уравнений поясняет, как это будет выглядеть в случае, если мы введем отсев:

  • Создайте маску исключения: случайные величины Бернулли (пример 1.0 * (np.random.random ((size)) ›p)
  • Используйте маску для входов, отключающих некоторые нейроны.
  • Используйте этот новый слой, чтобы умножить веса и добавить смещение.
  • Наконец, воспользуйтесь функцией активации.

Все веса распределяются по потенциально экспоненциальному количеству сетей, и во время обратного распространения будут обновлены только веса «прореженной сети».

Каковы эффективные способы использования Dropout в глубоком обучении?

● Согласно (Srivastava, 2013) Dropout, нейронные сети можно обучать вместе со стохастическим градиентным спуском. Отсев выполняется независимо для каждого учебного случая в каждом мини-пакете. Отсев можно использовать с любой функцией активации, и их эксперименты с логистическими, tanh и выпрямленными линейными модулями дали сравнимые результаты, однако требовалось различное количество времени на обучение, и исправленные линейные модули были самыми быстрыми для обучения.

● Kingma et al., 2015 рекомендовали, чтобы для выпадения требовалось указать частоту выпадения, которая представляет собой вероятность выпадения нейрона. Коэффициенты отсева обычно оптимизируются с помощью поиска по сетке. Кроме того, Variational Dropout - это изысканный перевод Gaussian Dropout как экстраординарного примера байесовской регуляризации. Этот метод позволяет нам настраивать частоту отсева и, в принципе, может использоваться для установки индивидуальных показателей отсева для каждого слоя, нейрона или даже веса.

● Другой эксперимент (Ba et al., 2013) по увеличению количества скрытых единиц в алгоритме глубокого обучения. Одна примечательная особенность регуляризации отсева состоит в том, что она обеспечивает значительно более высокую производительность с большим количеством скрытых единиц, поскольку все единицы имеют эквивалентную вероятность быть исключенными.

Как реализовать отсев в глубоких нейронных сетях?

● Как правило, используйте небольшое значение выпадения нейронов, составляющее 20% -50%, при этом 20% представляют собой отличную отправную точку. Слишком низкая вероятность оказывает незначительное влияние и стоит слишком высоких результатов при недостаточном обучении системой.

● Вероятно, вы обнаружите признаки улучшения, когда в более крупной сети используется отсев, что даст модели больше шансов изучить бесплатные изображения.

● Используйте отсев при приближении (очевидном) так же, как и скрытые отряды. Использование отсева на каждом уровне системы продемонстрировало отличные результаты.

использованная литература

● Шривастава Н., Хинтон Г., Крижевский А., Суцкевер И. и Салахутдинов Р., 2014. Отсев: простой способ предотвратить переобучение нейронных сетей. Журнал исследований машинного обучения, 15 (1), стр. 1929–1958.

● Хинтон, Г.Е., Шривастава, Н., Крижевский, А., Суцкевер, И. и Салахутдинов, Р.Р., 2012. Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков. Препринт arXiv arXiv: 1207.0580.

● Вейджер, С., Ван, С. и Лян, П.С., 2013. Обучение выбыванию как адаптивная регуляризация. В достижениях в системах обработки нейронной информации (стр. 351–359).

● Сривастава, Н., 2013. Улучшение нейронных сетей с отсевами. Университет Торонто, 182 (566), стр.7.

● Kingma, D.P., Salimans, T., and Welling, M., 2015. Вариационный отсев и трюк с локальной репараметризацией. В достижениях в системах обработки нейронной информации (стр. 2575–2583).

● Ба, Дж., И Фрей, Б., 2013. Адаптивный отсев для обучения глубоких нейронных сетей. В достижениях в системах обработки нейронной информации (стр. 3084–3092).

А теперь поделитесь своими мыслями в Twitter, Linkedin и Github !!

Согласны или не согласны с идеями и примерами Саурава Сингла? Хотите рассказать нам свою историю?

Твитните @ SauravSingla_08, комментарий Saurav_Singla и звезду SauravSingla прямо сейчас!