Почему Dropout так эффективен в глубокой нейронной сети?

Наука о данных, глубокое обучение

Почему Dropout так эффективен в глубокой нейронной сети

Dropout - это простой способ уменьшить зависимости в глубокой нейронной сети.

В этой статье вы можете изучить Dropout, каковы плюсы и минусы регуляризации по сравнению с отсевом, как работает метод Dropout в глубоком обучении и каковы эффективные способы использования Dropout в глубоком обучении и как реализовать отсев в глубокая нейронная сеть?

Что означает отказ от глубокого обучения?

Выпадение означает выпадение единиц, которые скрыты и заметны в нейронной сети. Dropout - ошеломляюще популярный метод преодоления переобучения в нейронных сетях.

Фреймворк Deep Learning становится все более глубоким. С этими более крупными сетями мы можем добиться большей точности прогнозов. Однако несколько лет назад этого не было. У Deep Learning была проблема с переоснащением.

В тот момент, примерно в 2012 году, в своей статье Хинтон предложил идею Dropout путем случайного исключения подмножеств функций на каждой итерации процедуры обучения. Эта концепция произвела революцию в глубоком обучении. Значительная часть достижений, которые мы имеем с Deep Learning, приписывается Dropout.

Каковы плюсы и минусы регуляризации по сравнению с отсевом?

До исключения значительная область исследований была в области регуляризации. Внедрение методов регуляризации в нейронных сетях, например, штрафов за вес L1 и L2, началось с середины 2000-х годов. Тем не менее, эти регуляризации не решали полностью проблему переобучения.

Wager et al. в своей статье 2013 года регуляризация отсева была лучше, чем L2-регуляризация для изучения весов для функций.

Как метод отсева работает в глубоком обучении?

Dropout - это метод, при котором случайно выбранные нейроны отбрасываются во время обучения. Они «выпадают» произвольно. Это означает, что их вклад в активацию нижестоящих нейронов временно устраняется при прямом проходе, и никакие обновления веса не применяются к нейрону при обратном проходе.

Вы можете представить, что, если нейроны случайно выпали из сети во время обучения, этот другой нейрон должен будет вмешаться и обработать изображение, необходимое для прогнозирования отсутствующих нейронов. Считается, что это приводит к тому, что сеть изучает различные независимые внутренние представления.

Несмотря на то, что отсев оказался исключительно успешной техникой, причины ее успеха еще недостаточно понятны на теоретическом уровне.

Мы видим стандартный проход с прямой связью: веса умножают входные данные, добавляют смещение и передают его в функцию активации. Вторая последовательность уравнений поясняет, как это будет выглядеть в случае, если мы введем отсев:

Создайте маску исключения: случайные величины Бернулли (пример 1.0 * (np.random.random ((size)) ›p)
Используйте маску для входов, отключающих некоторые нейроны.
Используйте этот новый слой, чтобы умножить веса и добавить смещение.
Наконец, воспользуйтесь функцией активации.

Все веса распределяются по потенциально экспоненциальному количеству сетей, и во время обратного распространения будут обновлены только веса «прореженной сети».

Каковы эффективные способы использования Dropout в глубоком обучении?

● Согласно (Srivastava, 2013) Dropout, нейронные сети можно обучать вместе со стохастическим градиентным спуском. Отсев выполняется независимо для каждого учебного случая в каждом мини-пакете. Отсев можно использовать с любой функцией активации, и их эксперименты с логистическими, tanh и выпрямленными линейными модулями дали сравнимые результаты, однако требовалось различное количество времени на обучение, и исправленные линейные модули были самыми быстрыми для обучения.

● Kingma et al., 2015 рекомендовали, чтобы для выпадения требовалось указать частоту выпадения, которая представляет собой вероятность выпадения нейрона. Коэффициенты отсева обычно оптимизируются с помощью поиска по сетке. Кроме того, Variational Dropout - это изысканный перевод Gaussian Dropout как экстраординарного примера байесовской регуляризации. Этот метод позволяет нам настраивать частоту отсева и, в принципе, может использоваться для установки индивидуальных показателей отсева для каждого слоя, нейрона или даже веса.

● Другой эксперимент (Ba et al., 2013) по увеличению количества скрытых единиц в алгоритме глубокого обучения. Одна примечательная особенность регуляризации отсева состоит в том, что она обеспечивает значительно более высокую производительность с большим количеством скрытых единиц, поскольку все единицы имеют эквивалентную вероятность быть исключенными.

Как реализовать отсев в глубоких нейронных сетях?

● Как правило, используйте небольшое значение выпадения нейронов, составляющее 20% -50%, при этом 20% представляют собой отличную отправную точку. Слишком низкая вероятность оказывает незначительное влияние и стоит слишком высоких результатов при недостаточном обучении системой.

● Вероятно, вы обнаружите признаки улучшения, когда в более крупной сети используется отсев, что даст модели больше шансов изучить бесплатные изображения.

● Используйте отсев при приближении (очевидном) так же, как и скрытые отряды. Использование отсева на каждом уровне системы продемонстрировало отличные результаты.

использованная литература

● Шривастава Н., Хинтон Г., Крижевский А., Суцкевер И. и Салахутдинов Р., 2014. Отсев: простой способ предотвратить переобучение нейронных сетей. Журнал исследований машинного обучения, 15 (1), стр. 1929–1958.

● Хинтон, Г.Е., Шривастава, Н., Крижевский, А., Суцкевер, И. и Салахутдинов, Р.Р., 2012. Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов признаков. Препринт arXiv arXiv: 1207.0580.

● Вейджер, С., Ван, С. и Лян, П.С., 2013. Обучение выбыванию как адаптивная регуляризация. В достижениях в системах обработки нейронной информации (стр. 351–359).

● Сривастава, Н., 2013. Улучшение нейронных сетей с отсевами. Университет Торонто, 182 (566), стр.7.

● Kingma, D.P., Salimans, T., and Welling, M., 2015. Вариационный отсев и трюк с локальной репараметризацией. В достижениях в системах обработки нейронной информации (стр. 2575–2583).

● Ба, Дж., И Фрей, Б., 2013. Адаптивный отсев для обучения глубоких нейронных сетей. В достижениях в системах обработки нейронной информации (стр. 3084–3092).

А теперь поделитесь своими мыслями в Twitter, Linkedin и Github !!

Согласны или не согласны с идеями и примерами Саурава Сингла? Хотите рассказать нам свою историю?

Твитните @ SauravSingla_08, комментарий Saurav_Singla и звезду SauravSingla прямо сейчас!

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning