Битва за оптимизацию гиперпараметров

Поиск по сетке против случайного поиска, какой из них для моделей глубокого обучения?

Иногда мне хочется, чтобы создание модели глубокого обучения было таким же простым, как для Майка Тайсона, чтобы выиграть боксерский поединок — один удар, и все кончено. Правда в том, что я часто задаю себе слишком много вопросов, когда начинаю оптимизировать свои модели: сколько слоев я должен включить? Сколько единиц или фильтров подходит для каждого слоя? Какую функцию активации следует использовать — ReLu? Должен ли я интегрировать Пакетную нормализацию после определенного слоя? Какую долю отсева я должен применять? Список можно продолжить.

Эти архитектурные решения называются гиперпараметрами. Они отличаются от обычных параметров модели, которые обучаются с помощью обратного распространения ошибки. Со временем мы начинаем понимать, что работает, а что нет, когда дело доходит до этих решений.

Однако — без обид, конечно — даже самые опытные из нас редко добиваются приличных результатов со своим первоначальным выбором. Итак, чтобы не тратить время на пробы и ошибки, я создаю список решений для оптимизации задач глубокого обучения.

Хотя существуют различные стратегии оптимизации, от простого случайного поиска до генетических алгоритмов, сегодня я подробно расскажу о двух популярных методах: поиске по сетке и случайном поиске.

Поиск по сетке

Поиск по сетке — это систематическая методология, используемая для настройки гиперпараметров. Несмотря на исчерпывающую стратегию поиска, которая кажется подходом грубой силы, он остается популярным выбором. Для этого требуется сетка значений гиперпараметров, каждая уникальная комбинация которых будет оцениваться перед определением оптимального набора.

Поскольку поиск по сетке анализирует все возможные комбинации в заранее заданной сетке, он может потребовать значительных вычислительных ресурсов и времени. Это особенно актуально для задач глубокого обучения, которые имеют большие наборы данных. Итак, нам нужно помнить о размере данных, прежде чем применять поиск по сетке.

Кроме того, поиск по сетке не включает никакой информации или отзывов из предыдущих итераций — я расскажу о байесовской оптимизации позже, а пока вы можете прочитать о преимуществах байесовской статистики. Так или иначе, в результате он может потратить время на комбинации, которые маловероятны...

смотрите также:

Новые материалы

Как создать диаграмму градиентной кисти с помощью D3.js

Резюме: Из этого туториала Вы узнаете, как добавить градиентную кисть к диаграмме с областями в D3.js. Мы добавим градиент к значениям SVG и применим градиент в качестве заливки к диаграмме с..

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning