Что такое алгоритм AdaGrad?

Adaptive Gradient Algorithm (Adagrad) — это набор правил для общей оптимизации, основанной в основном на градиенте. … Он воспроизводит небольшие обновления. В результате он отлично справляется с разреженными данными (NLP или распознавание изображений). Каждый параметр имеет свою собственную нагрузку на изучение, которая улучшает общую производительность при решении проблем с разреженными градиентами. полностью основанный на градиентах, видимых для переменной (частных производных), видимых на пути поиска. Это первый шаг к созданию лучших онлайн-курсов по науке о данных.

Adaptive Gradient Algorithm (AdaGrad) — это набор правил для оптимизации на основе градиента. Плата за мастеринг адаптирована к параметрам путем включения информации, выходящей за рамки наблюдений. Он воспроизводит большие обновления (например, чрезмерные скорости освоения) для параметров, которые могут быть связаны с редкими возможностями, и меньшие обновления (например, низкие скорости освоения) для обычных. Он воспроизводит небольшие обновления. В результате он хорошо применим при обработке разреженных данных (NLP или распознавание фотографий). Каждый параметр имеет свою плату за освоение, которая улучшает общую производительность при проблемах с разреженными градиентами. Это часть онлайн-курса по аналитике данных.

Adaptive Gradients, или AdaGrad для краткости, представляет собой расширение набора правил оптимизации градиентного спуска, которое позволяет автоматически настраивать длину шага в каждом измерении, используемом набором правил оптимизации, в первую очередь на основе градиентов, видимых для переменной ( частные производные), видимые на пути поиска.

Каковы преимущества использования AdaGrad

• Это устраняет необходимость вручную отслеживать плату за мастеринг

• Схождение происходит быстрее и надежнее, чем простой SGD, хотя масштабирование весов неравномерно.

• Не всегда очень чувствителен к масштабу хватательного шага

Мы упомянули множество алгоритмов в конечных сообщениях, и может быть гиперпараметр, который используется во всех алгоритмах, то есть плата за мастеринг (η). Чтобы обновить снова, гиперпараметр — это параметр, который необходимо выбрать вручную перед тренировкой. Префикс гипер- предназначен для того, чтобы отличать гиперпараметр от параметра, который был изменен автоматически с помощью алгоритмов оптимизации на время обучения. Плата за освоение показывает, насколько хорошо мы позволяем параметру (θ) соответствовать альтернативному маршруту оценки градиента (g). Вы можете получить это в онлайн-курсе по науке о данных.

К сожалению, этот гиперпараметр может быть очень трудно установить из-за того, что если мы установим его слишком маленьким, то замена параметра может быть очень медленной, и для достижения соответствующей потери потребуется очень много времени. В противном случае, если мы установим его слишком большим, то параметр будет циркулировать повсюду в характеристике и может вообще никак не достичь идеальных потерь. Что еще хуже, чрезмерная размерность невыпуклой природы оптимизации нейронных сетей может вызвать особую чувствительность при каждом измерении. Плата за мастеринг может быть слишком маленькой в нескольких измерениях и слишком большой в любом другом измерении.

Для чего используется алгоритм AdaGrad?

Одной из очевидных функций для смягчения этой проблемы является выбор конкретной платы за освоение для каждого измерения, однако я считаю, что если у нас есть много или десятки тысяч и тысяч измерений, что является обычным для глубоких нейронных сетей, это может быть уже не так. быть практичным. Таким образом, на практике одним из всех более ранних алгоритмов, которые использовались для смягчения этой проблемы для глубоких нейронных сетей, является набор правил AdaGrad (Duchi et al., 2011). Этот набор правил адаптивно масштабировал плату за мастеринг для каждого измерения. Прежде чем мы узнаем набор правил и то, как он работает, давайте рассмотрим уравнение для замены параметра, которое использовалось на практике, т. Е. Это диагональная аппроксимация обратного прямоугольных корней градиентных внешних произведений, до итерации . Таким образом, мы получаем определенные веса для каждой переменной компоненты (поэтому у нас есть, и оптимистично мы будем поддерживать длину шага $eta$ постоянной.

Преимущество алгоритма AdaGrad в том, что он устраняет необходимость вручную отслеживать плату за мастеринг; максимально отойти от него по стандартной стоимости. Его основным слабым местом является накопление квадратов градиентов внутри знаменателя. Поскольку каждый введенный период положителен, накопленная сумма продолжает увеличиваться на протяжении всего обучения, вызывая уменьшение платы за освоение и превращаясь в бесконечно малую. Набор правил AdaGrad — это наборы данных, являющиеся лишь версией предобусловленного стохастического градиентного спуска, где $B$ принимается разумно и регулярно обновляется, а расчет градиента следует SGD.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning