5 минут машинного обучения: сделайте свою модель более точной [День 4]

В моем последнем посте обсуждалась концепция потерь при построении модели машинного обучения. Подводя итог предыдущему посту (чтобы мы могли перейти к исправлению ошибок, черт возьми), подумайте о модели как о линии на графике множества точек данных. Расстояние между точками данных и линией = убыток, что плохо. Цель этой линии — поразить как можно больше точек данных. Итак, как мы можем позволить нашим моделям точно предсказывать и минимизировать потери?

Что ж… это не так просто или прямолинейно, но давайте начнем с концепции градиентного спуска.

Не волнуйтесь. Возьмите фразу как два значения, которые вы, вероятно, знаете. Градиент, как шаг за шагом к чему-то от чего-то, и спуск, означающий спуск.

Теперь давайте перейдем к определениям, так как то, что я только что использовал выше ^, было таким дерьмовым, но также и потому, что определения являются основой для ясности, которая важна перед началом любого разговора.

Гиперпараметры — это параметры конфигурации, используемые для настройки обучения модели. В качестве примера возьмем приведенный ниже фрагмент кода, запускающий модель:

Такие переменные, как количество шагов обучения, которое будет выполнять модель на этапе обучения разработки модели, являются одним из нескольких сотен примеров гиперпараметров, которые можно настроить, когда вы не только обучаете модель, но и выполняете логические выводы. Это все переменные, которые можно настроить по-разному, чтобы ваша модель обучалась определенным образом — возня с гиперпараметрами — это один из способов начать уменьшать потери.

Шаги градиента — это небольшие шаги в направлении, которое минимизирует потери. Общая стратегия, обсуждаемая здесь, — это градиентный спуск. Рассмотрим график ниже:

Прохладный. Это должно выглядеть знакомо, однако одно изменение… линия — это кривая. Это связано с тем, что на этом графике фактически представлены потери (по оси x) и значение веса, присвоенное тестируемому измерению. Как правило, потеря выглядит как кривая (или, чаще, серия взлетов и падений, как и жизнь). Взлеты и падения аспекта жизни будут важны в более позднем обсуждении, так что имейте это в виду. Однако пока мы будем иметь дело только с этой кривой. Теперь рассмотрим следующий шаг:

Ладно, не так уж и плохо. Теперь, как мы добрались до конечной точки? Если вы вспомните свою алгебру… нижеприведенное выглядит знакомым?

Таким образом, это не должно сильно отличаться от того, что мы называем нашим отрицательным градиентом.

К чему мы движемся? Если кривая представляет убыток, то, конечно, нам нужна самая нижняя точка на кривой убытка, потому что убыток — это плохо, и мы хотим, чтобы убытка не было:

Скорость обучения определяет, насколько велики эти шаги градиента. Если они слишком велики, вы рискуете превысить точку минимального убытка. Если скорость обучения слишком низкая, а шаги маленькие, то обучение будет длиться вечно. Золотая середина находится где-то посередине. Посетите детскую площадку, чтобы поэкспериментировать с этой концепцией, если вам трудно понять, — запутайтесь со скоростью обучения (переключайтесь вверх и вниз), чтобы увидеть, как быстро модель достигает сходимости или наименьшего уровня потерь.

И последнее, но не менее важное… не обижайтесь на меня… давайте рассмотрим два способа оптимизации.

До сих пор мы считали партию, для которой мы вычисляем/оптимизируем потери, всем набором данных, на котором мы тренируемся. Это может немного выйти из-под контроля с большими наборами данных, поэтому есть два подхода к работе с большими наборами данных и расчету минимальных потерь за разумный промежуток времени: стохастический градиентный спуск (сокращенно SGD, потому что … черт возьми) и мини-партии SGD (из-за недостатка творчества со стороны того, кто придумал эти термины).

SGD использует один пакет выборочных данных (буквально, один фрагмент данных) на итерацию оптимизации потерь. Это может стать очень «шумным» в смысле данных, когда вы начинаете сравнивать миллионы минимальных уровней потерь друг с другом.

Мини-пакет SGD использует где-то от 10 до 1000 примеров, выбранных случайным образом. Здесь есть очевидные компромиссы (время, деньги, ресурсы, точность и т. д.).

А теперь… вы вообще знаете, как оптимизировать сокращение потерь! Следите за следующим постом.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning