Регуляризация в машинном обучении

Прежде чем описывать, что такое регуляризация с точки зрения машинного обучения, я хочу описать некоторые ситуации, которые могут возникнуть в процессе построения модели, которые называются переоснащением и недообучением.

Предположим, у меня есть набор данных, и я хочу построить модель, которая делает хорошие прогнозы. Модель более высокой сложности машинного обучения дает лучшие решения благодаря своей гибкости. Если мощность модели выше, данные будут учиться лучше, но более высокая сложность имеет недостатки, такие как время и стоимость. Кроме того, мне нужно сначала обучить свою модель, чтобы найти оптимальные параметры.

Как мне обучить свой набор данных?

Если вы используете весь свой набор данных, для тестирования вашей модели не останется данных, следовательно, это не очень хорошая идея, но в предыдущих статьях я упоминал, что чем больше данных, тем лучше результаты обучения, так что мы должны делать? Мы должны разделить наш набор данных на обучение и тестирование и использовать большую часть данных для обучения. Например, это может быть 80% для обучения и 20% для тестирования.

Overfitting

Переобучение — это термин, который означает, что при построении модели обучающие данные имеют низкую ошибку обучения, но на этапе тестирования ошибка теста высока. Таким образом, в этих обстоятельствах мы говорим: «Данные изучили шаблоны из обучающих данных и построили модель в соответствии с этим, следовательно, это переобучение».

Подгонка

Недообучение — это термин, который означает, что при построении модели обучающие данные имеют высокую ошибку обучения, но на этапе тестирования ошибка теста мала. Таким образом, в этих обстоятельствах мы говорим: «Данные не изучили шаблоны из обучающих данных и не построили модель в соответствии с этим, поэтому она не соответствует требованиям».

Наша цель — создать низкий процент ошибок для последовательной модели. Таким образом, идеальная модель имеет низкую ошибку обучения и низкую ошибку тестирования.

Меры по выбору модели

Мера выбора модели пытается найти компромисс между потерями или вероятностью обучения и сложностью модели. Более сложные модели штрафуются по сравнению с более простыми моделями. Ниже я упомяну два критерия выбора модели, которые являются мерами компромисса между сложностью модели по количеству параметров модели и вероятностью, полученной на обучающих данных для изученного параметра.

Информационный критерий Акаике (AIC):

Информационный критерий Байеса (БИК):

Основное различие между AIC и BIC заключается в том, что BIC также учитывает количество обучающих примеров, чтобы избежать доминирования члена логарифмического правдоподобия для больших N, увеличивая штраф с увеличением N. Мы можем выбрать лучшую модель из всех моделей и выбрать лучшую с помощью максимизация AIC или BIC. Кроме того, сложность модели связана с количеством параметров. В следующих статьях я расскажу, как уменьшить количество параметров?

Итак, мы многому научились, но как насчет регуляризации?

Регуляризация — это метод сокращения, целью которого было уменьшение сложности и потерь. С помощью регуляризации мы контролируем сложность в процессе обучения. Существует 3 типа методов регуляризации:

Регуляризация хребта
Регуляризация лассо
Регуляризация эластичной сети

1.Регуляризация хребта (L2)

Добавляет штрафной компонент к функции потерь, называемый «квадратная величина коэффициента».

Закрыто для решения для регуляризации L2:

2. Регуляризация лассо (L1)

К функции потерь «абсолютное значение величины» коэффициента добавляется в качестве штрафного члена.

Основное различие между этими стратегиями заключается в том, что Лассо уменьшает коэффициент менее значимого признака до нуля, тем самым удаляя его. Итак, если у нас есть большое количество функций, это хорошо работает для выбора функций. [2]

2.Регуляризация эластичной сети

Это комбинация регуляризации L1 и L2. Это полезно, когда у нас очень много параметров. т.е. . 1000000 функций (х)

Использованная литература:

Machine Learning Regularization

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning