Прежде чем описывать, что такое регуляризация с точки зрения машинного обучения, я хочу описать некоторые ситуации, которые могут возникнуть в процессе построения модели, которые называются переоснащением и недообучением.

Предположим, у меня есть набор данных, и я хочу построить модель, которая делает хорошие прогнозы. Модель более высокой сложности машинного обучения дает лучшие решения благодаря своей гибкости. Если мощность модели выше, данные будут учиться лучше, но более высокая сложность имеет недостатки, такие как время и стоимость. Кроме того, мне нужно сначала обучить свою модель, чтобы найти оптимальные параметры.

Как мне обучить свой набор данных?

Если вы используете весь свой набор данных, для тестирования вашей модели не останется данных, следовательно, это не очень хорошая идея, но в предыдущих статьях я упоминал, что чем больше данных, тем лучше результаты обучения, так что мы должны делать? Мы должны разделить наш набор данных на обучение и тестирование и использовать большую часть данных для обучения. Например, это может быть 80% для обучения и 20% для тестирования.

Overfitting

Переобучение — это термин, который означает, что при построении модели обучающие данные имеют низкую ошибку обучения, но на этапе тестирования ошибка теста высока. Таким образом, в этих обстоятельствах мы говорим: «Данные изучили шаблоны из обучающих данных и построили модель в соответствии с этим, следовательно, это переобучение».

Подгонка

Недообучение — это термин, который означает, что при построении модели обучающие данные имеют высокую ошибку обучения, но на этапе тестирования ошибка теста мала. Таким образом, в этих обстоятельствах мы говорим: «Данные не изучили шаблоны из обучающих данных и не построили модель в соответствии с этим, поэтому она не соответствует требованиям».

Наша цель — создать низкий процент ошибок для последовательной модели. Таким образом, идеальная модель имеет низкую ошибку обучения и низкую ошибку тестирования.

Меры по выбору модели

Мера выбора модели пытается найти компромисс между потерями или вероятностью обучения и сложностью модели. Более сложные модели штрафуются по сравнению с более простыми моделями. Ниже я упомяну два критерия выбора модели, которые являются мерами компромисса между сложностью модели по количеству параметров модели и вероятностью, полученной на обучающих данных для изученного параметра.

Информационный критерий Акаике (AIC):

Информационный критерий Байеса (БИК):

Основное различие между AIC и BIC заключается в том, что BIC также учитывает количество обучающих примеров, чтобы избежать доминирования члена логарифмического правдоподобия для больших N, увеличивая штраф с увеличением N. Мы можем выбрать лучшую модель из всех моделей и выбрать лучшую с помощью максимизация AIC или BIC. Кроме того, сложность модели связана с количеством параметров. В следующих статьях я расскажу, как уменьшить количество параметров?

Итак, мы многому научились, но как насчет регуляризации?

Регуляризация — это метод сокращения, целью которого было уменьшение сложности и потерь. С помощью регуляризации мы контролируем сложность в процессе обучения. Существует 3 типа методов регуляризации:

  1. Регуляризация хребта
  2. Регуляризация лассо
  3. Регуляризация эластичной сети

1.Регуляризация хребта (L2)

Добавляет штрафной компонент к функции потерь, называемый «квадратная величина коэффициента».

Закрыто для решения для регуляризации L2:

2. Регуляризация лассо (L1)

К функции потерь «абсолютное значение величины» коэффициента добавляется в качестве штрафного члена.

Основное различие между этими стратегиями заключается в том, что Лассо уменьшает коэффициент менее значимого признака до нуля, тем самым удаляя его. Итак, если у нас есть большое количество функций, это хорошо работает для выбора функций. [2]

2.Регуляризация эластичной сети

Это комбинация регуляризации L1 и L2. Это полезно, когда у нас очень много параметров. т.е. . 1000000 функций (х)

Использованная литература:

  1. Интерактивная линза регрессии для изучения точечных диаграммЛинь Шао, Айшвария Махаджан, Тобиас Шрек, Дирк Дж. Леманн, 2017 г.
  2. https://towardsdatascience.com/l1-and-l2-regularization-methods-ce25e7fc831c