5 методов предотвращения переобучения вашей следующей модели машинного обучения

Вы когда-нибудь разрабатывали модель нейронной сети, которая дает потрясающие результаты? Настолько, что это невероятно? Если у вас возникли такие сомнения, возможно, вы правы.

Возможно, ваша модель страдает от переобучения. Переобучение - это когда ваша модель «запоминает» ваш набор данных и, следовательно, способна точно предсказать результаты.

Другими словами, если вы запустите свою модель на другом наборе данных, можно с уверенностью сказать, что это даст катастрофические результаты. В этой статье представлены 5 эффективных способов предотвращения переобучения модели прогнозирования запасов.

Явный признак переобученной модели

**Ваша модель плохо обобщает невидимые данные**

Разделите свои данные на обучающие и тестовые наборы. Если у вас есть модель, которая дает 95% точности по обучающим данным, но только 58% по тестовым данным, это явный признак того, что ваша модель переоснащается.

5 методов предотвращения переобучения

Я воспользуюсь реальным примером, когда я проводил исследование по построению сети с долгосрочной краткосрочной памятью (LSTM) для прогнозирования основного индийского индекса под названием BSE: SENSEX.

Сеть LSTM имела 1 входной, 2 скрытых и 1 выходной слой. Набор данных о ценах за последние 20 лет был разделен на обучающий, тестовый и проверочный наборы. На графике ниже представлены ежедневные прогнозы.

Хм, точность выглядит неплохо, правда? Посмотрим, подходит ли модель больше или меньше. Я использовал следующие методы, чтобы выяснить, не переобучена ли моя модель, и предотвратить переобучение.

1. Степень соответствия

Чтобы проверить, подходит ли наша модель, нам нужно построить график зависимости от потерь при проверке во время обучения на наборе данных. Приведенный ниже обучающий график показывает, что потери для модели LSTM хорошо сходятся после 15–16 эпох.

Судя по конвергенции, это считается« идеальным вариантом». Если бы это было переобучением, потери бы сходились, а затем расходились. С другой стороны, если бы это было не так, потери никогда бы не сойдутся.

2. Отказ от учебы

Dropout - это метод явной регуляризации, при котором определенные узлы в сети отбрасываются в попытке внести шум в данные, чтобы сеть не соответствовала данным.

Исключение можно применить как к входному слою, так и к скрытым слоям. В моем исследовании после экспериментов указанные 50% узлов были намеренно отброшены во время обучения в обоих скрытых слоях нейронной сети (LSTM).

3. Ранний обратный звонок

Была реализована функция раннего обратного вызова, которая динамически останавливала обучение, как только потеря валидации перестала уменьшаться.

Поскольку, если потеря проверки начинает последовательно увеличиваться , это означает, что модель переобучена.

«Уровень терпения» для функции обратного вызова был установлен на 3, что позволяет сети изначально принимать увеличение потерь при проверке (в три раза). Несколько скачков потерь при валидации являются ожидаемым побочным эффектом при использовании метода отсева.

4. Непоследовательное обучение

Для LSTM RNN перед обучением сети данные обучения перетасовывались. Этот метод непоследовательного обучения был применен для улучшения обобщаемости сети.

Это гарантирует, что модель не запомнит последовательности в данных запаса (временных рядов) и получит полностью перемешанный набор данных во время обучения.

5. Тест на обобщаемость

После обучения и тестирования вы можете опробовать свою модель на другом наборе данных и посмотреть, как она работает. В идеале, если модель хорошо подходит, она должна работать достаточно хорошо даже с совершенно новым набором данных.

Например, фондовые индексы менее волатильны и, следовательно, считаются более безопасными для инвестиций по сравнению с отдельными акциями. Чтобы проверить возможность обобщения модели LSTM, она была протестирована на новом наборе данных акций крупной индийской ИТ-компании - Tech Mahindra (NSE: TECHM).

Учитывая более высокую волатильность этой акции, модель относительно хорошо позволяла делать прогнозы. Этот результат подтверждает, что модель не только подходит для ежедневного прогнозирования BSE: SENSEX, но также может хорошо обобщать новые данные.

Вот и все, ребята! Удачных тренировок, надеюсь, это поможет.

Если вам понравилась эта статья, вам могут быть интересны следующие:

LSTM против DNN - что лучше для прогнозирования акций и почему?
Прогнозирование фондовых рынков - сложная задача из-за большого количества потенциальных переменных, а также… medium.com

Влияние новостных настроений на акции фармацевтических компаний
Как новостные события влияют на цены акций фармацевтических компаний medium.com

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning