После обсуждения различных подходов, используемых алгоритмами машинного обучения для обучения, в статье ниже
Мы собираемся определить основные проблемы машинного обучения.
Во-первых, что означает слово `вызов` для любой области?
Согласно Кембриджскому словарю:
Таким образом, проблемы машинного обучения относятся к препятствиям и проблемам, которые ограничивают работу модели ML (хорошее обобщение и хороший показатель точности и т. д.).
Главный вопрос:
Что может пойти не так в обучении и помешать вам делать точные прогнозы?
Как вы могли заметить, в заголовке нашей статьи есть слово «часть I», в которой я рассмотрю проблемы, связанные с данными, и приберегу проблемы, связанные с алгоритмами, для части II.
Давайте начнем наше исследование с перечисления этих проблем без подробностей, поскольку мы будем рассматривать их одну за другой в предстоящих статьях (расскажите мне об этом в разделе комментариев).
Проблемы с данными
- Количество обучающих данных:
Почти во всех случаях создания модели машинного обучения количество данных, необходимых для хороших прогнозов, слишком важно, поэтому недостаточное количество данных может привести к тому, что ваша модель не будет работать должным образом.
- Нерепрезентативные данные обучения:
Как следует из названия, такого рода данные не дают реальной модели для извлечения уроков из них и, следовательно, плохо обобщают.
В общем, это связано с тем, что ваши обучающие данные не представляют случаи, которые вы хотите обобщить.
- Данные низкого качества:
Главный вопрос здесь:
ЗАЧЕМ ЧИСТИТЬ ВАШИ ДАННЫЕ?
Знание того, как очистить ваши данные, полезно по многим причинам. Здесь только несколько:
- Это не позволит вам тратить время на шаткий или даже ошибочный анализ
- Это убережет вас от неправильных выводов, из-за которых вы будете выглядеть плохо!
- Это ускоряет ваш анализ. Правильные, должным образом очищенные и отформатированные данные ускоряют вычисления в продвинутых алгоритмах.
Очевидно, что если ваши тренировочные данные полны ошибок, выбросов и шума (например, из-за некачественных измерений), системе будет сложнее обнаруживать основные закономерности, поэтому ваша система с меньшей вероятностью будет работать хорошо. Часто стоит потратить время на очистку тренировочных данных. Правда в том, что большинство специалистов по данным тратят значительную часть своего времени именно на это.
Орельен Жерон
Спасибо за ваше время,
Посетите мой веб-сайт: Домашняя страница — IsmailOuahbi.com
Следуйте за мной в LinkedIn, чтобы узнать больше.