После обсуждения различных подходов, используемых алгоритмами машинного обучения для обучения, в статье ниже



Мы собираемся определить основные проблемы машинного обучения.

Во-первых, что означает слово `вызов` для любой области?

Согласно Кембриджскому словарю:

Таким образом, проблемы машинного обучения относятся к препятствиям и проблемам, которые ограничивают работу модели ML (хорошее обобщение и хороший показатель точности и т. д.).

Главный вопрос:

Что может пойти не так в обучении и помешать вам делать точные прогнозы?

Как вы могли заметить, в заголовке нашей статьи есть слово «часть I», в которой я рассмотрю проблемы, связанные с данными, и приберегу проблемы, связанные с алгоритмами, для части II.

Давайте начнем наше исследование с перечисления этих проблем без подробностей, поскольку мы будем рассматривать их одну за другой в предстоящих статьях (расскажите мне об этом в разделе комментариев).

Проблемы с данными

  • Количество обучающих данных:

Почти во всех случаях создания модели машинного обучения количество данных, необходимых для хороших прогнозов, слишком важно, поэтому недостаточное количество данных может привести к тому, что ваша модель не будет работать должным образом.

  • Нерепрезентативные данные обучения:

Как следует из названия, такого рода данные не дают реальной модели для извлечения уроков из них и, следовательно, плохо обобщают.

В общем, это связано с тем, что ваши обучающие данные не представляют случаи, которые вы хотите обобщить.

  • Данные низкого качества:

Главный вопрос здесь:

ЗАЧЕМ ЧИСТИТЬ ВАШИ ДАННЫЕ?

Знание того, как очистить ваши данные, полезно по многим причинам. Здесь только несколько:

  • Это не позволит вам тратить время на шаткий или даже ошибочный анализ
  • Это убережет вас от неправильных выводов, из-за которых вы будете выглядеть плохо!
  • Это ускоряет ваш анализ. Правильные, должным образом очищенные и отформатированные данные ускоряют вычисления в продвинутых алгоритмах.

Очевидно, что если ваши тренировочные данные полны ошибок, выбросов и шума (например, из-за некачественных измерений), системе будет сложнее обнаруживать основные закономерности, поэтому ваша система с меньшей вероятностью будет работать хорошо. Часто стоит потратить время на очистку тренировочных данных. Правда в том, что большинство специалистов по данным тратят значительную часть своего времени именно на это.

Орельен Жерон

Спасибо за ваше время,

Посетите мой веб-сайт: Домашняя страница — IsmailOuahbi.com
Следуйте за мной в LinkedIn, чтобы узнать больше.