ВВЕДЕНИЕ
Начинаете свой путь в области машинного обучения, но не знаете, как подготовить набор данных? Ознакомьтесь с этой статьей, чтобы узнать о подготовке данных для машинного обучения.
ЧТО ТАКОЕ ПОДГОТОВКА ДАННЫХ В МАШИННОМ ОБУЧЕНИИ
Подготовка данных обычно является первым шагом, когда кто-то пытается решить реальную проблему с помощью машинного обучения. Эти необработанные данные обычно имеют различные несоответствия, которые необходимо устранить, прежде чем набор данных можно будет передать алгоритмам машинного обучения. Вот список, участвовавший в подготовке данных.
Мне нравится определять процесс, используя четыре высокоуровневых шага:
1. Определите проблему
2. Подготовьте данные
3. Оценивайте модели
4. Завершить модель
Давайте подробнее рассмотрим каждый из этих шагов.
ОПРЕДЕЛИТЕ ПРОБЛЕМУ
Этот шаг связан с изучением проекта в достаточной степени, чтобы выбрать кадр или кадры задачи прогнозирования. Например, это классификация или регрессия, или какой-либо другой тип проблемы более высокого порядка. Этот шаг также включает в себя внимательное изучение данных, а также, возможно, изучение данных с использованием сводной статистики и визуализации данных.
ПОДГОТОВЬТЕ ДАННЫЕ
При подготовке данных мы можем преобразовать собранные необработанные данные в форму, которую можно использовать при моделировании. Методы предварительной обработки данных обычно относятся к добавлению, удалению или преобразованию обучающего набора данных.
ОЦЕНКА МОДЕЛЕЙ
Этот шаг связан с оценкой моделей машинного обучения в вашем наборе данных. Это требует, чтобы вы разработали надежную систему тестирования, используемую для оценки ваших моделей, чтобы можно было доверять полученным вами результатам и использовать их для выбора среди моделей, которые вы оценили. Этот шаг также включает в себя задачи для получения максимальной отдачи от хорошо работающих моделей, таких как модели токарной обработки с гиперпараметрами.
ЗАВЕРШИТЬ МОДЕЛЬ
Этот шаг связан с выбором и использованием окончательной модели. После оценки набора моделей необходимо выбрать модель, представляющую решение для проекта. Это называется выбором модели и может включать в себя дальнейшую оценку моделей-кандидатов в наборе данных для проверки или выбор по критериям, специфичным для проекта, таким как сложность модели.
ЗАКЛЮЧЕНИЕ
В этой статье вы узнали, как рассматривать подготовку данных как шаг в более широком проекте машинного обучения прогнозного моделирования.
Абубакар Лабаран Салису
Академия наук о данных Arewa