Давайте будем ясны. Я специалист по данным с ~ 2 месяцами опыта работы с python, библиотеками python, статистикой, алгеброй, блокнотом jupyter и другими инструментами программирования. Влюбиться в путешествие становления.

Чего ожидать от этого блога?

В настоящее время я изучаю, как построить прогностическую модель и проверить ее. В этом блоге я расскажу об основных этапах процесса машинного обучения.

Содержание:

  • Этапы науки о данных и мое знакомство с концепцией
  • Столкновение с эмоциями
  • Что такое машинное обучение?
  • Типы машинного обучения
  • Метрики для оценки алгоритмов машинного обучения с использованием Python
  • Выбор алгоритма машинного обучения!
  • Шпаргалка: алгоритмы машинного обучения (Python и код R)
  • Об авторе и где меня найти!

Этапы науки о данных и мое знакомство с концепцией:

  • Определить бизнес-проблему (знакомо с)
  • Сбор данных (знание)
  • Очистка данных (знакомо с)
  • Анализ данных (знания)
  • Прогнозный анализ (СЕЙЧАС УЧИТСЯ)
  • Проверка модели (ДАЛЕЕ)
  • Развертывание (СКОРО)

Столкновение с эмоциями!

Легко растеряться, если знаешь, что единственный способ попасть в квартиру на 12-м этаже — это… подняться по лестнице, если лифт не работает. Идея быть подавленным зависит от человека. Когда дело доходит до определенной задачи, кому-то она может нравиться, а кому-то — ненавидеть. Эмоции преходящи. Прямо сейчас я определенно перегружен изучением кода Python, терминологией и статистикой, связанной с машинным обучением. ПОЧЕМУ я перегружен? Я считаю, что это потому, что в настоящий момент это ново и неизвестно для меня, и к концу написания этого блога я буду на шаг ближе к тому, чтобы стать специалистом по данным.

Что такое машинное обучение?

Как видите, машинное обучение связано с математикой/статистикой и информатикой. Проще говоря, машинное обучение обучает машину, вводя данные, помеченные или не помеченные, чтобы предсказать результат, и машина со временем приобретет знания по теме.

(Хотите, чтобы кто-то из ваших знакомых понял больше о машинном обучении? Посмотрите это видео выше.)

Типы машинного обучения

«Обучение с учителем». Этот алгоритм включает в себя переменную цели/результата (зависимую переменную), которая должна быть предсказана на основе заданного набора предикторов (независимых переменных). Используя этот набор переменных, можно сгенерировать функцию для сопоставления входных данных с желаемыми выходными данными. Процесс обучения продолжается до тех пор, пока модель не достигнет желаемого уровня точности обучающих данных.Примеры контролируемого обучения:регрессия, дерево решений,случайный лес, KNN, логистическая регрессия и т. д. .

Неконтролируемое обучение. В этом алгоритме нет целевых или конечных переменных для прогнозирования/оценки. Кроме того, этот алгоритм используется для кластеризации населения в разные группы, что широко используется для сегментации клиентов в разные группы для конкретного вмешательства. Примеры обучения без учителя: априорный алгоритм, K-средних.

Обучение с подкреплением. С помощью этого алгоритма машина обучается принимать конкретные решения. Это работает следующим образом: машина подвергается воздействию окружающей среды, в которой она постоянно тренируется методом проб и ошибок. Эта машина учится на прошлом опыте и старается максимально использовать знания для принятия точных бизнес-решений. Пример обучения с подкреплением: Марковский процесс принятия решений»

(Источник ниже, Analytics Vidhya)

Метрики для оценки алгоритмов машинного обучения с использованием Python

Прежде чем мы перейдем к рассмотрению процесса выбора алгоритма, важно отметить, что цель наших метрик после создания нашей модели состоит в том, чтобы оценить, является ли модель «хорошей» моделью для использования по сравнению с другими, которые вы можете использовать. использовать.

Метрики классификации:

Точность классификации

Потеря журнала

Площадь под кривой ROC

Матрица путаницы (метод для результатов прогнозирования классификации)

Отчет о классификации (метод результатов прогнозирования классификации)

Показатели регрессии

Средняя абсолютная ошибка

Среднеквадратическая ошибка

Проверка результатов для кластеризации

Внутренняя проверка, основанная на следующих показателях: связность с каждым кластером и разделение между разными кластерами.

Внешняя проверка

(Для получения дополнительной информации о проверке кластеризации, метриках и т. д. см. мой источник)

Выбор алгоритма машинного обучения!

Вот что я думаю о процессе:

  • Подумайте о проблеме и о том, что вы хотите предсказать (вы хотите предсказать число, классифицировать что-то и т. д.)
  • Импорт пакетов Python
  • Выберите свою первую модель. Типы алгоритмов: обучение с учителем, обучение без учителя и обучение с подкреплением.
  • Разделите данные: протестируйте и обучите (Разделите 1-е, чтобы избежать утечки данных)
  • Данные шкалы (ТОЛЬКО значения x)
  • Перекрестная проверка
  • Соответствуйте вашей модели (здесь происходит регуляризация):
  • Предсказывать
  • Проверьте метрики и оцените (метрики для оценки производительности различаются для каждого типа модели)
  • (Необязательно) Сравните свою модель, запустив другой алгоритм с тем же типом машинного обучения, и выполните шаги, описанные выше, чтобы сравнить оценку. Вы можете настроить гиперпараметры и повторять тот же процесс, пока мы не достигнем желаемой производительности. Ваш окончательный выбор модели будет зависеть от оптимальных показателей оценки для выбранной модели и проблемы.

Источник: включает алгоритмы линейной регрессии, логистической регрессии, дерева решений, CWM (машина опорных векторов), наивного байесовского алгоритма, kNN (k-ближайших соседей), k-средних, случайного леса, алгоритмов уменьшения размерности, повышения градиента. , Усиление градиента и AdaBoost

Спасибо за чтение!

Если вам понравился этот пост или вы просто смогли прокрутить его до этого места, нажмите кнопку хлопка (10+ раз). Если у вас есть какие-либо ресурсы, чтобы помочь в моем путешествии, пожалуйста, пришлите их мне!

об авторе

Я Иеремия. В настоящее время я изучаю науку о данных в тренировочном лагере на полную ставку, кофеголик, энтузиаст тренажерного зала и т. д.!

Где меня найти:

  • LinkedIn: свяжитесь со мной!
  • Instagram: фитнес, психическое здоровье, мотивация, еда и т. д.
  • Средний: Другие мои работы!

Источники: