Давайте будем ясны. Я специалист по данным с ~ 2 месяцами опыта работы с python, библиотеками python, статистикой, алгеброй, блокнотом jupyter и другими инструментами программирования. Влюбиться в путешествие становления.
Чего ожидать от этого блога?
В настоящее время я изучаю, как построить прогностическую модель и проверить ее. В этом блоге я расскажу об основных этапах процесса машинного обучения.
Содержание:
- Этапы науки о данных и мое знакомство с концепцией
- Столкновение с эмоциями
- Что такое машинное обучение?
- Типы машинного обучения
- Метрики для оценки алгоритмов машинного обучения с использованием Python
- Выбор алгоритма машинного обучения!
- Шпаргалка: алгоритмы машинного обучения (Python и код R)
- Об авторе и где меня найти!
Этапы науки о данных и мое знакомство с концепцией:
- Определить бизнес-проблему (знакомо с)
- Сбор данных (знание)
- Очистка данных (знакомо с)
- Анализ данных (знания)
- Прогнозный анализ (СЕЙЧАС УЧИТСЯ)
- Проверка модели (ДАЛЕЕ)
- Развертывание (СКОРО)
Столкновение с эмоциями!
Легко растеряться, если знаешь, что единственный способ попасть в квартиру на 12-м этаже — это… подняться по лестнице, если лифт не работает. Идея быть подавленным зависит от человека. Когда дело доходит до определенной задачи, кому-то она может нравиться, а кому-то — ненавидеть. Эмоции преходящи. Прямо сейчас я определенно перегружен изучением кода Python, терминологией и статистикой, связанной с машинным обучением. ПОЧЕМУ я перегружен? Я считаю, что это потому, что в настоящий момент это ново и неизвестно для меня, и к концу написания этого блога я буду на шаг ближе к тому, чтобы стать специалистом по данным.
Что такое машинное обучение?
Как видите, машинное обучение связано с математикой/статистикой и информатикой. Проще говоря, машинное обучение обучает машину, вводя данные, помеченные или не помеченные, чтобы предсказать результат, и машина со временем приобретет знания по теме.
(Хотите, чтобы кто-то из ваших знакомых понял больше о машинном обучении? Посмотрите это видео выше.)
Типы машинного обучения
«Обучение с учителем». Этот алгоритм включает в себя переменную цели/результата (зависимую переменную), которая должна быть предсказана на основе заданного набора предикторов (независимых переменных). Используя этот набор переменных, можно сгенерировать функцию для сопоставления входных данных с желаемыми выходными данными. Процесс обучения продолжается до тех пор, пока модель не достигнет желаемого уровня точности обучающих данных.Примеры контролируемого обучения:регрессия, дерево решений,случайный лес, KNN, логистическая регрессия и т. д. .
Неконтролируемое обучение. В этом алгоритме нет целевых или конечных переменных для прогнозирования/оценки. Кроме того, этот алгоритм используется для кластеризации населения в разные группы, что широко используется для сегментации клиентов в разные группы для конкретного вмешательства. Примеры обучения без учителя: априорный алгоритм, K-средних.
Обучение с подкреплением. С помощью этого алгоритма машина обучается принимать конкретные решения. Это работает следующим образом: машина подвергается воздействию окружающей среды, в которой она постоянно тренируется методом проб и ошибок. Эта машина учится на прошлом опыте и старается максимально использовать знания для принятия точных бизнес-решений. Пример обучения с подкреплением: Марковский процесс принятия решений»
(Источник ниже, Analytics Vidhya)
Метрики для оценки алгоритмов машинного обучения с использованием Python
Прежде чем мы перейдем к рассмотрению процесса выбора алгоритма, важно отметить, что цель наших метрик после создания нашей модели состоит в том, чтобы оценить, является ли модель «хорошей» моделью для использования по сравнению с другими, которые вы можете использовать. использовать.
Метрики классификации:
Точность классификации
Потеря журнала
Площадь под кривой ROC
Матрица путаницы (метод для результатов прогнозирования классификации)
Отчет о классификации (метод результатов прогнозирования классификации)
Показатели регрессии
Средняя абсолютная ошибка
Среднеквадратическая ошибка
R²
Проверка результатов для кластеризации
Внутренняя проверка, основанная на следующих показателях: связность с каждым кластером и разделение между разными кластерами.
Внешняя проверка
(Для получения дополнительной информации о проверке кластеризации, метриках и т. д. см. мой источник)
Выбор алгоритма машинного обучения!
Вот что я думаю о процессе:
- Подумайте о проблеме и о том, что вы хотите предсказать (вы хотите предсказать число, классифицировать что-то и т. д.)
- Импорт пакетов Python
- Выберите свою первую модель. Типы алгоритмов: обучение с учителем, обучение без учителя и обучение с подкреплением.
- Разделите данные: протестируйте и обучите (Разделите 1-е, чтобы избежать утечки данных)
- Данные шкалы (ТОЛЬКО значения x)
- Перекрестная проверка
- Соответствуйте вашей модели (здесь происходит регуляризация):
- Предсказывать
- Проверьте метрики и оцените (метрики для оценки производительности различаются для каждого типа модели)
- (Необязательно) Сравните свою модель, запустив другой алгоритм с тем же типом машинного обучения, и выполните шаги, описанные выше, чтобы сравнить оценку. Вы можете настроить гиперпараметры и повторять тот же процесс, пока мы не достигнем желаемой производительности. Ваш окончательный выбор модели будет зависеть от оптимальных показателей оценки для выбранной модели и проблемы.
Источник: включает алгоритмы линейной регрессии, логистической регрессии, дерева решений, CWM (машина опорных векторов), наивного байесовского алгоритма, kNN (k-ближайших соседей), k-средних, случайного леса, алгоритмов уменьшения размерности, повышения градиента. , Усиление градиента и AdaBoost
Спасибо за чтение!
Если вам понравился этот пост или вы просто смогли прокрутить его до этого места, нажмите кнопку хлопка (10+ раз). Если у вас есть какие-либо ресурсы, чтобы помочь в моем путешествии, пожалуйста, пришлите их мне!
об авторе
Я Иеремия. В настоящее время я изучаю науку о данных в тренировочном лагере на полную ставку, кофеголик, энтузиаст тренажерного зала и т. д.!
Где меня найти:
- LinkedIn: свяжитесь со мной!
- Instagram: фитнес, психическое здоровье, мотивация, еда и т. д.
- Средний: Другие мои работы!
Источники:
- - Картэ. Часто используемые алгоритмы машинного обучения: наука о данных. Analytics Vidhya, 14 сентября 2015 г., https://analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/.
- Браунли, Джейсон. Метрики для оценки алгоритмов машинного обучения в Python. Machine Learning Mastery, 25 мая 2016 г., https://machinelearningmastery.com/metrics-evaluate-machine-learning-algorithms-python/.
- Лорберфельд, Одри. Алгоритмы машинного обучения с точки зрения непрофессионала, часть 1. Medium, Towards Data Science, 25 апреля 2019 г., https://towardsdatascience.com/machine-learning-algorithms-in-laymans-terms-part-1-d0368d769a7b.
- Рэй, Сунил. Часто используемые алгоритмы машинного обучения: наука о данных. Analytics Vidhya, 9 сентября 2017 г., https://analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/.
- Реми, Автор: Матильда. Неконтролируемое машинное обучение: методы проверки — Гуавус — иди решительно. Guavus, 27 января 2020 г., https://guavus.com/technical-blog/unsupervised-machine-learning-validation-techniques/.