Машинное обучение: основы выбора модели

Давайте будем ясны. Я специалист по данным с ~ 2 месяцами опыта работы с python, библиотеками python, статистикой, алгеброй, блокнотом jupyter и другими инструментами программирования. Влюбиться в путешествие становления.

Чего ожидать от этого блога?

В настоящее время я изучаю, как построить прогностическую модель и проверить ее. В этом блоге я расскажу об основных этапах процесса машинного обучения.

Содержание:

Этапы науки о данных и мое знакомство с концепцией
Столкновение с эмоциями
Что такое машинное обучение?
Типы машинного обучения
Метрики для оценки алгоритмов машинного обучения с использованием Python
Выбор алгоритма машинного обучения!
Шпаргалка: алгоритмы машинного обучения (Python и код R)
Об авторе и где меня найти!

Этапы науки о данных и мое знакомство с концепцией:

Определить бизнес-проблему (знакомо с)
Сбор данных (знание)
Очистка данных (знакомо с)
Анализ данных (знания)
Прогнозный анализ (СЕЙЧАС УЧИТСЯ)
Проверка модели (ДАЛЕЕ)
Развертывание (СКОРО)

Столкновение с эмоциями!

Легко растеряться, если знаешь, что единственный способ попасть в квартиру на 12-м этаже — это… подняться по лестнице, если лифт не работает. Идея быть подавленным зависит от человека. Когда дело доходит до определенной задачи, кому-то она может нравиться, а кому-то — ненавидеть. Эмоции преходящи. Прямо сейчас я определенно перегружен изучением кода Python, терминологией и статистикой, связанной с машинным обучением. ПОЧЕМУ я перегружен? Я считаю, что это потому, что в настоящий момент это ново и неизвестно для меня, и к концу написания этого блога я буду на шаг ближе к тому, чтобы стать специалистом по данным.

Что такое машинное обучение?

Как видите, машинное обучение связано с математикой/статистикой и информатикой. Проще говоря, машинное обучение обучает машину, вводя данные, помеченные или не помеченные, чтобы предсказать результат, и машина со временем приобретет знания по теме.

(Хотите, чтобы кто-то из ваших знакомых понял больше о машинном обучении? Посмотрите это видео выше.)

Типы машинного обучения

«Обучение с учителем». Этот алгоритм включает в себя переменную цели/результата (зависимую переменную), которая должна быть предсказана на основе заданного набора предикторов (независимых переменных). Используя этот набор переменных, можно сгенерировать функцию для сопоставления входных данных с желаемыми выходными данными. Процесс обучения продолжается до тех пор, пока модель не достигнет желаемого уровня точности обучающих данных.Примеры контролируемого обучения:регрессия, дерево решений,случайный лес, KNN, логистическая регрессия и т. д. .

Неконтролируемое обучение. В этом алгоритме нет целевых или конечных переменных для прогнозирования/оценки. Кроме того, этот алгоритм используется для кластеризации населения в разные группы, что широко используется для сегментации клиентов в разные группы для конкретного вмешательства. Примеры обучения без учителя: априорный алгоритм, K-средних.

Обучение с подкреплением. С помощью этого алгоритма машина обучается принимать конкретные решения. Это работает следующим образом: машина подвергается воздействию окружающей среды, в которой она постоянно тренируется методом проб и ошибок. Эта машина учится на прошлом опыте и старается максимально использовать знания для принятия точных бизнес-решений. Пример обучения с подкреплением: Марковский процесс принятия решений»

(Источник ниже, Analytics Vidhya)

Метрики для оценки алгоритмов машинного обучения с использованием Python

Прежде чем мы перейдем к рассмотрению процесса выбора алгоритма, важно отметить, что цель наших метрик после создания нашей модели состоит в том, чтобы оценить, является ли модель «хорошей» моделью для использования по сравнению с другими, которые вы можете использовать. использовать.

Метрики классификации:

Точность классификации

Потеря журнала

Площадь под кривой ROC

Матрица путаницы (метод для результатов прогнозирования классификации)

Отчет о классификации (метод результатов прогнозирования классификации)

Показатели регрессии

Средняя абсолютная ошибка

Среднеквадратическая ошибка

R²

Проверка результатов для кластеризации

Внутренняя проверка, основанная на следующих показателях: связность с каждым кластером и разделение между разными кластерами.

Внешняя проверка

(Для получения дополнительной информации о проверке кластеризации, метриках и т. д. см. мой источник)

Выбор алгоритма машинного обучения!

Вот что я думаю о процессе:

Подумайте о проблеме и о том, что вы хотите предсказать (вы хотите предсказать число, классифицировать что-то и т. д.)
Импорт пакетов Python
Выберите свою первую модель. Типы алгоритмов: обучение с учителем, обучение без учителя и обучение с подкреплением.
Разделите данные: протестируйте и обучите (Разделите 1-е, чтобы избежать утечки данных)
Данные шкалы (ТОЛЬКО значения x)
Перекрестная проверка
Соответствуйте вашей модели (здесь происходит регуляризация):
Предсказывать
Проверьте метрики и оцените (метрики для оценки производительности различаются для каждого типа модели)
(Необязательно) Сравните свою модель, запустив другой алгоритм с тем же типом машинного обучения, и выполните шаги, описанные выше, чтобы сравнить оценку. Вы можете настроить гиперпараметры и повторять тот же процесс, пока мы не достигнем желаемой производительности. Ваш окончательный выбор модели будет зависеть от оптимальных показателей оценки для выбранной модели и проблемы.

Источник: включает алгоритмы линейной регрессии, логистической регрессии, дерева решений, CWM (машина опорных векторов), наивного байесовского алгоритма, kNN (k-ближайших соседей), k-средних, случайного леса, алгоритмов уменьшения размерности, повышения градиента. , Усиление градиента и AdaBoost

Спасибо за чтение!

Если вам понравился этот пост или вы просто смогли прокрутить его до этого места, нажмите кнопку хлопка (10+ раз). Если у вас есть какие-либо ресурсы, чтобы помочь в моем путешествии, пожалуйста, пришлите их мне!

об авторе

Я Иеремия. В настоящее время я изучаю науку о данных в тренировочном лагере на полную ставку, кофеголик, энтузиаст тренажерного зала и т. д.!

Где меня найти:

LinkedIn: свяжитесь со мной!
Instagram: фитнес, психическое здоровье, мотивация, еда и т. д.
Средний: Другие мои работы!

Источники:

- Картэ. Часто используемые алгоритмы машинного обучения: наука о данных. Analytics Vidhya, 14 сентября 2015 г., https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/.
Браунли, Джейсон. Метрики для оценки алгоритмов машинного обучения в Python. Machine Learning Mastery, 25 мая 2016 г., https://machinelearningmastery.com/metrics-evaluate-machine-learning-algorithms-python/.
Лорберфельд, Одри. Алгоритмы машинного обучения с точки зрения непрофессионала, часть 1. Medium, Towards Data Science, 25 апреля 2019 г., https://towardsdatascience.com/machine-learning-algorithms-in-laymans-terms-part-1-d0368d769a7b.
Рэй, Сунил. Часто используемые алгоритмы машинного обучения: наука о данных. Analytics Vidhya, 9 сентября 2017 г., https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/.
Реми, Автор: Матильда. Неконтролируемое машинное обучение: методы проверки — Гуавус — иди решительно. Guavus, 27 января 2020 г., https://www.guavus.com/technical-blog/unsupervised-machine-learning-validation-techniques/.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning