Вводное руководство по алгоритмам машинного обучения: часть 2

В моей предыдущей статье я обсуждал некоторые алгоритмы машинного обучения с учителем, такие как K-ближайшие соседи, машины опорных векторов (SVM), деревья решений и нейронные сети.

Сегодня мы обсудим другие алгоритмы машинного обучения с учителем, такие как линейная регрессия, логистическая регрессия и случайные леса.

Линейная регрессия

Представьте, что у вас есть волшебный калькулятор, который может показать ваш результат в тесте в зависимости от того, сколько часов вы учитесь.

Ниже приведено табличное представление того, сколько часов вы учитесь, и соответствующие баллы, которые вы, вероятно, получите.

С помощью линейной регрессии мы можем найти наиболее подходящую линию, например, проведя прямую через переменные. Эта линия показывает нам связь между большим количеством часов и получением более высоких результатов теста.

Итак, если вы скажете своему волшебному калькулятору, что занимались 7 часов, он будет следовать по строке и предскажет, что вы можете набрать около 105 баллов за тест.

Линейная регрессия помогает волшебному калькулятору понять, как изменения одной переменной (учебные часы) связаны с изменениями другой (тестовой оценки).

Линейная регрессия моделирует взаимосвязь между зависимой переменной (также известной как переменная ответа или результата) и одной или несколькими независимыми переменными (также известными как предикторы или независимые переменные).

Логистическая регрессия

Это еще один тип контролируемого алгоритма машинного обучения, который классифицирует новые данные с использованием непрерывных и дискретных наборов данных.

Теперь представьте, что у вас есть волшебная коробка под названием Логистика, которая может помочь вам угадать, правда это или ложь. Итак, допустим, у вас есть большая тарелка с выпечкой, и вы хотите знать, какая из них маффин или кекс.

Во-первых, вы берете выпечку, о которой вы уже знаете, что это кексы, и относите ее к одному классу. Затем вы берете несколько кексов и отправляете их в другой класс. Эти хлебобулочные изделия составляют наш набор данных.

Затем мы измеряем текстуру этих хлебобулочных изделий и помещаем измерения в логистическую коробку. Эта коробка представляет собой сигмовидную функцию, и она смотрит на текстуру выпечки и вычисляет специальное правило, по которому можно отделить маффины от кексов.

После того, как логистическая коробка усвоит это специальное правило, вы можете использовать его, чтобы предсказать, будет ли новая выпечка маффином или кексом. Вы просто показываете логистической коробке текстуру новой выпечки, и она сообщит вам, думает ли она, что это маффин или кекс.

Логистическая регрессия подгоняет логистическую функцию (называемую сигмовидной функцией) к набору данных. Эта сигмовидная функция представляет собой S-образную логистическую функцию, которая предсказывает два максимальных значения (0 или 1).

В бинарной классификации (биномиальная логистическая регрессия) возможные типы – только «0» или «1». Например, это либо электронное письмо является спамом, либо нет, опухоль злокачественная или доброкачественная, или студент сдаст или не сдаст экзамен.

Но у нас также может быть три или более возможных типа, называемых полиномиальной классификацией. Однако для этой классификации мы используем функцию softmax вместо сигмоиды.

Логистическая регрессия является строительным блоком для сложных моделей машинного обучения, и мы можем применять этот алгоритм в медицинской диагностике, обнаружении спама и анализе кредитного риска.

Случайный лес

Представьте, что вам нужно решить сложную головоломку, и вы хотите получить наилучший ответ. К счастью, у вас есть группа друзей, которые действительно хорошо разгадывают головоломки, поэтому вместо того, чтобы спрашивать только одного друга, вы решаете спросить нескольких друзей, а затем объединяете все их ответы, чтобы принять окончательное решение.

Так работает случайный лес. Здесь мы используем опыт решения головоломок многих друзей (деревья решений), чтобы делать более точные прогнозы. Подробнее о деревьях решений можно прочитать здесь.

Как и другие алгоритмы, которые мы обсуждали, это также алгоритм контролирующего машинного обучения, который использует классификацию (сортировку вещей по категориям) и регрессию (предсказание чисел) для построения нескольких деревьев решений для более точных прогнозов.

Возвращаясь к нашему примеру, ваша группа друзей — это деревья решений, у каждого из них есть свой уникальный способ решения головоломки (предсказания). Когда вы хотите сделать прогноз, вы показываете одну и ту же головоломку (данные) каждому из ваших друзей (дерево решений).

Каждый друг даст вам свой ответ (предсказание), основанный на собственном методе решения головоломок. Затем вы голосуете за окончательный ответ. Каждый голос имеет значение, но ответ, набравший наибольшее количество голосов, становится общим прогнозом.

Прелесть Random Forest в том, что команда экспертов работает вместе, чтобы дать вам наилучший возможный ответ, и мы можем использовать этот алгоритм для прогнозирования погодных условий и цен на акции.

Мы подошли к концу алгоритмов машинного обучения с учителем. Далее мы рассмотрим неконтролируемые алгоритмы. Пожалуйста, ставьте лайки, делитесь и подписывайтесь, если статья оказалась вам полезной. Спасибо!

Использованная литература:

https://www.geeksforgeeks.org/ml-linear-regression/

https://www.geeksforgeeks.org/understanding-logistic-regression/

https://en.m.wikipedia.org/wiki/Случайный_лес

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning