В моей предыдущей статье я обсуждал некоторые алгоритмы машинного обучения с учителем, такие как K-ближайшие соседи, машины опорных векторов (SVM), деревья решений и нейронные сети.

Сегодня мы обсудим другие алгоритмы машинного обучения с учителем, такие как линейная регрессия, логистическая регрессия и случайные леса.

Линейная регрессия

Представьте, что у вас есть волшебный калькулятор, который может показать ваш результат в тесте в зависимости от того, сколько часов вы учитесь.

Ниже приведено табличное представление того, сколько часов вы учитесь, и соответствующие баллы, которые вы, вероятно, получите.

С помощью линейной регрессии мы можем найти наиболее подходящую линию, например, проведя прямую через переменные. Эта линия показывает нам связь между большим количеством часов и получением более высоких результатов теста.

Итак, если вы скажете своему волшебному калькулятору, что занимались 7 часов, он будет следовать по строке и предскажет, что вы можете набрать около 105 баллов за тест.

Линейная регрессия помогает волшебному калькулятору понять, как изменения одной переменной (учебные часы) связаны с изменениями другой (тестовой оценки).

Линейная регрессия моделирует взаимосвязь между зависимой переменной (также известной как переменная ответа или результата) и одной или несколькими независимыми переменными (также известными как предикторы или независимые переменные).

Логистическая регрессия

Это еще один тип контролируемого алгоритма машинного обучения, который классифицирует новые данные с использованием непрерывных и дискретных наборов данных.

Теперь представьте, что у вас есть волшебная коробка под названием Логистика, которая может помочь вам угадать, правда это или ложь. Итак, допустим, у вас есть большая тарелка с выпечкой, и вы хотите знать, какая из них маффин или кекс.

Во-первых, вы берете выпечку, о которой вы уже знаете, что это кексы, и относите ее к одному классу. Затем вы берете несколько кексов и отправляете их в другой класс. Эти хлебобулочные изделия составляют наш набор данных.

Затем мы измеряем текстуру этих хлебобулочных изделий и помещаем измерения в логистическую коробку. Эта коробка представляет собой сигмовидную функцию, и она смотрит на текстуру выпечки и вычисляет специальное правило, по которому можно отделить маффины от кексов.

После того, как логистическая коробка усвоит это специальное правило, вы можете использовать его, чтобы предсказать, будет ли новая выпечка маффином или кексом. Вы просто показываете логистической коробке текстуру новой выпечки, и она сообщит вам, думает ли она, что это маффин или кекс.

Логистическая регрессия подгоняет логистическую функцию (называемую сигмовидной функцией) к набору данных. Эта сигмовидная функция представляет собой S-образную логистическую функцию, которая предсказывает два максимальных значения (0 или 1).

В бинарной классификации (биномиальная логистическая регрессия) возможные типы – только «0» или «1». Например, это либо электронное письмо является спамом, либо нет, опухоль злокачественная или доброкачественная, или студент сдаст или не сдаст экзамен.

Но у нас также может быть три или более возможных типа, называемых полиномиальной классификацией. Однако для этой классификации мы используем функцию softmax вместо сигмоиды.

Логистическая регрессия является строительным блоком для сложных моделей машинного обучения, и мы можем применять этот алгоритм в медицинской диагностике, обнаружении спама и анализе кредитного риска.

Случайный лес

Представьте, что вам нужно решить сложную головоломку, и вы хотите получить наилучший ответ. К счастью, у вас есть группа друзей, которые действительно хорошо разгадывают головоломки, поэтому вместо того, чтобы спрашивать только одного друга, вы решаете спросить нескольких друзей, а затем объединяете все их ответы, чтобы принять окончательное решение.

Так работает случайный лес. Здесь мы используем опыт решения головоломок многих друзей (деревья решений), чтобы делать более точные прогнозы. Подробнее о деревьях решений можно прочитать здесь.

Как и другие алгоритмы, которые мы обсуждали, это также алгоритм контролирующего машинного обучения, который использует классификацию (сортировку вещей по категориям) и регрессию (предсказание чисел) для построения нескольких деревьев решений для более точных прогнозов.

Возвращаясь к нашему примеру, ваша группа друзей — это деревья решений, у каждого из них есть свой уникальный способ решения головоломки (предсказания). Когда вы хотите сделать прогноз, вы показываете одну и ту же головоломку (данные) каждому из ваших друзей (дерево решений).

Каждый друг даст вам свой ответ (предсказание), основанный на собственном методе решения головоломок. Затем вы голосуете за окончательный ответ. Каждый голос имеет значение, но ответ, набравший наибольшее количество голосов, становится общим прогнозом.

Прелесть Random Forest в том, что команда экспертов работает вместе, чтобы дать вам наилучший возможный ответ, и мы можем использовать этот алгоритм для прогнозирования погодных условий и цен на акции.

Мы подошли к концу алгоритмов машинного обучения с учителем. Далее мы рассмотрим неконтролируемые алгоритмы. Пожалуйста, ставьте лайки, делитесь и подписывайтесь, если статья оказалась вам полезной. Спасибо!

Использованная литература:

https://geeksforgeeks.org/ml-linear-regression/

https://geeksforgeeks.org/understanding-logistic-regression/

https://en.m.wikipedia.org/wiki/Случайный_лес