Изучение алгоритмов классификации

Логистическая регрессия, деревья решений и случайные леса.

Классификация в машинном обучении — это метод контролируемого обучения, используемый для определения категориальных переменных. Проще говоря, классификацию можно рассматривать как форму распознавания образов. Вывод модели классификации может быть двоичным (только 2 класса, т. е. 1 или 0) или может иметь несколько классов и меток.

Как вы понимаете, классификация имеет широкий спектр применений; Он используется для прогнозирования коэффициента оттока, что помогает улучшить маркетинговые кампании, он также используется для прогнозирования коэффициента конверсии клиентов (покупают или нет), в здравоохранении он используется для прогнозирования того, является ли рак доброкачественным или злокачественным, и чаще всего это рак. используется для прогнозирования того, является ли электронное письмо спамом или нет.

Классификация в ML использует широкий спектр алгоритмов для классификации наборов данных по категориям, таким как логистическая регрессия, деревья решений, K-ближайшие соседи, случайные леса и машины опорных векторов и т. д. Давайте рассмотрим некоторые из этих методов.

Также важно отметить, что для классификации мы можем начать с использования нашей модели линейной регрессии, чтобы предсказать значение вывода с учетом входного значения, а затем найти способ его категоризировать.

Логистическая регрессия

Это, вероятно, наиболее широко используемый алгоритм классификации. Логистическая регрессия используется для прогнозирования вероятности целевого результата, который является бинарным, т. е. когда результат равен 1 или 0, да или нет, правда или ложь, вы можете его использовать.

Если оценочная вероятность больше 0,5, модель предсказывает, что выход принадлежит к положительному классу (обозначается «1», «Истина», «да»), но когда он ниже, модель предсказывает, что он принадлежит к отрицательному классу ( с пометкой «0», «ложь», «нет»).

Модель логистической регрессии вычисляет взвешенную сумму входных признаков плюс смещение, как и в линейной регрессии, но вместо этого выводит логистику этого результата.

Можно задаться вопросом: как достигается эта логистическая функция?

Эта логистическая функция представляет собой сигмоидальную функцию (т. е. S-образную), которая выводит число от 0 до 1, используя диапазон стандартизированных выходных значений, которые вы могли получить в результате линейной регрессии. Это показано на рисунке ниже.

В случае одного признака z является скалярным.
В случае нескольких функций z будет вектором, содержащим n значений.

Логистическую регрессию гораздо проще реализовать, чем другие алгоритмы, и она хорошо работает с линейно разделимыми наборами данных, но у нее есть и некоторые недостатки. Он предполагает эту линейность, а на самом деле это не всегда так. Во-вторых, он не дает точных прогнозов, когда размер выборки набора данных слишком мал, поскольку это часто приводит к переоснащению.

Деревья решений

Этот алгоритм классификации делит точки данных на похожие группы одновременно, начиная с «корневого узла», он разветвляется на «узел решения», а затем на «листовой узел», пока они не станут более тесно связаны друг с другом.

Сейчас самое время познакомиться с общей терминологией, связанной с деревьями решений;

Корневой узел. Он может представлять собой полный набор данных или его небольшую часть.
Узел принятия решения: подузел, который далее делится на подузлы.
Конечный узел: подузел, который больше нельзя разделить.
Сокращение: процесс удаления частей дерева решений, которые не могут быть классифицированы.
Поддерево: подраздел всего Дерева решений.
Разделение: процесс разделения узла на два или более подузла.

Деревья решений существовали задолго до машинного обучения. Это мощная модель, способная находить сложные нелинейные отношения в данных, и она может выполнять как задачи классификации, так и регрессии, т. Е. Она может создавать как непрерывные, так и категориальные значения.

Одним из многих свойств деревьев решений является то, что для них требуется очень небольшая подготовка данных, поскольку они очень чувствительны к небольшим изменениям в обучающих данных. Во избежание переобучения обучающих данных свобода дерева решений должна быть ограничена во время обучения. Это называется регуляризацией. В качестве альтернативы, если он не соответствует обучающим данным, рекомендуется попробовать масштабировать входные функции.

Случайные леса

Случайные леса работают, обучая множество деревьев решений на случайных наборах функций и усредняя их прогнозы.

Оказывается, если вы агрегируете прогнозы группы предикторов (ансамбля), таких как классификаторы или регрессоры, вы часто будете получать более точные прогнозы, чем с лучшим индивидуальным предиктором. Это называется Обучение ансамблем.

Random Forests использует метод Ensemble, называемый бэггинг. По сути, бэггинг включает в себя обучение нескольких предикторов на разных случайных выборках обучающей выборки.

Также полезно использовать этот алгоритм, потому что он гибкий, т. е. может решать задачи как классификации, так и регрессии, снижает риск переобучения и позволяет легко оценить важность переменных для модели.

С другой стороны, это занимает много времени, требует больше ресурсов для хранения обычно большого набора данных и является более сложным по сравнению с другими алгоритмами.

В большинстве проектов машинного обучения рекомендуется использовать методы Ensemble после создания нескольких хороших предикторов, чтобы объединить их в еще лучший предиктор.

Я пишу о различных темах машинного обучения и о том, как они применяются в нашей повседневной жизни. Эти темы охватывают как вводные, так и более сложные понятия, такие как глубокое обучение, так что следите за обновлениями.

Независимо от того, являетесь ли вы новичком, желающим узнать о машинном обучении, или опытным специалистом по данным, стремящимся быть в курсе последних событий, я надеюсь, что вы найдете здесь что-то интересное. Ваши комментарии и мнения приветствуются, поскольку в конечном итоге мы учимся друг у друга.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning