Логистическая регрессия, деревья решений и случайные леса.
Классификация в машинном обучении — это метод контролируемого обучения, используемый для определения категориальных переменных. Проще говоря, классификацию можно рассматривать как форму распознавания образов. Вывод модели классификации может быть двоичным (только 2 класса, т. е. 1 или 0) или может иметь несколько классов и меток.
Как вы понимаете, классификация имеет широкий спектр применений; Он используется для прогнозирования коэффициента оттока, что помогает улучшить маркетинговые кампании, он также используется для прогнозирования коэффициента конверсии клиентов (покупают или нет), в здравоохранении он используется для прогнозирования того, является ли рак доброкачественным или злокачественным, и чаще всего это рак. используется для прогнозирования того, является ли электронное письмо спамом или нет.
Классификация в ML использует широкий спектр алгоритмов для классификации наборов данных по категориям, таким как логистическая регрессия, деревья решений, K-ближайшие соседи, случайные леса и машины опорных векторов и т. д. Давайте рассмотрим некоторые из этих методов.
Также важно отметить, что для классификации мы можем начать с использования нашей модели линейной регрессии, чтобы предсказать значение вывода с учетом входного значения, а затем найти способ его категоризировать.
Логистическая регрессия
Это, вероятно, наиболее широко используемый алгоритм классификации. Логистическая регрессия используется для прогнозирования вероятности целевого результата, который является бинарным, т. е. когда результат равен 1 или 0, да или нет, правда или ложь, вы можете его использовать.
Если оценочная вероятность больше 0,5, модель предсказывает, что выход принадлежит к положительному классу (обозначается «1», «Истина», «да»), но когда он ниже, модель предсказывает, что он принадлежит к отрицательному классу ( с пометкой «0», «ложь», «нет»).
Модель логистической регрессии вычисляет взвешенную сумму входных признаков плюс смещение, как и в линейной регрессии, но вместо этого выводит логистику этого результата.
Можно задаться вопросом: как достигается эта логистическая функция?
Эта логистическая функция представляет собой сигмоидальную функцию (т. е. S-образную), которая выводит число от 0 до 1, используя диапазон стандартизированных выходных значений, которые вы могли получить в результате линейной регрессии. Это показано на рисунке ниже.
- В случае одного признака z является скалярным.
- В случае нескольких функций z будет вектором, содержащим n значений.
Логистическую регрессию гораздо проще реализовать, чем другие алгоритмы, и она хорошо работает с линейно разделимыми наборами данных, но у нее есть и некоторые недостатки. Он предполагает эту линейность, а на самом деле это не всегда так. Во-вторых, он не дает точных прогнозов, когда размер выборки набора данных слишком мал, поскольку это часто приводит к переоснащению.
Деревья решений
Этот алгоритм классификации делит точки данных на похожие группы одновременно, начиная с «корневого узла», он разветвляется на «узел решения», а затем на «листовой узел», пока они не станут более тесно связаны друг с другом.
Сейчас самое время познакомиться с общей терминологией, связанной с деревьями решений;
- Корневой узел. Он может представлять собой полный набор данных или его небольшую часть.
- Узел принятия решения: подузел, который далее делится на подузлы.
- Конечный узел: подузел, который больше нельзя разделить.
- Сокращение: процесс удаления частей дерева решений, которые не могут быть классифицированы.
- Поддерево: подраздел всего Дерева решений.
- Разделение: процесс разделения узла на два или более подузла.
Деревья решений существовали задолго до машинного обучения. Это мощная модель, способная находить сложные нелинейные отношения в данных, и она может выполнять как задачи классификации, так и регрессии, т. Е. Она может создавать как непрерывные, так и категориальные значения.
Одним из многих свойств деревьев решений является то, что для них требуется очень небольшая подготовка данных, поскольку они очень чувствительны к небольшим изменениям в обучающих данных. Во избежание переобучения обучающих данных свобода дерева решений должна быть ограничена во время обучения. Это называется регуляризацией. В качестве альтернативы, если он не соответствует обучающим данным, рекомендуется попробовать масштабировать входные функции.
Случайные леса
Случайные леса работают, обучая множество деревьев решений на случайных наборах функций и усредняя их прогнозы.
Оказывается, если вы агрегируете прогнозы группы предикторов (ансамбля), таких как классификаторы или регрессоры, вы часто будете получать более точные прогнозы, чем с лучшим индивидуальным предиктором. Это называется Обучение ансамблем.
Random Forests использует метод Ensemble, называемый бэггинг. По сути, бэггинг включает в себя обучение нескольких предикторов на разных случайных выборках обучающей выборки.
Также полезно использовать этот алгоритм, потому что он гибкий, т. е. может решать задачи как классификации, так и регрессии, снижает риск переобучения и позволяет легко оценить важность переменных для модели.
С другой стороны, это занимает много времени, требует больше ресурсов для хранения обычно большого набора данных и является более сложным по сравнению с другими алгоритмами.
В большинстве проектов машинного обучения рекомендуется использовать методы Ensemble после создания нескольких хороших предикторов, чтобы объединить их в еще лучший предиктор.
Я пишу о различных темах машинного обучения и о том, как они применяются в нашей повседневной жизни. Эти темы охватывают как вводные, так и более сложные понятия, такие как глубокое обучение, так что следите за обновлениями.
Независимо от того, являетесь ли вы новичком, желающим узнать о машинном обучении, или опытным специалистом по данным, стремящимся быть в курсе последних событий, я надеюсь, что вы найдете здесь что-то интересное. Ваши комментарии и мнения приветствуются, поскольку в конечном итоге мы учимся друг у друга.