Дерево решений — алгоритм революции

Первый уровень древовидного подхода. Это также дерево классификации и регрессии (CART).

Давайте начнем с мысленного эксперимента, чтобы немного мотивировать, почему мы будем использовать метод дерева решений.

Представьте себе сценарий, что я играю в теннис каждую субботу и всегда приглашаю друга пойти со мной. Иногда появляется мой друг, иногда нет. Для него это зависит от множества факторов, таких как: погода, температура, влажность, ветер и т. д. Я начинаю следить за новыми функциями и за тем, появился ли он, чтобы поиграть со мной.

Вот данные, каждый из столбцов представляет функции, а каждая из строк представляет определенный день. В последнем столбце указано, пришел ли мой друг поиграть со мной. Вы можете видеть, что в первый день была умеренная температура, солнечная погода, влажность 80%, без ветра, и мой друг вышел поиграть.

Однако на 2-й день было жарко, погода солнечная, влажность 75%, дул ветер, и мой друг не пришел играть. С помощью этого процесса я могу построить дерево решений, которое помогает предсказать, появится ли он в игре, с учетом нескольких факторов. Интуитивный способ сделать это — использовать дерево решений.

Как правило, у нас есть терминология в Дереве решений. В приведенном выше дереве мы имеем

→ Корневой узел: узел, выполняющий первое разделение.

→ Узлы решений:промежуточные узлы, которые разделяются по значению определенных атрибутов.

→ Листья:конечные узлы, которые предсказывают результат.

Вы можете подумать, как происходят эти расщепления? Вот где прирост информации (энтропия) или индекс Джини играет важную роль в разделении узлов. Это математические методы выбора наилучшего разделения.

Во-первых, позвольте мне рассказать об Энтропии, чтобы понять прирост информации.

Энтропия – это мера неопределенности или примеси. Он измеряет чистоту раскола. На приведенном ниже рисунке мы можем понять, что низкая энтропия означает низкое смешивание переменных, тогда как высокая энтропия означает сильное смешивание переменных.

Существует два шага для расчета прироста информации для каждого атрибута:

→ Рассчитать энтропию цели.

→ Рассчитайте энтропию каждого атрибута.

Чтобы проиллюстрировать, как работает получение информации, позвольте мне взять в качестве примера приведенный выше набор данных. Сначала нам нужно рассчитать энтропию мишени, и она рассчитывается следующим образом.

Затем нам нужно рассчитать энтропию атрибутов. Чтобы вычислить энтропию атрибутов, нам нужно создать таблицу частот для атрибутов.

Затем вычислите энтропию каждого атрибута.

Точно так же информационный прирост рассчитывается для каждого атрибута.

Из приведенного выше расчетного изображения прироста информации мы можем прийти к выводу, что функция Outlook имеет высокое значение I.G, что означает, что она имеет высокую чистоту меток или меньшее количество целевых меток, так что мы можем создать корневой узел дерева с Outlook.

Давайте повторим тот же процесс, за исключением Outlook.

Из приведенной выше таблицы мы можем сказать, что нет смеси меток, если сценарий пасмурный, человек приходит играть, поэтому мы можем сразу построить узел решения с этим.

На следующем шаге мы можем рассчитать прирост информации для функции прогноза «солнечный».

Исходя из приведенного выше расчета, функция Windy имеет самое высокое значение IG, поэтому мы можем построить дерево решений с этой переменной.

Далее нам нужно найти узел решения, если прогноз ненастный.

Влажность имеет самое высокое значение информационного усиления. Функция влажности используется в качестве узла принятия решения для следующего построения дерева.

Глядя на окончательную структуру дерева решений, мы можем легко предсказать окончательный результат различных сценариев.

Индекс Джини используется как метод по умолчанию для построения дерева решений.

Шаги для построения дерева с использованием метода Индекса Джини такие же, как и для энтропии. Поскольку мы берем сумму квадратов вероятности для каждой категории класса, а не логарифмическое значение, скорость вычислений выше, чем у метода энтропии.

Для непрерывных значений наилучшее разделение рассчитывается методом Уменьшение стандартного отклонения (SDR).

Это то же самое, что и энтропийный подход, тогда как стандартное отклонение значений рассчитывается вместо энтропии.

Преимущества:

Дерево решений очень легко реализовать и легко понять.
Деревья могут легко обрабатывать и инициировать предсказания.

Недостатки:

Деревья обычно не имеют такого же уровня точности прогнозирования, как любой другой подход регрессии и классификации.
Это часто приводит к переоснащению, что означает, что дерево дает хороший результат для обучающих данных и плохие результаты для тестовых данных.

Вывод:

Дерево решений — это очень старая концепция и основа для модернизированных моделей, таких как случайный лес, методы бустинга. Чтобы понять все эти алгоритмы, нам нужно понять метод работы дерева решений.
Надеюсь, вы получили общее представление о том, как работает дерево решений. Спасибо за прочтение статьи.
Обратитесь к этой ссылке для реализации дерева решений в Python.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning