1. Алгоритм контролируемого машинного обучения.
  2. Используется для регрессии и классификации.
  3. Получите лучший результат в наборе данных классификации по сравнению с регрессией.
  4. DT — это древовидный алгоритм, который нам нужен для выбора лучшего корневого узла.

DT-поток

  1. Корневой узел → Узел ответвления → Узел-лист
  2. Основная цель - найти листовой узел

Мера выбора основного атрибута DT

  1. Энтропия.
  2. Примесь Джини.
  3. Получение информации

Получение информации

  1. Это решает, какой атрибут (столбцы) выбрать для корневого узла или узла решения.
  2. Рассчитайте IG для всех атрибутов, и из этого мы выберем высокое значение IG для корневого узла или узла принятия решения.
  3. IG = H(S) — (средневзвешенное значение * энтропия каждой меры или атрибута)
  4. Диапазон от 0 до 1

Энтропия

  1. Диапазон от 0 до 1.
  2. Он проверит чистоту node.
  3. Также мы можем сказать, узнайте примесь узла.
  4. H(S) или E(S)= — [P(y) *log2(P(y))+P(n)*log2(P(n))]
  5. Наибольшее значение энтропии равно 1.
  6. Медленнее, чем примесь Джини

Примесь Джини

  1. Диапазон от 0 до 0,5
  2. Быстрее, чем энтропия (по умолчанию используется энтропия Джини)
  3. Индекс Джини = 1- ∑jPj2
  4. Атрибут с низким индексом Джини должен быть предпочтительнее, чем атрибут с высоким индексом Джини.

Преимущество

  1. Используется для классификации, а также регрессии
  2. Это непараметрический алгоритм (без предположений о данных)
  3. Масштабирование не требуется
  4. Простота понимания, реализации и визуализации
  5. Не чувствителен к выбросам
  6. Лучше всего подходит для нелинейных данных или нелинейных отношений

Недостаток

  1. Переобучение: низкое смещение и высокая дисперсия
  2. Это нестабильно: дает вариации данных обучения и тестирования.

Избегайте переоснащения:

  1. Случайный лес
  2. Адабуст
  3. Обрезка: это поможет нам спилить дерево.