- Алгоритм контролируемого машинного обучения.
- Используется для регрессии и классификации.
- Получите лучший результат в наборе данных классификации по сравнению с регрессией.
- DT — это древовидный алгоритм, который нам нужен для выбора лучшего корневого узла.
DT-поток
- Корневой узел → Узел ответвления → Узел-лист
- Основная цель - найти листовой узел
Мера выбора основного атрибута DT
- Энтропия.
- Примесь Джини.
- Получение информации
Получение информации
- Это решает, какой атрибут (столбцы) выбрать для корневого узла или узла решения.
- Рассчитайте IG для всех атрибутов, и из этого мы выберем высокое значение IG для корневого узла или узла принятия решения.
- IG = H(S) — (средневзвешенное значение * энтропия каждой меры или атрибута)
- Диапазон от 0 до 1
Энтропия
- Диапазон от 0 до 1.
- Он проверит чистоту node.
- Также мы можем сказать, узнайте примесь узла.
- H(S) или E(S)= — [P(y) *log2(P(y))+P(n)*log2(P(n))]
- Наибольшее значение энтропии равно 1.
- Медленнее, чем примесь Джини
Примесь Джини
- Диапазон от 0 до 0,5
- Быстрее, чем энтропия (по умолчанию используется энтропия Джини)
- Индекс Джини = 1- ∑jPj2
- Атрибут с низким индексом Джини должен быть предпочтительнее, чем атрибут с высоким индексом Джини.
Преимущество
- Используется для классификации, а также регрессии
- Это непараметрический алгоритм (без предположений о данных)
- Масштабирование не требуется
- Простота понимания, реализации и визуализации
- Не чувствителен к выбросам
- Лучше всего подходит для нелинейных данных или нелинейных отношений
Недостаток
- Переобучение: низкое смещение и высокая дисперсия
- Это нестабильно: дает вариации данных обучения и тестирования.
Избегайте переоснащения:
- Случайный лес
- Адабуст
- Обрезка: это поможет нам спилить дерево.