Модели деревьев решений с использованием Python — Сборка, визуализация, оценка

Руководство и пример от MITx Analytics Edge с использованием Python

Деревья классификации и регрессии (CART) можно преобразовать в график или набор правил для прогностической классификации. Они помогают, когда модели логистической регрессии не могут предоставить достаточные границы решений для прогнозирования метки. Кроме того, модели дерева решений более интерпретируемы, поскольку они имитируют процесс принятия решений человеком. Кроме того, регрессия дерева решений может фиксировать нелинейные отношения, что позволяет использовать более сложные модели.

Как работают модели CART?

Рассмотрим случай двух независимых переменных X1 и X2. Мы хотим предсказать, будет ли результат красным или синим. CART пытается разбить эти данные на подмножества, чтобы каждое подмножество было как можно более чистым или однородным.

Первое разбиение (split1) разбивает данные таким образом, что если переменная X2 меньше 60, результат будет выделен синим цветом, а если нет, то будет просмотрено второе разбиение (split2). Split2 позволяет прогнозировать красный цвет, когда X1›20 с учетом X2‹60. Split3 будет предсказывать синий, если X2‹90, и красный в противном случае.

Как контролировать производительность модели?

После того, как вы выберете переменные для рассмотрения в модели с помощью знания дисциплины или процесса выбора функций, вам нужно будет определить оптимальное количество разбиений.

цель разделения состоит в том, чтобы увеличить однородность результата от каждого узла. Увеличьте его способность классифицировать данные. Другими словами, повышайте чистоту после каждого разделения. Если мы предсказываем синий и красный, выберите количество расщеплений, которое дает все синие и все красные, если это возможно. Выберите количество сплитов, которые дадут чистые результаты.

Чистый узел — это тот, который дает идеальное предсказание.

Но как количественно оценить чистоту после разделения, чтобы убедиться, что у нас есть как можно больше чистых узлов.

Мы стремимся уменьшить неопределенность после каждого разделения. Плохое разделение сделает результат 50% синим и 50% красным. идеальное разделение даст, например, 100% синий цвет.

Чтобы измерить, как ведет себя расщепление с точки зрения увеличения информации после расщепления, мы можем полагаться на следующие меры:

1 — Энтропия[entropy = -1*sum(p*log(p)) ]

2 — примесь Джини [Gini = sum(p(1-p)), where p is the proportion of misclassified observation within the sub partition]

Пример: Прогнозирование решения судьи Стивенса

Цель состоит в том, чтобы предсказать, проголосовал ли судья Стивен за отмену решения суда, где 1 означает, что он проголосовал за отмену решения, а 0 означает, что он подтвердил решение суда.

Код и данные доступны на GitHub.

Фрейм данных выглядит, как показано ниже, с целевой переменной (Reverse).

Важное примечание. Дерево решений (DT) может обрабатывать как непрерывные, так и числовые переменные. Но если вы используете Python Scikit Learn, вы можете получить ValueError для категориального.

Функции имеют много категориальных значений, которые мы преобразуем в числовые значения с помощью функции ниже:

def convert_cat(df,col):
    """
    input: dataframe and col list of categorical columns
    output: dataframw with numerical values
    """
    for c in col:
        item_list = df[c].unique().tolist()
        enum=enumerate(item_list)
        d = dict((j,i) for i,j in enum)
        print(c)
        print(d)
        
        df[c].replace(d, inplace=True)
    return df
convert_cat(df,['Circuit', 'Issue', 'Petitioner', 'Respondent',
       'LowerCourt'])

Разделите данные на обучение и тестирование

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

Построить модель дерева решений на обучающих данных

clf = tree.DecisionTreeClassifier('gini', min_samples_leaf=30, random_state=0)
clf = clf.fit(X_train, y_train)

Постройте модель дерева решений

from sklearn import tree # for decision tree models
plt.figure(figsize = (20,16))
tree.plot_tree(clf, fontsize = 16,rounded = True , filled = True);

Используйте отчет о классификации для оценки модели.

report = classification_report(predTree, y_test)
print(report)

Рекомендации

Курс аналитики MITx на edX

Деревья классификации и регрессии для машинного обучения — мастерство машинного обучения
Деревья решений — это важный тип алгоритма для прогнозного моделирования машинного обучения. Классическое дерево решений…machinelearningmastery.com

Логистическая регрессия против деревьев решений
Вопрос о том, какой тип модели применить к задаче машинного обучения, может быть сложным, учитывая огромное количество… блогов. bigml.ru

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning