Логистическая регрессия: -

Q1)отношение ч/б категориальный и числовой-›блочный график, скрипичный график, вискербоксплот
Ans)sns.boxplot()
Q)реальность статистически значима или нет

Ans)z_test
Q1)отношение ч/б 2 числовых

Ans) scatterplot/scatter reg plot
sns.lmplot(x='баланс', y='доход', hue='default', data=cred_df)

Q3) проанализировать взаимосвязь ч/б 2categorical
Ans) crosstab/pivot_table

pd.crosstab()

z_score таким образом, как это было в z_test

linreg.coef_ =›y=mx+c(коэффициент-›m)
linreg.intercept_ =›c(наклон линии)

logreg.coef_
logreg.intercept_

разница между ч/б предсказанием и предсказанием_вероятности

Predict_proba:-вероятность каждой записи класса 1 и класса 2/это дает вероятность
y_pred = logreg.predict_proba(x)
прогноз:- 0 или 1 зависит от порога по умолчанию 0,5
y_pred = logreg.predict(x)

объявление пользовательского порога:-
если y_pred›0,7, то 1, иначе 0

изменить пороговое значение по умолчанию:-(сигмоидальная функция)
plt.scatter(x.values,y_pred[:,1],color='green')
plt.scatter(x .values,Y)
plt.xlabel('баланс')
plt.ylabel('prob_of_default')
plt.title("x Input VS Y_pred")

#Visualize this

y_pred=logreg.predict_proba(X)
plt.scatter(X.values,y_pred[:,1],color='green')
plt.scatter(X.values,Y)

plt.xlabel('balance')
plt.ylabel('Prob of default')
plt.title('X input vs y_pred')

Гиперпараметр ’c’ иего важность в логистической регрессии:
если c имеет высокое значение, модель сообщает, что тренировочным данным следует придать больший вес.

Высокое значение C говорит модели о том, что тренировочным данным следует придавать больший вес.

Более низкое значение C будет указывать на то, что модели придают больше веса сложности за счет подгонки данных. Таким образом, высокое значение гиперпараметра C указывает на то, что данные обучения более важны и отражают данные реального мира.

в то время как низкое значение как раз противоположно этому.

Многоклассовая клафификация: мы можем использовать multi_class=’auto’(гиперпараметр)

Дерево решений: -

Что такое дерево решений?
оно также известно CART, нелинейные данные могут быть обработаны деревом решений, и это не влияет на производительность дерева решений
нелинейное сопоставление отправляет ч/б целевые и функциональные столбцы-›не делает не влияет на производительность

В дереве решений есть встроенный метод выбора характеристик, с помощью которого вы можете понять, какая важная функция / какие функции не важны для вашего дерева решений: может обрабатывать числовые и категориальные данные, классификация и регрессия.

неоднородность (разные) в данных, называемая примесью

Цель дерева решений используется для удаления/уменьшения примесей

DT используется как мера энтропии через примесь в данных.

В) каков принцип работы DT?

Допустим, ваши данные не являются линейно разделимыми, поэтому мы использовали DT

- - - - - - - - - - Продолжать - - - - - - - - - - - - - - - - -

- - - - - - - - - - Продолжать - - - - - - - - - - - - - - - - -