Логистическая регрессия: -
Q1)отношение ч/б категориальный и числовой-›блочный график, скрипичный график, вискербоксплот
Ans)sns.boxplot()
Q)реальность статистически значима или нет
Ans)z_test
Q1)отношение ч/б 2 числовых
Ans) scatterplot/scatter reg plot
sns.lmplot(x='баланс', y='доход', hue='default', data=cred_df)
Q3) проанализировать взаимосвязь ч/б 2categorical
Ans) crosstab/pivot_table
pd.crosstab()
z_score таким образом, как это было в z_test
linreg.coef_ =›y=mx+c(коэффициент-›m)
linreg.intercept_ =›c(наклон линии)
logreg.coef_
logreg.intercept_
разница между ч/б предсказанием и предсказанием_вероятности
Predict_proba:-вероятность каждой записи класса 1 и класса 2/это дает вероятность
y_pred = logreg.predict_proba(x)
прогноз:- 0 или 1 зависит от порога по умолчанию 0,5
y_pred = logreg.predict(x)
объявление пользовательского порога:-
если y_pred›0,7, то 1, иначе 0
изменить пороговое значение по умолчанию:-(сигмоидальная функция)
plt.scatter(x.values,y_pred[:,1],color='green')
plt.scatter(x .values,Y)
plt.xlabel('баланс')
plt.ylabel('prob_of_default')
plt.title("x Input VS Y_pred")
#Visualize this y_pred=logreg.predict_proba(X) plt.scatter(X.values,y_pred[:,1],color='green') plt.scatter(X.values,Y) plt.xlabel('balance') plt.ylabel('Prob of default') plt.title('X input vs y_pred')
Гиперпараметр ’c’ иего важность в логистической регрессии:
если c имеет высокое значение, модель сообщает, что тренировочным данным следует придать больший вес.
Высокое значение C говорит модели о том, что тренировочным данным следует придавать больший вес.
Более низкое значение C будет указывать на то, что модели придают больше веса сложности за счет подгонки данных. Таким образом, высокое значение гиперпараметра C указывает на то, что данные обучения более важны и отражают данные реального мира.
в то время как низкое значение как раз противоположно этому.
Многоклассовая клафификация: мы можем использовать multi_class=’auto’(гиперпараметр)
Дерево решений: -
Что такое дерево решений?
оно также известно CART, нелинейные данные могут быть обработаны деревом решений, и это не влияет на производительность дерева решений
нелинейное сопоставление отправляет ч/б целевые и функциональные столбцы-›не делает не влияет на производительность
В дереве решений есть встроенный метод выбора характеристик, с помощью которого вы можете понять, какая важная функция / какие функции не важны для вашего дерева решений: может обрабатывать числовые и категориальные данные, классификация и регрессия.
неоднородность (разные) в данных, называемая примесью
Цель дерева решений используется для удаления/уменьшения примесей
DT используется как мера энтропии через примесь в данных.
В) каков принцип работы DT?
Допустим, ваши данные не являются линейно разделимыми, поэтому мы использовали DT
- - - - - - - - - - Продолжать - - - - - - - - - - - - - - - - -
- - - - - - - - - - Продолжать - - - - - - - - - - - - - - - - -