На последнем этапе учебного курса по науке о данных Flatiron мы сосредоточились на фундаментальном моделировании машинного обучения. Две ключевые модели, которые мы исследовали до сих пор, — это простая линейная регрессия (SLR) и множественная линейная регрессия (MLR). Для тех, кто может не знать, SLR и MLR — это статистические методы, которые позволяют нам изучать взаимосвязь между двумя или более переменными.
Чтобы управлять этими моделями и анализировать их, мы учимся использовать две основные библиотеки Python: sklearn и statsmodels. Имея в своем распоряжении эти инструменты, мы смогли запустить регрессионную диагностику и разобраться в тонкостях работы с категориальными переменными.
Значительной частью нашего учебного пути является понимание того, как интерпретировать эти модели после их создания. Мы обнаружили важность функции summary()
в библиотеке statsmodels. Эта функция обеспечивает краткий обзор модели, как показано на рисунке ниже:
Эта сводка из модели простой линейной регрессии предоставляет множество данных, таких как остатки модели, коэффициенты, стандартная ошибка, P-значения, R-квадраты и скорректированные значения R-квадратов. С точки зрения непрофессионала, эти показатели дают нам важную информацию о точности и эффективности нашей модели, помогая нам улучшить и уточнить ее.
Например, значения R-квадрата и скорректированного R-квадрата дают нам представление о том, насколько хорошо наша модель соответствует данным — чем ближе эти значения к 1, тем лучше модель. С другой стороны, P-значения помогают нам определить значимость наших предикторов; чем меньше P-значение, тем более значим предиктор.
Понимание этих аспектов модели может помочь специалисту по обработке и анализу данных в принятии обоснованных решений о дальнейших действиях и тонкой настройке модели для повышения точности и эффективности.
Я стремлюсь расширить свой кругозор в области машинного обучения, особенно в изучении сложных моделей, таких как деревья решений и нейронные сети. Я в восторге от перспектив, которые открывают эти инструменты, и от того, как они повлияют на мое путешествие по науке о данных.
Оставайтесь с нами, чтобы узнать больше и узнать больше о моем продолжающемся исследовании увлекательного мира ML & DS!