Предпосылки:
import numpy as np import pandas as pd from matplotlib import pyplot as plt from sklearn.linear_model import Linear Regression
- Сбор данных.Этап сбора данных включает сбор
материал, который алгоритм будет использовать для создания практических знаний. В большинстве
случаях данные необходимо будет объединить в единый источник, например текстовый файл,
электронную таблицу или базу данных.
[например. read_csv]
df = pd.read_csv('data.csv')
ПРИМЕЧАНИЯ: необработанные наборы данных в форматах csv, Google Big Query, наборы данных игрушек, доступные в наборах данных Seaborn или предопределенных наборах данных, данные Twitter, данные о запасах.
2. Исследование и подготовка данных. Качество любого проекта машинного обучения во многом зависит от качества входных данных. Таким образом, важно узнать больше о данных и их нюансах во время практики, называемой исследованием данных. Для подготовки данных к процессу обучения требуется дополнительная работа. Это включает в себя исправление или очистку так называемых «беспорядочных» данных, удаление ненужных данных и перекодирование данных в соответствии с ожидаемыми входными данными учащегося.
«Половина науки о данных — это импорт, другая половина — очистка»
x_train = df['Father'].values[:,np.newaxis] y_train = df['Son'].values
3. Обучение модели. К тому времени, когда данные будут подготовлены для анализа, у вас, вероятно, будет представление о том, что вы можете извлечь из данных. Выбранная конкретная задача машинного обучения будет информировать о выборе соответствующего алгоритма, а алгоритм будет представлять данные в виде модели.
4. Оценка модели. Поскольку каждая модель машинного обучения приводит к предвзятому решению задачи обучения, важно оценить, насколько хорошо алгоритм учится на своем опыте. В зависимости от типа используемой модели вы можете оценить точность модели, используя тестовый набор данных, или вам может потребоваться разработать показатели производительности, специфичные для предполагаемого приложения.
5. Улучшение модели. Если требуется более высокая производительность, необходимо использовать более продвинутые стратегии для увеличения производительности модели. Иногда может возникнуть необходимость полностью перейти на другой тип модели. Возможно, вам потребуется дополнить свои данные дополнительными данными или выполнить дополнительную подготовительную работу, как на втором этапе этого процесса.
[Источник: Машинное обучение с R book]