My Vivino — это онлайн-рынок. У нас есть обширная база данных вин, и у нас 27 миллионов пользователей, в основном в Северной Америке.
Одна из наших ведущих услуг — система рекомендаций по винам. Это начинает быть немного старым. Основанный на правилах. Мы продаем вино на основе посещения/исследования наших клиентов.
что тут можно описать
- Сбор/очистка данных
- Исследование данных
- Визуализация данных
- Машинное обучение
- Машинное обучение
Где найти данные?
В любом месте. Лом Vivino / Bevmo / Delectable / Wine-Searcher / …
Загрузить данные из каталога
def load_dataset(): return pd.read_csv("vivino_top_ten.csv") data = load_dataset() data.head(10)
Вы можете видеть, что это винный набор данных
Посмотрите данные NaN
data.isna().sum()
вы можете видеть, что нет почти Nan Data
Информация о данных
Преобразование числовых данных для машинного обучения
вы можете увидеть преобразование набора числовых данных для машинного обучения
Давайте визуализируем для понимания
вы можете увидеть подмножество гистограмм, в котором используется pyplot matplotlib
Давайте машинное обучение
def vivino_fit_model_prediction(data): X = data[['Rating', 'Year','Style', 'Wine','Natural', 'Region', 'Country']] y = data['Price'] x_train,x_test,y_train,y_test = train_test_split(X,y,test_size = 0.2,random_state = 16) # model = KNeighborsRegressor() # model = LinearRegression() # model = LinearSVR() model = LGBMRegressor(n_estimators=1000) model.fit(x_train,y_train) y_pred = model.predict(x_test) print(f"Model accuracy: {round(r2_score(y_test,y_pred)*100)}%") vivino_fit_model_prediction(data)
Точность нашей модели: 58%
но мы сделали это, поэтому, если мы будем усердно работать над моделью
может быть 90% +
ДО СВИДАНИЯ, ДО ВСТРЕЧИ