My Vivino — это онлайн-рынок. У нас есть обширная база данных вин, и у нас 27 миллионов пользователей, в основном в Северной Америке.
Одна из наших ведущих услуг — система рекомендаций по винам. Это начинает быть немного старым. Основанный на правилах. Мы продаем вино на основе посещения/исследования наших клиентов.
что тут можно описать
- Сбор/очистка данных
- Исследование данных
- Визуализация данных
- Машинное обучение
- Машинное обучение
Где найти данные?
В любом месте. Лом Vivino / Bevmo / Delectable / Wine-Searcher / …
Загрузить данные из каталога
def load_dataset():
return pd.read_csv("vivino_top_ten.csv")
data = load_dataset()
data.head(10)

Вы можете видеть, что это винный набор данных
Посмотрите данные NaN
data.isna().sum()

вы можете видеть, что нет почти Nan Data
Информация о данных

Преобразование числовых данных для машинного обучения

вы можете увидеть преобразование набора числовых данных для машинного обучения
Давайте визуализируем для понимания

вы можете увидеть подмножество гистограмм, в котором используется pyplot matplotlib
Давайте машинное обучение
def vivino_fit_model_prediction(data):
X = data[['Rating', 'Year','Style', 'Wine','Natural', 'Region', 'Country']]
y = data['Price']
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size = 0.2,random_state = 16)
# model = KNeighborsRegressor()
# model = LinearRegression()
# model = LinearSVR()
model = LGBMRegressor(n_estimators=1000)
model.fit(x_train,y_train)
y_pred = model.predict(x_test)
print(f"Model accuracy: {round(r2_score(y_test,y_pred)*100)}%")
vivino_fit_model_prediction(data)
Точность нашей модели: 58%
но мы сделали это, поэтому, если мы будем усердно работать над моделью
может быть 90% +
ДО СВИДАНИЯ, ДО ВСТРЕЧИ