My Vivino — это онлайн-рынок. У нас есть обширная база данных вин, и у нас 27 миллионов пользователей, в основном в Северной Америке.

Одна из наших ведущих услуг — система рекомендаций по винам. Это начинает быть немного старым. Основанный на правилах. Мы продаем вино на основе посещения/исследования наших клиентов.

что тут можно описать

  1. Сбор/очистка данных
  2. Исследование данных
  3. Визуализация данных
  4. Машинное обучение
  5. Машинное обучение

Где найти данные?

В любом месте. Лом Vivino / Bevmo / Delectable / Wine-Searcher / …

Загрузить данные из каталога

def load_dataset():
  return pd.read_csv("vivino_top_ten.csv") 
data = load_dataset()
data.head(10)

Вы можете видеть, что это винный набор данных

Посмотрите данные NaN

data.isna().sum()

вы можете видеть, что нет почти Nan Data

Информация о данных

Преобразование числовых данных для машинного обучения

вы можете увидеть преобразование набора числовых данных для машинного обучения

Давайте визуализируем для понимания

вы можете увидеть подмножество гистограмм, в котором используется pyplot matplotlib

Давайте машинное обучение

def vivino_fit_model_prediction(data):
    X = data[['Rating', 'Year','Style', 'Wine','Natural', 'Region', 'Country']]
    y = data['Price']
    x_train,x_test,y_train,y_test = train_test_split(X,y,test_size = 0.2,random_state = 16)
    # model = KNeighborsRegressor()
    # model = LinearRegression()
    # model = LinearSVR()
    model = LGBMRegressor(n_estimators=1000)
    model.fit(x_train,y_train)
    y_pred = model.predict(x_test)
    print(f"Model accuracy: {round(r2_score(y_test,y_pred)*100)}%")
vivino_fit_model_prediction(data)

Точность нашей модели: 58%

но мы сделали это, поэтому, если мы будем усердно работать над моделью

может быть 90% +

ДО СВИДАНИЯ, ДО ВСТРЕЧИ