Проект Data Science для анализа набора данных Airbnb по Сиэтлу и Бостону
В рамках этого проекта я попытался поиграть с набором данных airbnb по Сиэтлу и Бостону. Анализируя наборы данных airbnb в Сиэтле и Бостоне, мы можем понять, как хозяева устанавливают арендную плату за разные объекты, а также понять основные различия между ними.
Проект выполняется с использованием 6 шагов — понимание бизнеса, понимание данных, подготовка данных, моделирование, оценка и развертывание.
Кроме того, перед изучением набора данных были определены следующие три вопроса о бизнес-аспектах, и мы попытаемся ответить на них в рамках этого обсуждения.
Каковы различия, которые мы можем найти между данными Airbnb по Сиэтлу и Бостону?
Каковы наиболее важные характеристики для оценки стоимости аренды Airbnb?
Какие основные удобства нужны гостям в обоих городах?
Понимание данных:
Во-первых, давайте посмотрим на набор данных. Набор данных Сиэтл и Бостон Airbnb включает 3 файла CSV:
- calendar.csv: включая идентификатор объявления, а также цену и доступность на этот день;
- listings.csv: включая полные описания и среднюю оценку по отзывам;
- reviews.csv: включая уникальный идентификатор для каждого рецензента и подробные комментарии.
Этот пост в основном использует набор данных списков для проведения анализа и ответов на вышеуказанные вопросы. Из списков мы можем видеть, что в Бостоне 6036 объявлений со средней стоимостью 184 доллара за ночь, а в Сиэтле 8494 объявления со средней стоимостью 152 доллара за ночь. 75% арендной платы в Бостане ниже 219 долларов за ночь, а в Сиэтле — ниже 189 долларов за ночь.
Хозяева Airbnb могут перечислить целые дома/квартиры (красные), частные (зеленые) или общие комнаты (синие), как показано на рисунке ниже. Это отвечает на наш первый вопрос о бизнес-аспектах
Каковы различия, которые мы можем найти между данными Airbnb по Сиэтлу и Бостону?
Использование машинного обучения для прогнозирования арендной платы в Бостоне и Сиэтле:
Изучая данные, мы обнаруживаем, что большинство цен ниже 500 как в Бостоне, так и в Сиэтле. Таким образом, мы можем отбросить значения выше 500 и заполнить пропущенные значения медианным или наиболее частым значением на основе некоторых других связанных функций.
Мы используем GradientBoostingRegressor для обучения нашей модели и используем GridSearch с 5-кратной проверкой, чтобы найти лучший параметр для нее.
Набор данных разделен на тестовые и обучающие данные в соотношении 1:5.
Давайте подойдем к нашему второму вопросу:
Каковы наиболее важные характеристики для оценки стоимости аренды Airbnb?
Давайте сначала рассмотрим важные особенности, которые определяют арендную плату в Бостоне.
Мы видим, что тип комнаты играет самую большую роль в определении арендной платы. Ванные комнаты занимают второе место. Это означает, что тип недвижимости, будь то целый дом или квартира, наличие ванных комнат играют важную роль при принятии решения об арендной плате. широта и долгота занимают следующие два места, что означает, что следующей важной характеристикой, которую следует учитывать, является местоположение собственности. Затем, как мы видим из приведенного выше рисунка, другие функции, такие как плата за уборку, количество хостов, отзывы и т. д., играют более или менее не менее важные роли.
Теперь перейдем к Сиэтлу, давайте посмотрим на 20 основных функций, которые определяют арендную плату.
Похоже, в Сиэтле чистота превыше всего.Плата за уборку играет самую важную роль в определении арендной платы в Сиэтле. Тип номера занимает второе место, а Ванные комнаты — третье место. Помимо этого, другие особенности, которые имеют более или менее равную важность, как мы видели в случае с Бостоном.
Переходя к нашему последнему вопросу:
Какие основные удобства нужны гостям в обоих городах?
Давайте сначала посмотрим на основные удобства, которые определяют арендную плату в Бостоне.
Pack n play/кроватка занимает первое место. Поскольку большинство людей путешествуют с детьми, они предпочитают дома с детской кроваткой и игрушками. Лифт занимает второе место. Большинство гостей хотят, чтобы отель был подходящим для семей/детей, как мы видим из нашего третьего списка удобств. Другие удобства, такие как тренажерный зал, телевизор, бассейн, отдельная гостиная и т. д., занимают дополнительные позиции.
Давайте посмотрим, какие удобства определяют арендную плату в Сиэтле,
Кажется, Сиэтл не любит лестницы. Elevator занимает первое место в Сиэтле. Внутренний камин занимает вторую позицию, что оправдывает холодную погоду в Сиэтле. Парковка занимает третье место в определении арендной платы. Дальнейшие позиции занимают такие удобства, как джакузи, кондиционер, отдельный вход, зарядное устройство для электромобиля и т. д. Мы видим, что в Сиэтле больше удобств, помогающих в холодном климате, тем выше арендная плата.
С помощью этого анализа вы можете решить, что вам нужно для вашей собственности, чтобы получать более высокую арендную плату в Бостоне и Сиэтле. Это мой первый пост в блоге о науке о данных. Пожалуйста, оставьте свои отзывы, идеи и комментарии. Спасибо!