Несмотря на то, что путешествия в настоящее время ограничены, они по-прежнему являются жизненно важной частью нашей жизни. И подготовка следующей поездки на основе науки о данных кажется хорошей тратой времени, пока мы снова не сможем путешествовать по миру.
Многие из нас используют Airbnb как простой способ остановиться во время путешествия. Но действительно ли мы понимаем, почему мы платим столько, сколько платим за квартиру или комнату? Вопросы по этому поводу побудили меня взглянуть на некоторые данные Airbnb и применить к ним машинное обучение. В качестве примера здесь взят город Сиэтл, потому что набор данных был под рукой и достаточно велик для репрезентативных средств.
Мои ключевые вопросы при анализе:
1. Какие ключевые факторы определяют стоимость квартир?
2. Буду ли я счастливее, если потрачу дополнительные доллары на обновление?
Аналитический подход
Прежде чем взглянуть на результаты анализа данных, я хочу описать набор данных, который использовался, и то, как он был обработан.
Данные были предоставлены на Kaggle самой Airbnb. Из этого огромного набора данных были удалены некоторые столбцы, потому что они не помогли ответить на заданные вопросы (например, listing_url). После этого очищенные данные были переданы в модель машинного обучения линейной регрессии для обучения. Наконец, модель была оценена с помощью тестового набора данных. Оценка теста не была идеальной, но достаточно удовлетворительной, чтобы быть уверенным в тенденциях, обеспечиваемых коэффициентами модели (r²-оценка 0,65).
Более подробную информацию о подходе к анализу можно найти в репозитории Github.
Результаты
Результаты анализа в основном интерпретируются исходя из коэффициентов обученной модели машинного обучения. Они коррелируют с важностью влиятельных факторов.
1. Какие ключевые факторы определяют стоимость квартир?
Глядя на коэффициенты модели после обучения ее значению ответа «цена», можно увидеть, что общие и частные комнаты падают в цене больше всего. Более того, соседство (= расположение), кажется, оказывает самое положительное влияние.
После фильтрации районов можно также увидеть, что количество ванных комнат и спален имеет большее значение, чем количество помещений или оценка по отзывам.
Я мог бы рассказать об этих результатах гораздо больше, но взглянуть на изображение коэффициентов самому стоит большего!
2. Буду ли я счастливее, если потрачу дополнительные доллары на обновление?
Для этого вопроса была обучена другая модель на значении ответа «review_score_rating». По результатам можно сделать несколько неожиданных выводов. Однако следует отметить, что показатель r² не был столь многообещающим. Поэтому во внимание принимаются корреляционная матрица данных (только с учетом числовых значений) и коэффициенты.
Как по матрице, так и по коэффициентам можно сделать вывод, что хозяин играет большую роль в удовлетворении путешественников. Интересно, что оценка местоположения и чистоты действительно растет с ростом цен, как и следовало ожидать. Хозяин имеет влияние на отзывы, не зависящее от цены.
Как и в случае с ценой, соседство является важным фактором для счастья посетителей.
В заключение я бы порекомендовал, а также выберу для себя справедливый баланс между прекрасным расположением / районом и гостеприимным хозяином для следующего бронирования Airbnb.
Попробуйте сами!
Смело клонируйте или разветвляйте мой репозиторий и начинайте самостоятельно анализировать данные! Делайте выводы и делитесь своими результатами и мыслями!