Введение
Двумя ключевыми факторами успеха любого бизнеса являются целевая аудитория и местоположение. Во-первых, это наверняка люди, которых владелец бизнеса планирует ориентировать в качестве потенциальных клиентов. И второе, что играет жизненно важную роль, — это место установки бизнеса. Если расположение подходящее и удобное, оно привлекает больше клиентов.
Постановка задачи
Успешный владелец бизнеса планирует открыть филиал своего отеля в Таллинне, столице Эстонии. Он планирует ориентироваться на путешественников, а также на местное сообщество. С этой целью он стремится предоставить жилье, а также мультикультурные варианты питания в одном месте.
Целью этого проекта является поиск оптимального места для таких инвестиций в бизнес в городе. Этот анализ может быть полезен для любых инвестиций в бизнес.
Данные
Для нашего проекта нам понадобятся следующие данные:
- Список районов Таллинна
- Географические координаты каждого района Таллинна
- И лучшие места в каждом районе
Список подрайонов получен по следующей ссылке в Википедии:
https://en.wikipedia.org/wiki/Category:Subdistricts_of_Tallinn
Получив список подрайонов, мы можем получить их геокоординаты, а также лучшие места в них.
Методология
Процесс включает в себя два основных шага:
- Анализ данных
- Кластеризация
Анализ данных
Первое, что нужно сделать при анализе данных, — это получить список подрайонов, который мы получим на исходной странице. Когда у нас есть список подрайонов, следующий шаг включает в себя поиск геокоординат, которые мы получаем через библиотеку Geocode Python.
Всего в Таллинне 83 района. Поскольку у нас есть геокоординаты, теперь мы можем визуализировать их на карте с помощью библиотеки Folium.
Следующим шагом будет получение площадок в радиусе каждой геокоординаты. Для этого мы используем API Foursquare, чтобы получить площадки каждого подрайона в радиусе 1000 метров. API Foursquare отвечает и предоставляет нам запрошенные данные в файле формата json.
Мы также можем отсортировать данные, чтобы увидеть, сколько мест есть в каждом подрайоне, как показано ниже.
Для дальнейшего анализа мы используем однократное кодирование, чтобы получить категории мест проведения в каждом подрайоне.
Это помогает нам находить места лучших категорий в каждом подрайоне. У нас есть 10 лучших категорий площадок для каждого подрайона в нашем проекте.
Кластеризация
После анализа данных нам нужна кластеризация, чтобы найти наиболее подходящий кластер для этих инвестиций. Для этой цели используется кластеризация K-средних, которая представляет собой неконтролируемый метод машинного обучения. Возникает вопрос, сколько кластеров нам нужно, чтобы получить наилучшие результаты. Оценка силуэта помогает нам найти оптимальное количество кластеров.
Из графика мы можем понять, что оптимальное количество кластеров равно 3. Мы будем использовать 3 как количество кластеров в параметрах алгоритма кластеризации K-средних. Мы также можем визуализировать кластеры на карте.
Результаты
Кластер 0, как показано на карте красными кружками, состоит из окраин города, что определенно не подходит.
Кластер 1, показанный на карте фиолетовым цветом, является самым большим кластером и охватывает подходящие места. Если мы посмотрим вглубь карты, то центр этого кластера более плотный и является наиболее подходящим местом для инвестиций в этот кластер.
Кластер 2, показанный на карте небесно-голубым цветом, также состоит из окраин города и поэтому не является подходящим вариантом.
Заключение
Просматривая все кластеры, мы можем понять, что кластер 1 является наиболее подходящим вариантом. В кластере 1 центр очень плотный, и это лучший вариант для инвестиций в этом бизнес-плане. Исходя из этого, мы можем предложить владельцу бизнеса открыть свой отель в районе, который является центром кластера 1.
Код
Блокнот, который объясняет пошаговый процесс этого проекта, можно найти здесь: