Изучение Большого дуриана для бизнес-возможности кофейни

Эта статья написана как часть финальной заявки на курс Applied Data Science Capstone курса Coursera IBM Data Science Professional Certificate.

Доступ к проекту можно получить в этом репозитории GitHub.

Введение

Джакарта — особый столичный регион Индонезии, архипелаг в Юго-Восточной Азии. Он расположен на северо-западном побережье Явы, где проживает 10,5 миллионов человек, и является второй по величине городской агломерацией в мире. Плавильный котел многих культур, Джакарта является центром экономической деятельности Индонезии, которая привлекает людей со всего архипелага в поисках возможностей и потенциально лучшего уровня жизни.

Возможностей для бизнеса в Джакарте предостаточно, но сектор продуктов питания и напитков (F&B) уже давно является привлекательной целью для инвесторов. Он зафиксировал крупнейшую реализацию инвестиций среди вторичных секторов Индонезии за последние пять лет на общую сумму 293 триллиона индонезийских рупий. Кофейня, в частности, была быстро развивающимся бизнесом F&B в Индонезии, о чем свидетельствует значительный рост количества торговых точек и внутреннего потребления кофе в последние годы. Рыночная стоимость кофеен также оценивается в более чем 4 трлн индонезийских рупий в год. С такой многообещающей перспективой различные заинтересованные стороны (предприниматели, инвесторы) могут быть заинтересованы в изучении возможностей для бизнеса в кафе в Джакарте.

Постановка задачи

Таким образом, этот проект по науке о данных осуществляется, чтобы помочь заинтересованным сторонам ответить на следующий вопрос:

«Какие регионы Джакарты являются стратегическими для открытия кофейни?»

Помимо заинтересованных сторон, проект также может быть интересен любителям кофе.

Данные

  1. Названия административных районов (города, района, подрайона) в Джакарте и соответствующие почтовые индексы. Данные были извлечены из каталога на этом веб-сайте.
  2. Географические координаты Джакарты и ее районов, полученные с помощью геокодера Nominatim из библиотеки GeoPy.
  3. Информация о местах проведения в регионах Джакарты: названия, категории, широта места проведения, долгота места проведения. Они получены с использованием API Foursquare.

Методология

Использовались следующие библиотеки и зависимости Python: Pandas, NumPy, Requests, BeautifulSoup, time, string, GeoPy (геокодер Nominatim), JSON, Matplotlib, Folium. , и научиться учиться.

После отправки запроса get на интересующий веб-сайт ответ (HTML веб-страницы) анализировался с помощью BeautifulSoup, а соответствующие данные (названия городов, районов, районов, почтовые индексы) извлекались. В результате мы получили 267 работ. Затем географические координаты были получены через Nominatim с использованием почтовых индексов в качестве входных данных. Результирующий кадр данных (табличная структура данных) выглядит следующим образом:

Джакарта состоит из 5 городов на материковой части Джакарты и 1 регентства у побережья Джакарты. Каждый из этих городов/регентств далее подразделяется на районы (кекаматан), а затем на подрайоны (келурахан). Всего насчитывается 44 района и 267 подрайонов.

Следующим шагом является обращение API к Foursquare для получения списка мест в определенном радиусе (в данном случае 1 км) от определенной координаты. Результат был ограничен максимум 100 площадками в каждом районе. Помимо названия места, были также получены такие данные, как категория места, а также широта и долгота. Всего было возвращено 14739 заявок.

Если сгруппировать заведения по категориям, то в первой десятке преобладают заведения, работающие в сфере продуктов питания и напитков. Индонезийский ресторан и кофейня в основном связаны как наиболее распространенные места в Джакарте.

Подрайоны должны были быть сгруппированы на основе сходства окружающих их мест. Таким образом, можно получить представление о том, в каком регионе и в каком кластере сосредоточены кофейни с высокой концентрацией.

Перед кластеризацией категориальные переменные были преобразованы в числовые переменные посредством одноразового кодирования. Данные были сгруппированы по подрайонам, и были рассчитаны средние значения частоты встречаемости мест проведения в подрайонах.

Отсортировав частоту встречаемости заведений, мы смогли получить самые распространенные заведения каждого подрайона.

Кластеризация K-средних

Кластеризация K-Means — это алгоритм машинного обучения, который создает однородные подгруппы/кластеры из немаркированных данных таким образом, чтобы точки данных в каждом кластере были максимально похожи друг на друга в соответствии с мерой подобия (например, евклидово расстояние ).

Значение для k (количество кластеров) необходимо определить, прежде чем приступать к кластеризации. Был использован «метод локтя», который вычисляет сумму квадратов расстояний точек данных до их ближайшего центроида (центра кластера) для различных значений k. Оптимальное значение k — это значение, после которого наступает плато (без значительного уменьшения суммы квадратов расстояний).

Однако из-за отсутствия различимого «локтя» была использована другая мера: «Оценка силуэта». Оценка силуэта варьируется от -1 до 1. Значение оценки 1 означает, что кластер плотный и хорошо отделен от других кластеров. Значение, близкое к 0, представляет перекрывающиеся кластеры, точки данных близки к границе решения соседних кластеров. Отрицательная оценка указывает на то, что образцы могли быть отнесены к неправильным кластерам. Учитывая, что существует пик при k = 6, кластеризация K-Means была продолжена с этим значением.

Каждому подрайону была присвоена метка кластера (0–5). Эти кластеры были отмечены цветом и визуализированы на карте Джакарты, чтобы изучить, как они распределены по регионам. Для создания карты использовалась библиотека Folium.

Кластеры были проанализированы отдельно, чтобы получить представление о различительном месте, которое характеризует каждый из них. Были выделены наиболее распространенные категории площадок номер один из каждого кластера, а также регионы (города), в которых сконцентрирован тот или иной кластер.

Общее количество кофеен в каждом из городов и районов Джакарты было подсчитано, чтобы изучить распределение бизнеса кофеен и помочь определить стратегические местоположения. Это распределение визуализировали с помощью картограммы. Файл GeoJSON, содержащий границы города, был получен из этого репозитория на GitHub.

Результаты и обсуждение

Исследовательский анализ данных, а также методы машинного обучения и визуализации дали нам некоторое представление о рассматриваемой проблеме.

Всего на момент запроса API было возвращено 14 739 объектов из всех регионов Джакарты (267 районов). В среднем в километре от центра района находится 55 заведений, из которых две наиболее распространенные категории — это индонезийские рестораны и кофейни.

После выбора оптимального значения k, равного 6, был запущен алгоритм K-Means для кластеризации подрайонов на основе наиболее часто встречающихся окружающих их мест. Каждый из шести кластеров, обозначенных цифрами 0–5, характеризуется следующим доминирующим местом проведения:

Значительное количество кофеен находится в Кластере 5 (41 магазин из 151 заведения). На самом деле, это второе по популярности место в этом кластере. Картограмма расположения кофеен на материковой части Джакарты показывает, что в Джакарте Селатан очень высокая концентрация бизнеса, т. е. 426 магазинов, в то время как в остальных менее 200. Таким образом, районы в Джакарте Селатан не являются подходящим вариантом для открытия кофейни. магазинный бизнес, потому что они уже слишком насыщены.

Поэтому заинтересованным сторонам рекомендуется изучить возможности в Джакарта Тимур (например, Какунг, Крамат Джати) и Джакарта Утара (например, Келапа Гадинг), поскольку в этих двух городах наименьшая концентрация кофеен и они значительно снизят конкуренцию. Однако, если умеренная конкуренция не вызывает беспокойства, то также рекомендуются районы в Джакарта Пусат (например, Чемпака Путих, Джохар Бару) и Джакарта Барат (например, Калидерес, Ченгкаренг).

Вывод

Заинтересованные стороны, ищущие возможности открыть кофейню в Джакарте, могут рассмотреть возможность открытия своего бизнеса в месте, где конкуренция не является жесткой. Были изучены все субрегионы Джакарты, а затем сгруппированы на основе сходства окружающих их мест с использованием алгоритма кластеризации K-Means. Результаты анализа показывают, что районы Джакарты Утара и Джакарта Тимур являются одними из лучших кандидатов для размещения новой кофейни.