Значения SHAP этапа, лет, инвестора и т. д.

В этой статье я использую общедоступный набор данных, который содержит информацию о 2900 записях данных о финансировании индийских стартапов с 2018 по 2021 год, собранных с веб-сайта startuptalky.com. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • исключая данные за 2018 год (имеющие схему данных, отличную от трех лет подряд);
  • log-преобразование нашей метки — финансирование стартапа в долларах США (так что x -> np.log10(x));
  • за исключением 2 % самых маленьких и 2 % самых больших сумм финансирования;
  • создание лет (с момента основания стартапа);
  • извлечение информации об инвесторах с помощью CountVectorizer, взяв только те элементы, которые не менее 6 раз появлялись в наборе данных;
  • кодирование редких категориальных переменных (Штаб, Сектор, Этап и лет) не более чем >50 различных категорий в каждом столбце и не менее 10 записей в каждой категории;
  • наконец, удаление неиспользуемых столбцов.

В результате мы получили очищенный набор данных, содержащий около 1800 раундов финансирования стартапов на сумму от 0,12 до 250 млн долларов США.

Шаг 2 — настройка модели машинного обучения для прогнозирования логарифмического преобразования финансирования стартапа

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 0,569 dex, улучшение по сравнению со среднеквадратичной ошибкой базовой модели, равной примерно 0,752 dex (при условии, что такое же финансирование в размере около 6,58 балла (или около 3,8 миллиона долларов США) для каждой записи, представленной в наборе данных).

Шаг 3 — объяснение полученной модели машинного обучения

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы значения SHAP выражаются в пунктах dex.

Во-первых, мы изучаем диапазон значений SHAP для основных функций, которые нас интересуют:

Как мы видим, наиболее важными характеристиками для прогнозирования финансирования стартапа являются стадия стартапа, возраст в годах, сектор, расположение штаб-квартиры и инвестор.

Теперь рассмотрим индивидуальные особенности.

Что касается стадии запуска, наибольшее финансирование запуска связано с серией C, серией D, серией E и стартапы серии B:

Что касается возраста стартапов в годах, то неудивительно, что мы видим, что наибольшее финансирование стартапов связано с самыми старыми стартапами (имеющими 7+ лет со дня основания):

Другими словами, при прочих равных условиях средний стартап, основанный в прошлом году, получит примерно в 10**0.6 = 4 раз меньше денег, чем аналогичный стартап, основанный 13 лет назад!

Что касается стартап-сектора, наибольшая сумма финансирования стартапов связана с финансовыми технологиями, за которыми следуют медицинские технологии, >Автомобилестроение, Компьютерное программное обеспечение, Информационные технологии и услуги, Логистика, Биотехнологии и >Argitech секторы:

Что касается расположения штаб-квартиры стартапов, мы видим, что наибольшая сумма финансирования связана со стартапами, расположенными в Бангалоре, за которыми следует Мумбаи. >, Гуруграм и Дели:

Наконец, что касается стартап-инвесторов, самое большое финансирование стартапов связано с Tiger Global, за которым следует Sequoia Capital и Высота Капитала:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.