На некоторых из моих должностей, а чаще в качестве консультанта, я видел, как компании прилагают усилия для создания в своей организации возможностей для анализа данных. Хорошо известно, что большинство этих попыток терпят неудачу.

Внимательно изучив как успехи, так и неудачи, я уверен, что существует четко определенный процесс для успешного создания потенциала в области науки о данных. Я собираюсь обрисовать здесь этот процесс.

Подход «прежде всего инженерия»: пример

Процесс, который я защищаю, во многом зависит от совместной работы разработчиков и продуктов с экспертами в предметной области задолго до того, как будут наняты специалисты по данным. Фактически, процесс подготовки к вашему первому найму в области науки о данных обычно начинается от шести месяцев до года до того, как ваше первое объявление о вакансии будет опубликовано.

Если вы думаете о внедрении науки о данных в свой бизнес, вы находитесь в следующей ситуации:

  1. У вас есть данные, и у вас есть веские основания полагать, что они потенциально ценны.
  2. У вас есть варианты использования - либо продукты, которые нужно создать, функции, которые нужно включить, либо анализ, который нужно провести.
  3. Кто-то выдвинул гипотезу, что наука о данных может быть полезна для превращения этих данных в ценность.

Компании в этой ситуации видят большие возможности, которые совсем не используются. Есть какой-то процесс, который намного менее эффективен, чем он мог бы быть, или есть основная возможность, которой полностью не хватает бизнесу.

Подход «прежде всего инженерия» основан на наблюдении, что когда существует значительный разрыв между текущими возможностями бизнеса и тем, что он может сделать с наукой о данных, существуют более простые решения, которые не требуют науки о данных, но могут оказать измеримое влияние. самостоятельно. Кроме того, эти более простые решения часто требуют тех же основных возможностей, которые требуются группе по анализу данных. Это то место, где живет возможность.

Рассмотрим гипотетический пример. Предположим, у вас есть компания под названием «ShirtCo», которая продает рубашки через Интернет. Доступны рубашки разных стилей и созданы разными дизайнерами. Вы хотите добавить на свой веб-сайт систему рекомендаций по рубашкам, которая будет рекомендовать людям покупать рубашки на основе их предыдущих покупок.

Это классическая задача науки о данных, и существуют хорошо известные методы построения рекомендательной системы. Таким образом, у ShirtCo есть соблазн немедленно сбежать и нанять специалиста по данным. Но при подходе «сначала разработка» есть возможность оказать серьезное влияние на бизнес, одновременно закладывая основу для дальнейшей работы в области науки о данных.

Поскольку у ShirtCo вообще нет системы рекомендаций, есть возможность создать довольно хороший рекомендатель без какой-либо науки о данных и, следовательно, без каких-либо специалистов по данным. В каждом случае, который я видел, всякий раз, когда кто-то думал, что наука о данных может быть полезной, также оказывалось, что существуют простые детерминированные правила или другие эвристики, которые можно было бы реализовать. Эти простые правила не так ценны, как настоящая модель науки о данных, но они намного лучше, чем ничего, что является текущим статус-кво.

Например, у кого-то в ShirtCo может быть веская причина полагать, что люди, скорее всего, будут покупать рубашки, сделанные тем же дизайнером, что и рубашки, которые они покупали в прошлом. Таким образом, может существовать система рекомендаций, которая применяет простой процесс:

  1. Найдите последнюю покупку рубашки.
  2. Определите дизайнера этой рубашки.
  3. Найдите новейшую рубашку от того же дизайнера.
  4. Рекомендую его.

Мы заметили несколько моментов в этом рекомендательном процессе. Во-первых, он прост и прозрачен, не требует обработки данных или каких-либо других статистических методов. Значит, реализовать его мог любой грамотный инженер. Во-вторых, даже без тщательного статистического теста весьма вероятно, что это будет значительным улучшением по сравнению с статус-кво, который вообще не является системой рекомендаций. В-третьих, инженерные задачи, необходимые для реализации этой системы рекомендаций, почти идентичны инженерным задачам, необходимым для реализации «реальной» модели науки о данных. Это ключ к подходу «сначала инженерия».

Перечислим некоторые инженерные проблемы, которые необходимо преодолеть, чтобы реализовать этот простой совет:

  1. Необходимо найти данные о продажах рубашек, покупателях и дизайнерах.
  2. Различные таблицы, содержащие эти данные, должны быть соответствующим образом соединены.
  3. Необходим автоматизированный процесс для обновления этих данных.
  4. Кому-то нужно создать сервис, который берет идентификатор клиента, просматривает его предыдущие покупки, находит рубашки подходящего дизайнера в текущем инвентаре и возвращает рекомендацию.
  5. Все это должно иметь жизнеспособный UX-дизайн и быть встроенным в веб-сайт ShirtCo.
  6. Должна быть система мониторинга, чтобы отслеживать, сколько рубашек из рекомендательной системы фактически куплено.

Эти инженерные задачи точно такие же, как если бы вы пытались поддержать команду специалистов по анализу данных. Буквально нет разницы в основных возможностях, требуемых для простого рекомендателя, основанного на правилах, и сложной современной системы рекомендаций. Безусловно, могут быть различия в степени - например, модель науки о данных может потребовать гораздо больше функций для рубашек и клиентов. Но основные возможности, требуемые обоими, одинаковы.

Отсюда и подход «сначала инженерия»: сначала решите все инженерные задачи и проблемы, связанные с продуктом, прежде чем нанять своего первого специалиста по обработке данных. Сделайте это, создав систему, основанную на правилах, которая является улучшением по сравнению с статус-кво. Только после того, как вы продемонстрируете, что бизнес может это сделать, вам следует даже подумать о найме своего первого специалиста по данным.

Пять шагов подхода «сначала инженерия»

Следуя этому подходу, вы значительно снизите вероятность того, что ваши усилия в области науки о данных попадут в какую-либо из распространенных ловушек. В конце концов, виды сбоев в работе по науке о данных происходят из двух источников: во-первых, это неспособность определить продукт, который может оказать значительное положительное влияние на бизнес. Во-вторых, не удается предоставить необходимые данные и инженерную инфраструктуру для внедрения модели науки о данных в производство. Попадание в эти ловушки после того, как вы наняли одного или нескольких специалистов по обработке данных, часто приводит к летальному исходу.

Следовательно, вы должны доказать, что компания может избежать этих ловушек , прежде чем нанимать специалиста по данным. Если вы можете успешно определить высокоэффективный продукт, одновременно закладывая фундамент данных и разработки, то вы можете с уверенностью нанять специалиста по данным, зная, что этот найм не будет пустой тратой времени и денег.

Таким образом, подход «сначала инженерия» состоит из следующих этапов:

  1. Определите возможность, в которой наука о данных может оказать большое влияние на бизнес, а в настоящее время бизнес ничего не делает.
  2. Проконсультируйтесь со специалистами по продуктам и предметным областям, чтобы узнать, есть ли какие-либо общепринятые мнения или знания в предметной области, которые предлагают простой набор правил, которые можно было бы реализовать в первую очередь. Эти правила должны иметь возможность «сдвинуть иглу» с бизнес-проблемой, даже если в них есть очевидные недостатки.
  3. Определите все инженерные и проектные проблемы, необходимые для реализации этих правил.
  4. Создайте систему, основанную на правилах, как внутренний продукт и используйте эту задачу как возможность заложить основу для будущей работы в области науки о данных.
  5. Измерьте влияние созданной вами системы.

Как я уже упоминал выше, этот процесс непростой и обычно занимает от шести месяцев до года. Но в конце процесса вы можете с уверенностью нанять специалиста по данным, который будет знать, что вы сможете избежать подавляющего большинства ловушек, которые обычно улавливают новые группы специалистов по анализу данных.

Дополнительные преимущества подхода «прежде всего инженерия»

Помимо возможности заниматься наукой о данных, есть дополнительные преимущества.

Во-первых, вы резко снизите риск. Если ваши усилия не увенчаются успехом, они потерпят неудачу без дополнительных затрат времени и денег на найм специалиста по данным. Кроме того, снижается риск для репутации компании - ни один специалист по обработке данных не скажет, что ваш бизнес зря потратил время и не смог развернуть модель.

Во-вторых, вы создаете ценность для бизнеса быстрее и дешевле. Ваша основанная на правилах система - это не просто «пробный запуск» для будущих проектов в области науки о данных. Это самостоятельный ценный проект. И, вероятно, это можно сделать за половину того времени, которое вам понадобится, чтобы нанять специалиста по данным для выполнения аналогичной работы.

В-третьих, намного проще нанять хорошего специалиста по данным. Хороший аналитик данных захочет оказать влияние на бизнес. Но среди специалистов по анализу данных хорошо известно, что большая часть работ в области науки о данных в конечном итоге остается неиспользованной. Если вы можете пойти на собеседование и указать на всю проделанную предварительную работу, вы увеличите шансы, что нужный специалист по данным примет ваше предложение о работе.

В-четвертых, вы обучаете всю свою организацию тому, как работать с аналитиком данных. Каждый уже имеет опыт создания наборов данных и конвейеров, а также встраивания проекта в основную инфраструктуру бизнеса. Новичку в области анализа данных будет казаться, что компания уже работает с аналитиками данных.

Наконец, внедряя и измеряя влияние более простой системы, вы создаете основу для измерения влияния группы науки о данных. Слишком часто люди подозревают, что группа по анализу данных оказывает влияние, но не уверены в этом. Правильно функционирующая группа по науке о данных должна быть в состоянии регулярно преодолевать базовый уровень, определенный вашей системой, основанной на правилах.

Вывод

Такой подход к созданию группы по науке о данных в вашем бизнесе позволяет достичь тех целей, к которым вы всегда должны стремиться: снижение рисков, быстрое обучение, быстрое создание ценности, а также возможность повторять и улучшать. Это отличный способ избежать всех наиболее распространенных видов сбоев в новой работе по науке о данных, и он имеет ряд существенных дополнительных преимуществ.