Что следует учитывать при решении бизнес-задач с помощью науки о данных

Что, если я попрошу вас подумать о работе в области науки о данных? Скорее всего, вам в голову придут образы блокнотов, графиков данных, алгоритмов и программных фрагментов. Когда мы говорим о такого рода работе, мы очень часто сосредотачиваемся на инструментах и ​​методах, полезных для конкретных задач, начиная от таких вещей, как классификация или НЛП, через новые классные библиотеки Python и некоторые эффективные вычислительные приемы, до последних тенденций в области ноутбуков jupyter. Кажется, что в этой картине в значительной степени не хватает: как формулируются актуальные задачи моделирования, которые необходимо решить?

Если мы вернемся назад и подумаем о целях высокого уровня, которых пытается достичь ваш типичный специалист по данным, то мы увидим два совершенно разных рабочих процесса.

Изучение неизвестного

Прежде всего - исследовательский анализ данных. В таком случае основное внимание уделяется пониманию вашего набора данных, поиску некоторых интересных и полезных шаблонов внутри и представлению их таким образом, который позволит принимать решения. В такой работе от «владельца» набора данных обычно не дается никаких указаний, за исключением общих указаний, таких как поиск некоторых аномалий, поиск неэффективности, повторяющиеся закономерности и тому подобное. Обычно вы идете туда, куда ведет вас, и ваша основная задача - просто получить некоторое представление о процессах, которые на самом деле генерировали данные. Работа обычно заканчивается, когда вы просто исчерпываете обозначенный временной интервал.

Построение прогнозных моделей

Другой тип работы включает создание некой прогностической модели, которая будет использоваться для ранее невидимых данных. Это может быть разовый случай, если цель состоит только в том, чтобы представить и обсудить полученные результаты с советом директоров. Это также может привести к фактической отправке вашей модели в работающую вычислительную систему, где она будет жить и процветать в течение долгого времени. Как бы то ни было, люди, которые просили вас выполнить такую ​​задачу, вероятно, имеют в уме что-то (более или менее) конкретное, поэтому даже перед тем, как приступить к работе, вам необходимо точно определить, что вы на самом деле должны делать.

Поскольку велика вероятность того, что работа в области науки о данных на самом деле порождена некоторыми примерно определенными бизнес-потребностями, у нас есть столкновение двух сфер. Первый работает лучше всего, когда окружен точностью и строгостью, в то время как последний проистекает из часто беспорядочных и расплывчатых потребностей реального мира. Чтобы добиться успеха, вам нужно иметь перевод между этими двумя.

По сути, вам необходимо сформулировать требования на языке предметной области бизнеса, перевести их в четко определенные аналитические задачи и определить измеримые критерии успеха. Звучит абстрактно? Давайте посмотрим на несколько примеров.

Три части четко определенной задачи по науке о данных

Иногда понять, что вам действительно нужно, просто. Если вас попросят создать плагин фильтра спама для данного почтового клиента, вы можете быстро преобразовать это в задачу двоичной классификации и предположить, что ваша модель получает доступ к содержимому электронной почты и метаданным. Определение критериев успеха потребует принятия некоторых приемлемых диапазонов для показателей, таких как точность, истинные и ложные срабатывания и т. Д. - вы можете оценить их на основе того, как работают доступные в настоящее время решения.

В других случаях все становится немного сложнее. Допустим, у вас есть веб-сайт электронной коммерции, и вы хотите разместить рекомендации по продуктам на своей главной странице. Это потребность вашего бизнеса, которую можно перевести в 2 задачи моделирования:

  • создать модель совместной фильтрации для выработки рекомендаций для вошедших в систему пользователей, для которых у вас есть история покупок,
  • предоставить базовые рекомендации по бестселлерам, чтобы обслуживать и совершенно новых пользователей, только что заходящих на вашу домашнюю страницу.

Теперь нам все еще нужен критерий успеха, чтобы сказать нам, достаточны ли наши результаты. В этом случае мы действительно хотим использовать рекомендатели, если они добавляют некоторую ценность нашей домашней странице. Простой критерий: используйте рекомендатели, если они могут получить показатель CTR выше, чем тот, который в настоящее время рассчитывается для домашней страницы. Итак, в этом случае вы оцениваете свой новый подход на предмет того, улучшает ли он существующее состояние или нет. Другой аспект - сравнить производительность вашей модели, например, с использованием только базовой части бестселлеров. В любом случае, вы в некотором смысле начнете свои критерии успеха.

Выводы

В реальных сценариях задачи науки о данных нельзя воспринимать как должное - их необходимо определить. Чтобы создать полезное определение, вспомните о переводе бизнес-языка в задачи моделирования и создании четких и измеримых критериев успеха. Без этого сложно решить, является ли то, что вы создали, полным и действительно полезным.