В этой статье я расскажу о некоторых лучших и рекомендуемых практиках, которым следует следовать, когда дело доходит до проекта по науке о данных. Прежде чем представить лучшие практики, важно понять общий рабочий процесс проекта по науке о данных. Существует множество его вариантов, но я всегда предпочитаю использовать традиционный (но наиболее эффективный) рабочий процесс, известный как CRISP-DM, что означает CRoss . Промышленный стандартстандартный процессдля данныхмайнингаданных.
Целью этой статьи не является объяснение процесса CRISP-DM. Однако обсуждаемые здесь лучшие практики вдохновлены этим процессом, поэтому я кратко коснусь этой структуры.
Одна из важных особенностей процесса CRISP-DM, на которую следует обратить внимание, — это петля обратной связи. Подготовка данных к этапу моделирования имеет итеративный цикл обратной связи: двунаправленные стрелки означают, что разработка признаков является итеративным процессом. Этап оценки модели связан с пониманием бизнеса перед развертыванием. Очень важно, чтобы мы оценивали и переоценивали наши модели, убеждаясь, что они отвечают на все правильные бизнес-вопросы, прежде чем мы развернем модель. Еще один фактор, который я хочу подчеркнуть, — это данные, которые являются центром этой структуры. Это означает, что все вращается вокруг данных.
Теперь, когда мы установили достаточный контекст, ниже приведены пять лучших практик, которым я рекомендую вам следовать, если вы работаете в области науки о данных или проекта машинного обучения.
1. Понимание бизнеса или постановка проблемы:
Убедитесь, что вы уделяете достаточно времени пониманию бизнес-вопросов, которые вы пытаетесь решить с помощью науки о данных. Потратив достаточно времени на раннюю стадию формулирования проблемы, вы сэкономите время на будущих этапах. Как специалист по данным, вы должны тесно сотрудничать с различными функциональными областями бизнеса, заинтересованными сторонами и менеджерами по продуктам, чтобы понять бизнес-проблему с точки зрения клиента.
2. Данные — это секрет вашей модели:
Если вы слышали старую добрую поговорку «Мусор на входе, мусор на выходе», это утверждение очень верно, когда речь идет о данных, которые вы используете для обучения своей модели. Качество данных важно. Около 80% времени специалиста по данным тратится на подготовку данных. Модельная часть важна, но успех модели во многом зависит от качества данных.
3. Общение с экспертами по предмету или предметной области:
Одна из распространенных ошибок специалистов по данным — недостаточно частое общение с экспертами в предметной области на этапах разработки функций и построения модели. Разработка функций — один из важнейших этапов проекта по науке о данных. Это этап, на котором вы получаете или создаете функции для модели ML. Эксперты в предметной области — ваши лучшие друзья, когда дело доходит до получения дополнительной информации о том, какие функции следует создавать. Например, если я создаю модель машинного обучения для обнаружения мошенничества с кредитными картами, общение с аналитиком по мошенничеству поможет мне собрать некоторую информацию о том, какую информацию они ищут в данных, чтобы принять решение о мошеннической транзакции.
4. Начните с проверки концепции, создайте MVP и работайте над ним:
Всегда начинайте с малого и перебирайте простую модель, а не пытайтесь построить все сразу. После того, как вы определите некоторые ключевые источники данных, свяжитесь с владельцами данных, чтобы собрать небольшой набор выборочных данных, изучить данные, понять их и создать простой MVP (минимально жизнеспособный продукт). В мире ИТ есть популярная поговорка: Если с первого раза не получится, называйте это версией 1.0. Это очень верное утверждение, когда речь идет о проектах по науке о данных.
5. Измеряйте то, что важно:
Этап оценки модели (как показано на диаграмме выше) очень важен, поскольку он фактически решает, отвечает ли модель на бизнес-вопрос или постановку проблемы, с которой мы начали. Прежде чем мы сможем ответить, соответствовали ли мы критериям успеха или нет, важно сначала определить этот критерий успеха. На этом этапе также решается, следует ли развертывать модель в производстве, поэтому очень важно измерить важные показатели.
Если мы рассмотрим тот же пример модели обнаружения мошенничества, важно определиться с порогом, который разделяет два класса — мошенничество и не мошенничество. Если мы полагаемся только на метрики PR (точность и полнота) по умолчанию, порог отсечения составляет 0,5, однако важно решить, для чего оптимизировать.
Если компания считает, что большее количество ложных срабатываний (обнаружено мошенничество, но на самом деле это не так) обходится дороже, чем ложноотрицательные результаты (неспособность обнаружить мошенничество), то мы должны увеличить порог для повышения точности. Напротив, если компания считает, что ложноотрицательные результаты обходятся дороже, мы снижаем порог, чтобы улучшить запоминаемость. В этом примере высокий уровень ложноположительных результатов приводит к ухудшению качества обслуживания клиентов, а высокий уровень ложноотрицательных результатов приведет к потере денег из-за пропущенных случаев мошенничества. Поэтому бизнесу следует быть осторожным при принятии решения о сокращении.
Подводя итог, если мы будем следовать некоторым простым стандартам и практикам в проекте по науке о данных, это может значительно помочь нам повысить уровень успеха. В будущем я буду публиковать больше статей на подобные темы. Следите за обновлениями !!