В предыдущей статье мы представили Data Science Method (DSM) как подход структурированного мышления к решению задач Data Science. Далее мы более подробно рассмотрим первый и самый важный шаг - выявление проблемы. Дополнительные шаги DSM будут подробно описаны в следующих статьях.

Метод науки о данных

1. Выявление проблемы (эта статья)

2. Преодоление данных

3. Исследовательский анализ данных

4. Предварительная обработка и разработка данных для обучения

5. Моделирование

6. Документация

1. Выявление проблемы

Выявление проблемы - это самый первый и важный шаг к успешному проекту в области науки о данных.

Начните с определения цели проекта по науке о данных. Задайте вопрос: это исследовательский проект или проект прогнозного моделирования? Если ответ будет исследовательским, то с самого начала может потребоваться меньше планирования, чтобы обеспечить интересные и значимые результаты. У вас могут возникнуть вопросы о том, как определить, является ли проект исследовательским или прогнозным, поэтому давайте рассмотрим несколько примеров. Вам могут дать набор данных для проекта и задать такие вопросы, как:

  • Обработайте данные - какие важные выводы вы можете сделать?
  • Что вы можете рассказать о продажах за последний год?
  • Какие у нас клиенты?

Все три приведенных выше вопроса указывают на то, что вы работаете над исследовательским проектом данных - вы явно не прогнозируете какую-либо переменную ответа, которая будет применяться к будущему набору данных. Что касается первого вопроса, у вас есть возможность потратить бесчисленное количество дней, просматривая данные тысячами разных способов. Чтобы применить некоторые необходимые ограничения к анализу, вы можете переформулировать открытый вопрос на несколько более конкретных вопросов, которые можно использовать с помощью принципов SMART. На два других вопроса так же сложно ответить, не следуя структурированному мышлению и не определив контекст, критерии успеха и заинтересованные стороны. Это помогает определить предполагаемое использование конечного продукта. Для исследовательского проекта попробуйте выдвинуть гипотезу о ценных результатах , прежде чем начнете. Давайте перефразируем три приведенных выше вопроса, чтобы они были действенными.

Исходный вопрос: обработайте данные и сообщите нам, какие важные выводы вы можете почерпнуть.

Пересмотренный вопрос: какова сводная статистика этого набора данных и что мы знаем о контексте данных, которые мы можем исследовать для дальнейшего изучения влияния на бизнес?

Исходный вопрос: Что вы можете сказать о продажах за последний год?

Пересмотренный вопрос: какой продукт мы продаем чаще всего и сколько мы продали каждый квартал за последний год?

Исходный вопрос: Какие у нас клиенты?

Исправленный вопрос: каков средний возраст, доход и местонахождение наших клиентов?

Когда вы посмотрите на различия между исходным вопросом и исправленным вопросом, вы, надеюсь, увидите, что исправленные вопросы теперь представляют собой формулировки проблемы, на которые вы можете использовать анализ науки о данных, чтобы ответить на них. Разработка пересмотренных вопросов может потребовать определенных усилий с вашей стороны - вам может потребоваться вернуться к заинтересованным сторонам для получения обратной связи, прежде чем полностью определить проблему и основную цель анализа. Обязательно спросите себя, подтверждают ли данные, к которым у вас есть доступ, вопрос, на который вы пытаетесь ответить. Если нет, спросите !!

Если ваша цель - оценить вариативные корреляции и многомерные взаимодействия набора данных, то первоначальные мотивы проекта по науке о данных должны быть более четко определены.

Ниже описан пошаговый подход к выявлению проблем, первый шаг в DSM. Определение каждого из этих пунктов в начале проекта приведет ваш проект к плодотворному результату.

Шаги по выявлению проблемы:

  1. Формирование постановки проблемы
  2. Контекст
  3. Критерии успеха
  4. Объем пространства решений
  5. Ограничения
  6. Заинтересованные стороны
  7. Источники данных

Вот список общих вопросов, которые помогут вам приступить к определению вышеперечисленных шагов для выявления проблемы.

  • Является ли цель этого проекта исследовательской или прогнозной?
  • Определите, для чего будет использоваться завершенная модель и / или ожидаемый результат исследовательской работы - рассмотрите контролируемые или неконтролируемые методы.
  • Есть ли у вас доступ к данным для ответа на второй пункт выше, или вам нужно больше или другие данные?
  • Какая временная шкала и / или временная шкала данных представляют интерес?
  • Что такое переменная реакции моделирования? Как это описывается и определяется?
  • Это проблема классификации или регрессии?
  • Какие результаты будут предоставлены после этого проекта моделирования?

По мере того, как вы разрабатываете ответы на эти вопросы и шаги, описанные при выявлении проблем, вы не только получите целенаправленную траекторию работы, но также получите ключевые детали, необходимые для документации модели. Кроме того, вы свяжете свой анализ данных с бизнес-потребностями, которые, возможно, в первую очередь мотивировали работу. Если вы четко определите свою работу в области науки о данных, у вас будет структура для успешной реализации, которая работает в любой отрасли.

Чтобы получать обновления о DSM, зарегистрируйтесь здесь.