В предыдущей статье мы представили Data Science Method (DSM) как подход структурированного мышления к решению задач Data Science. Далее мы более подробно рассмотрим первый и самый важный шаг - выявление проблемы. Дополнительные шаги DSM будут подробно описаны в следующих статьях.
1. Выявление проблемы (эта статья)
3. Исследовательский анализ данных
4. Предварительная обработка и разработка данных для обучения
6. Документация
1. Выявление проблемы
Выявление проблемы - это самый первый и важный шаг к успешному проекту в области науки о данных.
Начните с определения цели проекта по науке о данных. Задайте вопрос: это исследовательский проект или проект прогнозного моделирования? Если ответ будет исследовательским, то с самого начала может потребоваться меньше планирования, чтобы обеспечить интересные и значимые результаты. У вас могут возникнуть вопросы о том, как определить, является ли проект исследовательским или прогнозным, поэтому давайте рассмотрим несколько примеров. Вам могут дать набор данных для проекта и задать такие вопросы, как:
- Обработайте данные - какие важные выводы вы можете сделать?
- Что вы можете рассказать о продажах за последний год?
- Какие у нас клиенты?
Все три приведенных выше вопроса указывают на то, что вы работаете над исследовательским проектом данных - вы явно не прогнозируете какую-либо переменную ответа, которая будет применяться к будущему набору данных. Что касается первого вопроса, у вас есть возможность потратить бесчисленное количество дней, просматривая данные тысячами разных способов. Чтобы применить некоторые необходимые ограничения к анализу, вы можете переформулировать открытый вопрос на несколько более конкретных вопросов, которые можно использовать с помощью принципов SMART. На два других вопроса так же сложно ответить, не следуя структурированному мышлению и не определив контекст, критерии успеха и заинтересованные стороны. Это помогает определить предполагаемое использование конечного продукта. Для исследовательского проекта попробуйте выдвинуть гипотезу о ценных результатах , прежде чем начнете. Давайте перефразируем три приведенных выше вопроса, чтобы они были действенными.
Исходный вопрос: обработайте данные и сообщите нам, какие важные выводы вы можете почерпнуть.
Пересмотренный вопрос: какова сводная статистика этого набора данных и что мы знаем о контексте данных, которые мы можем исследовать для дальнейшего изучения влияния на бизнес?
Исходный вопрос: Что вы можете сказать о продажах за последний год?
Пересмотренный вопрос: какой продукт мы продаем чаще всего и сколько мы продали каждый квартал за последний год?
Исходный вопрос: Какие у нас клиенты?
Исправленный вопрос: каков средний возраст, доход и местонахождение наших клиентов?
Когда вы посмотрите на различия между исходным вопросом и исправленным вопросом, вы, надеюсь, увидите, что исправленные вопросы теперь представляют собой формулировки проблемы, на которые вы можете использовать анализ науки о данных, чтобы ответить на них. Разработка пересмотренных вопросов может потребовать определенных усилий с вашей стороны - вам может потребоваться вернуться к заинтересованным сторонам для получения обратной связи, прежде чем полностью определить проблему и основную цель анализа. Обязательно спросите себя, подтверждают ли данные, к которым у вас есть доступ, вопрос, на который вы пытаетесь ответить. Если нет, спросите !!
Если ваша цель - оценить вариативные корреляции и многомерные взаимодействия набора данных, то первоначальные мотивы проекта по науке о данных должны быть более четко определены.
Ниже описан пошаговый подход к выявлению проблем, первый шаг в DSM. Определение каждого из этих пунктов в начале проекта приведет ваш проект к плодотворному результату.
Шаги по выявлению проблемы:
- Формирование постановки проблемы
- Контекст
- Критерии успеха
- Объем пространства решений
- Ограничения
- Заинтересованные стороны
- Источники данных
Вот список общих вопросов, которые помогут вам приступить к определению вышеперечисленных шагов для выявления проблемы.
- Является ли цель этого проекта исследовательской или прогнозной?
- Определите, для чего будет использоваться завершенная модель и / или ожидаемый результат исследовательской работы - рассмотрите контролируемые или неконтролируемые методы.
- Есть ли у вас доступ к данным для ответа на второй пункт выше, или вам нужно больше или другие данные?
- Какая временная шкала и / или временная шкала данных представляют интерес?
- Что такое переменная реакции моделирования? Как это описывается и определяется?
- Это проблема классификации или регрессии?
- Какие результаты будут предоставлены после этого проекта моделирования?
По мере того, как вы разрабатываете ответы на эти вопросы и шаги, описанные при выявлении проблем, вы не только получите целенаправленную траекторию работы, но также получите ключевые детали, необходимые для документации модели. Кроме того, вы свяжете свой анализ данных с бизнес-потребностями, которые, возможно, в первую очередь мотивировали работу. Если вы четко определите свою работу в области науки о данных, у вас будет структура для успешной реализации, которая работает в любой отрасли.
Чтобы получать обновления о DSM, зарегистрируйтесь здесь.