Ниже приведены различные этапы процесса предиктивной аналитики.
- Понимание и определение проблемы
- Сбор и подготовка данных
- Понимание данных с использованием исследовательского анализа данных (EDA)
- Построение модели
- Оценка модели
- Связь и/или развертывание
Понимание и определение проблемы
Цель: понять проблему, определить требования с точки зрения бизнеса, определить требования с технической точки зрения, такие как список функций, формат функций, количество необходимых наблюдений или размер набора данных. должно быть, определите цели прогностической модели и то, как будет выглядеть потенциальное решение.
Сбор и подготовка данных
Цель. Получить набор данных, готовый для анализа. Извлекайте данные из соответствующих источников, выявляйте проблемы (например, отсутствующие значения и выбросы) с данными, которые могут повлиять на требования, оценивайте эффективность данных заинтересованными сторонами и принимайте корректирующие меры, если таковые имеются, для корректировки требований из-за ограничений данных.
Понимание набора данных с использованием EDA (исследовательский анализ данных)
Цель: понять свой набор данных.
После того, как мы собрали набор данных, пришло время понять его с помощью EDA, который представляет собой комбинацию числовых методов и методов визуализации. Методы позволяют нам понять различные характеристики набора данных, его переменных и потенциальных взаимосвязей между ними. Обратите внимание, что анализ набора данных может носить регрессивный характер. Например, мы можем начать наш анализ, мы можем понять, что три функции избыточны или что вам может потребоваться объединить некоторые функции, чтобы создать новую. Это может привести к тому, что мы снова вернемся к сбору или подготовке данных, прежде чем мы убедимся, что у нас есть правильные данные, и сейчас самое время начать анализ.
В рамках анализа данных мы отвечаем на следующие вопросы:
- Какие типы переменных есть в наборе данных?
- Как выглядят их дистрибутивы?
- Есть ли еще пропущенные значения?
- Есть ли лишние переменные?
- Какие отношения между функциями?
- Обнаружены ли выбросы?
- Как разные пары функций соотносятся друг с другом?
- Имеют ли смысл эти корреляции?
- Какова связь между функциями и целью?
Чтобы убедиться, что мы не отвлекаемся от наших общих целей, мы должны руководствоваться целью проекта. Как только мы получим удовлетворительные ответы на вышеупомянутые вопросы, мы перейдем к следующему этапу, т.е. построению модели.
Построение модели
Цель: создать несколько прогностических моделей, решающих проблему.
На этом этапе мы создаем множество прогностических моделей, которые затем оцениваем, чтобы выбрать лучшую. Мы должны выбрать тип модели, которая будет обучаться или оцениваться. Термин обучение модели связан с машинным обучением, а термин оценка связан со статистикой. Подход, тип модели и процесс обучения/оценки должны определяться проблемой и ее решением.
Попробовав различные подходы, типы моделей и методы тонкой настройки, в конце этого этапа мы можем прийти к некоторым моделям, которые считаются финалистами, и из наиболее многообещающих из которых кандидат победитель выйдет: тот, кто предложит лучшее решение.
Оценка модели
Цель: выбрать лучшую модель из подмножества наиболее перспективных и определить, насколько хорошо модель обеспечивает решение.
Здесь мы оцениваем подмножество «финалистов», чтобы увидеть, насколько хорошо они работают. Как и любой другой этап процесса, оценка определяется проблемой, которую необходимо решить. Обычно для оценки того, насколько хорошо работает модель, используется одна или несколько основных метрик. В зависимости от проекта при оценке модели помимо метрик могут учитываться и другие критерии, такие как расчетные соображения, интерпретируемость, удобство для пользователя и методология, среди прочего. Как и на всех остальных этапах, критерии и метрики для оценки модели следует выбирать с учетом решаемой задачи.
Лучшая модель — это та, которая наилучшим образом решает проблему. Мы должны помнить, что лучшая модель не обязательно должна быть самой причудливой, самой сложной, самой впечатляющей с математической точки зрения, самой эффективной с точки зрения вычислений или самой последней в исследовательской литературе.
Связь и/или развертывание
Цель. Использовать прогнозную модель и ее результаты.
Наконец, модель построена, протестирована и хорошо оценена. Теперь пришло время использовать его. Как будет использоваться модель, зависит от проекта. Иногда результаты и прогнозы будут предметом отчета и/или презентации, которые будут представлены ключевым заинтересованным сторонам.
Иногда модель будет включена как часть программного приложения: веб-приложения, настольного компьютера, мобильного устройства или любого другого типа технологии. В этом случае нам может потребоваться тесное взаимодействие или даже участие в команде разработчиков программного обеспечения, которая включает модель в приложение. Есть и другая возможность: сама модель может стать «продуктом данных». Например, приложение для оценки кредитоспособности, которое использует данные клиентов для расчета вероятности того, что клиент не выполнит обязательства по своей кредитной карте.
Этапы процесса предиктивного анализа очень итеративны, регрессивны, и мы будем переходить от одного этапа к другому. Однако знание логической последовательности этапов очень полезно при выполнении предиктивной аналитики, так как помогает при подготовке и организации работы, а также помогает установить ожидания относительно продолжительности проекта. Последовательность этапов логична в том смысле, что предыдущий этап является предпосылкой для следующего: например, мы не можем провести оценку модели, не построив модель, и после оценки можно сделать вывод, что модель не работает. правильно, поэтому вы возвращаетесь к этапу Построение модели и придумываете другой.
CRISP-DM и другие подходы
Другой популярной платформой для прогнозной аналитики является стандартный межотраслевой процесс интеллектуального анализа данных, более известный под аббревиатурой CRISP-DM, который очень похож на то, что мы только что описал. Эта методология описана в Wirth, R. & Hipp, J. (2000). В этой методологии процесс разбит на шесть основных этапов, показанных на следующей диаграмме. Авторы уточняют, что последовательность фаз не является строгой, хотя стрелками указаны наиболее частые связи между фазами, которые зависят от особенностей проекта или решаемой задачи. Это этапы проекта прогнозной аналитики в этой методологии:
- понимание бизнеса
- Понимание данных
- Подготовка данных
- Моделирование
- Оценка
- Развертывание
Есть и другие способы взглянуть на этот процесс; например, Р. Peng (2016) описывает процесс, используя концепцию эпициклов анализа данных. Для него эпициклами являются следующие:
- Развивайте ожидания
- Собирать данные
- Сопоставьте ожидания с данными
- Сформулируйте вопрос
- Исследовательский анализ данных
- Построение модели
- Интерпретация
- Коммуникация
Слово эпицикл используется для обозначения того факта, что эти этапы взаимосвязаны и являются частью большего колеса, которое представляет собой процесс анализа данных.