Важность категориальных данных в процессе принятия решений и как с ними работать в машинном обучении
Деловые люди, независимо от того, являются ли они специалистами по данным или нет, вполне вероятно, что они ежедневно сталкиваются с категориальными данными в рамках своих стратегических и/или оперативных задач.
Мы используем категориальные данные в нескольких областях, от маркетинга до операций и рисков:
- в маркетинге мы имеем дело с категориальными данными при проведении демографического и поведенческого анализа (например, расы, пола, возрастной группы и уровня образования).
- в операциях мы имеем дело с категориальными данными, когда нам нужно измерить производительность наших процессов с помощью ключевых показателей эффективности (например, количество расследований, выполняемых за каждый день, в нескольких процессах в рамках Операции, например запросы информации о клиентах, претензии, мошенничество, возмещение)
- в риске мы имеем дело с категориальными данными, когда нам нужно применить нашу таксономию рисков в рамках сопоставления корпоративных или операционных рисков, которое мы провели с владельцами процессов/рисков (такими как количество рисков в нескольких областях риска в реестре корпоративных рисков, например, стратегические риски, финансовые риски, операционные риски)
Модели машинного обучения обычно используются в компаниях для решения практических проблем с использованием данных. Самое важное, что может создать или разрушить любую модель машинного обучения, – это данные, лежащие в основе этого проекта или модели.
Производительность модели машинного обучения не только зависит от модели и гиперпараметров, но и от того, как мы обрабатываем и передаем в модель различные типы переменных. сильный>.
Нам нужно знать эти различные типы данных, чтобы провести необходимый анализ:
- Дихотомическая переменная. Дихотомическая переменная — это переменная, которая при измерении принимает только одно из двух возможных значений. Например. Пол Мужской Женский
- Полиномическая переменная.Полиномная переменная — это переменная, которая имеет несколько значений на выбор. Например. Образовательная квалификация: необразованный / бакалавриат / аспирант / докторантура и т. Д.
- Дискретная переменная.Дискретные переменные — это счетные переменные. Например. нет. сотрудников в организации и т. д.
- Непрерывная переменная. Непрерывная переменная — это переменная, которая имеет бесконечное число. возможных значений. Например. температура конкретной области может быть описана как 30 ° C, 30,2 ° C, 30,22 ° C, 30,221 ° C и т. д.
Поскольку большинство моделей машинного обучения принимают только числовые переменные и в большинстве случаев необработанные данные обычно содержат категориальные типы данных, обработка этих категориальных переменных становится необходимым шагом для >понимать и извлекать ценную информацию:
- Что делать с отсутствующими категориальными данными: отсутствующие данные могут повлиять на точность и надежность нашего анализа; поэтому важно знать, что у нас есть несколько способов обработки отсутствующих данных в категориальных переменных (например, удалить отсутствующие данные, заменить их режимом, использовать статистическую модель для вменения отсутствующих данных)
- Преобразование категориальных данных в числовые: чтобы модель машинного обучения могла видеть шаблон и интерпретировать, мы должны включить процесс преобразования этих категориальных столбцов или переменных в числовые с помощью кодирования (например, One-Hot Encoding, Кодировка этикетки)
- Обнаружение выбросов для категориальных данных: для обнаружения выбросов в категориальных переменных нам сначала нужно дискретизировать категориальные переменные и сделать расстояния сопоставимыми друг с другом.
- Связи между категориальными данными: такие данные также могут быть представлены в виде иерархии: может быть необходимо проследить «поток» данных с одного уровня на другой. Источники данных могут иметь сложную базовую структуру, поэтому основная цель любой визуализации данных — представить информацию таким образом, чтобы ее можно было широко использовать.
- Точность модели в случае категориальных данных: данные — это один из самых важных моментов, когда речь идет о получении точного прогноза с помощью модели. Чтобы правильно облегчать данные, данные необходимо понимать. Цель состоит в том, чтобы обработать данные, чтобы использовать весь потенциал категориальных данных и получить представление о функции и большом количестве информации о функции.
- Визуализация категорийных данных: выбор правильного типа диаграммы, цветовой кодировки, маркировки и аннотаций, а также размеров и интервалов имеет решающее значение. У нас есть несколько передовых методов визуализации категориальных данных, таких как древовидные карты, облака слов и диаграммы Санки. Эффективная визуализация категориальных данных может иметь много преимуществ, включая улучшенное понимание данных, возможность быстрого выявления закономерностей и взаимосвязей в данных, а также улучшенную передачу данных другим пользователям.
Источники:
https://towardsdatascience.com/exploratory-data-analysis-dcb5e7189c4e
https://medium.com/@chidiebere.vincent/handling-categorical-data-in-machine-learning-9fde3763716e
https://chifi.dev/categorical-data-vs-continuous-data-everything-you-need-to-know-36c2a0dbf6c
https://thesidvizstudio.medium.com/data-visualization-for-categorical-data-2f0fc264ef00
https://www.analyticsvidhya.com/blog/2020/08/types-of-categorical-data-encoding/