Исследовательский анализ данных (EDA) — Часть 2

В предыдущей части мы обсудили первые несколько шагов в процессе исследовательского анализа данных, таких как идентификация переменных, одномерный анализ и т. Д. Теперь мы собираемся больше узнать о двумерном анализе и других шагах в EDA.

Двумерный анализ

В двумерном анализе мы находим взаимосвязь между двумя переменными. Переменные могут быть любой комбинацией непрерывных или категориальных переменных. Для разных комбинаций переменных используются разные методы.

Непрерывный и непрерывный

Диаграммы рассеяния лучше всего подходят для двух непрерывных переменных. Характер графиков рассеяния указывает на взаимосвязь между переменными. Диаграммы рассеяния могут показать взаимосвязь, но не силу взаимосвязи между переменными, для этого мы используем корреляцию, которая варьируется от -1 до +1, где -1 показывает идеальную отрицательную линейную корреляцию, 0 показывает отсутствие корреляции и +1 показывает идеальную положительную линейную корреляцию. между переменными.

Из нашего примера набора данных мы видим, что почти нет корреляции между «Возрастом» и «Проездом», где оба являются непрерывными переменными.

Мы видим, что корреляция между возрастом и стоимостью проезда составляет 0,096067, что является очень слабой корреляцией.

Категоричность и категоричность

Существуют различные методы, которые можно использовать для поиска связи между двумя категориальными переменными.

Двухсторонний стол

В методе двусторонней таблицы мы начинаем анализировать отношения с создания двусторонней таблицы количества или количества%, где строки представляют категорию одной переменной, а столбцы представляют категории другой переменной.

Столбчатая диаграмма с накоплением

Двусторонняя таблица не является визуальным методом, чтобы получить визуальную форму двусторонней таблицы, мы используем столбчатую диаграмму с накоплением.

критерий хи-квадрат

Этот тест используется для определения наличия статистически значимой разницы между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях в двусторонней таблице. Он в основном используется для получения статистической значимости взаимосвязи между переменными. Он возвращает вероятность для вычисленного распределения хи-квадрат со степенью свободы.

Если вероятность равна 0, то переменные зависимы.
Если вероятность равна 1, то переменные независимы.
Если вероятность ‹ 0,05, то взаимосвязь между переменными значима с доверительной вероятностью 95%.

Мы собираемся использовать библиотеку SciPy для теста хи-квадрат,

Как мы видим, значение p очень меньше, и мы можем отвергнуть нулевую гипотезу, следовательно, мы можем сделать вывод, что выживание пассажира зависит от его P-класса. Здесь мы установили взаимосвязь между «Pclass» и «Survived», обе из которых являются категориальными переменными.

Категориальный и непрерывный

Коробчатые диаграммы действительно эффективны при изучении связи между категориальными и непрерывными переменными. Чтобы получить статистическую значимость, мы можем выполнить два типа тестов:

Z-тест/Т-тест

Оба теста оценивают, статистически отличаются ли средние значения двух групп друг от друга или нет. T-тест отличается от Z-теста тем, что он используется, когда количество наблюдений для обеих категорий меньше 30.

Анова

Этот тест оценивает, статистически отличается ли среднее значение более чем двух групп. Мы использовали библиотеку обучения Scikit для импорта f_classif из feature_selection, которая реализует тест Anova.

После прохождения различных шагов, чтобы понять переменные и найти взаимосвязь между переменными, нам нужно найти способ обработки отсутствующих значений переменных, если таковые имеются. Отсутствие данных в наборе данных может снизить точность модели машинного обучения и привести к необъективности модели.

В нашем примере набора данных мы обнаружили, что в столбце «Каюта» отсутствует почти 70% данных, поэтому мы исключили этот столбец из нашего набора данных. Теперь мы увидим различные другие способы работы с отсутствующими значениями в наборе данных.

Как быть с пропущенными значениями?

Обычно отсутствующие значения в наборе данных возникают на двух этапах: извлечение данных и сбор данных. Ошибки на этапе извлечения данных, как правило, легко найти и очень легко исправить, но ошибки, возникающие во время сбора данных, исправить сложнее. Ошибки при сборе данных бывают четырех категорий:

Отсутствует совершенно случайно

В этой категории вероятность пропущенных значений одинакова для всех наблюдений.

Отсутствует случайным образом

В этой категории соотношение пропущенных значений различно для разных значений или уровня других входных переменных.

Отсутствует, зависит от ненаблюдаемых предикторов

В этой категории эти пропущенные значения не являются случайными, а связаны с ненаблюдаемой входной переменной.

Отсутствует, что зависит от самого отсутствующего значения

В этой категории вероятность пропущенного значения напрямую связана с самим пропущенным значением.

Существуют различные методы обработки пропущенных значений. Некоторые из них,

Удаление

Одним из способов обработки отсутствующих значений является их удаление из набора данных. Существует два типа удаления.

Разумное удаление списка

При удалении по списку мы удаляем наблюдения, в которых отсутствует какая-либо переменная. Но это снижает мощность модели машинного обучения, поскольку уменьшает размер выборки. Таким образом, если мы применим удаление списка в нашем наборе данных, нам придется удалить почти 70% нашего набора данных.

Чтобы избежать этого, мы полностью убрали столбец «Каюта». Так что остальные наблюдения и размер выборки значительно все еще велики.

Попарное удаление

При попарном удалении мы проводим анализ со всеми случаями, в которых присутствуют интересующие переменные. Недостатком попарного удаления является то, что для разных переменных используется разный размер выборки.

Обратите внимание, что методы удаления обычно используются, когда природа отсутствующих данных «отсутствует полностью случайным образом», в противном случае никакие случайные отсутствующие значения не могут исказить выходные данные модели.

Среднее значение/мода/медианное вменение

В этом методе мы вводим пропущенные значения с оценочными значениями, которые имеют отношение, такое как среднее, медиана или мода. Мы берем среднее значение или медиану для количественного атрибута, а моду для качественного атрибута.

Мы собираемся работать с нашим примером и обрабатывать отсутствующие значения в переменной «Возраст». Как мы видели, в столбце «Возраст» пропущено почти 177 значений.

Если мы посмотрим на имена пассажиров в наборе данных, то увидим, что имена имеют такие титулы, как мистер, миссис, мастер и т. д. Мы собираемся извлечь эти титулы (мистер/миссис/мисс/мастер) из имена пассажиров. Мы собираемся сгруппировать эти заголовки.

Теперь давайте разберем взаимосвязь между титулами и возрастом, используя блочную диаграмму.

Теперь мы вводим отсутствующее значение возраста, находя медиану возраста в каждом названии.

Теперь мы делаем то же самое для переменных «Embarked» и «Fare», но мы просто используем fillna() и вменяем моду и медиану соответственно, так как есть только 1-2 пропущенных значения.

Модель прогнозирования

В этом методе мы создадим модель прогнозирования, которая прогнозирует значение, которое заменит отсутствующие значения. Для этого нам нужно разделить набор данных на два: один без пропущенных значений, а другой с пропущенными значениями. Затем первый набор данных становится набором данных для обучения, а второй набор данных становится набором данных для тестирования.

KNN вменение

В методе K ближайших соседей отсутствующие значения атрибута вменяются с использованием заданного количества атрибутов, наиболее похожих на атрибут, значения которого отсутствуют. Сходство двух атрибутов определяется с помощью функции расстояния.

Мы использовали Sklearn's KNNImputer, чтобы заполнить недостающие значения.

Мы увидели различные этапы исследовательского анализа данных и то, как этот анализ можно использовать для обработки отсутствующих значений в наборе данных, чтобы улучшить нашу модель машинного обучения. В следующей части мы узнаем больше об обнаружении и обработке EDA и выбросов.

Ссылка,

Полное руководство, в котором подробно рассказывается об исследовании данных
Полное руководство по исследованию данных (EDA) Мы охватываем несколько аспектов исследования данных, включая отсутствующую ценность…www. analyticsvidhya.com

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning