В предыдущей части мы обсудили первые несколько шагов в процессе исследовательского анализа данных, таких как идентификация переменных, одномерный анализ и т. Д. Теперь мы собираемся больше узнать о двумерном анализе и других шагах в EDA.

Двумерный анализ

В двумерном анализе мы находим взаимосвязь между двумя переменными. Переменные могут быть любой комбинацией непрерывных или категориальных переменных. Для разных комбинаций переменных используются разные методы.

Непрерывный и непрерывный

Диаграммы рассеяния лучше всего подходят для двух непрерывных переменных. Характер графиков рассеяния указывает на взаимосвязь между переменными. Диаграммы рассеяния могут показать взаимосвязь, но не силу взаимосвязи между переменными, для этого мы используем корреляцию, которая варьируется от -1 до +1, где -1 показывает идеальную отрицательную линейную корреляцию, 0 показывает отсутствие корреляции и +1 показывает идеальную положительную линейную корреляцию. между переменными.

Из нашего примера набора данных мы видим, что почти нет корреляции между «Возрастом» и «Проездом», где оба являются непрерывными переменными.

Мы видим, что корреляция между возрастом и стоимостью проезда составляет 0,096067, что является очень слабой корреляцией.

Категоричность и категоричность

Существуют различные методы, которые можно использовать для поиска связи между двумя категориальными переменными.

Двухсторонний стол

В методе двусторонней таблицы мы начинаем анализировать отношения с создания двусторонней таблицы количества или количества%, где строки представляют категорию одной переменной, а столбцы представляют категории другой переменной.

Столбчатая диаграмма с накоплением

Двусторонняя таблица не является визуальным методом, чтобы получить визуальную форму двусторонней таблицы, мы используем столбчатую диаграмму с накоплением.

критерий хи-квадрат

Этот тест используется для определения наличия статистически значимой разницы между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях в двусторонней таблице. Он в основном используется для получения статистической значимости взаимосвязи между переменными. Он возвращает вероятность для вычисленного распределения хи-квадрат со степенью свободы.

  • Если вероятность равна 0, то переменные зависимы.
  • Если вероятность равна 1, то переменные независимы.
  • Если вероятность ‹ 0,05, то взаимосвязь между переменными значима с доверительной вероятностью 95%.

Мы собираемся использовать библиотеку SciPy для теста хи-квадрат,

Как мы видим, значение p очень меньше, и мы можем отвергнуть нулевую гипотезу, следовательно, мы можем сделать вывод, что выживание пассажира зависит от его P-класса. Здесь мы установили взаимосвязь между «Pclass» и «Survived», обе из которых являются категориальными переменными.

Категориальный и непрерывный

Коробчатые диаграммы действительно эффективны при изучении связи между категориальными и непрерывными переменными. Чтобы получить статистическую значимость, мы можем выполнить два типа тестов:

Z-тест/Т-тест

Оба теста оценивают, статистически отличаются ли средние значения двух групп друг от друга или нет. T-тест отличается от Z-теста тем, что он используется, когда количество наблюдений для обеих категорий меньше 30.

Анова

Этот тест оценивает, статистически отличается ли среднее значение более чем двух групп. Мы использовали библиотеку обучения Scikit для импорта f_classif из feature_selection, которая реализует тест Anova.

После прохождения различных шагов, чтобы понять переменные и найти взаимосвязь между переменными, нам нужно найти способ обработки отсутствующих значений переменных, если таковые имеются. Отсутствие данных в наборе данных может снизить точность модели машинного обучения и привести к необъективности модели.

В нашем примере набора данных мы обнаружили, что в столбце «Каюта» отсутствует почти 70% данных, поэтому мы исключили этот столбец из нашего набора данных. Теперь мы увидим различные другие способы работы с отсутствующими значениями в наборе данных.

Как быть с пропущенными значениями?

Обычно отсутствующие значения в наборе данных возникают на двух этапах: извлечение данных и сбор данных. Ошибки на этапе извлечения данных, как правило, легко найти и очень легко исправить, но ошибки, возникающие во время сбора данных, исправить сложнее. Ошибки при сборе данных бывают четырех категорий:

Отсутствует совершенно случайно

В этой категории вероятность пропущенных значений одинакова для всех наблюдений.

Отсутствует случайным образом

В этой категории соотношение пропущенных значений различно для разных значений или уровня других входных переменных.

Отсутствует, зависит от ненаблюдаемых предикторов

В этой категории эти пропущенные значения не являются случайными, а связаны с ненаблюдаемой входной переменной.

Отсутствует, что зависит от самого отсутствующего значения

В этой категории вероятность пропущенного значения напрямую связана с самим пропущенным значением.

Существуют различные методы обработки пропущенных значений. Некоторые из них,

Удаление

Одним из способов обработки отсутствующих значений является их удаление из набора данных. Существует два типа удаления.

Разумное удаление списка

При удалении по списку мы удаляем наблюдения, в которых отсутствует какая-либо переменная. Но это снижает мощность модели машинного обучения, поскольку уменьшает размер выборки. Таким образом, если мы применим удаление списка в нашем наборе данных, нам придется удалить почти 70% нашего набора данных.

Чтобы избежать этого, мы полностью убрали столбец «Каюта». Так что остальные наблюдения и размер выборки значительно все еще велики.

Попарное удаление

При попарном удалении мы проводим анализ со всеми случаями, в которых присутствуют интересующие переменные. Недостатком попарного удаления является то, что для разных переменных используется разный размер выборки.

Обратите внимание, что методы удаления обычно используются, когда природа отсутствующих данных «отсутствует полностью случайным образом», в противном случае никакие случайные отсутствующие значения не могут исказить выходные данные модели.

Среднее значение/мода/медианное вменение

В этом методе мы вводим пропущенные значения с оценочными значениями, которые имеют отношение, такое как среднее, медиана или мода. Мы берем среднее значение или медиану для количественного атрибута, а моду для качественного атрибута.

Мы собираемся работать с нашим примером и обрабатывать отсутствующие значения в переменной «Возраст». Как мы видели, в столбце «Возраст» пропущено почти 177 значений.

Если мы посмотрим на имена пассажиров в наборе данных, то увидим, что имена имеют такие титулы, как мистер, миссис, мастер и т. д. Мы собираемся извлечь эти титулы (мистер/миссис/мисс/мастер) из имена пассажиров. Мы собираемся сгруппировать эти заголовки.

Теперь давайте разберем взаимосвязь между титулами и возрастом, используя блочную диаграмму.

Теперь мы вводим отсутствующее значение возраста, находя медиану возраста в каждом названии.

Теперь мы делаем то же самое для переменных «Embarked» и «Fare», но мы просто используем fillna() и вменяем моду и медиану соответственно, так как есть только 1-2 пропущенных значения.

Модель прогнозирования

В этом методе мы создадим модель прогнозирования, которая прогнозирует значение, которое заменит отсутствующие значения. Для этого нам нужно разделить набор данных на два: один без пропущенных значений, а другой с пропущенными значениями. Затем первый набор данных становится набором данных для обучения, а второй набор данных становится набором данных для тестирования.

KNN вменение

В методе K ближайших соседей отсутствующие значения атрибута вменяются с использованием заданного количества атрибутов, наиболее похожих на атрибут, значения которого отсутствуют. Сходство двух атрибутов определяется с помощью функции расстояния.

Мы использовали Sklearn's KNNImputer, чтобы заполнить недостающие значения.

Мы увидели различные этапы исследовательского анализа данных и то, как этот анализ можно использовать для обработки отсутствующих значений в наборе данных, чтобы улучшить нашу модель машинного обучения. В следующей части мы узнаем больше об обнаружении и обработке EDA и выбросов.

Ссылка,