Это короткий пост, содержащий информацию о двух полезных материалах для обсуждения работы с отсутствующими переменными, предназначенный для публичного обмена моими быстрыми исследованиями и, прежде всего, для меня в будущем!

1. Слайд «Стратегия вменения»

Вот ссылка на презентацию.

Эта презентация была создана Юдзи Хирамацу, одним из авторов книги Методы анализа данных для победы в Kaggle, о которой я сейчас пишу серию постов на Medium. Слайд был представлен на мероприятии Kaggle Days в Токио в декабре прошлого года.

Слайд-колода охватывает:

  • Три архетипа отсутствия: MCAR, MAR и NMAR
  • Возможные решения (методы исключения и методы вменения)
  • Возможные предубеждения по каждому решению и каждому отсутствующему архетипу
  • Результаты экспериментов с реальными данными о соревнованиях Kaggle, включая сравнение с подходом «запустить модель с отсутствующей переменной», который изначально поддерживается моделями GBDT.

Это должно стать отличным введением для специалистов по данным, которые плохо знакомы с обработкой отсутствующих переменных.

2. Веб-сайт «Гибкое вменение недостающих данных»

Вот ссылка на сайт.

Это веб-сайт с большим количеством страниц с огромным объемом информации о пропущенных значениях (на самом деле это веб-версия книги), и он лучше всего подходит для специалистов по данным, которые хотят узнать больше, помимо материала 1. выше. . Вы можете воспринимать это как продолжение теоретической части.

В нем также рассматриваются различные подходы, которые могут быть использованы для различных типов наборов данных (например, одномерные данные, многомерные данные и т. д.), а также некоторые упоминания о влиянии на причинно-следственные связи.

Вот и все на этот раз. Спасибо!