Это короткий пост, содержащий информацию о двух полезных материалах для обсуждения работы с отсутствующими переменными, предназначенный для публичного обмена моими быстрыми исследованиями и, прежде всего, для меня в будущем!
1. Слайд «Стратегия вменения»
Вот ссылка на презентацию.
Эта презентация была создана Юдзи Хирамацу, одним из авторов книги Методы анализа данных для победы в Kaggle, о которой я сейчас пишу серию постов на Medium. Слайд был представлен на мероприятии Kaggle Days в Токио в декабре прошлого года.
Слайд-колода охватывает:
- Три архетипа отсутствия: MCAR, MAR и NMAR
- Возможные решения (методы исключения и методы вменения)
- Возможные предубеждения по каждому решению и каждому отсутствующему архетипу
- Результаты экспериментов с реальными данными о соревнованиях Kaggle, включая сравнение с подходом «запустить модель с отсутствующей переменной», который изначально поддерживается моделями GBDT.
Это должно стать отличным введением для специалистов по данным, которые плохо знакомы с обработкой отсутствующих переменных.
2. Веб-сайт «Гибкое вменение недостающих данных»
Вот ссылка на сайт.
Это веб-сайт с большим количеством страниц с огромным объемом информации о пропущенных значениях (на самом деле это веб-версия книги), и он лучше всего подходит для специалистов по данным, которые хотят узнать больше, помимо материала 1. выше. . Вы можете воспринимать это как продолжение теоретической части.
В нем также рассматриваются различные подходы, которые могут быть использованы для различных типов наборов данных (например, одномерные данные, многомерные данные и т. д.), а также некоторые упоминания о влиянии на причинно-следственные связи.
Вот и все на этот раз. Спасибо!