Отсутствующие данные — это проблема, которая часто возникает в науке о данных и машинном обучении. Существует множество причин, по которым данные могут отсутствовать, в зависимости от типа данных и методов сбора. Не все отсутствующие данные одинаковы. В этой статье мы обсудим отсутствующие данные и различные типы отсутствующих данных.

Причины отсутствия данных

Отсутствующие данные могут быть вызваны различными ситуациями — хотя в идеале мы бы не хотели, чтобы данные были потеряны, часто причины находятся вне нашего контроля. Например, в опросе могут отсутствовать данные из-за того, что некоторые респонденты намеренно пропускают вопросы. Другой пример — при работе с данными с датчиков могут возникнуть аппаратные сбои, препятствующие сбору данных. В обоих случаях отсутствующие данные действительно нельзя было предотвратить — нет (этичного) способа заставить респондентов отвечать на все вопросы или обеспечить постоянную работу оборудования.

Отсутствующие функции

Прежде чем углубиться в отсутствующие данные, давайте поговорим об отсутствующих функциях, что означает невозможность собрать все функции целиком. Например, концентрация углекислого газа в атмосфере от смарт-часов, не оснащенных соответствующими датчиками, будет отсутствовать.

Отсутствующие функции возникают, когда функция не может быть собрана из-за осуществимости, стоимости и / или конфиденциальности. Для осуществимости может не быть практического способа измерения желаемой функции. В этих случаях мы можем измерить функцию, которая может служить прокси или быть связана с желаемой функцией. Например, нет подходящего датчика для умных часов, который бы напрямую измерял пройденное расстояние. Чтобы обойти это, многие смарт-часы используют акселерометр и GPS — акселерометры могут давать ускорение, которое можно связать с пройденным расстоянием с помощью кинематических уравнений, а GPS может давать точки, где физически находился пользователь, которые можно использовать для расчета расстояния.

С точки зрения стоимости сбор данных может быть дорогим или занимать очень много времени. Например, если вы собираете данные о здоровье, компьютерная томография и МРТ могут быть очень исчерпывающими сигналами, но они могут быть очень дорогостоящими, поэтому их можно не собирать. Обходной путь состоит в том, чтобы рассмотреть, какие возможные заменители и что наиболее важно собрать.

Наконец, отсутствующие функции могут возникать из соображений конфиденциальности. Например, пользователи домашних интеллектуальных устройств могут не захотеть постоянно отслеживать свою активность и разговоры, даже если это может быть полезно для создания лучшего программного обеспечения. Для отсутствующих функций, связанных с конфиденциальностью, важно пересмотреть этику и четко сообщить пользователям об их данных.

Важно отметить различие между отсутствующими функциями и отсутствующими данными. Отсутствующие признаки вообще не собираются и не являются частью набора данных. Принимая во внимание, что отсутствующие данные возникают для объектов, которые собираются и являются частью набора данных (поэтому с отсутствующими данными у нас есть некоторые точки данных, но не все).

Структурно отсутствующие данные

Это относится к отсутствующим данным, которые можно объяснить и которые не связаны со случайностью. Для этого типа отсутствующих данных существует неотъемлемая причина или структура, которая оправдывает отсутствующие данные.

Например, допустим, вы собираете данные о возрасте первенца человека. Если у человека нет ребенка, то этого признака для этого человека не существует, и его нельзя собрать. Другой пример — сбор данных о частоте сердечных сокращений с носимых устройств. Если некоторые из используемых носимых устройств относятся к более старым версиям и не предоставляют эту информацию, ее невозможно собрать. В обоих примерах отсутствующие данные имеют четкую связь с другим признаком, объясняющим, почему они отсутствуют (т. е. человек, у которого нет детей, объясняет, почему отсутствует возраст их первенца; скорость чтения отсутствует).

Вывод заключается в том, что при отсутствии структурных данных причина их отсутствия может быть логически объяснена другими функциями. Он отличается от следующих трех типов отсутствующих данных, потому что в нем нет элемента случайности.

Чтобы устранить структурно отсутствующие данные, общий подход состоит в том, чтобы отбросить / опустить эти отсутствующие точки данных. Учитывая, что отсутствующие данные и имеющиеся данные разделены по ясной и объяснимой причине, они представляют разные совокупности и могут рассматриваться как таковые.

Пропущено случайное завершение (MCAR)

Это относится к случаям, когда данные отсутствуют и совершенно не связаны с какими-либо функциями или атрибутами. Данные просто отсутствуют случайно. Нет ни одной особенности, наблюдаемой/измеренной или ненаблюдаемой/не измеренной, которая влияет на отсутствующие данные.

Отсутствующие данные, являющиеся MCAR, могут упростить наши решения по работе с отсутствующими данными. Поскольку здесь нечего рассматривать или контролировать, мы можем рассматривать отсутствующие данные как любую другую точку данных, которую мы наблюдали. Это позволяет нам либо принять приближение, основанное на доступных данных, либо отбросить точку данных. Мы можем просто аппроксимировать отсутствующие данные статистикой, такой как среднее значение, медиана или мода. В качестве альтернативы, если процент отсутствующих данных невелик или у нас много доступных данных, то удаление этих конкретных точек данных также целесообразно.

MCAR является очень сильным состоянием и редко является реальностью. Часто, когда данные отсутствуют, для этого есть причина, которая делает их недействительными как MCAR. Однако иногда мы можем предположить MCAR в зависимости от того, насколько слаба связь между функциями и отсутствующими данными. Например, предположим, что мы собираем данные со смарт-часов, и эти данные необходимо передать через Интернет, иногда может произойти сбой соединения. Когда это происходит, данные отсутствуют, поэтому надежность Интернета связана с отсутствующими данными, а отсутствующие данные не являются MCAR. (Примечание: хотя надежность интернета связана с отсутствующими данными, структурно это не является отсутствующими данными, поскольку сбой соединения является случайным и не всегда гарантированным). Если мы считаем, что эта проблема сама по себе является случайной или влияет только на очень небольшой объем данных, предположение, что отсутствующие данные являются MCAR, позволяет нам быстро устранить недостающие данные (т. е. вменить статистику или удалить) и продолжить наш анализ .

Отсутствует случайным образом (MAR)

Это относится к случайному отсутствию данных из-за других переменных в наборе данных. В MAR отсутствующие данные связаны с другими собранными нами функциями.

Возвращаясь к нашему примеру с умными часами, представьте, что мы также собрали данные о типе/марке самих часов вместе с данными датчика. Если модель отсутствия данных отличается для разных брендов и типов (например, часы компании А работают намного лучше и с меньшей вероятностью будут иметь проблемы со сбором/отправкой данных), то это считается MAR. Чтобы провести различие между другими типами отсутствующих данных: структурно отсутствующие данные будут иметь место, когда наблюдаемая функция, бренд или тип, являясь определенной ценностью, всегда приводит к отсутствию данных (например, часы компании B никогда не собирают определенную функцию) и MCAR будет иметь место, когда нет никакой связи между функциями и отсутствующими данными (например, бренд и тип не коррелируют с отсутствующими данными).

Для MCAR решение для отсутствующих данных состоит в том, чтобы заполнить статистику (например, среднее значение, медиана, мода) и контролировать функцию (ы). Например, замена отсутствующих данных средним значением доступных данных смарт-часов той же марки/типа (например, замена отсутствующих данных для смарт-часов компании А средним значением доступных данных часов только компании А). Другим решением является создание модели (например, линейной или логистической регрессии), которая берет связанные функции и предсказывает желаемую функцию, используя доступные данные.

Как правило, MAR является более реалистичным сценарием отсутствия данных, чем MCAR.

Отсутствует не случайно (MNAR)

Это относится к случаям случайного отсутствия данных по ненаблюдаемым причинам. Функция, вызывающая это, не измеряется и не наблюдается (как в MCAR) и существует вне набора данных.

Возвращаясь к примеру со смарт-часами, если бы у нас были отсутствующие данные, связанные с уровнями азота, и уровни азота не могли быть собраны, отсутствующие данные были бы MCAR. Обратите внимание, что рассматриваемая особенность не наблюдается.

Кроме того, MNAR может происходить с неизвестными функциями, что, возможно, делает его самым широким типом для отсутствующих данных. Поскольку MNAR может включать неизвестные функции, технически все отсутствующие данные могут быть классифицированы как MNAR. Однако это нежелательный результат, поскольку разрешение данных MNAR затруднено, поскольку отсутствующие данные привязаны к неизвестному или ненаблюдаемому. В результате методов условного исчисления и моделирования недостаточно. Кроме того, удаление данных может быть проблемой, поскольку это может привести к игнорированию важного базового шаблона. В конечном счете, любой анализ с помощью MNAR может быть ошибочным или неполным.

По этим причинам следует избегать данных MNAR, поскольку средств защиты не так много. В процессе сбора данных подумайте, как сократить количество недостающих данных, и постарайтесь зафиксировать как можно больше связанных функций.

Заключение

Отсутствующие данные — распространенная проблема при работе с данными. В этой статье мы рассмотрели четыре типа отсутствующих данных: структурно отсутствующие, отсутствующие полностью случайно (MCAR), отсутствующие случайно (MAR) и отсутствующие неслучайно (MNAR).