Что такое выбросы?

По сути, выбросы — это точки данных, отклоняющиеся от тренда, шаблона или где-либо еще, где висят другие точки данных.

Проще говоря, выброс — это чрезвычайно высокая или чрезвычайно низкая точка данных по отношению к ближайшей точке данных и остальным соседним сосуществующим значениям на графике данных или наборе данных, с которыми вы работаете.

Выбросы — это экстремальные значения, которые сильно выделяются из общего набора значений в наборе данных или на графике.

Но выбросы являются важной частью набора данных. Они могут содержать полезную информацию о ваших данных.

Выбросы могут дать полезную информацию об изучаемых вами данных и повлиять на статистические результаты. Это потенциально может помочь вам обнаружить несоответствия и любые ошибки в ваших статистических процессах.

Некоторые выбросы представляют собой истинные значения естественной изменчивости населения. Другие выбросы могут быть результатом неправильного ввода данных, неисправности оборудования или других ошибок измерения.

Выбросы не всегда являются формой грязных или неверных данных, поэтому вы должны быть осторожны с ними при очистке данных. То, что вы должны делать с выбросом, зависит от его наиболее вероятной причины.

Истинные выбросы:

Истинные выбросы всегда должны сохраняться в вашем наборе данных, потому что они просто представляют собой естественные вариации в вашей выборке.

Пример. Вы измеряете рост в метрах представителя выборки из 560 студентов колледжа. Ваши данные обычно распределяются с парой выбросов на обоих концах.

Как и ожидалось, большинство значений сосредоточено вокруг середины. Но эти экстремальные значения также представляют собой естественные вариации, поскольку на такую ​​переменную, как время работы, влияет множество других факторов.

Истинные выбросы также присутствуют в переменных с асимметричным распределением, когда многие точки данных разбросаны далеко от среднего значения в одном направлении. Важно выбрать подходящие статистические тесты или меры, если у вас есть асимметричное распределение или много выбросов.

Другие выбросы:

Выбросы, которые не представляют истинные значения, могут происходить из многих возможных источников:

  • Ошибки измерения
  • Ошибки ввода или обработки данных
  • Нерепрезентативная выборка

Если значения данных невозможны или явно неверны, их следует удалить. Но если данные не соответствуют вашей модели, следует изменить именно вашу модель, а не данные.

Там, где я живу, обычно не бывает 15-сантиметрового дождя в день, но бывает. Если бы эта точка данных была исключена, это дало бы неверное представление об общем количестве осадков и их распределении.

Для некоторых наборов данных может быть сложно найти подходящие модели, но это не оправдывает отбрасывания данных только потому, что они не соответствуют модели, с которой вы знакомы. Иногда упрощение анализа для возможности использования непараметрического теста является хорошим решением.

Чтобы ответить на ваш вопрос, насколько выбросы влияют на статистический анализ, зависит от анализа. Некоторые методы достаточно устойчивы к выбросам, а некоторые весьма чувствительны. Рассмотрите возможность использования среднего значения или медианы в качестве меры местоположения. Среднее чувствительно к выбросам, а медиана — нет.

Влияние выбросов на данные:

Выбросы оказывают огромное влияние на результат анализа данных и различных статистических показателей.
Вот некоторые из наиболее распространенных эффектов:

  • Если выбросы распределены неслучайно, они могут уменьшить нормальность.
  • Это увеличивает дисперсию ошибок и снижает мощность статистических тестов.
  • Они могут вызвать предвзятость и/или повлиять на окончательные результаты.
  • Они также могут повлиять на основное предположение регрессии, а также на другие статистические модели.

Как определить выбросы с помощью визуализаций?

Визуализация данных в виде коробчатой ​​диаграммы упрощает обнаружение выбросов. На блочной диаграмме будет отображаться «прямоугольник», указывающий межквартильный диапазон (от нижнего квартиля до верхнего квартиля, где середина указывает медианное значение данных), а любые выбросы будут показаны за пределами «усов» графика, каждый сторона, представляющая минимальное и максимальное значения набора данных, соответственно. Если поле наклонено ближе к максимальному усу, заметный выброс будет минимальным значением. Аналогичным образом, если поле наклоняется ближе к усу с минимальным значением, то заметный выброс будет максимальным значением.

Когда следует удалять выбросы?

Может показаться естественным желание удалить выбросы как часть процесса очистки данных. Но на самом деле иногда лучше — даже абсолютно необходимо — оставлять выбросы в наборе данных.

Удаление выбросов исключительно из-за их места в крайних точках вашего набора данных может привести к несоответствиям в ваших результатах, что будет контрпродуктивно для ваших целей. Эти несоответствия могут привести к снижению статистической значимости анализа.