Уменьшение влияния мусора в Garbage Out на модели машинного обучения

Обеспечение хорошего качества данных перед запуском алгоритмов машинного обучения является важным шагом в рамках общего рабочего процесса обработки данных и машинного обучения. Использование данных низкого качества может привести к серьезному ухудшению результатов и иметь дополнительные последствия при принятии решений на основе этих результатов.

Когда мы только начинали заниматься наукой о данных и машинным обучением, наборы данных, которые нам часто представляют на учебных курсах, были очищены и настроены, чтобы дать хороший ответ. Однако в реальном мире все совсем иначе.

Реальные данные часто содержат множество проблем, которые варьируются от отсутствующих значений до ошибочных значений. Если это не решить до ввода данных в модели машинного обучения, это может привести к серьезным последствиям. Эти последствия могут иметь косвенные последствия, такие как финансовые последствия или даже проблемы со здоровьем и безопасностью.

Как говорится, мусор на входе, мусор на выходе. Если мы подаем в наши модели некачественные данные или неправильно подобранные данные, мы можем ожидать, что результат также будет некачественным.

Что такое качество данных?

В Интернете и в статьях есть множество определений того, что такое качество данных.

Наиболее часто используемое определение – «пригодность для использования в определенных целях». Это может включать обеспечение того, чтобы данные подходили для достижения бизнес-целей, принятия обоснованных и эффективных решений и оптимизации будущих операций.

Вот несколько определений из литературы по этому вопросу.

Из Mahanti (2019) - Качество данных: параметры, измерение, стратегия, управление и руководство:

«Качество данных — это способность данных удовлетворять заявленным деловым, системным и техническим требованиям предприятия. Качество данных — это понимание или оценка пригодности данных для служения своей цели в данном контексте».

От Scannapieco & Catarci (2002)

«Термин «качество данных» используется в отношении набора характеристик, которыми должны обладать данные, таких как точность, то есть степень правильности, или актуальность, то есть степень обновления».

А из Хауг, Захариассен и Лимпд (2013)

«Качество данных часто определяется как «пригодность для использования», то есть оценка того, в какой степени некоторые данные служат целям пользователя».

Качество данных также определяется многочисленными руководящими органами и организациями, единственное внимание которых сосредоточено на качестве.

Например, в ISO 9000:2015(2015) качество определяется как «степень, в которой набор неотъемлемых характеристик объекта соответствует требованиям». к свойству, которое существует внутри объекта, а не присваивается.

Норвежский стандарт NS 5801 определяет качество данных как «соответствие заданным требованиям».

Следует отметить, что эти определения относятся к оценке качества данных как к относительному свойству данных, а не как к абсолютному.

Цена низкого качества данных

Влияние использования некачественных данных на бизнес и принятие решений выходит за рамки простого случая отсутствия строк, ошибочных значений и несоответствий.

Это может повлиять на производительность. По Фридману и Смиту низкое качество данных может привести к снижению производительности труда на 20%.

Это также было определено как основная причина, по которой 40% новых бизнес-инициатив терпят неудачу.

В денежном выражении, согласно Опросу рынка качества Gartner, низкое качество данных может стоить организациям до 15 миллионов долларов в год. Кроме того, по данным IBM, это может стоить экономике США более 3,1 триллиона долларов в год.

Другие воздействия включают:

  • Ущерб бренду и репутации
  • Неэффективность
  • Упущенные возможности
  • Потеря дохода

Параметры качества данных

Как видно выше, ряд определений относится к измерениям или характеристикам для определения относительного качества данных.

Есть 6 ключевых аспектов, которым соответствует большинство публикаций. Давайте посмотрим на них поближе.

Полнота. Это мера того, присутствуют ли все необходимые данные в наборе данных и соответствуют ли они целям проекта, над которым ведется работа. Если присутствуют отсутствующие данные, то должно быть ясно, как они обрабатываются.

Кроме того, значения по умолчанию также следует проверять в данных, поскольку они могут создать иллюзию полноты.

Если данные отсутствуют в нашем наборе данных, это может создать вводящие в заблуждение тенденции и исказить результаты нашего анализа.

Точность. Этомера того, насколько точно данные отражают описываемый объект.

Другими словами, насколько хорошо данные отражают реальность?

Своевременность. Это мера доступности данных, когда они необходимы для принятия решений. Имеются ли данные, над которыми ведется работа, последней версии, доступной для соответствующей интерпретации?

Мы постоянно меняем номера телефонов, домашние адреса и адреса электронной почты. Поэтому крайне важно, чтобы у нас была самая свежая информация.

Если данные устарели, то любые решения, принятые на основе этих данных, могут быть неверными.

Непротиворечивость. Это показатель того, насколько непротиворечивы данные. Одни и те же данные должны быть согласованными в разных местах хранения, программных пакетах и ​​форматах файлов.

Достоверность. Это показатель того, насколько хорошо данные соответствуют заранее установленным ограничениям, ожиданиям и стандартам. Это может относиться к форматам даты, телефонным номерам, измерениям датчиков и многому другому.

Например, если вы ожидаете значения 1, 2 и 3, но просматриваете данные, содержащие значения 1,5, 7 и 42, эти значения недействительны.

Уникальность.Функции или объекты должны быть представлены в определенном наборе данных только один раз, иначе может возникнуть путаница.

Дублирование данных не только искажает результаты, но и может увеличить время вычислительной обработки и объем памяти.

Если в наборе данных присутствует несколько вхождений одного и того же признака, последний необходимо идентифицировать или объединить для формирования составного признака.

Выявление плохих данных с помощью Python

В Python доступно множество библиотек, которые могут помочь в исследовательском анализе данных и выявлении проблем в ваших данных. Я освещал некоторые из них в прошлом на Medium.

Вот лишь несколько методов и библиотек, которые могут помочь:

Pandas Profiling: это отличная небольшая библиотека, которая может помочь вам создать очень подробный статистический отчет по вашим данным. Вы можете увидеть пример результатов ниже, которые определяют отсутствующие данные, повторяющиеся строки и многое другое.

Вы можете узнать больше о Pandas-Profiling здесь.

Missingno. Очень простая в использовании библиотека, которая может генерировать понятные визуализации полноты данных.

Подробнее об этом можно узнать здесь

Обнаружение выбросов. Обнаружение недопустимых точек данных может быть достигнуто с помощью стандартных методов построения графиков с использованием коробчатых диаграмм, диаграмм рассеяния и гистограмм. Но выбросы также можно идентифицировать с неконтролируемыми методами машинного обучения, такими как изолирующий лес.

Влияние низкого качества данных на модели машинного обучения

Существуют многочисленные воздействия на модели машинного обучения, когда используются данные низкого качества или неправильно выбранные хорошие данные. В рамках исследования, в ходе которого изучалось влияние проблем с качеством данных на каротаж, я провел ряд тематических исследований, иллюстрирующих это влияние.

Вот некоторые из результатов.

Влияние отсутствующих данных

Чтобы смоделировать недостающие данные, был поставлен эксперимент, в котором обучающие данные, доступные для искусственной нейронной сети, были уменьшены с шагом 10%. Данные испытаний были постоянными, чтобы обеспечить справедливое сравнение.

Как видно ниже, когда полные данные (100% обучающих данных) использовались для прогнозирования акустической замедленности сжатия (DTC), мы получаем очень хорошее совпадение с целевой функцией.

Однако, когда обучающие данные были уменьшены до 50%, модель начинает деградировать, но все еще следует общей тенденции. И когда модель сокращается до 20% исходных обучающих данных, результаты очень плохие по сравнению с целевой функцией.

Влияние зашумленных данных

Во втором тематическом исследовании была проведена оценка влияния введения шума на одну из функций обучения. Это должно было имитировать шум датчика, который может привести к ошибочным записям.

Алгоритмом для этого тематического исследования был случайный лес, который представляет собой контролируемый алгоритм машинного обучения и состоит из нескольких деревьев решений.

Как видно из приведенных ниже результатов, когда к функции DT добавляется шум, предсказание RHOB становится более зашумленным. Тем не менее, он по-прежнему хорошо предсказывает общую тенденцию, что может быть связано с тем, как работает Random Forest.

Влияние неправильно выбранных функций на обучение

Выбор функций — ключевой этап рабочего процесса машинного обучения. Это позволяет нам определить, какие функции будут наиболее актуальными для прогнозирования целевой функции. Это также позволяет нам уменьшить размер набора обучающих данных, что, в свою очередь, помогает сократить время вычислительной обработки.

В приведенном ниже примере, когда в этом конкретном примере используются 7 функций, результаты были разбросаны при сравнении истинного измерения с фактическим измерением. Однако после уменьшения количества элементов до 3 соответствие стало намного лучше при более низкой пористости и немного улучшилось при более высокой пористости.

Дополнительные сведения о примерах

Если вы хотите узнать больше об этих примерах, вы можете найти мою исследовательскую работу ниже:

Макдональд, А. (2021) Вопросы качества данных для моделей петрофизического машинного обучения. НЕФТЕФИЗИКА

Краткое содержание

Важно обеспечить хорошее качество данных перед запуском моделей машинного обучения. Если используются данные низкого качества или неправильно выбраны исходные данные, это может привести к серьезным последствиям, которые, в свою очередь, могут привести к дальнейшим последствиям.

Спасибо, что прочитали. Прежде чем идти, вы должны обязательно подписаться на мой контент и получать мои статьи в свой почтовый ящик. Ты можешь сделать это здесь! Кроме того, вы можете подписаться на мою рассылку новостей, чтобы бесплатно получать дополнительный контент прямо в свой почтовый ящик.

Во-вторых, вы можете получить все возможности Medium и поддержать меня и тысячи других авторов, подписавшись на членство. Это стоит всего 5 долларов в месяц, и у вас есть полный доступ ко всем потрясающим статьям на Medium, а также возможность зарабатывать деньги своим текстом. Если вы зарегистрируетесь, используя мою ссылку, вы поддержите меня напрямую частью вашего гонорара, и это не будет стоить вам больше. Если вы это сделаете, большое спасибо за вашу поддержку!

Рекомендации

Макдональд, А. (2021) Вопросы качества данных для моделей петрофизического машинного обучения. НЕФТЕФИЗИКА