Публикации по теме 'data-cleaning'
Выбросы-аномалии в данных.
Что такое выбросы?
По сути, выбросы — это точки данных, отклоняющиеся от тренда, шаблона или где-либо еще, где висят другие точки данных.
Проще говоря, выброс — это чрезвычайно высокая или чрезвычайно низкая точка данных по отношению к ближайшей точке данных и остальным соседним сосуществующим значениям на графике данных или наборе данных, с которыми вы работаете.
Выбросы — это экстремальные значения, которые сильно выделяются из общего набора значений в наборе данных или на..
Проблемы машинного обучения (часть I)
После обсуждения различных подходов, используемых алгоритмами машинного обучения для обучения , в статье ниже
Пакетное обучение против онлайн-обучения Что такое машинное обучение? medium.com
Мы собираемся определить основные проблемы машинного обучения.
Во-первых, что означает слово ` вызов ` для любой области?
Согласно Кембриджскому словарю :
Таким образом, проблемы машинного обучения относятся к препятствиям и..
Предварительная обработка данных — обработка повторяющихся значений и выбросов в наборе данных
Работая с набором данных реального мира, мы можем столкнуться с очень беспорядочными данными, которые содержат много повторяющихся значений. Такие записи не добавляют никакой ценности или информации при использовании их в модели и скорее замедляют обработку. Таким образом, лучше удалить дубликаты перед передачей данных в модель. Следующий метод можно использовать для проверки повторяющихся значений в pandas —
Чтобы проверить наличие дубликатов, мы используем функцию «дублировать» в..
Отсутствующие данные, Отсутствующие данные, Отсутствующие данные
Как работать с недостающими данными?
как нам определить все эти недостающие значения и справиться с ними?
Шаги для работы с отсутствующими данными:
Определить недостающие данные
Работа с отсутствующими данными
Правильный формат данных
Отсутствующие данные могут быть найдены как '?', 0 или Nan (не число), особенно в пандах, нам нужно преобразовать отсутствующие значения в NaN Итак, как мы можем это сделать, просто используя replace function(),
import numpy as np..
Silent Heros of Analytics: предварительная обработка данных 101 — Очистка данных
Silent Heros of Analytics: предварительная обработка данных 101 – очистка данных
Мы все слышали старую поговорку: «Мусор на входе, мусор на выходе». Он открывает истину в области анализа данных: качество ваших идей неразрывно связано с качеством ваших данных. Независимо от того, насколько сложной является ваша модель или насколько оптимизированным может показаться ваш отчет, если основа — ваши данные — ошибочны, ваши идеи тоже будут ошибочными. Возможно, это звучит не так уж и..
Принципы очистки данных, которые вы должны знать
понимание, принципы и рекомендации
Введение
Перед тем, как мы проведем анализ данных или создадим модели машинного обучения, предстоит очень важный этап — очистка данных . Очистка данных — это шаг к повышению качества данных путем очистки данных от пропущенных значений, выбросов, дублирования данных и т. д. Большинство ученых, занимающихся данными, тратят почти 80% своего времени на очистку данных, чтобы улучшить качество данных.
Возможно, большинство из вас читали термин «мусор..
Выявление и обработка выбросов в Python Pandas: пошаговое руководство
Выбросы — это точки данных, которые значительно отличаются от остальных данных. Они могут возникать из-за ошибок при сборе или измерении данных или из-за действительно необычных событий или поведения. Обработка выбросов — важная задача анализа данных, поскольку они могут существенно повлиять на статистические показатели и модели машинного обучения.
В этом уроке мы узнаем, как обрабатывать выбросы в Python Pandas. Мы рассмотрим следующие темы:
Выявление выбросов Обработка выбросов..
Новые материалы
Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать
С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..
Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv)
Автор : Бар Лайт
Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..
Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята?
В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..
Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение.
В этом процессе мы будем использовать неконтролируемое обучение, чтобы..
Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm.
Оглавление
Глоссарий
I. Новый пакет
1.1 советы по инициализации..
Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных.
Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..
ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..