WedX - журнал о программировании и компьютерных науках

Публикации по теме 'data-cleaning'


Выбросы-аномалии в данных.
Что такое выбросы? По сути, выбросы — это точки данных, отклоняющиеся от тренда, шаблона или где-либо еще, где висят другие точки данных. Проще говоря, выброс — это чрезвычайно высокая или чрезвычайно низкая точка данных по отношению к ближайшей точке данных и остальным соседним сосуществующим значениям на графике данных или наборе данных, с которыми вы работаете. Выбросы — это экстремальные значения, которые сильно выделяются из общего набора значений в наборе данных или на..

Проблемы машинного обучения (часть I)
После обсуждения различных подходов, используемых алгоритмами машинного обучения для обучения , в статье ниже Пакетное обучение против онлайн-обучения Что такое машинное обучение? medium.com Мы собираемся определить основные проблемы машинного обучения. Во-первых, что означает слово ` вызов ` для любой области? Согласно Кембриджскому словарю : Таким образом, проблемы машинного обучения относятся к препятствиям и..

Предварительная обработка данных — обработка повторяющихся значений и выбросов в наборе данных
Работая с набором данных реального мира, мы можем столкнуться с очень беспорядочными данными, которые содержат много повторяющихся значений. Такие записи не добавляют никакой ценности или информации при использовании их в модели и скорее замедляют обработку. Таким образом, лучше удалить дубликаты перед передачей данных в модель. Следующий метод можно использовать для проверки повторяющихся значений в pandas — Чтобы проверить наличие дубликатов, мы используем функцию «дублировать» в..

Отсутствующие данные, Отсутствующие данные, Отсутствующие данные
Как работать с недостающими данными? как нам определить все эти недостающие значения и справиться с ними? Шаги для работы с отсутствующими данными: Определить недостающие данные Работа с отсутствующими данными Правильный формат данных Отсутствующие данные могут быть найдены как '?', 0 или Nan (не число), особенно в пандах, нам нужно преобразовать отсутствующие значения в NaN Итак, как мы можем это сделать, просто используя replace function(), import numpy as np..

Silent Heros of Analytics: предварительная обработка данных 101 — Очистка данных
Silent Heros of Analytics: предварительная обработка данных 101 – очистка данных Мы все слышали старую поговорку: «Мусор на входе, мусор на выходе». Он открывает истину в области анализа данных: качество ваших идей неразрывно связано с качеством ваших данных. Независимо от того, насколько сложной является ваша модель или насколько оптимизированным может показаться ваш отчет, если основа — ваши данные — ошибочны, ваши идеи тоже будут ошибочными. Возможно, это звучит не так уж и..

Принципы очистки данных, которые вы должны знать
понимание, принципы и рекомендации Введение Перед тем, как мы проведем анализ данных или создадим модели машинного обучения, предстоит очень важный этап — очистка данных . Очистка данных — это шаг к повышению качества данных путем очистки данных от пропущенных значений, выбросов, дублирования данных и т. д. Большинство ученых, занимающихся данными, тратят почти 80% своего времени на очистку данных, чтобы улучшить качество данных. Возможно, большинство из вас читали термин «мусор..

Выявление и обработка выбросов в Python Pandas: пошаговое руководство
Выбросы — это точки данных, которые значительно отличаются от остальных данных. Они могут возникать из-за ошибок при сборе или измерении данных или из-за действительно необычных событий или поведения. Обработка выбросов — важная задача анализа данных, поскольку они могут существенно повлиять на статистические показатели и модели машинного обучения. В этом уроке мы узнаем, как обрабатывать выбросы в Python Pandas. Мы рассмотрим следующие темы: Выявление выбросов Обработка выбросов..

Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]