Публикации по теме 'data-preprocessing'
Глава 2: Предварительная обработка данных в Python и R (Часть 03)
Мы находимся на последнем этапе подготовки нашего набора данных для начала настоящего веселья!
Если вы не читали сообщения до этого, я настоятельно рекомендую вам вернуться и проверить их, чтобы продолжить!
Разделение набора данных на обучающий набор и тестовый набор
Почему мы должны разделить наш набор данных на два?
Вот почему! Предположим, вам преподают какой-то материал курса в классе. Лучший способ изучить материал - пройти тест. Вы пишете ответы на вопросы и проверяете,..
Предварительная обработка данных для машинного обучения, часть I
автор Ашиш Адхикари
Предварительная обработка данных — это процесс очистки данных и управления ими, чтобы наша модель машинного обучения не была нарушена или предвзята во время понимания модели. Доступные данные реального мира очень неуправляемые и грязные, что может привести к сбою наших моделей машинного обучения , поэтому их необходимо предварительно обрабатывать. Существуют различные методы предварительной обработки данных, и мы рассмотрим их подробно.
Различные методы..
Машинное обучение | Предварительная обработка с конвейерами
Наборы данных выглядят так:
import pandas as pd
data = {
"Name": ["Fiona", "Gerald", "Hans", "Isabella", "Jacob"],
"Age": [20, 34, None, None, 33],
"Gender": ["f", "m", "m", "f", "m"],
"Job": ["writer", "Programmer", "Programmer", "Programmer", "Teacher"]
}
df = pd.DataFrame(data)
df..
Принципы очистки данных, которые вы должны знать
понимание, принципы и рекомендации
Введение
Перед тем, как мы проведем анализ данных или создадим модели машинного обучения, предстоит очень важный этап — очистка данных . Очистка данных — это шаг к повышению качества данных путем очистки данных от пропущенных значений, выбросов, дублирования данных и т. д. Большинство ученых, занимающихся данными, тратят почти 80% своего времени на очистку данных, чтобы улучшить качество данных.
Возможно, большинство из вас читали термин «мусор..
Основы Pandas - Часть 3
В своей предыдущей статье я рассмотрел некоторые из распространенных запросов, с которыми сталкивается новичок при работе с различными наборами данных. Эта статья является продолжением моих предыдущих статей.
Я продолжу демонстрировать дальнейшие концепции, используя тот же набор данных (НЛО), который использовался в первой и второй частях этой статьи.
Как изменить категориальные характеристики на числовые?
Категориальные характеристики необходимо изменить на числовые, чтобы они..
От беспорядка к великолепию: руководство по предварительной обработке данных для машинного обучения в Python
Данные — это жизненная сила алгоритмов машинного обучения, но реальные данные часто беспорядочны и требуют тщательной подготовки, прежде чем их можно будет использовать в моделях. Предварительная обработка данных — важнейший первый шаг, который очищает, преобразовывает и подготавливает необработанные данные для задач машинного обучения. В этом подробном руководстве мы рассмотрим основные этапы предварительной обработки данных с использованием библиотек Python, таких как Pandas, NumPy и..
Важность предварительной обработки данных в машинном обучении.
Обработка данных относится к процессу сбора, обработки и организации данных в полезную информацию. Основная цель обработки данных — превратить необработанные данные в ценную информацию, которую можно использовать для принятия обоснованных решений.
Обработка данных используется в различных отраслях и приложениях, таких как бизнес-аналитика, маркетинг, здравоохранение, финансы и научные исследования. Он играет решающую роль, помогая организациям принимать решения на основе данных и..
Новые материалы
Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…
Просто начните и учитесь самостоятельно
Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..
Лицензии с открытым исходным кодом: руководство для разработчиков и создателей
В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..
Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка.
Во время предварительного обучения модель обучается на неразмеченных данных с помощью..
Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать
С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..
Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv)
Автор : Бар Лайт
Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..
Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята?
В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..
Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение.
В этом процессе мы будем использовать неконтролируемое обучение, чтобы..