Как предсказать победителя матча по крикету с помощью машинного обучения

Мы все продолжаем проверять результаты матчей по крикету на Cricbuzz. Cricbuzz собирал данные о результатах матчей за последние 4 года, используя их, они хотят создать сервис, который будет предсказывать, кто выиграет матч. Увлекательно, правда? Они используют алгоритмы машинного обучения, чтобы предсказать, какая команда выиграет матч, на основе определенных точек данных.
Прямая трансляция проекта 12 февраля, суббота, 19:00.

Записаться сейчас

Для этого мы выполним следующие шаги:

1. EDA (исследовательский анализ данных)

Мы проанализируем данные, создав несколько графиков, используя matplotlib и seaborn.

2. Очистка данных

Данные обычно имеют множество столбцов, а некоторые могут даже содержать зашумленные данные, поэтому, прежде чем использовать их для обучения модели, мы сначала очистим их.

3. Обучение моделей

Это последний шаг в создании модели машинного обучения и обучении ее на очищенных данных.

Что такое исследовательский анализ данных

Ученый по данным обычно получает данные в табличном виде, и никто не может их анализировать в таком формате. Исследовательский анализ данных — это метод или процесс интеллектуального анализа данных, с помощью которого данные анализируются путем представления данных в виде графиков. Таким образом, любой человек может понять, что показывают данные. Сгенерированные графики можно использовать в качестве доказательства для объяснения руководителям. Вот некоторые из графиков, которые широко используют специалисты по данным:

1. Гистограммы

2. Коробчатые сюжеты

3. Точечная диаграмма

4. Линейный сюжет

5. Бар Сюжет

Очистка данных

Данные, полученные специалистами по данным, имеют формат RAW, а это означает, что специалисты по данным должны их обработать и создать некоторые идеи. Источником этих данных могут быть какие-то датчики или клиенты. Из-за некоторых дефектов или проблем в процессе сбора данных данные могут быть неточными. Эти неточные или зашумленные данные должны быть удалены из пула записей перед обработкой данных. Если эти зашумленные данные не будут удалены, то будут созданы неверные выводы. Ниже приведены некоторые шаги для выполнения очистки данных:

ШАГ 1. Удалите повторяющиеся или нерелевантные наблюдения

Специалисты по данным просто должны ответить на несколько вопросов, и для ответа на них используются только некоторые релевантные наблюдения, поэтому нерелевантные наблюдения или столбцы должны быть удалены. Данные также могут иметь несколько повторяющихся строк, которые могут изменить центральную тенденцию данных, поэтому дубликаты также должны быть удалены.

ШАГ 2. Исправьте структурные ошибки

Данные могут быть в разных форматах, например, некоторые источники могут использовать данные в разных форматах, некоторые могут использовать разные единицы измерения, поэтому все эти структурные ошибки должны быть исправлены.

ШАГ 3. Отфильтруйте нежелательные выбросы

Выбросы данных — это точки данных, которые не следуют общей тенденции, и если они не будут удалены, они также повлияют на центральную тенденцию данных. Поэтому настоятельно рекомендуется удалять выбросы перед обучением на них модели машинного обучения.

ШАГ 4. Обработайте отсутствующие данные

Алгоритмы не будут работать, если в наборе данных отсутствуют какие-либо данные, поэтому нам приходится с этим справляться. Мы можем либо удалить строку с некоторыми отсутствующими данными, либо заполнить недостающие данные некоторыми значениями, это может быть среднее значение, медиана, мода или любое другое значение по нашему выбору.

ШАГ 5: Подтвердить

В конце мы должны ответить на некоторые вопросы:

1. Имеют ли данные смысл?

2. Можно ли решить проблему с таким количеством и качеством данных?

Основы машинного обучения

Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования. Это делается с использованием данных, поэтому данные считаются нефтью. Почти все компании, организации, программное обеспечение, веб-сайты используют машинное обучение. Существует несколько алгоритмов машинного обучения, которые широко используются. Проблему можно разделить на две категории:

1. Предсказание: Когда мы хотим предсказать число, используя некоторые точки данных, например, определить возраст человека.

2. Классификация: Когда мы хотим найти класс точек данных, например, определить, будет ли дождь или нет.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning