Мы все продолжаем проверять результаты матчей по крикету на Cricbuzz. Cricbuzz собирал данные о результатах матчей за последние 4 года, используя их, они хотят создать сервис, который будет предсказывать, кто выиграет матч. Увлекательно, правда? Они используют алгоритмы машинного обучения, чтобы предсказать, какая команда выиграет матч, на основе определенных точек данных.
Прямая трансляция проекта 12 февраля, суббота, 19:00.
Для этого мы выполним следующие шаги:
1. EDA (исследовательский анализ данных)
Мы проанализируем данные, создав несколько графиков, используя matplotlib и seaborn.
2. Очистка данных
Данные обычно имеют множество столбцов, а некоторые могут даже содержать зашумленные данные, поэтому, прежде чем использовать их для обучения модели, мы сначала очистим их.
3. Обучение моделей
Это последний шаг в создании модели машинного обучения и обучении ее на очищенных данных.
Что такое исследовательский анализ данных
Ученый по данным обычно получает данные в табличном виде, и никто не может их анализировать в таком формате. Исследовательский анализ данных — это метод или процесс интеллектуального анализа данных, с помощью которого данные анализируются путем представления данных в виде графиков. Таким образом, любой человек может понять, что показывают данные. Сгенерированные графики можно использовать в качестве доказательства для объяснения руководителям. Вот некоторые из графиков, которые широко используют специалисты по данным:
1. Гистограммы
2. Коробчатые сюжеты
3. Точечная диаграмма
4. Линейный сюжет
5. Бар Сюжет
Очистка данных
Данные, полученные специалистами по данным, имеют формат RAW, а это означает, что специалисты по данным должны их обработать и создать некоторые идеи. Источником этих данных могут быть какие-то датчики или клиенты. Из-за некоторых дефектов или проблем в процессе сбора данных данные могут быть неточными. Эти неточные или зашумленные данные должны быть удалены из пула записей перед обработкой данных. Если эти зашумленные данные не будут удалены, то будут созданы неверные выводы. Ниже приведены некоторые шаги для выполнения очистки данных:
ШАГ 1. Удалите повторяющиеся или нерелевантные наблюдения
Специалисты по данным просто должны ответить на несколько вопросов, и для ответа на них используются только некоторые релевантные наблюдения, поэтому нерелевантные наблюдения или столбцы должны быть удалены. Данные также могут иметь несколько повторяющихся строк, которые могут изменить центральную тенденцию данных, поэтому дубликаты также должны быть удалены.
ШАГ 2. Исправьте структурные ошибки
Данные могут быть в разных форматах, например, некоторые источники могут использовать данные в разных форматах, некоторые могут использовать разные единицы измерения, поэтому все эти структурные ошибки должны быть исправлены.
ШАГ 3. Отфильтруйте нежелательные выбросы
Выбросы данных — это точки данных, которые не следуют общей тенденции, и если они не будут удалены, они также повлияют на центральную тенденцию данных. Поэтому настоятельно рекомендуется удалять выбросы перед обучением на них модели машинного обучения.
ШАГ 4. Обработайте отсутствующие данные
Алгоритмы не будут работать, если в наборе данных отсутствуют какие-либо данные, поэтому нам приходится с этим справляться. Мы можем либо удалить строку с некоторыми отсутствующими данными, либо заполнить недостающие данные некоторыми значениями, это может быть среднее значение, медиана, мода или любое другое значение по нашему выбору.
ШАГ 5: Подтвердить
В конце мы должны ответить на некоторые вопросы:
1. Имеют ли данные смысл?
2. Можно ли решить проблему с таким количеством и качеством данных?
Основы машинного обучения
Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования. Это делается с использованием данных, поэтому данные считаются нефтью. Почти все компании, организации, программное обеспечение, веб-сайты используют машинное обучение. Существует несколько алгоритмов машинного обучения, которые широко используются. Проблему можно разделить на две категории:
1. Предсказание: Когда мы хотим предсказать число, используя некоторые точки данных, например, определить возраст человека.
2. Классификация: Когда мы хотим найти класс точек данных, например, определить, будет ли дождь или нет.