В каждом секторе жизни, прежде чем применять что-либо большое или малое, нам может потребоваться рассмотреть некоторые предположения и узнать все за и против. Точно так же, когда мы говорим о науке о данных и моделировании данных, у нас есть множество вариантов, которые могут помочь решить проблемы, связанные с данными, и принять решения, основанные на данных. Основная проблема, которая приходит нам на ум, заключается в выборе одного из этих вариантов. Там, где хорошо обученная модель может дать плодотворные результаты, неправильно подобранная модель может использовать весь сценарий. Таким образом, используя эту статью, мы можем получить важную информацию о предположениях, а также о плюсах и минусах моделей данных, которые действительно можно использовать в реальном сценарии. В ходе курса мы прочитаем о следующей модели:
- KNN (K-ближайший сосед)
- Логистическая регрессия
- Линейная регрессия
- Машина опорных векторов
- Деревья решений
- Наивный Байес
- Случайный лес
- XGBoost
KNN (K-ближайший сосед)
Предположения:
- Метрики расстояния, такие как манхэттенская и евклидова, могут использоваться для измерения расстояния данных в пространстве признаков.
- Каждая точка данных обучения должна включать набор векторов, а имена классов должны относиться к каждой точке данных обучения.
- Если в наборе данных только два класса, то значение K должно быть нечетным числом.
Плюсы:
- Алгоритм белого ящика означает, что механизм прост в реализации и интерпретации.
- Из-за отсутствия параметров этот алгоритм не требует строгого соблюдения допущений.
- Используя этот алгоритм, мы можем передавать обучающие данные во время выполнения, одновременно делать прогнозы и делать процедуру быстрее, чем другие алгоритмы. Это означает, что конкретная программа обучения или этап не требуются.
- Шаг обучения не требуется, поэтому шаг добавления новых точек данных становится простым.
Минусы:
- При большом и разреженном наборе данных алгоритм становится неэффективным и медленным из-за стоимости расчета расстояния между точками данных.
- Чувствителен, когда данные содержат выбросы внутри.
- Если доступны отсутствующие значения или нулевые значения, это не может работать.
- В дополнение к расчету расстояния требуются такие расчеты, как масштабирование и нормализация объектов.
Логистическая регрессия
- Для независимых переменных данных требуется как можно меньше мультиколлинеарности или вообще не требуется мультиколлинеарность.
- Необходима независимость между переменными данных.
- С большими наборами данных этот алгоритм работает намного лучше.
Плюсы:
- Обладая меньшей вычислительной мощностью, это также алгоритм белого ящика.
- В отношении распределения классов требуется меньше предположений.
- Для классификации неизвестных точек данных требуется меньше вычислений.
- Высокая эффективность, когда функции линейно разделимы.
Минусы:
- Этот алгоритм использует линейную поверхность решений для классификации данных, поэтому он становится проблематичным при наличии нелинейных проблем.
- Его работа зависит от вероятностного подхода, который вызывает переоснащение в многомерном пространстве данных.
- Слаб в получении сложных отношений.
- Для обучения требуются большие данные всех категорий.
Линейная регрессия
Предположение:
- Между точками данных должна быть линейность.
- Подобно логистической регрессии, для независимых переменных данных требуется как можно меньше или вообще не требуется мультиколлинеарность.
- Дисперсия ошибок или остатков должна быть одинаковой для любого значения целевой переменной.
Плюсы:
- Высокая эффективность, когда независимые и зависимые переменные линейно связаны.
- Методы регуляризации могут применяться, когда модель переобучена.
Минусы:
- Данные должны быть линейно разделимы.
- Производительность модели снижается, когда в данных присутствуют выбросы.
- Независимость от данных трудно получить.
Машина опорных векторов
Предположение:
- Требуется идентичное распределение и независимость данных.
Плюсы:
- Высокая эффективность с многомерными данными, даже когда количество выборок меньше, чем количество измерений.
- Эффективная память.
Минусы:
- Высокоуровневый расчет делает алгоритм медленнее.
- Низкая интерпретируемость.
- Низкая эффективность, когда набор данных зашумлен.
- Хорошо работает с многомерными данными, но большой размер выборки делает его неэффективным.
Деревья решений
Предположения:
- В начале обучения все данные должны восприниматься как обучающие данные.
- Данные должны распространяться рекурсивно на основе значения атрибута.
Плюсы:
- Требуется меньше подготовки данных.
- Вычисления, такие как нормализация данных и масштабирование, не требуются.
- Более высокую интерпретируемость можно объяснить с помощью условий if-else.
- Небольшое количество пропущенных значений не влияет на результаты.
Минусы:
- Более высокий расчет требует много времени на обучение модели.
- Более низкие изменения в данных могут внести существенные изменения в древовидную структуру.
- Менее эффективен для задач регрессии.
- Стоимость обучения выше.
Наивный Байес
Предположения:
- Обязательно требуется только условная независимость в данных.
Плюсы:
- Высокопроизводительный алгоритм, когда выполняется только условная независимость.
- Хорошо работает с последовательными и многомерными данными, такими как текст и данные изображения.
- Требуется только расчет вероятности, что упрощает его реализацию.
Минусы:
- Умножение нескольких маленьких цифр делает его численно неустойчивым.
- Отсутствие условной независимости снижает производительность алгоритма.
Случайный лес
Предположение:
- Официального распространения данных не требуется.
Плюсы:
- Это непараметрическая модель, которая может хорошо работать с искаженными или мультимодальными данными.
- Очень легко справляется с выбросами.
- Он может хорошо работать с нелинейными данными.
- Как правило, не переусердствуйте с данными
Минусы:
- Более высокий расчет делает его медленным в обучении.
- Становится предвзятым с несбалансированными данными.
XGBoost
Предположения:
- Единственное предположение состоит в том, что закодированное целочисленное значение для каждой переменной должно иметь порядковое отношение.
Плюсы:
- Высокая интерпретируемость.
- Быстрый и легко исполняемый.
- Никаких дополнительных вычислений, таких как масштабирование или нормализация, не требуется.
- Он может легко обрабатывать пропущенные значения.
Минусы:
- Чтобы избежать переобучения, требуется оптимизированная настройка параметров.
- Настройка требует более высоких вычислений.
Заключительные слова
Здесь, в статье, мы увидели предположения, плюсы и минусы, о которых нам нужно позаботиться при моделировании с помощью некоторых известных моделей машинного обучения. В реальных задачах становится важным выбрать наиболее подходящую модель, основанную на проблемах и требованиях. Эта статья поможет нам выбрать подходящую модель для различных ситуаций, используя их плюсы и минусы, а также значительные допущения.
О ДСВ
Data Science Wizards (DSW) — это стартап в области искусственного интеллекта и науки о данных, который в первую очередь предлагает платформы, решения и услуги для использования данных в качестве стратегии с помощью решений для ИИ и анализа данных, а также консультационных услуг, чтобы помочь предприятиям принимать решения, основанные на данных. .
Флагманская платформа DSW UnifyAI — это комплексная платформа с поддержкой ИИ, позволяющая корпоративным клиентам создавать, развертывать, управлять и публиковать свои модели ИИ. UnifyAI помогает вам создать бизнес-вариант использования, используя возможности ИИ и улучшая результаты аналитики.
Свяжитесь с нами по адресу [email protected] и посетите нас на www.datasciencewizards.ai