Неверные предположения в модели машинного обучения.

Неправильные предположения — частая причина ошибок в моделях машинного обучения. Эти предположения могут быть сделаны как программистом, так и пользователем модели. Они могут привести к переобучению, недообучению и плохому обобщению. Существует три распространенных ложных предположения о моделях машинного обучения: что данные всегда линейны, что данные всегда однородны и что данные всегда стационарны. Ложное предположение – это то, что считается истинным, но на самом деле не является истинным. Ложное предположение можно сделать о чем угодно, включая модели машинного обучения.

Ложные предположения могут привести к неточным результатам и неоптимальным решениям.

Например,

Программист может предположить, что все данные в норме, хотя на самом деле это не так.

Модель машинного обучения Sun et al. (2015) основано на предположении, что классификаторы должны иметь низкую дисперсию и высокую предвзятость. Таким образом, модель ненадежна и часто неточна. Модель также основана на предположении, что данные линейно разделимы, что не всегда так.

1. K-NN

Алгоритм Простая реализация регрессии KNN заключается в вычислении среднего численного целевого значения K ближайших соседей. Другой подход использует обратное взвешенное среднее расстояние K ближайших соседей. Регрессия KNN использует те же функции расстояния, что и классификация KNN.

Основное предположение, которое делает модель KNN, заключается в том, что точки данных/экземпляры, которые существуют в непосредственной близости друг от друга, очень похожи, в то время как, если точка данных находится далеко от другой группы, она не похожа на эти точки данных.

Мы не хотим, чтобы наша выборка включала наблюдения, которые могут быть выбросами, влияющими на результаты нашей модели.

неверно

В случае двухклассовой классификации «К» должно быть четным числом.

Факт

В случае двухклассовой классификации «К» должно быть нечетным числом.

2. Логистическая регрессия

Эта регрессия используется, когда целевая переменная является дискретной, то есть 0 или 1, истинной или ложной, женской или мужской. сигмовидная функция обозначает отношение между предиктором и целевой переменной.

Уравнение этой регрессии: y= b0 + b1x1+b2x2+b3x3….+bnxn

Сигмовидная функция также называется функцией логита. Функция логита, как показано ниже

logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3….+bkXk

где p — вероятность появления признака.

Независимость — все остатки должны быть независимыми (некоррелированными) друг с другом. Наблюдения должны быть независимы друг от друга. Данные не должны содержать повторяющихся наблюдений, повторных измерений или других коррелирующих результатов.
Линейность. Логиты — натуральные логарифмы вероятности того, что зависимая переменная равна 1, — должны быть линейно связаны с непрерывными числовыми независимыми переменными. Это можно проверить, посмотрев на остаточные графики и построив логарифмы для каждой независимой переменной.
Мультиколлинеарность. В нашей модели не должно быть мультиколлинеарности. Это определяется и проверяется точно так же, как и в регрессии МНК.
Выбросы и важные наблюдения. Мы не хотим, чтобы наша выборка включала наблюдения, которые могут быть выбросами, влияющими на результаты нашей модели.

неверно

В этом методе регрессии программист взял небольшой размер выборки для прогнозирования.

Факт

Чтобы сделать точный прогноз, обычно требуется большой размер выборки.

3. Линейная регрессия

Машинное обучение приняло концепцию линейной регрессии, которая впервые была создана в дисциплине статистики и рассматривается как модель для определения связи между входными и выходными числовыми переменными. Это алгоритм машинного обучения, а также статистический алгоритм.

Подбирая оптимальную линейную связь между зависимой и независимой переменными, этот метод предсказывает целевую переменную.

Линия наилучшего соответствия дает наиболее точный прогноз при выполнении линейной регрессии.

Неправильно

Мысль о Мультиколлинеарности присутствует.

Модель населения (или истинная модель) является линейной по своим параметрам.

Под «линейностью по своим параметрам» мы подразумеваем то, что популяционная модель может иметь математическое преобразование (квадратный корень, логарифм, квадратное выражение) целевой переменной или независимых переменных, но не параметров.
Таким образом, изменения наших независимых переменных будут иметь одинаковый предельный эффект независимо от их значения.

Идеальной коллинеарности нет.

Независимые переменные не имеют идеальной линейной зависимости. Они могут быть каким-то образом связаны — действительно, мы бы не включали переменные в нашу регрессионную модель, если бы они были совершенно не связаны — однако мы не могли бы записать одну переменную как линейную комбинацию другой переменной.

Нулевое условное среднее

Член ошибки, эпсилон, обусловленный независимыми переменными, в среднем равен нулю.
То есть член ошибки не связан с нашими независимыми переменными.

Факт

Не должно быть много мультиколлинеарности или вообще никакой.

Настоящая модель нелинейна

В частности, предположим, что истинная модель имеет форму, но мы оценили линейную модель.
Наши оценки параметров будут необъективными, и наша модель будет давать плохие прогнозы.

У нас идеальная коллинеарность

Предположим, что и что

В таком случае,

наша третья переменная представляет собой линейную комбинацию первых двух переменных.

Наш ошибочный термин коррелирует с одной из наших независимых переменных

Это происходит, если наша модель регрессии отличается от истинной модели. Например, мы могли бы подумать, что истинная модель
когда истинная модель, по сути,

Спасибо, что прочитали :)

Вклад :

Камталвар Саурав

Санскар Котари

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning