Неправильные предположения — частая причина ошибок в моделях машинного обучения. Эти предположения могут быть сделаны как программистом, так и пользователем модели. Они могут привести к переобучению, недообучению и плохому обобщению. Существует три распространенных ложных предположения о моделях машинного обучения: что данные всегда линейны, что данные всегда однородны и что данные всегда стационарны. Ложное предположение – это то, что считается истинным, но на самом деле не является истинным. Ложное предположение можно сделать о чем угодно, включая модели машинного обучения.
Ложные предположения могут привести к неточным результатам и неоптимальным решениям.
Например,
Программист может предположить, что все данные в норме, хотя на самом деле это не так.
Модель машинного обучения Sun et al. (2015) основано на предположении, что классификаторы должны иметь низкую дисперсию и высокую предвзятость. Таким образом, модель ненадежна и часто неточна. Модель также основана на предположении, что данные линейно разделимы, что не всегда так.
1. K-NN
Алгоритм Простая реализация регрессии KNN заключается в вычислении среднего численного целевого значения K ближайших соседей. Другой подход использует обратное взвешенное среднее расстояние K ближайших соседей. Регрессия KNN использует те же функции расстояния, что и классификация KNN.
- Основное предположение, которое делает модель KNN, заключается в том, что точки данных/экземпляры, которые существуют в непосредственной близости друг от друга, очень похожи, в то время как, если точка данных находится далеко от другой группы, она не похожа на эти точки данных.
Мы не хотим, чтобы наша выборка включала наблюдения, которые могут быть выбросами, влияющими на результаты нашей модели.
неверно
В случае двухклассовой классификации «К» должно быть четным числом.
Факт
В случае двухклассовой классификации «К» должно быть нечетным числом.
2. Логистическая регрессия
Эта регрессия используется, когда целевая переменная является дискретной, то есть 0 или 1, истинной или ложной, женской или мужской. сигмовидная функция обозначает отношение между предиктором и целевой переменной.
Уравнение этой регрессии: y= b0 + b1x1+b2x2+b3x3….+bnxn
Сигмовидная функция также называется функцией логита. Функция логита, как показано ниже
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3….+bkXk
где p — вероятность появления признака.
- Независимость — все остатки должны быть независимыми (некоррелированными) друг с другом. Наблюдения должны быть независимы друг от друга. Данные не должны содержать повторяющихся наблюдений, повторных измерений или других коррелирующих результатов.
- Линейность. Логиты — натуральные логарифмы вероятности того, что зависимая переменная равна 1, — должны быть линейно связаны с непрерывными числовыми независимыми переменными. Это можно проверить, посмотрев на остаточные графики и построив логарифмы для каждой независимой переменной.
- Мультиколлинеарность. В нашей модели не должно быть мультиколлинеарности. Это определяется и проверяется точно так же, как и в регрессии МНК.
- Выбросы и важные наблюдения. Мы не хотим, чтобы наша выборка включала наблюдения, которые могут быть выбросами, влияющими на результаты нашей модели.
неверно
В этом методе регрессии программист взял небольшой размер выборки для прогнозирования.
Факт
Чтобы сделать точный прогноз, обычно требуется большой размер выборки.
3. Линейная регрессия
Машинное обучение приняло концепцию линейной регрессии, которая впервые была создана в дисциплине статистики и рассматривается как модель для определения связи между входными и выходными числовыми переменными. Это алгоритм машинного обучения, а также статистический алгоритм.
Подбирая оптимальную линейную связь между зависимой и независимой переменными, этот метод предсказывает целевую переменную.
Линия наилучшего соответствия дает наиболее точный прогноз при выполнении линейной регрессии.
Неправильно
Мысль о Мультиколлинеарности присутствует.
Модель населения (или истинная модель) является линейной по своим параметрам.
- Под «линейностью по своим параметрам» мы подразумеваем то, что популяционная модель может иметь математическое преобразование (квадратный корень, логарифм, квадратное выражение) целевой переменной или независимых переменных, но не параметров.
- Таким образом, изменения наших независимых переменных будут иметь одинаковый предельный эффект независимо от их значения.
Идеальной коллинеарности нет.
- Независимые переменные не имеют идеальной линейной зависимости. Они могут быть каким-то образом связаны — действительно, мы бы не включали переменные в нашу регрессионную модель, если бы они были совершенно не связаны — однако мы не могли бы записать одну переменную как линейную комбинацию другой переменной.
Нулевое условное среднее
- Член ошибки, эпсилон, обусловленный независимыми переменными, в среднем равен нулю.
- То есть член ошибки не связан с нашими независимыми переменными.
Факт
Не должно быть много мультиколлинеарности или вообще никакой.
Настоящая модель нелинейна
- В частности, предположим, что истинная модель имеет форму, но мы оценили линейную модель.
- Наши оценки параметров будут необъективными, и наша модель будет давать плохие прогнозы.
У нас идеальная коллинеарность
- Предположим, что и что
- В таком случае,
- наша третья переменная представляет собой линейную комбинацию первых двух переменных.
Наш ошибочный термин коррелирует с одной из наших независимых переменных
- Это происходит, если наша модель регрессии отличается от истинной модели. Например, мы могли бы подумать, что истинная модель
- когда истинная модель, по сути,
Спасибо, что прочитали :)
Вклад :