МАШИННОЕ ОБУЧЕНИЕ | СЕЛЬСКОЕ ХОЗЯЙСТВО
Линейная регрессия: полное руководство по цифровому картографированию почв
Использование возможностей линейной регрессии и кригинга, чтобы сделать человечество на один шаг ближе к футуристическому сельскому хозяйству
В первой части этой серии мы увидели, как, объединив данные обучения, переменные и пропустив их через прогностическую модель, мы получили оцифрованную трехмерную карту почвы. Первой и наиболее часто используемой моделью прогнозирования является линейная регрессия.
Регрессия — это статистический метод, который находит взаимосвязь между одной выходной переменной (зависимой) и одной или несколькими входными переменными (независимыми).
Они описывают эту взаимосвязь, подгоняя линию к графику наблюдаемых данных. Модели линейной регрессии соответствуют прямой линии, а модели логистической и нелинейной регрессии соответствуют кривой. Когда есть одна зависимая и одна независимая переменная, это простая линейная регрессия. Принимая во внимание, что когда есть одна зависимая переменная, но несколько независимых переменных, это множественная линейная регрессия.
Уравнение линейной регрессии: Y = MX + C, где
Y = зависимая переменная (должна быть предсказана)
M = наклон линии
X = независимая переменная/предиктор (тот, от которого зависит значение Y)
C = точка пересечения Y (точка, где подогнанная линия пересекает ось Y)
Теперь давайте разберемся на примере. Скажем, нам дано 20 акров поля, разделенных на блоки по 1 акру, и у нас есть данные о количестве известняка, присутствующего в каждом из этих блоков по 1 акр. Теперь мы хотим найти pH почвы, присутствующей в каждом из этих блоков поля, чтобы мы могли выбрать правильные культуры для посадки.
Один из способов — это, конечно, собрать образцы почвы из каждого блока и протестировать их в лаборатории. Но этот процесс будет трудоемким и дорогим. Более разумным способом было бы проверить почву из некоторых блоков (скажем, 7) на их pH, а затем, используя регрессию, мы смоделировали взаимосвязь между количеством известняка и pH.
Запуск регрессии на приведенных выше данных даст нам следующую линию наилучшего соответствия:
Следовательно, для этих данных соотношение между pH и известняком равно
pH = (1,26 * известняк) + 2,8
Это уравнение можно дополнительно использовать для прогнозирования приблизительного значения pH на непроверенном участке в акрах путем подстановки соответствующего значения известняка.
Интерпретация линии регрессии:
Сравнив приведенное выше уравнение с уравнением линейной регрессии, мы видим, что наклон «M» равен 1,26, а точка пересечения «C» равна 2,8. На основании этого можно сделать следующие два вывода.
- Для каждой единицы изменения количества известняка значение pH в среднем изменяется на 1,26, при этом другие переменные остаются постоянными. Сохранение других переменных постоянными имеет решающее значение, поскольку это позволяет нам оценить влияние каждой переменной на зависимую переменную.
- Поскольку точка пересечения равна 2,8 (т. е. точка, в которой наиболее подходящая линия пересекает ось Y, находится на уровне 2,8), это говорит о том, что если бы известняка не было, то pH почвы был бы 2,8
Итак, речь шла о линейной регрессии.
Когда имеется более одной переменной-предиктора, мы называем это множественной линейной регрессией.В этом случае уравнение становится…
Y = C + M₁X₁ + M₂X₂ + … + MₙXₙ
Теперь вы можете задаться вопросом, как мы получаем эту линию наилучшего соответствия? Существует множество методов получения наиболее подходящей линии, а именно Метод наименьших квадратов, градиентный спуск, разложение по сингулярным значениям (SVD) и т. д. Чтобы сделать этот пост коротким, мы рассмотрим только метод наименьших квадратов, который является одним из наиболее широко используемых. Дайте мне знать в комментариях, если вы хотите узнать о других методах, и я постараюсь объяснить их максимально простым способом.
Регрессия методом наименьших квадратов
Рассмотрим диаграмму рассеяния с несколькими точками. Теперь, если мы нарисуем прямую линию, мы не сможем точно покрыть все точки. Как вы можете видеть на рис. 1, некоторые точки данных лежат на линии, а некоторые — выше или ниже линии регрессии. Следовательно, для соответствующего значения pH для данного значения известняка возможно наличие небольшой разницы между фактическим значением pH и значением pH, предсказанным линией регрессии. Это называется «Ошибка» и всегда присутствует в регрессии, поскольку мы заставляем одну строку проходить через все точки данных.
В результате метод наименьших квадратов используется для получения линии регрессии, которая проходит через точки данных таким образом, чтобы ошибка между ними была минимально возможной. И полученная линия считается «наиболее подходящей». Термин «наименьшие квадраты» используется потому, что эта линия рисуется путем вычисления суммы квадратов ошибок и делает ее как можно меньше.
Мы можем узнать ошибку точки данных, вычитая значение, которое мы получаем от нашей функции, из фактического значения в нашем наборе данных.
Прогнозируемое значение – Фактическое значение
Но эти ошибки относятся к каждой отдельной точке данных, чтобы получить оценку общих ошибок в нашей модели, мы берем среднее значение всех этих отдельных ошибок, которое называется Смещение.
Линия регрессии всегда имеет термин «ошибка», потому что в реальной жизни независимые переменные никогда не являются идеальными предикторами зависимых переменных. Термин «ошибка» говорит вам, насколько вы можете быть уверены в формуле. Чем он больше, тем менее определенна линия регрессии.
Почему в методе наименьших квадратов используется квадрат?
Поскольку Error = Predicted-Actual, точки, лежащие ниже линии регрессии, будут иметь отрицательные значения ошибок, а точки над линией будут иметь положительные значения ошибок. Если мы возьмем только «сумму наименьших ошибок», а не «сумму наименьших квадратов ошибок», во время вычислений положительные и отрицательные ошибки могут компенсировать друг друга и, таким образом, не привести нас к нашей наилучшей линии. Возведение в квадрат делает все ошибки положительными.
Оценка модели
После подгонки модели линейной регрессии нам нужно определить, насколько хорошо модель соответствует данным. Насколько хорошо она справляется (если вообще работает) с объяснением изменений в зависимой переменной?
Существует множество параметров (которые вы получаете в результате выполнения регрессионного анализа), используемых для оценки модели, но основными из них являются R-Square и Среднеквадратическая ошибка (RMSE).
R²: степень, в которой независимые переменные X объясняют изменение зависимой переменной Y (ИЛИ). Насколько близки данные к подобранной линии наилучшего соответствия.
Значение R² изменяется от 0 до 1. Когда значение R² стремится к 1, модель является более точной, а при приближении к 0 модели указывают на более высокие остатки (ошибки).
На рис. 1 мы получили значение R², равное 0,7042, т. е. модель объясняет 70,42% вариации pH из-за количества известняка. Чем больше вариаций учитывает модель регрессии, тем ближе точки данных попадают к подобранной линии.
Более высокие значения R² представляют меньшие различия между наблюдаемыми данными и подобранными значениями.
Тем не менее, это не всегда так. Небольшие значения R-квадрата не всегда являются проблемой, а высокие значения R-квадрата не обязательно хороши!
RMSE: показывает, насколько далеки прогнозы от измеренных истинных значений. Математически RMSE это:
Регрессионный кригинг
Возвращаясь к нашему примеру с определением pH в каждом блоке в акрах, реально не вся почва в блоке будет иметь одинаковый pH. Даже внутри блока pH будет постоянно меняться от точки к точке. Разделив поле на блоки, мы получим лишь приблизительную оценку pH. Но чтобы получить подробную 3D-карту, нам придется учитывать данные о широте, долготе и рН тестируемых местоположений. Это называется кригинг. Это геостатистическая процедура, которая подгоняет поверхность к трем измерениям: широта, долгота и интересующая переменная.
Цитата из предыдущей статьи этой серии: Кригинг основан на простом законе географии: Все связано со всем остальным, но близкие вещи связаны больше, чем отдаленные
Следовательно, кригинг в своей простейшей форме вычисляет интересующее значение в точке А, беря среднее значение всего набора данных (простой кригинг) или средневзвешенное значение ближайших точек (обычный кригинг, более близким точкам придается больший вес, чем более удаленным точкам).
Кригинг сам по себе является чисто геостатистическим методом. Мы можем сделать его еще лучше, объединив его с регрессией, создав таким образом гибридную модель геостатистического машинного обучения. При этом вместо кригинга со значениями в местах выборки кригинг выполняется с использованием остатков регрессии вспомогательных данных (предикторов).
Этапы регрессионного кригинга:
- Создайте карту, наложив точечные данные с зависимой переменной и факторами/предикторами окружающей среды. Задачи наложения можно выполнять в R, ArcGIS, SAGA GIS. Извлеките данные предиктора в табличной форме.
2. Постройте модель множественной линейной регрессии (MLR), используя зависимую переменную и предикторы.
3. Устранить незначительные предикторы (те, которые не играют жизненно важной роли в определении значения зависимого) на основе p-значений.
4. Криг с использованием остатков регрессии.
5. Объедините результаты регрессии и кригинга для получения окончательного прогноза.
Надеюсь, эта статья дала вам представление о том, как регрессия используется в DSM. В следующей статье мы обсудим еще один алгоритм машинного обучения под названием Random Forest. Я приветствую отзывы и конструктивную критику в комментариях внизу или вы можете связаться со мной по адресу [email protected]