Отсутствующие данные — известная проблема в науке о данных. Отсутствующие данные могут вызвать проблемы при анализе данных и моделировании. Поэтому строки с пропущенными значениями необходимо удалить или пропущенные значения следует заполнить разумными значениями. Процесс заполнения пропущенных значений называется импутацией. Но при работе с временными рядами этот процесс называется интерполяцией.
В этом блоге я расскажу о некоторых способах заполнения пропущенных значений во временных рядах.
Средняя интерполяция
Интерполяция среднего значения — один из самых простых и легких методов, используемых для заполнения пропущенных значений. В этом методе пропущенные значения заполняются средним значением.
Медианная интерполяция
В этом методе недостающие значения заполняются медианой.
Интерполяция режима
В этом методе недостающие значения заполняются модой.
Линейная интерполяция
Линейная интерполяция создает прямую линию между двумя точками вокруг отсутствующей точки, а затем использует эту линию для создания отсутствующей точки. Другими словами, это средняя точка между двумя точками.
Сплайн-интерполяция
Сплайн — это специальная функция, определяемая кусочно полиномами. Сплайны — это функции, которые соответствуют заданным значениям в точках x1,…,xNT и имеют непрерывные производные до некоторого порядка в узлах или точках x2,…,xNT1. Кубические шлицы встречаются чаще всего. В этом случае функция представляется кубическим многочленом внутри каждого интервала и имеет непрерывные первую и вторую производные в узлах. Еще два условия можно указать произвольно. Обычно это вторые производные в двух конечных точках, которые обычно принимаются равными нулю; это дает естественные кубические сплайны.
Источники:
https://faculty.washington.edu/finlayso/ebook/interp/spline.htm