Ни одна модель не живет вечно, со временем она ухудшается. Почему происходит распад модели? Почему модель, которая работала хорошо последние несколько дней/месяцев, начинает вести себя по-другому? Давайте попробуем погрузиться глубже и понять причины упадка этой модели.

Виновником является не кто иной, как сами данные. Как мы знаем, данные — король в мире машин, они могут создать или сломать ваши модели. Проблема качества данных — одна из основных причин сбоев в работе.

В этом динамичном мире данные постоянно меняются. Это изменение повлияет на модели машинного обучения. Мы можем определить дрейф модели как снижение прогностической способности модели из-за изменений в окружающей среде.

Давайте разберемся в причинах дрейфа этой модели:

Дрейф данных:

Дрейф данных возникает, когда данные, на которых обучается модель, изменяются. Изменяется распределение входных данных/функций. Поскольку модель, обученная на старых данных, становится бесполезной и плохо работает с новыми данными. Дрейф данных, дрейф признаков, совокупность или ковариатный сдвиг означают одно и то же.

Давайте разберемся на примере. Предположим, что модель машинного обучения была обучена предсказывать вероятность того, что клиент купит продукт, исходя из его дохода. Если распределение дохода изменится, то в будущем модель не будет работать точно.

Дрейф данных может происходить по ряду причин: схема входных данных изменяется в источнике (например, столбцы могут быть добавлены/удалены выше в конвейере данных), распределение признаков меняется со временем или значение данных меняется, даже если структура/схема не меняется (например, может со временем измениться то, считается ли зарплата «выше среднего»).

Движение концепции:

Дрейф концепции происходит всякий раз, когда изменяется отношение между входными данными модели и целью. Рассмотрим пример обнаружения мошенничества с кредитными картами. То, как люди используют кредитные карты, со временем изменилось, и поэтому общие характеристики мошенничества с кредитными картами также изменились. Поэтому, когда появилась технология «чип и пин», мошеннические транзакции стали больше перемещаться в онлайн, чем в офлайн.

Концептуальный дрейф можно разделить на четыре категории: внезапный, постепенный, инкрементный, повторяющийся.

Как определить и устранить этот дрейф?

Самый прямой способ определить ухудшение модели – это непрерывно отслеживать прогностическую эффективность модели с течением времени и оценивать эту производительность с помощью тех же оценочных показателей, которые используются при обучении модели. Непрерывная оценка определяет, когда следует переобучить модель. Значит ли это, что мы должны переобучить модель, как только производительность начнет падать? Нет, это зависит. Переобучение может быть дорогим. Мы должны рассмотреть компромисс между тем, какая степень ухудшения производительности является приемлемой по отношению к этим затратам. Мы можем запланировать работу по переобучению в зависимости от некоторого порога. Например, инициировать переобучение модели, когда точность модели падает ниже 95%. Мы также должны отслеживать новые данные, полученные во время обслуживания, и выявлять изменения в распределении данных.

Приятного обучения!