Подпишитесь на Квантификаторы для статей по финансам и аналитике
Мы ожидаем, что наша модель будет работать так же, как и с обучающими данными. Однако, если распределение производственных данных отличается от распределения обучающих данных, это может привести к дрейфу модели. Дрейф модели относится к снижению прогностической способности модели.
Дрейф модели возникает, когда:
- Данные обучения плохо отобраны
- Происходит изменение основного бизнес-контекста
Почему важно отслеживать дрейф модели?
Необходимо отслеживать производительность на предмет дрейфа модели, чтобы обеспечить точные прогнозы и проверить, не требуется ли переобучение.
Виды дрифта
Дрейф данных/функций — при изменении входного объекта.
Целевой дрейф – изменение распределения целевой переменной.
Дрейф понятий — изменение модели или связи между предикторами и результатом.
Дрейф данных:
Это также известно как дрейф признаков, дрейф популяции или дрейф ковариат. Дрейф данных наблюдается, когда происходит изменение распределения признаков в производственной среде по сравнению с обучающими данными. Модель по-прежнему будет хорошо работать на данных, похожих на «старые», на которых модель обучалась.
Почему происходит дрейф данных?
- Смещение выбора — когда обучающая выборка не является репрезентативной для населения.
- Нестационарная среда — когда среднее значение и дисперсия данных изменяются с течением времени.
Примеры дрейфа данных:
Анализ оттока: наша модель может не предсказать причины оттока клиентов, когда конкурент вводит новую модель ценообразования, которую мы не учли в то время. обучение нашей модели.
Анализ отсева сотрудников: наша модель не сможет правильно предсказать отсев сотрудников, если в отрасли изменится спрос или появится спрос на новый набор навыков.
Целевой дрейф:
Дрейф цели наблюдается при изменении распределения целевой переменной (зависимой переменной).
Примеры смещения цели:
Рекомендации для платформы электронной коммерции: наша модель не сможет предоставить правильные рекомендации, если после развертывания модели в рабочей среде появятся новые категории/продукты.
Прогнозирование цены дома. Наша модель не будет правильно прогнозировать цену дома (целевая переменная) при изменении стоимости валюты.
Движение концепции:
Дрейф концепции наблюдается, когда происходит изменение отношения между целевой/прогнозируемой переменной и предикторными переменными.
Виды дрейфа понятий:
Постепенный/инкрементальный дрейф — это происходит из-за постепенных изменений внешних факторов.
Примеры постепенного дрейфа концепции:
Конкурентные факторы. Если конкурент представит новые продукты, модель прогнозирования продаж не сможет правильно предсказать продажи.
Механический износ оборудования. Наши машины становятся медленными и не могут производить товары с такой же эффективностью. Следовательно, наша производственная модель потерпит неудачу.
Внезапный дрейф — это происходит из-за внезапных/непредвиденных изменений внешних факторов.
Примеры внезапного изменения концепции:
Спрос на медицинские учреждения во время Covid-19. Модель, используемая аптеками для прогнозирования спроса на лекарства, не удалась из-за повышенного спроса на определенные лекарства в связи с распространением Covid. -19.
Прогноз продаж электронной коммерции. Продажи на онлайн-платформах выросли из-за общенационального карантина во время Covid-19.
Как нам быть с Model Drift?
- Если в модели наблюдается дрейф, важно переобучить модель.
- Мы можем использовать как старые данные, так и новые данные для переобучения нашей модели. При переобучении мы можем присвоить более высокий вес новым данным, чтобы наша модель отдавала приоритет последним образцам.
- Если у нас будет достаточно новых данных, мы можем избавиться от прошлых данных.
- Возможно, нам потребуется изменить масштаб модели. Возможно, нам придется запускать модель чаще.
- Если наблюдается отклонение модели из-за внутренних изменений, об этом следует сообщить группе аналитиков данных. Это обеспечит согласование владельцев бизнеса и специалистов по сопровождению модели.
Если вы являетесь энтузиастом машинного обучения, не забудьте проверить — https://censius.ai/
Censius предлагает платформу наблюдения e2e AI, которая заблаговременно обнаруживает и устраняет снижение производительности, низкое качество данных и моделирует дрейфует для создания надежных моделей машинного обучения. Они также предлагают 14-дневную бесплатную пробную версию.
Ссылки:
Если вам нравится мой контент на Среднем или Квантификаторе и вы находите его находчивым, вы можете выразить свою поддержку, нажав кнопку аплодисментов.
Чтобы связаться со мной, свяжитесь с Linkedin.
Что касается интервью с PM, вы можете обратиться к замечательным статьям на странице Technomanagers.