Как на нашу модель влияет развивающийся мир? Анализ, сосредоточенный на примерах отклонений и реализации стратегий мониторинга на основе Python.
Разработка модели машинного обучения (ML) часто занимает время и требует технических знаний. Как энтузиасты науки о данных, когда мы получаем набор данных для изучения и анализа, мы охотно обучаем и проверяем его, используя разнообразные современные модели или применяя стратегии, ориентированные на данные. Когда мы оптимизируем производительность модели, мы испытываем невероятное удовлетворение, как если бы все задачи были выполнены.
Однако после внедрения модели в производство существует множество причин, которые способствуют снижению производительности или ухудшению производительности модели.
#1. Обучающие данные генерируются посредством моделирования
Ученые, работающие с данными, часто сталкиваются с ограничениями в доступе к производственным данным, что приводит к обучению модели с использованием смоделированных или выборочных данных. Хотя инженеры данных несут ответственность за обеспечение репрезентативности обучающих данных с точки зрения масштаба и сложности, обучающие данные все равно в некоторой степени отклоняются от производственных данных. Существует также риск систематических ошибок в первичной обработке данных, таких как сбор и маркировка данных. Эти факторы могут повлиять на извлечение дополнительных полезных входных функций или помешать модели хорошо обобщать.
Пример.Данные инвесторов в финансовой отрасли или информация о пациентах в сфере здравоохранения часто моделируются из соображений безопасности и конфиденциальности.
#2 Новые производственные данные демонстрируют новое распределение данных
Со временем характеристики входных функций также могут измениться, например, изменения в возрастных группах, диапазонах доходов или других демографических характеристиках клиентов. Сам источник данных может быть даже полностью заменен в силу различных случаев. В процессе разработки модели оптимизация основана на обучении и выявлении закономерностей из основной группы в обучающих данных. Однако с течением времени предыдущее большинство может перейти в меньшинство в производственных данных, что сделает исходную статическую модель неадекватной для удовлетворения самых последних производственных потребностей.