Мнение
2020 год сломал наши модели машинного обучения
Выявить проблемы и внести изменения в 2021 году
Несомненно, в 2020 году поведение потребителей резко изменилось. Нам будет сложно найти модель, которая предсказывала бы глобальную потребность в лицевых масках N95 и других СИЗ. Необходимо будет полностью переработать и переобучить модели поставок СИЗ. Как поживают ваши модели? Как и многие практикующие специалисты по прикладной науке о данных, вы можете обнаружить, что некоторые результаты моделей не были «типичными» в последние месяцы - начните 2021 год с анализа своих моделей и составления плана действий.
Почему это вызывает беспокойство?
Очевидно, что модели прогнозирования потребительского спроса не работают при резких изменениях фактического потребительского спроса. Выбросы всегда проблематичны. 2020 год принес МНОЖЕСТВО нестандартных сценариев. Спрос на ноутбуки и периферийные устройства резко вырос из-за внезапного перехода на работу и учебу из дома. Остановка производственных мощностей в цепочках поставок нарушила нормальный поток своевременной инвентаризации компьютерных компонентов. Переход от покупок в магазине к онлайн-доставке превысил количество доставок на последней миле. Есть ли в модели спроса флаги функций, которые указывают на то, что поставщик закрыл завод, И маршруты доставки были закрыты, И потребительский спрос резко вырастет после типичной праздничной суеты? Возможно нет. И не зря. Нет современной цифровой истории для всемирной пандемии с такими масштабными последствиями, как COVID-19. Модели не могли предсказать то, чему они не научились.
У вас есть проблемы?
Это некоторые базовые сценарии, которые могут указывать на необходимость действий.
Снизился ли показатель вашего успеха? В принципе, ваша модель просто больше не работает? После развертывания все модели деградируют, но изменились ли ваши цифры кардинально? Это симптом. См. Другие сценарии для выявления возможных первопричин.
Изменилось ли распределение характеристик данных (дрейф данных)? Часть мониторинга модели оценивает изменения в распределении данных в данных. Многие платформы имеют автоматический мониторинг дрейфа данных с сигналами тревоги. У вас сработали какие-нибудь будильники?
Изменились ли отношения между объектом и целью (смещение концепции)? В 2019 году ваша модель настроений оценила «маску» как нейтральную, а в 2020 году модель должна оценить ее как отрицательную. Простое повторное обучение данных без изменения смысла слова «маска» будет неэффективным.
Подумайте, настолько ли изменилась среда, что изменилась реальная проблема бизнеса. Этот анализ может потребовать от вас проконсультироваться со своими бизнес-спонсорами и экспертами в предметной области (МСП). Если среда кардинально изменилась, переобучение модели для достижения недостижимой бизнес-цели - пустая трата времени, ресурсов и репутации.
Что вы можете сделать по этому поводу?
У вас есть несколько маршрутов в зависимости от степени изменений, которые вам нужно внести.
Если вы считаете, что проблема заключается в дрейфе данных, а сами функции обучения и оценки по-прежнему актуальны, может быть достаточно повторного обучения модели с использованием обновленных исторических данных. Если данные продолжают меняться, подумайте о том, чтобы изменить график переподготовки на более частую каденцию.
Если вы считаете, что проблема заключается в дрейфе концепций, у вас есть дополнительная работа. Перед повторным обучением вам придется изменить метку ваших исторических данных.
Вам нужны новые функции данных? Нужен «globalPandemicflag»? В таком случае вам может потребоваться дополнительная работа с конвейером данных, анализ, обучение и настройка. Основная архитектура и дизайн вашего алгоритма могут остаться нетронутыми.
Если основной бизнес-вариант использования изменился сам по себе, вы можете полностью изменить дизайн. Или модель нужно списать полностью. Если ваша модель предсказывает частоту бронирования столиков в ресторане, у вас есть более серьезные проблемы, чем плохие результаты модели. Является ли переобучение модели лучшим использованием ресурсов в настоящее время?
Вывод
Я не вижу стабилизации данных о потребителях в начале 2021 года. Слишком много неизвестных переменных, касающихся развертывания вакцины, вирусных мутаций и самого большого неизвестного - поведения человека. Какому поведению потребителей потребуются годы, чтобы вернуться к «нормальному», а какое внезапно изменится после вакцинации? Приготовьтесь усилить мониторинг моделей, увеличить частоту переподготовки и изучить решения для активного обучения для своих бизнес-кейсов.
Престижность за серьезное отношение к мониторингу и обслуживанию моделей! Мир науки о данных нуждается в таких преданных специалистах, как вы.