Сколько раз бывает так, что после разработки отличной модели машинного обучения мы слышим "Хорошая работа", за которой сначала следуют препятствия для развертывания, а затем в конечном итоге оставляют ее как "демонстрационная модель". Сколько раз мы получаем одобрение бизнеса для пилотной модели, но сталкиваемся с ограничениями, связанными с системами или данными, которые оставляют нас желать.

В связи с нынешним ростом машинного обучения и новых вычислительных технологий бизнес требует развертывания решений для аналитики, а не просто сосредоточения внимания на демонстрационных моделях. Чтобы восполнить пробел, мы можем выполнить несколько простых шагов при формулировании нашей модели машинного обучения и сделать большой шаг вперед для развертывания решений.

Весь путь Аналитики начинается с определения того, что мы планируем достичь. Когда мы планируем вмешательство аналитики, нам нужно подумать о том, что является самым большим изменением», которое, как ожидается, принесет решение. Это поможет нам установить существующие исполнительные бизнес-показатели, которые, как мы увидим, будут затронуты. Как только мы определим то же самое, это не только поможет нам установить реальную ценность для бизнеса, которую можно измерить, но также поможет нам объяснить наше решение любому бизнес-лидеру.

Пример. Модель прогнозирования заболеваний, скорее всего, приведет к упреждающему вмешательству, что в конечном итоге поможет снизить общую нагрузку на здравоохранение, измеряемую с помощью таких показателей, как PMPM (на участника в месяц). Самое большое изменение, которое обеспечивает решение, — это "время вмешательства"; а существующие показатели, на которые он, как утверждается, влияет, — это «бремя здравоохранения».

Однако представьте себе разработку прогностической модели ожирения. Это образ жизни, в который сложно вмешаться и изменить бремя здравоохранения в краткосрочной перспективе. Но можем ли мы думать с точки зрения Качества жизни?

Одна из истин заключается в том, что развертывание модели занимает больше времени, чем ее разработка. Только

небольшая часть всего аналитического решения состоит из кода ML, который окружен инфраструктурой, такой как конфигурация системы, сбор данных, создание функций, оценка качества данных, управление процессами и мониторинг. Чтобы машинное обучение работало на вас,

важно синхронизироваться с инфраструктурой решения. Это позволит нам разработать модель машинного обучения для «реальной системы», а не для «идеальной системы», которая может появиться в будущем.

Пример. Скажем, я хочу уменьшить бремя Covid и планирую построить Модель прогнозирования Covid, используя пациентов с Covid в качестве метки в моей контролируемой модели. Однако с помощью Модели мы сможем определить население, у которого есть и, вероятно, будет Covid. В случае, если мы хотим разработать модель для профилактики только тех групп населения, у которых «вероятность заражения» Covid, наши ярлыки нужно будет определить по-другому.

Каждая аналитическая цель имеет те или иные ограничения. Одним из ключевых шагов является понимание того, «если мы сможем создать модель золотого стандарта, как она будет создавать ценность» и в каких случаях цель нашей модели может не достичь успеха. Этот шаг тесно связан с предыдущим шагом «Обдумывание аналитической цели», поскольку он поможет установить потенциальные ловушки, которые могут помочь нам понять, сможет ли модель оправдать свои преимущества в условиях ограничений.

Пример: возьмем пример предсказания Covid «вероятно иметь», если мы обучим модель с использованием данных приложения Aarogya setu; мы ограничиваемся данными населения со смартфоном и установленным приложением. Таким образом, модель может быть эффективной только для населения, для другого населения мы можем искать другие данные, такие как иммиграция.

Черный ящик современного алгоритма машинного обучения создает препятствия для принятия модели. Многие банковские фирмы продолжают полагаться на традиционную логистическую регрессию по той же причине. В настоящее время существует несколько методов, таких как SHAP и LIME, которые могут помочь в объяснении отдельных наблюдений. Кроме того, обширный исследовательский анализ данных, сокращение переменных и т. д. могут помочь в получении бай-ина.

Пример. Поскольку человек может понимать только несколько атрибутов одновременно, просмотр одномерных и двумерных данных может помочь объяснить, как атрибуты объединяются для увеличения масштаба прогноза.

Одна из истин заключается в том, что развертывание модели занимает больше времени, чем ее разработка. Лишь небольшая часть всего аналитического решения состоит из кода машинного обучения, который окружен инфраструктурой, такой как конфигурация системы, сбор данных, создание функций, оценка качества данных, управление процессами и мониторинг. Чтобы машинное обучение работало на вас, важно синхронизироваться с инфраструктурой решения. Это позволит нам разработать модель машинного обучения для «реальной системы», а не для идеальной системы», которая может появиться в будущем.

Пример. Скажем, мы разработали модель прогнозирования Covid, которая может иметь место, используя данные приложения Aarogya setu, где самая важная характеристика существовала за предыдущий день, например количество положительных случаев Covid за последние 24 часа в пределах 5 км. Однако, если данные приложения синхронизируются с задержкой в ​​1 день, а развертывание выполняется посредством пакетной обработки, решение не будет иметь времени вмешательства и, следовательно, не сможет предоставить значение конечного состояния. Решением для них может стать реализация в реальном времени или разработка модели, в которой генерация функций учитывает задержку данных.

В следующий раз, когда вы начнете новый проект по машинному обучению, подумайте о том, чтобы включить описанные выше шаги в разработку аналитического решения, чтобы создать способ заставить машинное обучение работать в вашем бизнесе.

Если вы чувствуете, что сталкиваетесь с различными проблемами, пожалуйста, оставьте комментарий, и давайте решим их вместе.

www.artinai.in