Организации всегда борются за то, чтобы внедрить свои модели машинного обучения в производство и использовать их для поддержки своих операций. Модели машинного обучения создаются специалистами по данным, но они обычно не осведомлены о производственных элементах развертывания или оценки таких моделей. В случае, если что-то пойдет не так, они обычно не занимаются производством. Кроме того, обычно в их обязанности не входит выполнение действий DevOps, таких как развертывание модели. Эти обязанности DevOps и работа специалистов по данным всегда были разделены.

Вот пять проблем, с которыми сталкиваются модели машинного обучения в производственной среде.

1. Соответствие

Модели машинного обучения также должны соответствовать нормативным требованиям, прежде чем внедряться в производство. Могут существовать разные прогнозы, и необходимо изучить исторические данные, чтобы убедиться, что модель машинного обучения работает надлежащим образом. Это особенно актуально в банковской и финансовой отраслях, где прогнозы модели необходимо отслеживать быстро и легко, чтобы проверить соответствие властям и объяснить, почему модель машинного обучения предсказала конкретную цену. Отслеживание должно быть встроено, чтобы быстро идентифицировать модель и набор данных, на котором она была обучена, чтобы найти прогноз, сделанный моделью в прошлом.

2. Управление похожими моделями

Сегодня на рынке сложно найти решение, позволяющее одновременно установить множество моделей и сравнить их поведение на одних и тех же данных. На данный момент сделать это крайне сложно, долго и сложно. Когда одна модель машинного обучения развертывается вручную, работа, необходимая для установки и сравнения множества моделей, увеличивается и становится практически невыполнимой. Возможность наблюдать показатели мониторинга для нескольких моделей на производственных данных — полезный инструмент для выбора лучших моделей. Можно сделать обоснованные бизнес-суждения о том, работает ли модель надлежащим образом, а плохие модели можно легко и быстро отбросить.

3. Периодическое повторное развертывание моделей машинного обучения

Поскольку модели машинного обучения со временем ухудшаются, их необходимо развертывать повторно. Это прямо противоречит концепциям разработки программного обеспечения, используемым программистами. В их случае код, развернутый один раз, хорош на всю жизнь, и его нужно повторно развертывать только при обновлении. С другой стороны, модели машинного обучения со временем могут потерять свою ценность. Об этом необходимо заботиться в течение всего срока службы модели и требует постоянного контроля.

4. Все о мониторинге

Для мониторинга моделей машинного обучения, в отличие от кода разработки программного обеспечения, может потребоваться дополнительная работа. Поскольку эти модели обучаются на данных перед развертыванием, данные должны быть точными и не содержать двусмысленностей. Чтобы выявить дрейф, смещение или аномалии в данных, обычно требуется отслеживание входящих векторов признаков. Имея это в виду, очень важно иметь мониторинг входящих данных и уведомления.

5. Модели машинного обучения охватывают три вертикали

Когда дело доходит до кода инженерии программного обеспечения, эти команды разработчиков просто должны заботиться о языке, на котором поставляется код. Эти разработчики создают инфраструктуру на основе этого кода, после чего системы готовы к развертыванию на всю оставшуюся жизнь. Это не тот случай, когда речь идет о развертывании моделей машинного обучения. Помимо языков программирования, необходимо учитывать библиотеки и фреймворки. Для поддержки этих трех вертикалей требуется подходящая инфраструктура или платформенный инструмент.

Создание моделей машинного обучения происходит в самых разных контекстах. Специалисты по данным используют широкий спектр сред и языков машинного обучения, некоторые из которых зависят от базового оборудования, такого как CUDA от Nvidia, и других типов зависимостей, которые могут вызывать проблемы с серверной частью.

В случае машинного обучения весьма полезной была бы единая платформа, которая может работать с множеством фреймворков и языков программирования. Это связано с тем, что они смогут сосредоточиться на предметной области, а не ограничиваться небольшим количеством фреймворков. У дата-сайентистов было бы больше свободы, если бы существовал механизм более быстрой доставки созданных моделей в производство, поскольку они могли бы выпускать модели и различные версии чаще. Это помогло бы быстро определить основные причины трудностей изготовления реальных моделей.

— — — — — — — — — — — — — — — — — -

Модели машинного обучения сложно ввести в действие, но это возможно. Новый жизненный цикл разработки моделей, в дополнение к упомянутым выше предложениям, упростит процесс создания и изготовления моделей. Это достигается путем оказания помощи специалистам по данным, инженерам и другим связанным группам в принятии быстрых и эффективных решений, а также помощи командам в снижении производственных рисков.

https://www.enterpriseai.news/2021/09/06/overcoming-the-challenges-of-machine-learning-models/