O’Reilly Insights
Машинное обучение и производственный разрыв
Примечание редактора. Майк Лукидес, вице-президент по контент-стратегии в O'Reilly Media, рассматривает одну из самых серьезных проблем в области машинного обучения сегодня и то, как один автор помогает ее решить. / em>
Самая большая проблема, с которой сегодня сталкивается машинное обучение, - это не потребность в улучшенных алгоритмах; нет необходимости в дополнительных вычислительных мощностях для обучения моделей; это даже не необходимость в более квалифицированных специалистах. Машинное обучение переносится с ноутбука исследователя на производство. Это настоящий пробел. Одно дело построить модель; совсем другое дело - воплотить эту модель в приложении и успешно развернуть ее в производственной среде.
Вот тут-то и появляется книга Эммануэля Амейсена Создание приложений для машинного обучения. Когда я впервые встретил Эммануэля, три или четыре года назад, меня впечатлили не его знания в области построения моделей - хотя они явно у него были. (Впервые я узнал об Эммануэле из статей в его блоге.) Он явно заботился обо всем процессе: не только о разработке алгоритмов, поиске и очистке данных и обучающих моделей, но и о создании рабочего приложения и его внедрении в производство.
Вот о чем его новая книга. Модель не заканчивается на процессе разработки. Все заканчивается развернутой моделью. Нельзя просто говорить о программировании или обучении; вы должны заставить это работать в реальном мире.
Эммануэль начинает с самого начала: каковы цели продукта и как преобразовать эти цели во что-то, что можно разумно реализовать? Вам нужно понять, можно ли решить проблему, а если нет, то как переосмыслить проблему, чтобы это стало возможным. Вам необходимо определить показатели, которые показывают, как работает ваша система, и достигаете ли вы прогресса. Вам необходимо собрать соответствующие данные для обучения и развернуть конвейеры, которые будут передавать данные в модель, когда она находится в эксплуатации. Создание продукта, работающего в реальном мире, также включает понимание того, как развернуть модель; мониторинг производительности после развертывания; и текущее обслуживание и обновления.
Техническое обслуживание может быть самым важным вопросом. За последние несколько лет операционные группы многое узнали о непрерывном развертывании и доставке (CI / CD). Теперь перед нами встает вопрос, как приложения машинного обучения вписываются в эту модель. Как вы отслеживаете приложения ML и какой мониторинг нужен? Как определить смещение модели? Эти концепции являются новыми для продолжающегося разговора о мониторинге и наблюдаемости. Как вы практикуете быстрое развертывание, когда обучение модели может занимать часы или дни?
Есть много книг, в которых говорится о машинном обучении. Но это единственный известный мне документ, который охватывает весь процесс, от начала до конца, в доступной и практической форме. Это единственная программа, которая занимается самой большой проблемой машинного обучения: снятием модели с вашего ноутбука и запуском в производство.
Учись быстрее. Копать глубже. Смотрите дальше.
Присоединяйтесь к платформе онлайн-обучения O’Reilly. Получите бесплатную пробную версию сегодня и находите ответы на лету или осваивайте что-то новое и полезное.
"Выучить больше"
O’Reilly Media on Medium - это пространство, курируемое редакторами O’Reilly, где предлагаются советы, идеи, точки зрения и опыт в области технологий.
Майк Лукидес - вице-президент по стратегии содержания компании O’Reilly Media, Inc. Он отредактировал множество уважаемых книг по техническим предметам, не связанным с программированием для Windows. Его особенно интересуют языки программирования, Unix и то, что сегодня считается Unix, а также системное и сетевое администрирование. Майк является автором книги «Настройка производительности системы» и соавтором Unix Power Tools. Совсем недавно он писал о данных и искусственном интеллекте, этике, будущем программирования и обо всем, что кажется интересным. А еще он пианист, радиолюбитель и любитель птиц.