В этом сообщении блога мы просто и ясно покажем разницу между 4 популярными магазинами функций: Магазин функций Vertex AI, FEAST, Магазин функций AWS SageMaker и Магазин функций Databricks. Их функции, возможности и особенности будут сравнивать на одном рефкарте. Какой магазин функций выбрать для нужд вашего конкретного проекта? Это сравнение сделает это решение намного проще. Но сначала:

Объяснение магазина функций: что такое магазин функций?

Хранилище функций — это средство хранения данных, которое позволяет хранить функции, метки и метаданные вместе в одном месте. Мы можем использовать хранилище функций для обучения моделей и обслуживания прогнозов в производственной среде. Каждая функция хранится вместе с метаданными. Это чрезвычайно полезно при работе над проектом, так как каждое изменение можно отследить от начала до конца, а каждую функцию можно быстро восстановить при необходимости.

Прежде чем двигаться дальше, давайте посмотрим на модель данных Feature Store на диаграмме ниже.

Хранилище функций содержит набор объектов указанного времени объекта. Каждый тип объекта определяет такие поля, как «entity_id», «отметка времени» и список функций, таких как «feature_1», «feature_2» и т. д.

Таким образом, мы можем думать о Feature Store как о централизованном наборе сущностей из всей организации:

  • Бизнес-команды предоставляют высокоуровневые бизнес-показатели без помех или погрешностей из низкоуровневых данных. Например, вы не хотите строить свой механизм обнаружения мошенничества на данных, искаженных мошенническими действиями пользователей.
  • Исследователи данных заинтересованы в объектах, представляющих высококачественные функции, для обучения своих моделей машинного обучения. В большинстве случаев эти функции не являются бизнес-показателями, а представляют собой очень подробные значения, вычисляемые из необработанных данных вашего приложения ( например, сколько раз пользователь Х заходил в систему в течение последнего часа). Получение этих высококачественных функций требует значительных вычислительных ресурсов и их сложно поддерживать. Последнее, что вам нужно, — это чтобы каждая модель машинного обучения пересчитывала эти функции при каждом запуске.

Платформа машинного обучения должна иметь доступ к этим функциям в масштабе при запуске ваших моделей в производственной среде.

Feature Store может решить бизнес-проблемы, о которых я упоминал в этой статье: MLOps 5 проблем с машинным обучением, приводящих к неэффективному использованию данных.

Тем не менее, перед этим я хотел бы кратко представить решения, доступные на рынке.

Сравнение магазина функций

Ниже в refcart вы найдете очень конкретное сравнение основных различий между четырьмя наиболее популярными магазинами функций: Магазин функций Vertex AI, FEAST, Магазин функций AWS SageMaker и Магазин функций Databricks.

Внутреннее хранилище функций для управления и развертывания функций в различных системах машинного обучения является ключевой практикой для MLOps. Хранилища функций помогают разрабатывать, развертывать, управлять и отслеживать модели машинного обучения. Это позволяет улучшить жизненный цикл разработки вашей модели, а также гибкость и масштабируемость инфраструктуры машинного обучения. Вы также можете использовать хранилище функций, чтобы предоставить единый интерфейс для доступа к функциям в разных средах, таких как обучение и обслуживание.

Мы завершаем выпуск электронной книги, в которой подробно показано, как создать хранилище функций с нуля с помощью платформы Vertex AI и как решить бизнес-проблемы, которые могут возникнуть в процессе машинного обучения. Мы также укажем на различия между BigQuery и Snowflake, облачным хранилищем данных. Кроме того, мы продемонстрируем, как использовать dbt для создания масштабируемых конвейеров ELT за считанные минуты.

Если у вас есть какие-либо вопросы или проблемы в области машинного обучения и MLOps, мы рекомендуем вам связаться с нами. У нас есть опыт внедрения и оптимизации процессов Machine Learning и MLOps. Мы также разработали оригинальные решения в нишевых областях. Мы будем рады помочь вам с нашим опытом.

Не пропустите выпуск электронной книги: Улучшите процесс машинного обучения, создавайте хранилище функций быстрее — познакомьтесь с Vertex AI, Snowflake и dbt Cloud. Подпишитесь на нашу рассылку, чтобы получать уведомления, когда электронная книга будет готова.

Вам понравился наш пост? Если вы хотите узнать больше, скачайте нашу бесплатную электронную книгу «MLOps: Power Up Machine Learning Process. Введение в Vertex AI, Snowflake и dbt Cloud».

Первоначально опубликовано на https://getindata.com.

Автор блога: Jakub Jurczakинженер Google Cloud Platform.