Магазины функций упрощают и удешевляют создание более точных моделей машинного обучения.

Автор: Монте Цвебен, Морган Суини

Модель машинного обучения будет настолько хороша, насколько хороши данные, в которые она поступила. Чтобы быть более точным, модель хороша настолько, насколько хороши функции, которые ей были предоставлены.

Функция - это полезный показатель или атрибут, взятый либо из точки необработанных данных, либо из совокупности нескольких точек исходных данных. Конкретные особенности, используемые в модели, будут зависеть от прогноза, который модель пытается сделать. Если модель пытается предсказать мошеннические транзакции, например, соответствующие функции могут включать, была ли транзакция в другой стране, была ли покупка больше, чем обычно, или если покупка не соответствует типичным расходам для данного клиента. . Эти характеристики могут быть рассчитаны на основе таких точек данных, как место покупки, стоимость покупки, стоимость средней покупки и агрегированные модели расходов конкретного пользователя, совершающего покупку.

Хотя данные, на которых обучается модель машинного обучения, имеют первостепенное значение, подготовка надежных данных является одной из самых сложных задач для специалистов по данным. Фактически, 80% среднего специалиста по данным тратится на подготовку данных. Это включает в себя сбор данных, очистку и систематизацию этих данных, а также преобразование их в функции. Это ручная, монотонная и утомительная работа: 76% специалистов по обработке данных оценили подготовку данных как наименее приятную часть своей работы. Возможно, самое главное, в этой работе может быть нет необходимости - многие специалисты по обработке данных в компании в конечном итоге вынуждены копаться в данных, чтобы вычислить те же характеристики, которые уже обнаружил другой специалист по данным в компании. Кроме того, специалисты по обработке данных тратят значительные усилия на репликацию одних и тех же конвейеров проектирования функций каждый раз, когда они хотят развернуть модель.

Если это кажется неэффективным, то это потому, что это так. Малые предприятия и ведущие компании, занимающиеся ИИ, обращаются к магазинам функций, чтобы решить эту проблему.

Что такое магазин функций?

Магазин функций - это система, созданная специально для автоматизации ввода, отслеживания и управления данными в моделях машинного обучения. В функциях хранятся вычисленные и хранимые функции, что позволяет регистрировать, обнаруживать, использовать и совместно использовать их в компании. Хранилище функций гарантирует, что функции всегда актуальны для прогнозов, и последовательно поддерживает историю значений каждой функции, чтобы модели можно было обучать и повторно обучать. В частности, магазин функций включает в себя:

  1. Автоматическое преобразование данных
  2. Единый реестр функций
  3. Обучение и переподготовка моделей
  4. Обслуживание функций в реальном времени
  5. Мониторинг модели.

Автоматическое преобразование данных

Хранилища функций управляют конвейерами данных, которые преобразуют необработанные данные в значения функций. Это могут быть запланированные конвейеры, которые объединяют петабайты данных за раз (например, вычисление средних сумм расходов за 30, 60 и 90 дней каждого покупателя крупного розничного продавца) или конвейеры в реальном времени, которые запускаются событиями и мгновенно обновлять значения функций (например, обновлять общую сумму сегодняшних расходов для конкретного клиента каждый раз, когда он использует свою кредитную карту).

Единый реестр функций

Реестр функций - это центральный интерфейс для каталогизации определений функций в организации. Реестр функций содержит стандартизованные определения функций и связанные метаданные, которые служат единым источником информации для организации.

Магазин функций делает поиск доступных функций и определений функций простым и понятным. Он предоставляет специалистам по анализу данных API и пользовательские интерфейсы, чтобы увидеть доступные в настоящее время функции, конвейеры и наборы обучающих данных, которые либо используются в производственных моделях, либо находятся в стадии разработки. Затем специалисты по данным могут выбирать функции, необходимые для их варианта использования, и включать их в модели без какого-либо дополнительного кода.

Обучение и переподготовка моделей

Хранилище функций организует более старые функции в базу данных временных рядов, так что при обучении моделей все примеры имеют функции, согласованные одновременно. Поскольку все исторические значения функций хранятся вместе с их наиболее актуальными значениями, Feature Store может генерировать полные обучающие наборы данных для объектов и должным образом согласовывать их с метками для обучения. По мере обновления этих функций Магазин функций может точно таким же образом создавать обновленные наборы обучающих данных для повторного обучения модели.

Обслуживание функций в реальном времени

Хранилища функций обслуживают единый вектор функций, состоящий из самых свежих значений функций, для моделей машинного обучения. Например, если приложение хочет рекомендовать конкретный продукт пользователю, модели может потребоваться знать среднюю сумму, которую пользователь потратил на определенную категорию расходов, а также общую продолжительность времени, потраченного на покупки за последние 48 часов. В магазине функций будут самые актуальные значения для этих показателей, немедленно доступные для модели, вместо того, чтобы запускать конвейер данных для их расчета.

Мониторинг модели

Предполагая, что все предыдущие прогнозы от моделей хранятся вместе с входными данными для модели в то время, сравнение этих функций (собранных из хранилища функций) вместе с обновленными метками (когда они становятся доступными) с прогнозом модели становится простым вызовом API. Это позволяет пользователям отслеживать производительность модели и отслеживать любые отклонения функций, отклонения прогнозов модели и точность модели (когда становятся доступными метки). Поскольку в Feature Store все значения функций хранятся в актуальном состоянии, а все исторические значения согласованы по времени, можно легко отслеживать модели с помощью Feature Store.

Как магазины функций повышают производительность и эффективность?

Хранилища функций повышают продуктивность специалистов по обработке данных и улучшают производительность моделей машинного обучения на предприятии, позволяя:

  1. Повторное использование функций

В типичных рабочих процессах Data Science новый проект требует сбора данных, преобразования их в полезные функции, обучения и последующего развертывания модели. Поскольку функции не могут быть легко разделены, несколько команд, каждая из которых находится в своем собственном подразделении, часто повторяют одну и ту же работу по разработке функций несколько раз.

С хранилищем функций специалист по данным может немедленно приступить к решению новой проблемы, изучив уже доступные функции. Во многих случаях функции, использованные в прошлых моделях или созданные другими специалистами по данным, могут быть повторно использованы в вашем следующем проекте машинного обучения.

Если желаемых функций еще нет, специалист по анализу данных всегда может добавить новые функции, тем самым укрепив Магазин функций для себя и других в будущем. По мере развития этого итеративного процесса его ценность возрастает за счет ускорения анализа данных и упрощения развертывания моделей.

2. Согласованность функций

Отсутствие последовательного способа вычисления функций приводит к тому, что модели сильно различаются в разных хранилищах данных. Например, в розничной компании одна команда может рассчитать «общий доход клиента» путем вычитания прибыли от продаж, тогда как другая команда рассчитывает ее, просто используя продажи. Оба являются допустимыми показателями, но если они оба называются «общим доходом клиента», это приводит к непоследовательно рассчитываемым показателям в разных конвейерах данных.

Реестр особых функций в магазине функций обеспечивает централизованное расположение функций, где каждая функция рассчитывается по отдельности, поэтому больше нет путаницы.

3. Точность на определенный момент времени

Наборы значений характеристик, используемые для обучения, должны быть значениями, которые были известны во время событий, на которых обучалась модель. Это гарантирует, что, когда модель используется для прогнозирования, входные значения функций, которые она использует, соответствуют ее обучению. Магазин функций решает эту проблему, создавая наборы обучающих данных с согласованными по времени значениями функций, взятыми из истории каждого набора функций на момент моделирования событий.

4. Объясняемость модели и управление

С помощью хранилища функций вы можете легко определить, на каких данных была обучена модель, и сравнить их с данными, которые фактически были загружены в развернутую модель. Это значительно упрощает итерацию, обучение и отладку модели, поскольку вы можете точно видеть, какие данные вы использовали и когда. Более того, сквозное происхождение гарантирует, что вы сможете ответить на вопросы о том, почему ваша модель делала определенные прогнозы в какой-то момент в прошлом.

Преимущества магазина функций

Специалистов по обработке данных немного, и они не из дешевых. Повышение продуктивности работы с данными за счет исключения повторяющейся и ненужной работы означает, что вы можете создавать больше моделей за меньшее время с вашим текущим персоналом.

Хранилища функций позволяют создавать более точные модели, выводя актуальность данных на совершенно новый уровень. Отделив конвейер данных от модели машинного обучения, можно сразу же получить большие функции на основе агрегации, на вычисление которых могут потребоваться часы, при необходимости. Это дает моделям в реальном времени доступ к значениям характеристик, которых у них не было бы в противном случае. Имея доступ к данным в реальном времени, модели могут более точно прогнозировать, основываясь на том, что происходит в реальном мире, вместо того, чтобы зависеть от вчерашних данных.

Магазины функций позволяют корпоративному ИИ масштабировать машинное обучение, как никогда раньше. Магазины функций не только делают ваши модели настолько точными, насколько это возможно, они также предлагают вашей команде машинного обучения организационную структуру, которая делает их работу намного проще и приятнее. Выведите свою компанию впереди конкурентов с помощью магазина функций.

Если вы хотите увидеть магазин функций в действии, посмотрите это 5-минутное видео.