Все, что связано с машинным обучением, значительно увеличилось — новые алгоритмы, новые фреймворки, новые инструменты, новые роли и должности. Это более чем оправданный всплеск для дисциплины, направленной на решение серьезных проблем для многих компаний и секторов.
Прежде чем создавать и развертывать модели машинного обучения в рабочей среде, организация должна иметь стабильную платформу данных и отработанные процессы. Мы хотим, чтобы наши специалисты по данным работали быстро, быстро терпели неудачу и обучались быстрее. Но специалисты по данным принадлежат к более широкой среде данных. Чтобы полностью понять модели машинного обучения, мы не можем просто сосредоточиться только на прогнозах и характеристиках. Мы также должны учитывать меняющуюся реальность и эволюцию данных вместе с ней.
Почему меняются показатели эффективности? Почему верхняя функция больше не доступна? Означают ли эти новые столбцы с одинаковыми именами в разных таблицах одно и то же?
Понимание наших зависимостей и роли, которую они играют, имеет решающее значение. Если мы сможем донести эти же знания до пользователей моделей и открыть канал для обмена и сотрудничества, мы на пути к успеху.
Текущий ландшафт
Бум искусственного интеллекта привел к появлению превосходных инструментов, методов и фреймворков, которые улучшают работу Data Scientist. Такие библиотеки, как MLflow и PyCaret, привносят структуру в запутанный подход к обнаружению и моделированию данных. И это не критика! Нам нужно, чтобы наши команды были изобретательны и креативны, чтобы как можно больше играть с данными.
Хотя эти инструменты ориентированы на жизненный цикл машинного обучения (обнаружение, обучение, оценка, развертывание, измерение…), легко забыть, что происходит вокруг этого.
OpenMetadata может сыграть важную роль, привнося недостающий контекст, прозрачность и содействуя совместной работе на протяжении всего жизненного цикла машинного обучения. Они являются ключевыми компонентами для превращения решений машинного обучения в продукты машинного обучения.
Стандартизация языка
Основой OpenMetadata является создание открытого стандарта для метаданных, обеспечивающего четкую и последовательную коммуникацию. Ландшафт данных богат. Поэтому нам нужны подробные определения и протоколы для всего, что связано с данными: таблицы, информационные панели, пайплайны, модели машинного обучения… и их отношения.
Благодаря стандартизированному словарю метаданных и API-интерфейсам метаданных для управления информацией OpenMetadata может помочь зафиксировать все процессы, зависимости и последующие активы вокруг моделей машинного обучения. Таким образом, мы собираем все необходимые знания для понимания, использования и обмена преимуществами машинного обучения.
OpenMetadata и машинное обучение
Используя этот стандартный язык, OpenMetadata поставляет мощный набор коннекторов для приема метаданных с различных платформ данных и сервисов. Тематическая информация из Kafka или метаданные таблиц из таких систем, как Redshift или Snowflake, среди многих других.
Фрагменты данных из этих разнообразных источников прямо или косвенно становятся ингредиентом, который передается от конвейера к конвейеру, пока команды машинного обучения не обработают его и не назовут Функция. К сожалению, общая картина исходных данных и конвейеров, вносящих вклад в источники функций, не всегда доступна или отсутствует.
С помощью определения OpenMetadata Объект модели ML специалисты по данным могут добавлять более подробные метаданные, связанные с Функциями. Например, информирование о том, откуда берутся функции, а также о преобразованиях и алгоритмах, применяемых поверх источников.
Затем разработчики и специалисты по данным могут использовать Python API для определения экземпляров объекта модели ML и передачи информации о происхождении для всех источников функций.
Сотрудничество
Команды на пути к созданию решений машинного обучения могут в конечном итоге повторять большую часть работы, неправильно использовать данные и извлекать много других ценных уроков. Обмен этими знаниями с другими командами и во всей организации имеет важное значение для повышения зрелости данных компании.
Один из основных принципов OpenMetadata — быть катализатором сотрудничества и помогать обмениваться организационными знаниями. Благодаря функциям обнаружения, таким как теги и родословная, пользователи могут задавать правильные вопросы в нужных местах, разрушая информационные хранилища.
Специалисты по данным являются одновременно потребителями и производителями данных. Обогащая определения моделей машинного обучения, добавляя информацию о происхождении, они создают связь с диаграммой знаний компании. Lineage поможет специалистам по данным отслеживать активы, которые усиливают наши функции, и сделает их работу обнаруживаемой для пользователей, просматривающих представление lineage.
Более того, применение осмысленных описаний и тегов делает контент доступным для поиска и показывает его вместе с его связанными объектами. Кроме того, информирование и проверка прав собственности на активы могут стать отправной точкой для прямого сотрудничества.
— Это прогнозы, которые мы предоставляем, и то, как мы вычисляем наши Характеристики. Поделитесь своими мыслями и опытом и помогите нам улучшить.
Управление эволюцией
Ранее мы говорили об эволюционирующей природе данных. Знание того, что изменилось в источнике в определенный момент, может сэкономить драгоценное время отладки.
С помощью OpenMetadata пользователи могут просматривать историю изменений метаданных благодаря управлению версиями объектов. Он фиксирует от чисто информационных обновлений, таких как изменение описания или добавление тега, до критических изменений при удалении столбца или изменении типов данных.
Управление версиями активов важно по двум причинам:
- Мы можем проверить, влияет ли изменение исходных кодов на наши исходные зависимости, и
- Наши заинтересованные стороны могут следить за обновлениями моделей машинного обучения.
Вдобавок к этому, благодаря возможностям профилирования источников, группы данных смогут отслеживать любые ухудшения или отклонения функций, которые могут повлиять на производительность модели ML.
Быть в курсе
Многие разочарования возникают из-за недостатка общения. Даже если что-то сломается, обнадеживающее «мы разбираемся в этом» и правильные обновления могут принести душевное спокойствие.
Теперь мы можем использовать вебхуки Slack, чтобы делиться событиями изменений и информировать нашу аудиторию. Наличие автоматизированного канала связи гарантирует, что никто не останется в стороне.
Назад в будущее
Вы можете посмотреть все функции, которые сообщество OpenMetadata представило в версии 0.8 здесь.
Основное внимание в выпуске 0.9 будет уделено качеству данных, цепочкам обсуждений и добавлению делового глоссария. Эти функции позволят пользователям определять свои тесты качества данных, проводить обсуждения в пользовательском интерфейсе OpenMetadata и находить активы, связанные с их интересующими условиями.
Более того, мы продолжим улучшать наши Происхождение и Функции безопасности и фиксировать статус конвейера в Airflow.
Краткое содержание
Используйте ваши любимые инструменты, исследования и повороты. После того как вы отправите свой продукт машинного обучения, вы сможете использовать OpenMetadata, чтобы соединить точки и дать бесценный контекст вашему решению. Мы рады предоставить возможность общения и сделать вас и ваших заинтересованных лиц еще счастливее.
Связаться
Если вы кивали, читая это, и хотели бы улучшить свою работу по машинному обучению или хотите поздороваться, не стесняйтесь обращаться! Пожалуйста, взгляните на наш репозиторий на GitHub и напишите нам в Slack.