То, как мы разрабатываем информационные продукты для внешних и внутренних потребителей, противоречиво. внешние потребители – это наши заказчики, клиенты или конечные пользователи, которые составляют основу нашей прибыли. внутренние потребители — это команды, работающие с данными, продуктами, операциями или маркетингом, которые составляют основу организации для создания успешных продуктов, приносящих прибыль. Хотя мы уделяем огромное внимание нашим внешним потребителям, что мы должны делать постоянно, мы не слишком заботимся о наших внутренних потребителях.
По словам Билла Инмона, данные и бизнес-единицы, внутренние потребители, давно разведены. Как лидер данных, я могу найти различные причины, по которым группы данных разочаровали бизнес-подразделения в последние годы. На мой взгляд, наиболее важная причина заключается в том, что они потеряли доверие к данным, которые мы предоставили, и к тому, как мы их обслуживаем. Доверие было подорвано из-за постоянно меняющихся определений и измерений KPI, никогда не стабильных информационных панелей, групп специалистов по анализу данных черных ящиков, продуктов машинного обучения, отсутствия надлежащего происхождения потоков данных и так далее.
Обеспечение качества данных с помощью тестирования и проверки данных, обеспечение надежности данных с помощью наблюдаемости данных и соглашений об уровне обслуживания — это меры, которые группы обработки данных могут принимать за кулисами в качестве внутренних служб группы обработки данных. Если мы думаем о нашей организации данных как о продукте, то наличия мощных серверных сервисов недостаточно. Нам также нужны простые в использовании, привлекательные и облегчающие жизнь клиентские сервисы, чтобы привлекать и удерживать наших внутренних потребителей и поддерживать их с помощью инструментов самообслуживания.
В этой статье я расскажу об основах управления метаданными, каталогах данных, о том, почему они не используются, почему нам нужны платформы «Google для данных» для обнаружения данных и как каталоги данных превращаются в платформы обнаружения данных.
Управление метаданными
Как потребитель данных, вы когда-нибудь пытались ответить на довольно простые вопросы о ваших данных, но у вас возникало больше вопросов во время вашей экспедиции; например что означает customer_id, в чем разница между user_id и customer_id, как мы заполняем столбцы created_at и updated_at во время преобразования пользователя в клиента и т. д.? Если вы не можете ответить на такой вопрос самостоятельно без особых усилий, это означает, что в вашей организации есть серьезные проблемы с управлением данными.
Прежде чем мы углубимся в тему обнаружения данных, нам нужно изучить основы управления метаданными.
Что такое метаданные?
Метаданные — это данные о данных. Они предоставляют информацию, которая помогает понять, что представляют собой ваши данные, откуда они берутся, как они структурированы и как используются. Это может включать такие вещи, как имя данных, описание, формат, источник, качество, происхождение и так далее.
Например, если у вас есть цифровая фотография, метаданные могут включать такую информацию, как дата и время съемки фотографии, тип используемой камеры, разрешение и даже место, где была сделана фотография.
Что такое каталог данных?
Проще говоря, каталог данных подобен библиотечному каталогу данных. Это централизованный перечень всех различных типов данных, которыми располагает организация, включая информацию о том, откуда эти данные поступили, как они были собраны, что они представляют и кому разрешен доступ к ним.
Каталог данных можно рассматривать как инструмент управления метаданными. Каталог данных использует метаданные для создания организованной инвентаризации ресурсов данных организации с возможностью поиска. Собирая, управляя и представляя метаданные стандартизированным способом, каталог данных облегчает пользователям поиск и понимание данных, необходимых им для выполнения своей работы.
Как создать метаданные для каталога данных?
Термин «сдвиг влево» изначально пришел из индустрии разработки программного обеспечения и относится к идее перемещения процессов тестирования и обеспечения качества на более ранние этапы цикла разработки. В контексте инструментов каталога данных «сдвиг влево» относится к практике запуска процессов управления метаданными и руководства как можно раньше в жизненном цикле данных.
Перемещая процессы управления метаданными и контроля влево, т. е. на более ранние этапы жизненного цикла данных, организации могут улучшить качество данных, снизить риск нарушения нормативных требований и упростить пользователям поиск и эффективное использование данных.
Например, инструмент каталога данных может включать возможности сдвига влево, предоставляя функции автоматического обнаружения метаданных, которые сканируют и классифицируют активы данных по мере их создания или приема, а не ждут, пока данные уже будут обработаны. Это поможет обеспечить точность и актуальность метаданных с самого начала, а также упростит поиск и эффективное использование данных.
Почему внедрение каталогов данных слишком мало?
Несмотря на потенциал каталогов данных, уровень внедрения слишком низок. Время от времени мы слышим истории о том, что организации делают большие инвестиции в каталоги данных и инструменты управления данными, но прекращают вложения после 1–2 лет работы. Но почему? Вот мои мысли;
Для кого они созданы. Как всегда, группы обработки данных совершают свою обычную ошибку и разрабатывают свои продукты, не задумываясь, для кого они эти продукты создают. Каталоги данных — прекрасный пример незнания продуктового мышления, которое может разрушить отличную идею и ее принятие. В то время как мы просим наших стейкхолдеров чаще использовать каталоги данных, чтобы они не беспокоили нас время от времени, мы даем им довольно уродливые и невозможные в использовании инструменты для нетехнических людей.
Никакое мышление MVP.При разработке любого продукта очень необходимо мышление MVP. Люди должны взаимодействовать с результатами между релизами, собирать как можно больше отзывов, а вам нужно оптимизировать процесс. Если вы начнете проект каталога данных с управлением данными и мышлением GDPR, либо вас уволят через два года из-за того, что вы не оказали никакого влияния на бизнес, либо вы будете единственным человеком, который все время восхищается работой. .
Отсутствие рекламы со стороны групп обработки данных.Каждый продукт должен рекламироваться должным образом. Мы не можем ожидать, что пользователи постучат в наши двери, чтобы получить информацию об использовании этих продуктов. К сожалению, специалисты по работе с данными не уделяют особого внимания распространению информации о преимуществах каталогов данных и о том, чего можно достичь, если их использовать в правильной форме. Многие организации могут не до конца понимать ценность каталогов данных в управлении и использовании активов данных.
Почему «данные как продукт» нуждаются в обнаружении данных?
Предоставление данных в виде продукта — один из самых сложных продуктов, которые может создать команда по работе с данными. Группе данных необходимо создать сквозные функции качества данных, надежности данных и наблюдаемости, чтобы убедиться, что данные заполняются и обслуживаются должным образом.
Несмотря на то, что они обрабатываются наилучшим образом, использование продукта данных может создать сложности. Конечные пользователи могут не понимать сложные концепции хранилища данных или озера данных, определения столбцов могут быть неуместными, происхождение столбцов может быть скрыто, а доступ к необходимой информации может быть хуже, чем подача заявления на получение гражданства в качестве иностранца.
Сегодня ChatGPT разрушил все представления о сложности искусственного интеллекта и дал возможность использовать его миллионам нетехнических людей вокруг нас. Точно так же, хотя мы обслуживаем данные как продукт, нам необходимо установить простые в использовании возможности доступа и обнаружения для самих данных, чтобы специалисты по данным и члены маркетинговой команды могли получить одинаковую выгоду.
Что такое платформа обнаружения данных?
Платформа обнаружения данных — это решение, которое позволяет организациям исследовать и анализировать свои данные для извлечения информации и лучшего понимания своих активов данных.
Платформы обнаружения данных обычно предлагают ряд функций, таких как профилирование данных, визуализация данных, поиск данных и машинное обучение, чтобы помочь пользователям исследовать и анализировать свои данные более интуитивно и эффективно. Эти платформы могут помочь организациям выявлять скрытые закономерности или идеи в своих данных и, в конечном итоге, принимать более обоснованные решения на основе данных.
Платформы обнаружения данных особенно полезны для организаций, которые генерируют и собирают большие объемы данных из различных распределенных источников, поскольку они позволяют пользователям легко получать доступ, исследовать и анализировать эти данные, независимо от их формата или местоположения.
Обнаружение данных и каталоги данных
Хотя и платформы обнаружения данных, и платформы каталогов данных имеют некоторое сходство, они служат разным целям и предлагают разные функции. Вот некоторые ключевые различия между ними;
- Масштаб и направленность. Платформы для обнаружения данных в первую очередь ориентированы на изучение и анализ данных для выявления идей и шаблонов, тогда как платформы каталогов данных ориентированы на организацию и управление активами данных.
- Исследование данных и управление данными. Платформы обнаружения данных предназначены для поддержки исследования и анализа данных, часто с помощью инструментов визуализации данных, профилирования данных и алгоритмов машинного обучения. Платформы каталогов данных, с другой стороны, предназначены для поддержки управления данными и руководства, часто посредством управления метаданными, отслеживания происхождения данных и каталогизации данных.
- Пользовательская аудитория. Платформы для обнаружения данных обычно используются аналитиками данных и специалистами по данным, которым необходимо исследовать и анализировать данные для извлечения информации и принятия обоснованных решений. Платформы каталогов данных, с другой стороны, обычно используются распорядителями данных, менеджерами данных и другими специалистами по данным, которым необходимо управлять активами данных в организации.
- Технические возможности. Платформы для обнаружения данных часто имеют более продвинутые возможности анализа и визуализации, а также поддержку интеграции и анализа сложных и больших наборов данных. Платформы каталогов данных, с другой стороны, часто имеют более продвинутые возможности управления метаданными, такие как поддержка отслеживания происхождения данных, профилирование качества данных и классификация данных.
Заключение
В заключение, переход на платформы обнаружения данных с платформ каталогов данных может принести организациям несколько преимуществ. В то время как каталоги данных могут помочь в управлении данными и их организации, платформы обнаружения данных делают еще один шаг вперед, предлагая доступ к самообслуживанию, исследование данных и понимание. Эти платформы обеспечивают более полное представление данных и позволяют пользователям взаимодействовать с ними в режиме реального времени, что приводит к более быстрому и обоснованному принятию решений. Кроме того, платформы для обнаружения данных часто включают в себя возможности машинного обучения и искусственного интеллекта, которые обеспечивают более совершенную аналитику данных и прогнозное моделирование. В сегодняшней бизнес-среде, основанной на данных, организациям необходимо оставаться конкурентоспособными, максимально используя свои активы данных. Переход на платформы обнаружения данных может помочь в достижении этой цели, предоставляя мощный инструмент для роста и успеха бизнеса.