Итак, вы создаете современную платформу данных для своего бизнеса и хотите сделать все правильно.

Вы будете думать о том, к какому поставщику технологий обратиться или действительно стоит ли строить или покупать, какой набор данных и аналитических возможностей вам потребуется, варианты использования в бизнесе, которые вы включите, и сколько все это будет стоить.

Это действительно важные соображения, но, если вы нас простите, в этой статье мы их проигнорируем. Большинство материалов по созданию платформы данных, как правило, сосредоточено именно на этих вопросах, поэтому у вас не будет недостатка в советах.

Вместо этого мы сосредоточимся на некоторых руководящих принципах более высокого уровня, некоторые из которых могут быть очевидными, а некоторые из них слишком часто упускают из виду.

Чтобы избавить вас от прокрутки вниз, вот кульминация: мы утверждаем, что вы делаете это правильно, если следующие утверждения верны для вашей платформы данных:

  1. Он живет в общедоступном облаке.
  2. Он абстрагирует такие действия, как адаптация, создание проектов и предоставление ресурсов, с помощью автоматизации и обеспечивает самообслуживание этих рутинных процессов.
  3. Его инструментарий поддерживает весь спектр пользователей данных в вашем бизнесе, от гражданских аналитиков данных до разработчиков, специалистов по анализу данных и специалистов по данным.
  4. Его пользовательский интерфейс интегрирован с остальной частью вашего бизнеса: та же идентификация, то же устройство и даже доступ через тот же корпоративный портал.
  5. Его легко обнаружить и получить доступ к существующим корпоративным ресурсам (не только источникам данных, но также API и моделям), а также возможность самостоятельной публикации на этих торговых площадках.
  6. Он интегрирован с выделенным Data RTL (путь к жизни), отличным от Software RTL, который выпускает и использует продукты данных в качестве бизнес-приложений.
  7. Наконец, у вас есть только одна платформа для всего вашего бизнеса.

Давайте уделим немного времени каждому из них.

Публичное облако

Он живет в общедоступном облаке.

Платформа данных — это целая экосистема, а не только хранилище, ETL и аналитика. Вам потребуется безопасность данных, сеть, шлюз API, балансировщик нагрузки, аутентификация и многое другое. Ваша жизнь облегчится, если вы сможете унаследовать как можно больше этих вещей.

Точно так же потоки данных в режиме реального времени и аналитика данных в реальном времени должны быть одним из основных элементов вашей платформы. Облачные платформы готовы к работе в режиме реального времени и избавляют вас от необходимости перепроектировать текущую среду для рабочих нагрузок с малой задержкой.

Передовые аналитические методы, такие как машинное обучение с интенсивными вычислениями, потребуют графических процессоров для обучения моделей. Специалистам по обработке и анализу данных потребуется широкий выбор графических процессоров. Спрос на эти вычислительные ресурсы часто имеет пики и спады с интенсивными всплесками вычислений, за которыми следует время простоя. Таким образом, это эластичный ресурс, который лучше всего подходит для общедоступного облака.

На самом деле, объемы данных растут в геометрической прогрессии, а спрос на аналитику на основе данных растет, встроенная масштабируемость является обязательной для современной платформы данных.

Если цель состоит в том, чтобы создать что-то современное современным способом, то облако также является домом для бессерверных технологий и управляемых сервисов. Используйте их, чтобы увеличить скорость доставки, минимизировать накладные расходы на обслуживание, добиться экономии средств и обеспечить лучший опыт разработки для разработчиков вашей платформы.

Автоматизация и самообслуживание

Он абстрагирует такие действия, как адаптация, создание проектов и предоставление ресурсов, с помощью автоматизации и обеспечивает самообслуживание этих рутинных процессов.

Любая рутинная задача должна быть автоматизирована.

Под автоматизированным мы подразумеваем преобразование в систематизированный рабочий процесс или шаблон, который можно вызывать по запросу. Имея эти шаблоны в руках, самостоятельные пользователи или рабочие процессы платформы могут запускать их, извлекая скрипт из репозитория для моментального выполнения.

Предоставление ресурсов может быть достигнуто на уровне личности пользователя с целью удовлетворения потребностей в ресурсах конкретной пользовательской базы. Например, для пользователя визуализации данных вы можете предоставить доступ только для чтения к своим корпоративным наборам данных, учетную запись в инструменте визуализации данных вашего бизнеса с возможностью создавать и сохранять информационные панели.

Избегайте склонности к тому, чтобы человек в курсе одобрял этот запрос на адаптацию. Если этот пользователь уже находится в вашей организации, у него должно быть цифровое удостоверение с рядом связанных привилегий. Если эти привилегии указывают, что визуализация данных является деятельностью, связанной с их ролью, то адаптация должна быть мгновенной.

Под капотом следует использовать инфраструктуру как код (IaC), чтобы избежать ручного предоставления инфраструктуры, сред и ресурсов. И везде, где это возможно, вы должны взаимодействовать со своими службами через их API для получения тех же преимуществ. Это обеспечит безопасность, согласованность и скорость.

Инструменты для всех

Его инструментарий поддерживает весь спектр пользователей данных в вашем бизнесе, от гражданских аналитиков данных до разработчиков, специалистов по анализу данных и специалистов по данным.

Лучшим показателем успеха вашей платформы будет внедрение, и поэтому вам необходимо убедиться, что ваша платформа обслуживает всех ваших коллег, включая ваших гражданских пользователей данных. Включение этих людей известно как демократизация данных, и поэтому интерфейсы с низким кодом и без кода должны быть частью вашего предложения.

Для ваших традиционных разработчиков данных, пожалуйста, не полагайтесь только на блокноты. Даже если они кажутся вполне довольными ими, инженеров следует поощрять к использованию полнофункциональной IDE, чтобы они могли создавать аккуратный, протестированный, отлаженный и проверенный код. Рассмотрите возможность использования виртуализированной рабочей станции для разработки для встраивания IDE в нативную платформу.

Современная платформа данных предоставляет пользователям богатый набор данных и аналитических инструментов для использования, а также предоставляет нишевым пользователям возможность приносить свою собственную аналитику. Это может включать их собственный интерпретатор (поскольку они, скажем, не используют Python), собственные библиотеки и программное обеспечение и даже собственную IDE.

Должна быть среда, обеспечивающая манеж с возможностью загрузки, установки и тестирования новых пакетов и программного обеспечения. Это относится к инструментам, которые не были одобрены для использования на вашем предприятии. В изолированном и иначе отключенном манеже свобода и гибкость для этого станут первым шагом в конвейере адаптации, гарантируя, что ваша среда останется актуальной и ориентированной на будущее, а также обеспечат вам надлежащий контроль.

Не забывайте об инструментах для совместной работы. Пользователи вашей платформы — это люди, которые будут работать с другими людьми. Им потребуется доступ к каналу обмена сообщениями для общения и обмена идеями, а также к онлайн-форумам, таким как Stack Overflow.

Интегрированный пользовательский опыт

Его пользовательский интерфейс интегрирован с остальной частью вашего бизнеса: та же идентификация, то же устройство и даже доступ через тот же корпоративный портал.

Интегрируйте существующее удостоверение вашей организации и включите аутентификацию единого входа (SSO), чтобы вашим пользователям не приходилось запоминать другой набор учетных данных. После того, как вы это сделаете, это также уменьшит ваши накладные расходы на управление.

Их существующего корпоративного ноутбука должно хватить. Это не обязательно должна быть продвинутая машина разработчика, если все инструменты разработчика платформы виртуализированы, а вычисления происходят на вашей платформе. Это экономит затраты на обновление оборудования или позволяет разработчикам не использовать два разных устройства.

Наконец, убедитесь, что пользователи могут перейти на вашу платформу с существующего корпоративного портала, а не с хитроумного URL-адреса. Вы хотите, чтобы ваша платформа рассматривалась как часть цифровой структуры вашей организации.

Иногда это мелочи.

Возможность обнаружения

Его легко обнаружить и получить доступ к существующим корпоративным ресурсам (не только источникам данных, но также API и моделям), а также возможность самостоятельной публикации на этих торговых площадках.

Ваши бизнес-данные должны быть доступны пользователям вашей платформы из одного места. Это означает ваши потоки событий, ваши неструктурированные данные в хранилищах объектов и, конечно же, ваши структурированные таблицы в хранилищах баз данных.

Предоставление доступа к самим данным — это другой вопрос, но возможность обнаружения почти всегда должна быть истинной, чтобы можно было обнаружить даже существование защищенных или заблокированных данных.

Для обнаружения физические копии ваших бизнес-данных не обязательно должны находиться в стенах вашей платформы, но метаданные должны быть по крайней мере доступны. Подумайте о том, чтобы пойти дальше, объединив матрицу данных из разрозненных источников данных вашего бизнеса с помощью уровня доступа к виртуальным данным.

Данные не должны быть единственным активом, который можно обнаружить. Утвержденные API и модели, которые обогащают данные или предоставляют информацию, также должны быть доступны для обнаружения. Они часто потребляются на торговых площадках или в инвентаре. Стремитесь иметь все эти расходные материалы из одного места.

Платформа данных позволит пользователям генерировать новые данные и новое понимание. Эти сгенерированные активы, как только они удовлетворят определенным порогам качества, должны быть использованы другими пользователями платформы. Таким образом, пользователям платформы потребуются права на самостоятельную публикацию, а конвейер должен продвигать повторно используемые ресурсы обратно в корпоративный магазин.

Данные RTL

Он интегрирован с выделенным Data RTL (маршрут к жизни), отличным от Software RTL, который выпускает и использует продукты данных в качестве бизнес-приложений.

Если вы не являетесь новым стартапом, скорее всего, большая часть цифрового имущества вашего бизнеса будет основываться на традиционном маршруте запуска программного приложения. Это в значительной степени несовместимо с разработкой и внедрением информационных продуктов.

Пользователи данных, как правило, начинают свой жизненный цикл разработки с опроса оперативных данных, но большинство организаций хранят оперативные данные в закрытой производственной среде.

Часто решение состоит в том, чтобы попытаться заставить пользователей данных пройти путь разработки программного обеспечения к жизни, а не создавать более подходящую среду среды. Ограничения такого подхода часто настигают организации, которые используют этот подход.

Поэтому заблаговременно используйте Data RTL, чтобы свести к минимуму время на анализ и убедиться, что ваша организация может в полной мере использовать данные и аналитику.

Вы можете прочитать больше здесь о том, как вы можете настроить это.

Одна платформа

Наконец, у вас есть только одна платформа для всего вашего бизнеса.

Хорошие инженерные принципы, касающиеся расширяемости, возможности повторного использования и дедупликации, предполагают, что это правда.

Цель корпоративной платформы данных — охватить всю организацию и объединить ее активы данных для массового использования.

Если вы правильно построили свою платформу, в другой не должно быть необходимости.

Удачи!