Большинство предприятий собирают данные, но не могут использовать их для создания ценности для бизнеса или своевременного предоставления аналитических сведений. Объем и типы данных продолжают расти, как и различные типы потребителей данных, от бизнес-пользователей до специалистов по данным. В результате управление данными и их доставка часто становятся критическими узкими местами. На помощь приходит DataOps.

DataOps (операции с данными) относится к методам, которые обеспечивают скорость и гибкость сквозного процесса конвейера данных, от сбора до доставки. Термин DataOps и связанные с ним концепции находятся на ранних стадиях осознания и принятия, поэтому сегодня существует множество рабочих определений. По мнению таких исследователей, как Gartner и MIT, DataOps направлена ​​на улучшение связи между заинтересованными сторонами данных и внедрение автоматизации в потоках данных и жизненных циклах для улучшения понимания доставки. Другие просто описывают это как «DevOps для данных».

ТАК ЧТО ТАКОЕ DATAOPS

DataOps - это набор передовых методов, рабочих процессов, культурных норм и архитектурных паттернов, которые позволяют:
Быстрые инновации и эксперименты, позволяющие быстро получать новые идеи для клиентов.
Чрезвычайно высокое качество данных и очень низкий уровень ошибок.
Сотрудничество между сложными массивами людей, технологий и сред.
Четкое измерение , мониторинг и прозрачность результатов

КАКИЕ ПРОБЛЕМЫ МОГУТ РЕШИТЬ DATAOPS

DataOps контролирует ваш рабочий процесс и процессы, устраняя многочисленные препятствия, мешающие вашей организации данных достичь высокого уровня продуктивности и качества.

Ожидания от групп данных заключаются в том, что они будут работать рука об руку со своими пользователями, как хорошо отлаженная машина, выдвигая новые предложения идей, быстро и быстро их реализуя, переходя к более качественным моделям и аналитике. Однако реальность иная: группы данных постоянно прерываются из-за ошибок данных и аналитики. Специалисты по обработке данных тратят 75% своего времени на обработку данных и выполнение действий вручную. Медленная и подверженная ошибкам разработка разочаровывает и расстраивает членов группы обработки данных и заинтересованные стороны. Длительный цикл аналитики возникает по разным причинам:

ДОРОЖНЫЕ ПРЕПЯТСТВИЯ К ЗРЕЛОЙ ПЛАТФОРМЕ ДАТАПС

Разрозненные команды: разрозненные команды могут помешать созданию развитой платформы DataOps. Планирование является ключевым моментом, и мы должны вовлекать в планирование заинтересованные стороны из разных команд. Пул потенциально отличных идей, исходящих от разных команд, будет умножен, а общее решение станет более тщательным и точным, однако обратная сторона - это немного больше времени на планирование, которое следует предвидеть заранее.

Неадекватный инструментарий. Внедрение DataOps неизбежно приведет к дискуссиям о построении и покупке. Также может быть микс, то есть построить и купить. Важная концепция, о которой следует помнить, будет заключаться в использовании инструментов от того же поставщика или инструментов, которые обеспечивают расширяемость, чтобы помочь взаимодействовать с другими инструментами.

Отсутствие навыков. Многие специалисты по работе с данными годами работали в условиях повышенного стресса, некоторые - десятилетиями. Не всегда можно уделять время активному развитию навыков. Отсутствие навыков может стать препятствием для внедрения интеллектуальных операций с данными, потому что члены команды должны учиться и адаптироваться в процессе работы. Затем обучение должно стать ключевым компонентом плана зрелости DataOps.

Обязательства. Для достижения определенного уровня зрелости процессов DataOps могут потребоваться исследования и изящество. Это дополнительное усилие поможет убедить организацию полностью посвятить себя проекту и инвестировать в него.

ЧТО ТАКОЕ ПЛАТФОРМА DATAOPS

Применение DataOps требует сочетания новых методов и автоматизации, которые дополняют существующий набор инструментов предприятия. Некоторые организации создают возможности DataOps с нуля, но самый быстрый способ реализовать преимущества DataOps - это принять готовую платформу DataOps. Платформе DataOps необходимо достичь своей цели, управляя созданием, развертыванием и производственным выполнением аналитики. Каждая платформа DataOps должна предлагать как минимум четыре основных возможности:

  1. Синхронизированные среды: с помощью виртуализации DataOps разделяет и гармонизирует вашу производственную среду и среду разработки. Согласование двух технических сред позволяет избежать непредвиденных ошибок во время развертывания. Контроль доступа обеспечивает безопасность каждой рабочей области и домена. Когда приходит время начинать новый проект, специалисты по данным за считанные минуты создают автономные песочницы для разработки, которые включают в себя тестовые данные, валидационные тесты, инструменты, хранилище паролей, короче говоря, все, что им нужно. Больше не нужно ждать месяцами для ИТ.
  2. Автоматизирует развертывание. Внедрение любой новой аналитики должно пройти обширные проверочные тесты и легко перейти от разработки к производственному инжинирингу, а затем к эксплуатации всего за несколько щелчков мышью.
  3. Отслеживает конвейер данных: данные поступают из сотен или тысяч источников и интегрируются, очищаются, обрабатываются и публикуются в аналитике. По мере того как миллионы точек данных проходят через конвейер, тесты, распространяемые по конвейеру данных, отслеживают выполнение работ и проверяют данные на наличие аномалий. При обнаружении ошибок DataOps предпринимает соответствующие действия в зависимости от серьезности: предупреждения, предупреждения или даже приостановка источника данных. Панели мониторинга, на которых резюмируются результаты тестирования и действия, обеспечивают беспрецедентный обзор операций и разработки. Платформа DataOps должна предоставлять показатели качества и производительности, показывающие прогресс вашей инициативы DataOps.
  4. Способствует сотрудничеству: DataOps автоматизирует рабочие процессы для координации задач и улучшения совместной работы. Среды рабочего пространства обеспечивают структуру для передачи аналитики через рабочий процесс разработки от человека к человеку, в конечном итоге достигая производственной среды. Песочницы содержат многоразовые аналитические компоненты, которые экономят время и обеспечивают стандартизацию. В сочетании с системой управления версиями рабочие области ветвятся и объединяются, обеспечивая централизованное управление артефактами. С платформой DataOps у всех есть общее представление о конвейерах разработки и эксплуатации.

Благодаря согласованному конвейеру операций с данными, контролю качества и автоматизированному рабочему процессу разработки, DataOps Platform сводит к минимуму незапланированную работу. Координация задач между членами команды и группами приводит к более прозрачному и надежному рабочему процессу. Тесты DataOps практически исключают ошибки данных.

ПРЕИМУЩЕСТВА ЗРЕЛОЙ ПЛАТФОРМЫ DATAOPS

  1. Сотрудничество: зрелая практика DataOps способствует предварительному планированию и строительству. Нам нужно, чтобы команды, сосредоточенные на общем видении, вместо того, чтобы иметь собственные личные планы, могли эффективно сотрудничать. Представьте, что вы находитесь в лодке с 5 другими людьми, и никто из них не гребет в одном направлении. Возможно, вы никогда не доберетесь туда, куда хотите.
  2. Надежность. Подобно преимуществу совместной работы, автоматизация операций с данными и аналитики устраняет потенциальный элемент непредсказуемости со стороны человека. Человеческие характеристики могут иногда создавать проблемы, когда имеешь дело с повторяющимися процессами, которые всегда должны следовать одним и тем же шагам.
  3. Адаптивность: благодаря зрелому, документированному и автоматизированному процессу DataOps планы по внедрению изменений требуют меньшего количества рабочих рук, меньше времени и меньшей вероятности внесения ошибок. Использование этого подхода также упрощает адаптацию процедур тестирования. Это эффективно сокращает время, необходимое для перехода от разработки к производству для внесения изменений.
  4. Гибкость: DevOps и DataOps возникли на основе практики управления проектами Agile. Благодаря этим корням гибкость становится важным элементом процессов DataOps. Команды данных, которые уже практикуют Agile-методологии, обнаружат, что легче определить, внедрить и усовершенствовать свою практику DataOps.

КАК НАЧАТЬ ВНЕДРЕНИЕ DATAOPS?

Вероятно, нет единого подхода к внедрению DataOps в организации. Однако есть несколько ключевых областей внимания. Вот с чего вам следует начать:

  1. Демократизируйте свои данные. Согласно Experian Data Quality, 96% главных специалистов по данным считают, что заинтересованные стороны бизнеса требуют большего доступа к данным, чем когда-либо прежде, а 53% заявили, что доступ к данным был недостаточным. самый большой барьер на пути к принятию более эффективных решений. Приложениям машинного обучения и глубокого обучения требуются постоянные новые данные для обучения и совершенствования; любая компания, стремящаяся быть на переднем крае, нуждается в легкодоступных наборах данных.
  2. Использование платформ и инструментов с открытым исходным кодом: практика DataOps требует платформы для анализа данных с поддержкой языков и фреймворков, любимых сообществом (например, Python, R, блокноты для анализа данных и GitHub) ». Также важно? Платформы для перемещения данных, оркестрации, интеграции, производительности и многого другого.
  3. Автоматизация - ключ к успеху. Этот принцип исходит непосредственно из мира DevOps: чтобы сократить время окупаемости проектов с интенсивным использованием данных, необходимо автоматизировать шаги, которые излишне требуют большого количества ручных усилий, например тестирование обеспечения качества и мониторинг конвейера аналитики данных.
  4. Избавьтесь от разрозненности. Прежде всего, для внедрения DataOps необходимо сотрудничество. Инструменты и платформы, которые вы используете в рамках пути DataOps, должны поддерживать более широкую цель - объединить команды для более эффективного использования данных.
    Помните, что данные не принадлежат ИТ-специалистам, специалистам по данным или аналитикам, - пишет Тусу. «Это принадлежит каждому в этом бизнесе. Итак, ваши инструменты должны позволять всем сотрудникам создавать собственные анализы и визуализации и делиться своими открытиями со своими коллегами ».

КТО ДЕЛАЕТ DATAOPS СЕГОДНЯ
Еще ни одна компания не реализовала весь потенциал DataOps. Есть постоянная потребность в улучшении. Тем не менее, есть некоторые компании, которые продвинулись дальше, чем большинство - часто высокотехнологичные компании, у которых есть большие команды DevOps, которые теперь также поддерживают инициативы DataOps. Но в более широком смысле многие организации могут уже выполнять какую-либо форму DataOps, фактически не зная об этом и не называя это так. Инициативы по гибкости данных часто тесно связаны с инициативами DataOps.
Мы должны быстро добавить, что мы практикуем DataOps в нашем собственном бизнесе. Например, мы помещаем корпоративную аналитику, отчетность и платформу IoT в архитектуру озера данных, что может привести к повышению эффективности, снижению операционных затрат и расширению новых возможностей для бизнеса.

DATAOPS VERSUS DEVOPS
Сознательно или бессознательно большинство организаций практикуют DataOps, что является более широким понятием, чем DevOps. Как и DevOps, DataOps автоматизирует, упрощает и полагается на новое сотрудничество между командами и отделами. DevOps налаживает сотрудничество между разработчиками и операторами ИТ. DataOps создает и требует сотрудничества в рамках всего предприятия, от ИТ-специалистов до потребителей данных. DevOps делает ИТ более эффективными. DataOps делает всю организацию более эффективной.

И в DevOps, и в DataOps компании полностью переосмысливают всю проблему, включая все цели. DevOps расширяет масштаб проблемы, рассматривая ее не как проблему Dev или Ops, а как проблему DevOps. DataOps делает то же самое с организациями, продумывающими поток данных от момента их создания до их использования. Но DataOps влияет на гораздо большее количество групп, поскольку вся организация полагается на данные. DataOps также более сложен. В DevOps у вас, по сути, есть один конвейер доставки (код для выполнения), но в DataOps у вас есть производственное развертывание и конвейеры данных для обучения моделей данных и выполнения потоков данных. Вам необходимо постоянно адаптировать, улучшать и измерять все это.

ЧТО ТАКОЕ ИНСТРУМЕНТЫ DATAOPS
Широкий набор вспомогательных технологий и процессов делает возможными DataOps на вашем предприятии, в том числе технологии управления данными (каталоги данных, виртуализация данных, конвейеры данных, управление моделями AI) в качестве технологии для управления версиями, автоматизации тестирования, автоматизации развертывания и управления выпусками, а также для оркестрации среды выполнения или даже для совместной работы. Автоматизация тестирования и развертывания использует AI и ML для поддержки процессов и рабочих процессов, помогая избежать ручной настройки. Вы захотите положиться на технологии, чтобы снизить барьеры на пути к взаимодействию. Вы хотите, чтобы эти технологии работали во всех наших текущих и ожидаемых средах данных: локальных, облачных, мультиоблачных и гибридных.

СЛЕДУЕТ ЛИ Я СКЕПТИРОВАТЬ ШАХТУ В ОБЛАСТИ DATAOPS?
Вероятно, да, DataOps основан на прочном фундаменте, который включает гибкую разработку, DevOps, аналитику данных и средства управления статистическими процессами. Эти зрелые методологии на протяжении десятилетий добавляли ценности предприятиям и предприятиям.

Если этот пост был полезен, нажмите кнопку хлопка 👏 ниже, чтобы выразить поддержку автору 👇