Большинство предприятий собирают данные, но не могут использовать их для создания ценности для бизнеса или своевременного предоставления аналитических сведений. Объем и типы данных продолжают расти, как и различные типы потребителей данных, от бизнес-пользователей до специалистов по данным. В результате управление данными и их доставка часто становятся критическими узкими местами. На помощь приходит DataOps.
DataOps (операции с данными) относится к методам, которые обеспечивают скорость и гибкость сквозного процесса конвейера данных, от сбора до доставки. Термин DataOps и связанные с ним концепции находятся на ранних стадиях осознания и принятия, поэтому сегодня существует множество рабочих определений. По мнению таких исследователей, как Gartner и MIT, DataOps направлена на улучшение связи между заинтересованными сторонами данных и внедрение автоматизации в потоках данных и жизненных циклах для улучшения понимания доставки. Другие просто описывают это как «DevOps для данных».
ТАК ЧТО ТАКОЕ DATAOPS
DataOps - это набор передовых методов, рабочих процессов, культурных норм и архитектурных паттернов, которые позволяют:
Быстрые инновации и эксперименты, позволяющие быстро получать новые идеи для клиентов.
Чрезвычайно высокое качество данных и очень низкий уровень ошибок.
Сотрудничество между сложными массивами людей, технологий и сред.
Четкое измерение , мониторинг и прозрачность результатов
КАКИЕ ПРОБЛЕМЫ МОГУТ РЕШИТЬ DATAOPS
DataOps контролирует ваш рабочий процесс и процессы, устраняя многочисленные препятствия, мешающие вашей организации данных достичь высокого уровня продуктивности и качества.
Ожидания от групп данных заключаются в том, что они будут работать рука об руку со своими пользователями, как хорошо отлаженная машина, выдвигая новые предложения идей, быстро и быстро их реализуя, переходя к более качественным моделям и аналитике. Однако реальность иная: группы данных постоянно прерываются из-за ошибок данных и аналитики. Специалисты по обработке данных тратят 75% своего времени на обработку данных и выполнение действий вручную. Медленная и подверженная ошибкам разработка разочаровывает и расстраивает членов группы обработки данных и заинтересованные стороны. Длительный цикл аналитики возникает по разным причинам:
ДОРОЖНЫЕ ПРЕПЯТСТВИЯ К ЗРЕЛОЙ ПЛАТФОРМЕ ДАТАПС
Разрозненные команды: разрозненные команды могут помешать созданию развитой платформы DataOps. Планирование является ключевым моментом, и мы должны вовлекать в планирование заинтересованные стороны из разных команд. Пул потенциально отличных идей, исходящих от разных команд, будет умножен, а общее решение станет более тщательным и точным, однако обратная сторона - это немного больше времени на планирование, которое следует предвидеть заранее.
Неадекватный инструментарий. Внедрение DataOps неизбежно приведет к дискуссиям о построении и покупке. Также может быть микс, то есть построить и купить. Важная концепция, о которой следует помнить, будет заключаться в использовании инструментов от того же поставщика или инструментов, которые обеспечивают расширяемость, чтобы помочь взаимодействовать с другими инструментами.
Отсутствие навыков. Многие специалисты по работе с данными годами работали в условиях повышенного стресса, некоторые - десятилетиями. Не всегда можно уделять время активному развитию навыков. Отсутствие навыков может стать препятствием для внедрения интеллектуальных операций с данными, потому что члены команды должны учиться и адаптироваться в процессе работы. Затем обучение должно стать ключевым компонентом плана зрелости DataOps.
Обязательства. Для достижения определенного уровня зрелости процессов DataOps могут потребоваться исследования и изящество. Это дополнительное усилие поможет убедить организацию полностью посвятить себя проекту и инвестировать в него.
ЧТО ТАКОЕ ПЛАТФОРМА DATAOPS
Применение DataOps требует сочетания новых методов и автоматизации, которые дополняют существующий набор инструментов предприятия. Некоторые организации создают возможности DataOps с нуля, но самый быстрый способ реализовать преимущества DataOps - это принять готовую платформу DataOps. Платформе DataOps необходимо достичь своей цели, управляя созданием, развертыванием и производственным выполнением аналитики. Каждая платформа DataOps должна предлагать как минимум четыре основных возможности:
- Синхронизированные среды: с помощью виртуализации DataOps разделяет и гармонизирует вашу производственную среду и среду разработки. Согласование двух технических сред позволяет избежать непредвиденных ошибок во время развертывания. Контроль доступа обеспечивает безопасность каждой рабочей области и домена. Когда приходит время начинать новый проект, специалисты по данным за считанные минуты создают автономные песочницы для разработки, которые включают в себя тестовые данные, валидационные тесты, инструменты, хранилище паролей, короче говоря, все, что им нужно. Больше не нужно ждать месяцами для ИТ.
- Автоматизирует развертывание. Внедрение любой новой аналитики должно пройти обширные проверочные тесты и легко перейти от разработки к производственному инжинирингу, а затем к эксплуатации всего за несколько щелчков мышью.
- Отслеживает конвейер данных: данные поступают из сотен или тысяч источников и интегрируются, очищаются, обрабатываются и публикуются в аналитике. По мере того как миллионы точек данных проходят через конвейер, тесты, распространяемые по конвейеру данных, отслеживают выполнение работ и проверяют данные на наличие аномалий. При обнаружении ошибок DataOps предпринимает соответствующие действия в зависимости от серьезности: предупреждения, предупреждения или даже приостановка источника данных. Панели мониторинга, на которых резюмируются результаты тестирования и действия, обеспечивают беспрецедентный обзор операций и разработки. Платформа DataOps должна предоставлять показатели качества и производительности, показывающие прогресс вашей инициативы DataOps.
- Способствует сотрудничеству: DataOps автоматизирует рабочие процессы для координации задач и улучшения совместной работы. Среды рабочего пространства обеспечивают структуру для передачи аналитики через рабочий процесс разработки от человека к человеку, в конечном итоге достигая производственной среды. Песочницы содержат многоразовые аналитические компоненты, которые экономят время и обеспечивают стандартизацию. В сочетании с системой управления версиями рабочие области ветвятся и объединяются, обеспечивая централизованное управление артефактами. С платформой DataOps у всех есть общее представление о конвейерах разработки и эксплуатации.
Благодаря согласованному конвейеру операций с данными, контролю качества и автоматизированному рабочему процессу разработки, DataOps Platform сводит к минимуму незапланированную работу. Координация задач между членами команды и группами приводит к более прозрачному и надежному рабочему процессу. Тесты DataOps практически исключают ошибки данных.
ПРЕИМУЩЕСТВА ЗРЕЛОЙ ПЛАТФОРМЫ DATAOPS
- Сотрудничество: зрелая практика DataOps способствует предварительному планированию и строительству. Нам нужно, чтобы команды, сосредоточенные на общем видении, вместо того, чтобы иметь собственные личные планы, могли эффективно сотрудничать. Представьте, что вы находитесь в лодке с 5 другими людьми, и никто из них не гребет в одном направлении. Возможно, вы никогда не доберетесь туда, куда хотите.
- Надежность. Подобно преимуществу совместной работы, автоматизация операций с данными и аналитики устраняет потенциальный элемент непредсказуемости со стороны человека. Человеческие характеристики могут иногда создавать проблемы, когда имеешь дело с повторяющимися процессами, которые всегда должны следовать одним и тем же шагам.
- Адаптивность: благодаря зрелому, документированному и автоматизированному процессу DataOps планы по внедрению изменений требуют меньшего количества рабочих рук, меньше времени и меньшей вероятности внесения ошибок. Использование этого подхода также упрощает адаптацию процедур тестирования. Это эффективно сокращает время, необходимое для перехода от разработки к производству для внесения изменений.
- Гибкость: DevOps и DataOps возникли на основе практики управления проектами Agile. Благодаря этим корням гибкость становится важным элементом процессов DataOps. Команды данных, которые уже практикуют Agile-методологии, обнаружат, что легче определить, внедрить и усовершенствовать свою практику DataOps.
КАК НАЧАТЬ ВНЕДРЕНИЕ DATAOPS?
Вероятно, нет единого подхода к внедрению DataOps в организации. Однако есть несколько ключевых областей внимания. Вот с чего вам следует начать:
- Демократизируйте свои данные. Согласно Experian Data Quality, 96% главных специалистов по данным считают, что заинтересованные стороны бизнеса требуют большего доступа к данным, чем когда-либо прежде, а 53% заявили, что доступ к данным был недостаточным. самый большой барьер на пути к принятию более эффективных решений. Приложениям машинного обучения и глубокого обучения требуются постоянные новые данные для обучения и совершенствования; любая компания, стремящаяся быть на переднем крае, нуждается в легкодоступных наборах данных.
- Использование платформ и инструментов с открытым исходным кодом: практика DataOps требует платформы для анализа данных с поддержкой языков и фреймворков, любимых сообществом (например, Python, R, блокноты для анализа данных и GitHub) ». Также важно? Платформы для перемещения данных, оркестрации, интеграции, производительности и многого другого.
- Автоматизация - ключ к успеху. Этот принцип исходит непосредственно из мира DevOps: чтобы сократить время окупаемости проектов с интенсивным использованием данных, необходимо автоматизировать шаги, которые излишне требуют большого количества ручных усилий, например тестирование обеспечения качества и мониторинг конвейера аналитики данных.
- Избавьтесь от разрозненности. Прежде всего, для внедрения DataOps необходимо сотрудничество. Инструменты и платформы, которые вы используете в рамках пути DataOps, должны поддерживать более широкую цель - объединить команды для более эффективного использования данных.
Помните, что данные не принадлежат ИТ-специалистам, специалистам по данным или аналитикам, - пишет Тусу. «Это принадлежит каждому в этом бизнесе. Итак, ваши инструменты должны позволять всем сотрудникам создавать собственные анализы и визуализации и делиться своими открытиями со своими коллегами ».
КТО ДЕЛАЕТ DATAOPS СЕГОДНЯ
Еще ни одна компания не реализовала весь потенциал DataOps. Есть постоянная потребность в улучшении. Тем не менее, есть некоторые компании, которые продвинулись дальше, чем большинство - часто высокотехнологичные компании, у которых есть большие команды DevOps, которые теперь также поддерживают инициативы DataOps. Но в более широком смысле многие организации могут уже выполнять какую-либо форму DataOps, фактически не зная об этом и не называя это так. Инициативы по гибкости данных часто тесно связаны с инициативами DataOps.
Мы должны быстро добавить, что мы практикуем DataOps в нашем собственном бизнесе. Например, мы помещаем корпоративную аналитику, отчетность и платформу IoT в архитектуру озера данных, что может привести к повышению эффективности, снижению операционных затрат и расширению новых возможностей для бизнеса.
DATAOPS VERSUS DEVOPS
Сознательно или бессознательно большинство организаций практикуют DataOps, что является более широким понятием, чем DevOps. Как и DevOps, DataOps автоматизирует, упрощает и полагается на новое сотрудничество между командами и отделами. DevOps налаживает сотрудничество между разработчиками и операторами ИТ. DataOps создает и требует сотрудничества в рамках всего предприятия, от ИТ-специалистов до потребителей данных. DevOps делает ИТ более эффективными. DataOps делает всю организацию более эффективной.
И в DevOps, и в DataOps компании полностью переосмысливают всю проблему, включая все цели. DevOps расширяет масштаб проблемы, рассматривая ее не как проблему Dev или Ops, а как проблему DevOps. DataOps делает то же самое с организациями, продумывающими поток данных от момента их создания до их использования. Но DataOps влияет на гораздо большее количество групп, поскольку вся организация полагается на данные. DataOps также более сложен. В DevOps у вас, по сути, есть один конвейер доставки (код для выполнения), но в DataOps у вас есть производственное развертывание и конвейеры данных для обучения моделей данных и выполнения потоков данных. Вам необходимо постоянно адаптировать, улучшать и измерять все это.
ЧТО ТАКОЕ ИНСТРУМЕНТЫ DATAOPS
Широкий набор вспомогательных технологий и процессов делает возможными DataOps на вашем предприятии, в том числе технологии управления данными (каталоги данных, виртуализация данных, конвейеры данных, управление моделями AI) в качестве технологии для управления версиями, автоматизации тестирования, автоматизации развертывания и управления выпусками, а также для оркестрации среды выполнения или даже для совместной работы. Автоматизация тестирования и развертывания использует AI и ML для поддержки процессов и рабочих процессов, помогая избежать ручной настройки. Вы захотите положиться на технологии, чтобы снизить барьеры на пути к взаимодействию. Вы хотите, чтобы эти технологии работали во всех наших текущих и ожидаемых средах данных: локальных, облачных, мультиоблачных и гибридных.
СЛЕДУЕТ ЛИ Я СКЕПТИРОВАТЬ ШАХТУ В ОБЛАСТИ DATAOPS?
Вероятно, да, DataOps основан на прочном фундаменте, который включает гибкую разработку, DevOps, аналитику данных и средства управления статистическими процессами. Эти зрелые методологии на протяжении десятилетий добавляли ценности предприятиям и предприятиям.
Если этот пост был полезен, нажмите кнопку хлопка 👏 ниже, чтобы выразить поддержку автору 👇