Шаблон миграции сетки данных в облако

Миграция в облако на предприятиях была слишком медленной, дорогостоящей и сложной. Шаблон Data Mesh Cloud Migration показывает, как ускорить миграцию в облако.

Шаблон миграции сетки данных в облако

Облачные технологии распространены повсеместно. Он скрыт за каждым приложением для мобильного телефона, и он затрагивает и хранит каждое электронное письмо, сообщение и социальное взаимодействие, которое у нас есть. И предложение ценности облака кажется ясным: согласно McKinsey, во всех отраслях существует 1 триллион долларов деловой ценности, которую может открыть внедрение облака.

Тем не менее внедрение облачных технологий на предприятии — в частности, миграция основных приложений и данных — происходит медленно и чревато проблемами. A16Z, известный венчурный фонд, считает, что это потому, что большинству компаний трудно оправдать перенос рабочих нагрузок из облака, учитывая масштабы таких усилий, а необходимое переписывание кажется НАСТОЛЬКО непрактичным, чтобы быть невозможным. Поэтому неудивительно, что большинство систем почти во всех отраслях по-прежнему работают преимущественно во внутренних центрах обработки данных.

Но теперь доступны новые методы и шаблоны, а также еще более совершенные подходы для перемещения данных по предприятию и в облако. Вот где появляется Data Mesh.

В этой статье описывается шаблон миграции сетки данных в облако и то, как он решает основные проблемы с данными, позволяя предприятиям ускорить миграцию в облако.

Обратите внимание, что важно понимать, что построение сетки данных включает в себя гораздо больше, чем принятие технического шаблона. Это также требует серьезного изменения ваших представлений о культуре данных, организационном поведении и модели работы с данными. Thinh Ha, соавтор этой статьи, ранее обсуждал культурные и организационные проблемы, с которыми вы можете столкнуться при внедрении Data Mesh, в выдающейся статье под названием 10 причин, по которым вы не готовы принять Data Mesh. Тинх — инженер по стратегическим облачным технологиям в службе профессиональных услуг Google в Великобритании. Он работал со многими клиентами над созданием облачных сред Data Mesh.

И последнее замечание: мы предполагаем, что вы хорошо разбираетесь в Data Mesh. Если вам нужна какая-то справочная информация о Data Mesh, есть ряд замечательных статей, доступных здесь (шаблоны), здесь (архитектура) и здесь (принципы). Для заинтересованных читателей полное описание паттернов Data Mesh доступно здесь и здесь.

Резюме шаблона

Шаблон решения для переноса данных в облако перемещает данные почти в реальном времени из системы любого типа (транзакционной или аналитической) в облачный продукт данных внутри корпоративной сетки данных, одновременно создавая данные. обнаружить и легко потреблять.

Контекст и бизнес-проблема

McKinsey говорит, что 75% облачных бюджетов превышают бюджет и 38% облачных проектов отстают от графика. Далее они говорят, что некоторые организации упускают свою долю этой ценности вместо того, чтобы ее использовать, а неэффективность организации миграции в облако приводит к неожиданным затратам и задержкам. Ожидается, что в течение следующих трех лет расходы на миграцию составят около 100 миллиардов долларов, и большинство предприятий называют затраты на миграцию основным препятствием для внедрения облака.

Повторяет это недавний анализ от Accenture, показывающий, что две трети предприятий не полностью достигли ожидаемых результатов, даже несмотря на то, что пандемия COVID-19 превратила внедрение облачных технологий в обязательное требование.

По оценке Gartner, в 2020 году на облачные вычисления будет приходиться около 9,1% расходов на ИТ. И, несмотря на ожидания агрессивного роста, расходы на облачные технологии составят лишь 14,2% расходов на ИТ. Таким образом, несмотря на массовый рост облачных вычислений, они по-прежнему составляют небольшую часть общих расходов на ИТ.

Я полагаю, что реальный вопрос заключается в том, почему внедрение облачных технологий происходит так чертовски медленно и дорого? Я бы сказал, что есть одна простая, убедительная и практическая причина, по которой многие предприятия продолжают отдавать предпочтение локальным решениям, а не облачным: потому что именно там находятся данные.

Проще говоря, данные порождают данные. Сегодняшняя критическая масса данных в корпоративных центрах обработки данных создает «гравитационный колодец данных», втягивающий в свою орбиту все приложения, среды и сервисы. И правда в том, что пока мы не сможем переместить центр тяжести из центра обработки данных в облако, внедрение будет оставаться медленным.

К сожалению, следствие также верно: небольшие объемы данных не имеют «гравитационного колодца» и, следовательно, мало привлекают новых разработок.

Но есть и вторая причина долговечности корпоративных центров обработки данных. За многие годы развития и роста среда корпоративных данных стала запутанной и взаимозависимой. Большинство архитекторов могут указать на архитектуру своих корпоративных приложений, которая больше похожа на схему интегральной схемы от Intel.

Но связи между приложениями тесно связаны друг с другом, как паутина. Когда мы перемещаем приложение, мы тянем за одну нить его данных «паутину», и вся архитектура перемещается и деформируется. Итак, в этой взаимосвязанной сети данных даже небольшие миграции имеют серьезные последствия, приводящие к длительным срокам и соразмерно огромным затратам.

Решение

Итак, задача для облака проста. Во-первых, каков самый быстрый, наиболее эффективный и действенный способ создать мощную гравитацию данных в облаке. И, во-вторых, как нам сделать это без полного распутывания корпоративных приложений и паутины данных?

Именно здесь на помощь приходят сетка данных и шаблон решения «Миграция в облако». Шаблон решения для миграции в облако с сеткой данных незаметно перемещает данные практически в реальном времени из системы любого типа (транзакционной или аналитической) в другую. безопасный облачный продукт данных в рамках предприятия.

Этот шаблон создает «живую реплику» исходных данных и не требует миграции приложений. Это дает несколько ощутимых и практических преимуществ:

Это ненавязчиво и, следовательно, не требует изменений приложений, тем самым устраняя необходимость «распутывать» существующее приложение и паутину данных.
Поскольку никаких изменений в приложении не требуется, этот шаблон можно развернуть очень быстро.
Благодаря более простой миграции данных это создает облачный «гравитационный колодец данных», необходимый для ускорения миграции в облако.
В качестве «живой реплики» данные доступны в облаке практически в режиме реального времени, предоставляя своевременные, согласованные и точные данные для новых облачных задач, таких как AI/ML и расширенная аналитика.
Благодаря данным, доступным в облаке, новые приложения могут разрабатываться быстрее, а время выхода на рынок значительно сокращается.

Для обеспечения этой функциональности используются несколько шаблонов Data Mesh Accelerator:

Шаблон живой реплики для создания «реплики» (с теми же данными и, при необходимости, с той же структурой) в режиме, близком к реальному времени (подробная статья об этом шаблоне будет опубликована в ближайшее время).
Шаблон безопасности продукта данных, чтобы обеспечить безопасность данных, управляемых продуктами данных (подробная статья об этом шаблоне будет опубликована в ближайшее время).
Шаблон наблюдения за продуктом данных, чтобы сделать перемещение данных прослеживаемым и видимым.
Шаблон работоспособности продукта данных, чтобы гарантировать, что исключения и ошибки в продукте данных регистрируются и транслируются в соответствующие корпоративные системы мониторинга.

Для обеспечения этой функциональности используются несколько базовых шаблонов Data Mesh:

Изменить шаблон сбора данных, чтобы фиксировать изменения в данных с помощью продукта данных, чтобы их можно было транслировать заинтересованным потребителям, а также предоставлять необработанные данные, необходимые для понимания происхождения данных. Этот шаблон ненавязчиво фиксирует изменения базы данных и публикует их через магистраль потоковой передачи событий по назначению в облачной базе данных. Шаблон «Исходящие — это альтернативный шаблон, для которого CDC недоступен.
Шаблон API, чтобы упростить доступ к данным.
Шаблон каталога продуктов данных, чтобы сделать данные доступными для обнаружения.
Неизменяемый шаблон журнала, чтобы обеспечить видимость происхождения данных, управляемых продуктом данных.
Шаблон магистрали потоковой передачи событий для потоковой передачи данных потребителям практически в режиме реального времени.

Как это работает

На рис. 3 (ниже) показано, как работает шаблон миграции в облако Data Mesh.

Репликация: данные реплицируются практически в режиме реального времени в облачный продукт данных из транзакционных, взаимодействующих или аналитических систем с использованием шаблона Live Replica Accelerator.
Обнаружение: основополагающие шаблоны Каталог продукта данных и Неизменяемый журнал обеспечивают видимость данных, управляемых продуктом данных, а также происхождение данных внутри продукт данных.
Доступ. Схемы JSON и спецификации OpenAPI (и поддерживающие реестры) позволяют шаблонам API запрашивать и обновлять продукты данных с помощью известных методов.
Потоковая передача. Данные передаются из облачного продукта данных в другие системы или продукты данных, что позволяет системам «прослушивать» изменения в продукте данных, а также предлагать сложные методы анализа и обработки данных в кратчайший срок. в режиме реального времени.
Наблюдаемость, безопасность и работоспособность. Мониторинг облачного продукта данных осуществляется с использованием шаблонов ускорителей «Наблюдаемость продукта данных», «Безопасность продукта данных» и «Управление работой продукта данных», в результате чего облачный продукт данных работает в безопасном режиме. , безопасный и надежный способ.

Опыт клиентов: внедрение облачных технологий в организации, предоставляющей финансовые услуги

Я поговорил с Thinh Ha о его опыте внедрения облачных технологий с помощью Data Mesh. Тинх — инженер по стратегическим облачным технологиям в службе профессиональных услуг Google в Великобритании. Он работал со многими клиентами над созданием облачных сред Data Mesh. По словам Ха:

Сетка данных помогла нам создать гравитационный колодец данных, который позволил реализовать масштабируемую ценность данных и привлечь дополнительные варианты использования и рабочие нагрузки на платформу Data Cloud.

Мы решили построить сетку данных с небольшим количеством групп, работающих в предметной области, чтобы доказать единый сквозной бизнес-процесс для организации. Мы решили создать облачную среду Платформа данных, позволяющая командам Data Domain самостоятельно создавать продукты данных, подтверждающие экономическое обоснование, а также предоставлять централизованные средства безопасности и управления, чтобы гарантировать, что ключевые элементы управления удовлетворяются при переходе на федеративную операционную модель. .

Google Cloud предлагает богатый набор технологий, которые помогут вам создать сетку данных. В рамках команды Data Platform мы создали самообслуживаемые и совместимые по умолчанию шаблоны кода для развертывания полностью управляемых и автоматически масштабируемых продуктов Google Cloud, таких как Cloud Spanner для СУБД, Cloud Dataflow для потоковой передачи. обработки и BigQuery для хранения данных. Шаблоны кода служили ускорителями, помогая командам Data Domain быстро приступить к работе и упростить операции. Поскольку наличие нескольких облаков было важным требованием для клиента, мы также использовали такие сервисы, как Confluent Kafka для потоковой передачи событий и Collibra для каталогизации данных.

По мере того, как мы приступили к испытанию Data Mesh, существующие команды Data Domain начали понимать, что, владея собственными продуктами данных, они получают значительные преимущества благодаря возможности локальной оптимизации для повышения гибкости. В результате команды Data Domain начали самостоятельно разрабатывать новые бизнес-модели для переноса дополнительных рабочих нагрузок на платформу.

Начали распространяться слухи о продуктах данных, доступных на платформе, что привлекло новые варианты использования платформы, которые ранее были невозможны из-за сложности доступа к этим данным в исходных системах.

С этого момента мы не только получили более качественную, быструю и дешевую статистику. Мы также заложили основу для быстрого переноса более сложных приложений в облако!

В ходе нашего обсуждения Ха обнаружил, что Data Mesh позволяет его клиентам создавать критическую массу новых данных в облаке, что создает новую гравитацию данных в облаке. Клиенты Ха начали с малого — и выбрали для начала важную, но нетривиальную область. Ха говорит, что теперь его клиенты получают дополнительные преимущества Data Mesh:

Данные гораздо больше самообслуживания.
Информационные продукты согласовывают подотчетность, принятие решений и финансирование с четким владельцем.
И поскольку мы можем видеть, какие данные у нас есть (каталоги и т. д.), теперь мы можем организовать гораздо более легкий процесс управления.

Заключительные мысли

Сегодня предприятия сталкиваются с фундаментальной проблемой: несмотря на очевидные преимущества облака (гибкость, скорость, стоимость), миграция в облако идет медленно. Почему? Потому что у нашего наследия данных — обширных хранилищ данных, которые все еще находятся в корпоративном центре обработки данных — есть свой собственный «колодец гравитации данных». И когда предпринимаются попытки переместить приложения, мы обнаруживаем, что нашу «паутину данных» слишком сложно и дорого распутать.

В этой статье показано, как шаблон решения для миграции в облако Data Mesh решает эту проблему, упрощая создание облачной гравитации данных безопасным, надежным способом и практически в режиме реального времени. И это показывает, как сделать это, не влияя на ваши текущие приложения и среду данных.

Надеемся, что эта статья даст вам необходимую информацию для запуска собственной корпоративной сетки данных и ускорения внедрения облачных технологий на вашем предприятии!

***

Все изображения в этом документе, если не указано иное, созданы Эриком Брода (соавтором этой статьи). Все значки, используемые в изображениях, являются стандартными значками PowerPoint и не защищены авторскими правами.

Мнения, выраженные в этой статье Эриком Брода, принадлежат только ему и не обязательно отражают точку зрения его клиентов.

Мнения, выраженные в этой статье Тхинь Ха (соавтором этой статьи), принадлежат только ему и не обязательно отражают точку зрения его клиентов или Google.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning