Сообщество Data Mesh Slack, Reverse ETL, SLA для продуктов данных; ThDPTh #9

Войдите в режим обучения сетки данных, новую категорию инструментов данных и узнайте, зачем вам нужны соглашения об уровне обслуживания данных.

Данные будут питать каждую часть нашего существования в ближайшем будущем. Я собираю Точки данных, чтобы помочь понять это будущее.

Если вы хотите поддержать это, поделитесь им в Twitter, LinkedIn или Facebook.

На этой неделе я наткнулся на ряд вещей: слабое сообщество для изучения сетки данных, введение в Reverse ETL и SLA для продуктов данных.

1 Сообщество Slack для обучения сетке данных

Я наткнулся на слабое сообщество изучение сетки данных, которое является отличным местом, чтобы узнать о сетках данных и задать вопросы людям, которые уже глубоко вовлечены в создание этих вещей. Скотт Хирлеман и др. др. проделал большую работу по его настройке и обеспечивает хорошую основу для обучения. Он включает в себя события и сообщения в блогах по теме. Поэтому, если вы думаете о создании сетки данных, я настоятельно рекомендую вам присоединиться к группе.

2 Обратный ETL или Просто еще один конвейер данных

Новые категории инструментов в мире данных важны, мы все еще находимся на первом дне с данными, поэтому многое еще впереди. Новая запись — это категория инструментов «Reverse ETL». В мире инженерии данных вы в основном сосредоточены на том, чтобы получать данные в свой контейнер данных, преобразовывать их и предоставлять конечным пользователям через какой-либо графический интерфейс или API.

Но в последнее время многие требования к командам по разработке данных предъявляются с другой стороны, они касаются отправки преобразованных и объединенных данных в другие инструменты, такие как Google Analytics, CRM-системы, инструменты автоматизации маркетинга и т. д. Вы можете написать новый интерфейс для каждого из них. из них, но это умножается довольно быстро, и обслуживание будет неприятностью.

Именно для этого и предназначены инструменты «Reverse ETL». Обе статьи представляют собой отличный учебник для начинающих вместе, потому что я нахожу некоторые вопросы, поднятые командой рулей, действительно важными, особенно их точку зрения на «события».

Так что эти инструменты великолепны. Тем не менее, я все еще вижу одну проблему с таким подходом к проблеме. Обратный ETL удлиняет и без того слишком длинную «цепочку» от приема данных, очистки, преобразования до «обратного ETL». Проблема в том, что цепочка построена «ортогонально оси изменений» и поэтому не очень гибкая.

Я бы предпочел увидеть несколько небольших «цепочек» (возможно, с отбрасыванием некоторых сегментов цепочки), которые все еще могут использовать «обратный ETL» в качестве службы для выталкивания данных. Но я бы хотел, чтобы эти небольшие цепочки были разделены осью изменений, то есть бизнес-единицами, контекстами, доменами и т. д. Конечно, сетки данных обеспечивают общую основу для предоставления этих «маленьких цепочек», но также и для этого. в вашем текущем контексте вполне возможно.

Ресурсы

Учебник по обратному ETL, Астасия Майерс
Ответ рулей на Обратный ETL

3 SLA/SLO для продукта данных

Я читал обе, замечательную книгу SRE от Google, а также ориентированное на данные продолжение «Инженерия надежности базы данных». Оба предоставляют отличные концепции для SLA и SLO. Эта статья — хорошее напоминание о том, почему SLA и SLO так важны для групп обработки данных. И, честно говоря, у меня такое ощущение, что у большинства команд по работе с данными их нет.

На мой взгляд, самая важная часть наличия конкретного соглашения об уровне обслуживания (согласованного вместе с заинтересованными сторонами) или цели уровня обслуживания (возможно, самостоятельно установленной) — это прозрачность, которую они привносят в работу группы обработки данных. Потому что, честно говоря, куча моих SLO, когда я работал инженером по данным, гласила: «обеспечивать 80% точность данных» или «предоставлять правильные данные в 60% рабочих дней».

Если эти уровни обслуживания даже не обсуждаются, ваша команда по обработке данных, вероятно, никогда не поймет и не получит информации о том, почему важно работать над качеством данных.

С другой стороны, если вы довольны уровнем обслуживания, я рекомендую взять инструмент под названием «бюджетирование ошибок» и преобразовать его в инструмент «бюджетирования качества данных». Основная идея заключается в том, что вы должны договориться со своими заинтересованными сторонами об определенных уровнях качества данных, например, «95% дней данные должны обновляться на 1 час». Теперь, если показатель падает ниже этого уровня, скажем, на 90% ваша команда перестает разрабатывать новые функции и начинает работать над качеством, пока уровень сервиса не станет удовлетворительным. Таким образом, вы сможете справиться с напряжением, которое существует между разработкой функций и качеством.

Ресурсы

Статья Барра Мозеса об SLA продукта данных
Инженерия надежности сайта, Google
Инженерия надежности базы данных

P.S. Я делюсь важными, а не самыми последними новостями. Я делюсь книгами, исследовательскими работами и инструментами. Я пытаюсь дать простой способ понять все эти вещи. Но я склонен быть самоуверенным. Но вы всегда можете нажать кнопку отказа от подписки!

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning