История представляет собой кросс-публикацию из еженедельника Data Engineering Weekly. Пожалуйста, подпишитесь на информационный бюллетень Data Engineering, чтобы быть в курсе последних обновлений.

www.dataengineeringweekly.com

Добро пожаловать в 34-й выпуск информационного бюллетеня по инженерии данных. Релиз на этой неделе представляет собой новый набор статей, посвященных массивно-параллельным вычислениям графов Google, пути передачи данных Uber, сетке данных Hyperight, подходящей для вашей организации, функциональной инфраструктуре машинного обучения Lyft, присоединению Flyte к LF Data & AI, безопасному перемещению данных PayPal, конвейеру данных @ Samsara, лучшее за 2020 год от группы данных Gousto, обнаружение аномалий Cloudflare, подход Instacart к крупномасштабной маркировке, примечания к выпуску Dagster 0.11 и почему Kafka работает быстро.

Google: Массивно-параллельные вычисления графов — от теории к практике

Вычисление графов широко используется для различных целей науки о данных, от ранжирования веб-страниц по популярности до отображения социальных сетей. Google AI обсуждает ограничения MapReduce в обработке графов и представляет адаптивную модель массовых параллельных вычислений с использованием распределенной хэш-таблицы.



Документы:

Parallel graph algorithms in constant adaptive rounds: theory meets practice

Massively Parallel Computation via Remote Memory Access

Unconditional Lower Bounds for Adaptive Massively Parallel Computation

Uber: Путь Uber к лучшей культуре данных с первых принципов

Uber ведет увлекательный блог о проблемах работы с платформой данных в больших масштабах. Самообслуживающая аналитика — мечта многих компаний. Однако это также создает множество проблем, таких как дублирование данных, проблемы с обнаружением данных, разъединенные инструменты, несогласованность журналов, отсутствие процесса, а также отсутствие SLA и права собственности.

В блоге рассказывается, как Uber решает проблему, адаптируя фундаментальные принципы платформы данных.

  1. Данные как код
  2. Данные принадлежат
  3. Качество данных известно для каждого набора данных.
  4. Повысьте продуктивность работы с данными с помощью инструментов обработки данных, оптимизированных для совместной работы.
  5. Организация данных с локальным владением данными


Hyperight: подходит ли Data Mesh для вашей организации?

Подходит ли Data Mesh для всех типов организаций? В нем отражены коллективные мысли о принципах сетки данных, о том, когда их применять, а также о будущих перспективах сетки данных и DataOps.

https://read.hyperight.com/is-data-mesh-right-for-your-organisation/

Lyft: инфраструктура обслуживания функций машинного обучения в Lyft

Жизненно важное требование для вычисления функций модели ML должно быть доступно через пакетные запросы для обучения модели и через онлайн-вывод с малой задержкой. Lyft пишет о своей службе функций, состоящей из определения функций, приема и обработки функций, а также поиска.

https://eng.lyft.com/ml-feature-serving-infrastructure-at-lyft-d30bf2d3c32a

Lyft: Flyte присоединяется к LF AI & Data

Продолжая развивать инфраструктуру обслуживания функций машинного обучения Lyft, Flyte, основная платформа для организации работы по машинному обучению, присоединяется к разделу «Данные и искусственный интеллект» Linux Foundation.

https://eng.lyft.com/flyte-joins-lf-ai-data-48c9b4b60eec

PayPal: как PayPal перемещает защищенные и зашифрованные данные между зонами безопасности

Paypal пишет захватывающую статью о проблемах безопасного перемещения данных между центрами обработки данных. В статье рассказывается, как он использует Apache Gobblin, Kerberos и KMS для обеспечения безопасной передачи, шифрования в состоянии покоя и предотвращения несанкционированного и неавторизованного доступа.

https://medium.com/paypal-tech/how-paypal-moves-secure-and-encrypted-data-across-security-zones-10010c1788ce

Самсара: конвейеры данных @ Samsara

Samsara пишет о своей инфраструктуре конвейера данных с преобразованием данных DSL и пошаговой функцией AWS. Одна из сложных проблем конвейера данных, которая зависит от задач, отличных от модели (данных), требует значительных инженерных усилий для устранения дублирования. Samsara рассказывает увлекательную статью о том, как она справляется с зависимостью задач и дедупликацией задач, используя DynamoDB для хранения метаданных преобразования данных.



Gousto: команда данных Gousto — лучшее за 2020 год

Густо пишет отличное резюме, в котором освещаются некоторые проекты групп данных 2020, варианты дизайна и факторы принятия решений. Я бы хотел, чтобы каждая команда публиковала годовой отчет в качестве руководства.



Cloudflare: уроки, извлеченные из масштабирования платформы обнаружения аномалий Cloudflare

Cloudflare пишет об обнаружении аномалий для управления ботами с помощью Redis, Kafka и ClickHouse. В блоге рассказывается об общей архитектуре, внедрении микросервисов и настройке производительности Redis.

https://blog.cloudflare.com/lessons-learned-from-scaling-up-cloudflare-anomaly-detection-platform/

Instacart: 7 шагов, чтобы начать масштабную маркировку

Сборы данных часто требуют маркировки человеком для аннотирования наборов данных. Краудсорсинг стал одним из возможных способов сбора лейблов в больших масштабах. Instacart пишет «Предполетный контрольный список» задач для реализации масштабных краудсорсинговых задач.

https://tech.instacart.com/7-steps-to-get-started-with-large-scale-labeling-1a1eb2bf8141

Dagster: выпуск версии Dagster 0.11.0 Lucky Star

Dagster выпустила версию 0.11.0 под кодовым названием «Lucky Star» с поддержкой серверной части MySQL, улучшенным управлением обратной засыпкой и экспериментальной поддержкой происхождения данных.



Эмиль Кутанов: Почему Кафка такой быстрый

Автор рассказывает о некоторых основополагающих принципах дизайна Кафки и демонстрирует, почему он становится центральным нервом обработки данных и управления ими.

https://medium.com/swlh/why-kafka-is-so-fast-bde0d987cd03

Ссылки предоставляются в информационных целях и не подразумевают одобрения. Все взгляды, выраженные в этом информационном бюллетене, являются моими собственными и не отражают мнения нынешних, бывших или будущих работодателей.