История представляет собой кросс-публикацию из еженедельника Data Engineering Weekly. Пожалуйста, подпишитесь на информационный бюллетень Data Engineering, чтобы быть в курсе последних обновлений.
Добро пожаловать в 34-й выпуск информационного бюллетеня по инженерии данных. Релиз на этой неделе представляет собой новый набор статей, посвященных массивно-параллельным вычислениям графов Google, пути передачи данных Uber, сетке данных Hyperight, подходящей для вашей организации, функциональной инфраструктуре машинного обучения Lyft, присоединению Flyte к LF Data & AI, безопасному перемещению данных PayPal, конвейеру данных @ Samsara, лучшее за 2020 год от группы данных Gousto, обнаружение аномалий Cloudflare, подход Instacart к крупномасштабной маркировке, примечания к выпуску Dagster 0.11 и почему Kafka работает быстро.
Google: Массивно-параллельные вычисления графов — от теории к практике
Вычисление графов широко используется для различных целей науки о данных, от ранжирования веб-страниц по популярности до отображения социальных сетей. Google AI обсуждает ограничения MapReduce в обработке графов и представляет адаптивную модель массовых параллельных вычислений с использованием распределенной хэш-таблицы.
Документы:
Parallel graph algorithms in constant adaptive rounds: theory meets practice
Massively Parallel Computation via Remote Memory Access
Unconditional Lower Bounds for Adaptive Massively Parallel Computation
Uber: Путь Uber к лучшей культуре данных с первых принципов
Uber ведет увлекательный блог о проблемах работы с платформой данных в больших масштабах. Самообслуживающая аналитика — мечта многих компаний. Однако это также создает множество проблем, таких как дублирование данных, проблемы с обнаружением данных, разъединенные инструменты, несогласованность журналов, отсутствие процесса, а также отсутствие SLA и права собственности.
В блоге рассказывается, как Uber решает проблему, адаптируя фундаментальные принципы платформы данных.
- Данные как код
- Данные принадлежат
- Качество данных известно для каждого набора данных.
- Повысьте продуктивность работы с данными с помощью инструментов обработки данных, оптимизированных для совместной работы.
- Организация данных с локальным владением данными
Hyperight: подходит ли Data Mesh для вашей организации?
Подходит ли Data Mesh для всех типов организаций? В нем отражены коллективные мысли о принципах сетки данных, о том, когда их применять, а также о будущих перспективах сетки данных и DataOps.
https://read.hyperight.com/is-data-mesh-right-for-your-organisation/
Lyft: инфраструктура обслуживания функций машинного обучения в Lyft
Жизненно важное требование для вычисления функций модели ML должно быть доступно через пакетные запросы для обучения модели и через онлайн-вывод с малой задержкой. Lyft пишет о своей службе функций, состоящей из определения функций, приема и обработки функций, а также поиска.
https://eng.lyft.com/ml-feature-serving-infrastructure-at-lyft-d30bf2d3c32a
Lyft: Flyte присоединяется к LF AI & Data
Продолжая развивать инфраструктуру обслуживания функций машинного обучения Lyft, Flyte, основная платформа для организации работы по машинному обучению, присоединяется к разделу «Данные и искусственный интеллект» Linux Foundation.
https://eng.lyft.com/flyte-joins-lf-ai-data-48c9b4b60eec
PayPal: как PayPal перемещает защищенные и зашифрованные данные между зонами безопасности
Paypal пишет захватывающую статью о проблемах безопасного перемещения данных между центрами обработки данных. В статье рассказывается, как он использует Apache Gobblin, Kerberos и KMS для обеспечения безопасной передачи, шифрования в состоянии покоя и предотвращения несанкционированного и неавторизованного доступа.
Самсара: конвейеры данных @ Samsara
Samsara пишет о своей инфраструктуре конвейера данных с преобразованием данных DSL и пошаговой функцией AWS. Одна из сложных проблем конвейера данных, которая зависит от задач, отличных от модели (данных), требует значительных инженерных усилий для устранения дублирования. Samsara рассказывает увлекательную статью о том, как она справляется с зависимостью задач и дедупликацией задач, используя DynamoDB для хранения метаданных преобразования данных.
Gousto: команда данных Gousto — лучшее за 2020 год
Густо пишет отличное резюме, в котором освещаются некоторые проекты групп данных 2020, варианты дизайна и факторы принятия решений. Я бы хотел, чтобы каждая команда публиковала годовой отчет в качестве руководства.
Cloudflare: уроки, извлеченные из масштабирования платформы обнаружения аномалий Cloudflare
Cloudflare пишет об обнаружении аномалий для управления ботами с помощью Redis, Kafka и ClickHouse. В блоге рассказывается об общей архитектуре, внедрении микросервисов и настройке производительности Redis.
https://blog.cloudflare.com/lessons-learned-from-scaling-up-cloudflare-anomaly-detection-platform/
Instacart: 7 шагов, чтобы начать масштабную маркировку
Сборы данных часто требуют маркировки человеком для аннотирования наборов данных. Краудсорсинг стал одним из возможных способов сбора лейблов в больших масштабах. Instacart пишет «Предполетный контрольный список» задач для реализации масштабных краудсорсинговых задач.
https://tech.instacart.com/7-steps-to-get-started-with-large-scale-labeling-1a1eb2bf8141
Dagster: выпуск версии Dagster 0.11.0 Lucky Star
Dagster выпустила версию 0.11.0 под кодовым названием «Lucky Star» с поддержкой серверной части MySQL, улучшенным управлением обратной засыпкой и экспериментальной поддержкой происхождения данных.
Эмиль Кутанов: Почему Кафка такой быстрый
Автор рассказывает о некоторых основополагающих принципах дизайна Кафки и демонстрирует, почему он становится центральным нервом обработки данных и управления ими.
https://medium.com/swlh/why-kafka-is-so-fast-bde0d987cd03
Ссылки предоставляются в информационных целях и не подразумевают одобрения. Все взгляды, выраженные в этом информационном бюллетене, являются моими собственными и не отражают мнения нынешних, бывших или будущих работодателей.