Еженедельник по инженерии данных № 34

История представляет собой кросс-публикацию из еженедельника Data Engineering Weekly. Пожалуйста, подпишитесь на информационный бюллетень Data Engineering, чтобы быть в курсе последних обновлений.

www.dataengineeringweekly.com

Добро пожаловать в 34-й выпуск информационного бюллетеня по инженерии данных. Релиз на этой неделе представляет собой новый набор статей, посвященных массивно-параллельным вычислениям графов Google, пути передачи данных Uber, сетке данных Hyperight, подходящей для вашей организации, функциональной инфраструктуре машинного обучения Lyft, присоединению Flyte к LF Data & AI, безопасному перемещению данных PayPal, конвейеру данных @ Samsara, лучшее за 2020 год от группы данных Gousto, обнаружение аномалий Cloudflare, подход Instacart к крупномасштабной маркировке, примечания к выпуску Dagster 0.11 и почему Kafka работает быстро.

Google: Массивно-параллельные вычисления графов — от теории к практике

Вычисление графов широко используется для различных целей науки о данных, от ранжирования веб-страниц по популярности до отображения социальных сетей. Google AI обсуждает ограничения MapReduce в обработке графов и представляет адаптивную модель массовых параллельных вычислений с использованием распределенной хэш-таблицы.

Массово-параллельные вычисления графов: от теории к практике
Графики — полезные теоретические представления связей между группами сущностей, и они использовались для…искусственного интеллекта. googleblog.com

Документы:

Parallel graph algorithms in constant adaptive rounds: theory meets practice

Massively Parallel Computation via Remote Memory Access

Unconditional Lower Bounds for Adaptive Massively Parallel Computation

Uber: Путь Uber к лучшей культуре данных с первых принципов

Uber ведет увлекательный блог о проблемах работы с платформой данных в больших масштабах. Самообслуживающая аналитика — мечта многих компаний. Однако это также создает множество проблем, таких как дублирование данных, проблемы с обнаружением данных, разъединенные инструменты, несогласованность журналов, отсутствие процесса, а также отсутствие SLA и права собственности.

В блоге рассказывается, как Uber решает проблему, адаптируя фундаментальные принципы платформы данных.

Данные как код
Данные принадлежат
Качество данных известно для каждого набора данных.
Повысьте продуктивность работы с данными с помощью инструментов обработки данных, оптимизированных для совместной работы.
Организация данных с локальным владением данными

Путь Uber к лучшей культуре данных из первых принципов
Uber произвел революцию в том, как движется мир, обеспечив миллиарды поездок и доставок, соединяющих миллионы пассажиров…eng.uber .com

Hyperight: подходит ли Data Mesh для вашей организации?

Подходит ли Data Mesh для всех типов организаций? В нем отражены коллективные мысли о принципах сетки данных, о том, когда их применять, а также о будущих перспективах сетки данных и DataOps.

https://read.hyperight.com/is-data-mesh-right-for-your-organisation/

Lyft: инфраструктура обслуживания функций машинного обучения в Lyft

Жизненно важное требование для вычисления функций модели ML должно быть доступно через пакетные запросы для обучения модели и через онлайн-вывод с малой задержкой. Lyft пишет о своей службе функций, состоящей из определения функций, приема и обработки функций, а также поиска.

https://eng.lyft.com/ml-feature-serving-infrastructure-at-lyft-d30bf2d3c32a

Lyft: Flyte присоединяется к LF AI & Data

Продолжая развивать инфраструктуру обслуживания функций машинного обучения Lyft, Flyte, основная платформа для организации работы по машинному обучению, присоединяется к разделу «Данные и искусственный интеллект» Linux Foundation.

https://eng.lyft.com/flyte-joins-lf-ai-data-48c9b4b60eec

PayPal: как PayPal перемещает защищенные и зашифрованные данные между зонами безопасности

Paypal пишет захватывающую статью о проблемах безопасного перемещения данных между центрами обработки данных. В статье рассказывается, как он использует Apache Gobblin, Kerberos и KMS для обеспечения безопасной передачи, шифрования в состоянии покоя и предотвращения несанкционированного и неавторизованного доступа.

https://medium.com/paypal-tech/how-paypal-moves-secure-and-encrypted-data-across-security-zones-10010c1788ce

Самсара: конвейеры данных @ Samsara

Samsara пишет о своей инфраструктуре конвейера данных с преобразованием данных DSL и пошаговой функцией AWS. Одна из сложных проблем конвейера данных, которая зависит от задач, отличных от модели (данных), требует значительных инженерных усилий для устранения дублирования. Samsara рассказывает увлекательную статью о том, как она справляется с зависимостью задач и дедупликацией задач, используя DynamoDB для хранения метаданных преобразования данных.

Конвейеры данных @ Samsara
Большие данные уже несколько лет являются модным словом в мире вычислительной техники. Однако иногда мне хочется…medium.com

Gousto: команда данных Gousto — лучшее за 2020 год

Густо пишет отличное резюме, в котором освещаются некоторые проекты групп данных 2020, варианты дизайна и факторы принятия решений. Я бы хотел, чтобы каждая команда публиковала годовой отчет в качестве руководства.

Команда Gousto Data — лучшее за 2020 год
Взгляд на несколько проектов данных, выполненных группой по науке о данных, инженерии данных и аналитике здесь, на…medium .com

Cloudflare: уроки, извлеченные из масштабирования платформы обнаружения аномалий Cloudflare

Cloudflare пишет об обнаружении аномалий для управления ботами с помощью Redis, Kafka и ClickHouse. В блоге рассказывается об общей архитектуре, внедрении микросервисов и настройке производительности Redis.

https://blog.cloudflare.com/lessons-learned-from-scaling-up-cloudflare-anomaly-detection-platform/

Instacart: 7 шагов, чтобы начать масштабную маркировку

Сборы данных часто требуют маркировки человеком для аннотирования наборов данных. Краудсорсинг стал одним из возможных способов сбора лейблов в больших масштабах. Instacart пишет «Предполетный контрольный список» задач для реализации масштабных краудсорсинговых задач.

https://tech.instacart.com/7-steps-to-get-started-with-large-scale-labeling-1a1eb2bf8141

Dagster: выпуск версии Dagster 0.11.0 Lucky Star

Dagster выпустила версию 0.11.0 под кодовым названием «Lucky Star» с поддержкой серверной части MySQL, улучшенным управлением обратной засыпкой и экспериментальной поддержкой происхождения данных.

Выпуск 0.11.0 Lucky Star · dagster-io/dagster
MySQL теперь поддерживается в качестве серверной части для хранилищ. Теперь вы можете запустить свой экземпляр Dagster поверх MySQL вместо…github.com

Эмиль Кутанов: Почему Кафка такой быстрый

Автор рассказывает о некоторых основополагающих принципах дизайна Кафки и демонстрирует, почему он становится центральным нервом обработки данных и управления ими.

https://medium.com/swlh/why-kafka-is-so-fast-bde0d987cd03

Ссылки предоставляются в информационных целях и не подразумевают одобрения. Все взгляды, выраженные в этом информационном бюллетене, являются моими собственными и не отражают мнения нынешних, бывших или будущих работодателей.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning