Для предстоящего Саммита инженеров данных 18 января мы связались с некоторыми из ведущих экспертов в этой области, чтобы обсудить эту тему. В ходе наших обсуждений и исследований мы обнаружили, что самые популярные языки программирования для инженерии данных включают Python, Java, Scala, R, Julia и C++. Тем не менее, Python продолжает лидировать благодаря своей растущей экосистеме библиотек, инструментов и сред для обработки данных и смежных областей, таких как машинное обучение и наука о данных.
Независимо от использования метрик, многие библиотеки Python для обработки данных полезны. Важность библиотеки Python будет зависеть от содержания решаемой задачи. Данные, полученные на нашем предстоящем саммите, а также на Треке Data Engineering (DE) на ODSC East 2023, определяют их как одни из самых полезных и популярных:
БИБЛИОТЕКИ ПОТОКА ДАННЫХ И КОНЦЕПЦИИ
- Библиотека: apache-airflow
Библиотека apache-airflow — это широко используемый планировщик и монитор для выполнения и управления задачами, пакетными заданиями и оркестрацией конвейеров данных. Инженеры данных могут использовать его для управления задачами и зависимостями в рабочем процессе данных, который может обрабатывать большое количество задач. Он предоставляет простой пользовательский интерфейс и API, который включает в себя сценарии для обработки сбоев и восстановления после ошибок, и все это заключено в высокопроизводительную структуру. Это позволяет определять сложные рабочие процессы как ориентированные ациклические графы (DAG) задач, где ребра между задачами представляют зависимости, а узлы представляют фактические задачи, которые должны быть выполнены.
Страница PyPI: https://pypi.org/project/apache-airflow
Домашняя страница: https://airflow.apache.org
- Библиотека: Луиджи
Luigi, впервые выпущенный Spotify в 2011 году, представляет собой еще одну библиотеку Python для конвейеров данных с открытым исходным кодом. Подобно Airflow, он позволяет DE создавать и определять сложные конвейеры, которые выполняют ряд зависимостей между задачами, гарантируя, что задачи выполняются в правильном порядке при управлении сбоями. Luigi также включает мониторинг событий, который может инициировать выполнение задачи. Его можно использовать для ETL и приема данных, а также он предоставляет услуги по очистке и преобразованию данных перед их сохранением в хранилищах данных, таких как озера и хранилища данных.
Страница PyPI: https://pypi.org/project/luigi/
Домашняя страница: https://github.com/spotify/luigi
- Библиотека: prefect: библиотека для построения конвейеров данных.
Для инженеров данных Airflow является надежным инструментом, но иногда ему не хватает функций, необходимых для современного стека данных. Prefect был разработан с учетом этих недостатков. Prefect стремится предоставить простой и интуитивно понятный способ создания и управления сложными рабочими процессами и конвейерами данных. Это позволяет инженерам данных определять и организовывать конвейеры, планировать и запускать задачи, а также обрабатывать ошибки и повторять попытки. Подобно другим библиотекам Python рабочего процесса для обработки данных, его можно использовать для извлечения данных из различных источников, преобразования и очистки данных, а также загрузки их в целевую систему или базу данных. Его также можно использовать для отслеживания состояния и хода выполнения задач, а также для предоставления предупреждений и уведомлений при необходимости.
Страница PyPI: https://pypi.org/project/prefect/
Домашняя страница: https://github.com/PrefectHQ/prefect/
- Библиотека: kafka-python
Apache Kafka — это популярная распределенная платформа обмена сообщениями, используемая для создания конвейеров данных в режиме реального времени и потоковых приложений, которые хранят данные и реплицируют их на нескольких серверах, обеспечивая высокую доступность и надежность в случае сбоев сервера. Библиотека Kafka-python предоставляет высокоуровневый API для создания и использования сообщений из Apache Kafka, а также API более низкого уровня для более продвинутых вариантов использования, таких как асинхронная обработка, упрощающая отправку и получение сообщений без блокировки основного потока выполнения.
Страница PyPl: https://pypi.org/project/kafka-python
Домашняя страница: https://pypistats.org/packages/kafka-python
- Библиотека: комбу
Kombu и Kafka-python похожи тем, что обе они являются библиотеками для работы с системами обмена сообщениями в Python. Однако Kombu — это библиотека обмена сообщениями Python, которая предоставляет высокоуровневый API для взаимодействия с брокерами сообщений, такими как RabbitMQ и AMQP, и поддерживает сериализацию сообщений, объединение пулов соединений и обработку повторных попыток с этими брокерами. Инженеры данных могут использовать Kombu для создания и использования сообщений от брокеров сообщений, которые можно использовать для создания конвейеров данных и потоковой передачи данных между системами, например, для создания данных из базы данных и отправки их брокеру сообщений, сообщения которого затем могут использоваться другим приложение в конвейере.
Страница PyPI: https://pypi.org/project/kombu
Домашняя страница: https://docs.celeryq.dev/projects/kombu/en/stable
БИБЛИОТЕКИ АНАЛИЗА ДАННЫХ
- Библиотека: панды
Pandas — одна из самых популярных библиотек Python для работы с наборами данных малого и среднего размера. Построенный на основе NumPy, Pandas (аббревиатура от Python Data Analysis Library) идеально подходит для анализа и обработки данных. Он считается обязательным, учитывая большой набор мощных функций, таких как слияние данных, обработка отсутствующих данных, исследование данных и общая эффективность. Инженеры данных используют его для быстрого чтения данных из различных источников, выполнения операций анализа и преобразования данных и вывода результатов в различных форматах. Pandas также часто сочетается с другими библиотеками Python для обработки данных, такими как scikit-learn для анализа данных и задач машинного обучения.
Страница PyPI: https://pypi.org/project/pandas
Домашняя страница: https://pandas.pydata.org/
- Библиотека: pyarrow
Разработанный некоторыми из тех же авторов Pandas (Уэс МакКинни), чтобы решить некоторые проблемы масштабируемости Pandas, Apache Arrow использует популярное ныне столбцовое хранилище данных для повышения производительности и гибкости. Библиотека PyArrow предоставляет API Python для функций, предоставляемых библиотеками Arrow, а также инструменты для интеграции Arrow и взаимодействия с пандами, NumPy и другим программным обеспечением в экосистеме Python. Для инженеров данных pyarrow предоставляет масштабируемую библиотеку, позволяющую легко интегрировать данные из нескольких источников в единый, унифицированный и большой набор данных для удобной обработки и анализа.
Страница PyPI: https://pypi.org/project/pyarrow
Домашняя страница: https://arrow.apache.org/
ОБЛАЧНЫЕ БИБЛИОТЕКИ
- Библиотека: boto3
AWS — один из самых популярных поставщиков облачных услуг, поэтому неудивительно, что boto3 находится на вершине списка. Boto3 — это библиотека Software Development Kit (SDK) для программистов, позволяющая писать программное обеспечение, использующее длинный список сервисов Amazon, включая любимые инженеры данных, такие как Glue, EC2, RDS, S3, Kinesis, Redshift и Athena. Помимо выполнения стандартных задач, таких как загрузка и выгрузка данных, а также запуск экземпляров EC2 и управление ими, инженеры данных могут использовать Boto3 для программного доступа и управления многими сервисами AWS, которые можно использовать для создания конвейеров данных и автоматизации задач обработки данных.
Страница PyPI: https://pypi.org/project/boto3/
Домашняя страница: https://github.com/boto/boto3
- Библиотека: google-API-core
Инжиниринг данных выполняется в основном в облаке, и Google Cloud Platform (GCP) входит в пятерку ведущих поставщиков, в которую входят AWS, Azure, IBM и Oracle. Сервисы пакетов google-cloud-core являются общими для всех облачных API Google, таких как аутентификация и авторизация, обработка HTTP-запросов и ответов, извлечение данных (Google Диск и т. д.), преобразование данных и управление данными. Инженеры данных могут использовать его для доступа к данным из Google Cloud Storage или BigQuery, облачных хранилищ данных и аналитической платформы Google или API-интерфейсов машинного обучения, таких как Cloud ML Engine.
Страница PyPI: https://pypi.org/project/google-api-core
Домашняя страница: https://github.com/googleapis/python-api-core
- Библиотека:Azure-core
Azure Core — это еще один из пяти ведущих облачных провайдеров. Это библиотека Python и API для взаимодействия с облачными службами Azure, которые инженеры данных используют для доступа к ресурсам и автоматизации инженерных задач. Общие задачи включают отправку и мониторинг пакетных заданий, доступ к базам данных, контейнерам данных и озерам данных, а также общее управление ресурсами, такими как виртуальные машины и контейнеры. Связанной библиотекой для Python является azure-storage-blob, библиотека, созданная для управления извлечением и хранения больших объемов неструктурированных данных, таких как изображения, аудио, видео или текст.
Страница PyPI: https://pypi.org/project/azure-core
Домашняя страница: https://github.com/Azure/azure-sdk-for-python/tree/main/sdk/core/azure-core
БИБЛИОТЕКИ ДАННЫХ И БОЛЬШИХ ДАННЫХ
- Библиотека: google-cloud-bigquery
Созданный Google для проведения крупномасштабного анализа данных для поиска и рекламных бизнес-данных, он был впервые анонсирован в 2010 году. После выпуска BigQuery быстро стал популярным благодаря своей способности выполнять быстрые SQL-запросы к массивным наборам данных (петабайтам). Его производительность обусловлена тем, как он хранит и запрашивает данные. BigQuery хранит данные в осколках в столбцовом формате, а его механизм распределенных запросов обрабатывает запросы по этим осколкам параллельно, что позволяет запрашивать и возвращать результаты даже для больших наборов данных. Теперь он получил широкое распространение в качестве хранилища данных и популярен благодаря простой настройке и интуитивно понятному интерфейсу.
Страница PyPI: https://pypi.org/project/google-cloud-bigquery/
Домашняя страница: https://github.com/googleapis/python-bigquery
- Библиотека: grpcio
Создание распределенных систем API или микросервисов — это лишь некоторые из вариантов использования, которые способствуют популярности пакета gRPC Python. gRPC — это современная высокопроизводительная платформа удаленного вызова процедур (RPC) с открытым исходным кодом, которая может работать в любой среде. Такие функции, как балансировка нагрузки, проверка работоспособности, двунаправленная потоковая передача аутентификации и автоматические повторные попытки, делают его мощным инструментом для создания безопасных, масштабируемых и надежных приложений. Таким образом, инженеры данных могут использовать grpcio для создания эффективных масштабируемых конвейеров данных для распределенных систем.
Страница PyPI: https://pypi.org/project/grpcio/
Домашняя страница: https://grpc.io
- Библиотека: SQLAlchemy
SQLAlchemy — это набор инструментов Python SQL, предоставляющий высокоуровневый интерфейс для взаимодействия с базами данных. Он позволяет инженерам данных запрашивать данные из базы данных с помощью операторов, подобных SQL, и выполнять стандартные операции, такие как вставка, обновление и удаление данных из базы данных. SQLAlchemy также поддерживает объектно-реляционное сопоставление (ORM), которое позволяет инженерам данных определять структуру своих таблиц базы данных как классы Python и сопоставлять эти классы с реальными таблицами базы данных. SQLAlchemy предоставляет полный набор хорошо известных шаблонов сохраняемости корпоративного уровня, предназначенных для эффективного и высокопроизводительного доступа к базе данных, таких как объединение пулов соединений и повторное использование соединений.
Страница PyPI: https://pypi.org/project/SQLAlchemy
Домашняя страница: https://www.sqlalchemy.org
Другие известные библиотеки Python для обработки данных включают PyMySQL и sqlparse.
- Библиотека: redis-py
Redis — это популярное хранилище данных в памяти, широко используемое в инженерии данных благодаря его способности масштабировать и обрабатывать большие объемы данных. Его можно установить локально или он уже доступен у основных облачных провайдеров. Redis-py — это библиотека Python, которая позволяет пользователям подключаться к базе данных Redis и выполнять различные операции, такие как хранение и извлечение данных, преобразование данных и анализ данных. Redis-py также можно использовать для автоматизации задач обработки данных, таких как планирование и интеграция данных из других источников, включая извлечение данных из базы данных или API и их сохранение в Redis.
Страница PyPI: https://pypi.org/project/redis
Домашняя страница: https://github.com/redis/redis-py
- Библиотека: pyspark
Apache Spark — одна из самых популярных платформ для обработки данных с открытым исходным кодом благодаря своей масштабируемой конструкции, позволяющей быстро обрабатывать большие объемы данных и идеально подходящей для задач, требующих обработки в реальном времени или анализа больших данных, включая ETL, машинное обучение. и потоковая обработка. Его также можно легко интегрировать с другими платформами, такими как Hadoop и другими платформами для работы с большими данными, что упрощает работу инженеров по данным с различными источниками данных и технологиями. Библиотека PySpark позволяет инженерам данных работать с широким спектром источников данных и форматов, включая структурированные данные, неструктурированные данные и потоковые данные.
Страница PyPI: https://pypi.org/project/pyspark
Домашняя страница: https://github.com/apache/spark/tree/master/python
ПАРСИНГ ДАННЫХ И ETL-БИБЛИОТЕКИ
- Библиотека: beautifulsoup4
Инжиниринг данных не всегда означает получение данных из хранилищ данных и хранилищ. Часто данные приходится извлекать из неструктурированных источников, таких как Интернет или документы. Beautiful Soup — это библиотека, которая упрощает сбор информации с веб-страниц. Он находится поверх синтаксического анализатора HTML или XML, предоставляя идиомы Pythonic для итерации, поиска и изменения дерева синтаксического анализа. Это делает Beautiful Soup популярной библиотекой Python для обработки данных, поскольку она проста в использовании и позволяет разработчикам легко извлекать и манипулировать данными из неструктурированных источников.
Страница PyPI: https://pypi.org/project/beautifulsoup4
Домашняя страница: https://www.crummy.com/software/BeautifulSoup
БИБЛИОТЕКИ МАШИННОГО ОБУЧЕНИЯ И ГЛУБОКОГО ОБУЧЕНИЯ
- Библиотека: scikit-learn
Созданный в 2007 году Дэвидом Курнапо, Фабианом Педрегосой и Андреасом Мюллером, scikit-learn представляет собой модуль Python для машинного обучения, построенный на основе SciPy и являющийся предшественником других фреймворков, таких как PyTorch и Tensorflow. Сегодня это актуально для классификации, регрессии и кластеризации, а также инструментов для предварительной обработки и разработки признаков. Это позволяет инженерам данных быстро и легко создавать модели и конвейеры машинного обучения.
Страница PyPI: https://pypi.org/project/scikit-learn
Домашняя страница: https://scikit-learn.org/stable/
- Библиотека: TensorFlow и Keras
TensorFlow — это хорошо известная библиотека машинного обучения, которая позволяет инженерам создавать и обучать модели. Он предоставляет гибкую платформу для обучения и обслуживания моделей с упором на обучение и взаимодействие с глубокими нейронными сетями. TensorFlow часто сочетается с Keras, высокоуровневым API, написанным на Python для создания и обучения моделей глубокого обучения. Он объединяет эффективные библиотеки численных вычислений Theano и TensorFlow и позволяет инженерам создавать и обучать модели, используя всего несколько строк кода. Инжиниринг данных также может использовать TensorFlow для таких задач, как предварительная обработка данных, преобразование данных, анализ данных и визуализация данных.
Страница PyPl: https://pypi.org/project/tensorflow
Домашняя страница: https://www.tensorflow.org
Страница PyPl: https://pypi.org/project/keras
Домашняя страница: https://keras.io
- Библиотека: PyTorch
Несмотря на массовую адаптацию, TensoFflow предлагает крутую кривую обучения, а PyTorch был создан как более гибкая и удобная альтернатива другим устоявшимся средам глубокого обучения. Благодаря простоте использования PyTorch в настоящее время является одной из самых быстрорастущих платформ, обеспечивая повышенную производительность и расширенную интеграцию с другими инструментами, такими как NumPy, Pandas и TensorFlow. Инженеры данных адаптировали платформу, поскольку она была одной из первых, предложивших структуру динамического вычислительного графа, которая позволяет гибко и эффективно создавать и обучать модели.
Страница PyPI: https://pypi.org/project/torch
Домашняя страница: https://pytorch.org
- Библиотека: virtualenv
Инженерам данных приходится работать с разными библиотеками Python для разработки данных и версий пакетов, поэтому наличие изолированной виртуальной среды крайне важно. Virtualenv — это инструмент для создания отдельных сред Python, чтобы гарантировать отсутствие помех между различными настройками вашей системы. Начиная с Python 3.3, его подмножество было интегрировано в стандартную библиотеку в модуле venv. Virtualenv особенно важен для проектов со сложными зависимостями или для проектов, которые необходимо запускать на разных версиях Python.
Страница PyPI: https://pypi.org/project/virtualenv
Домашняя страница: https://virtualenv.pypa.io/en/latest
СРЕДА, РАЗВЕРТЫВАНИЕ И БИБЛИОТЕКИ РАСПРОСТРАНЕНИЯ
- Библиотека: Docker и Kubernetes
Контейнеры, подобные библиотеке Docker, стали незаменимыми в разработке, потому что они упрощают развертывание приложения или службы со всеми необходимыми частями, необходимыми для стабильной и предсказуемой работы. Это может включать среды выполнения (Python и т. д.), библиотеки, базы данных, файлы конфигурации и другие зависимости. Контейнеры, такие как Docker, часто используются в сочетании с инструментами оркестрации контейнеров, такими как Kubernetes, для управления развертыванием и масштабированием контейнерных приложений. Kubernetes автоматизирует развертывание, масштабирование и управление контейнерными приложениями, позволяя разработчикам развертывать приложения и управлять ими в нужном масштабе с помощью таких функций, как балансировка нагрузки, автоматическое масштабирование и возможности самовосстановления.
Страница PyPI: https://pypi.org/project/docker
Домашняя страница: https://github.com/docker/docker-py
Страница PyPI: https://pypi.org/project/kubernetes
Страница PyPI: https://kubernetes.io
- Библиотека: Dask
Dask был создан для распараллеливания NumPy (богатой библиотеки Python, используемой для научных вычислений и анализа данных) на нескольких процессорах и теперь превратился в универсальную библиотеку для параллельных вычислений, которая включает поддержку Pandas DataFrames и эффективное обучение моделей на XGBoost и scikit. -учиться. Инженеры данных также адаптировали Dask благодаря его встроенным функциям и возможностям параллельной обработки, которые делают такие задачи с большими наборами данных, как очистка, преобразование, агрегирование, анализ и исследование данных (поддержка Matplotlib и Seaborn), более эффективными и быстрыми. . Инженеры данных также могут использовать Dask для масштабирования рабочих нагрузок с помощью распределенного планировщика, который можно использовать для планирования заданий в кластере машин.
Страница PyPI: https://pypi.org/project/dask
Домашняя страница: https://github.com/dask/dask
- Библиотека: Рэй
Перед Рэем, выросшим в Калифорнийском университете в Беркли, стояла задача «упростить распределенные вычисления» и легко масштабировать рабочие нагрузки Python, включая рабочие нагрузки машинного обучения. В частности, как и Dask, Ray предназначен для упрощения распараллеливания кода Python и создания распределенных приложений с нуля. Рэй не пытается заменить популярные инструменты рабочих нагрузок Python, а скорее предоставляет общую низкоуровневую структуру, которая больше похожа на универсальную среду кластеризации и параллелизации, которую можно использовать для создания и запуска любого типа распределенного приложения. Таким образом, также растет число проектов, которые интегрируются с Ray, чтобы использовать ускоренный графический процессор и параллельные вычисления вместе с Dask, Ludwig, spaCy, Hugging Face и scikit-learn.
Страница PyPI: https://pypi.org/project/ray
Домашняя страница: https://github.com/ray-project/ray
- Библиотека: Ansible
Другой популярной библиотекой Python для автоматизации является Ansible для подготовки к работе в облаке, управления конфигурацией, развертывания приложений, оркестровки внутри службы и управления несколькими серверами или средами. Библиотека Ansible похожа на другие средства управления конфигурацией и оркестровки, такие как Chef, SaltStack и Puppet. Однако Ansible отличается от этих инструментов тем, что он не содержит агентов и использует простой, понятный человеку язык (YAML) для описания задач автоматизации. Ansible также гарантирует, что операции являются идемпотентными, что определяется как «Операция является идемпотентной, если результат ее однократного выполнения точно такой же, как и результат ее повторного выполнения без каких-либо промежуточных действий».
Страница PyPI: https://pypi.org/project/ansible
Домашняя страница: https://www.ansible.com
- Библиотека: python-jenkins и jenkinsapi
Jenkins — это признанный инструмент непрерывной интеграции/непрерывной доставки для автоматизации создания, тестирования и развертывания приложений и служб на сервере. Две популярные библиотеки Python для взаимодействия с Jenkins — это python-jenkins и jenkinsapi. В контексте проектирования данных библиотека python-jenkins может использоваться для автоматизации различных задач, связанных с конвейерами данных и обработкой данных, включая тестирование, настройку заданий, прием данных, очистку данных и преобразование данных. Библиотеку можно использовать для отслеживания состояния заданий Jenkins, получения журналов заданий и отмены запущенных заданий. Точно так же библиотеку JenkinsAPI можно использовать в обработке данных для автоматизации создания и развертывания конвейеров данных и других связанных задач.
Страница PyPI: https://pypi.org/project/jenkinsapi
Домашняя страница: https://www.jenkins.io
ПОЛЕЗНЫЕ БИБЛИОТЕКИ
- Библиотека: psutil
psutil (процессные и системные утилиты) — это кроссплатформенная библиотека для получения информации о запущенных процессах и использовании системы (ЦП, память, диски, сеть, датчики) в Python. Это полезно в основном для системного мониторинга, профилирования и управления запущенными процессами. Он реализует множество функций, предлагаемых классическими инструментами командной строки UNIX, такими как ps, top, iotop, lsof, netstat, ifconfig, free и другие. Для обработки данных он предоставляет различные инструменты для ограничения ресурсов, используемых процессом, включая использование ЦП, памяти, диска и сети, что позволяет инженерам гарантировать, что процессы не потребляют слишком много ресурсов и потенциально не влияют на производительность системы. .
Страница PyPI: https://pypi.org/project/psutil/
Домашняя страница: https://github.com/giampaolo/psutil
- Библиотека: urllib3
urllib3 — это мощный и удобный HTTP-клиент для Python с потокобезопасностью, поддержкой сжатия, проверкой на стороне клиента и многими другими утилитами, отсутствующими в стандартных библиотеках Python. Основные функции включают поддержку HTTP-запросов (GET, PUT, POST, DELETE), управление заголовками, включение тайм-аутов и поддержку файлов cookie.
Страница PyPI: https://pypi.org/project/urllib3
Домашняя страница: https://urllib3.readthedocs.io/en/stable
- Библиотека: python-dateutil
Необходимость манипулировать датой и временем присутствует в Python повсеместно, и зачастую встроенного модуля datetime недостаточно. Модуль dateutil является популярным расширением стандартного модуля datetime. Если вы хотите внедрить часовые пояса, рассчитать разницу во времени или хотите более мощный общий анализ, то эта библиотека — хороший выбор.
Страница PyPI: https://pypi.org/project/python-dateutil
Домашняя страница: https://github.com/dateutil/dateutil
- Библиотека: pyyaml
Большинство разработчиков знакомы с YAM, удобочитаемым форматом сериализации данных, который является популярным выбором для хранения данных конфигурации, которые изначально использовались для создания файлов конфигурации, но поскольку это язык сериализации, его использование расширилось и теперь также популярно для объектов. сериализация вместо форматов файлов, таких как JSON. В разработке данных pyyaml часто используется для настройки оркестровки контейнеров, конвейеров данных, пакетных заданий и общего рабочего процесса для обработки данных.
Страница PyPI: https://pypi.org/project/PyYAML
Домашняя страница: https://pyyaml.org/
- Библиотека: анализ
Этот модуль является популярной альтернативой регулярным выражениям и может использоваться для создания и выполнения анализаторов базового текста. Его можно использовать для оценки определяемых пользователем выражений, обработки пользовательских языковых команд приложения или извлечения данных из форматированных отчетов.
Страница PyPI: https://pypi.org/project/pyparsing
Домашняя страница: https://github.com/pyparsing/pyparsing
Как узнать больше об инженерии данных
Как вы можете видеть выше, существует множество библиотек Python для обработки данных, которые входят в стек и используют инструменты и рабочие процессы обработки данных. Это затрудняет изучение всего, что касается инженерии данных, с помощью только книг или видео. 18 января мы проводим первый в истории Data Engineering Live Summit — бесплатную виртуальную конференцию, призванную помочь вам сделать данные применимыми во всех сферах.
Эта захватывающая новая конференция будет охватывать основные темы, связанные с проектированием данных, включая, помимо прочего:
Облачная инженерия | Инфраструктура базы данных | Оркестрация данных | Конфиденциальность и безопасность данных | Платформы больших данных | Аналитика данных | Рабочие процессы и конвейеры данных | Программирование для обработки данных | DataOps | Каталоги данных и обнаружение данных | Качество данных | Панели визуализации данных | и многое другое.
Начните свой новый год правильно и сделайте 2023 годом, когда вы измените ситуацию с помощью своих данных. Зарегистрируйтесь на бесплатный Data Engineering Live Summit!
Первоначально опубликовано на OpenDataScience.com
Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai+ Training. Подпишитесь также на нашу быстрорастущую публикацию на Medium, ODSC Journal, и узнайте, как стать писателем.