Что такое озера данных?

21 век открыл множество новых способов хранения данных в больших масштабах на уровне предприятия. Не только физически, но и в облаке. Хранилища данных, объектное хранилище, хранилище файлов, блочное хранилище и многие другие — это множество способов эффективного хранения данных.

Озера данных позволяют пользователям хранить данные без определенной схемы. Эти данные можно анализировать для выявления закономерностей и другой значимой информации. Предприятиям может быть полезно понять поведение и тенденции клиентов, которые играют важную роль в их росте и эффективном управлении запасами.

Повестка дня

В этой статье мы поговорим о следующем.

  • Озера данных Azure
  • Azure Data Lake Storage — поколение 2
  • Создание учетной записи хранилища Data Lake в Azure
  • Подключение к Power BI для визуализации

Озера данных Azure

Служба Microsoft Azure Data Lakes (ADLS) позволяет пользователям анализировать ресурсы больших данных. Это позволит пользователям хранить как структурированные, так и неструктурированные данные. Данные добавляются в режиме реального времени по мере поступления и могут быть проиндексированы и проанализированы. В ADLS кластеры предоставляются для выполнения запросов, и вы платите только за время, необходимое для выполнения запроса.

Azure Data Lake Storage — поколение 2

ADLS — Gen 2, одно из лучших решений для хранения данных в Azure, позволяет управлять огромными объемами данных. Он полезен для создания озер корпоративных данных и проведения анализа. Это многоуровневое и недорогое решение, поскольку оно построено на основе хранилища BLOB-объектов (с большей надежностью).

В ADLS — Gen2 вы получаете всю мощь ADLS и Azure Blob Storage поколения 1. Это повышает производительность и упрощает управление. Он обеспечивает семантику и параметры безопасности на уровне файла.

Срок действия Azure Data Lake Storage 1-го поколения истекает в феврале 2024 года. В хранилище BLOB-объектов Azure 2-го поколения было добавлено иерархическое пространство имен. Это означает, что данные будут организованы в иерархию каталогов и подкаталогов для эффективной обработки данных и улучшения некоторых аналитических задач.

Вы можете легко манипулировать каталогами. Разрешения POSIX могут быть указаны для файлов и каталогов, что усиливает безопасность. Вы можете напрямую копировать и преобразовывать данные, управляя общей производительностью. Эти функции снижают стоимость анализа данных.

ADLS совместим с Hadoop, что позволяет вам получать доступ к данным в распределенной файловой системе Hadoop. Он имеет драйвер ABFS, используемый для доступа к средам Apache Hadoop, таким как Azure HDInsight, Azure Databricks и Azure Synapse Analytics. Таким образом, он оптимизирован для операций анализа данных.

Данные доступны через конечную точку API остальных — dfs.core.windows.net. Он масштабируется и может хранить данные эксабайтами с высокой пропускной способностью. Вам требуется меньше ресурсов для анализа того же объема данных, что снижает затраты.

Поддержка платформы с открытым исходным кодом

Несколько платформ с открытым исходным кодом поддерживают Data Lake Storage — Gen2, в том числе Azure Data Factory, Azure Databricks, Azure Machine Learning, Power BI, Azure Cognitive Search и т. д.

Начало работы: создание озера данных

Когда вы ищете Azure Data Lake Storage, вы найдете два варианта:

  1. Data Lake Store, поколение 1
  2. Data Lake Store Gen 2 (учетные записи хранения)

Срок действия ADLS — Gen 1 истекает в феврале 2024 года, поэтому лучше создать новую учетную запись в ADLS — Gen 2.

В ADLS — Gen 2 перейдите в раздел Учетные записи хранения.

Создайте новую учетную запись хранения:

Выберите свою подписку и группу ресурсов и добавьте имя учетной записи хранения.

Выберите ближайший к вам регион, производительность и избыточность соответственно.

Установите следующие флажки:

Выберите общедоступную конечную точку для метода подключения:

Выберите Включенное иерархическое пространство имен на вкладке Дополнительно:

Нажмите Просмотреть + создать. Проверка займет некоторое время. Как только учетная запись будет создана, она скажет, что проверка прошла.

Перейдите в раздел Контейнеры в разделе Хранилище данных на левой панели и создайте Новый контейнер:

Вы также можете просмотреть свои контейнеры с помощью параметра Предварительный просмотр обозревателя хранилища на левой панели.

Перейдите в раздел Обзор на левой панели. Вы сможете увидеть папку:

Загрузите набор данных по вашему выбору или подключите источники данных. Для этой демонстрации я буду использовать простой набор данных из Kaggle (который намного меньше реального озера данных), размер которого со временем увеличивается. Вы можете скачать его, чтобы следовать дальше:

Нажмите Загрузить и выберите соответствующий файл (я переименовал train.csv в house_prices.csv) в своей системе. После успешной загрузки файла вы также можете нажать на три точки и выбрать Управление ACL, чтобы управлять доступом к файлу:

Подключение к PowerBI для визуализации

Речь шла о настройке ADLS. Далее приступим к работе с Power BI. Добавьте свой почтовый идентификатор и настройте учетную запись:

Это ваша панель управления Power BI. Вы можете совершить краткий обзор, чтобы ознакомиться с платформой.

Теперь откройте свою учетную запись хранилища и выберите Конечные точки на левой панели. Скопируйте URL для Конечной точки для Data Lake Storage:

Для доступа к определенным функциям лучше всего скачать PowerBI Desktop. После загрузки и настройки откройте приложение. Выберите Получить данные на верхней панели. Здесь нажмите Получить данные из другого источника:

В открывшемся диалоговом окне перейдите в Azure и выберите Azure Data Lake Storage — Gen 2:

Добавьте конечную точку URL, которую вы скопировали ранее, и нажмите ОК.

Теперь перейдите в раздел Безопасность и сеть на левой панели и выберите ключи доступа, чтобы получить ключ доступа. Скопируйте любой из этих ключей.

Вставьте ключ доступа и нажмите Подключить:

Нажмите Преобразовать данные в диалоговом окне, которое откроется со спецификациями.

Нажмите на двоичный файл, чтобы увидеть ваш CSV-файл:

Укажите Имя запроса и нажмите Закрыть и применить в левом верхнем углу. Загрузка займет некоторое время:

Как только данные загружены, вы можете начать делать визуализации:

Выберите Круговая диаграмма в разделе Визуализации и добавьте соответствующие поля. Здесь мы создали круговую диаграмму базового суммирования продажной цены.

Нажмите Опубликовать в правом верхнем углу, чтобы опубликовать отчет в Power BI. Выберите назначение.

Вуаля! Это успех! Вы опубликовали свой отчет. Вы можете открыть его по указанной ссылке!

Вот как отчет открывается в Power BI:

Вы также можете посмотреть этот урок в виде видео на моем Youtube.

Заключение

Это краткое руководство о том, как начать работу с ADLS — Gen 2, загружать данные и визуализировать их с помощью Power BI. Для дальнейшего анализа и обработки данных вы также можете попробовать Azure Databricks и Azure Data Lake Analytics с тем же хранилищем озера данных.

ADLS — Gen 2 обладает потрясающими функциями, которые упрощают анализ и обработку терабайтов данных. Следовательно, это хороший выбор для компаний, которые хотят принимать взвешенные решения для улучшения взаимодействия с клиентами.