Что такое озера данных?
21 век открыл множество новых способов хранения данных в больших масштабах на уровне предприятия. Не только физически, но и в облаке. Хранилища данных, объектное хранилище, хранилище файлов, блочное хранилище и многие другие — это множество способов эффективного хранения данных.
Озера данных позволяют пользователям хранить данные без определенной схемы. Эти данные можно анализировать для выявления закономерностей и другой значимой информации. Предприятиям может быть полезно понять поведение и тенденции клиентов, которые играют важную роль в их росте и эффективном управлении запасами.
Повестка дня
В этой статье мы поговорим о следующем.
- Озера данных Azure
- Azure Data Lake Storage — поколение 2
- Создание учетной записи хранилища Data Lake в Azure
- Подключение к Power BI для визуализации
Озера данных Azure
Служба Microsoft Azure Data Lakes (ADLS) позволяет пользователям анализировать ресурсы больших данных. Это позволит пользователям хранить как структурированные, так и неструктурированные данные. Данные добавляются в режиме реального времени по мере поступления и могут быть проиндексированы и проанализированы. В ADLS кластеры предоставляются для выполнения запросов, и вы платите только за время, необходимое для выполнения запроса.
Azure Data Lake Storage — поколение 2
ADLS — Gen 2, одно из лучших решений для хранения данных в Azure, позволяет управлять огромными объемами данных. Он полезен для создания озер корпоративных данных и проведения анализа. Это многоуровневое и недорогое решение, поскольку оно построено на основе хранилища BLOB-объектов (с большей надежностью).
В ADLS — Gen2 вы получаете всю мощь ADLS и Azure Blob Storage поколения 1. Это повышает производительность и упрощает управление. Он обеспечивает семантику и параметры безопасности на уровне файла.
Срок действия Azure Data Lake Storage 1-го поколения истекает в феврале 2024 года. В хранилище BLOB-объектов Azure 2-го поколения было добавлено иерархическое пространство имен. Это означает, что данные будут организованы в иерархию каталогов и подкаталогов для эффективной обработки данных и улучшения некоторых аналитических задач.
Вы можете легко манипулировать каталогами. Разрешения POSIX могут быть указаны для файлов и каталогов, что усиливает безопасность. Вы можете напрямую копировать и преобразовывать данные, управляя общей производительностью. Эти функции снижают стоимость анализа данных.
ADLS совместим с Hadoop, что позволяет вам получать доступ к данным в распределенной файловой системе Hadoop. Он имеет драйвер ABFS, используемый для доступа к средам Apache Hadoop, таким как Azure HDInsight, Azure Databricks и Azure Synapse Analytics. Таким образом, он оптимизирован для операций анализа данных.
Данные доступны через конечную точку API остальных — dfs.core.windows.net. Он масштабируется и может хранить данные эксабайтами с высокой пропускной способностью. Вам требуется меньше ресурсов для анализа того же объема данных, что снижает затраты.
Поддержка платформы с открытым исходным кодом
Несколько платформ с открытым исходным кодом поддерживают Data Lake Storage — Gen2, в том числе Azure Data Factory, Azure Databricks, Azure Machine Learning, Power BI, Azure Cognitive Search и т. д.
Начало работы: создание озера данных
Когда вы ищете Azure Data Lake Storage, вы найдете два варианта:
- Data Lake Store, поколение 1
- Data Lake Store Gen 2 (учетные записи хранения)
Срок действия ADLS — Gen 1 истекает в феврале 2024 года, поэтому лучше создать новую учетную запись в ADLS — Gen 2.
В ADLS — Gen 2 перейдите в раздел Учетные записи хранения.
Создайте новую учетную запись хранения:
Выберите свою подписку и группу ресурсов и добавьте имя учетной записи хранения.
Выберите ближайший к вам регион, производительность и избыточность соответственно.
Установите следующие флажки:
Выберите общедоступную конечную точку для метода подключения:
Выберите Включенное иерархическое пространство имен на вкладке Дополнительно:
Нажмите Просмотреть + создать. Проверка займет некоторое время. Как только учетная запись будет создана, она скажет, что проверка прошла.
Перейдите в раздел Контейнеры в разделе Хранилище данных на левой панели и создайте Новый контейнер:
Вы также можете просмотреть свои контейнеры с помощью параметра Предварительный просмотр обозревателя хранилища на левой панели.
Перейдите в раздел Обзор на левой панели. Вы сможете увидеть папку:
Загрузите набор данных по вашему выбору или подключите источники данных. Для этой демонстрации я буду использовать простой набор данных из Kaggle (который намного меньше реального озера данных), размер которого со временем увеличивается. Вы можете скачать его, чтобы следовать дальше:
Нажмите Загрузить и выберите соответствующий файл (я переименовал train.csv в house_prices.csv) в своей системе. После успешной загрузки файла вы также можете нажать на три точки и выбрать Управление ACL, чтобы управлять доступом к файлу:
Подключение к PowerBI для визуализации
Речь шла о настройке ADLS. Далее приступим к работе с Power BI. Добавьте свой почтовый идентификатор и настройте учетную запись:
Это ваша панель управления Power BI. Вы можете совершить краткий обзор, чтобы ознакомиться с платформой.
Теперь откройте свою учетную запись хранилища и выберите Конечные точки на левой панели. Скопируйте URL для Конечной точки для Data Lake Storage:
Для доступа к определенным функциям лучше всего скачать PowerBI Desktop. После загрузки и настройки откройте приложение. Выберите Получить данные на верхней панели. Здесь нажмите Получить данные из другого источника:
В открывшемся диалоговом окне перейдите в Azure и выберите Azure Data Lake Storage — Gen 2:
Добавьте конечную точку URL, которую вы скопировали ранее, и нажмите ОК.
Теперь перейдите в раздел Безопасность и сеть на левой панели и выберите ключи доступа, чтобы получить ключ доступа. Скопируйте любой из этих ключей.
Вставьте ключ доступа и нажмите Подключить:
Нажмите Преобразовать данные в диалоговом окне, которое откроется со спецификациями.
Нажмите на двоичный файл, чтобы увидеть ваш CSV-файл:
Укажите Имя запроса и нажмите Закрыть и применить в левом верхнем углу. Загрузка займет некоторое время:
Как только данные загружены, вы можете начать делать визуализации:
Выберите Круговая диаграмма в разделе Визуализации и добавьте соответствующие поля. Здесь мы создали круговую диаграмму базового суммирования продажной цены.
Нажмите Опубликовать в правом верхнем углу, чтобы опубликовать отчет в Power BI. Выберите назначение.
Вуаля! Это успех! Вы опубликовали свой отчет. Вы можете открыть его по указанной ссылке!
Вот как отчет открывается в Power BI:
Вы также можете посмотреть этот урок в виде видео на моем Youtube.
Заключение
Это краткое руководство о том, как начать работу с ADLS — Gen 2, загружать данные и визуализировать их с помощью Power BI. Для дальнейшего анализа и обработки данных вы также можете попробовать Azure Databricks и Azure Data Lake Analytics с тем же хранилищем озера данных.
ADLS — Gen 2 обладает потрясающими функциями, которые упрощают анализ и обработку терабайтов данных. Следовательно, это хороший выбор для компаний, которые хотят принимать взвешенные решения для улучшения взаимодействия с клиентами.