【数据湖】Azure 数据湖分析(Azure Data Lake Analytics )概述
Chinese, Simplified
在本文中,我们将探索 Azure 数据湖分析并使用 U-SQL 查询数据。
Azure 数据湖分析 (ADLA) 简介
Microsoft Azure 平台支持 Hadoop、HDInsight、数据湖等大数据。通常,传统数据仓库存储来自各种数据源的数据,将数据转换为单一格式并进行分析以做出决策。开发人员使用可能需要更长时间进行数据检索的复杂查询。组织正在增加他们在云基础架构中的足迹。它利用了云基础设施仓库解决方案,例如 Amazon RedShift、Azure Synapse Analytics(Azure SQL 数据仓库)或 AWS 雪花。云解决方案具有高度可扩展性和可靠性,可支持您的数据、查询处理和存储需求。
数据仓库遵循Extract-Transform-Load机制进行数据传输。
- 提取:从不同的数据源中提取数据
- 转换:将数据转换为特定格式
- 加载:将数据加载到预定义的数据仓库模式、表中
数据湖不需要严格的模式,并在分析之前将数据转换为单一格式。 它以原始格式存储数据,例如二进制、视频、图像、文本、文档、PDF、JSON。 它仅在需要时转换数据。 数据可以是结构化、半结构化和非结构化格式。
数据湖的一些有用功能是:
- 它存储原始数据(原始数据格式)
- 它没有任何预定义的schema
- 您可以在其中存储非结构化、半结构化和结构化
- 它可以处理 PB 甚至数百 PB 的数据量
- 数据湖在读取方法上遵循模式(schema ),根据需求对数据进行转换
概括地说,Azure 数据平台体系结构如下所示。 图片参考:微软文档
- 摄取:从各种数据源收集数据并以其原始格式存储到 Azure 数据湖中
- 存储:将数据存储到 Azure Data Lake Storage、AWS S3 或 Google 云存储
- 处理:将原始存储中的数据处理成兼容的格式
- 分析:使用存储和处理的数据执行数据分析。 您可以使用 Azure 数据湖分析 (ADLA)、HDInsight 或 Azure Databricks
原文:https://www.sqlshack.com/an-overview-of-azure-data-lake-analytics-and-u…
- 120 次浏览
SEO Title
An overview of Azure Data Lake Analytics