【数据湖架构】微软数据湖架构介绍

Chinese, Simplified

微软数据湖架构介绍

一个无限制的数据湖为智能行动提供动力:

  1. 存储和分析PB级大小的文件和数以万亿计的对象

  2. 开发大规模并行程序简单

  3. 调试和优化您的大数据程序轻松

  4. 企业级安全,审计和支持

  5. 在几秒钟内开始,即刻扩展,按工作付费

  6. 基于YARN,专为云计算而设计

Azure Data Lake包含了使开发人员,数据科学家和分析人员能够轻松存储任何大小,形状和速度的数据,并跨平台和语言进行所有类型的处理和分析所需的所有功能。它消除了摄取和存储所有数据的复杂性,同时使得批处理,流式处理和交互式分析更快速地启动和运行。 Azure Data Lake与现有的IT投资一起使用,以实现简化数据管理和治理的身份,管理和安全性。它还与运营商店和数据仓库无缝集成,因此您可以扩展当前的数据应用程序。我们吸取了与企业客户合作的经验,并为Office 365,Xbox Live,Azure,Windows,Bing和Skype等微软业务运行了世界上最大规模的处理和分析。 Azure Data Lake解决了许多生产力和可扩展性挑战,这些挑战阻止您通过可满足当前和未来业务需求的服务来最大限度地提高数据资产的价值。

微软数据湖架构介绍

Data Lake Analytics - 无限制的分析工作服务,为智能行动提供动力

第一个云分析服务,您可以使用U-SQL,R,Python和.Net轻松开发并运行庞大的平行数据转换和处理程序,并且可以在PB级以上的数据中运行。 无需管理基础架构,按需处理数据,立即扩展,只支付每项工作.

为企业提供HDInsight-cloud Apache Spark和Hadoop®服务

HDInsight是唯一完全托管的云Hadoop产品,为99.9%的SLA支持的Spark,Hive,Map Reduce,HBase,Storm,Kafka和R-Server提供优化的开源分析集群。 这些大数据技术和ISV应用程序中的每一个都可以轻松部署为托管群集,并具有企业级安全性和监视功能。

Data Lake Store--一个为大数据分析提供动力的无限制数据湖

为企业提供安全,大规模扩展和构建开放HDFS标准的第一个云数据湖。 不受数据大小的限制以及运行大规模并行分析的能力的限制,您现在可以解开所有非结构化,半结构化和结构化数据的价值。

开发,调试和优化大数据程序

找到合适的工具来设计和调整大数据查询可能很困难。 通过与Visual Studio,Eclipse和IntelliJ进行深度集成,Data Lake可以轻松实现,以便您可以使用熟悉的工具来运行,调试和调整代码。 通过对U-SQL,Apache Spark,Apache Hive和Apache Storm作业的可视化,您可以看到代码如何大规模运行,并识别性能瓶颈和成本优化,从而更容易调整查询。 我们的执行环境会在运行时积极分析您的程序,并提供改善性能和降低成本的建议。 数据工程师,数据库管理员和数据架构师可以使用SQL,Apache Hadoop,Apache Spark,R,Python,Java和.NET等现有技能在第一天提高工作效率。

与您现有的IT投资无缝集成

大数据面临的最大挑战之一是与现有IT投资的整合。 Data Lake是Cortana Intelligence的重要组成部分,这意味着它可以与Azure SQL数据仓库,Power BI和Data Factory一起使用,构建一个完整的云大数据和高级分析平台,可帮助您从数据准备到大型交互式分析 数据集。 Data Lake Analytics通过优化关系源(如虚拟机上的Azure SQL Server,Azure SQL数据库和Azure SQL数据仓库)的数据虚拟化,为您提供了处理所有数据的能力。 通过移动接近源数据的处理来自动优化查询,而无需移动数据,从而最大限度地提高性能并缩短延迟。 最后,由于Data Lake在Azure中,因此您可以连接到由应用程序生成的任何数据或由物联网(IoT)场景中的设备摄入的数据。

存储和分析PB级大小的文件和数以万亿计的对象

Data Lake的云架构和性能从头设计。 借助Azure Data Lake Store,您的组织可以在不受人为约束的情况下,在一个位置分析其所有数据。 您的Data Lake Store可以存储数万亿个文件,其中单个文件的大小可能超过PB,比其他云存储大200倍。 这意味着当您增加或减少存储的数据的大小或计算的数量时,您不必重写代码。 这使您只关注业务逻辑,而不关注如何处理和存储大型数据集。 Data Lake还消除了通常与云中的大数据相关的复杂性,确保它能够满足您当前和未来的业务需求。

经济实惠,符合成本效益

Data Lake是运行大数据工作负载的经济高效的解决方案。 处理数据时,您可以选择按需群集或按工作量付费的模式。 在这两种情况下,都不需要硬件,许可证或服务特定的支持协议。 系统随着您的业务需求而扩大或缩小,这意味着您永远不会超出您的需要。 它还可以让您独立扩展存储和计算,实现比传统大数据解决方案更经济的灵活性。 最后,它最大限度地减少了雇用通常与运行大数据基础架构相关的专业操作团队的需求。 Data Lake最大限度地降低成本,同时最大限度地提高数据投资回报。 最近的一项研究显示,HDInsight的TCO比在过去五年内部署Hadoop节省63%。

企业级安全,审计和支持

Data Lake完全由Microsoft管理和支持,并受到企业级SLA和支持的支持。通过全天候客户支持,您可以联系我们解决您在整个大数据解决方案中遇到的任何挑战。我们的团队会监控您的部署,以便您不必担心它会持续运行。 Data Lake可以保护您的数据资产,并轻松地将您的本地安全和治理控制扩展到云。数据始终是加密的;使用SSL运行,并在Azure密钥保管库中使用服务或用户管理的HSM支持的密钥。通过Azure Active Directory内置了诸如单点登录(SSO),多因素身份验证和无缝管理数百万身份等功能。您可以授权用户和组使用基于POSIX的细粒度访问控制列表访问存储启用基于角色的访问控制中的所有数据。最后,您可以通过审核系统的每个访问或配置更改来满足安全和合规性需求。

使用这些强大的解决方案构建Data Lake解决方

  1. HDInsight

  2. Data Lake Analytics

  3. Data Lake Store

本文地址
https://architect.pub/introduction-microsoft-data-lake-architecture
SEO Title
Introduction to Microsoft Data Lake Architecture