数据湖架构
- 224 次浏览
【数据仓库建模】数据仓库建模技术及其在Databricks Lakehouse平台上的实现
QQ群
视频号
微信
微信公众号
知识星球
在Lakehouse上使用数据仓库和星形模式
lakehouse是一种新的数据平台范式,它结合了数据湖和数据仓库的最佳功能。它被设计为一个大型企业级数据平台,可以容纳许多用例和数据产品。它可以作为一个统一的企业数据存储库,用于您的所有:
- 数据域,
- 实时流式传输用例,
- 数据集市,
- 不同的数据仓库,
- 数据科学功能存储和数据科学沙盒,以及
- 部门自助服务分析沙盒。
考虑到用例的多样性,不同的数据组织原则和建模技术可能适用于湖屋的不同项目。从技术上讲,Databricks Lakehouse平台可以支持许多不同的数据建模风格。在本文中,我们旨在解释lakehouse的青铜/白银/黄金数据组织原则的实现,以及不同的数据建模技术如何适用于每一层。
什么是Data Vault?
与Kimball和Inmon方法相比,Data Vault是一种更新的数据建模设计模式,用于构建企业级分析的数据仓库。
数据仓库将数据组织为三种不同类型:集线器、链路和卫星。集线器表示核心业务实体,链接表示集线器之间的关系,卫星存储有关集线器或链接的属性。
Data Vault专注于敏捷数据仓库开发,其中可扩展性、数据集成/ETL和开发速度非常重要。大多数客户都有一个着陆区、Vault区和一个数据集市区,这些区域对应于青铜层、白银层和黄金层的Databricks组织模式。集线器、链路和卫星表的Data Vault建模风格通常非常适合Databricks Lakehouse的Silver层。
在Data Vault Alliance了解有关Data Vault建模的更多信息。
显示Data Vault建模如何工作的示意图,其中集线器、链路和卫星相互连接。
什么是维度建模?
维度建模是一种自下而上的方法,用于设计数据仓库,以优化它们进行分析。维度模型用于将业务数据反规范化为维度(如时间和产品)和事实(如金额和数量的交易),不同的主题领域通过一致的维度连接,以导航到不同的事实表。
最常见的维度建模形式是星形模式。星型模式是一种多维数据模型,用于组织数据,使其易于理解和分析,并且运行报告非常简单直观。Kimball风格的星型模式或维度模型几乎是数据仓库和数据集市中表示层的黄金标准,甚至是语义层和报告层。星型模式设计针对查询大型数据集进行了优化。
规范化的Data Vault(写优化)和非规范化的标注模型(读优化)数据建模样式都在Databricks Lakehouse中占有一席之地。Data Vault在Silver层中的集线器和附属节点用于加载星形模式中的维度,Data Vault的链接表成为加载维度模型中事实数据表的关键驱动表。从Kimball Group了解有关维度建模的更多信息。
Lakehouse各层的数据组织原则
现代lakehouse是一个包罗万象的企业级数据平台。它具有高度的可扩展性和性能,适用于各种不同的用例,如ETL、BI、数据科学和流式传输,这些用例可能需要不同的数据建模方法。让我们看看一个典型的湖屋是如何组织的:
A diagram showing characteristics of the Bronze, Silver, and Gold layers of the Data Lakehouse Architecture.
青铜层——着陆区
青铜层是我们从源系统获取所有数据的地方。除了可以添加以捕获加载日期/时间、进程ID等的可选元数据列之外,该层中的表结构“原样”对应于源系统表结构。该层的重点是更改数据捕获(CDC),以及提供源数据历史存档(冷存储)、数据沿袭、可审核性,并在需要时进行再处理,而无需重新读取源系统中的数据。
在大多数情况下,最好将Bronze层中的数据保持为Delta格式,以便后续从Bronze层读取ETL具有性能,并且您可以在Bronze中进行更新以写入CDC更改。有时,当数据以JSON或XML格式到达时,我们确实会看到客户将其以原始源数据格式着陆,然后将其更改为德尔塔格式。因此,有时,我们会看到客户将逻辑青铜层显示为物理着陆和集结区。
在着陆区中以原始源数据格式存储原始数据也有助于保持一致性,即通过不支持Delta作为本地汇点的接收工具接收数据,或者源系统将数据直接转储到对象存储中。这种模式也与自动加载器摄取框架非常一致,其中源将数据降落在原始文件的着陆区,然后Databricks自动加载器将数据转换为增量格式的暂存层。
银层--企业中央存储库
在Lakehouse的银层中,来自青铜层的数据被匹配、合并、一致和清理(“刚好”),以便银层可以提供其所有关键业务实体、概念和交易的“企业视图”。这类似于企业运营数据存储(ODS)或数据网格的中央存储库或数据域(例如主客户、产品、非重复交易和交叉参考表)。该企业视图将来自不同来源的数据汇集在一起,并实现了用于即席报告、高级分析和ML的自助分析。它还可作为部门分析师、数据工程师和数据科学家的来源,通过企业和部门数据项目在金层中进一步创建数据项目和分析,以解决业务问题。
在Lakehouse数据工程范例中,与传统的提取-转换-加载(ETL)相比,通常遵循(提取-加载-转换)ELT方法。ELT方法意味着在加载Silver层时只应用最小或“刚好足够”的转换和数据清理规则。所有“企业级”规则都应用于银层,而项目特定的转换规则应用于金层。在Lakehouse中获取和交付数据的速度和灵活性在这里是优先考虑的。
从数据建模的角度来看,Silver Layer有更多类似于第三范式的数据模型。类似Data Vault的写性能数据体系结构和数据模型可以在该层中使用。如果使用Data Vault方法,原始Data Vault和Business Vault都将适合湖的逻辑银层,时间点(PIT)演示视图或物化视图将显示在金层中。
黄金层——展示层
在黄金层中,可以根据维度建模/金博尔方法构建多个数据集市或仓库。如前所述,与银层相比,金层用于报告,并使用更多的非规范化和读取优化数据模型,连接更少。有时,金层中的表可以完全非规范化,通常是如果数据科学家希望以这种方式为特征工程提供算法的话。
将数据从银层转换为金层时,将应用“特定于项目”的ETL和数据质量规则。最终展示层,如数据仓库、数据集市或数据产品,如客户分析、产品/质量分析、库存分析、客户细分、产品推荐、营销/销售分析等,都在这一层中交付。Kimball风格的基于星模式的数据模型或Inmon风格的数据集市适合Lakehouse的这一黄金层。用于自助分析的数据科学实验室和部门沙盒也属于黄金层。
Lakehouse数据组织范式
总之,数据是在穿过Lakehouse的不同层时进行整理的。
- 青铜层使用源系统的数据模型。如果数据以原始格式着陆,则会在此层中将其转换为DeltaLake格式。
- Silver层首次将来自不同来源的数据汇集在一起,并使其一致,以创建数据的企业视图——通常使用更规范化、写优化的数据模型,这些模型通常类似于第三范式或类似于data Vault。
- 与银层相比,金层是具有更多非规范化或扁平化数据模型的表示层,通常使用Kimball风格的维度模型或星形模式。黄金层还包含部门和数据科学沙盒,以实现整个企业的自助分析和数据科学。提供这些沙盒和它们自己独立的计算集群可以防止业务团队在Lakehouse之外创建自己的数据副本。
这种Lakehouse数据组织方法旨在打破数据孤岛,将团队聚集在一起,并使他们能够在一个平台上通过适当的治理进行ETL、流媒体、BI和AI。中央数据团队应该是组织创新的推动者,加快新的自助服务用户的加入,以及并行开发许多数据项目,而不是数据建模过程成为瓶颈。Databricks Unity目录在Lakehouse上提供搜索和发现、治理和沿袭,以确保良好的数据治理节奏。
现在就用Databricks SQL构建您的数据仓库和星型模式数据仓库。
当数据在Lakehouse的各个层中移动时,如何对其进行策划。
进一步阅读:
- Five Simple Steps for Implementing a Star Schema in Databricks With Delta Lake
- Best practices to implement a Data Vault model in Databricks Lakehouse
- Dimensional Modeling Best practice & Implementation on Modern Lakehouse
- Identity Columns to Generate Surrogate Keys Are Now Available in a Lakehouse Near You!
- Load an EDW Dimensional Model in Real Time With Databricks Lakehouse
- 10 次浏览
【数据湖架构】AWS:什么是数据湖
在一个集中的存储库中安全地存储,分类和分析所有数据。
传统的数据存储和分析工具不再能够提供交付相关业务见解所需的灵活性和灵活性。这就是为什么许多组织正在转向数据湖架构。数据湖是一种架构方法,可让您将大量数据存储到中央位置,因此可随时由组织内的不同组群进行分类,处理,分析和使用。由于数据可以按原样存储,因此不需要将其转换为预定义的模式,而且您不再需要事先知道要提交数据的问题。
了解AWS和APN合作伙伴如何帮助企业将大量异构数据迁移到AWS上的数据湖,并快速简便地将其用于重要的业务洞察。
下载电子书
AWS上的数据湖可以帮助您:
收集和存储任何类型的数据,在任何规模,并以低成本
保护数据并防止未经授权的访问
目录,搜索,并在中央存储库中查找相关数据
快速轻松地执行新类型的数据分析
使用广泛的分析引擎进行临时分析,实时流,预测分析,人工智能(AI)和机器学习
数据湖也可以补充和扩展您现有的数据仓库。如果您已经在使用数据仓库,或者正在考虑实施数据仓库,则可以将数据湖作为结构化数据和非结构化数据的来源。
在AWS上构建数据湖
AWS上的数据湖使您可以访问最完整的大数据平台。 AWS为您提供安全的基础架构,并提供一系列可扩展,经济高效的服务来收集,存储,分类和分析您的数据,以获得有意义的见解。 AWS可以轻松构建数据湖并根据您的特定数据分析需求定制数据湖。您可以开始使用其中一个快速入门,或利用APN合作伙伴的技能和专业知识为您实施一个。数据湖可以用作结构化数据和非结构化数据的来源。
数据湖在AWS上的优势
灵活性
以各种方式轻松提取数据,包括利用Amazon Kinesis,AWS Import / Export Snowball,AWS Direct Connect等。使用Amazon Simple Storage Service(Amazon S3)存储所有数据,无论数据量或格式如何。
敏捷
几乎立即部署所需的基础架构。这意味着您的团队可以提高生产力,尝试新事物更容易,项目可以更快地推出。
安全与合规
AWS提供跨设施,网络,软件和业务流程的功能以满足最严格的要求。不断审核ISO 27001,FedRAMP,DoD SRG和PCI DSS等认证环境。
广泛和深刻的能力
几乎可以构建任何大数据应用程序,并支持任何工作量,无论数据量,速度和各种数据如何。随着每年增加50多个服务和数百个功能,AWS提供了在云上收集,存储,处理,分析和可视化大数据所需的一切。
精选的APN技术合作伙伴
Qubole
大数据技术可能非常复杂,需要手动操作。 如果您可以智能地自动执行大数据操作,那么您可以降低成本,使团队更高效,更高效地扩展并降低失败风险。 Demandbase是企业对企业(B2B)公司的定位和个性化平台的创建者,他们使用Qubole和AWS上的数据湖来降低处理和分析数据的管理复杂性和成本。 听听Qubole如何使Demandbase能够实时分析数以万亿计的结构化和非结构化数据行,使他们的数据科学家和数据工程师从一开始就具有生产力。
Talend
加入我们的网络研讨会,了解如何通过一个小型数据团队显着降低分析操作的管理复杂性,并以大型企业的规模和效率运营。
了解如何缩短开发时间并在AWS上进行创新。 在本次网络研讨会上,Beachbody--健身,减肥和肌肉建设家庭锻炼视频的卖家 - 谈论他们在使用Talend迁移到AWS上的数据湖架构时的体验。 Beachbody将描述他们是如何创建一个开放的企业数据平台,让他们的员工访问安全的,管理良好的数据,并提高整个公司的DevOps效率。
加入我们的网络研讨会,了解Talend和AWS如何帮助Beachbody将各种非结构化和结构化数据源迁移到数据湖,缩短开发和测试周期,并解决实时数据常见的复杂部署难题。
Informatica
Informatica智能数据湖管理解决方案使您能够将大量原始数据接收,清理,处理,管理和保护到AWS上的受信任数据库中。 Informatica元数据驱动的人工智能和企业编目功能使分析师等业务利益相关者能够快速发现,分析,准备和保护数据,以获得及时,相关的业务洞察。 简而言之,Informatica使企业能够充分利用AWS上数据湖的力量,释放大数据洞察力,从而推动创新和销售。
Looker
今天的企业运行大数据,由这些数据产生的度量标准需要集中定义,并且可以获得真正的好处。 现在的解决方案是Looker,一个现代化的数据平台,它允许公司的每个人都能够找到并探索他们做出决策所需的数据。 Looker是为诸如亚马逊网络服务(AWS)之类的云平台构建的,允许您直接查询数据湖等现代云数据库。 客户使用Looker进行内部分析,并将数据公开给客户,合作伙伴和供应商。
- 96 次浏览
【数据湖架构】IBM Data Lake:发现事实,数据模式和临时报告
IBM Data Lake发现事实,数据模式和临时报告
什么是数据湖?
数据湖是一个存储库,它保存原始格式的大量原始或精炼数据,直到被访问。 术语数据湖通常与面向Hadoop的对象存储相关联,在该对象存储中,组织的数据被加载到Hadoop平台中,然后将业务分析和数据挖掘工具应用到驻留在Hadoop集群上的数据。
但是,根据组织的需要和目标,数据湖也可以有效地使用,而无需整合Hadoop。 数据湖这个术语越来越多地被用来描述任何大型的数据池,在这个大型的数据池中,只有在数据被查询之前,模式和数据的要求才被定义。
特征
更轻松地访问整个组织的数据
访问自有部署和云中的结构化和非结构化数据。
更快的数据准备
花费更少的时间访问和定位数据,从而加快数据准备和重用的工作
增强敏捷性
数据湖的组件可以作为一个沙箱,使用户能够建立和测试更灵活的分析模型。
更准确的见解,更强的决策
跟踪数据沿袭有助于确保数据的可靠性。
能力
Apache™Hadoop®
使用开源Hadoop管理大量和不同类型的数据。 利用无与伦比的性能,简单性和标准遵从性来使用所有数据,而不管其位于何处。 将大型数据集可视化,过滤和分析为可消费的业务特定环境。
Apache™Spark™
快速构建算法,迭代速度更快,并通过Spark将分析结果付诸行动。 轻松创建从复杂数据中获取洞察力的模型,并及时应用洞察力来推动结果。 访问所有数据,快速构建分析模型,快速迭代统一编程模型,并在任何地方部署这些分析。
流计算
流计算使组织能够处理始终处于开启状态且永不停止的数据流。 这有助于他们及时发现所有数据中的机会和风险,以实现变化。
治理和元数据工具
治理和元数据工具使您能够定位和检索有关数据对象的信息及其含义,物理位置,特性和用法。
产品
BM Big SQL
Big SQL是Hadoop的SQL引擎,它可以同时利用单个数据库连接(即使是单个查询)来使用Hive,HBase和Spark。 出于这个原因,Big SQL也是最终的混合引擎。
IBM®Big Replicate
IBM Big Replicate通过提供持续的可用性,性能和保证的数据一致性,为Apache™Hadoop®和对象库提供企业级复制。 它从实验室到生产,从生产到灾难恢复站点,或从地面到云端对象存储的大数据复制,这些存储由最苛刻的业务和法规要求来管理。
IBM数据科学经验
基于云的社交工作空间可帮助数据科学家整合其在多种开放源代码工具(如R和Python)中的使用和协作。
- 71 次浏览
【数据湖架构】微软数据湖架构介绍
一个无限制的数据湖为智能行动提供动力:
-
存储和分析PB级大小的文件和数以万亿计的对象
-
开发大规模并行程序简单
-
调试和优化您的大数据程序轻松
-
企业级安全,审计和支持
-
在几秒钟内开始,即刻扩展,按工作付费
-
基于YARN,专为云计算而设计
Azure Data Lake包含了使开发人员,数据科学家和分析人员能够轻松存储任何大小,形状和速度的数据,并跨平台和语言进行所有类型的处理和分析所需的所有功能。它消除了摄取和存储所有数据的复杂性,同时使得批处理,流式处理和交互式分析更快速地启动和运行。 Azure Data Lake与现有的IT投资一起使用,以实现简化数据管理和治理的身份,管理和安全性。它还与运营商店和数据仓库无缝集成,因此您可以扩展当前的数据应用程序。我们吸取了与企业客户合作的经验,并为Office 365,Xbox Live,Azure,Windows,Bing和Skype等微软业务运行了世界上最大规模的处理和分析。 Azure Data Lake解决了许多生产力和可扩展性挑战,这些挑战阻止您通过可满足当前和未来业务需求的服务来最大限度地提高数据资产的价值。
Data Lake Analytics - 无限制的分析工作服务,为智能行动提供动力
第一个云分析服务,您可以使用U-SQL,R,Python和.Net轻松开发并运行庞大的平行数据转换和处理程序,并且可以在PB级以上的数据中运行。 无需管理基础架构,按需处理数据,立即扩展,只支付每项工作.
为企业提供HDInsight-cloud Apache Spark和Hadoop®服务
HDInsight是唯一完全托管的云Hadoop产品,为99.9%的SLA支持的Spark,Hive,Map Reduce,HBase,Storm,Kafka和R-Server提供优化的开源分析集群。 这些大数据技术和ISV应用程序中的每一个都可以轻松部署为托管群集,并具有企业级安全性和监视功能。
Data Lake Store--一个为大数据分析提供动力的无限制数据湖
为企业提供安全,大规模扩展和构建开放HDFS标准的第一个云数据湖。 不受数据大小的限制以及运行大规模并行分析的能力的限制,您现在可以解开所有非结构化,半结构化和结构化数据的价值。
开发,调试和优化大数据程序
找到合适的工具来设计和调整大数据查询可能很困难。 通过与Visual Studio,Eclipse和IntelliJ进行深度集成,Data Lake可以轻松实现,以便您可以使用熟悉的工具来运行,调试和调整代码。 通过对U-SQL,Apache Spark,Apache Hive和Apache Storm作业的可视化,您可以看到代码如何大规模运行,并识别性能瓶颈和成本优化,从而更容易调整查询。 我们的执行环境会在运行时积极分析您的程序,并提供改善性能和降低成本的建议。 数据工程师,数据库管理员和数据架构师可以使用SQL,Apache Hadoop,Apache Spark,R,Python,Java和.NET等现有技能在第一天提高工作效率。
与您现有的IT投资无缝集成
大数据面临的最大挑战之一是与现有IT投资的整合。 Data Lake是Cortana Intelligence的重要组成部分,这意味着它可以与Azure SQL数据仓库,Power BI和Data Factory一起使用,构建一个完整的云大数据和高级分析平台,可帮助您从数据准备到大型交互式分析 数据集。 Data Lake Analytics通过优化关系源(如虚拟机上的Azure SQL Server,Azure SQL数据库和Azure SQL数据仓库)的数据虚拟化,为您提供了处理所有数据的能力。 通过移动接近源数据的处理来自动优化查询,而无需移动数据,从而最大限度地提高性能并缩短延迟。 最后,由于Data Lake在Azure中,因此您可以连接到由应用程序生成的任何数据或由物联网(IoT)场景中的设备摄入的数据。
存储和分析PB级大小的文件和数以万亿计的对象
Data Lake的云架构和性能从头设计。 借助Azure Data Lake Store,您的组织可以在不受人为约束的情况下,在一个位置分析其所有数据。 您的Data Lake Store可以存储数万亿个文件,其中单个文件的大小可能超过PB,比其他云存储大200倍。 这意味着当您增加或减少存储的数据的大小或计算的数量时,您不必重写代码。 这使您只关注业务逻辑,而不关注如何处理和存储大型数据集。 Data Lake还消除了通常与云中的大数据相关的复杂性,确保它能够满足您当前和未来的业务需求。
经济实惠,符合成本效益
Data Lake是运行大数据工作负载的经济高效的解决方案。 处理数据时,您可以选择按需群集或按工作量付费的模式。 在这两种情况下,都不需要硬件,许可证或服务特定的支持协议。 系统随着您的业务需求而扩大或缩小,这意味着您永远不会超出您的需要。 它还可以让您独立扩展存储和计算,实现比传统大数据解决方案更经济的灵活性。 最后,它最大限度地减少了雇用通常与运行大数据基础架构相关的专业操作团队的需求。 Data Lake最大限度地降低成本,同时最大限度地提高数据投资回报。 最近的一项研究显示,HDInsight的TCO比在过去五年内部署Hadoop节省63%。
企业级安全,审计和支持
Data Lake完全由Microsoft管理和支持,并受到企业级SLA和支持的支持。通过全天候客户支持,您可以联系我们解决您在整个大数据解决方案中遇到的任何挑战。我们的团队会监控您的部署,以便您不必担心它会持续运行。 Data Lake可以保护您的数据资产,并轻松地将您的本地安全和治理控制扩展到云。数据始终是加密的;使用SSL运行,并在Azure密钥保管库中使用服务或用户管理的HSM支持的密钥。通过Azure Active Directory内置了诸如单点登录(SSO),多因素身份验证和无缝管理数百万身份等功能。您可以授权用户和组使用基于POSIX的细粒度访问控制列表访问存储启用基于角色的访问控制中的所有数据。最后,您可以通过审核系统的每个访问或配置更改来满足安全和合规性需求。
使用这些强大的解决方案构建Data Lake解决方
-
HDInsight
-
Data Lake Analytics
-
Data Lake Store
- 107 次浏览
【数据湖架构】数据湖101:概述
数据湖是非结构化和结构化数据池,按原样存储,没有特定的目的,可以建立在多种技术上,如Hadoop,NoSQL,Amazon Simple Storage Service,关系数据库或各种组合根据一份名为“什么是数据湖”的白皮书,为什么它变得流行?
Data Lake允许多点采集和多个数据访问点。 Pentaho公司的创始人詹姆斯·迪克森(James Dixon)在2010年创造了“数据湖”(Data Lake)这个术语,并将其与数据集市(Data Mart)
“如果你把数据集市视为瓶装水的存储 - 清洁和打包,并容易消费的结构 - 数据湖是一个更自然状态的大量水体。数据湖的内容从一个源头填补湖泊,湖泊的各种用户可以来检查,潜水或采样。
在数据湖与数据仓库的关键区别上,SAS研究所新兴技术总监Tamara Dull将Data Lake定义为“一个存储仓库,以原生格式存储大量原始数据,包括结构化,半结构化和非结构化数据“。
Dull接着说:“与数据仓库相比,存储数据的成本相对较低。这主要有两个原因:首先,Hadoop是开源软件,所以许可和社区支持是免费的。其次,Hadoop被设计成安装在低成本的商品硬件上“
Hortonworks公司战略副总裁Shaun Connolly在他的博客文章Enterprise Hadoop和“数据湖之旅:
“数据湖的特点是三个关键属性:
-
收集一切。 Data Lake包含所有数据,包括长时间的原始数据源以及任何已处理的数据。
-
潜水在任何地方。 数据湖使多个业务部门的用户可以根据自己的条款细化,探索和丰富数据。
-
灵活的访问。 Data Lake支持跨共享基础架构的多种数据访问模式:批处理,交互式,在线,搜索,内存和其他处理引擎。
数据湖并不是一个快速修复所有问题的方法,Bob Violino是“数据湖首席信息官需要了解的五件事”一书的作者。 他说,“你不能买一个现成的数据湖。 供应商将Data Lakes作为大数据项目的灵丹妙药进行营销,但这是一个谬论。“他引用Gartner研究总监Nick Heudecker的话说,”就像数据仓库一样,Data Lakes是一个概念,而不是技术。 数据湖的核心是数据存储策略。“
数据湖出生于社交媒体巨人
PriceWaterhouseCooper(普华永道)杂志总结了数据湖中数据湖概念的起源和未来数据的承诺:
“Hadoop背后的基本概念是由Google设计的,旨在满足其对灵活,经济高效的数据处理模式的需求,这种模式可以随着数据量的增长比以往任何时候都快。雅虎,Facebook,Netflix以及其他基于管理大量数据的商业模式的公司也采用了类似的方法。成本当然是一个因素,因为Hadoop的部署成本比传统的数据仓库要低10到100倍。采用的另一个驱动因素是推迟劳动密集型模式开发和数据清理的机会,直到组织确定了明确的业务需求。数据湖泊更适合这些公司需要处理的结构较少的数据。“
及时分析数据前进和后退
Data Lake可以在未知需求之前收集数据,然后才能知道这些需求是什么,因此具有巨大的潜力。数据不受数据捕获时存在的思维范围的限制,而是可以自由地回答我们还不知道要问的问题:“数据本身不再受初始模式决策的限制,而且可以更自由地利用数据“硅谷数据科学战略副总裁Edd Dumbill在”数据湖梦“中写道。 ThoughtWorks的数据博客作者Martin Fowler在一篇名为“数据湖”的文章中表示:“数据湖应该包含所有的数据,因为你不知道人们今天或者几年之后会发现什么有价值的东西。
BlueGranite博主兼微软云数据解决方案架构师Chris Campbell表示,
“Data Lake保留所有数据。不仅仅是今天使用的数据,还有可能被使用的数据,甚至可能永远不会被使用的数据,因为有一天它可能会被使用。数据也一直保存下来,以便我们能够及时回到任何一点进行分析。“
Tamara Dull补充说,Data Lake缺乏结构,“使开发人员和数据科学家能够轻松地配置和重新配置他们的模型,查询和应用程序”。
支持多个用户
Data Lake方法的另一个特点是可以满足各种用户的需求。整个公司的用户都可以访问数据,以满足他们所能想象的任何需求 - 从集中式模式转变为更加分散式的模式:“来自不同业务部门的用户有可能完善,探索和丰富数据的潜力”把Data Lake工作,Hortonworks和Teradata的白皮书。
Chris Campbell根据数据与数据的关系将数据用户划分为三类:那些只希望在电子表格上进行日常报告的人,那些进行更多分析但希望回到源头以获取最初未包括的数据的人,想用数据来回答全新的问题。他说:“Data Lake方法同样支持所有这些用户。”
成本有效的存储
坎贝尔还说,数据湖泊相对便宜,易于存储,因为存储成本最小,预格式化是没有必要的。 “商品,现成的服务器与廉价的存储相结合,使数据湖的容量达到TB和PB,相当经济。”根据Hortonworks和Teradata的白皮书,Data Lake概念“提供了一种符合成本效益和技术上可行的方式来满足Big数据挑战“。
当心“沼泽”
Martin Fowler警告说,“数据湖有一个共同的批评 - 它只是一个质量差异很大的数据的倾倒地点,更好地命名为”数据沼泽“,批评是有效的和不相关的。”他接着说:
“这些原始数据的复杂性意味着有一些东西可以将数据转换成更易于管理的结构(以及减少相当大的数据量)。数据湖不应该被直接访问得太多。因为数据是生的,所以你需要很多技能才能做出任何意义。在数据湖中工作的人相对较少,因为他们发现对湖泊数据普遍有用的观点,他们可以创建一些数据集市,每个数据集市都有一个单一的有限背景的特定模型。
对数据上下文的不同理解
最终用户可能不知道如何使用数据,或者当数据没有策划或结构化时他们正在看什么,这使得它不太有用:“数据湖的根本问题是它对信息用户做出了某些假设”数据湖里的Nick Heudecker说:不要把它们和数据仓库混为一谈,警告Gartner。
Tamara Dull指出,尽管最初希望为公司范围内的每个人提供数据访问,但是像以前的举措一样,全面参与的期望可能会令人失望:
“很长一段时间以来,这个号召力一直是'BI and Analytics for everyone!'我们已经建立了数据仓库并邀请所有人前来,但是他们来了吗?平均而言,有20-25%的人拥有。对于Data Lake来说,这是否一样的呐喊?我们会建设数据湖,并邀请大家来?不,如果你聪明。相信我,数据湖,在这个成熟的阶段,最适合数据科学家。“
数据湖比数据仓库更好吗?
Tamara Dull指出,Data Lake不是“数据仓库2.0”,也不是数据仓库的替代品:“因此,要回答这个问题,数据仓库不仅仅是数据仓库的重新审视吗?我的意思是否定的。无聊的同事,SAS最佳实践思想领袖Anne Buff列举了关于智能数据集体在线辩论的主要差异:
数据仓库与数据湖
仓库中的数据是:结构化的,已处理的
- 仓库的处理是:模式在写
- 仓库中的存储是:大数据量昂贵
- 仓库中的敏捷性是:敏捷性较低,固定配置
- 仓库的安全是:成熟
- 仓库的用户是:商业专业人士
湖泊中的数据是:结构化/半结构化/非结构化/原始的
- 处理湖是:图解在读
- 在湖中储存是:低成本设计
- 在湖中敏捷:高度敏捷,根据需要进行配置和重新配置
- 湖中的安全是:成熟
- 数据科学家et.al.
克里斯坎贝尔看到这两个关键的区别:
数据仓库:
- 它代表了由主题领域组织的业务的抽象图片。
- 这是高度转变和结构。
- 在定义使用数据之前,数据不会被加载到数据仓库中。
- 它通常遵循既定的方法
数据湖:
- 所有数据都从源系统加载。没有数据被拒绝。
- 数据以未转换或几乎未转换的状态存储在叶级。
- 数据被转换,模式被应用来满足分析的需要。
- 它支持所有用户。
- 它很容易适应变化,并提供更快的见解。
尽管每个人都有其支持者和批评者,但似乎两者都有余地,“数据湖不是数据仓库”。他们都是为了不同的目的而优化的,目标是用每个人的设计来做。“Tamara Dull说。换句话说,使用最好的工具来完成这项工作。这不是一个新的教训。我们以前学过这个。现在我们来做吧。“
- 191 次浏览
【数据湖架构】数据湖与数据仓库:主要差异
这是一个由5部分组成的系列文章的第二篇文章,“大数据备忘单:营销人员想要了解的内容”。这个针对营销人员的分拆系列受到了我为高级管理人员和高级管理人员SAS全球论坛执行会议今年早些时候。
“我们的企业数据每年以27%的速度增长,我们预计这个数字会增长,扩展和维护我们的数据仓库的成本太高了。”
“不要跟我们谈论我们的'大'数据。我们有足够的麻烦来及时处理和分析我们的“小”数据。首先是事情。“
“为了合规的原因,我们必须保留我们的数据7年,但我们很乐意存储和分析数十年的数据,而不会破坏机器和银行。”
这些场景中的任何一个都响了吗?如果是这样,Hadoop可能会有所帮助。在这个由五部分组成的博客系列中,我们从营销人员的角度来看五大数据问题。本文回答了系列文章中的第二个问题,并解释了即使您没有“大数据”,Hadoop如何提供帮助。
问题2:为什么我们不需要大数据就需要Hadoop?
与流行的看法相反,Hadoop不仅适用于大数据。 (为了讨论的目的,大数据只是简单地将数据放在现有的关系系统中,或者根本不适合)。当然,Hadoop最初是为满足网络/媒体公司的大数据需求而开发的,但是今天,全世界都在使用它,几乎每个行业都可以解决更广泛的大小数据需求。
在我的白皮书“非奇怪的大数据手册:Hadoop和企业数据仓库”中,我提出了六个常见的Hadoop用例 - 其中三个完全不需要“大”数据来充分利用Hadoop:
1.阶段结构化的数据。使用Hadoop作为数据仓库的数据分段平台。
如果在将Hadoop加载到数据仓库之前使用Hadoop处理和转换运营数据,该怎么办?奖金是因为Hadoop存储成本低,您可以将这两个版本的数据存储在Hadoop中:原始数据和原始数据。您的数据现在都集中在一个地方,以便于以后管理,重新处理和分析。
2.处理结构化数据。使用Hadoop更新数据仓库和/或操作系统中的数据。
为什么不把数据仓库资源用于更新仓库中的数据?为什么不把必要的数据发送到Hadoop,让Hadoop做它的事情,然后把更新后的数据发送回仓库?这个用例不仅适用于处理仓库数据,还适用于任何操作或分析系统中的数据。充分利用Hadoop的低成本处理能力,让您的关系系统得以自由发挥,做到最好。
3.归档所有数据。使用Hadoop将本地或云中的所有数据归档。
由于Hadoop运行在可轻松快速扩展的商品硬件上,因此企业可以以更低的成本存储和归档更多的数据。例如,如果您在监管生活之后不需要销毁数据以节省存储成本?如果您可以轻松而经济高效地保存所有数据,该怎么办?或者,这可能不仅仅是保存数据,而是能够分析更多的数据。为什么要将分析限制在过去三,五,七年时间,以便轻松存储和分析数十年的数据?这不是数据极客的天堂吗?
4.处理任何数据。使用Hadoop来利用企业数据仓库生态系统当前不可用的数据。
本用例关注两类数据:(1)尚未集成到数据仓库中的结构化数据源;(2)非结构化和半非结构化数据源。更一般地说,任何目前不属于您的仓库生态系统的数据都可能为您的客户,产品和服务提供更多的信息。由于Hadoop可以存储和处理任何数据,因此它可以为您的数据仓库无法处理或处理不好的数据提供冗余。
5.访问任何数据(通过数据仓库)。使用Hadoop扩展数据仓库,并将其保留在组织数据Universe的中心。
这个用例面向那些希望将企业数据仓库作为事实上的记录系统的公司 - 至少现在是这样。作为补充组件,Hadoop可用于处理和集成任何类型的数据结构化,半结构化和非结构化数据,并将所需的数据加载到数据仓库中。这使得公司可以继续将其当前的BI /分析工具与其企业数据仓库生态系统结合使用。
6.访问任何数据(通过Hadoop)。使用Hadoop作为所有数据的登陆平台,充分利用数据仓库和Hadoop的优势。
如前所述,在Hadoop中捕获数据的一个优势是它可以以原始状态存储。与传统的结构化数据不同,它不需要进行格式化。它可以在数据请求的时候格式化。这个用例最贴切地支持将Hadoop作为“数据湖”的概念 - 这是我最近在另一个论坛上与同事进行的讨论/辩论。
营销人员的关键要点
不要认为Hadoop是大数据的同义词,因为事实并非如此。然而,即使你没有大数据,你也可以使用其中一种比较流行的大数据技术,正如前面的三个用例所指出的那样。但这不仅仅是关于技术 - 这是关于使你能够充分理解技术,以理解它如何关注你对客户体验的关注。
Hadoop就在这里,随时准备和企业数据仓库“玩”。下载我的非怪胎的大数据手册,以帮助您找出哪些用例对您的组织有意义。这本剧本是为精通技术的商业专业人士而写的,他喜欢用图片来表达文字,简单到复杂,并且对较长的文本进行简短的解释。如果这个描述你,那么你还在等什么?
- 49 次浏览