category
简介:为什么数据网格是相关的?
在大数据世界中,组织必须注意两个主要方面来有效利用数据:
- 易于管理数据:分析数据和元数据的可扩展存储、计算、发现和服务层,以便在成本和性能方面实现“规模优势”,同时标准化和治理变得更容易。
- 数据信任:它还需要将数据争论方面与去中心化的领域或机构知识相结合,以提高数据的质量和随后的权威/可信度。
与分析数据争论的主要目的是能够创建新的见解,为重要的业务决策提供信息。只有当高质量的数据很容易被相关的消费者(人类和机器)消费时,才会发生这种情况。消费的质量和速度越高,收入增长的机会就越高。
不断发展的数据网格需求
数据湖为组织提供了一个廉价的存储平台来存储大量的多语言数据,这开启了一个在这些数据上运行的一系列分布式数据处理和分析工具的时代。但很快,它们就变成了数据沼泽——各种域/LOB的数据倾倒场,对消费需求的愿景不明确,缺乏所有权和对复制的限制。
这最终导致了以下主要问题:
- 缺乏数据质量和可信度(权威与非权威真相来源)
- 元数据管理(注册和可搜索性)和可发现性差
- 缺乏治理和标准化(数据和元数据的准确性较差)
并引入了数据网格的范式来解决数据湖世界中的这组新问题。
什么是数据网格?
数据网格是一种通过分散的数据处理和治理从单一的数据湖迁移到分布式数据生态系统的方法。它提出了实现规模承诺的四个原则,同时提供使数据可用所需的质量和完整性保证。
数据网格表明,每个业务领域都负责将其数据托管、准备和服务于其自己的领域和更大的受众。这使得灵活和自主的数据团队能够构建和管理自己的数据产品,促进数据所有权和问责制。
数据网格范例基于四个原则
域所有权
域所有权是指通过将业务域作为数据所有权的有限上下文,将职责分散和分配给最接近数据的人,以支持持续更改和可扩展性。
数据即产品
该原则试图减少发现、理解、信任和最终使用质量数据的摩擦和成本。域数据产品所有者必须深入了解数据用户是谁,他们如何使用数据,以及他们对使用数据感到满意的方法。数据产品由代码、数据和元数据以及基础设施组成,是数据网格体系结构的体系结构量子。
自助数据平台
自助式数据基础架构作为一个平台,通过创建基础架构的高级抽象,消除了供应和管理数据产品生命周期的复杂性和摩擦,使领域团队能够轻松拥有其数据产品。
因此,自助数据平台必须具有支持领域数据产品开发人员创建、维护和运行数据产品的工作流的工具,该工作流的专业知识比现有数据技术假设的要少。然而,考虑到当今数据平台技术的多样性,为数据提供服务并不容易。例如,一个域团队可能正在将其服务部署为Docker容器,交付平台使用Kubernetes进行编排,而相邻的数据产品可能正在Databricks集群上将其管道代码作为Spark作业运行。
联合计算治理
数据网格遵循分布式系统架构,其中独立数据产品的集合并行存在,但具有独立的生命周期,并由可能的独立团队构建和部署。
然而,为了以高阶数据集、见解或机器智能的形式获得价值,需要这些独立的数据产品进行互操作;能够关联它们、创建并集、查找交集或执行其他图形,或者以比例对它们进行操作。
因此,数据网格实现需要一个治理模型,该模型包含去中心化和域自主权,同时创建和遵守一组全局规则(应用于所有数据产品及其接口的规则),以实现平台的成功互操作性和治理决策的自动执行——联合计算治理。
数据网格原则的关键元素
总之,根据数据网格原则:
- 数据产品是构思、拥有、制造、服务和管理分析数据的架构量子。
- 数据产品是所有组件的组合,用于服务数据-代码、数据和元数据以及基础架构-所有这些都在域的有界上下文中。
- 因此,每个域除了定义和管理其数据产品外,还必须维护自己的基础架构来生产和服务这些数据产品,同时遵守一组全局治理规则,以实现数据产品的互操作性。
在这里可以找到对原理和架构的详细讨论。
数据网格挑战
虽然数据网格通过引入数据产品的有限域上下文来解决分析数据的所有权和治理方面,但相同的原则带来了新的挑战:
- 由于每个域都管理自己的数据和数据产品,因此失去了大规模处理大量数据的优势,从而导致企业内所有域的计算和运行引擎成本更高。
- 它引入了技术解决方案的任意唯一性,因为组织内的多个领域试图独立解决相同的数据争用问题;这也显著增加了实现网格的时间。
- 数据网格需要高度的技术成熟度,因为它依赖于具有独立管理其数据产品所需技能的领域团队。这反过来又对已经专门化的技术领域的专门资源产生了额外的需求(例如,现在每个领域都需要单独的Spark和DevOps专家来构建其数据基础架构配置平面)。
- 数据网格依赖于领域团队获得其数据产品的所有权,同时遵守组织范围的治理标准,以实现成功的互操作性。这需要强大的协作和通信,以及为所有域建立组织范围的数据治理标准。然而,治理中的最大挑战不是创建规则,而是强制遵守这些规则。在数据网格世界中,对一组公共治理规则的遵守由域处理;即使是最基本的治理规则集也不会由通用工具强制执行,因此即使有一小部分域未能遵守基本治理标准,也会面临企业级的互操作性风险。
- 像数据网格这样的去中心化方法可能会导致不同团队之间的数据质量实践不一致,这可能会影响组织内的整体数据质量。
简而言之,数据网格提出的旨在实现更可信的数据生态系统的伟大原则主要受到两个方面的挑战:
- 端到端数据争用和服务功能必须由每个域独立构建,因此在分析数据管理和所有权的所有方面给它们带来了巨大的负担。
- 对公共治理规则集的遵守由企业中的每个域自行决定;并且,随着领域增加了如此多的额外负担,未能坚持的概率显著增加。
推出data mesh 2.0
如果我们借用数据网格的原则,并在由集中化团队管理的一系列自助式水平数据争论、服务和治理平台上实现它们,会怎么样?
从数据网格世界:
- 接受数据产品的域所有权的想法,这增加了数据的信任。
- 搭载数据产品作为逻辑有界上下文,进一步增强所有权和信任。
- 利用自助服务原则来满足每个域治理的常见和额外治理需求,从而显著缩短上市时间。
将这些与横向企业平台的原则相结合
- 用于处理数据的集中式数据平台,特别是元数据管理(纳入其中的治理和DQ规则)、接收、管理、功能计算、数据产品创建和服务,以享受一次创新和大规模处理的优势,从而降低总体成本和更容易的治理
- 设计时和运行时流程和工具的标准化,以显著提高数据产品的互操作性,同时降低运行引擎(RTE)成本
- 水平平台使沿袭和警报监控变得更加容易,从而进一步增加了对数据的信任。使用数据智能,通过在中央平台中一次轻松构建并由许多人利用的主动式和反应式通知功能,提高数据质量及其可信度
- 利用由一个构建由多个利用(BOLM)思维模式
- 保留数据湖的优势:在公共云世界中,数据湖只是一系列托管的多语言文件夹,所有这些文件夹都驻留在云中,具有已经成熟的治理结构,可以根据其内部和外部需求(财务、审计、合规性、与外部实体的数据共享等)来管理这些文件夹。一个组织所需要的是根据其需要组织这些文件夹。
要使数据网格2.0工作,水平企业平台必须具有以下功能
无痛且管理良好的内部采购和联合开发设施,因此域可以在平台内构建自己的独特(或可重用)功能:
- 能够带来域的代码并在平台上运行,只要它遵守平台设置的治理控制。
- 分层治理:对于数据争论的每个方面,水平平台都需要一组基本的治理控制,同时允许单个域团队添加额外的控制(例如,在数据移动期间,默认情况下,平台必须并提供模式验证、敏感数据元素标识、元素级数据质量检查和自动标记化检查)。域团队可以根据需要在平台内实施/添加额外的治理检查(例如,文件级数据发布完成检查等)。
- 水平平台为跨域复合数据产品强制实施企业数据模型,而域可以根据需要灵活地向这些数据产品添加其他实体和属性(而不更改数据产品密钥)。
- 允许域在数据产品世界之外发布数据集,只要该数据在域之外不可供使用,并且符合企业平台强制实施的数据发布基本治理。
拥抱未来:data mesh 2.0和集中式平台的承诺
从去中心化数据管理到创新的data Mesh data Mesh 2.0的旅程代表了数据治理领域的一次变革性飞跃。通过采用域所有权、数据产品、自助服务基础架构和联合计算治理等原则,组织正在其数据生态系统中实现更大的信任、质量和可扩展性。
展望未来,将这些原则与集中式平台集成意味着一个充满希望的未来,可以有效地利用数据,为透明、可信和数据丰富的环境奠定基础。
在Capital One了解有关云计算的更多信息
最初发布于https://www.capitalone.com.
作者:Arya Basu,数据架构师,银行架构。Arya是一名数据架构师,在数据和云领域拥有20多年的经验。他目前在银行架构团队中,专注于数据架构。
- 登录 发表评论
- 35 次浏览
最新内容
- 2 weeks 1 day ago
- 3 weeks 3 days ago
- 3 weeks 5 days ago
- 3 weeks 5 days ago
- 4 weeks 1 day ago
- 4 weeks 2 days ago
- 1 month ago
- 1 month ago
- 1 month ago
- 1 month ago