【数据架构】什么是数据架构?
视频号
微信公众号
知识星球
什么是数据架构?
数据架构描述了如何管理数据——从收集到转换、分发和使用。它设定了数据的蓝图以及数据在数据存储系统中的流动方式。它是数据处理操作和人工智能(AI)应用的基础。
数据架构的设计应该由业务需求驱动,数据架构师和数据工程师使用这些需求来定义各自的数据模型和支持它的底层数据结构。这些设计通常有助于满足业务需求,如报告或数据科学计划。
随着新的数据源通过物联网(IoT)等新兴技术出现,良好的数据架构确保数据可管理且有用,从而支持数据生命周期管理。更具体地说,它可以避免冗余的数据存储,通过清理和重复数据消除提高数据质量,并启用新的应用程序。现代数据架构还提供了跨域集成数据的机制,例如在部门或地区之间集成数据,打破了数据孤岛,而不会带来将所有内容存储在一个地方所带来的巨大复杂性。
现代数据架构通常利用云平台来管理和处理数据。虽然成本可能更高,但其计算可扩展性使重要的数据处理任务能够快速完成。存储的可扩展性还有助于应对不断增长的数据量,并确保所有相关数据都可用,以提高训练人工智能应用程序的质量。
概念数据模型与逻辑数据模型与物理数据模型
数据架构文档包括三种类型的数据模型
概念数据模型:
它们也被称为领域模型,提供了系统将包含什么、如何组织以及涉及哪些业务规则的全局视图。概念模型通常是作为收集初始项目需求过程的一部分创建的。通常,它们包括实体类(定义业务在数据模型中表示的重要事物的类型)、它们的特性和约束、它们之间的关系以及相关的安全性和数据完整性要求。
逻辑数据模型:
它们不那么抽象,提供了关于所考虑领域中的概念和关系的更多细节。以下是几种形式化数据建模表示系统之一。这些指示数据属性,例如数据类型及其相应的长度,并显示实体之间的关系。逻辑数据模型没有指定任何技术系统要求。
物理数据模型:
它们不那么抽象,提供了关于所考虑领域中的概念和关系的更多细节。以下是几种形式化数据建模表示系统之一。这些指示数据属性,例如数据类型及其相应的长度,并显示实体之间的关系。逻辑数据模型没有指定任何技术系统要求。
流行的数据架构框架
数据架构可以借鉴流行的企业架构框架,包括TOGAF、DAMA-DMBOK 2和企业架构的Zachman框架。
开放式组架构框架(TOGAF)
这种企业架构方法论是由开放集团于1995年开发的,IBM是该集团的白金会员。
架构有四大支柱:
- 业务架构,定义企业的组织结构、业务战略和流程。
- 数据架构,描述概念、逻辑和物理数据资产,以及它们在整个生命周期中的存储和管理方式。
- 应用程序架构,它表示应用程序系统,以及它们与关键业务流程以及彼此之间的关系。
- 技术架构,描述支持关键任务应用程序所需的技术基础设施(硬件、软件和网络)。
因此,TOGAF为设计和实现企业的IT架构(包括数据架构)提供了一个完整的框架。
DAMA-DMBOK 2
DAMA International最初成立于国际数据管理协会,是一个致力于推进数据和信息管理的非营利组织。其数据管理知识体系DAMA-DMBOK 2涵盖数据架构、治理和道德、数据建模和设计、存储、安全和集成。
企业架构的Zachman框架
该框架最初由IBM的John Zachman于1987年开发,使用了一个从上下文到细节的六层矩阵,针对六个问题进行映射,如为什么、如何和什么。它提供了一种正式的方法来组织和分析数据,但不包括这样做的方法。
数据架构和底层组件的类型
数据架构展示了不同数据管理系统如何协同工作的高级视角。其中包括许多不同的数据存储库,如数据湖、数据仓库、数据集市、数据库等。这些可以共同创建数据架构,例如数据结构和数据网格,这些架构越来越受欢迎。这些架构更加注重数据作为产品,围绕元数据创建了更多的标准化,并通过API实现了跨组织数据的民主化。
以下部分将深入研究这些存储组件和数据架构类型中的每一种:
数据管理系统的类型
数据仓库:
数据仓库将企业中不同关系数据源的数据聚合到一个单一、集中、一致的存储库中。提取后,数据流经ETL数据管道,进行各种数据转换以满足预定义的数据模型。一旦加载到数据仓库中,数据就可以支持不同的商业智能(BI)和数据科学应用程序。
数据集市:
数据集市是数据仓库的重点版本,它包含对组织内的单个团队或选定用户组(如人力资源部门)重要且需要的较小数据子集。由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更集中的见解。数据集市最初是为了应对组织在20世纪90年代建立数据仓库时遇到的困难而出现的。整合当时整个组织的数据需要大量的手动编码,而且耗时不切实际。与集中式数据仓库相比,数据集市的范围更为有限,因此实现起来更容易、更快。
数据湖:
虽然数据仓库存储已处理的数据,但数据湖存储原始数据,通常为数PB。数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。这种存储需求的灵活性对数据科学家、数据工程师和开发人员特别有用,使他们能够访问数据以进行数据发现练习和机器学习项目。数据湖最初是为了应对数据仓库无法处理不断增长的大数据量、速度和多样性而创建的。虽然数据湖比数据仓库慢,但它们也更便宜,因为在摄入之前几乎没有数据准备。如今,它们作为数据迁移到云的努力的一部分继续发展。数据湖支持广泛的用例,因为在数据收集时不需要定义数据的业务目标。然而,主要的两项工作包括数据科学探索以及数据备份和恢复工作。数据科学家可以使用数据湖来证明概念。机器学习应用程序受益于将结构化和非结构化数据存储在同一位置的能力,这在使用关系数据库系统时是不可能的。数据湖还可以用于测试和开发大数据分析项目。当应用程序已经开发完毕,并且已经识别出有用的数据时,可以将数据导出到数据仓库中以供操作使用,并且可以使用自动化来扩大应用程序的规模。数据湖还可以用于数据备份和恢复,因为它们能够以低成本进行扩展。出于同样的原因,数据湖有利于存储“以防万一”的数据,而这些数据的业务需求尚未定义。现在存储数据意味着随着新举措的出现,数据将在以后可用。
数据架构的类型
数据结构:
数据结构是一种架构,专注于数据提供商和数据消费者之间的数据价值链中的数据集成、数据工程和治理的自动化。数据结构基于“主动元数据”的概念,它使用知识图、语义、数据挖掘和机器学习(ML)技术来发现各种类型的元数据(例如系统日志、社交等)中的模式。然后,它将这种见解应用于数据价值链的自动化和协调。例如,它可以使数据消费者能够找到数据产品,然后自动向他们提供该数据产品。数据产品和数据消费者之间的数据访问增加,从而减少了数据孤岛,并提供了组织数据的更完整画面。数据结构是一种具有巨大潜力的新兴技术,可用于增强客户分析、欺诈检测和预防性维护。根据Gartner的数据,数据结构将集成设计时间减少了30%,部署时间减少了30%,维护时间减少了70%。
数据网格:
数据网格是一种去中心化的数据架构,按业务域组织数据。使用数据网格,组织需要停止将数据视为流程的副产品,并开始将其视为产品。数据生产者充当数据产品所有者。作为主题专家,数据生产者可以利用他们对数据主要消费者的理解为他们设计API。这些API也可以从组织的其他部分访问,从而提供对托管数据的更广泛访问。
数据湖和数据仓库等更传统的存储系统可以用作多个分散的数据存储库,以实现数据网格。数据网格也可以与数据结构协同工作,数据结构的自动化使新的数据产品能够更快地创建或实施全球治理。
数据架构的好处
构建良好的数据架构可以为企业提供许多关键好处,其中包括:
减少冗余:
不同来源的数据字段可能重叠,从而导致不一致、数据不准确和错失数据集成机会的风险。一个好的数据架构可以标准化数据的存储方式,并有可能减少重复,从而实现更好的质量和整体分析。
提高数据质量:
设计良好的数据架构可以解决管理不善的数据湖(也称为“数据沼泽”)的一些挑战。数据沼泽缺乏适当的数据质量和数据治理实践,无法提供深入的学习。数据架构可以帮助实施数据治理和数据安全标准,使对数据管道的适当监督能够按预期运行。通过改进数据质量和治理,数据架构可以确保数据的存储方式使其在现在和将来都有用。
实现集成:
由于数据存储的技术限制和企业内部的组织障碍,数据往往是孤立的。今天的数据架构应该旨在促进跨域的数据集成,以便不同的地理位置和业务功能能够访问彼此的数据。这样可以更好、更一致地理解常见指标(如支出、收入及其相关驱动因素)。它还能够更全面地了解客户、产品和地理位置,从而更好地为决策提供信息。
数据生命周期管理:
现代数据架构可以解决如何随时间推移管理数据的问题。数据通常会随着年龄的增长和访问频率的降低而变得不那么有用。随着时间的推移,数据可以迁移到更便宜、更慢的存储类型,因此它仍然可以用于报告和审计,但不需要牺牲高性能存储。
现代数据架构
随着组织为未来的应用程序(包括人工智能、区块链和物联网(IoT)工作负载)制定路线图,他们需要一个能够支持数据需求的现代数据架构。
现代数据架构的七大特点是:
- 云原生和云启用,使数据架构能够受益于云的弹性扩展和高可用性。
- 强健、可扩展和可移植的数据管道,将智能工作流、认知分析和实时集成结合在一个框架中。
- 无缝数据集成,使用标准API接口连接到遗留应用程序。
- 实时数据支持,包括验证、分类、管理和治理。
- 解耦且可扩展,因此服务之间没有依赖关系,开放标准实现了互操作性。
- 基于常见的数据域、事件和微服务。
- 优化以平衡成本和简单性。
- 27 次浏览