跳转到主要内容

数据架构是一种记录组织数据资产、映射数据在其系统中的流动方式并提供数据管理蓝图的学科。目标是确保数据得到正确管理,并满足业务对信息的需求。

虽然数据架构可以支持操作应用程序,但它最突出地定义了商业智能(BI)和高级分析计划的底层数据环境。其输出包括用于数据平台和数据管理工具的多层框架,以及用于收集、集成、转换和存储数据的规范和标准。

理想情况下,数据架构设计是数据管理过程中的第一步。但通常情况并非如此,这会产生不一致的环境,需要作为数据架构的一部分进行协调。此外,尽管数据架构具有基础性质,但它们并不是一成不变的,必须随着数据和业务需求的变化而更新。这使得它们成为数据管理团队持续关注的问题。

数据架构与数据建模密切相关,数据建模创建数据结构、业务规则和数据元素之间关系的图表。不过,它们是独立的数据管理学科。咨询公司Knowledge Integrity Inc.的总裁David Loshin在一篇关于数据建模和数据架构如何不同的文章中,区分了建模对数据资产的微观关注和数据架构的宏观视角。

本数据架构指南进一步解释了它是什么,为什么它很重要,以及它提供的业务优势。您还可以找到有关数据架构框架、最佳实践等方面的信息。在整个指南中,有指向相关文章的超链接,这些文章更深入地涵盖了这些主题。

数据架构是如何演变的?

在过去,大多数数据架构没有现在那么复杂。它们主要涉及来自事务处理系统的结构化数据,这些数据存储在关系数据库中。分析环境由一个数据仓库组成,有时为单个业务单元构建较小的数据集市,并将运营数据存储作为暂存区。使用传统的提取、转换和加载(ETL)过程进行数据集成,在批处理作业中处理事务数据以进行分析。

从2000年代中期开始,大数据技术在企业中的应用为许多架构增加了非结构化和半结构化的数据形式。这导致了数据湖的部署,它通常以原生格式存储原始数据,而不是预先过滤和转换数据进行分析——这与数据仓库流程相比是一个巨大的变化。新方法正在推动ELT数据集成的更广泛使用,这是ETL的一种替代方案,可以反转加载和转换步骤。

流处理系统的日益使用也将实时数据带入了更多的数据架构。除了由数据仓库驱动的基本BI和报告外,许多架构现在也支持人工智能和机器学习应用程序。向基于云的系统的转变进一步增加了数据架构的复杂性。

另一个新兴的架构概念是数据结构,旨在简化数据集成和管理过程。它在数据环境中有各种潜在的用例。

Sample diagram of a data architecture

为什么数据架构很重要?

设计良好的数据架构是数据管理过程的关键部分。它支持数据集成和数据质量改进工作,以及数据工程和数据准备。它还能够实现有效的数据治理和内部数据标准的制定。这两件事反过来又有助于组织确保其数据的准确性和一致性。

数据架构也是支持业务目标和优先级的数据战略的基础。咨询公司TreeHive strategy的负责人唐纳德·法默在一篇关于关键数据战略组成部分的文章中写道,“现代商业战略依赖于数据。”法默说,这使得数据管理和分析过于重要,不能留给个人。为了更好地管理和使用数据,一个组织需要创建一个全面的数据战略,并以强大的数据架构为基础。

Key stages of the data strategy development process

These are the four main phases of developing a data strategy, according to Donna Burbank of consulting firm Global Data Strategy.

数据架构的特征和组成部分是什么?

在一篇关于现代数据架构原则的文章中,Farmer强调了包括数据治理和法规遵从性流程的重要性,以及支持多云环境的日益增长的需求。他最后指出,如果数据架构不能用于分析,那么数据的潜在商业价值将被浪费。

法默写道:“数据是一种商业资产,这是现代数据管理的陈词滥调。”。“但是,仅仅放在那里的数据只是一个成本中心,需要维护,而没有提供任何商业利益。

设计良好的数据架构的其他常见特征包括以下几点:

  • 业务驱动的重点,与组织战略和数据需求相一致;
  • 灵活性和可扩展性,以支持各种应用程序并满足新的数据业务需求;和
  • 强大的安全保护,防止未经授权的数据访问和数据的不当使用。

从纯粹主义者的角度来看,数据架构组件不包括平台、工具和其他技术。相反,数据架构是由一组图表和文档描述的概念基础设施。然后,数据管理团队使用它们来指导技术部署以及如何管理数据。

这些组件或工件的一些示例如下:

  • 数据模型、数据定义和数据元素的通用词汇表
  • 说明数据如何在系统和应用程序中流动的数据流图
  • 数据使用情况映射到业务流程的文档,例如CRUD矩阵——创建、读取、更新和删除的缩写;
  • 描述业务目标、概念和功能的其他文档,以帮助将数据管理计划与其保持一致;
  • 管理数据收集、集成、转换和存储方式的政策和标准;和
  • 一个高级架构蓝图,具有不同的处理层,如数据接收、数据集成和数据存储。

Five key data architecture principles

Follow these principles to help put your data architecture on the right track.

数据架构的好处是什么?

理想情况下,精心设计的数据架构有助于组织开发有效的数据分析平台,提供有用的信息和见解。在公司中,这些见解可以改善战略规划和运营决策,有可能带来更好的业务绩效和竞争优势。它们也有助于各种其他应用,如诊断医疗状况和科学研究。

数据架构还有助于提高数据质量、简化数据集成和降低数据存储成本等好处。弗吉尼亚联邦大学信息系统副教授、数据管理顾问Peter Aiken表示,与特定领域的数据建模相比,它是从企业角度出发,或者专注于数据库级别的架构。

Aiken在2021 5月的Dataversity网络研讨会上表示:“从数据架构的角度来看,我们有更大的价值潜力,这是因为我们正在考虑在所有数据库中广泛使用[数据]。”。

糟糕的数据架构设计有哪些风险?

数据架构的一个缺陷是过于复杂。可怕的“意大利面条式架构”就是这一点的证据,用一堆线表示不同的数据流和点对点连接。其结果是一个摇摇欲坠的数据环境,具有不兼容的数据竖井,很难集成用于分析。具有讽刺意味的是,数据架构项目往往旨在为有机发展的现有混乱环境带来秩序。但如果不谨慎管理,它们可能会产生类似的问题。

另一个挑战是就标准化数据定义、格式和要求达成普遍一致。如果没有这一点,就很难创建一个有效的数据架构。将数据放在业务上下文中也是如此。Aiken在Dataversity网络研讨会上表示,数据架构做得很好,“捕捉到了运营组织所需数据的商业意义”。但如果不这样做,可能会在架构和它应该满足的战略数据需求之间造成脱节。

数据架构与数据建模

数据建模侧重于特定数据资产的细节。它创建了数据实体、它们的属性以及不同实体如何相互关联的可视化表示。这有助于确定应用程序和系统的数据需求范围,然后为数据设计数据库结构,这一过程是通过概念、逻辑和物理数据模型的进展来完成的

数据架构从更全局的角度看待组织的数据,以创建数据管理和使用的框架。但是,正如顾问Loshin在比较两者的文章中所写的那样,数据建模和数据架构是相辅相成的。数据模型是数据架构中的一个关键元素,一个既定的数据架构简化了数据建模,同时也是马里兰大学信息研究学院信息管理硕士项目主任的洛欣说。

咨询公司Athena IT Solutions的管理合伙人Rick Sherman分别解释了七种数据建模技术,包括现在最常用的实体关系、维度和图形建模方法。他还概述了一套数据建模最佳实践,包括以下建议:

  • 在构建模型之前,提前收集业务和数据需求。
  • 以迭代和增量的方式开发数据模型,使流程易于管理。
  • 将数据模型用作与业务用户就其需求进行沟通的工具。
  • 像管理任何其他类型的应用程序代码一样管理数据模型。

The three types of data models

Data management teams typically build these three types of data models in a phased process.

数据架构与信息架构和企业架构

在第二篇文章中,Sherman描述了企业应用程序中数据架构和信息架构之间的区别。“信息就是上下文中的数据,”他写道。“信息架构定义了企业用于业务运营和管理的上下文。”他补充道,提供高质量、可靠数据的数据架构是信息架构的基础

同时,数据架构通常被视为企业架构(EA)的一个子集,旨在为四个领域的组织创建组织蓝图。EA还包括以下内容:

  • 业务架构,涉及业务战略和关键业务流程
  • 应用程序架构,侧重于单个应用程序及其与业务流程的关系;和
  • 技术架构,包括支持其他三个领域的IT系统、网络和其他技术。

有哪些可用的数据架构框架?

组织可以使用标准化框架来设计和实现数据架构,而不是完全从头开始。以下是三个众所周知的框架选项:

  • DAMA-DMBOK2 数据管理知识体系DAMA指南是由数据管理专业协会DAMA International创建的数据管理框架和参考指南。现在是第二版,通常被称为DAMA-DMBOK2,该框架解决了数据架构和其他数据管理学科的问题。第一版于2009年出版,第二版于2017年出版。
  • TOGAF.。TOGAF创建于1995年,此后进行了多次更新,是一个企业架构框架和方法论,其中包括数据架构设计和路线图开发部分。它是由开放小组开发的,TOGAF最初代表开放小组架构框架。但现在它被简称为TOGAF标准。
  • The Zachman Framework。扎克曼框架。这是一个本体框架,使用行和列的6-x-6矩阵来描述企业架构,包括数据元素。它不包括实施方法;相反,它旨在作为架构的基础。该框架最初由IBM高管John Zachman于1987年开发,他于1990年从公司退休,创立了一家名为Zachman International的咨询公司。

创建数据架构的关键步骤

数据管理团队必须与业务主管和其他最终用户密切合作,以开发数据架构。如果他们不这样做,这可能与业务战略和数据需求不一致。咨询公司Loshin在一篇文章中列出了九个数据架构规划步骤,其中两个是与高级管理人员接触以获得他们的支持,另一个是与用户会面以了解他们的数据需求。

除其他步骤外,他还建议各组织采取以下措施:

  • 根据数据治理指令评估数据风险;
  • 跟踪数据流,以及数据生命周期和数据沿袭信息;
  • 记录和评估现有的数据管理技术基础设施;和
  • 确定数据架构部署项目的路线图。

技术作家George Lawton的另一篇文章提供了构建基于云的数据管理和分析架构的技巧。它还概述了数据管理团队在云中可能面临的潜在挑战,包括数据安全要求、法规遵从性要求和可能使数据集迁移复杂化的数据严重性问题。

在数据架构设计和开发中,有哪些不同的角色?

数据架构计划中的主导角色通常是数据架构师。他们需要各种技术技能,以及与业务用户互动和沟通的能力。数据架构师会花费大量时间与最终用户合作,以记录业务流程、现有数据使用情况以及新的数据需求

在技术方面,数据架构师自己创建数据模型,并监督他人的建模工作。他们还构建数据架构蓝图、数据流图和其他工件。其他职责可能包括概述数据集成流程,并监督数据定义、业务术语表和数据目录的开发。在一些组织中,数据架构师还负责设计数据平台以及评估和选择技术

其他经常参与数据架构过程的数据管理专业人员包括以下人员:

  • 数据建模师。他们还与业务用户合作,评估数据需求并审查业务流程。然后,他们使用收集到的信息来创建数据模型。
  • 数据集成开发人员。一旦实现了架构,他们的任务就是创建ETL和ELT作业来集成数据集。
  • 数据工程师。他们建立管道,将数据输送给数据科学家和其他分析师。他们还帮助数据科学团队进行数据准备过程。
本文地址

知识星球

微信公众号

视频号