跳转到主要内容
Chinese, Simplified

数据架构原则是一组策略,用于管理企业数据框架及其收集、集成、使用和管理数据资产的操作规则。数据体系结构原则的基本目的是保持支持性数据框架的干净、一致和可审计性。整个企业数据战略是围绕这些原则构建的。

近年来,DA原则进行了重大改革,以适应现代数据管理系统、流程和程序。现代DA原则有助于为数据架构奠定基础,该架构支持高度优化的业务流程,并推动最近的数据管理趋势。

以下是迫使全球组织对其现有数据体系结构进行批判性审视的数据管理趋势列表:

  1. 从内部部署转向基于云的数据平台
  2. 降低了流处理成本,有利于实时处理而非批量处理
  3. 预制商业数据平台被可扩展和可定制的模块化解决方案所取代
  4. 数据重用和用于数据访问的API
  5. 从数据湖转向基于域的数据存储
  6. 从预定义的数据模型转向灵活的数据模式

在企业中,每个用户都希望获得干净、易于访问的日常更新数据。有效的数据架构将所有数据管理流程标准化,以便将数据快速交付给需要的人。现有的数据架构设计需要改变,以跟上不断发展的数据管理需求。

正如麦肯锡的一位作者所观察到的,近年来,全球企业“在传统基础设施的基础上部署了许多新的和先进的技术平台”。这些新的技术解决方案,如数据湖、客户分析平台或流处理,给底层数据架构的性能带来了巨大压力。现有的数据体系结构未能提供增强的支持,甚至未能维护现有的数据基础架构。

此外,随着AI和ML平台在商业分析和BI活动中的应用越来越多,现在是对企业数据架构进行彻底改革的时候了。正如任何技术转型一样,当今数据体系结构“开发、尝试和测试”的数据体系结构原则与传统数据体系结构的原则截然不同。

这篇文章回顾了定义人工智能就绪的现代数据架构的一些核心原则。

数据架构的五大基本原则

随着企业数据持续呈指数级增长,全球企业正在通过实施大规模的数据扫盲和数据治理计划来应对这一惊人的数据增长。然而,为了从数据中获得最大的业务价值,组织需要战略思维和先进技术。

为了将数据作为一种有竞争力的资产加以利用,组织现在已经转向基本的DA原则来寻找答案。本帖子的其余部分将重点介绍企业数据活动成功的五个基本数据架构原则:

  • 数据质量(DQ)是强大的数据架构的核心组成部分。数据质量对于构建有效的数据架构至关重要。管理良好、高质量的数据有助于建立准确的模型和强大的模式。高质量的数据也有助于提取有价值的见解。DQ是一个好的数据架构的核心原则,经常被忽视。KDNugget的这篇文章提醒我们,数据质量是数据架构中最被遗忘的方面之一。
  • 数据治理(DG)是构建数据架构的关键因素。与上述原则密切相关的是,DG策略管理企业数据,无论数据源、类型或数量如何。在数据生命周期的任何时候,用户都必须知道位置、格式、所有权和使用关系,以及与数据相关的所有其他相关信息。因此,数据治理策略对于数据架构的成功至关重要,因为它们在可扩展性、DQ和法规遵从性方面扮演着“看门狗”的角色。
  • 定期审计需要数据来源。数据来源是一组关于数据的信息,它跟踪数据从原始来源到处理过程。如果用户不知道数据是如何收集、清理和准备的,那么他们就不会知道底层数据架构的可靠性。
  • 上下文中的数据是一个必要的元素。区分属性将一个数据实体与另一个数据主体区分开来。用户首先需要了解数据中存在的实体,以及它们之间的区别。除非完成这一步骤,否则用户将无法理解数据的上下文或其在提取见解方面的作用。区分属性有助于数据架构师理解上下文中的数据,这是数据建模的必要步骤。
  • 需要了解每个属性的详细信息的粒度。数据架构师必须确定每个属性所需的详细程度。数据架构需要以正确的细节级别存储和检索每个属性;因此,这是构建高性能数据架构的关键一步。

尽管其他一些DA原则有助于构建企业数据架构,但关于它们的讨论超出了本文的范围。

现代大数据架构原理

任何关于数据架构的讨论如果不提及大数据,肯定会将一个关键方面排除在讨论之外。大数据表示必须管理数PB的多结构、多类型数据才能进行有意义的分析。以下是构建现代大数据架构的一些原则:

  • 集中式数据管理:在该系统中,所有数据竖井都被跨功能的业务数据的集中式视图所取代。这种类型的集中式系统还支持360度查看客户数据,并能够将不同业务功能的数据关联起来。
  • 自定义用户界面:由于数据是集中共享的,系统提供了多个用户友好的界面。接口类型与目的一致,例如用于BI的OLAP接口、用于分析的SQL接口或用于数据科学工作的R编程语言。
  • 数据使用的通用词汇:企业数据中心确保通过通用词汇轻松理解和分析共享数据。该通用词汇表可能包括产品目录、日历维度或KPI定义,而与数据的消费类型或使用类型无关。通用词汇消除了不必要的争端和和解努力。
  • 受限的数据移动:频繁的数据移动对成本、准确性和时间有很大影响。云或Hadoop平台为此提供了解决方案;它们都支持用于并行处理数据集的多工作负载环境。这种类型的架构消除了对数据移动的需求,从而优化了成本和时间投资。
  • 数据管理:为了减少用户对存储在集群中的数据访问的不满,数据管理是绝对必须的。数据管理步骤,如清理原始数据、关系建模、设置维度和措施,可以增强整体用户体验,并帮助实现共享数据的最大价值。
  • 系统安全功能:像Google BigQuery或Amazon Redshift这样的集中式数据管理平台需要严格的原始数据安全和访问控制策略。如今,许多技术解决方案在不影响访问控制的情况下,为具有内置安全性和自助服务功能的数据架构提供了便利。

上述数据架构原则可以显著提高大数据架构的有效性。有关更多信息,您可能希望查看一些DA最佳实践。

原文地址
https://www.dataversity.net/five-essential-data-architecture-principles/
本文地址
Article

微信

知识星球

微信公众号

视频号