跳转到主要内容
Chinese, Simplified

数据建模可以说是数据团队最具影响力的决策。它决定了您的体系结构和整个团队将遵循的路径。虽然这不是一个新话题,但过去十年的新工具和技术促使许多人重新考虑现代景观中什么是最好的。

在这篇文章中,我们将探讨:

  • 为什么数据建模(仍然)很重要?
  • 常见的方法是什么?
  • 你应该考虑哪些事情?

为什么数据建模(仍然)很重要?

  • 处理不同的数据源:有效的数据建模策略对于管理和集成来自各种源的数据至关重要。无论是数据库、API、电子表格还是其他数据存储库,稳健的数据建模方法都可以确保来自不同来源的信息能够无缝协调、转换和集成。
  • 许多数据消费者:很多人使用数据。这就像整理信息,让每个人都能轻松获得。这使得信息正确可靠,有助于不同的人合作并做出明智的决策。随着越来越多的人使用数据,数据建模可以确保一切保持整洁,对每个人都有效。
  • 优化(速度和成本):优化意味着让事情变得更好,这就是为什么数据建模仍然很重要的原因。当我们使用建模很好地组织数据时,发现和使用数据会更快,从而节省时间和资源。这也有助于节省管理和存储数据的资金。因此,即使是现在,数据建模对于加快工作速度和降低成本也非常有用。

常见的方法是什么?

在本节中,我们将探讨最常见的方法:

  • Normalized Modeling
  • Denormalized Modeling
  • Data Vault 2.0
  • One-Big-Table (OBT)

a) 规范化建模

规范化模型,也称为企业数据仓库(EDW)或关系模型,是Bill Inmon开发的另一种常见的数据建模技术。

它包括将规范化原则应用于数据,这意味着将数据划分为具有最小冗余和最大完整性的多个表。规范化模型旨在通过避免数据重复和确保数据准确性来优化数据的质量和一致性。

标准化模型通常被实现为一个集中和标准化的数据存储库,作为整个组织的单一真相来源。

Normalized Modeling

b) 非规范化建模

非规范化模型,也称为星模式,是Ralph Kimball开发的一种流行的数据建模技术。

它由两种类型的表组成:事实表和维度表。事实表存储定量数据,如销售额、收入或点击量,而维度表存储描述性数据,如产品、客户或日期。

事实表通过外键链接到维度表,形成星形或雪花状结构。维度模型旨在通过减少联接数量、简化查询以及提供一致直观的数据视图来优化数据分析和报告的性能和可用性。

Denormalized Modeling

c) Data Vault 2.0

数据仓库是一种数据建模设计模式,用于构建企业规模分析的数据仓库。数据仓库有三种类型的实体:集线器、链路和卫星。

集线器代表核心业务概念;链接表示枢纽之间的关系;卫星存储关于枢纽及其之间关系的信息。

数据仓库是一种非常适合采用lakehouse范式的组织的数据模型。

c) Data Vault 2.0

数据仓库是一种数据建模设计模式,用于构建企业规模分析的数据仓库。数据仓库有三种类型的实体:集线器、链路和卫星。

集线器代表核心业务概念;链接表示枢纽之间的关系;卫星存储关于枢纽及其之间关系的信息。

数据仓库是一种非常适合采用lakehouse范式的组织的数据模型。

Data Vault Modeling

Data Vault建模图示例:

Data Vault Modeling Example

数据仓库建模:集线器、链路和卫星

  • 集线器:每个集线器代表一个核心业务概念,例如客户ID或产品编号。用户将使用业务密钥来获取有关集线器的信息。业务密钥可以具有业务概念ID和序列ID、加载日期以及其他元数据信息的组合。
  • 链接:链接表示集线器实体之间的关系。
  • 卫星:卫星填补了关于核心业务概念的缺失描述性信息的空白。卫星存储属于集线器的信息以及它们之间的关系。

使用Data Vault时,重要的是要记住:

一颗卫星不能与另一颗卫星直接连接。

集线器或链路可以具有一个或多个卫星。

d) One-Big-Table (OBT)

在某些方面,一个大的数据建模表听起来像个笑话。我的意思是,说真的,一张试图容纳所有东西的桌子?我们要采用“厨房水槽”的方式吗?但让我们深入研究一下,看看这个非传统的想法是否有任何方法可以解决它的疯狂。

顾名思义,它指的是使用一个表将所有数据存储在一个大表中。这种方法确保仓库不必在运行中执行任何联接。由于其简单性,OBT适用于专注于跟踪特定项目的小型团队和小型项目。此项目通常是具有多个相关属性的项目。

例如,如果您希望使用数据仓库进行客户分析,您的OBT将专注于具有客户ID、姓名、年龄等属性的“客户”。

这种方法可以提供几个优点,包括更简单的数据管理、更快的查询性能和更容易的可扩展性。然而,它也可能在数据建模、索引和数据一致性方面带来挑战。

One-Big-Table Modeling

你应该考虑哪些事情?

随着现代数据堆栈中可用的新工具数量的增加,重点转向了性能和存储。现在,让我们深入探讨在进行数据建模时需要考虑的一些方面。

  • 性能:数据建模应优化数据检索和处理速度,与现代分析和应用程序的性能要求保持一致。
  • 数据多样性和来源:对于不同的数据来源,如结构化、半结构化和非结构化数据,模型应适应不同的数据类型和格式。
  • 可扩展性和灵活性:随着数据量的增长,该模型应适应不断增长的数据集和用户需求。现代数据环境需要适应不断变化的业务需求和结构,以便轻松进行调整。
  • 协作和文档:数据工程师、分析师和业务利益相关者之间的有效协作通过数据模型结构和目的的清晰文档和沟通来促进。

总结

可以将数据建模看作是为处理大量信息制定明确的计划。这就像有一张地图,引导你穿过迷宫般的数据。通过巧妙地设置并为更改做好准备,我们可以更好地使用数据。就像一座大建筑的坚实基础一样,良好的数据建模有助于我们理解周围的所有信息。因此,在这个高科技世界里,请记住,良好的数字建模就像拥有一个有用的工具,可以在数据丛林中找到你需要的东西!

本文地址
最后修改
星期三, 十二月 13, 2023 - 10:35
Article