【数据架构】数据保管库基础知识

语言 Chinese, Simplified

数据保管库基础知识

在这里，我们为您的企业集成需求提供一流的混合数据建模解决方案。现在加入不断发展的社区，并与data vault社区进行交互。学习如何更快、更便宜、更可靠地满足企业的需求。

数据保险库体系结构为业务问题和技术问题提供了独特的解决方案。它专注于企业间的数据集成工作，并建立在坚实的基础概念之上。了解数据保险库的关键是了解业务。一旦制定了业务计划，并且实践者对业务的运作方式有了明确的掌握，那么就可以开始构建数据仓库的过程。

作为基础工程的副产品，数据仓库具有许多优点。坚持数据仓库的基本规则和标准将有助于快速、轻松地完成任何集成项目。在进入社区/论坛之前，我们希望您先了解数据保险库的几个区域。如果您感兴趣，还可以阅读从事数据保管库建模的人员所面临的一些问题。

很容易将第三范式和星型模式转换为数据保险库模型体系结构，下面我们将展示如何从第三范式转换为数据保险库模型体系结构。在社区内部，我们将经历从星型模式到数据保险库模型的转换步骤。

数据仓库建模的业务好处

在您的企业数据仓库中管理和强制执行对sarbanes-oxley、hippa和basil ii的遵从性
发现以前从未发现的业务问题
快速缩短实施更改的业务周期时间
迅速将新的业务单位并入组织
快速投资回报率和向新的星型模式提供信息
整合不同的数据存储，即：主数据管理
快速实现和部署soa。
扩展到数百兆字节或千兆字节
sei cmm 5级兼容（可重复、一致、冗余架构）
将所有数据跟踪回源系统

以下是我们在本网站上介绍的概念：

数据仓库的定义
数据保险存储的好处
从业务案例到数据仓库
5个简单步骤中的数据保险存储
图片资料库
sei/cmm/合规性

定义：

data vault是一个面向细节、历史跟踪和唯一链接的规范化表集，支持一个或多个业务功能领域。它是一种混合方法，包含了第三范式（3nf）和星型模式之间的最佳品种。该设计具有灵活性、可扩展性、一致性和适应企业需求的特点。它是一个专门为满足当今企业数据仓库需求而构建的数据模型。

数据归属的广泛可能性。
所有数据关系都是键驱动的。
可以随时删除和创建关系。
数据挖掘可以发现元素之间的新关系
人工智能可用于对关系与用户配置结果的相关性进行排序。

从商业角度讲，它是一种快速适应、准确建模业务并根据业务需求进行扩展的能力——将it和业务融合在一起，以实现公司的目标。数据保险库是一种数据集成架构；一系列标准和定义元素或方法通过信息的方式连接在rdbms数据存储中，以便理解它。

在组织内构建数据保管库可获得以下业务好处：

数据保险库是一种高度可扩展、灵活的体系结构，它允许业务增长和更改，而不必经历“变更影响列表扩大和成本支出”的痛苦和痛苦。通常，当业务请求更改数据模型（由于业务更改）时，它会带来高成本、长时间的实施和测试周期和整个“企业仓库”的影响的长列表。有了数据保险库，情况就不同了，通常新的业务功能区会快速而容易地添加，对现有架构的更改所需的时间不到传统架构的1/2，而且通常对下游系统的影响要小得多。

技术优势：

近实时负载
传统批量装载
数据库数据挖掘
兆字节到兆字节的信息（大数据）
增量构建
非结构化数据的无缝集成（nosql）
动态模型自适应-自愈
业务规则更改（轻松）

由于数据保险存储在很大程度上基于业务流程，因此了解业务模型如何表示数据保险库存储，以及如何从一个业务模型过渡到另一个业务模型非常重要。下面是一系列描述和转换，它们将您从业务案例模型的一种状态转换到表示它的物理数据保险存储数据模型。它还指出了体系结构与业务本身的紧密联系。它还指示了当业务发生变化时，模型的变化速度。

在本例中，让我们考察一家公司，该公司的营销部门希望建立一个销售活动来销售移动缓慢的产品。希望客户能看到这个活动，像新的低价产品一样，向公司购买。当分析员重复他们在用户访谈中听到的内容时，分析员对业务用户说，他听到他们说：“营销产生销售发票”。业务用户很快纠正他（和案例模型）并声明财务部门生成发票。当然，在本例中，希望客户能够向公司提供有关营销活动和公司友好性的反馈。

在更正的业务案例中，我们将模型从上面的表示更改为下面的表示。变化不大，只是部门的不同。希望在财务和营销之间有沟通（本例中没有显示）。

当我们继续讨论业务模型的实现时，我们开始对项目的范围进行配对，以便在预算内、准时和有限的资源下完成它。在这种特殊情况下，公司决定我们可以在以后添加营销、财务和企业（公司），从而使其超出范围。他们告诉我们，我们应该把重点放在活动、发票、产品和客户的实施上。所有这些都是独立的业务元素，并有自己的“跟踪号码”。换句话说，是活动 mkt-1、发票号码、客户帐户和产品号码将所有这些数据联系在一起。

经进一步调查，我们发现该公司希望跟踪活动的有效性评级、日期（活动的时间长度）、发票和行项目上的日期和金额、产品及其可用性日期、说明、库存数量和缺陷原因；最后，我们发现他们已经有客户地址、联系人，以及其他人口统计细节。我们构建的下一个模型基于数据保险库的概念，并直接与数据粒度和键控信息的业务描述联系起来。出于作用域和本例的目的，我们将逻辑数据模型限制为红色区域。

下面是我们的第一个切割逻辑数据保险库数据模型的外观。我们获取业务Key，如发票号和产品号，并将它们构建到自己的中心。然后，我们采用发票和产品之间的交互，并构建一个名为link invoice line item的链接表。行项目不能“独立”。它们依赖于其他关键信息来定位和描述它们属于什么。但是，此模型中存在错误（请参阅链接发票行项目中嵌入的中心客户id）。

这个错误是由于把颗粒度移到错误的位置造成的。正确的做法是：发票与客户联系在一起（通常是1到1封信函），客户可以拥有许多发票。一个企业在同一张发票（这是上面所说的谷物）上，每一个商品都有不同的客户，这是非常罕见的（尽管确实发生了）。正确的行项目链接表将不包含客户id。更正后的模型将在中心发票和中心客户之间具有附加链接，以表示客户和发票之间的交互。

数据仓库是简单的还是复杂的？实施起来容易吗？是的，它既简单又易于实现。它基于一组冗余结构和可审计原则。通过使用数据保险库标准，您的项目将自动获得可审核性、可伸缩性和灵活性的好处。以下一组网页将指导您以5个简单步骤完成构建数据保险库的过程。

步骤1：建立业务键、hubs
步骤2：建立业务键、链接之间的关系
步骤3：围绕业务键、卫星建立描述
步骤4：添加独立组件，如日历和代码/说明，以便在数据集市中解码
步骤5：调整查询优化，添加性能表，如桥表和时间点结构

建立你的数据集市，你的ETL加载过程，然后离开。构建数据保险库变得越来越容易，最终取代了企业集成体系结构中常用的“邦迪”方法。该模型是以这样一种方式构建的，可以在需要时方便地进行扩展。客户说，世界上最小的数据仓库由一个中心和一个卫星组成。这种灵活性被嵌入到链接表的概念中。

对于希望查看数据保险库示例的用户，我们提供了一些不同模型的示例。这些是用于查看的，是可以自定义以满足您需要的通用模型。northwind数据保险库的ddl在论坛中可用。这是一个标准的数据模型，可根据要求提供全尺寸图像。

我们从一个简化的3nf数据模型开始，通常情况下，源数据模型代表了当前的业务——至少它代表了收集信息的业务流程。当然，我们也希望纠正业务流程中出现的一些错误。

Northwind 3NF 数据模型：

以下是上述5个系列的第一步。识别业务密钥，并将它们放置在标准中心结构中。如果业务密钥是“智能密钥”，或由多个可识别关系组成的组合密钥，则这可能是一个挑战。尽管不鼓励标准化到第n级，但最好标识和记录这些N组合键的元数据。

northwind数据保险库模型，识别Hub

步骤2，识别业务密钥之间的链接或关系。这个过程有时可能有点棘手，特别是如果数据集说业务密钥是“弱”的，不能独立存在，或者不可识别（不唯一）。在这些情况下，我们最终可以使用单腿链接表，这是我们在建模过程中要解决的问题。同样，链接表表示关系、事务、层次结构，并定义交集上的数据粒度。

请注意在订单、员工、发货人和客户之间定义谷物的重要性。这种关系（链接表）的粒度是由源系统定义的，但是它很微妙，很容易丢失。

Northwind数据保险库模型、集线器和链接

下面的最后一张图片显示了一个完整的数据存储库，其中包含所有可用的集线器、链路和卫星。虽然白皮书定义了时间点表和桥表，但是体系结构并不需要它们。由于查询性能的原因，这些备用表被严格使用。有些mpp数据库可以在不使用“查询辅助表”的情况下执行，例如时间点表和桥表。这就是说，许多现有的数据保险库并没有在mpp系统上实现，因此需要这些表来减少连接的数量。

完成：northwind数据保险库模型、集线器、链路和卫星

数据保险库附带了规则或标准，这些规则或标准使设计具有可重复性和冗余性。sei/cmm（软件工程研究所，能力成熟度模型）的一部分是让组织达到一个业务流程的层次，即：文档化、可重复、冗余、容错，最终：自动化。它还为组织定义了风险分析、kpa（关键流程领域）和kpi（关键流程指标-指标），通过这些指标，他们可以衡量这些业务流程的改进和准确性。这些等同于iso900x、pmbok、其他学科的六西格玛实践。

在私营部门，合规已经存在多年，当政府授权所有政府承包商将成为sei/cmm 5级合规者时，合规就有了一个全新的含义。数据可跟踪性达到了顶峰，业务用户发现并解决自己业务问题的责任也上升到了顶峰。

法规遵从性本身有许多含义，但就萨班斯-奥克斯利协议和巴兹尔ii/iii协议以及其他法规遵从性计划而言，它对数据可跟踪性和业务责任制造成了沉重打击。必须通过使用it人员的模型（无论是否为数据保险库）来启用it人员，以便在创建数据时跟踪数据。在数据仓库的情况下，我们已经让它变得更容易了。数据存储库提供了一系列标准字段，这些字段按日期和数据的来源跟踪数据更改，并且数据存储库始终建模为保存来自源系统的尽可能低的数据粒度。也就是说：数据是集成的，但在存储在数据保险库中时不会修改。卫星按数据类型和变化率进行划分，从而减少存储需求，提高可追踪性。

业务规则通常是在“进入”数据仓库的过程中实现的，它们会在“从仓库到数据集市的过程中”被移动、移动和实现。因此，允许将单个活动数据仓库（数据保险库模型）构建为事实陈述，并且每个数据集市都可以基于单个来源点表示自己的“真相版本”。

当遵循将信息加载到数据存储库中的标准时，it人员会自动继承“数据遵从性和可跟踪性”。业务部门可以指向数据集市，声称它今天是“错误的”，明天是“正确的”，但它始终可以显示数据从何而来、何时进入，以及在更改/转换、聚合和清理之前的样子，从而更容易满足合规性计划。

sei/cmm过程被定义为标准的一部分，并被构建到体系结构中，使加载过程、查询过程和发现过程可重复、冗余和容错。

原文：https://danlinstedt.com/solutions-2/data-vault-basics/

本文：http://jiagoushi.pro/node/943

讨论:请加入知识星球或者微信圈子【首席架构师圈】

100 次浏览

SEO Title

data architecture :Data Vault Basics