【数据仓库架构】数据保管库建模的数据仓库方法
数据仓库建模的数据仓库方法应运而生。数据仓库项目通常要处理较长的实现时间。这意味着业务需求更可能在项目过程中发生变化,从而危及项目目标实现时间和成本的实现。
为了提高实现时间,Dan Linstedt引入了核心仓库的数据仓库建模方法。关键设计原则涉及将业务键、上下文和关系分离到不同的表中,如hub、satellite和link。
由于数据保险库提供了许多好处,因此它目前是为核心数据仓库建模而建立的建模标准。其中包括:
数据仓库的好处
- 易于扩展,支持灵活的项目方法
- 创建的模型具有高度可扩展性
- 加载过程可以最佳并行化,因为几乎没有同步点
- 模型易于审核
但是,除了许多好处之外,数据保险库项目也带来了一些挑战。包括但不限于以下内容:
数据仓库缺陷
- 数据对象(表、列)的数量大幅增加,这是由于将信息类型分开,并用元数据丰富它们以供加载
- 这导致更大的建模工作,包括许多简单的机械任务
如何使用标准的数据建模工具来应对这些挑战?
模型的高度示意结构为生成模型提供了理想的先决条件。这使得建模过程中相当大的一部分可以自动化,从而大大加快了数据保险库项目的进度。
什么是数据建模?
选择正确的数据建模工具
自动化数据仓库的潜力
模型的哪些特定部分可以自动化?
数据仓库的标准体系结构包括以下层:
- 源系统:运营系统,如ERP或CRM系统
- 暂存区:这是从运营系统传递数据的地方。数据模型的结构通常对应于源系统,并增强了对加载的文档记录。
- 核心仓库:这里集成了各个系统的数据。该层根据数据保管库进行建模,并细分为原始保管库和业务保管库区域。这涉及到在业务保险库中实现所有业务规则,以便仅在原始保险库中使用非常简单的转换。
- 数据集市:数据集市的结构基于分析需求,并被建模为星型模式。
暂存区和原始保险库都非常适合自动化,因为可以从前一层建立明确定义的派生规则。
自动化应该使用标准建模工具还是使用专门的数据仓库自动化工具来实现?
通常可以使用特殊的自动化工具来利用自动化潜力。
支持使用标准工具(如erwin数据建模器)的理由是什么?
使用标准建模工具有许多好处:
- erwin数据建模器通常已经包含了可以继续使用的模型(例如,源系统)
- 建模功能非常复杂,例如,用于比较模型和模型内的标准化
- 标准支持多种数据库
- 有大量接口可用于从其他工具导入模型
- 通常,该工具已经用于对源系统或其他仓库建模
- 模型范围可用于对整个企业体系结构建模,而不仅仅是
- 数据仓库(erwin门户网站)
- 业务词汇表允许集成(现有的)语义信息
到现在为止,一直都还不错。但是erwin数据建模器能生成模型吗?
专门为erwin数据建模器开发了一个特殊的插件:MODGEN。这使erwin的自动化潜力得到充分利用。
它无缝地集成到erwin用户界面中,在操作方面,主要基于比较模型(complete compare)。
MODGEN功能
MODGEN中实现了以下特定功能:
- 基于前一层模型的分段和原始保险库模型生成
- 生成是通过使用元信息丰富特定的前一个模型来控制的,元信息存储在UDPs中
- 单个对象可以从生成过程中永久排除,或者交互地
- 使用模板可以很容易地集成元列的规范
为了支持可重复多次的建模过程,在该过程中创建或增强迭代模型,生成过程必须具有往返能力。
为了实现这一点,生成总是在源模型和目标模型之间执行比较,并指出任何差异。这些可以由用户选择并在生成过程中复制。
生成过程不仅将所有表和列作为一个过程(水平建模)考虑在内,还创建垂直模型信息。
这意味着在记录数据源时,每个生成的目标列与其源列的关系。因此,使用该模型可以非常容易地生成源到目标的映射。
将源和目标模型集成到web门户中会自动提供完整的影响和沿袭分析功能。
原文:https://erwin.com/blog/data-vault-for-the-data-warehouse/
本文:
讨论:请加入知识星球或者微信圈子【首席架构师圈】
- 65 次浏览