【数据目录】数据目录推动更好的主数据
视频号
微信公众号
知识星球
使用数据目录作为主数据和参考数据管理程序的早期对齐和设计工具,将更快、更好、(通常)更便宜地获得结果。
主数据管理挑战
如果你曾经试图在企业中建立主数据管理(MDM)计划,毫无疑问,你很快就意识到掌握数据是多么具有挑战性。虽然MDM已经存在了几十年,但它的成功记录并不出色。
那么,是什么让掌握MDM成为一项挑战呢?推动成功的因素有很多。建立领域范围很困难,而且往往是第一个绊脚石之一:
- 您应该掌握所有数据还是只掌握部分数据?
- 哪些领域的价值最大?
- 谁应该选择?
这往往会带来另一个挑战:当业务优先级与主领域相关时,领导层应该如何在业务优先级上保持一致?例如,“客户360”等业务史诗通常会创建复杂的数据环境。这可能会导致出现技术挑战,例如集成、数据访问,当然还有无法将MDM驱动的更改应用回源系统。然而,即使有最好的计划,许多程序也可能失败,部分原因是数据文化问题。不要低估围绕所有权、决策权的冲突,甚至对企业数据缺乏了解,都会破坏进展。
正如您现在可能已经了解到的那样,建立一个MDM程序需要一些深思熟虑。MDM的目标可能各不相同,但一个健康的计划必须确保业务在所有组织流程中拥有完整、一致、最新和权威的主数据和参考数据。这意味着主数据应该在企业功能和应用程序之间共享。这不仅可以降低运营成本,还可以通过标准、通用数据模型和集成模式降低数据使用和集成的复杂性。为了实现这一点,组织需要分析数据和支持元数据,向源系统提供反馈,并使用输入来调整和改进驱动MDM解决方案的规则引擎。
那么,您的组织应该如何最好地支持主数据生命周期呢?提出将数据目录作为催化剂的理由,以帮助MDM团队更好地掌握他们的数据,以及他们的程序。
评估数据环境
由于前面讨论过的原因,开始MDM程序可能很棘手。考虑你的项目,就像你可能在房子或汽车上做一个很棒的油漆工作一样:这一切都在准备工作中。
那么,数据领导者应该如何为成功的MDM计划做好准备呢?大多数从业者都认为匹配和合并是MDM的核心概念。管理主记录ID(作为母版制作过程的一部分)是领导者应该优先考虑的另一个关键准备步骤。这些部分确保了生存,生存是一个核心过程,用于将实体的重复记录驱动到单个主视图中。
如何确定要掌握的最值得信赖的数据资产?您如何确保您的MDM程序随着时间的推移而改进?虽然大多数MDM工具为这些工作流提供了一个执行框架,但它们往往缺乏推动早期分析和发现的能力。大多数MDM工具都为处理这些规则提供了强大的执行引擎,但在定义起点或随后推动Golden Record后的持续流程改进方面,它们往往做不到。我们在这里谈论的是管理,这对于编排掌握生命周期至关重要。管理也是处理主控过程中丢失的数据所需的人工操作。换句话说,如果您想首先解决记录脱落的原因,MDM程序需要持续的流程改进。
就像数据质量和治理一样,管理也是关键。为什么?MDM架构师所遭受的痛苦与影响业务分析师、数据科学团队和报告编写者的痛苦相同:如何发现、理解和信任数据。您所在组织的数据可能以不同的方式存储,以满足不同的需求。数据以表的形式存在于关系数据库、数据湖或仓库,甚至ERP或RDM系统中。从某种意义上说,可以说数据生活在它工作的社区。提前对这些来源进行编目为理解范围提供了重要的帮助,也为数据的复杂性或任何蔓延提供了早期见解。
通过将MDM计划与数据目录提供的管理和设计技术(搜索、元数据管理和协作)联系起来,团队能够更好地推动有效的设计,并审查掌握的规则和模型。正确的数据目录应该提供重要的协作和结构化的工作流程能力,以便在MDM架构师和业务分析师对数据(域和其他)进行分类时为他们提供能力。正确的平台还将帮助团队利用管理、治理和变更管理工作流来进行任何数量的MDM设计和文档工作。
实体决议是基础性的
重复记录对于任何数据驱动的企业来说都是一个常见的挑战。实体解析描述了跨数据源识别这些记录并将它们链接在一起的技术。这是一种广受好评的掌握技巧,将有助于为任何程序的发展奠定坚实的基础。这个概念是由John R.Talburt博士提出的。我第一次了解Talburt博士的实体解析方法是在我编写DAMA的数据管理知识体系第二版时。几年后,我有幸与John一起参与了一个我们都在咨询的MDM项目。正如他在《实体解析和信息质量》一书中所阐述的那样,实体解析是关于确定对现实世界实体的引用何时等效(指同一实体)或不等效(指不同实体)。
从最广义上讲,实体处置包括五项主要活动:
- 实体参考提取,
- 实体参考准备,
- 实体参考分辨率,
- 实体身份管理,以及
- 实体关系分析。
数据领导者通常依靠企业数据目录来深入了解实体,同时记录其环境的生命周期相关性。作为一个元数据管理平台,数据目录是理解和协调不同资产的理想环境,以了解它们是如何创建的以及为什么创建的。
Alation’s Data Catalog leverages domains
例如,最佳实践定义了将公共标识符附加到引用实例的重要性,因为这有助于表明它们是等效的。(塔尔伯特,2011年)
这可以表现为创建元数据,该元数据描述该公共标识符结构的结构和过程,例如master_id、match_id、merge_file_id属性,以及如何创建或填充它们。这是一个很好的例子,说明了元数据如何推动身份解析、记录链接、记录匹配、记录重复数据消除、合并清除和许多实体分析。通过这种方式,领导者可以将持续集成和持续交付(CICD)添加到他们的MDM战略中。
然而,要使元数据以这种方式可操作,您需要一个数据目录。在寻找MDM友好的目录时,领导者应该寻找诸如文章、标记、自定义字段和目录集之类的功能。他们还应确保在解决过程中做出的决定能够记录在目录中,以供子孙后代使用。这样,当未来出现问题时,可以很容易地参考答案,并将其传达给整个组织的利益相关者。
不要忘记参考数据
这里列出的概念也适用于参考数据管理。虽然通常不那么复杂,但参考数据管理程序也受益于数据目录的强大功能。
“参考数据是指用于表征或分类其他数据,或将数据与组织外部信息联系起来的任何数据”(Chisholm,2001)
典型的参考数据可能由代码和描述组成,但可能更复杂,并包含跨功能关系元数据。然而,大多数情况下,参考来源将侧重于分类和分类,如状态或类型(例如,订单状态:新建、进行中、关闭、取消)。它们还可能包括外部信息,如地理或标准信息(例如,国家代码:DE、US、TR)。这一部分的寓意是,如果你没有对你的参考数据进行编目,你应该这样做。
定义掌握黄金记录的规则
如果做得好,MDM程序也将推动元数据的改进,通常是通过质量评估的方式。数据目录可以通过推动澄清和定义以及属性的可视化检查来帮助MDM团队。同样,在规则开发、测试的设计思想上进行文档化和协作至关重要,最终是通过MDM工具驱动实际执行的匹配、合并和生存规则的下游执行的治理。
虽然数据目录不是MDM执行平台的替代品,但一些目录确实提供了大量开箱即用的功能,可以帮助MDM设计者和架构师设计或评估规则。使用数据目录应用批量分类和分类将有助于确定工具和执行需求的范围。这也是记录这些决定的另一个机会。
此外,数据管理员将需要与业务团队合作进行对账和协议,因为这与影响实体名称和企业级定义的规则有关。随着团队能够发现、理解和合理化数据元素和属性,他们也开始了解数据的质量。数据质量问题会使MDM项目复杂化,因此评估过程应该解决数据问题的根本原因。提供一套管理工具的数据目录将使您的管理人员和其他关键利益相关者能够评估主数据环境的数据源质量和适用性以及关键上下文。
数据模型和字典为来源分析提供信息
MDM架构师工具带中的另一个关键工具是数据模型。虽然目录可以支持传统的数据模型可视化,如实体关系图,但架构师将受益于这样一个事实,即当使用Alation数据目录时,源数据,例如,模型是通过本体自动创建和关联的(以及支持的元数据)。这些模型允许用户使用自然语言标题和描述来浏览和理解逻辑和物理模型结构。关于的目录示例在从源中提取元数据时自动创建这些本体论数据模型。为了进一步帮助MDM团队,通过机器学习和人工管理的结合来应用自然语言增强。
当MDM程序在主控之前对其源进行编目时,MDM架构师能够利用数据字典来总结这些自然标题和描述,以及可视化物理属性。这包括自定义字段值和子数据层次结构。该词典还将包括由管理员和用户添加到目录中的精心策划的数据源信息。这些元数据对于推动有效掌握讨论的重要性怎么强调都不为过。
数据目录-您的MDM白板
管理重要的事情。它是有效的数据素养和信任的基础。但它当然适用于主数据或参考数据管理程序——在设计MDM或RDM程序时,很容易在范围上过度索引。利用您的数据目录来“适当调整”您的工作。从小处着手,以有管理的速度成长,这是一个很好的建议。这将确保你不会吃得太多。在一定程度上,团队能够评估和评估数据源,为主数据管理计划的范围界定和设计做准备,作为“一块玻璃”的目录将给他们带来提升。
对于MDM团队来说,必须知道哪些数据存在于何处以及为什么存在。数据目录可以成为一个关键工具,帮助人们了解操作和参考数据的结构和内容,以及创建、汇总或报告数据的过程。
将目录视为元数据白板。这是一个很好的平台,可以帮助MDM团队进行与范围和方法相关的早期设计思维,顺便说一句,这也将在您进行过程中记录过程。该目录将有助于为您的主数据管理项目奠定良好的基础。此外,这也是一个很好的地方,可以将企业管理锚定在项目中。
- 11 次浏览