【数据谱系】5种数据谱系:了解查看数据的所有方法
视频号
微信公众号
知识星球
数据谱系类型
有五种最常见的可用数据沿袭类型。他们是
- 描述性数据谱系
- 自动化数据沿袭
- 设计谱系
- 企业谱系
- 运营谱系
数据沿袭具有不同的类型,这些类型根据其生成方式、沿袭的预期用户以及生成的数据沿袭的记录方式进行分类。
存在不同类型的数据沿袭,因为您可能想问关于数据和可以从数据沿袭可见性中受益的多个利益相关者的多个问题。
例如,解决法规遵从性的沿袭视图可能本质上与解决根本原因分析或质量的沿袭视图不同。那么,我们如何开始思考数据谱系的类型?首先了解它们是如何分类的。
目录
- 常见类型的数据沿袭
- 数据谱系和关联类型的分类
- 基于文档方法的数据谱系
- 基于技术选择的血统
- 基于角色特定用例的血统
- 业务血统与技术血统
- 什么是数据来源?
- 结论
数据谱系的3种分类方式
- 记录血统的方式
- 用于衍生谱系的技术
- 与世系合作的利益相关者的要求
在这里,我们讨论了多种类型的数据谱系,例如描述性、自动化、设计、操作等,以及每种类型的重要性。
数据谱系和关联类型的分类
- 基于记录方法的血统
- 描述性数据谱系
- 自动化数据沿袭
- 基于技术选择的血统
- 设计谱系
- 企业谱系
- 操作谱系
- 基于角色特定用例的血统
- 业务数据谱系
- 技术和设计数据谱系
- 数据来源
要了解这些不同类型的数据谱系,请考虑跟踪营销活动绩效的报告示例。该报告每周更新一次,并记录有关广告支出和用户参与度的数据,而企业则使用这些数据来衡量营销ROI。
在整个生命周期中,该数据源可能会经历多次转换。不仅每周更新一次报告,还定期附上最近销售的信息;活动结束后,报告可以导出到数据仓库中进行长期存储。这些更改构成了跟踪数据谱系的基础。
根据您决定如何以及为什么跟踪该血统,您可能会得到不同类型的血统。
基于文档化方法的数据谱系
正如谱系专家Irina Steenbeek在本资源中指出的,从谱系记录的角度来看,我们可以有两种类型的数据谱系:描述性数据谱系和自动化数据谱系。
1.描述性数据谱系
描述性数据谱系是手动生成的。在上述营销报告的上下文中,描述性数据谱系可以是Word文档或文本文件,该文件记录了有关报告如何随时间更新以及其内容后来如何导出到数据仓库的信息。
2.自动化数据沿袭
或者,您可以基于报告创建自动数据沿袭。这种类型的数据沿袭将由数据沿袭工具生成,这些工具将自动跟踪报告在其整个生命周期中的更改和转换,然后提供包括数据更改详细信息在内的信息,以及帮助利益相关者了解数据如何更改的可视化。
基于技术选择的血统
Mandy Chessell指出,您还可以根据生成数据谱系的技术对数据谱系类型进行分类。三种主要类型包括设计谱系、业务谱系和运营谱系。
1.设计谱系
设计谱系侧重于识别导致给定数据状态的数据源和流。对于营销报告,设计谱系将记录有关哪些数据源形成报告、每周如何将新数据附加到报告中以及报告内容如何在不同报告系统之间移动的详细信息。
2.业务谱系
业务谱系根据业务信息描述数据的起源和演变。它没有显示每个数据流的每个组成部分,而是过滤并关注与业务直接相关的内容,例如广告支出、用户参与度和转化率的数据来源。
虽然这在某些方面与设计谱系相似,但主要区别在于业务谱系侧重于帮助做出以业务为中心的决策,而不是设计如何获取和处理信息的决策。
3.运营谱系
运营谱系描述了技术操作所基于的数据移动和转换。
技术谱系有助于在更深层次的粒度上跟踪数据:系统(数据库、应用程序、服务)、API、转换、SQL查询和表列。技术谱系有助于根本原因分析、调试管道问题、指导测试和重构。
Operational data lineage helps debug issues, guide testing, and refactoring pipelines. Source: Atlan
这些类型的数据沿袭没有一种比其他类型更好或更差。相反,将它们视为服务于不同的目的并提供不同类型的信息。
基于角色特定用例的谱系
我们已经参考了Irina Steebeek关于数据谱系的文章。同一篇文章还讨论了对数据谱系进行分类的第三种方法,即从谁使用数据谱系的角度进行思考。
这种方法类似于基于谱系生成技术对数据谱系类型进行分类,因为不同的技术与不同的用例相一致。
一般来说,这里需要考虑两种主要的人物角色类型,以及两种类型的数据谱系:
1.业务数据谱系
如果数据消费者是非技术性的业务用户,其主要目标是了解数据如何影响业务,那么通常会产生业务谱系。
如上所述,业务数据沿袭避免了技术细节,专注于实现轻松的数据发现、验证数据的新鲜度和完整性、跟踪数据流到BI仪表板、跟踪数据更改及其下游影响。这些是对业务利益相关者(而不是技术团队)至关重要的信息实例。
2.技术和设计数据谱系
相比之下,技术利益相关者(如IT工程师和数据科学家)通常对数据谱系的技术和操作细节更感兴趣。技术谱系有助于确定数据来源(系统、流程、数据集API)和使用位置(BI/报告、ML数据集)。
这有助于数据架构师构建更好的管道设计,了解依赖关系,优化ETL作业,并确保遵守与数据处理相关的法规要求。
因为大多数企业都包括以业务为中心的利益相关者和技术利益相关者,所以通常需要为多种类型的人物角色定制两种类型的数据谱系。
业务血统与技术血统
技术谱系和业务谱系之间的主要区别在于,业务谱系侧重于影响业务优先级的数据来源和处理方面,例如哪个业务部门生产、消费或更新了数据。相反,技术谱系基于技术操作(如ETL日志、根本原因分析、影响分析和管道工作流)跟踪数据生命周期。
什么是数据来源?
如果不考虑数据来源,很难讨论数据谱系的类型。
数据来源是关于原始数据源的信息,例如数据的创建人、创建时间以及创建原因。
数据源详细信息可以作为文件、数据库或其他数据源(数据源、数据类型、数据大小、版本ID和转换步骤)附带的元数据。
数据谱系与数据来源
数据来源标识数据的来源。相比之下,数据谱系记录了数据到达当前形式所经历的完整过程。因此,数据来源是数据谱系的一个组成部分。但这不是唯一的组成部分。
例如,对于上面描述的营销报告,数据谱系将包括关于报告起源的完整细节,以及报告中的数据是如何随时间扩展并随后导出到数据库的。
但该报告的数据来源将仅详细说明该报告的原始创建。它将缺少有关数据附件或将数据移动到数据仓库的导出操作的信息。
数据线型类型常见问题解答
数据沿袭的不同类型是什么?
有五种最常见的可用数据沿袭类型。它们是1。描述性数据谱系,2。自动化数据沿袭,3。设计谱系,4。业务谱系,5。运营谱系。
结论
不同类型的数据谱系用于不同的目的,它们以不同的方式生成。在许多情况下,企业需要利用各种数据衍生类型和生成技术,以使其数据资产发挥最大价值。
- 150 次浏览