数据谱系提供了有关数据起源于何处以及自生成以来如何聚合、转换或以其他方式修改数据的关键上下文。
继续阅读,深入了解数据衍生是如何工作的,为什么它很重要,以及您可以利用哪些工具和最佳实践来帮助自动化衍生生成。
什么是数据血统?
数据谱系是关于数据起源和演化的信息。数据谱系是数据在其整个生命周期中旅程的可视化。血统有助于跟踪来自源的数据、数据如何在管道中传输、数据经过的转换(连接、过滤器、聚合)、数据的使用位置以及用户。监控血统的透明性对于确保数据完整性和可用性至关重要。
正如Mandy Chessell所解释的,除非你了解“数据的来源及其所进行的转换”,否则你无法“理解报告中提供的数据或分析计算中使用的数据的真正含义”
换言之,当您了解数据谱系时,您就知道数据最初产生的位置,以及数据在生成时和分析时之间可能发生的变化。此外,了解数据谱系提供了跟踪和排除数据质量问题和分析错误所需的可视性。
类似地,数据谱系类似于您在邮件中订购产品时可能收到的发货信息。装运信息告诉货物的原产地,货物在运输途中经过的地点,以及货物是否与其他物品包装在一起。
如果货物丢失或延迟,或者您最终没有收到您购买的物品,这些细节至关重要。同样,数据谱系允许您跟踪数据的来源、移动和转换,以便您可以调查和解决数据传输过程中出现的任何问题。
Data lineage helps track the journey of the data in its entire life cycle. Source: Atlan
数据血统示例
作为真实世界中数据谱系的一个示例,假设客户在您的帮助台平台中提交技术支持请求。支持请求会在帮助台系统中生成一张票据。该票据包含客户姓名、联系信息和请求详情等信息,是原始数据源,并存储在专有的帮助台平台中。
然而,稍后,在您的IT团队对票据做出响应并关闭请求后,票据数据将被导出到一个云数据仓库,如Snowflake,在那里您可以更容易地长期存储并对其进行分析。原始票据中的信息仍然存在,但现在已被转换为适合数据仓库中的一组列。它还可以与来自其他系统(如CRM软件)的数据一起存储,这些系统被聚合到同一数据仓库中。
如果此时您想分析数据(例如,如果您想生成有关客户交互或IT团队活动的报告,您可能会这样做),那么了解票据数据的来源可能与数据仓库中的其他数据不同,这一点很重要。这些信息将帮助您编写更有效的查询,以便与数据交互并提取相关信息。它还可以帮助您清理数据质量问题,例如包含客户姓名和联系信息的冗余列。
更进一步,当您决定将数据从数据仓库转储到平面文件并将其上传到“冷”云对象数据服务(如AWS Glacier)时,源于票据系统的数据可以再次转换,在那里您可以以低成本长期保留数据。
如果在某个时刻您决定将数据从冷库中取出并再次分析,您可能会想了解数据的谱系。如果您想重建数据的原始状态,了解数据源于票据系统,导出到数据仓库,然后导出到不同的云存储平台是至关重要的。如果您只知道数据曾经是位于对象存储桶中的文本文件,那么您将无法了解数据的格式化原因,也无法了解如何将其转换回一种状态,从而使您能够更有效地分析数据或提高其质量。
为什么数据血统很重要?
数据沿袭之所以重要,主要原因是它为跟踪数据在不同数据源和管道之间的移动提供了至关重要的可见性,并为这些管道提供了透明度。
当您了解数据的谱系时,您可以:
- 提高数据质量
- 集成数据
- 跨业务共享数据
- 满足法规遵从性要求
提高数据质量
通过识别数据经过的步骤以达到当前状态,数据谱系可以帮助您了解数据集中冗余、错误、不准确或其他数据质量问题的根源。
更快地集成数据
了解数据沿袭为执行数据集成或进一步数据聚合提供了关键的可见性和上下文,而不会丢失数据的原始形式。
跨业务共享数据
当您知道数据来自何处以及数据是如何演变的时,您可以通过为每个业务部门或利益相关者提供最适合他们的数据版本,从而更准确地与他们共享数据。
满足法规遵从性要求
如果您需要满足法规遵从性规则,了解数据的来源至关重要。例如,GDPR可能要求您从集成了个人识别信息(PII)的数据库中删除包含个人识别信息的数据。数据沿袭信息将帮助您更有效地分解PII,同时保留其余数据。
这样的好处就是为什么大公司在管理数据谱系方面进行大量投资的原因。他们知道,仅仅了解数据的“结束状态”是不够的,这意味着数据当前的格式化或存储方式。为了提高数据质量、简化分析并满足数据隐私和合规要求,他们需要在其业务中流动的众多数据管道中实现完整的可追溯性和透明度。
例如,Slack使用数据沿袭来改进其合规性工作。正如该公司所指出的那样,尽管“GDPR合规不需要数据血统……但这使其更容易实现。”这是因为了解数据如何随着时间的推移而变化,可以提高Slack识别受GDPR规定约束的数据的能力。
同样,对于Netflix来说,了解数据谱系是改善决策的更广泛努力的一部分。为此,该公司广泛投资开发了“一个完整、准确的数据谱系系统,使决策者能够赢得关键时刻”
了解更多:数据谱系在数据治理中的6大好处
Visualize classification propagation on the lineage path. Source: Atlan
数据谱系:典型用例
- 执行根本原因分析
- 生成报告
- 不推荐列
- 设置数据保留规则
数据谱系支持各种数据用例,不仅适用于IT团队,也适用于整个企业的利益相关者。
执行根本原因分析
如果您需要追踪由数据质量问题引发的问题的根本原因,那么了解数据的来源至关重要。例如,用户登录请求可能会失败,因为存储登录凭据的数据库已被修改。如果您知道发生了哪些数据转换,则可以更容易地进行更正,以解决登录问题。
Data lineage helps root-cause analysis by tracking transformations across the data life cycle. Source: Atlan
生成报告
各种业务部门(如IT、营销、销售等)可能希望根据数据生成报告。如果利益相关者能够从更广泛的数据集中分解最相关的数据,那么这些报告将更快生成,更准确。例如,销售团队可能希望从包含与客户相关的更广泛信息的数据库中提取与销售相关的数据。
弃用列
为了优化数据存储成本和加快分析速度,能够从数据库中删除冗余或过时的列是很有帮助的。数据沿袭允许您自信地进行这些更改,因为您可以轻松地确定列存在的原因并确定它是否仍然相关。数据沿袭还可以让您跟踪哪些列已弃用,以防以后需要这些信息。
设置数据保留规则
法规遵从性、安全性或治理要求可能要求您在一定时间内存储某些类型的数据。在某些情况下,您可能还需要在给定时间段后删除数据。使用数据沿袭,您将知道哪些特定记录受哪些保留策略的约束,即使您在最初创建记录时已聚合或转换了这些记录。反过来,您可以在细粒度的基础上定义适当的数据保留规则。
数据沿袭和数据治理
尽管数据沿袭与数据治理(即管理数据完整性、质量、可用性和隐私的过程)不是一回事,但它们是密切相关的主题。
当您能够看到数据沿袭时,您可以实现数据治理目标,例如:
- 自动识别受特殊数据治理要求约束的敏感信息(如PII)。
- 在数据源和管道中自动传播数据治理策略。
- 通过包含数据沿袭信息的报告和审计日志,证明您满足了数据治理要求。
数据系列最佳实践
考虑到您的业务可能管理的数据源和管道众多,建立数据沿袭策略可能具有挑战性。为了使流程尽可能简单有效,请考虑以下最佳做法:
- 自动生成数据沿袭
- 跟踪多种类型的血统
- 使数据沿袭发挥作用
- 全面跟踪数据沿袭
自动生成数据沿袭
首先也是最重要的,利用数据沿袭自动化工具(我们将在下面详细讨论)来跟踪数据沿袭。自动化工具不仅加快了流程,还降低了在手动跟踪血统时由于人为疏忽而导致的错误风险。
跟踪多种类型的血统
正如我们在下面讨论的,有几种类型的数据沿袭。每个都从不同的角度跟踪数据。您跟踪的谱系类型越多,您对数据来源的了解就越多。
使数据沿袭发挥作用
不要仅仅为了数据血统而跟踪数据血统。相反,使用数据沿袭作为优化业务其他部分的基础,例如设置和部署有效的数据治理策略。
全面跟踪数据沿袭
与其只跟踪某些数据源的谱系,不如着眼于在业务的所有部分建立所有数据源和管道的谱系。您永远不知道何时需要深入了解数据谱系,即使是对于一个看起来晦涩或不重要的数据源。
这样的实践可以确保数据衍生推动业务价值——这应该是您的最终目标。它们还有助于使数据沿袭尽可能高效,从而减轻it和数据团队的负担。
Data lineage helps predict the possible downstream impact of a transformation. Source: Atlan
数据谱系类型
正如我们注意到的,有多种形式的数据谱系。它们是根据数据谱系的记录方式、用于生成特定于用例和人物角色的谱系或谱系的技术来定义的。看看不同类型的数据谱系是如何分类的。
- 基于记录方法的血统
- 描述性数据谱系
- 自动化数据沿袭
- 基于技术选择的血统
- 设计谱系
- 企业谱系
- 操作谱系
- 基于角色特定用例的血统
- 业务数据谱系
- 技术和设计数据谱系
- 数据来源(Data provenance)
那么,当您制定数据沿袭策略时,您将希望在方法中采用多维的方法。考虑您将用于生成数据谱系的多个过程,以及数据谱系的多种用例,并创建一个包含所有这些的策略。
了解更多:数据谱系类型:了解查看数据的所有方式
自动化数据系列
同样,对于大多数企业来说,手动生成所有数据谱系既不实用,也不可扩展。相反,他们希望利用自动化数据沿袭。
自动化数据谱系是使用自动化工具来增强数据的可追溯性和透明度。此外,自动化数据谱系减少了生成谱系时人为错误的风险。它还使企业中的任何人——不仅仅是具有技术技能的工程师——都可以追踪数据来源和转换。
了解更多信息:通过自动化数据衍生更好地了解您的数据
自动化数据系列工具
使用您可以使用的自动化数据衍生工具,您可以:
- 全面摄取数据
- 可视化数据沿袭
- 管理治理
- 合作
全面摄取数据
- 自动化数据沿袭工具可以识别整个业务中的数据,允许您跟踪所依赖的任何和所有数据的沿袭。
可视化数据沿袭
- 自动化工具通过用户友好的仪表板显示数据谱系,使任何人都可以轻松了解数据来源和移动。
管理治理
- 通过将数据治理工具与数据谱系自动化工具集成,您可以根据创建的谱系自动实施和传播治理策略。
合作
- 数据沿袭自动化工具还包括简化利益相关者之间围绕数据沿袭可见性和问题的协作的功能。
数据谱系工具:评估提示
市场上有越来越多的数据衍生自动化工具。要找到最适合您的需求,请考虑:
- 您的数据源
- 您的数据沿袭要求
- 可视化功能
- 易于部署
您的数据源
最好的数据自动化解决方案可以处理任何类型的数据,但有些解决方案只支持某些类型的数据源,例如数据库。
您的数据沿袭要求
正如我们注意到的,有几种类型的数据沿袭。最灵活的工具可以生成多种类型的数据谱系——技术谱系、业务谱系等等——而不是将您局限于特定的数据谱系视图和特定的用例。
可视化功能
通过可视化来解释数据的能力对于向非技术利益相关者展示数据谱系尤其重要。工程师可能能够解析以文本形式显示的技术数据沿袭记录,但非技术利益相关者将受益于仪表板,该仪表板使其易于查看和与数据沿袭详细信息交互。
易于部署
虽然每个数据衍生平台都需要一定程度的定制和与您的环境集成,但不需要IT部门进行内部部署或日常维护的托管解决方案提供了最低的准入门槛。
Learn more: 5 best open-source data lineage tools to consider in 2023
数据谱系:下一步是什么?
数据谱系是准确数据分析、报告和管理的基础。它在定义和满足数据治理和法规遵从性要求方面也发挥着核心作用。它使您的企业中的任何人都能够充分利用数据来回答复杂的问题,尤其是当您利用数据谱系自动化工具来实现整个组织中利益相关者对数据谱系的民主化访问时。
最新内容
- 1 day 17 hours ago
- 1 day 17 hours ago
- 4 days 19 hours ago
- 5 days 8 hours ago
- 6 days 19 hours ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago