【数据沿袭】列级沿袭来到 DataHub

视频号

微信公众号

知识星球

Chinese, Simplified

通过DataHub,我们致力于帮助用户发现、信任其组织中的数据并对其采取行动。上游和下游谱系,即了解数据产品的来源和使用方式,对于实现这一点至关重要。

这就是为什么我们非常兴奋地实现了列级沿袭,这是DataHub最需要的功能之一!

关于DataHub中的血统

当我们构建DataHub的Lineage功能时,我们希望提供组织数据的生产、转换和消费的端到端可视性,无论是通过什么平台进行策划。为此,DataHub中的沿袭旨在跨多个平台、数据集、管道、图表和仪表板跟踪沿袭。

一旦我们推出了Lineage,下一个显而易见的步骤就是进一步实现列的端到端沿袭可视化。

我们为什么建立列级谱系

列级沿袭具有强大的潜力

  • 主动影响分析和
  • 反应式数据调试。

方法如下。它不仅可以让您知道是否存在依赖关系,还可以帮助您准确地了解依赖关系是如何存在的。这意味着您可以理解列是如何计算的,这样您就可以回答以下问题:

  • 哪些根输入列用于构造此列?
  • 此列是否读取任何敏感数据?
  • 采用了什么方法来进行汇总?

这也意味着你可以了解列是如何使用的,这样你就可以回答以下问题:

  • 我可以安全地否决这个字段吗?
  • 哪些仪表板正在对此列进行可视化?

法规遵从性要求是将此功能作为优先事项的另一个原因。一些DataHub用户处理敏感数据,需要完全了解具有PII的列,以及它们如何链接到下游仪表板中的目标表。

列级沿袭帮助他们将列之间的点与PII和面向用户的仪表板连接起来,这样他们就可以采取预防措施来确保这些数据的敏感性。

在DataHub中构建列级沿袭

可视化沿袭元数据无疑是一个挑战。表现得太少,就达不到目的。显示得太多,它可能会变得笨重,难以可视化和使用。

在构建列级沿袭时,我们的重点是确保它干净且易于理解。这样做的方法是允许用户根据需要查看尽可能多或尽可能少的内容

DataHub Controls that let you view just what you need

DataHub Controls that let you view just what you need

DataHub中的列级沿袭体验

以下是您在DataHub中获得的列级沿袭:

  • 用于发出列级沿袭的API
  • 从Snowflake和Looker中自动提取列级谱系
  • 谱系资源管理器中的列级谱系可视化
  • 单列的影响分析

在DataHub中使用列级沿袭

1.查看列级沿袭

切换“显示列”控件以在表级和列级沿袭之间切换,只需单击一次,而不会切换选项卡或丢失上下文。

2.列级影响分析

只需单击表的架构,然后选择要分析其影响的列。右键单击菜单,如下所示,以查看其沿袭。

Datahub

血统资源管理器会向您展示您需要了解的内容。

例如,您可以通过使用下面显示的过滤器将分离度设置为1、2或3+来查看直接使用“电子邮件”列的资产。

datahub

要查看进一步的向上/向下,您所需要做的就是将过滤器设置为更高/更远的依赖度。

datahub

您也可以使用“Visualize Lineage”旁边的下拉列表来选择您感兴趣的沿袭的任何列。如果您想恢复到表级沿袭,请立即单击此下拉列表右侧的按钮。

如果您对下游的资产和通往那里的路径感到好奇,请单击列以查看列之间的路径。

datahub

DataHub还可以向您显示多个路径,这些路径对应于一列连接到另一列的不同情况。

datahub

列级沿袭的下一步是什么?

  • 查看用于派生列的转换逻辑
  • 从BigQuery和Redshift开始,其他SQL源的自动列沿袭提取(2022年第4季度)
  • 支持Spark,Tableau(2023年第一季度)

想要查看列级沿袭的操作吗?在我们的九月市政厅观看Chris Collins的走秀

本文地址
https://architect.pub/column-level-lineage-comes-datahub
SEO Title
Column-level Lineage Comes to DataHub