通过DataHub,我们致力于帮助用户发现、信任其组织中的数据并对其采取行动。上游和下游谱系,即了解数据产品的来源和使用方式,对于实现这一点至关重要。
这就是为什么我们非常兴奋地实现了列级沿袭,这是DataHub最需要的功能之一!
关于DataHub中的血统
当我们构建DataHub的Lineage功能时,我们希望提供组织数据的生产、转换和消费的端到端可视性,无论是通过什么平台进行策划。为此,DataHub中的沿袭旨在跨多个平台、数据集、管道、图表和仪表板跟踪沿袭。
一旦我们推出了Lineage,下一个显而易见的步骤就是进一步实现列的端到端沿袭可视化。
我们为什么建立列级谱系
列级沿袭具有强大的潜力
- 主动影响分析和
- 反应式数据调试。
方法如下。它不仅可以让您知道是否存在依赖关系,还可以帮助您准确地了解依赖关系是如何存在的。这意味着您可以理解列是如何计算的,这样您就可以回答以下问题:
- 哪些根输入列用于构造此列?
- 此列是否读取任何敏感数据?
- 采用了什么方法来进行汇总?
这也意味着你可以了解列是如何使用的,这样你就可以回答以下问题:
- 我可以安全地否决这个字段吗?
- 哪些仪表板正在对此列进行可视化?
法规遵从性要求是将此功能作为优先事项的另一个原因。一些DataHub用户处理敏感数据,需要完全了解具有PII的列,以及它们如何链接到下游仪表板中的目标表。
列级沿袭帮助他们将列之间的点与PII和面向用户的仪表板连接起来,这样他们就可以采取预防措施来确保这些数据的敏感性。
在DataHub中构建列级沿袭
可视化沿袭元数据无疑是一个挑战。表现得太少,就达不到目的。显示得太多,它可能会变得笨重,难以可视化和使用。
在构建列级沿袭时,我们的重点是确保它干净且易于理解。这样做的方法是允许用户根据需要查看尽可能多或尽可能少的内容。
DataHub Controls that let you view just what you need
DataHub中的列级沿袭体验
以下是您在DataHub中获得的列级沿袭:
- 用于发出列级沿袭的API
- 从Snowflake和Looker中自动提取列级谱系
- 谱系资源管理器中的列级谱系可视化
- 单列的影响分析
在DataHub中使用列级沿袭
1.查看列级沿袭
切换“显示列”控件以在表级和列级沿袭之间切换,只需单击一次,而不会切换选项卡或丢失上下文。
2.列级影响分析
只需单击表的架构,然后选择要分析其影响的列。右键单击菜单,如下所示,以查看其沿袭。
血统资源管理器会向您展示您需要了解的内容。
例如,您可以通过使用下面显示的过滤器将分离度设置为1、2或3+来查看直接使用“电子邮件”列的资产。
要查看进一步的向上/向下,您所需要做的就是将过滤器设置为更高/更远的依赖度。
您也可以使用“Visualize Lineage”旁边的下拉列表来选择您感兴趣的沿袭的任何列。如果您想恢复到表级沿袭,请立即单击此下拉列表右侧的按钮。
如果您对下游的资产和通往那里的路径感到好奇,请单击列以查看列之间的路径。
DataHub还可以向您显示多个路径,这些路径对应于一列连接到另一列的不同情况。
列级沿袭的下一步是什么?
- 查看用于派生列的转换逻辑
- 从BigQuery和Redshift开始,其他SQL源的自动列沿袭提取(2022年第4季度)
- 支持Spark,Tableau(2023年第一季度)
想要查看列级沿袭的操作吗?在我们的九月市政厅观看Chris Collins的走秀!
最新内容
- 1 day 15 hours ago
- 1 day 15 hours ago
- 4 days 17 hours ago
- 5 days 6 hours ago
- 6 days 17 hours ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago