【数据目录】dbt数据目录:讨论本机功能以及与Atlan加强协作和治理的潜力

视频号

微信公众号

知识星球

Chinese, Simplified

dbt是一种流行的工具,可以帮助分析师和工程师更有效地转换仓库中的数据。dbt的数据目录可以帮助您在dbt模型上收集足够的元数据和信任信号。

这可以帮助下游消费者发现、信任和理解为他们准备的数据资产。

活动数据目录更进一步,甚至可以让dbt用户放心地处理dbt模型它们提供了任何更改如何影响下游表或仪表板的完整可见性。

在本文中,我们将讨论dbt的原生数据编目功能,并概述您应该考虑将其引入堆栈以实现dbt资产的全面编目和治理的其他功能。

首先,让我们认识到拥有dbt数据目录的重要性

目录

  • 编目dbt资产的重要性
  • dbt数据目录的本机功能
  • 部署dbt数据目录时要考虑的功能
  • Atlan+dbt:弥合分析工程师和业务用户之间的差距
  • dbt数据目录的底线
  • Atlan+dbt实现:相关资源

编目dbt资产的重要性

与现代数据堆栈中的许多其他工具一样,dbt诞生于通过更好的组织和模板化来标准化大规模转换工作负载的模型实现的需要。然而,要充分利用dbt的潜力,对资产进行编目是关键。

https://youtu.be/SFqHaFxfkGk

为什么dbt的数据编目是不可谈判的一些原因

  • 高效的文档:对于更小、分布式和自主的团队,需要在整个组织中明确业务定义,以确保无缝协作。在这种情况下,高效的文档是至关重要的。
  • 可访问和可发现的文档:在数据世界中,高效的文档不仅仅是简单的旧文本;它必须是交互式的。数据用户应该能够探索数据源、实体、关系、模型、约束、谱系等,这些都可以通过数据目录进行搜索和发现。
  • 血统的自动捕获:dbt的数据目录解决方案可以自动捕获数据血统,这可以帮助分析师和工程师了解任何变化的影响,并确保下游消费者能够信任和理解为他们准备的数据资产。这有助于防止错误和不一致,提高效率,并最终提高所生成数据的质量。

dbt在其鼓励和支持的工作负载下,需要这样一个数据目录。那么,我们从哪里开始呢?让我们首先来看一下dbt的本机目录功能。

dbt数据目录的本机功能

dbt为您提供了一种自动生成数据模型文档的方法。默认情况下,dbt将此文档发布在静态网站上。您可以使用一个简单的dbs-docs-serve命令启动并运行静态文档。

本文档为您提供了以下功能:

  • 搜索和发现dbt项目中的所有数据模型
  • 不同实体和数据模型之间的关系
  • 有关列、列类型、允许值等的详细信息。
  • 任何给定实体或数据模型的SQL脚本
  • dbt项目中所有数据模型的表级沿袭

让我们详细了解其中的一些功能:

数据模型中的列级详细信息

使用dbt数据目录,您可以获得所有数据库对象列的描述性表格表示,其中包含详细信息,如列描述、数据类型、列级测试、允许的值等。

例如,这里是jaffle_shop项目中订单表的Columns部分。

Column-level data dictionary in dbt.

查看允许的值是如何通过描述来丰富的,这样任何阅读文档的人都可以清楚地理解该列的用途。

搜索和发现

基于菜单的导航很方便,但它仍然为许多用例留下了空间,在这些用例中,不知道数据库模式或项目结构的业务用户发现搜索他们想要的内容很有挑战性。

幸运的是,dbt允许您使用位于页面顶部的搜索栏对目录中的所有内容执行全文搜索,如下图所示:

dbt provides native search to discover data assets

dbt提供本地搜索以发现数据资产。

搜索功能还允许您搜索特定的信息子集,如名称、描述和标记

表级数据沿袭

最后,沿袭图是dbt数据目录的另一个重要功能。您将在文档页面的右下角看到一个圆形的绿色图标。

按下此图标后,将打开一个全尺寸弹出窗口,其中包含一个描述数据转换过程的沿袭图,如下图所示。

Understand how the data flows with dbt's table-level data lineage

Understand how the data flows with dbt's table-level data lineage

数据沿袭可视化建立在依赖字段和由字段引用的基础上,dbt为基于转换工作流的每个数据模型维护这些字段。您可以通过选择要用于计算沿袭的资源来自定义沿袭图;如下图所示。

dbt data lineage customization

dbt的数据目录涵盖了相当多的领域,使其对开发人员和一些数据团队,尤其是dbt开发人员来说是有价值的。然而,业务团队可能需要更多关于他们正在使用的数据的信息。

在下一节中,让我们探索一些更好的编目机会,这些机会在dbt数据目录中是不可能的。

部署dbt数据目录时要考虑的功能

dbt的原生数据目录提供了一些必要的功能,如搜索和发现、表级沿袭和元数据管理。

然而,它没有涉及到关键领域,例如数据治理,这就是为什么尽管它是dbt的一个很好的补充,但它保证需要一个全面的数据编目解决方案。

在为您的dbt资产部署编目解决方案时,您必须寻找一些其他功能:

  1. 数据治理功能,尤其是分类、标记和关键性
  2. 更精细的数据沿袭功能,例如具有自定义元数据的列级沿袭
  3. 自动化数据编目人工智能支持的工作流、个性化和元数据管理
  4. 能够跨数据堆栈进行集成-从源层到消费层
  5. dbt数据目录和dbt工作流中其他首选工具之间的双向元数据流
  6. 直观的UI/UX,鼓励技术和非技术数据从业者采用

其中一些缺失的功能对于数据编目解决方案至关重要,以推动业务关键型成果的实现。

Atlan+dbt:弥合分析工程师和业务用户之间的差距

除了对dbt在数据编目方面提供的显著改进外,Atlan还通过添加最先进的数据治理、数据沿袭、搜索和发现功能来提供价值。这有助于您全面获得数据的360°视图。

一些受用户欢迎的功能包括:

  • 主动数据治理
  • 端到端列级沿袭
  • dbt度量作为一种资产,具有自己的配置文件
  • GitHub中的嵌入式影响分析
  • 直接从dbt构建文档标准
  • 向整个团队公开dbt文档
  • 将dbt上下文引入其他工具
  • 在数据消费者和生产者中实现自助服务

让我们更详细地了解Atlan的一些功能。

主动数据治理

Atlan强大的数据治理引擎不仅涵盖了dbt数据目录中缺少的所有内容。广泛的所有权和分类功能有助于整个组织的团队更高效地处理数据,同时考虑到所有的法规遵从性和管理问题。统一的权限模型允许您将dbt与其他数据源无缝集成。

Atlan's data governance for dbt data assets

端到端列级沿袭

为了获得完整的上下文和数据的360°视图,您需要了解数据是如何端到端地从一个系统流到下一个系统的。虽然dbt提供了表级数据沿袭,但这对大多数业务团队来说是不够的。

Atlan全面的列级数据沿袭功能允许您在尽可能多的上下文中以最佳级别跟踪沿袭。通过流畅的交互式用户界面,您可以在整个组织的任何系统中轻松找到绕过数据的方法。

Atlan's column-level lineage for dbt data assets.

GitHub中的嵌入式影响分析

Atlan与GitHub的集成解决了数据工程师面临的协作挑战,他们对数据资产的下游使用缺乏可见性,并急于解释每一个变化。

这种集成通过帮助数据工程师了解dbt模型中的变化如何影响上游资产,使数据治理能够更接近数据创建过程。

Atlan - GitHub integration - Github actions screenshot

通过Atlan和GitHub,数据工程师可以识别资产所有者并与之合作,影响高价值资产的变更可以由利益相关者批准或不批准。Atlan为GitHub带来了沿袭,使人们很容易看到对重要数据管道所做更改的影响。每当有人打开一个更改dbt模型的拉取请求时,Atlan GitHub操作会自动创建一个将受到影响的所有下游资产的列表。

https://youtu.be/sUDELpq56PQ

作为Atlan上的一流公民的dbt指标

Atlan与dbt语义层的集成将dbt丰富的度量引入到数据堆栈的其余部分。通过这种集成,公司指标现在是列级沿袭的一部分,从数据源和数据存储到转换和BI工具。

详细了解联合用户如何从这种集成中获益。

dbt metrics get their own 360° profile on Atlan

直接从dbt构建文档标准

Atlan与dbt的深度集成使您能够在dbt模型中创建可重复的元数据属性——表所有者和已验证的标记。它通过为开发人员标准化文档,为整个组织共享知识提供了基础。

Business glossary and data dictionary Business glossary and data dictionary 

向整个团队公开dbt文档

凭借认证、新鲜度、相关性和受欢迎程度等功能,以及类似谷歌搜索的搜索界面,Atlan增强了您的数据发现体验,为您节省了宝贵的时间来整理文档,并在电子邮件和聊天中查找信息。

Search and discover assets through your entire data ecosystemSearch and discover assets through your entire data ecosystem

将dbt上下文带到工具中(反向元数据)

Atlan的Chrome扩展为您的工作带来了dbt元数据。如果您在BI仪表板中,则不必在dbt中搜索上下文。

Access dbt metadata in the tools that you use every day

在数据消费者和生产者中实现自助服务

Atlan使整个业务团队能够通过自助服务来满足他们的数据需求,这是现代数据堆栈及其迄今发展的核心功能。智能自动化、个性化和自定义元数据等功能使Atlan对每个团队来说都更加直观、灵活和有价值。

Self-service data discovery for everyone who wants to understand their business better

Self-service data discovery for everyone who wants to understand their business better

dbt数据目录的底线

仅仅创建数据仓库或数据湖这样的数据资产是不够的。您必须确保业务和技术团队能够看到、发现和理解数据。数据目录在实现这一目标方面发挥着重要作用。

dbt数据目录对于dbt用户来说是一个很好的内置工具,无需额外的成本或开发工作,但如果您想要一个全面的解决方案,为您提供数据治理、数据沿袭以及高级搜索和发现功能,您绝对应该试试Atlan。

Atlan+dbt实现:相关资源

 

本文地址
https://architect.pub/dbt-data-catalog-discussing-native-features-plus-potential-level-collaboration-and-governance-atlan
SEO Title
dbt Data Catalog: Discussing Native Features Plus Potential to Level Up Collaboration and Governance with Atlan