【数据谱系】开源数据谱系工具:2023年流行的5种工具
视频号
微信公众号
知识星球
数据沿袭工具可帮助您跟踪数据的每一步变化。从源捕获的数据在经过一系列数据工程过程(如清理、扯皮、集成、重塑等)之前没有多大用处。要从数据中获得最大价值,您需要跟踪数据的来源和生命周期。
我们看到世系对话经常失败。这里有19个问题来评估沿袭工具的深度、广度和实用性。下载免费指南。
本文在考虑了一系列特性、集成功能和易用性之后,列出了五个引人注目的开源数据衍生工具。在文章末尾,我们还特别提到了一些即将推出的工具。
5流行的开源数据衍生工具
- Tokern
- Egeria
- Pachyderm
- OpenLineage
- TrueDat
什么是数据沿袭工具?
数据沿袭工具可帮助您跟踪数据的每一步变化。从源捕获的数据在经过一系列数据工程过程(如清理、扯皮、集成、重塑等)之前没有多大用处。要从数据中获得最大价值,您需要跟踪数据的来源和生命周期。
这些工具需要与当前的数据堆栈集成,其中可能包含一系列数据库、数据仓库、数据湖、ML管道和BI工具以获取沿袭数据。获得一致的沿袭视图对于更有效地理解和使用数据至关重要,因此必须确定正确的数据沿袭工具。
在这里,我们特别关注当前受用户欢迎的开源数据衍生工具。
#1.Tokern
Tokern概述
Tokern是为云数据仓库和数据湖而建的。它采用了一种专门的方法,使您能够从Google BigQuery、AWS Redshift和Snowflake上托管的数据库和数据仓库中获取列级数据血统。SparkSQL、AWS Athena和Presto等更多资源正在开发中。
Tokern具有可观的集成能力,因为它与大多数开源数据目录和ETL框架配合得很好。
Tokern数据谱系特征
Tokern不久前发布,它考虑了最新的数据工程和设计模式。一个这样的例子是,除了从dbcat(数据目录)构建数据谱系之外,Tokern还允许您从查询历史或ETL脚本构建数据谱系,这是BI和ETL工具集成的理想选择。
Tokern将数据目录和谱系存储在PostgreSQL数据库中。您可以使用SQL访问该数据库进行进一步分析,或将其输入其他可视化和分析引擎。
Kedro Viz,一个可视化引擎,以及一个名为NetworkX的网络图分析库,是Tokern出色的可视化和分析能力的背后。这些库帮助您“跟踪、可视化和分析列级沿袭数据”。您还可以使用Tokern的SDK或API与血统数据交互。
除了一流的数据沿袭功能外,Tokern还使用PIICatcher提供PII(个人可识别信息)和PHI(个人健康信息)检测。这个内置工具利用正则表达式和几个标准NLP库的组合进行PII检测,例如Spacy和Stanford NER。
Tokern资源
Documentation | Discord | Blog | GitHub
#2.Egeria
Egeria概述
Egeria被称为“世界上第一个开源元数据标准”。它提供了一种无缝集成数据工程工具的方法,以获得可靠和一致的元数据视图。除了编目和搜索元数据之外,该标准还允许您为数据谱系跟踪、数据质量检查、PII识别等构建更高级的解决方案。
许多数据工程架构涉及各种数据工具之间的大量可避免的闲聊。Egeria远离这一点,而是在一个中心辐射模式下工作,所有的东西都通过Egeria。这样,您只需使用一个工具进行对话。
Egeria数据谱系特征
Egeria中的数据谱系利用众所周知的开放标准来捕获和存储称为OpenLineage的数据谱系。OpenLineage还可以通过跟踪数据的水平和垂直血统,让您对数据有更深入的了解。
Egeria监听源系统发出的Kafka事件,以获取数据谱系信息。一旦完成了这一点,血统管理员就可以匹配和链接血统图,而Egeria无法做到这一点。之后,血统对商业消费都很有好处。
Egeria中的数据谱系特性与数据发现和管理、元数据来源等特性非常吻合。上面提到的特性以及Egeria的谱系设计和架构使其成为一个非常引人注目的、经过深思熟虑的数据治理和数据谱系工具。
Egeria资源
Documentation | Medium | Slack | GitHub
#3.Pachyderm
Pachyderm概述
与Tokern一样,Pachyderm是另一个专门的数据谱系工具。Pachyderm的目标不是专注于云数据仓库,而是让开发人员能够以语言和框架无关的方式构建机器学习管道。
Pachyderm已经实现了像lakeFS或Git这样的版本控制系统,以维护数据对象的沿袭。对这些对象的更改(即提交)由Pachyderm捕获并存储,从而维护事件的完整且不可变的审计跟踪。审计跟踪使您能够拥有用于查看和分析的数据沿袭图,并允许您在任何时间点出于调试或合规性原因复制数据和代码。
Pachyderm数据谱系特征
为了实现对数据的无缝数据沿袭跟踪和版本控制,Pachyderm在定制的文件系统PFS(PachydermFile system)中使用了一个使用AWS S3等对象存储的中央存储库。PFS帮助您的对象存储(如S3)成为具有完整历史的数据的唯一真实来源。
Pachyderm还在数据源上强制执行不变性,这允许它为沿袭事件和数据对象分配全局ID。Pachyderm允许您在UI中将不可变数据谱系图视为DAG。在处理ML管道时,上面提到的这两个特性都是有利的,您希望将结果跟踪回它们的输入。
Pachyderm与最广泛使用的数据库、数据仓库和数据湖集成。此外,使用基于SQL的摄取工具,您可以将任何数据库中的数据导入Pachyderm。然而,Pachyderm作为通用数据沿袭工具存在局限性,这就是为什么大多数Pachyderm的企业客户使用它来处理MLOps、非结构化数据ETL和NLP工作负载的原因。
Pachyderm资源
Documentation | Slack | Blog | GitHub
#4.OpenLineage
OpenLineage概述
在WeWork开源后,负责接管Marquez开发的DataKin公司也创建了OpenLineage。DataKin于21年年中将OpenLineage项目作为沙箱项目移交给了Linux基金会。
OpenLineage深受OpenTelemetry的启发,它在数据可观测性领域无处不在,旨在为数据谱系收集和分析建立一个开放的标准。
OpenLineage功能
集成是OpenLineage设计和使命的核心。它与ETL框架、数据编排引擎、元数据目录、数据质量引擎和数据沿袭工具集成。OpenLineage使用JSONSchema作为API定义,支持各种语言和框架。Egeria是我们上面提到的一个流行的数据沿袭工具,它的核心元数据层构建在OpenLineage之上。
WeWork的Marquez也是OpenLineage架构的核心,因为Marquez提供了UI和元数据存储库,而元数据收集API来自OpenLineage。OpenLineage还通过GraphQL和REST API向您公开。
OpenLineage是一个很有吸引力的选项,因为它可以与大多数现有的数据工程堆栈轻松共存,并为您提供一系列令人兴奋和有价值的功能,以全面收集、跟踪和分析数据的沿袭。
OpenLineage资源
Roadmap | Documentation | Slack
#5.TrueDat
TrueDat概述
TrueDat是一个完整的数据治理解决方案,允许您对数据进行详细的编目、搜索和跟踪。借助其数据衍生功能,TrueDat还可以帮助您可视化数据的整个生命周期,让您深入了解数据随时间变化的过程。
TrueDat由BlueTab(IBM公司)于2017年创建。此后,它一直在积极开发中,最新版本v4.39于2022年3月发布。
TrueDat数据沿袭特征
TrueDat允许您使用数据谱系来分析数据库更改的影响,并更好地理解报告业务逻辑。它允许您使用时间点可见性跟踪数据对象的沿袭。
对于高级分析,还可以对沿袭对象应用过滤器,以检查沿袭图的特定部分。除了UI中血统的图形表示外,还可以将收集的数据血统信息下载到CSV文件中。由于TrueDat提供了一组优秀的数据治理和沿袭功能,它是解决数据沿袭问题的真正竞争者。
TrueDat资源
Documentation | Release Notes | GitHub
特别提及事项
其他一些工具将很快变得功能丰富和先进,足以成为该列表的一部分,例如DataHub和Spline。
- DataHub计划于2022年第一季度推出一项功能,涵盖BigQuery、dbt和Looker的列级沿袭。你可以在这里关注未来的版本。
- Spline是另一个专门为ApacheSpark创建的数据沿袭跟踪工具。然而,ABSOSS的团队计划将其打造成一个通用的数据谱系收集工具。Spline的最后一个版本v0.7.5是在2021 10月发布的。
如何选择正确的数据衍生工具?
在我们与客户以及我们自己作为一个数据团队处理数千个数据项目的经验中,我们发现,血统对话往往没有抓住重点。以下是在评估谱系工具以全面评估其深度、广度和实用性时应该问的19个问题。
- 331 次浏览