【数据血统】开源数据血统工具-2023年最受欢迎的5个工具

QQ群

视频号

微信

微信公众号

知识星球

Chinese, Simplified

数据沿袭工具可帮助您在每一步跟踪数据的更改。从源捕获的数据在经过一系列数据工程过程(如清理、争论、集成、重构等)之前没有多大用处。要从数据中获得最大价值,您需要跟踪其来源和生命周期。

本文在考虑了一系列功能、集成功能和易用性后,列出了五种引人注目的开源数据沿袭工具。我们在文章末尾特别提到了一些即将出现的工具。

5种流行的开源数据沿袭工具

  1. Tokern
  2. Egeria
  3. Pachyderm
  4. OpenLineage
  5. TrueDat

什么是数据沿袭工具?

数据沿袭工具可帮助您在每一步跟踪数据的更改。从源捕获的数据在经过一系列数据工程过程(如清理、争论、集成、重构等)之前没有多大用处。要从数据中获得最大价值,您需要跟踪其来源和生命周期。

这些工具需要与当前的数据堆栈集成,其中可能包含一系列数据库、数据仓库、数据湖、ML管道和BI工具,以获取沿袭数据。获得一致的沿袭视图对于更有效地理解和使用数据至关重要,因此必须确定正确的数据沿袭工具。

在这里,我们特别关注目前深受用户欢迎的开源数据沿袭工具。

#1.Tokern

Tokern概述

Tokern是为云数据仓库和数据湖而建的。它采用了一种专门的方法,使您能够从Google BigQuery、AWS Redshift和Snowflake上托管的数据库和数据仓库中获取列级数据沿袭。SparkSQL、AWS Athena和Presto等更多来源正在开发中。

Tokern具有可观的集成能力,因为它可以很好地与大多数开源数据目录和ETL框架配合使用。

Tokern数据谱系特征

Tokern不久前发布,它考虑了最新的数据工程和设计模式。一个这样的例子是,除了从 dbcat (数据目录)构建数据沿袭外,Tokern还允许您从查询历史或ETL脚本构建数据沿袭,这使它成为BI和ETL工具集成的理想选择。

Tokern将数据目录和沿袭存储在PostgreSQL数据库中。您可以使用SQL访问此数据库进行进一步分析,也可以将其输入其他可视化和分析引擎。

可视化引擎Kedro-Viz和名为 NetworkX的网络图分析库是Tokern出色的可视化和分析功能的幕后推手。这些库可以帮助您“跟踪、可视化和分析列级沿袭数据”。您还可以使用Tokern’s SDKs or APIs与沿袭数据进行交互。

除了一流的数据沿袭功能外,Tokern还使用PIICatcher提供PII(个人身份信息)和PHI(个人健康信息)检测。这个内置工具结合了正则表达式和几个标准NLP库进行PII检测,如Spacy和Stanford NER。

Tokern

Documentation | Discord | Blog | GitHub

#2.Egeria

Egeria概述

Egeria被称为“世界上第一个开源元数据标准”。它提供了一种无缝集成数据工程工具的方法,以获得可靠和一致的元数据视图。除了对元数据进行编目和搜索外,此标准还允许您为数据沿袭跟踪、数据质量检查、PII识别等构建更高级的解决方案。

许多数据工程体系结构涉及各种数据工具之间许多可以避免的聊天。Egeria远离这一点,而是采用轮辐式模型,所有东西都经过Egeria。这样,您只需要使用一个工具进行对话。

Egeria数据谱系特征

Egeria中的数据沿袭利用众所周知的开放标准来捕获和存储数据沿袭,称为OpenLineage。OpenLineage还通过提供对数据的水平和垂直谱系的跟踪,使您能够更深入地了解数据。

Egeria监听源系统发出的Kafka事件,以捕获数据沿袭信息。一旦完成了这一点,谱系管理员就可以匹配和链接谱系图,而Egeria无法做到这一点。之后,谱系对商业消费都有好处。

Egeria中的数据沿袭功能与数据发现和管理、元数据来源等功能非常吻合。上面提到的功能以及Egeria的沿袭设计和架构使其成为一个非常引人注目、经过深思熟虑的数据治理和数据沿袭工具。

Egeria资源

Documentation | Medium | Slack | GitHub

#3.Pachyderm公司

Pachyderm概述

与Tokern一样,Pachyderm是另一个专门的数据沿袭工具。Pachyderm的目标不是专注于云数据仓库,而是让开发人员能够以与语言和框架无关的方式构建机器学习管道。

Pachyderm已经实现了像lakeFS或Git这样的版本控制系统,以维护数据对象的沿袭。对这些对象的更改(比如提交)由Pachyderm捕获并存储,从而维护完整且不可变的事件审计跟踪。审计跟踪使您能够拥有用于查看和分析的数据沿袭图,并使您能够在任何时间点出于调试或法规遵从性原因重新生成数据和代码。

Pachyderm数据谱系特征

为了实现数据的无缝沿袭跟踪和版本控制,Pachyderm在一个名为PFS(PachydermFile system)的定制文件系统中使用了一个中央存储库,该存储库使用了类似AWS S3的对象存储。PFS有助于您的对象存储(如S3)成为具有完整历史记录的数据的唯一真实来源。

Pachyderm还在数据源中强制执行不变性,这使它能够为沿袭事件和数据对象分配全局ID。Pachyderm允许您在UI中将不可变的数据沿袭图作为DAG进行查看。上面提到的这两个特性在处理ML管道时都是有利的,并且您希望将结果跟踪回它们的输入。

Pachyderm集成了最广泛使用的数据库、数据仓库和数据湖。此外,使用基于SQL的接收工具,您可以将任何数据库中的数据导入Pachyderm。然而,Pachyderm作为一种通用的数据沿袭工具有其局限性,这就是为什么Pachyderm的大多数企业客户都使用它来处理MLOps、非结构化数据ETL和NLP工作负载。

Pachyderm资源

Documentation | Slack | Blog | GitHub

#4.OpenLineage

OpenLineage概述

DataKin,在WeWork开源 Marquez 后负责接管其开发的公司,也创建了OpenLineage。DataKin于2021年年中将OpenLineage项目作为沙盒项目移交给了Linux基金会。

OpenLineage深受 OpenTelemetry,的启发,它在数据可观察性空间中无处不在,旨在为数据谱系收集和分析建立一个开放的标准。

OpenLineage功能

集成是OpenLineage设计和使命的核心。它集成了ETL框架数据编排引擎元数据目录、数据质量引擎和数据沿袭工具。OpenLineage将JSONSchema用于API定义,支持各种语言和框架。Egeria是我们上面提到的一个流行的数据沿袭工具,它的核心元数据层建立在OpenLineage之上。

WeWork的Marquez也是OpenLineage架构的核心,因为Marquez提供UI和元数据存储库,而元数据集合API来自OpenLineag。OpenLineage还通过GraphQL和REST API向您公开。

OpenLineage是一个很有吸引力的选择,因为它将与大多数现有的数据工程堆栈舒适地结合在一起,并为您提供一系列令人兴奋和有价值的功能,以便全面收集、跟踪和分析数据的沿袭。

OpenLineage资源

Roadmap | Documentation | Slack

#5.TrueDat

TrueDat概述

TrueDat是一个完整的数据治理解决方案,允许您对数据进行详细的编目、搜索和跟踪。借助其数据沿袭功能,TrueDat还可以帮助您可视化数据的整个生命周期,让您深入了解数据随时间的推移。

TrueDat由BlueTab(一家IBM公司)于2

特别提示

其他一些工具将很快变得功能丰富和先进,足以成为该列表的一部分,如DataHub和Spline。

DataHub计划在2022年第一季度推出一项功能,涵盖BigQuery、dbt和Looker的列级沿袭。您可以在这里关注未来的发布。

Spline是另一个专门为Apache Spark创建的数据沿袭跟踪工具。然而,ABSOSS的团队计划将其打造成一个通用的数据沿袭收集工具。Spline上一次发布v0.7.5是在2021年10月。

如何选择正确的数据沿袭工具?

在我们与客户和数据团队一起处理数千个数据项目的经验中,我们发现血统对话往往没有切中要害。以下是评估沿袭工具时应该问的19个问题,以全面评估其深度、广度和实用性。

017年创建。自那以后,它一直在积极开发中,最新版本v4.39于2022年3月发布。

TrueDat数据沿袭功能

TrueDat允许您使用数据沿袭来分析数据库更改的影响,并更好地理解您的报告业务逻辑。它使您能够跟踪具有时间点可见性的数据对象的沿袭。

对于高级分析,还可以对沿袭对象应用过滤器,以检查沿袭图的特定部分。除了UI中沿袭的图形表示外,您还可以将收集的数据沿袭信息下载到CSV文件中。由于TrueDat提供了一套出色的数据治理和沿袭功能,它是解决数据沿袭问题的真正竞争者。

 

TrueDat资源

Documentation | Release Notes | GitHub

特别提示

其他一些工具将很快变得功能丰富和先进,足以成为该列表的一部分,如DataHub和Spline。

DataHub计划在2022年第一季度推出一项功能,涵盖BigQuery、dbt和Looker的列级沿袭。您可以在这里关注未来的发布。

Spline是另一个专门为Apache Spark创建的数据沿袭跟踪工具。然而,ABSOSS的团队计划将其打造成一个通用的数据沿袭收集工具。Spline上一次发布v0.7.5是在2021年10月。

如何选择正确的数据沿袭工具?

在我们与客户和数据团队一起处理数千个数据项目的经验中,我们发现血统对话往往没有切中要害。以下是评估沿袭工具时应该问的19个问题,以全面评估其深度、广度和实用性。

Download ebook —> The Ultimate Guide to Evaluating Data Lineage


Want to know more about how Atlan’s data lineage capabilities can help you?

https://youtu.be/J0hx3oguHSA

数据沿袭工具:相关读取

本文地址
https://architect.pub
SEO Title
Open Source Data Lineage Tools — 5 Popular to Consider in 2023