【数据治理】开源数据治理-2023年需要考虑的7个最佳工具

QQ群

视频号

微信

微信公众号

知识星球

Chinese, Simplified

找到一个好的开源数据治理工具可能很有挑战性。这有很多原因。首先,决定与数据治理相关的任何事情的最大障碍是缺乏标准化的方法——目标没有明确定义。

大多数开源工具的数据治理能力尚不清楚。你必须筛选文档页面和GitHub转发,以决定某个特定的工具是否能解决特定的用例。

为了简化您的评估过程,我们列出了在数据从业者中流行的7种开源数据治理工具。

2023年流行的7种开源数据治理工具

  1. Amundsen
  2. DataHub
  3. Atlas
  4. Magda
  5. OpenMetadata
  6. Egeria
  7. TrueDat

目录

1.Amundsen

Amundsen概述

阿蒙森最初在Lyft建造,目前由LF AI&Data Foundation托管和维护。在数据治理方面,它主要解决了数据安全以及遵守数据隐私和主权法律的问题。其想法是对元数据层上的所有数据进行标记和分类。

使用Amundsen,您可以搜索元数据,了解谁在使用数据以及他们使用数据的频率。通过查看这些数据访问模式,您可以对数据有很大的了解,但这种方法更具反应性。对于更主动的方法,您需要有细粒度的访问控制,以防止人们根据团队、角色、个人、系统等的数据访问策略访问数据。

Amundsen数据治理功能

Amundsen中还没有RBAC(基于角色的访问控制),但您仍然有一些必要的数据治理功能,例如元数据的标记和分类。

利用默认neo4j后端的数据治理能力非常有限,因此Amundsen决定增加对Apache Atlas的支持。由于Apache Atlas是最成熟的元数据管理平台之一,许多功能已经在各种系统中进行了尝试和测试,为数据编目和治理解决方案带来了可靠性。Amundsen获得了对数据沿袭和标签/徽章传播(使用沿袭)的良好支持。

neo4j或Atlas后端通常适用于大多数企业;有些人希望从他们的数据编目和治理解决方案中获得更高级的功能。

DG

Amundsen数据治理资源

Square创建了其版本的Amundsen,该版本支持额外的图节点类型,以更详细地表示列级元数据。

在Square博客上的这篇博客文章中阅读更多关于这方面的内容。其他一些公司也实现了他们的版本。一家爱沙尼亚公司致力于将自动化的列级跨系统谱系数据引入他们的阿蒙森环境。

Amundsen发布信息

阿蒙森2.5.1的最新发布时间是2021年3月18日。你可以密切关注这里的事态发展。

2.DataHub

DataHub概述

在WhereHows不再是满足元数据搜索和发现工具日益增长的需求的可行解决方案后,领英创建了DataHub。在DataHub之前,领英曾将其他工具与WhereHows结合使用,以添加一些数据治理功能。

DataHub数据管理功能

DataHub允许您对元数据进行细粒度的访问控制。访问由策略驱动,您可以从web UI和GraphQL API声明策略。DataHub的策略分为两层——平台和元数据。平台策略允许您控制DataHub的用户权限,例如,用户可以查看和使用哪些功能以及在何种程度上使用这些功能。您可以将这些策略应用于单个用户或组。另一方面,元数据策略允许您控制哪些用户可以访问不同的元数据实体(图表、数据源、仪表板等),以及他们可以对其执行哪些操作。然而,目前,DataHub不允许您控制读取权限。

DG

其他几个功能是DataHub路线图的一部分,但到目前为止还没有明确定义的时间表。主要的数据治理功能之一是实体和方面(PDL记录)的RBAC(基于角色的访问控制)。RBAC不仅可以对元数据进行更精细的访问控制,还可以帮助实现更好的标签管理、数据预览访问控制等。

在治理/隐私方面:DataHub支持数据集级别的分类、受治理的数据移动、自动数据删除、数据导出等。他们计划开源一些合规功能,并将其列为路线图的一部分。

DataHub发布信息

总之,DataHub是一种以不同的复杂程度同时解决许多问题的工具。当你读到这篇文章时,一些组织已经在生产中部署了它。DataHub的最新版本为0.8.20,发布于2021年12月。

3.Apache Atlas

Apache Atlas概述

Apache Atlas是首批集成数据治理功能的开源数据目录之一。然而,这个项目的开发周期有点慢,更不用说这个项目是专门为Hadoop生态系统构建的。它可以很好地与任何与Hive集成的东西配合使用。

Apache Atlas数据治理功能

Apache Atlas在分类方面尤其出色。它可以动态创建数据敏感度、过期和质量分类。这给我们带来了数据沿袭,这是Apache Atlas备受追捧的另一个功能。Atlas实现了真正的数据沿袭,即沿袭是可操作的。使用沿袭数据,Apache Atlas可以将元数据属性传播到沿袭层次结构下的实体。这是一个在其他数据治理工具中无法很好实现的功能

DG

Apache Atlas还具有一系列数据隐私和安全功能。它对实体和分类具有细粒度的访问控制。Atlas在实现数据授权和屏蔽方面也与ApacheRanger配合良好。当协同工作时,这些功能形成了一个有效的数据隐私和安全网,允许数据被屏蔽或分类为PII、敏感数据等。它还为您提供了控制谁可以访问PII和敏感数据的框架。

Atlas发布信息

Apache Atlas 2.2.0的最新发布时间是2021年8月。

4.Magda

Magda概述

Magda由CSIRO(澳大利亚联邦科学与工业研究组织)的数据科学部门Data61开发。MAGDA是一个缩写,意思是“让澳大利亚政府数据可用”。CSIRO部署Magda创建了一个开放的数据门户,其中包含澳大利亚联邦和州政府的70000多个数据集。他们还为其他人开放了项目的来源。

Magda数据治理功能

虽然Magda最丰富、最成熟的功能仍然是搜索和发现,但它也为标记和定义数据集主题提供了强大的支持。Magda还有一个内置的数据预览选项,包括电子表格和交互式图表。像阿蒙森这样的其他工具需要与Superset集成。需要注意的是:与Superset这样的用于数据预览的工具集成更具扩展性。

Magda目前不支持RBAC(基于角色的访问控制),但它支持一些功能,这些功能允许严格控制对Magda中资源的访问。Magda使用Kubernetes来保持与云无关。它使用Open Policy Agent标准来管理访问策略。这有助于实现不同类型的访问控制,例如基于角色的、基于属性的等等。

Magda发布信息

正如路线图所示,Magda肯定正在积极开发中。Magda 1.1.0的最新发布时间是2021年12月。

5.OpenMetadata

OpenMetadata概述

开放元数据于2021年8月发布。这个开源项目定义了规范,以使用模式优先的方法来标准化元数据。它由一个集中的元数据存储和一个支持数据堆栈中流行连接器的接收框架组成。

OpenMetadata数据管理功能

OpenMetadata采用了不同的标记方法。它允许您使用数据集标记数据所有者。它还允许您根据数据集的重要性将其标记为多个层次。OpenMetadata还实现了所有元数据的版本控制。这意味着,与数据库实体(表、视图、模式)、标记、数据集所有权详细信息和业务词汇表相关的所有元数据也都会被版本化——所有关于更改的信息,例如谁更改了更改以及何时捕获。

OpenMetadata发布信息

OpenMetadata是一个新的、快速发展的社区,您可以在这里遵循官方路线图。

DG

6.Egeria

Egeria概述

Egeria于2019年推出,由Linux基金会的人工智能和数据部门维护。Egeria旨在以与供应商无关的方式实现工具和平台之间的元数据轻松交换。其他工具通过SDK和API实现了这一点,但它们的功能是有限的。Egeria擅长这一点是因为它是围绕平台独立性、易于扩展和数据可访问的原则构建的。

Egeria数据治理功能

虽然到目前为止我们所研究的所有其他工具主要从用户的角度处理元数据管理和治理问题,但Egeria试图为用户和系统解决这个问题。Egeria可以很好地与各种各样的数据工具配合使用。

Egeria通过治理区域、有效日期、元数据存档、元数据出处等功能,为您提供对元数据的精细控制。其中一些功能是Egeria独有的。它还提供了超过800种预定义的元数据类型,但并不局限于此。您可以根据业务需求定义自己的类型,这意味着Egeria足够灵活,可以根据您的业务需求进行调整。

Egeria发布信息

Egeria v1.0于2019年2月推出,自那以后开发速度相当快。三年后的2022年2月,Egeria推出了v3.5版本。您可以在官方路线图中查看有关即将推出的功能和修复程序的信息。

7.Truedat

TrueDat概述

最后,还有TrueDat,它可以说是这份名单上唯一成熟的开源数据治理工具。TrueDat是由BlueTab(现在是一家IBM公司)在了解了市场作为数据解决方案提供商的需求并发现了数据治理领域的差距后创建的。

TrueDat数据管理功能

TrueDat与上面提到的其他工具有一组重叠的功能。它有数据目录、搜索引擎、数据沿袭功能等等。不过,人们最喜欢的功能是业务术语表,以及在团队之间共享数据的能力,这些功能具有非常精细的控制,主要集中在数据管理和数据所有权管理、分类等方面。

还有其他功能使TrueDat在该列表中完全独一无二。其中一个功能是数据共享功能,它类似于Snowflake数据共享,使团队更容易进行更有效的共享和协作。此外,为了确保对数据的高度安全和控制,还提供了订阅和通知功能,可用于在审核跟踪中记录更改事件并实时监控。

TrueDat发布信息

随着2022年1月发布的最新稳定版本v4.35,这是目前最成熟的开源数据治理工具之一。

开源数据治理工具:比较

这里有一个简洁的矩阵,总结了您可能在数据治理工具中寻找的主要数据治理功能。为了简单起见,矩阵值保持为“是”和“否”,然而,这些工具实现了相同的功能,但具有不同的复杂度和成熟度。

Tool Data Lineage Business Glossary Tagging/Classification Tag/Classification Propagation RBAC ABAC Data Sharing
Amundsen Yes No Yes Yes No No No
DataHub Yes Yes Yes Yes^ Yes^ No No
Atlas Yes Yes Yes Yes Yes No No
Magda No No Yes Yes Yes Yes Yes
OpenMetadata Yes No Yes No Yes^ No No
TrueDat Yes Yes Yes Yes Yes No Yes
Egeria Yes Yes Yes Yes Yes No Yes

 

本文地址
https://architect.pub/node/2686
SEO Title
Open Source Data Governance - 7 Best Tools to Consider in 2023