跳转到主要内容

数据目录有助于用户查找、理解、信任数据,并在数据上协同工作。部署数据目录工具标志着一个组织正在采取措施打破数据孤岛,实现数据民主化。在评估数据目录工具的市场时,组织通常会考虑开源和企业选项。

几年前,最大的科技公司建立了自己的数据发现和编目解决方案,以解决其独特的工作流程和用例。他们也自然而然地致力于创新和解决数据团队的普遍挑战——发现、信任和理解他们的数据。这些公司中的大多数最终都开放了数据目录软件,供外部团队在其基础上进行构建。

Timeline showing the release of open-source data catalog tools

流行的开源数据目录工具

2023年最受欢迎的6种开源数据目录工具列表。

  1. Apache Atlas
  2. Amundsen Lyft
  3. LinkedIn DataHub
  4. Netflix Metacat
  5. OpenMetadata
  6. Open Data Discovery 

data catalog

1. Apache Atlas

Apache Atlas是一个开源元数据管理工具和治理平台,由Hortonworks在数据治理倡议的保护伞下孵化。

它后来于2015年加入了Apache基金会孵化器,并于2017年发展成为一个顶级项目。Apache Atlas被广泛认为是现代数据平台的构建块之一,因为它早期设想使用元数据来解决数据编目、分类、发现、治理和协作方面的挑战。

Apache Atlas的主要功能是什么?

  • 元数据分类:Apache Atlas使您能够自动对PII、敏感数据和其他敏感数据进行分类。数据资产可以与多个分类相关联。策略还通过沿袭进行传播,从而确保派生数据继承相同的分类和安全控制。
  • 元数据类型和实例:根据Apache文档,“类型”是指如何在Atlas中存储和访问特定类型的元数据对象的定义。这使数据管理员能够定义技术元数据和业务元数据。
  • 搜索和谱系:Apache Atlas中的直观用户界面允许用户按类型、分类、属性值或自由文本对数据类型进行预定义和特别的探索。它还维护了数据源或显式数据是如何构建的,以及它是如何随着时间的推移而演变的历史。
  • 安全和数据屏蔽:Apache Atlas主要是一种数据治理工具。它允许细粒度的元数据访问安全性,允许设置对实体实例访问的控制,还可以设置添加/更新/删除分类等操作。

2. Amundsen Lyft

Amundsen是一个开源数据目录平台,最初由Lyft的工程团队构建。它于2019年10月开源,一年后推出供内部使用。

Amundsen有一个由贡献者和用户组成的有凝聚力的社区。它也被其他组织广泛采用,这些组织建立在这个开源数据目录工具的基础上,以推动其数据民主化、治理和元数据服务计划。

阿蒙森的主要能力是什么?

  • 轻松发现可信数据:阿蒙森通过简单的文本搜索帮助找到各种来源的数据。搜索结果甚至显示了内联元数据。
  • 自动化和策划的元数据:当点击数据资产时,用户会看到其详细描述和行为,分别是手动策划和自动生成的。
  • 与同事共享上下文的能力:可以更新数据资产的描述,从而减少同事之间在特定数据资产中寻找更多上下文的来回。
  • 从数据使用中学习和理解:用户可以看到哪些数据资产经常被使用、拥有或添加书签。通过查看在给定表上构建的仪表板,甚至可以理解与表相关的最常见查询。

3. LinkedIn DataHub

DataHub是一个开源元数据管理平台,由领英工程团队开发。

事实上,这是领英解决数据编目、发现、可观察性和谱系挑战的第二次尝试。在DataHub之前,他们早在2016年就构建了一个名为WhereHows的开源数据目录工具。DataHub于2019年发布,并于2020年开源。领英维护了两个不同版本的DataHub,一个供内部使用,另一个开源供其他人使用。

DataHub的主要功能是什么?

  • 自动化元数据摄入:在LinkedIn中,DataHub元数据通过API或Kafka流推送从不同来源摄入。
  • 轻松的数据发现:对于最终用户,在最高级别上,DataHub前端支持三种类型的交互:搜索、浏览和查看/编辑元数据。
  • 通过上下文理解数据:DataHub上的每个数据实体都有一个配置文件页面,显示与该数据实体相关的所有元数据,从而为用户开发有关该数据的上下文提供必要的信息。

4. Netflix Metacat

Metacat是一项联邦元数据管理服务,由Netflix构建,于2018年6月开源。Metacat旨在简化数据的编目、发现、处理和管理。

它主要构成了从Netflix的不同来源访问所有数据资产的单一来源。尽管Metacat是一个开源数据目录,但似乎缺乏对其他人有效使用其架构和扩展的重要公共知识。

Metacat的主要功能是什么?

  • 数据抽象和互操作性:Metacat形成了一个通用的抽象层,可以通过Netflix的多个查询引擎访问数据集。
  • 业务和用户定义的元数据存储:Metacat有助于记录有关数据资产的业务和用户自定义元数据,确保为数据用户提供更多关于数据资产的信息,以及如何处理这些信息的标准规则。
  • 数据发现:Metacat通过ElasticSearch提供带有模式元数据和业务/用户定义元数据的数据,这有助于通过文本搜索进行查询。
  • 数据更改审核和通知:捕获任何元数据更改或更新-为可能需要用户注意的事件启用推送通知。

5. OpenMetadata

OpenMetadata是一个开源的端到端元数据管理解决方案,它定义了规范,以使用模式优先的方法来标准化元数据。

它主要选择解决被动元数据锁定在竖井中、元数据重复和元数据不可互操作的问题。

它于2021年8月发布,以Apache许可证2.0版发布

OpenMetadata的主要功能包括:

  • 发现:通过关键字搜索、关联和高级搜索实现数据发现
  • 活动提要:数据活动视图,显示数据更改事件的摘要
  • 描述性元数据:能够在数据资产上添加部落知识作为描述
  • RBAC:用于元数据操作的基于角色的访问控制(RBAC)
  • 沿袭:可编辑的无代码数据沿袭
  • 集成:能够连接到数据堆栈中流行的连接器

6. Open Data Discovery 

开放数据发现(ODD)是一个开源平台,致力于数据资产的发现、编目和管理。

Silicon Valley人工智能咨询公司Provectus于2021年8月宣布发布开放数据发现。

开放数据发现的主要功能:

这是开源数据目录工具列表中的一个非常新的添加,他们的网站提供了以下功能:

  • 数据发现:ODD对来自多个来源的数据进行爬网和索引,提供搜索功能,使用户能够找到相关的数据集。
  • 数据编目:ODD为每个数据集提供元数据和模式信息,允许用户理解数据的结构、格式和上下文。
  • 数据质量:ODD根据用户定义的规则和机器学习算法对数据集的质量进行评估和评分,确保用户能够信任他们正在使用的数据。
  • 数据沿袭:ODD跟踪数据的来源和转换,帮助用户跟踪数据沿袭并了解更改对其数据资产的影响。
  • 数据治理:ODD通过提供一个集中的平台来执行数据策略、管理访问控制并确保遵守法规,从而支持数据治理。
  • 协作:ODD通过提供注释、共享和版本控制等功能来促进协作,使用户能够在数据项目上协同工作。

正在评估开源数据目录工具

每个组织都有自己的数据目录工具评估标准框架,这取决于他们想要解决的核心挑战和主要用例。通常,要找到一个能够解决数据团队面临的所有挑战的单一开源数据目录工具是很有挑战性的。

我们开发了一个指南,帮助您创建一个定制的评估标准框架,并以循序渐进的方式从POC(概念验证)中获得最大价值。

同样重要的是要记住,这些开源数据目录工具大多是由工程师为工程师制作的,他们需要大量的时间和资源投资,才能为您的组织构建一个有效的数据目录工具。当您处于评估过程中时,您可能还想查看像Atlan这样的现成解决方案,它是对传统企业数据目录软件解决方案的飞跃,建立在最好的开源基础上。

本文地址

知识星球

微信公众号

视频号