跳转到主要内容
Chinese, Simplified

我们生活在这样一个时代,从每天一次的数据仓库和数据湖加载到5分钟的微批量和近乎实时的流媒体。因此,构建下一代产品的公司需要更快、大规模的分析和实时数据发现。

这就是 AmundsenDataHub这两个最受欢迎的元数据架构工具的诞生。有了阿蒙森,Lyft将其数据团队的生产力提高了20%。同样,DataHub帮助领英实现了数据民主化——每周有1500名员工访问DataHub,搜索、发现和使用数据来完成工作。

如果你想弄清楚,“阿蒙森vs数据中心——它们有什么相似之处?有区别吗?”那么你来对地方了。

Amundsen vs Amundsen :比较的关键参数

底层架构相比如何?

  • Amundsen和Amundsen 中的元数据摄取是如何工作的?
  • 评估内置的目录、沿袭和治理功能。
  • 在部署、身份验证和授权方面有什么区别?
  • 他们的美国专利有什么不同?阿蒙森和DataHub未来的产品路线图看起来如何?

Amundsen vs DataHub:比较底层架构

Amundsen和DataHub是使用类似组件构建的元数据搜索和发现工具。两者都使用 neo4j 作为数据库元数据,并使用Elasticsearch来促进元数据搜索。他们还使用REST API支持通信。

相似之处到此为止。当涉及到元数据摄取时,这些工具采用不同的方法。

元数据摄取在Amundsen是如何工作的?

Amundsen从Apache Goblin中汲取灵感,建立了ETL框架和编排引擎。它还支持与Airflow的无缝集成。

Databuilder数据摄取库由提取器、转换器和加载器组成。Amundsen的Databuilder支持Python、Cassandra、Hive、Snowflake、Postgres等各种提取器。这是因为Amundsen支持各种各样的数据库来存储元数据。您还可以使用Apache Atlas来处理Amundsen的部分后端和存储。

如果你没有找到你要找的提取器,你可以从通用提取器中得到一些提示,建立自己的generic extractor。同样的概念也适用于变压器(transformers )和装载机(loaders )。

Amundsen_Architecture

DataHub中的元数据摄取与阿蒙森有何不同?

DataHub有一个基于Python的元数据接收包,由DataHub的商业部门Acryl Data维护。

对于任何源或接收器,您必须安装相关的插件。您可以使用Python包通过Kafka事件或REST API调用摄取元数据。此软件包与DataHub的CLI工具集成。或者,您可以在定制的Python库中使用acryl datahub包。对于复杂或计划的工作流,您可以将此软件包与Airflow无缝集成。

除了REST API,DataHub还支持GraphQL和基于AVRO的API over Kafka,用于跨其架构的各个元素进行通信。

DataHub architecture

以下是我们迄今为止讨论的所有内容的快速摘要:

Tool Database Search Ingestion Service Communication
Amundsen neo4j Elasticsearch Databuilder REST API
DataHub neo4j / MySQL Elasticsearch source-specific plugins REST API, GraphQL, Kafka

接下来,让我们看看它们的功能是如何不同的。

Amundsen vs DataHub:数据目录、谱系和治理

Amundsen和DataHub都支持以下用例:

  • 搜索和发现 : 元数据搜索和发现是通过一个与各种来源集成的中央平台进行的。
  • 世系 :  您可以跟踪数据的来源、移动和演变,以实现法规遵从性和业务上下文。
  • 法规遵从性:您可以定义细粒度的策略来控制信息访问。此外,数据分类法基于各种内部业务规则和全球监管标准(GDPR、CCPA)。
  • 质量 : 您可以使用外部工具配置定义数据质量的业务规则,并设置质量合规集成、报告和仪表板。

除了这些用例之外,这两个工具还支持几个摄取源和仪表板连接器

例如,Amundsen有20多个数据库连接器用于接收,还有几个仪表板连接器。有了像AWS Glue这样的通用连接器和Superset这样的仪表板的支持,Amundsen在不编写连接器的情况下实现了巨大的可扩展性。

同样,DataHub具有广泛的接收源、仪表板连接器、ML集成、管道以及其他元数据搜索和发现功能。

Amundsen vs DataHub:关键差异和USPs

Amundsen易于理解、安装、修改和部署。关键USP包括:

  • 后端支持:阿蒙森被认为在后端支持方面处于领先地位。除了neo4j(阿蒙森的默认后端)之外,它还支持AWS Neptune和Apache Atlas作为后端环境。
  • 预览:此功能非常独特。使用预览,您可以将元数据目录与实时数据库连接,并预览数据样本以获取更多上下文。

以下是Amundsen的联合创始人在将该工具与DataHub进行比较时要说的话。

同时,DataHub的优势在于其数据治理能力。其中包括:

  • 更精细的访问控制:DataHub支持列级和数据集级分类、PII标记、自动数据删除(以帮助遵守GDPR)等。
  • 数据沿袭:在其路线图中,DataHub承诺列级沿袭映射,并与Great Experiences、dbt测试和deequ等测试框架集成。

虽然DataHub不像Amundsen那样支持多个后端环境,但DataHub的路线图将此功能列为优先事项。


以下是DataHub的创始人之一如何将其与Amundsen区分开来。

Feature Amundsen DataHub
Search and discovery Yes Yes
OIDC/OAuth Yes Yes
Airflow support Yes Yes
dbt support Yes Yes
Multiple backend support Yes No
Table lineage Yes Yes
Column lineage Yes No
Classification and tagging Yes Yes
Fine-grained access control No Yes

Amundsen vs DataHub:部署、身份验证和授权

这两种工具都可以使用二进制文件轻松构建和部署。然而,如果你想快速轻松地开始,你可以在Docker上运行它们。

唯一的先决条件是,您需要Docker和Docker Compose以及Python或Node.js版本。如果您需要更多帮助来部署这些工具,下面是一些分步设置指南:

Amundsen vs DataHub:路线图、更新和社区

这两个项目都有一个公共路线图和广泛的社区支持,您可以遵循。

Amundsen为路线图维护了一个摘要页面,以及一个GitHub问题页面,在那里你可以确切地看到正在进行的工作。此外,你可以通过以下方式参与:

  • 通过收集标记为“良好的第一期”的问题,为GitHub上的项目做出贡献
  • 在Medium上订阅阿蒙森的月度更新
  • 关注Stemma的博客

和Amundsen一样,DataHub也维护产品路线图,并在Medium上频繁更新。

Amundsen vs DataHub:什么对你最有利?

虽然有很多元数据搜索和发现工具,但很难找到完美的解决方案。最好的工具是能够满足您的业务需求,同时与您的技术堆栈无缝集成。

为了总结一切,我们制作了一个功能矩阵,突出显示了这两种工具的功能。

Tool Amundsen DataHub
Developed by Lyft LinkedIn
Architecture ETL-based metadata ingestion Plugin-based metadata ingestion
Features 1. Easy to set up, modify and deploy
2. Search and discovery
3. Multiple backend support
4. Data lineage (table and column)
5. Data classification and tagging
1. Search and discovery
2. Integrates with the stream ecosystem using Kafka and supports GraphQL
3. Data lineage (column-based lineage is in the roadmap)
4. Fine-grained access control
5. Data classification and tagging
Deployment 1. Kubernetes
2. AWS ECS
3. Standalone docker
1. Kubernetes
2. Google Cloud GKE (Google Kubernetes Engine)
3. Standalone docker
Authentication OAuth OIDC (OpenID Connect) 1. OAuth OIDC
2. JaaS (Java Authentication and Authorization Service)
Authorization In the roadmap Platform and metadata policies
Roadmap and updates 1. Amundsen roadmap
2. Updates on Medium and Stemma
3. GitHub (also lets you contribute)
1. DataHub roadmap
2. Updates on Medium

Amundsen vs DataHub:相关资源

 

 

原文地址
https://atlan.com/amundsen-vs-datahub
本文地址
Article

微信

知识星球

微信公众号

视频号