【数据目录】Amundsen 与 DataHub:你应该选择哪种数据发现工具?
视频号
微信公众号
知识星球
我们生活在这样一个时代,从每天一次的数据仓库和数据湖加载到5分钟的微批量和近乎实时的流媒体。因此,构建下一代产品的公司需要更快、大规模的分析和实时数据发现。
这就是 Amundsen和DataHub这两个最受欢迎的元数据架构工具的诞生。有了阿蒙森,Lyft将其数据团队的生产力提高了20%。同样,DataHub帮助领英实现了数据民主化——每周有1500名员工访问DataHub,搜索、发现和使用数据来完成工作。
如果你想弄清楚,“阿蒙森vs数据中心——它们有什么相似之处?有区别吗?”那么你来对地方了。
Amundsen vs Amundsen :比较的关键参数
底层架构相比如何?
- Amundsen和Amundsen 中的元数据摄取是如何工作的?
- 评估内置的目录、沿袭和治理功能。
- 在部署、身份验证和授权方面有什么区别?
- 他们的美国专利有什么不同?阿蒙森和DataHub未来的产品路线图看起来如何?
Amundsen vs DataHub:比较底层架构
Amundsen和DataHub是使用类似组件构建的元数据搜索和发现工具。两者都使用 neo4j 作为数据库元数据,并使用Elasticsearch来促进元数据搜索。他们还使用REST API支持通信。
相似之处到此为止。当涉及到元数据摄取时,这些工具采用不同的方法。
元数据摄取在Amundsen是如何工作的?
Amundsen从Apache Goblin中汲取灵感,建立了ETL框架和编排引擎。它还支持与Airflow的无缝集成。
Databuilder数据摄取库由提取器、转换器和加载器组成。Amundsen的Databuilder支持Python、Cassandra、Hive、Snowflake、Postgres等各种提取器。这是因为Amundsen支持各种各样的数据库来存储元数据。您还可以使用Apache Atlas来处理Amundsen的部分后端和存储。
如果你没有找到你要找的提取器,你可以从通用提取器中得到一些提示,建立自己的generic extractor。同样的概念也适用于变压器(transformers )和装载机(loaders )。
DataHub中的元数据摄取与阿蒙森有何不同?
DataHub有一个基于Python的元数据接收包,由DataHub的商业部门Acryl Data维护。
对于任何源或接收器,您必须安装相关的插件。您可以使用Python包通过Kafka事件或REST API调用摄取元数据。此软件包与DataHub的CLI工具集成。或者,您可以在定制的Python库中使用acryl datahub包。对于复杂或计划的工作流,您可以将此软件包与Airflow无缝集成。
除了REST API,DataHub还支持GraphQL和基于AVRO的API over Kafka,用于跨其架构的各个元素进行通信。
以下是我们迄今为止讨论的所有内容的快速摘要:
Tool | Database | Search | Ingestion | Service Communication |
---|---|---|---|---|
Amundsen | neo4j | Elasticsearch | Databuilder | REST API |
DataHub | neo4j / MySQL | Elasticsearch | source-specific plugins | REST API, GraphQL, Kafka |
接下来,让我们看看它们的功能是如何不同的。
Amundsen vs DataHub:数据目录、谱系和治理
Amundsen和DataHub都支持以下用例:
- 搜索和发现 : 元数据搜索和发现是通过一个与各种来源集成的中央平台进行的。
- 世系 : 您可以跟踪数据的来源、移动和演变,以实现法规遵从性和业务上下文。
- 法规遵从性:您可以定义细粒度的策略来控制信息访问。此外,数据分类法基于各种内部业务规则和全球监管标准(GDPR、CCPA)。
- 质量 : 您可以使用外部工具配置定义数据质量的业务规则,并设置质量合规集成、报告和仪表板。
除了这些用例之外,这两个工具还支持几个摄取源和仪表板连接器。
例如,Amundsen有20多个数据库连接器用于接收,还有几个仪表板连接器。有了像AWS Glue这样的通用连接器和Superset这样的仪表板的支持,Amundsen在不编写连接器的情况下实现了巨大的可扩展性。
同样,DataHub具有广泛的接收源、仪表板连接器、ML集成、管道以及其他元数据搜索和发现功能。
Amundsen vs DataHub:关键差异和USPs
Amundsen易于理解、安装、修改和部署。关键USP包括:
- 后端支持:阿蒙森被认为在后端支持方面处于领先地位。除了neo4j(阿蒙森的默认后端)之外,它还支持AWS Neptune和Apache Atlas作为后端环境。
- 预览:此功能非常独特。使用预览,您可以将元数据目录与实时数据库连接,并预览数据样本以获取更多上下文。
以下是Amundsen的联合创始人在将该工具与DataHub进行比较时要说的话。
同时,DataHub的优势在于其数据治理能力。其中包括:
- 更精细的访问控制:DataHub支持列级和数据集级分类、PII标记、自动数据删除(以帮助遵守GDPR)等。
- 数据沿袭:在其路线图中,DataHub承诺列级沿袭映射,并与Great Experiences、dbt测试和deequ等测试框架集成。
虽然DataHub不像Amundsen那样支持多个后端环境,但DataHub的路线图将此功能列为优先事项。
以下是DataHub的创始人之一如何将其与Amundsen区分开来。
Feature | Amundsen | DataHub |
---|---|---|
Search and discovery | Yes | Yes |
OIDC/OAuth | Yes | Yes |
Airflow support | Yes | Yes |
dbt support | Yes | Yes |
Multiple backend support | Yes | No |
Table lineage | Yes | Yes |
Column lineage | Yes | No |
Classification and tagging | Yes | Yes |
Fine-grained access control | No | Yes |
Amundsen vs DataHub:部署、身份验证和授权
这两种工具都可以使用二进制文件轻松构建和部署。然而,如果你想快速轻松地开始,你可以在Docker上运行它们。
唯一的先决条件是,您需要Docker和Docker Compose以及Python或Node.js版本。如果您需要更多帮助来部署这些工具,下面是一些分步设置指南:
Amundsen vs DataHub:路线图、更新和社区
这两个项目都有一个公共路线图和广泛的社区支持,您可以遵循。
Amundsen为路线图维护了一个摘要页面,以及一个GitHub问题页面,在那里你可以确切地看到正在进行的工作。此外,你可以通过以下方式参与:
- 通过收集标记为“良好的第一期”的问题,为GitHub上的项目做出贡献
- 在Medium上订阅阿蒙森的月度更新
- 关注Stemma的博客
和Amundsen一样,DataHub也维护产品路线图,并在Medium上频繁更新。
Amundsen vs DataHub:什么对你最有利?
虽然有很多元数据搜索和发现工具,但很难找到完美的解决方案。最好的工具是能够满足您的业务需求,同时与您的技术堆栈无缝集成。
为了总结一切,我们制作了一个功能矩阵,突出显示了这两种工具的功能。
Tool | Amundsen | DataHub |
---|---|---|
Developed by | Lyft | |
Architecture | ETL-based metadata ingestion | Plugin-based metadata ingestion |
Features | 1. Easy to set up, modify and deploy 2. Search and discovery 3. Multiple backend support 4. Data lineage (table and column) 5. Data classification and tagging |
1. Search and discovery 2. Integrates with the stream ecosystem using Kafka and supports GraphQL 3. Data lineage (column-based lineage is in the roadmap) 4. Fine-grained access control 5. Data classification and tagging |
Deployment | 1. Kubernetes 2. AWS ECS 3. Standalone docker |
1. Kubernetes 2. Google Cloud GKE (Google Kubernetes Engine) 3. Standalone docker |
Authentication | OAuth OIDC (OpenID Connect) | 1. OAuth OIDC 2. JaaS (Java Authentication and Authorization Service) |
Authorization | In the roadmap | Platform and metadata policies |
Roadmap and updates | 1. Amundsen roadmap 2. Updates on Medium and Stemma 3. GitHub (also lets you contribute) |
1. DataHub roadmap 2. Updates on Medium |
Amundsen vs DataHub:相关资源
- Amundsen vs. Atlas: What are the differences and similarities? Which one is better for you?
- A quick introduction to Amundsen, Lyft’s open source data discovery platform
- A quick start guide to Linkedin’s Datahub, an open source metadata management tool
- Get access to Amundsen demo and DataHub demo: Sandbox demo sites pre-populated with sample data.
- Understanding AWS Glue Data Catalog: Architecture, components, and crawlers.
- 143 次浏览