Metacat作为Netflix支持的所有数据存储的真实性和元数据访问层的单一来源。
什么是Metacat?
Metacat是一个在Netflix上构建的联邦服务,提供了一个统一的REST/Trift接口来访问其各种数据存储的元数据。它试图使数据易于发现、处理和管理。
Metacat有三个主要目标:
- 所有元数据系统的联合视图
- 统一的API可从各种来源访问元数据
- 针对数据集的任意业务和用户元数据存储的解决方案
A centralized service that all compute engines could use to access the different data sets. Image source:
Netflix为什么要建立Metacat?
数据,而不是元数据,可能是Netflix作为一家公司最有价值的战略资产,它为他们所做的一切提供动力。从手表推荐到根据用户口味变化的缩略图,无所不包。因此,在一段时间后,处理如此庞大的大数据成为一项挑战,这是很自然的。
Netflix运营的庞大数据池分布在多个平台上,如Amazon S3、Druid、Redshift和MySql等。Netflix构建了Metacat,以保持所有平台的无缝互操作性。
Joris Evers在2013年表示,Netflix大约有3300万个不同版本,当时全球有3300万订户。2021年初,他们拥有超过2.03亿付费用户!
Metacat在Netflix的数据基础设施中的地位如何?
Metacat填补了Netflix数据堆栈中的一个重要空白,介于他们的PIG ETL系统和Hive之间。它提供了一个统一的API来发现和访问Netflix生态系统中各种数据源(如Amazon S3、Druid、Redshift和MySql)的元数据。
Netflix的数据架构有三个主要服务:执行服务、元数据服务(Metacat)和事件服务。
Metacat的功能是什么?
Metacat功能可以简单地分类如下:
- 数据抽象和互操作性
- 业务和用户定义的元数据存储
- 数据发现
- 数据更改审核和通知
数据抽象和互操作性
Metacat表现为一个通用的抽象层,因此可以通过Netflix使用的多个查询引擎(Pig、Spark、Presto和Hive)访问数据集。
业务和用户定义的元数据存储
Metacat有助于记录有关数据资产的业务和用户定义的元数据。从而确保为数据用户提供数据资产中的更多信息,以及如何处理这些信息的标准规则。
数据发现
Metacat通过Elastic Search返回模式元数据和业务/用户定义元数据,这有助于通过文本搜索进行查询。还启用了自动完成、自动建议和标签,以便更快地识别感兴趣的数据。
数据更改审核和通知
任何元数据更改或更新都由Metacat捕获。对于可能需要数据管理员、生产者和消费者注意的此类事件,将启用推送通知。
Metacat是您的数据堆栈中缺失的部分吗?
Metacat是开源的,并且正在不断增强,但它可以高度定制Netflix的数据堆栈和管道,并且没有任何可用的公共文档。其他第三方使用Metacat构建自己的元数据引擎和数据发现平台的信息也不多。
如果你也在考虑是否为你的团队构建或购买数据目录和发现平台,你可能想尝试像Atlan这样的现成工具,它们具有Metacat、Atlas或Amundsen等开源工具的所有功能和复杂性,但所有数据用户都可以轻松使用,而不仅仅是工程师。
Netflix Metacat:相关阅读
- Evaluating a data catalog? Here are the 5 essential features to look for in a modern data catalog
- Open-source data catalog software: 5 popular tools to consider in 2023
- 5 popular open-source data lineage tools in 2023
- Data catalogs are going through a paradigm shift! Here is everything you need to know about the Third-Generation Data Catalog.
- Learn more about Atlan: The pioneering third-generation data catalog for modern data teams.
Tags
最新内容
- 3 weeks ago
- 3 weeks 2 days ago
- 3 weeks 3 days ago
- 3 weeks 4 days ago
- 3 weeks 4 days ago
- 3 weeks 4 days ago
- 3 weeks 5 days ago
- 3 weeks 5 days ago
- 3 weeks 5 days ago
- 3 weeks 5 days ago