在之前的一篇博客中,我将数据目录定义为“一组元数据,结合数据管理和搜索工具,帮助分析师和其他数据用户找到他们需要的数据,作为可用数据的库存,并提供信息来评估健身数据的预期用途。”
数据目录从一开始就作为管理数据库存和向分析师公开数据集的一种手段,现在在功能、受欢迎程度和重要性方面都有所增长。现代数据目录起源于帮助数据分析师发现和评估数据,以继续满足分析师的需求,但它们已经扩大了覆盖范围。它们现在是数据管理、数据管理和数据治理的核心,所有这些都依赖于元数据。
什么是数据目录?
将数据目录视为类似于传统零售目录。它替换包含有关产品的信息,而是包含元数据以及数据管理和搜索工具,作为可用数据的清单,并提供评估数据适用性的信息。
什么是元数据管理?
元数据管理是组织跟踪数据的方式,包括数据的来源和使用方式。
数据目录和元数据管理之间的区别是什么?
元数据描述数据特征,如结构、格式和内容,而数据目录是一种用于管理和组织组织组织内数据资产元数据的软件工具,有助于一系列用例。数据目录存储元数据,以便于元数据管理,并扩展为搜索和发现、治理和协作。
元数据管理的一种新方法
似乎每个人都想要数据管理,但大多数人都希望避免元数据管理。对元数据管理的厌恶是过去元数据方法的产物,不同的元数据由各种工具使用专有格式收集,没有集成。BI时代的元数据管理是痛苦的,但我们无法避免元数据对数据管理至关重要的现实。正如您需要有关财务的数据来进行有效的财务管理一样,您也需要有关数据(元数据)的数据来实现有效的数据管理。没有元数据就无法管理数据。
随着数据湖、大数据、自助分析和数据科学的出现,数据管理变得越来越复杂,元数据的作用发生了变化,元数据的重要性呈指数级增长。最新、准确且易于访问的元数据是必不可少的。元数据差异是不可行的,作为事后考虑的元数据管理是危险的。我们必须积极地管理元数据,而数据目录是适合这项工作的工具。数据目录已成为元数据的新黄金标准,也是数据管理的基石。
自助服务时代的元数据
元数据的真正价值在于它所能提供的答案。依赖数据的人对可信度、延迟、血统、敏感性、准备等都有疑问。有时,他们想找到其他知道或曾经使用过这些数据的人,以获得人类的视角。他们需要了解访问、隐私和安全限制、成本等。从数据集名称和属性到使用、访问、许可和主题专家,稳健的元数据是回答数据用户和数据管理者会问的许多问题的关键。在当今的自助服务世界中,元数据对于三组不同的数据管理利益相关者至关重要:
- 数据消费者需要元数据来帮助他们找到用于报告、分析和数据科学工作的数据,并评估这些数据以确保他们使用正确的数据集。
- 数据管理者需要元数据来观察数据使用情况,了解数据消费者的需求和兴趣,并有效管理共享数据的收集。
- 数据管理器(所有者和管理员)需要元数据来识别和保护敏感数据、跟踪数据沿袭并建立对数据的信任。
元数据和数据目录
元数据是数据目录的核心。每个目录都收集有关数据清单的数据,以及与数据相关的流程、人员和平台的数据。过去收集的业务、流程和技术元数据的元数据工具以及数据目录继续这种做法。但数据目录的作用要大得多。他们收集关于数据集的元数据、关于处理的元数据、用于搜索的元数据以及关于人的元数据。图1显示了一个逻辑数据模型,它表示数据目录的典型元数据内容。
数据目录改变了游戏规则,提升了元数据管理的最佳实践:
- 众包元数据。许多目录元数据是通过应用算法和机器学习自动收集的。但有时最有价值的元数据是个人和团体的知识和经验。收集这些知识作为用户评分、评论、提示和技术,丰富了元数据收集,并将部落知识转化为共享和持久的数据管理资源。
- 有关人员的数据。数据管理和数据分析归根结底是人类的活动。了解哪些人具有数据角色和关系以及这些角色的性质是很有价值的。数据目录捕获元数据,以识别数据用户、数据创建者、数据管理员和数据主题专家。
- 自动化元数据发现。拥有大量数据的组织——实际上有数以万计的数据库——根本不知道他们拥有的所有数据。如果没有自动发现,就不可能对PB级的数据进行编目。
下一步是什么?
元数据自动发现是数据编目的重要组成部分。但数据目录中的大部分元数据都是众包和协作的结果。在我的下一篇博客中,我将讨论协作和众包在数据编目中的作用。
最新内容
- 17 hours ago
- 19 hours ago
- 20 hours ago
- 3 days 10 hours ago
- 3 days 18 hours ago
- 3 days 18 hours ago
- 3 days 19 hours ago
- 3 days 19 hours ago
- 1 week 1 day ago
- 1 week 1 day ago