跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

数据目录: 一个在企业中查找、理解和管理数据的地方

数据目录已迅速成为现代数据管理的核心组成部分。成功实现数据目录的组织在数据分析的速度和质量以及需要执行数据分析的人员的参与度和热情方面都发生了显著变化。相比之下,没有数据目录的组织通常会有以下问题:什么是数据目录?为什么我们需要一个数据目录?数据目录的作用是什么?这些都是很好的问题,也是开始数据编目之旅的一个合乎逻辑的地方。

什么是数据目录?

数据目录是一个元数据集合,与数据管理和搜索工具相结合,帮助分析师和其他数据用户找到他们需要的数据,作为可用数据的库存,并提供信息来评估数据是否适合预期用途。

这个简短的定义提出了关于数据目录、数据管理、搜索、数据库存和数据评估的几点,但所有这些都取决于提供元数据集合的中心能力。

数据目录已经成为大数据时代和自助式商业智能时代元数据管理的标准。我们今天需要的元数据比BI时代的元数据更为广泛。数据目录首先关注数据集(可用数据的清单),并将这些数据集与丰富的信息联系起来,为使用数据的人提供信息。图1展示了数据目录中包含的典型元数据主题。

Figure 1 – Data Catalog Metadata Subjects

数据集是数据工作者需要查找和访问的文件和表。它们可以位于数据湖、仓库、主数据存储库或任何其他共享数据资源中。人员元数据描述那些与数据消费者、策展人、管理员、主题专家等合作的人员搜索元数据支持标记和关键字,以帮助人们查找数据。处理元数据描述了在数据的整个生命周期中进行管理时应用的转换和派生供应商元数据对于从外部来源获取的数据尤其重要,这些数据提供了有关来源和订阅或许可限制的信息。我将在即将发布的博客中深入研究目录元数据。

数据目录的作用是什么?

现代数据目录包括许多特性和功能,这些特性和功能都取决于对数据进行编目的核心能力——收集识别和描述可共享数据库存的元数据。尝试将编目作为一种手动工作是不切实际的。数据集的自动发现对于初始目录构建和新数据集的持续发现都至关重要。将人工智能和机器学习用于元数据收集、语义推理和标记,对于从自动化中获得最大价值和最大限度地减少手动工作非常重要。

以健壮的元数据作为数据目录的核心,支持许多其他特性和功能,其中最重要的包括:

数据集搜索.

强大的搜索功能包括按方面、关键字和商业术语进行搜索。自然语言搜索功能对于非技术用户来说尤其有价值。根据相关性和使用频率对搜索结果进行排名是特别有用和有益的功能。

数据集评估

选择正确的数据集取决于评估其适用于分析用例的能力,而无需首先下载或获取数据。重要的评估功能包括预览数据集、查看所有相关元数据、查看用户评分、阅读用户评论和策展人注释以及查看数据质量信息的功能。

数据访问

从搜索到评估,再到数据访问的路径应该是无缝的用户体验,使用目录知道的访问协议,并直接提供访问或与访问技术互操作。数据访问功能包括对安全、隐私和法规遵从性敏感数据的访问保护。

一个强大的数据目录软件应该提供许多其他功能,包括支持数据管理和协作数据管理、数据使用跟踪、智能数据集推荐和各种数据治理功能

data catalog

数据目录的好处

  • 提高了数据效率
  • 改进的数据上下文
  • 降低错误风险
  • 改进的数据分析

通过反思元数据的价值和使用综合元数据创建的功能,数据目录的数据管理优势变得显而易见。然而,最大的价值往往体现在对分析活动的影响上。我们工作在一个自助分析的时代。IT组织无法提供不断增加的数据分析人员所需的所有数据。但今天的业务和数据分析师往往是盲目工作的,无法了解现有的数据集、这些数据集的内容以及每个数据集的质量和有用性。他们花了太多时间寻找和理解数据,经常重新创建已经存在的数据集。他们经常使用不充分的数据集,导致不充分和不正确的分析。图2说明了当分析师使用数据目录时,分析过程是如何变化的。

Data catalog

figure 2 – Process With and Without a Data Catalog

在没有目录的情况下,分析师通过整理文档、与同事交谈、依靠部落知识或简单地使用熟悉的数据集来寻找数据,因为他们知道这些数据集。这个过程充满了试错、浪费和返工,以及重复的数据集搜索,随着时间的流逝,这些搜索往往会导致使用“足够接近”的数据。通过数据目录,分析师能够快速搜索和查找数据,查看所有可用的数据集,评估并做出明智的选择,使用哪些数据,并高效而自信地进行数据准备和分析。通常情况下,80%的时间用于查找数据,仅20%用于分析,而20%用于查找和准备数据,80%用于分析。在不增加更多分析师的情况下,大大提高了分析质量,提高了组织分析能力。

结论

在大数据、数据湖和自助服务时代管理数据具有挑战性。数据目录有助于应对这些挑战。主动数据管理是数据目录成功的核心要素,也是现代数据管理的关键实践。在我的下一篇博客中,我将回答这个问题:什么是数据整理?

本文地址
最后修改
星期一, 五月 15, 2023 - 20:54
Article