【数据目录】数据目录:您的企业真的需要吗?

视频号

微信公众号

知识星球

Chinese, Simplified

数据目录是现代数据管理的支柱,使组织能够有效地查找、理解、信任和使用其数据。继续阅读,了解更多关于什么是数据目录以及为什么在2023年需要数据目录的信息。

目录

  • 什么是数据目录
  • 什么是数据目录
  • 现代数据目录的组成部分
  • 数据目录的类型
  • 你需要数据目录吗?
  • 接下来是什么
  • 什么是数据目录:相关阅读

什么是数据目录?

现代数据目录有助于人们查找、理解、信任和使用数据。

例如,假设你在政府卫生部门担任分析师。数据目录可以帮助您:

  • 查找相关数据。数据目录可以告诉你需要哪些数据集来分析流感病例。
  • 跟踪、跟踪和信任数据。如果你想知道是谁编辑了一个数据集,它有多旧,或者它来自哪里,数据目录会告诉你这一点。
  • 合作。如果你需要与另一个部门的人合作来理解和策划你的数据集,该怎么办?这就是协作功能的用武之地,比如共享工作区。
  • 共享您的数据。通过发布您的数据和相关元数据,让其他部门可以轻松获得您的发现。
  • 实施治理策略和访问控制。强制谁有权访问哪些数据和文件,以遵守《通用数据保护条例》(GDPR)等法规。

一些最常见的数据目录用例包括:

  1. 高效的数据管理:数据目录通过将不同来源的数据汇集在一起,使众包数据管理变得更容易,因此您可以组织和维护它们。
  2. 提高数据团队的生产力:数据从业者花费更多的时间来寻找正确的数据,而不是实际使用数据。数据目录通过减少数据搜索和发现所需的时间,大大提高了生产力。
  3. 统一所有数据上下文:数据目录统一了生态系统中所有数据的上下文,并作为业务的可信语义层。
  4. 简化员工入职:通过数据目录,让新员工加入组织,让团队成员加入新项目,这是非常高效的,可以让他们轻松、快速、安全地访问有上下文的可信数据。
  5. 加快根本原因分析:数据目录中的Lineage功能意味着在数据产品出现故障时可以更快地进行故障排除和根本原因分析。
  6. 简化安全和法规遵从性:数据目录可能是在整个组织中简化数据安全和法规遵循性的唯一也是最简单的方法。

use case

数据目录不是什么

  • 数据清单。与数据目录不同,数据清单通常是一种静态资产,没有搜索等功能。
  • 数据仓库。数据目录并不像数据仓库那样被设计成持久性和访问层
  • 业务术语表。业务术语表有助于为数据存储中使用的术语定义通用语言,并与数据目录一起使用。
  • 数据字典。与数据词汇表一样,字典帮助用户理解数据的语义,但不提供编目功能。
  • 一个数据湖。数据湖和数据仓库一样,都是持久层。它们不一定会组织或帮助用户使用它们所包含的数据。

数据目录的组件

  • 数据搜索和发现:一种与搜索信息或在线购买物品一样直观的搜索体验。具有推荐、信任信号和过滤功能的Replete
  • 业务术语表:业务术语表,包括关键数据元素,如定义、类别、用法、所有者详细信息,以及为数据资产添加上下文的其他信息
  • 数据沿袭:自动可视化沿袭,以跟踪数据流及其在整个生命周期中所经历的转换
  • 协作:一个无缝融入数据团队日常工作流程的工作空间,简化了数据共享和访问请求监控
  • 数据治理:能够为细粒度控制设置工作流,以根据角色、资产类型、分类等限制访问
  • 集成:与数据堆栈中所有关键组件和工具的本机或API驱动集成

1.数据发现和搜索

多亏了谷歌、亚马逊、奈飞、优步和其他公司,我们的搜索体验发生了根本性的变化。如果你在网上买一件t恤,如果你的搜索结果随机返回34亿,你会大笑起来。

你期望最相关的结果对你来说是顶尖的。你也知道,与你相关的事情可能与你儿子无关——你的需求和经历会有所不同。

同样,当考虑购买东西时,你需要背景。你想阅读其他人的评论,看看他们在不同天气下穿着t恤的照片,等等。

这是2023年,您的团队在搜索要使用的数据资产时,希望您的数据目录也能如此。他们期望:

  • 像谷歌一样快速返回搜索结果
  • 一个数据目录,可以知道他们何时拼写错误
  • 使用业务上下文进行筛选
  • 对数据的信心
  • 了解数据资产的使用行为、沿袭可见性和验证状态

了解更多信息→ 检查数据发现和搜索在数据目录中的实际效果

data catalog facilitates metadata search across your data stack

2.术语表

业务术语表有助于定义、标准化和上下文化数据资产,以便每个人都说相同的语言。

因此,您可以停止提问,例如:

  • “这个数据资产意味着什么?”
  • “这份报告中的Y代表什么?”
  • “Y和X有什么不同?”

早在2017年,爱彼迎的Chris Williams和John Bodley就曾著名地谈到部落知识(tribal knowledge)扼杀了数据团队的生产力没有上下文的数据是无用的

想想你团队中试图理解“salesfigureNA_f.”的新成员,或者你在另一个大陆的团队成员,他一直在阅读英制数字,而你所有的计算都是公制的。两者都需要一个词汇表才能达到相同的目的。

Business glossary: A centralized knowledge bank that explains key business terms and concepts. Source: Atlan.

Business glossary: A centralized knowledge bank that explains key business terms and concepts. Source: Atlan.

3.数据沿袭

数据目录中的数据沿袭功能提供了对数据起源及其生命周期演变的可见性。

最好的数据目录工具可确保:

了解更多信息→ 数据沿袭的重要性、用例和好处

Data lineage helps you understand the journey of data from its source to dashboardsData lineage helps you understand the journey of data from its source to dashboards

4.协作

数据目录将所有东西汇集在一起——来自不同来源的数据、数据的智能(机器+人类)、生产和消费数据的人以及他们所使用的工具。协作使这种融合成为可能。

现代数据目录允许用户在日常工作流程中直观地行动(协作):

  • 标记团队成员,要求他们向数据资产添加更多上下文
  • 将有关数据资产的Slack对话引入目录本身
  • 提出JIRA票证以解决管道破裂问题

了解更多信息→ 体验嵌入式协作如何在数据生态系统中带来重要的“流量”。

Data catalogs integrate with collaboration tools like Slack, Jira, and GitHub

5.数据治理

正确且维护良好的数据资产清单(传统目录)可能是治理的良好起点。然而,考虑到现代企业中数据的速度、数量和复杂性,这是不够的

我们需要将治理政策嵌入日常工作流程的数据目录,而不是事后思考。现代数据目录明白,数据治理需要从底层开始。它必须由从业者主导,而不是自上而下地处理。

对于部署数据目录工具来说,实现一个健壮的数据治理程序是一个巨大的业务案例。这就是为什么企业会寻找能够让他们通过设计进行管理的数据目录。

这是如何表现的?以下是一些例子:

  • 灵活反映团队工作方式
  • 能够实现基于域、基于角色和基于目的的访问策略
  • 敏感数据的自动识别
  • 通过沿袭自动传播自定义分类

了解更多信息→ 数据目录如何启用和自动化主动数据治理。

A data catalog helps automate the propagation of PII classifications through data lineageA data catalog helps automate the propagation of PII classifications through data lineage

6.集成

我们前面提到过,但值得重复:数据目录必须与现代数据堆栈中的所有关键数据源和工具集成,才能使用元数据。

数据目录通常与以下内容集成:

  • 数据源-数据仓库(如Snowflake)、关系数据库(如MySQL)和lakehouses(如Databricks等)。
  • 转换引擎-dbt云,dbt核心。
  • 商业智能工具-Looker、Power BI、Tableau。

默认情况下,现代数据目录也是打开的。它们具有可扩展性和可定制性。除了支持本机集成外,它们还使数据工程师能够使用开放API从其他来源引入元数据。

了解更多信息→ 了解开放API和机器人程序如何帮助自动化数据文档

A data catalog fetches metadata, not just from data sources, but also from ETL, ingestion, streaming, and BI tools.

数据目录的类型

目前主要有两种类型的数据目录工具可用:

  • 企业数据目录软件
  • 开源数据目录工具

企业数据目录软件是现成的解决方案,从一开始就提供无缝的用户体验。他们还通过入职培训和研讨会提供支持,以推进您的数据启用计划。

Forrester最近发布了DataOps报告的企业数据目录,以帮助数据领导者评估和确定适合其数据生态系统的最佳数据目录软件。他们认为,客户应该寻找以下企业数据目录软件:

  • 处理数据和元数据的多样性、粒度和动态特性。
  • 对数据流和交付的性质和路径产生深刻的透明度。
  • 提供增强现代数据操作和工程最佳实践的用户界面/用户体验。

报告还根据26项评估标准对14个最突出的企业数据目录进行了评估。

该报告强调了企业数据目录解决DataOps用例的重要性:

企业数据目录创建了数据透明度,使数据工程师能够实施DataOps活动,开发、协调和编排数据策略和控制的供应,并管理数据和分析产品组合。

了解更多信息→ 企业数据目录:发现、协作、数据操作和治理

开源数据目录工具通常是由大型科技公司构建的,作为他们自己的数据发现和目录解决方案,后来为外部团队开源。

示例包括:

 

如何评估数据目录工具?

评估数据目录可能会带来很多问题。我们已经确定了一个5步框架,以帮助简化您的数据目录评估。

  • 确定您的组织需求和预算
  • 创建评估标准
  • 了解市场上的供应商和产品
  • 入围并演示潜在的解决方案
  • 执行概念验证(POC)

Key features to look for while evaluating a data catalog

你需要数据目录吗?

许多组织将从数据目录中受益。但您可能需要的一些具体迹象包括数据团队:

  • 是否花费大量时间来确定要使用哪些数据集,或使用不同的数据集
  • 跨多个源管理数据,如数据湖、数据库和仓库
  • 对于哪些数据集是正确使用的存在分歧
  • 将受益于记录有关其数据集的机构知识
  • 对数据治理有安全或法规要求
  • 正在考虑为企业主提供数据民主化和自助服务

The bottom of this curve is the ideal time to buy a data catalog.The bottom of this curve is the ideal time to buy a data catalog.

接下来是什么

部署数据目录将启动组织中数据民主化和数据启用的种子进程。它表明您的组织非常重视数据价值的最大化。它还认识到,当我们为组织中不同的数据用户创造一个公平的竞争环境时,我们可以从数据中提取更多。数据目录是这一包容性举措的起点。

你正在为你的组织寻找数据目录吗?你可能想看看Atlan。

原因如下:

  • 最新的Forrester报告将Atlan评为DataOps企业数据目录的领导者,在17项评估标准中给予了最高的分数,包括产品愿景、市场方法、创新路线图、性能、连接性、互操作性和可移植性。
  • Atlan与现代数据堆栈中最好的解决方案进行深度集成并建立合作伙伴关系。在这里查看我们的合作伙伴。
  • Atlan已经得到了世界上一些最好的数据团队的喜爱和信心,包括WeWork、Postman、Monster、Plaid和Ralph Lauren等。在这里查看我们的客户对我们的评价。

什么是数据目录:相关阅读

本文地址
https://architect.pub/node/2677
SEO Title
Data Catalog: Does Your Business Really Need One?