数据目录终于成熟了。它正在发展到一个超越自己名字的程度。
数据从业者期望从数据目录中驱动的用例在过去几年中发生了显著变化。虽然这一变化并不突然,但我们似乎正处于一个转折点,组织被迫从其数据目录中要求更多。
什么是数据目录?它是如何成熟的?在为您的组织评估数据目录解决方案时,您应该考虑哪些表利害关系?本文探讨了这些问题以及更多内容。
目录
- 什么是数据目录?
- 数据目录通常是如何定义的?
- 数据目录和寒武纪大爆发(2021-2025)
- 2023年的数据目录:定义能力
- 您应该能够从数据目录中获得什么值?
- 数据目录用例
- 数据目录:深潜资源
什么是数据目录?
数据目录是一个工作空间,用作上下文、控制、协作和操作平面,集成您的整个数据庄园、不同的数据用户和不同的数据用例。
数据目录通常是如何定义的?
如果你问ChatGPT什么是数据目录,它会这样定义它:
虽然这一定义并不错误,但需要改变观点。首先,将数据目录限定为仅仅是数据的存储库或库存是有限制的。
Forrester列出了以下定义最佳数据目录工具的必备属性
引用一下,他们建议企业数据目录客户应该寻找以下提供商:
- 处理数据和元数据的多样性、粒度和动态特性
- 对数据流和交付的性质和路径产生深刻的透明度
- 提供增强现代DataOps和工程最佳实践的UI/UX
资料来源:Forrester Wave™: 2022年第二季度DataOps企业数据目录
Gartner也宣称传统的元数据做法不足
值得注意的是,生态系统一段时间以来一直呼吁对元数据采取修订方法。Gartner此前已将其元数据管理幻方图替换为活动元数据市场指南。报告的开头几行足以促使人们采取行动。
对协调现有系统和新系统的需求增加,使得传统的元数据做法不足。组织需要“主动元数据”来确保增强数据管理能力。来源:Gartner,《主动元数据管理市场指南》
不仅是行业顾问,数据从业者也在口头上对数据目录无法满足他们的需求感到不安
数据目录和寒武纪(Cambrian )大爆发(2021-2025)
2020年12月,dbt实验室创始人兼首席执行官特里斯坦·汉迪写了一篇博客文章,表达了他对现代数据堆栈的愿景。
在帖子中,他思考了最好的工具是否达到了一定的成熟/停滞水平,并写道,他急切地等待着下一次寒武纪大爆发,那时拿到一个工具就像被授予了超能力。
那么,理想的数据目录在2023年应该是什么样子?数据目录中的哪些功能会让你觉得自己拥有超能力?让我们从我们最初的定义中得出
数据目录是一个工作空间,用作上下文、控制、协作和操作平面,集成您的整个数据庄园、不同的数据用户和不同的数据用例。
从本质上讲,在实现数据目录时,考虑数据的“为什么”、“谁”和“如何”是很重要的
2023年的数据目录:定义能力
2023年数据目录的所有功能都以以下四种基本和转型能力为指导:
- 您整个数据产业的端到端可视性
- 嵌入式协作,统一不同数据用户的工作流程
- 可编程机器人,可根据不同的使用情况进行培训
- 默认情况下基本开放的体系结构
1.整个数据产业的端到端可视性
用户希望完全了解其数据资产,包括所有权、源和允许的使用情况,而无需在各种数据质量、沿袭、目录和治理工具之间切换。数据目录可以在一次无缝体验中实现这一点。这体现在几个功能上:
- 列级沿袭
- 360度数据资产配置文件
- 从ETL工具、编排工具等引入上下文的自定义元数据
- 可视化数据预览和相关查询
- 以及更多
2.嵌入式协作,统一不同数据用户的工作流程
嵌入式协作就是让工作在你所在的地方进行,尽可能减少摩擦。数据目录识别数据用户的多样性及其不同的工具偏好,并确保与团队的日常工作流程无缝集成。
这可以采取多种形式,包括:
- 通过链接请求和访问数据资产。
- 使用您首选的协作工具批准或拒绝访问请求。
- 在Slack上配置数据质量警报,允许您的团队询问有关数据资产的问题,并直接在Slack中接收上下文。
- 在Jira上触发支持请求,而无需离开正在调查数据资产的屏幕。
3.可编程机器人,可根据不同的用例进行训练
没有任何一种算法能够神奇地为每个行业、公司和用例创建上下文、识别异常并实现智能数据管理的梦想。
这就是为什么第三代工具依赖于可编程机器人的原因——这是一个允许团队创建自己算法的框架。例如,对其数据集有特定命名约定的公司可以创建机器人,使用预设规则自动组织、分类和标记其数据生态系统。
4.默认情况下基本开放的体系结构
元数据将是解锁未来几个操作用例的关键,例如自动调优数据管道和CI/CD管道。它甚至可以作为数据编织和数据网格等现代概念的基础。为了实现这一点,基本元数据存储需要有一个可公开访问的API层,允许团队在此基础上进行构建。
您应该能够从数据目录中获得什么值?
数据目录可能是2023年作为数据领导者所能做出的最佳投资之一。以下是使用数据目录生成值的各种方法:
- 降低成本
- 最大限度地提高生产力
- 缓解风险
- 实现收入最大化
- 改善客户体验
#1-降低成本
例如,数据目录可以用于折旧昂贵和未使用的数据资产,或者减少不必要的数据处理并提高资源利用率。
阅读有关数据目录可以降低成本的更多方法
#2-最大限度地提高生产力
众所周知,数据目录可以将新员工的入职时间从几周缩短到几天。数据目录还使非技术用户能够自助服务数据请求,从而大大提高了数据消费者的生产效率
了解一家价值35亿美元的初创公司如何突破“数据即服务”陷阱,通过可重复使用的数据产品实现自助服务
#3-缓解风险
使用数据目录可以很容易地遵守全球和本地法规—这些策略的部署可以在数小时内完成,而不是几天
了解一家拥有近50万小企业客户的英国数字银行如何通过使用数据目录自动化手动流程来提高对GDPR“擦除权”的合规性
#4-实现收入最大化
安全和可访问的数据、提高的数据质量和信任,以及自信地对数据采取行动的能力,都是为企业利用数据中发现的见解进行创新奠定基础的重要因素。
了解一家价值200亿美元的全球保险公司如何使用数据目录通过更好的数据提供更好的保险解决方案
#5-改善客户体验
例如,为了提高客户满意度,对下游数据的使用进行影响分析。该分析确定了数据收集后的使用方式,以及下游流程中的任何潜在问题如何影响客户体验。
以下是纳斯达克如何通过增强现代数据堆栈(包括部署数据目录工具)来加速关键业务用户访问数据的能力
数据目录用例
以下是数据目录可以支持的一些典型用例:
每个用例都链接到了相关的功能预览,以便您探索和理解这些抽象概念是如何在第三代数据目录工具中体现的。
阅读Brainly如何实施数据目录并优先考虑其采用,以提高整个公司的数据发现能力和治理能力
你什么时候需要购买数据目录工具?
正如Austin Kronz在其关于如何启动数据治理计划的博客中所解释的那样,随着团队的成长,价值实现时间的任何持续增长(例如,季度比季度)都表明你需要投资于数据目录。
引用同一资源:
认识到数据和分析角色增长的拐点以及对价值实现时间的影响,是时候正式化数据治理工作并获取现代数据目录了。如果没有这一点,组织将不得不在招聘上投入过多的资金来手动管理新的数据产品——这在2023年面临的经济条件下是不可能的。
数据目录:深潜资源
我们整理了一些资源,将帮助您找到有关数据目录的更多问题的答案。这些将定期更新。
什么
- 数据目录和数据字典之间的区别是什么?
- 数据目录中的数据沿袭是什么?
- 数据目录的一些用例是什么?
- 什么是企业数据目录?
- 什么是开源数据目录工具?
- Gartner如何看待数据目录?
- What is the difference between a data catalog and a data dictionary?
- What is data lineage in data catalogs?
- What are some use cases of a data catalog?
- What is an enterprise data catalog?
- What are some open-source data catalog tools?
- What does Gartner think about data catalogs?
怎样
- 如何评估数据目录?
- Forrester如何定义企业数据目录?
- 数据目录和仓库是如何协同工作的?
- How to evaluate a data catalog?
- How does Forrester define enterprise data catalogs?
- How do a data catalog and warehouse work together?
为什么?
- 为什么数据目录很重要?
- 为什么传统的数据目录会出现采用问题?
- Why is a data catalog important?
- Why do traditional data catalogs suffer from an adoption problem?
最新内容
- 2 days 4 hours ago
- 2 days 5 hours ago
- 2 days 5 hours ago
- 4 days 21 hours ago
- 5 days 4 hours ago
- 5 days 5 hours ago
- 5 days 5 hours ago
- 5 days 5 hours ago
- 1 week 2 days ago
- 1 week 2 days ago