元数据管理
视频号
微信公众号
知识星球
- 19 次浏览
【元数据基础】数据网格所需的元数据基础
视频号
微信公众号
知识星球
激活元数据如何为数据网格梦想提供动力
可发现。可以理解。值得信赖的。这些只是数据网格基础设施的一些关键思想。浏览所有这些,您会很快找到一个共同的元素,它是实现每一个元素的关键——元数据。
如今,元数据已经成为大数据。现代数据堆栈的每个组件及其上的每个用户交互都会生成元数据。可以毫不夸张地说,元数据的潜力是巨大的。事实上,我认为它是解锁数据网格真正价值的关键。
然而,元数据-就像数据网格一样-还有一些成长的事情要做。正如任何从业者都知道的那样,元数据的大小和规模的爆炸性增长使数据团队很难真正使用它。通常,它最终在另一个孤立的工具中未被使用。
我是一名终身数据从业者,花了十年时间管理数据团队并建立了良好的数据文化。我经历过很多失败和成功,比如建立印度的国家数据平台。在这一过程中,我处理了大量的混乱,这促使我的团队构建工具,使我们自己更加敏捷。四次尝试后,我们构建了一个活跃的元数据平台,真正改变了我们的工作方式。
我有机会在Datanova 2022:数据网格峰会上发表演讲,这是Starburst的第二届年会。我分享了我对现代元数据的看法,它在我们的数据堆栈中的不足之处,以及我们如何使用它来推动数据网格的梦想。我已经掌握了以下要点。
什么不起作用
如今元数据的使用方式完全是错误的。我们从一堆独立的、孤立的工具中编译所有元数据,并将其放入自己的孤立数据目录或治理工具中。我们期望数据从业者在需要上下文时切换回该目录工具,但这并不奏效。
用户需要上下文时需要上下文。
当某人处于日常工作流程的中间时,例如查看BI工具上的仪表板,他们需要知道自己是否可以信任该仪表板,而不是在切换到数据目录并登录到其数据目录、搜索相关数据资产并找出它们上次更新的时间之后。
我们目前的元数据方法的另一个问题是,它对每个数据人都一视同仁。在我们的正常生活中,我们都习惯了令人难以置信的个性化体验——想想Netflix的策展或亚马逊的推荐就知道了。如今,数据平台拥有大量关于用户的数据,比如首席技术官周一早上进行的搜索,或者数据工程师在管道中使用最多的资产。为什么我们不使用这些数据为不同领域的不同用户个性化数据体验?
最后,今天的元数据大多存在于自上而下的治理模型中。大多数数据治理工具都是为集中式治理结构而构建的,由“委员会”制定规则和政策。这与自下而上、民主化的数据网格世界正好相反。
元数据的未来
花点时间想象一下你日常生活中的经历。您使用Segment来完成过去的大量手动工作,从数十个网站、应用程序和工具中获取客户数据。然后Zapier走到盘子前,让这些信息变得可操作——如果一个工具发生了什么事情,它会触发其他工具的一系列操作。在你注销这些工具回家后,你会打开Netflix,他们在那里策划了最新的节目,甚至根据你想看的节目创建了一些新的节目。
为什么我们不能在我们的数据平台上实现这一点?
一个真正智能的数据管理系统应该考虑到最终用户及其需求。它将使用元数据自然地联合和管理我们的数据系统,为围绕当今多样化的数据用户构建的自动化、个性化体验提供动力。
它应该围绕这样的问题创建,“数据分析师的体验是什么样的?市场营销或销售中的数据分析师呢?这与数据工程师或业务用户的体验有何不同?”然后我们可以将这种个性化和知识带回数据人每天使用的工具和体验中,如Jira、Slack和Microsoft Teams。
例如,假设您在Looker仪表板中,可以从数据生态系统中的其他工具中查看所有上下文。您可以立即了解谁是所有者和专家,您是否可以信任仪表板,以及为其提供动力的管道是否已更新。这就是数据变得“本机可访问”的时候,这是数据网格最重要的目标之一。
元数据和数据网格
数据网格背后的一个关键概念是联合计算治理,或者说是一种使用来自整个组织的反馈循环和自下而上的输入来自然地联合和管理数据产品的系统。元数据使这成为可能。
An automated workflow for finding and governing data product health (Image by author, from my talk at Datanova 2022: The Data Mesh Summit)
例如,考虑上面的自动化元数据工作流。有了关于人们实际使用的资产的使用元数据,我们可以创建一个关于每个数据产品的使用和更新量的产品健康评分。然后,我们可以根据健康评分对产品进行排序,并将每个产品与其数据产品所有者进行匹配。对于出色的产品,产品所有者可以收到一条Slack消息:“祝贺你!你的数据产品做得很好。”低质量或过时的产品可以自动从发现体验中删除或弃用,并且可以在Jira上为相关所有者添加一张改进产品的票。
这就是我所看到的数据网格的未来——使用元数据创建一个真正的动作层,为数据网格背后的基本概念提供动力。
通过从许多不同的地方引入元数据,我们可以自动化和协调数据网格背后的基本概念,如民主化、可发现性、信任、安全性和可访问性。
元数据在实践中
到目前为止,我相信你在问,“在数据网格中真正实现主动元数据实践意味着什么?”
元数据允许您从孤立的上下文转变为嵌入式上下文(域),从通用体验转变为个性化体验(数据产品),从最低限度的自动化转变为真正的自治(自助服务基础设施),从自上而下的治理转变为民主化的治理(联合计算治理)。
但是,从理论到实践的第一步是什么?创建数据产品运输标准。我已经谈到了“数据即产品”的特征,这是数据网格背后的一个关键概念。其中的每一项都可以在组织或网格级别编码为运输标准。
The characteristics of “Data as a Product,” a key concept behind the Data Mesh (Image by author, from my talk at Datanova 2022: The Data Mesh Summit)
例如,对于“可理解”,我已经看到了很多使用5W1H框架来定义数据产品可理解性的成功案例。作为一个组织,您可以选择框架中哪些元素最重要,并专注于这些元素。
下一步是将这些过程完全自动化。这使得基础设施真正实现了自助服务,这是数据网格范式的重要组成部分。例如,为了使数据产品易于理解,您可以在整个数据堆栈中引入上下文。解析SQL日志可以用于在列级别自动对每个数据产品的受欢迎程度进行排名。数据管道中的上下文可用于基于数据产品的源创建列描述。
这一步骤可能需要实施新的工具来促进,但归根结底,数据网格是一种文化和心态的转变。这就是为什么最后一个重要步骤是将人类驱动的标准和仪式纳入产品运输过程。
最后,你要求你的工程师和开发人员开始以不同的方式思考他们的角色,这并不容易。
这关乎文化变革,而不仅仅是技术。设定数据团队的价值观(例如可重用性),创建仪式来帮助每个人实现这些价值观(如文档时间),你最终会看到人们的心态和生产力发生真正的转变。
总而言之,很明显,数据网格的未来看起来很光明。有关我对这个主题的更多想法,请查看我在Datanova 2022的完整演讲:数据网格峰会!
这个博客最初发布在Starburst的博客上,并在获得许可后在这里重新发布。
发现这些内容有帮助吗?我在我的时事通讯《元数据周刊》上每周写一篇关于活动元数据、数据操作、数据文化和我们构建Atlan的经验教训的文章。在此处订阅。
- 7 次浏览
【元数据管理】元数据管理的五大最佳实践
视频号
微信公众号
知识星球
什么是元数据?
元数据是关于数据的信息。服装目录或字典都是元数据存储库的示例。事实上,像亚马逊这样的流行在线目录提供了丰富的产品元数据来指导购物者:评级、评论和产品详细信息都是元数据的例子。
与数据密切合作的人,如分析师、数据科学家和IT团队,依赖元数据为他们提供如何使用给定资产的关键背景。如今,元数据在分类、描述和提供有关数字数据的关键信息方面非常有用。
然而,并非所有形式的元数据都是平等的。为了使元数据有用,组织需要了解如何最好地识别、捕获元数据,并与员工共享元数据。这就是元数据管理最佳实践可以提供帮助的地方。
“任何系统都只有它所吸收的元数据才是好的。”―Chris Bulock,《大数据时代的知识与尊严》一书的合著者
为什么元数据很重要?
每个组织都在数据中游泳,这使得找到正确的数据成为一项挑战。但有一种方法可以对数据进行编目和分类,这令人震惊:这是数据……关于数据!
是的,我们谈论的是元数据,或者描述其他数据的信息。对于企业数据而言,元数据和有效的元数据管理是良好数据管理战略的关键组成部分。通过提供有关底层数据的信息,元数据使组织能够以有效、适当的方式管理、管理和利用数据。
元数据管理最佳实践确保企业中所有需要元数据的人都可以访问准确的元数据。这需要一个元数据管理解决方案来实现数据搜索和发现以及数据治理,这两者都允许需要的人访问元数据和底层数据。在当今世界,元数据管理最佳实践需要数据目录。
元数据类型
元数据帮助用户找到他们需要的数据,查看可用数据清单,并评估数据是否适合预期用途。元数据包括以下内容:
- 描述性信息。这包括关于标题、目的、创建日期和创建者的信息。它有助于对数据进行编目和发现,并确定哪些数据最适合使用。
- 结构信息。这包括如何格式化数据,以及有关表、页、类型和关系的信息。它有助于了解数据是如何组织的,确定它是否可以与其他数据组合,以及实现相关的数据发现。
- 行政信息。这包括访问权限、位置、文件大小和所有权信息。它对数据治理、法规遵从性、控制和数据管理非常有用。
- 参考信息。这包括有关质量、来源、使用的流程、模式和公式的信息。它有助于确定如何利用数据。
大量的数据和元数据是一个日益严重的问题。为了管理大量的元数据,出现了一个新的类别,称为活动元数据。全球研究和咨询公司Gartner的高级总监Guido De Simoni表示,“元数据管理市场从2020年开始发生了戏剧性的转变,现在主要关注的是活跃的元数据。”
活动元数据标志着从手动流程向自动化流程的转变。人工智能和机器学习(AI和ML)正在消除手动元数据管理的一些负担,而手动元数据管理已经变得过于繁琐,人们无法单独管理。数据智能将源自活动元数据的智能集成到数据质量、治理和分析等类别中。
元数据管理的五大最佳实践
元数据要有用,就必须是可访问的、可搜索的和可用的。这需要元数据管理过程。但是从哪里开始呢?以下是5种元数据管理最佳实践,它们可以使元数据在整个企业中得到有效、可持续和有益的使用。
1.指派元数据管理团队
任何计划的成功都需要一个专门的团队,元数据管理也不例外。管理团队将制定组织的元数据管理流程和元数据战略,协调元数据管理流程与政策的推出,并指导元数据管理工具的选择。
元数据管理团队应具有数据管理、数据治理和组织整体数据环境方面的经验。他们还应该具备将元数据管理战略与组织的数据和业务战略联系起来的商业头脑。
2.定义元数据策略
定义元数据策略需要组织考虑其数据目标。领导层可能希望控制堆积如山的数据,灌输数据文化,实现更快、更敏捷、更准确的决策,或者完全是其他事情。
元数据战略应该考虑到这些目标,并提供指导,以便有效地实现这些目标。元数据战略还应考虑:
- 所需的元数据
- 它的位置
- 需要克服的任何技术或基础设施障碍
- 以后将如何获取和访问元数据
- 存放地点
- 谁将负责其持续维护
3.采用元数据标准
每个组织都应该采用一套元数据标准,以确保统一性。元数据的这种标准化将作为元数据管理过程的基础。有一些公认的元数据标准,如都柏林核心元数据元素集和相关的ISO 158369标准,它们建立了用于描述元数据资源的核心属性。
4.部署元数据管理工具
一个专用的元数据管理工具使组织能够收集和利用元数据。这样的工具通常采用数据目录的形式,这样可以方便地存储和搜索元数据。它甚至可以利用人工智能和机器学习来自动捕获和分类元数据。高级元数据管理工具具有涵盖元数据管理流程、策略和数据治理需求的功能。
5.在整个组织中扩展元数据管理战略
一旦上述元数据管理最佳实践到位,就到了将元数据管理战略推广到整个组织的时候了。这可以采取分阶段的方法,涵盖特定的组织部门或数据类型。
一种常见的元数据管理最佳实践是让行业专家尽早参与流程,以帮助确保基础元数据管理战略设计良好且可持续。持续改进、调整和更新元数据管理战略、元数据管理流程以及相关政策、标准等也很重要。
Gartner幻方图
Gartner元数据管理解决方案幻方图是元数据管理最佳实践信息的主要来源之一。本文档介绍了市场,并提供了近20家数据目录和元数据管理解决方案供应商的优势和注意事项的详细信息。
Gartner幻方图将解决方案供应商分为四类:领导者、挑战者、远见者和利基市场参与者。Alation因其市场知名度和吸引力、机器学习创新以及对主动元数据和协作的关注而被公认为Gartner元数据管理解决方案幻方图的领导者。这是Alation连续第四年被公认为领导者。
Alation数据目录为元数据管理最佳实践提供了一个平台。通过使用其关于整个企业信息源的元数据存储库,包括数据集、商业智能报告、可视化和对话,该目录帮助人们快速查找和理解数据,以改进分析、数据治理、隐私、云转型等。
它显著提高了分析师的生产力,提高了分析的准确性,实现了自信的数据驱动决策,同时使员工能够发现、理解和管理数据。
- 206 次浏览
【元数据管理】数据目录与元数据管理:关键区别?
视频号
微信公众号
知识星球
在之前的一篇博客中,我将数据目录定义为“一组元数据,结合数据管理和搜索工具,帮助分析师和其他数据用户找到他们需要的数据,作为可用数据的库存,并提供信息来评估健身数据的预期用途。”
数据目录从一开始就作为管理数据库存和向分析师公开数据集的一种手段,现在在功能、受欢迎程度和重要性方面都有所增长。现代数据目录起源于帮助数据分析师发现和评估数据,以继续满足分析师的需求,但它们已经扩大了覆盖范围。它们现在是数据管理、数据管理和数据治理的核心,所有这些都依赖于元数据。
什么是数据目录?
将数据目录视为类似于传统零售目录。它替换包含有关产品的信息,而是包含元数据以及数据管理和搜索工具,作为可用数据的清单,并提供评估数据适用性的信息。
什么是元数据管理?
元数据管理是组织跟踪数据的方式,包括数据的来源和使用方式。
数据目录和元数据管理之间的区别是什么?
元数据描述数据特征,如结构、格式和内容,而数据目录是一种用于管理和组织组织组织内数据资产元数据的软件工具,有助于一系列用例。数据目录存储元数据,以便于元数据管理,并扩展为搜索和发现、治理和协作。
元数据管理的一种新方法
似乎每个人都想要数据管理,但大多数人都希望避免元数据管理。对元数据管理的厌恶是过去元数据方法的产物,不同的元数据由各种工具使用专有格式收集,没有集成。BI时代的元数据管理是痛苦的,但我们无法避免元数据对数据管理至关重要的现实。正如您需要有关财务的数据来进行有效的财务管理一样,您也需要有关数据(元数据)的数据来实现有效的数据管理。没有元数据就无法管理数据。
随着数据湖、大数据、自助分析和数据科学的出现,数据管理变得越来越复杂,元数据的作用发生了变化,元数据的重要性呈指数级增长。最新、准确且易于访问的元数据是必不可少的。元数据差异是不可行的,作为事后考虑的元数据管理是危险的。我们必须积极地管理元数据,而数据目录是适合这项工作的工具。数据目录已成为元数据的新黄金标准,也是数据管理的基石。
自助服务时代的元数据
元数据的真正价值在于它所能提供的答案。依赖数据的人对可信度、延迟、血统、敏感性、准备等都有疑问。有时,他们想找到其他知道或曾经使用过这些数据的人,以获得人类的视角。他们需要了解访问、隐私和安全限制、成本等。从数据集名称和属性到使用、访问、许可和主题专家,稳健的元数据是回答数据用户和数据管理者会问的许多问题的关键。在当今的自助服务世界中,元数据对于三组不同的数据管理利益相关者至关重要:
- 数据消费者需要元数据来帮助他们找到用于报告、分析和数据科学工作的数据,并评估这些数据以确保他们使用正确的数据集。
- 数据管理者需要元数据来观察数据使用情况,了解数据消费者的需求和兴趣,并有效管理共享数据的收集。
- 数据管理器(所有者和管理员)需要元数据来识别和保护敏感数据、跟踪数据沿袭并建立对数据的信任。
元数据和数据目录
元数据是数据目录的核心。每个目录都收集有关数据清单的数据,以及与数据相关的流程、人员和平台的数据。过去收集的业务、流程和技术元数据的元数据工具以及数据目录继续这种做法。但数据目录的作用要大得多。他们收集关于数据集的元数据、关于处理的元数据、用于搜索的元数据以及关于人的元数据。图1显示了一个逻辑数据模型,它表示数据目录的典型元数据内容。
数据目录改变了游戏规则,提升了元数据管理的最佳实践:
- 众包元数据。许多目录元数据是通过应用算法和机器学习自动收集的。但有时最有价值的元数据是个人和团体的知识和经验。收集这些知识作为用户评分、评论、提示和技术,丰富了元数据收集,并将部落知识转化为共享和持久的数据管理资源。
- 有关人员的数据。数据管理和数据分析归根结底是人类的活动。了解哪些人具有数据角色和关系以及这些角色的性质是很有价值的。数据目录捕获元数据,以识别数据用户、数据创建者、数据管理员和数据主题专家。
- 自动化元数据发现。拥有大量数据的组织——实际上有数以万计的数据库——根本不知道他们拥有的所有数据。如果没有自动发现,就不可能对PB级的数据进行编目。
下一步是什么?
元数据自动发现是数据编目的重要组成部分。但数据目录中的大部分元数据都是众包和协作的结果。在我的下一篇博客中,我将讨论协作和众包在数据编目中的作用。
- 118 次浏览
【元数据管理】语义层、知识图,以及激活的元数据如何使它们发挥作用。
视频号
微信公众号
知识星球
图形已经伴随我们几十年了,但自从在Matlab中编写算法以来,一些事情发生了变化:
- 图形存储:Neo4j、TigerGraph、Graphdb、Neptune、RelationalAI等等。原生图数据库允许我们构建关系模型,而不是在传统数据库中通过无休止的JOIN进行黑客攻击。
- 图形算法:深度学习现在是图形的原生技术,甚至在那之前,允许图形对齐和图形嵌入的新方法帮助我们组合、丰富和转移匿名知识。
- 自然语言处理的突破:我们中的许多人都在玩ChatGPT,并对NLP的进步以及它在不同知识领域的丰富程度感到惊讶。现在想象一下,将一个关系模型与知识图中的语义理解“结合”起来。
鉴于以上所有功能的强大,现在是使用知识图来自动化和增强数据建模、管理和发现的最佳时机。
事实上,利用元数据,我们的行为痕迹与数据和分析资产,可以给我们带来更大的胜利。这一胜利是双重的:基于使用的数据模型的自动化和在其之上生成语义层(Business Terms,Metric Store),以及对用户如何与所有这些交互的理解。
其结果是增强治理、辅助可观察性以及更快、更明智的分析。
在illumex中,我们决定专注于语义层激活来实现这一点。
- 55 次浏览