数据目录利用元数据和数据管理工具在组织内创建数据资产清单,使用户能够快速方便地查找和访问信息。
数据目录
数据目录是组织中所有数据资产的详细清单,旨在帮助数据专业人员快速找到最适合任何分析或业务目的的数据。
什么是数据目录?
数据目录使用描述或汇总数据的元数据数据来创建组织中所有数据资产的信息丰富且可搜索的清单。这些资产可以包括(但不限于)以下内容:
- 结构化(表格)数据
- 非结构化数据,包括文档、网页、电子邮件、社交媒体内容、移动数据、图像、音频和视频
- 报告和查询结果
- 数据可视化和仪表板
- 机器学习模型
- 数据库之间的连接
该清单使数据公民、数据分析师、数据科学家、数据管理员和其他有权访问公司数据的数据专业人员能够搜索组织的所有可用数据资产,并帮助自己获得最适合其分析或业务目的的数据。
数据目录通常包括收集和不断丰富或管理与每个数据资产相关联的元数据的能力,以便使每个资产更容易识别、评估和正确使用。该目录还提供了使用户能够执行以下操作的工具:
- 搜索目录
- 自动发现他们没有专门搜索的潜在相关数据
- 按照行业或政府法规管理数据的使用
什么是元数据?
在上述简要定义的基础上,元数据是描述数据资产或提供有关资产的信息的数据,使其更容易定位、评估和理解。
元数据的经典或最常用的例子是图书馆的卡片目录或在线目录。在这些卡片或清单中,每个卡片或清单都包含有关书籍或出版物的信息(例如,标题、作者、主题、出版日期、版本、图书馆内的位置以及摘要或简介),这些信息使读者更容易找到和评估出版物。例如:它是最新的还是过时的?它有我要找的信息吗?作者是我信任的人还是我喜欢他的作品?
元数据有很多类,但数据目录主要处理三类:技术元数据、流程元数据和业务元数据。
技术元数据
技术元数据(也称为结构元数据)通过描述数据对象(如表、列、行、索引和连接)的结构来描述如何组织数据并向用户显示数据。技术元数据告诉数据专业人员他们需要如何处理数据,例如,他们是否可以按原样处理数据,或者是否需要转换数据以进行分析或集成。
流程元数据
流程元数据(也称为管理元数据)描述了数据资产创建的情况,以及何时、如何以及由谁访问、使用、更新或更改数据资产。它还应该描述谁有权访问和使用这些数据。
流程元数据提供了有关资产历史和谱系的信息,可以帮助分析师确定资产是否足够新,是否来自可靠的来源,是否由值得信赖的个人更新,等等。流程元数据还可以用于解决查询问题。而且,越来越多的流程元数据被挖掘,以获取有关软件用户或客户的信息,例如他们正在使用什么软件以及他们正在体验的服务级别。
业务元数据
业务元数据(有时称为外部元数据)描述了数据资产的业务方面、它对组织的业务价值、它对特定目的或各种目的的适用性、有关法规遵从性的信息等等。业务元数据是数据专业人员和业务线用户对数据资产使用相同语言的地方。
数据目录至少应该使您能够轻松查找(或获取)和组织与组织中任何数据资产相关的所有现有元数据。它还应该提供工具,使数据专家能够通过标签、关联、评级、注释以及任何其他信息和上下文来策划和丰富元数据,帮助用户更快地找到数据并放心地使用它。
数据目录工具---寻找什么
数据目录需要在软件和数据公民的时间和精力上进行大量投资——大多数组织只想进行一次投资。在评估数据目录解决方案时,请查找以下功能(除了上述元数据管理功能外):
- 出色的数据“购物”体验,包括数据发现:数据目录的目标是让所有数据公民都能为自己提供所需的数据。你应该期待与Netflix、亚马逊或其他流行的商业在线体验相同的搜索体验,任何人都可以根据搜索的元数据快速找到结果,还可以根据其他用户的评分和评论收到相关的推荐和/或警告。
- 简化了合规性:保持数据合规几乎是人类不可能做到的;在撰写本文时,仅保护个人数据隐私一项,就有107个国家颁布了相关法规。数据目录应通过分析数据资产,推断其与特定法规的相关性,并自动对其进行分类和标记以供将来参考,从而简化法规遵从性。机器学习功能在这里是强大的工作保护程序。
- 与各种数据源的连接:为了作为企业范围的数据资产清单,数据目录需要连接到企业中的所有资产。寻找与你现在拥有的所有类型资产的联系,并致力于建立未来的联系。此外,还要寻找一个目录,您可以将其部署到数据驻留在本地或公共、私有、混合或混合多云环境中的任何位置。
- 支持确保数据可信的质量和治理:数据目录应与您现有的任何质量和治理程序和工具无缝集成,包括数据质量规则、业务术语表和工作流。
- 支持“可解释的人工智能”:数据治理越来越多地负责管理人工智能(AI)模型,不仅要了解所使用的数据,还要了解不同的输入如何影响决策和结果。确保您选择的任何数据目录都有助于标记和准备数据资产,以便在您的人工智能模型中实现最佳使用和透明度。
数据目录优势
当数据专业人员可以在没有IT干预的情况下帮助自己获得所需的数据,而不必依赖于寻找专家或同事的建议,不必将自己局限于他们所知道的资产,也不必担心治理和法规遵从性时,整个组织都会受益。
- 通过改进上下文更好地理解数据:分析师可以找到数据的详细描述,包括其他数据公民的评论,并更好地了解数据与业务的相关性。
- 提高了运营效率:数据目录在用户和IT数据之间创造了最佳分工。公民可以更快地访问和分析数据,IT员工可以花更多时间专注于高优先级任务。
- 降低风险:分析师更有信心使用他们被授权用于特定目的的数据,遵守行业和数据隐私法规。他们还可以快速查看注释和元数据,以发现可能影响分析的空字段或错误值。
- 数据管理计划取得更大成功:数据分析师越难发现、访问、准备和信任数据,商业智能(BI)计划和大数据项目就越不可能成功。
- 更好的数据和更好的分析,更快地获得竞争优势:数据专业人员可以根据组织内所有最合适的上下文数据,通过分析和回答,快速应对问题、挑战和机遇。
数据目录还可以帮助您的组织满足特定的技术和业务挑战以及目标。通过为分析师提供单一、全面的客户视图,数据目录可以帮助发现交叉销售、追加销售、定向促销等新机会。通过促进、简化或自动化治理,数据目录可以帮助您实施数据湖治理,防止数据沼泽,并为设计、部署和监控人工智能模型提供政策框架,重点关注公平性、问责制、安全性和透明度。
数据目录和IBM云
IBM Watson知识目录是一个开放和智能的数据目录,用于企业数据和人工智能模型治理、质量和协作。它可以帮助数据公民快速发现、整理、分类和共享数据资产、数据集、分析模型,以及他们与组织其他成员的关系。
Watson Knowledge Catalog为IBM Cloud Pak for Data提供支持,为数据工程师、数据管理员、数据科学家和业务分析师提供了一个单一的真相来源,让他们能够自助访问他们可以信任的数据。它还提供数据治理、数据质量和主动策略管理,以帮助您的组织保护和管理敏感数据、跟踪数据谱系、管理数据湖,并为您的人工智能之旅做好准备。
最新内容
- 1 hour ago
- 1 hour ago
- 1 hour ago
- 2 hours ago
- 2 hours ago
- 6 hours 33 minutes ago
- 7 hours ago
- 8 hours 7 minutes ago
- 8 hours ago
- 1 week 1 day ago