什么是数据目录?
数据目录是一种软件应用程序,用于创建组织数据资产清单,以帮助数据专业人员和业务用户找到相关数据用于分析。它还通过整合治理策略和控制、数据质量规则、带有通用术语的业务术语表和其他信息来帮助数据治理,以确保数据得到正确使用。
数据目录由元数据驱动,元数据是关于用于创建数据清单的数据的描述性数据。底层元数据还提供了有关数据资产的上下文信息,以帮助编目用户了解IT系统中可用的数据,并决定它是否符合他们的需求。
随着组织越来越依赖数据分析来推动业务战略和运营,数据目录的使用正在增长。目录现在是许多数据管理环境的核心组成部分,市场研究公司IDC预测,从2020年到2025年,全球数据目录软件的收入将以16.8%的复合年增长率增长。
数据目录是如何工作的?
数据目录从不同的源系统以及支持商业智能(BI)、分析和数据科学应用的数据仓库和数据湖收集元数据。内置的元数据管理功能可组织和丰富元数据,使其对最终用户有用。例如,标签可以应用于数据条目,以添加有关它们的更多信息,例如数据分类设置、数据质量分数和使用度量。越来越多的人工智能(AI)和机器学习算法被用于自动获取、编目、分类和标记元数据。
目录中的数据清单是可搜索的;通常,用户可以根据商业术语、技术名称、标签和其他关键字进行搜索,也可以通过自然语言查询进行搜索。数据目录还提供自动搜索推荐,就像常规搜索引擎一样。或者,用户可以浏览目录以查找满足其应用程序需求的数据。总的来说,目录的设计是为了唤起“数据购物”的体验。
为了帮助用户理解数据,目录包括数据沿袭的详细信息,例如数据是在哪里创建的,以及数据如何在it系统中流动并转换为不同的用途。他们还提供数据管理功能,使数据管理和分析专业人员能够为自己的应用程序或其他用户访问组织数据集。在数据条目中添加评论、评论和评级的功能通常也被嵌入,聊天功能和其他协作工具也是如此。
数据目录中收集的元数据类型
不同类型的元数据被拉入数据目录,以提供关于其中列出的数据资产的广泛信息。以下是数据目录中使用的三种主要元数据类型。
- 技术元数据。有时也称为结构元数据,它提供有关数据技术结构的信息。例如,技术元数据描述数据库和数据仓库中的模式、表、列、索引、文件名和其他对象。它还确定了数据在It系统中的位置,并记录了数据类型、数据模型和自动化数据转换脚本等内容。
- 操作元数据。这描述了如何创建、更新、更改和使用数据资产,以及何时处理或修改数据,以及谁更新或转换了数据。元数据还可以包括数据所有者和数据管理员的姓名、数据使用统计数据以及数据访问权限和限制的详细信息。它有时被称为过程元数据,尽管它也被视为专注于数据处理、管理和分析所涉及的步骤的操作元数据的子集。
- 业务元数据。这将业务上下文和意义应用于数据资产,以帮助目录用户理解它们。例如,它包括内部数据定义和相关的业务术语,例如业务词汇表中列出的术语。也可以添加其他业务关键字。数据分类、业务规则和关于创建数据的业务域的信息及其对特定用途的适用性也是业务元数据的示例。
数据目录用户和用例
数据目录由组织中的不同人员使用。在最终用户方面,包括数据科学家、其他数据分析师、数据工程师和BI团队成员,以及希望分析数据的业务分析师、高管和经理。数据管理员和数据治理团队的其他成员也使用数据目录作为管理治理过程的一部分。此外,监管合规和风险管理官员使用它们来跟踪数据资产的管理和使用情况。
以下是数据目录的一些常见用例。
- 数据发现。如上所述,数据目录的主要目的是帮助分析用户找到他们需要的数据。如果没有数据发现,数据发现可能是一个费力、耗时的过程,这也是数据科学家80%的时间都在寻找和准备数据,而只有20%的时间在分析数据这一格言的原因之一。更糟糕的是,他们可能不知道一些相关数据,这可能会降低分析的准确性。数据目录旨在简化数据发现并使其更加有效。
- 自助分析和BI。数据发现是分析过程的一个切入点。有了数据目录的帮助,数据科学家和分析师可以更容易地进行机器学习、预测建模和其他高级分析应用程序,而不需要it和数据管理团队的任何帮助。同样,业务用户能够更好地访问和分析自助BI应用程序的数据集。
- 数据治理和管理。数据目录可以帮助数据治理经理和数据管理员确保用户遵守治理策略和过程。例如,他们可以在目录中定义策略,自动化数据管理工作流,并跟踪对数据集和用户访问控制的更改。业务术语表还有助于推动有效的数据治理,内置的质量评估和监控功能可以促进相关的数据质量改进计划。
- 数据管理。通过使用数据目录来整理用于分析的数据集,数据管理器可以进一步简化分析过程,并确保包括应用程序所需的所有数据。这对重复运行的分析应用程序特别有帮助;此外,经过策划的数据集还可以用于其他目的。数据管理员是一些组织中的正式角色。在其他情况下,管理可能由各种数据专业人员处理,包括BI团队和数据科学家、分析师和工程师。
数据目录提供的好处
大多数组织都会构建一个企业数据目录来清点其所有数据资产。有些组织,尤其是大型组织,可能有多个单独部门和业务单元的数据目录。在这两种情况下,数据目录都可以提供以下好处:
- 更准确的分析。通过让用户更容易找到分析应用程序的所有适用数据,数据目录有助于提高结果的准确性。
- 更好的商业决策。改进的分析结果推动企业高管做出更明智的决策,理想情况下会导致更强有力的商业战略和运营决策。
- 生产力的提高。数据目录减少了用户查找数据的时间,使他们能够进行更多的分析工作。它还可以消除不同分析师重复的数据转换和准备任务。
- 更高质量、更可靠的数据。嵌入式数据治理、数据质量和数据安全功能有助于为分析用户创建可信的数据集。
- 改进了法规遵从性。内置的数据分类设置、访问控制和治理策略有助于提高对数据隐私法和其他法规的遵守程度。
- 提高了分析能力和业务灵活性。数据目录还使数据科学家和其他分析师能够更快地响应不断变化的业务对分析信息的需求。
数据目录的主要功能
虽然数据目录首先是数据资产的清单,但它为最终用户、数据管理和治理团队提供了一系列广泛的功能。以下项目是一些常见的数据目录功能:
- 连接到各种数据源的连接器。这些使数据目录能够从操作系统、数据仓库、数据湖和其他存储库中获取元数据。
- 元数据管理工具。数据管理团队和其他目录用户可以在元数据被纳入目录后使用这些工具来组织、分类和丰富元数据。
- 人工智能和机器学习算法。元数据收集、编目和标记现在通常通过使用内置的人工智能和机器学习技术实现自动化。
- 业务术语表。它包含业务术语和概念的内部定义,例如客户的构成,用于将它们映射到目录中列出的数据资产。
- 数据沿袭函数。它们使用目录中的元数据来记录并提供数据流、数据转换和其他有关数据的历史细节的可视化视图。
- 搜索功能。为了帮助数据发现,用户可以通过关键字或自然语言查询来搜索数据目录的内容,并获得有关相关数据的推荐。
- 协作工具。目录用户可以相互聊天和共享信息,共同处理数据工作流,并对数据资产进行评论、审查和评级。
- 集成数据治理。嵌入式工具支持数据治理过程中的各个步骤,包括数据管理、数据质量管理和数据安全。
数据目录工具和供应商
许多软件供应商提供数据目录工具,这些工具可以自动化构建和管理数据目录的过程,其中包括上述功能。以下是一些著名的供应商:
- 主要的IT供应商和云提供商,如AWS、谷歌云、IBM、微软和甲骨文;
- 拥有广泛产品组合的软件供应商,包括数据管理和治理工具,如日立Vantara和Quest software;
- 专注于数据管理和治理的供应商,如Atacama、Boomi、Collibra、Informatica和Talend;
- 数据目录和元数据管理专家,如Alation、Alex Solutions、Atlan、data.world、OvalEdge和Zeenea;和
- BI和分析软件供应商提供配套的数据目录工具,如Alteryx、Qlik、Tableau和Tibco。
咨询公司Gartner在2022年7月发布的一份关于新兴数据管理技术的报告中表示,人工智能驱动的数据目录工具——或现在所称的增强数据目录和元数据管理解决方案——正处于成熟的“早期主流”阶段。Gartner补充道,它们可能在未来两到五年内不会完全成熟。但它对这些工具对用户组织的潜在好处给予了“高”评级。
或者,组织可以使用各种开源数据目录工具。例子包括Amundsen、Apache Atlas、DataHub和Metacat。
继续阅读关于数据目录
- 为什么要考虑增强数据目录?
- 数据治理对企业的最大好处
- 成功的数据治理计划的7个最佳实践
- 数据目录提高了效率,加快了洞察速度
- 数据驱动世界中的数据目录:原因和内容
最新内容
- 8 hours ago
- 11 hours ago
- 11 hours ago
- 3 days ago
- 3 days 9 hours ago
- 3 days 10 hours ago
- 3 days 10 hours ago
- 3 days 10 hours ago
- 1 week ago
- 1 week ago