【数据治理】2023年将遵循的7项数据治理最佳实践

QQ群

视频号

微信

微信公众号

知识星球

Chinese, Simplified

实施数据治理最佳实践对于确保您的数据保持准确、可靠和安全至关重要。

7项基本数据治理最佳实践

帮助您改进数据治理的七个数据治理最佳实践如下:

  • 用你的“为什么”来引导
  • 采用“数据产品”思维
  • 在日常工作流程中嵌入协作
  • 尽可能自动化
  • 通过DataOps确保数据支持
  • 投资正确的技术
  • 不断改变和调整您对数据治理的看法

在这里,我们将探索和理解数据治理项目中采用的这些最佳实践。

什么是数据治理最佳实践?

数据治理最佳实践是成功的数据团队为有效地扩展其数据治理工作而采用的一套指南。

您可以将其视为帮助您回答问题的护栏和政策,例如:

  • 您的组织有哪些数据?
  • 这些数据在哪里?
  • 它在哪里以及如何流经您的组织?
  • 它是用来做什么的?使用这些数据生成了哪些报告或指标?
  • 如何访问此数据?
  • 谁拥有这些数据?
  • 谁定义、修改和使用这些数据?
  • 能否共享此数据?

让我们更深入地了解7个数据治理最佳实践中的每一个。

1.用你的“为什么”来引导

总体目标的需要

大多数数据治理框架都是从一个原因开始的——一个目标、一个公司驱动因素,或者一个治理战略和愿景的战略层。“为什么”帮助您定义您的行动将如何实现价值并与组织的业务目标保持一致。

有一个总体目标也有助于组织中的员工培养目标感和参与感。根据热门职业咨询网站the Muse的联合创始人兼首席执行官凯瑟琳·明秀(Kathryn Minshew)的说法:

“年轻的员工希望相信自己工作的价值。他们希望被倾听,不太可能在没有上下文的情况下听从命令。”

创建和传达“为什么”如何帮助您的团队?

从你的“为什么”开始并让你的人参与这个过程的另一个原因是数据治理本身随着时间的推移而演变的方式。

在另一篇文章中,我们强调了现代数据治理不能是自上而下的方法,而是应该是分散的、社区主导的举措。在这样的环境中,数据治理成为组织中每个人的共同责任。

因此,让他们了解数据治理计划、政策和标准背后的目的至关重要。您可以首先询问您的团队,他们如何在未来12-18个月内可视化组织的数据文化。

2.采用“数据产品”思维

什么是数据产品?

数据产品是从数据中提取价值并帮助您产生有意义见解的任何东西。在《数据分析与Hadoop》一书中,数据产品的定义如下:

数据应用程序从数据本身获取其价值,并因此创建更多数据。它不仅仅是一个有数据的应用程序;这是一个数据产品。

因此,数据产品可以是原始数据、仓库、KPI仪表盘、域数据、算法等。

DJ Patil曾任美国科学技术政策办公室首席数据科学家,他在这里为该术语添加了更多的上下文:

当您更广泛地考虑数据产品时,您开始意识到,即使是公司内部的仪表盘也很重要。突然间,你的视野开阔了,你可以开始创建流程,让你了解、制造和大规模销售产品。

为什么要将产品思维应用于数据?

将产品思维应用于数据可以帮助您从大规模的数据中产生意义。

与服务不同,一个产品只需构建一次,几个客户就可以使用它来解决问题。产品可以进行更新和改进,以优化客户获得的价值,但前提不变。

以下是Atlan联合创始人Prukalpa Sankar如何强调产品思维对数据团队的影响:

衡量一个产品的不是它有多少功能,也不是工程师能多快地消除缺陷,而是它能多好地满足客户的需求。同样,数据产品团队应该以用户(即整个公司的数据消费者)为中心,而不是回答问题或构建仪表板。这使得数据团队能够专注于经验、采用和可重用性,而不是专门的问题或请求。

阅读更多信息→ 如何将产品思维应用于数据

您如何将产品思维思维模式应用于数据治理?

在数据治理的情况下,您可以将每个数据域标识为数据产品,并指定域数据所有者(即数据产品所有者)来管理他们创建的数据。当您将管理数据的责任交给创建数据的人时,处理数据责任和信任问题就变得更简单了。

数据产品的消费者-分析师、科学家、业务经理-应该被视为客户,为他们提供愉快的体验应该是每个数据产品所有者的基本目标。

因此,数据产品所有者有责任确保“数据产品”:

  • 可重复使用的
  • 可复制性
  • 有据可查
  • 可扩展性
  • 可访问的
  • 易于理解和使用,支持自助服务

3.在日常工作流程中嵌入协作

元数据在数据治理中的作用

数据治理的一个核心成果是使组织的数据易于访问、理解和使用。元数据在这一结果中发挥着核心作用,它提供了相关的上下文,使数据能够被消费者发现和理解。

然而,元数据不能容纳在数据团队必须切换以获取完整上下文的另一个工具中。Slack的软件工程师乔什·威尔斯(Josh Wills)在推文中描述了这个难题——他不想只访问第三个网站“浏览元数据”。

screenshot showing tweet by Josh Wills

需要在我们的日常工作流程中嵌入元数据。来源:推特

什么是嵌入式协作?

嵌入式协作是指在你所在的地方进行工作,同时减少摩擦。

通过嵌入式协作,您可以回答关于数据来源和可追溯性的几个问题,这进一步简化了数据治理。

正如Atlan的联合创始人Prukalpa Sankar所说,“嵌入式协作可以统一数十个微工作流,这些工作流会浪费时间、造成挫折,并导致数据团队的工具疲劳,反而会让这些任务变得令人愉快。

数据治理的嵌入式协作是什么样子的?

通过将元数据嵌入到团队的日常工作流程中,您可以帮助他们使用自己选择的工具进行协作和讨论数据。例如,他们可以使用Slack搜索数据定义,或者在不离开Looker的情况下跟踪沿袭。

因此,任何试图理解数据集的人都可以使用他们的BI工具来理解数据集,并获得该资产的所有上下文——词汇表定义、Slack讨论、查询、数据谱系映射等等。

4.尽可能实现自动化

自动化的兴起

自动化已经以RPA(机器人过程自动化)、CPA(认知过程自动化)和LPA(低代码自动化)的形式出现。可编程的智能机器人正在执行可重复和冗余的手动任务,自动化非常规任务,甚至复制需要人工判断的决策。

以下是Gartner副总裁分析师Cathy Tornbohm对RPA领域未来支出的描述:

“通过在2021实现31%的增长率,RPA市场的增长率远远高于16%的全球平均软件市场增长率。”

数据治理中的自动化是什么样子的?

这就是为什么您还应该利用自动化的潜力进行数据治理。

例如,您可以使用可编程机器人自动识别敏感的PII、HIPAA和GDPR数据。您还可以自动向下游和上游传播自定义分类

5.通过DataOps确保数据支持

DevOps和软件开发

DevOps因其通过消除软件开发和运营中的筒仓来大规模交付应用程序和服务的使命而崭露头角。

它强调在运营和开发团队之间建立协作文化,并提倡使用自动化,通过CI(持续集成)、CD(持续交付)和CD(持续部署)加快软件交付速度。

SalesOps和销售生产力

同样,SalesOps也参与进来,以减少各种销售流程之间的摩擦。根据HubSpot的说法,SalesOps通过提供有关流程瓶颈的见解、帮助寻找新的潜在客户和潜在客户以及使用技术提高销售效率来支持销售团队。

DevOps和SalesOps都是哲学、实践和工具的集合,它们可以减少摩擦并促进团队间的协作。

数据产品也需要类似的做法,侧重于工具、流程和文化,以使组织的其他部分更加数据驱动,并有助于更好的数据治理。这就是DataOps可以帮助的地方。

实施DataOps以从数据治理提升到数据支持

根据Gartner的说法,DataOps是“一种协作数据管理实践,专注于改善整个组织中数据管理者和数据消费者之间的数据流的通信、集成和自动化。”

它将精益制造、敏捷方法论和DevOps的原则应用于数据。因此,DataOps确保您:

  • 开发数据产品,目标是为最终用户和业务提供价值
  • 使用敏捷方法和自动化(即CI/CD管道),像“软件产品”一样运送“数据产品”
  • 将数据治理融入组织中每个人的日常工作流程

6.投资正确的技术

技术的消费化

在过去十年中,随着生产成本大幅下降,云计算已成为常态,技术发生了巨大变化。

因此,我们生活在这样一个时代:“最终用户也是企业的员工,他们对企业数字技术的期望取决于他们在日常生活中使用的技术。”

这种现象被称为技术的消费化,这就是为什么投资于正确的技术需要你寻找以下特征的原因:

  • 直观、难忘的体验
  • 超个性化
  • 快速而敏捷
  • 活着,不断适应
  • 具有丰富交互的多种模式
  • 随时随地
  • 协作的

哪些工具对数据治理至关重要?

用于在整个组织中促进数据治理的工具必须体现这些特征。

为了确保您有一个能够接受数据治理最佳实践的解决方案,您选择的工具/平台必须具备以下功能:

  • 具有360度数据资产配置文件的易于搜索的数据目录
  • 可以根据用户角色、项目或数据域自定义的数据工作区
  • 提供每个数据资产丰富上下文的业务词汇表
  • 可编程机器人,用于自动化数据标记、分类等。
  • 跨系统、列级数据沿袭
  • 数据质量分析
  • 细粒度、基于角色的访问控制

7.不断改变和调整您对数据治理的看法

数据环境和现代数据堆栈的演变

数据环境不断发展,现代数据堆栈不断升级。在二十年内,我们已经从关系数据库发展到云数据仓库,随着更多数据和分析用例的出现,生态系统将继续发展。

FirstMark的风投Matt Turck是这样描述这一演变的:

数据仓库解锁了围绕它们的工具和公司的整个生态系统:ETL、ELT、反向ETL、以仓库为中心的数据质量工具、度量存储、增强分析等。许多人将这个生态系统称为“现代数据堆栈”。

The Machine learning, Artificial intelligence and Data (MAD) landscape by Matt Turck and John Wu at FirstMark

FirstMark的Matt Turck和John Wu的机器学习、人工智能和数据(MAD)景观。来源:Matt Turck


阅读更多信息→ 现代数据堆栈101和现代数据堆栈的未来

为什么持续审查您的数据治理方法是最佳实践?

虽然捕获和摄取大量数据变得更容易、更便宜,但跟踪所有数据、获取足够的上下文并将其用于决策仍然是一件痛苦的事。

这就是为什么数据工具生态系统有更多的发展空间。马特·图尔克(Matt Turck)接着提到,数据工程工具和实践仍然远远落后于其软件工程表兄弟的成熟度和自动化水平。

这就是为什么将数据治理视为一个不断发展的项目,而不是像数据堆栈的其他部分一样,将其视为一次性活动至关重要。

以下是Snowflake如何强调这一需求:

“随着数据量的增长、新的数据流的出现以及新的访问点的出现,您将需要一个策略来定期检查您的数据治理结构——本质上是数据治理过程的治理。”

为什么要遵循这些数据治理最佳实践?

因为它们为导致数据治理计划失败的挑战提供了解决方案

大多数组织已经制定了数据治理计划。然而,它的有效性远不能保证。

根据Gartner 2021的D&A治理调查,61%的人表示他们的治理目标包括优化业务流程和生产力的数据,但只有42%的人认为他们正在实现这一目标。

在同一项调查中,Gartner估计,到2025年,80%寻求规模化数字业务的组织将失败,因为他们没有采用现代的数据治理方法。这种方法应该是分散的、社区主导的和协作的。

数据治理最佳实践:下一步

采用“数据产品”思维方式、将协作嵌入日常工作流程、采用DataOps以及利用高度可定制和可编程的工具至关重要。

您可以首先确定数据治理的高ROI用例,并遵循上述最佳实践。一旦您看到了概念证明,就可以为剩余的数据和分析用例扩展数据治理。

本文地址
https://architect.pub/7-data-governance-best-practices-follow-2023
SEO Title
7 Data Governance Best Practices to Follow in 2023