数据正在爆炸式增长:估计每天会产生2万亿字节的数据。鉴于数据的规模和速度,自动化数据治理越来越有必要,以确保用户能够找到和使用相关的数据。
在这里,我们介绍了自动化数据治理的以下方面:
- 什么是自动化数据治理?
- 为什么我们需要自动化数据治理?
- 自动化数据治理的实例
- 数据治理自动化:下一步行动
从历史上看,组织已经开发了各种机制来满足对治理良好的数据的需求,通常是由治理团队监督的手动流程。这导致了一个品牌问题,即治理被视为阻碍更多战略工作的控制学科。
要有效地实施协作而不是控制数据治理程序——在规模上,自动化是关键。通过应用自动化的数据治理,您可以对重复的治理任务进行编码,以确保它们以可持续和无错误的方式发生。同时,您的数据治理委员会、数据管理员和部门代表可以自由地共同制定和实施总体战略。
自动化数据治理是什么样子的?在这里,我们将探讨自动化数据治理的高级视图,并提供一些用例来帮助您了解它如何使您的组织受益。
什么是自动化数据治理?
自动化数据治理将最重复的治理任务编入法典,用可持续和可复制的流程取代了容易出错的手动方法。除了建立数据沿袭和确保策略合规性外,自动化还可以用于监控对数据资产的访问等任务,从而确保正确的用户能够在保持数据安全的同时利用数据。
根据西班牙和比利时科学家团队的ResearchGate出版物,“大数据系统中存在的大量异构数据要求采用自动化数据治理协议,我们认为该协议应包括但不限于以下元素:
- 数据来源,与如何追踪任何一段数据到源以重现其计算结果以进行谱系分析有关
- 衡量数据质量,提供准确性、完整性、可靠性和及时性等指标
- 数据的生动性,利用活动元数据,记录何时使用数据以及用户从中体验到的结果
- 数据清理,包括一套提高数据质量的技术,如标准化、重复数据消除、错误定位或模式匹配…”
为什么我们需要自动化数据治理?
自动化可以用来完成许多与数据治理相关的任务。采用自动化的一些动机因素包括:
- 不断增加的数据量和速度
- 企业中越来越多的独特数据源
- 全球对网络安全的认识提高,隐私法规也相应加强
- 数据生产者和消费者的多样性
不断增加的数据量和速度
2020-22年,企业数据总量预计将翻一番以上,从大约1 PB增加到超过2 PB(Statista)。数据治理需要一种能够大规模处理此类卷的方法。
特别是,通过手动干预来跟踪、管理、分类和执行政策非常繁琐,并为试图运行分析和获得基于数据的见解的个人带来了瓶颈。所有这一切都变得非常容易,因为自动化已经到位,可以管理和简化细节。
成长中的企业中越来越多的独特数据源
一项针对拥有1000多名员工的北美组织的调查发现,每个组织的平均数据源数量为400个(Matillion和IDG Research)。在不断增长的数据源中查找和编目数据资产需要尽可能实现数据治理自动化,因此用户可以快速高效地定位和访问相关数据。
全球对网络安全的认识提高,隐私法规也相应加强
数据呈指数级增长,尤其是需要隐私措施的敏感数据,以及影响《财富》500强企业和联邦机构的公开数据泄露,意味着各国正在密切关注隐私权。据估计,到2023年,全球65%的人口的个人数据将受到现代隐私法规的保护。
组织需要确保每个查询都符合这些法规,同时不妨碍工作流程——如果没有自动化的帮助,这项工作很难实现。
数据生产者和消费者的多样性
现代数据团队包括所有部门和角色的数据公民,从应付账款部门的Arnold到法律部门的Latasha。他们在处理数据时可能会有问题:
- 谁拥有数据集?
- 最近更新了吗?
- 如果我更正了一条错误的数据,会发生什么?
- 这些数据是否经过了业务领域专家的验证?
例如,财务团队成员可能必须每个季度联系销售人员,以确认他们的数字是否最终确定。该过程可以使用标记到数据资产的质量检查来实现自动化。自动化还可以用于跟踪和共享有关数据的信息,以便用户能够理解与之相关的沿袭和上下文。
自动化数据治理的实例
将自动化数据治理付诸实践需要评估自动化可以提供帮助的特定领域。治理并不存在于真空中:相反,它通过提供自动化数据管理和使用的工具,与现代数据堆栈的其他部分(如Snowflake数据库)协同工作。以下是一些例子。
细粒度柱级访问控制
访问控制是遵守有关隐私的组织、行业和政府法规的关键。通过对用户、组和团队使用细粒度访问控制,您可以自动授予或限制对数据库、模式甚至基于标记的数据资产组的访问权限。这可以用来遵守有关敏感数据的隐私法规,例如,通过标记任何受保护的数据并确保只有授权用户才能访问它。
自动构建的数据沿袭
跟踪数据沿袭的能力很重要,尤其是在金融等监管严格的行业,它可以用来证明合规性,但使用手动流程跟踪沿袭效率低且容易出错。自动构建的数据谱系可以用SQL解析取代手动过程,SQL解析可以自动理解并创建数据谱系的可视化表示。
例如,如果业务用户想要更新数据集,但担心它可能对下游仪表板产生的影响,他们可以使用自动构建的数据谱系来了解数据的使用方式,而无需联系工程团队。
通过沿袭自动传播策略
策略应通过沿袭进行传播,以确保敏感数据不会以不匹配的权限加载到列或表中。重要的是要有一种方法来自动对从敏感列派生的每个表或列进行分类,以便分类标记通过沿袭传递下去。
例如,销售部门的成员可能希望将区域销售数据列用于将在外部显示的仪表板。如果该销售数据包含个人可识别信息(PII),则仪表板将自动分类,以防止该信息泄露给公众。
自动生成的审核日志
审核日志是了解哪些用户正在访问敏感数据、谁访问了特定项目以及更广泛的数据使用模式的一种强大方法。手动跟踪将是一项乏味且容易出错的工作。因此,这是一个理想的自动化设置,可用于检测访问并在后台构建审计日志。
例如,假设营销团队构建了一组客户数据,并希望了解该数据集的有用程度,以便评估是否继续维护该数据集。使用自动生成的审计日志,他们可以查看用户访问该数据集次数,并对哪些部门使用该数据集有更深入的了解。
数据治理自动化:下一步行动
很明显,扩展数据治理策略需要某种形式的自动化。自动化的数据治理使您能够将治理活动嵌入数据用户的日常工作流程中。它还颠覆了围绕数据治理的说法,即它是关于控制的,并确保治理促进了从业者主导的数据计划,从而跟上当今数据治理应如何体现的最佳实践。
阅读本案例研究,了解东南亚最大的中小企业数字金融平台的数据治理之旅,该平台正在利用自动化数据治理推进数据民主化工作。
实施数据治理计划是一项艰巨的任务。这就是为什么一个坚实的计划、有影响力的目标、相关和实时的指标,以及对持续沟通和协作的重视,是需要采用的重要数据治理最佳实践。
准备好让数据治理变得轻而易举了吗?
数据治理自动化:相关阅读
- Data governance and its importance in the modern data stack
- 6 commonly referenced data governance frameworks in 2023
- 8 best practices for a robust data governance program
- The 3 principles of data governance: pillars of a modern data culture
- Data governance policy: Examples, templates & how to write one
最新内容
- 12 hours 31 minutes ago
- 12 hours ago
- 3 days 13 hours ago
- 4 days ago
- 5 days 13 hours ago
- 6 days 7 hours ago
- 6 days 7 hours ago
- 6 days 7 hours ago
- 6 days 7 hours ago
- 6 days 7 hours ago