以下是五个核心数据体系结构原则,可帮助组织构建一个成功满足其数据管理和分析需求的现代体系结构。
同样,当您的数据架构基于您的特定数据管理和分析需求组合在一起时,您的组织也会受益。但通常情况下,我们从技术供应商的产品设计中继承了许多通用组件和集成。如果我们已经定制了数据体系结构的一些结构,那么这可能会在很长一段时间内临时发生。
很难从一开始就提供一个规范的体系结构来满足您的所有需求。但我可以提出一些经验法则和最佳实践,帮助定义有效的现代数据架构。以下是需要牢记的五个数据体系结构原则。
1.储存是一种商品,但仍然是一种考虑因素
不久前,数据存储还很昂贵。以至于定义存储格式、备份策略和归档计划成为数据架构师工作的重要组成部分。甚至可以选择和调整记录中单个字段的数据类型,以降低存储成本。
事情发生了怎样的变化。我不再需要从专业供应商那里征用1TB的存储空间,以及机架安装、电源和冷却风扇。今天,我可以在一张SD卡上,甚至是一张microSD卡上节省一兆字节。曾经,这足以运行世界上最大的数据库。存储——无论是在云中还是在本地——现在都是一种商品。
Follow these principles to help put your data architecture on the right track.
这有三个积极的结果。首先,当然,我们节省了很多钱。此外,现代数据体系结构不再仅仅为了降低存储成本而涉及复杂的过程。如果数据管道中的一些数据转换可以通过使用临时云存储更容易地完成,那就去做吧。增加的成本可能可以忽略不计。最后,我们可以存储比以前多得多的数据,包括曾经存档的老化或补充数据集。现在,我们的企业数据的全部范围都可以使用了。
即便如此,数据体系结构最佳实践仍应考虑数据存储。例如,将数据存储在处理位置附近可以提供实时分析和操作所需的性能优势。如今,即使是内部存储也足够便宜,可以实现这一点。此外,我们可能会选择保持大量历史数据的连续可用性,因为我们可以负担得起。但在发生停机时恢复这样的系统可能需要比分割当前和旧数据更长的时间。
2.分析应遵循数据
从数据仓库的早期到商业智能系统的出现,再到今天的机器学习管道,我认为这是最实用的数据架构原则之一:分析遵循数据。通常,在数据源附近部署分析工具比将数据移动到分析环境更有效。
大多数分析应用程序只将数据减少到我们需要的字段。如果你知道SQL编程语言,你就会记得你被教导不要使用SELECT*的速度有多快,这是一个著名的糟糕的初学者查询,它从表中的每一列返回数据。同样,在数据分析中,我们通常会选择特定的记录进行分析。我们的许多计算工作都涉及到从过程中删除数据。
考虑到这一点,当数据分析师的首要任务是减少数据时,将所有源数据移动到新环境中是没有意义的。在源系统中进行所需的数据建模、缩减和整形工作更有效。
您也可以将源数据留在本地系统中进行分析,而不是将其迁移到云中。这就是为什么BI应用程序迁移到云的速度相对较慢的原因:当大多数数据都在本地处理和存储时,在那里进行分析也是有意义的。
数据移动量越少,性能越好,数据体系结构越不复杂,需要管理的环境越少,数据管理也越容易,所需的用户访问控制也越少。
3.多云环境是常态
世上没有云这样的东西。好吧,这有点争议,但我希望我能引起你的注意。我的意思是,当我们谈论云时,我们是在懒惰。没有一朵云。对于大多数企业来说,可能有几个——事实上,很多——不同的云服务在使用。它们通常在不同的云平台上运行,它们之间或多或少(通常很少)有连接和集成。
例如,今天使用基于云的CRM、费用管理和人力资源系统是很常见的。但是,如果你想分析这些应用程序中的数据——比如说,为了衡量销售团队的成本和效率——你可能必须将多个平台作为数据体系结构的一部分进行集成。所涉及的问题可能不像许多内部部署系统中的部门数据仓库那样具有挑战性。云应用程序通常比传统应用程序具有更好的API和元数据。但您仍然需要考虑不同的数据结构和不同的系统延迟。
4.不要将数据治理与合规混为一谈
随着公众对数据隐私的日益关注和世界各地立法的不断增加,企业数据的使用和滥用不再只是一个技术问题。从首席营销官(他必须找到新的方法来管理邮件列表和广告)到首席财务官(他对数据泄露的巨额罚款感到担忧),监管合规性让每个人都感到担忧。
解决这些焦虑的体系结构通常涉及数据治理工具和其他数据管理软件。例如,企业数据目录对来自各种来源的数据的使用进行分类和管理,包括操作系统和报告系统。分析目录也对项目进行分类,但侧重于我们在数据之上构建的工件,如仪表板和数据可视化。它有助于管理数据使用,而不是数据源本身。
数据体系结构中包含的其他治理工具可以提供集成的安全性,例如用于各种技术的单点登录平台。一些工具跟踪数据的存储、移动和使用位置,因为国家和地区的隐私法各不相同。
尽管这些工具可能很有用,但我们必须牢记一个关键原则:治理和合规不是一回事,但它们之间存在着重要的双向关系。
合规性很容易描述:您的组织对数据的使用是否遵循相关法律、准则和规则?换句话说,您的流程是否勾选了所有正确的框?这些复选框可能是当地、国家和国际法律的要求,如欧洲的GDPR或美国的CCPA和HIPAA。ISO和NIST等标准机构也可能要求这些复选框。内部规则和程序也是一种遵守形式。错过哪怕一个盒子,你也可能不顺从,这可能会带来潜在的后果。这在理论上很简单,但在实践中很复杂。
另一方面,治理让人感觉有点自相矛盾。这与做出正确的决定无关,而是以正确的方式做出决定:你遵循最佳流程吗?数据治理需要一套预先定义、在行动中遵循并可回顾的策略和流程。其中不仅包括数据体系结构的最佳实践,还包括业务实践。
在没有良好管理的情况下遵守规定是可能的——你可能会因为运气好而不是判断好而勾选所有的框。但这种情况不太可能发生,更不可能持续下去。通过这种方式,数据治理和法规遵从性是相辅相成的,而治理是更基本的数据体系结构组件。
5.未经分析的数据是浪费的资产
数据是一种商业资产,这是现代数据管理的陈词滥调。但是,仅仅放在那里的数据只是一个成本中心,需要维护,而没有提供任何业务效益。当我们使用它时,我们开始意识到它的价值,尤其是以新的方式。
一些组织通过将数据货币化找到了新的收入来源。高价值数据,如详细的消费者信息,可能是一个重要的收入来源。但对于大多数企业来说,数据货币化只是一种副业。
然而,分析可以释放新的商业见解,从而释放新的价值。BI帮助高管规划业务战略并跟踪绩效指标。BI软件中内置的新增强分析工具将机器学习带入商业主流,以帮助数据准备和分析。数据科学家使用机器学习算法和其他先进的分析技术来预测商业问题和机会,并在数据集中发现对人眼来说太复杂、太大或太快的模式。
优化您的数据架构以支持分析过程是值得的。考虑一下如何移动数据:将数据保留在本地有好处吗?是否存在需要将数据存储在特定国家或州的安全或治理问题?这些因素和其他因素可以帮助您找到最适合您的组织的架构设计。
数据架构设计思维
当然,这五个原则并不是构建有效数据体系结构所需要的全部。但它们可以为你提供一些有用的思维模式。在房地产上市中,你经常会遇到一些房子,它们一开始是普通的建筑,但被业主打造成了独一无二的。您的数据体系结构应该朝着同样的方向发展。它可能没有梦想之家的浪漫,但它是你的组织有史以来最重要的投资之一。
- 登录 发表评论
- 33 次浏览
最新内容
- 4 days 15 hours ago
- 4 days 17 hours ago
- 4 days 17 hours ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week 5 days ago
- 1 week 5 days ago