【数据架构趋势】2023年5大云数据架构趋势
视频号
微信公众号
知识星球
最初是作为我的substack时事通讯的一部分发布的
你也可以阅读我去年关于2022年数据趋势的文章
亲爱的朋友们,您好!我希望你们在2022年取得圆满成功!
介绍
在这篇文章中,我将写下5个数据趋势,我认为这些趋势将是2023年数据企业的首要任务。这是基于我在过去2-3个月里参加的多次网络研讨会、会谈和峰会。
让我们开始吧!
2023年趋势-目录
- ·湖屋(Lakehouse)架构
- ·数据网格
- ·数据治理
- ·实时处理/流媒体
- ·数据体系结构和数据建模
湖屋架构
这是大多数峰会/网络研讨会上谈论最多的举措之一。
现在每个人都想建造一个湖屋,而不是数据仓库和数据湖。所有领先的数据平台现在都有用于实现lakehouse的产品/功能。
- Databricks是市场领导者,最好的解决方案似乎是Spark&Delta lake的创始人。
- Apache Iceberg正在被Athena、EMR和Glue等AWS服务所采用。
- Snowflake现在支持使用Iceberg表实现lakehouse。
似乎有一个明显的转变,即建造湖边小屋,而不是企业仓库。如果你还没有探索过湖屋,现在是阅读和了解它的工作原理及其优势的合适时机。
数据网格
整个2022年,我一直在听说数据网格架构。每个现代数据企业似乎都在讨论并计划实施它。但这并不是那么容易。
数据网格不仅仅是一个架构上的改变,它是一个组织级的举措,需要改变人们对数据的拥有和管理方式以及谁应该拥有和管理数据的观念。
数据网格基于4个主要支柱。
- 领域所有权-领域团队对其数据负责。
- 数据即产品-领域团队应将其数据视为产品,并将其提供给其他领域或下游消费者。
- 自助数据基础设施-专门的团队管理数据平台,并使领域团队能够利用该平台进行用例。
- 联合治理-跨领域数据产品的标准化,使其更易于管理、共享并遵守行业和监管标准。
阅读更多关于数据网格的信息,了解它的含义。如果你是数据世界的新手,你可能需要了解它如何在当今的现代数据世界中发挥作用。
数据治理
数据治理是一个需要讨论和理解的广泛话题。它包括几个以更好的方式管理数据的计划。
作为数据治理的一部分,一些举措包括
- 数据质量-验证和改进
- 元数据管理和数据发现
- 数据审计和数据排列/数据沿袭
- 访问控制和安全的数据共享
- 管理主数据
- 定期审查流程
这些都不是新的,并且已经实施了多年,用于管理仓库中的数据。然而,在管理数据湖或数据库中的数据时,它们中的大多数都具有挑战性。
没有多少组织成功地针对存储在云对象存储中的非结构化数据实现了这些功能。您可能会在组织中看到使用现代数据堆栈来实现这些功能的新举措。
市场上有多种产品可用于实现其中的每一种,这使得为您的特定用例找到合适的产品变得更加困难。Lakehouse、Data Mesh、Data Products和Data Market Place等新的架构模式和用例将使数据治理变得更加关键和具有挑战性。
实时处理/流
传统的数据仓库是在EoD(一天结束)或SoD(一日开始)作为一个批处理过程填充的。BI用户很乐意每天看到一次他们的数据(正确和完整)。但随着时间的推移,现在的决策更加实时。
您现在想要信用卡欺诈或未经授权访问的即时警报。即使是实时电影推荐或快闪销售警报也需要快速决策。
随着世界向更实时的用例发展,对实现能够支持此类流分析的架构的需求将很大。2023年,许多企业可能会开始支持流媒体、近实时或微批量用例的旅程。
数据架构和数据建模
最后,这是我最喜欢的一个——更多地关注数据架构和数据建模。
这些是实现数据平台的构建块。从长远来看,获得正确的架构蓝图和合适的建模策略来存储数据会有所帮助。
随着Hadoop的兴起,数据建模已经退居二线。在没有任何建模指导的情况下,任何形状和形式的数据都被倾倒在湖中。这很快导致了数据沼泽( data swamps ),使得发现和使用数据变得极其困难。
自去年以来,我听到许多行业专家谈论对正确架构和建模的需求。数据建模器的需求似乎又回来了,企业现在希望使用最合适的建模方法——维度模型或数据保险库(Data Vault)——将数据存储在湖泊、湖边小屋或仓库中。
这无疑是构建数据平台的一个重要方面。密切关注围绕数据架构和数据建模的各种讨论。
总结
2023年你应该注意的5个数据趋势
- 湖屋架构
- 数据网格
- 数据治理
- 流媒体/实时处理
- 数据架构和数据建模
感谢您的阅读,并祝2023年一切顺利!
- 30 次浏览