跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

我的许多客户使用Medallion结构在Lakehouse中对数据进行逻辑排列。它们通过不同的阶段或层来处理传入的数据。如下图所示,最受认可的布局包含青铜、白银和黄金层,因此使用了“奖章架构”一词。

尽管三层设计是常见和众所周知的,但我目睹了许多关于每一层的范围、目的和最佳实践的讨论。我还观察到,理论和实践之间存在着巨大的差异。因此,让我分享一下我个人对如何实现数据架构分层的思考。

数据平台战略

分层架构的第一个也是最重要的考虑因素是确定如何使用数据平台。集中式和共享数据平台的结构预计与许多域使用的联邦多平台结构截然不同。分层也会根据您是将平台与体系结构的源系统端还是消费端对齐而有所不同。考虑到消费端更多样的数据使用特征,与源系统相关的平台在分层和结构方面通常比与消费者相关的平台更容易标准化。

考虑到这些因素,让我们在每一层之后探索每一层。对于每一层,我首先提供一些抽象和高级的目标。之后,我将通过实地观察使分层更加具体。

着陆区

着陆区或着陆区是一个可选级别,通常由建立数据平台的组织实施。它是从各种来源收集的数据在传输到青铜层之前的临时存储位置。当从目标源系统提取数据具有挑战性时,例如在处理外部客户端或SaaS供应商时,这一层变得尤为必要。在这些情况下,可能存在依赖性,或者数据可能以不合适的文件格式或结构接收。