传统ETL流程过时的4个原因
近年来,现代数据平台发生了巨大变化。传统规划的传统内部数据仓库正越来越多地转向基于云的数据湖和数据仓库。
另一个值得注意的变化是摆脱了传统的ETL(提取、转换、加载)过程。相反,现代数据平台依赖于一系列先进的工具和技术来简化数据处理和准备过程。因此,用户可以更快、更可靠地访问高质量的数据。这里的关键词是ELT和Zero ETL方法。
以下四句话是ETL在现代数据环境中变得越来越不重要的关键原因。
原因1:ETL速度慢,需要大量资源。
传统的ETL过程通常涉及跨多个系统和阶段移动大量数据,包括从源系统提取、数据转换和加载到目标数据仓库。这些过程可能缓慢、资源密集且容易出错,尤其是安装在内部部署基础设施上时。这使得它很难跟上现代数据驱动企业的需求[1][2]。
原因2:ETL不够敏捷。
在当今快节奏的商业环境中,数据必须实时可用,以便为组织提供做出明智决策所需的见解。ETL过程可能缓慢且不灵活,因此很难对不断变化的业务需求或不断发展的数据源做出快速响应。因此,通常使用ELT,在没有初始转换的情况下加载数据,甚至使用Zero ETL方法,在源系统中直接收集或查询数据,并自动检测和处理模式更改等情况[1]。
The New Buzzword in Data Engineering: Zero ETL
原因3:ETL成本高昂。
传统的ETL工具还需要在硬件、软件和人员方面进行大量投资以进行操作和维护。现代数据平台可以消除其中的许多成本,使组织能够专注于为用户提供价值,而不是管理复杂的ETL流程。在这里,可以接管数据集成的内置服务和附加组件通常更便宜、更容易实现。谷歌数据流就是一个例子,它可以在没有太多编程或安装的情况下处理实时CDC[3]。
Google launches new Data Service Datastream
New Tool for Seamless Replication from Databases to BigQuery
原因4:现代数据平台支持自助式数据准备。
除了Zero ETL和自动化数据集成服务,它们处理(几乎)所有集成数据的事情之外,现代数据平台的另一个关键优势是它们能够支持自助数据准备,允许用户在没有复杂ETL过程的情况下轻松访问和操作数据。这种方法使用户能够在数据准备中发挥更积极的作用,使他们能够更有效地探索和分析数据。因此,在使用Zero ETL或ELT工具进行数据集成后,您通常可以使用一些技术和工具来实现数据准备和转换(如有必要)。无论是直接在数据仓库中通过SQL,还是在随后的商业智能工具中,这些工具还提供了许多选项,用于从原始形式更正数据,并在必要时对其进行调整或丰富。
总结
总之,可以说,由于成本高、速度慢、资源量大和灵活性高,现代数据平台现在正在远离ETL过程。这些数据平台正朝着先进的技术和方法发展,这些技术和方法能够提供更快、更高效、更灵活的服务,以便用户能够实时访问高质量的数据,从而实现更大的业务成果。
来源和进一步阅读
- [1] CAYLENT, Adam Selipsky Keynote recap — AWS re:Invent 2022 (2022)
- [2] BigData Insider, AWS-Chef Selipsky ruft die Parole „Zero-ETL“ aus (2022)
- [3] Google, Datastream for BigQuery (2022)
最新内容
- 12 hours 55 minutes ago
- 12 hours ago
- 3 days 14 hours ago
- 4 days ago
- 5 days 14 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago
- 6 days 8 hours ago