Photo by Luca Bravo on Unsplash
本周,我将向您介绍2022年数据界最热门的话题之一。是的,我们将讨论Lakehouse。
首先,让我们试着理解所有这些概念。
什么是数据仓库?
数据仓库是存储所有结构化数据的地方。它可以帮助您实现BI工作负载。
您可以使用SQL轻松查询并访问仓库中的数据。
什么是数据湖?
数据湖是用于持久保存任何数据(结构化、半结构化或非结构化数据)的存储。
当Hadoop被引入数据世界时,数据湖开始受到人们的关注。
Data Lake支持多种工作负载的实现,如流式用例、AI/ML用例等。
什么是Lakehouse
Lakehouse为我们带来了两全其美的体验。
Lakehouse是在数据湖上实现的。
它没有单独的仓库。但它可以支持SQL查询的运行,就像在仓库中一样。
Lakehouse是一个数据湖+,具有数据仓库的所有良好功能
Lakehouse有什么好处?
- 数据湖的成本效益,因为它们是建立在像AWS S3这样更便宜的对象存储上的。
- 支持所有数据—结构化、半结构化或非结构化。
- 支持所有工作负载-BI、AI、ML、流、ETL和临时查询。
- 独立存储和计算。与存储和计算捆绑在一起的传统数据仓库相比,这可能是最关键的优势。
- 您可以获得数据仓库的所有好功能。即查询数据时的出色性能、SQL支持、ACID功能(更新/删除)
可用产品
虽然data bricks引入了lakehouse一词,但也有其他玩家提供了实现Lakehouses的平台。
Databricks&Dremio在Lakehouse附近提供产品。
如果您正在寻找开源产品,您可以探索使用AWS S3与Apache Iceberg(存储)+Trino/Presto(查询引擎)实现Lakehouse的可能性
总结
Lakehouse是一个新概念,在数据世界中越来越受到关注。
- Lakehouse=数据湖+查询引擎
- 数据湖可以使用类似AWS S3的云对象存储来实现
查询引擎是由Databricks、Dremio或Presto等查询处理器提供的计算。
然而,有一个主要组件我没有在本新闻稿中介绍——开放式表格格式
“开放表格式”赋予数据湖权力,使其具有类似DW的ACID和时间旅行功能。Apache Iceberg就是这样一种开放表格式&我将在下面的时事通讯中写更多关于它的内容。
在那之前,你可以探索更多关于这个话题的内容。
这里有几个链接可以阅读。
我希望你喜欢本周的话题。请评论/邮件/DM并让我知道您的反馈。
最新内容
- 4 days 16 hours ago
- 4 days 16 hours ago
- 4 days 17 hours ago
- 4 days 17 hours ago
- 4 days 17 hours ago
- 1 week 3 days ago
- 1 week 4 days ago
- 2 weeks ago
- 2 weeks ago
- 2 weeks ago