跳转到主要内容
Chinese, Simplified

brown house near body of water

Photo by Luca Bravo on Unsplash

 

本周,我将向您介绍2022年数据界最热门的话题之一。是的,我们将讨论Lakehouse。

首先,让我们试着理解所有这些概念。

什么是数据仓库?

数据仓库是存储所有结构化数据的地方。它可以帮助您实现BI工作负载。

您可以使用SQL轻松查询并访问仓库中的数据。

什么是数据湖?

数据湖是用于持久保存任何数据(结构化、半结构化或非结构化数据)的存储。

当Hadoop被引入数据世界时,数据湖开始受到人们的关注。

Data Lake支持多种工作负载的实现,如流式用例、AI/ML用例等。

什么是Lakehouse

Lakehouse为我们带来了两全其美的体验。

Lakehouse是在数据湖上实现的。

它没有单独的仓库。但它可以支持SQL查询的运行,就像在仓库中一样。

Lakehouse是一个数据湖+,具有数据仓库的所有良好功能

Lakehouse有什么好处?

  1. 数据湖的成本效益,因为它们是建立在像AWS S3这样更便宜的对象存储上的。
  2. 支持所有数据—结构化、半结构化或非结构化。
  3. 支持所有工作负载-BI、AI、ML、流、ETL和临时查询。
  4. 独立存储和计算。与存储和计算捆绑在一起的传统数据仓库相比,这可能是最关键的优势。
  5. 您可以获得数据仓库的所有好功能。即查询数据时的出色性能、SQL支持、ACID功能(更新/删除)

可用产品

虽然data bricks引入了lakehouse一词,但也有其他玩家提供了实现Lakehouses的平台。

Databricks&Dremio在Lakehouse附近提供产品。

如果您正在寻找开源产品,您可以探索使用AWS S3Apache Iceberg(存储)+Trino/Presto(查询引擎)实现Lakehouse的可能性

总结

Lakehouse是一个新概念,在数据世界中越来越受到关注。

  • Lakehouse=数据湖+查询引擎
  • 数据湖可以使用类似AWS S3的云对象存储来实现

 

查询引擎是由Databricks、Dremio或Presto等查询处理器提供的计算。

然而,有一个主要组件我没有在本新闻稿中介绍——开放式表格格式

开放表格式”赋予数据湖权力,使其具有类似DW的ACID和时间旅行功能。Apache Iceberg就是这样一种开放表格式&我将在下面的时事通讯中写更多关于它的内容。

在那之前,你可以探索更多关于这个话题的内容。

这里有几个链接可以阅读。

我希望你喜欢本周的话题。请评论/邮件/DM并让我知道您的反馈。

原文地址
https://gauravthalpati.substack.com/p/vol-3-what-is-a-lakehouse
本文地址
Article

微信

知识星球

微信公众号

视频号