【数据湖架构】数据湖与数据仓库:主要差异
这是一个由5部分组成的系列文章的第二篇文章,“大数据备忘单:营销人员想要了解的内容”。这个针对营销人员的分拆系列受到了我为高级管理人员和高级管理人员SAS全球论坛执行会议今年早些时候。
“我们的企业数据每年以27%的速度增长,我们预计这个数字会增长,扩展和维护我们的数据仓库的成本太高了。”
“不要跟我们谈论我们的'大'数据。我们有足够的麻烦来及时处理和分析我们的“小”数据。首先是事情。“
“为了合规的原因,我们必须保留我们的数据7年,但我们很乐意存储和分析数十年的数据,而不会破坏机器和银行。”
这些场景中的任何一个都响了吗?如果是这样,Hadoop可能会有所帮助。在这个由五部分组成的博客系列中,我们从营销人员的角度来看五大数据问题。本文回答了系列文章中的第二个问题,并解释了即使您没有“大数据”,Hadoop如何提供帮助。
问题2:为什么我们不需要大数据就需要Hadoop?
与流行的看法相反,Hadoop不仅适用于大数据。 (为了讨论的目的,大数据只是简单地将数据放在现有的关系系统中,或者根本不适合)。当然,Hadoop最初是为满足网络/媒体公司的大数据需求而开发的,但是今天,全世界都在使用它,几乎每个行业都可以解决更广泛的大小数据需求。
在我的白皮书“非奇怪的大数据手册:Hadoop和企业数据仓库”中,我提出了六个常见的Hadoop用例 - 其中三个完全不需要“大”数据来充分利用Hadoop:
1.阶段结构化的数据。使用Hadoop作为数据仓库的数据分段平台。
如果在将Hadoop加载到数据仓库之前使用Hadoop处理和转换运营数据,该怎么办?奖金是因为Hadoop存储成本低,您可以将这两个版本的数据存储在Hadoop中:原始数据和原始数据。您的数据现在都集中在一个地方,以便于以后管理,重新处理和分析。
2.处理结构化数据。使用Hadoop更新数据仓库和/或操作系统中的数据。
为什么不把数据仓库资源用于更新仓库中的数据?为什么不把必要的数据发送到Hadoop,让Hadoop做它的事情,然后把更新后的数据发送回仓库?这个用例不仅适用于处理仓库数据,还适用于任何操作或分析系统中的数据。充分利用Hadoop的低成本处理能力,让您的关系系统得以自由发挥,做到最好。
3.归档所有数据。使用Hadoop将本地或云中的所有数据归档。
由于Hadoop运行在可轻松快速扩展的商品硬件上,因此企业可以以更低的成本存储和归档更多的数据。例如,如果您在监管生活之后不需要销毁数据以节省存储成本?如果您可以轻松而经济高效地保存所有数据,该怎么办?或者,这可能不仅仅是保存数据,而是能够分析更多的数据。为什么要将分析限制在过去三,五,七年时间,以便轻松存储和分析数十年的数据?这不是数据极客的天堂吗?
4.处理任何数据。使用Hadoop来利用企业数据仓库生态系统当前不可用的数据。
本用例关注两类数据:(1)尚未集成到数据仓库中的结构化数据源;(2)非结构化和半非结构化数据源。更一般地说,任何目前不属于您的仓库生态系统的数据都可能为您的客户,产品和服务提供更多的信息。由于Hadoop可以存储和处理任何数据,因此它可以为您的数据仓库无法处理或处理不好的数据提供冗余。
5.访问任何数据(通过数据仓库)。使用Hadoop扩展数据仓库,并将其保留在组织数据Universe的中心。
这个用例面向那些希望将企业数据仓库作为事实上的记录系统的公司 - 至少现在是这样。作为补充组件,Hadoop可用于处理和集成任何类型的数据结构化,半结构化和非结构化数据,并将所需的数据加载到数据仓库中。这使得公司可以继续将其当前的BI /分析工具与其企业数据仓库生态系统结合使用。
6.访问任何数据(通过Hadoop)。使用Hadoop作为所有数据的登陆平台,充分利用数据仓库和Hadoop的优势。
如前所述,在Hadoop中捕获数据的一个优势是它可以以原始状态存储。与传统的结构化数据不同,它不需要进行格式化。它可以在数据请求的时候格式化。这个用例最贴切地支持将Hadoop作为“数据湖”的概念 - 这是我最近在另一个论坛上与同事进行的讨论/辩论。
营销人员的关键要点
不要认为Hadoop是大数据的同义词,因为事实并非如此。然而,即使你没有大数据,你也可以使用其中一种比较流行的大数据技术,正如前面的三个用例所指出的那样。但这不仅仅是关于技术 - 这是关于使你能够充分理解技术,以理解它如何关注你对客户体验的关注。
Hadoop就在这里,随时准备和企业数据仓库“玩”。下载我的非怪胎的大数据手册,以帮助您找出哪些用例对您的组织有意义。这本剧本是为精通技术的商业专业人士而写的,他喜欢用图片来表达文字,简单到复杂,并且对较长的文本进行简短的解释。如果这个描述你,那么你还在等什么?
- 54 次浏览