【数据湖架构】IBM Data Lake:发现事实,数据模式和临时报告
IBM Data Lake发现事实,数据模式和临时报告
什么是数据湖?
数据湖是一个存储库,它保存原始格式的大量原始或精炼数据,直到被访问。 术语数据湖通常与面向Hadoop的对象存储相关联,在该对象存储中,组织的数据被加载到Hadoop平台中,然后将业务分析和数据挖掘工具应用到驻留在Hadoop集群上的数据。
但是,根据组织的需要和目标,数据湖也可以有效地使用,而无需整合Hadoop。 数据湖这个术语越来越多地被用来描述任何大型的数据池,在这个大型的数据池中,只有在数据被查询之前,模式和数据的要求才被定义。
特征
更轻松地访问整个组织的数据
访问自有部署和云中的结构化和非结构化数据。
更快的数据准备
花费更少的时间访问和定位数据,从而加快数据准备和重用的工作
增强敏捷性
数据湖的组件可以作为一个沙箱,使用户能够建立和测试更灵活的分析模型。
更准确的见解,更强的决策
跟踪数据沿袭有助于确保数据的可靠性。
能力
Apache™Hadoop®
使用开源Hadoop管理大量和不同类型的数据。 利用无与伦比的性能,简单性和标准遵从性来使用所有数据,而不管其位于何处。 将大型数据集可视化,过滤和分析为可消费的业务特定环境。
Apache™Spark™
快速构建算法,迭代速度更快,并通过Spark将分析结果付诸行动。 轻松创建从复杂数据中获取洞察力的模型,并及时应用洞察力来推动结果。 访问所有数据,快速构建分析模型,快速迭代统一编程模型,并在任何地方部署这些分析。
流计算
流计算使组织能够处理始终处于开启状态且永不停止的数据流。 这有助于他们及时发现所有数据中的机会和风险,以实现变化。
治理和元数据工具
治理和元数据工具使您能够定位和检索有关数据对象的信息及其含义,物理位置,特性和用法。
产品
BM Big SQL
Big SQL是Hadoop的SQL引擎,它可以同时利用单个数据库连接(即使是单个查询)来使用Hive,HBase和Spark。 出于这个原因,Big SQL也是最终的混合引擎。
IBM®Big Replicate
IBM Big Replicate通过提供持续的可用性,性能和保证的数据一致性,为Apache™Hadoop®和对象库提供企业级复制。 它从实验室到生产,从生产到灾难恢复站点,或从地面到云端对象存储的大数据复制,这些存储由最苛刻的业务和法规要求来管理。
IBM数据科学经验
基于云的社交工作空间可帮助数据科学家整合其在多种开放源代码工具(如R和Python)中的使用和协作。
- 82 次浏览