【SAP HANA】SAP HANA Vora是如何成为最佳的?

视频号

微信公众号

知识星球

Chinese, Simplified

SAP HANA Vora是最新推出的SAP解决方案,用于在Hadoop平台上分析内存中的大数据,Hadoop平台运行在内存计算引擎上。SAP HANA Vora是SAP的一个交互式大数据分析引擎,它连接到Apache Spark和Hadoop系统,以提高Hadoop大数据的可访问性和可用性。归根结底,公司可以使用数据分析、KPI、服务来提高业绩。

目录

  1. 什么是SAP HANA Vora?
  2. SAP HANA Vora简介
  3. 什么是大数据
  4. 什么是HADOOP
  5. 什么是Apache Spark
  6. HANA VORA是什么
  7. 为什么HANA VORA
  8. SAP Vora引擎体系结构
  9. SAP HANA Vora:使用案例研究
    1. 实时供应链优化
    2. 客户洞察和定制
    3. SAP Leonardo的用途
    4. 什么是HDFS
    5. 什么是MLlib

什么是SAP HANA Vora?

SAP HANA Vora是一个强大的内存计算平台,旨在轻松地与Apache Hadoop和Apache Spark交互,并通过实时分析处理大量结构化和非结构化数据来扩展SAP HANA平台的功能。企业可以通过采用该软件来充分利用大数据分析的力量,从而实现更精确、更及时的决策。

SAP HANA Vora简介

数据科学家和分析师使用数据分析工具,公司在决策中也使用这些工具。数据分析将有助于企业更好地了解客户的业务和改进领域,评估其广告活动,个性化营销内容,制定内容战略,以及开发新产品。因此,大数据分析展示了一些增长的见解,并为其竞争对手提供了优势。

SAP Vora支持广泛的数据类型,包括图形数据、关系数据和JSON,以及时间序列。一个专门的引擎通过内部数据结构和算法管理每种类型的数据,这些结构和算法可以原生地支持并高效地处理数据。

我们可以将关系信息加载到主内存中,然后使用查询处理快速访问代码。有各种各样的引擎处理剩余的数据以进行后续分析。

 

  • 关系磁盘引擎处理无法放入主存的大型数据集。
  • 时间序列引擎可以使用不同的压缩技术来压缩时间序列数据。它还为压缩数据提供诸如互相关或直方图计算之类的算法。
  • 图形引擎允许您对图形数据执行常见操作。它特别适用于大型图上的复杂只读查询。文档存储支持JSON数据的丰富查询处理

在我们开始深入了解HANA Vora之前,我们需要了解大数据、HADOOP和Apache Spark的概念

什么是大数据

移动传感、空气(遥感)、相机、麦克风、RFID读取器和无线传感器网络、社交媒体和存档数据。企业数据通常存储在昂贵的硬件中,而大型数据存储在价格较低的分布式商品硬件中。

什么是HADOOP

分布式计算开源软件。当您希望在分布式环境中保存大量数据时,HADOOP会执行以下操作。HADOOP支持您通过多种景观系统的组合来创建分布式环境。HADOOP有助于将数据和负载处理分发到各种场景。HADOOP只能在操作系统之上的一层使用HADOOP分布式文件系统。分布式计算(HDFS)。H

因此,HADOOP处理数据的文件。在大多数情况下,当数据以非结构化文件格式存储时,数据无法轻松处理。因此,为了构建数据结构,我们需要一些软件。在我们的传统系统中,我们总是使用MySQL、ORACLE、DB2等软件来组织数据文件。同样,我们需要一些软件来构建HDFS文件,



HANA VORA有助于解决这两个问题,并弥合企业大数据差距。公司数据是当前业务交易的数据,如销售订单、采购订单等。

什么是Apache Spark

用外行的语言来说,它是内存中的数据处理,它具有非常快速的数据处理能力。它支持Scala、Python和Java等多编程语言,支持ApacheSpark和Vora系统。Apache Spark中使用的Scala语言是目前最常见的。Vora将通过提供额外的业务功能和与SAP HANA的最佳集成来扩展Apache Spark,使用组织的实时企业数据实现跨消耗报告和高级分析。

Spark为与Spark流和机器学习(MLlib)相关的机器学习算法提供了进一步的高级可行性。

数据分析方面的挑战。

  • 一旦我们必须掌握大数据,我们就面临着重大挑战
  • 分布式数据存储在复杂的分析环境中,每次查询结果都不好
  • 由于两种数据的环境不同,因此对需要业务和大数据相结合的报告的要求将非常高。

HANA VORA是什么

HANA-Vora使用可以实时处理的HANA内存数据库,然后在分析中添加一层来处理Hadoop数据。这允许Vora收集Hadoop中存储的大量数据,以便开发人员和数据分析师能够立即访问聚合数据并做出上下文感知决策。

为了处理数字企业的特定业务场景,SAP从SAP HANA开发了SAP Vora。2015年9月,SAP HANA Vora在本地和云中发布。Hadoop为大量数据提供了成本较低的存储,但公司最初接受度滞后,因为数据湖中的数据是非结构化的,难以处理。

为了通过Apache Spark结构化查询语言(SQL)接口对组合数据进行OLAP式内存分析,SAP HANA Vora为Hadoop数据集构建结构化数据层次结构,并将其与HANA数据集成。

为什么HANA VORA

例如,通过快速检测交易和客户历史异常,金融机构可以通过更好地分析网络流量模式来减少风险和欺诈,以防止瓶颈并提高服务质量(QoS),或者金融机构可以被允许减轻欺诈;通过分析物料清单、制造数据和传感器数据,制造商可以改进其产品召回过程。

SAP HANA Vora是一个内存查询引擎,它连接到Apache Spark的执行框架,以提供增强的Hadoop交互分析。

SAP Vora引擎体系结构

SAP Vora支持各种数据类型,包括关系数据、图形数据、JSON文档集合和时间序列。专门的引擎通过定制的内部数据和算法来管理每种数据类型,以本地高效地支持这种数据类型。



HANA-Vora允许将关系数据加载到主存储器中,以便通过查询处理和使用不同压缩技术的代码生成快速访问,同时在压缩数据上提供互相关或直方图等算法。对数据的图形化操作,特别适合处理复杂只读分析查询的超大图表

SAP Vora可以从外部分布式商店加载数据,如SAP BW、ERP和非SAP来源,如物联网、社交媒体、日志和遥感器。数据要么存储在内存中,要么编制索引并存储在硬盘上。允许批量数据处理,分析和转换复杂逻辑在执行查询之前准备数据并以可视化格式表示

sap hana vora architecture

SAP HANA Vora:使用案例研究

实时供应链优化

改善供应链对于在当今竞争激烈的企业环境中保持领先至关重要。SAP HANA Vora的实时分析功能使企业能够实时监控和分析供应链数据。企业可以利用这种改进的数据处理能力来快速发现问题、优化运营并做出明智的决策,以提高供应链的效率和性能。

客户洞察和定制

识别客户的偏好和行为对于创造个性化体验和建立长期关系至关重要。SAP HANA Vora使组织能够实时分析大量客户数据,从而产生见解,推动营销策略、个性化推荐和整体更好的客户体验。这些先进的分析为公司提供了竞争优势,同时也提高了客户忠诚度。

关于文章中术语使用的常见问题解答

SAP Leonardo的用途

SAP Leonardo使企业能够自动化部分分析过程和业务决策,从而使用机器学习等智能技术获得动态见解

什么是HDFS

HDFS是指Hadoop分布式文件系统

什么是MLlib

MLlib指的是机器学习库(MLlib),内容有用的Spark机器学习算法



SAP HANA VORA入门

这里还有几篇文章可以帮助你提高知识。

本文地址
https://architect.pub/how-did-sap-hana-vora-become-best
SEO Title
How Did SAP HANA Vora Become the Best?