跳转到主要内容
Chinese, Simplified

什么是数据仓库?

数据仓库(DW)是从各种来源收集和管理数据的过程,以提供有意义的业务见解。数据仓库通常用于连接和分析来自异构源的业务数据。数据仓库是BI系统的核心,该系统是为数据分析和报告而构建的。

它融合了技术和组件,有助于数据的战略使用。它是企业对大量信息的电子存储,旨在进行查询和分析,而不是交易处理。这是一个将数据转换为信息并及时向用户提供信息以发挥作用的过程。

在本数据仓库(DWH)教程中,您将了解有关-

  • 数据仓库的历史
  • 数据仓库是如何工作的?
  • 数据仓库(DWH)的类型
  • 数据仓库的一般阶段
  • 数据仓库组件
  • 谁需要数据仓库?
  • 数据仓库的用途是什么?
  • 实施数据仓库的步骤
  • 实施数据仓库的最佳实践
  • 为什么我们需要数据仓库?优点和缺点
  • 数据仓库的未来
  • 数据仓库工具

决策支持数据库(数据仓库)与组织的运营数据库分开维护。然而,数据仓库不是一种产品,而是一种环境。它是一种信息系统的体系结构,为用户提供当前和历史决策支持信息,这些信息很难访问或出现在传统的操作数据存储中。

大家都知道,3NF为库存系统设计的数据库中有很多表是相互关联的。例如,关于当前库存信息的报告可以包括12个以上的联接条件。这样可以快速降低查询和报告的响应时间。数据仓库提供了一种新的设计,可以帮助减少响应时间,并有助于提高报告和分析查询的性能。

数据仓库系统也称为以下名称:

  • 决策支持系统
  • 高管信息系统
  • 管理信息系统
  • 商业智能解决方案
  • 分析应用程序
  • 数据仓库

DW

数据仓库的历史

数据仓库有利于用户了解并提高其组织的性能。随着计算机系统变得越来越复杂,需要处理越来越多的信息,对数据仓库的需求也在不断发展。然而,数据仓库并不是一件新鲜事。

以下是数据仓库发展过程中的一些关键事件-

  • 1960年的今天,达特茅斯和通用磨坊在一个联合研究项目中,开发了术语维度和事实。
  • 1970年的今天,尼尔森和IRI为零售销售引入了维度数据集市。
  • 1983年的今天,Tera Data Corporation推出了一个专门为决策支持而设计的数据库管理系统
  • 数据仓库始于20世纪80年代末,当时IBM员工Paul Murphy和Barry Devlin开发了业务数据仓库。
  • 然而,真正的概念是由伊蒙·比尔提出的。他被认为是数据仓库之父。他写过关于仓库和企业信息工厂的建设、使用和维护的各种主题。

数据仓库是如何工作的?

数据仓库作为一个中央存储库,其中信息来自一个或多个数据源。数据从事务系统和其他关系数据库流入数据仓库。

数据可能是:

  • 结构化的
  • 半结构化
  • 非结构化数据

数据经过处理、转换和摄取,以便用户可以通过业务智能工具、SQL客户端和电子表格访问数据仓库中经过处理的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。

通过将所有这些信息合并在一个地方,组织可以更全面地分析其客户。这有助于确保它考虑了所有可用的信息。数据仓库使数据挖掘成为可能。数据挖掘正在寻找可能导致更高销售额和利润的数据模式。

数据仓库的类型

三种主要类型的数据仓库(DWH)是:

1.企业数据仓库(EDW):

企业数据仓库(EDW)是一种集中式仓库。它为整个企业提供决策支持服务。它为组织和表示数据提供了一种统一的方法。它还提供了根据主题对数据进行分类的能力,并根据这些划分提供访问权限。

2.操作数据存储:

操作数据存储,也称为 ODS,只是当数据仓库和 OLTP 系统都不支持组织报告需求时所需的数据存储。 在ODS中,数据仓库是实时刷新的。 因此,它被广泛用于例行活动,例如存储员工的记录。

3.数据集市:

数据集市是数据仓库的一个子集。它是专门为特定业务线设计的,如销售、财务、销售或金融。在独立的数据集市中,数据可以直接从来源收集。

数据仓库的一般阶段

早些时候,组织开始相对简单地使用数据仓库。然而,随着时间的推移,数据仓库的使用开始变得更加复杂。

以下是数据仓库(DWH)使用的一般阶段:

脱机操作数据库(Offline Operational Database:)

在这个阶段,数据只是从一个操作系统复制到另一个服务器。这样,复制数据的加载、处理和报告就不会影响操作系统的性能。

离线数据仓库(Offline Data Warehouse)

数据仓库中的数据定期从操作数据库中更新。对数据仓库中的数据进行映射和转换,以满足数据仓库的目标。

实时数据仓库:

在此阶段,每当操作数据库中发生任何事务时,都会更新数据仓库。例如,航空公司或铁路订票系统。

集成数据仓库:

在这个阶段,当运营系统执行事务时,数据仓库会不断更新。数据仓库随后生成事务,这些事务被传递回运营系统。

数据仓库组件

数据仓库的四个组成部分是:

  • 负载管理器:负载管理器也称为前端组件。它执行与数据提取和加载到仓库中相关的所有操作。这些操作包括转换,以准备数据进入数据仓库。
  • 仓库管理员:仓库管理员执行与仓库中的数据管理相关的操作。它执行诸如分析数据以确保一致性、创建索引和视图、生成非规范化和聚合、转换和合并源数据以及归档和烘焙数据等操作。
  • 查询管理器:查询管理器也称为后端组件。它执行与用户查询管理相关的所有操作。此数据仓库组件的操作是对适当表的直接查询,用于调度查询的执行。
  • 最终用户访问工具:

这被分为五个不同的组,如1。数据报告2。查询工具3。应用程序开发工具4。EIS工具,5。OLAP工具和数据挖掘工具。

谁需要数据仓库?

所有类型的用户都需要DWH(数据仓库),如:

  • 依赖大量数据的决策者
  • 使用定制的复杂流程从多个数据源获取信息的用户。
  • 它也被那些想要简单技术来访问数据的人使用
  • 对于那些想要系统化决策方法的人来说,这也是至关重要的。
  • 如果用户想要在大量数据上实现快速性能,而这些数据是报表、网格或图表所必需的,那么数据仓库证明是有用的。
  • 如果您想发现数据流和分组的“隐藏模式”,数据仓库是第一步。

数据仓库的用途是什么?

以下是使用数据仓库的最常见行业:

航空公司:

在航空公司系统中,它用于机组人员分配、航线盈利能力分析、飞行常客计划促销等运营目的。

银行业务:

它在银行业被广泛用于有效管理桌面上的可用资源。很少有银行同时用于市场研究、产品业绩分析和运营。

医疗保健:

医疗保健部门还使用数据仓库制定战略和预测结果,生成患者的治疗报告,与配套保险公司、医疗援助服务等共享数据。

公共部门:

在公共部门,数据仓库用于收集情报。它帮助政府机构维护和分析每个人的税务记录、健康政策记录。

投资和保险行业:

在这个行业,仓库主要用于分析数据模式、客户趋势和跟踪市场动向。

零售链:

在零售链中,数据仓库被广泛用于分销和营销。它还有助于跟踪商品、客户购买模式、促销活动,也用于确定定价政策。

电信:

数据仓库用于该行业的产品促销、销售决策和分销决策。

酒店业:

该行业利用仓库服务,根据客户的反馈和旅行模式,设计和评估他们想要针对客户的广告和促销活动。

实施数据仓库的步骤

解决与数据仓库实现相关的业务风险的最佳方法是采用以下三个方面的策略

  • 企业战略:在这里,我们确定了包括当前架构和工具在内的技术。我们还识别事实、维度和属性。还通过了数据映射和转换。
  • 分阶段交付:数据仓库的实施应根据主题领域分阶段进行。应首先实现预订和计费等相关业务实体,然后相互集成。
  • 迭代原型:数据仓库应该迭代开发和测试,而不是一种大爆炸的实现方法。

以下是数据仓库实现的关键步骤及其可交付成果。

Step Tasks Deliverables
1 Need to define project scope Scope Definition
2 Need to determine business needs Logical Data Model
3 Define Operational Datastore requirements Operational Data Store Model
4 Acquire or develop Extraction tools Extract tools and Software
5 Define Data Warehouse Data requirements Transition Data Model
6 Document missing data To Do Project List
7 Maps Operational Data Store to Data Warehouse D/W Data Integration Map
8 Develop Data Warehouse Database design D/W Database Design
9 Extract Data from Operational Data Store Integrated D/W Data Extracts
10 Load Data Warehouse Initial Data Load
11 Maintain Data Warehouse On-going Data Access and Subsequent Loads

实施数据仓库的最佳实践

  • 决定一个测试数据一致性、准确性和完整性的计划。
  • 数据仓库必须具有良好的集成性、良好的定义和时间戳
  • 在设计数据仓库时,请确保使用正确的工具,坚持生命周期,注意数据冲突,并准备好吸取教训。
  • 永远不要更换运营系统和报告
  • 不要在提取、清理和加载数据上花费太多时间。
  • 确保包括业务人员在内的所有利益相关者参与数据仓库的实施过程。确定数据仓库是一个联合/团队项目。您不希望创建对最终用户没有用处的数据仓库。
  • 为最终用户制定培训计划。

为什么我们需要数据仓库?优点和缺点

数据仓库(DWH)的优势:

  • 数据仓库允许业务用户在一个地方快速访问来自某些来源的关键数据。
  • 数据仓库提供关于各种跨职能活动的一致信息。它还支持临时报告和查询。
  • 数据仓库有助于集成许多数据源,以减轻生产系统的压力。
  • 数据仓库有助于减少分析和报告的总周转时间。
  • 重组和集成使用户更容易用于报告和分析。
  • 数据仓库允许用户在一个地方访问来自多个来源的关键数据。因此,它节省了用户从多个来源检索数据的时间。
  • 数据仓库存储了大量的历史数据。这有助于用户分析不同的时间段和趋势,以做出未来的预测。

数据仓库的缺点:

  • 对于非结构化数据来说,这不是一个理想的选择。
  • 数据仓库的创建和实现无疑是一件时间混乱的事情。
  • 数据仓库可能会相对较快地过时
  • 很难更改数据类型和范围、数据源架构、索引和查询。
  • 数据仓库可能看起来很简单,但实际上,它对普通用户来说太复杂了。
  • 尽管在项目管理方面尽了最大努力,但数据仓库项目的范围仍将不断扩大。
  • 有时仓库用户会开发不同的业务规则。
  • 组织需要花费大量资源进行培训和实施。

数据仓库的未来

  • 监管约束的变化可能会限制组合不同数据源的能力。这些不同的源可能包括难以存储的非结构化数据。
  • 随着数据库规模的增长,对什么构成一个非常大的数据库的估计也在继续增长。构建和运行数据仓库系统是很复杂的,这些系统的大小总是在增加。目前可用的硬件和软件资源不允许保持大量数据在线。
  • 多媒体数据不能很容易地作为文本数据进行操作,而文本信息可以通过当今可用的关系软件来检索。这可能是一个研究课题。

数据仓库工具

市场上有许多数据仓库工具。下面是一些最突出的例子:

1.MarkLogic:

MarkLogic是一个有用的数据仓库解决方案,它使用一系列企业功能使数据集成更容易、更快。此工具有助于执行非常复杂的搜索操作。它可以查询不同类型的数据,如文档、关系和元数据。

https://www.marklogic.com/product/getting-started/

2.Oracle:

Oracle是业界领先的数据库。它为本地和云中提供了广泛的数据仓库解决方案选择。它有助于通过提高运营效率来优化客户体验。

https://www.oracle.com/index.html

3.AmazonRedshift:

AmazonRedshift是数据仓库工具。它是一种简单且经济高效的工具,可以使用标准SQL和现有的BI工具分析所有类型的数据。它还允许使用查询优化技术对PB的结构化数据运行复杂的查询。

https://aws.amazon.com/redshift/?nc2=h_m1

以下是有用的数据仓库工具的完整列表。

关键学习

  • 数据仓库(DWH)也称为企业数据仓库(EDW)。
  • 数据仓库被定义为一个中央存储库,其中的信息来自一个或多个数据源。
  • 三种主要类型的数据仓库是企业数据仓库(EDW)、运营数据存储和数据集市。
  • 数据仓库的一般状态是离线操作数据库、离线数据仓库、实时数据仓库和集成数据仓库。
  • 数据仓库的四个主要组件是加载管理器、仓库管理器、查询管理器和最终用户访问工具
  • 数据仓库用于航空、银行、医疗、保险、零售等不同行业。
  • 实施Datawarehosue是一种三方面战略,即企业战略、分阶段交付和迭代原型。
  • 数据仓库允许业务用户在一个地方快速访问来自某些来源的关键数据。

您可能喜欢:

 

原文地址
https://www.guru99.com/data-warehousing.html
本文地址
Article

微信

知识星球

微信公众号

视频号