【数据仓库教程】数据仓库教程
视频号
微信公众号
知识星球
数据仓库是一种关系数据库管理系统(RDBMS)结构,以满足事务处理系统的要求。它可以松散地描述为任何可以查询业务利益的集中式数据存储库。它是一个存储信息的数据库,以满足决策要求。它是一组决策支持技术,旨在使知识工作者(高管、经理和分析师)能够做出卓越和更高的决策。因此,数据仓库支持架构和工具,使业务主管能够系统地组织、理解和使用他们的信息来做出战略决策。
数据仓库环境包含一个提取、传输和加载(ETL)解决方案、一个在线分析处理(OLAP)引擎、客户分析工具以及其他处理收集信息并将其传递给业务用户的过程的应用程序。
什么是数据仓库?
数据仓库(DW)是一种关系数据库,它是为查询和分析而不是事务处理而设计的。它包括从单个和多个来源的交易数据派生的历史数据。
数据仓库提供集成的、企业范围的历史数据,并专注于为决策者提供数据建模和分析支持。
数据仓库是一组特定于整个组织的数据,而不仅仅是特定于特定用户组的数据。
它不用于日常操作和事务处理,而是用于决策。
数据仓库可以被视为具有以下属性的数据系统:
- 它是一个专为调查任务设计的数据库,使用来自各种应用程序的数据。
- 它支持数量相对较少、交互时间相对较长的客户端。
- 它包括当前和历史数据,以提供信息的历史视角。
- 它的使用是阅读密集型的。
- 里面有几张表。
- “数据仓库是一种面向主题的、集成的、时变的信息存储,用于支持管理层的决策。”
数据仓库的特点
以主题为导向
数据仓库的目标是为决策者建模和分析数据。因此,数据仓库通常围绕特定主题(如客户、产品或销售)提供简洁明了的视图,而不是全球组织的持续运营。这是通过排除与受试者无关的数据,并包括用户理解受试者所需的所有数据来实现的。
集成的
数据仓库集成了各种异构数据源,如RDBMS、平面文件和在线事务记录。它需要在数据仓库期间执行数据清理和集成,以确保不同数据源之间的命名约定、属性类型等的一致性。
时间变量
历史信息保存在数据仓库中。例如,可以从数据仓库中检索3个月、6个月、12个月甚至以前的数据中的文件。事务系统的这些变体,通常只保存最新的文件。
稳定的(Non-Volatile)
数据仓库是一个物理上独立的数据存储,它是从源操作RDBMS转换而来的。数据仓库中不会发生数据的操作更新,即不执行更新、插入和删除操作。数据访问通常只需要两个过程:数据的初始加载和数据访问。因此,DW不需要事务处理、恢复和并发能力,这可以大大加快数据检索的速度。非易失性定义了一旦进入仓库,数据就不应更改。
数据仓库的历史
数据仓库的想法出现在20世纪80年代末,当时IBM研究人员Barry Devlin和Paul Murphy建立了“商业数据仓库”
从本质上讲,数据仓库的想法是为了支持从操作系统到决策支持环境的信息流的体系结构模型。该概念试图解决与流程相关的各种问题,主要是与流程相关联的高成本。
在缺乏数据仓库体系结构的情况下,需要大量的空间来支持多个决策支持环境。在大公司中,各种决策支持环境独立运行是很常见的。
数据仓库的目标
- 帮助报告和分析
- 维护组织的历史信息
- 成为决策的基础。
对数据仓库的需求
需要数据仓库的原因如下:
- 业务用户:业务用户需要一个数据仓库来查看过去的汇总数据。由于这些人是非技术性的,数据可能以基本的形式呈现给他们。
- 存储历史数据:需要数据仓库来存储过去的时间变量数据。该输入用于各种目的。
- 做出战略决策:有些策略可能取决于数据仓库中的数据。因此,数据仓库有助于做出战略决策。
- 对于数据一致性和质量:将来自不同来源的数据集中在一起,用户可以有效地保证数据的一致性和一致性。
- 高响应时间:数据仓库必须为一些意外的负载和查询类型做好准备,这需要很大程度的灵活性和快速响应时间。
数据仓库的好处
- 了解业务趋势并做出更好的预测决策。
- 数据仓库被设计成能够很好地执行大量数据。
- 最终用户更容易访问数据仓库的结构以进行导航、理解和查询。
- 在许多规范化数据库中复杂的查询可以更容易地在数据仓库中构建和维护。
- 数据仓库是管理大量用户对大量信息需求的有效方法。
- 数据仓库提供了分析大量历史数据的能力。
先决条件
在学习数据仓库之前,您必须具备基本数据库概念的基础知识,如模式、ER模型、结构化查询语言等。
观众
本教程将帮助计算机科学学生理解与数据仓库相关的基本到高级概念。
问题
我们保证您不会发现此数据仓库教程有任何问题。但如果有任何错误,请将问题张贴在联系表格中。
- 11 次浏览