【数据仓库】您需要了解的有关数据仓库的所有信息
视频号
微信公众号
知识星球
数据仓库(也称为企业数据仓库,或EDW)是一种将来自多个源的数据组合到中央一致数据存储中的系统。这种存储有助于数据挖掘、机器学习、人工智能(AI)和数据分析。与常规数据库不同,数据仓库系统使企业能够对大量历史数据进行高级分析。
30多年来,商业智能(BI)工具一直包括数据仓库系统,但近年来,新的数据类型和托管技术导致这些系统发生了变化。传统上,任何数据仓库的功能都集中在从外部源提取数据、清理和组织数据,以及将数据加载和存储在关系数据库中。这种托管通常是在本地进行的,通常是在大型计算机上进行的。数据仓库现在位于专用设备或云中,大多数数据仓库现在都包括用于数据可视化和表示的分析功能和工具。
数据仓库如何使用机器学习
目前的数据仓库越来越普遍,它从各种来源和设备收集大量数据,并将其存储在一个统一的平台上,用于简单的检索和分析。数据仓库在机器学习方面的用途很简单:应用于问题的数据越多,机器学习模型的性能就越好。机器学习模型根据存储在数据仓库中的数据进行预测并提出行动建议。
数据仓库和人工智能:它们的适用范围
数据仓库是存储和分析来自多个来源的公司数据的集中存储库,在历史上对商业智能至关重要。他们在数据成熟度曲线的每个阶段都帮助企业组织和理解大量数据。但由于人工智能,游戏现在已经发生了变化。除了作为传统数据管理需求的解决方案外,现代数据仓库已发展成为人工智能的催化剂。它所做的不仅仅是提供报告和仪表盘,或者只解决数据量和质量方面的问题。相反,它现在是利用人工智能突破帮助企业实现运营数字化转型的重要第一步。现代EDW(企业数据仓库)已经发展成为所谓的“洞察系统”,通过自动化数据输入和分析来闭合数据、洞察和行动之间的循环。
它旨在处理可能分布到几个人工智能工具的复杂问题,促进平滑的机器学习(ML)和更精确的预测。当前的数据仓库汇集了任何规模的所有企业数据,以提供可操作的见解,使企业能够更快地做出更好的决策。
数据仓库体系结构
数据仓库通常使用三层体系结构,它包括:
底层
属于数据仓库的服务器包括底层。底层通常是一个关系数据库系统,它使用提取、转换和加载(ETL)来收集、净化和转换来自不同数据源的数据。
中间层
在线分析处理,通常缩写为OLAP服务器,允许快速查询,构成了中间层。可以在该层中应用的三种不同的OLAP模型类型是MOLAP、ROLAP和HOLAP。这取决于所使用的数据库系统以及所使用的OLAP模型。
顶级
顶层由报告工具或前端用户界面表示,该界面允许最终用户对其公司数据执行即席分析。
了解OLAP和OLTP在数据仓库中的工作方式
OLAP软件用于以多维方式快速分析来自单个集中数据源(如数据仓库)的大量数据。在线事务处理,通常被称为OLTP,允许许多用户实时执行许多数据库事务,通常是通过互联网。每种技术的名称都区分了其主要功能:OLTP是事务性的,OLAP是分析性的。
包含历史数据和事务数据的数据仓库是用于多维数据分析的OLAP技术应用的地方。许多公司报告流程,如预算编制、财务分析、预测规划、数据挖掘、其他商业智能(BI)应用程序、复杂的分析计算和预测场景,都是OLAP的常见用途。
创建OLTP是为了通过可靠、快速地处理最近的事务来支持面向事务的应用程序。除了记录保存工具外,OLTP还经常用于ATM、信用卡支付处理、电子商务软件、在线预订和预订系统。
数据仓库架构(schemas)
数据仓库可以使用模式进行结构化。雪花模式和星形模式是主要的模式结构,它们将影响数据模型的设计方式。
星形模式
几个非规范化的维度表可以耦合到构成该模式的一个事实表。它被认为是最直接、最典型的模式,其用户受益于其更快的查询速度。
雪花架构
数据仓库中使用的另一种组织风格是雪花模式,虽然不太常见。在本例中,事实表链接到许多规格化的维度表,这些维度表具有子表。尽管雪花结构中最小级别的数据冗余对用户有利,但查询性能因此受到影响。
数据库与数据仓库
数据库不同于数据仓库;数据库是已保存信息的结构化集合,而数据仓库用于存储来自不同数据源的大量数据。
以下列出了在高级别上分离数据库和数据仓库的其他区别:
- 数据仓库是OLAP解决方案的理想选择,而数据库最好与OLTP解决方案一起使用。
- 成千上万的用户可以同时访问数据库。数据仓库可以处理的请求数量是有限的。
- 对于快速、离散的事务,数据库是最有帮助的。对于需要更深入分析的更强大的查询,数据仓库是最合适的解决方案。
- 停机时间很昂贵,因为数据库必须一年365天都可以访问。停机时间对数据仓库的影响较小。
- 对于CRUD(创建、读取、更新和删除)活动,数据库的设计速度非常快。数据仓库旨在处理来自许多大数据存储库的更少、更困难的查询。
- 由于没有信息在多个表中重复,数据库的组织尽可能有效。为了使读取活动优先于写入操作,数据仓库通常会取消其数据的规范化。
- 历史查询在数据库中是不可能的,因为它们通常只包含最新的数据。为了进行报告和分析,从头开始创建了数据仓库,保存历史数据。
数据仓库类型
云数据仓库
客户可以购买被称为云数据仓库的托管服务,这是一种专门为在云中操作而设计的数据仓库。在过去的五到七年里,随着越来越多的企业采用云服务并试图缩小其内部数据中心的占地面积,基于云的数据仓库变得越来越普遍。
由于云数据仓库的实际基础设施由云提供商管理,因此客户无需支付购买硬件和软件的前期成本以及管理和维护数据仓库系统的负担。
数据仓库软件(许可证/内部部署)
公司可以获得数据仓库的许可证,然后在其内部设备上建立数据仓库。政府机构、金融机构和其他需要遵守数据隐私或严格安全标准或规则的公司可能会发现,这是一个更好的选择,即使与基于云的数据仓库服务相比,成本往往更高。
数据仓库设备
公司可以将数据仓库设备连接到其网络,并立即开始使用它。数据仓库设备是一组预先集成的硬件和软件,包括CPU、存储器、操作系统和数据仓库应用程序。就初始成本、部署速度、可扩展性的简单性和管理控制而言,数据仓库设备介于云系统和内部部署系统之间。
数据仓库的优势
数据仓库具有以下优势:
提高了数据质量
事务系统、平面文件、操作数据库和其他数据源都集中在数据仓库中。然后,它净化、消除重复,并将其系统化,以产生一个单一的真相库。
更快的业务洞察力
来自太多不同来源的数据阻碍了决策者自信地定义公司战略的能力。数据仓库使数据集成成为可能,使业务用户能够在每个业务决策中包含公司的所有数据。
做出更明智的选择
数据仓库实现了大规模的商业智能(BI)服务,包括数据挖掘(识别数据之间的隐藏关系)、人工智能(AI)以及机器学习(ML)——商业领袖和数据专业人士可以使用这些工具来获得具体证据,以便在组织的任何方面做出更好的决策。
增加和建立竞争优势
上述因素共同作用,有助于组织比其他数据存储库更快地发现数据中的更多可能性,从而产生竞争优势。
结论
从各种来源获得的数据在数据仓库中遵循行业开发的标准(如格式化程序)。这保证了所有数据都是准确的,没有可能影响分析的重复或错误。数据仓库提供了许多额外的好处,可以用来最终帮助公司提高利润。
- 6 次浏览