【数据应用】什么是数据集市?
视频号
微信公众号
知识星球
什么是数据集市?
数据集市是专注于特定业务线、部门或主题领域的数据仓库的子集。数据集市使特定的数据可供定义的用户组使用,这使这些用户能够快速访问关键见解,而不会浪费时间搜索整个数据仓库。例如,许多公司可能有一个与业务中的特定部门(如财务、销售或营销)一致的数据集市。
数据集市与数据仓库与数据湖
数据集市、数据仓库和数据湖是至关重要的中央数据存储库,但它们服务于组织内的不同需求。
数据仓库是一种将来自多个来源的数据聚合到一个单一、集中、一致的数据存储中的系统,以支持数据挖掘、人工智能和机器学习,最终可以增强复杂的分析和商业智能。通过这一战略收集过程,数据仓库解决方案整合来自不同来源的数据,使其以统一的形式可用。
数据集市(如上所述)是数据仓库的重点版本,它包含对组织内的单个团队或选定用户组重要且需要的较小数据子集。数据集市是从现有的数据仓库(或其他数据源)通过一个复杂的过程构建的,该过程涉及多种技术和工具来设计和构建物理数据库,用数据填充数据库,并设置复杂的访问和管理协议。
虽然这是一个具有挑战性的过程,但它使业务线能够比使用更广泛的数据仓库数据集更快地发现更集中的见解。例如,营销团队可能会从现有仓库创建数据集市中受益,因为其活动通常独立于业务的其他部分执行。因此,团队不需要访问所有企业数据。
数据湖也是一个数据存储库。数据湖为通过多个来源提供的非结构化或原始数据提供了大量存储,但这些信息尚未经过处理或准备进行分析。由于能够以原始格式存储数据,数据湖比数据仓库更易于访问,成本效益更高。在摄取之前无需清理和处理数据。
例如,政府可以使用技术跟踪交通行为、电力使用和水道的数据,并将其存储在数据湖中,同时研究如何使用这些数据创建具有更高效服务的“更智能的城市”。
数据集市的好处
数据集市是为了满足特定群体的需求而设计的,其数据主题相对较窄。虽然数据集市仍然可以包含数百万条记录,但其目标是在最短的时间内为业务用户提供最相关的数据。
数据集市的设计规模较小,重点突出,对最终用户有几个好处,包括以下方面:
- 成本效率:在设置数据集市时需要考虑许多因素,例如范围、集成以及提取、转换和加载(ETL)的过程。然而,数据集市通常只产生数据仓库成本的一小部分。
- 简化的数据访问:数据集市只保存一小部分数据,因此用户可以用比从数据仓库处理更广泛的数据集更少的工作量快速检索所需的数据。
- 更快地获取见解:从数据仓库获得的直觉支持企业层面的战略决策,这将影响整个业务。数据集市为指导部门级决策的商业智能和分析提供了燃料。团队可以利用有针对性的数据见解,并考虑到他们的具体目标。随着团队在更短的时间内识别和提取有价值的数据,企业将从加速的业务流程和更高的生产力中受益。
- 更简单的数据维护:数据仓库拥有丰富的业务信息,可用于多个业务线。数据集市集中在一条线路上,容纳容量低于100GB,这样可以减少混乱,更容易维护。
- 更简单、更快的实现:数据仓库需要大量的实现时间,尤其是在大型企业中,因为它从大量内部和外部来源收集数据。另一方面,在设置数据集市时,您只需要一小部分数据,因此实现往往更高效,包括更少的设置时间。
数据集市的类型
有三种类型的数据集市,它们根据与数据仓库的关系以及每个系统各自的数据源而有所不同。
- 依赖的数据集市。是企业数据仓库中的分区段。这种自上而下的方法从将所有业务数据存储在一个中心位置开始。每当需要分析时,新创建的数据集市都会提取主数据的定义子集。
- 独立的数据集市。充当一个独立的系统,不依赖于数据仓库。分析师可以从内部或外部数据源提取特定主题或业务流程的数据,对其进行处理,然后将其存储在数据集市存储库中,直到团队需要为止。
- 混合数据集市。将来自现有数据仓库和其他操作来源的数据组合在一起。这种统一的方法利用了自上而下方法的速度和用户友好界面,还提供了独立方法的企业级集成。
数据集市的结构
数据集市是一个面向主题的关系数据库,它将事务数据存储在行和列中,这使得访问、组织和理解变得容易。由于它包含历史数据,这种结构使分析师更容易确定数据趋势。典型的数据字段包括数字顺序、时间值以及对一个或多个对象的引用。
公司以多维模式组织数据集市作为蓝图,以满足使用数据库执行分析任务的人员的需求。模式的三种主要类型是星形、雪花形和拱顶。
星型
星形模式是多维数据库中类似星形的表的逻辑形式。在这个蓝图中,一个事实表——一个与特定业务事件或流程相关的度量集——位于星形的中心,周围是几个相关的维度表。
维度表之间没有依赖关系,因此星形模式在编写查询时需要更少的联接。这种结构使查询更容易,因此星形模式对于想要访问和导航大型数据集的分析师来说是非常高效的。
雪花
雪花模式是星形模式的逻辑扩展,它使用额外的维度表构建蓝图。对维度表进行规范化,以保护数据完整性并最大限度地减少数据冗余。
虽然这种方法需要较少的空间来存储维度表,但它是一种复杂的结构,很难维护。使用雪花模式的主要好处是对磁盘空间的需求较低,但需要注意的是,由于额外的表,这会对性能产生负面影响。
Data vault
Data vault是一种现代数据库建模技术,使IT专业人员能够设计敏捷的企业数据仓库。这种方法强化了分层结构,并且是专门为解决使用其他模式模型时出现的敏捷性、灵活性和可扩展性问题而开发的。
Data vault消除了星形模式对清理的需要,并简化了新数据源的添加,而不会对现有模式造成任何干扰。
谁使用数据集市(以及如何使用)?
数据集市指导部门级别的重要业务决策。例如,营销团队可能使用数据集市来分析消费者行为,而销售人员则可以使用数据集市编制季度销售报告。由于这些任务发生在各自的部门内,因此团队不需要访问所有企业数据。
通常,数据集市由打算使用它的特定业务部门创建和管理。设计数据集市的过程通常包括以下步骤:
- 记录基本需求,以了解数据集市的业务和技术需求。
- 确定数据集市将依赖的信息数据源。
- 确定数据子集,无论它是关于主题的所有信息还是更细粒度级别的特定字段。
- 通过选择与较大数据仓库相关的模式来设计数据集市的逻辑布局。
完成基础工作后,您可以通过使用专业的商业智能工具,如Qlik或SiSense,从数据集市中获得最大价值。这些解决方案包括一个仪表板和可视化,可以很容易地从数据中辨别见解,从而最终做出更明智的决策,使公司受益。
数据集市和云架构
虽然数据集市为企业提供了更高的效率和灵活性,但数据势不可挡的增长给继续使用本地解决方案的公司带来了问题。
随着数据仓库向云转移,数据集市也将随之而来。通过将数据资源整合到包含所有数据集市的单个存储库中,企业可以降低成本,并确保所有部门都可以不受限制地实时访问所需的数据。
基于云的平台可以轻松创建、共享和存储海量数据集,为更高效、更有效的数据访问和分析铺平了道路。云系统是为可持续的业务增长而构建的,许多现代软件即服务(SaaS)提供商将数据存储与计算分离,以提高查询数据时的可扩展性。
- 14 次浏览