目录
- 数据架构师的职责
- 什么是数据架构
- 数据架构组件
- 数据架构构特征
- 数据架构原则
在信息技术中,数据架构由模型、策略、规则或标准组成,用于管理收集的数据,以及数据在数据系统和组织中的存储、排列、集成和使用方式。数据通常是构成企业架构或解决方案架构支柱的几个架构域之一。
数据架构师的职责
与设计住宅或建筑的传统架构师一样,数据架构师创建的数据环境蓝图符合组织的短期和长期目标及其独特的文化和上下文要求。
数据架构师通常负责定义目标状态,在开发过程中进行调整,然后跟进,以确保按照原始蓝图的精神进行增强。
在定义目标状态的过程中,数据架构将主题分解为原子级别,然后将其重新构建为所需的形式。数据架构师通过经历3个传统架构过程来分解主题:
- 概念–代表所有业务实体。
- 逻辑–表示实体之间的关联逻辑。
- 物理——实现特定类型功能的数据机制。
什么是数据架构
数据架构定义了组织用于管理数据的一组标准产品和工具。但它远不止于此。数据架构定义了捕获、转换和向业务用户交付可用数据的过程。最重要的是,它确定了将使用这些数据的人及其独特的需求。一个好的数据架构从右到左流动:从数据消费者到数据源。
数据架构应该为其所有数据系统设置数据标准,作为这些数据系统之间最终交互的愿景或模型。例如,数据集成应该依赖于数据架构标准,因为数据集成需要两个或多个数据系统之间的数据交互。数据架构描述了企业及其计算机应用软件所使用的数据结构。数据架构处理存储中的数据、使用中的数据和运动中的数据;对数据存储、数据组和数据项的描述;以及将这些数据伪像映射到数据质量、应用程序、位置等。它为数据处理操作提供了标准,以便能够设计数据流并控制系统中的数据流。
这是一个标准化组织如何收集、存储、转换、分发和使用数据的过程。我们的目标是在需要的时候向需要的人提供相关数据,并帮助他们理解这些数据。
数据架构描述了组织的逻辑和物理数据资产以及数据管理资源的结构。数据架构的目标是将业务需求转化为数据和系统需求,并管理数据及其在企业中的流动。
数据架构组件
数据架构可以综合为三个整体组件:
- 数据架构结果。这些是通常被称为数据架构工件的模型、定义和数据流。
- 数据架构活动。这些是数据架构构意图的形式、部署和实现。
- 数据架构行为。这些是影响企业数据架构的各种角色的协作、心态和技能。
数据架构特征
数据架构是围绕某些特征构建的:
自动化
自动化消除了使遗留数据系统配置繁琐的摩擦。使用基于云的工具,耗时数月构建的流程现在可以在数小时或数天内完成。如果用户想要访问不同的数据,自动化使架构师能够快速设计一个管道来交付数据。随着新数据的来源,数据架构师可以将其快速集成到架构中。为了创建一个数据连续流动的适应性架构,数据架构师可以自动化一切。
安全
安全性内置于现代数据架构中,确保数据在业务定义的需要知道的基础上可用。良好的数据架构还可以识别现有和新出现的数据安全威胁,并确保法规遵从HIPAA和GDPR等法规。
用户驱动
在过去,数据是静态的,访问是有限的。决策者不一定得到他们想要或需要的东西,而是得到了可用的东西。在现代数据架构中,业务用户可以自信地定义需求,因为数据架构师可以汇集数据并创建解决方案,以满足业务目标的方式访问数据。
一个良好的数据架构不断发展,以满足新的和不断变化的客户信息需求。
有弹性的
任何数据架构都必须具有弹性,具有高可用性、灾难恢复和备份/恢复功能。
可扩展的数据管道
为了利用新兴技术,数据架构支持实时数据流和微批量数据突发。
协作的
有效的数据架构建立在鼓励协作的数据结构之上。良好的数据架构通过将来自组织所有部门的数据以及所需的外部来源组合到一个地方来消除竖井,从而消除相同数据的竞争版本。在这种环境下,数据不会在业务部门之间进行交换或囤积,而是被视为全公司的共享资产。
人工智能驱动
数据架构使用机器学习和人工智能来构建保持数据流动的数据对象、表、视图和模型。智能数据架构将自动化提升到一个新的水平,使用机器学习(ML)和人工智能(AI)来调整、提醒和推荐新条件下的解决方案。ML和AI可以识别数据类型,识别和修复数据质量错误,为传入数据创建结构,识别新见解的关系,并推荐相关数据集和分析。
有弹力的
弹性允许公司根据需要扩大或缩小规模。云允许快速且经济地按需扩展。弹性使管理员能够专注于故障排除和问题解决。弹性架构使管理员无需精确校准容量、必要时限制使用量以及不断过度购买硬件。弹性还产生了许多类型的应用程序和用例,如按需开发和测试环境、分析沙盒和原型游戏场地。
易于理解的
在高效的数据架构中,简单性胜过复杂性。在数据移动、数据平台、数据组装框架和分析平台方面力求简单。
最简单的架构就是最好的架构。为了降低复杂性,组织应该努力限制数据移动和数据重复,并倡导统一的数据库平台、数据组装框架和分析平台,尽管一流的支持者发出了怒吼。
有适应能力的
现代数据架构需要足够灵活,以支持多种业务需求。它需要支持多种类型的业务用户、加载操作和刷新率、查询操作、部署、数据处理引擎和管道。
受管理的
治理是自助服务的关键。现代数据架构为每种类型的用户定义了访问点,以满足他们的信息需求。数据科学家需要能够访问着陆区的原始数据,或者更好的是,有一个专门构建的沙盒,在那里他们可以将原始公司数据与自己的数据混合。
云原生
现代数据架构旨在支持弹性扩展、高可用性、运动数据和静止数据的端到端安全性,以及成本和性能可扩展性。
无缝数据集成
数据架构使用标准API接口与传统应用程序集成。它们经过优化,可跨系统、地区和组织共享数据。
实时数据启用
现代数据架构支持部署自动化和主动数据验证、分类、管理和治理的能力。
解耦且可扩展
现代数据架构被设计成松散耦合的,使服务能够独立于其他服务执行最小的任务。
数据架构原则
AtScale副总裁Joshua Klahr表示,有六条原则构成了现代数据架构的基础:
- 数据是一种共享资产。现代数据架构需要消除部门数据孤岛,让所有利益相关者都能全面了解公司。
- 用户需要足够的数据访问权限。现代数据架构需要提供接口,使用户能够使用适合其工作的工具轻松消费数据。
- 安全至关重要。现代数据架构必须为安全性而设计,并且必须支持直接对原始数据的数据策略和访问控制。
- 共同的词汇确保了共同的理解。共享数据资产,如产品目录、会计日历维度和KPI定义,需要一个通用词汇表来帮助避免分析过程中的争议。
- 应该对数据进行整理。投资于执行数据管理的核心功能
- 应针对灵活性对数据流进行优化。减少必须移动数据的次数,以降低成本、提高数据新鲜度并优化企业灵活性。
最新内容
- 2 weeks 1 day ago
- 3 weeks 2 days ago
- 3 weeks 5 days ago
- 3 weeks 5 days ago
- 4 weeks 1 day ago
- 4 weeks 2 days ago
- 1 month ago
- 1 month ago
- 1 month ago
- 1 month ago