我在AtScale工作中最喜欢的部分之一是,我可以花时间与客户和潜在客户相处,了解在他们转向现代数据架构时什么对他们来说很重要。最近,在这些讨论中出现了一套一致的六个主题。这些主题跨越了行业、用例和地域,我开始将它们视为企业数据架构的关键原则。
无论您是负责数据、系统、分析、战略还是结果,都可以使用现代数据架构的6条原则来帮助您在快节奏的现代数据和决策世界中导航。将它们视为数据架构的基础,使您的业务能够在今天和未来以优化的水平运行。
1.将数据视为共享资产。
首席信息官解释说,那些一开始就将数据视为共享资产的企业最终会超越竞争对手。这些企业不允许部门数据孤岛持续存在,而是确保所有利益相关者都能全面了解公司。我所说的“完整”是指对客户洞察的360度视图,以及将包括制造和物流在内的所有业务功能的有价值数据信号关联起来的能力。其结果是提高了企业效率。
2.为用户在现代数据分析架构中消费数据提供正确的接口。
将数据放在一个地方不足以实现数据驱动文化的愿景。纯粹使用基于系统的数据仓库的日子已经一去不复返了。现代数据架构要求企业使用数据仓库、数据湖和数据集市来满足可扩展性需求。
你的头现在可能在旋转。仓库、湖泊和集市如何在现代数据分析架构中发挥作用?以下是一个简单的分解:
- 数据仓库:存储所有数据的中心位置
- 数据湖:以原始格式存储的特定数据的较小存储库
- 数据集市:服务层,也就是一个专注于特定团队或业务线的简化数据库
为了利用这种结构,数据需要能够在仓库、湖泊和集市之间自由移动。为了让人们(和系统)从共享数据资产中受益,您需要提供方便用户使用数据的接口。这可以是用于商业智能的OLAP接口、用于数据分析的SQL接口、用于目标系统的实时API或用于数据科学家的R语言。最后,这是关于让你的员工使用他们知道的、适合他们需要执行的工作的工具。
3.确保安全和访问控制。
Snowflake、Google BigQuery、Amazon Redshift和Hadoop等统一数据平台需要直接在原始数据上执行数据策略和访问控制,而不是在下游数据存储和应用程序网络中执行。像Apache Sentry这样的数据安全项目使这种统一数据安全的方法成为现实。寻找能够保护您的现代数据架构并提供广泛的自助服务访问而不影响控制的技术。
4.建立一个通用词汇表。
通过投资企业数据中心,企业现在可以为整个企业的多个消费者创建共享数据资产。这就是现代数据分析架构的美妙之处。然而,确保这些数据的用户使用通用词汇表进行分析和理解是至关重要的。无论用户如何使用或分析数据,产品目录、会计日历维度、提供商层次结构和KPI定义都需要通用。如果没有这些共同的词汇,你将花费更多的时间来争论或调和结果,而不是推动绩效的提高。
5.整理数据。
控制您的数据对于有效实施现代数据分析架构至关重要。我一次又一次地看到,投资Hadoop或基于云的数据湖(如亚马逊S3或谷歌云平台)的企业在允许自助数据访问存储在这些集群中的原始数据时开始遭受损失。如果没有适当的数据管理(包括建模重要关系、清理原始数据以及管理关键维度和措施),最终用户可能会有令人沮丧的体验,这将大大降低底层数据的感知和实现价值。通过投资于执行数据管理的核心功能,您有更好的机会实现共享数据资产的价值。
6.消除整个现代数据架构中的数据拷贝和移动。
每次移动数据都会产生影响;成本、准确性和时间。就这一问题与任何IT团队或业务用户交谈,他们都同意;数据移动的次数越少越好。云数据平台和Hadoop等分布式文件系统的部分承诺是一个用于并行处理大量数据集的多结构、多工作负载环境。这些数据平台随着工作负载和数据量的增长而线性扩展。通过消除对额外数据移动的需求,现代企业数据架构可以降低成本(时间、精力、准确性),提高“数据新鲜度”,并优化整个企业数据的灵活性。
无论您所在的行业、您在组织中扮演的角色或您在大数据旅程中所处的位置如何,我鼓励您采用并分享这些原则,以此为构建现代大数据架构奠定坚实的基础。虽然这条路看起来很长,也很有挑战性,但有了正确的框架和原则,你可以比想象的更快地成功实现这一转变。
告诉我们您对现代数据架构的核心原则。为了为您的组织管理大数据,您每天都坚持做什么?我们很想了解您的见解。
准备好在大数据之旅中迈出下一步了吗?了解如何通过现代数据模型实现数据分析的扩展,如轮辐式方法。
最新内容
- 3 days 4 hours ago
- 3 days 6 hours ago
- 3 days 6 hours ago
- 5 days 22 hours ago
- 6 days 5 hours ago
- 6 days 6 hours ago
- 6 days 6 hours ago
- 6 days 6 hours ago
- 1 week 3 days ago
- 1 week 3 days ago