数据架构的主要原则以及如何将其付诸实践的重要指南。
数据架构和常规架构一样。在这两个领域,都应该遵守良好架构的基本原则。当然,有些设计可以很好地适用于广泛的应用程序,还有一些更小众的设计,但无论结构的确切性质如何,你可以打赌,如果它是一个成功的设计,架构师都会牢记要点。
什么是数据架构?
数据架构可能会变得复杂。
与数据科学家相关的数据架构流程图
但没有必要马上把这件事搞复杂。大多数架构方法都是从基础开始的,这就是我们要在这里奠定的。
数据架构可以描述为一个实体如何组织其数据。
这有三个方面:
- 数据是如何存储的?
- 数据是如何处理的?
- 数据是如何使用的?
我们将看到这些问题在数据架构问题上突然出现,有时会同时出现两个或全部三个问题。
但是,为了依次处理每一个问题,
- 存储包括准确性、访问、控制和可扩展性等因素。这是原始数据的“数据湖”。
- 处理包括安全性、与外围源之间的数据传输以及灵活性。处理后的数据形成“数据仓库”
- 用途包括接口、数据共享和应用程序。
有些公司对数据架构的这三个方面有非常正式的方法,有些则不然。但所有公司都应该以某种方式涵盖它们。通过这种方式,他们可以确保数据管理得到应有的优先权。
这些是对粗心处理数据的惩罚(2021,美国公司因数据泄露而被判的平均罚款为424万美元),组织应为自己、客户和任何联系人对其数据尽责。数据是宝贵的,因此企业需要将其视为资本。
我们将首先转向这种对数据的必要尊重。
1.数据文化
随着任何范式的转变,如果你想要重大变革,那么孤立地关注公司的一个方面是没有好处的。例如,工作场所的性别歧视正在受到挑战(尽管速度很慢),但并没有完全集中在招聘或任何其他单一领域。为了确保所需的彻底变革,有必要解决工作场所的整个环境和心理问题。换句话说,就是它的文化。
与数据完全相同。必须对数据问题进行优先排序,这是通过让每个人都遵守数据信条来实现的。数据不再仅仅是数据科学家的专利。
这里有一种描述方式:
数据区域性的组成部分
公司犯的最大错误之一是招聘一组数据员工,给他们一个配备了所有最新设备的高级办公室,然后坐下来,以为数据工作已经完成了。问题是,你的新部门为你照顾的数据将被许多其他人访问,包括内部团队和公司以外的团队。如果其他人不那么注意数据问题,你可能会遇到麻烦。
这些其他人最终可能会将数据传播给那些无权访问的人。我们已经提到了数据安全和访问治理价值的重要性。几乎同样糟糕的是,他们可能不会向需要它的人提供它,工作流程可能会受到影响。
所有员工都有责任确保数据绝对送达所有需要的人,而不是其他人。你的工作是向他们灌输这一点,让他们开始看到有价值的商品的数据,而不仅仅是那些可能会被谁知道的人抓住或不被抓住的东西。
分享的需要引导我们走向下一个原则。
2.收集数据
因此,员工应该在任务需要的地方相互提供数据。但这还不止于此。应该注意让数据以同样的方式为每个人服务。其中一个非常突出的方面是度量。一个特定的指标在市场营销中的意义应该与对销售团队的意义相同。必须有一个通用的词汇表,没有晦涩难懂的办公室方言。
比方说,业务的两个部分正在处理类似的数据,但一个部分只处理月度数据,而另一个部分仅处理周数据。如果可能的话,应该努力统一他们的数据,以便更容易、更快地进行有意义的比较和关系评估。
跨部门就具体数据所代表的内容及其对组织的指导达成的共识越多,您的业务就越能从联合部门的联合思考中受益。
首先,当涉及到共享时,您优秀的数据专业人员可能需要一些鼓励。通常情况下,数据工作人员可以将自己视为监护人,而实际上他们应该将自己视作为促进者。这种便利化的一部分可以归结为减少行话。在这方面,从非常实际的意义上说,应该努力让每个人都说一种共同的语言。
最后一点:确保公司数据的组织方式确保其可访问性得到保护。例如,尝试使其免受停电的影响,以便优化正常运行时间,并为客户使用您的服务提供受保护的能力。
3.避免供应商锁定
供应商锁定是指当你获得一项技术时会发生的情况,而这项技术最终会因为不容易从你的架构中交换出来而陷入困境。例如,当一家公司从一系列托管PBX提供商中进行选择时,它应该寻找一条方便的出口路线和一个诱人的入口。否则,随着未来的发展,它的通信可能会由一种可能被证明不合适的服务来运行。
因此,任何技术采购都需要着眼于未来。你需要考虑的不仅仅是这项技术在成为你业务的一部分时能做出什么贡献。你需要思考它是如何通过被轻易抛弃而做出贡献的。
4.安全
如何将确保合法访问的需要与阻止未经授权访问的要求结合起来?数据架构通过根据数据项进行分类来确保这一点
数据结构
敏感度以及谁可以访问它们。以托管的联络中心软件为例,将制定一项规定,以确保只有那些对该信息有明确和许可目的的人才能访问客户详细信息。
例如,医疗保健数据架构将确保仅用于宏观分析的任何数据都将被匿名化。
数据架构将规定隐私控制保证保密性的方法。可以在数据架构中构建多层安全性,以确保数据在任何阶段都不会受到攻击,无论是在存储、处理还是应用程序中。
这是一个来自传统架构界的有趣数据,在那里发现,一半的受访架构师因担心数据安全而不鼓励使用他们的BIM(架构信息建模)团队软件。
发现数据安全阻碍BIM协作使用的架构师图表
因此,许多有价值的合作都没有发生,因为参与的员工感觉自己在一个足够安全的环境中。你需要提供这种安全保障。
5.成为一名更优秀的数据策展人
现在到处都有更多的数据。有时我们几乎被淹没在其中。当它处于原始和/或无序状态时,数据的有用性可能会受到威胁。它需要一定的整理才能达到其功效潜力。
例如,我们的电视比我们所知道的要多。有时,刚开始决定那天晚上要看什么可能会让人感到困惑。这就是为什么电视服务通常有策展人模式,根据之前的观看和其他数据,某些电影或连续剧被突出显示为观众可能更感兴趣。
观众可以根据服务的建议接受服务,也可以不接受服务。如果他们决定不这样做,他们几乎肯定会通过查看各种节目分组来寻找其他材料——戏剧、惊悚片、科幻片等。这是另一层策展,被称为分类法。
当涉及到工作场所的数据时,同样的原则也适用。为了确保您的员工获得最适合其任务的材料,数据架构必须以易于理解和访问的模式显示信息。
策划的数据必须对业务用户有帮助,因此应定期进行质量检查。出于这个原因,数据架构应该包括测试自动化中的最佳实践。
6.灵活
商业中有一个不变的东西:变化。你越期待它,甚至接受它,你的业务就会表现得越好。考虑到这一点,您实现的任何数据架构都应该具有轻松发展的潜力。例如,模块化将受到高度重视,使组织有机会更新系统,而无需大规模更换。
灵活性的另一个领域在于工作人员访问数据的方式。将数据架构设计为允许多种格式的访问请求是有意义的。这样,您的系统将能够处理,例如,非结构化电子邮件以及结构化CSV文件。这种应对非技术人员投入的能力将消除可能耗时且昂贵的培训需求。
7.减少数据拷贝
您的数据架构应该以这样的方式进行安排,以减少不断复制数据的需要。生产无休止的数据拷贝在处理空间和最终的财务方面都是浪费。这本身也是一个安全风险。
数据虚拟化可以消除传输和复制数据的需要。使用Azure Synapse Analytics等工具,可以在不需要传输的情况下对所有数据运行查询。
8.反向ETL
你可能已经知道ETL是什么了。如果你不知道,ETL(或提取、转换、加载)是企业数据仓库的常用方法。这是一种将来自多个来源的数据组合成一个连贯整体的方法。
ETL到反向ETL流程
因此,反向ETL是一种从数据仓库中获取数据并更改其格式的方法。为了使数据与Salesforce、Hubspot或Marketo等第三方来源的应用程序兼容,需要将数据从存储位置取出,并转换为更合适的形状。
因此,您的数据架构必须考虑到这一点。有一些反向ETL工具预先安装了API集成,从而简化了使用和维护。但是,即使您没有使用实际的反向ETL,重要的是您要意识到需要一个过程,通过该过程可以访问数据以供各种应用程序使用。
根据业务的性质和存储的数据,应该实现标准化接口,如SQL、RESTful API或OLAP。
这种标准化将确保检索到的数据以可预测的格式到达,因此可以立即使用。
9.摄入问题
您的摄取工具是将数据从摄取堆栈加载到数据仓库的方法。这些数据将以多种形式来自丰富的来源,因此您的数据架构需要一个能够处理尽可能多的数据的接收工具。
与其拥有许多单一来源的摄取工具,不如拥有一些通用的摄取工具。必须在工具之间切换会消耗时间,并会影响您的数据性能。
因此,您需要做的是确定需要支持哪些摄取表单,例如FTP、Batch、CDC、API),并确保您的数据架构是围绕一个可以处理这些表单的摄取工具构建的。
10.数据发现
您的数据架构中应该包含用于自动数据发现会话的规定。这可以揭示有趣和有价值的数据模式,并突出显示应用程序可以在哪些方面进行更新。
例如,云电话系统应该定期进行数据发现扫描,以检查过时或有冲突的个人信息。
结论
因此,数据架构主要是为了确保您已经仔细考虑了信息持有的结构。它有符合标准的输入手段吗?输出格式是否符合您的业务需求?任何系统规划方法都必须包括这些问题的答案。
要返回到我们最初的存储、处理和使用模式,很明显,数据架构的大多数部分会影响其中的多个领域。在这方面,良好的数据架构与一般良好的操作系统设计有很多共同点。
尽管通过分解来分析通常是很好的,但有时人们必须有一个整体的观点才能看到一个结构是如何工作的。这样的观点将为数据架构带来红利。
最新内容
- 5 hours 14 minutes ago
- 6 hours ago
- 6 hours ago
- 6 hours ago
- 6 hours ago
- 7 hours ago
- 7 hours 20 minutes ago
- 7 hours ago
- 8 hours ago
- 8 hours ago