数据用户——数据分析师或科学家——的痛苦是真实存在的;他们都在努力及时获得高质量和值得信赖的数据。
--Zhamak Dehghani,数据网格
最近几周,我在这里和这里发表了几篇开玩笑的文章,以讽刺的边缘概述了数据网格方法中固有的陷阱和问题,然后对博弈论和符号学考虑进行了更复杂的尝试。
在这里,我想用冷静和清醒的语言概述一下什么时候不使用数据网格。这并不是因为我反对数据网格,而是因为我发现数据网格是数据架构发展的必要步骤,并希望看到它做得正确。不多不少。
1.你的组织是拜占庭式的
非常庞大和复杂的组织在尝试数据网格转换之前应该仔细思考。这有三个原因:
- 首先,大型IT项目通常成功率不到10%,那么是什么让你认为自己可以做得更好呢?
- 其次,向外推出数据产品的原则要求全面了解其他地方的需求;只有当网格地平线没有超过某个阈值时,这才有效。
- 第三,引入和管理数据网格文化的额外复杂性是在仓库、湖泊和错综复杂的管道结构的传统动物园之上产生的,因此,最终的累积成本很可能远远超过收益。如果您真的想尝试一下数据网格,请选择组织中每个人都知道所有产品和服务的特定分支,然后从那里开始。记住:从小处入手总是明智的。
2.你的组织太小
考虑一下:如果你是一家拥有少数开发人员和数千用户的小型SaaS初创公司,并且你正在经历稳定但非压倒性的线性增长,你就不会选择全球分布式事件驱动的微服务架构。相反,您可以使用简单的计算实例、普通的MEAN或LAMP堆栈,以及一些有用的AWS或Azure服务。你应该把你的力量集中在提供功能上,而不是追随架构潮流,这是正确的:架构模式有其适当的应用范围,初创公司与生俱来的权利是积累技术债务,破坏僵化的恐龙(或尝试死亡)。数据网格也是如此:如果你忙于产品开发,却没有足够的现金或动机投资于数据产品开发,那么就忽略数据网格的诱惑,只需一两个分析数据库就可以了。
3.你没有数据策略
任何成功的数据转型的基础都是一个好的旧数据策略。试图在没有数据策略的情况下引入数据网格——或者,就这一点而言,任何类型的数据管理改革——无异于在没有适当规划的情况下踏上了多式联运的长途旅程。当然,你会有所收获,但可能并没有达到你的预期,很多事情都会出错。同样,对于数据网格,您需要一个愿景、任务、可衡量的数据战略目标,以及一个比数据网格介绍更广泛、更大的路线图。大规模数据管理的一个很好的参考是Pieterhein Strengholt的《大规模数据管理》。
4.贵组织的数据成熟度较低
每一项数据战略的一部分都是对组织的初始数据成熟度评估,其中领导力、价值观、流程、工具、员工的数字能力等都会受到审查。如果你的成熟度只是低到平均水平,或者分布极不均匀,甚至不要尝试像数据网格这样复杂和多维的东西。成熟是有原因的:成长需要时间和努力;成熟不是你能买到的,也不是你能伪造的。
5.你没有计划多年的转型
数据网格不是可以下载、安装和运行的东西。这是一个管理、组织、文化和技术的转变,所有这些都是一项漫长而艰难的努力。如果你认为你可以在紧张的时间表内获得数据网格,甚至提供足够的现金,那你就大错特错了,会大吃一惊。
6.你的组织不是面向领域的
数据网格假设一个组织是沿着业务能力的接缝组织在跨职能团队中的。另一方面,如果您的组织由硬件开发、软件开发、测试、营销、销售等老式单功能团队组成,那么数据网格对您来说几乎不是合适的选择。当然,你可以研究Eric Evans里程碑式的领域驱动设计,重建你的公司,但在那之前,数据网格就像渔船上的迪斯科球一样适合。
7.你不使用研究或分析数据
最初,开发数据网格是为了解决数据仓库和数据湖在近乎实时的跨域共享、发现和使用分析数据方面的缺点,而这正是其最大之处。
数据网格是为大规模分析用例寻找、管理和访问数据的一种新方法。[…][A]分析数据用于优化业务和用户体验。
--Zhamak Dehghani,数据网格
在以研究为导向的组织中,数据网格可以说同样有效,只是数据的“价值”不是以避免的成本和产生的收入来衡量的,而是以消除知识孤岛、防止重复工作和获得更高层次的见解来衡量的。然而,如果你的组织不是以研究为导向的,甚至还没有开始意识到基于数据的决策和数据驱动的商业模式的重要性,那么数据网格对你来说来得太早了。
8.您不会介绍数据产品开发
数据网格建立在领域数据所有权和数据即产品的双重理念之上。这不仅意味着您需要连接到网格的每个域中的数据产品所有者和数据产品开发人员;您还需要完整的数据开发流程,包括项目管理、预算编制、人员配置、实施、自动化、质量控制、影响测量等。这是一场全新的球赛——将软件工程方法论应用于数据工程不仅仅是一场文字游戏;你需要真正的投资,真正的业务转型,以及比DevOps更深入的文化变革。如果你不能或不想去那里,数据网格不适合你。
9.湖泊和仓库将成为网格的公民
不要那样做。数据网格的全部魅力在于,操作数据库、转换管道和低保真度数据的日常噪音都隐藏在每个域中,对组织的其他部分来说是不可见的。最重要的是,数据网格是一种低信任数据环境的转型,在这种环境中,每一种新的数据资产都需要对来源、谱系和质量进行调查,而在这种环境下,数据产品总是有价值、最新、质量有保证,这是一种可验证的值得信赖的数据文化。如果你将数据湖和数据仓库连接到一个数据网格上——当然,这在技术上是可能的——你就会用来自遗留平台的不可靠、不合时宜、误导性和冗余数据的有毒废物污染网格。你不能通过在上面增加额外的复杂性来修复病态的系统——这也应该写在大多数议会的墙上。
10.你不会建立数据门户
[以领域为中心的数据产品]可能会产生不希望的后果:每个领域的工作重复,运营成本增加,以及跨领域的大规模不一致和不兼容。
--Zhamak Dehghani,数据网格
自助数据门户似乎是一个可以稍后添加的附加主题,在某些情况下,将数据门户开发推迟到一个模糊的稍后时间可能会很有吸引力。这是一个严重的错误。自助门户将所有这些联系在一起——发布、可发现性、策略自动化、质量控制、访问管理等。在缺少数据门户的情况下,您在哪里发布新发布的数据产品?您将在哪里搜索数据产品?在哪里可以跟踪、记录和审计访问、使用和潜在滥用?您如何确保遵守组织范围内的数据策略?不,中央数据门户是一个必要条件。与一些评论家相反,数据网格并不是一盒巧克力,你可以在其中挑选任何你想要的;相反,数据网格是一个完整的社会技术元架构,每个部分都支持其他部分。错过了一个,一切都倒下了。
最新内容
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week 6 days ago
- 1 week 6 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago