【数据技术】2023年现代数据堆栈的未来
视频号
微信公众号
知识星球
包括去年的4个新趋势和6个大趋势
本文是与Christine Garcia(Atlan的内容总监)共同撰写的。
在我的年度传统中,我在2022年底花了一些时间思考数据世界发生的事情。从这篇文章的长度可以看出,我和我的合著者克里斯汀有很多想法。
在过去几年中,数据一直处于超增长模式。该社区一直在用热镜头引发争议,讨论最新技术,引发重要对话,并在周五的推特上大打出手。数据世界似乎是无限的,当它爆炸时,每个人都在努力跟上。
现在,数据正在进入另一个世界。98%的首席执行官预计未来12-18个月将出现衰退。企业正在通过加大压力、裁员、削减预算、从增长模式转向效率模式来备战。
那么这对数据世界意味着什么呢?更重要的是,对于数据领导者和从业者来说?这篇文章对2023年任何数据领域的人都应该知道的10个大趋势进行了细分,其中4个是新出现的趋势,这将是一个大问题,6个是现有的趋势,这些趋势将进一步增长。
2023年将要出现的4种趋势
随着最近的经济下滑,科技界正在展望2023年,将新的重点放在效率和成本削减上。这将导致与现代数据堆栈公司和数据团队运营方式相关的四个新趋势。
1.优化数据花费将成为一个主要优先级
存储一直是数据团队的最大成本之一。例如,Netflix每月在AWS数据存储上花费960万美元。随着公司收紧预算,他们将需要仔细审视这些法案。
Snowflake和Databricks已经在产品优化方面进行了投资。他们可能会在今年推出更多的改进措施来帮助客户降低成本。
例如,在6月份的会议上,Snowflake强调了产品改进,以加快查询速度、减少计算时间和降低成本。它宣布,AWS上的平均计算速度提高了10%,对于写得很重的DML工作负载,性能提高了10–40%,通过更好的压缩,存储成本降低了7–10%。
在6月份的会议上,Databricks还将其部分主题放在了节约成本的产品改进上,例如推出了Enzyme(ETL管道的自动优化器)和Photon(一种性价比高达12倍的查询引擎)。
今年晚些时候,Snowflake和Databricks都通过进一步投资成本优化功能实现了翻倍增长,明年肯定还会有更多。Snowflake甚至强调削减成本是其2023年的首要数据趋势之一,并肯定了其在提高性能的同时将成本降至最低的承诺。
2023年,我们还将看到来自独立公司和存储合作伙伴的工具的增长,以进一步降低数据成本。
对于数据团队来说,暗数据或从未实际使用过的数据是一个严重的问题。多达68%的数据未被使用,尽管公司仍在支付存储费用。
今年将包括Bluesky、CloudZero和Slingshot等成本管理工具的增长,这些工具旨在与Snowflake和Databricks等特定数据存储系统配合使用。
现代数据堆栈合作伙伴还可能引入兼容的优化功能,如dbt的增量模型和包。dbt实验室和Snowflake甚至一起写了一整本关于使用dbt和Snowflage优化数据的白皮书。
元数据在这里也扮演着重要角色。有了现代元数据平台,数据团队可以使用流行度指标来查找未使用的数据资产,使用列级沿袭来查看资产何时未连接到管道,使用冗余功能来删除重复数据,等等。其中大部分甚至可以通过活动元数据实现自动化,例如自动优化数据处理或清除过时的数据资产。
例如,我们合作的一个数据团队仅通过查找和删除一个未使用的BigQuery表就将每月存储成本降低了50000美元。另一个团队通过查找上游未使用的表、视图和模式,弃用了30000个未使用的资产(或其数据资产的三分之二)。
2. 数据团队将要开始运行ROI和指标
在过去几年中,数据团队能够在较少的监管和监督下自由运行。
公司非常相信数据的力量和价值,数据团队并不总是需要证明数据的价值。相反,他们一直在努力,在日常数据工作与前瞻性技术、流程和文化实验之间取得平衡。优化数据人员的工作方式一直是数据讨论的一部分,但它往往被归结为更紧迫的问题,比如构建一个超级酷的技术堆栈。
明年,这将不再削减开支。随着预算紧缩,数据团队及其堆栈将受到更多关注和审查。它们的成本是多少,提供了多少价值?数据团队需要关注性能和效率。
2023年,公司将更加认真地衡量数据ROI,数据团队指标将开始成为主流。
衡量像数据这样基础的功能的投资回报率并不容易,但我们找出它比以往任何时候都更重要。
今年,数据团队将开始开发代理指标来衡量其价值。这可能包括使用度量,如数据使用(例如DAU、WAU、MAU和QUA)、页面视图或在数据资产上花费的时间,以及数据产品采用;数据消费者的d-NPS评分等满意度指标;以及信任数据停机时间和数据质量分数等指标。
3.现代数据栈将要开开始合并
多年来,现代数据堆栈一直在增长。还有成长。再长一些。
随着风投公司投入数百万美元的资金,每天都有新的工具和类别出现。但现在,随着经济衰退,这一增长阶段已经结束。风险投资资金已经枯竭——看看过去六个月的融资公告减少就知道了。
我们将看到明年推出的数据公司和工具将减少,现有公司的扩张速度将放缓。最终,这可能对买家和整个现代数据堆栈都有好处。
是的,超增长模式很有趣,也很刺激,但也很混乱。我们曾经开玩笑说,现在做一个数据买家会很糟糕,因为每个人都声称自己什么都做。其结果是一些真正狂野的堆栈图。
资本的缺乏将迫使当今的数据公司专注于重要的事情,而忽视其他的事情。这意味着“很好拥有”的功能越来越少。更少的飞溅枢轴。越来越少的收购让我们怀疑“他们为什么这么做?”
在资金有限的情况下,公司将不得不专注于他们做得最好的事情,并与其他公司合作处理所有其他事情,而不是试图在一个平台上解决所有数据问题。这将导致2023年创建“一流的现代数据堆栈”。
随着混乱平息下来,数据公司专注于其核心USP,每个类别的获胜者将开始变得清晰。
这些工具还将侧重于更好地相互协作。他们将作为发布合作伙伴,遵循共同标准,推动现代数据堆栈向前发展。(去年的几个例子是Fivetran的元数据API和dbt的语义层,像我们这样的密切合作伙伴提前构建了集成,并像Fivetran和dbt实验室一样庆祝了发布。)
这些合作伙伴关系和整合将使买家更容易选择工具并快速入门,这是一个可喜的变化。
4. 现代数据栈公司将要扩展本地(on-prem)连接器
科技公司在2023年面临着削减成本和增加收入的新压力。实现这一点的一种方法是关注他们的核心功能,如上所述。另一种方法是寻找新客户。
猜猜今天最大的未开发数据客户来源是什么?具有传统的内部数据系统的企业公司。为了服务这些新客户,现代数据堆栈公司必须开始支持传统工具。
2023年,现代数据堆栈将开始与Oracle和SAP这两个企业数据巨头集成。
这听起来可能有争议,但它已经开始了。一年多前,现代数据堆栈开始进入企业数据世界。
2021 10月,Fivetran收购了企业数据复制工具HVR。Fivetran表示,这将使其能够“解决与ERP系统、Oracle数据库等相关的运营数据分析现代化的巨大市场”。这是现代数据堆栈公司进入企业市场的第一个重大举措。
2022年的6个趋势
These are six of the big ideas that blew up in the data world last year and only promise to get bigger in 2023.
1.活动元数据将要代替数据目录分类
这是去年文章中的一个大趋势,因此它仍然是数据世界的热门话题并不奇怪。然而,令人惊讶的是,活动元数据和第三代数据目录的概念持续增长的速度之快。
从2021开始的一个重大转变是,当这些想法是新的,很少有人谈论它们时,许多公司现在都在争夺这一类别。
元数据被视为数据世界中的一个巨大缺口,因此,即使VC资金开始枯竭,去年编目领域也出现了一些大幅增长。其中包括Alation价值1.23亿美元的E系列、Data.world价值5000万美元的C系列、我们的5000万美元B系列和Castor价值2350万美元的A系列。
这种增长的另一个原因是分析师,他们在2022年接受并扩大了主动元数据和现代数据目录的想法。例如,Gartner在其年度会议上对活动元数据进行了全面讨论,G2发布了一个新的“活动元数据”类别。
我们的预测是,活动元数据平台将在2023年取代“数据目录”类别。
这实际上始于去年,当时Forrester将其Wave报告更名为“机器学习数据目录”,并扭转了排名。它将2021领导者(Alation、IBM和Collibra)移至2022 Wave报告的底层和中间层,并用一组新公司(美国、Data.world和Informatica)取代他们。
“数据目录”只是元数据的一个用例:帮助用户了解他们的数据资产。但这仅仅触及了元数据可以做什么的表面。
活动元数据是数十个用例的关键,如可观测性、成本管理、补救、质量、安全、计划治理、优化管道等等,所有这些都已经在数据世界中得到了积极的讨论。下面是几个真实的例子:
- 基于Eventbridge事件的操作:允许数据团队创建生产级、事件驱动的元数据自动化,如所有权更改时的警报或自动标记分类。
- Trident AI:利用GPT-3的功能,基于早期资产的元数据,自动创建新数据资产的描述和README。
- GitHub集成:在每个GitHub拉取请求期间自动创建受影响数据资产的列表。
2. 数据合同和数据治理将要左移
这是从8月份Chad Sanderson的时事通讯“数据合同的兴起”开始的。随后,他与阿德里安·克鲁齐格(Adrian Kreuziger)一起编写了一份由两部分组成的数据合同技术指南。然后,他在Analytics Engineering播客上谈论了数据合同-与我们一起!(向乍得、特里斯坦·汉迪和朱莉娅·肖滕斯坦大声喊话,聊得很开心。)
数据合同的核心驱动力是工程师没有创造高质量数据的动力。
由于现代数据堆栈,创建数据的人与使用数据的人被分离。因此,公司最终使用GIGO数据系统-垃圾输入,垃圾输出。
数据合同旨在通过在数据生产者和消费者之间建立协议来解决这一问题。数据生产者承诺生产符合特定规则的数据,例如,一套数据模式、围绕准确性或完整性的SLA,以及关于如何使用和更改数据的政策。在同意合同后,数据消费者可以使用这些数据创建下游应用程序,确保工程师不会意外更改数据并破坏实时数据资产。
在Chad Sanderson的新闻稿上线后,这段对话就破裂了。它传遍了推特和Substack,在那里,数据社区争论数据合同是否是一个重要的对话,令人沮丧地模糊或不言自明,实际上不是一个技术问题,注定会失败,或者显然是一个好主意。人们在推特上发起战斗,创作史诗般的故事,在安全的距离观看皇室成员的战斗,手里拿着爆米花。
虽然数据合同本身是一个重要问题,但它们是如何确保数据质量的更大对话的一部分。
数据经常过时、不完整或不正确,这已经不是什么秘密了——数据界多年来一直在讨论如何修复它。首先,人们说元数据文档是解决方案,然后是数据产品传输标准。现在流行语是数据合同。
这并不是要取消数据合同,这可能是我们一直在等待的解决方案。但数据合同似乎更有可能被纳入围绕数据治理的更大趋势。
2023年,数据治理将开始“左移”,数据标准将成为编排工具的一流公民。
几十年来,数据治理一直是一种事后思考。它通常由数据管理员处理,而不是数据生产者,他们在数据创建后很久才创建文档。
然而,我们最近看到了将数据治理“向左”或更接近数据生产者的转变。这意味着创建数据的人(通常是开发人员或工程师)必须创建文档,并根据预定义的标准检查数据,然后才能投入使用。
主要工具最近做出了支持这一想法的改变,我们预计在未来一年会看到更多:
- dbt的yaml文件和语义层,分析工程师可以在创建dbt模型时创建README并定义度量
- Airflow的Open Lineage,在DAG执行时跟踪作业和数据集的元数据
- Fivetran的元数据API,为Fivetran连接器同步的数据提供元数据
- Atlan的GitHub扩展,它创建了一个受拉取请求影响的下游资产列表
3.语义层将要进入采纳模式,尽管缓慢
语义层也被称为“度量层”或“业务层”,它是一个在数据世界中流传了几十年的概念。
语义层是一个字面上的术语——它是数据架构中的“层”,使用业务用户将理解的“语义”(单词)。数据团队构建了一个语义层,并将该列重命名为“Customer”,而不是具有列名称(如“A000_CUST_ID_PROD”)的原始表。语义层向业务用户隐藏复杂的代码,同时保持数据团队对其的文档化和可访问性。
2022年10月,dbt实验室在其年度会议上宣布了新的语义层,引起了轰动。
dbt语义层背后的核心概念是:定义一次,在任何地方使用。数据生产者现在可以在dbt中定义度量,然后数据消费者可以在下游工具中查询这些一致的度量。无论使用哪种BI工具,分析师和业务用户都可以在会议中间查找统计数据,并确信他们的答案是正确的。
直观地将度量作为数据转换的一部分是有意义的。让它们成为dbt的一部分——这是一种主流的转换工具,它已经与现代数据堆栈很好地集成了——正是语义层从思想走向现实所需要的。
自dbt的语义层发布以来,进展情况得到了公平的衡量——部分原因是这发生在不到三个月前,部分原因是改变人们编写度量标准的方式需要时间。
2023年,第一组语义层实现将上线。
在过去的几个月里,许多数据团队一直在探索这项新技术的影响——尝试语义层,并思考如何改变其度量框架。
随着现代数据堆栈中的更多工具与语义层集成,这一过程变得更加容易。七个工具是语义层——在发布时就已经准备好了(包括us、Hex、Mode和Thoughtspot)。另外八个工具是度量层,这是与语义层集成的中间步骤。
4. 数据激活将要取代CDP作为营销花费变得更重要
2022年,反向ETL(去年的大趋势之一)的一些主要参与者试图将其类别重新定义为“数据激活”,这是对“客户数据平台”的一种新的理解。
CDP结合了所有客户接触点(例如网站、电子邮件、社交媒体、帮助中心等)的数据。然后,公司可以细分或分析这些数据,建立客户档案,并推动个性化营销。例如,如果有人放弃购物车,他们可以创建带有折扣码的自动电子邮件,或者向访问过网站上特定页面并使用公司实时聊天的人发布广告。
CDP是围绕使用数据而设计的,而不是简单地聚合和存储数据。这就是数据激活的所在——从仓库“激活”数据以处理CDP功能。
各种形式的数据激活已经存在了几年。然而,这种数据激活的想法在2022年开始成为新的CDP。
例如,Arpit Choudhury在4月分析了空间,Sarah Krasnik在7月打破了辩论,Priyanka Somrah在8月将其列为数据类别,Luke Lin在上个月的2023年数据预测中呼吁数据激活。
在某种程度上,这种趋势是由以前的反向ETL公司的营销造成的,这些公司现在将自己标榜为数据激活产品。例如,Hightouch在四月份以巨大的水花重塑了自己的品牌,在五天内删除了三个关于数据激活的博客:
- 数据激活:Pedram Navid分析后的下一步
- Hightouch:Kasish Gupta的数据激活平台
- 什么是数据激活?作者:Luke Kline
在某种程度上,这也可以追溯到围绕驱动数据用例和价值的更大辩论,而不是关注数据基础设施或堆栈。正如Benn Stancil所说,“为什么数据技术的进步远超过数据团队提供的价值?”
在某种程度上,这也是现代数据堆栈的必然结果。Snowflake+Hightouch这样的堆栈具有与CDP相同的数据和功能,但它们可以在整个公司中使用,而不是只用于一个功能。
CDPs在过去是有意义的。当很难建立一个数据平台时,为商业用户提供一个开箱即用、完美定制的客户数据平台是一个巨大的胜利。
然而,现在,世界已经发生了变化,公司可以在30分钟内建立一个数据平台——不仅有客户数据,而且还有所有其他重要的公司数据(如财务、产品/用户、合作伙伴等)。
与此同时,数据工作一直围绕着现代数据堆栈进行整合。Salesforce曾经试图处理自己的分析(称为爱因斯坦分析)。现在,它已经与Snowflake合作,Salesforce数据可以像任何其他数据源一样通过管道传输到Snowflak。
大多数SaaS产品也发生了同样的情况。虽然内部分析曾经是他们的促销手段,但他们现在意识到,将数据移动到现有的现代数据生态系统中更有意义。相反,他们的追加销售现在通过API将数据同步到仓库。
在这个新的世界中,数据激活变得非常强大。现代数据仓库加上数据激活不仅将取代CDP,还将取代所有预先构建的专用SaaS数据平台。
有了现代数据堆栈,数据现在可以在专门的SaaS产品中创建,并通过管道传输到Snowflake等存储系统中,在那里与其他数据相结合,并在API层中进行转换。因此,数据激活对于将洞察反馈到业务用户进行日常工作的源SaaS系统至关重要。
例如,Snowflake收购了Streamlit,它允许人们创建预先构建的模板和在Snowflak之上的模板。Salesforce等工具现在可以让客户将数据同步到Snowflake,并使用预先构建的Salesforce应用程序分析数据,或一键执行自定义操作(如使用Clearbit清理潜在客户列表),而不是开发自己的分析或依赖CDP。其结果是CDP的定制和用户友好性,以及现代云计算的强大功能。
5.第一波数据网格实现将要上线
这个想法来自扎玛克·德赫尼(Zhamak Deghani)——2019年,她先是写了两个博客,然后在2022年写了一本奥莱利(O'Reilly)的书。
这是TL;Data Mesh Learning Community的DR:“最简短的总结:将数据视为一种产品,而不是一种副产品。通过推动数据产品思维并将领域驱动的设计应用于数据,您可以从数据中释放出巨大的价值。数据需要由最了解它的人拥有。”
2021,数据网格无处不在。2022年,它开始从抽象概念转向现实。
随着真实用户故事的增长,数据网格背后的想法变得不那么抽象,变得更具可操作性,数据网格对话已从“它是什么?”转变为“我们如何实现它?”。
与此同时,公司开始围绕数据网格打造自己的品牌。到目前为止,我们已经在Starburst、Databricks、Oracle、Google Cloud、Dremio、Confluent、Denodo、Soda、lakeFS和K2 View等平台上看到了这一点。
创建四年后,我们仍处于数据网格的早期阶段。
2023年,第一波数据网格“实施”将上线,“数据即产品”概念将在前端和中心。
今年,我们将开始看到越来越多的真实数据网格架构——不是那些在数据博客上漂浮多年的理想图,而是来自真实公司的真实架构。
数据世界也将开始为数据网格汇聚一流的参考体系结构和实现策略。这将包括以下核心组件:
- 可以集成到开发人员工作流中的元数据平台(例如Atlan的API和GitHub集成)
- 数据质量和测试(如远大前程、蒙特卡洛)
- 类似Git的流程,用于数据生产者将测试、元数据管理、文档等(例如dbt)结合起来
- 所有这些都建立在同一个中央数据仓库/湖屋层(例如Snowflake、Databricks)周围
6.数据可观察性和质量将要会聚近一个数据可靠性分类
去年以来,我们的一个大趋势是,数据可观测性保持了自己的地位,并与数据质量和可靠性等相邻理念一起继续增长。
现有公司变得更大(例如,Databand于2022年7月被IBM收购,蒙特卡洛以1.35亿美元收购B系列),新公司成为主流(例如Kensu和蒙特卡洛一跃成为思想领袖),每月推出新工具(例如Bigeye的Metadata Metrics)。
一个显著的变化是,2022年,这一领域也出现了显著的开源增长。Datafold推出了开源diff工具,Accelda开源了其数据平台和数据可观测性库,Soda同时推出了开源Soda Core和企业Soda Cloud平台。
在去年的报告中,我们的一个公开问题是数据可观测性正在走向何方——走向自己的类别,或者与另一个类别(如数据可靠性或活动元数据)合并。
数据的可观测性和质量将汇聚在一个更大的“数据可靠性”类别中,以确保高质量数据为中心。
这看起来可能是一个巨大的变化,但这些类别中的许多公司多年来已经多次更名,例如Datafold从数据差异变成了“数据可靠性平台”。
随着这些公司竞相定义和拥有这一类别,我们将在短期内继续看到更多的困惑。然而,有迹象表明,这将在不久的将来开始成为一个类别。
总结
欢迎2023年成为数据从业者,感觉很有趣。虽然空气中有很多不确定性(不确定性是新的确定性!),但我们也松了一口气。
2021和2022年是数据堆栈历史上荒谬的年份。
炒作是疯狂的,每天都有新的工具推出,数据人不断被数据初创公司挖走,风投们向每一个甚至暗示要做某事的数据从业者砸钱。“现代数据堆栈”终于很酷了,数据世界拥有了所需的所有资金、支持和认可。
在Atlan,我们自己从数据团队开始。作为从事数据研究超过十年的人,这是一个疯狂的时代。进步通常是在几十年内取得的,而不是几年。但在过去三年中,现代数据堆栈的发展和成熟程度与前十年一样。
这很令人兴奋……但我们不止一次地问自己存在的问题。这种现代数据堆栈是真的吗,还是只是风投资金的炒作?我们住在回音室吗?整个事情的数据从业者在哪里?
虽然这种炒作和狂热导致了伟大的工具,但最终对数据世界不利。
面对大量的流行语和产品,数据买家往往会感到困惑,他们可能会花更多的时间来尝试获得正确的堆栈,而不是实际使用它。
让我们明确一点,数据空间的目标最终是帮助公司利用数据。工具对此很重要。但它们最终是一个推动者,而不是目标。
随着这种炒作开始消退,现代数据堆栈开始稳定,我们有机会利用我们已经取得的工具进步,将其转化为真正的商业价值。
我们正处于一个数据团队无法为建立正确的基础设施而奋斗的时刻。有了现代数据堆栈,建立数据生态系统比以往任何时候都更快、更容易。相反,数据团队正在努力证明自己的价值,并用更少的时间和资源获得更多的结果。
既然公司不能到处撒钱,他们的决策需要有针对性和数据驱动。这意味着数据比以往任何时候都更重要,数据团队处于提供真正业务价值的独特地位。但要做到这一点,数据团队需要最终解决这个“价值”问题。
现在我们已经构建了现代数据堆栈,是时候弄清楚现代数据文化堆栈了。伟大的数据团队是什么样子的?它应该如何处理业务?它如何在最短的时间内产生最大的影响?
这些都是棘手的问题,不会有任何快速解决办法。但是,如果数据世界能够破解更好数据文化的秘密,我们最终可以创建梦想中的数据团队,这些团队不仅能帮助公司在未来12至18个月内生存,还能推动公司在未来几十年达到新的高度。
- 281 次浏览