【数据团队】数据团队的下一次大危机

QQ群

视频号

微信

微信公众号

知识星球

Chinese, Simplified

数据团队比以往任何时候都更重要,但他们需要更接近业务。以下是我们如何纠正这艘船。

在过去的十年里,数据团队一直在水下和乘风破浪。

我们一直在构建现代数据堆栈,迁移到Snowflake,就像我们的生活依赖于它一样,投资于无头BI,并以比反向ETL更快的速度发展我们的团队。然而,很多时候我们并不知道这些工具是否真的为企业带来了价值。

别误会我的意思:我坚信现代数据堆栈。快速高效地生成分析时,云原生、基于SQL和模块化是最好的选择。但在当今这个预算紧张的时代,精益团队以云的弹性和速度为由,不足以证明对这些工具的投资是合理的。

The modern data stack menu. Image courtesy of Matt Turck and Firstmark Capital.

 

现在,当服务员放下支票时,首席财务官正在调查每一行项目,而不是不假思索地扑通一声放下信用卡。

对于数据团队来说,账单已经到期。本应是一个机会却变成了一场危机,因为组织发现他们离企业不够近,无法解释为什么要订购龙虾。

我们是怎么到这里的?

数据团队作为最早在几乎没有问题的情况下构建8位数技术堆栈的部门之一,创造了历史。

在2010年代中期,数据领导者的任务是“成为数据驱动的”——无论这意味着什么。当然,数据可以帮助优化成本,提高财务绩效,指导产品路线图,提供惊人的客户见解,并获得竞争优势。但成为“数据驱动”是一个不透明的目标,指标模糊,没有明确的投资回报率。

当然,数据团队并没有耍无赖。列车在“不惜一切代价的增长”时代全速前进。高管和决策者着眼于谁在获胜——世界上的谷歌、奈飞和亚马逊——对数据的投资似乎是一件轻而易举的事。

我们这个新生的行业建立了内部黑客入侵的堆栈,或者临时购买以解决特定问题。无论这些系统——以及数据本身——是否与预期的、受软件工程启发的五个9的可靠性相集成,通常都是事后考虑的问题。

在这个阶段仅仅掌握数据就足以推动经济增长。有些数据是有用的,有些数据不是,但我们至少有。到2020年,随着一切都变得数字化并开始排放数据,疫情火上浇油。

Snowflake、Databricks和Fivetran等技术像魔术一样出现,解决了许多与“成为数据驱动”相关的问题。更快的见解?检查更容易摄入?检查更智能的型号?检查

然而,最终,这些解决方案开始将数据量与成本联系起来。快进到今天,您的数据每年都在快速增长,数据量是现在的1000倍,成本是现在的100倍。在这个市场上,这是一粒难以下咽的药丸。

为了提前说明并证明我们的工作是合理的,仅仅提供数据是不够的。它还需要是可靠的和专门建造的。

换句话说,数据团队需要更接近业务。

那么我们该如何到达那里呢?我有一些想法。

通过了解人来了解业务

Who doesn’t love a good stuffed penguin? Photo by Andrea Gradilone on Unsplash

你有没有根据你所知道的一个随机事实(即他们喜欢企鹅),给多年未见的人买过礼物,比如儿时的老朋友或远房表亲?

如果答案是肯定的,那么你肯定不是一个人。数据团队,就像一位远方的朋友送了一份看似周到的礼物一样,希望他们的利益相关者做正确的事情,拥有丰富的见解,可以改善他们的工作,为业务带来价值。但你不能伪造数据的同理心。

如果你不深入了解消费者的需求,你的报告和分析将像一只5英尺高的毛绒企鹅一样有价值。

当涉及到驱动价值时,数据领导者应该做的第一件事就是与消费者和业务利益相关者交谈。这是显而易见的建议,但“需求收集”的任务通常委托给分析师或嵌入式团队。这在一定程度上是有效的,任何玩过电话游戏的人都可以告诉你。

例如,Red Ventures的数据工程总监Brandon Beidel每周都会与每个业务团队会面,以更好地了解他们的用例并创建知情的数据SLA。

他说:“我总是用简单的商业术语来描述对话……我会问:

  • 你是怎么使用这张表的?
  • 你什么时候看这些数据?你什么时候报告这些数据?这些数据是否需要达到每分钟、每小时、每天?
  • 这有什么用?
  • 如果数据延迟,谁需要得到通知?”

这种亲自动手的领导方式有什么优势?你可以制定订婚计划。

布兰登说:“如果我被告知数据很重要,但没有人能告诉我它是如何使用的,我也会反驳。对话变得更加复杂,我甚至会得到可以快速转换为查询的描述,比如‘这一列中没有空值’。”。

你也可以像产品团队发起NPS调查一样,对数据消费者进行集体调查,这是捷蓝航空数据团队在最近的网络研讨会上讨论的一项策略。

创建异步反馈回路

你不可能总是在直播中与每个人交谈。异步通信和反馈循环对于数据和业务协调至关重要(尤其是在当今的远程世界中)。

如果你没有一个可广泛访问和活跃的Slack频道来进行这些类型的通信,请考虑立即创建这种类型的通信空间。这是数据和分析总监Priya Gupta如何在超增长初创公司Cribl创建数据文化的关键之一。她说:

“我们的数据团队在过度沟通方面犯了错误,我们试图通过尽可能多的渠道进行沟通。就像我们作为数据工程师对没有充分记录的数据源持怀疑态度一样,业务用户天生会对安静的数据团队持怀疑态度。

Slack或Teams等聊天应用程序在这方面非常有用。我们为所有请求创建一个集中的通道,这有两个目的。它使整个分析团队能够看到请求,并允许其他利益相关者看到他们的同行感兴趣的内容。

你会看到的最令人满意的事情是,有人在你的公共Slack频道上提出请求,然后另一个利益相关者回答了这个问题。”

但也许最重要的反馈循环是如何向消费者展示数据产品的可信度和可靠性。并非所有的数据产品都是或必须是100%可靠的。

一旦您创建了自助服务或发现机制,就要加倍努力,显示可靠性SLA以及产品满足该SLA的时间百分比。这正是罗氏在其数据网格上构建数据产品时所采取的策略。

穿着数据消费者的鞋子走一英里

You probably don’t even need to walk a full mile in their shoes… maybe just a few dashboards-length? Photo by Jose Fontano on Unsplash

如果你感到雄心勃勃,下一步就是从空谈转向散步。毕竟,当涉及到数据时,业务利益相关者并不总是熟悉可能的艺术。

与亨利·福特所说的消费者会要求他买一匹更快的马类似,有时数据消费者只会要求一个更快的仪表板。我们不需要指望商业利益相关者告诉我们什么是重要的,而是需要开始就在哪里寻找、寻找什么以及如何应用这些见解产生我们自己的假设。

要做到这一点,让数据团队的一名成员与利益相关者接触,并用数据生活。

这是Upside的分析工程团队在高级数据分析工程师Jack Willis“……当我真正看到他们在做什么时,意识到为这个团队制作的许多[数据]产品都不合格。”

他们的数据启用框架包括三个步骤:完全嵌入团队,与利益相关者一起规划,并培训团队以确保可持续的所有权。这是一种有效的方式,可以最大限度地发挥新角色的价值,比如分析工程师,他们可以弥合数据工程师和分析师之间的差距。他们可以更深入地了解业务是如何运作的,以及哪些数据会真正起到推动作用。

Jack说:“我们在数据产品中建立了一条信任之路……让我们的利益相关者不怕数据和工程,让我们的数据从业者不怕业务……这让我们登上了数据飞轮。”。

让采纳成为你的向导

你并不总是需要过数据消费者的生活才能理解他们的故事。它还通过他们采用了什么…以及他们没有采用什么来讲述。事实上,“暗数据”和数据竖井可能比采用良好的数据产品更具信息性。

Maybe we should move the path over there? Image courtesy of author.

如果V_GOOD_DASHBARD_48是由您的业务运营团队导出到Excel的文件(即使知道您的Looker技能被低估会让您感到痛苦),那么它比V_GOOD_dASHBARd_49更有价值。

在您从客户数据平台过渡到更云原生的解决方案之前,请了解营销团队是如何使用它的以及为什么使用它。直观的自助服务访问可能会带来与您所能提供的强大客户细分一样多的价值。

要做到这一点,数据团队需要投资于方法和技术,以揭示谁在使用什么数据以及如何使用。

但现代数据堆栈本身并不能让数据团队更清楚地了解他们的数据,也不能提高数据团队和利益相关者之间的透明度。如果说有什么不同的话,那就是现代数据堆栈可能会以较少的清晰度和上下文提供更大的访问权限,从而使这种本已脆弱的关系复杂化。

我们需要在上游表和下游资产之间绘制连接的方法,这种方法可以整合整个数据环境,而不仅仅是仓库、湖泊或转换层。我们需要一种真正的端到端的方法,一直到消费层。

在当今时代,无知不是幸福;这是一个失败的处方。我们数据资产的可见性和透明度将帮助我们确定优先级,保持专注,并真正推动业务发展。

创建语义层

我们的行业在编纂语义层方面正在取得进展,自助数据平台正在将更多的权力交给分析师,让他们以前所未有的方式处理数据。

如果不深入讨论业务如何思考和使用数据,几乎不可能创建一个语义层,有时被称为度量层。

当你正在为“账户”的含义创造一个普遍的真理,并与商业利益相关者交谈,以确定这是否应该包括免费增值用户时,你正在深入探索和巩固你的业务的真正驱动力。

语义层可以成为一个很好的借口,让你在本该知道的问题上进行从未有过的对话。你的高管可能也有同样的感受。他们也不太明白“账户”是什么意思。

随着真正的语义层开始形成,帮助您开发和标准化北极星指标的解决方案,如增强分析平台或数据笔记本,可以提供一个很好的权宜之计。

专注于重要的短期胜利

处理临时请求、调查破裂的数据管道,以及回答《金融》杂志当天的第五个问题中的Bob,都是快速的胜利,但它们并没有起到有意义的作用。

另一方面,在多年时间范围内启动的全公司计划往往在启动电话之前就注定要失败。大型“资本P”项目(数据网格,有人吗?)很重要,也很有价值,但它们不需要“完整”才能有用。最好的办法是专注于具有明确商业价值的小型短期胜利。

同样,收养应该是你的指南。将您的大部分资源集中在优化和构建您的关键用例和数据资产上(您确实了解您的关键数据资产,对吗?)。

Understanding usage of key assets can help you zero in on what data actually matters for your business stakeholders. Image courtesy of author from internal data platform.

你想提高数据信任度吗?关注与最高影响相关的一小部分数据,如客户行为或第三方营销数据。

  • 按域划分数据,以便您知道当出现故障时,业务的哪一部分负责
  • 尽可能少地花时间在新鲜度、数量和模式检查上(你知道,这些检查很简单),然后专注于编写自定义规则来捕捉分布或字段健康异常。
  • 在数据团队和业务利益相关者之间建立Slack、Teams或信鸽渠道,在数据中断时提醒所有相关方,并在血统的帮助下,就哪些报告和仪表盘受到了影响提出建议。

缩小你的注意力是否意味着你不会让每个人都高兴。对缩小你的关注点是否意味着你本季度会更成功?对

危机得以避免?

解决我们的下一次大危机不会一蹴而就。与任何类型的变革一样,让我们的工作更接近业务需要时间、无情的优先级,以及了解我们在哪里可以推动最大价值的能力。

就我个人而言,随着我们采用更多的流程、技术和团队结构,将数据团队从风暴中带到更平静的水域,我对未来的发展感到无比兴奋。

那么,您的团队将如何应对下一次重大危机呢?我洗耳恭听。

本文地址
https://architect.pub
SEO Title
The Next Big Crisis for Data Teams