数据技术栈
视频号
微信公众号
知识星球
- 39 次浏览
【开源数据基础架构】2023 年对开源数据基础架构的期望
视频号
微信公众号
知识星球
明年,在明显的预算优势以及添加到多个解决方案中的一些最新的企业友好功能的推动下,开源技术将在企业的数据架构中变得更加突出。
以下是对 2023 年开源数据基础设施领域的三个预测:
1.经济逆风将使开源数据技术对企业更具吸引力。
预计整个 2023 年的经济状况都不稳定,预算限制将吸引更多企业领导者转向完全开源的数据层技术。 随着 Apache Cassandra、Apache Kafka、Redis 和 PostgreSQL 等数据技术在数据最密集的企业环境中继续证明其价值,企业级、生产就绪的开源软件的兴起正在加速。 晚于这一趋势的企业将探索他们的开源选项,作为 2023 年经济动荡的避风港,利用这个机会来利用安全和可扩展的数据架构,而不会给他们的预算增加不必要的许可费用。
这种转变可能会继续侵蚀开放核心替代方案,从而将专有附加组件(和昂贵的许可费用)添加到原本免费的开源项目中。 随着 2023 年的预算审查,企业将仔细研究开源与开放核心的决定——并意识到关键数据技术的纯开源版本完全可以胜任这项任务。
2. Apache Cassandra 4.0将在 2023 年取得突破,无论是在采用方面还是在作为扩展用例集的领先解决方案方面。
考虑到 Cassandra Reaper 等关键工具尚未提供支持,Cassandra 4.0 的 2021 年发布让许多企业在承诺升级迁移之前等待更强大的生态系统组件的到来。 该基本工具支持现已到来,使 Cassandra 4.0 成为寻求更好性能(尤其是在索引速度方面)的企业的诱人选择。 Cassandra 4.0 将以其强大的可靠性、对 Java 11 的支持、更好的安全特性和审计日志以及提高 Cassandra 性能可见性的虚拟表进一步吸引用户。 消除错误是 Cassandra 4.0 开发的重中之重,目的是赢得那些仍然对开源解决方案心存疑虑的人。 一年过去了,Cassandra 4.0 的可靠性是毋庸置疑的,这使得采用它成为一个无风险的决定。
随着广泛采用,Cassandra 4.0 将成为银行业和公用事业等行业越来越受欢迎的选择。 金融机构和其他优先考虑安全性的企业现在越来越多地依赖 Cassandra 4.0,因为它具有严格的审计功能,支持安全策略执行和法规遵从性。 配电公司等公用事业公司也成为 Cassandra 4.0 的支持者,它们利用 Cassandra 4.0 的高可用性和强大的写入性能在庞大的智能电表基础设施中实现大规模数据收集,同时避免代价高昂的停机时间或数据瓶颈。 到 2023 年,这些行业的 Cassandra 4.0 部署将迅速增加,因为 Cassandra 本身会进行改进以提供更轻松的安装和运营管理。 (同样值得注意的是,Cassandra 4.1 现已推出,具有更多功能改进。)
3. Apache Kafka 将在其演进中迈出下一步。
对于许多大型企业而言,Apache Kafka 已经是一种突出且几乎无处不在的开源数据技术——但在 Kafka 计算与数据存储分离的推动下,数据流平台将在 2023 年实现重大飞跃。 不久的将来,Kafka 将具有热存储和冷存储功能,Kafka 会处理来自这些来源的数据收集。
这一关键进展将使 Kafka 摆脱所有数据复制和数据一致性问题。 Kafka 诞生于一个关键目标是利用商用硬件拆分数据以实现高可用性和灾难恢复的时代,Kubernetes 和可用性区域等工具现在可以轻松完成这些任务。 通过现在为 Kafka 引入一个单独的快速且可访问的数据层,Kafka 代理可以简单地随着工作负载起伏,为消费者和生产者提供服务,作为通往该数据层的管道。 将 Kafka 从持久化数据的所有问题中解放出来是一项令人兴奋且受欢迎的技术演进,企业将渴望探索这项技术。
4) 结合 Apache Kafka、机器学习和 Cadence 的应用程序将革命性的智能与 Kafka 的速度和可扩展性相结合。
企业现在成功地展示了 Kafka-ML 的优势,2023 年可能会有更多企业效仿。例如,TikTok 利用 Kafka ML 的实时延迟和超大规模处理能力来交付为每个特定用户定制的内容流。 在另一个例子中,Uber Eats 正在使用 Kafka ML 和 Cadence(一种用于容错长时间运行的应用程序的开源工作流编排工具)来优化推送通知中的交易报价并有效地增加服务订单。 这个聪明的用例使用机器学习来预测向每个客户发送通知的最佳时间。 ML 将特定于客户的通知和最佳时间发送到 Kafka,然后使用 Cadence 调度在正确的时间激活正确的 Kafka 主题。 天空是未来一年利用这些强大技术的智能流媒体应用程序的极限。
不确定时期的更可靠赌注
在现代化功能方面——当然在价格方面——正确的开源部署策略为企业提供了许多专有替代方案无法比拟的优势。 到 2023 年,寻找面临预算紧张的企业团队更多地探索他们的开源数据基础架构选项,并寻找当前用户有意义地扩展他们利用 Cassandra 和 Kafka 等关键技术的方式。
- 15 次浏览
【数据技术】2023年现代数据堆栈的未来
视频号
微信公众号
知识星球
包括去年的4个新趋势和6个大趋势
本文是与Christine Garcia(Atlan的内容总监)共同撰写的。
在我的年度传统中,我在2022年底花了一些时间思考数据世界发生的事情。从这篇文章的长度可以看出,我和我的合著者克里斯汀有很多想法。
在过去几年中,数据一直处于超增长模式。该社区一直在用热镜头引发争议,讨论最新技术,引发重要对话,并在周五的推特上大打出手。数据世界似乎是无限的,当它爆炸时,每个人都在努力跟上。
现在,数据正在进入另一个世界。98%的首席执行官预计未来12-18个月将出现衰退。企业正在通过加大压力、裁员、削减预算、从增长模式转向效率模式来备战。
那么这对数据世界意味着什么呢?更重要的是,对于数据领导者和从业者来说?这篇文章对2023年任何数据领域的人都应该知道的10个大趋势进行了细分,其中4个是新出现的趋势,这将是一个大问题,6个是现有的趋势,这些趋势将进一步增长。
2023年将要出现的4种趋势
随着最近的经济下滑,科技界正在展望2023年,将新的重点放在效率和成本削减上。这将导致与现代数据堆栈公司和数据团队运营方式相关的四个新趋势。
1.优化数据花费将成为一个主要优先级
存储一直是数据团队的最大成本之一。例如,Netflix每月在AWS数据存储上花费960万美元。随着公司收紧预算,他们将需要仔细审视这些法案。
Snowflake和Databricks已经在产品优化方面进行了投资。他们可能会在今年推出更多的改进措施来帮助客户降低成本。
例如,在6月份的会议上,Snowflake强调了产品改进,以加快查询速度、减少计算时间和降低成本。它宣布,AWS上的平均计算速度提高了10%,对于写得很重的DML工作负载,性能提高了10–40%,通过更好的压缩,存储成本降低了7–10%。
在6月份的会议上,Databricks还将其部分主题放在了节约成本的产品改进上,例如推出了Enzyme(ETL管道的自动优化器)和Photon(一种性价比高达12倍的查询引擎)。
今年晚些时候,Snowflake和Databricks都通过进一步投资成本优化功能实现了翻倍增长,明年肯定还会有更多。Snowflake甚至强调削减成本是其2023年的首要数据趋势之一,并肯定了其在提高性能的同时将成本降至最低的承诺。
2023年,我们还将看到来自独立公司和存储合作伙伴的工具的增长,以进一步降低数据成本。
对于数据团队来说,暗数据或从未实际使用过的数据是一个严重的问题。多达68%的数据未被使用,尽管公司仍在支付存储费用。
今年将包括Bluesky、CloudZero和Slingshot等成本管理工具的增长,这些工具旨在与Snowflake和Databricks等特定数据存储系统配合使用。
现代数据堆栈合作伙伴还可能引入兼容的优化功能,如dbt的增量模型和包。dbt实验室和Snowflake甚至一起写了一整本关于使用dbt和Snowflage优化数据的白皮书。
元数据在这里也扮演着重要角色。有了现代元数据平台,数据团队可以使用流行度指标来查找未使用的数据资产,使用列级沿袭来查看资产何时未连接到管道,使用冗余功能来删除重复数据,等等。其中大部分甚至可以通过活动元数据实现自动化,例如自动优化数据处理或清除过时的数据资产。
例如,我们合作的一个数据团队仅通过查找和删除一个未使用的BigQuery表就将每月存储成本降低了50000美元。另一个团队通过查找上游未使用的表、视图和模式,弃用了30000个未使用的资产(或其数据资产的三分之二)。
2. 数据团队将要开始运行ROI和指标
在过去几年中,数据团队能够在较少的监管和监督下自由运行。
公司非常相信数据的力量和价值,数据团队并不总是需要证明数据的价值。相反,他们一直在努力,在日常数据工作与前瞻性技术、流程和文化实验之间取得平衡。优化数据人员的工作方式一直是数据讨论的一部分,但它往往被归结为更紧迫的问题,比如构建一个超级酷的技术堆栈。
明年,这将不再削减开支。随着预算紧缩,数据团队及其堆栈将受到更多关注和审查。它们的成本是多少,提供了多少价值?数据团队需要关注性能和效率。
2023年,公司将更加认真地衡量数据ROI,数据团队指标将开始成为主流。
衡量像数据这样基础的功能的投资回报率并不容易,但我们找出它比以往任何时候都更重要。
今年,数据团队将开始开发代理指标来衡量其价值。这可能包括使用度量,如数据使用(例如DAU、WAU、MAU和QUA)、页面视图或在数据资产上花费的时间,以及数据产品采用;数据消费者的d-NPS评分等满意度指标;以及信任数据停机时间和数据质量分数等指标。
3.现代数据栈将要开开始合并
多年来,现代数据堆栈一直在增长。还有成长。再长一些。
随着风投公司投入数百万美元的资金,每天都有新的工具和类别出现。但现在,随着经济衰退,这一增长阶段已经结束。风险投资资金已经枯竭——看看过去六个月的融资公告减少就知道了。
我们将看到明年推出的数据公司和工具将减少,现有公司的扩张速度将放缓。最终,这可能对买家和整个现代数据堆栈都有好处。
是的,超增长模式很有趣,也很刺激,但也很混乱。我们曾经开玩笑说,现在做一个数据买家会很糟糕,因为每个人都声称自己什么都做。其结果是一些真正狂野的堆栈图。
资本的缺乏将迫使当今的数据公司专注于重要的事情,而忽视其他的事情。这意味着“很好拥有”的功能越来越少。更少的飞溅枢轴。越来越少的收购让我们怀疑“他们为什么这么做?”
在资金有限的情况下,公司将不得不专注于他们做得最好的事情,并与其他公司合作处理所有其他事情,而不是试图在一个平台上解决所有数据问题。这将导致2023年创建“一流的现代数据堆栈”。
随着混乱平息下来,数据公司专注于其核心USP,每个类别的获胜者将开始变得清晰。
这些工具还将侧重于更好地相互协作。他们将作为发布合作伙伴,遵循共同标准,推动现代数据堆栈向前发展。(去年的几个例子是Fivetran的元数据API和dbt的语义层,像我们这样的密切合作伙伴提前构建了集成,并像Fivetran和dbt实验室一样庆祝了发布。)
这些合作伙伴关系和整合将使买家更容易选择工具并快速入门,这是一个可喜的变化。
4. 现代数据栈公司将要扩展本地(on-prem)连接器
科技公司在2023年面临着削减成本和增加收入的新压力。实现这一点的一种方法是关注他们的核心功能,如上所述。另一种方法是寻找新客户。
猜猜今天最大的未开发数据客户来源是什么?具有传统的内部数据系统的企业公司。为了服务这些新客户,现代数据堆栈公司必须开始支持传统工具。
2023年,现代数据堆栈将开始与Oracle和SAP这两个企业数据巨头集成。
这听起来可能有争议,但它已经开始了。一年多前,现代数据堆栈开始进入企业数据世界。
2021 10月,Fivetran收购了企业数据复制工具HVR。Fivetran表示,这将使其能够“解决与ERP系统、Oracle数据库等相关的运营数据分析现代化的巨大市场”。这是现代数据堆栈公司进入企业市场的第一个重大举措。
2022年的6个趋势
These are six of the big ideas that blew up in the data world last year and only promise to get bigger in 2023.
1.活动元数据将要代替数据目录分类
这是去年文章中的一个大趋势,因此它仍然是数据世界的热门话题并不奇怪。然而,令人惊讶的是,活动元数据和第三代数据目录的概念持续增长的速度之快。
从2021开始的一个重大转变是,当这些想法是新的,很少有人谈论它们时,许多公司现在都在争夺这一类别。
元数据被视为数据世界中的一个巨大缺口,因此,即使VC资金开始枯竭,去年编目领域也出现了一些大幅增长。其中包括Alation价值1.23亿美元的E系列、Data.world价值5000万美元的C系列、我们的5000万美元B系列和Castor价值2350万美元的A系列。
这种增长的另一个原因是分析师,他们在2022年接受并扩大了主动元数据和现代数据目录的想法。例如,Gartner在其年度会议上对活动元数据进行了全面讨论,G2发布了一个新的“活动元数据”类别。
我们的预测是,活动元数据平台将在2023年取代“数据目录”类别。
这实际上始于去年,当时Forrester将其Wave报告更名为“机器学习数据目录”,并扭转了排名。它将2021领导者(Alation、IBM和Collibra)移至2022 Wave报告的底层和中间层,并用一组新公司(美国、Data.world和Informatica)取代他们。
“数据目录”只是元数据的一个用例:帮助用户了解他们的数据资产。但这仅仅触及了元数据可以做什么的表面。
活动元数据是数十个用例的关键,如可观测性、成本管理、补救、质量、安全、计划治理、优化管道等等,所有这些都已经在数据世界中得到了积极的讨论。下面是几个真实的例子:
- 基于Eventbridge事件的操作:允许数据团队创建生产级、事件驱动的元数据自动化,如所有权更改时的警报或自动标记分类。
- Trident AI:利用GPT-3的功能,基于早期资产的元数据,自动创建新数据资产的描述和README。
- GitHub集成:在每个GitHub拉取请求期间自动创建受影响数据资产的列表。
2. 数据合同和数据治理将要左移
这是从8月份Chad Sanderson的时事通讯“数据合同的兴起”开始的。随后,他与阿德里安·克鲁齐格(Adrian Kreuziger)一起编写了一份由两部分组成的数据合同技术指南。然后,他在Analytics Engineering播客上谈论了数据合同-与我们一起!(向乍得、特里斯坦·汉迪和朱莉娅·肖滕斯坦大声喊话,聊得很开心。)
数据合同的核心驱动力是工程师没有创造高质量数据的动力。
由于现代数据堆栈,创建数据的人与使用数据的人被分离。因此,公司最终使用GIGO数据系统-垃圾输入,垃圾输出。
数据合同旨在通过在数据生产者和消费者之间建立协议来解决这一问题。数据生产者承诺生产符合特定规则的数据,例如,一套数据模式、围绕准确性或完整性的SLA,以及关于如何使用和更改数据的政策。在同意合同后,数据消费者可以使用这些数据创建下游应用程序,确保工程师不会意外更改数据并破坏实时数据资产。
在Chad Sanderson的新闻稿上线后,这段对话就破裂了。它传遍了推特和Substack,在那里,数据社区争论数据合同是否是一个重要的对话,令人沮丧地模糊或不言自明,实际上不是一个技术问题,注定会失败,或者显然是一个好主意。人们在推特上发起战斗,创作史诗般的故事,在安全的距离观看皇室成员的战斗,手里拿着爆米花。
虽然数据合同本身是一个重要问题,但它们是如何确保数据质量的更大对话的一部分。
数据经常过时、不完整或不正确,这已经不是什么秘密了——数据界多年来一直在讨论如何修复它。首先,人们说元数据文档是解决方案,然后是数据产品传输标准。现在流行语是数据合同。
这并不是要取消数据合同,这可能是我们一直在等待的解决方案。但数据合同似乎更有可能被纳入围绕数据治理的更大趋势。
2023年,数据治理将开始“左移”,数据标准将成为编排工具的一流公民。
几十年来,数据治理一直是一种事后思考。它通常由数据管理员处理,而不是数据生产者,他们在数据创建后很久才创建文档。
然而,我们最近看到了将数据治理“向左”或更接近数据生产者的转变。这意味着创建数据的人(通常是开发人员或工程师)必须创建文档,并根据预定义的标准检查数据,然后才能投入使用。
主要工具最近做出了支持这一想法的改变,我们预计在未来一年会看到更多:
- dbt的yaml文件和语义层,分析工程师可以在创建dbt模型时创建README并定义度量
- Airflow的Open Lineage,在DAG执行时跟踪作业和数据集的元数据
- Fivetran的元数据API,为Fivetran连接器同步的数据提供元数据
- Atlan的GitHub扩展,它创建了一个受拉取请求影响的下游资产列表
3.语义层将要进入采纳模式,尽管缓慢
语义层也被称为“度量层”或“业务层”,它是一个在数据世界中流传了几十年的概念。
语义层是一个字面上的术语——它是数据架构中的“层”,使用业务用户将理解的“语义”(单词)。数据团队构建了一个语义层,并将该列重命名为“Customer”,而不是具有列名称(如“A000_CUST_ID_PROD”)的原始表。语义层向业务用户隐藏复杂的代码,同时保持数据团队对其的文档化和可访问性。
2022年10月,dbt实验室在其年度会议上宣布了新的语义层,引起了轰动。
dbt语义层背后的核心概念是:定义一次,在任何地方使用。数据生产者现在可以在dbt中定义度量,然后数据消费者可以在下游工具中查询这些一致的度量。无论使用哪种BI工具,分析师和业务用户都可以在会议中间查找统计数据,并确信他们的答案是正确的。
直观地将度量作为数据转换的一部分是有意义的。让它们成为dbt的一部分——这是一种主流的转换工具,它已经与现代数据堆栈很好地集成了——正是语义层从思想走向现实所需要的。
自dbt的语义层发布以来,进展情况得到了公平的衡量——部分原因是这发生在不到三个月前,部分原因是改变人们编写度量标准的方式需要时间。
2023年,第一组语义层实现将上线。
在过去的几个月里,许多数据团队一直在探索这项新技术的影响——尝试语义层,并思考如何改变其度量框架。
随着现代数据堆栈中的更多工具与语义层集成,这一过程变得更加容易。七个工具是语义层——在发布时就已经准备好了(包括us、Hex、Mode和Thoughtspot)。另外八个工具是度量层,这是与语义层集成的中间步骤。
4. 数据激活将要取代CDP作为营销花费变得更重要
2022年,反向ETL(去年的大趋势之一)的一些主要参与者试图将其类别重新定义为“数据激活”,这是对“客户数据平台”的一种新的理解。
CDP结合了所有客户接触点(例如网站、电子邮件、社交媒体、帮助中心等)的数据。然后,公司可以细分或分析这些数据,建立客户档案,并推动个性化营销。例如,如果有人放弃购物车,他们可以创建带有折扣码的自动电子邮件,或者向访问过网站上特定页面并使用公司实时聊天的人发布广告。
CDP是围绕使用数据而设计的,而不是简单地聚合和存储数据。这就是数据激活的所在——从仓库“激活”数据以处理CDP功能。
各种形式的数据激活已经存在了几年。然而,这种数据激活的想法在2022年开始成为新的CDP。
例如,Arpit Choudhury在4月分析了空间,Sarah Krasnik在7月打破了辩论,Priyanka Somrah在8月将其列为数据类别,Luke Lin在上个月的2023年数据预测中呼吁数据激活。
在某种程度上,这种趋势是由以前的反向ETL公司的营销造成的,这些公司现在将自己标榜为数据激活产品。例如,Hightouch在四月份以巨大的水花重塑了自己的品牌,在五天内删除了三个关于数据激活的博客:
- 数据激活:Pedram Navid分析后的下一步
- Hightouch:Kasish Gupta的数据激活平台
- 什么是数据激活?作者:Luke Kline
在某种程度上,这也可以追溯到围绕驱动数据用例和价值的更大辩论,而不是关注数据基础设施或堆栈。正如Benn Stancil所说,“为什么数据技术的进步远超过数据团队提供的价值?”
在某种程度上,这也是现代数据堆栈的必然结果。Snowflake+Hightouch这样的堆栈具有与CDP相同的数据和功能,但它们可以在整个公司中使用,而不是只用于一个功能。
CDPs在过去是有意义的。当很难建立一个数据平台时,为商业用户提供一个开箱即用、完美定制的客户数据平台是一个巨大的胜利。
然而,现在,世界已经发生了变化,公司可以在30分钟内建立一个数据平台——不仅有客户数据,而且还有所有其他重要的公司数据(如财务、产品/用户、合作伙伴等)。
与此同时,数据工作一直围绕着现代数据堆栈进行整合。Salesforce曾经试图处理自己的分析(称为爱因斯坦分析)。现在,它已经与Snowflake合作,Salesforce数据可以像任何其他数据源一样通过管道传输到Snowflak。
大多数SaaS产品也发生了同样的情况。虽然内部分析曾经是他们的促销手段,但他们现在意识到,将数据移动到现有的现代数据生态系统中更有意义。相反,他们的追加销售现在通过API将数据同步到仓库。
在这个新的世界中,数据激活变得非常强大。现代数据仓库加上数据激活不仅将取代CDP,还将取代所有预先构建的专用SaaS数据平台。
有了现代数据堆栈,数据现在可以在专门的SaaS产品中创建,并通过管道传输到Snowflake等存储系统中,在那里与其他数据相结合,并在API层中进行转换。因此,数据激活对于将洞察反馈到业务用户进行日常工作的源SaaS系统至关重要。
例如,Snowflake收购了Streamlit,它允许人们创建预先构建的模板和在Snowflak之上的模板。Salesforce等工具现在可以让客户将数据同步到Snowflake,并使用预先构建的Salesforce应用程序分析数据,或一键执行自定义操作(如使用Clearbit清理潜在客户列表),而不是开发自己的分析或依赖CDP。其结果是CDP的定制和用户友好性,以及现代云计算的强大功能。
5.第一波数据网格实现将要上线
这个想法来自扎玛克·德赫尼(Zhamak Deghani)——2019年,她先是写了两个博客,然后在2022年写了一本奥莱利(O'Reilly)的书。
这是TL;Data Mesh Learning Community的DR:“最简短的总结:将数据视为一种产品,而不是一种副产品。通过推动数据产品思维并将领域驱动的设计应用于数据,您可以从数据中释放出巨大的价值。数据需要由最了解它的人拥有。”
2021,数据网格无处不在。2022年,它开始从抽象概念转向现实。
随着真实用户故事的增长,数据网格背后的想法变得不那么抽象,变得更具可操作性,数据网格对话已从“它是什么?”转变为“我们如何实现它?”。
与此同时,公司开始围绕数据网格打造自己的品牌。到目前为止,我们已经在Starburst、Databricks、Oracle、Google Cloud、Dremio、Confluent、Denodo、Soda、lakeFS和K2 View等平台上看到了这一点。
创建四年后,我们仍处于数据网格的早期阶段。
2023年,第一波数据网格“实施”将上线,“数据即产品”概念将在前端和中心。
今年,我们将开始看到越来越多的真实数据网格架构——不是那些在数据博客上漂浮多年的理想图,而是来自真实公司的真实架构。
数据世界也将开始为数据网格汇聚一流的参考体系结构和实现策略。这将包括以下核心组件:
- 可以集成到开发人员工作流中的元数据平台(例如Atlan的API和GitHub集成)
- 数据质量和测试(如远大前程、蒙特卡洛)
- 类似Git的流程,用于数据生产者将测试、元数据管理、文档等(例如dbt)结合起来
- 所有这些都建立在同一个中央数据仓库/湖屋层(例如Snowflake、Databricks)周围
6.数据可观察性和质量将要会聚近一个数据可靠性分类
去年以来,我们的一个大趋势是,数据可观测性保持了自己的地位,并与数据质量和可靠性等相邻理念一起继续增长。
现有公司变得更大(例如,Databand于2022年7月被IBM收购,蒙特卡洛以1.35亿美元收购B系列),新公司成为主流(例如Kensu和蒙特卡洛一跃成为思想领袖),每月推出新工具(例如Bigeye的Metadata Metrics)。
一个显著的变化是,2022年,这一领域也出现了显著的开源增长。Datafold推出了开源diff工具,Accelda开源了其数据平台和数据可观测性库,Soda同时推出了开源Soda Core和企业Soda Cloud平台。
在去年的报告中,我们的一个公开问题是数据可观测性正在走向何方——走向自己的类别,或者与另一个类别(如数据可靠性或活动元数据)合并。
数据的可观测性和质量将汇聚在一个更大的“数据可靠性”类别中,以确保高质量数据为中心。
这看起来可能是一个巨大的变化,但这些类别中的许多公司多年来已经多次更名,例如Datafold从数据差异变成了“数据可靠性平台”。
随着这些公司竞相定义和拥有这一类别,我们将在短期内继续看到更多的困惑。然而,有迹象表明,这将在不久的将来开始成为一个类别。
总结
欢迎2023年成为数据从业者,感觉很有趣。虽然空气中有很多不确定性(不确定性是新的确定性!),但我们也松了一口气。
2021和2022年是数据堆栈历史上荒谬的年份。
炒作是疯狂的,每天都有新的工具推出,数据人不断被数据初创公司挖走,风投们向每一个甚至暗示要做某事的数据从业者砸钱。“现代数据堆栈”终于很酷了,数据世界拥有了所需的所有资金、支持和认可。
在Atlan,我们自己从数据团队开始。作为从事数据研究超过十年的人,这是一个疯狂的时代。进步通常是在几十年内取得的,而不是几年。但在过去三年中,现代数据堆栈的发展和成熟程度与前十年一样。
这很令人兴奋……但我们不止一次地问自己存在的问题。这种现代数据堆栈是真的吗,还是只是风投资金的炒作?我们住在回音室吗?整个事情的数据从业者在哪里?
虽然这种炒作和狂热导致了伟大的工具,但最终对数据世界不利。
面对大量的流行语和产品,数据买家往往会感到困惑,他们可能会花更多的时间来尝试获得正确的堆栈,而不是实际使用它。
让我们明确一点,数据空间的目标最终是帮助公司利用数据。工具对此很重要。但它们最终是一个推动者,而不是目标。
随着这种炒作开始消退,现代数据堆栈开始稳定,我们有机会利用我们已经取得的工具进步,将其转化为真正的商业价值。
我们正处于一个数据团队无法为建立正确的基础设施而奋斗的时刻。有了现代数据堆栈,建立数据生态系统比以往任何时候都更快、更容易。相反,数据团队正在努力证明自己的价值,并用更少的时间和资源获得更多的结果。
既然公司不能到处撒钱,他们的决策需要有针对性和数据驱动。这意味着数据比以往任何时候都更重要,数据团队处于提供真正业务价值的独特地位。但要做到这一点,数据团队需要最终解决这个“价值”问题。
现在我们已经构建了现代数据堆栈,是时候弄清楚现代数据文化堆栈了。伟大的数据团队是什么样子的?它应该如何处理业务?它如何在最短的时间内产生最大的影响?
这些都是棘手的问题,不会有任何快速解决办法。但是,如果数据世界能够破解更好数据文化的秘密,我们最终可以创建梦想中的数据团队,这些团队不仅能帮助公司在未来12至18个月内生存,还能推动公司在未来几十年达到新的高度。
- 278 次浏览
【数据架构】面向初创公司的现代数据堆栈
“为工作使用正确的工具!”
这句话一开始听起来很简单,但在实际方面实施起来却非常复杂。
早期的初创公司发现很难选择生态系统中可用的各种工具,因为它们的数据将如何演变是非常不可预测的。
需要现代数据堆栈
在过去 10 年中,软件行业在以下方面有所增长:
- 计算能力:AWS、Google Cloud 等公共云提供商以标准市场成本提供巨大的计算能力。
- 数据源:物联网生态系统、智能设备的兴起导致每天产生的数据量呈指数级增长。 2020 年,地球上的每个人每秒产生约 1.7MB 的数据。
- 业务利益相关者的数据素养:在原始软件行业,分析师过去常常手动挖掘 excel 电子表格,以获得有关数据的一些有价值的见解。如今,事实证明,许多 BI 工具在利用数据的力量和提供有价值的见解方面很有用,从而在业务利益相关者中培养了素养。
- 数据项目中的开源采用:在过去的 10 年中,行业已经看到开源社区的巨大增长。许多很酷的数据工具(~Apache Airflow、DBT、Metabase)在开源社区中蓬勃发展和发展。
从传统 ETL 到现代 ELT 的转变
在这个现代时代,大多数企业都在利用数据驱动的解决方案,我们看到了从原始的遗留 ETL 架构向 ELT 架构的一致转变。
由于以下原因,现代 ELT 处理比传统 ETL 更受欢迎:
- 便宜、实惠且高效的云存储和分析服务。
- 传统 ETL 管道没有那么灵活,无法根据指数数据增长轻松适应。
- 与传统 ETL 相比,现代 ELT 速度更快,因为在将数据加载到仓库之前不涉及严格的转换阶段。
- 鉴于不需要用户定义的转换,ELT 工具非常擅长将源数据简单地插入目标系统,而用户的手动工作最少。
- 分析师可以根据需要使用 DBT 等工具对仓库中的数据执行转换,而无需事先考虑洞察力和数据类型。
初创公司的采用策略
正如本博客前面提到的,初创公司很难预测数据的演变,他们将要应对。
因此,早期初创公司在为其数据堆栈选择工具时应考虑以下事项:
- 其他初创公司和客户的高采用率和意识。
- 这适合数据堆栈的 ELT 模型。
- 数据库范式(例如结构化、地理空间、实体关系、搜索引擎),适合存储和查询其领域和市场产生的数据的要求。
- 付费 SaaS 工具的等效开源替代品。
提取和加载
从所有事件源(如 Web、应用程序、后端服务)收集数据,并将它们发送到数据仓库。
- 付费 SaaS 工具:Stitch、Fivetran
- 免费和开源替代品:Singer、Meltano、Airbyte
数据仓库
组织所有数据的结构化、非易失性、单一事实来源,我们可以在其中存储和查询所有数据。
- 付费:AWS Redshift、Google BigQuery、Snowflake
- 免费和开源替代品:Apache Druid
转换和建模
使用文档从原始数据创建模型以更好地使用。
- 付费:Dataform、DBT
- 免费和开源替代品:Talend Open Studio、Apache NiFi
编排
用于执行和编排处理数据流的作业的软件。
- 付费:Prefect.io
- 免费和开源替代品:Apache Airflow、Dagster
可视化和分析
为了更好地了解和解释来自不同数据源的数据。
- 付费:Tableau、Microsoft PowerBI、Grafana
- 免费和开源替代品:Metabase、D3js、DyGraphs
原文:https://medium.com/nybles/modern-data-stack-for-startups-b63bc383e1d0
- 170 次浏览