【MAD】2023年MAD（机器学习、人工智能和数据）前景

视频号

微信公众号

知识星球

语言 Chinese, Simplified

距离我们发表上一篇MAD景观还不到18个月，它充满了戏剧性。

当我们离开时，随着Snowflake的大规模IPO，数据世界正在蓬勃发展，整个创业生态系统都围绕着它组织起来

当然，从那以后，公开市场崩溃，经济衰退，风险投资资金枯竭。整整一代数据/人工智能初创公司都不得不适应新的现实。

与此同时，在过去的几个月里，Generative AI出现了明显的指数级加速，可以说形成了一个新的迷你泡沫。除了技术进步之外，人工智能已经成为主流，世界各地广泛的非技术人员现在可以亲身体验它的力量。

数据、机器学习和人工智能的兴起是我们这一代人最基本的趋势之一。它的重要性远远超出了纯粹的技术层面，对社会、政治、地缘政治和道德产生了深刻影响。

然而，这是一个复杂、技术性强、快速发展的世界，即使对太空从业者来说也常常令人困惑。缩写词、技术、产品和公司琳琅满目，难以追踪，更不用说掌握了：

一年一度的MAD（机器学习、人工智能和数据）景观是我们试图理解这个充满活力的空间。它的总体理念，就像我们的活动系列《数据驱动的纽约》一样，一直是开源工作，我们无论如何都会做，并与社区展开对话。

所以，在2023年，我们又来了。这是我们的第九个年度景观，也是数据和人工智能生态系统的“联盟状态”。以下是之前的版本：2012年、2014年、2016年、2017年、2018年、2019年（第一部分和第二部分）、2020年和2021年

这一年度国情咨文职位分为四个部分：

第一部分：景观（此处为PDF，此处为互动版）
第二部分：市场趋势：融资、并购和首次公开募股（或缺乏）
第三部分：数据基础设施的趋势
第四部分：ML/AI的发展趋势

疯狂2023，第一部分：风景

经过大量的研究和努力，我们很自豪能够展示2023年版的MAD景观。当我说“我们”时，我指的是一小群人，在未来的几个月里，他们的夜晚将被在PDF上的拥挤小盒子里进进出出的微小标志的记忆所困扰：凯蒂·米尔斯、凯文·张和保罗·坎波斯。非常感谢他们。是的，当我一开始就告诉他们“哦，这是一个轻松的项目，也许一两天，会很有趣，请在这里签名”时，我是认真的。

所以，就在这里（鼓卷、烟雾机中的提示）。今年MAD有两种消费模式：

PDF（静态）版本：

点击此处查看PDF版本>>>>>>

（是的，它的分辨率都很高，你可以很容易地在桌面和手机上缩放）

<新增！>交互式版本：

此外，今年，我们第一次从头开始进入年轻人所说的“万维网”，提供了一个完全互动的MAD景观版本，这应该会让探索各种类别变得有趣

点击此处查看互动版本>>>>>>

交互式版本说明：

每个徽标都是可点击的——当你点击时，右下角会出现一个弹出窗口
这里有“风景”和“卡片”视图（见右上角）……还有夜间模式！
这是第一个版本，我们将尽快添加更多功能（搜索、过滤等）
对于这个互动版本，我们与Gotta Go Fast合作开发应用程序，并与CB Insights合作开发卡片中的数据。非常感谢他们的合作

对于所有问题和意见，请发送电子邮件至MAD2023@firstmarkcap.com

一般方法

首先，我们今年再次做出决定，让数据基础设施和ML/AI保持一致。有人可能会说，这两个世界越来越不同。然而，我们仍然认为，这些领域之间存在着至关重要的共生关系。数据馈送ML/AI模型。数据工程师和机器学习工程师之间的区别通常是不稳定的。在适当利用ML/AI之前，企业需要有一个坚实的数据基础设施。

自2012年我们的第一个版本以来，景观或多或少与每年的景观都建立在相同的结构上。松散的逻辑是从左到右遵循数据流——从存储和处理到分析，再到提供ML/AI模型，并构建面向用户、人工智能驱动或数据驱动的应用程序。

今年，我们又保留了一个单独的“开源”部分。这一直是一个有点尴尬的组织，因为我们有效地将商业公司与他们通常是主要赞助商的开源项目分开。但同样，我们想捕捉这样一个现实，即对于一个开源项目（例如Kafka），你有许多商业公司和/或发行版（例如Kavka–Confluent、Amazon、Aiven等）。此外，一些出现在盒子里的开源项目还不是完全商业化的公司。

出现在MAD领域的绝大多数组织都是独特的公司，有大量由风险投资支持的初创公司。其他一些是产品（如云供应商提供的产品）或开源项目。

公司选择

今年，我们共有1416个标志出现在景观上。相比之下，2012年我们的第一个版本中有139个。

每年我们都说，我们不可能让更多的公司进入市场，而每年，不知何故，我们都需要这样做。这是因为我们要覆盖最具爆炸性的技术领域之一。

然而，特别是今年，我们不得不采取一种更具编辑性、更有主见的方法来决定哪些公司能够进入这一领域。尽管这一类别的公司数量激增，但我们已经远远超过了几乎适合所有人的阶段，所以我们不得不做出选择。

在前几年，我们倾向于根据融资阶段（通常是B-C系列或更晚）和ARR（如果可用），以及所有大型现有公司，为成长阶段的公司提供不成比例的代表权。然而，今年，特别是考虑到像Generative AI这样的全新领域的爆发，大多数公司都只有1到2年的历史，我们做出了编辑决定，将更多非常年轻的初创公司纳入其中。

几个免责声明：

我们是风险投资公司，所以我们对初创公司有偏见，尽管希望我们在大型公司、云供应商产品、开源和偶尔启动的公司方面做得很好

我们总部设在美国，所以我们可能过于强调美国的初创公司。我们确实在MAD领域拥有强大的欧洲和以色列初创公司代表。然而，尽管我们有几家中国公司，但我们可能低估了亚洲市场以及拉丁美洲和非洲市场（BioNTech以6.5亿美元收购了突尼斯出生的Instadeep，这两家公司刚刚在数据/人工智能创业方面取得了令人印象深刻的成功）

分类

这个过程中最困难的部分之一是分类——尤其是当一家公司的产品横跨两个或多个领域时该怎么办。随着许多初创公司逐渐扩大其产品范围，这一趋势每年都会变得更加突出，我们在“第三部分——数据基础设施”中对此进行了讨论。

同样，在这个已经人满为患的环境中，把每一家初创公司都放在多个盒子里是站不住脚的。

因此，我们的一般方法是根据公司的核心产品或其最知名的产品对公司进行分类。因此，初创公司通常只出现在一个盒子里，即使他们做的不仅仅是一件事。

我们对云超大型机（各种盒子中的许多AWS、Azure和GCP产品），以及一些上市公司（例如Datadog）或非常大的私营公司（例如，Databricks）例外。

今年有什么新鲜事

“基础设施”的主要变化：

我们（最终）杀死了Hadoop盒子，以反映OG大数据技术的逐渐消失——一个时代的结束！我们决定在MAD 2021景观中保留最后一次，以反映现有的足迹。Hadoop实际上并没有消亡，Hadoop生态系统的一部分仍在积极使用（例如，Hive）——请参阅Hadoop对话是关于下一步的。但它已经下降到足以让我们决定将支持Hadoop的各种供应商和产品合并到数据湖中（并将Hadoop和其他相关项目保留在我们的开源类别中）。
说到数据湖，我们将该框重新命名为“数据湖/湖屋”，以反映湖屋趋势（我们在2021年MAD景观中讨论过这一点）
在不断发展的数据库世界中，我们创建了三个新的子类别：
- “GPU加速数据库”（用于流式数据和实时机器学习）
- “矢量数据库”（用于为人工智能应用提供动力的非结构化数据，请参阅什么是矢量数据库？）
- “数据库抽象”，这是一个有点无定形的术语，旨在捕捉一组新的无服务器数据库的出现，这些数据库抽象掉了管理和配置数据库所涉及的许多复杂性。更多信息，这里有一个很好的概述：2023 Serverless&Edge数据库的现状（提到了许多供应商，超出了我们的能力范围）
我们曾考虑添加一个“嵌入式数据库”类别，其中DuckDB用于OLAP，KuzuDB用于Graph，SQLite用于RDBMS，Chroma用于搜索，但考虑到房地产有限，我们不得不做出艰难的选择——也许是明年。
我们添加了一个“数据编排”框，以反映几个商业供应商在该领域的崛起（我们在MAD 2021的“开源”中已经有了一个”数据编排“框）
我们将“数据可观察性”和“数据质量”这两个子类别合并到一个框中，以反映该领域的公司虽然有时来自不同的角度，但越来越重叠的事实——这表明该类别可能已经成熟，可以合并。
我们创建了一个新的“完全管理”数据基础设施子类别。这反映了初创公司的出现，它们抽象了将数据产品链拼接在一起的复杂性（请参阅第三部分中我们对现代数据堆栈的看法），不仅在技术方面，而且在合同谈判、支付等方面为客户节省了时间。

“分析”的主要变化：

目前，我们取消了在2021年MAD领域创建的“度量商店”子类别。当时的想法是，现代数据堆栈中缺少一块。当然，对该功能的需求仍然存在，但尚不清楚是否有足够的空间用于单独的子类别。该领域的早期进入者迅速发展：Supergrain转向，Trace*在其指标存储之上建立了一整层分析，Transform最近被dbt Labs收购
我们创建了一个“客户数据平台”框，因为这个子类别已经酝酿了很长时间，而且一直在升温。
冒着“非常2022”的风险，我们创建了一个“加密/web3分析”框——我们仍然相信有机会在这个领域建立重要的公司。

“机器学习/人工智能”的主要变化：

在我们2021年的MAD布局中，我们将“MLOps”分解为多个子类别——“模型构建”、“功能商店”和“部署和生产”。在今年的MAD中，我们将所有内容重新合并到一个大型MLOps盒子中。这反映了这样一个现实，即该领域的许多供应商的产品现在明显重叠——这是另一个整合时机成熟的类别。
我们几乎在MLOps旁边创建了一个新的“LLMOps”类别，以反映一批新的初创公司的出现，他们专注于大型语言模型的特定基础设施需求。但那里的公司数量（至少我们知道）仍然太少，而这些公司实际上才刚刚起步
我们将“横向AI”更名为“横向AI/AGI”，以反映一组全新的研究型机构的出现，其中许多机构公开将人工通用智能作为其最终目标。
我们创建了一个“封闭源代码模型”框，以反映去年新模型的爆发，特别是在Generative AI领域。我们还在“开源”中添加了一个新框，以捕捉开源模型。
我们增加了一个“边缘人工智能”类别——这不是一个新话题，但这一领域似乎正在加速

“应用程序”的主要变化：

我们创建了一个新的“应用程序/水平”类别，包括代码、文本、图像、视频等子类别。新框捕捉了过去几个月新一代人工智能初创公司的激增。当然，这些公司中的许多都是GPT之上的薄层，在未来几年可能会出现，也可能不会出现，但我们认为这是一个全新的重要类别，并希望将其反映在2023年的MAD格局中。请注意，“应用程序/企业”中也提到了一些Generative AI初创公司。
为了给这个新类别腾出空间：
我们删除了“应用程序/企业”中的“安全”框。我们做出这一编辑决定是因为，在这一点上，数千家安全初创公司中几乎每一家都使用ML/AI，我们可以为它们投入整个领域。
我们精简了“应用程序/行业”框。特别是，由于金融、健康或工业等领域的许多大公司已经在其产品中建立了一定水平的ML/AI，我们做出了编辑决定，主要关注这些领域的“人工智能优先”公司。

其他值得注意的变化：

我们在底部的“数据源和API”中添加了一个新的ESG数据子类别，以反映其日益增长的（有时甚至有争议的）重要性。

我们大幅扩大了“数据服务”类别，并将其更名为“数据与人工智能咨询”，以反映咨询服务在帮助面临复杂生态系统的客户方面日益重要，以及一些纯粹的咨询店开始达到早期规模的事实。

本文地址

https://architect.pub

95 次浏览

SEO Title

The 2023 MAD (Machine Learning, Artificial Intelligence & Data) Landscape