【MAD】MAD 2023，第四部分：ML/AI趋势

视频号

微信公众号

知识星球

语言 Chinese, Simplified

(note: this is part IV of the 2023 MAD Landscape. The landscape PDF is here, and the interactive version is here)

激动人心！戏剧！行动！

突然间，每个人都在屏息地谈论人工智能。OpenAI获得了100亿美元的投资。谷歌进入红色代码。谢尔盖又开始编码了。比尔·盖茨表示，人工智能在过去12个月里发生的事情“与个人电脑或互联网一样重要”（此处）。全新的初创公司如雨后春笋般涌现（20家Generative AI公司刚刚进入23 YC冬季）。风险投资公司又开始追逐估值数十亿的营收前初创公司。

那么这一切意味着什么呢？这是每隔几十年才会发生的突破性时刻吗？还是仅仅是多年来一直在进行的工作的逻辑延续？我们是否处于真正的指数加速的早期？还是在炒作周期和小型融资泡沫的早期，科技界的许多人都迫切希望在社交和移动以及加密货币假人头之后进行下一次大型平台转型？

所有这些问题的答案是…是的。

我们将按照以下顺序进行挖掘：

人工智能成为主流
Generative AI的指数加速
不可避免的反弹
Generative AI的业务：大型科技公司领先初创公司

人工智能成为主流

整个2022年，这是人工智能世界的一次疯狂之旅，但真正让事情达到狂热的是，当然，Open的人工智能对话机器人ChatGPT于2022年11月30日公开发布。ChatGPT是一款聊天机器人，具有模仿人类健谈者的神奇能力，很快成为有史以来增长最快的产品。

对于当时在场的人来说，第一次与ChatGPT互动的经历让人想起了90年代末他们第一次与谷歌互动的情景。等等，真的那么好吗？那么快？这怎么可能呢？或者刚问世时的iPhone。基本上，这是对指数级未来的第一次一瞥

在硅谷、华尔街和世界各地，ChatGPT立即接管了每一次商务会议、谈话、晚宴，最重要的是，接管了社交媒体的每一点。ChatGPT聪明、有趣、偶尔出错的回复截图在推特上随处可见。

截至1月，ChatGPT的用户已达1亿。

社交媒体上出现了一个由一夜之间的专家组成的整个行业，解释者的帖子和雄心勃勃的TikToker不断轰炸，向我们传授即时工程的方法，这意味着提供能引起ChatGPT最佳反应的输入：

ChatGPT继续积累成就。它通过了律师资格考试。它通过美国医学执照考试。

ChatGPT不是凭空产生的。自2020年6月GPT-3发布以来，人工智能界一直对其议论纷纷，对其高质量的文本输出赞不绝口，以至于很难确定它是否由人类编写。但GPT-3是作为一个面向开发人员而非广大公众的API提供的

ChatGPT（基于GPT 3.5）的发布感觉就像是人工智能真正成为集体意识主流的时刻

在我们的日常生活中，我们都经常通过语音助手、照片自动分类、使用人脸解锁手机，或者在人工智能系统检测到可能的财务欺诈后接听银行的电话，来接触人工智能的强大功能。但是，除了大多数人没有意识到人工智能能提供所有这些功能之外，可以说，这些感觉就像一匹耍把戏的小马

有了ChatGPT，你突然有了与某种感觉像是包罗万象的通用智能交互的体验。

围绕ChatGPT的炒作不仅仅是说说而已。它在很多方面都非常重要，包括因为它迫使行业中的每个人都对此做出积极反应，引发了一场史诗般的互联网搜索之战。

生成型人工智能的指数加速

但是，当然，这不仅仅是ChatGPT。对于任何关注的人来说，在过去的几个月里，似乎每天都有一系列令人眼花缭乱的突破性公告。有了人工智能，你现在可以创建音频、代码、图像、文本和视频

在某种程度上，所谓的合成媒体（2021年MAD景观中的一个类别）被广泛称为生成人工智能——这个术语仍然很新，以至于在撰写本文时，它在维基百科中没有条目

世代人工智能的兴起已经酝酿了好几年。根据你对它的看法，它可以追溯到深度学习（已经有几十年的历史，但在2012年之后急剧加速）和2014年由Ian Goodfellow领导的生成对抗网络（GAN）的出现，在他的教授和图灵奖获得者Yoshua Bengio的监督下

然而，它的开创性时刻发生在不到五年前，谷歌于2017年发布了Transformer（GPT中的“T”）架构——参见谷歌研究的帖子，以及现在著名的论文“注意力就是你所需要的。”

再加上数据基础设施的快速进步、强大的硬件和从根本上协作的开源研究方法，Transformer架构引发了大型语言模型（LLM）现象。

语言模型本身的概念并不新鲜。语言模型的核心功能是预测句子中的下一个单词。

然而，Transformers为语言模型带来了多模态维度。过去有单独的计算机视觉、文本和音频架构。有了变形金刚，一个通用架构现在可以吞噬各种数据，从而实现人工智能的全面融合

此外，最大的变化是能够大规模扩展这些模型

OpenAI的GPT模型是它从2018年开始在互联网上训练的变形金刚的味道。GPT-3是他们的第三代LLM，是目前最强大的型号之一。它可以针对各种任务进行微调——语言翻译、文本摘要等等。GPT-4预计将于2024年某个时候发布，据传将更加令人震惊。（聊天GPT基于GPT 3.5，GPT-3的变体）。

OpenAI在人工智能图像生成中也发挥了推动作用。2021年初，它发布了CLIP，这是一个开源、多模式、零样本模型。给定图像和文本描述，模型可以预测该图像最相关的文本描述，而无需针对特定任务进行优化。

OpenAI与DALL-E合作，DALL-E是一个人工智能系统，可以根据自然语言的描述创建逼真的图像和艺术。特别令人印象深刻的第二个版本DALL-E 2于2022年9月底广泛向公众发布。

已经有多个竞争者在争夺最佳文本到图像模型。Midtravel于2022年7月进入公测版（目前只能通过他们的Discord*访问）。另一个令人印象深刻的模型Stable Diffusion于2022年8月发布。它起源于几个实体的合作，特别是Stability AI、CompVis LMU和Runway ML。它提供了开源的特点，而DALL-E 2和Midtravel则不是。

但是，这些甚至还没有接近2022年年中以来人工智能发布的指数级加速

2022年9月，OpenAI发布了Whisper，这是一种自动语音识别（ASR）系统，可以用多种语言进行转录，并将这些语言翻译成英语。

同样在2022年9月，MetaAI发布了Make-A-Video，这是一个从文本中生成视频的人工智能系统。

2022年10月，CSM（常识机器）发布了CommonSim-1，这是一个创建3D世界的模型。

2022年11月，MetaAI发布了CICERO，这是第一款在人类层面上玩战略游戏《外交》的人工智能，被描述为“人类与人工智能互动的一步，可以使用战略推理和自然语言在游戏中与人互动和竞争。”

2023年1月，谷歌研究公司宣布了MusicLM，“这是一个从文本描述中生成高保真音乐的模型，例如“由扭曲的吉他即兴段支撑的平静的小提琴旋律”

Generative AI的另一个特别丰富的领域是代码的创建。

2021年，OpenAI发布了Codex，这是一个将自然语言翻译成代码的模型。你可以使用codex来完成诸如“将注释转化为代码，为提高效率而重写代码，或在上下文中完成下一行”之类的任务。codex基于GPT-3，也在5400万个GitHub存储库上接受过培训。反过来，Github联合试点使用Codex从编辑器中直接建议代码。

反过来，谷歌的DeepMind于2022年2月发布了Alphacode，Salesforce于2022年3月发布了CodeGen。华为于2022年7月推出了PanGu编码器

文本、图像、代码…生成型人工智能还可以生成令人难以置信的化身（此处，使用Synthesia创建*）：

不可避免的反弹

在过去的几个月里，人工智能的发展呈指数级加速，这让大多数人感到惊讶。这是一个明显的例子，在社会、政治、法律框架和道德方面，技术远远领先于我们人类。尽管令人兴奋，但一些人对此感到恐惧，而我们正处于研究如何应对这场大规模创新爆发及其后果的早期阶段。

ChatGPT几乎立即被一些学校、人工智能会议（讽刺！）和程序员网站禁止。稳定扩散被滥用来创建NSFW色情生成器不稳定扩散，后来在Kickstarter上关闭。有指控称，参与数据标注过程的肯尼亚工人受到剥削。微软/Github在培训CoPilot时因侵犯知识产权而被起诉，CoPilot被指控杀害开源社区。Stability AI因侵犯版权被盖蒂起诉。Midtravel可能是下一个（Meta正在与Shutterstock合作以避免这个问题）。当人工智能创作的作品《空间歌剧院》在科罗拉多州博览会上获得数字类第一名时，世界各地的艺术家都群情激奋。

人工智能和工作

当人们面对Generative AI的力量时，很多人的反应是它会扼杀工作。过去几年的普遍观点是，人工智能会逐渐使最无聊和重复的工作自动化。人工智能会最后扼杀创造性工作，因为创造力是人类最典型的特征。但我们到了，Generative AI正在直接追求创造性的追求。

艺术家们正在学习与人工智能共同创作（与Karen K Chang的播客）。许多人意识到这其中涉及到一种不同的技能。空间歌剧院（Théâtre d‘Opéra Spatial）的创作者杰森·艾伦（Jason Allen）解释说，他花了80个小时创作了900幅图像，然后才得到完美的组合。

同样，编码人员正在研究如何与Co-Pilot一起工作。人工智能领导者Andrej Karpathy表示，Co-Pilot已经编写了80%的代码。早期的研究似乎表明开发人员的生产力和幸福感有了显著的提高。

我们似乎正在朝着一种协同工作的模式发展，在这种模式下，人工智能模型作为“配对程序员”或“配对艺术家”与人类一起工作

也许人工智能将创造新的就业机会。已经有了一个销售高质量文本提示的市场——Promptbase。

AI偏差

对Generative AI的一个严重打击是，它有偏见，而且可能有毒。考虑到人工智能反映了其训练数据集，并且考虑到GPT和其他人是在高度偏见和有毒的互联网上训练的，这种情况的发生并不奇怪。

早期研究发现，像稳定扩散和DALL-E这样的图像生成模型不仅延续，而且放大了人口刻板印象。

在撰写本文时，保守派圈子里有一个争议，即ChatGPT被痛苦地唤醒了。

人工智能虚假信息

另一个不可避免的问题是，使用如此强大的新工具可以做的所有邪恶的事情。

新的研究表明，人工智能能够模拟特定人类群体的反应，这可能会在信息战中释放出另一个层次。

Gary Marcus警告我们人工智能的侏罗纪公园时刻——虚假信息网络将如何利用ChatGPT，“以前所未有的规模攻击社交媒体和制作虚假网站。”

人工智能平台正在迅速采取行动，帮助反击，特别是通过检测人类写的东西与人工智能写的东西。OpenAI刚刚推出了一种新的分类器来做到这一点，它在检测人工智能生成的文本方面击败了最新技术。

人工智能内容只是…无聊吗？

对Generative AI的另一个打击是，它可能大多表现平平。

一些评论家担心，大量无趣、公式化的内容旨在帮助SEO或展示肤浅的专业知识，这与内容农场（一种需求媒体）过去所做的并不不同（新的人工智能聊天机器人是干什么的？没什么好的）。

Jack Clark在他的OpenAI时事通讯中撅着嘴：“我们建立这些模型是为了丰富我们自己的体验，还是这些模型最终会被用来分割和分割人类的创造力，并将其重新包装和商品化？这些模型最终是否会强化一种文化同质性，成为永远停留在过去的锚定物？或者这些模型是否会在一种新的音乐采样和混音文化中发挥自己的作用？”

AI幻觉

最后，也许对Generative AI最大的打击是，它往往是错误的。

ChatGPT尤其以“幻觉”而闻名，意思是编造事实，同时对其答案充满自信地传达事实。

人工智能领域的领导者对此非常明确，比如OpenAI首席执行官Sam Altman：

大型科技公司已经充分意识到了风险。

MetaAI于2022年11月推出了Galactica，这是一款旨在帮助科学家的模型，但三天后就取消了。该模型产生了令人信服的科学内容和令人信服的（偶尔还有种族主义的）废话。

也许是由于2018年Duplex的强烈反对，谷歌将其在2021年推出的强大对话模式LaMBDA保持在非常私人的状态，通过实验应用AI Test Kitchen只对一小群人开放。点击此处了解Jeff Dean的声誉风险

微软作为外包研究机构与OpenAI合作的天才之处在于，作为一家初创公司，OpenAI可以承担微软无法承担的风险。人们可以假设，微软仍在遭受2016年泰氏灾难的影响。

然而，微软迫于竞争（或者可能无法抗拒诱惑），打开潘多拉的盒子，在其必应搜索引擎中公开添加GPT。

这并没有达到预期效果，Bing威胁用户或向他们表达爱意。

在OpenAI和微软的压力下，谷歌也匆忙推出了自己的ChatGPT竞争对手，名字有趣的巴德。

这也不太顺利，在巴德在其第一个演示中犯了事实错误后，谷歌市值损失了1000亿美元（在撰写本文时，巴德仍然只对一小群测试版用户开放）。

人工智能业务：大型科技公司领先初创公司

风险投资和创业圈子里每个人心中的问题是：什么是商机？在最近的技术史上，在过去的几十年里，每15年左右就会有一次重大的平台转变：大型机、个人电脑、互联网、移动设备。许多人认为加密货币和区块链架构是下一个重大转变，但至少目前还没有定论。Generative AI是一个15年一次的世代机会，即将掀起新一轮的创业浪潮（以及风投的融资机会）吗？让我们来探讨一些关键问题。

现任者会拥有市场吗？

硅谷传说中的成功故事是这样的：大人物拥有一个巨大的市场，但却有资格和懒惰；一家小型初创公司拿出了10倍更好的技术；尽管困难重重，但通过出色的执行力（当然还有董事会风险投资的明智之举），小初创公司实现了超增长，成为了大公司，并超越了大公司。

人工智能的问题是，小型初创公司面临着一种非常特殊的在职者——世界上最大的科技公司，包括Alphabet/Google、微软、Meta/Facebook和Amazon/AWS。

这些现任者不仅不“懒惰”，而且在许多方面他们一直在领导人工智能的创新。谷歌从一开始就认为自己是一家人工智能公司（拉里·佩奇在2000年说：“人工智能将是谷歌的终极版本……这基本上就是我们的工作”）。该公司在人工智能领域进行了许多关键创新，包括前面提到的变压器、Tensorflow和Tensor处理单元（TPU）。Meta/Facebook我们谈到了变形金刚是如何来自谷歌的，但这只是该公司多年来发布的众多创新之一。Meta/Facebook创建了PyTorch，这是最重要和最常用的机器学习框架之一。亚马逊、苹果、微软、奈飞都制作了开创性的作品。

在职人员还拥有一些最好的研究实验室、经验丰富的机器学习工程师、大量数据、巨大的处理能力、巨大的分销和品牌影响力。

最后，人工智能很可能会成为当务之急，因为它正在成为一个主要的战场。

如上所述，谷歌和微软现在正在进行一场史诗般的搜索大战，微软将GPT视为给必应注入新生命的机会，谷歌则认为这可能危及生命。

Meta/Facebook在一个非常不同的领域下了巨大的赌注——元宇宙。这一赌注仍被证明是非常有争议的。与此同时，它依靠的是世界上一些最优秀的人工智能人才和技术。它要多久才能逆转方向，开始在人工智能上加倍或三倍？

多年来，Amazon/AWS在ML/AI领域无疑非常活跃，拥有一套横跨MAD领域许多类别的工具。然而，由于其业务主要针对开发者，在过去几个月的Generative AI辩论中，它没有那么直接出现。我们预计该公司将继续在这一领域采取行动，就像刚刚宣布的与拥抱脸的合作一样。

人工智能只是一个功能吗？

除了必应，微软还在团队中迅速推出了GPT。Notion推出了NotionAI，一款新的GPT-3驱动的写作助手。Canva推出了自己的人工智能工具。Quora推出了Poe，这是它自己的人工智能聊天机器人。客户服务领导者Intercom和Ada*宣布了GPT支持的功能。

公司推出人工智能功能的速度有多快，似乎有多容易，这似乎表明人工智能很快就会无处不在。

在之前的平台转型中，故事的很大一部分是，每一家公司都采用了新的平台——企业实现了互联网，每个人都建立了移动应用程序，等等。

我们预计这里不会发生任何不同的事情。长期以来，我们在之前的帖子中一直认为，数据和人工智能技术的成功在于它们最终将变得无处不在，并消失在后台。它是使技术变得隐形的成功的赎金。

创业公司有哪些机会？

然而，正如历史一再表明的那样，不要低估初创公司。给他们一个技术突破，企业家就会找到建立伟大公司的方法。

是的，当移动设备出现时，所有公司都启用了移动设备。然而，创始人建立了伟大的初创公司，如果没有移动平台的转变，这些公司就不可能存在——优步就是最明显的例子。

谁将成为Generative AI的优步？

新一代人工智能实验室可能正在构建Generative AI的AWS，而不是优步。OpenAI、Anthropic、Stability AI、Adept、Midtravel等正在构建广泛的横向平台，许多应用程序已经在其上创建。这是一项昂贵的业务，因为构建大型语言模型需要耗费大量资源——尽管成本可能会迅速下降（从头开始训练稳定扩散成本＜16万美元（Mosaic博客））。这些平台的商业模式仍在制定中。OpenAI推出了ChatGPT Plus，这是ChatGPT的付费高级版本。Stability AI计划通过对客户特定版本收费来实现平台货币化。

利用GPT的新创业公司激增，尤其是用于各种生成任务，从创建代码到营销拷贝再到视频。许多被嘲笑为GPT之上的“薄层”。这是有一定道理的，他们的辩护能力也不清楚。但也许这是一个错误的问题。也许这些公司只是下一代软件公司，而不是人工智能公司。随着他们在核心人工智能引擎的基础上围绕工作流和协作等功能构建更多的功能，他们的防御能力不会比一般的SaaS公司多，但也不会少。

我们相信，有很多机会可以建立伟大的公司：

特定于垂直领域或特定于任务的公司，它们将智能地利用Generative AI做它擅长的事情。
人工智能第一的公司将为本质上没有生成性的任务开发自己的模型。
LLM运营公司将提供必要的基础设施。

还有更多。下一波浪潮才刚刚开始，我们迫不及待地想看看会发生什么。

本文地址

https://architect.pub/mad-2023-part-iv-trends-mlai

65 次浏览

SEO Title

MAD 2023, PART IV: TRENDS IN ML/AI