【LLM】基础模型：未来（仍然）发生得不够快

语言 Chinese, Simplified

SEO Title

Foundation Models: The future (still) isn’t happening fast enough

基础模型的应用正在激增，底层功能和基础设施也在快速发展。但未来的发展速度还不够快，无法充分发挥基础模型的潜力。如果我们将这些模型视为一个新的应用程序

嗯，这很有趣。目前人工智能的发展速度简直令人震惊。基于基础模型，生成型人工智能应用程序以及将复杂推理应用于数据的更大类别的应用程序正在激增。这些应用程序从实用（加速代码开发和测试、法律合同和奥斯卡提名电影的制作）到有趣（多模式生成说唱大战），再到发人深省（达到或接近通过美国医疗许可考试的水平）。底层模型功能、模型准确性和基础设施的发展速度至少也一样快。

如果这一切感觉“不一样”，那是因为确实如此。一代人之前云的出现提供了以前不可能的计算能力，从而实现了计算机科学的新领域，包括变压器模型。该模型体系结构表明，您可以使用云计算来构建更大的模型，这些模型可以更好地泛化，并能够执行新任务，如文本和图像生成、摘要和分类。这些较大的模型显示出了复杂推理、知识推理和分布外鲁棒性的涌现能力，而这些都不存在于较小、更专业的模型中。这些大型模型被称为基础模型，因为开发人员可以在基础模型之上构建应用程序。

但是，尽管有如此多的活动和惊人的创新速度，但很明显，基础模型和生成人工智能的未来发展速度还不够快。建设者面临着一个没有吸引力的选择：容易建造，但很难防御——或者恰恰相反。在第一种选择中，基础模型允许开发人员在周末或几分钟内创建应用程序，这过去需要几个月的时间。但开发人员仅限于这些专有模型的现成功能，其他开发人员也可以使用这些功能，这意味着开发人员必须具有创造性，才能找到差异化的来源。在第二种选择中，开发人员可以扩展开源模型体系结构的功能，以构建新颖且可防御的东西。但这需要银河系级别的技术深度，而拥有这种技术深度的团队太少了。这与我们作为一个行业需要走的方向相反——我们需要更多的权力掌握在更多的手中，而不是更集中。

但是，如果我们将大型基础模型视为一个新的应用程序平台，那么绘制更广泛的技术堆栈将突出表明，在这些挑战中，机遇或创始人是存在的。去年年底，我们写了一篇文章，描述了这个堆栈，并预测了工具层的出现。堆栈的发展如此之快（工具层已经如此之快地开始形成！），现在值得再看一看。

LLM

从今天基础模型堆栈的状态来看，我们看到了三个机会：

构建新颖的应用程序：

技术最先进的团队有着广阔的前沿。还有很多创新需要做，特别是在信息检索、混合模态和训练/推理效率方面。这一领域的团队可以突破科学的界限，创建以前不可能的应用程序。

发现差异：

拥有伟大想法但只有早期技术能力的团队突然可以使用工具，从而可以构建更丰富的应用程序，具有更长的内存/上下文，更丰富的外部数据源和API访问权限，以及评估和缝合多个模型的能力。这为创始人提供了一系列更广泛的途径来构建新颖且可辩护的产品，即使他们使用了广泛可用的技术。

构建工具：

喜欢基础设施的团队有很高的杠杆机会在编排（开发人员框架、数据源和操作、评估）和基础模型操作（用于部署、培训和推理的基础设施和优化工具）中构建工具。更强大、更灵活的工具将增强现有建设者的能力，并使基础模型堆栈可供更广泛的新建设者使用。

基础模型

基础模型开发人员面临的不吸引人的权衡——很容易构建新的应用程序，但很难保护它们，或者恰恰相反——根源在于核心模型是如何构建和暴露的。如今，在iPhone/Android、Windows/Linux风格的战斗中，建设者必须选择双方，双方都要进行痛苦的权衡。一方面，我们看到了来自OpenAI、co-here和AI21的高度复杂、快速发展的专有模型——我们可以将谷歌添加到列表中，因为他们在这些模型上的工作时间比任何人都长，并且显然计划将其外部化。另一方面是开源架构，如Stable Diffusion、Eleuther、GLM130B、OPT、BLOOM、Alexa Teacher Model等，所有这些都是在Huggingface上作为社区中心组织的。

专有模型-

这些模型由财力雄厚、技术成熟的供应商所有，这意味着它们可以提供一流的模型性能。他们模型的现成特性也意味着开发人员很容易启动和运行它们。Azure新的OpenAI服务使其比以往任何时候都更容易上手，我们预计这只会加快开发人员的实验步伐。这些人也在努力降低成本——OpenAI在2022年末将价格降低了60%，Azure也与这些价格相匹配。但这里的成本仍然很高，足以限制一套可持续的商业模式。例如，我们看到了按座位许可证和基于消费的定价的早期例子，这些都是可行的。但广告支持的商业模式可能无法产生足够的收入来支付这一水平的成本。

开源模型——

它们的性能没有专有模型那么高，但在过去的一年里有了显著的改进。更重要的是，技术复杂的构建者可以灵活地扩展这些体系结构，并构建专有模型尚不可能实现的差异化功能（这是我们喜欢Runway的一点，它是一款提供实时视频编辑、协作等功能的下一代内容生成套件。为了支持所有这些功能，Runway继续为多模态系统和生成模型的科学做出重大贡献，为Runway自己的客户解锁更快的功能开发）。

基础模型的紧张关系已经转移到了iPhone/Android专有和开源模型之间的争论上。专有模型的优势在于性能和易于上手。开源模型的优势在于灵活性和成本效益。建设者可以放心地假设，每个阵营都会投资解决其弱点（使OSS模型更容易上手，并使OpenAI模型有可能更深入地扩展），即使他们也会利用自己的优势。

工具/编排

更强大、更灵活的工具将增强现有建设者的能力，并使基础模型堆栈可供更广泛的新建设者使用。

我们在2022年10月回信称，“基础模型并不是‘只起作用’，因为它们只是更广泛的软件堆栈的一个组成部分。从今天的基础模型中总结出尽可能好的推论需要每个应用程序开发人员采取许多辅助步骤。”今天，我们确实看到开发人员在这个堆栈级别上非常关注。未来几个月，一些最酷、杠杆率最高的工作将在这里进行，尤其是在开发人员框架、数据源和操作以及评估方面。

开发人员框架-

历史告诉我们，框架（dbt、Ruby）对于将更大的应用程序的各个部分拼凑在一起很有用。基础模型的框架将使跨多个调用的上下文、提示工程和基础模型（或按顺序选择多个模型）的选择等组合变得容易。研究人员已经开始量化它在围绕基础模型构建更大应用程序方面的威力，包括知识被时间“冻结”的模型。LangChain、Dust.tt、Fixie.ai、GPT Index和Cognisis是在堆栈的这一部分引起开发人员注意的项目。很难描述开始使用这些框架有多容易。但演示很容易，所以我们现在就来做。以下是LangChain开发者指南中的四行入门代码：

这种开发人员框架使得开始使用基础模型变得非常容易，几乎很有趣。敏锐的观察者可能会注意到，有了上面的代码，如果开发人员愿意，几乎可以毫不费力地为已经启动的应用程序替换底层LLM/FM。这些观察者是正确的！从更大的角度来看，让开发变得更容易往往会吸引更多的开发人员加入，并加速新应用程序的创建。工具层面的创新速度非常快，这为工具的构建者和将使用工具创建新应用程序的开发人员创造了机会。

数据源和操作-

如今，基础模型仅限于对其训练所依据的事实进行推理。但对于需要根据变化极快的数据做出决策的应用程序开发人员和最终用户来说，这是一个巨大的限制。想想天气、金融市场、旅行、供应库存等。因此，当我们找到“热门”信息检索时，这将是一件大事，我们不是训练或编辑模型，而是让模型调用外部数据源，并实时推理这些数据源。谷歌研究和Deepmind在这个方向上发表了一些很酷的研究，OpenAI也是如此。因此，检索即将到来，特别是考虑到该领域目前研究达到生产的速度之快。

上面提到的开发人员框架都预测了基础模型科学的发展，并支持外部数据源的一些概念。同样，开发人员框架也支持下游操作的概念——调用外部API，如Salesforce、Zapier、Google Calendar，甚至AWS Lambda无服务器计算函数。通过这些数据和操作集成，新类型的基础模型应用程序变得可能，而这些集成在以前是困难或不可能的，尤其是对于在专有模型之上构建的早期团队来说。

评估-

我们在2022年10月回复称，“基础模型需要谨慎对待，因为我们永远不知道它们会说什么或做什么。这些模型的提供商以及在其基础上构建的应用程序开发人员必须承担管理这些风险的责任。”开发人员在这方面正迅速变得更加成熟。学术基准是评估模型性能的重要第一步。但是，即使是像HELM这样最复杂的基准测试也不完美，因为它们不是为了解决任何一组用户或任何一个特定用例的特性而设计的。

最好的测试集来自最终用户。您提出的建议中有多少被接受了？你的聊天机器人有多少次对话“转弯”？用户在一张特定的图片上停留了多长时间，或者他们分享了多少次？这些类型的输入总体上描述了一个模式，然后开发人员可以使用该模式来定制或解释模型的行为，以达到最大效果。HoneyHive和HumanLoop是两家公司致力于帮助开发人员迭代底层模型架构、修改提示、过滤和添加新的训练集，甚至提取模型以提高特定用例的推理性能的例子。

工具/FMOps

计算是基础模型公司的主要成本驱动因素，并限制了他们可以选择的商业模型。用于部署优化、培训和基础设施的新一代工具和基础设施正在帮助建设者更高效地运营，以解锁新的商业模式。

基础模型对训练和推理有巨大的计算需求，需要大量的专用硬件。这是导致应用程序开发人员面临高成本和操作限制（吞吐量和并发性）的重要原因。最大的参与者可以找到资金来容纳——考虑一下微软在2020年组装的“前五大”超级计算机基础设施，作为其OpenAI合作伙伴关系的一部分。但即使是强大的超大型企业也面临着供应链和经济限制。因此，培训、部署和推理优化是我们看到大量创新和机会的关键投资领域。

培训-

开源基础模型比以往任何时候都更容易修改和重新培训。尽管最大的基础模型训练成本可能高达1000万美元或更多，但Chinchilla和Beyond Neural Scaling Laws等论文的发展表明，强大的模型训练成本可以达到50万美元甚至更低。这意味着更多的公司可以自己做。如今，从业者可以访问大规模数据集，如LAION（图像）、PILE（多种语言文本）和Common Crawl（网络爬行数据）。他们可以使用Snorkel、fastdup和xethub等工具来策划、组织和访问这些大型数据集。他们可以在HuggingFace上访问最新和最棒的开源模型架构。他们可以使用Cerebras、MosaicML等的训练基础设施来大规模训练这些模型。这些资源非常强大，可以利用最新的模型体系结构，修改定义这些体系结构的代码，然后基于公共和专有数据的组合训练私有模型。

部署和推理-

持续的推理成本并没有像培训成本那样急剧下降。大部分计算成本最终将用于推理，而不是训练。推理成本最终对构建商造成了更大的限制，因为它们限制了公司可以选择的商业模式类型。ApacheTVM等部署框架以及蒸馏和量化等技术都有帮助，但这些都需要相当的技术深度才能使用。OctoML（来自TVM的创建者）提供托管服务，以减少成本和部署时间，并在广泛的硬件平台上最大限度地提高利用率。这使得更多的构建者可以使用这些类型的优化，也让技术最先进的构建者能够更高效地工作。一组托管的推理公司，如Modal Labs、Banana、Beam和Saturn Cloud，也致力于使推理比直接在AWS、Azure或GCP等超大型计算机上运行更具成本效益。

#HereWeGo

我们才刚刚开始触及大规模基础模型的表面，广泛地涵盖整个堆栈。大型科技公司和资本充足的初创公司正在大力投资更大更好的模型、工具和基础设施。但最好的创新需要无畏的技术和产品灵感。我们喜欢遇到同时拥有这两种能力的团队，但这个世界上的团队太少了。围绕基础模型的创新速度和质量将受到限制，直到堆栈使一侧或另一侧有尖峰的团队能够做出贡献。所有这些工作都将由大型科技公司、创始人、学者、开发人员、开源社区和投资者共同完成。同时，所有这些创新都有责任考虑FM用例的道德影响，包括潜在的意外后果，并设置必要的护栏。这至少与推进技术本身同等重要。

让人工智能驱动的应用程序更快地实现未来，取决于我们所有人。我们很高兴看到企业家们提出了什么新想法，以帮助释放基金会模式的真正力量，并实现每个人都期望的广泛创新和影响力。

本文地址

https://architect.pub

适合打印版本
登录发表评论
27 次浏览

发布日期

星期六, 五月 20, 2023 - 13:21

最后修改

星期六, 五月 20, 2023 - 13:39

热门内容

今日:

总体:

最近浏览：