【LLM】大型语言模型景观

视频号

微信公众号

知识星球

Chinese, Simplified

在过去的两年里,商业和开放LLM提供商的数量呈爆炸式增长,现在所有类型的语言任务都有许多选项可供选择。虽然与LLM交互的主要方式仍然是通过API和基本的游乐场,但我预计,在不久的将来,有助于加速其广泛采用的工具生态系统将成为一个不断增长的市场。

下图描述了当前大型语言模型(LLM)在功能、产品和工具生态系统方面的现状。

LLM

The TL;DR

  • 大型语言模型(LLM)功能可分为五个领域:知识回答、翻译、文本生成、响应生成和分类
  • 分类可以说是当今企业需求中最重要的,而文本生成则是最令人印象深刻和最通用的。
  • 商业产品和更通用的产品有 CohereGooseAIOpenAI and AI21labsGooseAI 目前只关注生成。
  • 开源产品包括 SphereNLLBBlender BotDialoGPTGODEL and BLOOM.
  • 工具生态系统仍处于萌芽状态,在许多领域都有机会。

LLM功能

  • 分类
  • 响应生成
  • 文本生成
  • 翻译
  • 知识回答

各种LLM产品在不同程度上涵盖了这五个功能领域。

  • 分类是一种监督学习形式,将文本分配给预定义的类。这与聚类有关,聚类是一种无监督的学习,语义相似的文本被分组在一起,没有任何预先存在的类。
  • 响应生成是指从示例对话中创建对话流,并采用机器学习方法。其中,模型根据即时对话历史和最可能的下一个对话来确定下一个要呈现给用户的对话。
  • 文本生成可以被描述为LLM的元能力,文本可以基于带有或不带有示例数据的简短描述来生成。生成是几乎所有LLM之间共享的功能。生成不仅可以通过少量的镜头学习数据得到广泛利用;通过铸造(即时工程),数据以某种方式决定了如何使用少数镜头学习数据。
  • 翻译是指将文本从一种语言翻译成另一种语言。这是在没有任何中介语言的情况下直接完成的。点击此处了解更多信息。
  • Knowledge Answering是知识密集型NLP(KI-NLP)的一种实现,它可以回答广泛的领域和一般问题,而无需查询API或利用传统的知识库。知识密集型NLP不是一种网络搜索,而是一种以语义搜索为基础的自包含知识库。



供品

Cohere、OpenAI、AI21labs、GooseAI、Blender Bot、DialoGPT、GODEL、BLOOM、NLLB、Sphere

LLM

目前的商业产品由三个较大的参与者(CohereAI21labsOpenAI)和GooseAI.中一个新兴的较小实体组成。

开源实现往往不那么全面,在实现重点上更具体。



工具生态系统

以数据为中心的工具、游乐场、笔记本、提示工程工具、主机

LLM和游乐场

LLM是作为API访问的,因此使用它们的API所需的基本工具是命令行、开发环境或Jupyter笔记本;Cohere在推出内容方面做得非常好,这些内容展示了如何通过简单的脚本和集成将LLM应用于现实生活中的用例。

供应商还清楚地意识到,为了使LLM的实验和采用更容易,他们需要以游乐场的形式提供无代码环境,以暴露不同的任务和调整选项:这是了解可以实现什么的一个很好的起点。

下面是谷歌人工智能游乐场,这是一种与其他LLM提供商非常相似的方法。

The GooseAI

The GooseAI playground view, with tuning options on the right.

这些游乐场允许您玩“提示工程”(这是您可以探索令人兴奋的文本生成功能的方式)。注意:我很惊讶,我们还没有看到第三方工具/市场等以LLM“即时工程”为重点的更大爆炸,就像我们在图像生成模型(如DALL-E和最近的稳定扩散)中看到的那样。

以数据为中心的工具

我渴望看到LLM更深入地集成到开发对话式人工智能和其他用例(如分析等)所需的“核心”工作流程中;很明显,LLM API及其嵌入空间的定位是解锁更强大的功能:

  • 语义搜索(有助于探索非结构化数据)
  • 聚类(需要识别对话主题或意图)
  • 实体提取(通过文本生成)
  • 分类(通过少数镜头学习示例,或对实际模型进行微调)

我不希望企业客户在供应商Playgrounds中做这种类型的工作,相反,我希望这些将是由LLM API提供支持的第三方工具(无论是对话式人工智能平台本身,还是专门的以数据为中心的解决方案)中包含的功能类型。

到目前为止,我只看到HumanFirst在这种以数据为中心的产品中集成LLM(而且它们目前似乎只支持Cohere)。

🤗拥抱脸

最后,LLM是大型模型,而且成本高昂且难以运行。

这里提到的大多数技术(除了商业LLM)都可以通过🤗拥抱脸。

您可以使用空间、模型卡或通过托管推断API与模型交互。有培训、部署和托管的选项。显然,托管和计算需求将是过度的,而且不容易被证明是合理的。



总结

LLM不是聊天机器人开发框架,不应将两者进行比较。会话人工智能中有特定的LLM用例,聊天机器人和语音机器人的实现肯定可以从利用LLM中受益。

本文地址
https://architect.pub/large-language-model-landscape
SEO Title
The Large Language Model Landscape