【大语言模型】2024年最佳开源LLM

语言 Chinese, Simplified

SEO Title

测试、运行和选择的综合指南

开源大型语言模型（LLM）功能强大，现在几乎任何人都可以使用它们。。。在他们的手机、笔记本电脑或私有云上。这些LLM为各种应用程序提供先进的人工智能功能，从聊天机器人到代码生成，不受提供商的限制。

Klu在本地运行开源模型Klu在当地运行开源模型
自我们上次审查以来，开源LLM生态系统在短短六个月内发生了戏剧性的转变。曾经由Llama 2和Vicuna主导的景观，现在由社区努力和新的基金会模式团体产生的创新模式丰富了景观。

领先的开源LLM的转变凸显了在构建生产系统时选择正确的模型是多么重要。2023年，我们看到了几个有趣的型号的发布，如MPT-7b、Falcon和StableLM。

然而，由于缺乏采用、业务优先级的变化，或者在Falcon的情况下，对推理的GPU硬件要求极高，模型交互停止了。

选择最好的开源LLM取决于具体的用例和性能要求——听起来很老套。Mixtral、Mistral 7b和Llama 2等开源机型的多功能性已经超过了GPT-3.5 turbo和Google Gemini等专有机型，是广泛应用的领先选择。

下表列出了开源LLM的排名，详细说明了他们通过Arena Elo评分的竞争表现、通过MT基准分数的翻译质量以及通过MMLU分数的理解能力。此外，还提供了每个型号的许可条款，以告知用户他们的权利和限制。

Model	Arena Elo rating	MT-bench (score)	MMLU	License
Qwen1.5-72B-Chat	1146	8.61	77.5	Qianwen LICENSE
Mixtral-8x7b-Instruct-v0.1	1121	8.3	70.6	Apache 2.0
Tulu-2-DPO-70B	1110	7.89	—	AI2 ImpACT
Yi-34B-Chat	1110	—	73.5	Yi License
Zephyr 7b	1049	7.34	73.5	Apache 2.0
Llama 2 70b	1077	6.86	63.4	Meta License
Mistral 7b v0.1	1023	6.84	60.1	Apache 2.0

在较小的型号中，Zephyr 7b型号在一般辅助任务方面表现出色，尽管它需要额外的快速工程来匹配专有型号的性能。此外，AI2的Tulu 2使用了与Zephyr相同的RLHF技术，证明了该技术在不同模型中的有效性。

除了Elo排行榜之外，还有几款备受好评的变体模型专为讲故事和角色扮演而定制，包括Mythomax、Nous Hermes和Noromaid，它们在终端用户中非常受欢迎。

Mixtral、Tuli和Yi等新模型的引入进一步丰富了开源LLM生态系统。随着新LLM模型的不断涌入，导航和选择最适合您需求的模型可能具有挑战性。

开放数据集、模型架构和评估框架以及专有LLM的增长使人工智能的进步民主化。我们提供了模型架构、培训数据、性能指标、定制选项和社区参与度的简明比较。

无论是聊天机器人、故事生成还是人工智能产品功能，这些开源LLM都可以提升您的项目。

我们已经为您完成了繁重的工作，并将从2024年1月起指导您参观最有前景的游乐场、工具和模型。

您将在本指南中学到什么