category
顶端
现任领导者:Mixtral、Mistral 7b和Llama 2
Mixtral及其社区变体目前领导着开源基准测试和评估委员会。Mistral 7B和Llama 2是多功能的基础模型,可在广泛的用例中进行微调以进行优化。Klu Evaluate帮助AI团队从迭代中排除猜测工作→
测试、运行和选择的综合指南
开源大型语言模型(LLM)功能强大,现在几乎任何人都可以使用它们。。。在他们的手机、笔记本电脑或私有云上。这些LLM为各种应用程序提供先进的人工智能功能,从聊天机器人到代码生成,不受提供商的限制。
Klu在本地运行开源模型Klu在当地运行开源模型
自我们上次审查以来,开源LLM生态系统在短短六个月内发生了戏剧性的转变。曾经由Llama 2和Vicuna主导的景观,现在由社区努力和新的基金会模式团体产生的创新模式丰富了景观。
领先的开源LLM的转变凸显了在构建生产系统时选择正确的模型是多么重要。2023年,我们看到了几个有趣的型号的发布,如MPT-7b、Falcon和StableLM。
然而,由于缺乏采用、业务优先级的变化,或者在Falcon的情况下,对推理的GPU硬件要求极高,模型交互停止了。
开源LLM排行榜
选择最好的开源LLM取决于具体的用例和性能要求——听起来很老套。Mixtral、Mistral 7b和Llama 2等开源机型的多功能性已经超过了GPT-3.5 turbo和Google Gemini等专有机型,是广泛应用的领先选择。
下表列出了开源LLM的排名,详细说明了他们通过Arena Elo评分的竞争表现、通过MT基准分数的翻译质量以及通过MMLU分数的理解能力。此外,还提供了每个型号的许可条款,以告知用户他们的权利和限制。
Model | Arena Elo rating | MT-bench (score) | MMLU | License |
---|---|---|---|---|
Qwen1.5-72B-Chat | 1146 | 8.61 | 77.5 | Qianwen LICENSE |
Mixtral-8x7b-Instruct-v0.1 | 1121 | 8.3 | 70.6 | Apache 2.0 |
Tulu-2-DPO-70B | 1110 | 7.89 | — | AI2 ImpACT |
Yi-34B-Chat | 1110 | — | 73.5 | Yi License |
Zephyr 7b | 1049 | 7.34 | 73.5 | Apache 2.0 |
Llama 2 70b | 1077 | 6.86 | 63.4 | Meta License |
Mistral 7b v0.1 | 1023 | 6.84 | 60.1 | Apache 2.0 |
在较小的型号中,Zephyr 7b型号在一般辅助任务方面表现出色,尽管它需要额外的快速工程来匹配专有型号的性能。此外,AI2的Tulu 2使用了与Zephyr相同的RLHF技术,证明了该技术在不同模型中的有效性。
除了Elo排行榜之外,还有几款备受好评的变体模型专为讲故事和角色扮演而定制,包括Mythomax、Nous Hermes和Noromaid,它们在终端用户中非常受欢迎。
Mixtral、Tuli和Yi等新模型的引入进一步丰富了开源LLM生态系统。随着新LLM模型的不断涌入,导航和选择最适合您需求的模型可能具有挑战性。
开放数据集、模型架构和评估框架以及专有LLM的增长使人工智能的进步民主化。我们提供了模型架构、培训数据、性能指标、定制选项和社区参与度的简明比较。
无论是聊天机器人、故事生成还是人工智能产品功能,这些开源LLM都可以提升您的项目。
我们已经为您完成了繁重的工作,并将从2024年1月起指导您参观最有前景的游乐场、工具和模型。
您将在本指南中学到什么
- 在线测试模型的最佳方式
- 本地运行模型的最佳方式
- 在生产中运行的最佳方式
- 最佳开源模型
- 开源模型的最佳社区变体
目录
- 模型
- 测试、运行和优化
- 如何在线测试开源LLM
- 如何在本地运行
- 如何在生产中运行
- 如何在生产中进行微调
- 优化生产中的开源LLM
- 登录 发表评论
- 182 次浏览
最新内容
- 13 hours ago
- 13 hours 50 minutes ago
- 13 hours ago
- 13 hours 56 minutes ago
- 14 hours ago
- 14 hours ago
- 21 hours 2 minutes ago
- 21 hours 8 minutes ago
- 2 days 21 hours ago
- 2 days 21 hours ago