跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

category

顶端

现任领导者:Mixtral、Mistral 7b和Llama 2
Mixtral及其社区变体目前领导着开源基准测试和评估委员会。

Mistral 7B和Llama 2是多功能的基础模型,可在广泛的用例中进行微调以进行优化。Klu Evaluate帮助AI团队从迭代中排除猜测工作→

测试、运行和选择的综合指南


开源大型语言模型(LLM)功能强大,现在几乎任何人都可以使用它们。。。在他们的手机、笔记本电脑或私有云上。这些LLM为各种应用程序提供先进的人工智能功能,从聊天机器人到代码生成,不受提供商的限制。

Klu在本地运行开源模型Klu在当地运行开源模型
自我们上次审查以来,开源LLM生态系统在短短六个月内发生了戏剧性的转变。曾经由Llama 2和Vicuna主导的景观,现在由社区努力和新的基金会模式团体产生的创新模式丰富了景观。

领先的开源LLM的转变凸显了在构建生产系统时选择正确的模型是多么重要。2023年,我们看到了几个有趣的型号的发布,如MPT-7b、Falcon和StableLM。

然而,由于缺乏采用、业务优先级的变化,或者在Falcon的情况下,对推理的GPU硬件要求极高,模型交互停止了。

开源LLM排行榜


选择最好的开源LLM取决于具体的用例和性能要求——听起来很老套。Mixtral、Mistral 7b和Llama 2等开源机型的多功能性已经超过了GPT-3.5 turbo和Google Gemini等专有机型,是广泛应用的领先选择。

下表列出了开源LLM的排名,详细说明了他们通过Arena Elo评分的竞争表现、通过MT基准分数的翻译质量以及通过MMLU分数的理解能力。此外,还提供了每个型号的许可条款,以告知用户他们的权利和限制。

Model Arena Elo rating MT-bench (score) MMLU License
Qwen1.5-72B-Chat 1146 8.61 77.5 Qianwen LICENSE
Mixtral-8x7b-Instruct-v0.1 1121 8.3 70.6 Apache 2.0
Tulu-2-DPO-70B 1110 7.89 AI2 ImpACT
Yi-34B-Chat 1110 73.5 Yi License
Zephyr 7b 1049 7.34 73.5 Apache 2.0
Llama 2 70b 1077 6.86 63.4 Meta License
Mistral 7b v0.1 1023 6.84 60.1 Apache 2.0


 

 

 

 

 

 

 

 

 

在较小的型号中,Zephyr 7b型号在一般辅助任务方面表现出色,尽管它需要额外的快速工程来匹配专有型号的性能。此外,AI2的Tulu 2使用了与Zephyr相同的RLHF技术,证明了该技术在不同模型中的有效性。

除了Elo排行榜之外,还有几款备受好评的变体模型专为讲故事和角色扮演而定制,包括Mythomax、Nous Hermes和Noromaid,它们在终端用户中非常受欢迎。

Mixtral、Tuli和Yi等新模型的引入进一步丰富了开源LLM生态系统。随着新LLM模型的不断涌入,导航和选择最适合您需求的模型可能具有挑战性。

开放数据集、模型架构和评估框架以及专有LLM的增长使人工智能的进步民主化。我们提供了模型架构、培训数据、性能指标、定制选项和社区参与度的简明比较。

无论是聊天机器人、故事生成还是人工智能产品功能,这些开源LLM都可以提升您的项目。

我们已经为您完成了繁重的工作,并将从2024年1月起指导您参观最有前景的游乐场、工具和模型。

您将在本指南中学到什么

  • 在线测试模型的最佳方式
  • 本地运行模型的最佳方式
  • 在生产中运行的最佳方式
  • 最佳开源模型
  • 开源模型的最佳社区变体


目录

 

本文地址
最后修改
星期日, 十二月 15, 2024 - 10:31
Article