Meta的Llama-3、微软的Phi-3和Hugging

语言 Chinese, Simplified

SEO Title

Meta's Llama-3, Microsoft's Phi-3 and Hugging Face's Zephyr when fine-tuned on specific tasks outperform OpenAI's GPT-4!

category

生成式AI

Meta的Llama-3、微软的Phi-3和Hugging Face的Zephyr在特定任务上的微调表现优于OpenAI的GPT-4！🤯

这是Predibase的微调指数的发现之一，该指数展示了我们从Lora Land实验中获得的经验。这是一个实时的基准测试，我们将用新的#开源基础模型和新任务进行更新。

微调指数有助于回答我们所有客户在#AI和#LLM采用过程中不断向我们提出的问题：

-我应该微调哪个开源模型？
-哪些任务从微调中受益最大？
-培训和服务微调模型的成本是多少？

当前的微调指数包括我们Lora Land论文的所有结果，并将Llama-3、Phi-3和GPT-4o添加到组合中。

开发人员不再局限于像GPT-4这样昂贵的商业模型。Zephyr、Mistral和Llama等高性能开源LLM的兴起提供了一种有吸引力的替代方案，使组织能够降低成本并拥有模型IP。然而，开源模型可能达不到商业产品。这就是微调的作用所在。较小的开源模型可以通过微调的力量提供类似GPT的性能。

为了说明这一点，并帮助企业人工智能团队为其应用程序选择最佳的开源模型，我们进行了700多次LLM微调实验。我们的实验结果可在我们的Arxiv研究论文中获得，并在下面通过一系列互动图表分享。享受

开源模型微调排行榜

微调排行榜显示了在31个不同任务中聚合的每个模型的性能。您可以通过选择顶部的基本或微调模型按钮来评估微调前后的性能。值得注意的是，大多数经过微调的开源模型都超过了GPT-4，其中Llama-3、Phi-3和Zephyr表现出了最强的性能。

关于报告

为什么？

我们听到的最常见的问题是：微调有效吗？我应该使用什么模型？通过这份报告，我们试图回答这些问题和其他问题，例如哪项任务最适合微调。我们还旨在为人工智能团队提供一个具有成本效益的框架，用于生产开源LLM。

什么

微调索引包含一系列交互式表格和图表，从我们的模型微调排行榜开始。排行榜将GPT-4的性能与我们在一系列任务中微调的流行开源模型进行了比较。我们包含了10个额外的关键发现，以帮助团队改进他们的微调工作。

怎样

我们使用13个最流行的开源模型和31个不同的数据集和任务分析了700多个微调实验。我们选择了最大参数为7B的模型，以确保任何组织都可以在低端GPU上训练模型。我们使用准确度得分、胭脂度量和HumanEval来评估性能。

关键要点

LoRA微调模型在专业任务上优于GPT-4

经过微调的模型在其特定领域内充当专家，在我们测试的85%的任务中超过了GPT-4的性能。平均而言，微调产生了25%-50%的令人印象深刻的改善。

31个不同任务的平均模型质量

如下图所示，经过微调的模型在几乎所有任务上的表现都远远优于GPT-4。详细分析部分提供了按任务对单个模型性能的更深入了解。

任务性能差异：最佳微调适配器与GPT-4

LoRA微调型号的训练和服务既快捷又便宜

作为基准测试的一部分，我们推出了LoRA Land，这是一款交互式网络应用程序，允许用户查询25个以上性能优于GPT-4的微调Mistral适配器。LoRA Land模型在Predibase上进行了微调，每个售价8美元，并在带有开源LoRAX的单个GPU上提供服务。

LoRA Land使我们能够在生产环境中对服务于LoRA微调型号的性能和成本进行基准测试。如下表所示，在Predibase上提供微调LLM不仅比GPT-4便宜得多，而且在扩展到许多型号和用户时，我们提供了更快的速度，对请求时间几乎没有影响。您可以在Arxiv论文中阅读更多关于我们分析的内容。GPT-4基准取自人工分析。

如上所述，我们还将GPT-4的成本与在使用开源LoRAX和Predibase的专用部署上为您自己的微调适配器提供服务的成本进行了比较。LoRAX使您能够在单个GPU上经济高效地为多个适配器提供服务，从而可以使用一系列经过微调的特定任务模型构建自己的GPT-4。

选择正确的任务进行微调

微调任务排行榜

任务排行榜显示所选任务的每个微调和GPT模型的性能。使用此图表可以确定哪种模型最适合特定任务。值得注意的是，大多数经过微调的开源机型都超过了GPT-4，Llama-3b系列最常表现出最强的性能。

专业任务是LoRA微调的理想选择

我们的分析表明，在广泛的任务中击败GPT-4更为困难。例如，以下执行较差的任务范围非常广：为Python、Java和R等多种编程语言生成代码；回答涉及数十个主题的多项选择题。

相反，我们在微调开源LLM以执行重点狭窄或特定领域的任务时取得了巨大成功，例如法律合同审查、医疗文本分类和特定领域的代码生成，如公司的内部代码库。因此，与通用用例相比，在针对特定任务进行微调时，它需要更少的努力才能优于GPT-4。

GPT-4和按类别划分的性能最高的微调模型之间的差异

选择最佳基础模型进行微调

在选择基本模型时，重要的是要考虑任务级别和许多任务的总体性能。具体来说，当使用LoRAX等开源框架时，这一点很重要，因为LoRAX允许您在单个基础模型上提供多个微调适配器。从一个模型中获得最大收益是理想的。

Llama车型领先

在架构方面，我们的研究结果表明，Llama系列平均领先，Phi、Zephyr和Mistral紧随其后。有趣的是，Mistral部分建立在Llama建筑上，Zephyr是最初Mistral Instruction模型的衍生物。这表明Llama和Mistral模型系列非常适合适应较小的特定任务的工作。

基于平均分数的前5个微调模型
此外，从最高性能的频率来看，Llama-3系列脱颖而出，巩固了其作为微调领先架构的地位。

最常见的性能最佳的微调型号

选择要进行微调的数据

专用数据集可产生最佳结果

在我们的评估过程中，我们探讨了数据复杂性对微调结果的影响，并发现了一些适度的相关性。当考察基本模型升力时，我们发现输入长度呈正相关。相反，当观察GPT-4的升力时，我们发现与输出长度呈中度负相关。这表明，使用微调的适配器，更窄、更容易的任务更有可能取得成功。

您只需要小数据：<10000个示例

与初始模型训练不同，微调可以通过较少的示例来有效。尽管我们的一些数据集是广泛的，但大多数数据集包含的例子不到20000个。事实上，超过40%的数据点少于10000个。

了解更多信息

我们希望您喜欢微调索引，并在训练自己的特定任务LLM时发现它很有帮助。我们计划用新型号进行更新，所以请定期查看。

所有型号都经过微调，价格不到8美元，并使用Predibase和LoRAX进行生产。以下是一些资源，可以帮助您微调性能优于GPT-4的模型。

https://arxiv.org/abs/2405.00732

本文地址

https://architect.pub

登录发表评论
13 次浏览

发布日期

星期一, 五月 27, 2024 - 20:45

最后修改

星期一, 五月 27, 2024 - 20:45

Tags

Article

最新内容

【语音网络】什么是SIP中继以及它为何对商务沟通计划至关重要
2 weeks 5 days ago
【云计算】掌握GCP网络和VPC：云工程师的终极指南
3 weeks 2 days ago
Browser Use：启用AI来控制您的浏览器
3 weeks 2 days ago
【智能体架构】MCP数据库工具箱
3 weeks 2 days ago
【人工智能】宣布 Microsoft Entra Agent ID：安全地管理您的 AI 代理
1 month ago
【数字化】SAP S/4HANA架构：完全指南
1 month ago
【数字化】SAP S/4HANA 学习
1 month ago
【DeepSeek】如何为自定义数据集微调DeepSeek-R1（一步一步）
1 month 4 weeks ago
【UI开发】为AI应用程序构建UI的3个最佳Python框架
2 months 1 week ago
【前端开发】🚀🔥 改变编码方式的10个前端开发AI助手
2 months 1 week ago

↑