跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

category

在决定微调是否是针对给定用例探索的正确解决方案时,熟悉一些关键术语是有帮助的:

  • 提示工程是一种涉及为自然语言处理模型设计提示的技术。这一过程提高了响应的准确性和相关性,优化了模型的性能。
  • 检索增强生成(RAG)通过从外部源检索数据并将其合并到提示中来提高大型语言模型(LLM)的性能。RAG允许企业实现定制的解决方案,同时保持数据相关性并优化成本。
  • 微调使用示例数据重新训练现有的大型语言模型,从而生成一个新的“自定义”大型语言模型。该模型已使用所提供的示例进行了优化。


什么是Azure OpenAI的微调?


当我们谈论微调时,我们真正指的是有监督的微调,而不是连续的预训练或通过人类反馈的强化学习(RLHF)。监督微调是指在特定数据集上重新训练预先训练的模型的过程,通常是为了提高模型在特定任务上的性能,或者引入在最初训练基本模型时没有很好地表示的信息。

微调是一种高级技术,需要专业知识才能正确使用。以下问题将帮助您评估您是否准备好进行微调,以及您在整个过程中的思考情况。你可以用这些来指导你的下一步行动,或者确定其他可能更合适的方法。

为什么要对模型进行微调?

  • 您应该能够清楚地阐明用于微调的特定用例,并确定您希望微调的模型。
  • 微调的好用例包括引导模型以特定和自定义的样式、音调或格式输出内容,或者引导模型所需的信息太长或太复杂而无法放入提示窗口的情况。
     

常见迹象表明,您可能还没有准备好进行微调:

  • 没有明确的微调用例,或者除了“我想让模型变得更好”之外,无法表达更多内容。
  • 如果你认为成本是你的主要动力,那么要谨慎行事。微调可能会通过缩短提示或允许您使用较小的模型来降低某些用例的成本,但培训的前期成本更高,您必须为托管自己的自定义模型付费。有关Azure OpenAI微调成本的更多信息,请参阅定价页面。
  • 如果你想将领域外知识添加到模型中,你应该从检索增强生成(RAG)开始,在你的数据或嵌入中使用Azure OpenAI等功能。通常,这是一个更便宜、适应性更强、潜在更有效的选项,具体取决于用例和数据。
     

到目前为止你试过什么?


微调是一种高级功能,而不是你生成人工智能之旅的起点。您应该已经熟悉了使用大型语言模型(LLM)的基本知识。您应该从使用即时工程和/或检索增强生成(RAG)评估基本模型的性能开始,以获得性能基线。

有一个没有微调的性能基线对于了解微调是否改善了模型性能至关重要。使用坏数据进行微调会使基本模型变得更糟,但如果没有基线,则很难检测到回归。

如果您已准备好对您进行微调:

  • 应能够证明及时工程和基于RAG的方法的证据和知识。
  • 能够与已经为您的用例尝试过的微调之外的技术分享特定的经验和挑战。
  • 需要尽可能对基线绩效进行定量评估。


常见迹象表明,您可能还没有准备好进行微调:

  • 在没有测试任何其他技术的情况下,从微调开始。
  • 对于微调如何专门应用于大型语言模型(LLM),知识或理解不足。
  • 没有基准测量来评估微调。


替代方法不起作用的是什么?


了解即时工程在哪些方面不足,应为进行微调提供指导。基本模型是在边缘情况下失败还是在异常情况下失败?基础模型是否没有始终如一地以正确的格式提供输出,并且您无法在上下文窗口中放入足够的示例来修复它?

基础模型和即时工程的失败示例将帮助您确定他们需要收集的微调数据,以及您应该如何评估微调模型。

这里有一个示例:一位客户希望使用GPT-3.5-Turbo将自然语言问题转换为特定的非标准查询语言的查询。他们在提示中提供了指导(“Always return GQL”),并使用RAG检索数据库模式。然而,语法并不总是正确的,而且在边缘情况下经常失败。他们为数据库收集了数千个自然语言问题和等效查询的例子,包括模型以前失败的案例,并使用这些数据对模型进行微调。将他们新的微调模型与他们设计的提示和检索相结合,使模型输出的准确性达到了可接受的使用标准。

如果您已准备好对您进行微调:

  • 有明确的例子说明你是如何用替代方法应对挑战的,以及测试了哪些可能的解决方案来提高性能。
  • 您已经使用基本模型发现了不足之处,例如边缘情况下的性能不一致、无法在上下文窗口中设置足够少的快照提示来引导模型、高延迟等。
     

常见迹象表明,您可能还没有准备好进行微调:

  • 模型或数据源的知识不足。
  • 无法找到为模型服务的正确数据。


您将使用哪些数据进行微调?


即使有一个很好的用例,微调也只能和您所能提供的数据质量一样好。你需要愿意投入时间和精力进行微调。不同的模型需要不同的数据量,但你通常需要能够提供相当大数量的高质量策划数据。

另一个重要的点是,即使是高质量的数据,如果你的数据没有达到微调所需的格式,你也需要投入工程资源来正确格式化数据。

Data Babbage-002 & Davinci-002 GPT-3.5-Turbo
Volume Thousands of Examples Thousands of Examples
Format Prompt/Completion Conversational Chat

如果您已准备好对您进行微调:

  • 已确定要进行微调的数据集。
  • 数据集的格式适合训练。
  • 已经采用了一定程度的管理来确保数据集的质量。


常见迹象表明,您可能还没有准备好进行微调:

  • 数据集尚未确定。
  • 数据集格式与要微调的模型不匹配。


您将如何衡量微调模型的质量?


这个问题没有一个正确的答案,但你应该明确定义微调成功的目标。理想情况下,这不应该只是定性的,而是应该包括成功的定量衡量标准,比如利用一组保留的数据进行验证,以及用户接受度测试或a/B测试微调后的模型与基本模型的对比。

接下来的步骤

本文地址
最后修改
星期四, 七月 4, 2024 - 10:44
Article