【Azure GenAI】使用G-Eval评估LLM摘要提示的性能 |

语言 Chinese, Simplified

SEO Title

Azure GenAI - Evaluating the performance of LLM summarization prompts with G-Eval

category

Microsoft专栏

与人类判断相比，抽象摘要评估仍然是一个以前的自动评估指标方法表现不佳的领域。一种名为G-Eval的技术已经开发出来，该技术使用GPT-4来评估没有真实情况的摘要的质量。与基于SummEval基准的元评估的人类判断相比，这种方法显示了最先进的结果。

G-Eval基于Krysinski等人（2019）提出的四个关键维度的概念来抽象总结质量：

连贯性——总结中所有句子的整体质量。摘要应结构合理、组织良好，并应建立一个关于某一主题的连贯信息体系。
一致性——摘要和源文档之间的事实一致性。摘要应仅包含源文档所包含的陈述。
流利度——总结中单个句子的质量。摘要不应有格式问题和语法错误，这些问题和错误会使摘要难以阅读。
相关性-从源文档中选择最重要的内容。摘要应仅包括源文档中的重要信息。

G-Eval技术的实施涉及四个单独而详细的提示，旨在根据这些维度中的每一个来评估总结输出，在李克特量表上得分为1-5（流利度除外，它采用1-3的量表）。这些提示以及要评估的输入文档和摘要被馈送到GPT-4；收集分数输出并计算最终分数。

主要特点

最先进的摘要评价方法
无参考评估
采用思维链（CoT），这是LLM生成的一组中间指令，描述了详细的评估步骤，为LLM评估生成的摘要提供了更多的背景和指导
以表单填充范式进行评估
使用输出分数的概率加权求和作为最终分数，以获得更细粒度、连续的分数，更好地反映生成文本的质量和多样性

实施

G-Eval现在在官方提示流存储库中有一个示例实现。在此实现中，原始的G-Eval实现提示已得到改进，对所评估的源数据领域更具通用性和不可知性。分数解析器也得到了改进，以获得更好的性能，并通过SummEval基准的Meta评估进行了验证。GPT-4不支持令牌概率的输出。G-Eval将n=20，温度=2，top_p=1设置为采样20次以估计令牌概率。

结果

与其他抽象摘要评估方法相比，G-Eval，特别是这种广义实现，显示了最先进的结果。

SummEval基准中不同方法和人类判断之间的斯皮尔曼相关性（ρ）

Method	Fluency (ρ)	Consistency (ρ)	Coherence (ρ)	Relevance (ρ)	Average
G-Eval - GPT-4 0613 8k + original prompts in paper	0.455	0.507	0.582	0.547	0.514
G-Eval - GPT-4 0613 8k + updated prompts + updated parser (Ours)	0.5402	0.5215	0.5137	0.4897	0.516
G-Eval - GPT-4 0613 32k + updated prompts + updated parser (Ours)	0.4985	0.4914	0.5038	0.4921	0.496
ROUGE-1	0.115	0.160	0.167	0.326	0.192
ROUGE-2	0.159	0.187	0.184	0.290	0.205
ROUGE-L	0.105	0.115	0.128	0.311	0.165
BERTScore	0.193	0.110	0.284	0.312	0.225
MOVERSScore	0.129	0.157	0.159	0.318	0.191
BARTScore	0.356	0.382	0.448	0.356	0.385
UniEval	0.449	0.446	0.575	0.426	0.474

本文地址

https://architect.pub

登录发表评论
83 次浏览

发布日期

星期日, 十月 6, 2024 - 14:33

最后修改

星期日, 十月 6, 2024 - 14:33

Tags

Article

最新内容

【语音网络】什么是SIP中继以及它为何对商务沟通计划至关重要
2 weeks 6 days ago
【云计算】掌握GCP网络和VPC：云工程师的终极指南
3 weeks 2 days ago
Browser Use：启用AI来控制您的浏览器
3 weeks 2 days ago
【智能体架构】MCP数据库工具箱
3 weeks 2 days ago
【人工智能】宣布 Microsoft Entra Agent ID：安全地管理您的 AI 代理
1 month ago
【数字化】SAP S/4HANA架构：完全指南
1 month ago
【数字化】SAP S/4HANA 学习
1 month ago
【DeepSeek】如何为自定义数据集微调DeepSeek-R1（一步一步）
1 month 4 weeks ago
【UI开发】为AI应用程序构建UI的3个最佳Python框架
2 months 1 week ago
【前端开发】🚀🔥 改变编码方式的10个前端开发AI助手
2 months 1 week ago

↑