Chinese, Simplified
category
与人类判断相比,抽象摘要评估仍然是一个以前的自动评估指标方法表现不佳的领域。一种名为G-Eval的技术已经开发出来,该技术使用GPT-4来评估没有真实情况的摘要的质量。与基于SummEval基准的元评估的人类判断相比,这种方法显示了最先进的结果。
G-Eval基于Krysinski等人(2019)提出的四个关键维度的概念来抽象总结质量:
- 连贯性——总结中所有句子的整体质量。摘要应结构合理、组织良好,并应建立一个关于某一主题的连贯信息体系。
- 一致性——摘要和源文档之间的事实一致性。摘要应仅包含源文档所包含的陈述。
- 流利度——总结中单个句子的质量。摘要不应有格式问题和语法错误,这些问题和错误会使摘要难以阅读。
- 相关性-从源文档中选择最重要的内容。摘要应仅包括源文档中的重要信息。
G-Eval技术的实施涉及四个单独而详细的提示,旨在根据这些维度中的每一个来评估总结输出,在李克特量表上得分为1-5(流利度除外,它采用1-3的量表)。这些提示以及要评估的输入文档和摘要被馈送到GPT-4;收集分数输出并计算最终分数。
主要特点
- 最先进的摘要评价方法
- 无参考评估
- 采用思维链(CoT),这是LLM生成的一组中间指令,描述了详细的评估步骤,为LLM评估生成的摘要提供了更多的背景和指导
以表单填充范式进行评估 - 使用输出分数的概率加权求和作为最终分数,以获得更细粒度、连续的分数,更好地反映生成文本的质量和多样性
实施
G-Eval现在在官方提示流存储库中有一个示例实现。在此实现中,原始的G-Eval实现提示已得到改进,对所评估的源数据领域更具通用性和不可知性。分数解析器也得到了改进,以获得更好的性能,并通过SummEval基准的Meta评估进行了验证。GPT-4不支持令牌概率的输出。G-Eval将n=20,温度=2,top_p=1设置为采样20次以估计令牌概率。
结果
与其他抽象摘要评估方法相比,G-Eval,特别是这种广义实现,显示了最先进的结果。
SummEval基准中不同方法和人类判断之间的斯皮尔曼相关性(ρ)
Method | Fluency (ρ) | Consistency (ρ) | Coherence (ρ) | Relevance (ρ) | Average |
---|---|---|---|---|---|
G-Eval - GPT-4 0613 8k + original prompts in paper | 0.455 | 0.507 | 0.582 | 0.547 | 0.514 |
G-Eval - GPT-4 0613 8k + updated prompts + updated parser (Ours) | 0.5402 | 0.5215 | 0.5137 | 0.4897 | 0.516 |
G-Eval - GPT-4 0613 32k + updated prompts + updated parser (Ours) | 0.4985 | 0.4914 | 0.5038 | 0.4921 | 0.496 |
ROUGE-1 | 0.115 | 0.160 | 0.167 | 0.326 | 0.192 |
ROUGE-2 | 0.159 | 0.187 | 0.184 | 0.290 | 0.205 |
ROUGE-L | 0.105 | 0.115 | 0.128 | 0.311 | 0.165 |
BERTScore | 0.193 | 0.110 | 0.284 | 0.312 | 0.225 |
MOVERSScore | 0.129 | 0.157 | 0.159 | 0.318 | 0.191 |
BARTScore | 0.356 | 0.382 | 0.448 | 0.356 | 0.385 |
UniEval | 0.449 | 0.446 | 0.575 | 0.426 | 0.474 |
- 登录 发表评论
- 19 次浏览
发布日期
星期日, 十月 6, 2024 - 14:33
最后修改
星期日, 十月 6, 2024 - 14:33
Article
最新内容
- 2 days 7 hours ago
- 2 days 7 hours ago
- 2 days 7 hours ago
- 2 days 7 hours ago
- 3 days 12 hours ago
- 1 week 4 days ago
- 1 week 4 days ago
- 1 week 4 days ago
- 2 weeks ago
- 2 weeks ago