跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

category

与人类判断相比,抽象摘要评估仍然是一个以前的自动评估指标方法表现不佳的领域。一种名为G-Eval的技术已经开发出来,该技术使用GPT-4来评估没有真实情况的摘要的质量。与基于SummEval基准的元评估的人类判断相比,这种方法显示了最先进的结果。

G-Eval基于Krysinski等人(2019)提出的四个关键维度的概念来抽象总结质量:

  • 连贯性——总结中所有句子的整体质量。摘要应结构合理、组织良好,并应建立一个关于某一主题的连贯信息体系。
  • 一致性——摘要和源文档之间的事实一致性。摘要应仅包含源文档所包含的陈述。
  • 流利度——总结中单个句子的质量。摘要不应有格式问题和语法错误,这些问题和错误会使摘要难以阅读。
  • 相关性-从源文档中选择最重要的内容。摘要应仅包括源文档中的重要信息。

G-Eval技术的实施涉及四个单独而详细的提示,旨在根据这些维度中的每一个来评估总结输出,在李克特量表上得分为1-5(流利度除外,它采用1-3的量表)。这些提示以及要评估的输入文档和摘要被馈送到GPT-4;收集分数输出并计算最终分数。

主要特点

  • 最先进的摘要评价方法
  • 无参考评估
  • 采用思维链(CoT),这是LLM生成的一组中间指令,描述了详细的评估步骤,为LLM评估生成的摘要提供了更多的背景和指导
    以表单填充范式进行评估
  • 使用输出分数的概率加权求和作为最终分数,以获得更细粒度、连续的分数,更好地反映生成文本的质量和多样性
     

实施


G-Eval现在在官方提示流存储库中有一个示例实现。在此实现中,原始的G-Eval实现提示已得到改进,对所评估的源数据领域更具通用性和不可知性。分数解析器也得到了改进,以获得更好的性能,并通过SummEval基准的Meta评估进行了验证。GPT-4不支持令牌概率的输出。G-Eval将n=20,温度=2,top_p=1设置为采样20次以估计令牌概率。

结果


与其他抽象摘要评估方法相比,G-Eval,特别是这种广义实现,显示了最先进的结果。

SummEval基准中不同方法和人类判断之间的斯皮尔曼相关性(ρ)

 

Method Fluency (ρ) Consistency (ρ) Coherence (ρ) Relevance (ρ) Average
G-Eval - GPT-4 0613 8k + original prompts in paper 0.455 0.507 0.582 0.547 0.514
G-Eval - GPT-4 0613 8k + updated prompts + updated parser (Ours) 0.5402 0.5215 0.5137 0.4897 0.516
G-Eval - GPT-4 0613 32k + updated prompts + updated parser (Ours) 0.4985 0.4914 0.5038 0.4921 0.496
ROUGE-1 0.115 0.160 0.167 0.326 0.192
ROUGE-2 0.159 0.187 0.184 0.290 0.205
ROUGE-L 0.105 0.115 0.128 0.311 0.165
BERTScore 0.193 0.110 0.284 0.312 0.225
MOVERSScore 0.129 0.157 0.159 0.318 0.191
BARTScore 0.356 0.382 0.448 0.356 0.385
UniEval 0.449 0.446 0.575 0.426 0.474
本文地址
最后修改
星期日, 十月 6, 2024 - 14:33
Article