没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文用语言模型玩香农游戏:一种无需人工的摘要评估Nicholas Egan,Oleg Vasilyev,JohnBohannonPrimer Technologies Inc.加州旧金山{negan,oleg,john}@primer.ai摘要摘要的目的是简明扼要地陈述文档中最重要的信息。考虑到这一原则,我们引入了新的无参考摘要评估指标,该指标使用预训练的语言模型来估计文档及其摘要之间共享的信息。这些指标是对香农游戏的现代化改造,香农游戏是几十年前提出的一种摘要质量评分方法我们还将这些方法视为BLANC的扩展,BLANC是最近提出的一种基于语言模型性能的摘要质量测量方法,无论是否有摘要的帮助使用GPT-2,我们实证验证了引入的指标与基于覆盖率、总体质量和五个汇总维度的人类判断相关。1介绍随着NLP社区中新的汇总算法的不断发展,可靠地衡量汇总质量的指标比以往任何时候都更加重要然而,用于摘要质量估计的最流行的方法仍然是ROUGE(Lin,2004)度量系列,其需要人类书面参考摘要以进行比较,并且通过简单的标记重叠来测量摘要质量,忽略了支配人类使用语言的方式摘要的目的是简明扼要地陈述文档传达的最重要信息。通过这个镜头检查摘要换句话说,当比较相似长度的替代摘要时,我们从阅读原始文档中获得的信息应该是最小的,因为最好的摘要。Hovy和Lin(1998)提出了一个香农游戏(Shannon Game),即测量信息内容差异的想法:他们指派三个人一个字母一个字母地猜测一个文档,第一个人被允许看文档,第二个人被允许看文档的摘要,第三个人什么都不给。通过测量第二个人与其他人相比猜测文档需要多少次尝试,您可以评估摘要中传达了多少关于文档的信息,从而衡量摘要的质量。本文提出了一种新的摘要评估指标,香农分数,执行香农游戏与GPT-2(Radford等人。,2019)语言模型。通过使用GPT-2自动回归生成一个文档,无论有没有摘要作为提示,我们测量的摘要提供的信息。人们可以将该方法视为最近提出的BLANC方法(Vasilyev et al. ,2020 a),其测量具有和不具有概要的解蔽文档令牌的准确性。除了香农分数,我们还提出了我们称为信息减少和BLANC香农的变体。为了理解这种方法作为总结评估技术的经验表现,我们进行了实验,将我们的指标与人类判断相关联。我们的人工评估是在总结覆盖率、总体总结质量和总结质量的水平上进行的,总结质量涉及流畅性、可理解性、信息性和紧凑性等因素。2相关工作2.1香农博弈香农博弈(Hovy and Lin,1998)是二十多年前提出的一种利用人类arXiv:2103.10918v1 [cs.CL] 2021年3月+v:mala2255获取更多论文−测量文档和摘要之间的信息保留在最初的公式中,三个人需要一个字母一个字母地猜测一个文档,你测量重建文档所需的猜测总数Hovy和Lin(1998)进行了一个小规模的实验,他们使用人类受试者进行了这个游戏,他们发现每个人所需的猜测次数之间存在明显的数量级然而,他们还发现,在没有帮助的情况下重建原始文档(人类3的任务)非常耗时,有时需要超过3个小时,这使得香农游戏作为人类评估方法的成本过高。除了香农博弈外,Hovy和Lin(1998)还提出了两种测量文献与摘要之间信息保留的方法在问题游戏中,人类提出关于文档的问题,并且其他人类尝试回答这些问题,其中一个人可以访问文档,一个人可以访问摘要,并且一个人既不能访问文档也不能访问摘要。运行这个游戏的问题生成和问题回答模型已经过测试( Scialom et al. , 2019; Chen et al. , 2018年),但这样的指标只与两个模型训练的数据集一样好,并且可能存在泛化问题。在分类游戏中,有人提出一个主题列表,并让一组人将文档分类为不同的主题,另一组人将摘要分类为不同的主题。通过测量这些分类决策之间的对应性,可以确定摘要传达文档主题的程度 这个指标的问题在于,它只和我们当前的主题列表一样通用。2.2语言模型统计语言模型是对单词或符号序列的概率分布。虽然语言建模几十年来一直是一项NLP任务,但最近对基于trans-former架构的神经语言模型的兴趣越来越高(Vaswani et al. ,2017年),他们接受了大量文档语料库的培训。其中一些模型,如BERT(Devlin et al. ,2019年),因其微调在其他NLP任务中,在作为语言模型进行预训练 后 , 而 其 他 任 务 , 如 GPT-2 ( Radfordetal. ,2019年),获得了流行的能力,以产生人类一样的散文。本文提出的方法是非典型的,因为我们直接使用语言模型来建模语言:使用Shan-non Score,我们使用GPT-2来计算特定文档的可能性。2.3BlancBLANC在Vasilyev et al. (2020 a)是度量由于访问文档的摘要而由预训练的语言模型获得作者通过关注完形填空任务(猜测掩蔽标记)(Taylor,1953)作为语言理解任务来引入这一概念。他们定义并探索了使用摘要作为帮助的两种特定设置:使用BLANC帮助,摘要被预先添加到文档中;使用BLANC调整,模型在摘要上进行微调。解屏蔽任务在文档中逐句执行,一次屏蔽句子中的每M个标记BLANC分数被测量为解蔽准确性的提高,帮助是基础,其中帮助是当摘要作为帮助提供时的准确性,而基础是当 没 有 提 供 帮 助 时 的 准 确 在 Vasilyev et al.(2020 a)中,BERT被用作语言模型。虽然BLANC指标与我们的冰毒相似由于我们都是通过测量摘要在执行语言建模任务中的帮助来评估摘要质量,香农博弈为摘要质量提供了一个有吸引力的信息论解释。本文通过将其扩展到一个新的语言模型(GPT-2),为BLANC类度量的研究做出了贡献,为它们提供了理论动机,并进行了更强大的实验以更好地理解它们的行为。2.4其他总结评价最流行的自动摘要评估方法是ROUGE系列度量。ROUGE-N度量(Lin,2004)测量系统摘要与一个或多个参考摘要之间的N元语法重叠,而ROUGE-L度量(Lin和Och,2004)测量最长公共序列的重叠。我们看到ROUGE作为度量标准的两个最大问题是:1)它依赖于人类的书面参考和-+v:mala2255获取更多论文DD--−SD SD|SD SD|DD|SD| SDSDSDD|Smaries,2)它测量简单的单词重叠,这意味着参考摘要的完美释义版本得分很低。已经提出了许多解决方案来解决问题#2,同时回避问题#1,例如BERTScore(Zhang etal. , 2020 ) 、 MoverScore ( Zhao et al. ,2019),句子移动相似性(克拉克等人。,2019 ) , 和 Word Mover 相 似 性 ( Kusner etal. ,2015)。所有这些指标都围绕着在系统和参考摘要之间使用软重叠或嵌入/标记距离的想法。Louis和Nenkova(2009)建议测量系统摘要和原始文档中使用的单词分布之间的Jensen-Shannon差异,该差异来自问题#2,同时修复了问题#1。 孙 和Nenkova(2019)测试了ELMo的使用(Peterset al. ,2018)字嵌入来执行无参考摘要评估,结果还不错。多文档无参考摘要评估SUPERTGao et al.(2020)通过提取伪参考摘要并使用BERT嵌入来工作。2.5人工评价摘要的评估指标是通过与人类得分的相关性来由于评价摘要质量的主观性,有各种方法使质量分数更加一致。覆盖分数(Lin和Hovy,2003 ) 和 金 字 塔 ( Nenkova 和 Passonneau ,2004)等技术测量了参考摘要中重要信息的回忆 虽然人类评估可以有利地偏向于更提取的总结(Ziegleret al. ,2020年),这种偏差可以 通 过 将 总 体 评 分 分 为 多 个 维 度 来减轻( Nouleaset al. , 2019; Kryovski et al. ,2019 , 2020; Fan et al. , 2018; Zhu et al. ,2020)。3方法3.1计算信息语言模型是文档上的概率分布,对于某些文档,我们给出p()自回归语言模型,如GPT-2,通过预测给定先前标记的下一个标记概率,建模p(xt|x1,. . . ,xt−1)在 这 里 , 我 们 的 输 入 文 档 被 分 解 为 令 牌x1,. . .,xn.事件E的香农信息量,或香农信息量,概率p(E)为定义为I(E)=logp(E),因此 我们可以根据我们的语言模型计算文档的信息,I(D)= − log p(x1)− log p(x2|x1)−。. .-log p(xn|x1,x2,. . . xn−1)3.2条件信息假设我们有一个条件语言模型p(),它给出了可能对应于给定总和的文档的概率分布。使用这个条件语言模型,如果我们已经给出了摘要信息,我们可以计算条件信息量I()作为我们从文档中获得的信息量。如果是一个令人满意的总结,、那么我()
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功