基于序列级对比学习的文本摘要模型及应用

82 浏览量更新于2023-12-01 收藏 705KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文--基于序列级对比学习的文本摘要许树生1*，张星星2，吴毅1，3，魏福如2 1清华大学国际信息学院，北京，中国2微软亚洲研究院，中国3上海启智学院，中国xuss20@mails.tsinghua.edu.cnxizhang，jxwuyi@gmail.commicrosoft.com摘要对比学习模型在无监督视觉表征学习中取得了巨大的成功，它最大化了同一图像不同视图的特征表征之间的相似性，同时最小化了不同图像视图的特征表征之间的相似性。在文本摘要中，输出摘要是输入文档的较短形式，它们具有相似的含义。在本文中，我们提出了一个对比学习模型的监督摘要文本摘要，我们认为一个文档，它的黄金摘要和它的模型生成的摘要作为不同的视图相同的平均表示，并最大限度地提高它们之间的相似性在训练过程中。我们改进了强序列到序列文本生成模型（即，BART）在三个不同的摘要数据集上。人类的评价也表明，我们的模型实现了更好的忠诚度评级相比，它的对手没有对比的目标。1介绍文档摘要是将长文档重写为较短形式的任务，同时仍然保留其重要内容，这需要模型理解整个文档。文献中已经探索了许多摘要方法，最流行的是摘录摘要和抽象摘要（Nenkova和McKeown 2011）。摘要本质上是抽象的。摘要抽取方法生成的摘要往往冗长、冗余，给读者带来不好的阅读体验。因此，本文着重于抽象概括。抽象摘要通常被建模为序列到序列（Seq2Seq）学习问题（Sutskever，Vinyals和Le2014），其中文档被视为单词序列，其摘要被视为另一个单词序列（Nallapati etal. 2016年）。尽管由于最近引入了大型预训练的transformer，抽象模型已经越来越强大（Liu和Lapata 2019;Raffel等人）。2020;Dong等人*第一作者在微软亚洲研究院实习期间完成的工作版权所有© 2022，美国人工智能情报（www.aaai.org）。All rights reserved.2019;Lewis et al. 2020），抽象模型的训练范式仍然没有改变，这是为了最小化模型预测的单词分布和黄金摘要之间的负对数似然（NLL）。摘要任务的一个重要特性是文档及其摘要应该传达相同的含义，这不是由NLL损失明确建模在计算机视觉中，用于无监督图像表示学习的对比学习方法推进了对象检测和图像分割的最新技术水平（Heetal. 2020年b）。关键思想是最小化同一图像不同视图的特征表示之间的距离（或最大化相似性）（正面示例），同时最大化不同图像视图的特征表示之间的距离（负面示例）（He et al.2020 b;Chen et al.2020）。如前所述，在摘要中，文档及其摘要应传达相同的含义。因此，我们将文档、其黄金摘要及其模型生成的摘要视为相同含义表示的不同视图，并且在训练期间，我们最大化它们之间的相似性。为了实现这一点，我们提出了SeqCo（SeqCo是Sequence Level对比学习的简写除了黄金摘要之外，我们还在训练期间使用从我们的模型动态生成的摘要来增加SeqCo输入的多样性在文本摘要中，抽象摘要模型首先需要对文档进行编码，然后生成摘要。SeqCo中的对比目标试图将文档及其摘要（或生成的摘要）的表示映射到相同的向量空间，这直观地有助于摘要的生成具体来说，文档可能包含与其摘要不同的（或不必要的）在训练期间，文档和摘要之间的对比目标实际上鼓励模型对文档中的重要（和必要）信息进行编码，否则文档和摘要的表示之间的距离将很大（目标更新模型参数以使其变小）。实际上，对文件中的重要信息进行编码的能力将有助于生成更好的摘要。在实验中，我们发现我们提出的基于对比学习的模型SeqCo一致地改进了一个强大的ab-arXiv：2109.03481v4 [cs.CL] 2022年1月+v：mala2255获取更多论文≥基于BART（Lewiset al. 2020）在三个不同的摘要数据集（即，CN-N/DailyMail（Hermannet al. 2015），NewYork Times （ Sand-haus2008 ） and XSum （ Narayan ，Cohen，and Lapata2018））. 人类的评价也表明，我们的模型SeqCo实现了更好的忠诚度评级相比，它的对手没有对比的目标。2相关工作摘要的最流行的范例是基于提取和抽象的方法。我们专注于抽象概括。抽象摘要可以在生成摘要时添加新的单词或短语，这通常被视为序列到序列学习问题（Nallapatietal.2016;参见，Liu和Manning2017;Paulus，Xiong和Socher 2018;Gehrmann，Deng和Rush2018）。可能是因为基于小而浅的LSTM（Hochreiter和Schmidhuber1997）的专注seq 2seq模型（ Sutskever ， Vinyals 和 Le2014;Bahdanau ， Cho 和Bengio2015）没有预先训练，不足以对文档建模。这些模型生成的总结质量不令人满意（ Liu 和 Lapata2019）。随着最近引入的大型预训练Transformer模型（LiuandLapata2019;Dongetal.2019;Zouetal.2020;Lewisetal.2020;Zhangetal.2020;Raffeletal.2020），抽象模型得到了极大的改进。通过对大量未标记文本（160 G）上的生成（或摘要）定制目标进行预训练的大型模型进行微调，可以获得最佳的汇总结果。Dong等人（2019）用语言模型和掩码语言模型目标联合设计了Transformer编码器和解码器。Zhang et al.（2020）从移除这些句子的文档中预测有间隙的句子，Lewis et al.（2020）提出句子排列和文本填充任务来预训练seq2seq transformers。也有一些关于结合提取和抽象摘要模型的工作（He et al. 2020 a;Dou et al.2021）或多个摘要模型（Liu，Dou和Liu2021）。不幸的是，从头开始预训练transformer或组合多个摘要系统是昂贵的，而我们的模型可以应用于轻量级的微调阶段。使用对比学习方法预训练的卷积神经网络推进了计算机视觉中目标检测和图像分割的最新技术水平（He etal.2020 b）。其思想是最小化同一图像的不同视图的特征表示之间的距离（正例），同时最大化不同图像的视图的特征表示之间的距离（负例）。为了区分积极的例子，从消极的例子，他等。（2020 b）维持负样本表示的队列，并利用队列的编码器的动量更新来稳定这些表示。Chen等人（2020）使用同一批次的其他示例作为反面示例，因此，它们需要较大的批量。这些工作表明，使用大量的否定示例是获得良好性能的关键，这也增加了实现的复杂性。还有一种有趣的工作方式是不使用否定的例子。Caron等人。（2020）采用在线聚类来分配用于同一图像的两个视图的代码，然后使用一个视图的表示来预测另一个视图的簇代码。在BYOL的训练过程中（Grill等人，2020），他们只最小化了同一图像的两个视图之间的距离，并为目标视图使用动量编码器来稳定训练。Chen和He（2020）发现，即使是动量编码器也可以删除，尽管性能可能会略有下降。我们模型中使用的对比学习方法与BYOL（Grill et al.2020）最相关，因为我们也不使用反例，而且我们还使用了动量编码器。在上述模型中，对比学习应用于无监督的预训练阶段，通过有效的数据论证方法创建同一图像的不同视图。在本文中，我们利用摘要任务的性质，并使用文档，黄金摘要和生成的摘要作为相同含义表示的不同视图为了适应文本生成的序列到序列学习模型，我们处理两个离散单词的嵌入序列，而视觉模型处理两个固定维度的单个嵌入。此外，生成的摘要是在使用模型进行训练期间动态创建的，这比在视觉任务中使用非基于模型的方法更加多样化。在NLP中，以前的对比学习方法主要用于预训练或自然语言理解任务。例如， word2vec （ Mikolov etal.2013）通过区分窗口中的单词（阳性示例）来学习单词嵌入当前单词和使用负采样随机采样的单词（负示例）。（Iteret al.2020）提出了一种基于对比学习的语言模型预训练方法，该方法使用随机采样的句子作为反例来预测句子之间的相对距离。最近，MatchSum（Zhonget al. 2020）使用对比学习将提取摘要制定为语义文本匹配问题。 Wu等人（2020）通过使用排名模型将文档与摘要进行对比来测量摘要质量，而不使用参考摘要。GSum（Dou等人，2021）将不同类型的外部指导作为文档的额外输入，并显著提高了摘要性能。SimCLS（Liu and Liu2021）提出了一种基于对比的抽象摘要框架，该框架训练模型对抽象模型的候选摘要进行我们通过在文档、摘要和生成的摘要之间强制相似性来将自主学习添加到抽象模型的训练中，这不需要负例。3模型在本节中，我们描述了我们的对比学习模型SeqCo（作为Sequence Level对比学习的简写），我们首先介绍抽象文本摘要模型（即，Seq2Seq模型），我们的模型基于此然后，我们提出了SeqCo，它使对比学习适应序列到序列的学习设置。+v：mala2255获取更多论文| || |--θ·表示f（·）中的参数。θ|Y|θ我我Seq2Seq模型使用负对数似然损失（参见等式（5））来训练，并且对于X和Y之间的相似性没有显式建模。此外，在训练阶段期间，给定X作为输入，模型还可以通过波束搜索或波束搜索从其分布生成输出序列。取样. 令Y表示模型生成的一个样本图1：我们加强了文档、黄金摘要和模型生成摘要之间的相似性3.1抽象文本摘要对于文本摘要，我们可以将文档视为一个长序列的标记1，将摘要视为一个短序列的标记。设X =（x0=）表示文档（即，令牌的长序列）和Y=（y0=< s>，y1，y2，. . .，y Y=）其概要（即，令牌的短序列），其中和是序列令牌的开始和结束。我们在给定X的情况下，一次预测一个token。我们采用Transformer模型从X。直觉上，Y也应该类似于X，Y. 如图1所示，我们在模型训练期间强制X ，Y和Y之间的相似性。为此，我们提出了SeqCo，这是一个基于对比学习的文本摘要模型。对比学习方法是在图像表示的自监督学习的背景下提出的（Wuet al.2018;He et al.2020 b;Caron et al.2020;Grillet al. 2020;Chen and He2020）。训练目标试图使同一图像的不同视图的表示更接近（正例），而不同图像的视图的表示彼此分开（负例）。受Grill et al.（2020）和Chen and He（2020）的启发，我们提出了一个不需要反例的模型。在下文中，我们首先定义序列之间的相似性度量，然后介绍如何将相似性度量装备到我们的训练目标中。序列表示假设我们有两个（Vaswaniet al. 2017），由编码器组成序列Si=（wi，wi，wi，...，w i）和S j=0 1 2|Si|Transformer和解码器Transformer。具体而言是（wj，wj，wj，.，WJ）的。Si和Sj是两个序列，编码器Transformer将X映射到隐藏的0 1 2|Sj|状态E =（e0，e1，. . . ，e|X|）的。E=反式E（X）（1）假设第一个t1个tokeny1 ：t1已经生成，我们正在生成yt。解码器Transformer通过自关注编码器隐藏状态E和进行令牌y0：t-1来计算当前隐藏状态ot。ot= TransD（y0：t−1，E）（2）我们将最大化它们在等式中的相似性。15. 例如，Si和Sj可以是文档X及其黄金摘要Y，或文档和生成的摘要，或黄金摘要和生成的摘要，就像图11所示。二、在进行相似性计算之前，我们首先将它们转换为隐藏表示的序列。我们在这里设计了两个映射第一个（fE）是无条件的，它重用了我们的Seq2Seq模型的编码器（参见第3.1节）：fE（S）=g（反式E（S））（6）注意，在训练期间，我们可以获得O=（o1，.，O|Y|）其中，T_ran_E（·）是在图1中描述的T变换器编码器。并联O=反式D （Y，E）（3）等式（1）和g（）是前馈网络，其用于给出编码Si的更多自由度。这里我们使用θ来yt的概率可以使用线性投影和softmax函数来估计Eθ第二个映射函数（fD）是有条件的，p（y |y，X）=softmax（Woo）（4）将输入序列考虑在内。2设X表示t0：t−1t输入序列和S是它的黄金输出序列还是LNLL=−1logp（y |y，X）（5）由Seq2Seq模型生成的序列。在这个映射函数中，我们使用了|Y| t=1t0：t−1Seq2Seq模型（详见第3.1节）：fD（Si）=g（TransD（Si，TransE（X）（7）3.2SeqCo：基于序列级对比学习的文本摘要在文本摘要中，摘要Y是输入文档X的较短形式，它们应该传达相同的含义。因此，X和Y在语义空间中至少在某些类型的转换之后应该是接近的。但1我们使用标记而不是单词，因为序列可能是子单词的序列。我+v：mala2255获取更多论文θ··θ··θ其中TransE（）和TransD（）是等式（1）和（3）中描述的Transformer编码器和解码器。如前所述，g（）是一个前馈网络，为编码Si提供更多自由度。在f D（）中，我们打算使用X作为额外的输入，以在向量空间中更准确地编码Si。期间2注意，在fD中我们只考虑Si和Si作为黄金摘要和生成摘要+v：mala2255获取更多论文θ·θ0∈˜···NLLESIMSIMDS|Jy−y我 JSIMθ可能性是相似性损失W。r. t. （Y，Y≠），其中fD;我 J|SJ|+1KK最后四项的超参数我们完全按照这个损失函数和经验来训练模型另一个序列（见公式9），这更容易用于相似性计算。请注意，我们还可以使用BERT中的[CLS]池来定义一个更简单的相似性函数（Devlin et al.2019）：sim（Si，Sj）= cos（q（hi），hj）（11）0 0图2：对比目标。Si和Sj是两个对比序列，fθ和f <$具有相同的结构，fθ中的θ通过梯度下降更新，而f<$中的θ是θ的移动平均。使用fD（）的对比训练可以迫使目标优化摘要模型的编码器和解码器两者。序列相似性在定义映射函数之后，我们就可以计算序列相似性了。在不失一般性的情况下，设fθ表示映射函数，其中θ是函数的参数。注意，fθ可以是fE或fD（参见等式（6）及（7）详情请参阅）。我们还雇用其中q是根据Grill等人（2020）预测h i的前馈网络。我们使用上面的相似性度量获得了更差的结果（详细信息请参见第4.4节），并且该度量有时也会导致训练期间的数值错误。为了使Si和Sj更接近，我们可以最小化以下损失：Lθ，（Si，Sj）=1 −sim（Si，Sj）（12）如前所述，fθ（Si的编码函数）和f(the用于Sj的编码函数）使用不同的参数集θ和θ）。如果我们同时更新f θ和f θ中的参数，优化可能太容易了，这可能会导致崩溃的解决方案（ Grill etal.2020）。因此，我们使用fθ来生成fθ的回归目标。具体来说，我们在优化上述损失的过程中不更新f中的参数，并且f是θ的移动平均值：=τ其中τ[0，1]是一个超参数，用来控制保留时间的范围。这一对比的目的是证明在图2中注意，L（S，S）不是对称的，我们和fθ一样，但是参数是f θ。我们得到的表示Si和Sj通过应用fθ和fθ：Hi=（hi，hi，. . . ，hi|）= f θ（S i）使损失对称如下：Lsim（Si，Sj）=Lθ，（Si，Sj）+Lθ，（Sj，Sj）（14）因此，f中的θ将有更多的机会被更新。作为01|SI（8）θEHj=（hj，hj，. . . ，hj）=f（Sj）如前所述，编码函数fθ可以是fθ01|SJ|或f D。我们用LE用 fE表示损失函数，为了充分利用单词之间的相互作用，θsimθLD用 fD表示损失函数。两个序列Si和Sj，我们在Hi和Hj：为了加强文档X、其黄金摘要Y和模型生成的摘要之一之间的相似性，j i i因此，我们将以下翼损失函数作为我们的最终训练Hi= MultiHeadAttn（H，H，H）（9）其中，MultiHeadAttn（，，）是多头注意力模块（Vaswaniet al. 2017）和Hj，Hi和Hi是损失三：L=L+λx−yLsim （X，Y）+λx−y<$LE（X，Y）（十五）查询、键和值矩阵。注意到+λy−yLE（Y，Y）+λDy−yLsim （Y，Y）因此，H_i和H_j具有相同的大小。相似之处在于-Si和Sj之间的平均余弦相似度是所有这一目标包括五个方面。LNLL是负对数-具有相同索引的向量：西姆θE E|Lsimterms are the similarity losses with fθ w.r.t. （X，Y），sim（S，S）=1cos（hi，hj）（10）k=0（X，Y）和（Y，Y）。λx-y ，λx−y，λy−yλDy−y 是重量我们采用多头注意（MHA）相似性计算有两个原因。1）序列（esp.文档）是长的，并且MHA采用跨两个序列的所有标记对我们发现，使用单个相似性损失比使用多个相似性损失效果更好（见4.4节），这也是更有效的训练。例如，我们可以设置λ x−y= 1。0d和它比基于[CLS]池化的方法（将在下面介绍）直观地更强大（2）两个λx−y=λy−y=λD=0。当采用Y轴时，另一个映射函数f，其具有相同的架构θ，θθ+v：mala2255获取更多论文我们比较的序列可以具有不同的长度（例如，文件与摘要）。MHA可以将一个序列的隐藏状态转换为与隐藏状态相同的长度通过使用损失来更新参数，迭代地生成Y3我们还可以在训练中使用多个生成的摘要，出于效率原因，我们避免这样做。+v：mala2255获取更多论文- -−并生成新的Y_n 。由于Y样本不可能是完美的，迭代生成Y样本使其向地面事实总结转变，使对比学习的正例更加准确和多样。由于SeqCo被设计用于微调阶段，并且模型SeqCo基于（即，BART）是用去噪自动编码目标预先训练的，它可以自然地生成与输入具有相同含义的序列，甚至在特定数据集中进行微调之前。此外，实施y和y的相似性并不等于优化NLL，因为相似性损失是在序列级别上，而NLL损失是在标记级别上。4实验在本节中，我们评估了我们的对比学习模型在文本摘要任务上的优势首先，我们将介绍我们使用的数据集。然后，我们提出了我们的实施细节。最后，我们将我们的模型与以前的多个模型进行了比较。4.1数据集CNNDM 我们在三个摘要数据集上进行了实验CNN/DailyMail数据集（CNNDM; Her-mannet al. 2015）包含新闻文章及其相关联的亮点（即，参考摘要）从CNN和每日邮报网站。我们遵循标准的预处理步骤（见Liu和Manning2017）4，得到的数据集包含287，226篇用于训练的文章，13，368篇用于验证，11，490篇用于测试。纽约时报数据集（纽约时报;Sandhaus2008）由纽约时报发表的文章组成，摘要由图书馆科学家撰写。按照（ Durrett ， Berg-Kirkpatrick 和 Klein2016;Liu 和Lapata2019）中的预处理程序，我们首先获得了110，540个带有抽象摘要的文档该测试集是从2007年1月1日之后发表的9，706篇文章中构建的。在删除摘要少于50个单词的文章后，最终的测试集包含3，452篇文章。剩余的100，834篇文章被过滤并分成38，264篇用于训练的文章和4，000篇用于验证的文章。XSum 数据集中的文章（ Narayan ， Cohen 和Lapata2018）来自BBC网站，并附有单句摘要，这些摘要是专业撰写的。我们使用（ Narayan ， Cohen 和Lapata2018）的官方分裂（即，204，045篇培训文章，11，332篇确认文章和11，334篇测试文章所有数据集都用 GPT2 的字节对编码进行标记化（Radford et al. 2019年）的报告。4.2实现细节我们的模型从BART Large（Lewis et al. 2020年）。因此，尺寸与BART大号相同（Lewis et al. 2020年）。具体来说，编码器和解码器都是12层的变压器，有16个注意力头，隐藏大小为1,024，4见https://github.com/abisee/cnn-dailymail前馈滤波器大小为4,096，这相当于406 M个可训练参数。我们也有额外的组件进行对比学习。用于投影序列特征的前馈网络g（参见等式（6）和（7））包含具有ReLU激活函数的4，096个神经元的一个隐藏层。用于计算序列之间的交叉注意的多头注意模块（参见等式（9））也具有16个头。以上这两个分量贡献了额外的13M可训练参数。我们使用Adam优化模型，其中β1=0。9，β2=0。九九九在（Lewis et al.2020）之后，我们采用了学习率的线性时间表。我们首先通过线性增加学习速率到峰值学习来速率，然后将学习速率线性降低到零。峰值学习率、预热步骤、更新总数和批量大小在验证集上进行了调整，并且在数据集之间是不同的，这些数据集是1000、20000、4e5128人参加CNNDM，500、5000、2e5，64在纽约时报，500，和15000，6e五、六十四关于XSum在所有数据集中，训练时期的数量是在5到10之间。在优化期间，不更新在线编码函数f*（参见等式（6）和（7））中的参数f *。在τ = 0的情况下，根据等式（13）更新f中的参数f。九十九我们采用标签平滑，0.1（Szegedyet al. 2016;Vaswaniet al. 2017年）。的模型CNNDM在8个Tesla V100 GPU上训练，其他数据集的模型在4个Tesla V100 GPU上训练。在解码过程中，我们根据验证集上的ROUGE得分选择最小生成长度和长度惩罚继（Paulus，Xiong和Socher2018）之后，我们还在波束搜索期间阻止了重复的三元组。接下来（Lewiset al.2020），文章在训练和解码中被截断为1024个令牌。4.3评价我们使用ROUGE（Lin2004）来衡量生成摘要的质量。我们在CNNDM和XSum数据集上报告了基于全长F1的根据（Durrett，Berg-Kirkpatrick和Klein2016），我们在NYT上使用基于有限长度召回的ROUGE- 1，ROUGE-2和ROUGE-L，其中生成的摘要被截断为黄金摘要的长度。ROUGE分数使用ROUGE-1.5.5.pl脚本5计算。4.4结果我们在表1中展示了CNNDM数据集上的主要结果。我们将我们的模型与提取和抽象系统进行比较。第一部分总结了萃取系统的结果。Lead3是一个基线，它简单地将文档中的前三个句子作为其摘要。BERTEXT（Liu andLapata2019）采用BERT作为编码器，并预测句子是否是摘要。MatchSum（Zhonget al. 2020）是性能最好的提取模型，它使用对比学习将摘要制定为语义文本匹配问题。抽象模型在第二块。 PTGen （参见 Liu 和Manning2017）是一种基于LSTM的Seq2Seq模型，5，带有-c 95 -r 1000 -n 2 -a -m参数+v：mala2255获取更多论文−- − −∗−∗ ∗−∗6−−−- − −- − −- -联系我们−−- -- − −覆盖模型大型的预训练语言模型主要控制摘要。BERTSUM EXT ABS（Liu and La-pata2019）是一种抽象模型，编码器用BERT初始化，解码器随机初始化。UniLM（Donget al.2019）使用语言建模和掩蔽语言建模目标进行训练。T5（Raffel et al.2020）、PE-GASUS（ Zhang et al.2020 ）、 BART （ Lewis et al.2020 ）和STEP（Zouet al. 2020）使用不同的无监督文本到文本任务预训练 Seq2Seq 转换器。 PEGASUS （ Zhangetal.2020）是通过预测文档中的空白句子（由一些语法学选择）来训练的，给定这些句子被屏蔽的文档。类似于BERT S UM E XT A BS ， STEP 的编码器从 RoBERTa（ Liuet al. 2019 年）的报告。BART + R3F（Aghajanyanet al. 2021）将基于信赖域理论的微调方法应用于BART。我们的模型基于BART，因此我们也重新实施BART（BART*）。以上这些型号都是单一型号。我们还介绍了最近的组合模型在第三块的结果。CTRLsum（He et al.2020 a）和GSum（Dou et al. 2021）通过将所得到的关键词（或句子）作为附加输入来将关键词提取模型（或提取模型）与抽象模型 SimCLS（Chen etal. 2020）和Refsum（Liu，Dou和Liu 2021）训练重新排名模型来对多个候选摘要进行排名。第四块包括我们的模型SeqCo的结果如第3.2节所述，我们可以在文档和黄金摘要之间进行对比学习（即，SeqCo （ λxy ））、文档和生成的摘要（即，SeqCo（λxyλ））以及黄金摘要和生成的摘要（即，SeqCo（λyyλ））。注意SeqCo（λ）表示λ>0并且所有其他λ s等于零。我们可以看到SeqCo（λ xy）、SeqCo（λ xy）和SeqCo（λ yy）都显著优于BART *（p<0.05）。05）测量的ROUGE脚本，这证明了我们提出的对比方法的有效性SeqCo（λyyλ）在比较中优于所有单一模型（前两个区组），并且它们之间的差异相对于. r.t.ROUGE脚本我们还观察到，在对比学习中使用生成的摘要型号R-1 R-2 R-L提取电极导线3 40.34 17.70 36.57BERT EXT（Liu and Lapata2019） 43.85 20.34 39.90MATCH SUM（Zhong et al. 2020年）44.41 20.86 40.55抽象ERTS UME XTA BS（2019）SeqCo（λx−y）44.66 <$21.57 * 41.38*SeqCo（λx−y）44.94SeqCo（λy−y）45.02表1：使用基于全长F1的 ROUGE-1/2/L进行CNNDM试验拆分的结果 * 是指我们自己的重新实施。 SeqCo（λxy）、SeqCo（λxy）和SeqCo（λyy）分别代表文档与黄金摘要、文档与生成摘要以及黄金与生成摘要之间的对比学习。* 表示性能显著优于BART*，†表示性能优于最佳单一模型“0时，验证集上的7详细数字见附录。获得更差的结果。这可能是因为在对比训练中影响因此，我们只报告单对文本的对比模型的结果（即，SeqCo（λxy）、SeqCo（λxy）和SeqCo（λyy））。再次在第3.2节中，我们建议采用基于多头注意力的相似性建模（参见等式（9）和（10）），而不是基于[CLS]的方法（参见等式（11））。它还显示了基于注意力的相似性，它考虑了两个序列之间的关联，更好（参见表2中的SeqCo（λ yy）和SeqCo（λ yy）w/[CLS]行）。NYT的结果见表3，趋势相似。R O BERT A-S2 S是基于Transformer的Seq 2Seq模型，其中编码器从RoBERTa初始化（ Liuet al. 2019），其结果报告于（ Zou etal.2020）。SeqCo（λxyλ）的表现优于BART*，分别为+1.0 ROUGE-1、+0.8 ROUGE-2和+0.8 ROUGE-3。+1.0 ROUGE-L，并且它们之间的差异通过ROUGE脚本测量是SeqCo（λxyλ）模型的计算结果优于其它模型。我们再次-PTGen（2017）B39.5342.1317.2819.6036.3839.18UniLM（Dong et al. 2019年度）43.4720.3040.63T5（Raffel et al. 2020年）43.5221.5540.69PEGASUS（C4）43.9021.2040.76PEGASUS（HugeNews）44.1721.4741.11STEP（Zou et al. 2020年）44.0321.1341.20BART（Lewis et al. 2020年）44.1621.2840.90BART *（Lewis et al. 2020年）44.1021.3140.91BART + R3F（2021）44.3821.5341.17组合方法CTRLsum（He etal. 2020a）45.6522.3542.50GSum（Dou et al. 2021年）45.9422.3242.48SimCLS（Liu and Liu2021）46.6722.1543.54Refsum（Liu，Dou，andLiu2021）46.1222.46 42.92我们+v：mala2255获取更多论文y−y−−SeqCo（λx−y+λx−y+λy−y）45.72 22.3842.46飞马（C4）45.20 22.06 36.99SeqCo（λD）45.74 22.39 41.55PEGASUS（HugeNews）47.21 24.56 39.25BART（Lewis etal. 2020年）45.1422.2737.25表2：使用CNNDM的验证拆分结果 Fre型号R-1 R-2 R-L提取铅339.58 20.11 35.78BERT EXT46.66 26.35 42.62抽象PTGen 43.71 26.40-BART *（Lewis et al. 2020年）45.3522.0136.76基于ROUGE-1/2/L的全长F1。“w/ [CLS]”将MHA与等式中定义的[CLS]合并放置。11GSum（Dou et al. 2021年）45.4021.8936.67.SimCLS（Liu and Liu2021）Refsum（Liu，Dou和Liu2021）我们的SeqCo（λx−y）45.65*22.41*37.04*SeqCo（λx−y）45.6 22.36 36.94SeqCo（λy−y）45.52 22.24 36.90表4：使用全长的XSum测试分割结果组合方法GSum（Dou etal. 2021年）54.2735.3747.63我们的SeqCo（λx−y）53.79 35.4349.84SeqCo（λx−y）54.25*35.82*50.24*SeqCo（λy−y）54.14 35.69 50.11表3：使用基于有限长度召回的ROUGE对NYT进行测试分割的结果*是指我们自己的重新实施。* 表示显著优于BART *（p<0. 05）。在SeqCo中使用生成的摘要比仅使用黄金摘要更好。表4总结了我们在XSum数据集上的结果。BART*（我们的重新实现）在ROUGE-1上更好，但在ROUGE-2和ROUGE-L上比BART差。Se-qCo（λxy）显著优于用ROUGE脚本测量的BART*。SeqCo（λxy）的结果优于除PEGASUS（Huge- News）和Refsum之外的所有先前公布的模型这并不完全令人惊讶，因为 PEGASUS（HugeNews）是在3,800 GB的新闻数据（与XSum数据集相同的类型）上训练的，而PEGASUS（C4）是在由3.5亿个网页（750 GB）组成的C4数据集上预训练的，性能比PEGASUS（HugeNews）差。Refsum重新排列PEGASUS（巨大的-新闻）的输出。注意，预先训练的Transformer（即，SeqCo中的BART）仅在160 GB数据上进行训练，这些数据还包含其他领域的数据，而不是新闻数据。我们对CN- NDM、NYT和XSum进行人工评估，每个评估包含100个文档我们要求参与者根据他们的忠诚度对不同系统的输出进行排名，平均排名得分（越低越好）如表5所示。自我报告（self-reported）为了进一步保证注释质量，我们过滤掉了那些完成时间少于两分钟的带注释作业（平均每个作业花费的时间为6分钟）。在过滤过程之后，我们保证每个文档都由三个注释器进行注释在CNNDM和NYT数据集中，Seqco的表现明显优于BART。在XSum数据集中，这些系统之间没有显着差异。这可能是因为在XSum中生成的摘要更短，注释者很难分辨出其中的区别。我们计算注释者之间的一致率所有三个注释者的一致性的比率和至少两个注释者的一致性的比率）来测量用于人类评估的一致性。如表6所示，大约有30%的摘要所有3个参与者给出了相同的注释，并且超过90%的摘要获得了至少2个注释者的相同注释。此外，弗莱斯纽约时报为0.313，XSum为0.364，这表明了相当程度的一致性。我们认为注释者之间的协议是合理的。系统巴特x-yx-y轴y−yCNNDM2.622.512.45*2.42*纽约时报2.682.46*2.39*2.46*XSum2.472.442.582.50表5：具有平均等级的对忠诚度的人类评价（越低越好）。我们为每个数据集随机抽取了100个文档，并要求参与者根据他们的忠诚度对不同系统的输出进行排名。*表示该结果显著不同（p <0. 05）。05）从巴特。模型R-1R-2R-L型号R-1 R-2 R-L巴士*45.2422.1042.01采掘SeqCo（λx−y）SeqCo（λx−y）45.6045.8022.3022.3942.3642.57铅3 16.30 1.60 11.95MATCH SUM24.86 4.66 18.41SeqCo（λy−y）45.88SeqCo（λy−y）w/[CLS]45.72SeqCo（λx−y+λx−y）45.6822.4622.4222.3842.6642.4842.45抽象

下载后可阅读完整内容，剩余1页未读，立即下载