没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文⇔神经跨语言概括的变分层次模型梁云龙1、2名,孟凡东2名,周楚伦2、3名,徐纪南1、陈玉凤1名,苏劲松3名,周杰21北京交通大学交通数据分析与挖掘重点实验室2模式识别中心,微信人工智能,腾讯公司,中国3厦门大学{yunlongliang,jaxu,chenyf}@bjtu.edu.cnclzhou@stu.xmu.edu.cnjssu@xmu.edu.cn{fandongmeng,withtomzhou}@tencent.com摘要跨语言摘要(CLS)的目标是将文档转换为一种语言(例如,,英语)到另一个(例如,,中文)。CLS任务本质上是机器翻译(MT)和单语摘要(MS)的结合,因此MT MS和CLS之间存在着层次关系。现有的CLS研究主要集中在利用管道方法或通过辅助MT或MS对象联合训练端到端模型。然而,由于模型需要翻译和归纳能力,因此直接进行CLS是非常具有挑战性的。为了解决这个问题,我们提出了一个分层模型的CLS任务,基于条件变分自动编码器。层次模型包含局部和全局两种潜变量。在局部层次上,有两个潜变量,一个用于翻译,另一个用于摘要。在全局水平上,存在另一个以两个局部水平变量为条件的用于跨语言概括的潜变量在英汉两种语言方向上的实验验证了该方法的有效性和优越性.此外,我们表明,我们的模型是能够产生更好的跨语言的摘要比比较模型在几个镜头设置。1介绍跨语言摘要(CLS)的目的是用源语言(例如,英语)转换成不同的语言(例如,中文),这可以被看作是机器翻译(MT)和单语摘要( MS ) 在 某 种 程度上的组合( O raransan和Chiorean,2008; Zhu et al. ,2019)。CLS可以帮助人们有效地掌握文章的核心观点,外语在全球化的背景下,它的重要性日益凸显,并在现实生活中得到了广泛的应用。许多研究致力于处理这个任务。据我们所知,他们主要分为两类,即。流水线和端到端学习方法。(i)第一类是基于流水线的,采用翻译-摘要(Leuski et al. ,2003; Ouyang etal. ,2019)或总结翻译(Wan et al. ,2010;OraRupsan和Chiorean,2008)范例。尽管它们是直观和直接的,但它们通常遭受错误传播问题。(ii)第二类旨在为CLS训练端到端模型(Zhuet al. ,2019年,2020年)。例如,Zhu等人(2020)专注于使用预先构建的概率双语词典来改进CLS模型。此外,一些研究诉诸于多任务学习(Takase和Okazaki,2020; Bai et al. ,2021a; Zhu et al. ,2019; Cao et al. ,2020a,b)。Zhu等人(2019)分别引入MT和MS来改进CLS。Cao等人 (2020 a,b)设计几个额外的培训目标(例如,MS、反向平移和反射)来增强CLS模型。和Xu et al. (2020)利用混合语言预训练方法,并为CLS提供几个辅助任务。正如Cao等人(2020 a)所指出的,模型直接进行CLS是一项挑战,因为它需要翻译和求和的能力。虽然一些方法已经使用了相关的任务(例如,、MT和MS)来帮助CLS,但是MT MS和CLS之间的层次关系没有被很好地建模,这可以显式地增强CLS任务。显然,如何有效地建模的层次关系,以利用MT和MS的核心问题之一,特别是当CLS数据是有限的。1在许多其他相关的NLP任务中(Park et al. ,2018; Serban et al. ,2017年;梁和周实习时,腾讯公司微信人工智能模式识别中心†Jinan Xu为通讯作者。1通常,很难获得CLS数据集(Zhuet al. ,2020; Ayana等人,2018; Duan et al. ,2019)。arXiv:2203.03820v1 [cs.CL] 2022年3+v:mala2277获取更多论文i=1--i=1YMS|X|MS⇒⇒i=1--i=1YMS我 i=1pθ(Xtgt|Xsrc)=pθ(xtgt|Xsrc,xtgt--zShen等人,2019,2021)、条件变分自动编码器(CVAE)(Sohn et al. ,2015)在学习具有分层潜变量的分层结构方面显示出其优越性,这通常被用来捕获话语与会话的对应上下文之间的语义受这些工作的启发,我们试图适应CVAE模型的MT MS和CLS之间的层次关系。因此,我们提出了一个变分层次模型,利用翻译和摘要的同时,命名为VHM,CLS任务在一个端到端的框架。VHM采用基于CVAE的层次潜变量来学习MT、MS和CLS之间的层次关系。使用mBART后的大多数现有技术方法(Liu et al. ,2020)。• 在少数镜头设置下,我们的模型仍然取得了更好的性能比现有的approaches。特别是,数据越少,我们获得的改进越大。2背景机器翻译(MT)。给定源语言的输入序列Xmt=xi|XMt|,神经MT模型的目标是产生其在目标语言中的翻译Ymt=yi|Y 山|.模型的条件分布为:|Ymt|具体来说,VHM包含两种潜在的分别在局部和全局水平上的变量pθ(Ymt|Xmt)=pθ(yt|Xmt,y1:t−1),t=1首先,我们引入了两个局部变量,分别用于翻译和摘要。这两个局部变量被约束以重构翻译和源语言摘要。然后,我们使用全局变量显式地利用其中θ是模型参数,y1:t−1是部分翻译。单语摘要(MS)。给定源语言的 输入 条目Xsrc={xsrc}|Xsrc| 和相应的总和,这两个局部变量用于更好的CLS,MSIi=1TGT在同一语言中 实 现 Xtgt={xtgt}|XMs|、玛丽. 这确保全局变量捕获它与两个局部变量的关系,任何损失,防止错误传播。 对于推断-因此,我们使用局部和全局变量来帮助单语摘要被形式化为:TGTYMSMS不MS1:t−1)的。跨语言摘要过程。我们在不同语言对的数据集上验证了我们提出 的 训 练 框 架 ( Zhuet al. , 2019 ) :Zh2EnSum(中文英文)和En2ZhSum(英文中文)。实验表明,该模型在两个语言方向上都取得了一致的改进,跨语言摘要(CLS)。在CLS中,我们的目标是学习一个可以用目标语言生成摘要的模型|Ycls|对于源语言中的给定文章Xcls={xi}|XCLS|.其形式如下:|Ycls|自动度量和人工评估,证明其有效性和可推广性。很少-pθ(Ycls|Xcls)=pθ(yt|Xcls,y1:t−1)。t=1镜头评价进一步表明,与现有的相关方法相比,局部和全局变量使我们的模型能够生成令人满意的跨语言摘要。我们的主要贡献如下2:• 我们是第一个通过条件变分自动编码器建立变分层次模型的人,该编码器引入全局变量来结合本地变量,同时用于CLS的翻译和摘要。• 我们的模型获得了一致性和显著性条件变分自动编码器(CVAE)。CVAE(Sohn et al. ,2015)由一个先验网络和一个识别(后验)网络组成,其中后者负责通过Kullback-Leibler(KL)发散(Kingma和Welling,2013)指导先验网络的学习。例如,变分神经MT模型(Zhanget al. ,2016a;Su et al. ,2018a; McCarthy et al. ,2020; Su等人,2018 c),其将随机潜在变量z引入神经MT条件分布: ∫性能和显着优于[2]代码可在https://github上公开获取。pθ(Ymt|Xmt)=pθ(Ym t|Xm t,z)·pθ(z|Xm t)dz.(一)com/XL2248/VHM给定源句子X,潜在变量z为:被迫重建目标语言的总和t=1+v:mala2277获取更多论文∼|.MSMSΣMSMSeeMS、Xtgt和Yee我ee首先由编码器的先验网络采样,然后由解码器生成目标句子:Ymtpθ(Ymt|Xmt,z),其中zpθ(z Xmt)因为很难将Eq边缘化。1,CVAE训练目标是条件对数似然的变分下界:L(θ,φ; Xmt,Ymt)= −KL(qφ(zJ|Xmt,Ymt)pθ(z|X公吨))+Eqφ(z′|Xmt,Ymt)[log pθ(Ymt|z,Xmt)]≤ log p(Ymt|Xmt),其中φ是CVAE的参数3方法图 1演示了我们的模型的概述,由四个组件组成:编码器,变分层次模块,解码器,训练和推断。具体来说,我们的目标是明确地利用MT和MS的CLS同时。因此,我们首先使用编码器(§ 3.1)为变分层次模块(§ 3.2)准备表示,其目的是学习CLS中全局变量的两个局部然后,我们将全局变量引入解码器(§ 3.3)。最后,我们详细阐述了我们的训练和推理过程(§ 3.4)。3.1编码器我们的模型基于Transformer(Vaswani et al. ,2017)编码器-解码器框架。 如图 1,编码器采用六种类型的输入,图1:拟议的VHM框架概述。局部变量zmt、zms分别为transla- tion和summarization定制。然后,全局zcls用于跨语言摘要,其中zcls不仅取决于输入,还取决于zmt和zms。灰色实线表示训练过程,该训练过程负责从识别网络预测的相应后验分布生成{z′mt,z′ms,z′cls}红色虚线指示用于从由先验网络预测的对应先验分布生成{zmt,zms,zcls}的推理过程。该编码器是共享的所有任务与双语词汇.例如,我们遵循Zhang等人。(2016 a)并在第N个编码器层的输出hNe,Xmt上应用均值池{Xmt,Xsrc,XCLS,Y山,Xtgt,YCLS},其中1|XMt|N,XMSMt编码器将输入Xmt映射为连续表示的序列,其大小随类似地,我们得到hXsrc和hXcls。对于训练识别网络,我们得到关于源序列长度。具体地说,表示{Ymt,Xtgt,YCLS},取Ymt编码器由Ne个堆叠层组成,层包括两个子层:3个多头自例如,并计算如下:|Ymt|注意力(SelfAtt)子层和位置方面的hYmt =1(hNe,Ymt)。前馈网络(FFN)子层:|Ymt| i=1sl=SelfAtt(hl−1)+hl−1,类似地,我们得到hXtgt和hYcls。e e emsh1=FFN(s1)+s1,e e e其中h1表示第l个编码器层的状态,h0表示初始化的嵌入。通过编码器,我们准备了{Xmt,Xsrc,Xcls}的表示,用于训练先验网络、编码器和解码器。以X吨为例,3为 了简 单起 见 ,省 略了层规范化,您可以参考(Vaswani etal. ,2017年)以了解更多详情。3.2变分层次模首先,我们设计了两个局部隐变分模型,分别学习MT对中的翻译分布和MS对中的摘要分布。然后,在它们的条件下,我们引入了一个全球潜在的变分模显式地开发他们。e我YMtCLS仅适用于培训-高X=(h)mt)。点火网络 取XMt 比如说|XMt|i=1+v:mala2277获取更多论文θ··CLSφφφMSMSσms= Softplus(MLP θ(hX))。MSCLSNMSφMtMtMtMtφMSMSMSMt|中国θclsφclsMtDddθ3.2.1本地:翻译和摘要翻译. 为了捕获成对句子的翻译,我们引入了一个局部变量zmt,它负责生成目标信息。受Wang和Wan(2019)的启发,我们使用各向同性高斯分布作为先验分布,利用CLS的局部变量。具体地说,我们首先对源输入Xcls进行编码,并以两个局部变量zmt和zms为条件,然后对zcls进行采样。我们将其先验分 布 定 义 为 : pθ ( zclsXcls , zmt , zms )(µcls,σ2I),其中µcls和σcls计算如下:z mt的斜率:pθ(zmt|Xmt)N(µmt,σ2I),µ= MLPcls(h;z;z),哪里克洛斯山θXcls山MS(六)I表示单位矩阵,我们有µ= MLPmt(h ),σcls= Softplus(MLPcls(hX;zmt; zms))。mtθXMt(二更)在训练时,后验分布条件σmt= Softplus(MLPmt(hX)),在局部变量、CLS输入和交叉变量上,其中,MLP()和Softplus()是多层感知器和ReLU函数的近似,re-ceptron。在训练时,后验分布同时对源输入和目标参考进行约束,从而提供翻译信息。因此包含翻译和摘要的组合信息的语言摘要。因此,后验分布可以教导先验分布,分 布 具 体 地 , 我 们 将 后 验 分 布 定 义 为 :|Xcls , zmt , zms , Ycls ) <$N( µJc ls ,σJ2I),其中计算µJc ls和σcJls先验网络可以通过接近识别网络来如:µJcls= MLPcls(hXCLS ;zmt;zms;hYcls),通过KL发散(Kingma和Welling,2013):q(zJ |Xmt, Ymt) ∼ N (µJ ,σJ2I),其中μJσcJls=Softplus(MLPcls(hX;zmt;zms;hYCLS))。和σmJt计算如下:µJmtσmJt= MLPmt(hX ;hY),= Softplus(MLPmt(hX;hYmt )),(三)3.3解码器解码器采用了与增强器类似的结构其中(·;·)指示级联操作。总结。为了捕获MS对中的总结,我们引入了另一个本地变量-解码器层中的每一个包括解码器层,并且Nd个解码器层中的每一个包括解码器层。附加交叉注意子层(CrossAtt):sl=SelfAtt(hl−1)+hl−1,cl=CrossAtt(sl,hNe)+sl,ablezms,它负责生成dd e d源语言摘要。类似于zmt,我们h_l= FFN(c_l)+c_l,D d d将其先验分布定义为:pθ(zms|Xsrc)其中H1表示第L解码器层的状态。N(µms,σ2I),其中µms和σms是计算的MS日期为:µms= MLPms(hXsrc),MSsrcms(四)如图1所示,我们首先从识别网络预测的后验分布(训练过程如灰色实线)或先验分布中获得局部两个变量在训练时,后验分布同时以源输入和包含摘要线索的源语言摘要为条件,负责指导先验分布的学习。具体地,我们将后验分布定义为:q(z,J|Xsrc,Xtgt)(µJm s,σJ2I),其中µJms和σmJs是计算的。日期为:由先验网络预测(推理过程如红色虚线)。然后,以局部两个变量为条件,通过后验(训练 ) 或 先 验 ( 推 断 ) 网 络 生 成 全 局 变 量(zJcls/zcls最后,我们将z(J)4合并到具有投影层的解码器的顶层的状态中:t= Tanh(Wp[hNd;z(J)]+bp), (8)µJ=MLP(hXsrc;htgt),d,t clsmsφ毫秒X毫秒(五)其中W和b是训练参数,hNd是σmJs=Softplus(MLPms(hXsrc;htgt))(七)MtMt+v:mala2277获取更多论文CLS。ppd,tφ3.2.2全局:CLS毫秒X毫秒第N个解码器层的时间步长t处的隐藏状态然后,将ot送入线性变换在得到zmt和zms之后,我们引入和softmax层来预测概率分布。全局变量zcls,旨在生成目标语言摘要,其中zcls可以同时4这里,我们使用z′cls,类似于Eq。 八、当在推理期间训练和zcls时+v:mala2277获取更多论文MSMSMSφMSMS下一个目标令牌的分配:pt= Softmax(Woot+bo),其中Wo和bo是训练参数。3.4训练和推理由于难以处理的边缘相似性,该模型被训练以最大化条件对数似然,其被转换为需要在训练过程中最大化的以下变化下限:D1 CLS Zh2EnSum 1,693,713Zh2EnSum D2 MS LCSTS 1,693,713D3 MT LDC 2.08MD4 CLS En2 ZhSum 364,687En2ZhSum D5 MS ENSUM 364,687D3 MT LDC 2.08M表 1 : 涉 及 的 培 训 数 据 。 LCSTS ( Hu et al. ,2015)是一个中文摘要数据集。LDC语料库包括LDC 2000 T50、LDC 2002 L27、LDC 2002 T01、LDC 2002 E18、LDC 2003 E07、LDC 2003 E14、LDC2003T17,和LDC2004T07。ENSUM由CNN/Dailymail(Hermann et al. 、srcTGT2015)和MSMO(Zhu et al. ,2018)。J(θ,φ;Xcls,Xmt,Xms,Ycls,Ymt,Xms)=— KL(qφ(zJmt|Xmt,Ymt)pθ(zmt|X公吨))— KL(qφ(zJms|Xsrc,Xtgt)pθ(zms|Xsrc))— KL(qφ(zJcls|Xcls,zmt,zms,Ycls)θpθ(zcls|Xcls,zmt,zms))+Eqφ [log pθ(Ymt|Xmt,zmt)]+Eq [logpθ(Xtgt|Xsrc,zms)]+Eqφ [logpθ(Ycls|Xcls,zcls,zmt,zms)],其中变分下界包括基于三个分层变量的重构项和 KL 散 度 项 我 们 使 用 重 新 参 数 化 技 巧(Kingma和Welling,2013)来估计先验和识别网络的梯度(Zhao et al. ,2017年)。在推理过程中,首先,MT和MS的先验网络生成局部变量。在此基础上,通过CLS的先验网络产生全局变量.最后,只有全局变量被输入到解码器中,这对应于图1中的红色虚线箭头。1.一、4实验4.1数据集和数据库数据集。 我们在Zh2EnSum和En2ZhSum数据集 上 评 估 了 所 提 出 的 方 法 ( Zhu et al. ,2019 ) 。 5Zh2EnSum 和 En2ZhSum 最 初 来 自(Hu et al. ,2015)和(Hermann et al. ,2015;Zhu et al. ,2018),分别。中文到英文和英文到中文的测试集都是手动更正的。我们实验中涉及的训练数据列在表1中。1.一、Zh2EnSum。 这是一个汉英摘要数据集,它有1,699,713个中文短文本(平均104个汉字),与中文(平均18个汉字)和英文短摘要(平均14个标记)配对。该数据集分为1,693,713个训练对,3,000个验证对和3,000个测试对。5https://github.com/ZNLP/NCLS-Corpora表2:型号详情。Size(M):可训练参数的数量;Train(S)表示每个模型训练相同批次大小的100批次跨语言摘要任务所数据:培训数据,如选项卡中所列。1.一、模型En2ZhSum尺寸(M)列车(S)数据ATS-A115.0525D4 D3MS-CLS190.2365D4 D5MT-CLS148.1672D4 D3MT-MS-CLS155.5032D4 D5 D3VHM158.0036D4 D5 D3表3:型号详情。Size(M):可训练参数的数量;Train(S)表示每个模型训练相同批次大小的100批次跨语言摘要任务所数据:培训数据,如选项卡中所列。1.一、在多任务学习中使用的训练数据、模型大小、训练时间在表中列出。二、En2ZhSum。它是一个英汉摘要数据集,包含370,687篇英文文档(平均755个单词),以及多句英文摘要(平均55个单词)和中文摘要(平均96个汉字)。该数据集分为364,687个训练对,3,000个验证对和3,000个测试对。在多任务学习中使用的训练数据,模型大小,训练时间,在Tab中列出。3.指标. 根据Zhu等人(2020),1)我们使用标准ROUGE方法(Lin,2004)评估了所有模型,报告了ROUGE- 1、ROUGE-2和ROUGE-L的F1评分。所有ROUGE评分模型Zh2EnSum尺寸(M)列车(S)数据ATS-A137.6030D1 D3MS-CLS211.4148D1 D2MT-CLS208.8463D1 D3MT-MS-CLS114.9024D1 D2 D3VHM117.4027D1 D2 D3+v:mala2277获取更多论文M编号模型En2ZhSumRG1RG2RGLMVSRG1RG2RGLM1GETran(Zhu et al. ,2019年) 24.349.1420.130.6428.1911.4025.77M2GLTran(Zhu et al. ,2019年) 35.4516.8631.2816.9032.1713.8529.43M3TNCLS(Zhu et al. ,2019年) 38.8521.9335.0519.4336.8218.7233.20M4ATS-A(Zhu et al. ,2020年) 40.6824.1236.9722.1540.4722.2136.89M5MS-CLS(Zhu et al. ,2019年)40.3422.6536.3921.0938.2520.2034.76M6MT-CLS(Zhu et al. ,2019年)40.2522.5836.2121.0640.2322.3236.59M7MS-CLS-Rec(Cao et al. 、2020年a)40.9723.2036.96NA38.1216.7633.86M8MS-CLS*40.4422.1936.3221.0138.2620.0734.49M9MT-CLS*40.0521.7235.7420.9640.1422.3636.45M10 MT-MS-CLS(我们的)40.6524.0236.6922.1740.3422.3536.44M11 VHM(我们的)41.36†† 24.64† 37.15† 22.55† 40.98†† 23.07†† 37.12†M12 mBART(Liu et al. ,2020年) 43.6125.1438.7923.4741.5523.2737.22M13 MLPT(Xu et al. ,2020年)43.5025.4129.66NA41.6223.3537.26M14 VHM + mBART(我们的)43.97†25.61† 39.19† 23.8841.95†23.54†37.67†表4:Zh2EnSum测试集上的ROUGE F1评分(%)和MoverScore评分(%),以及En2ZhSum测试集上的ROUGE F1评分(%)。RG和MVS分别指ROUGE和MoverScore。“*”表示通过运行其发布的代码获得的结果。“NA”表示在原始论文中没有这样的结果。““VHM + mBART” means that we use mBART weights asmodel initialization of our通过官方脚本测量的95%置信区间报告; 62)我们还使用MoverScore评估Zh 2 EnSum中英语摘要的质量(Zhao et al. ,2019)。4.2实现细节在 本 文 中 , 我 们 使 用 标 准 Transformer(Vaswani et al. ,2017)在基础设置中。对于其他超参数,我们主要遵循Zhu等人中描述的设置。(2019年,2020年)进行公平比较。更多详情请参见附录A。4.3比较模型管道模型。TETran(Zhu et al. ,2019)。它首先通过Google Translator7将原始文章翻译成目 标 语 言 , 然 后 通 过 LexRank ( Erkan 和Radev,2004)总结翻译文本。TLTran(Zhuet al. ,2019)。它首先通过基于Transformer的单语摘要模型对原文进行摘要,然后通过Google翻译器将摘要翻译成目标语言端到端模型。TNCLS(Zhu et al. ,2019)。它直接使用事实上的Transformer(Vaswani等人,2017)来训练端到端CLS系统。ATS-A(Zhu et al. ,2020)。8.加入预先构建的概率双语词典是一种有效的模型。MS-CLS(Zhuetal. ,2019)。它同时为CLS和MS任务执行求和生成,并计算总损耗。MT-CLS(Zhuetal. ,2019)。9它交替训练CLS和MT任务。MS-CLS-Rec(Cao et al. ,2020a)。它联合训练MS和CLS系统与重建损失相互映射的源和目标表示。mBART(Liu et al. ,2020)。我们使用mBART(mbart.cc25)作为模型初始化来微调CLS任务。 MLPT(混合语言预训练)(Xu et al. ,2020)。它应用了混合语言预训练,利用了六个相关的任务,涵盖了跨语言任务(如翻译)和单语言任务(如掩蔽语言模型)。MT-MS-CLS。这是我们的强基线,通过交替训练CLS,MT和MS来实现。在这里,我们将用于MT和MS的数据集与Zhu et al.(2019)保持一致,以进行公平比较。4.4主要结果总的来说,我们在Tab中将模型分为三个部分。4:管道、端到端和多任务6这里ROUGE脚本的参数是-n 2-a7https://translate.google.com/8https://github.com/ZNLP/ATSum9https://github.com/ZNLP/NCLS-Corpora+v:mala2277获取更多论文VHMMT-MS-CLSMT-CLSMS-CLSATS-A间隙-H间隙-DVHMMT-MS-CLSMT-CLSMS-CLSATS-A间隙-H间隙-DVHMMT-MS-CLSMT-CLSMS-CLSATS-A间隙-H间隙-D↑↑↑ ↑↑↑Zh2EnSum403530252015Zh2EnSum25201510Zh2EnSum3530252015Zh2EnSum201510101055550百分百50% 10% 1%0.1%0100% 50% 10% 1%0.1%0百分百50% 10% 1%0.1%0100% 50% 10% 1% 0.1%使用CLS训练数据使用CLS训练数据使用CLS训练数据使用CLS训练数据的比例图2:在几次激发设置中,Zh2EnSum检验集的ROUGE F1评分(%)和MoverScore评分(%)x%表示使用x%CLS训练数据集,例如,0.1%表示使用0.1%的训练数据集(约1.7k个实例)进行训练。“VHM”和“MT-MS-CLS”之间的性能设置. 在每一部分中,我们展示了现有研究的结果、我们重新实施的基线和我们的方法,即在 Zh_2EnSum 和 En_2ZhSum 测 试 集 上 的VHM。关于Zh2EnSum与管道和端到端方法相比,VHM的性能大大优于所有这些方法(例如:先前最好的模型在多任务环境下,与现有的最佳模型“MS-CLS-Rec”相比 VHM还在三个指标(即:RG 1/RG 2/RGL的ROUGE评分分别为0.39,1.44和0.19),显示了其有效性。我们的VHM还在RG 1/RG 2/RGL/MVS上分别显著超过我们的强基线在使用mBART作为模型初始化后,我们的VHM在所有指标上都达到了最先进的结果。关于En2ZhSum 与流水线、端到端和多任务方法相比,我们的VHM在现有的最佳模型“ATS-A”上表现出显著的ROUGE这些结果表明,VHM在不同的语言方向上表现良好我们的方法在所有指标方面仍然明显超过我们强大的基线4.5少射结果由于获取跨语言摘要数据集的困难(Zhu etal. ,2019),我们进行这样的实验来研究当CLS训练数据集有限时的模型性能,即,少枪实验。具体来说,我们随机选择0.1%、1%、10%和50%的CLS训练数据集进行实验。结果如图2和图3所示。 3.关于Zh2EnSum 图 2显示,VHM在每个设置下均显著优于所有比较模型。特别是,在0.1%的设置下,我们的模型仍然取得了最好的性能比所有基线,这表明我们的变分层次模型在少数镜头设置以及工作。此外,我们还发现,当使用的CLS训练数据越来越少时,比较模型和VHM之间的性能差距越来越大这是因为翻译和摘要数据的使用比例相对较大,MT和MS的影响变得更大,有效地加强了CLS模型。特别是,MT-MS-CLS和VHM之间的性能“差距-H”也在增长,其中两种模型使用相同的数据。这表明MT MS和CLS之间的层次关系在四个度量方面对VHM模型做出了实质性贡献。因此,我们的VHM实现了稳定的性能。关 于 En2ZhSum 从 图 3 中 , 我 们 观 察 到Zh2EnSum上的类似发现。这表明,VHM在每个设置下都显着优于所有的com-prising模型,再次显示了我们的模型在少数镜头设置中的通用性和优越性RG1VHMMT-MS-CLSMT-CLSMS-CLSATS-A间隙-H间隙-DRG2RGLMVS+v:mala2277获取更多论文∼∼En2ZhSum403530252015105En2ZhSum2015105En2ZhSum35302520151050百分百50% 10% 1%0.1%0100% 50% 10% 1%0.1%0100% 50% 10% 1% 0.1%使用CLS训练数据的比例使用CLS训练数据的比例使用CLS训练数据的比例图3:使用不同CLS训练数据时,测试集上的Rouge F1得分(%)。“VHM”和“MT-MS-CLS”之间的性能#012345表5:消融结果(全设置)。行1 de-注意到,我们删除局部变量zmt,并从源输入和另一个本地变量zcls,类似于行2。行3表示我们移除局部变量zmt和zms,并且仅从源输入采样zcls第4行意味着我们移除全局变量zcls,并直接处理方程中的局部变量zmt和zms。八、第5行表示我们保留了三个潜在变量,但删除了zcls和zmtzms之间的代数关系。模型,即利用全局变量对局部变量进行充分利用和组合。5.2人工评价继Zhu et al. (2019年,2020年),我们对Zh2EnSum和En2ZhSum测试集中的25个随机样本进行了人体评估。我们将我们的方法(MT-MS-CLS和VHM)生成的总结与ATS-A、MS-CLS和MT-CLS生成的总结分别在全组和少次组(0.1%)我们邀请三名研究生将生成的摘要与人工更正的参考文献进行比较,并从三个独立的角度评估每个摘要:1. 信息量如何(即,如果)摘要是?2. 有多简洁(即,CC)摘要是?5分析5.1消融研究我们进行消融研究,以调查我们的VHM的局部和全局变量的工作情况。删除选项卡中列出的变量时。 5、我们有以下发现。(1) 图1 3与第0行的对比表明,模型的性能更差,尤其是在删除两个局部变量(第3行)时,这是由于缺少局部变量提供的显式此外,第3行表明,直接参加zcls导致性能差,表明分层结构的必要性,即。使用全局变量来利用局部变量。(2) 通过对行0和行4 5的对比表明,直接参与局部翻译和摘要由于缺乏全局的结合而不能达到很好的效果,这说明设计变分层次结构是非常必要的3. 如何流利,语法(即,FL)的总和是什么?每个属性的评分为1(最差)至5(最佳)。平均结果见表1。6、Tab。第七章选项卡. 6显示了完整设置的结果。我们发现,我们的VHM在两个语言方向上从三个方面优于所有的比较模型,这进一步证明了我们的模型的有效性和优越性。选项卡. 图7显示了在少量设置中的结果,其中所有模型中仅使用0.1%的CLS训练数据。我们发现,我们的VHM在两个数据集的三个方面仍然比所有其他模型表现得更好,这再次表明了它在不同设置下的通用性和有效性。6相关工作跨语言总结。传统的跨语言摘要方法主要集中在将双语信息整合到VHMMT-MS-CLSMT-CLSMS-CLSATS-A间隙-H间隙-DVHMMT-MS-CLSMT-CLSMS-CLSATS-A间隙-H间隙-DVHMMT-MS-CLSMT-CLSMS-CLSATS-A间隙-H间隙-DRG1RG2RGL模型Zh2EnSumEn2ZhSumRG1/RG2/RGL/MVSRG1/RG2/RGLVHM41.36/24.64/37.15/22.55 40.98/23.07/37.12–40.75/23.47/36.48/22.18 40.35/22.48/36.55–40.69/23.34/36.35/22.12 40.57/22.79/36.71–40.45/22.97/36.03/22.36 39.98/21.91/36.33–39.77/22.41/34.87/21.62 39.76/21.69/35.99–40.47/22.64/34.96/21.78 39.67/21.79/35.87+v:mala2277获取更多论文Zh2EnSum表6:全环境下的人体评价结果。IF、CC和FL分别表示信息丰富、简洁和流畅Zh2EnSum表7:少数激发设置中的人体评价结果(0.1%)。流水线方法(Leuski et al. ,2003; Ouyangetal. , 2019;O raRupsanandChiorean , 2008;Wanet al. ,2010; Wan,2011; Yao et al. ,2015;Zhanget al. ,2016 b),即翻译然后总结或总结然后翻译。由于获取跨语言汇总数据集的困难 , 以 前 的 一 些 研 究 集 中 在 构 建 数 据 集(Ladhak et al. ,2020; Scialom et al. ,2020;Yela-Bello et al. , 2021; Zhuet al. , 2019;Hasanetal., 2021;Perez-Beltrachini 和Lapata,2021; Varab和Schluter,2021),混合语言预训练(Xu et al. ,2020),知识蒸馏(Nguyen和Tuan,2021),对比学习(Wanget al. ,2021)或零炮方法(Ayana et al. ,2018; Duan et al. ,2019; Dou et al. ,2020),即使用机器翻译(MT)或单语摘要(MS)或两 者 来 训 练 CLS 系 统 。 其 中 , Zhu et al.(2019)提出使用往返翻译策略来获得大规模CLS数据集,然后提出两种用于CLS的多任务学 习 方 法 。 基 于 这 个 数 据 集 , Zhu et al.(2020)利用端到端模型来参与预构建的概率双语 词典,以 改进CLS。为了进一 步增强CLS,一些研究求助于共享解码器(Bai etal. ,2021 a),更多的伪训练数据(Takase和Okazaki,2020),或更多的相关任务训练(Cao et al. ,2020b,a; Bai et al. ,2021b)。Wang等人 (2022)集中建立CLS对话领域的基准数据集。与之不同的是,我们提出了一个变分层次模型,它引入了一个全局变量,同时利用和组合局部翻译可变的MT对和可变的MS对的本地汇总CLS,取得了更好的效果。条件变分自动编码器。CVAE已经在许多领域证实了其优越性(Sohn et al. ,2015; Liang等人 , 2021a; Zhanget al. , 2016a; Su et al. ,2018 b ) 。 例 如 , 在 对 话 中 , Shen et al.(2019),Park et al. (2018)和Serban等人(2017)扩展了CVAE,以捕获话语与具有分层潜变量的相应上下文之间的语义联系。虽然CVAE已被广泛用于自然语言处理任务,但其适应性和使用跨语言摘要的建模层次关系是不平凡的,据我们所知,从来没有在CLS的多任务学习。传统的多任务学习(MTL)(Caruana,1997),它在多个相关任务上训练模型,以促进表征学习和泛化性能,已成功地用于NLP领域(Collobert和Weston,2008;Deng et al. ,2013; Liang et al. ,2021d,c,b)。在CLS中,已经探索了传统的MTL,以将额外的训练数据(MS,MT)纳入模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功