没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文†专注于目标陈亮,徐润新,常宝宝北京大学计算语言学重点实验室,MoE,中国leo.liang.outlook.comrunxinxu@gmail.comchbb@pku.edu.cn摘要标签平滑和词汇共享是神经机器翻译模型中广泛使用的两种技术。然而,我们认为,简单地应用这两种技术可能会产生冲突,甚至导致次优性能。当分配平滑概率时-中国日语S为圣Cund dersch@@die.…不下一 个 理事会ri@@德语英语实际上,原始标签平滑将永远不会出现在目标语言中的源端单词与真实目标端单词同等对待,这可能使翻译模型产生偏差。为了解决这个问题,我们建议戴面具的La-图1:维恩图显示了共享词汇表,可以分为三个部分:源(S)、公共(C)和目标(T)。型号DE-EN VI-EN贝尔平滑(MLS),一种新的机制,将源端单词的软标签概率屏蔽为零。简单而有效,MLS设法更好地集成标签平滑与词汇共享。我们广泛的实验表明,MLS在不同的数据集上,包括从翻译质量和模型校准的双语和多语言翻译上,始终比原始标签平滑我们的代码在PKUnlp-icler发布。1介绍基于transformer的最新进展(Vaswaniet al. ,2017)模型在神经机器翻译(NMT)中取得了 显 着 的 成 功 。 对 于 大 多 数 NMT 研 究(Vaswani et al. ,2017; Songet al. ,2019; Linet al. ,2020; Pan等人,2021),有两种广泛使 用 的 技 术 来 提 高 翻 译 质 量 : 标 签 平 滑( LS ) 和 词 汇 共 享 ( VS ) 。 标 签 平 滑(Pereyra等人,2017)将硬独热标签变成黄金标签和整个词汇表上的均匀分布的软加权混合物,其用作有效的正则化技术以防止过度拟合和过度置信(Müller等人,2017)。2019年)的模型。此外,词汇共享(Xia et al. ,2019年)是另一种常用的技术,*通讯作者Transformer 33.54 29.95- 带标签平滑(LS)34.76 30.73- w/词汇共享(VS)33.83 29.36- 带LS+VS†34.56 30.41表1:IWEL 2014 DE-EN和IWEL 2015 VI-EN数据集的结果 表示一致设置为(Vaswaniet al. ,2017年)。联合采用标签平滑和向量共享技术不能实现进一步的改进,但会导致次优性能。源语言和目标语言的词汇合并成一个完整的词汇,因此词汇是共享的。该方法增强了两种语言之间的语义相关性,减少了嵌入矩阵的总参数数。然而,在本文中,我们认为,同时采用标签平滑和词汇共享技术可能是冲突的,并导致次优性能。具体来说,对于词汇表共享,共享词汇表可以分为三个部分,如图1所示。但是通过标签平滑,软标签仍然会考虑源端不可能出现在目标端的单词。这会误导翻译模式,影响翻译效果.如表1所示,虽然单独引入标签平滑或词汇表共享可以改进普通Transformer,SCT然,政,然然,然然,然,然,然然,然,然然,然,然arXiv:2203.02889v1 [cs.CL] 2022年3+v:mala2277获取更多论文采用这两种方法不能获得进一步的改进,而是获得次优的结果。为了解决标签平滑和词汇共享之间的矛盾,我们首先提出了一种新的机制加权标签平滑(WLS)来控制平滑后的概率分布及其无参数版本掩码标签平滑(MLS)。简单而有效的,MLS约束软标签不分配软概率的话只属于源端。这样,我们不仅保留了标签平滑和词汇共享的优点,而且还解决了这两种技术的冲突,以提高翻译质量根据我们的实验,MLS导致更好的翻译,不仅在分数,如BLEU,但也报告改进模型的校准。与原始标签平滑和词汇共享相比,MLS在WMT( +0.33 BLEU ) 和 其 他7 种 语 言 对 , 包 括DE,RO-EN多语言翻译任务。2背景原始标签平滑可以形式化为:yLS=y(1−α)+α/K(1)K表示类别的数量,α是标签平滑参数r,α/K是软标签,y是正确标签等于1且其他标签等于零的向量,y是修改后的标签。标签平滑首先被引入图像分类(Szegedy etal. , 2016 ) 任 务 。 Pereyraet al. ( 2017 ) ;Edmund et al.(2018)探索标签平滑在令牌级序列生成中的应用,Norouziet al. (2016)提出句子级的标签平滑。从理论上讲,Müller et al.(2019); Meister et al. (2020)都指出了标号平滑与熵正则化的关系。Gao et al.(2020)探索了将标签平滑应用于机器翻译的最佳方法。 为了生成更可靠的软标签,Lukasik et al.(2020)将语义相似的n元语法重叠考虑到级别 标 签 平 滑 。 Wang et al. ( 2020 ) 提 出 了Graduate Label Smoothing,根据模型的不同置信度生成软标签据我们所知,我们是第一个从语言的角度来研究标签平滑类别DE->ENRO->ENVI->EN源百分之三十九百分之五十百分之三十六共同百分之二十百分之八百分之十一目标百分之四十一百分之四十二百分之五十三表2:WMT '14 DE-EN、WMT'16 RO-EN和IWMT'15 VI-EN数据集的共享词汇表的不同类别的分布。属于源类别的标记的比例高达50%,这可能会误导翻译模型。词汇共享词汇共享广泛应用于大多数神经机器翻译研究(Vaswani et al. ,2017; Song et al. ,2019; Linet al. ,2020)。研究者对词汇共享进行了Liu et al.(2019)提出了共享私有双语词嵌入,它使源和目标嵌入之间的关系更加紧密Kim等人(2019)指出,在共享的多语言单词嵌入中,父语言和子语言之间存在词汇不匹配。3标签平滑与词汇共享如图1所示,使用文氏图可以将语言对联合词典中的词或子词这可以通过检查联合词汇表中的一个标记是否也属于源/目标词汇表来实现我们在附录A中对分类算法进行了形式化。然后,我们计算令牌源类中的令牌占很大比例,高达50%。当标签平滑和词汇共享一起应用时,平滑的概率将被分配给属于源类的单词。这些词与可能的目标词没有重叠,因此它们没有机会出现在目标句子中将平滑概率分配给它们可能会在训练过程中为翻译系统引入额外的偏差,不可避免地导致更高的翻译困惑,这也是Müller等人所揭示的。 (2019年)。表3揭示了冲突的存在,即在所有语言对中,联合使用标签平滑和词汇共享并不能与单独使用一种BLEU评分。+v:mala2277获取更多论文我Σ4方法4.1加权标签平滑为了解决标签平滑过程中的冲突问题,提出了一种即插即用的加权标签平滑机制来控制平滑后的概率加权标号平滑(WLS)除了标号平滑参数α外,还有βt,βc,βs三个参数,三个参数的比值表示平滑概率的部分分配给目标类、公共类和源类标签平滑y't1 t2 t3 c1 c2 c3 s1 s2 s3t = 0.25c = 0.5s = 0.25y't1 t2 t3 c1 c2 c3 s1 s2 s3无标签平滑y't1 t2 t3 c1 c2 c3 s1 s2 s3遮罩标签平滑y't1 t2 t3 c1 c2 c3 s1 s2 s3三个参数之和为1。令牌类内的分布遵循均匀分布。WLS可以形式化为:y<$WLS=y<$(1−α)+β(2)其中y是向量,其中对应于正确标记的元素等于1,而其他元素等于零。β是控制分配给不正确标记的概率分布的向量。我们用ti,ci,si来表示目标类、公共类和源类中第i个令牌的分配概率,它们构成分布控制向量β,其中Kβi=α。该限制可以形式化为:ti:4.2遮罩标签平滑基于权重标签平滑机制,我们现在可以通过将βs设置为0并将目标和公共类别视为一个类别来实现掩蔽标签平滑。通过这种方式,Masked Label Smoothing是无参数的,并隐式地将外部知识注入模型。实验表明,这种简单的设置可以达到满意的效果。我们在图2中说明了不同的标签平滑方法。值得注意的是,MLS与将WLS的参数设置为1-1-0不同,因为在公共词汇5实验5.1任务设置对于双语翻译,我们进行了7个翻译任务的实验。我们选择具有不同比例的共同子词的语言对。这些包括WMT图2:不同标签平滑方法的图示。图中每个条形的高度表示分配给每个到k en的概率。 y′是当 前 解码 阶 段 期 间 的当前令牌。我们假设联合词汇表中只有10个标记,t1- t3属于目标类,c1-c3属于公共类,s1-s3属于源类。IWIT14我们使用WMT'14,16和IWITOS'14,15数据集的官方train-dev-test分割对于CA-SIA ZH-EN数据集,我们从整个数据集中随机抽取5000个对于多语言翻译,我们结合WMT我们还制作了一个均衡的多语言数据集,具有相同数量的DE-EN和RO-EN训练示例,以减少不均衡语言的影响,并探索MLS在不同数据分布条件下的多语言翻译性能我们应用Transformer基础(Vaswani et al. ,2017)模型作为我们的基线模型。在主要实验中,我们将标签平滑参数α固定为0.1,并对不同α下的MLS性能进行了单独实验和检验。我们使用fairseq中的compound_split_bleu.sh来计算最终的bleu分数。推理ECE得分1和chrF得分2是通过开源脚本计算的我们列出了具体的培训,附录B中的评估设置。5.2结果双语表3显示了双语翻译实验的结果。结果揭示了LS模型与仅用LS模型的VS模型之间的矛盾1https://github.com/m-popovic/chrFhttps://github.com/shuo-git/InfECE概率概率概率概率+v:mala2277获取更多论文†(a) 双语翻译WMT'162014年世WMT'142015中国国际航空模型RO-ENEN-RODE-ENDE-ENEN-DEVI-ENZH-ENTransformer22.0319.6133.5430.8527.2129.9520.66- 带VS22.2019.9133.8331.0827.5129.3620.88- 带LS22.9620.6834.7631.1427.5330.7321.10- 带LS+VS22.8920.5934.5630.9827.4430.4121.04- 带MLS(我们的)23.22**20.88美元 **35.04**31.43美元 *27.91美元 *30.57美元 *21.23*(b) 多语种翻译模型DE,RO-ENDE-ENRO-ENDE,RO-ENDE-ENRO-EN- 带LS+VS33.7837.2423.1533.2537.4420.40- 带MLS(我们的)34.10**37.53**23.1933.53**37.77美元 **20.86美元 **表3:双语翻译任务(a)和多语种翻译任务(b)的结果。表示多语言翻译数据的平衡版本。LS和VS之间的冲突在所有语言对中都存在当p 0.01(**),p 0.05(*)时,我们的MLS优于原始标签平滑,词汇共享具有显著性水平,并且在大多数情况下单独使用LS或VS也优于原始标签平滑。在所有实验中均优于LS和VS模型。在所有测试 的 语 言 对 中 , 我 们 的 Masked LabelSmoothing比原始LS+VS获得了一致的改进。如表4所示,对于BLEU和chrF评分,MLS的有 效 性 在 不 同 α 值 下 保 持 不 变 与 Gao 等 人(2020)应用MLS可以进一步改善结果。结果表明,不仅目标词汇的概率增加,而且平滑概率在不同语言中的分配对提高翻译性能也有重要作用。如表3所示,MLS在所有翻译方向下在原始和平衡的多语言翻译数据集中实现了相对于原始标签平滑的一致改进。在原始组合数据集中,方向RO-EN(400 K)具有比DE-EN(160 K)多得多的样本。我们在训练过程中不应用恢复策略,以研究不平衡条件如何影响不同模型平衡版本将RO-EN方向上的样本减少到与DE-EN方向上相同的与不平衡版本相比,平衡版本在DE-EN方向上的BLEU分数更好,而在RO-EN翻译中的原始标签平滑和MLS性能都要差得多。这表明减少RO-EN(a)EN-RO评分α0.1蓝色(chrF)0.30.5LS+VS 20.54(45.54)20.65(45.79)20.62(45.7)大联盟20.57(45.68)20.99(46.29)21.10(b)RO-EN评分α0.1蓝色(chrF)0.30.5LS+VS 22.54(47.09)22.95(47.29)22.98(47.23)表4:α的个体实验。BLEU和chrF评分在WMT'16EN-RO(a)和RO-EN(b)数据集的不同标签平滑α训练实例确实削弱了RO-EN翻译中模型的泛化能力,但即使在不平衡条件下,MLS也可以提供比平衡条件下的原始LS(37.44)更好的性能(37.53)。这意味着MLS可以缓解多语言翻译中的数据不平衡问题然而,相对高资源方向(RO-EN)的改善不如在平衡条件下显著。我们猜想,由于语言的增加和语言之间的联系,标签平滑对多我们把这些问题留给未来的探索。2014年世界杯+2016国际妇女大会+v:mala2277获取更多论文∗MN我我型号DE-ENVI-ENDE,RO-EN DE,RO-EN*- 带LS+VS9.7713.0711.6210.77- 带MLS9.6712.6311.378.82表5:值表示原始标签平滑。WLS一般可以通过适当的参数来提高翻译质量分数是使用每个方向的发展表 6 : 不同 翻 译任 务 的 推理 ECE 得 分( 越 少越好)。表示多语言数据的平衡版本。MLS导致ECE评分平均降低0.7,表明模型校准更好。在每一个BIN欧洲经委会=欧洲经委会|B 我||acc(B)-置信度(B)|i=16讨论6.1加权标号平滑算法的探讨如表5所示,我们探索了不同WLS对多个任务的影响,包括WMT根据实验结果,虽然最佳BLEU得分的WLS设置因任务不同而异,并且概率分配与BLEU得分之间似乎存在着更为复杂的关系,但我们仍然有两个观察结果。首先,与原始标签平滑相比,应用WLS通常可以提高翻译质量。其次,只有βt,βc,βs分别等于1/2-1/2-0的WLS在所有任务上都能优于原始标签因此,我们建议在应用WLS时使用此设置作为初始设置。此外,最鲁棒的设置与MLS的形式一致,因为它们都将零概率分配给源类别6.2模型的标定和翻译问题的改进Müller等人 (2019)指出,标签平滑可以防止模型变得过于自信,因此可以改善模型的校准。由于NMT模型中存在训练-推理差异,因此推理ECE得分(Wanget al. ,2020)更好地反映了模型的真实校准。为了计算ECE分数,我们需要根据输出置信度将模型的预测分为其中N是总预测样本的数量,Bi是第i个区间中的样本数量acc(Bi)是第i个bin中的平均精度。分数表示AC之间的差异在推理过程中模型输出的准确性和置信度。ECE越小意味着校准效果越好。我们的模型的推断ECE分数如表6所示。事实证明,具有MLS的模型在不同数据集上的推理ECE得分较低结果表明,MLS将导致更好的模型校准。我们还发现,在所有的实验中,MLS导致了这这可能是模型更好的翻译性能的另一个原因7结论我们揭示了NMT中标签平滑和词汇共享技术之间的冲突,联合采用这两种技术可能会导致次优性能。为了解决这个问题,我们引入了屏蔽标签平滑,以消除冲突,根据语言的差异重新分配平滑的简单而有效,MLS在翻译质量和模型校准方面都优于原始标签平滑,适用8确认我们感谢所有评审员对本工作的宝贵贡献。本文得到了国家自然科学基金项目61876004和61936012 , 国 家 重 点 研 究 发 展 计 划 项 目61936012的资助。2020AAA0106700。βtβCβsRO-ENEN-RODE-EN---22.8023.1530.941/31/31/322.6823.1931.401/21/2023.0523.1931.181/201/222.8623.0131.3301/21/222.2223.3330.851/21/41/422.7323.1630.92+v:mala2277获取更多论文9伦理思考我们从允许学术使用的公共数据集收集数据我们用于培训和评估的开源工具可在网上免费访问,没有版权冲突。引用Sergey Edmund ,Myle Ott,Michael Auli,DavidGrangier,and Marc2018.序列到序列学习的经典结构化预测损失。在NAACL。Yingbo Gao , Weiyue Wang , Christian Herold ,Zijian Yang,and Hermann Ney. 2020. 对神经机器翻译。在Proceedings of the 1st Conference ofthe Asia-Pacific Chapter of the Association forComputationalLinguisticsandthe10thInternationalJointConferenceonNaturalLanguage Processing中,第212-223页,中国苏州。计算语言学协会。Yunsu Kim,Yingbo Gao,and Hermann Ney. 2019.神经机器翻译模型的有效跨语言迁移,无需共享词汇。在Proceedings of the 57th Annual MeetingoftheAsso-ciationforComputationalLinguistics,pages 1246计算语言学协会林泽辉,潘晓,王明轩,邱喜鹏,冯江涛,周浩,李磊。2020. 利用对齐信息预训练多语言神经机器翻译。 在2020年自然语言处理经验方法会议(EMNLP)上,第2649-2663页。计算语言学协会。刘雪波,Derek F.放大图片作者:Wang,YangLiu,Lidia S. Chao,Tong Xiao,and Jingbo Zhu.2019.用于神经机器翻译的共享私有双语词嵌入在ACL。M. Lukasik,Himanshu Jain,A.放大图片作者:Menon,Seungyeon Kim,Srinadh Bhojanapalli,F. Yu和Sanjiv Ku-2020年3月。语义标签平滑序列到序列问题。在EMNLP。克拉拉·梅斯特,伊丽莎白·萨利斯基,瑞安·科特雷尔. 2020. 广义熵正则化或:标签平滑没有什么特别的在计算语言学协会第58届年会的会议记录中,第6870- 6886页,在线。计算语言学协会。Rafael Müller,Simon Kornblith,and Geoffrey E.欣顿。2019.标签平滑在什么情况下有帮助?在NeurIPS中。MohammadNorouzi , SamyBengio , zhifengChen,Navdeep Jaitly,Mike Schuster,YonghuiWu,and Dale Schuurmans. 2016. 用于神经结构预测的奖励增强最大似然。神经信息处理系统进展,第29卷。Curran Associates,Inc.潘晓,王明轩,吴立伟,李磊。2021.多对多语言神经机器翻译的对比学习。在ACL 2021中。Gabriel Pereyra,G. Tucker,J. Chorowski,LukaszKaiser,and Geoffrey E.辛顿2017.通过惩罚置信输出分布来正则化神经网络。瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016. 以子 词 为 单 位 的 生 僻 词 神 经 机 器 翻 译 。 在Proceedings of the 54th Annual Meeting of theAssociationforComputationalLinguistics( Volume 1 : Long Papers ) , pages 1715-1725,Berlin,Germany.计算语言学协会。宋凯涛,徐坦,秦涛,陆剑锋,刘铁岩. 2019.Mass:用于语言生成的掩蔽序列到序列预训练。在ICML。Christian Szegedy , V. Vanhoucke , S. Ioffe ,Jonathe Shlens,and Z.沃伊纳2016.重新思考计算机视觉的接收架构。2016年IEEE计算机视觉和模式识别会议(CVPR),第2818Ashish Vaswani , Noam Shazeer , Niki Parmar ,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez,Kukasz Kaiser,and Illia Polosukhin. 2017.注意力就是你所需要的。在第31届神经信息处理系统国际会议论文集,NIPS'17,第6000-6010页,Red Hook,NY,USA中。柯兰联合公司Shuo Wang , Zhaopeng Tu , Shuming Shi , YangLiu.2020. 论神经机器翻译的推理校准。在计算语言学协会第58届年会的会议记录中,第3070-3079页,在线。计算语言学协会。夏影策、何天宇、许谭、飞天、狄河、秦涛。2019. Tied transformers:具有共享编码器和解码器的神经机器翻译。在AAAI。+v:mala2277获取更多论文A算法算法1划分令牌类别输入:列表:S、T、J输出:列表:A、B、C说明:S为源语言词汇表,T为目标语言词汇表,J为联合词汇表。A是源标记的输出词汇表,B是普通标记,C是目标标记。1:初始化空列表A、B、C2:对于J中的ido3:如果i在S中,i在T中,则4:B.加上(i)5:其他6:如果i在S中,则7:A.加上㈠8:其他9:C.加上(i)10:返回A、B、CB实验细节我们在Transformer-Base(Vaswani et al. ,2017),并在相同的超参数下进行实验以进行公平的比较。在 训 练 之 前 , 我 们 首 先 应 用 BPE(Sennrichet al. ,2016年)来对语料库进行标记化,每种语言16k步,然后学习联合字典。在训练期间,标签平滑参数α被设置为0. 1,除了表4我们使用Adam优化器,beta为(0.9,0.98),学习率为0.0007。在预热步骤期间,初始学习率为1 e- 7,并且有1000个预热步骤。我们在两个NVIDIA 3090 GPU上使用2048的批量大小和4的更新频率。对于所有实验,脱落率设定为0.3,重量衰减设定为0.0001。我们对最后3个检查点取平均值,以在主要双语实验中生成最终模型,然后对测试集进行推断。在所有测试中,我们使用的光束尺寸为5。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功