没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文基于transformer的神经机器翻译的学习置信度Yu Lu1、2、Jiali Zeng3、Jiajun Zhangg1、2、Shuangzhi Wu3和MuLi31中国科学院自动化研究所模式识别国家重点实验室,北京2中国科学院大学人工智能学院,中国3腾讯云小微,北京,中国{yu.lu,jjzhang}@ nlpr.ia.ac.cn{lemonzeng,frostwu,ethanlli}@ tencent.com摘要置信度估计旨在量化模型预测的置信度,提供成功的预期。当在现实环境中给定噪声样本和分布外数据时,经过良好校准的置信度估计可以实现准确的故障预测和适当的风险测量。然而,这项任务对于神经机器翻译(NMT)来说仍然是一个严峻的挑战,其中softmax分布的概率无法描述模型何时可能出错。为了解决这个问题,我们提出了一个无监督的置信度估计学习与NMT模型的训练。我们将信心解释为NMT模型需要多少提示才能做出正确的预测,更多的提示表明信心较低。具体来说,NMT模型可以选择以一些轻微的惩罚为代价来请求提示以然后,我们通过计算模型使用的提示数量来近似他们的置信水平。我们证明了我们学习的置信度估计在广泛的句子/单词级质量估计任务上达到了很高的准确性。分析结果验证了我们的置信度估计可以正确地评估两个现实世界中的潜在风险:(1)发现噪声样本,(2) 检测域外数据。我们进一步提出了一种新的基于置信度的特定于实例的标签平滑方法,该方法基于我们学习的置信度估计,其优于标准标签平滑1。1介绍随着深度神经网络在实践中的广泛部署,置信度 估 计 变 得 越 来 越 重 要 ( Amodei et al. ,2016)。它旨在衡量模型经过校准的置信度估计可以准确识别*作者在腾讯实习时完成的工作[2]通讯作者。1https://github.com/yulu-dada/Learned-conf-NMTSrc确认图1:生成的概率和我们学习的置信度估计的示例。红色的句子是错误的翻译。相应的预测概率和置信度估计用虚线框表示。深色表示两次评估下的大值。故障,进一步测量真实场景中常见的噪声样本和分 布 外 数 据 引起的潜在风险( Nguyen 和 O'Connor,2015 ; Snoek等人,,2019)。不 幸 的 是 , 据 报 道 , 神 经 机 器 翻 译( NMT ) 产 生 的 校 准 置 信 度 估 计 值 较 差( Kumar 和 Sarawagi , 2019; Wanget al. ,2020),这在现代神经网络的应用中是常见的(Guo et al. ,2017年)。这意味着模型分配给预测的概率并不能反映其正确性。更糟糕的是,该模型经常默默地失败,提供高概率的预测 , 同 时 犯 了 可 悲 的 错 误 ( Hendrycks 和Gimpel,2017)。我们以图1为例。误译产生的概率很高(虚线框中的深绿色块),这使得在无法访问参考文献时基于预测概率评估质量变得很有问题分类任务的置信度估计在文献中得到了很好的研究(Platt,1999; Guoet al. ,2017年)。然而,对NMT等结构化生成任务的研究现有的研究只研究了NMT中生成的概率不能反映准确性的现象(Mülleret al. ,2019; Wang et al. ,2020年),而很少有人知道如何建立一个良好的校准的信心估计来描述预测的不确定性,arXiv:2203.11413v1 [cs.CL] 2022年3月+v:mala2277获取更多论文.Σ关于我们⇒⇒⇒⇒Σ不不--1然后将其传递到解码器。2SNMT模型的准确性。为了解决这个问题,我们的目标是以无监督的方式与训练过程联合学习受Ask For Hints(DeVries and Taylor,2018)的启发,我们将置信度解释为NMT模型需要多少提示才能做出正确的预测。具体来说,我们设计了一个场景,其中地面真相可用于NMT模型作为处理棘手翻译的提示但每一个暗示都是以某种惩罚为代价在这种设置下,NMT模型在大多数情况下被鼓励独立翻译以避免处罚,但在不确定决策时要求提示以确保损失减少。更多的提示意味着低的信心,反之亦然。在实践中,我们设计了一个置信网络,以解码器的多层隐藏状态作为输入来预测置信估计。在此基础上,我们进一步提出了一种新的基于置信度的标签平滑方法,其中更易于预测的翻译对其标签具有更多的平滑。回想一下图1中的示例。第一个短语我们注意到,NMT模型也不确定第二个表述• 我们证明了我们学习的信心估计作为一个更好的指标翻译准确性的句子/单词级质量估计任务。此外,当给定具有不同噪声程度和不同域外数据集的噪声数据时,它可以精确评估风险• 我们设计了一种新的基于置信度的标签平滑方法,根据学习到的置信度自适应地调整平滑的质量,实验证明该方法超越了标准的标签平滑技术。2背景在本节中,我们首先简要介绍一个主流的NMT 框 架 , Transformer ( Vaswaniet al. ,2017),重点是如何生成预测概率。然后,我们提出了一个在NMT中观察到的信心误校准的分析,这激发了我们的想法后文讨论。2.1基于变压器的NMTTransformer 具有堆 叠的编码器-解码器 结构。 当给定一对平行的句子x=x1,x2,. x S和y=y1,y2,. y T,编码器首先将输入变换为连续表示h = h0,h0,.. h0,学习信心而不是模型概率。我们验证了我们的置信度估计作为广泛的句子/单词级质量估计任务的良好校准度量,这被证明在预测翻译准确性方面比现有的无监督度量更具代表性(Fomichevaet al. ,2020)。进一步的分析证实,我们的置信度估计可以精确地检测两种真实世界环境中由分布偏移引起的潜在该模型需要更多的提示来预测这些情况下的虚假或棘手的翻译,因此将其分配给低置信度。此外,实验结果表明,在不同规模的翻译任务上,我们基于置信度的标签平滑优于标准标签平滑技术(WMT14 En De,NIST Zh En,WMT 16 Ro En和IWSLT 14 De En)。本文的贡献有三个方面:• 我们提出了学习的置信度估计来预测NMT输出的置信度,这是简单的实现没有任何退化的翻译性能。解码器由N个相同的块组成,每个块包括自注意、跨语言注意和全连接的前馈网络。第l个块h1的输出被馈送到后续块。在第t个位置,模型基于第N层的输出产生翻译概率pt,一个词汇大小的向量pt=softmax(WhN+b)(1)在训练过程中,模型通过mini-最大化交叉熵损失:不LNMT=−ytlog(pt)(2)t=1其中,W、b是可训练参数,并且yt被定义为独热向量。在推理过程中,我们通过从每一步生成的概率中选择高概率的令牌来实现波束搜索2.2NMT中的置信度误校准现代神经网络已被发现产生错误校准的 置信估计(Guo et al. 、语义相关但措辞不准确翻译的准确性与我们的基本一致+v:mala2277获取更多论文⇒L =−ylog(p)(5)tNMT·不Σ→′LL→L→→→0.140.120.100.080.060.00.51.00.250.200.150.100.050.000.0 0.51.0做出模型确信的预测,然后在模型对决策不确定在这种假设下,我们通过计算使用的提示数量来近似每个翻译的置信水平。为了使NMT模型能够请求提示,我们预测概率图2:NMT模型对OK和BAD翻译预测的单词概率密度函数。我们用斜线标记概括了错误校准:过度自信(产生高错误概率)和信心不足(产生正确翻译的低概率)。2017年;Hendrycks和Gimpel,2017年)。这意味着在每个推理步骤中使用的预测概率对于NMT中的结构化输出,问题更为复杂我们不能判断一个翻译是错误的,即使它与基本事实不同,因为同一个源句存在几因此,我们在200个Zh En翻译中手动注释每个目标词为OK或BAD。只有明确的错误被标记为BAD,而其他不确定的翻译则被忽略。图2报告了OK和BAD翻译的预测概率的密度函数。我们观察到NMT存在严重的错误校准:当模型输出BAD翻译时,过度自信的问题占35.8%,而24.9%的问题是OK添加一个置信度估计网络(ConNet)与原始预测分支并行,如图3所示。该ConNet采取隐藏状态的解码器在第t步(ht)作为输入,并预测0和1之间的单个标量。其中 θ c= W′ , b′ 是 可 训 练 参 数 。 σ ( ) 是sigmoid函数。如果模型确信它可以正确翻译,它应该输出ct接近1。相反,模型应该输出ct接近0以获得更多提示。为了在训练期间提供模型插值的程度由生成的置信度ct决定:p′=ct·pt+(1−ct)·yt(4)使用修正的预测概率计算平移损失。不′不以低概率产生翻译。这些问题使得识别模型故障具有挑战性它进一步促使我们建立一个估计来更好地描述模型的置信度。3学习评估信心一个校准良好的置信度估计应该能够告诉NMT模型何时可能失败。理想情况下,我们希望了解每个目标端翻译的置信度度量,但在缺乏用于置信度估计的基础事实的情况下,这仍然是一个棘手的问题受图像分类任务中的Ask For Hints(DeVries和Taylor,2018)的启发,我们将置信度定义为NMT模型需要多少提示才能产生正确的提示多了,信心就低了,失败的可能性就大了。动机 我们假设NMT模型可以在训练过程中要求提示(查看地面实况标签),但每个提示都以轻微的惩罚为代价。直觉上,一个好的策略是独立-t=1为了防止模型通过总是设置ct=0(接收所有的地面真值)来最小化损失,我们向损失函数添加了一个对数不LConf=−log(ct)(6)t=1最终损失是转换损失和置信损失之和,由超参数λ加权:L=LNMT+λLConf(7)在这种情况下,当C1(模型相当自信),我们可以看到p′p和Conf0,这等于一个标准的训练过程。在c0(模型非常不自信)的情况下,我们看到p y(模型获得正确的标签)。在这种情况下,NMT将接近0,但Conf变得非常大。因此,只有当模型成功预测哪些输出可能是正确的时,它才能减少总体损失。坏p=0.358密度好p=0.249+v:mala2277获取更多论文提示……康耐特LinearSoftmaxℎ���ℎ2ℎ11−e→t tt不���′解码器块隐藏状态������′=��� ∙��� + 1 −��� ∙���图3:框架概述。NMT模型可以在训练过程中根据ConNet预测的置信水平要求提示(地面实况翻译)。在推理过程中,我们使用模型预测p来对假设进行采样。每个翻译词都有一个相应的置信度估计。实施细节。由于Transformer体系结构的复杂性,需要进行若干优化以防止置信分支降低翻译分支的性能。不要在初始阶段提供提示。前期模型比较脆弱,为后续优化奠定了基础。我们发现,在早期阶段提供提示会导致显着的性能下降。为此,我们建议-为其他非地面实况标签分配一定的概率质量(100)(Szegedy et al. ,2016)。在这里,我们试图利用我们的信心估计,以改善平滑。我们提出了一种新的实例特定的基于置信度的标签平滑技术,其中具有更大置信度的预测接收更少的标签平滑,反之亦然。应用于预测的标签平滑量(BSlt)与其置信水平成比例。通过训练步骤动态地控制λ的值(如在等式7中),如下:t=Ct阿利什卡λ(s)=λ0e−s/β0(8)其中λ0和β0控制λ的初始值和下降速度。我们期望置信损失的权重在开始时(c1)较大,并在中期和后期给出提示。不要使用高层隐藏状态来预测置信度。 我们发现,如果同时用于预测平移和置信度,会给最高层隐藏状态增加很大的负担。因此,我们建议对置信分支使用低层隐藏状态,而保持翻译分支不变(这里,解码器有6层):ht=AVE(h1+h2+h3)(9)其中H1是解码器中的第L层隐藏状态此外,低层隐藏状态的其他组合也ht=AVE(h1+h3)。式中,0是用于vanilla标签平滑的固定值,c是批水平平均置信水平。4实验本节首先展示了关于质量估计(QE)任务的实证研究,这是置信估计的主要应用。然后,我们提出了我们的基于置信度的标签平滑,我们的置信度估计更好地平滑NMT的扩展的实验结果4.1基于置信度的质量估计为了评估我们的信心估计错误预测的能力,我们实验上广泛的句子/单词水平的QE任务。监督QE任务需要大量的并行数据注释与人类的评价,这是劳动密集型和不切实际的低资源的语言。在这里,我们建议以无监督的方式解决QE问题t t不要让模型懒惰地学习复杂的示例。我们遇到的情况是,模型经常要求提示,而不是从困难中学习我们遵循DeVries和Taylor(2018)给出50%概率的提示在实践中,我们只对一半批次应用公式4基于置信度的标签平滑。平滑标签是防止网络 误 校 准 的 典 型 方 法 ( Müller et al. ,2019)。它已被用于许多国家的最先进的模式,以及NMT模型的训练。4.1.1句子级质量估计我们在WMT 2020 QE共享任务2上进行实验,包括高资源语言对(英语-德语和英语-中文)和中等资源语言对(爱沙尼亚语-英语和罗马尼亚语-英语)。该任务提供源语言句子、相应的机器翻译和2http://www.statmt.org/wmt20/quality-estimation-task.html+v:mala2277获取更多论文Σ⇒用于生成翻译的NMT模型。每个翻译都由专业翻译人员根据感知的翻译质量进行直接评估(DA),范围从0- 100。我们可以根据皮尔逊相关性与DA分数来评估量化宽松的表现我们将我们的置信度估计与四个无监督QE指标(Fomicheva et al. ,2020年):• TP:由长度T归一化的重复级翻译概率。• softmax-Ent:每个解码步骤softmax输出分布的平均熵。• Sent-Std:单词级对数概率p(y1)的标准差,..., p(y T)。• D-TP:通过运行K随机向前传递的TP评分集的期望值通过NMT模型,模型参数θk受MonteCarlo(MC)dropout的干扰(Gal和Ghahramani,2016)。我们还报告了两个监督QE模型:• 预测-估计(Kim et al. ,2017):弱神经方法,通常被设置为监督QE任务的基线系统。• BERT-BiRNN(Kepler et al. ,2019 b):使用大规模数据集进行预训练和质量标签进行微调的强QE模型。我们提出了四个基于置信度的度量:(1)Conf:按长度平均的单词级置信度估计,( 2 ) Sent-Std-Conf : 单 词 级 对 数 置 信 度c1,...,c T,(3) D-Conf:类似于D-TP,我们计算前通过向前运行K来预测Conf通过NMT模型,以及(4)D-Comb:D-TP和D-Conf的组合:K方法埃恩罗恩恩德恩泽TP0.5140.5290.1790.258Softmax-Ent0.5350.5260.1440.257发送标准品0.4930.4180.1950.281D-TP(K=30)0.5830.5530.1970.288Conf0.5570.5690.2180.293发送标准品确认0.4940.4820.2390.293D-Conf(K=30)0.5720.5720.2100.288D梳(K=30)0.5830.5770.1980.288PredEst0.4770.6850.1450.190BERT-BiRNN神经网络0.6350.7630.2730.371表1:无监督QE指标与DA评分之间的Pearson相关性。K根据Wanget al.(2019)设定。我们在NMT模型上重新实现了前四个非监督QE指标。最好的结果无监督度量的值以粗体标记。结果与Fomicheva等人(2020)的副本相同。表1显示了上述量化宽松指标与DA分数的Pearson我们发现:我们的基于置信度的度量大大超过了基于概率的度量(表1中的前三行)。与基于丢弃的方法(D-TP)相比,我们的指标在中等资源数据集上获得了可比的结果,同时在高资源翻译任务上获得了更好的我们注意到,从MC辍学策略带来的好处是有限的,我们的指标,这是显着的基于概率的方法。这也证明了我们的信心估计的稳定性此外,MC dropout的预测能力是以计算为代价的,因为通过NMT模型执行前向传递对于大规模数据集来说是耗时且不切实际的。我们的方法在三个任务上优于弱监督方法PredEst,并进一步缩小了Ro-En的差距。尽管现有的无监督量化估计方法与强量化估计模型(BERT-BiRNN)相比仍有一定的差距,但对无监督量化估计方法的研究对现实世界D-Comb = K(会议k=1θk +TPθk )(10)使用有限的注释数据集进行部署。请注意,我们的置信度估计是与翻译一起产生的很难让我们的模型生成WMT提供的精确翻译,即使使用类似的配置。因此,我们在用于训练所提供的NMT模型的平行句子上训练我们的模型。然后,我们对给定的翻译进行强制解码,以获得现有的无监督度量和我们的估计。我们不使用任何人类判断标签进行监督。4.1.2词级质量估计我们还从更细粒度的角度验证了我们对QE任务 的 置 信 度 估 计 的 有 效 性 。 我 们 从 Zh EnNIST03中随机抽取250个句子,获得NMT译文。两名研究生被要求将每个目标词注释为OK或BAD。我们使用标准度量来评估故障预测的性能,这些标准度量在附录A中介绍。+v:mala2277获取更多论文⇒ ⇒⇒⇒⇒⇒⇒⇒⇒⇒⇒方法赵恩恩 底德 EN RO EN MT03MT04 MT05 MT06 MT08 ALLTransformer w/o LS48.7748.5047.4546.6535.9345.5026.9834.2729.71+ 标准LS49.1448.4850.5347.4436.2345.8327.4034.5230.03+ 基于置信度的LS50块2∗48.5750块91∗四十八。57∗37岁38∗四十六55∗27岁75∗三十五02∗30.82∗表2:NIST Zh En、WMT 14 En De(使用区分大小写的BLEU评分进行评估)、IWSLT 14 De En和WMT16 Ro En上标准标签平滑和我们基于置信度的标签平滑的翻译结果(光束大小4)。“<”表示增益在统计学上显著高于p 0时无LS的Transformer。05.如表2所示,我们基于置信度的标签平滑通过自适应调整每个标签平滑的量而优于标准标签对于Zh En任务,我们的方法改进了表3:通过Zh_En任务中OK和BAD翻译的分离准确度评估的词级QE。所有数值均以百分比表示。↑表示分数越高越好,↓表示分数越低越好。实验结果在表3中给出。我们实施了具有竞争力的故障预测方法,包括最大Softmax概率(MSP)(Hendrycks和Gimpel,2017)和蒙特卡罗丢弃(MCDropout)(Gal和Ghahramani,2016)。我们发现,我们学习的信心估计比MSP产生更好的分离OK和BAD翻译。与MCDropout相比,我们的指标实现了具有竞争力的性能,在计算费用上具有显着优势总的来说,学习的置信度估计是与其他无监督QE度量的翻译精度可比性的竞争指标此外,在NMT系统中加入的置信分支是一个轻分量.它允许每个翻译都有质量测量,而不会降低翻译的准确性。性能置信度分支在附录B中。4.2基于置信度的标签平滑我们扩展了我们的置信度估计,以改善不同规模的翻译任务的平滑和实验:WMT 14英语到德语(En De),LDC中文到英语(Zh En)3,WMT 16罗马尼亚语到英语(Ro En)和IWSLT 14德语到英语(De En)。我们使用4克BLEU(Papineni et al. ,2002年),以评分的性能。有关数据处理和实验设置的更多详细信息见附录C。3 语 料 库 包 括 LDC2000T50 、 LDC2002T01 、LDC2002E18、LDC2003E07、LDC2003E14、LDC2003T17和LDC2004T07。性能比Transformer w/o LS高1.05BLEU,这也超过了0.72 BLEU的标准标签我们发现,在其他语言对中,标准标签平滑的改进有所不同(En De中为0.35 BLEU,En De中为0.5 BLEU在De En中,0.79 BLEU在Ro中En)。 它可以这是因为在不同的语言对和数据集中,错误校准的严重性不同(Wang etal. ,2020)。附录C中还提供了较大搜索空间(即波束大小=30)的实验结果,以支持上述发现。5分析置信度估计在真实世界的部署中特别关键,其中 噪 声 样 本 和 分 布 外 数 据 是 普 遍 存 在 的(Snoek et al. ,2019)。考虑到这些异常输入,神经网络模型倾向于对错误分类高度自信(Nguyen et al. ,2015)。因此,我们需要一个准确的置信度估计,以检测由奇数输入引起的潜在本节探讨我们的置信度估计是否可以在这两种情况下准确地衡量风险5.1噪声标签识别我们预计,该模型需要更多的提示,以适应噪声标签预测低置信度。为了测试这一点,我们在包含160k个平行句子的IWSLT14 De En数据集上进行了实验我们建立了几个数据集,通过随机替换目标端的单词与其他词汇逐渐我们使用相同的配置对每个数据集进行训练,并在图4中绘制学习的置信度估计。学习的信心估计似乎使方法AUROC↑ AUPR↑ EER↓ DET↓MSP72.59 97.49 32.30MCDropout86.52 99.23 20.80 20.76我们85.89 99.07 20.40 19.90+v:mala2277获取更多论文⇒噪声率AUROC↑ AUPR↑ EER↓ DET↓模型概率/我们的置信度估计百分之二十93.21 /96.7397.08 /98.5713.50 /7.0011.50 /6.00百分之四十94.89 /95.7395.22 /95.5011.88 /9.5010.58 /7.69百分之六十93.37 /94.9286.54 /88.0914.00 /10.0812.04 /8.29百分之八十91.63 /95.4464.15 /76.672013年6月16日13.41 /8.13表4:通过模型概率和我们的置信度估计分离干净和有噪声的数据。↑表示分数越高越好,而↓表示分数越低越好。所有数值均为百分比。分布外数据集AUROC↑ AUPR↑ EER↓DET↓Corpus UNK Len.模型概率/我们的置信度估计WMT新闻百分之一点四五71.51 /72.0168.86 /70.9733.78/34.4433.33 /32.44坦齐尔1.36%90.53/89.4891.45/91.3217.33/18.7816.72/17.72Tico-19百分之一点二一30.29 64.10 /72.1062.12 /71.5939.67 /33.3338.83 /31.83Ted2013百分之一点零四19.03 63.48 /68.4459.10 /66.7539.22 /36.2239.00 /35.39新闻评论百分之一64.14 /70.1060.49 /69.4839.33 /35.5639.11 /34.22表5:模型概率和我们对域外数据检测任务的置信度估计的比较。我们给出了每个数据集的未登录词率(UNK)和输入句子的平均长度(域内数据集的平均输入长度为22.47)。所有分数均以百分比显示,最佳结果以粗体突出显示↑表示分数越高越好,而↓表示分数越低越好。1.00.90.80.70.60% 20%40%60% 80%如表4所示,我们的置信估计在所有情况下都获得了更好的结果,特别是在高噪声率下。我们的度量将精确率-召回率曲线下面积(AUPR)从64.15%提高到76.76%,并在80%的噪声率下将检测错误(DET)从13.41%降低这证明了我们的置信估计是更可靠的检测噪声数据引起的潜在风险。训练数据中的不同噪声水平图4:IWSLT14 De En上学习的置信度估计值作为不同水平的噪声标签。 颜色的深浅表示一个句子中有多少单词被破坏(深橙色意味着高污染率)。虚线示出了整个数据集上的平均学习合理的评估。(1)它预测低置信度的噪声样本,但高置信度的干净的。具体地,在一个示例中,污染程度越高,置信度估计就越低(颜色越(2)随着数据集中噪声的增加,NMT模型的决策变得更加不确定。大量的噪声也对分离干净和有噪声的样品提出了挑战我们还比较了我们的模型的概率,给出了不同的污染率下分离干净和嘈杂的例子的准确性。我们将干净的数据设置为正面示例,并使用附录A中列出的评估指标。学习置信度估计Noise examples干净的例子+v:mala2277获取更多论文⇒5.2域外数据检测对于我们的域内示例,我们在2.1M LDC ZhEn新闻数据集上训练NMT模型,然后从NIST2004中抽取1k个句子作为域内测试床。我们选择了五个域外数据集,并从每个数据集中提取了1k个样本其中大多数可在OPUS上下载,详见附录D。关于未知词(UNK)率,输入句子的平均长度和领域多样性,基于与领域内数据集的距离的降序为WMT- news >Tanzil>Tico-19>TED2013>News-Commentary。更接近域内数据集的测试集在直观上更难区分。我们使用翻译的后验概率和置信度估计来分离域内和域外数据。评价指标见附录A。结果在表5中给出。我们发现,我们的方法在具有不同域的数据集(WMT-news和Tanzil)上使用基于概率的方法进行了但+v:mala2277获取更多论文最自信的话最不确定的话(a) 按预测概率(b) 根据我们的置信度估计进行图5:Tico-19数据集中最有信心/不确定翻译的词云,按(a)预测概率和(b)学习的信心估计进行排名。我们根据它们的频率将令牌分为三类。高:最多3 k个频繁单词,中:最多3 k-12 k个频繁单词,低:其他标记。当跨领域知识更难检测时(表5中的最后三行),我们的度量可以更好地分离域内和域外知识。为了更好地理解我们对域外数据的置信度估计的行为,我们在图5中可视化了根据模型概率和我们对医学数据集(Tico-19)的测量排名的最有信心/不确定词的词云。单词的颜色表示它们在域内数据集中的频率。我们的度量从两个方面正确地分离了域内和域外数据:(1)词频:NMT模型对频繁词是确定的,但对罕见词则犹豫不决,如图5(b)所示。但图5(a)中的颜色相对混合。(2)领域关系:由我们的置信度估计排序的最不确定的词是领域相关的,如标点和介词)。这种现象在图5(a)中看不到,这表明来自软最大值的概率在表示域偏移数据的模型不确定性方面有所不足。6相关工作置信度估计的任务在真实世界条件下至关重要,这有助于故障预测(Corbière等人,,2019年)和分布外的去-保 护 ( Hendrycks 和 Gimpel , 2017; Snoek etal. ,2019; Lee et al. ,2018)。本节回顾了近年来关于置信度估计的研究以及在NMT质量估计中的相关应用。6.1NMT的置信估计只有少数研究调查了NMT中的校准 Müller等人 (2019)发现NMT模型在训练中得到了很好的校准,这在推理中被证明是严重错误的(Wang et al. ,2020年),特别是在预测句子结束时(Kumar和Sarawagi,2019年)。由于NMT的结构复杂,目前对NMT中校正误差的研 究 较 少 。 Wanget al. ( 2019 ) ;Xiao et al.(2020)使用Monte Carlo dropout来捕获NMT中的不确定性,这是耗时且计算昂贵的。与他们不同的是,我们是第一个引入学习的信心估计NMT。我们的方法设计得很好,以适应Transformer架构和NMT任务,它也很简单但很有效。6.2NMT的质量估计质量评估是在没有标准参考的情况下,在测试时预测机器翻译系统提供的翻译质量。最近的监督QE模型是资源密集型的,并且需要大量的注释质量标签用于训练(Wang et al. ,2018;Kepler et al. ,2019 a; Lu和Zhang,2020),这是消耗劳动力的,不适用于低资源语言。从NMT系统中探索内部信息来指示翻译质量是另一种选择。 Fomicheva等人 (2020)发现不确定性量化在预测翻译质量方面具有竞争力,这也是对监督QE模型的补充(Wang etal. ,2021年)。然而,他们依赖于重复的蒙特卡罗退出(Gal和Ghahramani,2016)来评估计算成本高的我们的信心估计优于现有的无监督QE方法,这也是直观的,易于实现。7结论在本文中,我们提出了学习NMT的信心估计与训练过程。我们证明,学习的信心可以更好地指示翻译准确性的广泛的句子/单词级QE任务,并精确地测量噪声样本或域外数据引起的潜在风险。我们进一步扩展了+v:mala2277获取更多论文置信度估计,以改善平滑,优于标准标签平滑技术。由于我们的置信度估计概述了模型知道多少,我们计划在未来的培训和编辑后低置信度翻译期间应用我们的工作来设计更合适的课程确认本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目62122088、U1836221和62006224的资助。引用放 大 图 片 创 作 者 : Michael M. Christiano , JohnSchulman,and Dan Mané. 2016. AI安全的具体问题。CoRR,绝对值/1606.06565。Charles Corbière , Nicolas Thome , Avner Bar-Hen,Matthieu Cord,and Patrick Pérez. 2019. 通过学习模型置信度解决故障预测问题。在神经信息处理系统的进展32:神经信息处理系统2019年,第28982909.作者声明:Dr.Taylor. 2018年神经网络中分布外检测的学习置信度。CoRR,绝对值/1802.04865。Marina Fomicheva、Shuo Sun、Lisa Yankovskaya、FrédéricBlain 、 FranciscoGuzmán 、 MarkFishel、Nikolaos Aletras、Vishrav Chaudhary和Lucia Specia。2020. 神经机器翻译的无监督质量估计。计算语言学协会学报,8:539亚林·加尔和祖宾·加赫拉马尼2016. Dropout asabaiduapproximation:Representingmodeluncertainty in deep learning. 第33届国际机器学习会议论文集,ICML 2016,第48卷,第1050-1059页。JMLR.org.Chuan Guo,Geoff Pleiss,Yu Sun,and Kilian Q.温伯格。2017. 关于现代神经网络的校准。在第34届国际机器学习会议论文集,ICML 2017,机器学 习 研 究 论 文 集 第 70 卷 , 第 1321-1330 页 。PMLR。丹·亨德里克斯和凯文·金佩尔。2017. 用于检测神经网络中错误分类和分布外示例的基线。在第五届国际学习表征会议上,ICLR 2017,法国土伦,2017年4月24日至26日,Confer-ence TrackProceedings。OpenReview.net.Fabio Kepler , Jonay Trénous , Marcos Treviso ,Miguel Vera,António Góis,M. Amin Farajian,António V.Lopes,and André F. T.马丁斯2019年a。 Unba-bel第四届机器翻译会议论文集(第3卷:共享任务论文,第2天),第78-84页。计算语言学协会。Fabio Kepler,Jonay Trénous,Marcos V. Treviso,Miguel Vera,António Góis,M. Amin Farajian,An- tónio V.Lopes,and André F.T. 马丁斯2019年b. Un-babel第四届机器翻译会议论文集,WMT2019,第78-84页。计算语言学协会。Hyun Kim,Jong-Hyeok Lee,and Seung-Hoon Na.2017. 预测器-估计器使用多层任务学习和堆栈传播进行神经质量估计。在第二次机器翻译会议的会议记录中,WMT 2017,第562568.计算语言学协会。Philipp Koehn 、 Hieu Hoang 、 Alexandra Birch 、Chris Callison-Burch、Marcello Federico、NicolaBertoldi、Brooke Cowan、Wade Shen、ChristineMoran 、 Richard Zens 、 Chris Dyer 、 OndrejBojar、Alexandra Constantin和Evan Herbst。2007.Moses:统计机器翻译的开源工具包。在计算语言学协会第45届年会的会议记录中,演示和海报会议的会议记录,第177-180页。计算语言学协会。Aviral Kumar和Sunita Sarawagi。2019. 神经机器翻译 的 编 码 器 / 解 码 器 模 型 的 校 准 。 CoRR ,abs/1903.00802。Kimin Lee,Kibok Lee,Honglak Lee,and JinwooShin.2018. 一个简单的统一框架,用于检测分布外样本和对抗性攻击。神经信息处理系统进展,第31卷,第7167-7177页。柯伦联合公司卢金良和张嘉俊2020年。基于多语言预训练语言模型的质量《厦门大学学报》,59(2)。Rafael Müller,Simon Kornblith,and Geoffrey E.欣顿。2019. 标签平滑在什么情况下有帮助?在神经信息处理系统的进展,第46964705.Anh Mai Nguyen , Jason Yosinski 和 Jeff Clune 。2015年。深度神经网络很容易被愚弄:无法识别图像的高置信度预测。在IEEE计算机视觉和模式识别会议上,CVPR 2015,第427阮庆和布兰登·奥康纳2015. 自然语言处理模型的后校准和探索性分析。InProceedings of+v:mala2277获取更多论文2015年自然语言处理经验方法会议,第1587-1598页。计算语言学协会。Kishore Papineni,Salim Roukos,Todd Ward,andWei-Jing Zhu.2002. Bleu:一种机器翻译的自动评价方法。在计算语言学协会第40届年会上,第311-318页。计算语言学协会。John C.普拉特1999.支持向量机的概率输出以及与正则化相似方法的比较大间距分类器的进展。瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016. 以子 词 为 单 位 的 生 僻 词 神 经 机 器 翻 译 。 在Proceedings of the 54th Annual Meeting of theAssociationforComputationalLanguistics(Volume 1:Long Papers),pages 1715计算语言学协会。Jasper Snoek,Yaniv Ovadia,Emily Fertig,BalajiLakshminarayanan , Sebastian Nowozin , D.Sculley,Joshua V. Dillon,Jie Ren,and ZacharyNado. 2019. 你能相信你的模型的不确定性吗?评估数据集移动下的预测不确定性。在神经信息处理系统的进展,第1396913980.Christian Szegedy , Vinc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功