神经机器翻译覆盖错误检测方法：对比条件反射定位多余和未翻译单词

45 浏览量更新于2023-11-30 收藏 495KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文尽可能少，尽可能多用对比条件反射检测过度翻译和欠翻译Jannis Vamvas1和Rico Sennrich1，21苏黎世大学计算语言学系2爱丁堡大学信息学院{vamvas,sennrich}@cl.uzh.ch摘要内容的增删是神经机器翻译中的一个典型问题。我们提出了一种方法来检测这种现象，ena与现成的翻译模型。使用对比条件反射，我们比较了一个完整的序列的可能性下的translation模型，其部分的可能性，给定相应的源或目标序列。这使得即使在没有参考翻译的情况下，也可以精确定位翻译中的多余单词和源中的未翻译单词。我们的方法的准确性是可比的监督方法，需要一个自定义的质量估计模型。1介绍神经机器翻译（NMT）容易出现覆盖错误，例如添加多余的目标词或遗漏重要的源内容。以前的方法来检测这样的错误利用参考翻译（杨等。，2018年）或采用在语言对的合成数据上训练的单独的质量估计（QE）模型（Tuan et al. ，2021; Zhou et al. ，2021年）。本文提出了一种基于假言推理的无参照出租模型。我们的前提是，翻译具有最佳覆盖，如果它使用尽可能少的信息和尽可能多的信息，以传达源序列。因此，添加错误意味着源代码可以通过包含较少信息的翻译更好地传达。相反，遗漏错误意味着翻译将更加对于信息量较少的源序列来说是足够的。适应我们对比空调ap-方法（Vamvas和Sennrich，2021），我们使用NMT模型的概率得分来近似这种覆盖概念。我们为源序列和翻译创建解析树遗漏错误通过系统地删除从源的成分，并通过估计的概率的翻译条件下，这样的部分源序列。如果概率得分高于翻译以完整源为条件时的概率得分，则被删除的成分可能在翻译中没有对应物（图1）。我们将相同的原理应用于通过交换源序列和靶序列来检测添加错误。当将检测到的错误与分段水平上的覆盖错误的人类注释进行比较时（Freitag et al. ，2021年），我们的方法超过了在大量合成覆盖误差上训练的监督QE基线。人类评分员发现，省略的单词级精度高于添加，对于英语-德语翻译，39%的预测错误范围是准确的错误的肯定预测可能会发生，特别是在翻译与源代码具有不同语法的情况我们相信我们的算法可以成为一个有用的帮助，当人类仍然在循环中时，例如在后期编辑工作流程中。我们发布了代码和数据来重现我们的发现，包括英-德和中-英机器翻译中合成覆盖错误的12相关工作NMT中的覆盖错误添加和遗漏的目标词已被观察到的人类评估研究在各种语言中，与遗漏作为更常见的错误类型（Castilho et al. ，2017;Zheng et al. ，2018）。它们作为典型的翻译问题被纳入多维质量管理（ MQM ）框架（Lommel et al. ，2014）。添加被定义为准确性问题，其中目标文本包括源文本中不存在的文本，省略被定义为准确性问题。1https://github.com/ZurichNLP/覆盖对比条件反射arXiv：2203.01927v1 [cs.CL] 2022年3+v：mala2277获取更多论文Σ1翻译X=降落后请离开飞机。您的飞机要起飞了。2提取物组分请在飞机降落后离开飞机3以部分序列为条件的评分评分（Y|请在飞机降落后离开。）= 0.34分（Y|请在飞机降落后离开。）= 0.14分（Y|请在飞机降落后离开。）= 0.20分（Y|请在飞机降落后离开。）=0.724推断错误范围请在飞机降落后离开。图1：如何检测遗漏错误的示例。德语翻译Y在登陆后错误地未翻译（步骤1）。潜在的错误跨度是从解析树中导出的（步骤2）。NMT模型（如mBART 50）为删除后着陆的源条件下的Y分配的概率分数高于为完整源条件下的Y分配的概率分数（步骤3）。这表明存在遗漏错误（步骤4）。翻译中缺少内容但源文件中存在内容的问题2Freitag等人（2021）使用MQM手动重新注释提交给WMT 2020新闻翻译任务的英德和中英机器翻译（Barrault et al. ，2020）。他们的研究结果证实，最先进的NMT系统仍然错误地添加和省略目标词，而且省略比添加更常见。类似的模式可以在英法机器翻译中找到，这些翻译已经用文档级QE共享任务的细粒度MQM标签进行了注释（Specia et al. ，2018;Fonseca et al. ，2019; Specia et al. ，2020）。检测和减少覆盖错误而基于参考的方法包括测量与参考的n元语法重叠（Yang et al. ，2018年）和分析单词对齐的来源（孔等。，2019），这项工作的重点是覆盖错误的无参考检测。以前的工作采用了在标记的并行数据上训练的自定义QE例如，Zhouet al. （2021）插入合成幻觉并训练Transformer以预测插入的跨度。同样，Tuan等人（2021）在合成噪声翻译上训练QE模型。本文主要具有合成省略的参考文献减少了NMT系统产生的覆盖误差。3方法翻译的对比条件属性可以通过估计其在对比源序列上的概率来推断（Vam vas和Sennrich，2021）。例如，如果在NMT模型下，当以反事实源序列为条件时，某个翻译更可能，则该翻译可能是不充分的。应用于遗漏错误图1illustrated-illustrated对比条件反射如何可以直接应用于检测遗漏错误。我们通过系统地从源岩中删除组分来构造部分源岩层序如果翻译的概率得分（平均标记对数概率）在以这样的部分源为条件时较高，则认为被删除的成分从翻译中缺失。为了计算给定源序列X的翻译Y的概率得分，我们对每个目标标记的对数概率求和，并通过目标标记的数量对总和进行归一化：1|Y|评分（Y|X）=logp（y|X、y）提出了一种方法，是基于现成的NMT模型只。|Y| i=0θii其他相关的工作集中在提高解码或训练期间的覆盖率，例如通过注意力（Tu et al. ，2016; Wu et al. ，2016; Li等人，2018;除其他外）。最近，Yang等人。（2019）发现，对比微调应用于加法错误我们应用相同的方法添加检测，但交换源和目标语言。也就是说，我们使用NMT模型的反向翻译方向，我们评分的完整的翻译和一组部分翻译的条件下的源序列。32过度翻译和翻译不足这两个术语在文学中也使用过。MQM保留这些条款为3另一种可能性将是离开翻译错误的翻译是太具体或太不具体。不加修饰，部分翻译成英文+v：mala2277获取更多论文潜在的错误跨度在其最基本的形式，我们的算法不需要任何语言资源，除了标记。对于n个标记的源序列，可以创建n个部分源序列，其中第i个标记被删除。然而，这种方法将依赖于对组合性的彻底分离，将所有代币视为独立的成分。因此，我们建议从解析树中提取潜在的错误跨度，特别是从通用依赖解析器预测的依赖树中提取（de Marneffe et al. ，2021），其广泛可用。这允许（a）跳过功能字以及（b）在潜在错误跨度集合中包括合理数量的多字跨度。例如，我们考虑满足以下条件的单词跨度：1. 一个潜在的错误跨度是依赖关系树的一个完整的子树。2. 它涵盖了一个连续的子序列。3. 它包含了一个有趣的部分。对于每个潜在的错误跨度，我们通过从原始序列中删除跨度来创建部分序列。这仍然是构成的简化概念，因为某些部分序列是不符合语法的。我们的假设是，NMT模型可以产生可靠的概率估计，尽管不符合语法的输入。4实验装置在本节中，我们将描述我们用于实施和评估我们的方法的数据和工具。我们使用mBART50（Tang et al. ，2021），其是使用BART目标在许多语言中的单语语料库上预训练的序列到序列转换器（Lewis et al. ，2020; Liu et al. ，2020年），这是微调对英语为中心的多语言MT在50种语言。通过对所有目标标记的对数概率进行平均来计算序列级概率分数如果英语是源语言，我们使用一对多mBART50模型，如果英语是目标语言，则使用多对一模型。误差跨度我们使用Stanza（Qi et al. ，2020）用于依赖性解析，用于在来自通用依赖性的数据上训练的各种语言的神经管道（de Marneffeet al. ，2021年）。我们使用通用词性标记（UPOS）来定义对来源进行了分析。然而，分数可能会被部分翻译中缺乏流畅性所混淆。原始源翻译删除随机成分部分源全文翻译检查加法财产翻译部分翻译图2：为创建具有合成覆盖错误的机器翻译而设计的流程。完整翻译包含关于部分源的添加错误，并且部分翻译包含关于原始源序列的省略错误。可能构成潜在错误范围的词性具体来说，我们把普通名词、专有名词、主要动词、形容词、数词、副词和感叹词作为相关的词性。黄金标准数据我们使用最先进的英语-德语和汉语-英语机器翻译进行评估，这已经被Freitag等人注释。 2021年，翻译错误。4我们将Online-B系统的翻译放在一边，开发集，并使用其他系统作为测试集，排除人工翻译。开发集用于识别上文段落中列出的覆盖错误跨度的典型词性。合成数据我们还创建合成覆盖率误差，用于训练监督基线QE系统。我们提出了一个数据创建过程，是由以前的工作（杨等人。，2019;Zhou et al. ，2021; Tuan et al. ，2021年），但被定义为使其适用于添加和省略，并产生流畅的翻译。图2说明了该过程。我们从原始的源句子开始，通过删除随机选择的成分来创建部分源具体地说，我们以15%的概率删除每个成分然后，我们机器翻译原始和部分源，产生完整和部分机器翻译。我们只保留完全机器翻译不同于部分机器翻译的样本，并且可以通过加法来构建。这使我们能够把完整的翻译视为部分来源的过度翻译，并把添加的单词视为添加错误。相反，部分翻译被视为原始源的欠翻译负面的例子是cre-4https://github.com/google/wmt-mqm-人的评价+v：mala2277获取更多论文公司简介方法增加的检测遗漏的检测15.0 15.0 22.3 18.8监督基线4.3 0.6 4.7 0.74.5 0.6 49.6 0.6 9.4 1.0 15.9 1.4我们的方法1.7 40.6 3.4 25.8 62.036.5表1：Freitag等人在黄金数据集上覆盖错误检测方法的分段级比较（2021年）。我们对使用不同随机种子训练的三个基线模型进行平均，报告标准差。通过将原始源与完整翻译配对，以及将部分源与部分翻译配对来进行。5我们的合成数据是基于WMT发布的单语新闻文本6为了训练基线系统，我们使用每个语言对80k个唯一的源片段。统计数据见表A3。监督基线系统遵循Alfrea et al.（2020）概述的方法，我们使用 OpenKiwi 框架（ Kepler etal. ， 2019 ）来训练单独的预测 -估计模型（Kimet al. ，2017），基于XLM- RoBERTA（Conneau et al. ，2020）。监督任务可以被描述为令牌级二进制分类。每个标记都被分类为OK或BAD，类似于用于QE共享任务的单词级别标签（Specia et al. ，2020）。如果源标记在转换中被省略，则该源标记为BAD;如果转换中的标记是添加错误的一部分，则该源标记为BAD 对于英语和德语，我们使用Moses分词器（Koehn et al. ，2007）将文本分隔为带标签的标记;对于中文，我们在字符级别上标记文本。在适当的情况下，我们使用OpenKiwi的默认设置。我们微调了XLM- RoBERTA的大版本，这导致了与我们用于对比条件反射的mBART 50模型具有相似参数计数的模型。我们训练了10个epoch，批量大小为32，并在验证集上提前停止。对于标记分类，我们分别为源语言和目标语言训练两个线性层（分别对应于省略和添加我们使用AdamW（Loshchilov和Hutter，2019），学习率为1 e-5，在前1000步冻结预训练的编码器5请注意，合成数据集不包含具有添加和省略错误的翻译，这是一个5评价5.1与黄金数据的我们的方法的准确性可以估计的基础上，由Freitag等人的人类评级。（2021年）。评估设计我们使用MQM错误类型准确性/添加和准确性/遗漏，并忽略其他类型，如准确性/误译。如果任何一个人类评分员在片段中的7.我们从评估中排除了可能注释不完整的片段（因为评分员在标记了五个错误后停止了）。为了便于实现，我们还排除了由多个句子组成的片段。结果金标准比较结果见表1。我们的方法明显超过了在两种语言对中检测遗漏错误的基线。然而，这两种方法识别加法错误的准确率较低，特别是监督基线具有较低的召回率。考虑到其在合成测试集上的高性能（附录中的表A1），该模型似乎不能很好地推广到真实世界的覆盖误差，突出了在纯合成数据上训练监督QE模型的5.2精密度的人为评价我们执行一个额外的单词级人类评估，以更详细地分析通过我们的方法获得的预测。我们的人类评分员在上面的评估中被标记为真或假阳性的片段，使我们能够量化单词级别的精度。限制. 尽管如此，我们希望在数据集上训练的系统将能够推广到这样的例子，特别是如果两个单独的分类器用于添加和省略。6http://data.statmt.org/news-crawl/7我们在本节中进行了段级评估，但没有量化词级准确性，因为数据集不包含覆盖错误的一致注释跨度。精度召回F1精度召回F1EN–DE我们的方法6.9± 1.92.9± 0.9 4.0± 1.3 40.3± 5.26.1± 0.1 10.6±0.220.4+v：mala2277获取更多论文EN–DE目标添加错误2.3 1.2任何错误7.4 12.0遗漏错误6局限性和未来工作我们希望自动检测封面错误可以帮助翻译和后期编辑，因为手动检测此类错误是源错误39.4 19.5乏味。我们在遗漏方面的结果令人鼓舞，用户研究建议，以vali-表2：人类评估：我们的方法突出显示的跨度的词级精度评估设计我们为每对语言聘请了两名语言专家作为评分员。[8]每位评分员都看到了大约700个随机抽样的阳性预测，涵盖了两种类型的覆盖率错误。评分员被展示了源序列，机器翻译和预测的错误范围。他们被问到突出显示的跨度是否确实翻译得很糟糕，并被要求根据预定义的答案选项列表进行细粒度分析（附录中的图3和图4部分样本由两名评分员进行注释。主要问题的一致性是中等的，英语-德语和汉语-英语的科恩kappa值分别为0.54和0.45。在更主观的随访问题上的一致性较低（0.32 /0.13）。结果细粒度的答案使我们能够量化我们的方法所强调的跨度的词级精度，特别是关于覆盖错误和一般翻译错误（表2）。在检测英语-德语翻译中的遗漏错误时，精度高于详细答案的分布（附录中的图3和图4）表明，源语言和目标语言之间的句法差异导致了关于添加的误报附录F中提供了预测示例，其中包括Freitag等人的所有三名评定者的情况。（2021）忽略了覆盖错误。最后，表2表明，许多预测误差跨度实际上是翻译误差，但不是狭义上的覆盖误差例如，在汉英翻译中，超过10%的跨度被我们的8名评分员被支付。每小时30美元。预测对决策者的有用性需要做进一步的工作来改进添加物的检测，其中真实世界的数据包含很少的例子。更高的准确性将是必要的字级量化宽松是有益的（谢诺伊等人。，2021），因此关于检测加法误差，基线和我们的方法的实际效用仍然有限。推理时间也应该讨论。在Ap-pencilC中，我们进行了一个比较，发现在一个长句子对上，对比条件反射可能比基线的向前传递要长10倍。然而，这仍然是生成翻译所需时间的一小部分。此外，限制所考虑的潜在误差范围可以进一步提高效率。7结论我们提出了一种无参考的方法来自动检测翻译中的覆盖错误。来自对比条件反射，我们的方法依赖于假设推理的可能性部分序列。由于任何现成的NMT模型都可以用于估计条件似然，因此不需要访问原始翻译系统或质量估计模型。对真实机器翻译的评估表明，我们的方法在检测遗漏方面优于监督基线未来的工作可以解决添加误差的低精度问题，这在我们用于评估的数据集中相对罕见致谢这项工作是由瑞士国家科学基金会（项目MUTAMUR;没有。176727）。我们要感谢XinSennrich促进了注释者的招募，感谢ChantalAmrhein以及匿名评论者提供了有用的反馈。引用Loïc Barrault，Magdalena Biesialska，Ond ZarrejBojar，Marta R. Costa-jussà，ChristianFedermann，Yvette+v：mala2277获取更多论文Graham、RomanGrundkiewicz、BarryHaddow 、 Matthias Huck 、 Eric Joanis 、 TomKocmi 、 PhilippKoehn 、 Chi-kiuLo 、 NikolaLjubeetric'、ChristofMonz、MakotoMorishita、MasaakiNagata、Toshi-akiNakazawa 、Santanu Jakov、 Matt Post和 MarcosZampieri 。 2020. 2020 年机器翻译会议（WMT20）第五届机器翻译会议论文集，第1-55页，在线。计算语言学协会。Sheila Castilho，Joss Moorkens，Federico Gaspari，Rico Sennrich ， Vilelmini Sosoni ， Yota Geor-gakopoulou，Pintu Lohar，Andy Way，Anto- 尼奥·米切利·巴隆和玛丽亚·贾拉马。2017.使用专业翻译人员对PBSMT和NMT的质量进行比较评估2017年第16届机器翻译峰会，第116Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页，在线。计算语言学协会。放大图片作者：Christopher D.曼宁，乔金·尼夫，丹尼尔·泽曼。2021. 单身-单身。ComputationalLinguistics，47（2）：255-308.放大图片作者：Eric Fonseca，Lisa Yankovskaya，André F.T. Martins，Mark Fishel，and ChristianFedermann. 2019. WMT 2019的发现分享了质量评估方面的任务。第四届机器翻译会议论文集（第3卷：共享任务文件，第2天），第1-10页，意大利佛罗伦萨。计算语言学协会。Markus Freitag，George Foster，David Grangier，Viresh Ratnakar ， Qijun Tan ， and WolfgangMacherey.2021. 专家，错误和上下文：机器翻译的人类评估的大规模研究。Transactions of theAssociation for Computa- tional Linguistics，9：1460Fabio Kepler 、 Jonay Trénous 、 Marcos Treviso 、MiguelVera 和 AndréF.T. 马丁斯 2019.OpenKiwi：一个用于质量评估的开源框架。第57届计算语言学协会年会论文集：系统演示，第117计算语言学协会.Hyun Kim，Jong-Hyeok Lee，and Seung-Hoon Na.2017. 使用多层任务学习和堆栈传播进行神经质量估计的预测估计器。第二届机器翻译会议论文集，第562-568页，丹麦哥本哈根。计算语言学协会。Philipp Koehn 、 Hieu Hoang 、 Alexandra Birch 、Chris Callison-Burch、Marcello Federico、NicolaBertoldi、Brooke Cowan、Wade Shen、ChristineMoran 、 RichardZens 、 Chris Dyer 、 Ond ZarrejBojar、Alexandra Constantin和Evan Herbst。2007.Moses：统计机器翻译的开源工具包。在计算语言学协会第45届年会的会议录中，演示和海报会议的会议录，第177-180页，布拉格，捷克共和国。计算语言学协会.Xiang Kong，Zhaopeng Tu，Shuming Shi，EduardHovy，and Tong Zhang.2019年。具有充分性导向学习的神经机器翻译。在AAAI人工智能会议论文集，第33卷，第6618Mike Lewis，Yinhan Liu，Naman戈亚尔，Mar-jan Ghazvininejad ， Abdelrahman Mohamed ，Omer Levy ， Veselin Stoyanov ， and LukeZettlemoyer. 2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中，第7871-7880页，在线。计算语言学协会。Yanyang Li ， Tong Xiao ， Yinqiao Li ， QiangWang，Changming Xu，and Jingbo Zhu. 2018. 一种简单有效的覆盖感知神经机器翻译。在Proceedings of the 56th Annual Meeting of theAssociationforComputationalLinguistics（Volume 2：Short Papers），pages 292- 297，Melbourne，Australia.计算机语言学协会。Yinhan Liu，Jiatao Gu，Naman Goyal，Xian Li，Sergey Eddom ， Marjan Ghazvininejad ， MikeLewis，and Luke Zettlemoyer. 2020. 神经机器翻译的多语言去噪预训练。计算语言学协会的翻译，8：726Arle Lommel ， Hans Uszkoreit ， and AljoschaBurchardt.2014. 多维质量指标（MQM）：用于声明和描述翻译质量指标的。Tradumàtica，（12）：0455伊利亚·洛希洛夫和弗兰克·哈特。2019. 解耦权重衰减正则化。在学习表征上。João Pasta ， Miguel Vera ， Daan van Stigt ， FabioKepler，and André F. T.马丁斯2020. IST--参与WMT 20质量评估共享任务。第五届机器翻译会议论文集，第1029-1036页，在线。计算语言学协会。Peng Qi ， Yuhao Zhang ， Yuhui Zhang ， JasonBolton，and Christopher D.曼宁2020. Stanza：一个Python自然语言处理工具包，用于许多人类语言。在第58届计算科学+v：mala2277获取更多论文语言学：系统演示，第101- 108页计算语言学协会Raksha Shenoy，Nico Herbig，Antonio Krüger，andJosef van Genabith. 2021. 研究词级质量评估对编辑后机器翻译输出的。2021年自然语言处理经验方法会议论文集，第10173-10185页，在线和多米尼加共和国蓬塔卡纳。计算语言学协会。Lucia Specia，Frédéric Blain，Marina Fomicheva，Erick Fonseca ， Vishrav Chaudhary ， FranciscoGuzmán，and André F.T.马丁斯2020. WMT 2020的调查结果分享了质量评估的任务。第五届机器翻译会议论文集，第743计算语言学协会放大图片 Lucia Specia ， Frédéric Blain ， VarvaraLogacheva，Ramón F. Astudillo，and André F. T.马丁斯2018. WMT 2018的调查结果分享了质量评估的任务。第三届机器翻译集：共享任务文件，第689-709页计算语言学协会。Yuqing Tang ， Chau Tran ， Xian Li ， Peng-JenChen ， Na- man Goyal ， Vishrav Chaudhary ，Jiatao Gu，and Angela Fan.2021. 多语言翻译从去噪预训练。在计算语言学协会的调查结果：ACL-IJCNLP 2021，第3450计算语言学协会Zhaopeng Tu，Zhengdong Lu，Yang Liu，XiaohuaLiu，and Hang Li. 2016. 神经机器翻译的覆盖率建模。在Proceedings of the 54th Annual Meetingof the Association for Computational Linguistics（Volume 1：Long Papers），pages 76计算语言学协会Yi-LinTuan ， AhmedEl-Kishky ， AdithyaRenduchin- tala，Vishrav Chaudhary ，FranciscoGuzmán，and Lu- cia Specia.2021年没有人工标记数据的质量估计。在计算语言学协会欧洲分会第16次会议的会议记录，第619- 625页计算语言学协会扬尼斯·瓦姆瓦斯和里科·森里奇2021. 对比条件反射用于评估机器翻译中的消歧：蒸馏偏差的案例研究。2021年自然语言处理经验方法会议论文集，第10246-10265页，在线和多米尼加共和国蓬塔卡纳。计算语言学协会。Yonghui Wu，Mike Schuster，Zhifeng Chen，QuocVLe ， MohammadNorouzi ， WolfgangMacherey ， Maxim Krikun ， Yuan Cao ， QinGao，KlausMacherey，et al. 2016. 谷歌arXiv预印本arXiv：1609.08144。杨靖，张彪，秦岳，张祥文，林谦，苏劲松。2018.Otem Utem：NMT的过度翻译和翻译不足评估指标。在自然语言处理和中文计算，第291施普林格国际出版社.杨宗翰，程勇，刘扬，孙茂松。2019. 减少神经机器翻译中的单词遗漏错误：一种对比学习方法。计算语言学协会第57届年会论文集，第6191-6196页，意大利佛罗伦萨。计算语言学协会。Zaixiang Zheng，Hao Zhou，Shujian Huang，LiliMou，Xinyu Dai，Jiajun Chen，and Zhaopeng Tu.2018. 神经机器翻译的过去和未来建模。Transactions of the Association for Computa- tionalLinguistics，6：145Chunting Zhou，Graham Neubig，Jiatao Gu，MonaDiab ， Francisco Guzmán ， Luke Zettlemoyer ，and Marjan Ghazvininejad. 2021. 检测条件神经序列生成中的幻觉内容。在计算语言学协会的调查结果：ACL-IJCNLP 2021，第1393- 1404页，在线。计算语言学协会。A注释器指南你将看到一系列的源句子和翻译。文本中的一个或几个跨度被突出显示，并声称这些跨度翻译得很差。你被要求确定这一说法是否属实。突出显示的跨度可以在源序列中，也可以在翻译中。如果源句中有跨度，检查它是否被正确翻译。如果翻译中有一个跨度，检查它是否正确地传达了源。有时会突出显示多个跨度。在这种情况下，你的答案应该集中在对翻译来说最成问题的跨度上。在第二步中，系统要求您选择一个解释。一方面，如果你同意突出显示的跨度翻译得很糟糕，请通过选择你的解释来解释你的推理另一方面，如果你不同意，并认为跨度是翻译得很好，请选择一个解释，为什么跨度可能已被标记为翻译不好摆在首位。如果多种解释都是合理的，从顶部选择第一个。+v：mala2277获取更多论文我们的78.1 88.3 82.9 76.7 80.9 98.6 88.9我们的26.1 88.9 40.4 23.3 28.3 92.0 43.3表A2：预测一对短句和一对长句时的推理时间由于我们没有使用针对效率进行优化的解析器，因此我们额外报告了推理时间，而不包括解析所需的时间B综合误差我们使用从合成数据中保留的测试分割来执行额外的评估。在细分市场层面，我们报告了精确度、召回率和F1分数。与5.1节类似，如果预测的覆盖误差在片段中的任何地方确实存在该类型的覆盖误差，则预测在片段级别上被视为正确。在单词层面上，我们遵循之前关于单词层面QE的工作（Specia et al. ，2020），并报告测试集中所有令牌的马修斯相关系数（MCC）。结果结果示于表A1中。有监督的基线在英-德翻译上具有较高的准确性相比之下，我们的方法在合成误差上的表现明显不如监督基线。C推理时间表A2中报告了推断时间。我们测量了在英语-德语的短句对和长句对上运行覆盖错误检测方法所需的时间短句对取自图1，长句对在源序列中有40个标记我们在RTX 2080 Ti GPU上平均重复1000多次。我们的方法的更高的推理时间可以通过需要估计的翻译概率的数量来解释平均而言，我们在英语-德语MQM数据集中每句话计算30分，在中国-英语MQM数据集中每句话计算44分尽管如此，计算所有这些分数所需的时间只是生成翻译所需时间的一小部分（假设波束大小为5，短源句为254 ms，长句为861 ms）。通过考虑较少的潜在错误跨度，可以减少所需的分数数量此外，评分可以跨多个翻译的批次并行化最后，使用更有效的解析器，或者根本不使用解析器，可以加快推理速度。检测精确度而增加的召回F1MCC检测精确度遗漏召回F1MCCEN-DE监督基线98.8± 0.498.0±.298.4±.296.8±.1 94.0± 1.396.6± 0.4 95.3±.590.5±.278.1ZH-EN监督基线87.2± 1.575.7±.681.0±.372.6±.6 67.3± 1.368.0± 1.2 67.7±.953.8±.340.3表A1：基于具有合成覆盖错误的测试集的段级和字级（MCC）评估短句对长句对添加遗漏两添加遗漏两监督基线--25 ms--25 ms我们的方法40 ms45 Ms83毫秒165毫秒197毫秒 365毫秒– excluding18 Ms21毫秒38毫秒102 Ms144毫秒 239毫秒+v：mala2277获取更多论文~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~D数据集统计数据数据集分割段数令牌总W/添加W/遗漏Src. 好Src. 坏Tgt. 好Tgt. 坏EN–DE1352691842318423218591858378219784353911EN–DE169842328232827331173982751566781EN–DE169842328232827327777012750367032ZH–EN1101951069710697257613562311186656737730ZH–EN141491383138332674375622366854244ZH–EN140261342134232200075662347574882表A3：第4节中描述的合成覆盖误差数据集的统计数据。数据集分割Number总个段添加错误有一个遗漏错误EN–DE141877187EN–DE85084071057– without excluded4839162484ZH–EN199969516ZH–EN139953293360– without excluded88511491569表A4：Freitag等人的黄金数据集的统计数据（2021年）。E合成覆盖误差English–German部分来源：但他们全机器翻译：但是他们没有像我们一样组成一个团队。遗漏错误但是他们部分机器翻译：Aber sie haben nicht gelt.Chinese–English部分资料来源：The most important part of the study was the results of the study.医院和企业联合开发相关检测试剂盒，造福更多癌症患者。遗漏错误完整来源：医院和企业共同研发相关检测试剂盒，帮助及更多肿瘤患者。部分翻译：医院和企业联合开发相关检测试剂盒，让更多患者受益。+v：mala2277获取更多论文~~~~~F通过对比条件作用预测的覆盖率错误示例English–German消息来源：他补充说：“这“我的回答是：他说：“这是他的错，但这是他的错。”“原始MQM评级（Freitag等人，2021年）：三位评分员未标记相关准确性错误。我们的人类评分员回答：突出显示的目标范围翻译得不差。它可能被突出显示，因为它在语法上与源代码不同。突出显示的span的含义：hinzu =预测遗漏误差来源：英国机器翻译：Die medizinische Versorgung Großbritanniens ist im No-Deal-Brexit noch ungewiss原始MQM评级：三位评级人未标记准确性错误我们的人类评分员回答：突出显示的源跨度确实翻译得很差。它包含的信息是在翻译中丢失，但可以推断或微不足道。预测遗漏误差来源：汽车制造商被期望在未来几天内报告其季度车辆交付情况。机器翻译：Der Autoherstellerwird voraussichtlich in den nächsten Tagen seine vierteljährlichen Fahrzeugauslieferungen melden.原始MQM评级：三位评级人未标记相关准确性错误我们的人工评分员回答：突出显示的源跨度翻译得不差。span中的单词不需要翻译。Chinese–English资料来源：The most common problem is that the most important problem is the mechanismof realizing the mechanism of realizing the mechanism of realizing the mechanism ofrealization.美国指责伊朗发动了这次袭击，并对伊朗实施了新的制裁。原始MQM评级（Freitag等人，2021年）：三位评分员未标记相关准确性错误。我们的人类评分员回答：突出显示的目标范围翻译得不差。没有发现可能导致预测的现象。预测遗漏误差资料来源：I'm sorry. I'm sorry. I'm sorry.机器翻译：已收到来自俄罗斯农业企业的约50份申请原始MQM评级：三位评级人未标记准确性错误我们的人类评分员回答：突出显示的源跨度确实翻译得很差。它包含翻译中缺少的信息突出显示的跨度的含义：当前=预测遗漏误差资料来源：The results showed that the results of the study showed that the results of其中包括在北极地区。~~~~机器翻译：他说

下载后可阅读完整内容，剩余1页未读，立即下载