没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文为机器翻译提供更有效的人工评估Belén Saldías1,George Foster2,Markus Freitag2,QijunTan21麻省理工学院媒体实验室2谷歌研究belen@mit.edu,{fosterg,freitag,qijuntan}@google.com摘要文本生成技术(如机器翻译)的改进需要更昂贵和耗时的人工评估程序来确保准确的信号。我们研究了一种简单的方法来降低成本,通过减少必须注释的文本段的数量,以便准确地预测一个完整的测试集的分数。使用抽样方法,我们证明了来自文档成员资格和自动度量的信息可以帮助提高估计值与纯随机抽样基线的一致性。通过利用分层抽样和控制变量,我们实现了平均绝对误差我们的技术可以改善从固定的注释预算中进行的估计,易于实现,并且可以应用于与我们研究的结构类似的任何问题。1介绍随着自动自然语言生成系统的改进,评估它们对 于 人 类 和 自 动 方 法 都 变 得 越 来 越 困 难( Eschelikyilmaz et al. , 2020; Gehrmann etal. ,2022)。在机器翻译中,这导致了诸如MQM(Freitag et al. 2021 a,b),一种用于对输出进行评分的精心设计的基于错误的方法,通常由熟练的人类注释者执行。虽然MQM比传统的基于人群的Likert类型评分更准确,但它也可能明显更慢,更昂贵,从而产生了减少注释时间和成本的强烈动机。在本文中,我们研究了一个简单的解决方案,这个问题,即减少文本段的数量,人类注释必须率。我们假设一个基本的场景,其中一个注释者被给予一个测试集来评级,任务是通过让他们只对选定的子集进行评级来预测他们分配给整个集合这是一种自然而通用的部署人类注释工作在一个框架内,如MQM;它不同于最近的工作考虑类似的动机,重点是系统排名的任务(Mendonça等人。,2021; Thorleiks-dóttir et al. ,2021)或在没有预测人类表现的明确 目 的 的 情 况 下 组 合 人 类 和 度 量 分 数(Hashimoto et al. ,2019; Singla et al. ,2021年)。虽然我们的实验是用基于MQM的分数进行的,但我们的方法适用于任何将数值分数分配给项目以供以后平均的设置。我们的任务选择段作为一个抽样问题,并调查经典的方法,ods减少样本方差和边界估计误差。为了提高准确性,我们使用两个补充信息来源首先,根据最近的实践,我们假设片段被分组到文档中。这使我们能够利用文档中片段相对同质的趋势。其次,我们利用现代自动度 量 , 如 COMET ( Reiet al. , 2020 ) 和BLEURT(Sellam et al. ,2020年),其在分段水平上与人类判断的相关性优于传统的基于表面的指标,如BLEU(Papineni et al. ,2002年)。这些可以作为人类得分的粗略代表。我们表明,文件和度量信息可以用来减少平均估计误差高达20%以上的纯随机抽样基线。由于高样本方差,对于给定的误差容限,很难可靠地实现注释器工作量的类似减少然而,我们提出了另一种观点,在这种观点中,我们的技术可以用来改善基于固定评级预算的估计虽然不能保证在任何特定情况下都能击败随机抽样这种改进的估计器易于实现,并适用于任何人工标记任务,产生的数值分数,并为文档成员和自动度量。arXiv:2204.05307v1[cs.CL] 2022年4月+v:mala2277获取更多论文µ=ΣΣ∈≤|−|≈−l=1LL我 们 的工 作 是 最 相 似 的 Chaganty 等 人 。(2018),我们以多种方式扩展。我们采用他们使用的控制变量,但考虑多个指标,而不是只有一个,包括学习的metric组合;我们还采用现代神经指标,而不是基于表面信息的指标。我们结合控制变量与分层抽样使用比例或最优分配,并额外评估一个增量的情况下,抽样适应观察到的ratings。最后,我们研究了两种分析方法,以界定我们的估计误差。2方法我们假设一个固定的测试集,包括翻译的片段对,和一个单一的人类评分员谁作为-签名分数的片段。每个段属于一个文档,并且具有来自自动度量的分数的关联向量我们的目标是选择一个由评分者标记的信息片段子集,并使用该子集来预测如果我们要求评分者标记整个集合所得到的平均通过利用文档和度量信息,我们希望减少必须手动标记的段的数量。形式上,设x1,. . . XN是分段分数,2.1分层抽样分层抽样涉及将分数划分到分组相似项目的箱中,然后从每个箱中抽取一些项目。直观地说,这个想法是,如果每个容器内的方差很低,从特定容器中提取太多样本是低效的,因为它只用于改善已经很好的估计,因此样本应该均匀地分布在容器中(在某种意义上)。参见图1a的说明。作为一个附带的好处,如果标记的片段将成为进一步分析的对象,则使人类分数更均匀地分布在不同类型的片段上形式上,假设测试集被划分为L个bin,其中bin l包含Nl个片段,其中nl个片段已被采样,样本平均值为μl。然后分层估计为:Lµ=µlNl/N。(一)l=1很容易证明这是无偏的。分层抽样需要一种将测试集划分为箱的方法和一种将样本中的n个片段分配到各个箱的方法我们Ni=1 xi/N是要预先设置的测试集分数2研究了两种划分测试集合:按文档和度量分数相似性。”[10]“是”,“是”。以下辅助信息可用于每个分段i:指示其在D个文档中的一个中的成员资格的索引di,以及自动分类的向量最优(最低方差)分配与箱的大小和方差成比例地分配段n= nσlNl.(二更)度量得分yiRM。与细分市场的得分不同,只有当他们在所选的Lll=1 σl Nl子集,边信息总是可用于整个测试集。我们处理这个任务的问题,抽样N N分数X1,。. .,Xn,不从测试集替换,并从样本中得出μ的估计值μ,使得E(με)=μ(即με是无偏的),并且Var(με)尽可能小。低方差估计量更有可能估计误差µ小的将是小的。基线是随机画n个线段并计算由于bin方差σl是未知的,保守策略是假设它们都相等,导致纯比例分配:nl=n Nl/N。一种潜在的增强是使用估计变量σl来近似最优分配从每个箱中的度量得分导出的σ l。在分层抽样中出现了两个技术问题首先,由等式(2)指定的每箱大小不一定是整数。这可以使用舍入方案来解决,L|n l− nJ|,其中nJ是整数,方差:Var(µA)=σ2。N−n合计,合计第二个问题是nl可以是大于可用段的数量Nl当在高方差中使用最优分配时,n N−1我们研究了两种经典的无偏策略,以减少相对于 该 基 线 的 方 差 : 分 层 抽 样 和 控 制 变 量(Rice,2007; Bratley et al. ,2012)。垃圾箱当这种情况发生时,我们选择nlNl最大的箱,设置nl=Nl,然后循环地重新分配剩余的箱。 注意,当n小时,这两种策略都可以导致nl= 0的仓。他们的意思。这给出了一个无偏的估计+v:mala2277获取更多论文nn|−|ni=1我我n我我(a) 分层采样迫使采样段(以红色显示)均匀分布在各个容器中,当容器内的分数方差低于容器间的方差时,可以获得更好其中X<$n和Z<$n是样本的平均值,协方差是整个测试集的平均这是使用信息的最小方差估计量来自玉米栽培它是无偏的,因为Xn是无偏的,Cov ( X , Z ) 与 当 前 样 本 无 关 , E(Z<$n)=0。控制变量估计量可以被认为是使用Z<$n来推断X<$n已经从μ偏移了一个方向,并且反向这种偏移量取决于X和Z之间的相关性-见图1b的说明。一般来说,Cov(X,Z)是未知的,但它可以从样本中估计如下:1Cov(X,Z)<$1 <$X Z.i=1控制变量估计量可以通过形成线性组合来扩 展 以 处 理 多 个 辅 助 变 量 ( Glynn 和Szechtman,2002):(b) 控制变量允许根据X和Z之间相关关系的强度来反转样本均值X<$n的偏移。在这个例子中,X和Z高度相关,µ=X<$n−(E(ZZT)−1E(XZ))TZ<$n(4)根据公式(1.0.9),Z<$n0反映了X<$n的ngiv e偏移。图1:减少估计平均得分方差的补充策略。增量抽样在此之前,我们假设采样的工作原理是选择一个固定的n个片段,然后发送给他们打分。也有可能是con-在交互式场景中,评分员按顺序标记片段,并且在接收到每个新的评分后细化采样过程一个方便的方法来纳入已知的评级是使用它们来改善最优分配中的每箱方差估计σl。我们测试了实现这一点的两种方式:从每个仓中的已知评级经验地估计ση1;以及学习所有已知评级上的从度量y到评级X的一般映射,然后使用该映射来估计每个仓中的未知评级,并从这些估计中得出ση12.2控制变量控制变量估计器使用辅助变量,其中Z是标准化变量的向量,Z<$n是样本上的均值,协方差矩阵ZZT和加权向量XZ的期望值是在测试集上取的。后者是未知的,但在标量情况下,它可以从样本中估计:E(XZ)<$1<$XZ.i=1在我们的设置中,控制变量很容易通过标准化度量分数yi得到,这可用于测试集中的所有片段。结果估计量是方便的,因为它是在采样完成后应用的,使其独立于采样方法,包括样本是递增还是以批处理模式绘制。2.3误差界对于实际应用,最好将误差上限设为µ在某种程度上的信心估计分数的µ。给定置信水平γ(例如,0.95),我们希望找到误差界t,使得:标准化的随机变量Z(具有P(|µ−µˆ|≤t)≥γ(5)零平均值和单位方差):1这个等式是在完整的测试集上扩展Cov(X,Z),去掉所有包含真µm=X<$n-Cov(X,Z)Z<$Z的平均值(通过构造为0),并估计样本中剩余或者,可以选择变量(Z)(三)纯粹从样本中估计Cov(X,Z)为=X<$n−Cov(X,Z)Z<$nX<$)(Zi− Z<$)/n。n+v:mala2277获取更多论文.- -−|−|经典的界限可以从Hoeffding不等式导出,该不等式t=Rknlog(2/δ),2N其中R是测试集中最大和最小分数之间的差值,δ=1γ,kn=1(n1)/N是无替换抽样的调整(Serfling,1974)。Hoeffding不等式的一个问题 在这种情况下,Bernstein界(Mnihet al. (2008年)将更加严格:我们的开发数据中的分数2这些相关性一般都很差:英语-德语在0.279-0.410之间,汉语-英语在0.425-0.465之间3为了消除超参数调整对开发数据的影响,我们对由WMT 2021指标共享任务(Freitag etal. ,2021 b)用于英语-德语(17个系统)、汉语-英语(15个系统)和英语-俄语(16个系统)。这类似于开发数据,除了每个段只有一个MQM评级德语和俄语的评分段数为527,汉语 为 650 使 用 不 同 的 MQM 方 法 ( 来 自Unbabel,而不是t=σ2 log(3/δ)n3Rlog(3/δ)+,n比谷歌),导致分数在0和以前一样,我们为每个系统创建了单独的模拟,忽略了人类其中,σ是方差的样本估计值。注意,R的贡献在此情况下以1/n减小公式,与Hoeffding公式中的1/n绑定这两个界限都是一般性的,因为它们对分数分布没有任何假设3数据我们的开发数据包括Freitag等人(2021 a)对WMT 2020新闻测试集(Barrault等人)中的10个英语-德语和10个汉语-英语“系统”(包括人工 翻 译 和 机 器 翻 译 ) 的 MQM 评 级 。 ,2020)。每个部分都由三位专家评分员进行注释,评分范围从0(完美)到25(最差)。每个语言对有六个注释者,每个注释者对一组文件的所有系统输出进行评级,该组文件包括大约一半的完整测试集(德语约710段/评级者,中文约1000段/评级者)。我们为每个评分员和系统组合创建了模拟,但不包括Human-A这导致每个语言对的54个模拟。对于每个模拟,任务是预测由单个评分员为单个系统注释的完整片段子集的平均分数。不允许在模拟过程中泄漏其他部分、系统输出或评核人决策的知识。作为功能,我们使用了提 交 给 WMT 2020 指 标 任 务 的 10 个 指 标(Mathur et al. ,2020年),与MQM具有最高平均分段水平Pearson相关性“系统”用作度量的参考。为了避免偏差,而不是根据相关性选择指标,我们从开发数据中选择了WMT 2021主要提交的两个表现最好的指标:BLEURT和COMET。4附录A包含关于开发和测试集的分数和评分员分配的更多详细信息4结果我们测试了第2节中描述的抽样和估计策略,并将其与具有均值估计的简单随机抽样的基线进行了比较。对于每个模拟,我们考虑的样本量范围为可用数据的55对于每种样本量和建立误差的技术,我们随机抽取100个样本,计算误差的平均值和标准差。在样本量之间进行比较,然后对模拟结果进行比较,以总结该样本量下的性能。我们还测量了“胜利”的数量--在模拟中,技术人员的平均误差低于基线。最后,我们汇总了不同样本量的结果,以一个数字总结性能2我们还尝试使用所有提交的指标,结果略差。3为了比较,靶序列长度相关性是0.223和0.439(优于中国人的三个最低等级的ed度量)。4主要提交的是BLEURT-20和COMET-MQM_2021。5超过50%,基线估计量的方差非常低,改进的机会有限.+v:mala2277获取更多论文4.1分层抽样方法绝对误差发展局赢率%恩德基线0.1710.128–docs-prop0.1580.11875.7docs-opt0.2130.14532.6米制支柱0.1570.11877.2镇基线0.2900.217–docs-prop0.2500.18792.4docs-opt0.3560.23327.2米制支柱0.2460.18591.1表1:按5%-50%的样本量汇总的分层抽样结果段分配被称为我们首先评估第2.1节中描述的分层抽样方法,比较文档和度量分数定义的bin上的分层。后者是通过用分配给它的标准化度量分数的平均值对每个片段进行评分,然后进行排序和分割,使得每个bin包含大约80个片段(比平均文档大8倍)。更精细的聚类和度量选择技术并没有比这种方法更好。作为bin大小的函数,Per也相当平坦,但当bin大小接近平均文档大小时,Per恶化我们测试了两种分层方法与比例和最优分配使用平均指标分数作为代理人的分数时,估计每个箱的方差。图2显示了这些方法的绝对误差作为样本量的函数,表1总结了估计值仅略高于基线。即使在比较每次模拟平均超过100次随机抽取的错误时,分层估计仅优于约75%的模拟(英语-德语)和90%的模拟(汉语-英语)的基线增量抽样方法abs错误sdev win %EnDe基线docs-incr-metricsdocs-incr-human0.171 0.1282018年12月31日26.7ZhEn基线0.290 0.217–文档-增量-度量0.346 0.23925.4docs-incr-human0.418 0.25127.4表2:增量分层抽样结果在5%表2显示了使用文档作为箱的增量分层抽样的汇总结果,其中有两种方法用于估计最佳分配的每个箱6docs-incr-metrics方法涉及学习k-最近邻(k=25)模型,该模型将标准化度量作为所有标记片段的特征,然后使用其预测来估计每个bin中未标记片段的方差。在docs-incr-human中,每个bin中剩余片段的方差是根据已经评分的片段估计的。这两种方法的性能都低于基线;特别是,在docs-incr-metrics中使用学习映射仅比docs-opt中的原始平均值提供了适度的增益。4.2控制变量和组合结果在不同规模之间提高聚合性能基因-对于两种语言对,均衡模式是相似的:具有文档的比例分配(docs-prop)优于随机采样基线;具有度量的比例分配(metrics-prop)具有相 似 的 性 能 ; 以 及 具 有 文 档 箱 的 最 优 分 配(docs-opt)性能不佳,具有度量箱的最优分配也是如此(未示出,因为它差得多)。最优分配集中在具有高估计方差的箱上-如果估计错误,这将是有害的-所以我们实验与各种平滑方法,但没有改善了纯比例分配。虽然分层明显地减少了平均误差,但该结果的有用性被表1中所示的大方差所缓和。对于任何给定的随机抽取,这些意味着分层表3:5%现在我们转向2.2节中描述的控制变量估计量的实验.图3[6]由于篇幅原因,我们省略了相应的曲线。方法abs错误sdev win %EnDe基线0.171 0.128cv-布勒特0.158 0.118 74.3变异系数均值0.159 0.118 74.8cv-multi 0.160 0.118cv-knn 0.158 0.119 74.1ZhEn基线0.290 0.217cv-bleurtcv平均值0.251 0.188 88.3cv-multi 0.254 0.188cv-knn 0.246 0.185 92.2+v:mala2277获取更多论文图2:分层抽样方法的绝对误差和标准差。图3:随机抽样下不同控制变量估计量的绝对误差和标准差方法EnDe基线docs-propcv-knndocs-prop+cv-knnmetrics-prop+cv-knnZhEnbaselinedocs-propcv-knndocs-prop+cv-knnmetrics-prop+cv-knn绝对值错误sdev win %0.171 0.1280.11875.72019年12月31日0.11088.50.11677.80.290 0.2170.18792.40.18592.20.16798.5244 0.18292.0在基线上,具有非常相似的错误率,特别是对于英语-德语。对于中文-英文,将所有指标与knn模型相结合,比BLEURT扩展略有改善,将绝对误差降低了5%。这可能反映了该语言对的度量相关性较高。由于控制变量估计是在采样完成后应用的,因此可以直接将其与分层相结合。图4和表4显示了表4:在5%-50%的样本量范围内,合并分层抽样和对照表3给出了结果。我们从以下导出标准化标量变量 以插 入等式 ( 3): 单个 高性能 度量(BLEURT-扩展的,cv-bleurt);所有度量的平均值(cv-平均值);以及从标记片段上的所有度量值学习的knn模型的预测(cv-knn)。我们还直接使用所有标准化度量(cv-multi)作为等式(4)中向量的输入。7所有经过测试的变体都给出了合理的改进[7]请注意,与knn模型不同,后者将分数线性组合。将使用文档的比例分层采样与最佳控制变量估计器(docs-prop+cv-knn)以及用于比较的分量技术相结合的结果。正如人们所希望的那样,尽管这些技术各自的性能相似,但它们是互补的有趣的是,当基于度量的聚类器而不是文档用于分层时,情况并非如此(metrics-prop+cv-knn,表4中的最后一行),因为相同的信息用于两种方差减少技术。docs-prop+cv-knn组合产生了我们最好的结果,在英语-德语和英语-汉语的基线上分别减少了14%和23%的误差,并且在几乎90%和100%的模拟中分别具有更好的平均性能。然而不幸的是+v:mala2277获取更多论文方法abs err sdev win %EnDe基线0.203 0.153docs-prop+cv-knn 0.188 0.140 78.1ZhEn基线0.359 0.267docs-prop+cv-knn 0.283 0.212 97.9EnRu基线1.601 1.197docs-prop+cv-knn 1.482 1.117 77.3图4:控制变量估计量和分层抽样的绝对误差和标准差这些估计值的标准偏差仍然令人不安地接近平均绝对误差的大小。4.3误差估计恩德镇大小宾馆(4)宾馆(7)(%)calslack tcalslack t10基地920.360.61890.560.90最好960.40970.4930基地930.190.31900.290.46最好960.20960.2550基地920.120.20900.190.30最好960.13960.16表5:不同样本大小的误差界限性能统计数据在模拟中取平均值:cal是真实误差低于界限的样本的%,slack是界限与误差之间的差异,t是界限。base是基线估计器,best是docs-prop+cv-knn。尽管单个样本之间存在很大的差异,但如果能够可靠地限制来自给定样本的估计值中的误差,则抽样技术在实践中可能是有用的我们使用docs-prop+cv-knn计算了2.3节中不同样本量的边界,设置γ=0。九十五。Hoeffding和Bernstein的界限都非常宽松,高估了100%样本的真实误差,比图4中的平均误差大一个数量级。[8]我们假设这是由于分数具有较大的R范围,并且与µ R高度偏斜。为 了 验 证 这 一 点 , 我 们 重 新 计 算 了Hoeffding界限,其中R值为4,7为英语-德语和汉语-英语。如表5所示,这给出了对于doc-prop+cv-knn良好校准(校准>95%)的结果,具有合理的误差界限。性能是一些-什么更糟糕的基线估计,虽然这两种技术之间的误差差异是可以忽略不计的预测界限相比。这个预言实验表明,很难找到比基线低得多的doc-prop+cv-knn的非预言界限4.4测试数据表6:5%-50%样本量范围内基线和最佳组合估计量图5和表6显示了在我们的评估集上比较基线随机抽样与docs-prop+cv-knn曲线和聚合结果都显示出与开发结果相似的模式,对于汉语-英语,相对于基线的增益相对较大(相对误差减少21%,在98%的模拟中获胜),而对于英语-德语和英语-俄语9,增益较小和以前一样,标准差非常高。[8]令人惊讶的是,伯恩斯坦界更差一些可能是由于我们的样本量小,加上9注,绝对误差较高的英语-大乘数的R在伯恩斯坦公式。俄罗斯由于4倍规模的收视率。+v:mala2277获取更多论文≤|−|图5:控制变量估计值和分层抽样对评估数据的绝对误差5讨论我们应该如何解释这些结果?如果我们有一种更可靠的方法,将具有类似人类评级的细分这将使我们能够确定需要评级的片段的数量n,然而,事实上,我们的误差范围非常大,而且我们无法通过改进的采样和估计方法来显著降低它们。对于像机器翻译这样的复杂注释任务,这不太可能很快改变,因为人类是嘈杂的评分者;如表12所示,即使使用其他人作为预言者,也很难预测。在没有更可靠的信号来减少方差的情况下,实际使用我们研究的技术的一种方法是翻转场景,旨在提高从n个人类评级的固定预算中做出的由于时间或成本的限制,通常的做法是仅为 较 大 测 试 集 的 一 部 分 获 取 人 工 注 释( Barrault et al. , 2020; Freitaget al. ,2021a)。在这种情况下,与仅取随机选择的片段的平均值相比,我们的技术可以改进估计(尽管不能保证它们会对任何给定的样本这样做)。实施这一战略的风险很低。采用比例分配的分层抽样提供了测试集平均值的无偏估计值,方差为随机抽样(Rice,2007),只有在箱具有相同统计量的情况下才相等。对于控制变量来说,情况要复杂得多。在理论上,控制变量估计量是也是无偏的,具有比样本平均值更低的方差,但是这假设得分X和辅助变量Z之间的测试集协方差Cov(X,Z)是已知的。由于我们只知道样本中的分数,因此我们必须依赖于Cov(X,Z)的估计值,如果这显著大于真实的协方差,则可能会产生错误。然而,正如Chaganty 等 人 ( 2018 ) 指 出 的 那 样 , Cov(X,Z)的样本估计误差以1/n的速率递减,比1/n的速率快得多对于错误,在估计的分数中,在我们数据,我们发现在小样本上,即使是包含少至30个项目的样本,也没有明显的性能下降。基于这些观察,我们可以提出以下建议,以提高包含N个项目的测试集的估计平均得分,给定固定数量n N的项目进行手动注释:1. 使用先验信息(如文档分类)将项目划分为箱,然后使用等式(1)中描述的分层抽样选择项目,并按比例分配。当从每个箱中只取几个样本时,请注意舍入误差。2. 使用与人类评分相关的自动度量或其他特征作为等式(3)中的控制该步骤在采样完成后进行,与所使用的采样方法如果有多个指标可用,则通过平均或应用在样本上学习的平滑回归器将它们组合成一个变量(k=25的knn对我们很有效当n为时,请注意协方差估计值中可能存在错误小(≤30)。+v:mala2277获取更多论文6相关工作Chaganty et al.(2018)开创了NLP评估的控制变量,使用它们来改进总结和问题回答的估计。尽管有一些技术上的差异,他们测量的是方差比而不是绝对误差,通过从一组评分者中取样来模拟人为方差,并使用自举置信区间,但他们的研究结果与我们的研究结果大致一致。我们扩展了他们的工作,证明分层抽样的收益与控制变量的收益是互补的,并探索了更广泛的场景,包括使用多变量和增量抽样。最近的工作已经调查了增量标记任务和/或将人类评分与自动度量相结合。 Mendonça等人 (2021)将在线学习算法应用于MT系统排名任务,其中在每次迭代中选择不同的分段进行人类评估,使用COMET来填充WMT 2019数据中缺失的人类评分。他们的算法经过几百次迭代后收敛到正确的结果,但这种情况不会自动检测到。 Thorleiksdottir等人 (2021)使用Hoeffding不等式来衡量受控文本生成输出的不同难度的成对排名决策的置信度;他们只考虑人类得分。Singla等人(2021)对人类评分的外语测试答案进行了 Hashimoto等人(2019)提出了一种人工和自动评分的协同组合,用于评估文本生成。最后,在测量和纠正人类标记的不准确性方面有相当多的工作(Sun et al. ,2020; Wei andJia,2021; Glad-koffet al. ,2021; Paun et al. ,2018)。我们通过预测单个人类评分员的表现来回避这个问题,假设如果可以准确地做到这一点,则可以在后处理步骤中解决评分员之间的冲突。7结论我们研究了两个经典的方差减少技术,用于提高MT输出的采样人类评级的准确性,针对给定测试集的所有评级的平均值进行测量我们发现,分层抽样和控制变量是复杂的,贡献约相等 的 收 益 高 达 20% 的 平 均 绝 对 误 差 减 少COM。随机抽样。利用这一结果来动态地减少注释者的工作量,给定目标误差容限是不可行的,因为我们的数据方差很大,但我们建议我们的技术可以用来改善从固定注释预算中做出的估计。第5节提供了这一设想的具体建议。我们的方法很容易实现,并可以应用于任何设置,涉及平均数值项目的分数,其中文件(或其他事先分组)和自动度量边信息。在未来的工作中,我们期待着深入研究我们的结果所提出的问题:为什么引用Loïc Barrault , Magdalena Biesialska , Ond ZarrejBojar , MartaR.Costa-jussà 、 ChristianFedermann、YvetteGraham、RomanGrundkiewicz、Barry Haddow、Matthias Huck、Eric Joanis 、 Tom Kocmi 、 PhilippKoehn 、 Chi-kiuLo、Nik olaLjubešic'、Christof Monz、MakotoMorishita、MasaakiNagata、Toshi-akiNakazawa 、Santanu Moga、Matt Post和MarcosZampieri 。 2020. 2020 年 机 器 翻 译 会 议(WMT20)在第五届机器翻译式上,第1-55页,在线。计算机语言学协会。P. Bratley,B.L. Fox和L.E.施拉格2012. 模拟指南。纽约斯普林格。Arun Chaganty,Stephen Mussmann,Percy Liang。2018. 自然语言评估中自动度量去偏的代价。在Proceedings of the 56th Annual Meeting of theAssociationforComputationalLinguistics(Volume 1:Long Papers),pages 643-653,Melbourne,Australia.计算语言学协会。Markus Freitag,George Foster,David Grangier,Viresh Ratnakar , Qijun Tan , and WolfgangMacherey.2021年a. 专家,错误和上下文:机器翻译的人类评估的大规模研究。Transactions ofthe Association for Computa- tional Linguistics ,9:1460Markus Freitag,Ricardo Rei,Nitika Mathur,Chi-kiu Lo , Craig Stewart , George Foster , AlonLavie,and Ond Zarrej Bojar. 2021b的最后一页。WMT21标准共享任务的结果:在TED和新闻领域使用。第六届机器+v:mala2277获取更多论文翻译,第733计算语言学协会Sebastian Gehrmann,Elizabeth Clark,and ThibaultSellam. 2022.修复破裂的基础:对生成文本评价实践中的障碍arXiv预印本arXiv:2202.06935。Serge Gladkoff,Irina Sorokina,Lifeng Han,andAlexandra Alekseeva. 2021.翻译质量评估中的不确定性度量。arXiv预印本arXiv:2111.07699。彼得·W·格林和罗伯托·塞奇特曼。2002.控制变量法的一些新观点。在Monte Carlo和Quasi-MonteCarlo方法2000中,第27-49页。斯普林格。Tatsu Hashimoto,Hugh Zhang,和Percy Liang.2019年。统一人类和统计评估自然语言生成。北美计算语言学协会(NAACL)。Nitika Mathur , Johnny Wei , Markus Freitag ,Qingsong Ma , and Ond Jingrej Bojar.2020 年 。WMT20指标共享任务的结果。第五届机器翻译集,第688计算语言学协会。Vânia Mendonça , Ricardo Rei , Luísa Coheur ,Alberto Sardinha,and Ana Lúcia Santos.2021年在线学习与机器翻译评估相结合:用最少的人力找到最好的系统。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议(第1卷:长文)的筹备工作中,第3105- 3117页。Volodymyr Mnih , Csaba Szepesvári , and Jean-Yves Audibert. 2008.经验伯恩斯坦停止。第25届机器学习集,第672Kishore Papineni,Salim Roukos,Todd Ward,andWei-Jing Zhu.2002. Bleu:一种机器翻译的自动评价方法。在计算语言学协会第40届年会上,第311Silviu Paun , Bob Carpenter , Jon Chamberlain ,Dirk Hovy,Udo Kruschwitz和Massimo Poesio。2018.注释的基本模式比较《计算语言学协会学报》,6:571Ricardo Rei,Craig Stewart,Ana C Farinha,andAlon Lavie. 2020. COMET:机器翻译评估的神经框架。在2020年自然语言处理经验方法会议(EMNLP)的会议中,第2685-2702页。计算语言学协会。J.A. 大米. 2007年 数理统计与数据分析.高级系列圣智学习Thibault Sellam,Dipanjan Das,and Ankur Parikh.2020. BLEURT:学习文本生成的鲁棒指标。在计算语言学协会第58届年会的会议记录中,第7881计算语言学协会R. J. Serfling。1974.无替换抽样中和的概率不等式。统计年鉴,2(1)。Yaman Kumar Singla,Sriram Krishna,Rajiv RatnShah,and Changyou Chen. 2021. 使用抽样来估计和改进自动评分系统。大 卫 ·Q Sun , Hadas Kotek , Christopher Klein ,Mayank Gupta,William Li,and Jason D.威廉姆斯2020. 通过动态自动冲突解决改进人工标记的数据。第28届计算语言学,第3547国际计算语言学委员会。Thórhildur Thorleiksdóttir , Cedric Renggli , NoraHollenstein,and Ce Zhang.2021年用于相对模型比较的动态人体评估。强尼·魏和罗宾·贾。2021. 系统级自动NLG度量的统计优势。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议中,第6840-6854页,在线。计算语言学协会。Asli Elikyilmaz,Elizabeth Clark,and Jianfeng Gao.2020.文 本 生 成 的 评 价 : 一 项 调 查 。 ArXiv ,abs/2006.14799。+v:mala2277获取更多论文EnDe ZhEn评分员SEGS文档SEGS文档评分员17136499376评分员26836699276评分员370566101278评分员47096599679评分员572264102177评分员67226598679语料库 1418 1302000 155表7:WMT 2020新测试中每个评分员为每个系统标注的片段和文件数量。恩德系统MQM镇系统MQM人类-B0.75人类-A3.43人类-A0.91人类-B3.62人类-P1.41VolcTrans5.03东北2.02微信5.13Oppo2.25腾讯5.19电子翻译2.33Oppo5.20腾讯2.35霹雳舞5.34VolcTrans2.45DeepMind5.41在线-B2.48DiDi_NLP5.48在线-A2.99在线-B5.85表 8 : WMT 2020 输 出 的 MQM 评 分 ( Freitag etal. ,2021a)。评分范围从0(完美)到25(最差)。用于度量的参考以粗体显示。A数据本节详细介绍了我们实验中使用的开发和测试数据。表7显示了在我们的开发数据中分配给每个评分者的片段和文档的数量。表8包含分配给所有10个评估系统的分数;每个分数是每个部分的三个评分者分数的平均值,在测试集中的所有部分上取平均值。表9列出了用于开发集实验的选定指标,以及每个指标的分段水平Pearson相关性表10和11包含测试数据中使用的三种语言对的评分员分配和系统分数+v:mala2277获取更多论文恩德度量R镇度量RBLEURT扩展0.410COMET-QE0.465COMET-2R0.379BLEURT扩展0.460COMET-MQM0.364宜思二号0.453COMET-QE0.358COMET-2R0.452彗星0.349BERT-base-L20.446彗星0.326OpenKiwi-XLMR0.440OpenKiwi-XLMR0.314BERT-large-L20.440mBERT-L20.306BLEURT0.437棱镜0.293彗星0.433宜思一号0.279mBERT-L20.425目标长度0.223目标长度0.439表9:WMT 2020最新测试中选定的自动指标和MQM对系统输出
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功