没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文DaLC:神经机器翻译Cheonbok Park<$、Hantae Kim<$、IoanCalapodescu、 Hyunchang Cho< $和VassilinaNikoulina[2] Papago,NAVER Corp.,NAVER LABS欧洲{cbok.park,hantae.kim,hyunchang.cho}@navercorp.com{ioan.calapodescu,vassilina.nikoulina}@ naverlabs.com摘要神经机器翻译(NMT)模型的领域自适应(DA)通常依赖于预先训练的通用NMT模型,该模型在域内并行数据样本上适应新的领域。如果没有并行数据,就无法估计DA的潜在益处,也无法估计它所需的并行样本量。然而,这是一个理想的功能,可以帮助MT从业者在投入资源创建数据集之前做出明智的决定。我们提出了一个域适应学习曲线预测(DaLC)模型,预测未来DA性能的基础上,在域单语样本的源语言。我们的模型依赖于NMT编码器表示与各种实例和语料库级别的功能相结合。 我们证明,实例级能够更好地区分不同的领域相比,语料库级别的框架提出了在以前的研究(夏等。,2020; Kolachina等人,2012)。最后,我们对结果进行了深入的分析,强调了我们方法的局限性,并为未来的研究提供了方向。1介绍经 典 的 领 域 自 适 应 场 景 ( Freitag 和 Al-Onaizan,2016;Luong和Manning,2015)通常依赖于现有的NMT模型,该模型在来自各种来源的大型数据集上进行训练。该通用模型通过微调或其他DA方法适应于新的领域,具有小样本的域内并行数据。如果没有任何并行的域内数据,我们就无法估计一般NMT模型在感兴趣域上的质量,也无法预测DA的好处以及需要多少并行的域内数据。在这项工作中,我们解决了翻译服务提供商可能经常面临的问题,通讯作者接收对新域转换的请求。在这种情况下,一个新的领域通常由其源语言样本定义,翻译提供商需要投资于域内并行数据集创建,以便能够对其通用模型进行评估和领域适配。NMT域自适应的当前最新研究很少提供关于根据输入域characteristics执行域自适应所需的数据量的然而,这是一个期望的特征,其将允许(i)估计请求适应全新域的客户端的数据创建成本(时间和金钱方面);(ii)当需要同时处理多个这项工作的目标是更好地了解领域适应动态,并为这种现实生活中的场景提供实用的指导方针几项研究解决了学习曲线估计模型的问题(Xia et al. ,2020; Ye等人,2021; Kolachinaet al. ,2012)的MT或NLP模型,而没有实际培训这些。这是通过训练预测模型来完成的,该预测模型将语料库级表示X作为输入,并预测该语料库的得分y在MT学习曲线预测的情况下,X将对应于并行数据样本(用于训练MT模型),y是在X上训练的MT模型获得的BLEU分数。这意味着每个训练点的创建都需要训练一个新的MT模型,如果我们想要创建一个合理大小的训练集,这可能会变得非常昂贵。在这项工作中,我们提出了一个新的框架来执行在实例级的预测模型的学习。通过利用实例级表示,它可以显著降低创建arXiv:2204.09259v1 [cs.CL] 2022年4月+v:mala2277获取更多论文影响DA学习曲线的因素有很多:新领域的复杂度、领域内样本的特性、新领域的基线性能、DA算法及其超参数。在这项工作中,我们集中在领域的复杂性和领域内的样本特性的相关因素我们特别感兴趣的是了解我们可以从源代码中获得多少只在域中的样本,这对应于现实生活中的场景。Aharoni和Goldberg(2020)指出,域的概念可能是模糊的。他们认为,预训练语言模型(LM)表示可以包含有关不同领域的丰富信息在NMT域自适应的上下文中,NMT编码器表示更适合于表征不同的域,并且更适合于评估那些域对于一般NMT模型的难度(Del etal. ,2021年)。这项工作的主要贡献是:(i) 我们将DA学习曲线预测问题描述为实例级框架,并证明实例级表示有利于跨不同领域的细粒度知识转移,从而显着降低训练样本创建的成本(ii) 我们提出了一种预测模型,该模型依赖于NMT编码器表示与许多其他实例和语料库级别的特征相结合,仅从单语言(源)域内样本计算;(iii) 我们分析了仅基于源侧信息的DA性能预测可以走多远,并在第7节中概述了此约束的一些限制。2相关工作学习曲线预测的问题可能与自然语言处理(NLP)和机器学习中的许多不同的现有问题有关。在本节中,我们简要回顾了一些试图预测学习曲线(也称为缩放定律)或不同NLP任务的域转移的工作我们还概述了NMT主动学习的一些工作,因为这些功能也可能与我们的任务相关。学习曲线和领域转移预测。有许多作品试图预测模型的性能,而不实际执行(甚至训练)模型 在 不 同 的 上 下 文 中 。 Elsahar 和 Gallé(2019)预测了在域转移问题下分类器Xia等人 (2020); Ye等人(2021)研究了基于先前观察到的不同性质的任务的集合来预测新的NLP任务性能的问题。他们提出的模型在MT上进行了评估。离我们最近的是Kolachina等人。 (2012)预测了统计机器翻译(SMT)任务的学习曲线。他们将任务公式化为参数函数拟合问题,并基于域内源和/或目标样本(假设没有域内并行样本可用)来推断依赖于特征集的学习曲线上述工作中的大多数依赖于语料库级别的分数预测,因此需要大量的训练MT模型实例来为预测模型生成足够数量的训练点。最近,人们对语言模型的标度律建模很感兴趣(Kaplanet al. ,2020)或NMT模型(Gordonet al. ,2021; Ghorbani et al. ,2021年)。 类似于(Kolachina et al. ,2012年),这些作品试图导出一个参数函数,该函数允许在模型的训练特征(数据量、参数或计算)与模型的最终性能之间建立联系。这些模型在语料库级别上操作,并且没有解决领域适应的问题(以及不同领域可能随之而来不同的缩放律函数)。据我们所知,我们的工作是第一次尝试专门解决学习曲线预测的背景下,NMT域自适应。我们提出了一个依赖于NMT编码器表示(以前的工作都没有)结合其他功能的实例级框架。由于这个框架,我们提出的框架需要少量的训练MT模型,少于10个模型。主动学习NMT。主动学习(AL)算法的建立是为了选择最有用的样本,以提高给定模型的性能。因此,AL算法在NLP或MT任务中使用的标准(Zhang et al. ,2017; Zhao et al. ,2020;Peris and Casacuberta,2018;+v:mala2277获取更多论文Bleu25Dou等人,2020; Wang等人,2020; Zhan等人,502021)也可以用作区分特征45当涉及到预测未来的NMT每35- 是的我们重新使用一些评分功能30由第20节中规定的先前工作引入4.2. 另一方面,我们认为,学习曲线预测框架可以帮助1千10千20千100k1千10千20千100k识别AL框架的重要特征和/或样本。3真实领域自适应学习曲线在本节中,我们分析了NMT领域自适应的几个真实学习曲线,以展示学习曲线在各个领域的表现,并激励我们的工作。为了进行这种分析,我们首先提出了NMT基线模型(即,一般模型),以及用于域适应的数据集我们还讨论了我们在训练学习曲线预测模型1时可以依赖的NMT评估指标。NMT模型。我们考虑两种不同的NMT系统:在WMT 20数据集上训练的英语-德语和德语-英语系统(Barrault et al. ,2020)。我们在附录A中提供了有关用于训练这些NMT系统的架构和数据集的技术细节。域 适 配 数 据 。 我 们 依 赖 Aharoni 和 Goldberg( 2020 ) 发 布 的 数 据 集 。 该 数 据 集 由train/dev/test组成,具有重复的句子。该数据集从OPUS(Tiedemann,2012)中分离出5个领域(古兰经、IT、医学、法律、字幕),用于德语-英语。对于每个域,我们在d域创建大小为n(n=1K,10K,20K,100K)的随机样本Sn,d然后,这些样本用于训练域适应模型MSn,d的实例,从而得到总19款2.我们将进一步将这些不同样本的大小称为(学习曲线的)锚点域适应。对于每个一般NMT模型(基线),我们创建一组在先前描述的域内数据(锚点)的不同样本上训练的域自适应模型1在下文中,我们可以将学习曲线预测器模型称为预测器,以避免与NMT模型混淆。2我们图1:英德NMT模型的领域适应学习曲线。Y轴表示域适应模型的性能(例如,chrF或BLEU),X轴:域自适应所使用的域内样本的量(对数尺度)。域自适应仅通过微调域内数据集来完成(附录A提供了详细信息)。NMT评价。我们的主要目标是获得一个语料库水平的分数,这将使我们能够评估DA性能,这是传统上衡量的BLEU分数(Papineni等。,2002年)。虽然BLEU分数可能在语料库级别上与人类判断表现出合理的相关性,但已知在实例级别上相关性较差。回想一下,我们有兴趣利用实例级表示来促进跨领域的知识转移,因此我们需要一个可靠的实例级度量来创建预测器模型可以从中学习的黄金注释我们依 靠 chrF ( Pop o vi c' , 2015 ) 评 分 , 根 据WMT20 MT评估轨道(Mathur et al. ,2020年),提供了合理的相关性与人类的判断,实例级评估。对于学习曲线预测,我们依赖于平均chrF(整个测试集的平均实例级chrF)作为语料库级分数的代理,从而与用于预测器训练的实例级分数建立联系。学习曲线分析。图1报告了BLEU和平均chrF分数如何随着用于域自适应(英语-德语)的域内样本量而进展。首先,我们注意到,当跟踪学习曲线3时,平均chrF度量表现出与BLEU相同的行为。其次,我们注意到每个域的域适应进度的差异。例如,古兰经的学习曲线非常陡峭,而字幕领域的改进非常轻微,并且在已经1K Do时达到了平台性能3附录A中的表5提供了德语-英语的BLEU/chrF所有评价均使用SacreBLEU工具包(Post,2018)进行。它古兰经法律医疗苏巴莱0.80.70.60.50.40.3chrF4015+v:mala2277获取更多论文GDDDDDDDD主适配锚点。 我们还注意到,这种行为另一方面,字幕具有较低的基线BLEU和平均chrF分数,并且随着域内数据的增长,域适应这种行为可能揭示了数据集的局限性,和/或用于该领域的领域自适应方法值得进一步研究。我们在工作中要解决的问题是,是否有可能提前预测这种行为,以及我们可以在这个任务中只使用域内数据样本。4方法图2:学习曲线预测器模型概述,其中x i是x的第i个令牌。ME表示基线翻译模型(MG)的编码器4.2输入表示在本节中,我们描述了我们针对输入句子X和针对域内样本Ss的源侧所考虑的不同特征。在本节中,我们首先形式化DA学习曲线预测器。然后,我们描述的表示和我们的模型的问题。4.1问题设置我们给出基线模型MG(在一般语料库G上训练)、输入句子x和由其样本Sd定义的新域d。DA学习曲线预测器可以被建模为评分函数gθ,其取决于实例级表示φ(x)和语料库级表示φ(Ss)4。模型MSd是通过使MG适应于新的域(即,在域内设置d平行句子的例子Sd). DA学习曲线预测器的学习可以通过回归实际评分函数y=s(x,MSd)来完成,该实际评分函数为用MSd翻译的输入句子(来自测试域)x提供翻译质量评分。s(x,MSd)是指第3节中讨论的chrF评分。学习目标可以表述为:min ( s ( x , MS ) −gθ ( φ ( x ) ,(Ss)2NMT编码器表示包含丰富的信息,这些信息可能与模型对新域的适应性非常相关。因此,我们认为它是我们预测模型的重要组成部分。在我们的实现中,我们采用每个令牌的最后一个编码器层表示,然后通过单个向量φenc(x)中的池化组件(图2中的编码器池化组件)进行聚合。语料库级特征集(Ss)允许我们根据其大小、多样性和与预训练数据的相似性来表征域内样本SsG.在最简单的情况下,我们将样本大小(实例数量)视为单个语料库级别的特征。此外,我们添加了一些夏等人使用的功能。 (2020);Kolachina等人(2012年),即:(1)S中的标记数量;(2)G和S之间的词汇重叠率;(3)平均句子长度(以字符为单位,以标记为单位);(4)S中唯一标记的数量;(5)类型标记比率(Richards,1987)7.实例难度特征(DF)。质量θdd∈Dx ∈Td翻译的难度 取决于输入句子对NMT系统的难度。其中D和Td分别是训练域5和d域6的训练句子4Ss表示域内样本Sd的源侧,因为我们将自己限制为只能访问域内样本的源侧的情况。5我们考虑在预测器学习阶段和不相交形式难度特征φDF(x)包括来自Zhao等人(2020)的基于模型的不确定性函数:(1)培训领域。6Td不包含适应模型的训练语句。7我们对所有特征值应用对数尺度,以减少特征值的可变性。+v:mala2277获取更多论文它0.80.8古兰经0.8法0.8医疗0.8字幕0.70.70.70.70.70.60.60.60.60.60.50.50.50.50.50.40.40.40.40.40.30.31千10千20千10万1千10千20千0.30.31千10千20千10万0.31千10千20千10万1千10千20千10万gold exp3 XGBoost-corpus XGBoost-instance DaLC图3:DaLC提供的学习曲线与德语-英语/FT的黄金预测、基线预测(exp3最小置信度得分,(2)边缘得分,(3)平均令牌熵。这些特征依赖于预训练的模型MG,因此可以被视为与编码器表示冗余。然而,正如我们在第6节中所展示的,它们在某些情况下是有帮助的。最后,我们考虑(4)源句子x的表示与其翻译MG(x)之间的跨语言余弦相似性得分。这些表示是从外部预训练的多语言句子嵌入模型LaBSE(Feng et al. ,2020)。4.3领域自适应学习曲线(DaLC)预测器DaLC预测值对应于图2所示的模型。它包含两个主要组成部分:(1) 编码器池化组件,其处理NMT个编码器表示(作为向量序列给出)并产生单个向量φenc(x)。(2) 融合层组合编码器表示φenc(x)与其他预先计算的实例级特征φDF(x)和语料库级特征φd(Sd)。在我们的实验中,我们使用Kim(2014)提出的多滤波器CNN架构,该架构广泛适用于在文本分类任务中用作编码器池-预测器在每个域的测试分割部分上进行评估针对每个域报告的结果是利用在留一法设置(例如,预测培训法律,IT,古兰经,医学是评价字幕)。这样的评估允许我们模仿现实生活中的场景,在现实生活中,我们需要预测在训练时未知的全新领域的性能。通过测量所有锚点上的预测分数和真实分数(通过平均chrF测量)之间的误差来评估预测器。根据Kolachina et al. (2012),我们报告所有可用测试锚点的均方根误差此外,我们报告每个锚点的绝对误差(如果可能),以便对结果进行更细粒度的每个实验用不同的随机种子重复5次,并报告所有运行的平均值英语韩语我们考虑了五个专业领域(技术,金融,旅游,体育和社会科学),这些领域可以从AI-Hub8中公开获得。验证和测试集的大小为10k,ing组件。 对于聚变组件,我们只需堆叠K个前馈层,然后是ReLU5K,分别。我们随机抽取Sn,d为2K和Sigmoid激活函数在最后一层。5实验设置5.1数据和评价英德混血我们依赖于第3节中描述的数据。我们使用开发分割(2K句)进行预测训练:它被 随 机 分 为 训 练 集 ( 80% ) 和 验 证 集(20%)。根据英-德实验设置的句子英语-韩语的基线NMT模型和DA模型的详细信息见附录A。我们采用与英语-德语相同的评估方案(带有RMSE评估的留一设置)8https://aihub.or.kr/aihub-data/自然语言/About+v:mala2277获取更多论文−它古兰经法医疗字幕Avg德语-英语/FTexp30.1250.2920.3050.3970.3210.288XGboost语料库0.1970.2350.3050.4350.1570.266XGboost-instance0.0840.2010.0620.1760.1260.130DaLC0.0090.0580.0570.0940.0150.047DaLC/ DF0.0110.0650.0580.1170.0220.055DaLC/语料库0.0490.0450.0970.1170.0520.072DaLC/ NMTEnc0.0250.1480.0850.0810.0610.080英语-德语/FTexp30.0350.1800.1160.1140.1120.112XGboost语料库0.1110.0810.1690.1690.0290.112XGboost-instance0.0720.1570.1590.1160.090.119DaLC0.0480.1070.1230.0410.0570.075DaLC/ DF0.0650.1020.1230.0440.0530.077DaLC/语料库0.0480.0860.1260.0430.0630.073DaLC/ NMTEnc0.0430.1690.1250.0160.0950.090德语-英语/适配器exp30.0550.1750.1000.1690.1410.128XGboost语料库0.0790.1370.1150.1660.0830.116XGboost-instance0.1000.1450.0920.1620.0970.119DaLC0.0220.0450.0800.1020.0190.054DaLC/ DF0.0240.0570.0820.1090.0200.058DaLC/语料库0.0300.0480.0870.1090.0360.062DaLC/ NMTEnc0.0790.1680.0810.0680.0890.097表1:在De-En和En-De方向上与exp 3和XGboost基线比较的DaLC预测值的RMSE,其中FT和适配器对应于每个实验中的NMT域适配方法。5.2基线预测模型传统上,预测器模型是针对用于训练的观测值的平均然而,这种基线在学习曲线预测的背景下没有多大意义,因为它不能外插到新的锚点。实验3基线。exp3是由y = c定义的3参数函数e(−ax+b)。 Kolachina等人(2012)已经将此函数确定为SMT学习曲线预测拟合的良好候选函数。在我们的实验中,我们通过最小二乘算法将此函数该函数可视为平均基线的扩展,允许外推至未观察到的锚点。基于XGboost的基线。继Xia et al. (2020)我们 还 使 用 了 梯 度 提 升 树 模 型 ( Friedman ,2000 ) , 在 XGboost 中 实 现 ( Chen 和Guestrin,2016)。XGboost语料库基线对应于使用语料库级别特征训练的XGboost模型:该基线与Xia等人(2020)使用的基线相当。我们还将我们的模型与XGboost实例基线进行了比较,该基线对应于使用完整特征集训练的XGboost模型(第4.2节)DaLC预测器的训练。NMT编码器表示通过最小-最大池化压缩在单个向量中,并与其他实例级特征一起馈送到XGboost。比较XGBoost语料库和XGboost实例结果使我们能够解耦实例级表示的影响和从这些表示中学习的预测模型的影响XGboost训练的确切细节在附录B中报告。5.3DaLC预测器在我们的初步实验中,我们观察到编码器池化组件的容量对整体性能没有太大影响。我们认为这是因为NMT编码器输出已经提供了输入序列的丰富的上下文另一方面,重要的是为融合层提供足够的容量,融合层应该将实例级表示(包括NMT编码器表示)与语料库级特征混合。在我们的实验中,编码器池化组件是一个单层多过滤器CNN(具有大小为2,3和4的3个过滤器)。融合层由隐藏大小为512的4个前馈层组成,然后是ReLU激活,最后一个前馈层之后是Sigmoid激活,其将最终预测带到0-1标度。我们使用均方损失(MSE)进行训练。我们+v:mala2277获取更多论文金融社会体育科技旅行Avg韩语-英语/FTexp30.0550.0280.0180.0800.0690.050XGboost语料库0.2460.1870.2050.3070.1520.219XGboost-instance0.0350.0660.0310.0920.0270.050DaLC0.0280.0070.0160.0850.0100.029DaLC/ DF0.0460.0100.0200.0860.0100.034DaLC/语料库0.0370.0090.0190.1040.0170.037DaLC/ NMTEnc0.0250.0460.0210.0890.0110.038表2:DaLC预测值的RMSE与具有Ko-En方向的微调方法上的exp 3以10个时期的耐心应用早期停止标准我们在附录E中提供了更多的训练超参数。6结果6.1观测锚点预测表1报告了英语-德语和德语-英语不同领域的结果表2报告了韩语-英语的结果我们将语料库级别的基线(exp 3和XGboost语料库)与不同的实例级别预测器进行比较:(i)我们的DaLC预测器依赖于第4.2节中描述的完整的实例和语料库级别特征;(ii)XGboost实例(第5.2节)依赖于与DaLC相同的特征;(iii)从完整 模 型 ( DaLC/DF , DaLC/ 语 料 库 或DaLC/NMT编码器)中删除不同的特征组。对于每个域,当将预测平均chrF与所有锚点(0,1k,10k,20k和100k)的黄金平均chrF9实例级与语料库级。我们注意到,对于大多数领域和语言对,实例级模型通常优于一个例外是英语-德语方向,其中XGboost语料库导致更好的预测,然后XGboost实例在古兰经和字幕做-主要。根据图3和图7(附录)中这些结果的额外可视化,我们看到XGboost语料库模型实际上无法学习有意义的模式,因为它预测所有锚点的所有域的得分相同(0.5)9黄金平均chrF对应于锚点K,要点10.它导致古兰经和字幕域的RMSE较低,只是因为这些集合的黄金均值chrF非常接近0.5 。 因 此 , 即 使 实 例 级 别 导 致 更 高 的RMSE,它也能提供更准确的整体预测,如表1中的Avg列所示。我们观察到,虽然DaLC在德语-英语和韩语-英语的所有域然而,我们注意到,DaLC性能在不同领域之间变化较小,并且达到了总体最佳性能(由Avg列反映),这意味着它受总体平均性能的影响较小(与语料库级模型相反),并且能够更好地利用有利于跨领域知识转移的实例级表示此外,在附录C中,我们报告了实例级和语料库语料库级模型的计算成本。不同特征的影响。我们注意到,DF和语料库功能的影响在不同的领域。一个明显的趋势是,NMT编码器的功能似乎是重要的预测质量。一个有趣的例外是医疗领域,其中NMT编码器表示的去除似乎达到最佳RMSE。此外,附录J提供了模型中使用的每个特征的深入消融研究DA算法的影响。我们检查了所提出的方法对不 同 自 适 应 算 法 的 有 效 性 , 将 适 配 器 层(Bapna和Firat,2019)与完全微调进行了比较。适配器层是一个小模块,插入到每个编码器和解码器块的顶部,仅域d对应于平均chrFob的实际值。我们认为这可能是由于结构域d的量非常小。语料库级别的训练样本。+v:mala2277获取更多论文图4:在德语-英语FT实验中,每个实验案例的训练和测试数据集的ChrF分数分布。每个直方图显示了每个留一设置中训练和测试ChrF分数分布之间的差异。例如,古兰经列的ChrF分数分布获得,其中训练分布表示IT、法律、医学和字幕域的所有训练锚点,并且测试分布表示古兰经域的所有锚点中的chrF分数。使用域内样本(同时保持模型的其余部分适配器的隐藏尺寸大小为1024。表5提供了调整后模型的详细信息。表1展示了在De-En方向上经由适配器层的预测域适配模型与De- En方向上的FT结果相比,我们注意到两种DA方法的预测器质量表现相似它表明模型3K40k160k实验30.10870.16400.1934XGboost-instance0.15460.09220.1125DaLC0.00630.00800.0413表3:将学习模型内插和外推到新的(训练中看不到的)锚点的结果:我们报告黄金值和预测值之间的差值的绝对值(字幕域)DaLC可以扩展到其他DA方法。其他因素的影响。我们在附录H和附录D中报告了其他实验,例如取决于训练预测器的域数量和两个不同域混合的性能。6.2DA性能的内插和外推实际和可能的场景之一是预测在训练数据中未观察到的锚点的DA性能。表3示出了我们的预测器对于De-En方向上的字幕测试域的内插11(3k和40k)和外推12(160k)场景我们记得预测器已经在IT,医疗,法律和古兰经领域的0k,10k,20k和100k锚点我们报告这些特定锚点的黄金平均chrF(MAE)的绝对误差我们可以看到,与其他基线相比,DaLC实现了显著更我们注意到外推误差(160k)比内插误差(3k和40k)更高.11内插:预测在观测锚点范围内的未知锚点12外推:预测位于观测锚点之外的锚点。7分析与探讨上一节中报告的结果表明,总体DaLC预测误差在很大程度上取决于测试域的性质(如图3、7和表1所示)。因此,所有的预测因子都倾向于高估可兰经领域的平均chrF得分,或低估法律领域的得分。在本节中,我们试图分析这种现象并解释这种行为。7.1训练/测试数据分发图4提供了每个领域的训练和测试分布的可视化我们可以看到,在古兰经和法律领域的情况下,chrF分数的训练和测试分布之间存在最高的偏移:与其训练领域相比,古兰经具有更多的低质量翻译(低chrF值),而法律则相反。这种差异导致低估了法律领域的分数,高估了可兰经的分数。另一方面,我们可以看到预测器在训练分布和测试分布之间具有相似分布的其他域中具有更高的准确性。我们在En-De方向上观察到相同的模式(图6),或者当我们的框架扩展到更多的训练域时(附录H)。+v:mala2277获取更多论文它0.80.8古兰经0.8法0.8医疗0.8字幕0.70.70.70.70.70.60.60.60.60.60.50.50.50.50.50.40.40.40.40.40.30.31千10千20千10万1千10千20千0.30.31千10千20千10万0.31千10千20千10万1千10千20千10万金DaLC DaLC+0k图5:使用DaLC和DaLC+在De-En方向上具有0 k的学习曲线预测的比较7.2添加0锚点上述关于导致更高预测误差的训练/测试差异的发现意味着,即使我们的模型能够在一定程度上利用实例级表示(与语料库级基线相比,它实现了更低的预测误差),它仍然受到整体数据分布的严重影响对这种行为的一种可能的解释是,源代码级表示可能不包含足够的信息,模型无法依赖这些信息来预测未来的翻译质量。一个简单的例子是,一个源句应该根据目标语的内容以“正式”或“非正式”的方式翻译当模型缺乏关于新领域的目标语言分布的信息时,它根本没有办法学习到忠实的预测器。在这个实验中,我们考虑这样的场景,即我们可以访问测试域的小样本par-amplifier数据(2K句子)当这样的样本可用时,预测器训练数据可以用对应于由我们的基线模型产生的翻译及其对应的chrF分数的0锚点样本来丰富附录中的图5和图8展示了该实验的结果(表13为对更深入分析感兴趣的读者报告了RMSE分数)。我们看到,添加0k锚点显著改善了DaLC预测器获得的学习曲线。这证实了我们的假设,即依赖于单语领域内样本可能会限制某些领域的预测添加一个小的并行样本以获得0k个锚点实例似乎是解决此问题的有效方法。8结论在这项工作中,我们制定了一个问题的领域适应学习曲线预测NMT的实例级学习框架。我们证明了通过实例级学习而不是语料库级学习可以用非常少量的NMT模型实例来学习合理的学习曲线预测模型,并提出了一种基于NMT编码器表示的DaLC模型,结合了各种实例级和语料库级特征。我们证明了这种模型能够在少量预训练模型实例的情况下取得良好的我们对预测器不太成功的领域的结果进行了深入分析,并得出结论,仅依赖于源端样本的预测器的能力对于某些领域是有限的进一步分析这些领域的特点,可以得出更好的领域适应策略.最后,我们相信加深主动学习框架和学习曲线预测框架之间的联系会很有趣,它们可以相互帮助。9确认作 者 要 感 谢 Seunghyun S。 Lim 、 HyunjoongKim和Stéphane Clinchant的宝贵意见。引用罗伊·阿哈罗尼和约阿夫·戈德堡2020. 预训练语言模型中的非监督域簇。计算语言学协会(ACL)年会论文集,第7747- 7763页。+v:mala2277获取更多论文安库尔·巴普纳和奥尔罕·菲拉。2019. 简单、可扩展的神经机器翻译适应。自然语言处理经验方法会议(EMNLP),第1538Loïc Barrault , Magdalena Biesialska , Ond ZarrejBojar , MartaR.Costa-jussà 、 ChristianFedermann、YvetteGraham、RomanGrundkiewicz、Barry Haddow、Matthias Huck、Eric Joanis 、 Tom Kocmi 、 PhilippKoehn 、 Chi-kiuLo、Nik olaLjube Zampieric'、Christof Monz、Makoto Morishita 、 Masaaki Nagata 、 Toshi-akiNakazawa 、Santanu Jakov、Matt Post和MarcosZampieri 。 2020. 2020 年 机 器 翻 译 会 议(WMT20)机器翻译会议(WMT),第1亚历山大·贝拉尔,伊万·卡拉波德斯库,克劳德·鲁。2019. Naver Labs Europe机器翻译会议(WMT),第526陈天奇和卡洛斯·格斯特林。 2016. Xgboost:一个可扩展的树提升系统。在Proc. ACM SIGKDDInternational Conference on Knowledge Discoveryand Data Mining(KDD),第785-794页,NewYork,NY,USA中。计算机协会。Maksym Del,Elizaveta Korotkova,and Mark Fishel.2021. 转换转换器重新发现固有的数据域。机器翻译会议(WMT),第599Dou Zi-Yi,Antonios Anastasopoulos,and GrahamNeubig. 2020. 动态数据选择和加权迭代回译。In Proc. of自 然 语 言 处 理 经 验 方 法 会 议(EMNLP),第5894-5904页。计算语言学协会(ACL)年会。Zied Elloumi,Laurent Besacier,Olivier Galibert,Juliette Kahn,and Benjamin Lecouteux. 2018. 使用卷积神经网络对未看到的广播节目进行Asr预测 。 在 Proc. IEEE International Conference onAcoustics,SpeechandSignalProcessing(ICASSP),第5894Hady Elsahar和Matthias Gallé。2019. 要不要做注释?预测在主工作变动下的性能下降。自然语言处理经验方法会议(EMNLP),第2163Fangxiaoyu Feng , Yinfei Yang , Daniel Cer ,Naveen Arivazhagan,and Wei Wang. 2020. 语言不可知的bert语句嵌入。arXiv预印本arXiv:2007.01852。Markus Freitag和Yaser Al-Onaizan。2016. 神经机器翻 译 的 快 速 域 自 适 应 。 arXiv 预 印 本 arXiv :1612.06897。杰罗姆·H弗里德曼2000. 贪婪函数近似:梯度增强机。Proc. the Annals of Statistics,29:1189BehroozGhorbani、Orhan Firat、Markus Freitag、Ankur Bapna、Maxim Krikun、Xavier Garcia、Ciprian Chelba和Colin Cherry。 2021. 神经机器翻 译 的 缩 放 定 律 。 arXiv 预 印 本 arXiv :2109.07740。Mitchell A Gordon , Kevin Duh 和 Jared Kaplan 。2021. 神经机器翻译的数据和参数缩放律。自然语言处理经验方法,第5915作 者 : Michael M. Brown , Benjamin Chess ,Rewon Child,Scott Gray,Alec Radford,JeffreyWu,and Dario Amodei. 2020. 神经语言模型的标度律。arXiv预印本arXiv:2001.08361。金允。2014. 用于句子分类的卷积神经网络。自然语言处理中的经验方法,第1746PrasanthKolachina , NicolaCancedda , MarcDymet- man,and Sriram Venkatapathy. 2012. 机器翻译中学习曲线的预测。在Proc.计算语言学协会(ACL)上,第22Minh-Thang Luong和Christopher D Manning。2015年。斯坦福神经机器翻译系统的spo-ken语言域。国际口语翻译会议论文集(IWITHEN)Nitika Mathur , Johnny Wei , Markus Freitag ,Qingsong Ma , and Ond Jingrej Bojar. 2020.wmt20指标共享任务的结果。在Pro。机器翻译会议(WMT),第688-725页。Myle Ott 、 Sergey Edmund 、 Alexei Baevski 、Angela Fan 、 Sam Gross 、 Nathan Ng 、 DavidGrangier和Michael Auli。2019. fairseq:一个快速、可扩展的序列建模工具包。计算语言学协会(NAACL)北美分会年会论文集。Kishore Papineni,Salim Roukos,Todd Ward,andWei-Jing Zhu.2002. Bleu:一种机器翻译的自动评价方法。在Proc.计算语言学协会(ACL)年会上,第311阿尔瓦罗·佩里斯和弗朗西斯科·卡萨库贝塔2018.数据流的交互式神经机器翻译的主动学习。计算自然语言学习会议(CoNLL),第151-160页。MajaPop o v ic'. 2015 年。chrF:用于自动MT评估的字符n-gram F分数。 在proc 统计机器翻译研讨会(WMT),第392-395页。马特·波斯特2018. 要求明确报告BLEU分数。在Proc. the Conference on Machine Translation(WMT),第186+v:mala2277获取更多论文布莱恩·理查兹。1987. 类型/令牌比率:它们真正告诉我们什么?儿童语言杂志,14(2):201-209。瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功