快速kNN-MT：解决最近邻机器翻译慢的问题

9 浏览量更新于2023-12-01 收藏 610KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文快速最近邻机器翻译孟宇贤，李晓雅，郑夏宇，吴飞，孙晓飞，张天伟，李继伟赵香农，AI，浙江大学2北京大学，◆南洋理工大学{yuxian_meng，xiaoya_li，xiaofei_sun，jiwei_li}@shannonai.comxiayu_zheng@pku.edu.cn，tianwei. ntu.edu.sg，wufei@zju.edu.cn摘要虽然最近邻机器翻译（kNN-MT）[23]已被证明比标准神经MT系统引入了显着的性能提升，但它非常慢，因为它使用整个参考语料库作为最近邻搜索的搜索引擎。这意味着波束搜索中的每个波束的每个步骤必须在整个参考语料库上搜索。因此，kNN-MT比普通MT模型慢两个数量级，这使得它很难应用于现实世界的应用，特别是在线服务。在这项工作中，我们提出了快速kNN-MT来解决这个问题。Fastk NN-MT为最近邻搜索构造了一个明显更小的搜索：对于源句子中的每个单词，Fastk NN-MT首先选择其最近的标记级邻居，这仅限于与查询标记相同的标记。然后，在每个解码步骤，与使用整个语料库作为语料库相反，搜索空间被限制为与先前选择的参考源标记相对应的目标标记。该策略避免了在整个帧中搜索最近邻，大大提高了解码效率。在不损失性能的情况下，Fastk NN-MT比kNN-MT快两个数量级，并且仅比标准NMT模型慢两倍快速kNN-MT使kNN-MT系统能够在现实世界的MT应用中实际使用11介绍机器翻译（MT）是自然语言处理中的一项基本任务[6，38]，深度神经网络的流行刺激了各种神经机器翻译（NMT）模型来提高翻译质量[4，42，46]。最近提出的k近邻（kNN）MT模型[23]已被证明比标准神经MT系统引入了显着的性能提升。kNN-MT背后的基本思想是，在每个解码步骤中，允许模型引用大量缓存示例中具有相似翻译上下文的参考目标令牌。相应的参考目标标记提供了关于接下来可能出现的翻译标记的重要见解kNN-MT的一个显著局限性是它非常慢：它使用整个参考语料库作为最近邻搜索的参考。这意味着波束搜索中的每个波束的每个步骤必须在整个参考语料库上搜索因此，kNN-MT比普通MT模型慢两个阶kNN-MT [23]的原始论文建议使用更少的搜索集群，更小的波束和更小的数据存储来加速生成，但为了获得令人满意的结果，根据[23]中的分析，仍然需要在不同的任务和数据集下仔细调整这些因素kNN-MT引入的计算开销使得它很难部署在现实世界的在线服务上，这通常需要模型性能和运行时效率。1代码可在www.example.com上https://github.com/ShannonAI/fast-knn-nmt。arXiv：2105.14528v1 [cs.CL] 2021年5月+v：mala2277获取更多论文2我的天我的天在这项工作中，我们提出了一个快速版本的kNN-MT-Fastk NN-MT为最近邻搜索构造了一个明显更小的邻域：对于源句子中的每个单词，Fastk NN-MT首先选择其最近的标记级邻居，这仅限于相同标记类型的标记。然后，在每个解码步骤中，与查询整个语料库以进行最近邻搜索相比，当前解码标记的搜索被限制在与先前选择的参考源标记相对应的参考目标的标记内，如图1所示。从目标标记到源标记，然后到最近的源引用标记，最后到相应的目标引用标记的映射链可以使用FastAlign [10]获得。Fastk NN-MT在加速方面提供了几个相对于vanillak NN-MT的重要优势(1) KNN搜索中的搜索被限制到与先前选择的参考源标记相对应的目标标记，而不是整个语料库。这显著地提高了解码效率;(2) 对于源最近邻检索，我们提出限制与查询标记相同的参考源标记，这进一步提高了最近邻搜索效率。在不损失性能的情况下，Fastk NN-MT比kNN-MT快两个数量级，比标准MT模型慢两倍在双语翻译和领域适应的设置下，Fastk NN-MT取得了与kNN-MT相当的结果，导致WMT'19 De-En的SacreBLEU得分为39.3在WMT'14 En-Fr上的平均得分为41.72相关工作神经机器翻译神经机器翻译系统[13，35，46]通常由序列到序列框架[42]实现，并通过注意力机制[4，34]进行增强，该机制将当前解码令牌与源端中语义上最相关的部分相关联。在解码时，使用波束搜索及其变体来找到最佳序列[28，42]。自我注意[46]和预训练[9，25]的发展极大地激发了一系列更具表达力的MT系统的工作。这些工作包括整合预训练模型[15，52]，设计轻量级模型结构[20，21，31，40，43]，处理多种语言[2，3，33]和减轻结构问题在变压器[30，32，37，47，50]更强大和有效的NMT系统。检索增强模型检索和整合辅助语句在提高NMT系统的鲁棒性和表达能力方面表现出了有效性。[51]通过从检索到的目标句子中收集与源句子中的单词对齐的n元语法来对输出标记进行加权，以及[5]类似地检索到n元语法，但是使用门控注意力来合并信息[8]。[45]更新并存储缓存中最近翻译历史的隐藏表示，以便在生成新令牌时访问，以便模型可以动态适应不同的上下文。[14]利用现成的搜索引擎从训练集中检索一小部分句子对，然后根据源句子和检索到的句子对进行翻译。[12，29]提出从训练集中检索相似的句子，以使模型适应不同的输入句子。[7，18]使用模糊匹配从翻译记忆中检索相似的句子对，并使用检索到的句子对扩充源句子我们的工作动机是kNN-MT[23]目标是提高kNN检索的效率，同时实现可比的翻译性能。除了机器翻译，其他NLP任务也受益于检索增强模型，例如语言建模[22]，问答[16，26，27，49]和对话生成[11，44，48]。这些作品中的大多数在句子级别执行检索，并将提取的句子作为模型生成的额外输入，而快速kNN-MT检索源端中最相关的令牌，并在每个解码步骤中使用对齐的目标令牌来固定概率分布3背景：kNN-MT给定长度为 n 的标记的输入序列 x=x1 ， ... ， xn ， MT 模型将其翻译成另一种语言 y=y1，，ym的长度。在目标端生成每个标记yi的常见做法是获得词汇表上的概率分布+v：mala2277获取更多论文3DS{}{}−−Sj=1−−y=vjij（k，v）∈NΣSO|S|SO|S|训练数据集ABBCA BCDDDEbCcDaBbDD eDeCeF一BDeB D ED E F输入{B，C，E}的数据存储区构造BC电子邮件E输入选择相同的令牌Top K对齐培训中的句子数据集图1：缓存源标记和目标标记（左，蓝色）：给定一个训练的NMT模型f和训练语料库train，我们获得训练集中所有源标记h和目标标记z的表示，它们是f的最后一层输出。数据存储构建（右，绿色）：给定一个要翻译的测试示例，在示例中是{B，C，E}，我们首先将每个源令牌导航到缓存中相同类型的令牌，例如， x12、x21、x32和x41被标识用于令牌B。然后，根据源令牌表示与候选令牌表示之间的距离来保留每个源令牌的前c个最近邻居，例如，选择x12、x21作为令牌B. 最后，使用FastAlign [10]将选定的源令牌与其目标令牌对齐为令牌B，得到k的对齐的标签是y1 1，y2 4。所有对齐的tagetokens（连同它们的表示）的集合构成当前输入{B，C，E}的索引。pM T（yi|x，y1：i-1），并使用波束搜索进行生成。完整的源语句和目标语句的前缀（x，y1：i−1）的组合称为翻译语境。kNN-MT用多项式分布pkN N（yi）对此概率分布进行插值|x，y1：i-1），其从大规模的翻译上下文S：p（yi|x，y1：i−1）=λpkN N（yi|x，y1：i−1）+（1−λ）pM T（yi|x，y1：i−1）（1）更具体地说，k NN-MT首先使用键值对来构造翻译上下文，其中键是由训练的MT模型f（x，y1：i1）产生的翻译上下文的高维向量，并且值是对应的黄金目标令牌y i，形成=（k，v）=（f（x，y1：i1），y i）。上下文-目标对可以来自任何平行语料库。然后，使用当前翻译上下文作为查询q=f（xin，y1：i−1），L2距离作为度量，kNN-MT搜索整个翻译上下文以检索k个最近的翻译上下文以及对应的ta r得到k ensN={kj，vj}k。最后，将检索集转化为概率通过使用具有温度T的softmax算子对负L2距离d进行归一化和聚合，可以将分布表示为：1exp（d（q，k）/T）pkNN（yi|xin，y1：i−1）=j jZ=（kj，v j）∈NZexp（−d（q，kj）/T）（二更）积分方程(2) 到EQ。(1)给出了对于时间步长i生成令牌y i的最终概率。注意，上述k个NN搜索-插值过程被应用于每个波束的每个解码步骤，并且每次迭代需要在全波束上运行。这给出了总时间复杂度（Bm），其中B是波束大小，m是目标长度。为了更快地进行最近邻搜索，kNN-MT利用FAISS [19]，这是一种用于高效相似性搜索和密集向量聚类的工具包。4方法：快速kNN-MT在搜索优化之前的kNN-MT的时间复杂度是（Bm）2，当波束尺寸或波束尺寸B大时，这是非常慢的。我们提出战略，解决这个问题。与vanillak NN-MT相同，快速kNN-MT系统建立在单独训练的MT编码器-解码器模型上。为了更好地说明快速kNN-MT2采用近似最近邻搜索时，时间复杂度可略有缓解，计算复杂度不严格为O（|S|）的。+v：mala2277获取更多论文4联系我们联系我们D{}关于我们关于我们DDDDDDD作品，我们给一个玩具插图图1。我们使用大写字符表示源标记，使用小写字母表示目标标记。给定训练集，其为（x（1），y（1））=（A，B，C，D，b，c，d，a），（x（2），y（2））=（B，C，D，c，d，e，b），（x（3），y（3））=（A，B，D，E，a，b，c，d，e），（x（4），y（4））=（B，D，E，b，d，e），（x（5），y（5））=（D，E，F，d，e，f），在玩具示例中，训练编码器-解码器模型接下来，我们希望翻译源字符串{B，C，E}在测试时间。4.1在源端给定预训练的编码器-解码器模型和训练语料库，我们首先获得训练集的所有源令牌和目标令牌的表示，这些令牌是编码器-解码器模型的最后一层输出。在玩具示例中，第一训练示例（A，B，C，D， b，c，d，a）中的源标记{A，B，C，D}的表示{b，c，d，a}分别为z11，z12，z13，z14。给出一个要翻译的测试示例，该示例为{B，C，E}，例如，我们还获得了其每个组成令牌的表示，表示为hB，hC，hE。接下来，我们为每个源令牌选择最近邻令牌，即，{B，C，E}。最近邻令牌首先限于与查询令牌相同的令牌类型的源令牌对于令牌B，相同令牌类型的令牌为x12、x21、x32、x41。同样，对于测试示例中的token C，相同类型的token为x13，x22;对于token E，相同类型的token为x34，x43，x52。一个突出的问题是，对于像“the”这样的普通词tokens在训练语料库中。因此，我们需要进一步限制最近邻的数量。让c表示控制源端每个令牌的最近邻数的超参数我们基于源令牌表示（例如，hB、hC、hE）和候选令牌表示，并选择顶部令牌表示。C. 假设在玩具示例中，选择x12、x21作为标记B，选择x13、x23作为标记C，选择x34、x52作为标记E。所有源标记的所选候选的级联构成了源侧的源标记，在玩具示例中，源标记为源= x12，x21，x13，x23，x34，x52。源令牌的令牌创建（例如，{B，C，E}）可以并行运行4.2在目标端创建数据存储区对于解码，模型需要引用引用目标令牌而不是源令牌。因此，我们需要将源转换为目标令牌列表。我们使用FastAlign [10]工具包来实现这一目标。FastAlign基于IBM模型将源令牌映射到目标令牌[38]。D源中在目标端没有对应关系的源令牌被放弃。输出目标来自FastAlign的标记在目标端形成标记，由Dtarget表示。在玩具的例子中，x12，x21，x13，x23，x34，x52分别映射到Dtaget={y11，y24，y12，y21，y35，y52}。D目标的大小为c × n，其中n是源的长度。在实践中，我们首先遍历训练集中的所有示例，提取所有源令牌表示和所有目标令牌表示。然后，我们为词汇表中的每个v构建单独的令牌特定缓存v，其由（键，值）对组成，其中键是高维表示h，值是包含对应对齐的目标令牌及其表示z的二元元组。然后，我们可以将给定输入句子的每个源标记映射到其对应的缓存v，并按照第4.1节和第4.2节中的步骤构建目标端token。缓存源令牌和目标令牌的过程存在于算法1中。4.3解码在解码时，每个解码步骤的搜索都被限制到目标，在目标内执行k个NN搜索。由于目标中的令牌并不都与当前解码相关，因此执行最近邻搜索以针对每个解码步骤从目标中选择前k个候选对于这里的最近邻搜索，我们使用解码时的当前表示h来查询目标表示z以获得目标中的目标标记。所选择的最近邻及其表示用于基于等式（1）计算最终单词生成概率。(1) 和等式（二）、+v：mala2277获取更多论文5我我←←∈ΣΣ×CCK公司简介XJ算法1：为测试输入x构建数据存储。输入：训练集中的所有重复对：（x（1），y（1）），.，（x（N），y（N）），词汇表VNMT编码器f e，NMT解码器f d，每个序列对（A（1），.，A（N））测试输入：x输出：目标xD目标（x），xDtarget（x）←初始化x的D source（x）forv←1 toV doendDv←初始化词汇表中每个单词的（key，value）缓存源令牌和目标令牌的百分比：对于i←1到N，ni←x的长度（i）mi← y的长度（i）[h1，.，hn] ← fe（x（i））计算每个源单词的表示[z1，.，zm]<$fd（x（i），y（i））计算j<$0到ni的每个目标词的表示。对于k←0到m，我做如果（j，k）∈A（i），则将（hi，（zk，y（i）加到D（i）D（i）的%key是与x（i）相同的令牌类型的令牌的所有隐藏表示hixjj端端端端%为测试输入x：nxx的长度对于k1到N，获得第k个令牌{z，y} ←使用hk作为查询，来自Dxk的前c项endadd{z，y} toDtarget（x）4.4量化虽然kNN-MT的计算成本问题已经得到了解决，但由于我们希望缓存整个训练集的所有源和目标表示，因此密集的内存仍然是一个问题。此外，频繁访问TB数据也是非常耗时的。为了解决这个问题，我们建议使用乘积量化（PQ）[17]来压缩每个令牌的高维表示。形式上，给定向量xRD，我们将其表示为M个子向量的级联：x =[x1，x2，.， xM]，其中所有子向量具有相同尺寸d=D/M。乘积量化器q由M个子量化器q1，...，qM，每个将子向量xm∈Rd映射到具有n个码字的子空间码本中的码字cCm ={cm，cm，...，cm}。PQ的目标函数为：1 2Nminq1，...，QMMxm−qm（xm）<$2（3）Xm=1因此，每个x被映射到笛卡尔乘积空间= 1中的其最近码字...M.如果每个子空间码本m具有n个码字，则Cartetian乘积空间可以仅用n m个d维向量来表示nm个D维码字，从而显著地缓解了存储问题.使用量化技术，我们能够将每个令牌表示压缩到128字节。例如，对于WMT 19 En-De数据集，内存大小从3.5TB减少到108GB。4.5kNN检索详细信息在实践中，对数百万甚至数十亿个令牌执行精确的最近邻搜索可能非常耗时。因此，我们使用FAISS [19]进行快速近似最近邻搜索。所有+v：mala2277获取更多论文6DD ×D|S||S|模型德恩En-Fr基础MT37.641.1+k NN-MT39.1（+1. 第五章）41.8（+0. 第七章）+快速kNN-MT39.3（+1。第七章）41.7（+0.六、表1：WMT'19 De-En和WMT'14 En-Fr的SacreBLEU评分令牌表示被量化为128字节。回想一下，我们构建了一个特定于令牌的在词汇表中的每个v我们对频率nv低于30000. 对于那些频率大于30000的数据，则将其存储在集群中，以提高速度向上搜索令牌v的集群数量被设置为min（4×nv，nv/30）。学习集群质心，我们为每个令牌v使用最多5M个密钥。在推理过程中，我们查询通过搜索32个最近的聚类，k=512个邻居4.6与Vanillak NN-MT比较的讨论Fastk NN-MT的加速主要体现在以下三个方面：(1) 对于源端的最近邻检索，我们首先限制与查询令牌相同的引用令牌。这种策略大大缩小了搜索空间，/mid（F）次，其中表示语料库中的标记数，并且mid（F）表示语料库中的中词频。(2) 在源端的所有源令牌的最近邻搜索可以并行运行，这也是kNN-MT的关键加速。对于vanillak NN-MT，kNN搜索是在目标侧执行的，并且必须是自回归的：用于在整个语料库上进行kNN搜索的当前解码步骤的表示依赖于先前生成的因此，当前步骤的kNN搜索必须等待所有先前生成步骤的kNN搜索完成(3) 在目标侧，kNN搜索中的搜索被限制为与所选择的参考源标记相对应的目标表示虽然解码过程中的最近邻搜索是自回归的，因此不能并行运行，但运行成本相当低：回想一下目标的大小是c n。在所有设置中，c的最大值设置为512。目标的大小大约是15k。对于NMT来说，在15k个候选中执行最近邻搜索相对便宜，实际上比单词预测的softmax操作便宜，其中词汇量通常是50K左右所有这些方面的组合导致Fastk NN-MT比vanillak NN-MT快两个数量级。5实验5.1双语机器翻译我们在两个双语机器翻译数据集上进行了实验：WMT为了创建句子，我们按照[36]应用语言识别过滤，只保留两边都有正确语言的句子对我们还删除了超过250个标记的句子和源/目标比率超过1.5的句子对。对于所有数据集，我们使用FairSeq [39]库提供的标准Transformer基础模型。3该模型有6个编码器层和6个解码器层。词表征的维度为1024，多注意头的数量为16，前馈层的内部维度为8192。特别是，在[23]之后，WMT'19德语-英语的模型也已经在超过100亿个额外回译数据的标记上进行了训练，并在前几年的最新测试集上进行了微调。我们报告SacreBLEU评分[41]以供比较。4表1显示了我们在两个NMT数据集上的结果。所提出的快速kNN-MT模型能够在WMT'19德语-英语上获得比香草kNN-MT模型https://github.com/pytorch/fairseq/tree/master/examples/translation3https://github.com/mjpost/sacrebleu+v：mala2277获取更多论文7模型医疗法它古兰经字幕Avg.阿哈罗尼和戈德堡[1]54.858.843.521.827.441.3基础MT39.945.738.016.329.233.8+k NN-MT54.4（+14。第五章）61.8（+16。第一章45.8（+7。第八章）19.4（+3.第一章31.7（+2.第五章）42.6（+8。第八章）+快速kNN-MT53.6（+13。第七章）56.0（+10。第三章45.5（+7。第五章）21.2（+4.九、30.5（+1.第三章41.4（+7.六、表2：域适应的SacreBLEU结果。源靶原句对ZweiFisch@@ 贝特里贝你有一个秘密。“Zwei”ZweiGemein@@schaft@@的引用她在格里森的土地上，在她的房间里，她戴着帽子，把她的帽子戴在头上。“Fisch@@”的引用- fünf auf dieFisch达斯特里，“betriebe”的引用（4）Drei Fleisch我们的工作是在我们的名义下进行的，新的工作是在我们的生活中进行的。两间鱼舍停止了他们的活动。此外，希腊的两个社区生产者参加了前一次的庆祝活动。- 五名为渔业代表，（4）在转型期企业名单上的三家肉类企业已作出相当大的努力来建立新的设施。“haben”、“ihre”、“Tätigkeit” 、 “eingestellt”和“的引用。“一个女朋友告诉了你一件事。这些机构已经停止了它们的活动。表3：来自Law域的测试句子对我们显示了用于测试的原始句子对（第一行），源端的最近邻标记以及检索到的标记所在的句子（第二列），以及从FastAlign提取的对齐的目标标记，以及目标标记所在的句子（第三列）。检索到的令牌为红色。5.2域适应我们还测量了所提出的快速kNN-MT模型在域适应任务上的有效性。我们使用最初在[24]中提供并由[1]进一步清理的多域数据集。这些数据集包括用于五个领域的训练/验证/测试集的德语-英语并行数据：医学，法律，IT，古兰经和字幕。我们使用第5.1节中介绍的经过训练的德语-英语模型作为我们的基础模型，并进一步构建特定于领域的数据存储来评估FastkNN-MT在每个领域上的性能。表2显示，Fastk NN-MT在医学、IT和字幕领域取得了与vanillakNN-MT相当的结果，并且在古兰经领域优于vanillakNN-MT。Fastk NN-MT的平均得分与Aharoni和Goldberg[1]的结果相当，后者训练特定于域的模型并报告域内结果。5.3分析示例为了可视化所提出的快速kNN-MT模型的有效性，我们从Law域的测试集中随机选择一个示例表3显示了测试句子、源端检索到的图2中的第一个图展示了黄金目标令牌和所选目标邻居之间的相似性热图我们可以看到，检索到的目标最近标记与地面实况目标标记高度相关，这表明Fastk NN-MT能够在每个解码步骤中准确提取最近的参考标记每个token的邻居数对源端的影响我们查询了每个源token的最近c邻居。直觉上，c越大，模型越有可能回忆起目标侧的最近邻居图2中的第二个图验证了这一点：当c从8增加到64时，模型性能急剧增加，然后继续增加，c达到512。+v：mala2277获取更多论文8.活动及其基础设施建立@@erysh@@fi@@two39.239.038.838.68163264128256 512c（每个源令牌的邻居数39.3039.2539.2039.1539.1039.0539.003264128256512 1024k（每个目标令牌的邻居数）1600800400200100502010基础MTkNN MT快速kNN MT32 64128256512c（每个源令牌的邻居数图2：第一个图：黄金目标令牌和检索到的目标邻居之间的相似性热图第二个图：BLEU得分与不同的c有关，c是每个源令牌在源侧的最近邻居的数量第三个图：BLEU分数与不同的k有关，k是每个目标令牌在目标侧的最近邻居的数量第四图：基本MT、kNN-MT和快速kNN-MT之间的速度模型医疗法它古兰经字幕Avg.快速k神经网络-MT53.656.045.521.230.541.4+全精度53.856.145.821.330.741.5表4：使用全精度时SacreBLEU在域适应上的得分。每个令牌的邻居数量对目标侧的影响快速k NN-MT在每个解码步骤选择前k个最近的邻居，用于计算等式中的概率pkNN。（二）、图2中的第三个图显示，当我们继续扩大k的值时，模型性能首先增加，然后下降，c固定在512，这与[23]中的观察结果一致。这是因为使用离地面实况目标令牌太远的邻居会给模型预测增加噪声，从而损害性能。当波束大小固定时，Fastk NN-MT的时间复杂度主要由每个源令牌的检索邻居数c5图2中的最后一幅图显示了当我们改变c的值时，基本MT、kNN-MT和快速kNN-MT之间的速度比较。当c很小时，快速kNN-MT解码几乎与vanilla MT模型一样快当c达到512时，kNN-MT比普通MT模型慢大约两倍相比之下，vanillak NN-MT在解码速度方面比base MT和FastkNN-MT慢两个数量级这是因为Fastk NN-MT在解码期间实质上限制了搜索空间，而vanillakNN-MT必须在每个解码步骤在整个帧上执行k相似性函数在检索源端的c个最近邻和计算k个NN分布时，我们尝试了不同的相似性函数这些函数包括余弦相似度、内积和 L2距离，在WMT'19德英测试中SacreBLEU得分分别为39.2、39.1和38.8量化的影响由于内存问题，我们应用量化来压缩训练集中每个标记的高维表示我们研究如何量化会影响模型的性能。如表5.3所示，量化在BLEU分数方面有轻微的副作用，当我们使用全精度而不是量化时，平均BLEU分数仅增加0.1，这表明使用压缩向量计算相似性是内存使用和模型性能之间的可行6结论在这项工作中，我们提出了一个快速版本的kNN-MT-在解码过程中，Fastk NN-MT为最近邻搜索构建了一个明显较小的标记：对于源句子中的每个单词，Fastk NN-MT从大规模缓存中选择其最近的标记所选标记与查询相同5K对于总时间复杂度起次要作用，因为目标侧上的每次搜索是在CN令牌的总量内执行的，这与源侧上花费的时间成本相比是可忽略的BleuBleu解码速度（每秒令牌数）+v：mala2277获取更多论文9token. 然后，在每个解码步骤中，与使用整个符号集相反，搜索空间被限制为与先前选择的参考源符号相对应的目标符号。实验表明，该策略大大提高了解码效率，同时保持模型性能相比，香草kNN-MT。引用[1] 罗伊·阿哈罗尼和约阿夫·戈德堡预训练语言模型中的无监督域聚类arXiv预印本arXiv：2004.02105，2020。[2] Roee Aharoni，Melvin Johnson，Orhan Firat。大规模多语言神经机器翻译。arXiv预印本arXiv：1903.00089，2019。[3] Naveen Arivazhagan，Ankur Bapna，Orhan Firat，Dmitry Lepikhin，Melvin Johnson，Maxim Krikun，Mia Xu Chen，Yuan Cao，George Foster，Colin Cherry，et al.大规模多语言神经机器翻译在野外：发现和挑战。arXiv预印本arXiv：1907.05019，2019。[4] Dzmitry Bahdanau，Kyunghyun Cho，and Yoon-Bengio.神经机器翻译通过联合学习对齐和翻译，2014年。[5] 安库尔·巴普纳和奥尔罕·菲拉。神经机器翻译的非参数自适应arXiv预印本arXiv：1903.00058，2019。[6] Peter F Brown，Stephen A Della Pietra，Vincent J Della Pietra，and Robert L Mercer.统计机器翻译的数学：参数估计。计算语言学，19（2）：263[7] Bram Bulté和Arda Tezcan。神经模糊修复：将模糊匹配集成到神经机器翻译中。在第57届计算语言学协会（ACL）年会上，第1800-1809页[8] 曹倩和熊德义将门控翻译记忆编码为神经机器翻译。在2018年自然语言处理经验方法会议论文集，第3042-3047页[9] Jacob Devlin，Ming-Wei Chang，Wendon Lee，and Kristina Toutanova. Bert：深度双向转换器的预训练，用于语言理解。arXiv预印本arXiv：1810.04805，2018。[10] 克里斯·戴尔，维克多·查胡诺，诺亚·史密斯。一个简单，快速，有效的ibm模型2重新参数化在2013年计算语言学协会北美分会会议论文集：人类语言技术，第644-648页，2013年[11] Angela Fan，Claire Gardent，Chloe Braud，and Antoine Bordes.用基于knn的复合存储器增强变压器的对话arXiv预印本arXiv：2004.12744，2020。[12] M Amin Farajian，Marco Turchi，Matteo Negri，and Marcello Federico.通过无监督自适应的多领域神经机器翻译第二届机器翻译会议论文集，第127-137页，2017年[13] Jonas Gehring，Michael Auli，David Grangier，Denis Yarats，and Yann N Dauphin.卷积序列到序列学习。国际机器学习会议，第1243PMLR，2017年。[14] Jiatao Gu，Yong Wang，Kyunhyun Cho，and Victor OK Li.搜索引擎引导的神经机器翻译。在AAAI人工智能会议论文集，第32卷，2018年。[15] Junliang Guo，Zhirui Zhang，Linli Xu，Hao-Ran Wei，Boxing Chen，and Enhong Chen.用适配器将bert合并到并行序列解码中。arXiv预印本arXiv：2010.06138，2020。+v：mala2277获取更多论文10[16] Kelvin Guu ， Champion Lee ， Zora Tung ， Panupong Pasupat 和 Ming-Wei Chang 。Realm：检索增强语言模型预训练。arXiv预印本arXiv：2002.08909，2020。[17] Herve Jegou ， Matthijs Douze ，和 Cordelia Schmid. 最近邻搜索的乘积量化 IEEEtransactions on pattern analysis and machine intelligence，33（1）：117[18] 徐继涛，Josep M Crego，Jean Senellart。用相似的翻译来增强神经机器翻译在计算语言学协会第58届年会的会议记录中，第1580-1590页[19] 杰夫·约翰逊，马蒂亚斯·杜兹，埃尔韦·杰古。使用gpu进行十亿级相似性搜索IEEETransactions on Big Data，2019。[20] Jungo Kasai，Nikolaos Pappas，Hao Peng，James Cross，and Noah A Smith.深度编码器，浅解码器：重新评估机器翻译中的速度-质量权衡arXiv预印本arXiv：2006.10369，2020。[21] Jungo Kasai ， Hao Peng ， Yizhe Zhang ， Dani Yogatama ， Gabriel Ilharco ， NikolaosPappas，Yi Mao，Weizhu Chen，and Noah A Smith.将预先训练的transformers微调为rnns。arXiv预印本arXiv：2103.13076，2021。[22] Urvashi Khandelwal，Omer Levy，Dan Jurafsky，Luke Zettlemoyer，and Mike Lewis.通过记忆的一般化：最近邻语言模型。arXiv预印本arXiv：1911.00172，2019。[23] Urvashi Khandelwal，Angela Fan，Dan Jurafsky，Luke Zettlemoyer，and Mike Lewis.最近邻机器翻译。arXiv预印本arXiv：2010.00710，2020。[24] 菲利普 · 科恩和丽贝卡 · 诺尔斯神经机器翻译的六个挑战 arXiv 预印本 arXiv ：1706.03872，2017。[25] Mike Lewis ， Yinhan Liu ， Naman Goyal ， Marjan Ghazvininejad ， AbdelrahmanMohamed，Omer Levy，Ves Stoyanov，and Luke Zettlemoyer. Bart：用于自然语言生成、翻译和理解的去噪序列到序列预训练。arXiv预印本arXiv：1910.13461，2019。[26] Mike Lewis，Marjan Ghazvininejad，Gargi Ghosh，Armen Aghajanyan，Sida Wang，and Luke Zettlemoyer.通过释义进行预训练。arXiv预印本arXiv：2006.15020，2020。[27] Patrick Lewis，Ethan Perez，Aleksandara Piktus，Fabio Petroni，Vladimir Karpukhin，Naman Goyal，Heinrich Küttler，Mike Lewis，Wen-tau Yih，Tim Rocktäschel，et al.知识密集型nlp任务的检索增强生成。arXiv预印本arXiv：2005.11401，2020。[28] Jiwei Li和Dan Jurafsky。互信息和不同的解码改善了神经机器翻译。arXiv预印本arXiv：1601.00372，2016年。[29] 李晓青，张嘉俊，宗承庆。一句话一个模型的神经机器翻译。arXiv预印本arXiv：1609.06490，2016年。[30] Xiaoya Li，Yuxian Meng，Mingxin Zhou，Qinghong Han，Fei Wu，and Jiwei Li. Sac：通过稀疏自适应连接加速和结构化自我注意力。arXiv预印本arXiv：2003.09833，2020。[31] Vasileios Lioutas和Yuhong Guo。时间感知的大内核卷积。国际机器学习会议，第6172-6183页。PMLR，2020年。[32] Liyuan Liu，Xiaodong Liu，Jianfeng Gao，Weizhu Chen，and Jiawei Han.了解变压器培训的难度。arXiv预印本arXiv：2004.08249，2020。[33] Yinhan Liu ， Jiatao Gu ， Naman Goyal ， Xian Li ， Sergey Eddom ， MarjanGhazvininejad，Mike Lewis，and Luke Zettlemoyer.用于神经机器翻译的多语言去噪预+v：mala2277获取更多论文11训练Transactions of the Association for Computational Linguistics，8：726+v：mala2277获取更多论文12[34] Thang Luong，Hieu Pham，and Christopher D.曼宁基于注意力的神经机器翻译的有效方法在 Proceedings of the 2015 Conference on Empirical Methods in Natural LanguageProcessing，第1412-1421页计算语言学协会。[35] Yuxian Meng，Xiangyuan Ren，Zijun Sun，Xiaoya Li，Arianna Yuan，Fei Wu，andJiwei Li.神经机器翻译的大规模预训练，具有数百亿个句子对。arXiv预印本arXiv：1909.11861，2019。[36] Nathan Ng、Kyra Yee、Alexei Baevski、Myle Ott、Michael Auli和Sergey Eddom。Facebook fair的wmt19新闻翻译任务提交。arXiv预印本arXiv：1907.06616，2019。[37] Toan Q

下载后可阅读完整内容，剩余1页未读，立即下载