+v:mala2277获取更多论文一种高效的k-近邻机器翻译算法王德鑫天津大学dexinwang@tju.edu.cn陈伯兴阿里巴巴达摩院boxing. alibaba-inc.com樊凯*阿里巴巴达摩院k.fan邮件alibaba-inc.com熊德义天津大学dyxiong@tju.edu.cn摘要k-最近邻机器翻译(kNN-MT)最近被提出作为神经机器翻译(NMT)中的域自适应的非参数解决方案。它的目的是减轻先进的机器翻译系统在翻译领域外的句子的性能下降,通过协调与一个额外的令牌级的基于特征的检索模块构建从域内数据。先前 的 研 究 ( Khandelwal et al. , 2021;Zhenget al. ,2021 a)已经证明,非参数NMT甚至优于对域外数据进行微调的模型。尽管取得了这一成功,但kNN检索是以高延迟为代价的,特别是对于大型数据存储。 为了使其实用,在本文中,我们探索了一个更有效的kNN-MT,并提出使用聚类来提高检索效率。具体地说,我们首先提出了一个基于聚类的紧凑网络,以对比学习的方式进行特征约简,将上下文特征压缩到90%以上的低维向量中。然后,我们提出了一个基于集群的修剪解决方案,过滤掉10%~40%的冗余节点在大型数据存储,同时保持翻译质量。我们提出的方法实现了更好的或相当的性能,同时减少了57%的推理延迟对先进的非参数MT模型在几个机器的翻译基准。实验结果表明,本文提出的方法能够保持最有用的信息 紧网在未知域上具有很好的推广性。代码可在https://github.com/tjunlp-lab/PCKMT网站。1介绍最近,非参数方法(Khandelwalet al. ,2021;Zheng et al. , 2021a , b; Jiang et al. , 2021年)已成功应用于神经平等贡献。[2]通讯作者。Mt913.4837.50AK-MT(k=4)642.4346.32表1:相同IT领域测试集上的推理速度比较。AK-MT表示自适应kNN-MT。机器翻译(NMT),用于具有检索管道的域给定一个高级MT模型,它们通常包括两个步骤:• 它通过从域内数据中提取对应于每个目标令牌的给定NMT模型的倒数第二层的上下文表示来预先构建高速缓存存储器,通常称为缓存• 在推理时,它从构造的数据库中检索每个生成的令牌的上下文表示的k个最近邻,然后整合从这些检索中导出的外部k个NN翻译概率以调整翻译。任何提供的翻译的可访问性使它们可解释。同时,这些方法的可靠性也归功于其质量。尽管翻译有了很大的改进,但对翻译行为的分析还没有得到充分的探讨。我们从检索延迟和语义分布两个方面经验性地观察到,语义结构的构造对于检索来说并不是最优的。检索延迟。如表1所示,我们比较了预训练的NMT模型(Ng et al. ,2019)和自适应k NN-MT(Zheng et al. ,2021 a)系统源自前者,采用相同的硬件(P100- 16 GB GPU,18核IntelXeon Gold 6240 CPU@2.60GHz),后者是最先进的模型speed(token/s)BLEUarXiv:2204.06175v1 [cs.CL] 2022年4月+v:mala2277获取更多论文[图1:IT领域特性的t-SNE可视化。较暗的节点表示较低频率的令牌。基于检索的NMT模型。1它表明,在一个数据库中检索的大量计算会导致延迟增加,并使其在实时场景中不太实用。为了解决这个问题,我们提出了一种有效的修剪策略,以减少冗余,从而处理速度和质量之间的权衡。语义分布。为了实现鲁棒的令牌到令牌检索,期望具有相似上下文的令牌彼此靠近分布,以形成可分离的紧凑语义簇,否则语义噪声可能会损害检索效果。为了探索k-最近检索的潜力,我们在图1中可视化了基于IT领域语料库(Koehn和Knowles,2017)构建的搜索引擎的特征分布。对于以传统方式构建的模型一种是大多数标记分布在重叠区域,而与频率无关。另一个是,即使是整体分布显示, 聚类效应,仅少数小的聚类相对于频率被正确分类直觉上,这些发现将直接和消极地影响基于距离的检索。此外,如(Zhang et al. ,2021)表明,维度与检索速度高度相关对k NN-LM的初步研究(He et al. ,2021)指出,传统的特征约简算法只能保持原有的性能,选择到其10%(例如,从1024到100)。为了解决这个问题,我们设计了一个基于聚类的训练策略,其中一个外部的轻量级特征约简网络以对比训练的方式学习,以最大化上下文语义聚类之间的间隔。在我们的实验中,我们甚至可以切掉原始特征尺寸的93.75%。总之,我们的主要贡献有两个方面:• 我们提出了一个基于聚类的紧凑网络,以减少维度的语义表示和提高翻译性能,通过使不同的令牌可分离,以改善检索结果。• 我们进一步提出了一个基于聚类的剪枝策略,通过过滤冗余表示,使我们提出的方法可以显着减少翻译延迟在推理过程中。在多领域机器翻译基准测试上的实验表明,本文提出的方法在速度和质量上都优于现有的基于检索的机器翻译系统2相关工作及背景在本节中,我们将简要介绍自适应k NN-MT的背景(Zheng et al. ,2021a)。自适应k NN-MT 源 自 k NN-MT ( Khandelwal et al. ,2021),通过插入一个轻量级的Meta-k网络,该网络将k个NN检索与各种k融合,以减轻由单个k引起的可能的噪声。从形式上讲,它被公式化为两个步骤:目标端的网络创建和Meta-k网络预测。目标端数据存储区创建。该表由一组键-值对组成。 给定语料库(S,T)中的双语句子对(s,t),预先训练的通用域NMT模型自回归地提取以源上下文和目标上下文(s,t