没有合适的资源?快使用搜索试试~ 我知道了~
基于短语级通用视觉表示的多模态机器翻译方法及性能提升
+v:mala2277获取更多论文基于短语级通用视觉表示的神经机器翻译方庆凯1,2,杨峰1,2,1智能信息处理中国科学院计算技术研究所(ICT/CAS)2中国科学院大学,中国{fangqingkai21b,fengyang}@ict.ac.cn摘要多模态机器翻译(MMT)旨在通过增加视觉信息来改进神经机器翻译(NMT),但现有的MMT方法大多需要源语句和图像的成对输入,这使得它们缺乏源语句-图像对。本文提出了一种基于短语级检索的MMT方法,从已有的双图像数据集中获取源输入的视觉信息,从而打破了MMT对双图像输入的限制。我们的方法在短语级别进行检索,从而从源短语和接地区域对中学习视觉信息,这可以减轻数据稀疏性。此外,我们的方法采用条件变分自动编码器来学习视觉表示,可以过滤掉冗余的视觉信息,只保留与短语相关的视觉信息。实验表明,该方法在多个MMT数据集上的性能明显优于强基线,特别是在文本上下文有限的情况下。1介绍多模态机器翻译(MMT)将视觉信息引入神经机器翻译(NMT),其假设额外的视觉模态可以通过将语言接地到视觉空间中来改善NMT(Lee et al. ,2018)。然而,大多数现有的MMT方法需要额外的图像输入来提供视觉表示,这应该与源句子相匹配。不幸的是,在实践中很难得到这种文本和图像的成对输入,这阻碍了MMT的应用。更糟糕的是,为了训练MMT模型,训练数据仍然涉及除了源之外的目标句子通讯作者:杨峰.代码可在https://github.com/上公开获取ictnlp/PLUVR。因此,MMT模型通常在小型Multi30K上训练( Elliott et al. , 2016) 数据 集 , 这限 制 了MMT的性能。因此,有必要利用分离的图像数据集来获得视觉表示,以打破成对输入的约束。为此,一些研究人员(Zhang et al. ,2020;Wu et al. 2021)提出将检索模块集成到NMT中,其从现有的句子-图像对中检索与源句子相关的图像作为补充输入,然后使用预先训练的卷积神经网络(CNN)对图像进行编码。然而,这样的句子级检索通常会受到稀疏性的影响,因为它很难得到与源句子正确匹配的图像。此外,CNN输出的视觉特征包含更丰富的信息(例如,颜色、大小、形状、纹理和背景),因此将它们编码在一个包中而不进行任何过滤将噪声引入模型。为了解决这些问题,我们提出了一种新的基于检索的方法MMT学习短语级视觉表示的源句子,它可以减轻稀疏检索和冗余视觉表示的上述问题。对于稀疏性问题,我们的方法在短语级别上重新检索图像,并且只参考图像中与短语相关的接地区域对于冗余问题,我们的方法采用了条件变分自动编码器,以迫使学习的表示,以正确地重构源短语,使学习的表示,sentations只保留与源短语相关的信息Multi30K实验(Elliottet al. ,2016年)表明,所提出的方法在强基线上获得了显着的改进。当文本上下文有限时,它在BLEU分数上比纯文本基线获得了高达85%的增益。进一步分析表明,5687计算语言学协会第60届年会论文集,第5687 - 56982022年5月22日至27日2022年计算语言学协会+v:mala2277获取更多论文5688(一)Di=1i=1记为D={(xi,ei)}N证据下限(ELBO):D{}所提出的方法可以获得与翻译质量更相关的视觉2短语引导的视觉表征我们使用短语级视觉表示来改进NMT。在本节中,我们将介绍我们提出的短语引导视觉表示。我们首先建立一个短语级的图像集,然后引入一个潜在变量模型来学习短语引导的视觉表示为每个图像区域。2.1短语级图像集我们的短语级图像集是从Multi30K的训练集构建的,该训练集包含约29K的双语双音图像对。我们只使用图像e和来自它们的源描述x,i=1.我们提取名词一只黑狗跳起来抓一个绳子玩具图1:从现有句子中提取名词短语,图像区域>对的示例,图像>对。logp(p|v)= log z p(p|z,v)p(z|v)dz通过maxi-短语,图像区域>来自句子的对,im-age>在D中配对以构建我们的短语级图像集,其被表示为Dp。对于每个句子xi,我们使用一个开源的li-spaCy1来识别名词短语,表示为Pi=(pi,pi,...,pi),其中t i是Lc(ω,φ,θ)=Ez<$qφ(z|p,v)[logp θ(p|z,v)]-KL[q φ(z|p,v)<$p ω(z|v)],其中p ω(z|v)是先验,q φ(z|p,v)是一个近似的后验,p θ(p|z,v)是解码器。的1 2ti先验pω被建模为高斯分布:x中名词短语的数量i. 对于每个名词短语pi,我们检测对应的区域ri2jjp ω(z|v)= N(z; μp(v),σp(v)I),(2)使用视觉背景从配对图像Eiing toolkit(Yang et al. ,2019)。则(pi,ri)为µp(v)=线性(v),(3)J J添加到我们的短语级图像集p。图1示出了一个示例。最后,我们得到短语级的图像集p=(pi,ri)T,其中T =Nti.它总共包含约102K对2.2潜变量模型对于图像区域r,我们可以使用预先训练的ResNet-101 Faster R-CNN ( He et al. , 2016;Ren等人,2015),其包含丰富的视觉信息(例如,颜色、大小、形状、纹理和背景)。然而,我们不应该过多关注相应短语中未提及因此,我们进一步引入了一个连续的潜变量来显式地建模图像区域的语义信息的指导下的短语。我们采用条件变分自动编码器(CVAE)的 框 架 ( Kingma 和 Welling , 2014; Sohn etal. ,2015年),以最大化条件边际对数似然1https://spacy.io+v:mala2277获取更多论文5689·|·σp(v)=线性(v),(4)其中Linear()表示线性变换。近似后验qφ也被建模为高斯分布:q φ(z|p,v)= N(z; µq(p,v),σq(p,v)2I),(5)µq(p,v)= Linear([RNN(p),v]),(6)σq(p,v)=线性([RNN(p),v]),(7)其中RNN()表示单层单向递归神经网络(RNN)。RNN的最终隐藏状态用于计算均值和方差向量。为了能够使用反向传播更新参数,我们使用 重 新 参 数 化 技 巧 ( Kingma 和 Welling ,2014)从qφ中采样z:z= μq+ σq<$s,s <$N(0,I).(八)解码器pθ(p z,v)也由单层单向RNN实现解码器RNN的初始隐藏状态定义为:s=线性([z,v]),(9)+v:mala2277获取更多论文5690多模式聚合模块浇口添加10%多头注意M短语级聚合输出概率Softmax线性添加规范前馈10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.10.1H添加规范前馈UCVAE总和1×公司简介添加规范多头注意N×位置编码添加规范多头注意输入嵌入⋯ ⋯视觉检索一只黑色的狗一个绳子玩具名词短语提取添加规范屏蔽多头注意力输出嵌入N×位置编码图片来源:一只黑狗跳着抓绳子玩具Target图2:我们提出的方法的概述。然后解码器将基于s重构短语p。我们把s称为短语引导的视觉表征,因为它更关注短语中提到的语义信息,过滤掉不相关的信息。我们将在下一节中描述如何将其并入NMT3具有短语级通用视觉表征的在本节中,我们将介绍我们的基于检索的MMT方法.具体而言,我们通过我们提出的短语级视觉检索获得图2显示了我们提出的方法的概述,它由四个模块组成:源编码器,短语级视觉检索模块,多模态聚合模块和目标解码器。源编码器和目标解码器与传统的纯文本Trans的编码器和解码器前者(Vaswani et al. ,2017年)。因此,我们将在本节的其余部分详细介绍短语级视觉检索模块和多模态聚合模块我 们 将 输 入 源 句 子 表 示 为 x= ( x1 ,x2,..., xn),基础事实目标句子为y=(y1,y2,., ym,.),并且生成的平移为y=(y1,y2,., ym)。输入的源句子x将用源编码器编码以获得源 句 子 表 示 , 其 被 表 示 为 H = ( h1 ,h2,..., hn)。3.1短语级视觉检索模块为了在不输入成对图像的情况下获得源句子的视觉上下文具体而言,对于输入句子x=(x1,x2,...,xn),我们识别名词 短语P<$=(p<$1 ,p<$2 , ..., p<$t )在x中 。 每 个 短 语 p<$i= ( xli , xli+1 , . ,源编码器短语级视觉检索模块目标解码器+v:mala2277获取更多论文5691xli+di−1)是一个连续的标记列表,其中li是第一个标记的索引。k en,di是p′i的长度。F或每个名词+v:mala2277获取更多论文5692D·ΣⓈD ∈ D--Σ短语p<$i,我们将根据短语之间的语义相似度从短语级图像集合p中检索出几个相关名词短语,图像区域>对我们设计了一个短语编码器来计算短语嵌入,用于度量短语之间的语义相似度。短语编码器我们的短语编码器Enc p()基于 预 先 训 练 的 BERT ( Devlin et al. ,2019 ) 。对 于短语 p =( p1, p2, ..., pl),我们首先使用BERT将其编码为上下文嵌入:c1,c2,. cl= BERT(p1,p2,...,p1),(10)3.2多模式聚合模块受到最近在多模态机器翻译中模态融合的成 功 的 启 发 ( Yin et al. ,2020; Zhang etal. ,2020; Fang et al. ,2022),我们设计了一个简单的多模态聚合模块融合源句子表示H和短语级通用视觉表示U。首先,我们执行短语级聚合。 对于每个短语p<$i=(xli ,xli+1,., xli+di-1),我们将通用视觉表示ui和对应标记(hli,hli+1,., hli+di−1):li+di−1然后短语嵌入是平均嵌入,mi= LayerNorm(ui+j=lioijhj),(15)所有token的ding:1LEncp(p)=l克岛(十一)oij= sigmoid(W1ui+W2hj),(16)其中表示元素级乘积。现在我们得到多模态短语表示i=1视觉检索对于一个g iv en短语p<$,我们从p中 提取前K个相关<名词短语,图像区域>对.对于(pi,ri)p,与giv en短语p<$的相关性得分可以定义为它们的短语嵌入之间的余弦距离Enc(p<$)·Enc(p)M=(m1,m2,...,mt)。之后,我们应用一个用于将M附加到源句子表示的多头注意机制:S<$=多头(H,M,M)。(17)然后,我们用门机制将S和H融合:S=H+λS<$,(18)RS(p<$,(pi,ri))=pP1,λ=sigmoid(WH+WS<$)。(十九)Encp(p<$)(十二)然后,我们为p′检索e个top-K相关对:K最后,S被馈送到我们的目标解码器用于预测翻译。翻译模型使用交叉熵损失进行训练:(pik,rik)k=1=to p-K(RS(p′,(pi,ri)。i =1..不(十三)对于每一对(pik,rik),我们可以通过我们的潜变量模型获得短语引导的视觉表示sik,如第2.2节所述。最后,p′的短语级通用视觉再现被定义为所有{sik}的加权和:K+v:mala2277获取更多论文5693ΣMLt rans=−logp(yi|y对,我们通过名词短语的头部5来我们根据大小选择前8个聚类,并为每个聚类随机抽取1000个图像区域。如图3所示,不同聚类的原始视觉特征混合在一起,表明它们包含了太多无关信息。相比之下,我们提出的短语引导的视觉表征,更注重语义信息,形成几个集群根据他们的头。结合我们的视觉检索模块,我们发现,随着检索到的图像区域K的数量增加,当我们使用原始视觉特征时,BLEU得分不断下降,而当我们使用我们提出的短语引导视觉表示时,BLEU得分不断增加,如图4所示。我们认为BLEU评分的下降是由于5https://en.wikipedia.org/wiki/Head_(语言学)1 2 3 4 5K图4:具有不同数量的重新检测的图像区域K的BLEU分数。随着K的增加,短语引导的视觉表示实现了更好的性能。模型测试2016测试2017MSCOCOTransformer10.428.597.08我们19.41+8.9913.67+5.0812.23+5.15表2:在源降级设置下Multi 30 K En-De上的BLEU分数。原始视觉特征中的不相关信息,因此直接将它们加在一起会引入太多的噪声。我们的方法过滤掉了那些不相关的信息,并且多个图像区域可以避免单个区域带来的偏差,从而提高了BLEU分数。然而,当使用更多的图像区域时,我们5.3源降级设置我们进一步在源文本退化的情况下进行实验,以验证本文方法在源文本上下文有限的情况下的有效性。根据Wu et al.(2021),我们屏蔽了 源 句 子 中 的 视 觉 基 础 标 记 , 这 影 响 了Multi30K中约43%的标记。如表2所示,我们的方法比纯文本的Transformer基准提高了近85%。这意味着我们提出的短语级统一视觉表示可以有效地填补缺失的信息。5.4短语级别与句子级检索为了证明短语级检索的有效性在这个变体中,我们将潜在变量模型、检索模块和聚合模块从短语级切换到短语级。通过这种方式,我们检索了几个图像作为视觉对照-男人女人人衬衫女孩男孩狗-PRON-原始40.30短语引导40.1239.9039.8639.8239.7939.7539.7439.6539.72Bleu+v:mala2277获取更多论文5697一个人驾驶一辆黑色汽车(2017年测试中<查询>一个人#34 #25 #41 #101<>黑色汽车#9152电话:+86-21 - 8888888传真:+86-21 - 88888888(a) 短语级检索<一个人开着一辆黑色的车。电话:+86-21 - 28977777电话:+86-21 -8888888传真:+86-21 - 88888888(#27907)一个人驾驶着一辆红色和黑色的赛车(#28972)一个人带着一个白色的包走着(#23551)一个人在土路上骑着一辆自行车(#17872)一个人在隧道里骑着一辆自行车(#28972)一个人在一座古老的建筑物旁走着(b) 句级检索图5:不同检索级别的示例我们用#id表示Multi30K训练集中检索到的图像(区域)的索引模型测试2016Transformer 39.87我们的判决40.02+0.1540.30+0.43测试2016(面罩)10.4211.52+1.10 *19.41+8.99 **表3:Multi 30 K En-De Test 2016的BLEU评分。( Mask ) 表 示 源 降 级 设 置 。 * 和 ** 表 示 对Transformer的改进(Vaswaniet al. ,2017)基线具有统计学显著性(p<0。05和p<0. 01)。文本来帮助翻译。 见表 3、在源语降级的情况下,句子的语义层次变体Ours-sentence的表现比Ours我们认为这是因为短语级检索可以获得更多的相关图像区域作为视觉上下文,这些图像区域包含更少的噪声,并且可以更精确地集成到文本表示中。相比之下,分级检索导致图像中包含大量无关信息,并且使得模型难以捕获图像和描述之间的细粒度语义为了更直观地理解这种差异,我们在图5中给出了一个示例。可以看出,对于输入句子,短语级检索可以得到名词短语a person和a black car的密切相关图像区域,而短语级检索的结果实际上与输入句子的相关性较弱。5.5WMT新闻数据集最后,我们在WMT 16 EN-DE和WMT 16 EN-RO数据集上进行了实验。 如表4所示,我们观察到Zhang et al. (2020),与纯文本的Transformer基线相比,我们的方法仅实现了边际改进。我们认为主要有两个原因。一方面,这类新闻文本中的大多数标记与特定的视觉内容没有自然的联系。我们发现,在WMT 16EN-DE的训练集中,视觉接地到- kens的百分比仅为7%(与Multi 30 K中的43%相比),因此视觉信息的贡献确实有限。另一方面,新闻文本与Multi30K中的描述性文本相差甚远。以这种方式,检索到的图像区域实际上与源短语弱相关。我们做了一些分析来验证我们的假设。如第3.1节所述,我们根据相关性得分重新检索每个短语的前K对我们将平均相关性分数(ARS)定义如下:ARS(k)=Ep∈DvalRS(p,(pik,rik)),(21)这意味着验证集中所有短语的平均相关性分数。如图6所示,WMT新闻数据集上的ARS远低于Multi30K,这证明新闻文本和描述性文本+v:mala2277获取更多论文5698之间确实存在差距。+v:mala2277获取更多论文5699模型TransformerUVR-NMT我们表4:WMT 16 EN-DE和WMT 16 EN-RO数据集的BLEU评分。1.00.90.80.70.10.0与全局视觉特征相比,它显示了有效性。我们的方法和他们的方法之间的主要区别是,我们的方法是一个基于检索的方法,打破了依赖于双语图片对,因此,我们的方法仍然适用于当输入只有文本(没有配对的图像),不幸的是,这是不可用那些以前的方法。除 了 关 注 模 型 设 计 外 , Yanget al.( 2020 ) ;Nishihara et al. ( 2020 ) ;WangandXiong(2021)还提出了辅助损失,以使模型 更 好 地 利 用 视 觉 信 息 。 Caglayan 等 人(2019);Wu等人(2021)进行了系统分析,以 探 索 视 觉 模 态 的 贡 献 。 Caglayan 等 人(2020); Ive等人(2021)重点提升同步机1 2 3 4 5K图6:验证集中所有短语的视觉检索期间的平均相关性得分(ARS)。6相关工作多 模 态 机 器 翻 译 ( MMT ) 旨 在 增 强 NMT(Vaswani et al. ,2017; Zhang et al. ,2019; Liet al. ,2021)具有附加的视觉上下文。自从Multi30K(Elliott et al. ,2016)数据集,研究人员已经提出了许多MMT方法。 早期方法(Huang et al. ,2016; Calixto and Liu,2017;Caglayan et al. , 2016; Calixtoet al. , 2016;Caglayan et al. , 2017; LibovickelandHelcl ,2017; Delbrouck and Dupont,2017 b,a; Zhouet al. , 2018; Calixto et al. , 2017; Helcl etal. ,2018; Caglayan et al. ,2018年)主要基于基 于 RNN 的编 码 器 - 解 码 器 架 构 ,并 注 意(Bahdanau et al. ,2015)。最近的方法基于Transformer(Vaswani et al. ,2017年)取得更好的业绩。Yao and Wan(2020);Yin et al.(2020);Liu et al.(2021)设计了多模态编码器,以在编码过程中融合文本和视觉信息。Ive等人(2019); Lin等人 (2020)用审议网络增强解码器(Xia et al. ,2017)或胶囊网络(Sabour et al. ,2017)以在解码期间更好地利用视觉信息。 Caglayan等人(2021)提出了一种跨语言视觉预训练方法,并针对MMT进行了微调。值得注意的是,以前的一些作品( Ive et al. , 2019; Lin et al. , 2020; Yin etal. ,2020; Wang and Xiong,2021; Nishi-hara etal. ,2020; Zhao et al. 2021年)通过区域0.9760.9680.9620.9570.9540.8410.8190.8090.8020.7960.8340.8140.8040.7960.791Multi30KWMT16 EN-DEWMT16 EN-ROARSEN-DE EN-RO26.5432.6726.89+0.3532.93+0.2626.97+0.4333.18+0.51+v:mala2277获取更多论文5700视觉语境下的翻译所有上述方法都需要特定的图像作为输入以提供视觉上下文,这严重限制了它们的适用性。为了打破这一瓶颈,Hitschler et al.(2016)提出了目标端图像检索来帮助翻译。Elliott和Kádár(2017)提出了一个多任务学习框架-想象力,将多模态翻译分解为学习翻译和学习视觉基础表示。Calixto等人(2019)引入潜在变量并估计翻译和图像的联合分布。Long等人(2020年)预测翻译与生成对抗网络(GAN)生成的视觉表示(Goodfellow等人,2019年)。,2014)。与我 们的方法 最密切相 关的工 作是UVR-NMT(Zhang et al. ,2020),这打破了对双语字幕图像对的依赖。就像一些检索增强MT(Feng et al. ,2017; Gu et al. ,2017)方法,从Multi30K中构建主题图像查找表,然后基于主题词检索与源句子相关的图像作为视觉上下文。Zhang et al. (2020)和我们的方法如下:• 首先,他们的方法依赖于单词和图像之间的弱相关性,这导致检索到的图像中有很多噪声,而我们的方法依赖于名词短语和图像区域之间的强相关性。• 第二,我们的短语级检索可以获得比他们的短语级检索更多的相关视觉上下文(第5.4节)。+v:mala2277获取更多论文5701• 最后,他们的方法直接使用ResNet提取的视觉特征(He et al. ,2016),这可能引入太多噪声。我们采用潜变量模型来过滤掉不相关的信息,从而获得更好的表示。7结论在本文中,我们提出了一种基于检索的MMT方法,学习短语级的通用视觉表示,以改善NMT。该方法不仅优于基线系统和大多数现有的MMT系统,而且打破了近年来阻碍MMT发展的输入限制实验和分析证明了该方法的有效性。在未来,我们将探索如何将我们的方法应用于其他任务。确认我们感谢所有匿名评论者的深刻和宝贵的意见。本工作得到了国家重点科技攻关项目(2005年)的资助。2017YFE0192900)。引用德米特里·巴赫达瑙,赵京铉,和尤恩·本吉奥.2015.神经机器翻译通过联合学习来对齐和翻译。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届国际学习表示会议ICLR 2015中,会议跟踪程序。Samuel R.鲍曼,卢克维尔尼斯,奥里尔维亚尔斯,戴安德鲁,拉法尔约泽福维奇和萨米本吉奥。2016. 从连续空间生成句子。在Proceedingsof The 20th SIGNLL Conference on ComputationalNatural Language Learning- ing,第10-21页,柏林,德国。计算语言学协会。Ozan Caglayan , Walid Aransa , Adrien Bardet ,Mer-Escherig García-Martínez,Fethi Bougares,Loïc Barrault,Marc Masana,Luis Herranz,andJoost van de Weijer. 2017. LIUM-CVC提交WMT17多模态翻译任务。第二次机器翻译会议论文集,第432-439页,丹麦哥本哈根。计算语言学协会。Ozan Caglayan ,Adrien Bardet,Fethi Bougares,Loïc Barrault ,Kai Wang ,Marc Masana, LuisHerranz , and Joost van de Weijer. 2018. LIUM-CVC提交WMT 18多模态翻译任务。第三届机器翻译会议论文集:共享任务文件,第597-602页,比利时,布鲁塞尔。计算语言学协会。Ozan Caglayan,Loic Barrault,and Fethi Bougares.2016. 神经机器翻译的多模态注意力。CoRR,绝对值/1609.03976。Ozan Caglayan、Julia Ive、Veneta Haralampieva、Pranava Madhyastha、Loïc Barrault和Lucia Spe-cia。2020年。具有视觉上下文的同步机器翻译 。 在 2020 年 自 然 语 言 处 理 经 验 方 法 会 议(EMNLP)的会议记录中,第2350-2361页计算语言学协会。Ozan Caglayan , Menekse Kuyu , Mustafa SercanAmac , Pranava Madhyastha , Erkut Erdem ,Aykut Erdem,and Lucia Specia.2021. 多模态机器翻译的跨语言视觉预训练。在计算语言学协会欧洲分会第16届会议的会议上:主卷,第1317-1324页,在线。计算语言学协会。Ozan Caglayan , PranavaMadhyastha , LuciaSpecia,and Loïc Barrault. 2019. 探讨多模态机器翻译对视觉语境的需求。在计算语言学协会北美分会2019年会议的开幕式上:人类语言技术,2019年1月1日(长论文和短论文),第4159-4170页,明尼苏达州明尼阿波利斯市。计算语言学协会。艾瑟·卡利斯托,德斯蒙德·艾略特,还有斯特拉·弗兰克. 2016年。DCU-UvA多模式MT系统报告。在第一届机器翻译会议的筹备会上:第2卷,共享任务文件,第634- 638页,德国柏林。计算语言学协会。Iacer Calixto和Qun Liu。2017. 将全局视觉特征转换为基于注意力的神经机器翻译。2017年自然语言处理经验方法会议论文集,第992-1003页,丹麦哥本哈根。计算语言学协会。Iacer Calixto,Qun Liu,and Nick Campbell. 2017.用于多模态神经机器翻译的双注意解码器。在Proceedings of the 55th Annual Meeting of theAssociationforComputationalLinguistics(Volume 1:Long Papers),pages 1913计算语言学协会Iacer Calixto Miguel Rios和Wilker Aziz 2019. 多模态翻译的潜变量模型。在计算语言学协会第57届年会的会议记录中,第6392-6405页,意大利佛罗伦萨。计算机语言学协会。让·伯努瓦·德尔布鲁克和斯特凡·杜邦。2017年a。多模态神经机器翻译中图像有效性的实证研究。在2017年自然语言处理经验方法会议的开幕式上,第910+v:mala2277获取更多论文5702919,哥本哈根,丹麦计算语言学协会。让·伯努瓦·德尔布鲁克和斯特凡·杜邦。2017年b。用于多模态神经机器翻译的多模态紧凑双线性池。CoRR,绝对值/1703.08084。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。德斯蒙德·艾略特,斯特拉·弗兰克,哈利勒·西马2016. Multi 30 K:多语言英语-德语图像描述。第五届视觉与语言研讨会论文集,第70- 74页计算语言学协会德斯蒙德·埃利奥特和阿科斯·卡达尔2017. 想象力有助于多模态翻译。第八届自然语言处理国际联合会议论文集(第一卷:长文),第130亚洲自然语言处理联合会方 庆 凯 , 叶 荣 , 李 磊 , 杨 峰
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功