没有合适的资源?快使用搜索试试~ 我知道了~
1不可知的视觉语义嵌入放大图片作者:J. 毛里西奥?苏扎罗德里戈·洛佩斯巴罗斯技术学院Pontif 'ıcia Univ eradicade Catoo' lica do Rio Grande do Sul{jonatas.wehrmann@edu,rodrigo.barros@}pucrs.br摘要本文提出了一个训练语言不变跨模态检索模型的框架。我们还引入了一种新的基于字符的词嵌入方法,允许模型将不同语言中的相似词投射到同一个词嵌入空间中。此外,通过在字符级执行跨模态检索,文本编码器的存储需求大大降低,允许更轻,更可扩展的检索架构。当新的语言被添加到系统中时,基于字符的建议的语言不变的文本编码器在存储需求方面几乎不受我们的贡献包括新的方法,用于构建基于字符级的词嵌入,改进的损失函数,和一个新的跨语言对齐模块,不仅使架构语言不变,但也提出了更好的预测性能。我们表明,我们的模型在单语言和多语言场景中的表现优于当前最先进的这项工作可以被视为检索研究的新路径的基础代码可在https://github.com/jwehrmann/lavse 上 获得。1. 介绍本文研究跨模态检索问题该任务包括在给定对不同模态的查询的情况下从一个模态检索内容,例如,基于文本描述返回图像。几个重要的应用程序受益于成功的检索策略,如图像和视频检索,字幕[32,37],以及盲人导航,仅举几例。本文的贡献之一是在不同的检索域中引入了一个重要的鲁棒性特征:语言不变的行为除了使任务语言不变,我们还提出了一个通用的策略,只依赖于字符级学习的词嵌入。这意味着我们的嵌入方法在添加检索任务的新语言。此外,我们的方法可以扩展到学习新的语言,而不需要额外的机器翻译模型,在处理方面要昂贵得多。为此,我们提出了一种新的训练过程,该过程通过强制相似的句子在嵌入空间中具有高相似性来执行跨模态和跨语言对齐,同时将相关的图像-字幕对投影到相同的空间中。我们的贡献还包括更好的图像和文本编码功能,以明确地利用内部注意力地图,这允许更好地对两种方式进行语义编码我们表明,使用基于区域的非线性非局部模块可以大大提高预测性能,能够超越基于堆叠注意力层的最先进我们还提供了实验训练文本编码器与不同粒度的文本正在学习。例如,当前最先进的方法[36,7,14,38,22]是基于通过词嵌入训练的网络[25],而我们提出的方法可以以端到端的方式进行训练,以便从头开始学习单词级和字符级特征,而无需对文本编码器进行任何预处理更具体地说,原始字符被映射到在训练过程中学习的单词潜在空间,这允许生成的模型将不同语言的单词投影到相同的基于单词的嵌入空间中。我们进行了一系列的实验来评估所提出的架构的多个方面。概括起来,我们的贡献如下:(i)新颖的基于字符的词嵌入方法;(ii)一个跨语言、跨模态的检索框架; ㈢改进的成对排序损失函数,可在多语种情况下训练单词和字符级模型;(iv)改进的图像表示策略,其将对象表示映射到共享语义空间中,丢弃跨模态注意层,以及(v)我们提供具有新颖检索分割的YJCaptions数据集的音译版本。所提出的方法优于国家的最先进的方法在图像检索和图像注释任务,同时执行-ING更快的最佳基线策略相比。58045805i=1我i=1J我Ji=1l1l2我2. 跨语言多模态检索我们提出了一种训练语言不变词嵌入的方法,该方法可用于检索以多种语言编写的图像及其各自的标题,即CLMR。形式上,考虑一组图像X={x(i)}|X|以及它们的相应标题C={c(i)}|C|.方法. 在我们的方法中,词向量被馈送到一个双向G RU生成|c㈠|d维隐藏状态的每个方向。这些词向量可以是传统的,如来自CLMR的词向量;也可以是基于字符生成的,如那些来自LIWE。在[22]之后,通过对每个方向的文本表示进行平均来生成最终表示i=1另外,令L={l i}|L|i=1是一组语言,TLI{t(i)}|不|i=1是语言li中的一组句子。帽-2.2. 基于字符的单词嵌入c(i)和c(i)表示相同的语义内容,基于词嵌入和RNN的策略,或者用于编码句子的手工转换用不同的语言书写同样,t(i)和t(i)l1l 2都是包含相同语义的类属句,不同的语言。我们学习跨模态空间的方法遵循最先进的方法[18,10,36,39],其中两个函数必须近似,即,φ(c li)和φ(x),以便将图像X和它们各自的字幕C投影到相同的潜在空间中。因此,可以将φ(cl)∈ Rd和φ(x)∈Rd看作表示语义的特征向量。在共享的D维空间中,相关的图像-字幕对变得彼此接近,并且非相关对的距离必须大于相关对的距离。因此,我们认为,我们想要近似两个向量,使得相似性度量s(φ(x),φ(cli))≥1。考虑到我们的目标是训练语言不变的跨模态嵌入模型,函数的选择特别重要。这样的函数应该能够跨不同的语言学习语义文本信息,这通常需要非常大的词汇表。 我们确保通过使用用于近似图像和字幕的相同相似性度量,我们可以将以不同语言编写的两个不同句子近似为相同的联合嵌入空间,尽管具有相同的语义因此,我们也希望s((t(i)),(t(i)<$1。的许多显著的缺点:(一)需要培训的嵌入[28,25]和RNN [20]在非常大的语料库(具有数百万或数十亿个单词)中,消耗大量时间并要求高计算能力;(ii)对于编码单个单词或句子,有必要拥有包含所有已知单词的整个单词词典,这大大增加了存储所有数据的内存需求(iii)对于跨语言或非正式领域,词典中的词的数量随着语言的数量而增加;(iv)需要预处理步骤来纠正打字错误和使词标准化。考虑到字符编码和词嵌入方法的优点,我们设计了一种新的策略,用于表示在 加上标题,试图利用两者的优点,同时避免他们的缺点。 这种策略,在此被称为LIWE(词汇不变词嵌入),学习从字符级输入生成词嵌入,这些词嵌入可以由GRU或卷积层进一步处理。与以前的工作[29,17,16]使用字符或类似的子词信息与RNN一起生成词嵌入不同,我们的方法易于实现,并且允许快速的词嵌入计算。词嵌入向量通常由以下方法生成:在一个单独的大型语料库上进行预训练,或者完全训练l1l 2CLMR的总体架构可以在图1中看到。2.1.文本编码器所有的词向量通过反向传播的梯度在目标任务的训练。在这两种策略中,一个人必须手头有所有已知的单词,并将它们存储在词汇表中关于文本编码函数(. ),它应该理想地能够从图像和字幕中近似高级语义概念,同时学习不同语言之间的句子之间的相关性。最近的研究主要集中在通过GRU [5]网络编码图像标题,手工转换词嵌入或字符级卷积网络。这些策略中的大多数通过将文本投影到高维语义嵌入上来以全局方式对文本进行编码。另一方面,最近最先进的方法[22]利用GRU网络的隐藏状态来计算图像区域和标题之间的跨模态注意力,与全局嵌入相比,这种策略使测试阶段慢得多V={w(i)}|V|因此可以在训练和测试时取回它们。设f(i)为用于检索第i个词嵌入向量的函数.这种功能通常使用两种主要方法之一来实现:(i)一个二元向量W∈{0,1}|V|×1,因此W=1且|V|W=1,则乘以嵌入权重矩阵E∈ R|V|×|ω|,使得f(i)=WTfE;以及(ii)f(i)被封装为查找表函数,使得f(i)=fEi。在LIWE中,函数的实现遵循不同的策略。 我们使用这个词的原子成分w j = { a(i)}|WJ|其中a(i)是字w j内的ith字符到k en。 该字符被表示为稠密向量,α ∈ R24,因此可以将(i)实现为独立处理每个单词的字符向量的函数,5806RNNRNNRNN一帐篷是被设置起来对的冰泽尔腾aufdemEIS图1. CLMR的整体架构最终得到矢量R|W|.重要的是由于需要为所有标题∈ C和句子∈ T的每个单词计算,因此需要快速计算。LIWE是通过简单地连接字符嵌入来计算的,而不是使用应用于字符级输入的卷积层,目的是优化单词嵌入空间。此外,我们通过使用至少一个批量全连接层来投影在这里,字符级向量的连接已经作为低级单词嵌入工作。实际上,应用于该输入的第一全连接层立即从整个输入学习(即,在输入上实现最大的接收域)将低级嵌入投影到高级嵌入中,这又实现了有利于语义的与句法的更高程度的分离。设Ct×dc是一个编码字符级嵌入序列的矩阵,dc=24。该序列被拆分为单词,然后连接起来构建一个大小为Nw×Cw×24的原始单词级表示,其中Nw是给定文本中的单词数,Cw是每个单词中的字符数,24是字符的大小嵌入在这种策略中,每个单词中的字符数为了处理这个问题,我们用一个特殊的to- ken填充单词,这样所有的单词都包含相同数量的字符。固定的字符数是基于语料库中单词长度我们最多雇用三名全连接层将填充的Nw×Cw×24张量投影到一个Nw×Dw矩阵中,该矩阵可以由我们的文本编码模型处理。其中Na是字母表中的字符数,仅产生115k个参数。最后,来自Flickr30k和Multi30k的语料库(Flickr30K翻译成德语)包含大约20,000个单词,使用时需要20,000×300 =6,000,000个词嵌入∈R300,其内存需求比LIWE(128,256)大50倍鉴于差异线性增加,40,000个单词的语料库将足以使LIWE的配置以两个数量级的更少的用于嵌入单词的参数运行2.3. 自适应图像编码器图像编码函数φ(x)封装了三个主要步骤:(i)在Visual Genome数据集[21]上训练的对象检测器网络(Faster R-CNN [31])的前向传递,用于提取图像内的k个最重要的区域,其灵感来自[1,22];(iii)一维卷积层,用于将区域投影到共享空间中,随后是全局平均池化,其生成原始图像的最终向量表示。最后两个步骤与基线方法[18,10]有很大不同,因为我们将基于对象的特征投影到语义空间上,而不是投影给定卷积网络中最后一个池化层生成的图像特征向量。它有点类似于[22],不同之处在于我们通过NLM模块计算内部注意力地图,其中所有区域都用于计算注意力权重。通用NLM表示为:因此,LIWE被设计为用一个可学习的函数来代替传统的词嵌入矩阵,该函数可以近似这些嵌入的行为,而不需要NLM(x)= σ.SOFTMAX.Σq(x)T k(x)Σv(x)(一)成千上万的词向量的存储。例如,假设LIWE(128,256)的LIWE化身,该方法通过分别包含f∈ {128,256}个神经元的全连接层对字符级向量∈R24进行所需参数的复杂性,来自给定词汇表中的所有单词的学习信息由下式给出:(Na×dc)+([dc×CW]×f1)+(f1× f2),当应用于输入x的区域时,其可以应用于映射长距离空间依赖性。一旦该模块学习了将值xi与所有剩余位置xj进行比较的相似性函数,其产生亲和度标量值,则该模块对于映射全局关系特别有效。在这个NLM化身中,亲和力标量由下式给出:嵌入之间的矩阵乘法,CNNNLM池Conv1d两个男孩在踢足球5807CC′L1L1LJ我J我是我的朋友我伊利q(·)和k(·)函数。q(·)、k(·)和v(·)被实现为一维卷积层,将输入维度降低8倍。与[35]不同的是,在这项工作交叉模态对准由下式给出:ΣJM(x,cl)=[α−s(φ(x),<$(cl))+s(φ(x),<$(c′))]+S1所得到的加权特征图由非"线性函数σ(x)= max{0,x}+0. 1×最小值{0,x}。Σl11升1在这里,NLM模块学习所有区域之间的关系,以便以加权的方式将它们投影到跨模态空间上。因此,网络是能够给予更多+[α−s(φ(cl1),φ(x))+s(φ(cl1),φ(x′))]+(4)x′重要区域和单词的权重,同时不需要跨不同的JMm(x,cl1)= max[α−s(φ(x),φ(cl1L1))+s(φ(x),φ(c′))]+模式。这一点很重要,因为计算在训练和测试中,集中注意力的速度都相当慢。相反,我们的模型可以利用全球信息+ max[α−s(cl1x′),φ(x))+s(φ(cl1),φ(x′))]+(五)在更有代表性的语义向量空间中投影图像特征,这种方法允许使用非常有效的矩阵乘法函数进行快速搜索。2.4. 损失函数现有技术的检索框架采用成对排序损失作为目标函数来计算φ(·)和φ(·)梯度。成对排序损失从查询中推送具有小违规的way实例,并且近似其中CL1是图像X′和x′表示图像的负示例,描述查询。 s(x i,x j)是计算出的x i和x j之间的相似度。 为了计算s(x i,x j),我们首先缩放x i和xj以具有单位范数,因此两个结果的内积变为余弦相似度。由于我们也在处理跨语言对齐,我们将跨语言损失函数表示为:Σ配对匹配实例保持关节嵌入空间上的最小余量默认的化身会这样做JLs(tli,ttj)=t′Li[α−s(φ(tl),<$(tl))+s(φ(tl),<$(t′))]通过对查询和对比示例之间的计算出的相似性求和这种方法可能会受到小违背否定词对硬对比词的支配的影响[10]。硬对比是那些与查询示例的相似性最大的否定示例,Σ+[α−s(tlit′LJ),φ(tlj)+s(φ(tli),φ(t′))](6)正面(匹配)示例。对于特定查询,当JL(tl,tt)= max[α−s(φ(tl),(tl))+s(φ(tl),(t′))]′返回的示例包含几个带有小中提琴的否定词m i jtli我是我的朋友因此,一个过于接近查询的负面例子可能不会得到充分考虑。在这种情况下,+ max[α−s(φ(tl),φ(tl))+s(φ(tl),φ(t′))](7)不LJ移动硬对比度,这样的映射可能需要一个更新步骤,这将带回小的违反负,创建局部最小值,模型可能会陷入其中。基于硬对比的成对排序损失最大铰链损失-已被证明是更适合的排名任务。这种方法的缺点是它基于单个硬负来优化损失函数其中T11和T12表示来自两种不同语言的两个语义对齐的句子。注意,tl1和tl2与来自跨模态检索任务的图像标题没有语义关系,并且可以从完全不同的语料库获得。优化多模态跨语言潜在空间的最终损失函数由下式给出:每个查询的示例。由于我们试图从头开始学习字符级嵌入,因此优化过程在训练开始时从单个随机值学习这种深层表示变得我们通过引入一个新的损失函数来克服这个问题,该函数随着时间的推移以指数方式增加硬对比的相关性,如下所示:最小JM(x,cl1)+W3. 实验装置3.1. 数据集1|L|Σ|L|J JL(tl1,ttj)(8)J=λ(λ)·Jm+(1−λ(λ))·Js(2)C5808λ= 1−η(3)其中λ是权衡权重,λ是迭代次数。 的铰链和最大铰链我们已经使用四个大规模数据集进行了几次实验,用于跨模态检索,即MS COCO [23],Flickr30k [30],其多语言版本Multi30k [8]和YJ Captions 26K Dataset[26],后者包括日语字幕的子集。5809表1.COCO测试集上的交叉模态结果Flickr30k测试集上的跨模态结果带下划线的值优于最佳公布结果。粗体值表示当前最先进的结果。图像到文本Text to image方法R@1R@5R@10R@1R@5R@10Σ订单[36]49.378.589.439.575.086.2417.9Chain [39]61.289.395.846.681.990.9465.7VSE++[9]64.6-95.752.0-92.0-DPC [43]65.689.895.547.179.990.0467.9GXN [13]68.5-97.956.6-94.5-[第15话]69.992.997.556.787.594.8499.3[22]第二十二话70.994.597.856.487.093.9500.5[22]第二十二话69.293.297.554.486.093.6493.9VSE++*67.593.796.853.484.992.4488.8LIWE69.693.998.055.587.394.2498.6CLMR71.893.197.656.287.594.2500.3LIWE(+手套)73.295.598.257.988.394.5507.7表2. Flickr30k测试集上的跨模态结果。带下划线的值优于最佳公布结果。粗体值表示当前最先进的结果。图像到文本Text to image方法R@1R@5R@10R@1R@5R@10ΣVSE++[9]52.987.239.679.5DAN [27]55.081.889.039.469.279.1413.5DPC [43]55.681.989.539.169.280.9416.2[第15话]55.582.089.341.170.580.1418.5SCAN-i2t-avg [22]67.989.094.443.974.282.8452.2[22]第二十二话61.887.593.745.874.483.0446.2VSE++*56.983.288.641.070.579.5419.7CLMR64.088.393.346.876.484.5453.2LIWE66.488.994.147.576.284.9458.1LIWE(+手套)69.690.395.651.280.487.2474.3来自COCO的26K图像COCO主要用于图像-字幕对齐的训练和评估系统,并且它已经成为评估最先进方法的预测性能的标准基准。它包括113,287张用于训练的图像,5,000张用于验证的图像和5,000张用于测试的图像。Flickr30k包含大约28,000张图像用于训练,1,000张用于验证和测试。每个图像有5个相应的文本描述。Multi30k最初是为了训练视觉引导的机器翻译模型而开发的,尽管我们将其用作多语言语料库,因为它为每个Flickr图像提供了德语最后,YJ Captions数据集还包括每个图像大约5个字幕,这导致一个语料库的130k日语图像描述对齐到英语的。鉴于原作的重点是在图像字幕的任务上,并且不提供用于图像检索评估的分割,我们通过对每个分割随机采样100k个图像来生成验证和测试分割关于YJ字幕的最后一句话是,我们每-形成实验,利用音译版本的数据集,这允许训练基于字符的单词嵌入模型。3.2. 评估措施为了评估结果,我们使用与[18,36,10]中相同的度量:R@K(读作“在K点召回“),其中地面实况是前K个检索结果之一的查询的百分比价值越高越好。4. 实验分析我们首先分析了我们的模型在COCO和Flickr30k数据集上的预测性能,这些数据集是专门为英语字幕训练的。我们的第二个分析是关于使用我们的多语言跨模态检索框架所产生的结果,在这里我们可以理解训练跨模态和多语言模型的影响。我们用改进的非局部图像和文本编码函数以及建议的损失函数训练的模型表示为CLMR。基于字符串的单词嵌入模型被描述为LIWE。超参数和训练细节在补充材料中报告。4.1. 单一语言结果在本节中,我们将展示COCO和Flickr30k测试集的英文结果。我们首先比较我们的方法训练只与跨模态检索损失函数Jm与国家的最先进的方法。 表1中的结果表明,我们的方法与最先进的方法(如SCAN [22])一样,尽管训练速度快了四倍,并且在测试阶段快了一个数量级(取决于要检索的实例数量)。这种运行时间的差异是由于5810表3.Multi30k和YJ Captions测试集上的单语言跨模态结果图像到文本Text to image方法R@1R@10R@1R@10R@1R@10ΣMULTI 30KVSE+47.277.086.533.761.171.7343.6SCAN-t2i44.576.886.435.760.971.0339.6SCAN-i2t51.882.091.032.761.772.2358.7CLMR51.679.788.934.563.573.6357.3LIWE59.987.593.742.371.179.8392.0YJ CAPTIONSVSE+54.082.190.943.276.586.5433.2SCAN-i2t51.283.091.839.874.685.8426.2SCAN-t2i56.585.793.042.573.683.4434.6CLMR[Ours]57.485.394.045.180.189.6451.4LIWE[Ours]56.986.194.145.178.088.2448.4在SCAN中使用的交叉注意机制,而在我们的方法中,我们使用非局部内部注意模块来构建更好的矢量表示。可以观察到,CLMR优于所有其他方法在R@1的图像到文本(71。8%)和文本到图像(57. 9%)。使用LIWE训练的模型,尽管完全取代了词嵌入更高效的记忆学习功能,也为所有任务和指标提供了坚实的性能,表现仅略低于其词嵌入竞争对手,即CLMR。在COCO上表现最好的方法是LIWE,它使用基于字符的词嵌入连接到预训练的Glove向量进行训练,得到73。2% R@1和57。8%的图像到文本和文本到图像分别,绝对改善7。7%,当考虑召回总和时。表2所示的Flickr30k结果显示,LIWE呈现了总体最高分数,文本到图像检索,即,四十七R@1的5%,绝对改善1. 与SCAN-t2 i- avg相比,7%,但性能优于它4。6%的图像到文本R@1指标。此外,LIWE执行3. 与SCAN-i2 t-avg相比,在R@1上高6%。再一次,使用基于字符的词嵌入方法呈现了最先进的结果,并且CLMR优于考虑所有指标的图像检索任务的所有基线。这清楚地表明,LIWE是非常有效的,尽管近似的词嵌入通过学习功能的输入字符。此外,我们看到更多的证据表明,LIWE可以补充手套预训练的词嵌入。在这种情况下,考虑到Flickr30k是一个中等大小的数据集,这似乎是非常有效的,同时使用这两种方法可以帮助避免过度拟合。因此,LIWE(+Glove)在大多数指标上都比所有最先进的方法表现出色(文本到图像R@1的相对改善为12%表3描述了Multi30k数据集的结果,即,德国版的Flickr30k。为了提供与最先进方法的公平比较,我们使用损失函数训练了SCAN和VSE++模型。在该实验我们观察到LIWE能够以显著的余量胜过所有其它方法 。 CLMR 的 表 现 与 SCAN-i2 t 方 法 相 似 , 但 超 过VSE++和SCAN-t2 i。YJ Captions的结果见表3。回想一下,这个数据集包括来自MS COCO训练集的大约3万张图像最好的方法分别是CLMR、LIWE和SCAN-t2 i。VSE++还提供了强大的性能,特别是文本到图像。4.2. 跨语言搜索结果在本节中,我们报告了跨语言实验,以评估学习语言无关表示的所有模型的性能在这种情况下,我们使用公式CLMR,优化完整的损失函数J(公式2)。同样,所有模型都使用相同的损失函数进行训练。 在这种情况下,我们还添加了一个强大的BERT多语言基线,它包括12层,110M参数。我们使用最后一层的激活值,并将其用作固定的单词嵌入向量,由BiGRU层处理表4示出了双语模型的结果,其被训练用于将图像近似为英语字幕,同时还近似来自Multi 30k的对齐的英语-德语句子请注意,LIWE能够在所有指标中超越所有基线。BERT-多语言呈现出相当强劲的性能,超过了基线和CLMR的值不过,请注意,它在内存、参数和运行时间方面的成本很表5显示了用英语和日语训练的模型的结果。 LIWE表现强劲(R@1 59. 2%的图像到文本),紧随其后的是SCAN-t2 i和CLMR。这是一个相当显著的结果,特别是当我们考虑到日语和英语在结构上的不同时。然而,LIWE能够学习良好的代表性和最先进的方法。5811表4.通过共同训练多语言句子嵌入的Multi30k德语测试集的跨模态结果图像转文本(ENGLISH)文本转图像(ENGLISH)图像转文本(GERMAN)文本转图像(GERMAN)方法R@1R@10R@1R@10R@1R@10R@1R@10VSE+58.991.843.981.549.884.633.670.6SCAN-t2i59.493.445.083.742.282.427.966.5SCAN-i2t58.991.837.179.344.483.626.065.5BERT-多语言62.092.142.782.550.986.433.273.5CLMR59.992.843.984.350.486.834.673.1LIWE64.494.147.585.453.089.136.776.8表5.通过共同训练多语言句子嵌入的YJ Captions音译测试集的跨模态结果图像转文本(ENGLISH)文本转图像(ENGLISH)图像转文本(JAPANESE)文本转图像(JAPANESE)方法R@1R@10R@1R@10R@1R@10R@1R@10VSE+54.692.742.587.849.488.538.984.5SCAN-i2t52.992.736.484.842.786.928.579.8SCAN-t2i58.294.047.490.348.289.439.685.4CLMR56.992.943.289.151.491.738.687.3LIWE59.294.746.190.448.690.637.085.6表6.消融研究:Flickr30k上的交叉模态结果。图像到文本Text to image方法R@1R@10R@1R@10LIWE(完整)66.492.347.584.6LIWE(无NLM)61.892.344.682.2LIWE(线性NLM)60.793.544.783.3LIWE(NLM WR)56.391.341.779.1[JMS][19]60.492.243.883.3[JMM)[10]发散---CMLR[Ours,λ= 0。九九一]65.893.147.384.2[19]第十九话:一个人的世界63.293.046.684.8LIWE(256,256)[JMM[10]]发散---LIWE(256,256)[Ours,= 0.九九一]65.392.547.484.64.3. Flickr30k的烧蚀研究在表6中,我们显示了CLMR中每个组件的重要性。首先,我们观察到完整方法在其默认化身中,表示为CLMR(完整)或简称为CLMR,表现出最佳的整体性能。同样清楚的是,考虑到我们可以完全放弃跨通道注意策略,非本地模块的应用是相当重要的。此外,我们看到,降低输入维数以将其用作NLM模块的查询是非常重要的(NLM WR在不减少输入的情况下进行训练最后,结果表明,所提出的损失函数优于[19]中的损失函数,并且比[10]更稳定。图2描述了我们提出的方法以及VSE++和SCAN-t2 i方法。很明显,所提出的损失函数的优化导致更好的结果。在这种情况下,VSE++使用我们的损失函数进行训练,使其能够在这种多语言场景中收敛我们还强调,在第5个纪元之后,LIWE在所有语言中的表现都超过了CLMR,成为剩余优化中最好的执行方法。令人惊讶的是,与VSE++相比,SCAN-t2 i在验证集上表现不佳尽管如此,它在测试集上取得了良好的预测性能。4.4. 时间分析为了证明我们的方法在平均CLMR需要3.1 1,000张图片和5,000张图片的编码时间为10秒,计算所有图片对之间的相似度在CPU上需要0.15秒CLMR+LIWE的数据编码时间为5.11s,CPU上的相似矩阵构建时间为0.14s,GPU上的另一方面,使用原始的SCAN代码,它需要10秒来编码相同的数据,180秒在GPU上构建相似性矩阵。我们还没有在CPU上评估他们的方法我们方法编码数据的速度快30倍,计算相似矩阵的速度快三个数量级,当 前 最 先 进 的 方 法 ( 基 于 GPU ) 。 此 外 ,CLMR+LIWE能够将字嵌入减少到固定大小的参数数量。5. 相关工作最近的工作采用类似的方法,通过使用图像-标题对作为枢轴点来近似语义空间中的不同语言[12,33]。的工作[12] 通过调整来自[18]的传统成对损失函数引入了这样的想法,尽管作者只训练了双语模型。由于文本和图像编码器的限制,以及基于铰链总和的损失函数,他们的方法在学习良好的语言不变嵌入方面受到限制,这局部极小值。作者在[33]中提出了一种基于深度部分典型相关分析的多语言嵌入方法,该方法旨在处理两个主要的语义任务,即多语言单词相似性和跨语言图像描述检索。在[24]中,作者证明了不同的语言具有相似的词嵌入空间。基于这一观点,Sev-5812CLMRLIWEVSE++SCAN-t2iCLMRLIWEVSE++SCAN-t2iR@1R@1a) 标题检索b)图像检索503040302020101000 5 10 15 20 25 3035迭代次数(1 × 103)00 5 10 15 20 25 30 35迭代次数(1 × 103)a)标题检索b)图像检索503040302020101000 5 10 15 20 25 3035迭代次数(1 × 103)00 5 10 15 20 25 30 35迭代次数(1 × 103)图2.R@1跨Flickr30k(第一行)和Multi30k(第二行)上训练时期的图像到文本和文本到图像的跨模态语言不变值已有文献提出了用于跨语言对齐的算法[11,42,2,34,3,4,6]。我们的工作遵循相同的假设,尽管据我们所知,这是第一个使用基于字符的输入来改善多语言跨模态检索的工作。以前的工作已经广泛地探索了依赖于词级特征的跨模态检索任务[36,7,14,38,22]。在[41,39,40]中,作者探索了一种字符级模块,旨在通过卷积具有不同粒度级别的原始字符来学习文本语义嵌入。尽管在概念上更简单,需要的参数更少,但他们的方法优于最先进的结果。Anderson等人[1]提出了使用对象检测器从原始图像中提取区域特征,而不是图像的单个特征表示。Lee等人。[22]已经表明,这些功能可以在堆叠注意力层的帮助下提高跨模态检索性能,一旦它能够保留更详细的信息并突出更相关的内容。最近,Elliott et al.[8]创建了Multi30k数据集,该数据集扩展了Flickr30K数据集,并由专业翻译人员在英语描述上创建了德语翻译。据我们所知,我们的工作是第一个通过协同训练策略提出语言不变的字符级嵌入,该策略利用对齐的多语言语料库来帮助完成跨模态检索任务。6. 结论在本文中,我们提出了一种新的跨模态检索方法,学习语言不变的多模态嵌入。所提出的框架CLMR利用改进的文本和图像编码函数,以及更强大的损失函数。我们还介绍了一种新的数据表示方法,在该方法中,我们用一个模块来代替传统的词嵌入矩阵,该模块将字符序列映射到词级嵌入空间。我们已经证明,我们的新架构在广泛使用的MSCOCO和Flickr 30 k数据集中的图像注释任务(R@1)方面优于最先进的模型,同时不需要跨模态注意力机制的昂贵计算。我们的模型还提供了最佳性能和整体适用性,用于学习语言不变的表示,如Multi30k数据集的结果所示。作为未来的工作,我们打算在这个框架内探索其他几种语言,并验证所提出的协同训练策略对其他跨模态任务的潜力,如图像字幕,视觉问答和图像合成。致谢我们感谢谷歌、巴西研究机构CNPq和FAPERGS资助这项研究。本研究部分由Coor denaca odePessoaldeNivel Superior- Brasil(CAPES)-财务代码001资助CLMRLIWEVSE++SCAN-t2iCLMRLIWEVSE++SCAN-t2iR@1R@15813引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。arXiv预印本arXiv:1707.07998,2017。[2] Mikel Artetxe Gorka Labaka和Eneko Agirre。学习词嵌入的双语映射原则,同时保持单语不变性。2016年自然语言处理经验方法会议,第2289-2294页,2016年[3] Mikel Artetxe Gorka Labaka和Eneko Agirre。学习双语单词嵌入(几乎)没有双语数据。在Proceedings of the 55th Annual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers),第1卷,第451-462页[4] 曹海龙,赵铁军,张舒,姚猛。基于分布的双语词嵌入学习模型在COLING 2016会议录中,第26届国际计算语言学会议:技术论文,第1818-1827页[5] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv:1412.3555,2014。[6] Long Duong,Hiroshi Kanayama,Tengfei Ma,StevenBird,and Trevor Cohn.没有双语语料库的跨语言词嵌入学习。arXiv预印本arXiv:1606.09403,2016.[7] 艾薇夫·艾森施塔特和里奥·沃尔夫。用双向网络链接图像和文本在IEEE计算机视觉和模式识别会议,2017年7月。[8] 德斯蒙德·埃利奥特和斯特拉·弗兰克。哈利勒sima2016.multi 30 k:多语言英语-德语图像描述。第五届视觉与语言研讨会论文集,柏林,德国。[9] Fartash Faghri,David J Fleet,Jamie Ryan Kiros和SanjaFidler。Vse++:用硬否定词改进视觉语义嵌入。2017年。[10] 放大图片作者:David J.弗利特,瑞恩·基罗斯,桑娅·菲德 勒 . VSE++ : 改 进 的 视 觉 语 义 嵌 入 。 CoRR ,abs/1707.05612,2017。[11] Manaal Faruqui和Chris Dyer。使用多语言相关性改进向量 空 间 在 Proceedings of the 14 th Conference of theEuropean Chapter of the Association for ComputationalLinguistics,第462-471页,2014年。[12] Spandana Gella ,Rico Sennrich ,Frank Keller ,MirelaLapata. 学习多语言多模态表示的图像旋转2017年自然语言处理经验方法会议论文集,第2839-2845页,2017年[13] Jiuxiang Gu , Jianfei Cai , Shafiq Joty , Li Niu , andGang Wang.看,想象和匹配:用生成模型改进文本视觉跨模态检索。arXiv预印本arXiv:1711.06420,2017。[14] 炎黄、魏王、梁王。基于选择性多模态lstm的实例感知图像和句子匹配在IEEE计算机视觉和模式识别会议(CVPR),2017年7月。[15] 炎黄、齐午、梁王。学习图像和句子匹配的语义概念和顺序。arXiv预印本arXiv:1712.02036,2017。[16] Yoon Kim、Yacine Jernite、David Sontag和Alexander MRush。字符感知神经语言模型。第三十届AAAI人工智能会议,2016。[17] Yeachan Kim , Kang-Min Kim , Ji-Min Lee , andSangKeun Lee.学习使用子词信息生成词表示。在第27届国际计算语言学集,第2551[18] Ryan Kiros,Ruslan Salakhutdinov,and Rich Zemel.多模态神经语言模型。第31届机器学习国际会议论文集,第595- 603页,2014年[19] Ryan Kiros、Ruslan Salak
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功