没有合适的资源?快使用搜索试试~ 我知道了~
NAPReg:名词的语义感知跨模态嵌入
1135NAPReg:语义感知跨模态嵌入的名词Bhavin Jawade*,Deen Dayal Mohan*,Naji Mohamed Ali,Srirangaraj Setlur,Venu Govindaraju计算机科学与工程布法罗大学,SUNY{bhavinja,dmohan,najimoha,setlur,govind} @ buffalo.edu摘要跨模态检索是一项基本的视觉语言任务,具有广泛的实际应用。文本到图像匹配是跨模态检索的最常见形式,其中,给定大型图像数据库和文本查询,任务是检索最相关的图像集。现有方法利用具有注意力机制和排名损失的双编码器来学习嵌入,其可用于基于余弦相似性的检索。尽管这些方法试图使用定制的注意力机制来执行跨视觉区域和文本单词的语义对齐,但是没有来自训练目标的明确监督来强制执行这种对齐。为了解决这个问题,我们提出了NAPReg,这是一种新的正则化公式,它将高级语义实体即名词作为共享的可学习代理投射到嵌入空间中。我们表明,使用这样的公式允许注意力机制学习更好的词区域对齐,同时还利用其他样本的区域信息来构建语义概念的在MS-COCO、Flickr 30 k和Flickr 8 k三个基准数据集上的实验代码:https://github.com/bhavinjawade/NAPReq1. 介绍学习鲁棒的嵌入文本图像匹配或跨模态检索是视觉语言理解的一个重要目标。跨模态检索研究的动机是需要解决各种实际挑战,如产品检索,人员搜索[18]和组合检索[30]。与单模态任务(如图像到图像搜索)相比,跨模态检索要求模型学习穷举对应*按字母顺序排列的图1:描述了文本和图像特征与共享语义实体的交互,以学习更多鲁棒的视觉表示,同时改进区域文本对齐,以使嵌入空间中的上下文相关对更接近。(Best以数字形式显示)。以模拟实体之间的复杂关系。早期的作品[8,13]将图像和文本表示投射到共享的嵌入空间中进行检索,无法捕获模态上高级和粗糙特征之间的细粒度交互。捕获文本和图像中特征之间的对齐对于确定相似性至关重要,这种相似性可以区分看似相似的样本。最近的工作试图捕捉这些视觉区域和文本词之间的关系,使用定制的注意机制,功能对齐方法,和功能聚合模块。Lee等人[15] 提出了改进的区域到词的对齐,利用堆叠交叉注意力来计算聚合的图像到句子的相似性。Liu等人。[20]旨在通过对属性和对象之间的关系进行建模来学习文本和视觉图形之间的对应关系。Diao等人[7]通过将局部和全局特征相似性建模为通过有向边连接的图节点来迭代计算最终相似性,从而改进了[15]。1136尽管这些方法探索了不同的表征学习策略,并逐步提高了性能,但排名损失仍然是跨模态检索的事实上的训练目标。虽然大多数以前的工作已经利用了随机样本挖掘策略的三重损失,Chen et al.[6]提出了一种离线硬负采样方法和Wei et al.[33]提出了一种加权正负信息对的多项式函数。尽管基于三重态的损失在过去对于单模态/多模态检索工作良好,但是期望能够补充更新的交叉注意机制的用于改进图像到文本对齐的附加监督。在这项工作中,我们提出了NAPReg,这是一个正则化对象,通过将句子中的名词捕获的高级语义概念投影为嵌入空间中的共享可学习代理,提供直接监督以改善这个正则化项有助于现有的注意力机制学习一个更好的区域到单词的对齐。NAPReg可以很容易地集成到现有的基于三元组的公式中,并且可以补充各种现有的交叉注意和特征对齐模块,以学习更鲁棒的特征表示。本文的主要贡献概括如下:1.我们从训练目标中确定了直接监督的必要性,以更好地学习文本图像检索的区域到单词对齐。2.我们提出了NAPReg,一种基于代理的配方,它最大限度地提高了聚合上下文向量和共享语义代理之间的相似性,以实现更好的区域词对齐,并学习更一般化的视觉潜在表示。3.我们专门设计了NAPReg,以补充前交叉注意技术,并为它们提供所需的监督,以实现强大的特征对齐。我们在三个基准数据集上进行了广泛的实验:MS-COCO,Flickr 30 k和Flickr 8 k,并证明了NAPReg与多种特征对齐方法的有效性。NAPReg始终取得优于最先进技术的结果。我们还进行了严格的实证研究和定性分析,以评估不同的超参数在正则化项中的作用。2. 相关作品当前的跨模态检索方法主要集中在两种方法上:i)改进用于特征提取和对齐的主干架构,以及ii)改进训练目标和损失函数公式-学习更多的区别特征。后者,也称为跨模态度量学习,探索了a)使用注意力的模态交互和特征聚合,以及b)使用采样和硬挖掘策略以及自定义损失公式的深度度量学习中的跨模态特征提取和聚合-跨模态检索的表示学习主干由两部分组成:特征提取器和特征聚合器。Lu等人[21]使用来自Faster-RCNN对象检测器的附加监督输入执行特征提取,以向视觉Transformer编码器提供标记的图像块。其他方法[17,3]利用来自自下而上注意力网络[1]的预训练视觉表示,并使用新的特征对齐模块对其进行增强。Li等人[17]提出了一个区域关系模型和一个全局语义推理模型,该模型建立在图卷积网络和GRU之上,使用来自自下而上注意力的图像特征[1],这些图像特征使用匹配损失(基于铰链的三重排序损失)和生成损失(对数似然字幕损失)进行联合优化。[26,37]提出了不同的基于注意力的多模态特征融合架构。Chen等人。[4]提出了一种广义池化策略,该策略使用BiGRU计算最大池算子的递增阶数的权重,用于VSE++特征的跨模态检索[32]提出了利用对象[34]提出了一种基于Transformer的模态内和模态间注意网络来学习多样本嵌入。使用三重损失公式作为训练目标是所有最近的特征聚合方法所共有的关键特征Metric Learning Methods Lecun等.[10]提出了一种对比损失公式,该公式试图在图像的特征表示属于同一类时减小它们之间的距离,而在它们属于不同类时增大它们之间的距离。三重损失[28]、提升结构损失[25]和N对损失[29]引入了负样本的概念,并提出了基于不同样本的相对重要性智能构建批次的采样策略。此外,还提出了配对加权[35]和课程学习[2]等技术来改进采样过程。尽管这些方法最初是针对单模态数据检索提出的Wei等人。[33]提出了一种基于自相似性和相对相似性的三元组相似性的多项式公式,用于跨模态度量学习。挖掘信息样本往往成为计算密集型任务。Yair等人[23]提出了一种基于代理的方法来克服这种计算开销。锚代理损失[14]进一步改进了公式,1137我不Σa=wnXΣ∈--联系我们联系我们n我 我∀将样本之间的相对距离并入特征空间中。这些基于代理的方法使用锚点(通常每个类一个)作为属于特定类的所有正图像特征由于这些损失公式的类特定的性质和缺乏全局分类信息的文本图像匹配任务,代理为基础的方法是不直接适用于跨模态检索。最近,基于Transformer的大规模视觉语言预训练(也称为基础模型)引起了人们的兴趣。首先,该领域的目标是在典型的大型数据集(数百万的图像-文本对)上训练基于大型Transformer的视觉和文本编码器。研究的两种途径其中Φ是MLP或任何其他非线性变换,并且Φ是序列模型(例如,LSTM、BERT等)将对应的特征表示投影到共享的嵌入空间中。 θi和θj是对应模态的参数。 f是计算两个表示之间的相似度的函数。在[15]之后,聚合不同区域级别和单词级别特征以进行跨模态检索的最佳策略是使用堆叠的交叉注意模块。考虑到图像到文本匹配的目标,对于每个视觉位置,单词表示a(即,关于第i个图像区域a(i)的关注句子向量a(i)如下所定义地构造:vTtj该域是:(i)对比预训练和(ii)基于交叉注意的预训练。[27],[24],[36] demostratesij=我||.||. ||tj|| ,i∈[1,n],j∈[1,m]对比预训练图像和文本嵌入,exp(τ. s<$ij)在大量的图像-文本对显示出强大的一般-wij=nj=1 exp(τ.s<$ij)(二)零炮分类的可实现性[16]和[12]表明,基于联合对比和交叉注意的预训练可以提高基于语言的下游任务(如VQA和视觉接地)的性能在现有的跨模态检索方法中使用的大多数损失公式都是从深度度量学习中得到启发的。这些方法缺乏一个明确的目标,以加强细粒度的对齐跨模态。在本文中,我们提出了一种新的正则化方法,现有跨模态损耗公式的能力M我不是j=1其中sij是每个单独的L2归一化单词表示j与图像区域i的余弦相似度,τ是softmax的逆温度图像-文本对之间的总体余弦相似度由下式给出S(V,T)=1v·at(3)i=1我们的正则化方法克服了类依赖的代理为基础的方法,合成代理从tangible实体存在于文本内容,并使用它们作为共享的语义概念。一般来说,给定训练集,包括图像-文本对,目标可以表述为S(Vi,Ti)> S(Vi,Tj)i j。对于这种检索问题,最广泛使用的损失公式之一是三重损失。匹配目标可以表述为:3. 方法在本节中,我们将首先回顾一个L=(i,j<$X){S(Vj,Ti)−S(Vi,Ti)+α}+(四)跨模态图像-文本检索问题,并随后提供所提出的规则化(NAPReg)的动机和设计3.1. 问题陈述考虑图像V=v1,v2,.的视觉特征。v n,其中v iRdv 是对应于图像中的第i个区域的特征表示。这里n是所考虑的视觉区域的数量。设T=t1,t2,. tm是对应于句子的文本特征,其中tiRdt是每个单词的编码表示。m是句子中的单词数给定一个查询属于一个特定的模态,跨模态检索的目标是从属于另一个模态的样本库中找到最佳的匹配表示。图像和文本对的相似性由下式给出:S(V,T)=f(Φ(V;θi),θj(T;θj))(1)+{S(Vi,Tj)−S(Vi,Ti)+α}+其中,[x]+= max(x,0)。3.2. 作为代理的我们对现有的用于跨模态检索方法的目标函数的分析揭示了一个缺点,我们打算通过改进优化标准来解决这个缺点我们首先激励需要这样的正规化,然后提出的制定。3.2.1动机为了更好地理解手头的问题,让我们首先考虑一个图像的例子,该图像具有三个显著区域和描述该图像的文本字符串。根据上一节的讨论,我们知道描述图像的视觉特征由V=v1,v2......给出。v;类似地,T=t1,t2tm1138是用于描述图像的词级特征的集合。1139NV∈∈P不不不我--我n我图2:建议的损失函数概述。对于训练小批量中的每个阳性样本(文本-图像对),我们最大化其与另一模态中的硬阳性的相似性,同时最小化与硬阴性的相似性。同时,我们计算一个名词上下文向量池的视觉和文本特征。在正则化项中,我们最大化该名词上下文向量与相关可学习语义代理的相似性,并最小化与不相关代理的相似性由此产生的损失是该对损失和正则化项的加权组合(最好用数字方式观看)考虑vi,vj,vk,对于i,j,k n,是与三个显著区域(对象,动作,属性等)相关联的位置/区域级并且a、b、cm的ta、tb、tc是句子中与这些区域相关联的词。考虑到这三个显著区域的存在,显著区域(vi,vj,vk)和对应的关注的外显向量(at,at,at)之间的相似性应该对全局特征贡献显著更多,这似乎是合乎逻辑的。检索方法依赖于像[1]这样的视觉特征提取器,其被训练来检测对象和属性。由于我们也依赖于这些特征提取器,因此我们将概念限制给定N作为在C中出现超过K次的唯一名词实体的总数,我们定义为(N,d)维可学习代理嵌入的集合,每个代理嵌入表示唯一名词实体。这些代理嵌入可以用来提供共享语义的概念,如广告,我JK相似性得分比非显著视觉区域。这个目标可以写为{v·a+v·a+v·at}>{v·at,r∈/i,j,k}(5)区域级图像到文本对齐所需的网络监控。为了使这些代理嵌入能够改进图像-文本对齐,我们需要相关图像和文本特征的聚合表示。为了iijj kkXxx=1为了达到这一目的,我们引入了名词语境的概念向量NV,这是视觉等式的右侧5表示不相关/非显著视觉区域之间的相似性 为了满足该附加约束,t应该具有比t中的对应的相对word(t,j )更多的权重(w,j)。强制执行这样的约束是不平凡的,因为区域级特征的标签不可用或者特征提取器因此,目前的损失公式不能提供一个明确的监督,以强制跨模态检索区域词对齐。3.2.2定义代理为了提供额外的监督,我们利用句子中描述图像的单词的词性设M=m1,m2,. ml是使用标准词性(POS)标记器从句子中提取的概念,然后C和文本区域。为了计算名词上下文向量,我们首先使用单个区域到文本对齐分数。S={v<$i·a<$t}<$i∈n(6)任何视觉区域的相对重要性可以通过与所有其他视觉区域相比,它与相应的关注句子向量的对齐程度来衡量形式上:s=softmax(S)( 7)给定相对重要性权重s,通过汇集视觉特征和文本特征来创建最终的名词上下文向量。这可以写成。将是从所有sen-n n聚合的所有概念的集合数据集中存在的张力尽管这里的概念NV=(siat)(sivi)(8)可以是名词,动词,形容词等,可以有可能i=1i=11140与图像区域的关联,大多数跨模态式中,λ表示阿达玛乘积(参见图1)。2)的情况。1141Nj=1N联系我们α1.Σ·NΣ。∈∈nnn日志.(v,t)∈/D+----通过正则化,我们计算名词的内容-一旦计算出V,我们显式地强制名词上下文向量与名词代理更好地对齐,以增强与显著对象的关系,使用我们提出的正则化约束,我们称之为名词作为代理(NAPReg)。令D+为训练集中所有正图像-文本对的集合。如果NS= n1,n2.... n 1表示文本T1中的名词,则P += p1,p2,. pl对应于这些名词的正代名词,N中的所有其他代名词都被认为是负代名词。如果有多个描述与同一个图像相关联,我们将所有文本样本的名词实体聚合起来,由下式给出:4. 实验4.1. 数据集我们在三个图像-文本基准数据集上进行了几个实验和消融研究:Flickr 8 k、Flickr 30 k和MSCOCO遵循[15,32,7]中使用的标准协议。Flickr8k数据集包含6000张训练图像,1000张验证图像和1000张测试图像。Flickr30k数据集包含31000张图像,每张图像有5个标题,其中1000张图像用于测试,1000张用于验证,29000张用于训练。我们展示了scala-Nbi=NcNSj(9)我们的损失函数在MSCOCO上的能力,MSCOCO是一个大规模的基准,有123,287张图片,有5个标题其中Nbi表示属于第i个图像的c个其他描述的所有名词实体随后,P+也将通过将相应的代理添加到阳性集合这样做是为了防止名词上下文向量V在优化期间从与彼此同义的名词相关联的代理分离。遵循标准实践[31],我们将正则化公式化为指数项的对数和,其定义为:每个.我们使用5000张图像进行验证,5000张用于测试,113,287张用于训练。报告了完整5000图像测试集和平均超过5倍的1000图像测试集的结果。使用Recall@K度量评估性能,其中K为1,5,10。我们报告的结果在文本到图像和图像到文本检索任务上。4.2. 实现细节为了公平比较,我们遵循实验设置L纳普=Σ。1个日志。1+Σe−α1(Snp−λ1)<$+用其他方法[15,7,33]。按照传统的做法,我们提取(36,2048)维视觉Xp∈P+1log1个以上β1p∈/P+eβ1(Snp−λ1)(十)来自自下而上的注意力网络的特征,可视化基因组数据集。一组由双向门控递归单元(GRU)编码的词特征对于所有的实验,我们修复了其中,Snp=PV是名词上下文向量和代理。 人们可以注意到在正则化中的第二对数和指数项中,名词上下文向量被推离负名词代理。这是有利的,因为一些否定代理将作为硬否定,增强了名词关联的肯定区域,因此,表示。由于正则化是次要目标,因此我们将该术语与分离正面和负面图像-文本对的主要目标相结合。我们遵循一个类似的公式,可以写成:将代理和特征向量的嵌入维数设为1024。为了从文本标题中提取名词实体,我们在对单词执行词形还原和词干提取之前使用nltk词性标记器我们通过对整个数据集中特定单词的频率进行阈值处理来从训练数据集中提 取 N 个 代 理 对 于 表 中 报 告 的 结 果 , 我 们 使 用N=1551,Flickr30k,MSCOCO的N=2275,Flickr8k作为代理的数量。 我们用更高的学问-比功能的代理率。所有实验的代理学习率为0。08和学习率为L对=1log1+α2Xe−α2(S<$−λ2)<$+模型参数为0。0002. 对于flickr8k,我们使用γ = 0。30对于MSCOCO和Flickr30k,我们使用γ = 0。十五岁为1.一 、(v,t)∈D+Σ(十一)其他参数,我们使用的默认设置提到[31]在执行[31]时(参见补充材料,其中(v,t)D+表示正图像-文本对,而(v,t)/D+表示不相关的图像-文本对。S'表示S上的平均聚合相似性得分,图像-文本对。最终损失公式定义为:L=Lpair+γLnap(12)1个以上eβ2(S<$−λ 2)更多细节)。 ”[15]《明史》:β2ΣΣ1142如等式8中所述的文本向量来计算Lnap,并且uti-通过[15]计算的逐对图像到文本相似性得分S(v,t)来计算L对。类似地,为了增强SGRAF1143表1:在Flickr 30 K数据集方法参考损失文本到图像图像到文本R@1R@5R@10R@1R@5R@10BFAN[19]MMM'19三重50.878.485.868.191.495.9IMRAMFull [3]CVPR'20三重53.979.487.274.19396.6GSMN稀疏 [20]CVPR'20三重53.979.787.171.49296.1[32]第三十二话IJCAI'21三重45.774.783.667.690.093.8SCANi2t[15]ECCV'18三重43.974.282.867.98994.4SMFEA[9]MMM'21三重54.782.188.473.792.596.1Shan[11]IJCAI'21三重55.381.388.474.693.596.9[33]第十三届全国政协委员CVPR'21CVPR'21三重多损失56.447.583.475.589.983.176.769.494.289.497.795.4[38]第三十八话CVPR'22多损失55.581.087.975.993.697.7SGRAFSGR[7]AAAI'21三重56.28186.575.293.396.6扫描i2t我们我们51.477.685.770.890.995.3SGRAFSGR我们我们58.383.189.279.295.397.7SGRAFSGR+SAF[7]AAAI'21三重58.583.088.877.894.197.4扫描i2t+t2i[15]ECCV'18三重48.677.785.267.490.395.8我们我们60.084.190.279.695.698.0SGRAFSGR+SAF以相同颜色突出显示的方法使用完全相同的骨架和聚合方法进行比较。对于NAAF,我们报告了Bi-GRU文本特征的数字,最佳结果以粗体显示。图3:左侧-我们的损失,右侧-Polyloss。在Flickr8k上的定性结果对于每个查询图像,前5个预测以排序顺序呈现结果与绿色边界表示成功检索的正确图像,而图像与红色边界是不正确的检索。注意-数据集中每个文本查询只有一个正确的检索。(Best数字化当量二、4.3. 与最新技术水平的我们比较了我们提出的损失函数Eq.12的性能,对跨模态度量学习的检索领域中最具代表性的作品。此外,我们证明了鲁棒性的建议公式,通过使用它与国家的最先进的文本图像匹配架构,如扫描和SGRAF。在表1中,我们观察到使用NAPReg对象训练的SCANi2t在 Flickr30k上的性能大大优于所有先前基于SCANi2t 此外,我们还建立了- 用火车在Flickr 30 k上浏览一个最先进的结果- 使用我们的正则化来执行SGRAFSGR。我们注意到,使用所提出的公式训练的SGRAFSGR超越了使用基于三元组的对于文本到图像检索任务,损失2.1% R@1,4.0% R@1 用 于 图 像 到 文 本 检 索 。 Fuzzle 是 使 用NAPReg和SGRAFSAF训练的SGRAFSGR的平均性能,对于文本到图像检索,R@1提高了2.0%跨模态检索任务中的这种显著改进可以归因于显著图像区域与相应文本的鲁棒对齐。表2分别显示了5k(全测试集)和1k(5倍)评价方案的MSCOCO数据集结果。在这里,我们再次观察到,NAPReg的添加具体而言,使用建议的损失公式与SGRAF SGR+SAF提供1。在5K测试集上,文本到图像匹配的R@1提高了1%,同样提高了3。在R@1的基础上提高7%,用于文本到1144--表2:MSCOCO数据集方法参考损失文本到图像图像到文本R@1R@5R@10R@1R@5R@10MSCOCO -1 K评估IMRAMFull [3][32]第三十二话:我的世界CVPR'20CVPR三重三重61.760.453.089.188.784.5959592.676.776.170.795.695.694.198.598.397.8SCANi2t[15]ECCV'18三重54.48693.669.293.297.5Shan [11]IJCAI'21三重62.689.695.876.896.398.7[33]第十三届全国政协委员CVPR'21CVPR'21三重多损失61.756.890.386.795.69378.571.196.093.798.798.2[39]第三十九话CVPR'22三重61.390.696.076.895.298.2SGRAFSGR[7]AAAI'21三重61.489.395.47895.898.2扫描i2t我们我们58.687.593.871.694.598.2SGRAFSGR我们我们63.390.095.678.796.298.8扫描i2t+t2iECCV'18三重58.888.494.872.794.898.4SGRAFSGR+SAFAAAI'21三重63.290.796.179.696.298.5我们我们66.991.696.581.997.599.2SGRAFSGR+SAFMSCOCO-5 K评估IMRAMFull [3]CVPR'20三重39.769.179.853.783.291SCANi2t[15]ECCV'18三重34.464.275.946.477.487.6UWMLi2t [33]CVPR'21多损失34.464.275.946.977.787.6SGRAFSGR[7]AAAI'21三重40.2-79.856.9-90.5扫描i2t我们我们36.566.077.648.078.688.3SGRAFSGR我们我们41.771.281.558.085.191.6扫描i2t+t2iECCV'18三重38.669.380.450.482.290.0SGRAFSGR+SAFAAAI'21三重41.9-79.857.8-91.6我们我们43.072.182.459.886.092.6SGRAFSGR+SAF以相同颜色突出显示的方法使用完全相同的骨架和聚合方法进行比较。对于NAAF,我们报告了Bi-GRU文本特征的数字,最佳结果以粗体显示。表3:Flickr 8 K数据集方法参考损失文本到图像图像到文本R@1R@5R@10R@1R@5R@10DeViSE[8]NIPS'13铰链5.920.129.64.816.527.3DVS [13]PAMI'16三重11.832.144.716.540.654.2m-CNN [22]CVPR'15三重20.347.661.724.853.767.1IMRAM图像 [3]CVPR'20三重3261.473.948.578.185.3SCAN*i2t[15]ECCV'18三重32.362.374.351.277.687.2UWML*i2t[33]CVPR'21多损失33.363.875.550.778.988.4扫描i2t我们我们39.269.179.756.282.890.7*论文没有报告Flickr8k上的数字。我们使用作者提供的代码产生实验结果。以相同颜色突出显示的方法使用完全相同的骨架和聚合方法进行比较。最佳结果以粗体显示。在1K测试集上进行图像匹配。在大规模MSCOCO数据集上的评估建立了我们的损失函数对于更大训练集的可扩展性。4.4. 讨论γ对性能的影响-了解我们的最终损耗公式在不同影响从正则化项出发,我们在Flickr8k上针对不同的γ值进行了实验。在实验中,我们使用SCAN[15]架构。如表4所示,我们发现当γ= 0.3时获得最佳性能。γ之后= 0.3时,我们观察到性能逐渐下降,因为损失的正则化开始压倒区分项。根据这一分析,我们可以得出结论:1145表4:消融以评价Gammaγ对Flickr8k数据集匹配性能的影响γγ文本到图像图像到文本R@1的简历R@1的简历0.037.7184.352.1226.40.137.6184.954.4227.00.238.1186.454.5228.40.339.2188.056.2229.70.438.3186.554.8228.7Rsum表示R@1、R@5和R@10图4:区域与单词对齐的定性分析。(a)SCAN without NAPReg -左侧显示图像中每个代理词参与的前2个区域,右侧显示选定视觉相关区域与词代理的相似性之间的热图。(b)扫描NAPreg。在此,相似性分数被最小-最大归一化以用于可视化。1.0表示高度相似,0.0表示高度不相似。(最佳数字版)对于当前的实验设置,γ在[0.1-0.3]范围内的正值此外,从我们在其他数据集上的实验中,我们得出结论,与较大的数据集相比,较小的数据集的γ 这可归因于以下事实与较大的数据集相比,在较小的数据集中,可用于网络学习如何正确地将显著区域与名词文本对齐的图像-文本实例较少较大的γ值为每个图像-文本对的上述对准过程定性结果-Flickr 8 k数据集上前5名召回的定性结果见图2。考试-实验结果表明,该方法具有较好的检索效果。在第一行中,我们可以看到名词与显著区域的更好对齐有助于重新检索最匹配查询的图像。另一个有趣的观察(第二行)是,用我们的损失公式训练的模型由于风帆和冲浪板大多发生在相似的图像设置中,因此对应区域文本的对齐是具有挑战性的。然而,当利用NAPReg正则化时,开发鲁棒的表示更容易,因为帆板和冲浪板都有独立的代理,它们彼此表现为负数。这一结果为所提出的方法的理论分析提供了定性验证。图4a显示了为图像中的每个显著对象生成的注意力图,有和没有我们的正则化项。可以看到,当使用正则化时,文本和图像区域之间的对齐更加精确。此外,它能够区分对应于猫和狗的图像区域,即使两者之间只有细微的差异另一个有趣的观察是,当使用正则化时,模型能够识别与术语水相关的各种相关的较大区域。图4 b示出了在描述中具有语义主导词的所选视觉相关区域的相似性得分(最小-最大归一化)可以看出,包含猫和狗的视觉区域的相似性分数对于文本中的对应词最高。此外,与没有提出的正则化的模型相比,分数的大小也有所增加这表明,我们提出的损失函数所产生的对齐优于先前的损失公式。5. 结论跨模态图像-文本检索在各种具有挑战性的领域中得到应用。此外,为这两种模态开发从不同的注意方法可以看出,用于创建这些表征的客观功能也起着至关重要的作用。在这项工作中,我们已经确定了现有的损失公式的不足之处,他们缺乏急需的重视对齐的显着区域的图像-文本对。为了解决这个问题,我们提出了一种新的正则化。我们已经提供了一个理论基础,建议代理为基础的正则化,并显示,使用定性和定量的结果,这种新的配方艾滋病在创建更generalizable表示。该方法在所有三个标准的图像-文本检索数据集上都取得了最先进的结果。1146引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。[2] Srikar Appalaraju和Vineet Chaoji。使用深度cnn和课程学习的图像相似性。arXiv预印本arXiv:1709.08761,2017。[3] Hui Chen,Guiguang Ding,Xudong Liu,Zijia Lin,JiLiu,and Jungong Han. Imram:迭代匹配与循环注意记忆的跨模态图像-文本检索。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[4] 陈嘉诚,胡鹤翔,吴昊,姜宇宁,王长虎。学习视觉语义嵌入的最佳池化策略。CoRR,abs/2011.04305,2020。[5] 陈嘉诚,胡鹤翔,吴昊,姜宇宁,王长虎。学习视觉语义嵌入的最佳池化策略。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第15789-15798页[6] 陈天朗,邓家军,罗杰波。图文匹配中的自适应五元组丢失。欧洲计算机视觉会议,第549-565页。Springer,2020年。[7] Haiwen Diao,Ying Zhang,Lin Ma,and Huchuan Lu.图文匹配中的相似性推理与过滤。CoRR,abs/2101.01368,2021。[8] Andrea Frome、Greg S Corrado、Jon Shlens、SamyBengio、Jeff Dean、Marc' Aurelio Ranzato和TomasMikolov。Devise:一个深度视觉语义嵌入模型。In C. J.C.伯吉斯湖Bottou,M.威林,Z。Ghahramani和K. Q.Weinberger,编者,《神经信息处理系统进展》,第26卷。Curran Associates,Inc. 2013年。[9] 作者:陈福海,陈文辉.乔斯、姬志龙、吴忠勤、小刘。用于图像-句子检索的结构化多模态特征嵌入和对齐。2021年第29届ACM国际多媒体[10] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议(CVPRIEEE,2006年。[11] 钟吉,陈可心,王浩然。用于图像-文本匹配的逐步分层对齐网络。周志华主编,《第三十届国际人工智能联合会议论文集》,IJCAI-21,第765-771页。人工智能组织国际联合会议,2021年8月。主轨道。[12] Chao Jia,Yinfei Yang,Ye Xia,Yi-Ting Chen,ZaranaParekh,Hieu Pham,Quoc V.Le,Yun-Hsuan Sung,Zhen Li,and Tom Duerig.通过噪声文本监督扩展视觉和视觉语言表征学习CoRR,abs/2102.05918,2021。[13] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义对齐IEEE Transactions模式分析和机器智能,39(4):664 - 676,2017。[14] Sungyeon Kim、Dongwon Kim、Minsu Cho和SuhaKwak。用于深度度量学习的代理锚丢失在IEEE/CVF计算机视觉和模式识别会议论文集,第3238-3247页[15] Kuang-Huei Lee,Xi Chen,Gang Hua,Houdong Hu,and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意在欧洲计算机视觉会议(ECCV)的会议记录中,第201-216页[16] 李俊南,Ramprasaath R.作者:Akhilesh Deepak Got-mare,Selvaraju,Shafiq R.Joty,Caiming Xiong,andSteven C.H. Hoi融合前对齐:视觉和语言表征学习与动量蒸馏。CoRR,abs/2107.07651,2021。[17] Kunpeng Li,Yulun Zhang,Kai Li,Yuanyuan Li,andYun Fu.图像-文本匹配的视觉语义推理,2019。[18] Shuang Li,Tong Xiao,Hongsheng Li,Bolei Zhou,Dayu Yue,and Xiaogang Wang.使用自然语言描述进行人员搜索。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年7月。[19] Chunxiao Liu,Zhendong Mao,An-An Liu,TianzhuZhang,Bin Wang,and Yongdong Zhang.集中注意力:一种用于图文匹配的双向焦点注意网络。在第27届ACM国际多媒体会议论文集,MM'19,第3-11页,纽约,纽约,美国,2019年。计算机协会。[20] Chunxiao Liu,Zhendong Mao,Tianzhu Zhang,HongtaoXie,Bin Wang,and Yongdong Zhang.用于图像-文本匹配的图结构网络。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[21] Xiaopeng Lu,Tiancheng Zhao,and Kyusong Lee. Visu-alSparta:一个非常简单的方法来进行大规模的文本到图像的搜索与加权词袋。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议(第1卷:LongPapers),pages 5020-5029,Online,Aug. 2021.计算语言学协会。[22] Lin Ma,Zhengdong Lu,Lifeng Shang,and Hang Li.用于匹配图像和句子的多模态卷积神经网络。IEEEInternational Conference on Computer Vision(ICCV),2015年12月。[23] Yair Movshovitz-Attias、Alexander Toshev、Thomas KLe- ung、Sergey Ioffe和Saurabh Singh。没有大惊小怪的距离- ric学习使用代理。在IEEE国际计算机视觉会议集,第360-368页,2017年[24] 放大图片创作者:David A. Wagner,and Saining Xie.SLIP:自我监督满足语言-图像预训练。CoRR,abs/2112.12750,2021。[25] Hyun Oh Song,Yu Xiang,Stefanie Jegelka和SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。在IEEE计算机视觉和模式识别会议论文集,第4004-4012页,2016年。1147[26] Juan-Manuel Perez-Rua,Valentin Vielzeuf,Stephane Pa-teux,Moez Baccouche,and Frederic Jurie.多模态融合体系结构搜索.2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第6959-6968页[27] Alec Radford、Jong Wook Kim、Chris Hallacy、AdityaRamesh、Gabriel Goh、Sandhini Agarwal、GirishSastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger和Ilya Sutskever。从自然语言监督中学习可转移的视觉模型。CoRR,abs/2103.00020,2021。[28] Florian Schroff Dmitr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功