基于高阶注意的跨通道视觉语义匹配

140 浏览量更新于2023-10-25 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于高阶注意和分心的视觉语义匹配李永志1，张铎2，穆亚东31数据科学中心，2EECS，3北京大学王选计算机技术研究所{yongzhili，zhduodyx，myd} @ pku.edu.cn摘要跨通道语义匹配是计算机视觉中的一项重要任务，近年来受到越来越多的关注。现有的方法主要探索基于对象的图像对象和文本词之间的对齐。在这项工作中，我们从两个以前被忽视的方面来解决这个任务：高阶语义信息（例如，宾语-谓语-主语三元组，宾语-属性对）和视觉干扰（即，尽管与文本查询高度相关，但图像也可能包含许多突出的分散注意力的对象或视觉关系）。具体来说，我们建立场景图的视觉和文字形式。我们的技术贡献是双重的：首先，我们将视觉语义匹配任务表述为注意力驱动的跨模态场景图匹配问题。图卷积网络（GCN）用于从两个场景图中提取高阶信息。提出了一种新的交叉图注意机制，根据上下文对图元素进行重新加权，计算图间相似度;其次，一些排名靠前的样本确实是错误的匹配，因为高度相关和分散注意力的信息同时出现。我们设计了一个信息理论的措施，估计语义分心和重新排序的初始检索结果。在两个大型公共数据集（MS-COCO和Flickr 30 K）上的对比实验和消融研究表明了该方法的优越性以及高阶注意和分心的有效性。1. 介绍文本、图像、视频等各种多媒体数据的快速增长，给用户准确有效的搜索带来了很大的困难。其中，视觉和语言之间的跨模态搜索在实际应用中具有重要意义。因此，近年来，图像和文本之间的跨模态检索引起了研究人员的广泛关注[43]。本文主要研究具有复杂语义的文本和图像的跨模态检索。对于这一任务，如何有效地消除-*通讯作者。(A)(B)（C）一个人骑在一匹马在街上一只棕色的狗躺在草地上，手里拿着一个黄色的飞盘。一个骑摩托车戴头盔的女士图1.在视觉语义匹配中，谓词（顶行）、属性（中间行）和语义分散（底行）的重要性的说明从左到右，三列分别表示查询标题、地面实况图像和由常规方法返回的高排名错误匹配。查询中的关键词以粗体突出显示。两种不同模态数据之间的巨大差距是解决问题的关键。由于计算机视觉和自然语言处理的进步，一些早期的发展[17，5]已经提出使用预先训练的神经网络将多模态数据编码为特征向量，然后将它们投影到一个公共特征空间，并通过计算它们的表示之间的距离来测量相似性。尽管这些方法能够捕获全局语义信息，但它们缺乏对高层语义信息的准确建模，并且不能清楚地解释。一些现代方法已经尝试执行一些更细粒度的语义学习以增强数据的特征表示。例如，Karpathy等人。 [14]将文本单词和图像区域对齐用于图像标题。[10，35]中的工作提出使用CNN从图片中提取语义概念，以增强全局特征的表示。Kuang等人 [20]引入了一种注意力机制来识别文本和图像的重要部分。这些方法中的大多数基于一阶1278612787语义概念或对象等信息。然而，高阶信息，如对象之间的关系和对象属性，在目前的文献中很少探索。当面对结构化查询时，这些方法经常会受到模糊错误匹配的影响。图1中提供了一些示例。在第一个例子中，即使与查询语句（“a man riding on a horse on a street”）相关的所有关键对象和场景概念（人、马和街道）在该示例中为三重关系人-骑-马）。我们把对象-属性对看作是另一种信息性的高阶信息。在图1的第二行中找到一个示例，其示出了颜色属性的重要性。为了解决这个问题，我们采用场景图[13，12]来表示高度结构化的视觉或文本语义，并将视觉语义匹配公式化为异质图匹配问题。图2显示了两个示例场景图，分别封装了各种成对或三重关系。我们建议使用图卷积网络（GCN）[16，46]来上下文化每个单独的图节点。交叉图注意和图内自注意机制被开发来重新加权每个图元素并计算查询场景图和参考场景图之间的相似度。此外，我们认为，语义偏离的问题仍然是在以前的文献中没有探讨。具体而言，大多数现有方法主要关注查询样本和参考样本之间的相关性。然而，匹配的语义是否占主导地位的参考图像或文本没有被考虑。在图1的第三行中提供了一个示例。最右边的图像是高排名的，因为它包含查询中的所有关键词，但实际上应该被分类为错误匹配，因为大量分散注意力的内容（例如，儿童、行人等）。因此，我们受到启发，提出了一个信息理论的度量，明确量化的视觉分心，这是用来重新排名的初始检索到的顶级匹配。我们的贡献可归纳如下：1) 我们的目标是在视觉语义匹配任务中有效地探索高阶信息，特别是对象-谓词-主语和对象-属性类型。在技术上，GCN被纳入我们的模型，用于编码上述高阶信息。多atten- tion机制被定制用于计算查询和参考场景图之间的相似性。2) 据我们所知，我们是第一个明确探索结构化视觉语义匹配中的视觉分心问题的人。信息熵是一种新颖的方法，用于衡量参考图像或文本中干扰因素的主导地位。弯腰绿色衬衫跪在磨损手与女人牛仔裤在旁边旁边门咖啡钱包大一个穿着绿色衬衫和牛仔裤的女人跪在门廊上，手里拿着咖啡，钱包放在她身边，一扇大门图2.图像-文本对及其对应的场景图。图形形状表示不同类型的图形节点。2. 相关工作嵌入式方法。一个广泛使用的框架是将图像和文本的语义嵌入向量映射到一个公共空间，并根据余弦或欧几里得距离计算相似度[37，40，18，21、4、30、3、17、7]。Kiros等人[17]首先使用卷积神经网络（CNN）和递归神经网络（RNN）对图像和句子特征进行编码，并从三元组排名损失中学习了跨模态表示。Gu等人[7]提出使用生成对象来增强细粒度特征表示。Zheng等[51]建议使用双任务来在共享空间中更有区别地嵌入语义特征。[39]引入了双分支嵌入，并提出了新的邻域约束。基于语义知识的方法。一些现代作品探索了视觉对象和文本单词的对齐，如[31，11，29，13]所示。的开创性工作[14]采用R-CNN [6]模型从图像中检测局部区域，并将它们与句子中的单词对齐。Huang等人. [10]提出了学习语义和顺序来改进图像表示。在[9]中开发了一种上下文调节注意方案，以选择性地注意出现在图像和句子中的实例。Fur-11，Lee等人在[20]中提出了一种方法，该方法使用堆叠的交叉注意力来匹配细粒度模型中的两种模态。其他一些研究[38，35]采用外部知识来进一步增强模型能力。图形匹配。基于相似性的图搜索或匹配一直是包括数据挖掘[45，2，28，23]和自然语言处理[44，27]在内的许多社区的长期研究任务。关于计算机视觉领域，图匹配已用于视频重新识别[47]和3D模型检索[26]等。随着近年来图卷积网络（GCN）[16]的发展，[49]的作者提出了一种GMN网络来对齐不同图像中的关键点。[41]进一步提出了一种基于嵌入的交叉图亲和性方法来建模图结构。地面绿色衬衫对磨损手女人具有布朗在旁边对杯头发门12788奥阿尔一个金发碧眼的孩子戴着蓝色的护目镜，穿着绿色的速比涛背心在水下游泳。hnβSXS公GS马特WXIMSMI注意力矩阵��˜IGI交叉图注意fm多视角局部匹配分数mf全局βIFC+Softmax节点关注快RCNNGCNs全连接层GCNsFC+Softmax节点注意Bi-LSTM图3.我们模型的整体架构图图中的黄色箭头表示视觉信息的数据流，绿色箭头显示文本语义信息的数据流文中详细介绍了两种场景图形数据的生成我们提出的模型的最终输出是语义匹配这两个异构场景图的相似性得分3. 方法图像-文本（或称为视觉-语义）匹配问题定义如下：给定一个图像-句子对，我们的模型旨在计算它们之间的相似性得分，使得准确的跨模态搜索是可行的。1如图3所示，我们的模型利用场景图来表示视觉或文本语义模态。提取的场景图首先通过两个图卷积网络（GCN）以获得上下文化嵌入。直观地说，对象或关系在引用中的重要性很大程度上取决于其与查询的相关性。受这种直觉的启发，提出了一个交叉图注意力模块来加权图节点。然后，多视角局部匹配层为图中的每个节点产生匹配向量，并包含节点注意机制以获得全局匹配表示。最后，全连接层通过将全局表示作为输入来预测相似性得分。3.1. 文本编码与句子场景图为了获得给定句子S的表示，采用双向LSTM [8]来对长范围上下文信息进行建模。对于S中的每个单词，其索引首先通过嵌入层以获得单词嵌入向量，然后将其馈送到bi-LSTM中以获得时间上下文表示hi。最后一步hn的输出用于表示整个句子。1有两种设置：图像到文本或文本到图像匹配。在每种设置中，一种模态充当查询，另一种模态扮演参考数据的角色这种不对称性会显著影响优化物镜的设计，如下文第3.7节和实验所述为了获得句子场景图（SSG），我们使用固定的基于规则的语言解析器[1]将输入的句子转换为场景图。遵循先前的实践[46]，我们将图像的所有标题馈送到解析器中并得到元组GS=（N，E），其中N和E分别是节点和边的集合。我们在N中定义了三种节点：对象节点o、属性节点a和关系节点r，在图2中分别用矩形、菱形和椭圆表示。 o i表示第i个对象。对象o i和o j之间的关系表示为r ij，并且a i，l是对象o i的第l个属性。N中的每个节点由d维向量表示，根据节点类型表示为ns、ns或ns。特别地，我们使用一个可训练的嵌入层来获取节点特征. 如图2所示，E中的边的公式如下：• 如果一个对象oi拥有一个属性ai，l，我们将ai，l的一条有向边赋给oi;• 存在关系三元组，在图2中以绿色显示：每一个都是G I中的x I。.XR=gr concat（ ns，ns，nsΣ）的情况。（一）3.5. 局部图匹配基于每个节点的精心嵌入，我们亲-伊约里季中的所有节点计算本地匹配向量对于属性节点，空间卷积运算在图2中以蓝色表示。合并连接到每个对象节点的所有属性节点的信息，以获得单个上下文特征向量：都是G S GI目标是从多个视角获得图内上下文增强特征（即，语义和图形结构）。对于GS，多视角余弦匹配函数被应用于每个节点xS及其属性嵌入xS。G I的类似治疗。特别是，我不知道。局部匹配向量mS和mI计算如下：1秒si jxai=NGaail=1concat（noi，nai，l）、（二）mS=fm（xS，x<$S;W），mI=fm（xI，x<$I;W），（6）i i i j j j其中{ai，l}形成i的具有基数Nai的属性相关邻居集。为了计算对象嵌入xoi，我们从与oi有关系的所有节点收集信息其中fm表示多视角匹配函数。设W∈Rl×d是可学习的参数矩阵，Wk是W的第k行.l被预先定义为指定需要多少个透视图。给定两个d维向量v1和v2，匹配向量m被呈现为如下：1Σx= [g（ concat（ ns，ns，ns））+m k=cosine（W k<$v1，W k<$v2），k∈[1，2，.， l]，oiNrsoiojri，j（七）m= [ m，m，...，m]，ioj∈sbj（oi）Σ（三）12升ok∈obj（oi）go（concat（ns，ns，ns））]，其中，n表示逐元素乘积。这意味着，Finesfm.其中o j∈sbj（o i）意味着o j在与客体o i的某种关系[αi，j+12790中充当主语，o k∈ obj（o i）意味着客体的角色。而Nri=|sb j（oi）|+的|obj（oi）|. 此操作在图2中以黄色显示。3.6. 节点注意力和全局匹配直观上，图中不同节点的权重不应相等。根据常识，某些节点更重要（例如，与人类有关的物体往往12791我我i=1我我m，i我我可能与查询相关）。因此，我们进一步设计了一个节点注意力机制，为图中的每个节点xi附加一个权重βi以SSG为例，exp（ φ（ hn，xS））一个小男孩拿着遥控器对着脸βS=β我|exp（φ（hn|exp(φ(h n，xS））、（8）其中xS是GS中的上下文嵌入中所述等式⑴、⑵、⑶。 φ是一个可学习的子网络，读作hn，x S。回想一下，hn是整个句子的全局特征向量。用f global代替h n，用xi代替x S，图4.基于分散注意力的重新排序的动机说明。左图是查询语句的地面实况匹配。绿框表示相关对象，红框表示|通过|G I|在等式中|inEqn. （8）导出了一个新的ISG公式。在得到图中每个节点的重要性之后，采用全局加权和将所有匹配向量融合成全局表示：表示不相关（即，分散注意力）的物体。vdist在等式中定义。（十）、vdist中颜色越深意味着值越高。其中，λ是为了数值稳定性而引入的微小常数。对于真正的比赛，几乎没有分心。因此最m<$S=|ΣGS|βSmS，m<$I=|ΣGI|βI mI.（九）它的v dist中的条目很大（参见图4中的左图）。对于假匹配，v往往是稀疏的，大多数为零我我i=1J Jj=1Dist归因于分散注意力的物体或关系。已知稀疏分布导致较小的信息熵。最后，y、m<$S、m<$I连接在一起，并送入一个MLP之后是S形函数以预测匹配相似性，由得分m表示。3.7. 基于分心的重新排序我们认为，一个好的匹配应该同时满足两个条件：1）匹配的引用包含查询的所有关键语义（即，最大相关性）; 2）与查询无关的引用中的内容不应占主导地位，因为它们分散了观看者的注意力（即，最小的分心）。我们认为，第二个条件是不充分的探索在以前的研究。图4中给出了一个示例。本文采用信息熵对干扰进行量化，并利用干扰分数对初始检索结果进行重新排序。以文本到图像的匹配为例。计算完全基于注意力矩阵在实践中，我们让分数f=分数m+γ·分数d是用于重新排序初始结果的融合分数。在我们的实验中，γ被设置为4 <$10−3。为了效率，我们只计算前10名的分心分数导致推理时间。由于空间限制，省略了图像到文本匹配的类似推导。3.8. 联合学习对于图像到文本或文本到图像的匹配，我们使用具有两个分量的复合损失函数。一个是三重损失Lt[34]，以最大化阳性样品和阴性样品的裕度另一个二进制交叉熵损失Lce旨在有效地降低负样本定义如下： ΣLt=[sco re'−sco rem+δ]+，我Matt在3.4节中描述，对于文本到图像匹配，我们通过要求GS中的每个节点为GI中的每个节点投票来估计干扰。为了确保每个人的投票Lce= Σyi log（ scorem，i）+（1− yi） log（1−scorem，i），我（十一）节点相等时，我们首先对GS中特定节点对应的行进行L1归一化。即Matt（k，·）←Matt（k，·）/在t（k，j）处的j M。Ne xt,bycol-umn sum我们得到GI中的每个节点从GS中的所有节点接收到的投票数，称为分散向量 v_distE∈R|GI|.Itisformallyycomputedviavdist（j）=iMatt（i，j）. 我们进行L1标准化以确保vdist形成有效的概率分布。最后，由得分d表示的分心得分通过信息熵计算：|ΣG I|分数 d=−（vdist ， i+i） ·log（vdist ， i+i），（10）i=1v区12792m，i其中δ是边际超参数。评分表示将第i个负样本的得分及其标签设置为0，而得分m是正样本得分及其标签设置为1。整个损失是λ1Lt+λ2L ce，其中λ1和λ2是两个超参数。4. 实验4.1. 数据集为了进行实验，在之前的工作[20]之后，我们选择了两个广泛使用的大型数据集：MS-COCO[24]是一个包含123，287张图像的大规模数据集，其中的每张图像都用五个文本描述进行了注释。我们遵循[14]准备培训，12793MMMM方法MS-COCO 1KMS-COCO 5K句子检索图像检索句子检索图像检索R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10DVS [14]38.469.980.527.460.274.811.832.545.48.924.936.3VQA-ICR [25]50.580.189.737.070.982.923.550.763.616.740.553.8DSPE [40]50.179.789.239.675.286.9------VSE++[4]64.690.095.752.084.392.041.371.181.230.359.472.4[39]第三十九话54.084.091.243.376.887.6------DPC [51]65.689.895.547.179.990.041.270.581.125.353.466.4DXN [7]68.5-97.956.6-94.542.0-84.731.7-74.6高级官员[10]69.992.997.556.787.594.842.872.383.033.162.975.5扫描[20]72.794.898.458.888.494.850.482.290.038.669.380.4SAEM [42]71.294.197.757.888.694.9------VSRN [22]76.294.898.262.889.795.153.081.189.440.570.681.1我们77.096.198.765.193.197.951.281.789.139.472.584.1+距离77.896.198.766.293.097.951.481.889.140.573.584.1表1.MS-COCO 1 K和5 K的结果句子检索和图像检索分别利用图像和句子作为查询验证和测试集。所有图像被分成三个部分，分别包含113，287、5，000、5，000个样本。为了评估MS-COCO 5 K设置，我们使用了所有这些5 K测试图像。我们还使用这些测试样本的1/5作为MS-COCO 1 K设置进行消融研究，并与报告其结果由于视觉场景图检测器可能会在高阶信息中引入一些噪声，因此我们进一步添加了一阶分支。具体地说，我们移除GCN模块，并以LogSum-Exp [ 20 ]的方式合并由上下文向量hi和ROI特征froi产生的交叉注意力矩阵，以获得一阶部分得分1。这是MS-COCO 1 K数据集。与高阶分数2这是一个详细的前，Flickr30K[48]是一个包含31，783张图像的数据集，可通过部分获得最终匹配相似性得分m=从Flickr网站上收集的，也有五个标题第二届高级官员会议+ 0。1分1.每个. 这158，915个描述是由网络用户是关于事件、活动和图像中的场景。我们遵循[4]和[14]中的分割，使用1，000张图像进行测试，并使用1，000张图像进行验证。其余的（28783张图像）用于训练。4.2. 评估指标作为信息检索中的一种常见做法，我们通过在前K（R@K）处的召回来测量句子检索（图像查询）和图像检索（句子查询）的性能，前K（R@K）被定义为在最接近查询的K个点中检索到正确项目的查询的比例以图像检索为例，给定一个查询语句，对所有图像的相似度进行排序并选择前K个候选项。如果地面实况图像在这些候选者中，则我们将查询视为“成功的”查询。而R@K则是这些成功查询在整个测试集中所占的比例。在所有实验中，将K4.3. 实现细节在我们所有的实验中，LSTM的隐藏单元被设置为1024，以编码文本语义信息。在ImageNet [33]上预训练的 VGG 16 [36 ]被用作Faster-RCNN [32]的图像特征提取器，并获得全局图像特征。场景图中所有节点嵌入的维度设置为256。在Eqn.（7）设置为64。我们使用Pytorch框架实现所有模型对于损失函数，我们设置超参数λ1= 1。0，λ2=0。5，δ=1。0的情况。对于三重丢失中的每个阳性样品，使用十个随机选择的样品来形成负对。使用默认设置的Adam优化器[15]（学习率=10−3，动量=0.9，权重衰减=10−4学习率每25个epoch衰减1/10我们采取提早止损策略，以避免过度拟合。4.4. 与最新型号的在本节中，我们首先在表1中展示了我们的定量结果，并与MS-COCO数据集上的其他最先进方法进行了比较。为了进行更深入的比较，我们在MS-COCO上使用了两个尺度测试集（1 K和5 K）。可以看出，我们的模型在图像检索和句子检索任务的大多数指标上都超过了当前最好的方法VSRN [22]。特别是，在1K设置中，与之前的方法相比，我们的模型在图像检索场景中有显着的改进（R@1上为2.3，R@5上为3.4）。我们还在Flickr30K数据集上进行了相同的实验，表2显示了测试集上的比较结果。显然，我们可以发现，我们的方法仍然优于其他方法在大多数的评价指标，这强烈表明所提出的方法的优越性。12794（A）（B）（C）（D）（E）高低图5.可视化交叉图注意机制。每一行都是一个例子，列（A）显示了查询语句。（B）栏列出部分目标提案。列（C）、（D）和（E）分别显示对象、关系和属性节点的注意力结果。遮罩的颜色反映了节点对应区域的关注值温暖的红色代表更专注的反应。最好用彩色观看。方法MS-COCO 1K句子检索图像检索R@1R@5R@10R@1R@5R@10O70.993.697.352.384.392.5或74.193.296.961.891.596.0ora77.096.198.765.193.197.9−克罗萨特46.991.197.947.584.393.9−节点56.789.095.851.387.195.2表2.在Flickr30K上的实验结果此外，我们还对初始的前10个结果应用了基于分散注意力的重新排序策略，这在表1和2的底部报告（由“+Dist'"表示）。很明显，重新排序策略进一步提高了大多数设置和指标的性能，特别是R@1。在图像检索的情况下，这带来了2。在R@1上的MS-COCO 5 K测试集中，相对性能提升8%。这些结果有力地证明了所提出的分散注意力策略的有效性。虽然在句子检索任务上的促进作用不是那么令人印象深刻，但我们认为这是由于句子图中的节点数量相对较少，基于熵的重新排序策略可以-表3.MS-COCO 1 K测试集上的消融研究4.5. 消融研究为了探讨高阶信息（关系和属性）对视觉语义匹配的影响，我们进行了相关的消融实验。MS-COCO 1 K测试集的定量结果见表3。首先，我们去除了数据中的关系和属性信息，在训练和测试时只使用对象信息。这在表3中用“o”表示在此基础上，我们将关系信息添加到数据中，并将结果记录为“或”。最后，我们包含了完整的对象、关系和属性信息，并将结果显示在标记为“ora”的行上。可以清楚地看到，随着信息量的增加，模型在各个指标上的性能都在稳步提高，这进一步证实了关系和属性信息在视觉语义匹配任务中的有效性。我们还探讨了上面提出的两种注意力机制的影响。我们移除了节点注意力在这种情况下不发挥重要作用。我们还尝试在计算分心分数时将对象建议的区域大小考虑为权重，但最终改进微不足道。（记为 -nodeatt ）和交叉图注意力（记为 -crossatt），并使用均值池代替。表3的底部显示了结果。可以看到模型的性能大幅下降，红烤披萨1个西红柿和绿橄榄在盘子里一黑色和灰色2斑点猫坐在窗台上一只小黑狗3站立通过盘食物穿黑衬衫的男人4骑大象当一个人走近它下来方法Flickr30K句子检索图像检索R@1R@5R@10R@1R@5R@10DVSA22.248.261.415.237.750.5VQA-ICR33.962.574.524.952.664.8DSPE40.368.979.929.760.172.1VSE+41.369.077.931.459.771.2TBNN37.564.775.028.456.367.4DPC55.681.989.539.169.280.9DXN56.8-89.641.5-80.1SCO55.582.089.341.170.580.1扫描67.490.395.848.677.785.2SAEM69.191.095.152.481.188.1VSRN71.390.696.054.781.888.2我们70.892.796.059.585.691.0+距离70.892.796.060.986.191.012795213214一辆伦敦公共汽车上的小汽车驶过玩具箱里的一堆玩具熊和洋娃娃两个小孩站在水池边刷牙船的木制船头，后面有一艘没有焦点的船21 33 1 2一辆摩托车停在一个葡萄酒陈列柜前一辆摩托车和一些葡萄酒在一个房间2一辆越野自行车停在柜台上，旁边放着几个酒瓶。一群人坐在大象背上几头戴着装饰品的大象排成一行大象和他们的骑手在马戏团表演一辆黑色和白色停放的摩托车和一些自行车3三头大象站在凳子上与女人坐在4一辆自行车停在架子上的酒瓶中间，三头大象和三个女人骑在大象身上。图6.演示基于分散注意力的重新排序的效果。上半部分显示图像检索结果，下半部分显示句子检索结果。原始排名分别显示在每个图像的右上角和句子后面。绿色框表示地面实况图像，红色句子表示负面样本。没有注意力机制。例如，在没有交叉图注意的情况下，图像检索的R@1结果减少了17.6。去除节点注意机制后，句子检索性能在R@1上相对衰减了26.4%。这说明了拟议的注意机制的重要性。4.6. 可视化和分析为了进一步证明我们模型的可解释性，我们选择了图5中的几个示例来可视化我们模型中学习的交叉图注意力组件。给定一个注意力矩阵，我们首先应用二进制掩码来获得对象，关系和属性节点的三个子注意力矩阵。与3.7节中的操作类似，我们首先将行上每个图像节点的贡献我们把这个值赋给对应于这个节点的区域，得到一个彩色的蒙版。对于对象和属性节点，它们对应的区域就是对象建议的区域。关系节点的对应区域是两个相关对象区域的并集。对于重叠部分，我们取最大值.面具中较暖的红色反映了较大的注意力反应值。在图5的（A）列中，我们首先用不同颜色的粗体字体显示了SSG中的三种节点。Col- umn（B）显示了Faster-RCNN提取的一些对象建议。接下来的三列分别显示了对象、关系和属性节点的注意力效果。从实验结果可以看出，我们的模型准确地检测出了与句子节点对齐的图像中的节点所对应的区域。以第一行的结果为例，1（C）中的暖色反映了西红柿、橄榄和盘子的对象信息。4（D）中的红色区域包含句子中提到的“乘坐”和“附近”信息有效地提取相关关系信息。对于贡献节点，3中关注值最高的区域(E)和4（E）表示狗和衬衫的这些例子有力地说明，我们的交叉注意力模块已经学会了GS中的句子节点和GI中的图像节点之间的可解释的对齐。4.7. 基于分心的重新排序为了证明我们的基于语义偏离的重新排序策略的有效性，我们在图6中显示了通过后处理校正的几个结果。由于篇幅有限，本文仅给出了前3名的图像和前5名的句子，并给出了原始检索排名。如图所示，分心分数有效地降低了错误匹配样本的排名。以第一个为例，在最初的top-1中，被查询的汽车只占图片的一小部分，而无关的公交车站和建筑物占主导地位。在第二个样本中，所提到的玩偶出现在错误匹配的顶部，但故事书占了更大的部分。在句子检索实例中，5. 结论我们探索并确认了视觉语义匹配任务中高阶信息（关系和属性）和基于分心的重新排序消融和可视化实验都证实了我们的模型设计的合理性和可解释性鸣谢：本工作得到国家重点研发 & 计划（ 2018AAA0100702 ）、北京市自然科学基金（Z190001）、国家自然科学基金（61772037）的资助。12796引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在ECCV，2016年。3[2] 瑞姆科·迪克曼，马龙·杜马斯，卢西亚诺·加西亚-巴恩·努埃洛斯. 商业过程模型相似性搜索的图匹配算法。In BPM, 2009. 2[3] 艾薇夫·艾森施塔特和里奥·沃尔夫。用双向网络链接图像和文本在CVPR，2017年。2[4] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：改进了视觉语义嵌入。arXiv预印本arXiv：1707.05612，2（7）：8，2017。二、六[5] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio、Jeff Dean、MarcDevise：一个深度视觉语义嵌入模型。在NIPS，2013年。1[6] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。2[7] Jiuxiang Gu，Jianfei Cai，Sha fiq R Joty，Li Niu，andGang Wang.看，想象和匹配：用生成模型改进文本视觉跨模态检索。在CVPR，2018年。二、六[8] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。 3[9] 炎黄、魏王、梁王。基于选择性多模态lstm的实例感知在CVPR，2017年。2[10] 炎黄、齐武、宋春风、梁王。学习图像和句子匹配的语义概念和顺序。在CVPR，2018年。一、二、六[11] 姜信阳，吴飞，李希，周钊，卢伟明，唐思良，庄月婷.深度组合跨模态学习，通过局部-全局对齐进行排名。ACM Multimedia，2015年。2[12] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR，2018年。2[13] Justin Johnson，Ranjay Krishna，Michael Stark，Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索。CVPR，2015。2[14] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义对齐CVPR，2015。一、二、五、六[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[16] 托马斯·NKipf和Max Welling。使用图卷积网络的半监督分类在ICLR，2017。2[17] Ryan Kiros ， Ruslan Salakhutdinov ， and Richard SZemel.统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539，2014。一、二[18] Benjamin Klein Guy Lev Gil Sadeh和Lior Wolf将神经词嵌入与使用fisher向量的深度图像CVPR，2015。2[19] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson ， KenjiHata ， Joshua Kravitz ， StephanieChen ， Yannis Kalantidis ， Li-Jia Li ， David AShamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。 International Journal of ComputerVision，123（1）：32-73，2017. 3[20] Kuang-Huei Lee，Xi Chen，Gang Hua，Houdong Hu，and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意在ECCV，2018。一、二、五、六[21] Guy Lev，Gil Sadeh，Benjamin Klein，and Lior Wolf.用于动作识别和图像注释的RNN过滤器向量。在ECCV，2016年。2[22] Kunpeng Li，Yulun Zhang，Kai Li，Yuanyuan Li，andYun Fu.图文匹配的视觉语义推理。在ICCV，2019年。6[23] Yujia Li ， Chenjie Gu ， Thomas Dullien ， OriolVinyals，and Pushmeet Kohli.用于学习图结构对象的相似性的图匹配网络。arXiv预印本arXiv：1904.12787，2019。2[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。三、五[25] 小林和德维·帕里克。利用视觉问题回答进行图像标题排名。在ECCV，2016年。6[26] Anan Liu，Zhongyang Wang，Weizhi Nie，and YutingSu. 基于图的三维模型检索特征视图集提取与Information Sciences，320：4292[27] 迭戈·马切吉亚尼和伊万·蒂托夫。用图卷积网络对句子进行编码，用于语义角色标记。在EMNLP，2017年。2[28] Giannis Nikolentzos、Polykarpos Meladianos和MichalisVazirgiannis。图相似性的匹配节点嵌入InAAAI，2017.2[29] Zhenxing Niu，Mo Zhou，Le Wang，Xinbo Gao，andGang

下载后可阅读完整内容，剩余1页未读，立即下载