图文匹配中的视觉语义推理

99 浏览量更新于2023-10-11 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4654面向图文匹配的视觉语义推理Kunpeng Li1，Yulun Zhang1，Kai Li1，Yuanyuan Li1 and Yun Fu1，21美国东北大学电气与计算机工程系2东北大学Khoury计算机科学学院，波士顿，MA摘要图文匹配一直是连接视觉和语言领域的研究热点它仍然具有挑战性，因为目前的图像表示通常缺乏全局语义概念，因为在其相应的文本帽。为了解决这个问题，我们提出了一个简单的和可解释的推理模型来生成视觉表示，捕捉关键对象和语义概念的场景。具体地说，我们首先在自下而上的注意视觉语义推理最终表示图像区域，并使用图卷积网络执行推理，以生成具有语义关系的特征。然后，我们提出了使用门和推理机制来执行全局语义推理这些关系增强的功能，选择的歧视性信息，并逐步生成整个场景的表示。实验验证了我们的方法在MS-COCO [28]和Flickr 30 K [40]数据集上实现了新的最先进的图像-文本匹配。在MS-COCO上（Recall@1使用1 K测试集），图像检索性能比目前最好的方法高6.8%在Flickr30K上，我们的模型相对提高了 12.6% 的图像检索和 5.8% 的字幕检索（Recall@1）。1. 介绍视觉和语言是人类智能理解现实世界的两个重要方面大量的研究[5，9，23]已经完成了这两种模式的桥梁。图像-文本匹配是该领域的一个基本课题，它是指测量句子和图像之间的视觉-语义相似性。它已被广泛采用的各种应用，如检索的文本描述从图像查询或图像搜索给定的句子。虽然在这方面已经取得了很大的进展，但由于视觉语义的巨大差异，它仍然是一个具有挑战性的问题当人们使用自然语言描述他们在图片中看到的东西时，可以观察到描述不仅包括对象，突出的东西，图1.提出的视觉语义推理网络（VSRN）执行推理的图像区域，以产生代表的图像。该表示捕获场景的关键对象（标题中的框）和语义概念（标题中的突出部分），如在相应的文本标题中一样。而且还将组织它们的交互、相对位置和其它高级语义概念（例如在这个过程中，关于对象和语义的视觉推理对人类至关重要然而，现有的视觉文本匹配系统缺乏这样的推理机制.它们中的大多数[5]通过卷积神经网络（CNN）特征来表示图像中的概念，这些特征通过具有特定感受野的卷积来提取，仅执行局部像素级分析。他们很难识别高层次的语义概念。最近[23]利用来自对象检测器的区域级特征，并发现图像区域和单词之间的对齐。这些方法虽然能够在包含多个对象的区域内把握局部语义概念，但仍然缺乏全局推理机制，无法在更远的区域之间进行信息交流。为了解决这个问题，我们提出了视觉语义推理网络（VSRN），以产生视觉表示，捕捉对象和它们的语义关系。我们从识别图像中的显著区域开始，如下[1，23]。以这种方式，在材料/对象级别的显著区域检测可以被类比为与人类视觉系统一致的自下而上的注意力[16]。在实际应用中，实现了自底向上的注意模块文本标题与匹配另一个人阿滑雪在半空在后台看着4655使用Faster R-CNN [34]。然后，我们在这些显著区域之间建立连接，并使用图卷积网络（GCN）[18]进行推理，以生成具有语义关系的特征。不同的图像区域和语义关系对图像-文本相似度的推断会有不同的贡献，有些甚至是冗余的。因此，我们进一步采取一个步骤，以照顾重要的，当产生的最终表示为整个图像。我们建议使用门和记忆机制[3]对这些关系增强的特征进行全局语义推理，选择有区别的信息并逐渐增长整个场景的表示。该推理过程是在图拓扑上进行的，并考虑局部，全局语义相关性。与现有的缺乏推理机制的方法相比，最终图像表示能够捕捉到更多的关键语义概念，从而有助于获得更好的图像-文本匹配性能。除了在标准基准上对我们的模型进行定量评估之外，我们还设计了一种解释方法来分析推理模型内部学到的东西最终图像表示和每个区域特征之间的相关性以注意格式可视化。如图1所示，我们发现学习的图像表示在这些包含关键语义概念的区域具有高响应。（ a ）提出了一个简单的、可解释的推理模型VSRN，通过区域关系推理和全局语义推理生成增强的视觉表示。(b)我们设计了一种解释方法来可视化和验证生成的图像表示可以捕获场景的关键对象和语义概念，以便它可以更好地与相应的文本标题对齐。(c)所提出的VSRN实现了MS-COCO [28]和Flickr 30 K [40]数据集上的图像-文本匹配的新技术水平。我们的VSRN在MS-COCO（使用1 K测试集的Recall@1）上的图像检索和字幕检索方面相对于目前最好的方法SCAN在Flickr30K上，我们的模型相对提高了12.6%的图像检索和5.8%的字幕检索2. 相关工作图文匹配。我们的工作是与现有的方法提出的图像-文本匹配，其中的关键问题是测量文本和图像之间的视觉语义相似性。学习文本和图像特征向量可比的公共空间是此任务的典型解决方案。Frome等人[6]提出了一个特征嵌入框架，该框架使用Skip-Gram [31]和CNN来提取交叉模态的特征表示。然后是军衔采用匹配损失来鼓励不匹配的图文对之间的距离大于匹配的图文对之间的距离。Kiros等人[19]使用类似的框架，并采用LSTM [12]而不是Skip-Gram来学习文本表示。Vendrov等人[36]设计了一个新的目标函数，鼓励视觉语义的有序结构可以保持层次性。Faghri等人[5]更多地关注硬底片，并使用三重态损失获得良好的改进。Gu等人。[8]通过结合生成目标进一步改进了跨视图特征嵌入的学习。我们的工作也属于这个方向的学习，ING联合空间的图像和句子，重点是改善图像表示。注意力机制。我们工作是也受自底向上注意机制和基于自底向上注意机制的图像-文本匹配方法的启发。自下而上的注意力[16]是指在材料/物体水平上的显著区域检测，可以类比为与人类视觉系统一致的自发自下而上的注意力[16，24-27]。类似的观察激发了其他现有的工作。在[15]中，采用R-CNN [7]在对象级别检测和编码图像区域。然后通过聚合所有词-区域对相似度得分来获得图像-文本相似度。Huang等人[14]训练多标签CNN，将每个图像区域分类为对象和语义关系的多标签，以便改进的图像表示可以捕获局部区域内的语义概念。Lee等人。[23]进一步提出了一种关注关键词和图像区域的注意力模型，用于预测文本-图像相似性。在此基础上，我们也从图像的自底向上区域特征开始然而，据我们所知，没有研究试图将全球空间或语义推理时，学习视觉表示的图像-文本匹配。关系推理方法。符号方法[32]是人工智能中最早的推理形式gence.在这些方法中，符号之间的关系用逻辑和数学的形式来表示，推理是通过溯因和演绎等方式进行的。然而，为了使这些系统能够实际使用，需要预先对符号进行接地。最近的方法，如路径排序算法[22]，通过使用统计学习来提取有效模式，在结构化知识库上执行推理。作为一个活跃的研究领域，基于图的方法[41]近年来非常流行，并被证明是一种有效的关系推理方法。图卷积网络（GCN）[18]提出了半监督分类。Yao等人。[39]在视觉基因组数据集[21]上训练视觉关系检测模型，并使用基于GCN的编码器将检测到的关系信息编码到图像字幕框架中。Yang等人。[38]利用GCN将先验知识纳入深度强化4656底向上的注意图像最终表示区域关系全局语义推理GRU h1h2h3h4h5IFCv*1v*2v*3v*4v*5区域图对齐学习匹配LML图卷积文本生成GGRU编码器区域级功能增强型区域功能V*在一家餐馆里，这个男人拿着一杯葡萄酒笑着。文本标题图2. 视觉语义推理网络（Visual Semantic Reasoning Network，VSRN）基于底部的显著图像区域-注意力（Sec.）VSRN首先使用GCN对这些区域执行区域关系推理，以生成具有语义关系的特征（第3.1节）。3.2）。然后VSRN利用门和记忆机制对关系增强的特征进行全局语义推理，选择有区别的信息，逐步生成整个场景的表示（第二节）。3.3）。整个模型通过匹配和句子生成的联合优化进行训练（第二节）。第3.4段）。通过计算最终图像表示与每个区域特征之间的相关性来获得表示的注意力（右上）（第二节）。4.5）。学习框架改进了在看不见的场景中和朝向新对象的语义导航我们还采用图卷积的推理能力来获得增强了语义关系的图像区域特征。但是我们不需要额外的数据库来构建关系图（例如，[39]需要在Visual Genome上训练关系检测模型）。除此之外，我们还对这些关系增强的特征进行全局语义推理，以便最终的图像表示可以捕获场景的关键对象和语义概念。3. 用视觉语义推理学习对齐在本节中，我们描述了用于图像-文本匹配的视觉语义推理网络（VSRN）我们的目标是推断一个完整的句子和整个图像之间的相似性映射到一个共同的嵌入空间的图像对于图像部分，我们从图像区域及其由自下而上的注意力模型[1]生成的特征开始（Sec. 第3.1节）。VSRN首先在这些图像区域之间建立连接，并使用图卷积网络（GCN）进行推理3.2）。然后，我们对这些关系增强的特征进行全局语义推理，3.1. 自下而上注意的图像表示利用自下而上的注意力[1]，每个图像可以由一组特征V={v1，…，v i∈ RD，使得每个特征v i编码一个在这个图像中的对象或显著区域。在[1，23]，我们使用ResNet-101 [10]作为主干，使用Faster R-CNN[34]模型实现自下而上的注意力。它是由[1]在VisualGenomes数据集[21]上预先训练的。该模型被训练来预测实例类和属性类，而不是对象类，因此它可以帮助学习具有丰富语义意义的特征表示。具体来说，实例类包括对象和难以识别的例如，“毛茸茸的”属性和“建筑物”、“草”和“天空”之类的东西使用模型然后，我们将置信度阈值设置为0.3，并选择任何类别检测概率大于此阈值的所有图像区域。选择具有最高类别检测置信度分数的前36个ROI。所有这些阈值的设置与[1，23]相同。对于每个选定的区域i，我们在平均池化层之后提取特征，得到具有2048个维度的fi。然后应用完全连接层以使用以下等式将fi变换为D选择有区别的信息并过滤掉不重要的信息，以生成整个图像的最终表示（第二节）。3.3）。对于文字说明部分，我们学习了一个代表-vi=Wffi+bf .（一）使用RNN对句子进行重新表示最后，通过图像-句子匹配和句子生成的联合优化来训练整个模型（Sec.第3.4段）。则V ={v1，...，构造v k}，v i∈RD来表示每幅图像，其中v i编码该图像中的对象或显著区域。4657我我我我我1kiC3.2. 区域关系推理受基于深度学习的视觉推理[2，35，42]的最新进展的启发，我们建立了一个区域关系推理模型，通过考虑图像区域之间的语义相关性来增强基于区域的具体来说，我们测量成对的亲和力之间的图像区域在嵌入空间中构建它们的关系，使用方程。二、R（vi，vj）=R（vi）Tφ（vj），（2）其中， φ（vi）=Wφvi和φ（vj ）=Wφvj是两个嵌入。可以通过反向传播来学习权重参数Wφ和Wφ然后，全连通关系图G r=（V，E），其中V是检测到的区域的集合，并且边缘集合E由亲和矩阵R描述。R是通过calculu- lating使用方程的每对区域的亲和力边缘二、这意味着如果两个图像区域具有强语义关系并且高度相关，则将存在连接两个图像区域的具有高亲和力分数的边缘图卷积网络（ Graph Convolutional Networks ，GCN）[18]来对这个全连接图进行推理。每个节点的响应基于由图关系定义的其邻居来计算。我们将剩余连接添加到原始GCN，如下所示：V=Wr（RV Wg）+V，（3）其中Wg是具有D×D尺寸的GCN层的权重矩阵。Wr是残差结构的权矩阵。R是k×k形状的亲和矩阵。我们按照例程对亲和矩阵进行逐行R.输出V={v，.，v∈RD是图像区域节点的关系增强表示。3.3. 全局语义推理在具有关联信息的区域特征的基础上，进一步进行全局语义推理，筛选出具有区分性的信息，过滤掉不重要的信息，从而得到整个图像的最终表示。具体来说，我们通过将序列帮助增长整个场景的描述的新添加的内容计算如下：mi=σm（Wmv+Uz（rimi−1）+bm），（5）其中σ m是双曲正切激活函数。Wm，Um和bm是权重和偏差这是一个元素乘法。r i是复位门，它根据vi和m i−1之间的推理来决定要忘记哪些内容。与更新门类似地计算ri，如下：ri=σr（Wrv+Urmi−1+br），（6）其中σ r是S形激活函数。Wz，Uz和Bz是权重和偏差然后，在当前步骤处的整个场景mi的描述是在先前描述mi-1和新内容mi之间使用更新门zi的线性插值：mi= （ 1−zi ） <$mi−1+zi<$m<$i ，（7）其中<$是逐元素乘法。因为每一个V包括全局关系信息，则更新mi是AC。实际上基于图拓扑上的推理，该图拓扑考虑当前局部区域和全局语义相关性。我们将序列V的结尾处的存储单元mk作为整个图像的最终表示I其中k是V的长度。3.4. 通过联合匹配和生成学习对齐为了连接视觉和语言领域，我们使用基于GRU的文本编码器[3，5]将文本标题映射到与IM相同的D维语义向量空间C∈RD年龄表示I，它考虑了判决。然后，我们联合优化匹配和生成，以学习C和I之间的比对。对于匹配部分，我们采用基于铰链的三重排序损失[5，15，23]，强调硬否定[5]，即，最接近每个训练查询的否定。我们将损失定义为：的区域特征V_i={v_i，...，v}，v∈RD，一个由LM=[α−S（I，C）+S（I，C）]+1k i+（八）一个为GRU [3]。整个场景的描述将在存储单元中逐渐增长和更新（隐藏状态）在这个推理过程中。在每个推理步骤i，更新门zi分析当前输入区域特征vi和最后步骤mi-1的整个场景的描述，以决定该单元[α−S（I，C）+S（I，C）]+，其中α用作裕度参数。[x]+max（x，0）。该铰链损失包括两个项，一个项具有I，一个项具有C作为查询。S（·）是联合嵌入空间中的相似性函数我们用通常的内积更新其存储单元。更新门计算如下：S（·）。I=argmaxj/=IS（j，C）且对于一个最难的方程，zi=σz（Wz vi+Uz mi−1+bz），（4）其中σz是S形激活函数。 Wz，Uz和Bz是权重和偏差正对（I，T）。为了提高计算效率，我们不是在整个训练集中找到最难的负数，而是在每个小批量中找到它们。4658对于生成部分，学习的视觉表示还应该具有生成接近地面实况字幕的句子的能力。具体来说，我们使用具有注意力机制的序列到序列模型[37]来实现这一点。我们最大化预测输出句子的对数似然。损失函数定义为：Σl方法标题检索R@1R@5R@10图像检索R@1R@5R@10（R-CNN，AlexNet）DVSACVPR′15 [15]38.469.980.527.460.274.8HMlstmICCV′17 [33]43.9-87.836.1-86.7（VGG）LG=−logp（yt|yt−1，V;θ），（9）t=1（ResNet）其中l是输出字序列Y=（y1，...，y 1）。θ是序列到序列模型的参数。我们的最终损失函数定义如下，以执行两个目标的联合优化。L=LM+ LG。（十）4. 实验为了评估所提出的视觉语义推理网络（VSRN）的有效性消融研究进行调查我们的模型的每个组成部分。我们还比较了最近的国家的最先进的方法在这项任务上。4.1. 数据集和方案我们在Microsoft COCO数据集[28]和Flickr30K数据集[40]上评估了我们的方法。MS-COCO包括123，287幅图像，每幅图像用5个文本描述进行注释。我们遵循[5，8，15，23]对MSCOCO的分割，其中包含113，287张用于训练的图像每个图像都有5个字幕。通过对来自5倍的1K测试图像的结果进行平均或对完整的5K测试图像进行测试来获得最终结果。Flickr 30K包含从Flickr网站收集的31783张图像每个图像都附有5个人类注释的文本描述。我们使用标准的训练，验证和测试分割[15]，分别包含28，000张图像，1000张图像和1000张图像。对于评价矩阵，如在信息检索中常见的那样，我们通过在K（R@K）处的召回率来测量性能，所述召回率被定义为在与查询最接近的K个点中检索到正确项的查询的分数。4.2. 实现细节我们将单词嵌入大小设置为300，将联合嵌入空间D的维数设置为2048。我们遵循与[1，23]相同的设置来设置视觉自下而上注意模型的细节。基于GRU的全局语义推理的区域顺序（Sec.3.3）由（Faster R-CNN，ResNet）SCANECCV′1872.794.898.458.888.494.8VSRN（我们的）76.294.898.262.889.795.1表1.在MS-COCO 1 K测试集上对图像到文本（cap-tion）检索和文本到图像（image）检索的Recall@K（R@K）定量评价结果。方法标题检索R@1R@5R@10图像检索R@1R@5 R@10（R-CNN，AlexNet）（VGG）（ResNet）VSE++BMVC′18[5]41.369.281.230.359.172.4GXNCVPR′18 [8]42.0-84.731.7-74.6SCOCVPR′18 [14]42.872.383.033.162.975.5（Faster R-CNN，ResNet）SCANECCV′1850.482.290.038.669.380.4VSRN（我们的）53.081.189.440.570.681.1表2.在MS-COCO 5 K测试集上，以Recall@K（R@K）为评价指标，对图像到文本（caption ）检索和文本到图像（image）检索进行了定量评价。由自下而上注意力检测器生成的它们的类检测置信度分数的降序。对于VSRN的训练，我们使用Adam优化器[17]用30个epoch来训练模型我们在15个epoch中以0.0002的学习率开始训练我们在等式中设置裕度α8至0.2对于所有实验。我们使用128的小批量对于测试集的评估，我们通过选择在验证集上表现最好的模型快照来解决过拟合问题。最佳快照是根据验证集上的召回总和选择的4.3. 与最新技术MS-COCO上的结果。MS-COCO 1 K测试集的定量结果如表1所示，其中所提出的VSRN优于最近的方法，具有R@1的大差距。按照通用方案[5，14，23]，通过对1K测试的5倍进行平均FVCVPR′15 [20]39.467.980.925.159.876.6OEMICLR′16 [36]46.7-88.937.9-85.9VQAECCV′16 [29]50.580.189.737.070.982.9SMlstmCVPR′17 [13]53.283.191.540.775.887.42W ayNCVPR′17 [4]55.875.2-39.763.3-RRFICCV′17 [30]56.485.391.543.978.188.6VSE++BMVC′18[5]64.689.195.752.083.192.0GXNCVPR′18 [8]68.5-97.956.6-94.5SCOCVPR′18 [14]69.992.997.556.787.594.8DVSACVPR′15 [15]11.832.545.48.924.936.3FVCVPR′15 [20]17.339.050.210.828.340.1VQAECCV′16 [29]23.550.763.616.740.553.8OEMICLR′16 [36]23.3-84.731.7-74.64659图像.当与当前最好的方法SCAN [23]相比时，我们遵循相同的策略[23]通过平均预测相似性得分来组合两个训练VSRN模型的结果。我们的VSRN在字幕检索（R@1）和图像检索（R@1）上分别提高了4.8%和6.8%在表2中，我们还通过对完整的5 K测试图像及其标题进行测试，报告了MS-COCO 5 K测试集的结果。从该表中，我们可以观察到所有方法的总体结果均低于第一方案。这可能是由于在这样一个较大的目标集中存在更多的干扰项。在所有的方法中，建议VSRN仍然达到最好的性能，这再次证明了其有效性。相对于目前最先进的SCAN算法，它在句子检索（R@1）和图像检索（R@1）上分别提高了5.2%和4.9%。Flickr30K上的结果。我们在Flickr30K数据集上展示了VSRN的实验结果，并在表3中与当前最先进的方法进行了比较。我们还列出了用于视觉特征提取的网络骨干，如R-CNN，VGG，ResNet，Faster R-CNN。从结果中，我们发现所提出的VSRN优于所有最先进的方法，特别是对于Recall@1。当与使用与我们相同的特征提取主干的SCAN [23]比较时，我们的VSRN在标题检索（R@1 ）上相对提高了5.8%，在图像检索（R@1）上相对提高了12.6%（遵循相同的策略[23]，即平均两个训练模型的预测相似性得分SCAN试图发现可能的区域和单词对之间的全部潜在对齐它主要关注区域和词之间的局部成对匹配。相比之下，建议VSRN执行区域特征的推理，并生成一个全局场景表示，捕捉每个图像的关键对象和语义概念。该表示可以更好地与相应的文本标题对齐。比较结果表明，区域关系推理和全局语义推理在图文匹配中的优势。特别是对于具有挑战性的字幕检索任务，VSRN显示出强大的鲁棒性，干扰与巨大的改善（相对12.6%）。4.4. 消融研究分析VSRN中的各个推理组件。我们希望通过从一个不执行任何推理的非常基本的基线模型该基线模型在全连接层V ={v1，.，v k}，v i∈RD以获得整个图像的最终表示I∈RD。其他部分与VSRN相同。MS-COCO 1 K测试集的结果如表4所示方法标题检索R@1R@5R@10图像检索R@1R@5R@10（R-CNN，AlexNet）DVSACVPR′15 [15]22.248.261.415.237.750.5HMlstmICCV′17 [33]38.1-76.527.7-68.8（VGG）FVCVPR′15 [20]35.062.073.825.052.766.0VQAECCV′16 [29]33.962.574.524.952.664.8SMlstmCVPR′17 [13]42.571.981.530.260.472.32W ayNCVPR′17 [4]49.867.5-36.055.6-（ResNet）RRFICCV′17 [30]47.677.487.135.468.379.9VSE++BMVC′18[5]52.979.187.239.669.679.5SCOCVPR′18 [14]55.582.089.341.170.580.1（Faster R-CNN，ResNet）SCANECCV′1867.490.395.848.677.785.2VSRN（我们的）71.390.696.054.781.888.2表3.在Fliker 30 K测试集上，以Recall@K（R@K）为评价指标，对图像到文本（cap-tion）检索和文本到图像（image）检索进行了定量评价。该基线模型（记为“均值池”）实现了64.3的R@1的字幕检索和49.2的R@1的图像检索。然后，我们添加一个区域关系推理（RRR）层（在第2节中描述）。3.3)在均值合并操作之前，将其添加到基线模型中，并将其标记为RRR。我们还将均值池操作替换为全局语义推理（GSR）模块（在第2节中描述）。3.3）得到GSR模型。从表4中可以看出，这两个推理模块都能有效地提高图像的匹配性能，获得更好的图像表示I。然后，我们结合RRR和GSR得到我们的VSRN模型，并进一步尝试不同数量的RRR层。结果表明，在全局语义推理模块之前增加区域关系推理层，可以逐步提高系统的性能。这是因为RRR模块可以生成关系增强特征，这允许GSR在图拓扑上执行推理，并考虑当前局部区域和全局语义相关性。然而，我们也发现，当增加更多的RRR层时，改进较少最后我们采用4RRR+GSR作为VSRN的最终设置我们进一步报告了在没有文本生成损失LG（标记为4RRR+GSR*）的情况下训练的VSRN的结果比较结果表明，匹配和生成的联合优化可以帮助R@1相对提高2%左右全局语义推理的区域排序。由于我们的全局语义推理模块（Sec. 3.3)顺序地处理区域特征并逐渐生成整个图像的表示，我们考虑了表5中关于该推理过程的区域排序的几个烧蚀。一个可能的设置（VSRN置信度）是由自下而上的注意力检测器生成的类检测置信度分数的降序。我们希望这能鼓励模型专注于简单的事情4660....我（一）查询图像关注度（b）第（1）款查询图像关注度（c）第（1）款查询图像关注度图1：一个女人和孩子在草地上玩飞盘第2集：一个女人和一个小女孩玩飞盘在阳光下的绿色草坪上。图3：一个女人像孩子一样扔飞盘。图1：两只长颈鹿站在草地上的树第2集：两只长颈鹿站在草地上彼此相邻3：两只长颈鹿摩擦他们的脖子在一起，因为他们站在阳光下的树木。第1集：一个戴着头盔的人跳上了滑雪板。2. 一个滑雪板在半空中与另一个人在后台观看3：一个人在滑雪板上跳在空中。（d）其他事项查询图像关注度（e）查询图像关注度（f）第（1）款查询图像关注度1：在厨房的柜台上，一把刀放在一个空的砧板上2：肮脏的厨房用具和一个炉子连同水果。3：厨房柜台上有各种各样的食物。一个人骑着驴在两座山之间旅行第2集：一个人在一个黑色的顶部骑着马和一些山丘和岩石3：一个人骑着马沿着一条小路与岩石周围。1.交通灯挂在电线附近，后面有树2.十字路口杆臂上的两个交通信号。3.一个路标和两个交通灯悬挂在美国1图3. MS-COCO数据集上VSRN图像到文本（字幕）检索的定性结果。对于每个图像查询，我们显示排名前3的文本标题。地面实况匹配的句子带有复选标记，而一些与地面实况具有相似含义的句子则标有灰色下划线。我们还显示了注意可视化的最终图像表示，除了其相应的图像。我们的模型生成可解释的图像表示，捕捉场景中的关键对象和语义概念(Best放大时以彩色显示。）方法标题检索R@1R@5R@10图像检索R@1R@5R@10均值池64.390.595.149.283.491.5准68.593.296.356.887.294.2GSR72.394.498.059.688.694.51RRR + GSR75.394.798.162.189.294.94RRR + GSR76.294.898.262.889.795.14RRR + GSR*74.694.698.261.289.094.8表4.MS-COCO 1 K测试集上的消融研究结果以Recall@K（R@K）报告 “GSR”表示一个具有全局语义推理模块的模型。RRR之前的数字表示RRR层的数量。“*”表示不使用文本生成损失L G的模型训练。方法标题检索R@1R@5R@10图像检索R@1R@5R@10VSRN-随机75.194.598.062.389.194.6VSRN-BboxSize75.894.998.462.589.594.8VSRN-信心76.294.898.262.889.795.1表5.对MS-COCO 1 K测试集进行消融研究，以分析全局语义推理的区域排序结果结果与合理的排序方案相当。我们在实验中采用VSRN置信度作为VSRN的设置此外，我们还发现，对于这些不同的设置，R@1的方差约为1点，这表明VSRN对所使用的排序方案具有鲁棒性。一个可能的原因可能是在区域关系推理步骤期间包括全局信息。基于这些关系增强的特征，可以在全局图拓扑上进行语义推理。4.5. 可视化和分析注意最终图像表示的可视化。由于视觉语义推理的最终目标是生成包含场景中关键对象和语义概念的图像表示为了验证这一点，我们可视化整个图像的最终表示与该图像中包括的这些图像区域之间的相关性。具体来说，我们计算内积相似性（与等式中（8）各区域特征V={v，.，v<$}，v <$∈RD，最后1k i以Recall@K（R@K）表示。首先确定具有高置信度的区域，然后基于语义上下文推断更困难的区域。另一个选项（VSRN-BboxSize）是按降序对这些区域的检测边界框进行排序，因为这可以让模型首先获得全局场景信息。我们还测试了随机排序的区域（VSRN-随机）的模型。表5中的结果表明，特4661定顺序的推理比随机顺序的推理有助于提高性能。VSRN-Confidence和VSRN-BboxSize实现全像表示I ∈ RD。然后，我们按照图像区域V与I的相关性的降序对它们进行排序，并根据其排序ri为每个V分配得分si。分数由si= λ（k-r attn）2计算，其中k是区域的总数，λ是用于强调高排名区域的参数。我们在实验中设定λ = 50。然后，对于最终的注意力图（相似性图），每个像素位置处的注意力分数通过将其所属的所有区域的分数相加而获得。我们展示了每个图像的注意力图以及图像到文本（标题）检索和文本到图像（图像）检索的定性结果4662问题（a）：一个家庭在城市街道上滑雪，而其他人则在清理汽车上的积雪。问题（b）：三明治和棒棒糖放在桌子上的亮问题（c）：一群奶牛在一块旱地上吃草。问题（d）：一个穿着黑色衣服的飞盘队拿着他们的自由蜂。图4. MS-COCO数据集上VSRN的文本到图像（图像）检索的定性结果。我们显示每个文本查询的前3个检索图像，从左到右排名真正的匹配用绿色框表示，错误的匹配用红色框表示。我们还展示了VSRN在相应图像下生成的图像表示的注意可视化。图像到文本检索的定性结果。在图3中，我们显示了在MS-COCO上给定图像查询的文本检索的定性结果。我们显示了每个图像查询的前3个检索句子。根据VSRN预测的相似性得分获得排名。从这些结果中，我们发现，我们的VSRN可以检索正确的结果，在排名靠前的句子，即使是混乱和复杂的场景的情况下。该模型输出一些合理的不匹配，例如。（d）-3。存在不正确的结果，例如（f.4），这可能是由于模型无法识别的图像（“US Route 1”）中的概念过于具体。从注意力可视化的结果可以看出，VSRN生成的图像表征很好地捕捉了场景中的关键对象和语义概念。文本到图像检索的定性结果。在图4中，我们展示了MS-COCO上给定文本查询的图像检索的定性结果。每个文本描述都与地面实况图像相匹配。我们显示了每个文本查询的前3个重新检索的图像。真正的匹配用绿色标出，错误的匹配用红色标出。我们发现，我们的模型可以检索前3名列表中的地面实况图像。注意，其他结果也是合理的，其包括与文本描述相同类别或相同语义概念的对象对于那些具有非常相似场景的图像，我们的模型仍然可以很好地区分它们，并准确地检索出排名前1的地面真实图像。这可以从注意力地图中得到很好的解释，例如。对于给定的文本查询（a），模型关注街道上的汽车和地面实况IM中清洁汽车的人，年龄，以区分它与其他两个图像，也是关于人滑雪。然而，对于查询（c）的前2个检索图像，该模型混淆了“尝试字段”的概念。它把草少的田地当作比草枯的田地更好的匹配。这可能是由于没有足够的训练数据来实现复杂的概念。5. 结论本文提出了一个简单的、可解释的推理模型VSRN，通过区域关系推理和全局语义推理来生成视觉表示增强的图像表示捕获场景的关键对象和语义概念，以便它可以更好地与相应的文本标题对齐。在MS-COCO和Fliker 30 K数据集上的大量与复杂的基于注意力的区域和词之间的成对相似性聚合相比，我们表明，经典的我们将进一步探索VSRN中的推理模块对其他视觉和语言任务的有效性6. 致谢这项研究得到了NSF IIS奖1651902和美国国家科学基金会的部分支持。陆军研究办公室奖W 911 NF- 17-1-0367。关注图像关注图像4663引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。[2] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.Iter-超越卷积的视觉推理。在CVPR，2018年。[3] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络对序列建模的经验评估arXiv，2014.[4] 艾薇夫·艾森施塔特和里奥·沃尔夫。链接图像和文本2-方式网。在CVPR，2017年。[5] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。在BMVC，2018年。[6] Andrea Frome ， Greg S Corrado ， Jon Shlens ， SamyBengio，Jeff Dean，Tomas Mikolov，等. Devise：一个深度视觉语义嵌入模型。在NIPS，2013年。[7] Ross Girshick、Jeff Donahue、Trevor Darrell和Jitendra马利克丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。[8] 顾久香，蔡剑飞，王刚。听着，想象一下and match：Improving textual-visual cross-modal retrievalwith generative models.在CVPR，2018年。[9] 顾久祥，赵汉东，林哲，李胜，蔡建飞和明阳灵。基于外部知识的场景图生成与图像重建。在CVPR，2019年。[10] Kaiming He，Xiangyu Zhang，Jian Sun.深度残差学习图像识别。在CVPR，2016年。[11] Jerry R Hobbs，Mark E Stickel，and Paul Martin.解释为绑架。人工智能，1993年。[12] SeppHochreiter和JürgenSchmidhube r. 长短期记忆神经计算，1997年。[13] 炎黄、魏王、梁王。基于选择性多模态lstm的实例感知在CVPR，2017年。[14] 炎黄、齐武、宋春风、梁王。学习图像和句子匹配的语义概念和顺序。在CVPR，2018年。[15] Andrej Karpathy和李飞飞。深度视觉语义对齐用于生成图像描述的部件。CVPR，2015。[16] Fumi Katsuki和Christos Constantinidis自下而上和自上而下的注意：不同的过程和重叠的神经系统。神经科学家，2014年。[17] Diederik P Kingma和Jimmy Ba。亚当：一种方法随机优化arXiv，2014.[18] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR，2017。[19] Ryan Kiros，Ruslan Salakhutdinov，and Richard S Zemel.统一视觉语义嵌入与多模态神经语言模型。arXiv，2014.[20] Benjamin Klein Guy Lev Gil Sadeh和Lior Wolf Asso-使用Fisher向量引用具有深度图像表示的神经词嵌入。CVPR，2015。[21] Ranjay Krishna，Yuke Zhu，Oliver Groth，JustinJohnson，Kenji Hata ， Joshua Kravitz ， Stephanie Chen ， YannisKalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。IJ

下载后可阅读完整内容，剩余1页未读，立即下载