选择性多模态LSTM用于图像和句子匹配中的全局视觉语义相似性衡量

26 浏览量更新于2023-10-16 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2310一个老人拿着包，一只狗坐在路边和草地旁的长凳基于选择性多模态LSTM的黄燕1、3王伟1、3王良1、2、31智能感知与计算研究中心（CRIPAC），模式识别国家重点实验室（NLPR）2中国科学院自动化研究所脑科学与智能技术卓越中心（CEBSIT）3中国科学院大学（UCAS）{yhuang，wangwei，wangliang}@ nlpr.ia.ac.cn图1.提出的选择性多模态长短期记忆网络（sm-LSTM）（最佳颜色）。摘要有效的图像和句子匹配取决于如何很好地衡量它们的全局视觉语义相似性。基于观察到这种全局相似性来自图像（对象）和句子（单词）的成对实例之间的多个局部相似性的复杂聚合，我们提出了一种选择性多模态长短期记忆网络（sm-LSTM）用于实例感知图像和句子匹配。sm-LSTM在每个时间步包括多模态上下文调制注意力方案，其可以通过预测图像和句子的成对实例感知显著性图来选择性地对于所选择的成对实例，基于预测的显著性图来获得它们的表示，然后进行比较以测量它们的局部相似性。通过在几个时间步内类似地测量多个实验结果表明，该模型能够很好地匹配复杂内容的图像和句子，并在两个公共基准数据集上取得了较好的1. 介绍图像和句子的匹配在许多应用中起着重要的作用，例如，找到给定im的句子用于图像注释和标题的年龄查询，以及用于图像搜索的具有句子查询的图像检索。这种跨模态匹配任务的关键挑战是如何准确地测量图像-句子相似度。最近，已经针对该问题提出了各种方法，这些方法可以分为两类：1）一对一匹配和2）多对多匹配。一对一匹配方法通常提取图像和句子的全局表示，然后使用结构化目标[9，18，34]或典型相关目标[40，20]将它们关联起来。但他们忽略了这样一个事实，即全局相似性通常来自图像-句子实例（图像中的对象和句子中的单词）之间的局部相似性的复杂聚合。因此，它们不能执行精确的实例感知图像和句子匹配。多对多匹配方法[16，17，29，32]建议比较多对图像-句子实例，并聚合它们的局部相似性。然而，在没有任何选择的情况下测量所有可能的实例对的局部相似性不是最佳的，因为只有描述相同语义概念的部分其他冗余对不太有用，可能会作为噪声，降低最终性能。此外，获取图像或句子的实例并不容易，因此这些方法通常必须显式地采用附加对象检测器[6]，依赖树关系[11]，LSTMLSTMLSTMLSTMLSTMLSTM匹配分数一个老人和他的袋和狗坐在在马路旁边板凳草多通道语境调节注意2311或昂贵的人工注释。为了解决上述问题，我们提出了一个序列模型，称为选择性多模态长短期记忆网络（sm-LSTM），它可以循环选择图像-句子实例的显著对，然后在几个时间步内测量和聚合它们的局部相似性如图1所示，给定一对具有复杂内容的图像和句子，sm-LSTM首先提取它们的实例候选，即，句子的词和图像的区域。基于提取的候选者，该模型在每个时间步利用多模态上下文调制注意方案来选择性地关注一对期望的图像和句子实例（由具有相同颜色的圆圈和矩形标记）。特别地，注意力方案首先预测图像和句子的成对实例感知显著性考虑到每个实例很少孤立出现，而是与其他实例以及特定上下文共同变化，注意机制使用多模态全局上下文作为参考信息来指导实例选择。然后，通过比较两两实例的表示，可以度量两两实例之间的局部相似性.在多个时间步期间，sm-LSTM利用隐藏状态来捕获所选择的成对图像-句子实例的不同局部相似性，并且顺序地累积它们以预测期望的全局相似性（即，图像和句子的匹配分数）我们的模型在一个框架中联合执行成对实例选择，局部相似性学习和聚合，该框架可以以端到端的方式从头开始训练，具有结构化目标。为了证明所提出的sm-LSTM的有效性，我们在两个公开可用的数据集上进行了图像注释和检索实验，并取得了最先进的结果。2. 相关工作2.1. 一对一匹配弗罗姆等人[9]提出了一种深度图像标签嵌入框架，该框架使用卷积神经网络（ CN-N ） [21] 和 Skip-Gram[26]分别提取图像和标签的表示，然后将它们与结构化目标相关联，其中匹配的图像标签对具有较小的距离。在类似的框架下，Kiroset al.[18]使用递归神经网络（RNN）[12]进行句子表示学习，Vendrov等人。[34]细化目标以保持视觉语义层次的偏序结构，Wanget al. [36]结合跨视图和视图内约束来学习结构保持嵌入。Yan等人[40]使用深层规范语法关联图像和句子的特征分析，其中匹配的图像-句子对具有高相关性。使用类似的目标，Kleinet al. [20]提出使用Fisher向量（FV）[28]来学习区分性句子表示，Lev等。[22]利用RNN对FV进行编码，以进一步提高性能。Huang等人.[14]考虑在缺少某些数据模态的一般无约束设置中的跨模态学习问题。2.2. 多对多匹配Karpathy等人[17，16]首次尝试在具有结构化目标的图像片段和句子之间执行局部相似性学习。Plummer等人[29]收集用于实例级图像和句子匹配的区域到短语对应。但它们都是无差别地使用所有成对的实例进行相似性度量，这可能不是最优的，因为存在许多匹配无关的实例对。此外，获取图像和句子实例不是试验，因为需要使用额外的对象检测器或昂贵的人工注释。相比之下，我们的模型可以自动选择显着的成对图像句子实例，并顺序聚合它们的局部相似性，以获得全局相似性。图像标题的其他方法[25，8，7，35，4]可以扩展到处理图像-句子匹配，首先生成给定图像的句子，然后以多对多的方式将生成的句子与地面实况逐字进行比较。但这类模型是专门设计来预测一个语法完成的句子接近groundtruth句子，而不是选择显着的成对句子实例进行相似性测量。2.3. 深度注意力模型我们提出的模型与一些模拟视觉注意力的模型有关[37，38，15]。 Ba等人[1]出席提出了一种递归注意力模型，该模型能够针对多个对象关注图像中与标签相关的图像区域，的认可。Bahdanau等人[2]提出了一种神经机器翻译器，它可以搜索源句子的相关部分来预测目标词。Xu等[39]开发一种基于注意力的字幕模型，其可以自动学习将目光固定在图像中的显著对象上并生成相应的注释单词。与这些模型不同，我们的sm-LSTM专注于联合多模态实例选择和匹配，它使用多模态上下文调制注意力方案来联合预测图像和句子的实例感知显着图。3. 选择性多模态LSTM我们将介绍所提出的选择性多模态长短期记忆网络（sm-LSTM）的细节。2312BLSTM...一个老人与他袋和一个老人与他袋和MLP狗是坐对的板凳狗是坐对的板凳旁边的路和草旁边的路和草...CNNMLPImageinstance Sentenceinstance全局上下文Previous上下文（a）实例候选提取（b）实例感知显著图预测（c）相似性测量和聚合图2. 所提出的sm-LSTM的细节，包括（a）实例候选提取，（b）实例感知显着图预测，以及(c)相似性度量和聚合（最好用颜色表示从以下三个方面来阐述：（a）图像和句子的实例候选数据提取，（b）使用多模态上下文调制注意力方案的实例感知显著图预测，以及（c）使用多模态LSTM的局部相似性测量和聚合。3.1. 实例候选提取候选句子实例。对于一个句子来说，它的底层实例大多存在于词级或短语级，例如，“狗”和“人”。因此，我们简单地标记并将句子拆分为单词，然后通过使用双向LSTM（BLSTM）顺序处理它们来获得它们的表示[30]，其中学习了具有不同方向（向前和向后）的两个隐藏状态序列。我们在相同的时间步长连接两个方向隐藏状态的向量作为相应的输入单词的表示。图像实例候选项。对于一幅图像，直接获取其实例是非常困难的，因为视觉内容是无组织的，其中实例可以以各种尺度出现在任何位置。为了避免使用额外的对象检测器，我们将图像均匀地划分为区域，以及2）期望的实例通常作为多个候选的组合而存在，例如，实例因此，我们必须评估每个候选实例的实例感知显着性，目的是突出那些重要的，忽略那些不相关的。为了实现这一目标，我们提出了一个多模态的上下文调制的注意力计划，预测成对的图像和句子的实例感知显着图与文献[39]不同的是，该注意方案是针对多模态数据而不是单峰数据设计的，特别是对于多模态匹配任务。更重要的是，我们系统地研究了全局语境调节在注意过程中的重要性。这是因为我们观察到，每一个意象或句子的实例很少是孤立出现的，而是与其他实例以及特定的语境共同变化的。特别是，以前的工作[27]表明，全局图像场景使人类能够快速引导他们的注意力到感兴趣的区域最近的一项研究[10]也表明，捕捉长程上下文的全局句子主题可以极大地促进对单词含义的推断。如图2（b）所示，我们表示先前的L.y获得了一致性，i.dates ofimag和sentence as如图2（a）所示的实例候选，并表示-通过提取最后一个卷积a我|ai∈RFi=l，···，I和WJ|wj∈RGj=l，···，J，分别-CNN中的图层。我们将不同特征图中相同位置的特征值连接起来，作为对应卷积区域的特征向量。3.2. 实例感知显著图预测显然，无论是分割的词还是均匀分割的区域都不能精确地描述所需的句子或图像实例。这归因于以下事实：1）不是所有实例候选都是必要的，因为图像和句子都包括太多的实例无关信息，活泼地ai是第i个划分区域的表示，图像和I是区域的总数。wj描述句子中的第j个分裂词，J是单词的总数。F是最后一个特征图的数量CNN的卷积层，而G是BLSTM中隐藏状态的维度的两倍我们将CNN中最后一个全连接层的输出向量视为图像的全局上下文m∈RD，将基于递归的LSTM中最后一个时间步的隐藏状态视为句子的全局上下文n∈RE基于这些变量，我们可以在...2313不不不第t个时间步长如下：ΣIpt，i=ept，i/i=1Jept，i，pt，i=fp（m，ai，ht−1），（一）qt，j=eqt，j/j=1 eq<$t，j，q<$t，j=fq（n，wj，ht−1）其中PT，i和Qt，j是显著值，表示第i个图像实例候选和第j个句子实例候选在第t个时间步，关于i，v，y将被关注的概率。fp（·）和fq（·）是实现详细上下文调制注意力的两个函数其中输入的全局上下文作为参考信息起着重要的作用3.3. 作为参考信息的全球背景为了说明上下文调节注意力的细节，我们以图3中的图像为例，句子的情况类似。全局特征m提供图像场景的统计概要，包括语义实例及其彼此之间的关系。这样的摘要不仅可以提供关于预期实例的参考信息，例如，“man” and “dog”, but also cause thet. [5]关于其他情况。当地代表图3. 情境调节注意力的图示（较亮的区域表示被关注的实例，最好用颜色显示）。但是这种强有力的监督只能用于有限的任务，例如，句子的连续词用于图像字幕[39]，多类标签用于多对象识别[1]。对于图像和句子匹配，句子中的单词不能用作监督信息，因为我们还必须从句子中选择显著实例来匹配图像实例。事实上，我们在4.7节中没有使用全局上下文进行实验，但发现有些实例，如a我|a i∈RFi=l，···，I描述所有划分的区域，很好地照顾。这主要是因为-并用于计算初始显著图。前一时间步ht-1的隐藏状态指示图像中已经参与的实例，例如，为了选择下一个要关注的实例，注意力方案应该首先引用全局上下文来找到一个实例，然后将其与先前的上下文进行比较，以查看该实例是否已经被关注。如果是（例如，选择“man”），则该方案将再次参考全局上下文以找到另一实例。否则（例如，选择“狗”），初始显著图中的在全球范围内，注意力计划只能指初始显著图选择接下来关注哪个实例，但是初始显著图是根据包含很少实例信息以及实例之间的关系的局部表示来计算的。3.4. 相似性度量与聚集根据预测的两两实例感知显著图，计算加权和表示a′和w′来自适应地描述关注图像将突出显示响应该实例。为了有效地实现，我们使用简单的三路多层感知器（MLP）模拟这样的上下文调制注意过程，如下所示：和句子实例。我们把所有的刺激-每个局部表示之间的逐元素乘法的结果ai）及其相应的显著值（例如，pt，i）：fp（m，ai， ht−1）= wp（σ（mWm +bm）+σ（aiWa+ba）+σ（ht−1Wh + bh））+bpΣIa′ =ti=1Jpt，iai，w′=j=1qt，jwj（3）（二）其中σ表示S形激活函数。wp和bp分别是权重向量和标量偏差。这里我们只以fp（·）为例，fq（·）的情况也是类似的。注意，在这个等式中，初始凸度中的信息-其中，具有较高显著性值的实例候选与更多地归功于实例表示。然后，为了测量在第t个时间步的关注成对实例的局部相似性，我们将它们获得的表示a′和w′联合馈送到双向MLP中，并将输出t tCY映射由全局上下文加性地调制，通过先前的上下文进行减法调制，以最终产生实例感知的显著性图。[39，2，1]中的注意机制在每个时间步只考虑前一个上下文而不考虑全局上下文，它们必须交替地使用逐步标签作为期望的实例信息来指导注意过程。t作为局部相似性的表示，如图2（c）.从第1个到第T个时间步，我们得到局部相似性的表示序列{st} t =1，···，T，其中T是时间步的总数为了聚集这些本地的对于全局相似性，我们使用LSTM网络顺序地将它们作为输入，其中隐藏全局上下文局部表示先前上下文2314表1.图像标注和检索在Flickr30K数据集上的比较结果（表示集成或多模型方法，†表示使用外部文本语料库或手动注释。方法图像检索总和R@1R@5R@10中rR@1R@5R@10中rRVP（T+I）[4]12.127.847.81112.733.144.912.5178.4[16]第十六话14.237.751.31010.230.844.214188.4DCCA[40]16.739.352.9812.631.043.015195.5NIC[35]17.0-56.0717.0-57.07-[17]第17届中国国际汽车工业展览会22.248.261.44.815.237.750.59.2235.2[18]第十八话23.050.762.9516.842.056.58251.9LRCN[7]----17.540.350.89-m-RNN[25]35.463.873.7322.850.763.15309.5[20]第二十话35.062.073.8325.052.766.05314.5[24]第二十四话33.664.174.9326.256.369.64324.7[29]第二十九话37.463.174.3-26.056.069.3-326.1RNN+FV†[22]34.762.772.6326.255.169.24320.5[36]第三十六话40.368.979.9-29.760.172.1-351.0我们的：sm-LSTM-mean25.953.165.4518.143.355.78261.5sm-LSTM-att27.053.665.6520.446.458.17271.1sm-LSTM-ctx33.560.670.8323.650.461.35300.1sm-LSTM42.467.579.9228.257.068.44343.4sm-LSTM微处理器42.571.981.5230.260.472.33358.7国.Σht∈RHt=1，···，T 动态地传播上限-关于SKI我们根据经验设定了错误的总数-直到最后都保持了局部相似性。LSTM包括各种门机制，包括记忆状态ct，隐藏状态ht，输入门it，遗忘门ft和输出门ot，可以很好地适应相似性聚集的复杂性质：it =σ（Wsist +Whi ht−1 +bi），ft =σ（Wsfst+Whf ht−1 + bf），在我们的实验中，每对配对的配对数为100条款。由于我们模型的所有模块，包括局部表示和全局上下文的提取，都可以构成一个完整的深度网络，因此我们的模型可以以端到端的方式从原始图像和句子到匹配分数进行训练，而无需预处理/后处理。为了有效优化，我们固定CNN的权重，并使用4.2节中所述的预训练权重。ct =ft⊙ct−1 +it克兰丹（Wscst +Whc ht−1 +bc），（四）此外，我们还增加了一个成对的双随机正则-通过限制显着性的总和，ot =σ（Wsost +Who ht−1 + bo），ht =ottanh（ct）在所有时间步的任何实例候选的值为1：其中⊙表示逐元素乘法。最后一个时间步hT的隐藏状态可以被视为所有局部相似性的聚集表示. Σλ（1−我Σ Σpt，i）+TJ（1−ΣΣqt，j）不（七）我们使用一个MLP，它将hT作为输入，并产生最终的匹配分数s作为全局相似度：s= w hs（σ（Whhht+ b h））+bs。（五）3.5. 模型学习所提出的sm-LSTM可以用一个结构化的目标函数进行训练，该目标函数鼓励匹配图像和句子的匹配分数大于不匹配图像和句子的匹配分数：Σmax{ 0，m-sii +sik}+ max{ 0，m-sii +ski}ik（六）其中，m是调谐参数，并且Sii是匹配的第i个图像和第i个句子的分数。sik是不匹配的第i个图像和第k个句子的得分，反之亦然2315其中λ是平衡参数。通过添加此约束，当我们的模型多次关注同一个实例时，损失会很大。因此，它鼓励模型平等地关注每一个实例，而不是为了信息最大化而关注某一个实例。在我们的实验中，我们发现使用这种正则化可以进一步提高性能。4. 实验结果为了证明所提出的sm-LSTM的有效性，我们在两个公开可用的数据集上进行了图像注释和检索方面的实验。4.1. 数据集和方案两个评估数据集及其相应的实验方案描述如下。1）Flickr30k2316表2. 在Microsoft COCO数据集上进行图像注释和检索的比较结果。（表示集成或多模型方法，†表示使用外部文本语料库或手动注释。方法图像检索总和R@1R@5R@10中rR@1R@5R@10Med R[19]第十九话33.867.782.1325.960.074.64344.1m-RNN[25]41.073.083.5229.042.277.03345.7[20]第二十话39.467.980.9225.159.876.64349.7DVS[17]38.469.980.5127.460.274.83351.2[18]第十八话43.475.785.8231.066.779.93382.5[24]第二十四话42.873.184.1232.668.682.83384.0RNN+FV†[22]40.871.983.2229.664.880.53370.8OEM[34]46.7-88.9237.9-85.92-[36]第三十六话50.179.789.2-39.675.286.9-420.7我们的：sm-LSTM-mean33.165.378.3325.157.972.24331.9sm-LSTM-att36.769.780.8229.164.878.43359.5sm-LSTM-ctx39.770.284.0232.768.181.33376.0sm-LSTM52.481.790.8138.673.484.62421.5sm-LSTM微处理器53.283.191.5140.775.887.42431.8[41]包括从Flick收集的31783张图像-R网站。每幅图像都配有5个人类注释的句子。我们使用公共训练，验证和测试分割 [18] ，分别包含 28000 ， 1000 和2)Microsoft COCO[23]由82783个训练图像和40504个验证图像组成，每个图像与5个句子相关联。我们使用公共训练，验证和测试分割[18]，分别有82783，4000和1000张图像4.2. 实现细节常用的图像表示和检索的评价标准有前1、5和10个结果的召回率。另一个是“Medr”，它是第一个地面实况结果的中位数排名。我们计算一个额外的标准总和= R@1 + R@5 + R@10 + R@1 + R@5 +R@10`x` x图像标注图像检索为了系统地验证有效性，我们对sm-LSTM的五种变体进行了实验：（1）sm-LSTM-mean不使用注意力方案来获得选定实例的加权和表示，而是直接使用均值向量，（2）sm-LSTM-att仅使用atten-tion方案，但不利用全局上下文，（3）sm-LSTM-ctx不使用注意力方案，而只利用全局上下文，（4）sm-LSTM是我们使用注意力方案和全局上下文的完整模型，以及（5）sm-LSTM是所描述的四个模型的集合。以上，通过以与[24]类似的方式将它们的跨模态相似性矩阵求和在一起。我们使用19层VGG网络[31]来初始化我们的CNN，以提取512个特征图（大小为14×14）在“conv 5 -4”层中作为图像实例候选的表示，并且在“fc 7”层中的特征向量作为图像全局上下文。我们使用MNLP[18]来初始化我们基于时间步长的LSTM，并将最后一个时间步长的隐藏状态视为句子全局上下文，而我们用于表示句子候选的BLSTM直接从隐藏状态维度为512的原始句子中学习对于图像，局部和全局上下文特征的维数分别为F=512和D=4096，并且总数为局部区域的I = 196（14×14）。对于判决，局部和全局上下文特征的数目分别为 G=1024 和E=1024。我们将所有句子的最大长度设置为50，即，拆分单词的数量J=50，当句子不够长时使用零填充。其他参数根据经验设定如下：H = 1024，λ = 100，T =3和m = 0。二、4.3. 与现有技术方法的我们分别在表1和表2中比较了sm-LSTM与Flickr 30k和Microsoft COCO数据集上的几种最新方法我们可以发现，sm-LSTM在两个数据集上的性能都比所有比较方法好得多我们最好的单一模型sm-LSTM在图像注释方面优于最先进的DSPE+FV<$，但在图像检索方面表现略差与使用外部文本语料库来学习区分性句子特征的DSPE+FV不同，我们的模型以端到端的方式直接从头开始学习它们。除了DSPE+FV†之外，sm-LSTM的性能比其他比较方法好得多。这些观察表明，动态选择图像句子实例和聚合它们的相似性是非常有效的跨模态检索。当比较所有的sm-LSTM时，我们可以得出如下结论。1）我们的注意力计划是有效的，因为2317天空，飞行飞机，飞行飞机，天空人，得到城市，巴士城市，巴士标志，停止草地，访问草，标志飞机，飞机飞机，空气图4.在三个不同的时间步（最好用颜色查看），参与图像和句子实例的可视化表3. 不同数量的时间步长对Flick30k数据集的影响。T：sm-LSTM中的时间步数。图像标注图像检索R@1R@5R@10R@1R@5R@10不 = 138.838.042.438.238.165.768.967.567.668.276.877.979.978.578.428.028.128.227.528.156.656.557.056.656.068.268.168.468.067.9不 = 2不 = 3不 = 4不 = 5sm-LSTM-att 在两个数据集上的表现始终优于 sm-LSTM-mean当只利用上下文信息而不使用注意力方案时，sm-LSTM-ctx的结果比sm-LSTM差得多。2)使用全局上下文来调节注意力过程是非常有用的，因为sm-LSTM在所有评估标准方面都大大优于sm-LSTM-att。3)四个sm-LSTM变体作为sm-LSTM变体的集合可以进一步提高性能。4.4. 时间步数分析对于一对图像和句子，我们需要在sm-LSTM中手动设置时间步长T的数量。理想情况下，T应该等于图像和句子中出现的显著成对实例的数量。因此，sm-LSTM可以在T步内单独处理这些成对的实例，以测量所有的局部相似性。为了研究什么是最佳的时间步数，在下文中，我们逐渐将T从1增加到5，并在表3中分析不同时间步数对sm-LSTM性能的影响。从表中我们可以观察到，当时间步数为3时，sm-LSTM可以达到最佳性能。实验表明，该算法通过对图像和句子进行3次迭代访问，就能捕获到所有的局部相似性信息。直觉上，大多数图像和句子对通常包含大约3个相关实例。注意，当T变得大于3时，性能略微下降。这是因为一个过于复杂的表4. 平衡参数的不同值对Flick30k数据集的影响。λ：结构化目标和正则化项之间的平衡参数。图像标注图像检索R@1R@5R@10R@1R@5R@10λ= 037.938.038.442.440.265.866.267.467.567.177.777.877.779.978.627.227.427.528.227.855.455.656.157.056.967.667.767.668.467.9λ= 1λ= 10λ= 100λ= 1000网络倾向于通过在额外的时间步关注冗余实例来过度拟合训练数据4.5. 正则化项的评价在我们的实验中，我们发现所提出的sm-LSTM倾向于在所有时间步关注同一个实例，这可能是因为总是选择信息量最大的实例可以在很大程度上避免错误。但是，我们的模型并不能全面地感知图像和句子中的全部内容。因此，我们将成对双随机正则化项（在等式7中）添加到结构化目标，目的是迫使模型同等关注不同位置处的所有潜在实例。我们将平衡参数λ的值从0变化到1000，并在表4中比较相应的性能。从表中我们可以发现，当λ>0时，性能会提高，这证明了关注更多实例的有用性。此外，当λ=100时，sm-LSTM可以实现最大的性能提升，特别是对于图像注释任务。4.6. 实例感知显著图为了验证所提出的模型是否可以在不同的时间步选择性地关注图像和句子的显着成对实例，我们通过sm-LSTM可视化预测的序列实例感知显着性图，如图4所示。特别是对于图像，我们调整预测-将第t个时间步长{pt，i}处的显著性值设置为相同草地上有停车标志和禁止进入标志。一群人正在观看航空展上的飞机。一架飞机，在天空中飞翔人们正登上一辆城市公共汽车.2318(a) 输入图像（b）没有全局上下文（通过sm-LSTM-att）（c）有全局上下文（通过sm-LSTM）图5.在三个不同的时间步，分别在没有或有全局上下文的情况下（最好用颜色查看大小与其对应的原始图像相同，从而在调整大小后的图中的每个值测量在相同位置处的图像像素的重要性。然后，我们在调整大小的显著性图和原始图像之间执行元素乘法，以获得最终的显著性图，其中较亮的区域表示关注的实例。而对于句子，由于不同的句子有不同的长度，我们简单地在每个时间步对应于前2个最高显著性cy值{qt，j}。我们可以看到，sm-LSTM可以分别在图像和句子中的不同时间步长关注不同的区域和单词。大多数参与的区域和词对描述相似的语义概念。以最后一对图像和句子为例，sm-LSTM顺序地关注单词：“人”、“飞机”和“空气”三个不同时间步长的图像，以及对应的图像区域，表示相似的含义。4.7. 全球背景为了定性地验证使用全局上下文的有效性，我们比较了图5中sm-LSTM-att和sm-LSTM生成的图像的实例感知显着性图。在没有全局上下文的帮助下，sm-LSTM-att无法像sm-LSTM那样生成准确的动态显着图。特别地，它不能很好地注意到语义上有意义的实例，例如分别在第一和第二图像中的此外，sm-LSTM-att总是在前两个步骤中完成对突出实例的关注，并且不再关注第三个时间步的有意义实例。与之不同的是，sm-LSTM在所有三个时间步上都关注更突出的实例。这些证据表明，全局上下文调制可以帮助更准确的实例选择。在图6中，我们还计算了sm-LSTM在三个不同时间步长下所有测试图像的平均显着图（重新缩放为500×500的相同大小）。我们可以看到，所提出的sm-LSTM在统计上倾向于在第一时间步集中在中心区域，这是一致的。在人类视觉注意力研究中观察到的“中心偏差”[33，3]。这主要归因于显著事件多出现在中部地区(a) 第一时间步长 (b)第二时间步长 (c)第三时间步长图6.三个不同时间步的平均显着图的图像。请注意，模型还关注其他两个时间步的周围和较低区域，目标是找到不同位置的各种实例。5. 结论和未来工作在本文中，我们提出了用于实例感知图像和句子匹配的选择性多模态长短期记忆网络（sm-LSTM）。我们的主要贡献是提出了一个多模态上下文调制注意力方案，用于从图像和句子中选择突出的成对实例，以及一个多模态LSTM网络用于局部相似性测量和聚合。我们系统地研究了在attentional过程中的全局上下文调制，并证明了它的有效性与显着的性能改善。我们已经将我们的模型应用到图像标注和检索的任务，并取得了最先进的结果。在未来，我们将探索上下文调制的更高级实现（在等式2中）。我们还将考虑用一种新的递归卷积网络[13]取代使用的全连接RNN，以更好地对图像中的结构内容进行建模，并减少计算负担。确认本课题得到了国家重点研究发展计划（ 2016YFB1001000 ）、国家自然科学基金（61525306、61633021、61572504、61420106015）、中国科学院战略重点研究计划（2016YFB1001000）的资助（ XDB 02070100 ）和北京市自然科学基金（4162058）。这项工作还得到了NVIDIA和NVIDIADGX- 1 AI超级计算机的资助。2319引用[1] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。2015年，国际会议[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器见ICLR，2014年。[3] M. 宾德曼场景和屏幕中心在观看场景时使早期眼动产生视觉研究，2010年。[4] X. Chen和C.劳伦斯·齐尼克。MindCVPR，2015。[5] M. M. Chun和Y.蒋基于视觉协变内隐学习的自上而下注意引导《心理科学》，1999年。[6] M.- C. De Marneffe湾麦卡特尼角D. Manning等人从短语结构分析生成类型化依赖分析。LREC，2006年。[7] 多纳休湖Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期回流卷积网络CVPR，2015。[8] H. Fang，S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。米切尔，J。C. Platt，etal.从标题到视觉概念再到后面。CVPR，2015。[9] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。在NIPS，2013年。[10] S. 戈什岛维尼亚尔斯湾 Strope，S. Roy，T. 迪安和L.见鬼大规模自然语言处理任务的上下文lstm模型。arXiv：1602.06291，2016年。[11] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。[12] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。[13] Y.黄，W. Wang和L.王.用于多帧超分辨率的双向递归卷积网络。2015年，在NIPS[14] Y.黄，W. Wang和L.王.无约束多模态多标记学习。IEEE TMM，2015年。[15] Y.黄，W.王湖，加-地Wang和T. Tan.一种有效的基于扩展站点熵率的区域显著性模型国际公民权利委员会，2012年。[16] A.卡帕西A. Joulin和F.- F.李用于双向图像句子映射的深度片段在NIPS，2014。[17] A. Karpathy和F. F.李用于生成图像描述的深度视觉语义对齐。CVPR，2015。[18] R.基罗斯河Salakhutdinov和R. S.泽梅尔统一视觉语义嵌入与多模态神经语言模型。TACL，2015年。[19] R. Kiros，Y.朱河，巴西-地R. 萨拉胡季诺夫河泽梅尔河乌尔塔孙A. Torralba和S.菲德勒跳过思维向量。2015年，在NIPS中。[20] B. Klein、G. Lev，G. Sadeh和L.狼使用Fisher向量将神经词嵌入与深度图像表示相关联。CVPR，2015。[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。[22] G. Lev，G. Sadeh湾Klein和L.狼用于动作识别和图像标注的Rnn fisher向量在ECCV，2016年。[23] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在ECCV。2014年[24] L. 妈Z。卢湖，加-地Shang和H.李用于图像和句子匹配的多模态在ICCV，2015年。[25] J. 毛，W。Xu，Y.杨，J.Wang和A.L. 尤尔。用多模态递归神经网络解释图像2015年，国际会议。[26] T. Mikolov，K. Chen，G. Corrado，J。Dean.向量空间中词表示的有效估计。InICLR，2013.[27] A. Oliva和A.托拉尔巴语境在物体再认中的作用《认知科学趋势》，2007年。[28] F. Perronnin和C.跳舞吧基于Fisher核的视觉词汇图像分类。CVPR，2007。[29] B.普卢默湖Wang，C.塞万提斯Caicedo，J. Hockenmaier和S. Lazebnik Flickr30k实体：收集区域到短语的对应关系，以获得更丰富的图像到句子模型。在ICCV，2015年。[30] M. Schuster和K.K. 帕利瓦双向递归神经网络。IEEETransactions on Signal Processing，1997。[31] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。见ICLR，2014年。[32] R. Socher，A.Karpathy，Q.诉勒角，澳-地D. Manning和A.Y. Ng.用于用句子寻找和描述图像的扎根组合语义。TACL，2014年。[33] P. - H.曾河卡米岛G. Cameron，D. P. Munoz，以及L.伊蒂动态自然景物自由观察中观察者中心偏差的量化。视觉杂志，2009年。[34] I.文德罗夫河Kiros、S. Fidler和R.乌塔松顺序-图像和语言的嵌入。ICLR，2016年。[35] O. Vinyals，A. Toshev，S. Bengio和D.二汉Show andtell：A neural image caption generator. CVPR，2015。[36] L. Wang，Y. Li和S. Lazebnik学习深度结构保持图像-文本嵌入。在CVPR，2016年。[37] W. Wang，C.Chen，Y.Wang，T.Jiang，F.Fang和Y.耀在自然图像上模拟人类扫视扫描路径。CVPR，2011。[38] W. Wang，Y.王，英-地Huang和W.高. 用网站熵率测量视觉CVPR，2010。[39] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡特-迪诺夫河S. Zemel和Y.本吉奥。显示、出席和讲述：具有视觉注意的神经图像字幕生成。InICML，2016.[40] F. Yan和K.米科莱奇克用于匹配图像和文本的深度相关。CVPR，2015。[41] P. Young，A.赖，M。Hodosh和J.霍肯迈尔从图像描述到视觉表示：基于事件描述的语义推理的新

下载后可阅读完整内容，剩余1页未读，立即下载