多级多模态共同语义空间用于图像短语定位

162 浏览量更新于2023-10-18 收藏 12.42MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

{ha2436,sk4089,sb4019,bc2754,cv2428,sc250}@columbia.edu1https://github.com/hassanhub/MultiGrounding1124760多级多模态共同语义空间用于图像短语定位0Hassan Akbari，Svebor Karaman，Surabhi Bhargava，BrianChen，Carl Vondrick和Shih-Fu Chang0哥伦比亚大学，纽约，美国0摘要0我们通过学习一个由文本和视觉模态共享的多级共同语义空间来解决短语定位问题。我们利用深度卷积神经网络的多个层次的特征图，以及从基于字符的语言模型中提取的上下文化的单词和句子嵌入。在每个层次的视觉特征、单词和句子嵌入上进行专门的非线性映射后，我们得到了多个我们的共同语义空间的实例，其中任何目标文本与视觉内容之间的比较都是通过余弦相似度进行的。我们通过多级多模态注意机制引导模型，在每个层次输出关注的视觉特征。选择最佳层次与文本内容进行比较，以最大化地面实况图像-句子对的相关性得分。在三个公开可用的数据集上进行的实验证明，与短语定位的最新技术相比，我们的方法取得了显著的性能提升（相对提升20%-60%），并在这些数据集上创造了新的性能记录。我们提供了详细的消融研究，以展示我们方法的每个要素的贡献，并在GitHub上发布了我们的代码1。01. 引言0短语定位[39,32]是在图像中定位给定自然语言输入短语的任务，如图1所示。将文本和图像内容联系起来的能力是许多视觉语义任务的关键组成部分，例如图像字幕[10, 21, 18]，视觉问答[2, 30, 48, 52,11]，基于文本的图像检索[12,40]和机器人导航[44]。这是一项具有挑战性的任务，因为它需要对视觉和文本领域进行良好的表示，并有效地将它们联系起来。在视觉方面，大多数工作利用深度卷积神经网络，但通常依赖于边界框提案[39, 42,15]或使用图像的全局特征[10]，限制了方法的定位能力和自由度。在文本方面，方法依赖于封闭的词汇表，或者尝试使用小型图像-字幕对数据集来训练自己的语言模型[17, 59, 53,9]。最后，两种模态之间的映射通常采用弱线性策略[39,51]。我们认为，文献中的方法没有充分利用最近开发的更强大的视觉和文本模型的潜力，还有开发更复杂的表示和映射方法的空间。在这项工作中，我们提出了明确学习视觉和文本模态到一个共同空间的非线性映射，对于每个领域都以不同的粒度进行。实际上，深度网络的不同层次逐渐增加的区域编码了图像的不同区域，具有逐渐增加的区分性和上下文意识，类似地，单词和整个句子包含逐渐增加的语义含义和上下文。这种共同空间映射在弱监督下进行训练，并在测试时利用多级多模态注意机制，其中在每个层次计算注意力热图、关注特征和相关性评分的自然形式使我们能够优雅而有效地解决短语定位任务。我们在文本定位的文献中使用了三个常用数据集对我们的模型进行评估，并展示了它以较大的优势创造了新的最先进性能。0一群旁观者在田野上观看一位农民辛勤工作的拖拉机车队0图1.在指向游戏设置中的短语定位任务。给定顶部的句子和左侧的图像，目标是指向（这里用星星表示）每个自然语言查询（彩色文本）的正确位置。在Flickr30k上的实际示例中，我们的方法的结果。0提案[39, 42,15]或使用图像的全局特征[10]，限制了方法的定位能力和自由度。在文本方面，方法依赖于封闭的词汇表，或者尝试使用小型图像-字幕对数据集来训练自己的语言模型[17, 59,53,9]。最后，两种模态之间的映射通常采用弱线性策略[39,51]。我们认为，文献中的方法没有充分利用最近开发的更强大的视觉和文本模型的潜力，还有开发更复杂的表示和映射方法的空间。在这项工作中，我们提出了明确学习视觉和文本模态到一个共同空间的非线性映射，对于每个领域都以不同的粒度进行。实际上，深度网络的不同层次逐渐增加的区域编码了图像的不同区域，具有逐渐增加的区分性和上下文意识，类似地，单词和整个句子包含逐渐增加的语义含义和上下文。这种共同空间映射在弱监督下进行训练，并在测试时利用多级多模态注意机制，其中在每个层次计算注意力热图、关注特征和相关性评分的自然形式使我们能够优雅而有效地解决短语定位任务。我们在文本定位的文献中使用了三个常用数据集对我们的模型进行评估，并展示了它以较大的优势创造了新的最先进性能。124770本文的贡献如下：0•我们通过弱监督学习了将视觉和文本特征非线性映射到一个共同的区域-词-句语义空间，其中任意两个语义表示之间的比较可以通过简单的余弦相似性进行；0•我们提出了一种多层次多模态注意机制，可以在不同的语义层次上产生词级或句级的注意力图，使我们能够在不同的语义层次中选择最具代表性的注意视觉特征；0•我们在三个常用数据集上取得了最新的最佳性能，并给出了详细的消融结果，展示了我们方法的每个部分对最终性能的贡献。02. 相关工作0在本节中，我们概述了文献中的相关工作，并讨论了我们的方法与它们的不同之处。02.1. 在图像中进行自然语言定位0解决文本定位问题的最早工作[ 39 , 42 ,015 ]通过从预先指定的模型中获得的一组提议中找到正确的边界框来尝试解决这个问题，通常使用重建[ 42 ]或句子生成[ 15]过程中估计的分数或在公共空间中的距离来执行这些提议的排名。然而，依赖于一组固定的预定义概念和提议可能不是最优的，边界框的质量定义了可以达到的性能上限[ 15 , 46]。因此，一些方法[ 6 , 61]在其框架中集成了提议步骤以改善边界框的质量。这些工作通常在完全监督的设置中运行[ 5 , 53 , 57 , 11 , 6]，其中在训练时必须提供句子和边界框之间的映射，但这并不总是可用的，并且收集起来代价高昂。此外，基于边界框的方法通常分别提取每个边界框的特征[ 15 , 4 , 46]，导致计算成本高。因此，一些工作[ 41 , 17 , 59 , 47 ,54]选择不依赖边界框，并提出将定位问题形式化为查找指代表达式的空间热图。这种设置主要是弱监督的，在训练时只提供图像和文本（描述整个图像或其中的某些部分），而不提供每个描述的相应边界框或分割掩码。这是我们在本文中要解决的更一般的设置。自上而下的方法[ 41 , 59]和基于注意力的方法[ 17]学习为词汇表中的每个单词生成热图。0在测试时，所有这些方法通过对查询中存在于词汇表中的所有单词的热图进行平均来产生最终的热图。一些定位工作还探索了使用其他知识，如图像[ 46 ]和语言[ 47 , 38]结构，短语上下文[ 5 ]和利用预训练的视觉模型预测[ 4 ,54]。与文献中的许多工作相比，我们的方法不使用预定义的图像概念或单词。相反，我们依赖于视觉特征图和基于字符的语言模型与上下文化的嵌入，可以处理任何上下文中的未知单词。02.2. 将其映射到公共空间0将视觉和语言特征独立提取并在预测之前融合是一种常见的方法[ 9 , 4 , 6]。当前的工作通常应用多层感知机（MLP）[ 6 , 4]，逐元素乘法[ 14 ]或余弦相似性[ 9]来组合来自不同模态的表示。其他方法使用规范相关分析（CCA）[ 38 , 39]，它找到最大化两个异构数据视图的投影向量之间的相关性的线性投影。[ 11]引入了多模态紧凑双线性（MCB）池化方法，它使用来自视觉和语言特征的两个向量的外积的压缩特征来融合它们。注意力方法[ 51 , 34]还可以测量图像-句子特征对的匹配程度。我们分别使用非线性映射来学习视觉特征（在多个语义层次上）和文本嵌入（包括上下文化的单词和句子嵌入），并使用多层次注意力和多模态损失来学习这些映射权重。02.3. 注意机制0注意机制在许多视觉和语言任务中已经证明了其有效性[23,1, 7, 52,50]，它旨在基于它们的相互作用捕捉图像-句子对的更好表示。累积注意力方法[8]提出以迭代的方式估计句子、对象和视觉特征图的注意力，在每次迭代中，利用其他两种模态的注意力作为引导。[34]中探索了一种密集的共同注意机制，通过在视觉和语言表示之间使用完全对称的架构来解决视觉问答任务。在他们的注意机制中，当模型不需要关注任何区域或单词时，他们在注意力图中添加一个虚拟位置以及一个softmax。AttnGAN[51]提出了一个深度注意力多模态相似性模型，用于计算细粒度的图像-文本匹配损失。与这些工作相比，我们去掉了注意力图顶部的softmax，让模型决定哪个单词-区域可能相互关联。124780文本模型0输入 S: 句子0文本非线性映射0视觉非线性映射0输入 I: 图像0视觉模型0多层次注意机制0特征层级选择0相关性分数0图2.我们方法的概述：文本输入经过预训练的文本模型处理，然后进行非线性映射到共同的语义空间。对于图像输入，我们使用预训练的视觉模型提取多层次的视觉特征图，并为每个特征图学习非线性映射到共同的语义空间。多层次注意机制后跟特征层级选择产生图像和句子之间的相关性分数。我们只使用图像-句子对的弱监督来训练我们的模型。0多模态损失。由于我们将视觉特征映射到多层次的视觉表示，我们使模型可以自由选择任何层级的任何位置来处理句子或单词。换句话说，每个单词或句子可以选择要关注的表示的哪个层级（以及该表示中的哪个区域）。我们直接通过余弦相似度在我们的共同语义空间中计算注意力图。我们展示了这种方法在三个常用数据集上明显优于所有现有方法，并取得了新的最佳性能。03. 方法0在本节中，我们描述了我们的方法（如图2所示）来解决文本 grounding任务，并详细介绍了每个部分。在第3.1节中，我们解释了如何从图像中提取多层次的视觉特征以及从文本中提取词/句子嵌入，然后描述了如何将它们映射到一个共同的空间。在第3.2节中，我们描述了如何计算多层次的多模态注意力图和每个词/句子的注意力视觉特征。然后，在第3.3节中，我们描述了如何选择给定文本的最具代表性的视觉特征层级。最后，在第3.4节中，我们定义了一个多模态损失来使用弱监督训练整个模型。03.1. 特征提取和共同空间0视觉特征提取：与许多视觉任务不同，我们不仅使用预训练CNN的最后一层作为图像的视觉表示，还使用来自不同层的特征图并将它们分别映射到一个共同的空间，以获得一组多层特征图，用于与文本进行比较。直观地说，使用不同的层级0对于涵盖广泛的视觉概念和模式，需要多种视觉表示[26,55,58]。因此，我们从视觉网络的L个不同层级中提取L=4组特征图，通过双线性插值2将它们上采样到固定分辨率M×M，然后应用3层1x1卷积（使用LeakyRelu[31]）将它们映射到相同大小的特征图。最后，我们堆叠这些特征图并对它们进行空间展平，得到整体图像表示张量V∈RN×L×D，其中N=M×M。最后，通过其最后一个维度的l2-范数对该张量进行归一化。图3的左侧部分展示了图像的特征提取和共同空间映射的概述。在这项工作中，我们使用VGG [43]作为基准，以便与其他工作[10, 47,17]进行公平比较，并使用最先进的CNN模型PNASNet-5[29]来研究我们的模型利用这个更强大的视觉模型的能力。0文本特征提取：在基于 grounding的最新研究中，使用了各种方法进行文本特征提取。有些使用在大型数据集上预训练的LSTM或BiLSTM（例如Google1 Billion [3]），基于word2vec [33]或GloVe[36]表示。有些仅在图像-标题数据集上训练BiLSTM，并认为从头开始训练是必要的，以区分在语言中可能无法区分的视觉概念（例如，红色和绿色在视觉上是不同的，但在语言上是相似的，因为它们都是颜色）[34，51，17，47，9，14，61，39，57，8]。这些工作使用循环网络在每个状态的输出作为单词级表示，或者使用它们的最后输出（对于BiLSTM的每个方向）作为句子级表示，或者两者的组合。然而，在本文中，我们使用ELMo[37]，这是一个在55亿个标记上预训练的3层网络，它可以实时计算单词表示（基于字符的CNN，类似于[19，60]），然后将它们输入到2层BiLSTM中，产生上下文表示。因此，对于给定的句子，模型为每个标记输出三个表示（由空格分隔）。我们对这三个表示进行线性组合，并将它们输入到2个全连接层（在单词之间共享权重），每个层具有D个节点，每个层之间使用LeakyRelu作为非线性激活函数，以获得每个单词的表示st（图3右侧的绿色路径）。整个句子的结果基于单词的文本表示将是一个张量S ∈ RT ×D，由每个单词表示st的堆叠构建。句子级文本表示通过连接每个方向的BiLSTM的最后输出来计算。类似地，我们对两个句子级表示进行线性组合，并通过将其输入到2个全连接层将其映射到共同空间。02作为转置卷积会产生棋盘状伪影[35]………………̅Hn,t,l = max(0, ⟨st, vn,l⟩).(1)at,l =�Nn=1 Ht,n,lvn,l��Nn=1 Ht,n,lvn,l��2,(2)Rt,l = ⟨at,l, st⟩.(3)Rt = maxlRt,l.(4)124790卷积块0降维块0视觉非线性映射0视觉特征图 ∈ � #�#�%0�'01x1卷积（3倍）调整尺寸0输入I：图像0调整尺寸0�（01x1卷积（3倍）0调整尺寸0�）01x1卷积（3倍）0视觉模型0BiLSTM 10ELMo0输入S：T个单词的句子0T个单词的嵌入0BiLSTM 20FC层（2倍）0句子特征�� ∈ � &0线性组合0FC层（2倍）（逐词）0单词特征�� ∈ � &0线性组合0文本非线性映射0图3.左：我们选择CNN模型的不同卷积块的特征图，使用双线性插值将它们调整为相同的空间尺寸，并将它们映射到相同尺寸的特征图。右：从预训练的ELMo[37]模型中将单词和句子嵌入到共同空间中。绿色路径用于单词嵌入，红色路径用于句子嵌入。所有橙色框（视觉映射的1×1卷积层、线性组合和文本映射的两组全连接层）都是我们投影到共同空间的可训练参数。0D个节点，产生句子表示s（图3右侧的红色路径）。在输入到多模态注意力块之前，单词张量和句子向量通过它们的最后一维进行l2范数归一化。03.2. 多层多模态注意力机制0给定图像和句子，我们的任务是估计图像中不同层级（l）的空间区域（n）与句子中不同位置（t）的单词之间的对应关系。我们试图通过在共同空间中的不同层级上的单词和图像区域表示之间的余弦相似度来估计这种对应关系：0因此，H ∈ R N × T × L表示一个多级多模态注意图，可以简单地用于计算视觉或文本的出席表示。我们对注意图应用ReLU函数，将不相似的单词-视觉区域对置零，并且避免在热图张量的任何维度上应用softmax函数。请注意，这个选择在精神上与通常使用softmax函数的注意图的方法非常不同[50，49，8，34，17，51，41]。事实上，对于不相关的图像-句子对，注意图几乎都是零，而softmax过程总是强制注意力成为一个分布，使得图像/单词之和为1。此外，一个形成短语的单词组可能具有相同的注意区域，这在应用softmax函数于热图时很难实现。我们将在我们的消融研究中通过实验证明这个选择的影响。0给定热图张量，我们计算第l个级别和第t个单词的出席视觉特征为0这基本上是在视觉表示的第l个级别上的加权平均，权重为注意力热图的值。换句话说，a t,l是共同空间中一组视觉表示所张成的超平面上的一个向量，该组是基于热图张量进行选择的。我们的多级多模态注意机制的概述可以在图4中看到，用于计算出席的视觉特征。接下来，我们描述如何使用这个出席特征来选择最具代表性的超平面，并计算一个多模态损失，通过弱监督的图像-句子相关性标签进行最小化。03.3. 特征级别选择0一旦我们找到出席的视觉特征，我们使用余弦相似度计算第l个级别上的单词-图像相关性得分，其中每个单词和出席的视觉特征为0直观地，每个视觉特征图层可能携带不同的语义信息，因此对于每个单词，我们建议应用硬级别注意力来获取最多贡献的级别的得分0这个过程可以看作是在由视觉特征张成的超平面上找到文本嵌入的投影Attention mechanism for each level 𝒍 for word feature 𝒔𝒕𝒔𝒕𝒔𝒕𝒂𝒌,𝒕𝑹𝒌,𝒕𝒔𝒕𝒂𝒎,𝒕𝑹𝒎,𝒕𝒔𝒕𝒂𝒑,𝒕𝑹𝒑,𝒕𝑹𝒕 = 𝐦𝐚𝐱𝒍𝑹𝒍,𝒕𝑯𝒍,𝒕𝑽𝒍𝒂𝒍,𝒕Rw(S, I) = log�� T −1�t=0exp (γ1Rt)�1γ1 �.(5)Hsn,l = max(0, ⟨¯s, vn,l⟩)(6a)asl =N�n=1Hsn,lvn,l(6b)Rs,l = ⟨asl ,¯s⟩(6c)Rs(S, I) = maxlRs,l(6d)Px(Sb|Ib) =exp(γ2Rx(Sb, Ib))Bb′ exp(γ2Rx(Sb′, Ib))(7)Px(Ib|Sb) =exp(γ2Rx(Sb, Ib))Bb′ exp(γ2Rx(Sb, Ib′))(8)Lx = −B�b=1�log Px(Sb|Ib) + log Px(Ib|Sb)�(9)L = Lw + Ls.(10)124800特征级别选择0由共同空间中的视觉特征所张成的超平面空间0掩蔽平均池化0余弦相似度0视觉非线性映射0文本非线性映射0图4. 对于每个单词特征 s t ，我们计算每个级别 l 的注意图 H l,t和出席的视觉特征 a l,t。我们选择最大化出席的视觉特征与共同空间中的文本特征之间的相似度的级别，以产生相关性得分 R t。这等价于找到最佳匹配文本特征的超平面（由共同空间中每个级别的视觉特征向量所张成）。0从不同的层级中选择最大化这个投影的那个。直观地，选择最大相关性得分等价于选择与第t个单词表示的超平面夹角最小（或者是出现在出席的视觉特征和文本特征之间的相似度最高）的超平面。因此，选择最具代表性的超平面（或视觉特征层级）。一旦我们找到最佳的单词-图像相关性得分，类似于[51]并受到最小分类错误[20]的启发，我们计算整体（基于单词的）句子-图像相关性得分如下：0同样，对于句子，我们可以重复相同的过程（除了我们不再需要方程（5））来找到注意力图、注意力图中的视觉特征和句子-图像相关性得分，分别如下所示：03.4. 多模态损失0在本文中，我们只使用了一种弱监督形式的二元图像-标题相关性。因此，类似于[ 10 , 16 , 51]，我们在一批图像-标题对 { ( S b , I b ) } B b =1上训练网络，并强制使其对相关对具有高的句子-图像相关性得分，对不相关对具有低的得分。因此，考虑到相关性得分 R x （无论是 R w 还是 R s），我们通过在整个批次中的所有句子之间进行竞争来计算句子 S b 与图像 I b 匹配的后验概率：0同样，可以使用以下方式计算图像 I b 与句子 S b匹配的后验概率：0然后，类似于[ 10 , 51]，我们可以使用负对数后验概率定义损失，如下所示：0由于我们想要为单词和句子训练一个共同的语义空间，所以我们将基于单词相关性 R w 计算的损失 L w和基于句子相关性 R s 计算的损失 L s结合起来，定义我们的最终损失 L 为0这个损失是在一批 B图像及其相关句子上最小化的。我们在预实验中发现，γ 1= 5 , γ 2 = 10的值效果很好，我们在实验中保持这些值不变。在下一节中，我们将在不同的数据集上评估我们提出的模型，并进行消融研究，以展示我们在模型中的选择原因。04. 实验0在本节中，我们首先介绍了我们实验设置中使用的数据集。然后，我们将我们的方法与最先进的方法进行比较，并进行消融研究，展示我们方法的每个步骤的影响。04.1. 数据集0MSCOCO 2014 [ 27 ]包含82,783张训练图像和40,504张验证图像。每个图像都有五个描述该图像的标题。我们使用该数据集的训练集进行模型训练。TD [59]Inception-2VG19.3142.4031.97SSS [17]VGGVG30.0349.1039.98CGVS [41]Inception-3MSR-VTT-50.10-FCVC [10]VGGMSCOCO14.0329.0333.52VGLS [47]VGGMSCOCO24.40--124810测试准确率0方法设置训练 VG Flickr30k ReferIt0基线随机 - 11.15 27.24 24.300基线中心 - 20.55 49.20 30.400我们的BiLSTM+VGG VG 50.18 57.91 62.760我们的ELMo+VGG VG 48.76 60.08 60.010我们的ELMo+PNASNet VG 55.16 67.60 61.890我们的BiLSTM+VGG MSCOCO 46.99 53.29 47.890我们的ELMo+VGG MSCOCO 47.94 61.66 47.520我们的ELMo+PNASNet MSCOCO 52.33 69.19 48.420表1.在Flickr30k、ReferIt和VisualGenome（VG）上与最先进方法相比的短语本地化准确率（指向游戏）。0Flickr30k Entities[39]包含224k个短语，描述了�31k张图片中的局部边界框，每个边界框由5个标题描述。图片和标题来自Flickr30k[56]。我们使用该数据集的测试集中的1k张图片进行评估。0VisualGenome[25]包含77,398张训练集图片，以及每个边界框关联的多个边界框注释和区域描述。我们使用该数据集的训练集来训练我们的模型，并使用其测试集进行评估。0ReferIt由来自IAPRTC-12数据集[13]的20,000张图片以及来自SAIAPR-12数据集[6]的99,535个分割图像区域组成。图片与整个图像以及局部图像区域的描述相关联，这些描述是在一个双人游戏中收集的[22]，提供了约130k个孤立实体描述。在我们的工作中，我们只使用与每个区域相关联的唯一描述。我们使用类似于[15]的划分，其中包含9k个训练图片，1k个验证图片和10k个测试图片。我们使用该数据集的测试集来评估我们的模型。04.2. 实验设置0我们使用批量大小B =32，其中对于一批图像-标题对，每个图像（标题）仅与一个标题（图像）相关联。图像-标题对是随机采样的，服从均匀分布。我们使用Adam优化器[24]训练网络20个时期，学习率lr =0.001，在第10个时期和第15个时期分别将学习率除以2。我们使用D = 1024作为公共空间映射维度，α =0.25作为非线性映射中的LeakyReLU。我们使用l2正则化对映射的权重进行正则化，reg value =0.0005。对于VGG，我们从{conv4 1、conv4 3、conv51、conv53}获取输出，并将其映射到维度为18×18×1024的语义特征图，对于PNAS-Net，我们从{Cell 5、Cell 7、Cell 9、Cell11}获取输出。0指向游戏准确率注意力正确性0[41]我们的方法我们的方法[41]我们的方法我们的方法0Class Inc.3 VGG PNAS Inc.3 VGG PNAS0身体部位 0.194 0.408 0.449 0.155 0.299 0.3730动物 0.690 0.867 0.876 0.657 0.701 0.8260人物 0.601 0.673 0.756 0.570 0.562 0.7240乐器 0.458 0.286 0.575 0.502 0.297 0.5550车辆 0.645 0.781 0.838 0.615 0.554 0.7380场景 0.667 0.685 0.682 0.582 0.596 0.6390其他 0.427 0.502 0.598 0.348 0.424 0.5350服装 0.360 0.472 0.583 0.345 0.330 0.4730平均 0.501 0.617 0.692 0.473 0.508 0.6390表2. Flickr30kEntities上的按类别划分的指向游戏准确率和注意力正确性。0并将其映射到维度为19×19×1024的特征。在训练期间，视觉和文本网络的权重都是固定的，只有公共空间映射的权重是可训练的。在消融研究中，我们使用10个时期而不是分割学习率，其他设置保持不变。我们遵循[17, 18, 39,47]中的相同程序来清理和预处理数据集，并在评估中使用相同的训练/测试划分进行公平比较。04.3. 短语本地化评估0如第4.1节所述，我们在MSCOCO和VisualGenome（VG）的训练集上训练我们的模型，并在Flickr30k、ReferIt和VG的测试集上进行评估。在测试时，对于Flickr30k，我们将完整的句子输入模型，并根据来自Eq.（4）的词-图像相关性分数的权重，对每个查询的词的注意力热图进行加权平均。对于ReferIt和VisualGenome，我们将每个查询视为一个单独的句子，并将其句子级注意力热图作为最终的查询指向热图。计算完指向热图后，我们找到最大位置（作为给定查询的指向位置），并通过指向游戏准确率来评估模型：#命中0# 命中 +# 未命中。指向游戏准确率结果可见表10对于Flickr30k、ReferIt和VisualGenome数据集，我们的方法在所有条件和所有数据集上明显优于所有最先进的方法。为了与[17, 10,47]进行公平比较，我们使用了一个VGG16视觉模型，并用一个可训练的单向LSTM替换了ELMo的预训练双向LSTM层。这个模型（BiLSTM+VGG）在VisualGenome上的指向游戏准确率绝对提高了20.15%，在Flickr30k上提高了7.81%，在ReferIt上提高了23.28%，相对提高分别为67.09%，15.59%和56.98%。使用更近期的PNASNet模型，结果更好，特别是对于Flickr30k和VisualGenome。为了更深入地了解我们的模型，我们首先在表2中报告了按类别的指向游戏准确率和注意力正确性[28]（热图落在真实边界框内的百分比），并与最先进的方法进行了比较1 / Cell 52.610.47.50.92.05.45.45.36.30.72 / Cell 70.12.04.20.01.72.50.90.32.50.053 / Cell 985.948.464.688.668.349.570.986.166.586.514 / Cell 1111.439.223.710.527.942.622.88.324.712.71✓✓✓MLML67.73124820一个穿着红色衣服的男人正在推着他的越野摩托车爬上一块岩石0图5. 来自Flickr30k的图像-句子对，包含四个查询（彩色文本）和相应的热图和选定的最大值（星号）0选择率（%）0层级 /PNASNet层级0身体部位0动物0人0仪器0车辆0场景0其他0服装0平均0句子0表3. PNASNet在Flickr30k不同类别上的不同层级选择率0在Flickr30k上与最先进的方法[41]进行比较。我们观察到，即使使用VGG16作为视觉主干，我们的方法在几乎所有类别上都获得了更高的性能。基于PNASNet的模型在两个指标上始终优于所有类别的最先进方法。我们进一步对不同类型查询的层级选择率进行了测试，并在表3中报告了结果。结果显示，第三层级在选择中占主导地位，而第四层级对于场景和动物等几个类别也很重要。第一层级主要用于动物和人类类别。完整句子的选择主要依赖于第三层级，但对于某些句子，第四个模型也被选择。这证明了所提方法在选择正确的表示层级方面的能力04.4. 消融实验0在本节中，我们使用PNASNet视觉模型对我们的方法的多个配置进行了训练，以更好地了解我们的方法的哪些方面对性能产生了积极或消极的影响。我们在表4中报告了在Flickr30k上的评估结果。结果按性能排序，以显示最成功的组合。我们首先评估了使用多层级特征图（ML）与层级选择相比于固定选择的视觉层级（M：中间层，L：最后一层）与词和句子嵌入（WL和SL）进行比较的效果。具体来说，我们使用Cell 7作为中间层，Cell11作为最后一层，与公式（1）和公式（6a）中的词和句子嵌入进行比较。第1行和第2行的结果表明，基于多层级特征图的层级注意机制相对于单一的视觉-文本特征比较显著地提高了性能0SA ELMo NLT NLV WL SL 准确率02 � � � M L 62.6703 � � ML ML 61.1304 � � M L 58.4005 � � M L 56.9206 � � M L 56.4207 � M L 54.7508 � � � � M L 47.2009 � M L 44.830表4. 使用PNASNet在Flickr30k上的消融研究结果。SA: SoftmaxAttention; NLT: 非线性文本映射; NLV: 非线性视觉映射; WL: 词层;SL: 句子层; Acc.: 指向游戏准确率。0然后我们研究了将文本和视觉特征进行非线性映射（NLT和NLV）对共同空间的影响。通过比较行2、4、5、7，我们可以看到非线性映射在我们的模型中非常重要，用线性映射替换任何映射都会显著降低性能。我们还可以看到非线性映射在视觉方面更为重要，但最好的结果是通过同时使用文本和视觉的非线性映射获得的。我们进一步研究了使用ELMo进行文本嵌入或使用训练Bi-LSTM的常用方法。具体来说，我们简单地用可训练的BiLSTM（在ELMo的词嵌入之上）替换了ELMo模型的预训练BiLSTM，并直接将BiLSTM的输出馈送到注意力模型中。行1、3和2、6的结果显示了使用强大的上下文化文本嵌入的重要性，因为性能显著下降。我们还研究了在热图上应用softmax的效果，通过比较行2、8，我们可以看到应用softmax会对性能产生非常负面的影响。这是有道理的，正如第3.2节所述，因为这种常用方法会强制热图在单词或区域上具有分布。第9行的结果对应于与最先进技术相当的简单基线，显示了通过不使用softmax、使用我们的多级非线性共同空间表示和注意机制以及强大的上下文化文本嵌入可以获得多大的改进。124830一个戴着眼镜的老太太正在擀面团0一个可爱的小男孩在户外挥舞着美国国旗0一个蹒跚学步的幼儿在泥土中愉快地玩耍0狗在雪地前面的栅栏前0一个男人试图留在猛犸牛身上0图6.来自Flickr30k的一些图像-句子对，包括两个查询（彩色文本）和相应的热图和最大值（星号）。04.5. 定性结果0我们在图5、6和7中给出了Flickr30k数据集的一些查询生成的热图示例。具体来说，我们通过双线性插值将热图从原始大小（18×18，因为我们在这些可视化中使用了VGG骨干）上采样到原始图像大小。我们可以观察到热图中的最大（指向）位置指向图像中的正确位置，并且热图通常捕捉到每个查询的图像的相关部分。即使描述得非常具体，它也可以处理人物、上下文和物体。0一个白发和眼镜的老年妇女站在旁边0窗户，并且在一个打开的收银机抽屉前面0一个穿着白色衣服的开玩笑者正在被他的马扔下来的过程中0图7. 我们模型的一些失败案例。模型在指向区域时会出现一些语义上合理的错误。0使用基于字符的上下文化文本嵌入的强大之处在于可以识别单词（例如“bronco”）。最后，图7展示了一些本地化失败案例，涉及语义上相似且在复杂拍摄条件下的概念。例如，错误地将过曝的查询“window”指向了错误的帧。05. 结论0在本文中，我们提出了一种基于多级注意机制的弱监督短语定位方法，该方法依赖于多级视觉语义特征和上下文化文本嵌入。我们将上下文化文本嵌入和多级视觉语义特征非线性映射到一个公共空间，并计算一个多级注意力图，用于选择文本和其中每个单词的最佳代表性视觉语义级别。我们展示了这种组合的最新性能，并提供了定量数据来展示以下重要性：1.使用正确的公共空间映射，2.强大的上下文化文本嵌入，3.每个单词选择正确的视觉语义级别的自由。未来的工作将研究其他应用，如视觉问答、图像字幕等。0致谢0本工作得到美国DARPAAIDA计划编号FA8750-18-2-0014的支持。本文件中所包含的观点和结论仅代表作者本人，不应被解释为美国政府的官方政策，无论是明示还是暗示。美国政府有权在此处复制和分发再版，以供政府目的使用，尽管有任何版权声明。[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvisual question answering. In CVPR, volume 3, page 6, 2018.2[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick, and DeviParikh. VQA: Visual Question Answering. In InternationalConference on Computer Vision (ICCV), 2015. 1[3] Ciprian Chelba, Tomas Mikolov, Mike Schuster, Qi Ge,Thorsten Brants, Phillipp Koehn, and Tony Robinson. Onebillion word benchmark for measuring progress in statisticallanguage modeling. In Fifteenth Annual Conference of theInternational Speech Communication Association, 2014. 3[4] Kan Chen, Jiyang Gao, and Ram Nevatia. Knowledge aidedconsistency for weakly supervised phrase grounding. In Pro-ceedings of the IEEE Conference on Computer Vision andPattern Recognition, 2018. 2[5] Kan Chen, Rama Kovvuri, Jiyang Gao, and Ram Nevatia.Msrc: Multimodal spatial regression with semantic contextfor phrase grounding. International Journal of MultimediaInformation Retrieval, 7(1):17–28, 2018. 2[6] Kan Chen, Rama Kovvuri, and Ram Nevatia. Query-guidedregression network with context policy for phrase ground-ing. In Proceedings of the IEEE International Conferenceon Computer Vision (ICCV), 2017. 2, 6[7] Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, JianShao, Wei Liu, and Tat-Seng Chua. Sca-cnn: Spatial andchannel-wise attention in convolution

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多级多模态共同语义空间用于图像短语定位

一种融合多级特征信息的图像语义分割方法

多模态的语义通信演示平台项目遇到的困难

多模态分割和多模态语义分割有什么区别

transformer多模态语义分析

多模态语义slam配图

多模态语义分割如何创新

给我推荐20个多模态模型

语义分割算不算多模态分割

多模态知识库中多模态关联用到的技术

解释一下多模态特征X首先被嵌入到模态指定表征空间并且模态共享表征空间会通过模态感知表征学习。然后一个基于X的邻接矩阵A会在自适应图学习中被学习到。最终，我们通过基于A和H的GNN获得预测结果。

多模态医学图像融合层次

多模态图像融合，多模态是什么意思

simpleITK 多模态图像配准对齐

什么是多模态图像融合

模态指定表征空间可以通过什么实现

用clip模型进行多模态情感分析

如何让多模态任务型对话系统实现多模态输入？例如输入图像和文本一同描述想要的数据集，给出几个思路

多模态dbms学习多模态表示

多模态医学图像融合实验

多模态图像融合算法综述

最新资源