字幕引导下的自上而下视觉显著性

119 浏览量更新于2023-10-16 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7206标题引导下的自上而下视觉显著性波士顿大学vram@bu.edu波士顿大学dasabir@bu.edu张建明土坯研究jianmzha@adobe.com波士顿大学saenko@bu.edu摘要神经图像/视频字幕模型可以生成准确的描述，但它们将区域映射到单词的内部过程是一个黑盒，因此难以解释。自上而下的神经显着性方法可以找到重要的区域，给出了一个高层次的语义任务，如对象分类，但不能使用自然语言句子作为自上而下的输入任务。在本文中，我们提出了字幕引导的视觉显着性，以揭示现代编码器-解码器网络中的区域到单词的映射，并证明它是从字幕训练数据中隐式学习的，没有任何像素级注释。我们的方法可以产生空间或时空热图预测字幕，并为任意查询句子。它恢复显着性，而无需引入显式注意层的开销，并可用于分析各种现有的模型架构，并改善其设计。对大规模视频和图像数据集的评估表明，我们的方法实现了与现有方法相当的captioning性能，同时提供了更准确的显着性热图。我们的代码可在 visionlearninggroup.github.io/caption-guided-saliency/上获得。1. 介绍神经显着性方法最近已经成为自上而下任务驱动的视觉搜索的有效机制[4，31]。它们可以在给定高级语义输入的情况下有效地提取显著性热图，例如，突出显示对应于对象类别的区域，而在训练时没有任何逐像素监督他们还可以解释CNN学习的内部表示[19，30]。然而，假设我们想在一个视觉场景中搜索由自然语言句子描述的显著元素（图1）。1（a）），或者，给定一个动作的描述，本地化的最显着的时间和空间区域对应的主题，动词和其他组件（图。（b）款。基于分类的显着性方法对于这样的语言驱动的任务是不够的，因为它们限于孤立的对象标签，不能处理文本查询。(a) 输入：一个穿夹克的男人站在老虎机旁12m−1 m女子切肉(b) 输入：一个女人正在切一块肉图1：自上而下的标题引导视觉显著性方法，为句子中的每个单词生成（a）图像中的空间显著性和（b）视频中的时空显著性。对于视频，我们在底部示出对应于单词的时间上最重要的帧（箭头示出视频中的帧的位置）和指示这些单词的显著区域的空间热图。深度图像和视频字幕模型[6，23，24，28]擅长学习将视觉输入转换为语言的表示，可能会发现视觉概念和单词之间的映射。然而，尽管具有良好的上限性能，但它们可能非常难以理解，并且经常被批评为高度不透明的它们几乎没有提供任何清晰的洞察力，了解图像和产生的单词之间的内在映射。例如，考虑图中所示的视频。第1段（b）分段。模型中的哪个区域用于预测...7207像“女人”或“肉”这样的词单词“woman”是该模型是否可以学习本地化与单词对应的视觉概念，同时仅对图像或视频级别标题形式的弱注释进行训练？它能在空间和时间上同时定位单词吗在这项工作中，我们通过提出一种字幕引导的视觉显着性方法来解决这些问题，该方法利用深度字幕模型为图像和视频生成自上而下的显着性。我们的方法基于编码器-解码器字幕模型，并且可以为给定的输入字幕或由我们的模型预测的字幕生成空间或空间时间热图（图12）。①的人。除了促进视觉搜索之外，这还允许我们揭示深度字幕模型的内部工作原理，并提供这些模型实际学习的内容所需的直觉这反过来又会导致未来模型设计的改进。以前对这种模型内省的尝试已经分析了在文本生成上训练的LSTM [13]，或者在图像级分类上训练的CNN[31，32]。最近的因此，我们是第一次尝试来分析端到端的视觉字幕模型是否可以学习由语言描述引导的自上而下的显着性，而不明确地建模显着性。我们的方法受到[30，32]中用于可视化卷积激活的信号丢弃方法的启发，我们研究了基于LSTM的编码器-解码器模型并设计了一种基于信息增益的新方法。我们估计每个时间帧和/或空间区域的显着性，通过计算它产生的信息增益生成给定的词。这是通过用单个区域替换输入图像或视频并观察在仅给定单个区域的情况下单词的生成概率方面对单词的影响来完成的。我们将我们的方法应用于静态图像和视频描述场景，将流行的编码器-解码器模型用于视频字幕[22]作为我们的基础模型。我们的实验表明，基于LSTM的编码器-解码器网络确实可以学习像素和字幕词之间的关系为了定量评估基础模型学习本地化单词的效果，我们在Flickr30kEntities图像字幕数据集上进行了实验[17]。我们还使用我们的方法来我们将我们的方法与显式“软”注意力模型[27，28]进行了比较计算开销，同时还能够更准确地定位单词。2. 相关工作自上而下的神经显着性：在类别标签方面的弱监督用于计算CNN响应相对于输入图像区域的偏导数，以获得类别特定的显着图[19]。作者在[30]中使用了具有最大池化层的反卷积，将类激活投射回输入像素。虽然最近的自上而下的显着性方法[4，15，31，32]使用孤立的对象标签恢复给定类别的像素重要性，但我们将该想法扩展到语言句子。软注意：为机器翻译[ 2 ]开发的“软”注意力架构最近扩展到图像字幕[ 27 ]。而不是平等地对待所有图像区域，软注意根据它们的内容分配不同的权重给不同的区域。类似地，在视频字幕中，具有软注意力层的LSTM在生成描述的同时关注视频的特定时间段[28]。与我们的自顶向下显着性模型相比，软注意力的一个缺点是，除了LSTM解码器之外，它还需要一个额外的递归层，需要对这个额外的层参数进行额外的设计。该层的大小与被加权的项目数量成比例缩放，即帧或空间区域的数目。相比之下，我们的方法从编码器-解码器模型中提取输入像素和输出单词之间的映射，而不需要对时间或空间注意力进行任何显式建模，也不需要修改网络。我们的直觉是，LSTM可以通过使用存储单元和门控机制来潜在地捕获输入和输出序列之间的相互依赖性我们的框架可视化的时间和空间的注意力，而不必估计额外的权重参数，不像显式的注意力模型，并可用于分析和提供各种各样的编码器-解码器模型的解释。字幕型号：基于CNN和LSTM网络组合的字幕模型在图像和视频字幕方面都表现出令人印象深刻的性能[6，23，24，28]。 [11，12]建议使用来定位和描述显著的图像区域。作品涉及表达接地[10，16，18]本地化输入的自然语言短语，指的是图像中的对象或场景部分。这些方法使用地面实况边界框和短语来学习区域和短语之间的映射。我们解决了更困难的任务，即学习将区域与单词和短语联系起来，而无需对任何一个进行强大的监督，仅在与各自句子标题配对的图像上进行训练。我们还在同一个框架中处理视频的时空基础。7208我MM不不t−1tt−13. 背景：编码器-解码器模型我们首先简要总结一下我们的基本字幕αti是通过归一化Eti得到的，如下所示，α（eti）模型我们利用编码器-解码器视频描述时间k=1 实验（etk）（五）框架[23]基于序列到序列为神经翻译提出的模型[7，20]。在第4节中，我们将描述我们的方法如何将相同的基本模型应用于标题静止图像。考虑p个视频帧的输入序列x=（x1，. . .，xp）和n个字的目标序列y =（y1，. . . ，y n）。编码器首先将视频帧x转换为m个高级特征描述符的序列V=（v1，. . . ，v m）= φ（x）（1）其中，φ（）通常是针对图像分类预先训练的CNN。然后，它将特征描述符V编码为固定长度的向量z=E（v1，. . . 其中E是某个（潜在非线性）函数。在S2VT[22]中，这是通过使用LSTM将V编码为隐藏状态向量he的序列来完成的，其中状态演化方程为：eti=wT tanh（Wa ht−1+Ua vi+ba）其中w、Wa、Ua和ba是注意模块的注意参数。4. 方法我们提出了一种自上而下的显着性方法，称为标题引导的视觉显着性，产生空间和/或时间的显着性值（注意力）的基础上的静态图像或视频的标题。显着性图可以为基础模型预测的字幕或任意输入句子生成。我们的方法可以用来理解基本字幕模型，即它能够在视觉输入中的对象和句子中的单词之间建立对应关系我们使用编码器-解码器字幕模型作为我们的基础模型（等式1、2、3）。对于句子中的每个单词，我们建议计算he=f（vi，he）对于i ∈ {1，2，. . . ，m}（2）输入序列中每个项目的显著性值，i i−1然后取z=h e，最后一个LSTM状态。另一方法是对所有m个特征描述进行平均化，测量预测的概率的下降，只观察到一件物品就能得出一个词。该方法灵活，不需要扩充模型[23]，即。，z= 1Mi=1 五岛具有额外的层，并随输入大小很好地缩放在解码器将编码向量z转换为输出词序列y t，t∈ {1，. . .，n}。特别是，它按顺序生成条件概率分布，给定编码表示Z的目标序列的每个元素和所有先前生成的元素，P（y t|y1，. . . ，y t−1，z）= D（y t−1，h d，z），h d=g（y t−1，h d ，z）（3）其中hd是解码LSTM的隐藏状态，g也是一个非线性函数软注意：而不是使用最后一个编码器LSTM状态或平均V，[ 28 ]中的作者建议保留整个序列V并让编码器计算动态加权和：Σm相反，在软注意力模型中，解码器在可训练注意力权重的帮助下从输入中选择这需要额外的层来预测权重。此外，它只能执行时间或空间映射，但不能两者兼而有之。我们的方法通过从模型中恢复隐式注意力，使用基本LSTM编码器-解码器模型来估计输入和输出之间的时间和空间映射我们在4.1节中描述了视频的更一般情况，然后在4.2节中展示了如何将此模型应用于静态图像。4.1. 视频显著性在视频的情况下，我们希望计算与事件或活动的给定句子描述中的单词相对应的最显著的时空区域。图2显示了该方法的概述。直觉是z=i=1（4）尽管编码器通过将视觉概念激活的时间和空间位置编码为因此，不是将平均特征向量馈送到解码器LSTM中，而是在每个时间步馈送向量的加权和。每个vi的权重计算如下：一个固定长度的向量，这个信息仍然可以从模型中提取出来。编码表示，包含在整个视频中检测到的所有视觉概念的激活，在前一个解码器状态hd上挂起和编码的se-在句子的开头传递给解码器LSTM序列V=（v1，. . .，v m）。在视频字幕中，这允许根据先前生成的单词在整个视频中搜索相关的视觉概念。7209因此，可以将该模型中的注意力视为跨视频帧的简单平均池化的概括。权重生成过程然后，解码器使用LSTM输出门选择该状态向量的一部分，以预测时间t的单词。随着每个单词的生成，解码器LSTM状态中视觉概念的存在不断演变，演变的状态向量反过来与输出交互7210h0XXX视频：. . .. . .图片说明：A. . .小男孩词tLSTMv0. ..vi-1vi次我. . .VMHMhm+1y1. . .hm+t-1yt-1hm+tp（yt）d0dk-1vidTLSTM. . .hi-1海岛 . .HMhm+1. . .hm+t-1hm+tqi（yt）损失（p（yt），qi（yt））输出单词t的显著性图正常化α0。. .αi-1αi. . .αm图2：我们提出的自上而下的字幕引导视觉显著性方法概述视频中的时间显著性。我们使用编码器-解码器模型来产生给定输入句子中的每个帧i和每个单词t的时间显著性值。的值通过从输入序列中移除除了第i个描述符之外的所有描述符、进行前向传递并与原始单词概率分布进行比较来计算。类似的想法可以应用于空间图像显著性。详情见正文gates生成下一个单词。由于这种相互作用是复杂的和非线性的，我们设计了一个间接的计划，以提取证据的产生每个字。我们的方法测量的信息量时，一个单一的本地化的视觉输入被用来近似整个输入序列。解码器在解码过程的每一步预测来自词汇表的单词的概率分布p（yt）我们假设这个可能性-城市分布是我们的“真实”分布。然后，我们测量项目i的描述符在时间步t为单词携带了多少信息。为了做到这一点，我们从编码阶段移除除了第i个描述符之外的所有在计算通过编码器和解码器的前向传递之后，这给出了新的概率分布qi（yt）。然后，我们将信息损失计算为两个分布之间的KL散度，p（y t）= P（y t|y1：t−1，v1：m）q i（y t）= P（y t|y1：t−1，v i）（6）损失（t，i）=D （p（y）<$q（y））由于每个描述符的近似感受野可以估计为1，因此我们可以通过将Loss（t，i，w）映射到感受野的中心并对所得热图进行上采样来为句子这是由Eq。图7示出了Loss（t，i，w）∈[0;+∞），其中更接近于零的值对应于更高的显著性。为了获得显著性值eti，我们否定损失并将所得值线性缩放到[0，1]区间，eti=scale（−Loss（t，i，w））（8）重要的是要区分Eq.6和。7 .第一次会议。前者可以用来评估的代表性相比，完整的输入序列的个人描述符，而后者诱导自上而下的显着性图的个别单词在每个时间步。最后，来自目标句子的一组单词的显著性值（例如，名词短语“一个小男孩”）被定义为子序列中每个单词的相应显著性值之和：KLti塔格利用上述公式，我们可以容易地导出在时间t预测的单词w的自上而下的显著性。我们假设损失（{t1，...，tq}，i）=j=1损失（t j，i）。（九）查询语句S在每个时间步长上具有在这个假设下，Eq。6减少到：接下来，我们将描述如何将这种方法应用于生成视频中的时间和空间显着性。Σ损失（t，i，w）=p（ytk∈W=k）logp（yt=k）qi（yt=k）CNNh0CNNCNNCNNhi-1hi7211时间注意：对于输入帧序列V=（v1，. . . ，v m），句子生成的确定性算法= log1qi（yt=w）（七）由以下递归关系给出：w=argmax p（y t|y0：t−1，v1：m）（10）yt∈W这个过程不仅限于产生的单词序列但是可以与给定视频的任意查询一起使用。1对于我们的视频描述符，感受野是单帧7212我tiik其中y0和yn分别是特殊的给定在句子的时间t预测的单词，输入帧的相对显著性可以被计算为（八）。换句话说，前向传递）运行m次以获得时间显著性图，并且运行r×m次以获得给定视频/句子对的空间图。这又涉及n+1个LSTM步骤，因此总复杂度为我们估计由于仅编码该输入帧而导致的输出序列中每个单词的概率下降。此外，我们归一化et=（et1，. . .，e tm）到ob-O（（r×m+m联系我们空间和时间）×（n+1联系我们LSTM步骤））（14）tain随机向量，如等式5、解释结果向量α t=（α t1，. . . ，α tm）作为输入序列V =（v1，. . . .，v m）。这也导致了预测词和这些词的最显著框架之间的直接映射空间关注：我们还可以估计与句子的特定单词y t相关的不同框架补丁上的注意力。虽然CNN中的空间池化丢弃了检测到的视觉概念的空间位置，但是不同的空间池化可以是LSTM的门使它能够根据LSTM的隐藏状态专注于某些概念。令fk（a，b）是编码器的最后一个卷积层中的空间位置（a，b）处的单元k（对应于某个视觉概念）的激活[32]。CNN执行空间平均池化，得到第k个元素为Vik=a，bfk（a，b）的第i个帧的特征向量Vi。之后，编码器根据LSTM up-日期规则这个过程涉及LSTM输入门：ρi=σ（Wvρ vi+Whρ hi−1+bρ）（11）其中，LSTM通过根据先前的LSTM隐藏状态和vi本身对它们进行加权来选择激活vik（Wvρ、Whρ和bρ是可训练参数）。请注意，ΣΣΣΣΣWvρvi=wkvik=焕光fk（a，b）=wkfk（a，b）（12）k k a，b a，bK其中wk表示矩阵Wv p的第k列。由于每个单元激活fk（a，b）代表特定的视觉概念[30]，我们看到输入门学习基于帧中检测到的相关概念选择输入元素，而不管它们的位置。这些概念的显式空间位置信息在最后卷积层中的空间平均池化之后丢失，然而，我们可以从实际激活fk（a，b）中恢复它。这通过以与时间注意力提取类似的方式计算帧中不同空间区域的信息损失来实现。帧Vi中的区域（a，b）对于在时间t预测的字w的相对重要性可以被估计为：e（a，b）=−Loss（t，i，w），其中p（y t）= P（y t|y0：t−1，v1：m），（13）q i（y t）= P（y t|y0：t−1，v（a，b）），其中v（a，b）= fk（a，b）. 假设帧中的空间位置的数量为r，则预测过程（即，由于所有Loss（t，i，w）计算都是独立执行的，因此我们可以创建一批大小为r×m+m的数据，并在一次通过中有效地计算所有显著性值。4.2. 图像显著性通过最小的改变，上述模型可以被应用于生成图像的显著性。我们通过将CNN最后一个卷积层产生的描述符网格重新排列为“时间”序列来实现这一点V=（v1，. . . ..我们的模型使用编码器LSTM扫描图像位置，并将收集的视觉信息编码为隐藏状态，然后将这些状态解码为单词序列。现在可以通过与先前部分中针对时间显著性所描述的相同过程来实现生成5. 实验本节显示了通过我们的方法从视频和静止图像中恢复基本S2VT模型的字幕驱动显著性的示例。我们评估的质量恢复热图的图像数据集注释与地面实况对象边界框。我们还评估了图像和视频上的字幕生成性能，并将其与软注意方法进行了比较。数据集我们在两个视频描述数据集上训练和评估我们的模型，即微软视频描述数据集（MSVD）[5]和微软研究视频到文本（MSR-VTT）[25]数据集。这两个数据集都有Youtube视频和自然语言描述。MSVD包含1970个平均长度为10.2秒的剪辑，80，827个自然语言描述。MSR-VTT提供41.2小时的网络视频，约10，000个剪辑。每个14.8s和200K自然语言描述。此外，我们对最大的图像字幕数据集之一Flickr30kEntities [17]进行了评估，Flickr30kEntities [ 17 ]是原始Flick30k [29]数据集的扩展，所有158k图像字幕中的所有名词短语我们使用 InceptionV 3 [21] 在 ImageNet [8] 上预训练，在Tensor- Flow[1]CNN特征提取器。我们用v1，. . .，v26，v i∈ R2048for the video视频representation表示. vi是从平均池化层池3用于26个均匀间隔的帧。对于图像，我们使用来自最后卷积层混合10的特征输出作为编码器的输入序列。7213(a) 一个穿着蓝色牛仔裤和白色T恤的男人正在用栏杆守卫窗户。(b) 两个人在一个房间里，一个人正在穿衬衫打领带。(c) 一个男人正在往咖啡饮料里加蒸牛奶(d) 一群人站在一个摆满木制家具的房间图3：为任意查询语句生成的Flickr30kentities中的显着性图（红色到蓝色表示从高到低的值）（如下所示）。每一行显示从查询中提取的不同名词短语的显着性图（显示在左上角）。最大显著点用星号标记，地面真值框用白色显示。一个穿着红白相间衣服的女人骑着自行车。图4：为模型预测的标题（显示在图像下方）生成的显着性图。因此，对于视频和图像字幕，输入序列分别具有长度m=26和m=64。或者-用于图像字幕的空间描述符的阶在第4.2节中描述。所有图像和视频帧都经过缩放7214点击次数+未命中次数表1：使用[ 31 ]中的指向游戏协议对Flickr30kEntities数据集中的地面真实标题中的所有名词短语进行本地化的方法的评估。“Baseline random” samples the point of maximum saliency uniformly from the whole image and “Baseline center” corresponds toalways pointing to the身体部位动物人文书车辆场景其他服装平均值/NP基线随机0.1000.2400.3180.1790.2750.5240.2460.1510.268基线中心0.2010.5990.6470.4960.6440.6520.3840.3970.492我们的模型0.1940.6900.6010.4580.6450.6670.4270.3600.501表2：使用[ 14 ]中的注意力正确性度量和评估协议（包括帧裁剪过程）对Flickr30kEntities提出的方法进行评估。软注意力表现取自[14]，如那里所报告的。基线 *显示了我们对统一注意力基线的重新评估。监督[14]到299x299。请注意，CNN是在ImageNet上训练的，并且在字幕模型的训练过程中没有进行微调。一个完全连接的层将输入描述符的维数从2048减少到1300，然后将它们输入LSTM。该模型使用Adam优化器进行训练，初始学习率为0.0005。单词嵌入层的维度设置为300。字幕性能的评估使用METEOR [3]指标对字幕性能进行定量评估。表3（数字越大越好）显示了结果，并表明尽管没有使用显式注意力层，但我们的模型执行了软注意力方法。根据Flickr 30k验证分割的METEOR度量，选择最佳模型用于评估显着性，如下所示显着性的定量评估给定一个预训练的图像字幕模型，我们使用指向游戏策略[31]和注意力正确性度量[14]定量测试我们的方法。为了生成显着图，我们将Flickr30k测试分割的地面实况字幕输入到我们的模型中。在指向游戏评估中，我们为Flickr30kEntities的每个GT标题中的每个注释名词短语获得图像内部的最大显着点。然后我们测试这个点是否位于边界框内准确度计算为Acc=点击次数. 为了获得由句子中的多个标记组成的名词短语的显着性图，我们在将损失值归一化为[0，1]之前对损失值求和。表1显示了所有名词短语（NP）的平均准确度以及与来自Flickr30kEntities的类别（在不同列中）相对应的准确度我们比较更强的基线表示为“基线中心”。这条基线是为了模仿消费者照片中的中心偏差，并假设最大的显著点总是在图像的中心。与随机基线相比，所提出的方法的准确性在平均值（最后一列）以及所有单个类别（其余列）上更好。虽然与更强的中心基线相比，平均准确度仅略好，但某些类别的准确度增益是显著的。一个可能的原因可能是这些类别中的对象，例如，,表2提供了我们的方法与软注意力模型[27]在[14]中提出的注意力正确性度量方面的直接比较。该度量测量边界框上的注意力函数积分的平均值我们直接报告了[14]的结果，以实现统一基线，软注意力模型及其改进版本，其中字幕模型被训练为以监督方式关注相关对象。我们的方法优于这三种方法。我们还提供了从我们自己的统一基线（称为“基线*”）实现中获得的类别特定值。“Baseline random” inTable 显然，由于两个表中的评价方案不同，因此准确值将不同。为了公平地比较结果，我们遵循与[14]相同的协议，其中作者对测试和训练图像进行了中央裁剪。人类捕获的图像或视频倾向于将感兴趣的对象放在中心区域。因此，任何增强这一身体部位动物人文书车辆场景其他服装平均值/NP基线[14]--------0.321[27]第二十七话-------0.387温柔的关注--------0.433基线 * 0.1000.3710.4100.2780.3500.4700.2360.1970.325我们的型号0.1550.6570.5700.5020.6150.5820.3480.3450.4737215一个女人在雪地上滑冰一个男人在谈论一个电话图5：视频中的空间和时间显着性图。对于每个单词，较暗的灰色表示帧的较高相对显著性。为了更好的可视化，显着性值不被归一化，而是线性映射到范围[0，1]。每个单词的大部分相关框架都显示在底部，用相同的颜色突出显示。表3：我们的模型和软注意力在两个视频（MSVD，MSR-VTT）和一个图像（Flickr 30 k）数据集上的字幕性能比较。数字越高越好。模型数据集METEOR [9][28]第二十八话MSVD30.0我们的模型MSVD31.0[26]第二十六话MSR-VTT25.4我们的模型MSR-VTT25.9[27]第二十七话Flickr30k18.5我们的模型Flickr30k18.3“dency”，本质上，会给一个更好的关注措施。该帧裁剪策略是表1和表2中基线值差异的另一个来源。图3和图4显示了来自Flickr30kEntities的图像上的显著性图分别用于任意查询语句和模型预测的任意查询来自地面实况描述。对于每个名词短语，显着性图是通过对短语中每个标记的响应求和然后将其重新归一化来生成的。地图是彩色编码的，其中红色显示最高的显着性，而蓝色是最低的。最大显著点用星号标记，而名词短语的地面真值框用白色显示。可以看出，我们的模型几乎总是正确地定位人类。对于其他一些对象，模型会犯一些直观的错误。例如图在图3a中，虽然“窗口”的显著性并不指向地面实况窗口，但它将其最高的注意力（星号）集中在看起来非常类似于窗口的门上。在图4中，示出了图像的预测字幕的显著性图。一些非信息性词语（例如，、“a”、“is”等。）可能看起来具有集中的显著性，然而，这仅仅是归一化的结果。一个令人惊讶的发现是，该模型预测图5示出了来自MSR-VTT数据集的具有模型预测的句子的视频的空间和时间显著性图的示例。每个单词的大多数区分框架都是用与单词相同的颜色勾勒出来的。较暗的灰色表示单词的时间显著性我们省略了无信息词的可视化，如文章，帮助动词和介词。关于顶部视频的一个有趣的观察是，“滑冰”最突出的视觉输入其他结果和源代码可在visionlearninggroup.github.io/caption-guided-saliency/ 上获得。6. 结论我们提出了一种由字幕引导的自顶向下显著性方法，并证明了它可以用于理解图像和视频字幕中的复杂决策过程我们的方法保持了良好的字幕性能，同时提供了比现有方法更准确的热图。该模型是通用的，可以用来理解各种各样的编码器-解码器架构。7. 确认这项研究得到了 NSF IIS- 1212928 ， DARPA ，Adobe Research和Google Faculty的部分支持。我们感谢Subhashini Venugopalan提供了S2VT的实现[22]，并感谢Stan Sclaroff进行了许多有益的讨论。7216引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛Sutskever，K. Talwar，P. Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M. Wicke，Y. Yu和X.郑Ten- sorFlow：异构系统上的大规模机器学习，2015年。5[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器国际学习表征会议，2015年。2[3] S. Banerjee和A.拉维METEOR：一种改进了与人类判断相关性的机器翻译自动评价方法. 计算语言学研讨会协会，第29卷，第65-72页，2005年。7[4] C. Cao，X.Liu，Y.Yang，Y.Yu，J.Wang，Z.Wang，Y.黄先生，L. Wang，C.黄，W. Xu，L. Ramanan和T. S.煌看两遍，想两遍：用反馈卷积神经网络捕获自顶向下的视觉注意力。在IEEE计算机视觉国际会议上，2015年12月。一、二[5] D. L. Chen和W. B.多兰收集高度并行的数据进行释义评估。在计算语言学协会：人类语言技术，第190-200页，2011年。5[6] X. Chen和C. L.齐特尼克Mind在IEEE计算机视觉和模式识别会议上，第2422-2431页一、二[7] K. 乔湾，巴西-地van Merrienboer，C.Gulcehre，D.巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用RNN编码器-解码器学习短语表示在 Empirical Methods in NaturalLanguage Processing，第1724-1734页，2014中。3[8] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议上，2009年。5[9] M. Denkowski和A.拉维流星宇宙：针对任何目标语言的特定语言翻译评估。EACL统计机器翻译研讨会，2014年。8[10] R. Hu，H.Xu，M.Rohrbach，J.Feng，K.Saenko和T.达雷尔。自然语言对象检索。2016年在IEEE计算机视觉和模式识别会议上发表2[11] J. Johnson，A. Karpathy和L.飞飞DenseCap：用于密集字幕的全卷积定位网络在IEEE计算机视觉和模式识别会议上，2016年。2[12] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在IEEE计算机视觉和模式识别会议上，第3128-3137页2[13] A. Karpathy，J. Johnson和F.- F. 李可视化理解循环网络。arXiv预印本arXiv：1506.02078，2015。2[14] C. Liu，J. Mao，F. Sha，和A. L.尤尔。神经图像字幕中的注意力正确性。在2017年人工智能促进协会会议上。7[15] A. Mahendran和A.维达尔迪通过反转来理解深层图像表示。IEEE计算机视觉与模式识别会议，2015年。2[16] J. Mao，J. Huang，A.托舍夫岛Camburu，A.尤尔，还有K.墨菲无歧义对象描述的生成与理解。2016年在IEEE计算机视觉和模式识别会议上发表。2[17] B. A.普卢默湖Wang，C. M.塞万提斯C. 凯塞多J. Hockenmaier和S. Lazebnik Flickr 30k实体：为更丰富的图像到句子模型收集区域到短语对应。在IEEEInternational Conference on Computer Vision ，第 2641-2649页，2015年。二、五[18] A. 罗尔巴赫 M. 罗尔巴赫 R. 胡 T. Darrell和B.席勒图像中语篇短语的再构基础。2016年欧洲计算机视觉会议。2[19] K. Simonyan、A. Vedaldi和A.齐瑟曼。深层卷积网络：可视化图像分类模型和显着图。2013年国际学习代表研讨会。一、二[20] I. Sutskever，O.Vinyals和Q.诉乐序列到序列学习与神经网络。在神经信息处理系统中，第3104-3112页3[21] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构。在IEEE计算机视觉和模式识别会议上，第2818-2826页5[22] S. Venugopalan、M. Rohrbach，J.多纳韦河穆尼T. Darrell 和 K. 萨恩科序列到序列 - 视频到文本。IEEEInternational Conference on Computer Vision，2015年。二、三、八[23] S. Venugopalan H. 许、 J. 多纳休 M. 罗尔巴赫R. Mooney和K.萨恩科使用深度递归神经网络将视频转换为自然语言。在计算语言学协会北美分会会议-一、二、三[24] O. Vinyals，A. Toshev，S. Bengio和D.二汉展示和讲述：神经图像字幕生成器。在IEEE计算机视觉和模式识别会议上，第3156-3164页一、二[25] J. Xu，T.Mei，T.Yao和Y.瑞MSR-VTT：一个连接视频和语言的大型在IEEE计算机视觉和模式识别会议上，2016。二、五[26] J. Xu，T.Mei，T.Yao和Y.瑞MSR-VTT：一个用于桥接视频和语言的大型视频描述数据集[补充材料]。IEEE计算机视觉和模式识别，2016年。87217[27] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡迪诺夫河Zemel和Y.本吉奥。显示，注意和讲述：具有视觉注意力的神经图像标题生成在 InternationalConference on Machine Learning，第2048-2057页二七八[28] L. Yao，中国山核桃A.托拉比湾周，N.巴拉斯角帕尔，H. Larochelle，和A.考维尔利用时间结构描述视频IEEE国际计算机视觉会议，2015。一二三八[29] P. Young，A.赖，M。Hodosh和J.霍肯迈尔从图像描述到视觉表示：基于事件描述的语义推理的新相似度算法.TransactionsoftheAssociationforComputationalLinguistics，2：67-78，2014. 5[30] M. D. Zeiler和R.费格斯。可视化和理解卷积网络。在欧洲计算机视觉会议上，第818-833页。2014. 一、二、五[31] J. Zhang，Z.张军，等. Lin，J. Brandt，X. Shen和S.Scaroff基于激励反向传播的自顶向下神经注意. 2016年欧洲计算机视觉会议。一、二、七[32] B. Zhou，中国古柏A.科斯拉湖一、A. Oliva和A.托拉尔巴学习深度特征进行区分定位。IEEE计算机视觉与模式识别会议，2016年。二、五

下载后可阅读完整内容，剩余1页未读，立即下载