神经序列短语接地

69 浏览量更新于2023-10-19 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4175神经序列短语接地（Sequencing）Pelin Dogan1 Leonid Sigal2，3 Markus Gross1，41苏黎世联邦理工学院2不列颠哥伦比亚大学3矢量研究所4迪斯尼研究所{pelin.dogan，grossm}@ inf.ethz.ch，lsigal@cs.ubc.ca摘要我们提出了一个端到端的方法，在图像中的短语接地。与通常试图通过构建图像-文本嵌入来独立地接地每个短语具体来说，我们将区域建议和所有短语编码到两个LSTM单元堆栈中，以及迄今为止接地的短语-区域对。这些LSTM堆栈共同捕获上下文，用于下一个短语的基础。再-一个带着帽子的男人在打开的吉他盒后面弹吉他坐在两个男人中间搜索体系结构，我们称之为Seqvod，通过允许图像区域与多个短语匹配来支持多对多匹配，反之亦然。我们在Flickr30K基准数据集上展示了竞争性性能，并通过消融研究验证了顺序接地以及个体设计选择在打开的吉他盒一把吉他一顶帽子一个男人？？我们的模型架构。1. 介绍近年来，计算机视觉在标准识别任务方面取得了重大进展，例如图像分类[24]，对象检测[35，36]和分割[4];以及在结合语言和视觉的更具表现力的任务中。短语接地[33，48，49，58]，一个本地化图像中给定自然语言短语的任务，最近得到了研究的关注。这个组成任务，概括了对象检测/分割，具有广泛的应用范围，包括图像字幕[17，18，52]，图像检索[12]，视觉问答[1，10，42]和引用表达式生成[16，21，26，27]。虽然在短语基础方面已经取得了重大进展，源于几个基准数据集的发布[21，23，27，34]和各种神经算法设计，但问题远未解决。大多数（如果不是全部）现有的短语基础模型可以分为两类：基于注意力的[49]或基于区域嵌入的[32，58]。在前者中，神经注意力机制用于定位短语，通常通过预测过程分辨率掩码（例如，在最后一个卷积图1：Seqlamp的示意图。建议的新-ral体系结构顺序地执行短语接地。它使用先前接地的短语图像内容来形成下一接地决策（以相反的词汇顺序）。VGG层[39]或另一个CNN网络[14]）。在后者中，遵循传统的对象检测范例，首先检测提议区域，然后测量这些区域中的每一个与给定语言短语的（通常是学习的）相似性。重要的是，这两类模型都单独地（或独立地）考虑了各个短语的基础，缺乏考虑可能存在于多个组成短语中的视觉和通常语言上下文和/或推理的能力。考虑从一个给定的句子中以图像为基础的名词短语：“一位女士坐在一个五颜六色的装饰品上，手里拿着一束鲜花，与她的头发相配。 ” Note that whilemultiple 虽然上述示例中的上下文指涉是空间的，但是包括视觉的其它上下文也可能有用，例如，“她的头发“和“一束花“之间的两名男4176概念上类似的上下文关系存在于对象检测中，并且刚刚开始通过使用空间记忆[5]和卷积图网络（CGNN）[6，54]来探索。大多数假设对象之间的有序图关系与传递推理。另一方面，在短语基础中，从中提取短语的句子可以提供隐含的语言空间和时间顺序[13]。我们表明，这种排序是有用的顺序上下文短语接地决策作为代理。换句话说，在句子中最后出现的短语首先被扎根，并被用作下一个短语的上下文，以相反的词汇顺序扎根。这个明确的顺序过程如图1所示。据我们所知，我们的论文是第一个探讨这种顺序机制和结构的短语接地。扩展最近的时间对准网络的类别（例如，NeuMATCH [7]）提出了神经架构，其中通过在长短期记忆（LSTM）块的堆栈之间移动数据来实现离散对齐操作，我们开发了一个序列空间短语接地网络，我们称之为Seqstrom。Se-qvod将区域建议和所有短语编码到两个LSTM单元堆栈中，以及迄今为止接地的短语-区域配对。这些LSTM堆栈共同捕捉下一个短语的背景。捐款. 本文的贡献是三方面的.首先，我们提出了上下文短语接地的概念，早期接地的决定可以通知后者。第二，我们在端到端可学习的神经架构中正式化这个过程，我们称之为Seqvod。这种架构的好处是它能够顺序处理多对多的基础决策，并在此过程中处理先前匹配的丰富上下文。第三，我们展示了与我们模型的现有技术和消融变体相比的竞争性能通过烧蚀，我们验证了顺序接地的有效性，以及在我们的模型中的个人设计选择。2. 相关工作通过执行顺序接地来定位图像中的短语与多模态学习中的多个主题有关我们简要回顾了最相关的文献。多模态文本和图像任务。多模态学习中流行的研究主题包括图像字幕[19，28，45，52]，视觉内容检索[25]，文本背景-在图像[11，33，37，46]和视觉问题回答[1，38，51]中沿着这些路线的大多数方法可以被归类为属于（i）联合语言视觉嵌入或（ii）编码器解码器架构。联合视觉语言嵌入通过学习将图像/视频和句子嵌入到同一空间中来促进图像/视频或字幕/句子检索[30，43、50、53]。例如，[15]使用简单的内核CCA，在[8]中，图像和句子都被映射到由对象-动作-场景三元组定义的公共语义空间最近的方法直接最小化正图像-字幕对和对比（非描述性）负对之间的成对排序函数;已经提出了各种排序目标函数，包括最大边缘[22]和保序损失[44]。编码器-解码器架构[43]是类似的，但相反，它试图将图像编码到嵌入空间中，从中可以解码句子。特别相关的是NeuMATCH [7]，这是一种用于视频-句子对齐的架构，其中离散对齐操作通过在长短期记忆（LSTM）块的堆栈之间移动数据来实现。我们一般化[7]中的公式来处理短语的空间这需要增加空间建议机制，修改整体架构以允许多对多匹配，修改损失函数和更复杂的训练过程。短语接地。本文所讨论的短语接地问题是指自然语言短语在图像中的空间定位问题。多年来，已经提出了许多接地方法Karpathy等人。 [20]提出在子空间中对齐句子片段和图像区域。Rohrbach等人。 [37]提出了一种通过使用注意力机制重建给定短语来学习图像接地的方法Fukui等人。 [11]使用多模态紧凑双线性池来联合表示多模态特征，然后以类似于[37]的方式将其用于预测最佳候选边界框。Wang等人。 [47]使用对称距离函数学习联合图像-文本嵌入空间，然后使用该函数对边界框进行评分，以预测最接近给定短语的内容。在[46]中，他们的嵌入网络通过引入相似性网络来扩展，该相似性网络将多模态特征聚合到单个向量中，而不是显式嵌入空间。Hu等人。 [16]提出了一种递归神经网络模型，使用局部图像描述符，空间配置和全局场景级上下文对候选框进行评分。Plummer等人 [33]使用来自属性、动词、介词和代词的广泛的图像-文本约束来执行全局推理。Yeh等人。 [55]使用单词先验与分割掩码、几何特征和检测分数的组合来选择候选边界框。Wanget al. [48]提出了一种结构化匹配方法，该方法试图将短语的语义关系反映到其对应区域的视觉关系上，而不考虑全局语义级上下文。Plummer等人。 [32]提出在单个端到端模型中使用多个文本条件嵌入，在Flickr30K实体数据集上取得了令人印象深刻的结果[34]。4177这些现有的工作地面每个短语独立，忽略了语义和空间关系的短语和相应的区域分别。一个值得注意的例外是陈等人的方法。[3]，其中提出了被设计为对候选短语-区域配对的排名进行回归的查询引导回归网络，以及用于该排名的上下文细化的强化学习上下文策略网络。对于指称表达理解，这是密切相关的短语接地问题，[57，29，56]介绍考虑上下文。关于视觉数据，他们只考虑周围物体提供的局部上下文此外，[29，56]使用具有明确结构的文本上下文，基于指称表达提及与其他对象相关的对象的假设。另一方面，我们的方法表示视觉和文本的背景下，在一个结构较少重要的是，与[57，29，56]不同，它通过顺序决策过程使用先前的匹配。总之，现有方法利用两个约束来执行短语基础：一个区域应当与不超过一个短语匹配，或者一个短语应当与不超过一个区域匹配。此外，这些方法中的大多数考虑局部相似性，而不是同时考虑全局图像级和背景级上下文。在这里，我们提出了一个端到端的可微分神经架构，它考虑所有可能的边界框集合来匹配标题中的任何短语，反之亦然。3. 方法现在，我们展示我们的神经架构，用于在图像中建立短语。我们假设我们需要在每个图像中建立多个可能相互关联的短语。Flickr 30 k实体数据集就是这种情况，其中短语/实体来自句子解析。具体来说，我们将输入的句子解析为一系列短语具有以下特点。首先，图像和文本是隐藏真实相似结构的异质表面形式。因此，有效的接地需要对整个语言和视觉内容的满意理解。其次，短语和框之间的关系是复杂的。有可能（并且很可能）具有多对多匹配和/或不匹配的内容（由于边界框提议机制中缺乏精确度或假设的语言参考）。接地算法需要适应这种情况。第三，学习短语框对之间的相似性所需的上下文信息分散在整个图像和句子中。因此，重要的是要考虑所有视觉和文本上下文，在做出基础决策时，要强烈地表示它们的依赖关系，并创建一个端到端的网络，其中基础决策的梯度可以为内容理解和相似性学习提供信息。Seqlord框架通过将问题转换为顺序接地和显式表示整个决策工作区的状态（包括部分接地的输入短语和框）来处理这些挑战。除了用于完整图像表示的密集层之外，该表示还使用LSTM回流网络来进行区域建议，句子短语和先前接地的内容。图2显示了我们框架的架构。我们学习了一个函数，该函数将工作空间的状态映射到每个时间步长t处的边界框Bi的基础决策dti，该基础决策d ti对应于短语Pt的决策。决策dti操纵LSTM网络的内容，产生新的状态dti+1。执行一个完整的决策序列产生一个完整的对齐输入短语与边界框。我们注意到，我们的模型是由Dogan等人引入的Neu- MATCH框架[7]的扩展和推广。此外，与强化学习有明显的联系，P= {Pj}j=1…N保持句子的顺序; I.E. j=1政策梯度法[41]。而基于RL的公式-也许是一个合理的未来扩展，在这里，我们专注于是第一个短语，j=N是最后一个短语。对于一个典型的森-在Flickr30k中，N在1到54之间。输入图像I用于提取边界框形式的区域建议。这些边界框被排序以形成一个序列，序列B ={Bi}i=1. M. 我们将在4.3节讨论P和B的排序选择及其影响我们的总体任务是通过将短语与其对应的边界框进行匹配来使图像中的短语接地，例如，找到将短语的索引映射到其对应的边界框的函数π，B π（j）π。我们的方法允许多对多匹配的上述输入序列。换句话说，单个短语可以接地到多个边界框，或者句子的多个短语可以接地到相同的边界框。短语基础是一个非常具有挑战性的问题-完全可微的监督学习公式。3.1. 语言和视觉编码器我们首先为每个短语和由区域建议网络（RPN）产生的每个绑定框创建编码器短语编码器。输入的字幕被解析成短语P1. . . P N，每个都包含一个单词或一个单词序列，使用[2]。我们通过在GloVe上执行均值池，[31]它的所有字的特点然后使用 R e L U 激活函数将该向量转换为三个完全连接的层，从而得到输入句子的第j个短语（Pj）的编码短语向量p j。视觉编码器。对于每一个边界框，我们执行-4178不我图2：Seqvod神经架构。短语堆栈包含所有短语的序列，而不仅仅是名词短语，还需要按顺序处理，并对语言依赖性进行编码。框堆栈包含边界框的序列，这些边界框根据它们在图像中的位置进行排序。历史堆栈包含先前接地的短语框对。除了完整的图像表示之外，还考虑到这些LSTM堆栈的当前状态，依次执行输入短语的基础决策。新的固定短语框对被添加到历史堆栈的顶部。使用VGG-16网络[39]中第一个全连接层的激活来创建区域特征，这会产生每个区域的4096- dim向量使用ReLU激活函数将该向量转换为三个完全连接的层，从而产生图像的第i个边界框（Bi）的编码边界框向量bi视觉编码器还用于将完整图像I编码成Ienc。3.2. 接地网在相同的嵌入空间中具有编码的短语和框，用于接地的朴素方法将最大化接地短语框对的集体相似性。然而，这样做忽略了两个序列的元素内的空间结构和关系，并且可能导致性能下降。Seq-10通过对输入序列和决策历史进行编码，并使用递归网络堆栈来执行接地。这隐含地允许网络将所有接地以及未接地的提议区域和短语作为当前接地决策的上下文来考虑。我们在实验部分表明，这导致性能的显着提高。循环堆栈。把输入短语看作一个时间序列，我们让第一个栈包含待处理短语的序列Pt，Pt+1，. . . ，PN，在时间步长t处。堆栈的方向是从PN到Pt，这允许信息从未来的短语流向当前短语。我们将这个LSTM网络称为短语栈，并将其隐藏状态表示为hP。LSTM单元的输入是短语编码器获得的潜在空间中的短语特征（参见第二节）。第3.1节）。第二个堆栈是一个双向LSTM递归网络，包含边界框序列B1，. . . ，B M由RPN获得。考虑到这些框在前向网络1的水平轴上的中心，这些框从左到右排序。我们将这个bi-LSTM网络称为盒子堆栈，并将其第i个盒子的隐藏状态表示为hB。LSTM单元的输入是潜在空间中的框特征和归一化位置特征[bi，xbi]的关联。注意，盒子堆栈的状态不会随t而改变。我们把所有的盒子都放在堆栈中，因为已经用来为短语打基础的盒子可以在以后再次用来为另一个短语打第三个堆栈是历史堆栈，它只包含我们把这个序列记为R1，. . .，R L.信息从过去流向现在。LSTM单元的输入是潜在空间中的两种模态和盒子的位置特征的级联。当短语pj接地为倍数（K）时，1我们试验了不同的排序，例如，最大流计算成对的建议IoU分数，但没有看到明显的性能差异。因此，为了更清楚地说明，我们专注于更简单的从左到右排序和相应的结果。1历史堆栈短语堆栈（（��−1��−2��−2��−3Pt+3Pt+2Pt+1一个穿着绿色短裤的小孩，Pt金发金发猫他的手他的手一个瓶子，FC X 3��…FC X 3中国+2LSTMFC X 3FC X 3FC X 3��−1（（��−2��−2��−3日本+1LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMCNN11FC X 3CNN22FC X 3CNN我FC X 3CNN日本+1日本语+1FC X 3CNN��−1 ��−1��FC X 3FC X 3美国有线电视新闻…12日本…��−1��一个金发的小男孩正亲吻着一只瓶子，手里拿着一个瓶子。Box StackFC X 3秩序RPN4179Jt−1不Ktt−1boxesbπ（j）=b（pj，1），. . . ，b（pj，K），每个接地短语框对成为LSTM单元的单独输入，保持框的空间顺序。例如，向量[pj，b（pj，1），xb（p，1）]将是要被推到短语pj的历史堆栈顶部的第一个向量。最后一个隐藏历史堆栈的状态是hR。短语堆栈和历史堆栈都使用2层LSTM递归网络执行编码，其中第一层的隐藏状态h（1）被馈送到第二层：h（1），c（1）=LSTM（xt，h（1），c（1））（1a）在训练中训练目标是最小化由每个时间步长处的接地决策引起的总体二进制交叉熵损失，其中i=1，. . .，M.训练前。正如[7]中所指出的，学习协调的代表，视觉和文本数据，同时优化决策网络，是困难的。因此，我们采用成对的预训练步骤来协调短语和视觉编码器，以实现后续端到端训练的良好初始化。请注意，这仅用于预训练;最终模型是完全可扩展的，并且是端到端的微调。t t t−1t −1h（2），c（2）=LSTM（h（1），h（2），c（2）），（1b）对于地面真值对（Pk，Bk），我们采用不对称-不（一）不（二）tt−1t−1相似性理论[44]其中ctct是两层的存储单元，分别为：x t是时间步长t的输入。图像上下文。除了循环堆栈之外，我们还将编码后的完整图像I作为额外的全局上下文提供给网络。接地决策预测。在每一个时间步，三个栈的状态是Vt=（Pt+，B t，R1+），其中我们使用简写X t+来表示序列X t，X t+1，. . . 对于X t−也是如此。LSTM的隐藏状态可以近似地表示隐藏状态。因此，基础决策的条件概率d ti（其表示针对具有短语P t的边界框B i的决策）为F（p k，b k）= −||max（0，b k− p k）||二、（五）当pk位于向量空间中bk的右上方时，该相似性函数F取最大值0。当该条件不满足时，相似性降低。在[44]中，这个相对空间位置定义了一个蕴涵关系，其中bk蕴涵pk。这里，直觉是图像通常包含比以文本形式描述的更多的信息，因此我们可以认为文本是图像所包含的。我们通过对每个地面真值对随机采样一个对比框B′和一个对比短语P′来采用以下排名损失目标。将损失降到Pr（d ti|t）= Pr（d ti|h P，hB，h R，I enc）.（二）函数保持对比对的相似性比真实对的相似性低换句话说，在时间步t，针对短语栈顶部的短语的每个框同时做出基础决定。尽管这些决定看起来ΣL=（Eb′我bmax{0，α−F（bk，pk）+F（b′，pk）}（六）是并行独立进行的，盒堆栈编码所有+Ep′/=pk max{0，α−F（bk，pk）+F（bk，p′）}）盒子上述计算被实现为在级联状态的顶部上的三个完全连接的层之后的sigmoid运算，其中，t=[hP，{hB}，hR，Ienc]。ReLU请注意，期望值是通过抽样近似的。4. 实验t t−1在层之间使用活化此外，每个正接地决定将增加历史堆栈。为了将整个短语序列与框结合起来，我们应用链式规则，如下所示：YNPr（D1，. . . ，DN|P，B）=Pr（Dt|D（t−1）−，t）（三）t=1YM4.1. 设置和培训。我们使用Faster R-CNN [36]作为底层边界框建议机制，以ResNet 50为骨干。然后，提取的边界框通过其中心x坐标从左到右排序，以馈送到框堆栈的Bi-LSTM网络中。这样，看起来接近的对象倾向于被表示为更靠近在一起，使得盒子堆栈可以更好地表示整体上下文。福尔-Pr（D t|P，B）=i=1P r（dti|D（t−1）−，n（t），（4）4180降低以前的工作（见表。1），我们假设要接地的名词短语已经被提取出来了其中Dt表示短语Pt的所有框上的所有基础决策的集合。概率可以通过总是选择最可能的决策来优化。该模型以监督的方式进行训练。从一个盒子和一个短语序列的地面真实基础，我们可以很容易地得出正确的决定，从描述性的句子。我们还将句子的中间词与短语栈中的给定名词短语一起使用，以保持语言结构;这也导致更复杂的训练/测试场景。Seqstack的训练分两个阶段进行，这两个阶段在框堆栈输入方面有所不同。在第一阶段，我们只提供地面实况41811.00.80.60.40.20.00 1 2 3语序（一）（b）第（1）款图3：各种设计选择的性能。（a）根据准确性与根据短语在句子的名词短语中的顺序。红色、绿色和蓝色图分别显示了LSTM单元中的短语按从左到右（词汇顺序）、从右到左（反向词汇顺序）和随机排序时的性能。(b)基线和烧蚀模型的接地精度。实例添加到框堆栈中，这些实例来自图像的数据集注释。与短语具有相同标签的框被认为是正样本，而其余框被认为是负样本。这种设置提供了一个更容易的短语接地任务，由于输入框的数量少，这些输入框在上下文上是不同的，并且定义明确，而不是冗余的。因此，它为第二阶段提供了一个良好的初始化，在第二阶段，我们使用RPN的框建议。对于第二阶段，我们将来自RPN的每个边界框映射到其IoU重叠等于或大于0.7的groundtruth实例，并将它们标记为当前短语的正样本。具有与地面实况实例的IoU重叠小于0.3的剩余建议框被标记为该短语的负样本。标记的阳性和阴性样本被排序，然后输入到Bi-LSTM网络中。可以优化所有标记框的损失函数，但这将偏向阴性样本，因为它们占主导地位。相反，我们随机抽样负样本，有助于在一批损失函数，其中抽样的积极和消极的盒子有1：3的比例。如果一个批次中的阴性样本数量不够，我们让该批次中的所有样本都造成损失。通过这种方式，空间上下文和依赖性由盒堆栈的Bi-LSTM单元无间隙地表示，同时防止偏向负接地决策。在训练的第二阶段之后，我们采用标准的硬负挖掘方法[9，40]，对每个训练样本进行一次在测试时，我们使用所有建议的盒子，在根据它们的位置对它们进行排序后，将它们馈送到盒子堆栈。当多个盒子被固定到同一个短语时，我们应用非最大抑制，IoU重叠阈值为0.3，这是在验证集上调整的。这样，同一实例而保留同一短语的不同实例的框。更多的执行细节见补充材料。4.2. 数据集和指标我们在Flickr30K实体数据集[34]上评估了我们的方法，该数据集包含31，783张图像，每张图像都有五个句子注释。对于每个句子，在图像中为名词短语提供其对应的边界框。我们使用与先前工作相同的训练/验证/测试分割，提供1，000张图像用于验证，1，000张用于测试，29，783张图像用于训练。重要的是要注意，单个短语可以有多个groundtruth框，而单个框可以匹配同一句子中的多个短语。与之前的工作一致，我们使用地面真值边界框评估Seqvod。如果多个盒子与一个短语相关联，我们将短语表示为图像平面上所有盒子的并集。在之前的工作之后，短语的成功接地需要预测区域与地面实况区域具有至少0.5 IoU（交集）。基于这个标准，我们的性能指标是接地准确性，这是正确接地名词短语的比例。4.3. 基线和消融研究为了了解我们的模型的各个组件的好处，我们进行了消融研究，其中模型NH缺乏历史堆栈，其中先前接地的短语框对不影响句子中即将出现的短语的决策。NI模型缺乏完整的图像上下文，其中框架的唯一视觉信息是盒子堆栈。模型SBv（simple box vec- tor）缺少用于盒子的bi-LSTM网络，并且直接使用来自图2中的三重全连接层的编码盒子特征。因此，决定从右到左组件left-to-right随机视觉上下文边界框短语历史精度MSB没有一简单简单没有一43.85个msb没有一简单简单没有一50.90NH全球双LSTMLSTM没有一59.55NI没有一双LSTMLSTMLSTM60.34SPV全球双LSTM简单LSTM57.94SBV全球简单LSTMLSTM55.68SPvBv全球简单简单LSTM53.75SBvPvNH全球简单简单没有一52.91准确度（%）4182方法精度SMPL [48]42.08非线性SP [47]43.89[37]第三十七话47.81MCB [11]48.69RtP [34]50.89相似网络[46]51.05RPN+QRN [3]53.48[第55话]53.97SPC+PPC [33]55.49SS+QRN [3]55.99CITE [32]59.27塞奇61.60表1：Flickr30k实体数据集上最先进方法的短语基础准确度短语框对独立于其它框候选而形成。模型SPv（简单短语向量）缺乏用于短语堆栈的LSTM网络，并直接使用来自图2中三个完全连接的层的编码短语特征。在该设计中，框架不知道即将到来的短语，使得在没有语言关系的情况下做出短语框对的决定。类似地，SPvBv分别缺乏用于框和短语堆栈的bi-LSTM和LSTM网络。此外，SPvBvNH缺少历史模块作为补充。此外，我们创建了一个基线，通过在联合嵌入空间中挑选最相似的边界框，以非顺序的方式为了对短语和框进行编码，我们使用了与第3.2节中预先训练的对于每个图像-句子输入，我们使用相似性函数5为所有可能的短语框对创建相似性矩阵。使用该矩阵，短语分别接地到最相似的MSB和MSB模型的一个或多个框表3b显示了Flickr30K实体数据集上六个消融模型和两个基线的性能。所有这些模型的性能都比Seqirs的完整模型差得多这证实了我们的直觉，即除了历史和未来之外，了解视觉和文本数据的全局上下文我们的结论是，每个堆栈有助于我们的完整模型短语排序。我们考虑几种排列句子短语的方法。1. 从左到右：网络将lex中的短语作为在测试时，短语的顺序与相应设计的训练时间相同。在图3a中示出了针对不同排序选项的关于句子的名词短语之间的短语的顺序的基础准确性对于所有排序选项，第一个短语的准确性明显高于其他短语。这是因为第一个短语通常属于在数据集中具有显著更多样本的人或动物此外，来自RPN的候选接地准确性下降到最后一个短语，这通常是长到数据集中样本较少的类别。从右到左排列短语可以稍微提高句子最后一个短语的性能，因为它们是第一个接地的短语。以这种方式，这些难以接地的短语不是历史堆栈中可能的错误累积的主题。无指导的测试Seqlets不一定需要给短语接地。由于其顺序的性质，它扫描通过所有的短语在句子中，选择的短语或没有，并作出决定，这些地面和在哪里（见图。4）.网络隐式地学习在训练期间区分要接地的实体。这是一个比以前的作品更复杂的场景，以前的作品只关注隐含接地的短语。表1、表2和图4中的结果是通过非引导测试获得的，这是我们方法的一个关键特性。4.4. 结果我们在Flickr30K Entities数据集上报告了Seqlane的性能，并将其与表1中的最先进方法3进行了比较。序列分析是该列表中排名第一的方法，与先前的工作相比，通过将短语接地作为顺序和上下文过程来执行，为了进行公平的比较，所有这些方法都使用固定的RPN来获得候选框，并将它们表示在Flickr 30 K Enti- ties数据集上未调优的特征中。我们认为，使用[32]中的附加条件嵌入单元，以及将建议生成网络与 [3] 中在Flickr30K实体上调整的空间回归相表2显示了Flickr 30K数据集中关于粗略类别竞争结果直接取自相应的论文（如适用）。从句子的第一个短语开始2. 从右到左：网络从最后一个短语开始，以相反的词汇顺序为短语提供基础。3. 随机：我们随机排列短语，并在所有训练中保持3通过使用Flickr30K调优的功能来表示图像区域，可以进一步提高这项任务的性能，CITE的最佳结果为61.89%[32]。此外，使用集成的提案生成网络来学习Flickr30K实体的回归，结果提高了65.14%，如[3]所示。4183（d）其他事项方法人服装身体部位动物车辆文书场景其他SMPL [48]57.8934.6115.8755.9852.2523.4634.2226.23[37]第三十七话61.0038.1210.3362.5568.7536.4258.1829.08RtP [34]64.7346.8817.2165.8368.7237.6551.3931.77[第55话]68.7156.8319.5070.0773.7239.5060.3832.45SPC+PPC [33]71.6950.9525.2476.2366.5035.8051.5135.98CITE [32]73.2052.3430.5976.2575.7548.1555.6442.83塞奇76.0256.9426.1875.5666.0039.3668.6940.60表2：Flickr30K数据集上粗分类的短语基础准确度（百分比）（一）一个穿蓝裙子的年轻女士和一个戴黑帽子的男人手牵着手走在路中间。(b) 五个人围坐在餐桌旁，中间的女人穿着绿色夹克。(c) 三个人在跳舞，中间的人穿着婚纱。(d) 一个骑在白马上的穿红衬衫的女孩和一个骑在黑马上的女人正在鼓掌。(e)一个金发的婴儿在花图案的衬衫举行一个橙色的玩具在她的手。(f) 一个穿着蓝色衬衫的蹒跚学步的孩子正在草地上操纵他的玩具。(g) 一个年轻女子正在拉小提琴，而一个年轻男子正在对着麦克风唱歌。(h) 一只白狗在水面上跑。图4：Seql2获得的示例短语接地结果。彩色边界框以相同颜色显示短语参见讨论文本我们在图4中显示了一些定性结果，以突出我们的方法在挑战场景中的能力。在（a）和（e）中，我们看到长序列短语的成功接地，注意（a）中的手的正确接地，尽管有其他手候选人。在（b）中，短语被正确地固定在多个盒子中，而不是一个大的五人盒子，其中大部分是餐桌。同样地，（c）示出了一个示例，其中使用单个框来使多个短语、三个人和相距很远的人多对多匹配的短语背景是Seqlord的一个显著特性，而这一特性在大多数竞争方法中部分或完全缺失。在（d）项中，Seqlord可以区分哪些框为短语a girl和awoman奠定基础，抑制其他候选人，尽管他们的上下文相似。我们认为这可能是由于Seqlets作为一个直观的例子，执行接地开始匹配一个黑马到正确的框。对这个接地对和整体上下文信息进行编码，它将女性定位到正确的盒子，就在黑马的上方，而不是被有一个女孩.在女人的决策时刻，短语栈编码了未来的信息，这是一个女孩应该有一件红色的衬衫，应该骑一匹白马。考虑到这一信息可能导致Seqirs在决定一个女人的时候取消了一个女孩的盒子。所有这些图像，以及补充材料中的更多图像，由于其上下文和顺序性质，显示了Seqirs的最先进性能。5. 结论在本文中，我们提出了一个端到端的可训练的顺序接地网络（Seqingdom），公式化接地的多个短语作为一个顺序和上下文的过程。Seqstrike将区域建议和所有短语编码到两个LSTM单元堆栈中，以及部分接地的短语-区域对，以执行下一个短语的接地决策。Flickr30K实体基准数据集和消融研究的结果显示，该模型比传统的接地方法有显著改进3由于Flickr30K实体数据集的版权问题，我们不允许显示来自它的图像。相反，我们使用公共领域的图像创建了类似的内容，并由于隐私问题而模糊了面部。4184引用[1] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在ICCV，第2425-2433页[2] Danqi Chen和Christopher Manning。使用神经网络的快速准确的依赖分析器参见EMNLP，第740-750页[3] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。InICCV，2017.[4] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。在CVPR，2016年。[5] 陈新蕾和Abhinav Gupta。用于对象检测中上下文推理的空间记忆InICCV，2017.[6] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.超越卷积的迭代视觉推理在CVPR，2018年。[7] Pelin Dogan ， Boyang Li ， Leonid Sigal ， and MarkusGross.一种神经多序列比对技术（Neural Multi-SequenceAlignment Technique ，简称 MUSCHatch ）。在 CVPR中，第8749-8758页[8] AliFarhadi 、 MohsenHejrati 、 MohammadAminSadeghi 、 Pe ter Young 、 Cyrus Rashtchian 、 JuliaHockenmaier和David Forsyth。每张照片都在讲述一个故事：从图像生成句子。见ECCV，第15-29页[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：1627[10] A.福井县帕克D。Yang，杨树A. Rohrbach，T. Darrell和M.罗尔巴赫多模态紧凑双线性池的视觉问题回答和视觉接地。在EMNLP，2016。[11] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847，2016。[12] A. Gordo，J.Almazan，J.Revaud和D.拉勒斯深度图像检索：学习图像搜索的全局表示。在ECCV，2016年。[13] 柯克·海森语言入门。Wiley Blackwell，2014.[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[15] Micah Hodosh，Peter Young，Julia Hockenmaier. 将图像描述作为一项排名任务：数据、模型和评估指标。Journal of Artificial Intelligence Research，47：853[16] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，第4555-4564页[17] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积定位网络。在CVPR，2016年。[18] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。CVPR，2015。[19] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在CVPR，第3128-3137页[20] Andrej Karpathy，Armand Joulin，and Li F Fei-Fei.用于双向图像句子映射的深度片段嵌入。神经信息处理系统的进展，第1889-1897页，2014年[21] S. Kazemzadeh，V. Ordonez M. Matten和T. L.伯格。推荐游戏：指自然景物照片中的物体。在EMNLP，2014年。[22] Ryan Kiros，Ruslan Salakhutdinov，and Richard S Zemel.统一视觉语义嵌入与多模态神经语言模型。TransactionsoftheAssociationforComputationalLinguistics，2014.[23] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。InIJCV，2017.[24] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[25] 林大华，桑雅菲德勒，陈孔，和拉奎尔Urtasun。视觉语义搜索：通过复杂的文本查询检索视频。在CVPR中，第2657-2664页[26] R. Luo和G.沙赫纳洛维奇理解引导的指称表达。在CVPR，2017年。[27] Junhua Mao，Jonathan Huang，Alexander Toshev，OanaCamburu，Alan Yuille，and Kevin Murphy. 无歧义对象描述的生成和理解。在CVPR，2016年。[28] Junhua Mao，Wei Xu

下载后可阅读完整内容，剩余1页未读，立即下载