基于迭代消息传递的场景图生成模型

201 浏览量更新于2023-10-17 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1...穿着眼镜人喂养马控股随意采食桶基于迭代消息传递的场景图生成徐丹飞1朱玉科1克里斯托弗B.蔡2李菲菲11斯坦福大学2斯坦福大学{danfei，yukez，chrischoy，feifeili}@ cs.stanford.edu摘要理解视觉场景不仅仅是孤立地识别单个对象。对象之间的关系也构成了丰富的场景语义信息。在这项工作中，我们明确地使用场景图，一个视觉接地的图像的图形结构的对象和它们的关系我们提出了一种新的端到端模型，从输入图像生成这样的结构化场景表示。该模型使用标准RNN解决场景图推理问题，并通过消息传递学习迭代改进其预测。我们的联合推理模型可以利用上下文线索对对象及其关系做出更好的预测。实验结果表明，该模型在使用Visual Genome数据集生成场景图和使用NYU Depth v2数据集推断支持关系方面的性能明显优于以往的方法.1. 介绍当今最然而，理解视觉场景通常超出识别单个对象。看看图中的两幅图。1.一、即使是一个完美的物体探测器也很难察觉到一个人喂马和一个人站在马旁边之间的细微差别这些对象之间丰富的语义关系在很大程度上尚未被这些模型所利用。正如一系列先前的作品[26，34，41]所指出的那样，更深入地理解视觉场景的一个关键步骤是建立一个捕捉对象及其语义关系的结构化表示这种表征不仅为基本识别任务提供了上下文线索[27，29，38，39]，而且还提供了更大范围的高层次视觉信息的价值。人马图1. 对象检测器通过关注单个对象来感知场景。因此，即使是完美的检测器也会在两个语义不同的图像（第一行）上产生类似的输出我们提出了一个场景图生成模型，该模型将图像作为输入，并生成一个视觉上接地的场景图（第二行，右），该场景图捕获图像中的对象（蓝色节点）及其成对关系（红色节点）。对象关系[5，20，26，33]。场景图，由Johnson等人提出。[18]，提供了一个平台来显式地建模对象及其关系。简而言之，场景图是图像中的对象实例上的视觉上接地的图，其中边缘描绘它们的成对关系（参见图1中的示例）。①的人。场景图表示的价值已在广泛的视觉任务中得到证明，例如语义图像检索[18]，3D场景合成[4]和视觉问答[37]。Anderson等人最近提出的SPICE[1]作为在场景图上定义的增强的自动字幕评估度量然而，这些使用场景图的模型要么依赖于地面实况注释[18]，合成图像[37]，要么从文本域中提取场景图[1，4]。为了真正利用这种丰富的结构，设计一种从图像自动生成场景图的模型至关重要。在这项工作中，我们解决了场景图生成的问题，其目标是生成一个视觉上接地任务[18，44，40]。最近基于深度学习的识别模型的成功[15，21，36]引起了人们对检查视觉场景的详细结构的兴趣，特别是以从图像中提取场景图。在所生成的场景图中，对象实例由具有对象类别标签的边界框表征，并且关系由两个边界框之间的有向边表征（即，b-5410场景图生成对象检测5411主语和主语）与关系谓词（图1中的红色节点）。生成场景图的主要挑战是推理关系。在图像中语义关系的定位和识别方面已经付出了大量的努力[6，8，26，34，39]。大多数方法都集中在对对象关系进行局部预测[26，34]，这基本上将场景图生成问题简化为独立预测对象对之间的关系。然而，通过进行局部预测，这些模型忽略了周围的上下文，而具有上下文信息的联合推理可以解决由于孤立的局部预测而引起的歧义。为了捕捉这种直觉，我们提出了一种新颖的端到端-学习生成基于图像的场景的端模型图像对象提议场景图面对山背后骑人戴帽穿着衬衫马图（Fig.2）的情况。该模型以图像作为输入，并输出一个场景图，该场景图由对象类别、它们的边界框和对象对之间的语义关系组成。我们的主要贡献在于，该模型不是孤立地推断场景图的每个组件，而是在场景图的一对二分子图之间传递包含上下文信息的消息，并使用RNN迭代地细化其预测我们在基于可视化基因组[20]的新场景图数据集上评估了我们的模型，该数据集包含108，077张图像上的平均而言，每个图像都用25个对象和22个成对对象关系进行注释。我们表明，在场景图中的关系预测可以显着提高我们的模型。此外，我们还将我们的模型应用于NYU Depth v2数据集[28]，在空间关系推理方面建立了新的最先进的结果，例如水平和垂直支持。总之，我们提出了一个端到端的模型，从图像生成视觉接地场景图。该模型使用了一种新的推理公式，通过沿着场景图的拓扑结构传递上下文消息来迭代我们展示了它用于从新的场景图数据集生成语义场景图以及使用NYU Depth v2数据集预测支持关系[28]。2. 相关工作场景理解和关系预测。视觉场景理解通常利用对象共现的统计模式[11，22，30，35]以及空间布局[2，9]。一系列基于周围像素和区域的上下文模型也已被开发用于感知任务[3，13，25，27]。最近的作品[6，31]利用更复杂的结构进行关系预测。然而，这些作品侧重于图像层面的预测，而没有详细的视觉基础。物理关系，如支持和稳定性，已在[17，28，42]中进行了研究。Lu等人[26]通过将视觉输入与局域网相结合，直接解决了语义关系检测。图2. 我们的模型架构概述。给定图像作为输入，该模型首先使用区域建议网络（RPN）[32]产生一组对象建议，然后将对象区域的经验特征传递给我们的新颖的图推理模块。模型的输出是一个场景图[18]，其中包含一组本地化对象，每个对象的类别以及每对对象之间的关系类型。规范先验，以应付现实世界的关系的长尾分布。然而，他们的方法独立地预测每种关系。我们表明，我们的模型比他们的联合推理。视觉场景表示。表现视觉场景的最流行的方式之一是通过文本描述[14，34，44]。虽然基于文本的表示已被证明有助于场景分类和检索，但其能力往往受到模糊性和缺乏表达性的限制。相比之下，场景图[18]提供了视觉概念的明确基础，避免了基于文本表示的参考不确定性。场景图已用于许多下游任务，如图像检索[18]、3D场景合成[4]和理解[10]、视觉问答[37]和自动字幕评估[1]。然而，之前关于场景图的工作通过使用地面实况注释[18，37]或从其他模态中提取图[1，4，10]来回避图生成问题。我们的工作解决了直接从图像生成场景图的问题。图推理。条件随机场（CRF）在图的推理中得到了广泛的应用. Johnson等人使用CRF来推断用于图像检索的场景图接地分布[18]。Yatskar等人[40]提出了使用深度CRF模型的情境驱动的对象和动作预测。我们的工作与CRFasRNN[43]和Graph-LSTM[23]密切相关，因为我们还使用基于RNN的模型来制定图推理问题一个关键的区别是，他们专注于节点推理，同时将边缘视为成对约束，而我们使用一种新的原始-对偶图推理方案来实现边缘预测。我们也CNN+RPN图推理5412我与结构RNN有着相同的精神[16]。一个关键的区别是，我们的模型通过消息传递迭代地改进其预测，而结构RNN模型只在时间维度上进行一次性预测，因此无法改进其过去的预测。3. 场景图形生成场景图，如Johnsonet al. [18]是图像的结构化表示，其中场景图中的节点对应于具有它们的对象类别的对象边界框，而边缘对应于它们在对象之间的成对关系。场景图生成的任务是生成与图像最准确相关的视觉上接地的场景图。对对象和关系的直观的、个体的预测可以受益于它们周围的环境。例如，知道“一匹马在草地上”可能会增加检测到一个人并预测“人骑马”关系的机会。为了捕捉这种直觉，我们提出了一个联合推理框架，使上下文信息传播通过场景图拓扑通过消息传递计划。在一个密集连接的图上进行推理是非常昂贵的。如文献[19]和[43]所示，稠密图推理可以用连续随机场（CRF）中的平均场来近似我们的方法受到启发节点GRUB到边缘GRUB。利用这种原始-对偶公式，我们因此可以通过在这些子图之间迭代传递消息而不是通过密集连接的图来提高推理效率。图3给出了我们的模型的概述。3.1. 问题公式化我们首先列出了我们的场景图生成问题的数学公式。为了生成一个视觉接地的场景图，我们需要获得一组初始的对象边界框。这些边界框可以来自地面实况人类注释或算法生成。在实践中，我们使用区域建议网络（RPN）[32]从图像I自动生成一组对象绑定框建议 BI ，作为推理过程的基本输入（图 1 ）。 3（a））。对于每个对象框提案，我们需要推断两种类型的以对象为中心的变量：1）对象类标签，以及2）相对于建议框坐标的四个边界框偏移，其用于细化建议框。此外，我们需要在每对提案框之间推断一个以关系为中心的变量，它表示对应宾语对之间关系的谓词类型。给定一组对象类C（包括背景）和一组关系类型R（包括无关系），我们将所有变量的集合表示为x={xcls ， xbbox ， xi→j|i=1 。 . . n ， j=1 。 . . n 我j}，Zheng等[43]，它设计了完全可微的lay-iiiCLS使用递归神经网络（RNN）实现端到端学习。然而，他们的模型依赖于专门构建的RNN层。为了在更有原则的训练框架中实现更大的灵活性，我们使用通用的RNN单元，特别是门控递归单元（GRU）[7]。在每次迭代中，每个GRU将其先前的隐藏状态和传入消息作为输入，并产生新的隐藏状态作为输出。场景图中的每个节点和边在其对应的GRU单元中保持其内部状态，其中所有节点共享相同的 GRU 权重（节点GRU ），并且所有边共享另一组 GRU 权重（边GRU）。此设置允许模型传递消息（即，GRU隐藏状态的聚集）在GRU单元之间沿着其中，n是建议框的数量，x是e C是第i个提案框的类标签，xbbox∈R4是边界框相对于第i个提案框坐标的偏移量，xi→j∈R是第i个和第j个提案框之间的关系谓词在高层，推理任务是分类对象，预测其边界框偏移，并分类每对对象之间的关系谓词。形式上，我们将场景图生成问题公式化为找到最优x x=arg maxxPr（x|I，BI），其最大化给定图像I和框的以下概率函数建议B一：Y Y场景图拓扑。我们还提出了一个消息池-Pr（x|I，BI）=Pr（xcls，xbbox，xi→j|I，BI）。（一）ing函数，学习动态地将GRU的隐藏状态聚合到消息中。我们进一步观察到，场景图的独特结构形成了消息传递通道的二分结构。由于消息仅沿着场景图的拓扑结构传递，因此边缘GRU的集合和节点GRU的集合形成二分图，其中在每个集合内没有消息传递。受此观察的启发，我们制定了两个不相交的子图，本质上是对偶图彼此。原始图定义用于消息从边缘GRU传递到节点GRU的通道。对偶图定义了消息传递的通道我我i∈Vji在下一小节中，我们将介绍一种使用以门控递归单元[7]建模的迭代消息传递方案来近似推理过程的方法。3.2. 使用递归神经网络进行推理我们使用平均场进行近似推理。我们将每个变量x的概率表示为Q（x|·），并且概率仅取决于每个迭代处的每个节点和边的当前状态。与Zhenget al.[43]，我们使用通用RNN模块来计算5413i→j我i→j节点消息池场景图对象提议边缘GRU原始图入站边缘状态边缘GRU边缘GRU边缘特征节点状态节点消息出站边缘状态节点消息池message消息传球...节点特征对偶图对象状态边缘消息池沿边状态消息节点GRU受试者状态节点GRU节点GRU面对山背后骑手穿着穿着马帽子衬节点GRU边缘GRUT = 0边缘消息池T = 1 T = 2 T = N（a）（b）（c）（d）图3.我们的模型架构的说明（第二节）。（3）第三章。该模型首先从一组对象提议中提取节点和边的视觉特征，然后边GRU和节点GRU将视觉特征作为初始输入并产生一组隐藏状态（a）。然后，节点消息池函数计算在下一次迭代中从隐藏状态传递到节点GRU的消息。类似地，边消息池化函数计算消息并馈送到边GRU（b）。符号表示学习的加权和。的模型迭代地更新GRU的隐藏状态（c）。在最后一步迭代中，使用GRU的隐藏状态来预测对象类别、边界框偏移和关系类型（d）。隐藏的国家特别是，我们选择门控递归单元[7]，因为它的简单性和有效性。我们使用对应的GRU的隐藏状态，一个高维向量，来表示每个节点和每个边的当前状态。由于所有节点（边缘）共享相同的更新规则，因此我们在所有节点GRU之间共享相同的参数集合，并且在所有边缘GRU之间共享另一参数集合（图1B）。（3）第三章。我们表示节点i作为hi，并且边缘i→j的当前隐藏状态作为hi→j。则平均场分布可以公式化为YnQ（x|I，BI）=Q（xcls，xbbox|hi）Q（hi|（f v）我们可以通过描述场景图的唯一二分结构来进一步提高推理效率在场景图拓扑中，边缘GRU的邻居是节点GRU，反之亦然。沿着该结构传递消息形成两个不相交的子图，它们是彼此的对偶图。具体来说，我们有一个以节点为中心的原始图，其中每个节点GRU从其入站和出站边缘GRU获取消息在以边为中心的对偶图中，每个边GRU从其主体节点GRU和对象节点GRU获得消息（图12）。第3（b）段）。因此，我们可以通过在这两个子图之间迭代传递消息来提高推理效率，而不是通过我我i=1Y我（二）一个密集连接的图（图）。3（c））。j/=iQ（xi→j|hi→j）Q（hi→j|（f e）由于每个GRU接收多个传入消息，我们我需要一个聚合函数，可以将所有消息中的信息融合成有意义的表示。A naive？ave ap-其中fv是第i个节点的视觉特征，fe是方法将是标准的汇集方法，例如平均-i i→j从第i个节点到第j个节点的边的视觉特征node.在第一次迭代中，GRU单元将视觉特征f v和f e作为输入（图1）。3（a））。我们使用提案框的视觉特征作为第i个节点的视觉特征fv我们使用联合框的视觉特性，或最大池。然而，我们发现，学习自适应权重，可以调制传入消息的影响，并只保留相关信息。我们引入了一个消息池函数，该函数计算每个传入消息的权重因子，并将消息融合在一起。建议boxesbi，bj作为视觉特征fe用于边缘使用加权和的圣人。我们提供了一个经验分析-i∈j。这些视觉特征由ROI池层[12]从图像中提取。在以后的迭代中，输入为来自前一步骤的其它GRU单元的聚合消息。我们将在下一小节中讨论如何聚合和传递消息。3.3. 原始对偶更新和消息池秒3.2提供了一个使用RNN解决图推理问题的通用公式。然而，我们观察到5414分析不同的消息池功能。4.第一章形式上，给定节点和边的当前GRU隐藏状态h i和h i→j，我们将更新第i个节点的消息表示为m i，其通过其自身的隐藏状态h i以及其出站边GRU hi→j和入站边GRU h j→i的隐藏状态的函数来计算。同样地，我们表示从第i个节点更新边的消息到第j个节点作为mi→j，这是由它自己的隐藏状态hi→j的函数计算的，它的主体的隐藏状态5415节点GRU h i和其对象节点GRU h j。更具体地，通过以下两个自适应加权消息池函数来计算mi和mi→j我们的实验表明，我们的模型优于基线模型[26]，并且可以推广到其他类型的关系，特别是支持关系[28]，而无需任何架构更改。Σm=σ（vT[h，h]）hΣ+σ（vT[h，h]）h我们引入了一个新的场景图数据集我j：i→j1ii→ji→jj：j→i2i j→i（三）j→i基于Visual Genome数据集[20]。原始VG场景图数据集包含108，077个图像，每个图像平均有38个对象和22个关系然而，在这方面，mi→j=σ（WT[hi，hi →j]）hi+σ（WT[hj，hi →j]）hj（4）对象注释的相当大一部分具有较差的-1 2质量和重叠边界框和/或模糊其中[·]表示向量的级联，σ表示S形函数。W1，W2和v1，v2是可学习的参数.这两个方程描述了原始-对偶更新规则，如图（b）所示。3.第三章。3.4. 实现细节我们的最终输出层与更快的R-CNN设置密切相关[32]。我们使用softmax层来生成对象类和关系谓词的最终得分。我们使用一个完全连接的层来分别回归到每个对象类的边界框偏移。我们使用交叉熵损失对对象类和关系进行预测。我们对边界框偏移量使用101我们使用MS COCO预训练的VGG-16网络来执行从图像中提取视觉特征。我们冻结了所有卷积层的权重，只微调全连接层，包括GRUB。节点GRUB和边缘GRUB具有512维的输入和输出。在训练期间，我们首先使用NMS从所有提议的盒子BI中选择至多2,000个盒子，然后随机选择128个盒子作为对象提议。由于边的平方数和注释的稀疏性，我们首先采样所有具有标签的如果一个图像的标记边缘少于128个在测试时，我们使用NMS从对象亲中选择最多50个框我们在测试时对除了自连接之外的所有边进行预测。4. 实验我们评估我们的模型从图像生成场景图我们将我们的模型与最近提出的视觉关系预测模型进行了比较[26]。我们的目标是分析我们的数据集中的稀疏和密集的关系注释的模型。在我们的主要实验中，我们使用基于VisualGenome数据集[20]我们还在NYU Depthv2数据集中的支持关系推理任务上评估了我们的模型。这两个数据集之间的关键区别在于场景图注释非常稀疏：在所有可能的对象配对中，只有1.6%的对象被标记有关系谓词。另一方面，NYU Depth v2数据集详尽地注释了每个标记对象的支持。对象名称。我们手动清理了每个框的注释。平均而言，该注释细化过程纠正了22个边界框和/或名称，删除了7.4个框，并合并了每个图像的5.4个重复边界框。新数据集平均包含25个不同的对象和22个关系，每张图像。在这个实验中，我们使用最频繁的150个对象类别和50个谓词进行评估。因此，每个图像都有大约11.5个对象和6.2个关系的场景图。我们使用70%的图像进行训练，剩余的30%用于测试。NYU Depth V2我们还在NYU Depth V2数据集的支持关系图上评估我们的模型[28]。该数据集包含在27个室内场景中捕获的1，449张RGB-D图像每幅图像都用实例分割，区域类标签和区域之间的支持关系进行注释。我们使用标准分割，其中795张图像用于训练，654张图像用于测试。4.1. 语义场景图生成设置给定图像，场景图生成任务是本地化一组对象，分类它们的类别标签，并预测每对对象之间的关系。我们在新的场景图数据集上评估我们的模型我们在下面的三个设置中分析我们的模型。1谓词分类（PRECLS）任务是预测一组本地化对象的所有成对关系的谓词。此任务检查模型2 场景图分类（SceneGraphClassification，SGC-LS）的任务是在给定一组局部对象的情况下，预测每一对关系中主语和宾语的谓词以及宾语3 场景图生成（SGGEN）任务是同步检测一组对象，并预测每对检测到的对象之间的谓词。如果物体与地面真值框至少有0.5 IoU重叠，则认为该物体被正确检测到。我们采用了Lu等人使用的图像召回评估指标R@50和R@100。[26]54160.550.500.450.400.350.300 1 2 3迭代次数表1. Visual Genome数据集上场景图生成任务的评估结果[20]。我们比较了我们的模型对视觉关系检测模块提出的Lu等人的几个变化。[26]第二节4.1.1）。[26]平均值pool max pool final图4.谓词分类性能（R@100）使用我们的模型与不同数量的训练迭代。请注意，基线模型相当于我们的零迭代模型，因为它将节点和边的视觉特征直接提供给分类器。所有三个设置。R@k度量测量出现在图像中的前k个最有信心的三元组预测中的地面实况关系三元组（主语-谓语-宾语）如[26]中所解释的，该度量的选择是由于Visual Genome中关系注释的稀疏性-mAP等度量会错误地惩罚未标记关系的阳性预测我们还报告了分类单个同品种器械的每种类型召回@5该度量度量测量正确谓词在每个标记关系三元组的前5个最可信预测中的时间分数。如表2所示，许多谓词具有非常相似的语义，例如，on与over和hanging from与attachedto。在训练期间，较不频繁的谓词将被较频繁的谓词所掩盖。我们使用召回度量来减轻这种影响。4.1.1网络模型我们评估我们的最终模型和一些基线模型。我们的原始-对偶公式中的关键组件之一是消息池函数，该函数使用学习的加权和将节点和边缘的隐藏状态3和等式4）. 为了证明它的有效性，我们用标准的池化方法来评估我们模型的变体。第一个是使用平均池（avg。池）而不是学习的加权和来聚集隐藏状态。第二个类似于第一个，但使用了max-pooling（max pool）。我们还评估了我们的模型对Lu等人提出的关系检测模型。[26]第10段。他们的模型由两部分- 视觉模块，其根据图像进行预测，以及语言模块，其捕获语言先验。我们与他们的视觉模块相匹配，它使用与我们相同的输入;他们的语言模块与我们的模型是正交的，可以独立添加。请注意，这个模型等价于我们最终的模型，没有任何消息传递。表2. 谓词分类召回。我们将我们的最终模型（经过两次迭代训练）与Lu等人进行比较。[26]第10段。显示了前20个最常见的类型（按频率排序）。评估指标为recall@5。谓词[26日]我们谓词[26日]我们对99.7199.25下28.6452.73具有98.0397.25坐在31.7450.17在80.3888.30站在44.4461.90的82.4796.75面前26.0959.63穿着98.4798.23附接到8.4529.58附近85.1696.81在54.0870.41与31.8588.10挂在0.000.00上述49.1979.73超过9.260.00控股61.5080.67为12.2031.71背后79.3592.32骑72.4389.724.1.2结果表1显示了我们的模型和基线的性能基线模型[26]对孤立的对象和关系进行单独谓词分类器获取的唯一信息是一个覆盖两个对象的联合的边界框，这可能会混淆主语和宾语。我们在后面的定性分析中展示了一些错误。我们的最终模型在连接的隐藏状态上学习加权和，大大优于基线模型（R@100度量的预测分类增益为18%）和模型变量。这表明学习调制来自其他隐藏状态的信息使网络能够提取更多相关信息并产生更好的性能。图4显示了我们用不同迭代次数训练的模型的谓词分类性能。我们最终模型的性能在两次迭代训练时达到峰值，之后逐渐下降。我们假设这是因为随着迭代次数的增加，噪声消息开始渗透到图中并妨碍最终的预测。另一方面，最大池和平均池模型在第一次迭代后几乎没有改进，由于这些幼稚的聚合方法，显示出无效的消息传递。最后，表2显示了每个类型谓词重新基线平均值最大池最终模型R@100PRED CLSR@5027.8832.3934.3344.75R@10035.0439.6341.9953.08SGCLSR@5011.7915.6516.3121.72R@10014.1118.2718.7024.38公司简介R@500.322.703.033.44R@1000.473.423.714.245417姆布雷拉对杯女人负责人穿着近近裤子马马1对具有window1(a)（b）（c）未知1对建筑花瓶N=0（基线）山体背后骑手穿着穿着面对马帽衫u积雪树附近建筑控股花瓶onin表花在in in轴承对花瓶onwithN=1山背后马伞背后控股表花骑手穿着穿着帽衫一种人窗口头对玻璃下熊对下在N=2地面实况树附近点登录信号1窗口建筑window1对窗口对附近极在围栏number对火车腿上鞋的人磨损磨损衬衫短对对帽鞋具有臂N=2对对具有arm1具有手控股球拍人人磨损磨损穿着衬衫帽对对裤图5.来自基线模型和我们的最终模型的样本预测，用不同数量的消息传递迭代训练。模型将图像和对象边界框作为输入，并产生对象类标签（蓝色框）和每对对象之间的关系谓词（橙色框）。为了保持可视化的可解释性，我们仅显示具有地面真实关系注释的对象（节点）对的关系（边）预测。电话基线模型和我们的最终模型在预测频繁谓词方面表现良好。然而，对于不太频繁的谓词，模型之间的差距扩大了这是因为我们的模型使用上下文信息来应对关系注释中的不均匀分布，而基线模型通过孤立地进行预测而受到更多的偏斜分布的影响。4.1.3定性结果图5显示了定性结果，比较了我们用不同迭代次数训练的最终模型和基线模型。结果表明，基线模型容易混淆关系中的主体和客体。例如，它在（b）中预测（撑伞的人），在（c）中预测（花瓶上的柜台）。我们花瓶面对山背后到了星期男子帽子具有衬衫树面前建筑安先生已伞超过控股表花人头努力工作杯具有上已经熊对穿着帽子人穿着穿衬衫眼睛骑马未知对伞控股穿着男子身穿控股未知玻璃头穿着on in花对对在熊对计数器树背后建筑Num. 训练迭代次数（N）5418的...5419表3.支持图生成任务的评估结果。t-AG代表类型不可知，而t-aw代表类型感知。支持精度PRED CLSt-AG陶R@50 R@100Silberman等人[28日]75.972.6- -Liao等人[24日]88.482.1- -基线[26]87.785.334.1 50.3最终模型（我们的）91.289.041.8 55.5用一次迭代训练的NAL模型能够解决对象-主体方向上的一些模糊性。例如，它在（b）中预测了（女人身上的雨伞）和（男人的头），但它仍然预测了像（花瓶中的花）这样的循环关系。最后，用两次迭代训练的最终模型能够做出语义上正确的预测，例如，（umbrella-behind-man），并解决循环关系，例如，（花瓶中的花）。我们的模型还经常预测在语义上比地面实况注释更准确的谓词，例如，我们的模型在（a）中预测了（戴帽子的人），在（c）中预测了花瓶下的桌子，而地面真实标签分别是（人有帽子）和（桌子有花瓶）图的底部。5展示了更多的定性结果。4.2. 支持度关系预测然后，我们使用密集标记的支持关系在NYU Depthv2数据集[28]上进行评估我们表明，我们的模型可以推广到其他类型的关系，是有效的稀疏和密集标记的关系。设置NYU Depth v2数据集包含三种类型支持关系：一个物体可以由来自后面的物体、来自下面的物体或由隐藏的物体支撑。每个对象还标有四个结构类之一：{地板、结构、家具、道具}。我们将支持图生成任务定义为预测支持关系类型对象和每个对象的结构类之间的关系。我们将包围对象分割掩码的最小边界框作为其对象区域。我们在这个任务中假设了真实的物体位置。我们将我们的最终模型与之前的两个模型[28，24]在支持图生成任务上进行比较。遵循以前工作中使用的度量，我们报告了两种类型的支持关系准确度[28]：类型感知和类型不可知。我们还报告了在第12节中介绍的等同分类任务的R@50和R@100测量的性能。4.1. 请注意，[28]和[24]都使用RGB-D图像，而我们的模型仅使用RGB图像。图6. 来自我们在NYU Depth v2数据集上的模型的样本支持关系预测[28]。→：从下面支持，：背后的支持。红色箭头表示错误预测。我们还有颜色代码结构类：地面为蓝色，建筑为绿色，家具为黄色，道具为红色。紫色表示缺少结构类。请注意，分割掩码仅用于可视化目的。结果我们的模型优于以前的工作，只使用RGB图像实现了新的最先进的性能。我们的研究结果表明，具有上下文信息进一步提高了支持关系预测，甚至与使用RGB-D图像的专用模型[24，28]相比较图6显示了使用我们最终模型的一些样本预测。不正确的预测通常发生在模糊的支持中，例如，书架上的书可能被误认为是从后面支撑的（第1行，第2列）。具有弱视觉特征的几何在第2行第1列中，图像左上角的天花板被预测为从后面支撑，而不是在下面由墙壁支撑，但是天花板和墙壁之间的边界这样的视觉不确定性可以通过具有附加的深度信息来解决。5. 结论我们解决了一个新的端到端模型自动生成一个视觉接地场景图从图像的问题我们的模型执行迭代消息传递之间的原始和对偶子图沿场景图的拓扑结构这样，它通过结合信息上下文线索来提高节点和边预测的质量。我们的模型可以被认为是一个更通用的框架图生成问题。在这项工作中，我们已经证明了它的有效性，在预测- ING视觉基因组场景图以及支持关系在室内场景。一个可能的未来方向是探索其在视觉和其他问题领域的其他结构化预测问题中的能力。5420鸣谢我们要感谢 Ranjay Kr- ishna ， Judy Hoffman ，JunYoung Gwak和匿名的重新观看者提供有用的评论。这项研究得到了雅虎实验室宏观奖和ONR MURI的部分奖引用[1] P. 安德森湾费尔南多M.Johnson和S.古尔德。Spice：语义命题图像字幕评价。在ECCV，2016年。[2] R. Baur，A. Efros，和M。赫伯特图像中3d对象位置的统计。2008年[3] S.贝尔角L. Zitnick，K. Bala和R.娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。arXiv预印本arXiv：1512.04143，2015年。[4] A. X. 张，M。Savva和C.D. 曼宁学习空间知识以产生文字至3d场景。2014年[5] Y.-- W. Chao ， Z. 中国地质调查局 Wang ， Y. He 、J.Wang和J.邓小平更Hico：识别图像中人与物体交互的基准。在ICCV，2015年。[6] Y.-- W. Chao，Z.中国地质调查局Wang，Y.他，J.Wang和J.邓小平更Hico：识别图像中人与物体交互IEEEInternational Conference on Computer Vision，2015。[7] K. 乔湾，巴西-地 VanMerr ieenboer，D. Bahdanau和Y.本吉奥。关于神经机器翻译的特性：编码解码器接近。arXiv预印本arXiv：1409.1259，2014。[8] C. Desai，D.Ramanan和C.福克斯静态人-物交互的判别2010年IEEE计算机协会计算机视觉和模式识别研讨会。IEEE，2010。[9] C. Desai，D. Ramanan和C. C.福克斯多类别物件布局的判别模型。国际计算机视觉杂志，95（1），2011。[10] M. Fisher，M.Savva和P.汉拉汉使用图形内核描述ACMSIGGRAPH 2011论文，2011年。[11] C. Galleguillos，A.Rabinovich和S.贝隆吉使用共现、位置和外观的对象分类。计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议。IEEE，2008年。[12] R. 娘娘腔。快速R-CNN。在IEEE国际计算机视觉会议论文集，2015年。[13] R.格希克，J。多纳休，T. Darrell和J.马利克基于区域的卷积网络用于精确的对象检测和分割。 IEEEtransactionsonpatternanalysisandmachineintelligence，38（1），2016。[14] A. Gupta和L. S.戴维斯超越名词：利用介词和比较形容词学习视觉分类词。欧洲计算机视觉会议。Springer，2008.[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，2016年。[16] A. 贾恩A.R. Zamir，S.Savarese和A.萨克塞纳Structural-rnn ：时空图的深度学习 arXiv 预印本 arXiv ：1511.05298，2015年。[17] Z. Jia，中国茶条A. Gallagher，A. Saxena和T.尘基于3D的推理，具有块、支撑和稳定性。在IEEE计算机视觉和模式识别会议论文集，2013。[18] J. Johnson，R.克里希纳，M。斯塔克湖J. Li，D. A. 莎玛M. S. Bernstein和L.飞飞使用场景图进行图像检索。在IEEE计算机视觉和模式识别会议，2015年。[19] P. K raühenbuühl 和V. 科尔顿具有高斯边势的全连通crfs的有效推理在神经信息处理系统的进展，2011。[20] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。在arXiv，2016。[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。[22] L.拉迪基角Russell，P. Kohli，and P. H.乇基于同现统计的图割推理。欧洲计算机视觉会议。施普林格，2010年。[23] X. Liang，X. Shen，J. Feng，L. Lin和S.燕.语义对象解析图。2016年欧洲计算机视觉会议[24] W. 廖，M.Y. Yang，H.Ackermann和B.罗森哈恩支持关系与语义场景图。arXiv预印本arXiv：1609.05834，2016年。[25] D. Lin，S.Fidler和R.乌塔松基于rgbd摄像机的三维目标检测的整体场景在Proceedings of the IEEE InternationalConference on Computer Vision，第1417-1424页[26] C.卢河，巴西-地克里希纳，M。Bernstein和L.飞飞视觉关系检测与语言先验。在欧洲计算机视觉会议上，2016年。[27] R. Mottaghi，X. Chen，X. Liu，N.- G.周S W.李，S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用CVPR，2014。[28] P. K. Nathan Silberman、Derek Hoiem和R.费格斯。室内分割和支持从rgbd图像推断。ECCV，2012年。[29] A. Oliva和A.托拉尔巴语境在物体再认中的作用Trendsin Cognitive Sciences，11（12）：520[30] A. Rabinovich，A.韦达尔迪角Galleguillos，E. Wiewiora和S.贝隆吉上下文中的对象。2007年IEEE第11届计算机视觉国际会议。IEEE，2007年。[31] 诉拉马纳坦角Li，J.邓，W。汉，Z.Li，K.顾、Y. 宋，S.本焦角Rossenberg和L.飞飞学习语义关系以更好地检索图像中的动作。2015年IEEE计算机视觉与模式识别会议（CVPR）。IEEE，2015年。[32] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。神经信息处理系统进展（NIPS），2015年。[33] M. R. Ronchi和P.佩洛娜描述图像中常见的人类视觉动作。在BMVC，2015年。5421[34] M. A. Sadeghi和A. 法哈迪。使用视觉短语进行识别。计算机视觉与模式识别（CVPR），2011年IEEE会议，2011年。[35] R. Salakhutdinov，A. Torralba和J.特南鲍姆学习共享多类目标检测的视觉外观。在计算机视觉和模式识别（CVPR），2011年IEEE会议上。IEEE，2011年。[36] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[37] D. 泰尼湖Liu和A.诉D. 亨格尔图形结构的表示为视觉问题回答。arXiv预印本arXiv：1609.05600，2016年。[38] A.托拉尔巴用于对象检测的上下文启动。国际计算机视觉杂志，53（2）：169[39] B. Yao和L.飞飞建立了人-物交互活动中物体与人体姿态的交互上下文模型。在计算机视觉和模式识别（CV

下载后可阅读完整内容，剩余1页未读，立即下载