关系支持网络：用于图像中对象关系提议的模型

36 浏览量更新于2023-10-15 收藏 1.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1⟨⟩⟩⟩ ⟨⟩⟨⟩⟨ ⟩ ⟨⟨ ⟩⟨关系提案网络张骥1，MohamedElhoseiny 2，Scott Cohen3，Walter Chang3，Ahmed Elgammal11罗格斯大学2Facebook人工智能研究3Adobe研究摘要图像场景理解需要学习场景中对象之间的关系。具有许多对象的场景可能仅具有几个单独的交互对象（例如，在具有许多人聚会图像中，可能只有少数人在彼此交谈为了检测所有关系，首先检测所有个体对象然后分类所有对将是低效的;不仅所有对的数量是二次的，而且分类需要有限的对象类别，这对于真实世界的图像是不可缩放的。在本文中，我们解决了这些挑战，通过使用- ING对图像中的相关区域来训练一个关系提议者，在测试时产生一个可管理的相关区域的数量我们将我们的模型命名为关系支持网络（Rel-PN）。像对象提案一样，我们的Rel-PN是类不可知的，因此可以扩展到对象的开放词汇表。我们证明了我们的Rel-PN的能力，本地化的关系，只有几千个建议。我们在Visual Genome数据集上展示了它的性能，并与我们设计的其他基线进行了比较。我们还进行了一个更小的子集的5,000张图像与超过37,000个相关区域的实验，并显示出有希望的结果。1. 介绍虽然对象检测正在以越来越快的速度发展，但相对较少的工作探索了大规模理解视觉关系[15，21]被定义为主语、谓语、宾语元组，其中检测视觉关系的目的不仅在于预测图像中是否存在关系，而且在于局部化谓语区域可以简单地由主语和*前两个作者对这项工作的贡献相等图1：给定一个图像及其对象建议，只有少数几对可以形成一组有意义的关系。蓝框是单独的对象建议，绿框是包含主体和对象的关系。在该图中，关系为R1：人，拍摄人，人考虑所有的对象提议对不仅在计算上是昂贵的，而且将包括许多误报，即，没有任何关系的配对对象框。在现实世界中出现了各种类型的视觉关系，下面不全面地说明。位置关系描述物体之间的相对位置，如玻璃、上、桌子、包、下、桌子等。属性关系描述了一个对象是另一个对象的一部分或由另一个对象组成（例如，砖，的，建筑物，人，与，眼镜）。这就需要一种超越空间关系的理解.第三种类型的关系描述了活生生的对象之间的相互作用，比如人，与人跳舞，人，骑马，马。在这里，需要姿势级别的理解，因为识别这些交互依赖于每个对象如何被摆到另一个对象第四种关系56785679∼⟨⟩⟨⟩⟨ ⟩ ⟨⟩⟨⟩包括生命和非生命物体之间的相互作用，如孩子，飞行，风筝和人，投掷，飞盘。除了这种类型所需的姿势级理解困难之外，交互对象可能彼此远离，这使得它进一步具有挑战性（例如，孩子，飞行，风筝）。为了处理所有这些情况，手写可以确定任意两个区域之间的任意关系的规则上述挑战强烈地激发了从数据中学习图像区域之间的连接的需要;这是我们工作的目标。假设对象类别的固定字典可用，[15]中采用的用于检测关系标签的解决方案是首先检测图像中的所有单个对象，并将所有对视为潜在的主体，对象对。通过在一组100种类型的对象上训练Faster-RCNN来检测对象，并且类似地，学习谓词检测器以检测70个谓词中的一个（来自谓词的封闭字典）。这种限制可以通过类不可知的对象建议来避免。然而，为了有一个好的召回率，建议的数量不能太少。在[25]中，使用了2000个建议，而在[27]中，数量减少到1000个。在[19]中，他们在测试时只使用了300个提案。然而，当考虑所有的提案对时，复杂性变成二次的。即使建议的数量小到300个，我们仍然需要识别所有90，000对，这使得关系检测系统的计算瓶颈。此外，包含许多单独对象的图像可能只包含少数关系，如图1所示。最近，Visual Genome数据集[12]已经发布，其中包含总共108，077张图像和33，877个对象类别。显然，在这种规模下应用任何闭字典方法都不是直截了当的，因为33，877个对象标签对于基于CNN的分类来说太多了。在本文中，我们介绍了关系建议网络（Rel-PN）扩展的概念，对象的建议，视觉关系。特别地，我们的目标是直接提出一组潜在的主体，客体对，而不考虑每一对单独的客体。由此产生的建议对的数量是几千，这是一个数量级小于由于二次复杂性的数量。我们称这些对为视觉关系建议，因为它们是关系的高召回率的良好候选者，并且它们的计算成本远低于穷举搜索（使用滑动窗口搜索）或考虑所有对象对。我们提出了一个端到端的可训练网络，它有三个分支，分别用于提出子对象、对象和关系。我们使用一种有效的策略来选择满足空间约束的候选对。然后将结果对传递到网络模块，该网络模块设计用于使用视觉和空间标准来评估兼容性，被过滤掉，并且剩余的对是最终的关系提议。我们进一步比较了我们的方法与几个直观的基线使用个别对象的建议，我们证明了我们的方法具有更高的召回率和更快的测试时间性能。2. 相关工作目标提案。对象建议方法一般可分为两种类型：无监督方法，包括超像素合并[25，4，2]和对象评估[1，27]，以及基于CNN学习的深度特征的监督区域预测[19，11，3]。后者已经变得越来越受欢迎，因为建议生成可以简单地使用一个CNN前向传递以接近实时的运行速度执行在准确性方面略有牺牲的情况下，可以将建议网络集成到端到端可训练检测系统中，从而实现更高的检测效率[6，18，14]。对象关系探索。有大量文献探讨了多个肥胖症之间的关系包括对象共现[17，22，13]和语义分割[9，24]。还研究了空间关系，以改善对象级别和像素精度任务[7，9]。这些方法的目标是利用对象之间的连接来提高单个对象的识别。相反，我们的任务旨在认识整个关系。此外，动作/交互识别[20，26，16]是一个研究得很好的领域，其中在我们的工作中，我们研究了不同类型的一般关系，其中视觉关系检测。视觉关系识别和检测任务已经取得了进展。在[21]中，引入视觉短语的概念来表示-发送关系元组。在[15]中，提出了一种新的关系检测模型，不仅可以识别关系，而且还可以定位相关对象。然而，该方法限于有限的一组谓词/关系（即，70个对象标签和100个谓词标签）。在[5]中，提出了一种用于视觉关系识别的无分类方法，但它没有定位预测关系中的对象。我们还注意到，一些最先进的对象检测方法[14，23，18]已经删除了对象建议步骤，并直接输出带有标签的检测框。我们认为，关系的建议仍然是必要的，难以避免的原因有三个。首先，对象提议的消除通常通过对锚框进行回归和分类来实现（即，一组位置和形状预定义的框），其中锚框的数量与特征图的比例相同（例如，[14]中的8732盒）。简单地将此策略应用于关系检测将需要考虑锚框的二次数量，即5680⟨⟩⟨⟩×⟨⟩⟩ ⟨⟩⟨×′××16× ××16× ××在大规模上不容易处理。其次，分类需要有限的对象类别，而现实世界中的关系描述通常是开放的。第三，提出关系不仅涉及定位显著区域，还涉及评估区域之间的视觉联系，这比简单地提出对象更具挑战性。3. 模型架构我们在设计模型时考虑了三个重要方面。（1）关系相容性：我们对两个区域彼此相关的概率进行建模（即，关系相容性预测器），（2）效率：界定关系区域（即，主体、客体对），它们通过（1）和（3）主体性和客体性检查兼容性：我们考虑到主体和客体来自不同的分布。这是由不同的子网络建模的，与对区域是对象的概率进行建模的子网络相反（我们称之为对象性）。主体和客体子网络：我们开始通过对作为给定区域的主体的概率进行建模来解决上述方面（即，主体性）以及作为给定区域的对象的概率（即，客观性）。可以直观地认为，主体和客体应该存在于同一类别空间中。然而，我们将在后面说明主语和宾语范畴的分布有不同的偏向，见3.1节。我们的模型通过单独的子网络区分地学习这两种分布，我们将其指定为主观性和客观性子网络。关系兼容模块：主体性并且对象性子网络产生具有至少50%。我们发现这种方法在降低计算复杂度方面非常有效。除了这些问题，我们还瞄准了一个可以端到端训练和测试的模型，即，它将图像作为输入并直接输出一组关系提议。为了解决所有这些问题，我们将任务分为三个步骤，对应于图2中所示的三个模块。3.1. 3个分支RPN我们使用 Faster RCNN[19] 中的区域建议网络（RPN）分别提出主题，对象和工会特别是，我们向RPN添加了两个双分支，从conv3 1开始，一直到conv53，从而得到一个3分支RPN（图2）。关系分支用于提出主体-客体对的联合框，而主体和客体分支提出它们自己的框。这种结构来自于我们的观察，即主体和客体的范畴分布首先，如果关系是交互（即，谓语是动词）如男孩、苍蝇、风筝，其主语更可能是生物。在这种情况下，主体范畴的分布第二，对于标记、on、t-shirt、kite、in、sky等位置关系和brick、of、building等属性关系，宾语的范畴分布偏向于较大、较粗的事物，主语的范畴分布偏向于较小、较细的事物。因此，需要两个独立的分支来学习这两个不同的分布。给定一幅尺寸为W H的输入图像，采用VGG- 16结构从conv 1 1到conv 5 3（13层）将图像转换为C×W′ × H ′的特征，其中C= 512，W′=W ′×H′× H ′ ×H ′×H′。开始分别是主体或客体的概率很高，但这些区域可能没有连接关系。因此，学习与关系的兼容性的需要变得明显。关系兼容性模块获取主体-客体对及其上下文（即，在我们的情况下是联合），并产生两个区域之间的关系相容性分数这些分数用于丢弃不具有关系的主体-客体区域。修剪主语-宾语对：虽然兼容性模块可以被馈送具有高主观性和客观性分数的区域，但是评估所有主体-客体对的兼容性在计算上仍然是昂贵的。这个莫-激励对的进一步修剪。我们的解决方案首先引入第三个子网络，该子网络经过训练，可以检测与地面实况注释的关系的联合框我们观察到，这个子网络可以单独定位联合框，召回率为94%。我们的想法是通过使用这个高召回率子网络来生成一组联合框来修剪主题-对象对，然后仅选择其联合矩形与生成的联合框重叠的主题-对象对，从这个特征图中，每个分支是N×W′×H′个盒子以（xmin，ymin，xmax，ymax）的形式，其中N是每个特征图位置的锚框这些框中的每一个都与每个分支的置信度得分相关联我们考虑W′H′网格中每个位置的5个比率和7个尺度，得到N= 35，其中5个比率为1：4，1：2，1：1，2：1，4：1，7个尺度为2，4，8，16，32，64，128。所有3NW′H盒和来自三个分支的3N W′H′置信度得分作为输入被传递到提议选择模块。在训练时，我们用相应的地面实况框来填充主体和对象分支。对于关系分支，我们使用主语和宾语框的联合作为每个关系的我们固定conv1 1到conv2 2的参数，并微调conv3 1到conv53。3.2. 方案选择在这个模块中，每组N个W′H′框被裁剪到图像边界，然后进行非最大值抑制并按其置信度得分排序。然后，我们选择顶部的Krel（在我们的模型中Krel=5000）关系-5681×视觉兼容性模块空间兼容性模块视觉评分空间得分兼容性评估α1 -α3分支RPNVGG16VGG16VGG16141414141414512conv5_3_sbjconv5_3_relconv5_3_obj512512RPN_sbjRPN_relRPN_objROI_sbjROI_relROI_objBoxDeltaConcaten777775127512<（、），Δ（，），Δ（，）>512投资回报率_sbjROI_relROI_objFC7718x64FC1536concat64x64softmaxconv_3x355512fc+softmax最终得分视觉评分空间得分方案选择<（、），Δ（，），Δ（，）>图2：关系建议网络架构。“sbj”、“obj”和“rel”是“主体”、“客体”和“关系”的缩写。我们将输入图像馈送到3分支RPN，其中每个分支产生一组候选框。橙色、紫色和蓝色框分别是主题、关系和对象提议。建议选择模块获取这些框并选择合格的主体-对象对，然后使用这些主体-对象对来生成视觉和空间特征。在视觉兼容模块中，每个主题框都被合并为一个7 × 7 × 512的特征，对象和关系框也是如此。然后将这三个特征连接起来，然后是卷积（conv）层，全连接（fc）层和softmax层，以获得视觉分数;在空间兼容性模块中，通过连接box deltas of cross-S，O-1，cross-S，P-1和cross-O，P-1生成18 -d特征。然后我们将特征传递给两个全连接（fc）层，然后是softmax层以获得空间分数。最后，将视觉和空间得分与α控制的不同权重相结合，以获得整体得分。运输箱子，并对每个箱子执行以下操作：1. 获取搜索区域：将关系框放大一个系数（1. 1）并将其用作搜索区域;2. 选择单个主题和对象：只考虑那些在搜索区域内的主题和对象框，选择主题框的前K个sbj和对象框的前K个obj（在我们的模型中，Ksbj= Kobj=9）;3. 选择合格的配对：对于K个sbjK个obj主体-客体对中的每一个，我们检查其联合框是否与当前关系框重叠一个阈值（在我们的模型中为0.5），并且仅在满足该条件时才保留它;我们还考虑K个sbj对的附加集合，其中我们将K个sbj主题框中的每一个与当前关系框配对。这一附加集合专门针对主体位于对象内的关系生成，例如，风筝、in、sky和建筑物的窗户。在这些情况下，对象框与关系框一致我们将所有合格的对添加到一个累积的无重复列表中;在对所有K个rel关系框进行这些操作之后，结果对通过主观性和客观性得分的平均值进行排名，并且保留前N个在测试时，这N对候选者被直接传递到下一个模块;在训练时，我们需要从它们生成正样本和负样本，因为兼容性模块被训练为二元分类器，该二元分类器被馈送有一批主体-对象对作为训练样本，其中二元标签指示每个对是否兼容。对于正样本，我们将其定义为满足以下三个条件的配对：1）对象框S与其最接近的地面实况对象框Sgt重叠至少0。5; 2）对象框O与其最接近的地面实况对象框Ogt重叠至少0。5; 3）两个地面实况框Sgt和Ogt应该是地面实况关系对。前两个条件确保每个盒子的定位精度，而第三个条件排除这些对5682×××××X××yXyx y whww hh(a) 两个阳性样本(b) 两个阴性样本图3：训练的抽样策略。采样前-示例图像与a）两个积极的对：R1=S1，O1=女孩，玩，篮球，R2=S2，O2=男孩，穿，裤子，b）提供上下文信息（即，整个关系区域的视觉特征）。在这个特征图上，我们使用一个没有零填充的3 3过滤器应用卷积层，将特征图从7 7至5 五、我们这样做有两个原因：一个是学习级联的代表性特征，另一个是减小参数的大小。之后，我们添加一个具有2048-d输出的全连接层和一个softmax层，以生成概率作为视觉分数。空间兼容性：通过考虑主体、客体和关系盒之间的差异，得到每个样本的空间特征。具体地，空间特征是连接三个6维向量的18维向量，每个6维向量指示主体和对象框S（S，O）、主体和关系框S（S，P）、对象和关系框S（O，P）的差异。我们采用箱回归的思想[8]，并使用箱增量作为箱差的度量。具体地，S（S，O）=（tSO，t SO，tSO，tSO，tOS，tOS），其中每个维度是对应的负对：R′= S，O，R′=S，O，x y w hx y11 222 1它们是通过配对不相关的主体和客体获得的。位置很好但不匹配给出tSO=（xS−xO）/wS，tSO=（yS−yO）/hS，tSO=log（wS/wO），tSO=log（hS/hO），（一）对于负样本，定义为满足-w h的对执行以下三项中的任何一项：1）主题框S与地面实况Sgt重叠小于0。5; 2）对象框O与地面实况Ogt重叠小于0。5; 3）主体和客体重叠至少为0。5，但这两个地面真理盒是不是一个地面-tOS=（xO−xS）/wO，tOS=（yO−yS）/hO，其中xS，yS，wS，hS表示主题框的中心坐标，并且类似地xO，yO，wO，hO用于对象框。前4个维度（tSO，tSO，tSO，tSO）是真理关系对。第三个条件很关键，因为将主体框回归到客体的框增量框，而最后2个维度（tOS，tOS）来自它使兼容性模块能够正确对比xybox delta（tOS，tOS，tOS，tOS），用于回归对象框匹配的配对和不匹配的配对，x y w h受试者，不包括tOS=log（wO/wS）和tOS=主体和客体之间的正向联系。采样策略如图3所示。whlog（hO/hS），因为tOS= 1−tSO且tOS= 1−tSO。似-本文定义了一种新方法，它是：（S，P）=（tSP，tSP，tSP，tSP，tPS，tPS），x y w hx y3.3. 相容性评估和相容性（O，P）=（tOP，tOP，tOP，tOP，tPO，tPO）。我们...x y w hx y兼容性模块被设计为评估给定框对是真实关系的可能性。我们考虑两个方面的可能性-我们为这两个目的设计了两个分支，从每个分支获得视觉分数和空间分数，然后将它们整合到最终分数中（如图2的“兼容性评估”所示）。以下各段介绍该单元的两个组成部分。目视兼容性：该组件的输入是从最后一个模块中选择的样本的视觉特征。每个特征是通过使用ROI池提取主题、对象和联合框内的conv53特征，然后将三个特征连接成一个来获得的。由于每个盒子的特征是512 77，我们最终得到一个1536 7 7的级联特征图。请注意，我们还集成了联合盒的特性，因为它连接（S，O），（S，P）和（O，P）得到18-d特征，然后将其传递到具有64个输出的两个连续的全连接层。softmax层被附加在最后以产生空间分数。一旦我们有了视觉分数pv和空间分数ps，我们就通过定义为p=αpv+（1 −α）ps（2）其中p是组合得分，α是视觉兼容性的比率我们根据经验设定α= 0。8的所有实验，并发现这个固定值的工作一样好。我们还在4.2节中对不同的α值进行了综合评价。4. 实验5683我们通过在图像中定位关系来评估我们的模型据我们所知，我们是第一个研究关系的人，5684×----√√⌈⌉⌈⌉IoU≥0.520005000800010000SS，成对14.918.420.521.5EB，成对16.420.823.324.4RPN，成对18.127.332.635.3Rel-PN，pro sel29.737.139.540.3Rel-PN，pro sel + spt25.234.23941.2Rel-PN，pro sel + vis29.339.142.343.1Rel-PN，pro sel + vis + spt29.839.442.843.2表1：VG的召回率（按5000个提案）“IoU≥t”表示主体框和客体框与地面实况重叠至少t. “Rel-PN” represents our model, “nns” denotes nearest neigh-bors search, “pro sel” denotes proposal selection, “vis” and “spt”stand for visual and spatial因此，我们证明了我们的方法的必要性我们在两个数据集上进行实验并报告最新结果：视觉基因组（VG）关系[12]和视觉关系检测（VRD）数据集[15]。4.1. 实验装置基线模型。我们研究以下基线模型的目的是评估由一些直观策略生成的关系提案的性能。给定一组N个对象提议P=P1，P2，...，第一个策略是简单地每两个对象建议配对（表示为“成对”）。更复杂的策略是将每个对象与其几何最近邻居（表示为“nns”）配对，因为直观地说，更近的对象更可能相关。具体来说，我们的第二个基线是将每个建议与前 K个最近邻居Q=Q1，Q2，.，QK，导致N K关系提案。盒中心之间的欧几里得距离被用作距离度量。每对Pi，Qj N，j = 1，… K）使用两次：一次是Pi作为主语，Qj作为宾语，另一次是Qi作为主语，Pj作为宾语。如果存在重复的对，则将其删除。我们为这两种策略中的每一种考虑三种对象建议方法：选择性搜索（SS）[25]，边缘框（EB）[27]和区域建议网络（RPN）[19]。对于SS和EB，我们直接将其应用于测试图像。对于RPN，我们使用主题和对象框作为训练的基础事实，然后使用训练后的模型生成单独的对象建议。表2：IoU≥0.5的VG的召回率。缩略语同表1。我们的模型。我们对我们的模型进行消融研究，并将结果与基线进行比较。具体而言，我们考虑模型的以下变体：提案选择。我们选择前N个建议的平均主观和客观评分的建议选择模块，而不提供给兼容性模块。建议选择+空间兼容性。我们只对最终提案使用空间置信度得分。建议选择+视觉兼容性。我们只对最终提案使用视觉置信度分数。建议选择+视觉+空间兼容性。这是我们完整的模型。合并视觉和空间评分，如第3.3节所示。评估设置。我们设计了以下两个实验，并评估了各种设置下的召回率：1. 5000个提案，不同的IoU阈值我们将关系提案的数量固定为5000，导致 N= 5000 = 71个针对成对策略的对象提议。对于最近邻策略，我们生成1）N= 100个对象提议，每个提议具有K= 50个最近邻; 2）N=200个对象提议，每个提议具有K= 25个最近邻; 3）N= 400个对象建议，每个对象建议具有K= 13个最近邻。我们使用0。5，0。6，0。7的交集超过联盟（IoU）阈值和报告召回率的关系propos- als，其中主体和客体重叠地面真理至少阈值。2. IoU≥0.5，不同数量的建议我们将基线策略固定为成对的，并为基线和我们的模型生成N rel = 2000，5000，8000和10000个关系建议。对于基线，相应的目标提案数量为N=Nrel=45、71、90和100。对于我们的模型，我们直接选择前2000，5000，8000和10000的建议，从我们的不同模块的分数排名4.2. 视觉基因组可视化基因组数据集（VG）包含108077幅图像，平均每幅图像有21个关系每个Rela-····5000个提案IoU≥0.5IoU≥0.6IoU≥0.7SS，成对，71×71不锈钢，nns，100×50不锈钢，nns，200×25不锈钢，nns，400×13EB，成对，71×71EB，nns，100×50EB，nns，200×25EB，nns，400×13RPN，成对，71×71RPN，nns，100×50RPN，nns，200×25RPN，nns，400×13Rel-PN，pro sel18.419.517.514.820.821.92118.727.332.53428.337.134.239.139.412.312.610.58.414.714.81310.519.222.521.115.82220.22424.27.27.15.54.28.37.55.84.29.49.88.15.28.57.89.79.95685⟨⟩⟨⟩××⟨⟩⟨⟩0.300.400.450.450.250.200.150.100.350.300.250.200.150.400.350.300.250.200.150.400.350.300.250.200.150.050.100.050.100.050.100.050.000.5 0.6 0.7 0.8 0.91.0IOU(a) 2000个候选区0.000.5 0.6 0.7 0.8 0.91.0IOU(b) 5000个提案0.000.5 0.6 0.7 0.8 0.91.0IOU(c) 8000个提案0.000.5 0.6 0.7 0.8 0.9 1.0IOU(d) 10000个提案图4：具有不同数量提案的VG上的召回与IoU。我们比较了2000年、8000年和 10000个建议，同时考虑5000个建议的成对和最近邻基线。关系的形式是主语、谓语、带有标注的主语和宾语边界框的宾语。我们遵循[10]，将数据分为103，077张训练图像和5，000张测试图像。我们训练模型300 k次迭代，学习率为0。001的第一个200 k和0. 0001最后10万定量结果。第一个实验的结果示于表1中，而第二个实验报告于表2中。我们还显示了召回与IoU曲线，2000、5000、8，000和10，000个提案。我们提出以下意见：表1显示，使用5000个建议，这是一个合理的复杂性，我们的完整模型实现了最高的召回对所有基线和我们的模型的变体。即使没有兼容性评估，单独的建议选择模块（表1中的“Rel-PN，prosel”）也可以达到37。1%的召回率，这是由于联合框定位的准确性，以及使用联合框选择合格的主题-对象对的有效策略。视觉兼容性显然比空间更重要。仅使用视觉兼容性可能导致次优性能（39. 1%），而单独使用空间相容性则表现出明显的回忆下降。这主要是因为对于一般关系，空间特征的分布通常更均匀，因此比视觉特征更少区分。例如，人、苍蝇、风筝的出现通常涉及一个人在天空中拿着风筝的线。然而，人也就是说，空间兼容性仍然优于最佳最近邻基线（37。1%对32. 5%），因为我们的空间评估模块学会了用不同的空间布局覆盖各种关系，而最近邻方法天真地将更近的对象视为提供更好的关系。在适当的近邻数下，最近邻策略优于两两策略。比如说，通过100个具有50个近邻的对象提议（这种好处来自于考虑比成对（100对71）更多的对象建议，并与最接近的对象配对，这些对象直观上更有可能相关。然而，当最近邻数K远小于目标建议数N时，性能明显下降.这是因为少数的最近邻居不能涵盖中距离或远距离的关系，例如男孩，苍蝇，风筝，其中如图4所示，我们的模型更适合于较小的IoU阈值。我们发现，这主要是由于当IoU值很高时RPN不好的原因（见[19]中的图2），当无监督建议方法（SS和EB）利用像素级线索（例如，SS中的超像素和EB中的边缘）来确定对象边界，而RPN类网络使用较小尺寸的特征（即，7x7来自conv5 3）。因此，回归的建议有较少的能力，以保证对象的边界可以准确地尽管如此，我们的模型在使用中等数量的建议时仍然优于其他模型（例如，5000）与合理的IoU（例如，IoU≥0.7）。定性结果。在图5中，我们展示了由我们的模型生成的示例pro-prism及其相应的地面实况。每个地面实况关系的短语（例如，女孩，追逐，泡沫）也被显示为更好的插图。我们的模型能够涵盖所有三种类型的关系（互动，位置，属性）。请注意，主体和对象框具有各种形状和距离，而我们的模型可以正确地找到有意义的关系，并通过框准确地定位主体和对象。目视兼容性重量。在表3中，我们显示了不同视觉相容性权重α值的召回率。我们可以看到，结果是接近，只要视觉com-兼容性权重大于空间权重，因为空间得分通常比视觉得分区分度低。不锈钢，45x45 EB，45x45RPN，45x45Rel-PN，sel，2000Rel-PN，sel+vis，2000年Rel-PN，sel+vis+spt，2000年SS、71x71SS、100x50SS、200x25SS、400x13EB、71x71EB、100x50EB、200x25EB、400x13RPN、71x71RPN、100x50RPN、200x25RPN、400x13Rel-PN，sel，5000Rel-PN，sel+vis，5000Rel-PN，sel+vis+spt，5000不锈钢，90x90 EB，90x90RPN，90x90Rel-PN，sel，8000Rel-PN，sel+vis，8000Rel-PN，sel+vis+spt，8000不锈钢，100x100 EB，100x100RPN，100x100Rel-PN，sel，10000Rel-PN，sel+vis，10000Rel-PN，sel+vis+spt，10000召回率召回率召回率召回率·····5686（a）女子，保持，控制器（互动）（b）女子，保持，自行车（互动）（c）男子，玩，足球（互动）（d）动物，在树下（位置）（e）大象，在狗后面（位置）（f）飞机，在天空中（位置）（g）女，戴着，围巾（定语）（h）轮胎，在，公共汽车上（定语）（i）鸟，有，头（定语）图5：VG上的关系提议示例。红色和蓝色框是真实的主体和客体，黄色和绿色框是我们模型的输出。5000个提案IoU≥0.5IoU≥0.6IoU≥0.71.0视觉，0.0空间39.1249.70.9视觉，0.1空间39.324.29.80.8视觉，0.2空间39.424.39.90.7视觉，0.3空间39.324.29.90.6视觉，0.4空间39249.90.5视觉，0.5空间38.523.89.7表3：具有不同α值的VG的召回率。.建议书的数量固定为5000份。IoU≥0.520005000800010000SS，成对22.12831.433EB，成对15.120.624.225.2RPN，成对28.936.24143Rel-PN，pro sel35.141.943.944.5Rel-PN，pro sel + spt27.238.64446.1Rel-PN，pro sel + vis36.844.145.547Rel-PN，pro sel + vis + spt38.344.346.447.3表4：IoU≥0.5的VRD召回率。然而，将适量的空间信息与视觉分数相结合可以提高性能（例如，0的情况。3%，从39。1的1%。0视觉，0。0空间”到39。百分之四的“0。8视觉，0。2空间”）。4.3. 视觉关系检测数据集在本节中，我们在[15]的视觉关系数据集（VRD）上进行实验。我们使用与Visual Genome实验相同的设置。在表4中，我们观察到我们的模型在小数据集上也优于基线我们还注意到，在这里，我们的空间模块在VRD上的性能明显优于在Visual Genome上的性能（例如，8000份提案中，44%对39%46%对10000人的41%）。这主要是因为，该数据集中的标注关系通常比Visual Genome更密集，即，主体和客体之间的距离因此，关系的空间分布更偏向于我们的空间相容性模块，更容易学习为了完整性，我们在补充材料中包括了该数据集的其他结果。5. 结论我们介绍了提出视觉关系的任务挑战包括视觉和空间变化之间的所有类型的关系和二次的复杂性，如果所有对个人的对象被认为是。我们开发了一种新的Rel-PN架构，它通过利用启发式空间约束和学习的兼容性度量来选择可管理数量的关系提案来解决这些挑战。我们的实验证明了我们的模型未来的工作包括将我们的关系建议应用到一个检测系统中，该系统输出主语、宾语和谓语的语言描述6. 确认这项研究的部分资金来自Adobe Research和美国国家科学基金会（NSF）的NSF-USA奖#1409683。引用[1] B. Alexe，T.Deselaers和V.法拉利测量图像窗口的目标性 IEEE Transactions on Pattern Analysis and MachineIntelligence，34（11）：21895687[2] P. Arbel a'ez，J. 庞特-T使用t，J。 T. Barron，F. Marques和J· 马利克多尺度组合分组在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第328-335页[3] Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议，第354-370页施普林格，2016年。[4] Carreira和C.斯明奇塞斯库Cpmc：使用约束参数最小切割的自动对象分割。 IEEE Transactions on PatternAnalysis and Machine Intelligence，34（7）：1312[5] M. Elhoseiny，S. Cohen，W.昌湾，澳-地Price和A.埃尔-伽马。Sherlock：Scalable Fact Learning in Images. arXiv预印本arXiv：1511.04891，2015年。[6] D. 埃尔汉角Szegedy，A.Toshev和D.安盖洛夫使用深度神经网络的可扩展对象检测。在计算机视觉和模式识别中，第2155[7] C. Galleguillos，A.Rabinovich和S.贝隆吉使用共现、位置和外观的对象分类。计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议，第1-8页。IEEE，2008年。[8] R.娘娘腔。快速R-CNN。在2015年国际计算机视觉会议（ICCV）的会议记录中[9] S. Gould，J. Rodgers，D.科恩，G. Elidan和D.科勒基于相对位置先验的多类分割。国际计算机视觉杂志，80（3）：300[10] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积定位网络。在IEEE计算机视觉和模式识别会议论文集，2016。[11] T. 孔氏A.Yao，Y.Chen和F.太阳超网络：走向精确的区域建议生成和联合对象检测.在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[12] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma等人可视化基因组：使用众包密集图像注释连接语言和视觉。arXiv预印本arXiv：1602.07332，2016。[13] L.拉迪基角Russell，P. Kohli，and P. H.乇基于同现统计的图割推理。欧洲计算机视觉会议，第239-253页。施普林格，2010年。[14] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。2016年欧洲计算机视觉会议[15] C.卢河，巴西-地克里希纳，M。Bernstein和L.飞飞视觉关系检测与语言先验。在欧洲计算机视觉会议上，2016年。[16] S. 马吉湖Bourdev和J.马利克从姿势和外观的分布式表示中识别动作在计算机视觉和模式识别（CVPR）中，2011 IEEE会议，第3177-3184页。IEEE，2011年。[17] T. Mensink，E. Gavves和C. G.斯诺克Costa：零炮分类的共现统计在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition 中，第 2441-2448页[18] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在IEEE计算机视觉和模式识别会议上，2016年。[19] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。神经信息处理系统（NIPS），2015年。[20] M. Rohrbach，W.丘岛Titov，S. Thater，M. Pinkal，以及B.席勒将视频内容转换为自然语言描述。在ProceedingsoftheIEEEInternationalConferenceonComputerVision，第433-440页[21] M. A. Sadeghi和A. 法哈迪。使用视觉短语进行识别。在计算机视觉和模式识别（CVPR）中，2011 IEEE会议，第1745-1752页。IEEE，2011年。[22] R. Salakhutdinov，A. Torralba和J.特南鲍姆学习共享多类目标检测的视觉外观。在计算机视觉和模式识别（ CVPR ）， 2011 IEEE 会议上，第 1481-1488 页。IEEE，20

下载后可阅读完整内容，剩余1页未读，立即下载