基于图的场景表示及生成方法

162 浏览量更新于2023-10-13 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

用于场景图生成的JianweiYang1 [0000−0002−2167−2880]， JiasenLu1， Stefan Lee1，DhruvBatra1， 2， and DeviParikh1， 21 2佐治亚理工学院Facebook AI Research{jw2yang，jiasenlu，steflee，dbatra，parikh}@ gatech.edu抽象。我们提出了一种新的场景图生成模型，称为Graph R-CNN，它在检测图像中的对象及其关系方面既有效又高效。我们的模型包含一个关系建议网络（RePN），有效地处理图像中的对象之间的潜在关系的平方数我们还提出了一个atten-tional图卷积网络（aGCN），有效地捕捉对象和关系之间的上下文信息最后，我们介绍了一个新的评价指标，是更全面和现实的比现有的指标。我们报告使用现有的和我们提出的指标评估的最先进的性能场景关键词：图R-CNN，场景图生成，关系建议网络，注意力图卷积网络1介绍视觉场景理解传统上专注于识别图像中的对象e.图像分类[9，15，34]）和空间范围（i. e.对象检测[7，22，31]或分割[21]）。这些以对象为中心的技术已经成熟显着，在最近几年，然而，表示场景的对象集合未能捕获的关系，这可能是必不可少的场景理解。最近的一项工作[12]提出将视觉场景表示为包含对象、其属性以及它们之间关系的图形。这些场景图形成了图像的可解释结构化表示，可以支持更高级别的视觉智能任务，例如字幕[24，39]，视觉问答[1，11，35，37-虽然场景图表示有着巨大的前景，但从图像中高效准确地提取场景图是具有挑战性的。将每对节点（对象）视为潜在边（关系）的自然方法-本质上是在全连接图上进行推理-通常在建模上下文关系时有效，但随着对象数量的增加（二次）扩展性很差，很快变得不切实际。要考虑的随机子采样边缘的朴素修复更有效，但由于分布同等贡献2Yang和Lu等建筑物为背景旁边车男孩附近车对附近轮磨损火(a)(b)（c）毛衣（d）其他事项栓图1.一、给定图像（a），我们提出的方法首先提取场景中可见的一组对象，并考虑所有节点之间的可能关系（b）。然后，它使用“相关的”的所有已知的数据来修剪不相似的相关图，从而产生部分候选图结构（c）。最后，应用注意力图卷积网络来整合全局上下文并更新对象节点和关系边标签。对象之间的交互远非随机的-以图1（a）为例，这更像是一种“卡”，而不是一种“构建”。此外，通常在对象之间发生的关系的类型也高度依赖于那些对象。图R-CNN。在这项工作中，我们提出了一个新的框架，图R-CNN，场景图生成，有效地利用对象关系的规则，通过两种机制，智能稀疏和候选场景图的我们的模型可以分解为三个逻辑阶段：1）对象节点提取，2）关系边修剪，以及3）图上下文集成，其在图1中描绘。1.在对象节点提取阶段，我们利用标准对象检测流水线[32]。这导致如图1B所示的一组局部对象区域。1b.我们在管道的其余部分引入了两个重要的新颖性，以将上述对象关系中的现实世界规律结合起来。首先，我们引入了一个关系建议网络（RePN），它学习有效地计算对象对之间的相关性得分，这些得分用于智能地修剪不太可能的场景图连接（与先前工作中的随机修剪相反稀疏后修剪图如图1B所示。1c.第二，给定所得到的稀疏连接场景图候选者，我们应用注意力图卷积网络（aGCN）在整个图中传播高阶上下文-与现有的工作相比，我们预测每个节点的边缘关注，使我们的方法能够学习调节信息流不可靠或不太可能的边缘。我们在图中示出了细化的图标签和边缘at-张力（与边缘宽度成比例）。1d.为了验证我们的方法，我们将我们的性能与Visual Genome [14]数据集上的现有方法进行了比较，发现我们的方法在Recall@50上实现了5.0的绝对增益，用于场景图生成[40]。我们还进行了广泛的模型消融，并量化了我们的建模选择的影响评估场景图生成。场景图生成的现有度量是基于对主题、谓词、对象三元组（例如，来自[14]的SGGen）或给定地面实况对象本地化的对象和谓词图R-CNN3(e.g.来自[14]的PredCls和PhrCls）。为了暴露这些度量的问题，考虑一种方法，该方法错误地使用了图1中的男孩。1a作为一个人，但其他方面识别他是1）站在消防栓后面，2）靠近汽车，和3)穿着毛衣在基于三元组的度量下，该微小错误（男孩对男人）可以被有效地均衡被正确识别的男孩的相关性的确定的细节提供地面实况区域的方法通过严格关注关系预测来回避这个问题，但是不能准确地反映整个场景图生成系统的测试时间性能。为了解决这种不匹配，我们引入了一种新的评估指标（SGGen+），更全面地评估场景图生成的性能相对于对象，属性（如果有的话），和关系。我们提出的度量SGGen+计算单例实体（对象和谓词），成对条目<对象，属性>（如果有的话）和三元组实体<主语，谓词，宾语>的总召回率。我们报告的结果，现有的方法在这个新的指标，并发现我们的方法也优于国家的最先进的显着。更重要的是，这种新的度量标准提供了一个更强大和全面的测量生成的和地面实况场景图之间的相似捐款摘要具体地说，这项工作通过引入一种新的模型（Graph R-CNN）来解决场景图生成问题，该模型可以利用对象关系规则，并提出了一种用于场景图生成的更全面的评估指标（SGGen+）。我们对现有的标准度量方法和这个新的措施，我们的模型基准-优于现有的方法。2相关工作上下文推理和场景图。使用上下文来改善场景理解的想法在计算机视觉中具有悠久的历史[16，27，28，30]。最近，受图形社区研究的表示法的启发，Johnson等。[12]介绍了从图像中提取场景图的问题，其将对象检测的任务[6，7，22，31，32]推广到也检测对象的关系和属性。场景图形生成。已经提出了许多方法来检测两个对象及其关系[2，17 -19，23，26，29，40，42 - 44，46]。虽然大多数这些作品指出，推理的场景图中的关系的二次数是棘手的，每个诉诸启发式的方法，如随机抽样来解决这个问题。我们的工作是第一个介绍可训练关系提议网络（RePN），其学习从所述图中修剪不太可能的关系边而不牺牲功效。RePN提供了高质量的关系候选人，我们发现这提高了整体场景图生成性能。大多数场景图生成方法还包括一些用于上下文传播和对候选场景图进行推理的机制，以便改进最终的标记。在文献[40]中，Xu等人将问题分解为两个子图4Yang和Lu等- 一个用于对象，一个用于关系-并执行消息传递。类似地，在[17]中，作者提出了两种用于在对象和关系之间传播信息的消息传递策略（并行和顺序）。 Dai等人[2]将场景图生成过程建模为条件随机场（CRF）上的推理。Newell等人[26]提出了直接从图像像素生成场景图，而不使用基于关联图嵌入的对象检测器。在我们的工作中，我们开发了一种新的注意力图卷积网络（aGCN），通过在候选场景图中的节点之间传播上下文来更新节点和关系表示-操作视觉和语义特征。虽然在功能上类似于上述基于消息传递的方法，但aGCN是高效的，并且可以学习将注意力放在可靠的边缘上并抑制不太可能的边缘的影响许多以前的方法已经注意到场景图生成的强烈规律在[23]中，Luetal.集成来自语言的语义先验以改进对象之间同样，Liet al.[18]证明了区域字幕也可以为场景图生成提供有用的上下文。与我们的动机最相关的是泽勒等。[42]形式化基序的概念（i. 例如，定期发生的图形结构），并检查其在Visual Genome数据集中的流行率[14]。作者还提出了一个令人惊讶的强大的基线，直接使用频率先验来预测关系-关系提案。我们的关系建议网络（RePN）受到启发，并且与用于对象检测的更快R-CNN [32]的区域建议网络（RPN）密切相关。我们的RePN在精神上也类似于最近提出的关系提案网络（Rel-PN）[45]。这些方法之间有许多细微的差别Rel-PN模型独立地预测针对主语、宾语和谓语的提议，然后对所有有效的三元组重新评分，而我们的RePN生成以对象为条件的关系，允许其学习对象对关系偏差。此外，他们的方法是类不可知的，并没有被用于场景图生成。图卷积网络（GCN）。GCN首先在[13]中在半监督学习的背景GCN将图数据上的复杂计算分解为每个时间步长处的每个节点的一系列局部化操作（通常仅涉及相邻节点）结构和边缘强度通常在计算之前是固定的。为了完整性，我们注意到即将出版的出版物[36]同时独立开发了类似的GCN注意力机制（如aGCN），并在其他（非计算机视觉）环境中显示了其有效性。3方法在这项工作中，我们模型场景图的图形组成的图像区域，rela- tionships，和他们的标签。更正式地说，让I表示一个图像，V是一个集合图R-CNN52X`转换特征关系提案网络注意GCN场景图图二.我们提出的Graph R-CNN框架的管道。给定一幅图像，我们的模型首先使用RPN提出对象区域，然后通过我们的关系建议网络（RePN）修剪对象区域之间的连接。注意GCN然后被应用于集成来自图中的相邻节点的上下文信息。最后，在右侧获得场景图。的节点对应的局部对象区域在I，E∈. VΣ表示对象之间的关系（或边），O和R分别表示对象和关系标签。因此，目标是建立P（S=（V，E，O，R））的模型。|I）的第10条。在这项工作中，我们将场景图生成过程分解为三个部分：对象区域建议¸x `GraphLa belingP（S|I）=P（V |I）P（E|V，I）P（R，O|（1）联系我们关系提案其将图构造（节点和边）与图标记分离。这种因式分解背后的直觉是直截了当的。首先，对象区域提议P（V|I）通常使用现成的对象检测系统（诸如[32]）来建模以产生候选区域。值得注意的是，现有方法通常对第二关系提议项P（E）进行建模|V，I）作为顶点V之间的潜在边的均匀随机采样。与此相反，我们提出了一个关系建议网络（RePN）直接模型P（E|V，I）-使我们的方法成为第一个允许端到端学习整个生成过程的方法。最后，图标号过程P（R，O|V，E，I）通常被视为迭代精化过程[2，17，40]。一个简短的流水线如图所示二、在下文中，我们讨论了我们提出的Graph R-CNN模型的与等式（1）中的每个项相对应的分量。1.首先，我们在第3.1节中讨论了使用Faster R-CNN[32]生成节点。然后在第3.2节中，我们介绍了我们的新的关系建议网络架构，智能生成的边缘。最后，在第3.3节中，我们提出了我们的图卷积网络[13]，它具有学习注意力，可以自适应地集成全局上下文来进行图标记。3.1对象提议在我们的方法中，我们使用更快的R-CNN [32]框架来提取一组n对象建议从输入图像。每个对象建议i与头RePNaGCN叶对密集图稀疏图注意图有落后目标议题的鸟具树第3层第2层第一层FCFC0.30.2………+ReLU具在站在对0.05翅膀FC源目标分支对象对象关注尾……………6Yang和Lu等我空间区域r。= [xi，yi，wi，hi]、池化特征向量x。我我类C ={1，. . . ，k}。我们将所有n个方案的这些向量的集合表示为矩阵Ro∈ Rn×4，Xo∈ Rn×d和Po∈Rn× d。|C|分别3.2关系建议网络给定前一步中提出的n个对象节点，它们之间的可能连接为O（n2）;然而，如前所述，由于现实世界对象交互中的规律性，大多数对象对不太可能具有关系。为了对这些规律进行建模，我们引入了一个关系建议网络（RePN），它可以学习有效地估计对象对的相关性通过修剪对应于不太可能关系的边缘，RePN可以有效地稀疏候选场景图在本文中，我们利用估计的类分布（Po）来推断相关性-这种选择与我们的直觉很好地吻合，即与其他一些类相比，某些类相对不太可能交互。具体地，给定初始对象分类分布P o，我们对所有n *（n − 1）个方向对{po，po|i = j}，com-I j将关系式表示为sij=f（po，po），其中f（·，·）是一个线性关系式I j功能f（·，·）的一个直接实现可以是传递con（·，·）。在一个实施例中，该方法包括将链接[p〇，p〇]作为输出分数的多层感知器的输入I j然而，这种方法会消耗大量的内存和计算给定对象对的二次数量。为了避免这种情况，我们考虑一个非对称核函数：f（po，po）=∠Φ（po），Ψ（po）∠，i/=j（2）i j i j其中Φ（·）和Ψ（·）是对象和对象在关系空间中的投影函数。该方法只需要对Xo进行两次投影处理，然后进行矩阵乘法，就可以计算出矩阵S={sij}n×n的系数。我们使用两个多层感知器（MLP），具有相同的架构（但不同的参数）用于Φ（·）和Φ（·）。我们还将S形函数逐元素地应用于S，使得所有相关性分数的范围从0到1。在获得所有对象对的得分矩阵后，我们将得分按降序排序并选择前K对。然后，我们应用非最大抑制（NMS），以过滤出对象对有显着的重叠与他人。每个关系具有一对边界框，并且组合顺序为matter。我们计算两个对象对{u，v}和{p，q}之间的重叠为：I（ro，ro）+I（ro，ro）IoU（{u，v}，{p，q}）=upvQU（ro，ro）+U（ro，ro）（三）up vQ1我们区分关系中的第一个和最后一个宾语，分别作为主语和宾语，也就是说，<主语，关系，宾语>。图R-CNN7我其中运算符I计算两个框之间的相交面积，U计算并集面积。剩余的m个对象对被认为是具有有意义的关系E的候选。利用E，我们得到图G=（V，E），其中比原来的全连通图稀疏得多。连同针对图提出的边，我们得到视觉表示Xr={Xr，…xr}用于1m通过从每个对象对的并集框中提取特征来确定所有m个关系3.3关注GCN为了整合由图结构通知的上下文信息，我们提出了注意力图卷积网络（aGCN）。在我们描述我们的适当的数据GCN之前，如在[13]中所提出的，我们简单地将G C N表示简而言之，对于图中的目标节点i，它的每个节点{i，j，j}的子集都是相同的。|j∈N（i）}首先通过学习的线性变换W进行变换。然后，这些变换后的表示以预定权重α收集，然后是非线性函数σ（ReLU [25]）。这种逐层传播可以写为：z（l+1）=σz（l）+Σα Wz（l）（4）i iijjj∈N（i）或者等价地，我们可以将节点表示收集到矩阵Z∈Rd×Tn中z（l+1）=σ.ΣWZ（l）αi（五）对于αi∈[0，1]n，其中对于非相邻i的节点有0个元素，且αii= 1.在传统的GCN中，图中的连接是已知的，并且基于特征的对称归一化邻接矩阵预先设定系数向量αi在本文中，我们将传统的GCN扩展到注意力版本，我们称之为aGCN，通过学习调整α。为了从节点特征预测注意力，我们在级联节点特征上学习2层MLP，并且对所得分数计算softmax。节点i的注意力是uij=wTσ（Wa[z（l），z（l）]）（6）官网�iαi= softmax（ui），（7）其中，Wh和Wa是学习参数，并且[·，·]是级联运算。在f inii上，我们成立αii=1和αij=0j∈/N（i）. 由于attion是节点特征的函数，因此每次迭代导致影响后续迭代的改变的注意aGCN用于场景图生成。回想一下，在前面的部分中，我们有一组N个对象区域和m个关系。从这些，我们构建一个图G与节点对应的对象和关系的建议。我们在关系节点及其关联对象之间插入边。我们还直接在所有对象节点之间添加跳过连接边。这些连接允许8Yang和Lu等我II信息直接在对象节点之间流动。最近的工作表明，关于对象相关性的推理可以提高检测性能[10]。我们将aGCN应用到这个图中，以根据全局上下文更新对象和关系表示。请注意，我们的图捕获了许多不同类型的连接（即。e. 客体关系，关系主体和客体客体）。此外，跨每个连接的信息流可能是不对称的（主体对关系的信息性可能在关系与主体之间完全不同）。我们学习每种类型和排序的不同变换使用与Eq. 5并将对象和关系特征写为Zo和Zr，我们将对象节点的表示更新写为消息从其他对象消息从邻里关系x `x `zo=σ（WskipZoαskip+WsrZrαsr+WorZrαor）（8）其中αskip=1，对于关系节点，类似地，zr=σ（zr+WrsZoαrs+WroZoαro）的情况。（九）ii `x来自相邻对象的其中，α在每次迭代时计算，如等式2中所示。7.第一次会议。一个开放的选择是如何初始化对象和关系节点表示z，其可以潜在地被设置为任何中间特征表示或甚至对应于类标签的pre-softmax输出。在实践中，我们同时运行视觉和语义aGCN计算-通过这种方式，我们可以推理较低级别的视觉细节（即即，如果两个人面对彼此，则他们可能在说话）以及更高级别的语义共现（即，汽车有轮子）。此外，我们将语义aGCN中的注意力设置为视觉的注意力。aGCN这也强制在两个图中表示的真实世界对象和关系以相同的方式与其他对象交互3.4损失函数在Graph R-CNN中，我们将场景图生成过程分解为三个子过程：|V，E，I），P（E|V，I），P（V |I），其在上文中描述。在培训期间，这些子过程中的每一个都在监督下进行培训。为P（V|I），我们使用与RPN中使用的相同的损失，其包括提案上的二进制交叉熵损失和锚点的回归损失。对于P（E|V，I），我们使用另一个二元交叉熵损失的关系建议。为最终场景图生成P（R，O|V，E，I），两个多类交叉熵损失用于对象分类和谓词分类。图R-CNN9衬衫T磨损头盔试验男孩使用有带汗环对哈达人在监视下磨损衬衫T磨损头盔试验人用具有带悬停服站在对悬停服滑板裤冲浪板短路试验滑板裤滑板裤SGGen=5SGGen+=16SGGen=0SGGen+=0 SGGen=0SGGen+=10SGGen=2SGGen+=9（一）(b)（c）第（1）款（d）其他事项（e）图三.一个例子来说明SGGen和SGGen+之间的区别。给定输入图像（a），其地面实况场景图在（b）中描绘。（c）-（e）是三个生成的场景图。为了清楚起见，我们只显示与男孩的联系。在每个图表的底部，我们比较了两个指标的正确预测数量4评估场景图生成场景图生成自然是属性图上的结构化预测问题，并且如何正确且有效地评估预测是场景图生成的现有工作中未被研究的问题我们注意到基于最小图编辑距离的图相似性在图论中已经得到了很好的研究[5];然而，计算精确解是NP-完全的，并且近似是APX-困难的[20]。先前的工作已经通过在[40]中引入的基于简单三重召回的度量下评估场景图生成来在我们将被称为SGGen的该度量下，地面真实场景图被表示为一组<对象、关系、主题>三元组，并且通过在c h处的exactm来计算召回。通常，如果所有三个元素都已被正确地标记，并且对象节点和主体节点都已被正确地定位（即，对象节点和主体节点都已被正确地定位），则在一个场景图中，对象节点被正确地定位。例如，边界框IoU> 0.5）。虽然计算简单，但该度量导致了我们在图中展示的一些不直观的相似性概念3.第三章。图3a示出了叠加有（b）中所示的地面实况场景图中的对应着色节点的边界框定位的输入图像。(c)（d）和（e）呈现了对应于这些相同定位的错误标记的场景图。即使是对（c）和（d）的随意检查也会产生它们准确性(c) 甚至连一个节点或关系都无法准确预测！尽管存在这些差异，但两者都没有回忆起一个完整的三联体，并且在SGGen下得分相同（i.例如，0）。为了解决这个问题，我们提出了一个新的度量称为SGGen+作为SGGen的增强。SGGen+不仅考虑图中的三元组，而且考虑单例（对象和谓词）。SGGen+的计算可以公式化为：回忆= C（O）+C（P）+C（T）N（十）头盔试衬衫男孩下带安先生已站在磨损10Yang和Lu等其中C（·）是计数操作，因此C（O）是正确定位和识别的对象节点的数量;C（P）是指同品种器械。由于谓语的位置取决于主语和宾语的位置，只有主语和宾语都C（T）用于三重态，其与SGGen相同。这里，N是地面实况图中的条目的数量（对象、谓词和关系的数量的总和）。在图3中，使用我们的SGGen+，图（c）的召回率仍然为0，因为所有预测都是错误的。然而，图（d）的召回率不再为0，因为除了红色节点的一个错误预测之外，大多数对象和所有谓词预测都是基于我们的新的度量，我们可以得到一个更全面的测量场景图的相似性。5实验近年来，在场景图生成的数据预处理、数据分割和评价等方面存在一些不一致的地方。这使得很难系统地衡量进展情况，并清晰地比较论文之间的数字。因此，我们首先澄清我们的实验设置的细节。数据集。存在已经在场景图生成文献[18，40，45]中使用的视觉基因组数据集的多个分割。最常用的是[40]中提出的方法因此，在我们的实验中，我们遵循他们的预处理策略和数据集分割。预处理后，数据集被分成训练集和测试集，分别包含75，651张图像和32，422张在该数据集中，选择最频繁的150个对象类和50个关系类。每个图像在场景图中有大约11.5个对象和6.2个关系训练对于训练，在文献中已经使用了多种策略。在[18，26，40]中，作者使用了两阶段训练，其中对象检测器被预先训练，然后是整个场景图生成模型的联合训练为了与以前的工作[18，40]保持一致，我们还采用了两阶段训练指标.我们使用四个指标来评估场景图生成，包括三个以前使用的指标和我们提出的SGGen+指标：– 同品种器械分类（PredCls）：在给定地面实况位置的情况下识别两个对象之间的关系的性能。– 短语分类（PhrCls）：识别两个对象类别及其关系的性能，给出了地面真实位置。– 场景图生成（SGGen）：检测对象（IoU> 0.5）和识别对象对之间的关系的性能。– 综合场景图生成（SGGen+）：除了SGGen计数的三胞胎之外，它还考虑了单例和成对（如果有的话），如前所述。评价在我们的实验中，我们将主题，对象及其关系的分类得分相乘，然后按降序排序图R-CNN11根据这个顺序，我们分别计算前50名和前100名的召回率。评价方案中现有文献的另一个差异是w.r.t. PhrCls和PredCls度量。一些以前的作品[18，26]使用不同的模型来评估不同的指标。然而，这样的比较是不公平的，因为模型可以被训练为过拟合相应的度量。为了进行有意义的评估，我们评估了一个单一的模型5.1实现细节我们使用与VGG 16 [33]相关的Faster R-CNN [32]作为基于PyTorch重新实现的主干在培训期间，来自RPN的提案数量为256。对于每个提议，我们执行ROI对齐[8]池化，以获得7 × 7响应图，然后将其馈送到两层MLP以获得每个提议的响应。在RePN中，预连接函数Φ（·）和Ψ（·）简单地是两层MLP。在训练过程中，我们从候选对象的二次数量中抽取了128个对象对。然后，我们获得两个对象的盒子的并集，并提取并集的表示。盒对NMS的阈值为0.7。在aGCN中，为了获得对一个节点对的关注，我们首先将对象/谓词特征投影到256-d中，然后将它们连接到512-d中，然后将其馈送到具有1-d输出的两层MLP对于aGCN，我们分别在特征级和语义级使用图上的注意力在特征级的每个aGCN层中被更新，然后被固定并发送到语义级的aGCN。训练如前所述，我们执行阶段式训练-SGD被用作优化器，两个训练阶段的初始学习率为1 e-2。5.2新度量我们首先定量地证明了我们提出的度量SGGen+和SGGen之间的差异。我们通过扰动地面真实场景图来比较它们我们考虑随机分配不正确的标签对象;干扰对象1）没有关系，2）有关系，和3）两者。我们在{20%，50%，100%}之间改变被扰动的节点的分数。报告两个指标的召回率如表1所示，SGGen对没有关系的对象的扰动完全不敏感（始终保持在100），因为它只考虑关系三元组。请注意，数据集中平均有50.1%的对象没有关系，而SGGen忽略了这一点。另一方面，SGGen对具有关系的对象上的标签错误过于敏感（在仅20%的扰动下报告54.1，其中整体场景图仍然相当准确）。注意，即使在100%扰动下，对象定位和关系仍然是正确的，使得SGGen+提供非零分数，这与SGGen不同，SGGen认为图完全错误。总的来说，我们希望这项分析表明，SCGen+比SCGen更全面。12Yang和Lu等扰动类型无，无关系，有关系扰动比0%的百分比百分之二十百分之五十百分百百分之二十百分之五十百分百百分之二十百分之五十百分百SGGen100.0100.0100.0100.054.122.10.062.224.20.0SGGen+100.094.589.176.884.369.647.980.156.622.8表1.不同扰动下SGGen和SGGen+之间的比较SGGen+ SGGen PhrCls PredCls方法R@50 R@100 R@50R@100 R@50 R@100 R@50 R@100表2. Visual Genome测试集的比较[14]。我们使用相同的对象检测主干重新实现了IMP [40]和MSDN[18]，以进行公平的比较。5.3定量比较我们将我们的Graph R-CNN与最近提出的方法进行了比较，包括迭代消息传递（IMP）[40]，多级场景描述网络（MSDN）[18]。此外，我们评估了[42]中提出的神经基序频率基线。注意，先前的方法通常使用稍微不同的预训练过程或数据分割或额外的监督。为了进行公平的比较并控制这种正交变化，我们在代码库中重新实现了IMP，MSDN和频率基线然后，我们基于我们的主干重新训练IMP和MSDN-我们将它们表示为IMP†和MSDN†。使用相同的预先训练的对象检测器，我们将[42]中的神经基序频率基线报告为NM-Freq。我们在表2中报告了场景图生成性能。上面三行是原始论文中报告的数字，下面四行是我们重新实现的数字。首先，我们注意到，我们对IMP和MSDN的重新实现（ IMP和MSDN）在一些标准（但不是全部）下产生了接近或优于最初报告的数字的性能，这确定了接下来的外卖消息确实是由于我们提出的架构选择-接下来，我们注意到GraphR-CNN优于IMP†和MSDN†。这表明我们提出的Graph R-CNN模型更有效地从图像中提取场景图。我们的方法在所有指标上都优于频率基线，表明我们的模型不仅从训练数据中学习了简单的共现统计数据，而且还具有上限。IMP [40]--3.44.221.724.444.853.0MSDN [18]--7.710.519.321.863.166.4[26]第二十六话--9.711.326.530.068.075.2IMP† [40]25.627.76.48.020.622.440.845.2[18]第十八话25.828.27.09.127.629.953.257.9NM-Freq† [42]26.427.86.99.123.827.241.848.8图R-CNN（US）28.535.911.413.729.631.654.259.1图R-CNN13见图4。添加RePN后，每个类别的对象检测性能发生变化。检测SGGen+ SGGen PhrCls PredClsRePN GCN aGCNmAP@0.5R@50 R@100 R@50 R@100 R@50 R@100 R@50 R@100---20.425.927.96.17.917.819.933.538.4C--23.627.634.88.711.118.320.434.539.5CC-23.428.135.310.813.427.229.552.357.2C-C23.028.535.911.413.729.431.654.259.1表3.Graph R-CNN上的消融研究我们报告了基于四个场景图生成度量的性能和mAP@0.5中的对象检测性能。在个别图像中创建上下文更全面地，我们比较了IMP和MSDN的训练和推理效率IMP使用2.15倍，而MSDN使用1.86倍。在推理过程中，IMP比我们的Graph R-CNN慢3.27倍，而MSDN慢3.80倍。这主要是由于我们的模型中简化的架构设计（特别是用于上下文传播的aGCN5.4消融研究在图R-CNN中，我们提出了两个新的模块在本小节中，我们进行了消融研究，以清楚地了解这些不同组件如何影响最终性能。表3中最左边的列指示我们在我们的方法中是否结果报告在表3的其余列中。我们还报告对象检测performancemAP@0。[5]以下是P作为calVOC的方法[ 4]。在表3中，我们发现RePN显著提高SGGen和SGGen+这表明我们的RePN可以有效地修剪对象之间的虚假连接，以实现正确关系的高召回率。我们还注意到它显著提高了对象检测。在图4中，我们示出了当添加RePN时的每类别对象检测性能变化。为了视觉清晰，我们在生成图时删除了每隔一列。我们可以看到，几乎所有的对象类别在添加RePN后都有所改善。有趣的是，我们发现对球拍、短、挡风玻璃、瓶子等类别的检测性能得到了最显著的改善。请注意，这些类中有许多是14Yang和Lu等具腿具狗尾巴的附近女人风筝控股具眼睛具有眼睛狗具鼻子具有头具耳朵图五.图R-CNN的定性结果。在图像中，蓝色和橙色边界框分别是地面实况和正确的预测。在场景图中，蓝色椭圆是地面实况关系，而绿色椭圆表示正确的预测。与其他对象有很强的关系，例如球拍通常由人携带。评估PhrCls和PredCls涉及使用地面实况对象位置。由于图像中对象的数量（通常为25）远小于对象提议的数量（64），因此关系对的数量已经非常小。因此，RePN对这两个度量的影响较小。通过将aGCN添加到我们的模型中，性能得到进一步改善。这些改进表明，我们的Graph R-CNN中的aGCN可以在整个图中捕获有意义的上下文我们还比较了我们的模型的性能和没有注意。我们看到，通过在GCN之上添加注意力这表明，控制上下文信息流经边缘的程度是重要的。这些结果与我们在引言中提到的直觉一致。图5示出了针对测试图像生成的场景图。使用RePN和aGCN，我们的模型能够生成更高的召回场景图。绿色椭圆体显示生成的场景图中正确的6结论在这项工作中，我们引入了一种新的场景图生成模型-我们的模型包括一个关系建议网络（RePN），它可以有效地和智能地修剪出不太可能相关的对象对，以及一个注意力图卷积网络（aGCN），它可以有效地在整个图中传播上下文信息我们还介绍了一种新的场景图生成评价指标（SGGen+），比现有的指标更细粒度和我们的方法优于现有的场景图生成方法，使用现有的指标和我们提出的指标进行评估鸣谢。这项工作得到了NSF，AFRL，DARPA，Siemens，Google，Amazon，ONR YIPs和ONR Grants N 00014 -16-1-{ 2713，2793}的部分支持。手手持电话具有耳朵人有耳头部穿着衬衫穿着玻璃手具电话穿着衬衫人穿着有有骑穿着短密封轮胎轮胎女人手套对手摩托车图R-CNN15引用1. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D. ：Vqa：Visualquestionsweringg. In：ICCV. pp. 24252. Dai，B.，张玉，Lin，D.：使用深度关系网络检测视觉关系。在：CVPR（2017）3. Das，A.，Kottur，S.，古普塔，K.，Singh，A.，Yadav，D.，Moura，J.M.，Parikh，D. Batra，D.：可视化对话框。在：CVPR（2017）4. Everingham，M.凡古尔湖Williams，C.Winn，J.，齐瑟曼，A.：pascalvisual object classes challenge 2012结果In：See http：//www. pascal-network.org/challenges/VOC/voc2012/workshop/index. HTML.第五卷（2012年）5. 高， X. ， Xiao ， B. ， Tao ， D. ，李 X ：图形编辑距离综述。 PatternAnalysisandApplications13（1），1136. Girshick，R.：快速R-CNN。参见：CVPR（2015）7. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，用于准确的对象检测和语义分割。在：CVPR（2014）8. H e，K.， G.，G.，做吧，P Girshi ck，R. ：Maskr-cnn。In：ICCV（2017）9. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）10. Hu，H.，顾，J.，张志，Dai，J.，魏云：用于对象检测的关系网络来源：CVPR（2018）11. Johnson，J.，Hariharan，B.，范德马滕湖，Fei-Fei，L. Zitnick，C.L.，Girshick，R.：CLEVR：组合语言和基本视觉推理的诊断数据集。在：CVPR（2017）12. Johnson ， J. ，克里希纳河斯塔克 M.Li ， L.J. ，夏玛地方检察官Bernstein ， M. 李菲菲：使用场景图进行图像检索。参见： CVPR（2015）13. 基普夫T.N. Welling，M.：基于图卷积网络的半监督分类。In：ICLR（2017）14. 克里希纳河Zhu，Y.，格罗斯岛Johnson，J.，Hata，K.，Kravitz，J.，陈淑仪，Kalan-tidis，Y.，Li，L.J.，夏玛地方检察官等：可视化基因组：连接语言和visionusingcr wdsourcdenseimanotati ons。IJCV123（1），3215. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类在：NIPS（2012）16. 拉迪基湖拉塞尔角Kohli，P.，Torr，P.H.：基于同现统计的图割推理。In：ECCV（2010）17. 李，Y.，欧阳，W. Wang，X.：Vip-cnn：用于视觉关系检测的视觉短语推理卷积神经网络在：CVPR（2017）18. 李，Y.，欧阳，W.Zhou，B.，（1991年），中国地质大学，Wang，K. ， Wang ，X. ：从对象、短语和区域字幕生成场景图In ： ICCV（2017）19. 梁湘，李湖Xing，E.P.：用于视觉关系和属性检测的深度变分结构强化学习。在：CVPR（2017）20. Lin ， C.L. ：近似图变换问题的困难性 In ： Interna-tionalSymposi umonAlgorit hms andCom puttatio n.pp. 7402TheDog（1994）21. 林， T. 是的，做吧， PGir shi ck ， R. ， He ， K. ， Hariharan ， B.Belongie，S. ：用于对象检测的Fetur金字塔网络。在：CVPR（2017）22. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：SSD：单次触发多盒探测器。In：ECCV（2016）23. 吕，C.，克里希纳河Bernstein，M.李菲菲：具有语言先验的视觉关系检测In：ECCV（2016）24. 卢，J，杨杰，Batra，D.，Parikh，D.：神经宝宝的谈话。来源：CVPR（2018）16Yang和Lu等25. Nair，V.，Hinton，G.E.：整流线性单元改进受限玻尔兹曼机。In：ICML（2010）26. Newell，A.，Deng，J.：通过关联嵌入将像素转换为图形In：NIPS（2017）27. Oliva，A.，Torral

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于图的场景表示及生成方法

基于生成对抗网络的文本图像生成方法

基于语法规则的方法代码生成流程

、什么是二值图像？什么是灰度图像？什么是半色调图像，半色调图像是二值图像吗？于校园选取场景，基于后期图像处理，得到一幅二值图像并生成对应的半色调图像。

基于全景图的深度估计方法研究与实现

详细介绍一下基于图的分割方法

CNN是基于锚框的目标检测方法还是基于回归的目标检测方法

opencv生成视差图

java基于freemarker生成器源码

生成一篇原创的基于信息论的图像配准技术研究中第二章图像配准的基本理论章节的写作大概五千字左右

基于深度学习人脸识别方法算法有哪些

DIBR技术的中文名是基于深度图像的绘制技术吗

基于深度学习的图像匹配算法

种低差异序列 sobol序列的生成方法

three.js灰度图生成3d地形图

向量数据库的向量怎么生成

用matlab写一个智能电网中基于信息熵的虚假数据注入攻击检测并生成图的检测方法

写一个基于栅格地图的三维空间

nerf训练生成的是什么

基于功率谱的fgn的生成算法,

最小生成树融合图聚类

最新资源