Reasoning-RCNN:大规模目标检测中的自适应全局推理

94 浏览量更新于2023-10-18 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6419Reasoning-RCNN：将自适应全局推理统一到大规模目标检测徐航1陈涵江2梁晓丹2梁琳2李振国11华为诺亚摘要在本文中，我们解决了具有数千个类别的大规模对象检测问题，由于长尾数据分布，严重的遮挡和类别歧义，这带来了严重的挑战。然而，主要对象检测范例是有限的，单独对待每个对象区域，而不考虑对象之间的关键在这项工作中，我们引入了一种新的Reasoning-RCNN，通过利用不同的人类常识知识，赋予任何检测网络在所有对象区域上进行自适应全局推理的能力。而不是只传播图像上的视觉特征直接，我们进化的所有类别的高层次的语义表示全球，以避免分心或图像中的视觉功能差。具体来说，建立在对象检测任务自适应全局推理在基本检测网络特征表示的基础上，该网络首先通过收集每个类别的前一分类层的权值来生成全局语义池，然后通过关注全局语义池中不同的语义上下文来自适应地增强每个对象的而不是传播信息从所有可能是嘈杂的语义信息，我们的自适应全局推理自动发现最相关的类别的特征演变。我们的Reasoning-RCNN是轻量级和灵活的，足以增强任何检测骨干网络，并可扩展为集成任何知识资源。在对象检测基准上的可靠实验显示了我们的推理RCNN的优越性，例如。在VisualGenome上实现了约16%的改进，在mAP方面ADE上实现了37%的改进，在COCO上实现了15%的改进。1. 介绍大规模检测[18]是指识别和本地化大量类别。类别的严重不平衡在这些任务中非常常见（例如很少[2]两位作者对这项工作的贡献相当。†通讯作者：xdliang328@gmail.com代码和训练模型可以在https://github.com/chanyn/Reasoning-RCNN中找到。图1.一个例子，说明所提出的自适应全局推理如何人类仍然可以识别红色框中的微小物体（a）为这是因为：1）这个对象看起来很熟悉人类记忆中的“CCTV”，正如我们之前在（b）中看到的那样，这激发了我们设计全局语义池的灵感; 2）这个小的电子精神对象安装在建筑物上，并且正在观看道路上运行的汽车。很可能是CCTV。如此丰富的人类常识可以在知识图中表示，并纳入我们的检测管道。稀有类的样本此外，由于在一个图像中的更多类别，严重遮挡、类别模糊和微小尺寸对象的问题变得更具挑战性。当前最先进的目标检测方法[3，8，43]分别处理每个区域的识别，因此需要每个区域的高质量特征表示和每个类别的足够标记数据。然而，这不是大规模检测问题的情况，因此这种方法是不合适的。与即使在复杂情况下也能够识别对象的人类不同，当前的检测系统缺乏借助常识知识进行推理的能力因此，如何赋予现有的检测系统以推理能力，以模仿人类的推理过程，是一个关键问题。……建筑？全局语义池风窗签署人窗口披萨签署车路鲨鱼车车人人人央视签署船路建筑活动类别铅笔不活动类别常识知识（一）央视建筑电子？心理窗口打开透明打开站建设大路央视轮车站签署车车附近坐人岁车央视车运行路灰坪（b）第（1）款移动心智关系类别看6420在识别场景中的物体时，运用人类的常识进行推理，有助于正确识别。图1中的全局知识推理的示例将是识别上部图像（a）的红色帧中的微小尺寸对象“CCTV”。人类将首先在大脑中搜索他的记忆中的对象，以寻找相似的出现类别（启发了我们的全局语义池的设计），然后他将通过考虑全局语义一致性进行推理：这个小型电子精神物体安装在建筑物上，并且正在监视道路上行驶的汽车，因此它更有可能是闭路电视。这种丰富的人类常识可以在知识图中表示，并通过视觉推理并入检测流水线中。最近关于视觉推理的研究可以通过不同的知识整合策略来分类：依赖于人类先验知识的方法和不依赖于人类先验知识的方法。例如，一些作品从图像本身隐式地建模空间关系[5，19，47]。这些作品以一种内隐的、不可控制的方式学习区域间的关系其他方法试图通过在网络中定义知识图来合并人类语义先验知识[6，36]。例如，最近提出了一种迭代推理方法[6]来结合空间和语义关系推理。然而，他们只考虑通过固定的先验知识在一幅图像中局部地传播区域特征。换句话说，当图像中存在严重的遮挡和类模糊性时，他们的方法仍然无法通过不良特征表示进行推理，这在大规模检测中是非常常见的。此外，他们使用了一个非常复杂的结构，由GRU堆叠在一起的三个相反，我们的工作旨在开发一个到位和简单的全球reasoning网络，不仅可以明确地纳入多种常识知识，但也propagate从所有类别的视觉信息，以改善分类和边界框回归。在本文中，我们提出了一种新的推理RCNN网络，赋予任何检测网络的能力，自适应全局推理，利用不同的人类常识知识。不像一些现有的作品，只传播图像上的视觉特征直接，我们全局地进化所有类别的高级语义表示，以避免分心或不良的视觉特征在图像中。为了实现这一点，我们的方法首先生成一个全局语义池的所有类别，收集先前分类层的权重。请注意，与传统方法[ 27 ]相比，这避免了计算负担，传统方法[27]对每个类别的所有数据进行平均或聚类。然后，类别知识图被设计为对某些语言知识（例如，属性、共现和关系）。不同范畴的高层语义语境语义池根据所考虑的知识图中的连接节点来进化和传播。我们的自适应全局推理不是从可能有噪声的所有语义信息中传播信息，而是通过注意机制[46]对当前图像进行自适应编码，以自动发现关于每个对象的特征演变的最相关类别。接着，通过软映射机制将增强的类别上下文映射回区域，该机制使得能够细化来自非精确阶段的不准确分类结果。最后，每个区域在这项工作中，我们尝试了两种知识形式：关系知识，如共现、宾-动-主关系等;颜色、状态）。因此，我们的Reasoning-RCNN能够对具有某些关系或相似属性的类别进行自适应全局推理。识别困难的地区与沉重的occlusions，类歧义和微小的大小问题，因此可以补救的增强功能，其中包含自适应上下文从全球语义池。此外，不平衡的类别的问题，然后可以缓解共享和提取的基本特征之间的frequent/罕见的类别。提出的Reasoning-RCNN优于当前最先进的检测方法，包括 Faster R-CNN [43] ， RetinaNet [31] ，RelationNet [19]和DetNet [29]。我们在目标检测基准上观察到基础检测网络Faster R-CNN的一致增益，即，VG （ 1000/3000 分类）、 ADE （ 445 分类）、 MS-COCO（80分类）和Pascal VOC（20分类）。特别是，Reasoning-RCNN在VG（1000个类别）上实现了大约15%的mAP改进，在VG（3000个类别）上实现了16%的mAP改进，在ADE上实现了37%的mAP改进，在MS-COCO上实现了 15%的mAP改进，在Pas- calVOC上实现了2%的mAP改进2. 相关工作物体检测。目标检测是计算机视觉中的核心问题。近年来，使用CNN的目标检测任务取得了重大进展。现代对象检测方法可以分为两组：一阶段检测方法，如SSD [33]和YOLO [41]以及两阶段检测方法，如Faster R-CNN [43]和R-FCN [8]。通常很少考虑类别：PASCAL VOC 20 [9]和COCO 80[32]。这些方法是单独执行的每个pro-binding区域没有任何推理。视觉推理。视觉推理的目的是结合不同的信息或对象或场景之间的相互作用。可以在classifica的任务中找到示例-[36]第36话，一个人，6421…分类器权重全局语义池天空人建议特征…汽车道路RoIAlign基地特征成像式注意事项…自适应全局推理车天空成品建议特征CNN建筑人汽车道路FC层分类器框回归i=1新箱回归新分类器…路天空…软映射到方案碱基检测器知识图映射边要素图映射值类别节点软映射图2.提出的Reasoning-RCNN对象检测框架概述。所提出的推理RCNN可以堆叠在任何现有的基础检测器上，例如更快的RCNN。前一个分类器的权重被收集，以生成一个全局语义池的所有类别，这是馈送到我们的自适应全局推理模块。增强的类别上下文（即，推理模块的输出）通过软映射机制映射回区域建议最后，每个区域[7]。可以考虑几个方面，例如对象之间的关系和共享属性[1，2，26，38]。其他方法[11，35，42]依赖于寻找相似性，例如语言空间中的属性。对于对象关系，大多数早期的作品使用对象关系作为后处理步骤[10，13，39]。最近的作品认为一个图形结构[6，7，24，36]纳入知识。在这些工作中，他们通常考虑区域推理，这将下降到推理通过一个坏的特征表示时，在图像中存在严重的遮挡和类歧义我们的方法在所有类别上传播，以避免这个问题，并确保自适应全局推理。少拍识别。少镜头识别的目的是理解一个新的概念与一些注释的例子，这与我们有着相似的目标早期作品为-cus学习属性嵌入来表示类别[22，26]。大多数最近的作品使用知识图，作为WordNet [37]来提取类别之间的信息[36，48，49]。Gidaris等人[14]利用提取分类器权重来帮助少数任务。相比之下，我们的模块受益于动态更新的全局语义池和明确的先验知识。3. 所提出的方法3.1. 概述在本文中，我们引入Reasoning-RCNN，通过引入不同的外部知识来开发具有自适应全局推理的通用模型，以促进大规模目标检测。我们的Reasoning-RCNN的概述可以在图2中找到。所提出的推理RCNN可以堆叠在任何一个/两个阶段的现代检测框架上。更具体地说，我们首先创建一个全局语义池，通过收集原始分类的权重来集成每个类别的高级语义表示层.然后定义一个类对类无向图G：G=N，E>，在训练和测试过程中共享，其中N是类的顶点，每条边ei，j∈E表示两个顶点之间的一种知识。<再-可以通过在具有特定知识图G的全局语义池上传播语义上下文来增强区域特征。最后，将增强后的特征与原始特征串联后送入包围盒回归层和分类层，以获得更好的检测效果。3.2. 自适应全局图推理模块我们的Reasoning-RCNN可以被添加到任何现代主流检测系统中，以赋予其全局推理能力。我们的自适应全局推理模块的概述可以在图3 中找到。设f={fi}Nr，fi∈ RD是从图像中提取的D维视觉特征，所有N的骨干网络r= |N|区域提案。我们的方法旨在通过以下方式增强原始区域特征f利用某些常识知识形式，诸如成对关系知识（例如，“manridesbicycles”）或某种属性知识（例如，“苹果是红色的。具体来说，我们的全局推理阶段根据类别到类别知识图G在全局语义池中演化视觉对象引用。注意力机制也被实现，以自动地在每个图像上显示更多的信息和相关类别然后，通过演化特征来增强f，以提高分类和定位的性能3.2.1全局语义池M大多数现有的作品[15，6，23]通常在区域之间局部传播视觉特征。然而，这种图可能会导致图推理失败，因为坏6422分类器权重��×��全局语义池…知识图基础特征��×��自适应图推理图像智能注意力…1×��RefinedProposals��功能r×软匹配RoiAlign+箱形封头Conv+FcCNN增强的功能��图3.我们的自适应全局推理模块的概述。全局语义池M通过每个类别的先前检测分类器的权重来集成所有高级语义表示。然后，根据特定类型的知识图，通过传播M中的所有语义表示来执行全局推理。自适应注意力计算使用图像特征，自动发现最相关的自适应推理类别将增强特征从类别软映射到建议，以获得区域增强特征f′。最后，将f′与区域建议特征f级联后送入新的bbox回归层和分类层，以获得更好的检测效果。或者当图像中存在大规模检测中常见的严重遮挡和类别模糊时的分心的特征表示相反，我们的方法试图在所有类别（不仅是图像中出现为了实现这一点，我们需要创建一个全局语义池来存储所有类别的高级语义表示。这类似于人类大脑中的记忆，为了生成这种全局语义池，现有的工作通常采取特征的平均值或使用聚类方法找到中心作为每个类别的参考特征[27]。然而，这些方法记录和收集整个数据中的所有信息，这是一个巨大的计算负担。此外，这些模型不能以端到端的方式进行训练。受零/少数射击问题中的一些作品的启发，他们试图训练一个模型来拟合分类器的权重，一个看不见的/不熟悉的类别[45，48，15，14]，我们介绍了一种新的方式来生成全局语义池。每个类别的分类器权重实际上包含高级语义信息，因为它们记录了从所有图像训练的特征激活。形式上，设M∈RC×D表示所有C范畴的前一个分类器（参数）全球市场-端到端的风格。3.2.2通过图形推理增强功能在为所有C个范畴建立了一个全局语义池M∈RC×D之后，自然地通过先验知识图G中的边E ∈RC×C来传播M的连通范畴.因此，信息是共享的，并且是正确的。根据表示为EM的所选知识，在所有C类别中进行全局搜索。为了增强区域的特征，我们仍然需要找到Nr个区域建议和C类别之间的映射。直观地看到这张地图-可以容易地从检测网络的前一级中的分类结果获得ping我们提出了一种软映射的方法，而不是直接从区域建议到类别的硬映射，这是类-在所有C范畴上的可化概率分布P∈RNr×CP∈RNr×C可以通过soft-max函数对前一个类别的C个类别的得分进行计算筛选器然后这个过程可以通过矩阵乘法来解决：PEMWG，其中WG∈RD× E是所有图共享的变换权矩阵，E是推理模块的输出维数.注意，全局图推理基于所有类别，这可能是有噪声的。需要一种自适应的推理机制来整合每个特定图像的视觉模式。这3.2.3适应性注意考虑到进化的全局特征EM，我们需要强调信息和相对类别，并减少抑制有用的信息，从而使得能够对每个图像进行自适应推理。可以注意到，并非所有类别的信息都对识别一个特定图像中的项目有用。当识别一个场景中的项目时，人类只考虑几个潜在的类别。在本文中，我们利用挤压和激发的思想[20]来进一步重新调整所考虑的范畴具体来说，在挤压第一步，我们将整个图像特征F∈RW×H ×D作为输入，通过CNN（3×3核，输出通道=D/64）和全局池化操作将其压缩到一半大小激励级是一个输入zs∈RD/64的全连通层。然后应用软最大值函数来获得注意类别： α=softmax （ zsWsMT ），其中Ws∈RD/64×D是全连通层的权重，α∈RC。然后，具有自适应推理的增强特征f′可以通过下式求解：我们的模型的mantic池可以通过将参数M从先前的分类层复制到f′=P（α∈ EM）WG，（1）bbox探测网络的头。注意，分类器在训练期间的每次迭代中更新，使得全局语义池M不时地变得更准确。此外，我们的模型可以在一个其中是通道乘积，其余是矩阵乘法。 f ′∈ RNr× E是通过自适应全局图推理得到的E维增强特征.自适应全局推理的流程图可以在……6423分类器��(∙)分类概率软匹配MatMul智能产品MatMulRIJE√IJ基础特征适应性注意全局推理执行行归一化以得到GR：eRC=ij，DiiDjj其中DiiΣCj=1C.请注意，我们已经包含了很多空间关系，如这也增强特征f′图4.自适应全局推理的详细流程图根据先验知识图边对全局语义池M进行全局推理。从图像基本特征的挤压和激发计算图像方面的自适应注意力α然后通过通道积得到带α的自适应全局推理。然后根据P.最终增强特征f ′通过与全连接权重WG的矩阵乘法获得。4. 实验数据集和评价。推理实验- RCNN已经在具有大量类别的大规模对象检测基准上进行了：视觉基因组（VG）[25]，ADE [50]。此外，我们还对PASCALVOC 2007 [9]和MSCOCO 2017 [32]进行了评估，以显示普通类别（20/80类别）的性能。任务是定位对象并对其进行分类，这与给定地面真实位置的实验不同[6]。对于Visual Genome，我们使用最新版本（v1.4）和同义词集[44]，而不是由于不一致的标签注释而导致的类别的原始名称，遵循[21]。我们考虑两组目标类：1000个最频繁的类别和3000个最频繁的类别，产生两个设置VG 1000和VG 3000。我们将剩余的92.9K图像与这些类集上的对象拆分为图4.最后，增强的特征f′将连接到原始区域特征f。[f;f′]将被馈送到边界框回归层和分类层以获得最终检测结果。注意到f′是具有连接边（例如相似属性或关系）的跨类别的提取信息。因此，通过共享相似类别之间的共同特征这些建议区域严重闭塞，类歧义和微小的大小问题也可以通过添加和发现自适应上下文从全局语义池的外部知识的指导下得到补救。3.3.具有关系知识的模型规格说明。Reasoning-RCNN足够灵活，可以包含任意类型的知识。在这里，我们以关系知识为例，说明如何指定不同的常识知识G，以获得不同的图推理行为。我们还探索了另一种知识，即。实验中的属性知识关系知识GR作为G的一种，表示范畴之间的成对关系，如“主谓宾”关系（如“主谓宾”关系）。驱动、运行）、空间关系（例如，上，近）。全局语义池将通过以下内容之间的高级语义相关性得到增强：类别首先，我们根据语义信息或简单地计算C×C频繁统计矩阵Rc从所有类别对之间的出现。然后，我们将转置（Rc）T加回Rc。最后，一个专栏-87.9K和5K分别用于训练和测试在ADE数据集方面，我们使用20.1K图像进行训练，并使用1K图像进行测试，如下[6]。为了验证模型的泛化能力，选择与VG数据集重叠的445个类作为目标。由于ADE是一个分割数据集，我们将所有实例的分割掩码转换为边界框我们还在 PASCAL VOC 2007 （ 20 个类别）和 MSCOCO2017（80个类别）上评估了我们的推理-RCNN，这是按照[8]中的相同原型编写的对于PASCAL VOC，在VOC 2007 trainval和VOC 2012 trainval（10K图像）的联合上进行培训，并在VOC 2007测试（4.9K图像）上进行评估MSCOCO 2017包含118k用于训练的图像，5k用于评估。对于VG、ADE、COCO评估，我们采用COCO检测评估标准[32]中的标准，即跨IoU阈值的平均精度（mAP），0.5到0.95，间隔为0.05，以及平均召回率（AR），每个图像具有不同的给定检测数量（{1，10，100}）和不同的尺度（小，中，大）。对于PASCAL VOC，我们仅使用0的IoU阈值报告mAP评分。5、与现有的其他方法进行比较。知识图谱构建。我们将一般知识图应用于所有数据集上的实验。通过对VG数据集的标注进行统计，生成了一个通用的知识图。具体来说，对于关系知识图GR，我们使用VG中前200个最频繁的关系注释，例如位置关系，主谓宾关系，…=R压缩激发ℰℰ��MatMulSoftmax……图像智能注意力6424%表1. VG 1000、VG 3000和ADE测试数据集的主要结果。“Reasoning-RCNN R“是我们的完整模型，具有关系知识。#. parameters是模型的参数数。%作为类别的颜色、材料和状态（C=3000），并将其频繁统计作为类属性分布，可接受的。然后，两个类ci和cj的概率分布Pc i和Pcj之间的成对Jensen-Shannon（JS）散度可以被测量为边权重两类：e A=JS（P c||P c）。ci，cji j表2. PAS- CAL VOC和MSCOCO的平均精密度（mAP）比较。“Reasoning-RCNN A“/“Reasoning-RCNN R“是向我们的模型添加属性/关系知识的Faster-RCNN。计算每对的频繁统计量。通过将ADE、COCO和VOC类与VG进行匹配，得到相应的知识图，验证其通用知识的泛化能力。在本文中，我们还考虑属性知识属性知识图GA被定义为类别之间的相似度，根据它们的属性，如颜色，实施详情。我们把最先进的Faster-RCNN以FPN[4，30]作为我们的基线，plement Reasoning-RCNN 堆叠在 Pytorch[40] 中。在ImageNet [44]上预训练的ResNet-101 [17]被用作我们的骨干网络。在训练中采用水平图像翻转和多尺度增强。在[43]之后，RPN应用于所有特征图。在conv1之前的参数是固定的，与[30]相同。我们在NMS之后对包含512个区域提案的小批量进行了采样，如果每个提案的IoU > 0，则每个提案都是积极的。7与地面实况地区，它是负的，如果IoU <0。3 .第三章。在ROI对齐之后，建议特征被平均汇集并馈送到2个共享FC层以成为最终分类器的输入（D=1024）。在测试时，我们保持了2000个区域在NMS后的优先级，IoU阈值>0。六、在所有的实验中都没有使用硬示例挖掘。除非另有说明，否则所有实验的设置均相同。对于我们堆叠在Faster-RCNN和FPN上的推理阶段，我们使用相同的操作（平均全局池化和共享2 FC层）来重新提取区域提议视觉特征f。对于被认为足以包含增强特征的任何知识，超参数是WG的E=256我们将同步SGD应用于物体类别中的尺寸、材料。我们认为VG中前200个最常见的属性注释是0.0001的权重衰减和0.9的动量来优化所有模型。初始学习率为0。02，减二Pascal VOCMS CocoAdeVG3000VG1000方法APAP50AP75APSAPMAPLAR1AR10AR100ARSARMARL#. param[28]第二十八话6.210.96.22.86.59.814.6 18.0 18.7 7.2 17.1 25.374.5MCascade RCNN[3]6.512.16.12.46.911.215.3 19.4 19.5 6.1 19.2 27.591.2M[43]第四十三话6.211.35.91.85.911.414.2 17.8 17.8 4.4 16.1 27.654.1MRCNNR8.1+1。913.5+2。28.5 +2。6三点四加一。68.3 +2。414.0 +2。618.6 +4。423.4 +5。623.5 +5。78.8 +4。四二一点七+5。632.9 +5。757.5MFaster-RCNN w FPN[30]7.112.77.23.97.611.114.8 19.7 19.9 10.6 18.8 24.961.4MReasoning-RCNNR w FPN8.2+1。1十三点三+0。68.5+1。3四点四+0。58.9+1。312.9+1。816.4+2。四二二点二+2。522.5 +2。412.3+1。七二二点一+3。327.1 +2。263.6M[28]第二十八话3.05.13.21.74.05.87.3 9.0 9.0 4.3 10.3 15.478.6MCascade RCNN[3]3.86.53.41.94.84.97.1 8.5 8.6 4.2 9.9 13.797.3M[43]第四十三话3.76.43.81.74.67.68.5 10.5 10.5 4.1 11.6 18.258.2MRCNNR4.5 +0。87.3 +0。9四点七+0。92.2 +0。55.5 +0。99.0 + 1。410.6 +2。一百一十二点九+2。412.9 +2。45.4 +1。三百一十三点八+2。221.9 +3。765.8MFaster-RCNN w FPN[30]3.76.53.72.14.96.87.6 9.8 9.9 6.8 11.8 14.663.4MReasoning-RCNNR w FPN四点三+0。6六点九+0。4四点六+0。9三点二加一。16.0 +1。17.9 +1。18.5 +0。九十一点一+1。311.2 +1。38.3+1。513.7+1。九十六点二+1。668.2M[28]第二十八话7.011.77.32.45.111.29.6 13.3 13.4 4.3 10.4 20.472.4MCascade RCNN[3]9.116.88.93.57.115.312.1 16.4 16.6 6.4 13.8 25.889.5M[43]第四十三话8.7 15.5 8.9 3.6 6.911.7 15.9 16.0 6.3 13.9 23.952.9M方法骨干#. param（M）时间（ms）地图SMN[5]ResNet-10166.7-67.8R-FCN[8]ResNet-10154.0111.180.5DSSD 513 [12]ResNet-101-156.281.5[43]第四十三话ResNet-10152.056.480.8RCNNAResNet-10153.658.881.9RCNNRResNet-10153.658.882.5[19]第十九话ResNet-101-FPN62.8-38.8RetinaNet[31]ResNet-101-FPN56.920039.1[29]第二十九话DetNet-59-FPN--40.2[43]第四十三话ResNet-10152.264.934.9RCNNAResNet-10153.869.139.2RCNNRResNet-10153.869.140.5Faster-RCNN w FPN[30]ResNet-101-FPN60.473.037.3Reasoning-RCNNR w FPN ResNet-101-FPN61.575.342.9Mask-RCNN w FPNResNet-101-FPN63.486.639.4Reasoning-RCNNR w掩码 ResNet-101-FPN64.589.443.26425图5. Faster-RCNN和我们的Reasoning-RCNN在VG 1000上的定性结果比较。我们的方法可以检测出遮挡、模糊和稀有类别的物体。倍（×0. 01）在8和11个时期之后。我们训练了32个时期，小批量大小为2，用于基线Faster R-CNN和FPN（12个时期后的进一步训练基线性能）。对于Reasoning-RCNN，我们使用基线的12个epoch作为预训练模型，并使用相同的设置训练另外16个epoch。4.1. 与最新技术水平的比较我们在表1中报告了VG1000与1000个类别，VG3000与3000个类别和ADE数据集的结果比较。我们使用公开发布的代码与 Light-head RCNN[28] ， Faster-RCNNwith FPN [30]，基线Faster-RCNN[3]的三级级联RCNN进行比较所有实验都使用相同的超参数设置，除非在我们的论文中特别提到。可以看出，具有关系知识的推理 -RCNN 在所有数据集上都优于基线 Faster-RCNN[43]。我们的Reasoning-RCNN在VG1000上实现了8.1%的整体AP，与 VG3000上的更快R-CNN相比，其比例为6.2%，4.5%，与ADE上的8.7%相比，其比例为3.7%和11.5%。对于那些样本很少的罕见类别，也可以观察到显著的性能差距（详见补充材料）。此外，我们的Reasoning-RCNN在分类和定位准确性方面都比所有情况下的基线（即，不同的规模和重叠）。这验证了自适应全局推理与局部区域识别相结合在大规模目标检测任务中的有效性。与[6]相比，他们报告了VG上13%的性能增益（AP）和ADE上20%的性能增益（AP），与仅基于地面实况边界框的分类任务的相同基线相比。我们的方法实现了约30%的改进VG和32%的ADE上的更难的任务的对象检测（定位和分类）。此外，我们的方法与基线Faster-RCNN的平均 AP增益和类别频率之间的负相关性如图7所示。我们还评估了PASCAL VOC和MS COCO数据集，只有20/80个类别与最先进的方法结果见表2，竞争方法的准确度数值直接来自原始论文。对于PASCAL VOC，我们与空间内存网络[5]，R-FCN[8]进行了，DSSD513[12]。可以看出，我们的方法比基线Faster-RCNN和所有其他竞争对手的性能好1.7%。对于MSCOCO ，比较 Faster-RCNN 与 FPN[30] ， RelationNetwork[19]，RetinaNet[31]和DetNet[29]。我们使用FPN的方法将mAP从37.3%提高到42.9%，所有其他方法。请注意，我们的方法可以通过辅助分割任务实现更高的性能。这表明Reasoning-RCNN由于其全局自适应推理能力，可以大大提高特征表示的能力。此外，从计算成本的比较来看，计算开销相对较小（小于2%的参数大小和3 ms），在Titan XP上输入800×800像素，用于MS COCO上的FPN。图5显示了基线模型和我们的Reasoning-RCNN之间的定性结果比较（补充材料中有更多示例）。结果表明，基线模型倾向于忽略稀有类别和模糊对象。例如，它不能检测推理- RCNN倾向于检测所有相似的对象，例如第一张图像中的“橱柜”，第三张图像中的“长颈鹿 ” 。此外，在第二、第五幅图像中，我们的Reasoning-RCNN可以检测到更多的例子和结果可以在补充材料中找到。4.1.1泛化能力从表1和表2中可以看出，VG的外部知识图实际上可以帮助提高ADE、COCO和PASCAL VOC的性能。因此，任何具有重叠类别的数据集都可以共享现有的知识图。此外，我们的模块可以添加到不同的检测-推理-RCNNFaster-RCNN6426百分之十四百分之十二百分之十百分之八占6%百分之四-2%01000020000300004000050000RCRR系统容易。基于关系知识的增强特征可视化（t-SNE方法）图6.通过t-SNE方法实现f′的三维可视化[34]。方形区域在底部面板中被放大有关系的范畴这验证了我们的方法具有全局推理能力的类别根据一定的知识。性能增益与类别频率%方法和修改mAP AP50ARSARMMS-CocoReasoning-RCNNRwith FPN42.9 61.840.2 63.9同现知识图39.5- 3。458.3−3。536.4- 3. 860.1 -3。8使用区域要素代替全局语义池40.2- 2. 759.0−2。836.2- 4. 061.4−2。5没有适应性注意40.9- 2. 059.5 -2。337.3- 2. 961.6 −2.3统一注意力权重41.5-1 460.6 −1。2 37.5- 2. 761.5 -2。4表3.消融研究基于我们在MSCOCO上的最终模型的修改。Reasoning-RCNNRwith FPN是我们的最终模型。主干是带有FPN的ResNet-101。类别权重（1）作为注意力。注意，这两种注意力机制导致在测试期间每个图像的推理相同的信息。结果表明，图像式注意机制通过发现更多相关类别，有助于更有效地在图中传播，并将整体AP提高了1.4%至2%。4.3. 特征可解释性分析为了更好地理解我们的Reasoning-RCNN实际学习的增强特征表示，我们记录了我们的方法的输出f'，其中包含关系知识及其对应的真实标签，这些标签来自10000个VG1000图像的每个区域。然后我们根据标签取平均值，并使用t-SNE [34]聚类方法将其可视化，如图6所示。从两个放大的区域可以看出，具有空间关系或共现关系的类别，如“街上的东西”和“桌上的食物”，其特征f′这充分说明了我们的知识推理阶段-4%类别频率成功地结合了先验关系知识，图7. 具有基线Faster-RCNN的AP的性能增益与VG 1000上的类别频率之间的相关性。4.2.消融研究为了进行详细的成分分析，我们对MSCOCO进行了烧蚀实验。常识的影响。表3表明，常识知识是在类别之间传递信息的最重要组成部分。如果我们用单位矩阵代替常识知识，在MSCOCO上性能降低3.4% mAP。全局语义池M. 全局语义池M中的自适应全局推理可以将mAP显著提高2.7。实验结果表明，小区域特征的召回率显著提高（在ARS模型中，区域特征之间传递信息的召回率约为11%适应性注意α的影响。我们还进行了无适应性注意的实验，导致可解释的特征学习。更多渐变vi-为了更好地理解该方法，在补充材料中包括了均衡化结果。5. 结论提出了一种新的自适应全局推理网络Reasoning-RCNN。通过在全局语义池上传播，我们的Reasoning-RCNN增强了分类和定位的特征扩展，并在每个图像中自适应地与视觉模式相协调我们用关系和属性两种先验知识来说明我们的方法Reasoning-RCNN在所有数据集上的可靠和一致的检测改进表明，需要自适应全局推理来推进大规模对象检测。对于未来的工作，扩展可以嵌入我们的推理框架到其他任务，如实例级分割。性能增益6427引用[1] Z.阿卡塔河佩罗宁Z. Harchaoui和C.施密特基于属性分类的标签嵌入。CVPR，2013。3[2] J. Almazán，A. Gordo，A. Fornés和E. Valveny。单词识别和嵌入式的attribute。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 36（12）：2552-2566，2014. 3[3] Z. Cai和N.瓦斯康塞洛斯级联r-cnn：深入研究高质量的物体检测。在CVPR，2018年。一、六、七[4]K. 陈，J.Pang，J.Wang，Y.Xiong，X.Li，S.孙先生，W. 冯，Z.刘，J.施，W。欧阳C.C. Loy和D. 是林书 mm 检测。 https://github.com/open-mmlab/mmdetection，2018. 6[5] X. Chen和A.古普塔。用于对象检测中上下文推理的空间记忆。InICCV，2017. 二六七[6] X.陈湖，澳-地J.李湖，加-地Fei-Fei和A.古普塔。迭代的视觉推理超越了卷积。在CVPR，2018年。二三五七[7] B.戴，Y. Zhang和D.是林书用深层关系网络检测视觉关系。在CVPR，2017年。3[8] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的完全卷积网络进行对象检测。在NIPS，2016年。一、二、五、六、七[9] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地 K. I.威廉姆斯J. Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。International Journal of Computer Vision，88（2）：303-338，June 2010. 二、五[10] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D. Ramanan使用区分性训练的基于部分的模型进行对象检测。IEEE transactions on pattern analysisand machine intelligence，32（9）：1627- 1645，2010. 3[11] A. 弗罗姆 G. S. 科拉多 J. Shlens， S. 本吉奥J. Dean，T. Mikolov等人Devise：一个深度视觉语义嵌入模型。在NIPS，2013年。3[12] C.- Y. 傅，W.Liu，中国粘蝇A.Ranga、黑腹拟步行虫A.Tyagi和A.C. 伯格。Dssd：解卷积单次激发探测器。InICCV，2017. 六、七[13] C. Galleguillos，A. Rabinovich和S.贝隆吉使用共现、位置和外观的对象分类。CVPR，2008。3[14] S. Gidaris和N.小木动态少数镜头视觉学习而不会忘记。在CVPR，2018年。三、四[15] C.龚氏D.他，X。谭，T.钦湖，加-地王和T Y.刘某Frage：频率不可知的单词表示。在NIPS，2018年。三、四6428[16] K.他，G.吉基奥萨里山口多拉尔河和娘娘腔。面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页，2017年。6[17] K.他，X。Zhang，S. Ren和

下载后可阅读完整内容，剩余1页未读，立即下载