网格R-CNN：一种基于网格引导的精确对象检测框架

103 浏览量更新于2023-10-18 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7363网格R-CNN卢欣1李步宇2岳宇欣3李全全1严俊杰1商汤科技2香港中文大学3北京航空航天大学{卢鑫，李泉泉，严俊杰}@ sensetime.com，李步宇braiten@outlook.cn，yueyuxin@buaa.edu.cn摘要本文提出了一种新的对象检测框架Grid R-CNN，它采用网格引导的局部化机制进行精确的对象检测。与传统的基于回归的方法不同，Grid R-CNN显式地捕获空间信息，并享受全卷积架构的位置敏感特性。我们设计了一个多点监督公式来编码更多的线索，而不是只使用两个独立的点，以减少特定点的不准确预测的影响为了充分利用网格中点的相关性，我们提出了一种两阶段的信息融合策略来融合相邻网格点的特征图。网格引导定位方法易于扩展到不同的最先进的检测框架-作品。Grid R-CNN导致高质量的对象定位，实验表明，与具有Res 50骨干和FPN架构的Faster R-CNN相比，它在 IOU=0.8 时实现了 4.1% 的 AP 增益，在IOU=0.9时实现了10.0%的AP增益。1. 介绍目标检测任务可以分解为目标分类和定位。近年来，提出了许多基于深度卷积神经网络（CNN）虽然这些方法在许多不同方面提高了检测性能，但它们的边界框定位模块是相似的。典型的边界框定位模块是一个回归分支，它被设计为几个完全连接的层，并采用高级特征图来预测候选框（建议或预定义锚点）的偏移。在本文中，我们介绍了网格R-CNN，一种新的对象检测框架，其中传统的回归公式被网格点引导的定位机制所取代。并且显式空间表示被有效地用于高质量定位。与特征图被折叠的回归方法相反，图1. (a)传统的基于偏移回归的包围盒局部化方法。(b)我们在Grid R-CNN中提出的网格引导定位。边界框由完全卷积网络定位。Grid R-CNN通过完全连接的层将对象边界框区域划分为网格，并使用全卷积网络（FCN）[21]来预测网格点的位置。由于全卷积结构的位置敏感特性，Grid R-CNN保持了显式的空间信息，并且可以在像素级获得网格点位置。如图1.b所示，当特定位置处的特定数量的网格点已知时，明确确定相应的边界框。在网格点的指导下，Grid R-CNN可以比缺乏显式空间信息指导的回归方法确定更准确的由于边界框具有四个自由度，因此两个独立点（例如，左上角和右下角）对于特定对象的定位是足够的。然而，由于点的位置与局部特征不直接对应，预测并不容易。例如，图1.b中的猫的右上角点位于对象主体之外，其在图像中的邻近区域仅包含背景，并且7364它可以与附近的像素共享非常相似的局部特征。为了克服这个问题，我们设计了一个多点监督公式。通过在网格中定义目标点，我们有更多的线索来减少不准确预测的影响，的一些观点。例如，在一个典型的3×3网格点监督案例中，可能不准确的y轴共轴右上点的纵坐标可由位于物体边界上的上中点的纵坐标标定。网格点是减少总体偏差的有效设计。此外，为了充分利用网格中点的相关性，我们提出了一种信息融合方法。具体来说，我们为每个网格点设计单独的特征图组。对于一个网格点，相邻网格点的特征图被收集并融合成一个完整的特征图。综合特征图用于相应网格点的位置预测。因此，从空间相关的网格点的补充信息被纳入，使预测更准确。我们展示了我们的Grid R-CNN框架在具有挑战性的COCO基准的对象检测跟踪上的有效性[19]。我们的方法优于传统的回归为基础的国家的最先进的方法由显着的利润。例如，我们超过了具有ResNet-50 [14]和FPN [17]架构骨干的Faster R-CNN [25]，AP为2.2%。进一步比较不同的IoU阈值标准表明，我们的方法在高质量的目标定位中具有压倒性的优势，在IoU=0.8时AP增益为4.1%，在IoU=0.9时AP增益为10.0%。我们工作的主要贡献如下：1. 我们提出了一种称为Grid R-CNN的新型定位框架，它用完全卷积网络代替传统的回归网络，有效地保留了空间信息据我们所知，Grid R-CNN是第一个提出的基于区域的（两阶段）检测框架，它通过在像素级上预测网格点来定位对象。2. 我们设计了一种多点监督的形式，预测网格中的点，以减少一些不准确的点的影响。我们进一步提出了一个特征图级信息融合机制，使空间相关的网格点，以获得合并的功能，使他们的位置可以很好地校准。3. 我们进行了大量的实验，并证明Grid R-CNN框架广泛适用于不同的检测框架和网络架构，具有一致的增益。 Grid R-CNN在更严格的定位标准（例如，IoU阈值= 0.75）。因此，我们有信心，我们的网格引导定位机制是一个更好的替代基于回归的定位方法。2. 相关作品由于我们的新方法是基于两阶段的目标检测器，这里我们简要地回顾了一些相关的工作。两阶段对象检测器是从R-CNN架构[9]开发的，R-CNN架构是一种基于区域的深度学习框架，可以对一些低级计算机视觉算法生成的每个RoI（感兴趣区域）进行分类和定位[30，34]。然后SPP-Net [12]和Fast-RCNN [8]引入了一种新的方法，通过从整个图像生成的共享特征中提取每个区域特征来虽然SPP-Net和Fast-RCNN显著提高了目标检测的性能，但ROI生成部分仍然不能端到端训练。后来，提出了Faster- RCNN[25]，通过利用亮区域建议网络（RPN）来生成一组稀疏的ROI来解决这个问题这使得整个检测管道成为端到端的可训练网络，并进一步提高检测器的准确性和速度。此外，还提出了一些单阶段框架[20，18，24，16]来平衡模型的性能和效率。最近，许多作品在许多方面扩展了Faster R-CNNR-FCN [3]提出用基于区域的全卷积网络代替原来的全连通网络。FPN [17]提出了一种具有横向连接的自顶向下架构，用于为不同尺度构建高级语义特征图Mask R-CNN [11]通过添加一个用于预测像素对象掩码的分支来扩展Faster R-CNN。与Mask R-CNN不同，我们的方法用新的网格分支替换回归分支，以更准确地定位对象。此外，我们的方法除了边界框之外不需要额外的注释。LocNet [7]提出了一种基于边界的方法，用于对象检测中的精确定位。它依赖于区域边界的条件概率，而我们的方法是基于网格点预测。此外，LocNet用于生成建议（如RPN），Grid R-CNN用于边界框预测。CornerNet [15]是一个单级对象检测器，它使用成对的关键点来定位对象。它同时，设计了一个嵌入网络，以尽可能接近地映射利用上述嵌入机制，检测到的角点可以成对分组并定位边界框。值得注意的是CornerNet是一种自下而上的方法，这意味着它直接从整个图像中生成关键点，而无需定义实例。CornerNet的关键步骤是识别关键点并将其正确分组。与此相反，我们的方法是一个自顶向下的两阶段检测器，定义实例在第一阶段。我们关注的是如何7365W图2. Grid R-CNN的管道概述。区域建议从RPN中获得，并用于从CNN主干的输出特征图中提取RoI特征。然后使用RoI特征来执行分类和定位。与以前的作品与框偏移回归分支相比，我们采用了网格指导机制，以实现高质量的本地化。网格预测分支采用FCN来输出概率热图，我们可以从中定位与对象对齐的边界框中的网格点。利用网格点，通过特征图级的信息融合方法最终确定准确的目标包围盒准确定位网格点此外，我们设计了特征融合模块，利用相关网格点的特征和校准更准确的网格点定位比两个角点。3. 网格R-CNNGrid R-CNN框架的概述如图2所示基于区域建议，从CNN主干获得的特征图中单独提取每个RoI的特征。然后使用RoI特征对相应的建议进行分类和定位与以前的作品相比，例如。更快的R-CNN，我们使用网格引导机制进行定位，而不是关闭。网格预测分支输出分辨率为56×56的N×N热图，并在每个热图上应用逐像素的S形函数以获得概率图。和每个热图具有对应的监督图，其中十字形状的5个像素被标记为目标网格点的正位置二进制交叉熵损失用于优化。在推理过程中，我们在每个热图上选择置信度最高的像素，并计算原始图像上的相应从形式上讲，热图中的点（Hx，Hy）将通过以下等式映射到原始图像中的点（Ix，Iy）高x设置回归。网格预测分支采用完全卷积网络[21]。它输出精细的空间布局Ix=Px+wpO（一）（概率热图），从中我们可以定位与对象对齐的边界框与Iy=Py +Hyhhop网格点，最后通过特征图级信息融合方法确定准确的目标边界框3.1. 网格引导定位大多数先前的方法[9，8，25，17，11，1]使用几个完全连接的层作为回归量来预测用于对象定位的框偏移。而我们采用一个全卷积网络来预测预定义网格点的位置，然后利用它们来确定准确的对象包围盒。我们设计了一个N×N网格形式的目标点对齐的包围盒的对象。一个3×3的例子如图1.b所示，这里的网格点是四个核心点，内点、四条边的中点和中心点其中（Px，Py）是输入图像中建议的左上角的位置，wp和hp是建议的宽度和高度，wo和ho是输出热图的宽度和高度然后用预测的网格点确定物体盒的四个边界具体地，我们将四个边界坐标表示为B=（xl，yu，xr，yb），分别表示左、上、右和下边缘。令gj表示第j个网格点，坐标为（xj ，yj），预测概率为pj ，. 然后，我们将Ei定义为位于第i条边上的网格点的索引的集合，即， j∈Ei，如果gj位于边界框的第i条边。我们有下面的公式来计算B与g的集合：分别每个建议的特征都是通过RoIAlign [11]操作提取的，固定空间大小为14×14，然后是8个3×3扩大（用于大感受野）的孔，x=1LNΣj∈E1x p，y =1j juNΣj∈E2yjpj（二）旋转层然后进行两次2×群反褶积1Σ1Σx=x p，y=y p层，以达到56 ×56的分辨率。rNj jj∈E3bNj jj∈E47366我我我(a)（b）第（1）款图3.左上角网格点上的网格点特征融合机制的3×3示例。箭头表示空间信息传递方向。(a)一阶特征融合，通过融合相邻点的特征来增强点的特征。(b)Grid R-CNN中的二阶特征融合设计。以上边界yu为例，它是上三个网格点y轴坐标的概率加权平均。图4.扩展区域映射策略的图示小的白色框是RoI的原始区域，我们将特征图的表示区域扩展到虚线白色框，以提高绿色地面实况框中网格点的覆盖率。图3.a.在实现中，我们采用简单的求和运算进行融合，信息融合公式如下：3.2. 网格点特征融合网格点具有内在的空间相关性，它们的位置可以相互校准，以减少整体F′=Fi+Σj∈SiTj→i（Fj）（3）偏差在此基础上，建立了空间信息融合模块。基于每个网格点的F′，二阶fu-I+签署直观的实现是坐标级平均，但特征图中的丰富信息被丢弃。进一步的想法是提取与每个特征图上的网格点相对应的局部特征以用于融合操作。然而，这也是一个潜在的有效的-在不同的特征图中形成。以3×3网格为例，对网格左上点的标定，采用有限元分析方法，其他相邻点的特征图的左上区域中的纹理（例如，顶部中点）可以提供有效的信息，但是没有被使用。因此，我们设计了一个特征图级的信息融合机制，以充分利用每个网格点的特征图。为了区分不同点的特征图，我们使用N×N组滤波器分别为它们（从最后一个特征图中）提取特征，并对它们对应的网格点进行中间监督。因此，每个特征图都具有与cer的特定关系tain网格点，我们将第i个点对应的特征图表示为Fi。对于每个网格点，L1距离为1（单位网格长度）的点将有助于融合，这些点称为源点。我们定义源点w.r.t第i个网格点作为Si。对于Si中的第j个源点，F j将被三个连续的5 × 5卷积层处理以进行信息传输，该过程表示为函数T j→i。然后将所有源点的处理后的特征与Fi融合以获得融合特征图F′。左上角网格点在3×3情况下的图示见然后用新的卷积层Tj→i执行融合，这些卷积层和利用二阶融合特征图F“二阶融合使信息传递的范围为2（L1距离）。以3×3网格中的左上网格点为例（如图3.b所示），它综合了其他五个网格点的信息，以进行可靠的校准。3.3. 扩展区域映射网格预测模块输出具有固定空间大小的热图，表示网格点位置的置信度分布。由于采用了全卷积网络架构并且空间信息一直被保留，因此输出热图自然地对应于原始图像中输入提案的空间区域然而，区域建议可能不会覆盖整个对象，这意味着一些地面实况网格点可能位于建议区域之外，并且在训练过程中，缺乏一些网格点标签导致训练样本的利用效率低下。而在推理阶段，通过简单地选择热图上的最大像素，我们可能会获得其地面实况位置在对应区域之外的网格点的完全不正确的在许多情况下，超过一半的网格点没有被覆盖，例如。在图4中，建议（小白框）小于地面实况边界7367O9个网格点中有7个不能被输出热图覆盖。一个自然的想法是扩大提案区。该方法可以保证大部分网格点都包含在建议区域中，但同时也会引入背景或其他物体的冗余特征。实验表明，简单地扩大建议区域不会带来任何好处，但会损害小目标检测的准确性。为了解决这个问题，我们通过扩展的区域映射方法修改输出热图和原始图像中的区域的关系。具体地，当获得建议时，仍然从特征图上的相同区域提取RoI特征，而不扩大建议区域。我们将输出热图的表示区域重新定义为图像中两倍大的对应区域，以便在大多数情况下覆盖所有网格点，如图4所示（虚线框）。扩展区域映射被公式化为等式1的修改：在ImageNet数据集[26]上，其他新参数由He（MSRA）初始化[13]初始化。除标准水平翻转外，未使用数据扩充。我们的模型在32个Nvidia TITAN Xp GPU上训练，每个GPU上有一个图像，20个epoch，初始学习率为0.02，在13和18 epoch中减少10。我们还使用学习率预热和同步BatchNorm机制[10，23]（仅用于网格分支）使多GPU训练更加稳定。推理：在推理阶段，RPN为每张图像生成300/1000（更快的R-CNN/FPN）RoI。然后，这些ROI的特征将由RoIAl处理gin [11]层和分类分支生成类别分数，然后是具有0.5IOU阈值的非最大抑制（NMS）。之后，我们选择前125个得分最高的ROI，并将其RoIAlign特征放入网格分支中以进行进一步的位置预测。最后，NMS与0.5将应用IoU阈值来删除重复的检测框。′Ix=Px+′Iy=Py+4Hx−wo WP2个月4Hy−hohp2h（四）4. 实验我们在两个对象检测数据集Pascal VOC [5]和COCO[19]上进行实验。在Pascal VOC数据集上，我们在VOC 07 +12训练集上训练我们的模型，在新的映射之后，阳性提议的所有目标网格点（其与地面实况框具有大于0.5的重叠）将被热图的对应区域覆盖。3.4. 实现细节网络配置：我们采用深度为50或101的ResNets [14]w/o FPN [17]作为模型的主干。RPN [25]用于提出候选区域。按照惯例，我们在COCO数据集[19]中将输入图像的较短边缘设置为800像素，在Pascal VOC数据集[5]中设置为600像素。在RPN中，每个图像采样256个锚点，阳性锚点与阴性锚点的比例为1：1RPN锚点跨越5个尺度和3个纵横比，正锚点和负锚点的IoU阈值为0.7和0.3。在分类分支中，与地面实况具有大于0.5的重叠的ROI被视为阳性样本。我们在基于Faster R-CNN[25]的模型中对每个图像采样128个RoI，在基于FPN[17]的模型中对每个图像采样512个RoI所有实验均采用RoIAlign [11]，类别分类分支的池大小为7，网格分支的池大小为14。网格预测分支对每个图像最多96个RoI进行采样，并且仅对正RoI进行采样以用于训练。优化：我们使用SGD来优化训练损失，动量为0.9，权重衰减为0.0001。骨干参数由图像分类任务在VOC 2007测试集上进行评估。 COCO [19]数据集它包含80个对象类别，我们在80 k个训练图像和35 k个val图像子集的联合上训练我们的模型，并在5 k个val（minival）子集和20 k个test-dev上测试。4.1. 消融研究多点监控：表1显示了网格点选择如何影响检测精度。我们进行实验的变体网格配方。2点的实验使用地面真值框的左上角和右下角的监督。在4点网格中，我们添加了另外两个角网格点的超透视。 9-点网格是典型的3x3网格公式，已在第3.1节中描述。表1中的所有实验都是在没有特征融合的情况下训练的，以避免使用更多点进行特征融合而带来的额外增益。可以观察到，随着监督网格点的数量增加，检测的准确性也增加。方法APAP. 5AP. 75回归37.459.340.32分38.357.340.5四点网格38.557.540.8九点网格38.958.241.2表1. Grid R- CNN中不同网格点策略的比较。实验表明，更多的网格点带来的性能增益。网格点特征融合：表2中的结果显示7368方法骨干APR-FCNResNet-5045.6FPNResNet-5051.7基于FPN的Grid R-CNNResNet-5055.3表2.不同特征融合方法的比较。双向特征融合、一阶特征融合和二阶特征融合都取得了较好的效果.二阶融合算法性能最好，在AP上提高了0.7%。方法APAP小AP大基线37.722.148.0扩大提案区37.720.850.9扩展区域映射38.922.151.4表3.直接扩大方案与扩大区域制图策略的比较.特征融合的有效性我们对几种典型的特征融合方法进行了如[2]中所述，双向融合方法将信息流建模为双向树。为了公平比较，我们直接使用来自一阶特征融合阶段的特征图进行网格点位置预测，并且看到与双向融合相同的0.3%AP增益。并进行了完全两级特征融合实验。从表2中可以看出，二阶融合进一步将AP提高了0.4%，与非融合基线相比增益为0.7%。特别是AP0.75比AP 0更显著。结果表明，特征融合机制有助于提高边界框的定位精度。扩展区域映射：表3显示了我们的扩展区域映射策略与原始区域表示和直接扩大提案框的方法相比直接扩大区域建议框的ROI特征提取有助于覆盖大对象的更多网格点，但也会为小对象带来冗余信息。因此，我们可以看到，使用这种放大方法，AP增加，但AP减少很小，最后与基线相比下降。而扩展区域映射策略在提高AP大性能的同时，对AP小性能没有负面影响，使AP小性能提高了1.2%。4.2. 与现有技术方法的在minival集上，我们主要比较Grid R-CNN和表4.在Pascal VOC数据集上与R-FCN和FPN进行比较。请注意，我们使用COCO风格的cri来评估结果，这是IoU阈值范围从0.5到[0.5：0.95]的平均AP。两个框架进行公平比较。Pascal VOC上的实验：我们在Pascal VOC数据集上训练Grid R-CNN 18个epoch，学习率在15和17 epoch时降低了 10 。 PASCAL VOC 的原始我们将其扩展到COCO风格的标准，该标准计算跨IoU阈值的平均AP，0.5到0.95，间隔为0.05。我们将Grid R-CNN与R-FCN[3]和FPN [17]进行比较。表4中的结果表明，我们的Grid R-CNN比FPN和R-FCN分别显著提高了3.6%和9.7%的AP。COCO上的实验：为了进一步证明我们的方法的泛化能力，我们对具有挑战性的COCO数据集进行了实验表5显示了我们的方法在多个主干和框架上带来了一致的和实质性的与Faster R-CNN框架相比，Grid R-CNN使用ResNet-50骨干将AP提高了2.1%基于ResNet-50和ResNet-101主干的FPN框架也显示了表5中的实验表明，Grid R-CNN将中型和大型对象的性能显著提高了约3个点。COCO测试开发集的结果：为了进行完整的比较，我们还在COCO测试开发集上评估了Grid R-CNN。我们采用ResNet-101和ResNeXt-101 [31]，[17]第17话在山顶上在没有铃声和whistles的情况下，基于 ResNet-101-FPN 和 ResNeXt- 101-FPN 的 Grid R-CNN如表6所示，与其他最先进的检测器相比，GridR-CNN实现了非常有竞争力的性能。它在没有使用任何额外注释的情况下，性能大大优于Mask R-CNN。请注意，由于SNIP [28]中使用的缩放和Cascade R-CNN[1]中的级联等技术未应用于Grid R-CNN的当前框架中，因此仍有很大的性能改进空间（例如，结合缩放和级联方法）。4.3. 分析与探讨不同IoU标准的准确性：除了两个广泛使用的两级检测器Faster-RCNN和FPN。我们用网格引导定位机制代替了原始的基于回归的定位方法，mAP的概述，在这一部分中，我们将重点放在本地化Grid R-CNN的质量图5示出了基于FPN的 Grid R-CNN和基线FPN之间的比较，方法APAP. 5AP. 75无融合38.958.241.2双向融合[2]39.258.241.8一阶特征融合39.258.141.9二阶特征融合39.658.342.47369方法骨干APAP. 5AP. 75APSAPMAPLFaster R-CNNResNet-5033.855.435.917.437.945.3网格R-CNNResNet-5035.954.038.018.640.247.8更快的R-CNN w FPNResNet-5037.459.340.321.840.947.9Grid R-CNN w FPNResNet-5039.658.342.422.643.851.5更快的R-CNN w FPNResNet-10139.561.243.122.743.750.8Grid R-CNN w FPNResNet-10141.360.344.423.445.854.1表5. COCOminival上的边界框检测AP。Grid R-CNN在ResNet-50和ResNet-101主干上的性能优于Faster R-CNN和FPN。方法骨干APAP. 5AP. 75APSAPMAPL[24]第二十四话暗网-1921.644.019.25.022.435.5SSD-513 [20]ResNet-10131.250.433.310.234.549.8DSSD-513 [6]ResNet-10133.253.335.213.035.451.1Refinedet512 [33]ResNet10136.457.539.516.639.951.4[18]第十八话ResNet-10139.159.142.321.842.750.2CornerNet [15]沙漏-10440.556.543.119.442.753.9更快的R-CNN+ResNet-10134.955.7 37.415.638.750.9更快的R-CNN w FPN [17]ResNet-10136.259.1 39.018.239.048.2更快的R-CNN w TDMInception-ResNet-v2 [29]36.857.7 39.216.239.852.1D-FCN [4]对齐-初始-ResNet37.558.0-19.440.152.5Regionlets [32]ResNet-10139.359.8-21.743.750.9Mask R-CNN [11]ResNeXt-10139.862.3 43.422.143.251.2Grid R-CNN w FPN（我们的）ResNet-10141.560.9 44.523.344.953.1Grid R-CNN w FPN（我们的）ResNeXt-10143.263.0 46.625.146.555.2表6.与COCOtest-dev上最先进的探测器进行比较。跨IoU阈值的相同ResNet-50主干，0.5到0.9。Grid R-CNN在更高的IoU阈值（大于0.7）下优于回归。AP 0时相对于基线的改善。8，AP 0。9分别为4.1%和10%，这意味着Grid R-CNN主要通过提高绑定框的定位质量来实现更好的此外，AP 0. 5表明网格分支可能会稍微影响分类分支的性能。更快的R-CNN与FPN带FPN的70网格R-CNN6050不同类别中不同程度的改进：我们分析了Grid R-CNN在每个类别上的具体改进如表7所示，增益最大的类别通常具有矩形或条形形状（例如，键盘、膝上型计算机、叉子、火车和冰箱），而遭受下降或具有最小增益的类别通常具有没有结构边缘的圆形形状（例如，运动球、飞盘、碗、钟和杯子）。这种现象是合理的，因为网格点分布在一个矩形形状。因此，矩形对象往往有更多的网格点上的身体，但圆形对象永远不能覆盖所有的网格点（特别是角落）与它的身体。4030201000.50.60.7IoU阈值0.8 0.9定性结果比较：我们在这部分展示了我们高质量对象定位结果的插图。如图6所示，与广泛使用的FasterR-CNN（第2行和第4行）相比，Grid R-CNN（第1行和第3行）在准确定位方面具有出色的性能。图6中的第一行和第二行显示，Grid R-CNN在高性能方面优于Faster R-CNN。图5. AP结果跨IoU阈值，从0.5到0.9，间隔为0.1。质量目标检测。第三行和第四行显示Grid R-CNN在大对象检测任务中表现更好。59.358.354.753.946.3 46.336.332.219.69.6地图7370图6.定性结果比较。Grid R-CNN的结果列在第一行和第三行，而Faster R-CNN的结果列在第二行和第四行。类别猫熊长颈鹿狗飞机马斑马厕所键盘叉泰迪熊火车笔记本冰箱热狗增益6.05.65.45.35.35.04.84.84.74.64.44.24.03.63.6类别面包机吹风机运动球飞盘红绿灯背包风筝手袋微波碗时钟杯胡萝卜餐桌船增益-1.9-1.3-1.0-0.8-0.5-0.4-0.3-0.1-0.1-0.10.10.10.20.30.3表7.在Grid R-CNN与Faster R-CNN的结果中，分别获得最多收益和最多跌幅的前15个类别5. 结论在本文中，我们提出了一种新的目标检测框架，网格R-CNN，它取代了传统的框偏置回归策略在目标检测的网格引导机制，高质量的定位。网格分支利用FCN的位置敏感特性预测网格点，确定网格引导的包围盒，从而定位目标。设计了一个特征融合模块，通过特征地图级的空间信息传递，实现了网格点位置的标定。此外，提出了一种扩展的区域映射机制，以帮助ROI获得更大的表示，这会使区域覆盖尽可能多的网格点，从而显著提高性能。广泛的实验表明，Grid R-CNN带来了坚实而一致的改进，并实现了最先进的性能，特别是在严格的评估指标上，例如IoU=0.8和IoU=0.9时的AP。由于网格引导的定位方法很容易扩展到其他框架，我们将尝试将尺度选择和级联技术与Grid R-CNN相结合，我们相信可以获得进一步的收益。7371引用[1] Z. Cai和N.瓦斯康塞洛斯Cascade r-cnn：深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[2] X.朱，W。欧阳，H. Li和X.王.用于姿态估计的结构化在IEEE计算机视觉和模式识别会议论文集，第4715-4723页[3] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。[4] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。在IEEE计算机视觉国际会议论文集，第764-773页[5] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。 International Journal of Computer Vision ， 111（1）：98[6] C.- Y.傅，W. Liu，中国粘蝇A. Ranga、黑腹拟步行虫A.Tyagi和A. C.伯格。Dssd：解卷积单次激发探测器。arXiv预印本arXiv：1701.06659，2017。[7] S. Gidaris和N.小木Locnet：提高物体检测的定位精度。在IEEE计算机视觉和模式识别会议论文集，第789-798页[8] R. 娘娘腔。快速 R-CNN 。在 Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[9] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页，2014年。[10] P.戈雅，P.多尔，R.女孩P.诺德豪斯，L. Wesolowski，A. Kyrola，A. Tulloch，Y. Jia和K.他外准确的大小批量sgd：1小时内训练imagenet arXiv预印本arXiv：1706.02677，2017。[11] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。[12] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔欧洲计算机视觉会议，第346-361页。Springer，2014.[13] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在Proceedings ofthe IEEE international conference on computer vision ，pages 1026[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[15] H. Law和J. Deng. Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议（ECCV）的会议记录中，第734-750页[16] B. Li，Y.刘，和X。王.梯度协调单级探测器。在AAAI人工智能会议上，2019。[17] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在计算机视觉和模式识别（CVPR），2017年IEEE会议上，第936-944页。IEEE，2017年。[18] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失。在IEEE计算机视觉国际会议论文集，第2980- 2988页[19] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象欧洲计算机视觉会议，第740-755页Springer，2014.[20] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。欧洲计算机视觉会议，第21-37页。施普林格，2016年。[21] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3431-3440页[22] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。欧洲计算机视觉会议，第483-499页。施普林格，2016年。[23] C. 彭氏T.肖，Z.Li，Y.Jiang，X.Zhang，K.Jia，G.Yu和J. Sun. Megdet：大型小型批量物体探测器。在IEEE计算机视觉和模式识别会议上，第6181-6189页，2018年[24] J. Redmon和A.法哈迪。Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页[25] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91-99页[26] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015.[27] A.什里瓦斯塔瓦河Sukthankar，J. Malik和A.古普塔。后面的跳过连接：自上而下的对象检测调制。arXiv预印本arXiv：1612.06851，2016。[28] B. Singh和L. S.戴维斯目标检测中尺度不变性分析。在IEEE计算机视觉和模式识别会议论文集，第3578- 3587页[29] C.塞格迪，S。约菲，V. Vanhoucke，和A. A.阿莱米起始 -v4 ，起始 -resnet 和剩余连接对学习的影响。在AAAI，第4卷，第12页，2017年。[30] J. R. Uijlings，K. E. Van De Sande，T. Gevers和A. W.史默德斯对象识别的选择性搜索。International Journal ofComputer Vision，104（2）：1547372[31] S. 谢河，巴西-地Girshick，P. 多拉尔，Z。 Tu和K. 他外深度神经网络的聚集残差变换。在计算机视觉和模式识别（CVPR），2017 IEEE会议上，第5987-5995页。IEEE，2017年。[32] H. Xu，X. Lv、X。Wang， Z. Ren，N. Bodla和R.切-拉帕。用于对象检测的深层子区域。在欧洲计算机视觉会议（ECCV）的会议记录中，第798-814页[33] S.张丽文，X.卞氏Z. Lei和S. Z.李用于目标检测的单次细化神经网络。在IEEE计算机视觉和模式识别会议论文集，第4203-4212页，2018年[34] C. L. Zitnick和P. 多尔拉。边框：从边定位对象欧洲计算机视觉会议，第391-405页。Springer，2014.

下载后可阅读完整内容，剩余1页未读，立即下载