引导锚定：基于语义特征的高效目标检测方案

74 浏览量更新于2023-10-18 收藏 1013KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2965通过引导锚定的王佳琪1陈凯1杨硕2陈昌来3林大华11香港中文大学-商汤科技联合实验室2亚马逊再认知3南洋理工大学{wj017，ck015，dhlin}@ ie.cuhk.edu.hkshuoy@amazon.comccloy@ntu.edu.sg摘要区域锚是现代目标检测技术的基石。最先进的检测器主要依赖于密集锚定方案，其中锚定在具有预定义的尺度和纵横比的空间域上均匀地采样。在本文中，我们重新审视这一基础阶段。我们的研究表明，它可以做得更有效和更高效。具体来说，我们提出了一种替代方案，命名为引导锚定，杠杆年龄的语义特征来指导锚定。提出的方法联合预测感兴趣对象的中心可能存在的位置以及不同位置处的尺度和长宽比。在预测的锚形状之上，我们用特征自适应模块减轻了特征不一致。我们还研究了使用高质量的建议，以提高检测性能。锚定方案可以无缝地集成到建议方法和检测器中。通过指导性的筛选，我们实现了9。与RPN基线相比，MS COCO的召回率高1%，锚点减少90%。我们还在Fast R-CNN，Faster R-CNN和RetinaNet中采用了Guided训练，分别将检测mAP提高了2。2%，2.7%和1。百分之二。代码可从https：//github.com/open-mmlab/mmdetection网站。1. 介绍分类器是回归参考和分类器，用于预测建议（对于两阶段检测器）或最终边界框（对于单阶段检测器）。现代对象检测流水线通常从大量密集分布的锚点开始以Faster RCNN [27]（一种流行的对象检测框架）为例，它首先从一组密集的锚点中生成区域建议，然后将它们分类到特定的类中，并通过边界框回归来细化它们的位置合理的锚定有两条一般规则：*同等缴款。标志：对齐和一致性。首先，为了使用卷积特征作为锚点表示，锚点中心需要与特征图像素很好地对齐。第二，感受域和语义范围应与特征地图不同位置锚点的尺度和形状滑动窗口是一种简单而广泛采用的锚定方案。对于大多数检测方法，锚点由这样的统一方案定义，其中特征图中的每个位置与具有预定义尺度和纵横比的k个锚点相基于锚点的检测管道在基准测试[6，20，7，5]和真实世界系统中均然而，上述均匀锚定方案不一定是制备锚定物的最佳方式。该方案可能导致两个困难：（1）对于不同的问题，必须预定义固定纵横比的一组整齐的锚。错误的设计可能会妨碍检测器的速度和精度。(2)为了保持对提案的足够高的召回，需要大量的锚，而它们中的大多数对应于与感兴趣的对象无关的假候选。同时，大量的锚点可能导致显著的计算成本，特别是当管道在建议阶段涉及繁重的分类器时。在这项工作中，我们提出了一个更有效的方法来预锚，目的是减轻手工挑选的先验的问题。我们的方法的动机是观察对象不均匀分布在图像上。物体的尺度还与图像内容、物体的位置和场景的几何形状密切相关根据这种直觉，我们的方法分两步生成稀疏锚：首先识别可能包含对象的子区域，然后确定不同位置的形状。可学习的锚点形状是有前途的，但它打破了前述的一致性规则，从而提出了一个新的挑战，学习锚点表示准确的分类和回归。锚的尺度和长宽比现在是可变的而不是固定的，因此不同的特征图像素必须学习适合相应锚的自适应表示为了解决这个问题，我们引入2966一个有效的模块，以基于锚几何形状调整特征。我们制定了一个引导锚定区域建议网络（GA-RPN）与上述指导锚定和功能自适应计划。由于动态预测的锚点，我们的方法实现了9.1%的更高的重新调用与90%的锚点大幅减少比RPN基线，采用密集锚点方案。通过预测尺度和长宽比，而不是根据预定义的列表来固定它们，我们的方案更有效地处理高或宽的物体。除了区域建议，引导锚定方案可以很容易地集成到任何依赖于锚的检测器。一致的性能增益可以实现与我们的计划。例如，GA-Fast-RCNN、GA-Faster-RCNN和GA-RetinaNet在COCO数据集上使用滑动窗口锚定将总体mAP分别提高了2.2%、2.7%和1.2%。此外，我们探索了高质量建议的使用，并提出了一个使用GA-RPN建议的微调时间表，它可以提高任何训练模型的性能，例如，它将完全收敛的Faster R-CNN模型从37.4%提高到39.6%，仅用了3个时期。这项工作的主要贡献在于几个作为-方面。(1)我们提出了一个新的锚定方案，能够预测非均匀和任意形状的锚定，而不是密集和预定义的。(2)我们用两个因子分解的条件分布来表示联合锚分布(3)我们研究了将特征与相应的锚点对齐的重要性，并设计了一个特征自适应模块，根据锚点的形状来细化特征。(4)我们研究了两阶段检测器的高质量建议的使用，并提出了一个方案，以提高训练模型的性能。2. 相关工作对象检测中的滑动窗口锚点。在特征图中采用滑动窗口的方式生成锚点，已被各种基于锚点的检测器广泛采用。两阶段方法一直是物体检测的现代时代的主要范式。更快的 R-CNN [27] 提出了区域建议网络（RPN）来生成对象建议。它使用一个小的全卷积网络将每个滑动窗口锚点映射到低维特征。这种设计也被采用在后面的两阶段方法[3，18，12]。MetaAnchor[32]将元学习引入锚点生成。已经有尝试[8，9，23，31，33，34，1，2]应用级联架构来拒绝早期层或阶段的简单样本，并迭代地回归边界框以进行渐进式细化。与两阶段的方法相比，单阶段流水线跳过对象建议生成，并在一次评估中预测边界框和类分数虽然省略了建议步骤，但单阶段方法仍然使用由滑动窗口产生的锚盒。例如，SSD [21]和DenseBox [14]从特征图密集地生成RetinaNet [19]引入焦点丢失来解决前台-后台类失衡。YOLOv2[26]采用滑动窗口锚进行分类和空间位置预测，以实现比其先例更高的召回率。比较与差异。我们总结了所提出的方法和传统方法之间的区别如下。（i）优先权、以前的方法（单一-阶段、两阶段和多阶段）仍然依赖于通过滑动窗口的密集且均匀的锚。我们放弃了滑动窗口方案，并提出了一个更好的对应物来指导锚定和生成稀疏锚，这是以前没有探索过的。(ii)级联检测器采用多个阶段逐步细化检测边界框，这通常会导致更多的模型参数和推理速度下降。这些方法采用RoI Pooling或RoI Align来提取边界框的对齐特征，这对于提案生成或单阶段检测器来说太昂贵了。(iii)无锚定方法[14，15，25]通常具有简单的管道，并在单个阶段内产生最终检测结果。由于缺乏锚点和基于锚点的进一步细化，他们缺乏处理复杂场景和案件的能力。我们的重点是稀疏和非均匀的锚定方案和使用高质量的建议，以提高检测性能。为了实现这一目标，我们必须解决基于锚点的方法所特有的错位和不一致问题(iv)一些单次检测器[33，30]通过多元回归和分类来细化锚点。我们的方法与他们有很大的不同。我们不逐步改进传统方法没有考虑锚点和特征之间的对齐，因此它们多次回归锚点（由[x，y，w，h]相反，我们强调这两个规则的重要性，所以我们只预测锚点形状，但固定锚点中心，并根据预测的形状调整特征。3. 导向锚定锚点是现代对象检测流水线中的基础。主流框架，包括两阶段和单阶段方法，大多依赖于锚点的统一具体而言，将在尺寸为W×H的特征图上部署一组具有预定尺度和长宽比的锚，步幅为s。该方案是低效的，因为许多锚点被放置在感兴趣的对象不太可能存在的区域中。此外-2967指导锚固指导锚固指导锚固导向锚定锚代锚预测公司简介位置锚锚预测宽×高×2形状锚预测功能自适应1x1转换锚预测偏移字段电子邮��′特征金字塔指导锚固图1：我们的框架的说明。对于特征金字塔中的每个输出特征图，我们使用具有两个分支的锚点生成模块然后将特征自适应模块应用于原始特征图以使新特征图知道锚形状。这种手工挑选的先验不切实际地假定一组固定形状（即，比例和纵横比）。在这项工作中，我们的目标是开发一个更有效的锚定计划，安排锚与可学习的形状，考虑到非均匀分布的对象的引导锚定方案如下工作。对象的位置和形状可以由（x，y，w，h）形式的4元组表征，其中（x，y）是中心的空间坐标，w是宽度，并且h是高度。假设我们从给定的图像I中绘制一个对象，那么它的位置和形状可以被认为遵循以I为条件的分布，如下所示：[18，19]表明，在不同级别上对多个特征图进行操作通常是有帮助的因此，我们开发了一种多级锚点生成方案，该方案遵循FPN架构[18]，在多个特征图请注意，在我们的设计中，锚生成参数在所有涉及的特征级别之间共享，因此该方案是参数高效的。3.1. 锚点位置预测如图 1 所示，锚点位置预测分支产生概率图 p（·|FI），其中每个条目p（i，j|FI）对应于坐标为（（i +1）s，（j +1）s）的位置p（x，y，w，h|I）=p（x，y|I）p（w，h|x，y，I）。（1）22这种因式分解抓住了两个重要的直觉：（1）给定图像，对象可能仅存在于某些区域中;以及（2）形状，即，尺度和长宽比与物体的位置密切相关。按照这个公式，我们设计了一个锚点生成模块，如图1的红色虚线框所示。该模块是一个由两个分支组成的网络，分别用于位置和形状预测给定图像I，我们首先导出特征图FI。在FI之上，位置预测分支产生指示对象的可能位置的概率图，而形状预测分支预测位置相关的形状。给定来自两个分支的输出，我们通过选择预测概率高于某个阈值的位置以及每个所选位置处的最可能形状来生成一组锚点由于锚点形状可以变化，因此不同位置处的特征应当捕获不同范围内考虑到这一点，我们进一步引入了一个特征自适应模块，它根据锚的形状来调整特征。上述锚点生成过程基于单个特征图。目标检测技术的最新进展其中s是特征图的步幅，即，的距离相邻的锚之间。条目在我们的公式中，概率映射p（i，j|（1）预-使用子网络NL来指示。该网络采用1×1卷积到基本特征图FI，以获得对象分数的图，然后通过逐元素S形函数将其转换为虽然更深的子网络可以做出更准确的预测，但我们根据经验发现，卷积层后跟sigmoid变换可以在效率和准确性之间取得良好的平衡。基于所得到的概率图，我们然后通过选择其对应的概率值高于预定义阈值的那些位置来确定对象可能存在的活动区域。这个过程可以过滤掉90%的区域，同时仍然保持相同的召回率。如图4（b）所示，天空和海洋等区域被排除在外，而锚则密集地集中在人和冲浪板周围。由于不需要考虑那些被排除的区域，因此我们将随后的卷积层替换为掩码卷积[17，28]，以实现更有效的推理。2968我IT我我我3.2. 锚钉形状预测在确定对象的可能位置之后，我们的下一步是确定可能存在于每个位置的对象的形状。这是由锚形状预测分支完成的，如图1所示。该分支与传统的边界框回归非常不同具体地，给定特征图FI，该分支将预测每个位置的最佳形状（w，h），即，可以导致具有最近地面实况边界框的最高覆盖范围的形状虽然我们的目标是预测宽度w和高度h的值，但我们根据经验发现，直接预测这两个数字是不稳定的，因为它们的范围很大。相反，我们采用以下转换：w=σ·s·e dw，h=σ·s·e dh。（二）形状预测分支将输出dw和dh，然后如上所述将其映射到（w，h），其中s是步幅，σ是经验比例因子（在我们的实验中σ=8这种非线性变换将输出空间从近似[0，1000]投影到[-1，1]，从而获得更容易和稳定的学习目标。在我们的设计中，我们使用一个子网络NS进行形状预测，它包括一个1×1卷积层，产生一个包含dw和dh值的双通道映射，以及一个实现Eq.（二）、注意，该设计与传统锚定方案的本质不同在于，每个位置仅与动态预测形状的一个锚点相关联，而不是与预定义形状的一组锚点相关联。我们的实验表明，由于位置之间的密切关系，nent，它将根据基础锚点形状在每个单独位置转换要素，如f′=N（f，w，h），（3）其中fi是第i个位置处的特征，（wi，hi）是对应的锚形状。对于这样的位置相关变换，我们采用3 × 3可变形卷积层[4]来实现NT。如图1所示，我们首先从锚形状预测分支的输出预测偏移场，然后将可变形卷积应用于具有偏移的原始特征图以获得f ′。在适应的特征之上，我们可以执行进一步的分类和边界框回归。3.4. 培训共同目标。所提出的框架是优化的端到端的方式使用多任务损失。除了传统的分类损失Lcls和回归损失Lreg之外，我们还引入了锚定位Lloc和锚形状预测Lshape的两个额外损失。它们被联合优化，具有以下损失。L=λ 1 Lloc+λ 2 Lshape+Lcls+ Lreg。（四）定位目标。为了训练锚定位分支，对于每个图像，我们需要二进制标签映射，其中1表示放置锚的有效位置，0表示其他位置。在这项工作中，我们采用地面实况边界框指导二进制标签地图的生成。特别是，我们希望在物体中心附近放置更多的锚点，而远离中心的锚点则首先，我们将地面实况边界框（xg，yg，wg，hg）映射到相应的特征图尺度，并获得（x′，y′，w′，h′）。我们将R（x，y，w，h）表示为g g g g和形状，我们的计划可以实现更高的召回比基线方案。由于它允许任意的长宽比，我们的计划可以更好地捕捉那些非常高或宽的对象。矩形区域，其中心为（x，y），大小为w×h。锚被期望放置在接近地面实况对象的中心，以获得更大的初始IoU，因此，我们定义了三种类型的区域为每个框。(1) 中心区域CR=R（x′，y′，σ1w′，σ1h′）定义3.3.锚点引导特征自适应g g在采用滑动窗口方案的常规RPN或单级检测器中，锚是单锚的。盒子的中心区域CR中的像素分配为阳性样本。(2) 忽略区域IR=R（x′，y′，σ2w′，σ2h′）\CR为G g在整个特征图上形成，即，它们共享相同的每个位置的形状和比例。因此，特征图可以学习一致的表示。然而，在我们的方案中，锚的形状在不同的位置之间变化。在这种情况下，我们发现遵循之前的约定[27]可能不是一个好的选择，其中完全卷积分类器均匀地应用于特征图。理想情况下，用于大锚点的特征应该在大区域上编码内容根据这种直觉，我们进一步设计了一个锚引导的特征自适应组件，一个较大的（σ2> σ1）区域，不包括CR。 IR中的像素是标记为(3) 外部区域OR是不包括CR和IR。 OR中的像素被视为阴性样本。以前的工作[14]提出了平衡采样的“灰色区域”，其定义与我们的定位目标相似，但仅适用于单个特征图。由于我们使用FPN的多个特征水平，我们还考虑相邻特征图的影响。具体而言，每一级特征图应仅针对特定比例范围的对象，因此我们仅在以下情况下才在特征图上分配CR：2969真值边界框中心区域（正）忽略区域外部区域（负）5040302010图2：多级特征的锚点位置目标。我们将地面实况对象分配到不同的特征级别，根据其尺度，并定义CR，IR和OR分别。(Best以颜色查看）。特征图匹配目标对象的比例范围。相邻层的相同区域被设置为IR，如图2所示。当多个对象重叠时，CR可以支持-01.0 0.9 0.8 0.7 0.6 0.5IOU图3：RPN和GA-RPN提案的IoU分布。我们显示了随着IoU减少而累积的提案数量。边界框L1是平滑L1损失。L形状= L1（1 − min（w，wg））+L1（1 − min（h，hg））。（六）按IR，IR可以抑制OR。由于CR通常是AC-WGWHGH对于整个特征图的一小部分，我们使用焦点损失[19]来训练位置分支。锚定形状目标。有两个步骤来确定每个锚钉的最佳形状目标。首先，我们需要将锚点与地面实况边界框匹配。接下来，我们将预测锚匹配的地面实况先前的工作[27]将候选锚分配给地面实况边界框，该边界框产生具有锚的最大IoU然而，该过程在我们的情况下不适用，因为我们的锚点的w和h不是预定义的而是变量。为了克服这个问题，我们定义了可变锚点awh={（x0，y0，w，h）|w>0，h>0}和如下的地面实况边界框gt =（x g，y g，w g，h g），表示为vIoU。3.5.使用高质量的提案通过所提出的引导锚定方案（GA-RPN）增强的RPN可以产生比传统RPN高得多的质量。我们探讨如何提高传统的两级检测器的性能，通过使用这样的高质量的建议。首先，我们研究RPN和GA-RPN生成的提案的IoU分布，如图3所示。GA-RPN方案相对于RPN方案有两个显著优势(1)积极提案的数量更多;（2）高IoU提案的比例更显著。一个简单的想法是用拟议的GA-RPN替换现有模型中的RPN，并端到端地训练模型。然而，这个问题并不简单，并且采用与之前完全相同的设置只能带来有限的增益（例如，vIoU（awh， gt）=maxw>0，h> 0IoU正常（awh， gt），（5）少于1分）。根据我们的观察，使用高质量提案的先决条件是调整其中IoUnormal是IoU的典型定义，w和h是变量。注意，对于任意锚点位置（x0，y0）和地面实况gt，vIoU（awh， gt）是一个复杂的、难以实现的系统在端到端网络中高效地进行。因此，我们使用另一种方法来近似它。给定（x0，y0），我们选取w和h的一些公共值来模拟所有w和h的枚举。然后，我们用gt计算这些采样锚的IoU，并使用最大值作为vIoU（awh，gt）的近似值。在实验中，我们在训练期间对9对（w，h）进行采样以估计vIoU具体来说，我们采用了9对不同的尺度，并作为-在RetinaNet中使用的pect比率[19]。从理论上讲，我们采样的对越多，近似值就越精确，而计算成本就越高。我们采用有界iou损失的变量[29]来优化形状预测，而不计算目标。损失在等式中定义。其中（w，h）和（wg，hg）表示预测的锚形状和对应的地面实况的形状。训练样本按照建议分布。因此，与RPN相比，我们设置了更高的正/负阈值，并在使用GA-RPN端到端训练检测器时使用更少的样本。除了端到端的训练，我们发现，GA-RPN的亲是能够提高一个训练有素的两阶段检测器的微调时间表。具体地说，给出一个训练好的模型，我们丢弃建议生成组件，例如，RPN，并使用预先计算的GA-RPN建议对几个时期进行微调（默认情况下为3个时期）。GA-RPN程序也用于推理。这种简单的微调方案可以进一步提高性能的大幅度，只有几个epoch的时间成本。4. 实验4.1. 实验环境数据集。我们在具有挑战性的MS COCO 2017基准上进行实验[20]。我们用火车分开RPNGA-RPN提案/img2970表1：MS COCO上的区域提案结果。方法骨干AR100AR300AR1000ARSARMARL运行时（s/img）[24]第二十四话ResNet-5036.4-48.26.051.066.50.76（不公平）GCN-NS [22]VGG-16（SyncBN）31.6-60.7---0.10[第10话]VGG-1653.3-66.231.562.277.74.00邮编[16]BN-inception53.9-67.031.963.078.51.13ResNet-50-FPN47.554.759.431.755.164.60.09RPNResNet-152-FPN51.958.062.036.359.868.10.16ResNeXt-10152.858.762.637.360.868.60.26RPN+9个锚钉ResNet-50-FPN46.854.660.329.554.965.60.09RPN+病灶丢失[19]ResNet-50-FPN50.256.660.933.958.267.50.09RPN+有界IoU损失[29]ResNet-50-FPN48.355.159.633.056.064.30.09RPN+迭代ResNet-50-FPN49.756.060.034.758.264.00.10优化RPNResNet-50-FPN50.256.360.633.559.166.90.11GA-RPNResNet-50-FPN59.265.268.540.967.879.00.13表2：MS COCO 2017检测结果表3：训练的Faster R-CNN的微调结果。方法APAP 50AP 75AP SAPM APLFast R-CNN37.159.639.720.739.547.1GA-Fast-RCNN39.459.442.821.641.950.4Faster R-CNN37.159.140.121.339.846.5GA-Faster-RCNN39.859.243.521.842.650.7RetinaNet 35.9 55.4 38.8 19.4 38.9 46.5GA-RetinaNet37.156.940.040.148.0培训并在valsplit上报告绩效。检测结果在测试-开发分割上报告。实作详细数据。我们使用ResNet-50 [13]和FPN [18]作为骨干网络，如果没有其他说明的话。作为一种常见的约定，我们将图像的大小调整为1333×800，而不改变纵横比。我们设σ1= 0。2，σ2= 0。五、在多任务损失函数中，我们简单地使用λ1=1，λ2=0。1.平衡位置，形状预测分支。我们使用同步SGD，8个GPU，每个GPU有 2个图像我们总共训练了12个epoch，初始学习率为0.02，并在epoch 8和11将运行时间在TITAN X GPU上测量。评估指标。RPN的结果用平均召回（AR）来衡量，AR是不同IoU阈值（从0.5到0.95）下召回的平均值每个图像100、300和1000个建议的AR表示为AR100、AR300和AR1000。针对100个建议计算小型、中型和大型对象（ARS、ARM、ARL检测结果采用标准COCO指标进行评估，其IoU的平均mAP为0.5至0.95。4.2. 结果我们首先通过比较GA-RPN与RPN基线的召回率来评估我们的锚定方案，APAP50AP75APSAPM APL-37.4 58.9 40.3 20.8 41.1 49.5RPN 37.3 58.6 40.1 20.4 40.6 49.8GA-RPN我们最先进的区域建议方法。同时，我们比较了RPN的一些变体。“RPN+9 anchors” de- notes “RPN+FocalLoss” and “RPN+Bounded IoU Loss” denotes adoptingfocal loss [ “RPN+Iterative” denotes applying two RPNheads consecutively, with an additional “RefineRPN”denotes a similar structure to [如表1所示，我们的方法大大优于RPN基线。具体而言，它分别使AR300和AR1000提高了10.5%和9.1%。值得注意的是，具有小骨架的GA-RPN可以实现比具有较大骨架的RPN高得多的再调用。我们令人鼓舞的结果得到了图4所示定性结果的支持，在图4中，我们显示了稀疏和任意形状的锚，并可视化了两个分支的输出。研究发现，主持人的注意力集中在目标上，这为随后的目标建议提供了良好的基础。在图5中，我们展示了滑动窗口锚定和引导锚定时生成的建议的一些示例。迭代回归和分类（2971宽表4：我们设计中每个模块的效果。L.，美国，和F.A. 分别表示位置、形状和特征自适应(a)（b）（c）高大图4：锚点预测结果。(a)输入图像和预测锚;（b）预测的锚点位置概率图;（c）预测锚的长宽比。表5：不同位置阈值的结果。锚钉数量/图片AR100AR300AR1000FPS0 75583（100.0%）59.2 65.2 68.5 7.80.01 22274（29.4%）59.2 65.2 68.5 8.00.05 5251（6.5%）59.1 65.1 68.2 8.20.1 2375（3.2%）59.0 64.7 67.2 8.2图5：RPN提案（顶行）和GA- RPN提案（底行）的示例.时间不够有效。保持锚点的中心固定并根据锚点形状调整特征至关重要。为了考察引导式神经网络的泛化能力，1.61.41.21.00.80.60.40.20.02 3 4 56 7 890.80.70.60.50.40.30.20.10.0GTGASW432101234choring和它的权力，以提高检测性能，我们将其整合到两阶段和单阶段去，scale（sqrt（w*h））（一）纵横比（h/w）(b)保护管道，包括Fast R-CNN [11]，Faster R-[27 ]第27话：你是谁？[29]对于两级检测器，我们用GA-RPN代替原来的RPN，对于单级检测器，我们用所提出的引导锚定代替滑动窗口锚定方案。表2中的结果表明，引导锚定不仅提高了RPN的建议召回率，而且还大幅提高了检测率在引导锚定下，这些探测器的mAP分别提高了2.3%、2.7%和1.2%。为了进一步研究高质量提案的有效性我们对检测器进行了3个时期的微调，学习率分别为0.02，0.002和0.0002。表3中的结果表明，RPN建议不能带来任何增益，而高质量GA-RPN建议仅用3个时期的时间成本为训练模型带来2.2%的mAP改进。4.3. 消融研究模型设计我们在设计中省略了不同的组件，以研究每个组件的有效性，包括位置预测，形状预测和特征自适应。结果示于表4中。形状预测分支被示出为有效的，这导致增益为4。百分之二。图6：（a）锚定比例和（b）纵横比分布不同的锚定方案。通过应用log2（·）运算符将x轴简化为对数空间。GT、GA、SW表示地面实况，引导锚定，滑动窗口，分别。位置预测分支带来了边际改进。然而，该分支的重要性反映在其获得稀疏锚点的有用性上，从而导致更有效的推理。特征自适应模块带来的明显增益表明，根据预测的锚形状重新排列特征图的必要性此模块有助于捕获与锚作用域相对应的信息，尤其是对于大型对象。锚点位置。位置阈值RNL控制锚分布的稀疏性。采用不同的阈值将产生不同数量的锚。为了揭示CNOL对效率和性能的影响，我们改变阈值并比较以下结果：每个图像的锚点的平均数量、最终建议的召回和推理运行时间。从表5中我们可以观察到，大多数背景区域的对象性得分接近于0，因此较小的BML可以大大减少锚点的数量，减少90%以上，召回率仅略有下降值得注意的是，RPN中的头部只是一个卷积层，因此加速并不明显。然而，锚点数量的显著减少提供了用更重的头执行更有效的推理的可能性。GTGASWGA-RPNL.S.F.A.AR100AR300AR1000ARSARMARL47.554.759.431.755.164.6C48.054.859.532.355.664.8C53.859.963.636.462.971.7CC54.060.163.836.763.171.5CCC59.265.268.540.967.879.0RPN2972K表6：对齐和一致性规则的影响。C.A. 表7：利用高质量提案的探索。F.A. 表示中心对齐（对齐规则）和特征自适应（一致性规则）。C.A.F.A.AR 100AR 300AR 1000AR SARMARL51.7 58.0 61.6 33.8 60.9 70.0C54.0 60.1 63.8 36.7 63.1 71.5C57.2 63.6 66.8 38.3C C59.2 65.2 68.5 40.9 67.8 79.0锚定形状。我们将我们的方法生成的锚点集与预定义的RPN1 000 0.6 37.2 57.1 40.5300 0.5 36.1 57.6 39.0300 0.6 37.0 56.3 39.5形状.由于我们的方法在特征图的每个位置处仅预测一个锚点，而不是不同尺度和纵横比的k个（在我们的基线中k=3）锚点，因此总锚点数量减少了1。我们在图6中展示了带有滑动窗口锚点的锚点的比例和纵横比分布。结果表明，引导锚定方案的预定义的锚定尺度和形状的巨大优势。预测的锚点覆盖范围更广的尺度和纵横比，其具有与地面实况对象类似的分布，并提供了对对象具有更高覆盖率的初始锚点池特征自适应。特征自适应模块大大提高了查全率，证明了特征一致性的补救措施是必不可少的。我们认为，这种改进不仅来自于采用可变形卷积，而且来自于我们的设计，即使用一个chor形状预测来预测可变形卷积层的偏移。如果我们在锚点生成之后简单地添加可变形卷积层，则AR 100/AR 300/AR 1000的结果为56.1%/62.4%/66.1%，不如我们设计的结果。对齐和一致性规则。我们验证了这两个建议的规则的必要性。对齐规则建议我们应该保持锚中心与特征图像素对齐根据一致性准则，设计了特征自适应模块，对特征进行细化。表6中的结果显示了这些规则的重要性。1)从第1行和第2行，或者第3行和第4行，我们了解到预测形状和中心偏移而不仅仅是预测形状会损害性能。2)第1行和第3行或第2行和第4行之间的比较显示了一致性的影响。使用高质量的提案。尽管有高质量的建议，训练一个好的检测器仍然是一个不小的问题。如图3所示，GA-RPN提案提供了更多高IoU的候选者这表明我们可以使用更少的建议来训练检测器。我们测试了不同数量的提案和不同的IoU阈值，以在Fast R-CNN上为前景/背景分配标签从表7中的结果，我们观察到：（1）更大的IoU阈值对于利用高质量的提案很重要。通过关注更高的IoU，将有更少的假阳性和fea-用于分类的图更具区分性。由于我们在训练过程中为IoU小于0.6的提案分配了负标签，因此AP 为0 。5将下降，而高IoU的AP将大幅增加，整体AP要高得多。(2)如果召回率足够高，在训练和测试过程中使用较少的建议可以有利于学习。较少的建议导致较低的召回率，但会简化学习过程，因为有更多的硬样本低分数的提案。当使用RPN propos- als进行训练时，如果我们只使用300个propos-als，则性能会下降，因为回忆不充分，许多ob-bits会被遗漏。然而，GA-RPN即使在更少的建议下也能保证高召回率，因此使用300个建议的训练仍然可以提高最终的mAP。超参数。我们的方法对超参数不敏感. （1）当我们采样 3 ， 9 ， 15 对以近似方程。（ 5 ）分别得到AR@1000 68. 3%，68。5%，68。百分之五（2）设λ2=0。1.平衡违约损失条款。我们得到68。4%，λ2=0。2或0。05和68百分之三其中λ2=0。02. （3）我们在[0. 1，0。[5]和σ2在[0. 二一0]，性能保持可比（在68. 1%，68。5%）。5. 结论我们提出了引导锚定方案，它利用语义特征来指导锚定。它通过联合预测位置和依赖于位置的锚形状来所提出的方法实现了9.1%的召回率，90%的锚比RPN基线使用滑动窗口计划。它也可以应用于各种基于锚点的探测器，以提高高达2.7%的性能。鸣谢本研究部分由商汤科技集团的合作研究资助（中大协议编号：TS1610626&编号TS1712093），香港一般研究基金（第 14236516 号 14203518& No.14224316）和新加坡MoEAcRFTier1（M4012082.020）。提案numIoU thrAPAP50AP7510000.536.758.839.310000.537.459.940.010000.638.959.042.4GA-RPN3000.537.559.640.43000.639.459.343.22973引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议上，2018。2[2] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.实例分割的混合任务级联，2019年。2[3] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统进展，2016。2[4] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。神经信息处理系统进展，2016。4[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别上，2009年。1[6] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：98-136，2015. 1[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。IEEE计算机视觉和模式识别会议，2012。1[8] Amir Ghodrati ， Ali Diba ， Marco Pedersoli ， TinneTuyte- laars，和Luc Van Gool. Deepproposal：通过级联深度卷积层来搜索对象。IEEE国际计算机视觉会议，2015。2[9] 斯派罗·吉达里斯和尼科斯·科莫达基斯基于多区域和语义分割感知cnn模型的目标检测。IEEEInternationalConference on Computer Vision，2015年。2[10] 斯派罗·吉达里斯和尼科斯·科莫达基斯参加细化重复：通过输入输出本地化生成活动框建议。2016年英国机器视觉会议。6[11] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议，2015。7[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 IEEEInternationalConference on Computer Vision，2017。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。6[14] Lichao Huang，Yi Yang，Yafeng Deng，and Yinan Yu.密集盒：将地标定位与端到端对象检测相统一。arXiv预印本arXiv：1509.04874，2015。二、四[15] 泽群杰，梁晓丹，冯佳世，卢文峰，郑英福，严水成。尺度感知的逐像素对象建议网络。IEEE Transactions onImage Processing，25（10）：4525-4539，2016。2[16] Hongyang Li ，Yu Liu ，Wanli Ouyang，and XiaogangWang. 放大和放大网络，并进行区域建议和对象检测的地图注意力决策国际计算机视觉杂志，第1-14页，2017年。6[17] 李晓晓，刘紫薇，罗平，陈昌来，唐晓鸥。并非所有像素都相等：通过深层级联的困难感知语义分割。2017. 3[18] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议，2017年7月。二、三、六[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得 · 多尔 · 拉尔。密集目标检测的焦面损失。IEEEInternational Conference on Computer V

下载后可阅读完整内容，剩余1页未读，立即下载