没有合适的资源?快使用搜索试试~ 我知道了~
carefully tuned in anchor-based detectors.2) Even withcareful design, because the scales and aspect ratios of an-chor boxes are kept fixed, detectors encounter difficulties todeal with object candidates with large shape variations, par-ticularly for small objects. The pre-defined anchor boxesalso hamper the generalization ability of detectors, as theyneed to be re-designed on new detection tasks with differ-ent object sizes or aspect ratios.3) In order to achievea high recall rate, an anchor-based detector is required todensely place anchor boxes on the input image (e.g., morethan 180K anchor boxes in feature pyramid networks (FPN)[14] for an image with its shorter side being 800). Mostof these anchor boxes are labelled as negative samples dur-ing training. The excessive number of negative samples ag-gravates the imbalance between positive and negative sam-ples in training. 4) Anchor boxes also involve complicatedcomputation such as calculating the intersection-over-union(IoU) scores with ground-truth bounding boxes.Recently, fully convolutional networks (FCNs) [20] haveachieved tremendous success in dense prediction tasks suchas semantic segmentation [20, 28, 9, 19], depth estimation[17, 31], keypoint detection [3] and counting [2]. As oneof high-level vision tasks, object detection might be theonly one deviating from the neat fully convolutional per-96270FCOS:全卷积单阶段目标检测0Zhi Tian Chunhua Shen � Hao Chen Tong He TheUniversity of Adelaide, Australia0摘要0我们提出了一种全卷积单阶段目标检测器(FCOS),以像素级预测的方式解决目标检测问题,类似于语义分割。几乎所有最先进的目标检测器,如RetinaNet、SSD、YOLOv3和FasterR-CNN都依赖于预定义的锚框。相比之下,我们提出的检测器FCOS是无锚框的,也无需提出候选框。通过消除预定义的锚框集合,FCOS完全避免了与锚框相关的复杂计算,如训练期间的重叠计算。更重要的是,我们还避免了与锚框相关的所有超参数,这些超参数通常对最终的检测性能非常敏感。仅通过后处理的非极大值抑制(NMS),FCOS在ResNeXt-64x4d-101上实现了44.7%的AP,使用单模型和单尺度测试,超过了以往的单阶段检测器,并具有更简单的优势。我们首次展示了一个更简单和灵活的检测框架,实现了更好的检测精度。我们希望所提出的FCOS框架可以作为许多其他实例级任务的简单而强大的替代方案。代码可在以下网址获取:tinyurl.com/FCOSv101. 引言0目标检测是计算机视觉中一项基础而具有挑战性的任务,它要求算法对图像中每个感兴趣实例预测一个带有类别标签的边界框。目前所有主流的检测器,如FasterR-CNN、SSD和YOLOv2、v3都依赖于一组预定义的锚框,长期以来人们一直认为锚框的使用是检测器成功的关键。尽管它们取得了巨大的成功,但值得注意的是,基于锚框的检测器存在一些缺点:1)如[15,24]所示,检测性能对锚框的大小、长宽比和数量敏感。例如,在RetinaNet中,改变这些超参数会对COCO基准测试中的AP性能产生高达4%的影响。因此,这些超参数需要在基于锚框的检测器中进行仔细调整。2)即使经过精心设计,由于锚框的尺度和长宽比保持不变,检测器在处理具有大形状变化的目标候选框时会遇到困难,尤其是对于小目标。预定义的锚框还会影响检测器的泛化能力,因为它们需要在具有不同目标尺寸或长宽比的新检测任务上重新设计。3)为了实现高召回率,基于锚框的检测器需要在输入图像上密集放置锚框(例如,在特征金字塔网络(FPN)中对于较短边为800的图像,需要超过180K个锚框)。这些锚框中的大多数在训练期间被标记为负样本。负样本的过多数量加剧了训练中正负样本之间的不平衡。4)锚框还涉及复杂的计算,如计算与地面实况边界框的交并比(IoU)分数。最近,全卷积网络(FCNs)在密集预测任务(如语义分割、深度估计、关键点检测和计数)方面取得了巨大的成功。作为高级视觉任务之一,目标检测可能是唯一一个与整洁的全卷积模型不同的任务。0*通讯作者,电子邮件:chunhua.shen@adelaide.edu.au0r l0b0t0图1 -如左图所示,FCOS通过预测一个4D向量(l,t,r,b),在每个前景像素上编码边界框的位置(在训练期间由地面实况边界框信息监督)。右图显示,当一个位置存在于多个边界框中时,就会在回归时产生歧义,不确定该位置应该回归到哪个边界框。96280像素预测框架主要是由于使用了锚点。自然而然地会有一个问题:我们是否可以像语义分割中的FCN一样,以整洁的像素预测方式解决目标检测问题?因此,这些基本的视觉任务可以在(几乎)一个单一的框架中统一。我们展示了答案是肯定的。此外,我们还首次证明,更简单的基于FCN的检测器比基于锚点的检测器具有更好的性能。在文献中,一些工作尝试利用基于FCN的框架进行目标检测,例如DenseBox[12]。具体而言,这些基于FCN的框架直接在特征图的每个空间位置上预测一个4D向量和一个类别。如图1(左)所示,4D向量描述了边界框相对于位置的四个边的偏移量。这些框架与用于语义分割的FCN类似,只是每个位置需要回归一个4D连续向量。然而,为了处理不同尺寸的边界框,DenseBox[12]裁剪和调整训练图像到一个固定的尺度。因此,DenseBox必须在图像金字塔上执行检测,这与FCN一次计算所有卷积的理念相悖。此外,更重要的是,这些方法主要用于特殊领域的目标检测,如场景文本检测[33, 10]或人脸检测[32,12],因为人们认为这些方法在应用于具有高度重叠边界框的通用目标检测时效果不好。如图1(右)所示,高度重叠的边界框导致了一个棘手的歧义:在重叠区域的像素中,不清楚应该回归哪个边界框。接下来,我们仔细研究了这个问题,并展示了使用FPN可以大大消除这种歧义。因此,我们的方法已经能够获得与传统基于锚点的检测器相当的检测精度。此外,我们观察到我们的方法可能会在远离目标对象中心的位置产生一些低质量的预测边界框。为了抑制这些低质量的检测结果,我们引入了一个新颖的“中心性”分支(仅有一层)来预测像素与其对应边界框中心的偏差,如公式(3)所定义。然后,使用这个得分来减少低质量的检测边界框,并在非极大值抑制中合并检测结果。这个简单而有效的“中心性”分支使得基于FCN的检测器在完全相同的训练和测试设置下优于基于锚点的检测器。这种新的检测框架具有以下优点。0•检测现在与许多其他FCN可解决的任务(如语义分割)统一在一起,使得从这些任务中复用思想变得更容易。0•检测变得无需提案和锚点,大大减少了设计参数的数量。设计参数通常需要启发式调整,并且需要使用许多技巧才能达到良好的性能。因此,我们的新检测框架使得检测器,特别是其训练过程,变得更简单。 •通过消除锚点,我们的新检测器完全避免了与锚点相关的复杂计算,例如IOU计算以及训练过程中锚点与真实边界框之间的匹配,从而实现了比基于锚点的检测器更快的训练和测试速度,以及更小的训练内存占用。 •在没有花哨的技巧的情况下,我们在一阶段检测器中取得了最先进的结果。我们还展示了所提出的FCOS可以作为两阶段检测器中的区域建议网络(RPNs),并且可以比基于锚点的RPNs取得显著更好的性能。鉴于更简单的无锚点检测器的更好性能,我们鼓励社区重新思考锚点在目标检测中的必要性,锚点目前被视为检测的事实标准。 •所提出的检测器可以立即扩展到其他视觉任务,只需进行最小的修改,包括实例分割和关键点检测。我们相信这种新方法可以成为许多实例预测问题的新基准。02. 相关工作0基于锚框的检测器。基于锚框的检测器继承了传统的滑动窗口和基于提议的检测器(如Fast R-CNN[6])的思想。在基于锚框的检测器中,锚框可以被视为预定义的滑动窗口或提议,它们被分类为正样本或负样本,并进行额外的偏移回归以细化边界框位置的预测。因此,这些检测器中的锚框可以被视为训练样本。与以前的像FastR-CNN这样的检测器不同,它们为每个滑动窗口/提议重复计算图像特征,锚框利用了CNN的特征图,并避免了重复的特征计算,大大加速了检测过程。锚框的设计在FasterR-CNN的RPNs [24]、SSD [18]和YOLOv2[22]中得到了推广,并成为现代检测器中的常规。然而,如上所述,锚框导致了过多的超参数,通常需要仔细调整才能达到良好的性能。除了描述锚框形状的上述超参数之外,基于锚框的检测器还需要其他96290x40HxWx256 HxWx2560分类 HxWxC0中心性HxWx10x40HxWx256 HxWx2560回归HxWx40不同特征层之间共享的头部0C50C40C30P70P60P50P40P30Heads0骨干特征金字塔0Heads0Heads0Heads0Heads0分类 + 中心性 + 回归0100 x 128 /8050 x 64 /16025 x 32 /32013 x 16 /6407 x 8 /1280H x W /s0800 x 10240图2 - FCOS的网络架构,其中C3、C4和C5表示骨干网络的特征图,P3到P7是用于最终预测的特征层。H × W是特征图的高度和宽度。'/ s'(s =8,16,...,128)是特征图在该层到输入图像的下采样比率。例如,所有数字都是在800 × 1024的输入下计算的。0超参数用于将每个锚框标记为正样本、忽略样本或负样本。在以前的工作中,它们经常使用锚框与真实框之间的交并比(IOU)来确定锚框的标签(例如,如果IOU在[0.5,1]之间,则为正锚框)。这些超参数对最终的准确性有很大影响,并且需要启发式调整。同时,这些超参数是特定于检测任务的,使得检测任务与其他密集预测任务(如语义分割)中使用的整洁的全卷积网络架构有所偏离。无锚框检测器。最流行的无锚框检测器可能是YOLOv1[21]。YOLOv1不使用锚框,而是在靠近物体中心的点上预测边界框。只使用靠近中心的点是因为它们被认为能够产生更高质量的检测结果。然而,由于只有靠近中心的点用于预测边界框,所以YOLOv1在召回率方面存在问题,正如YOLOv2 [22]中提到的那样。因此,YOLOv2[22]也使用了锚框。与YOLOv1相比,FCOS利用了地面真实边界框中的所有点来预测边界框,并且通过提出的“中心性”分支抑制了低质量的检测边界框。因此,FCOS能够在实验中提供与基于锚框的检测器相当的召回率。CornerNet[13]是最近提出的一种单阶段无锚框检测器,它检测出一个边界框的一对角点,并将它们分组形成最终检测到的边界框。CornerNet需要更复杂的后处理来将属于同一实例的角点对分组。为了进行分组,还学习了额外的距离度量。0另一类无锚点检测器,如[32],基于DenseBox[12]。由于处理重叠边界框的困难和召回率相对较低,这类检测器被认为不适用于通用目标检测。在这项工作中,我们展示了多级FPN预测可以在很大程度上缓解这两个问题。此外,我们还展示了与我们提出的中心性分支一起,这种更简单的检测器可以实现比基于锚点的对应物更好的检测性能。03.我们的方法0在本节中,我们首先以逐像素预测的方式重新定义目标检测。接下来,我们展示了如何利用多级预测来提高召回率并解决由重叠边界框引起的歧义。最后,我们提出了我们提出的“中心性”分支,它有助于抑制低质量的检测边界框,并大幅提高整体性能。03.1.全卷积单阶段目标检测器0设Fi∈RH×W×C为骨干CNN的第i层的特征图,s为直到该层的总步长。输入图像的真实边界框定义为{Bi},其中Bi=(x(i)0,y(i)0,x(i)1,y(i)1,c(i))∈R4×{1,2,...C}。这里(x(i)0,y(i)0)和(x(i)1,y(i)1)表示边界框左上角和右下角的坐标。c(i)是边界框中的对象所属的类别。C是类别的数量,对于MS-COCO数据集为80。对于特征图Fi上的每个位置(x,y),我们可以r∗ = x(i)1 − x, b∗ = y(i)1− y.(1)(2)963002 � + ys ),该位置(x,y)的接受野中心附近。与基于锚点的检测器不同,基于锚点的检测器将输入图像上的位置视为(多个)锚框的中心,并使用这些锚框作为参考来回归目标边界框。我们直接在位置上回归目标边界框。换句话说,我们的检测器将位置直接视为训练样本,而不是基于锚点的检测器中的锚框,这与用于语义分割的FCN[20]相同。具体来说,如果位置(x,y)落在任何真实边界框内,则将其视为正样本,位置的类别标签c�为真实边界框的类别标签。否则,它是一个负样本,c� =0(背景类)。除了用于分类的标签外,我们还有一个4D实值向量ttt�=(l�,t�,r�,b�),它是位置的回归目标。这里的l�,t�,r是位置到边界框四边的距离,如图1(左)所示。如果一个位置落在多个边界框内,它被认为是一个模糊样本。我们简单地选择面积最小的边界框作为其回归目标。在下一节中,我们将展示通过多级预测,模糊样本的数量可以显著减少,因此它们几乎不会影响检测性能。形式上,如果位置(x,y)与边界框Bi相关联,则位置的训练回归目标可以表示为,0l�=x−x(i)0,t�=y−y(i)0,0值得注意的是,FCOS可以利用尽可能多的前景样本来训练回归器。这与基于锚点的检测器不同,后者仅将与真实边界框具有足够高IOU的锚框视为正样本。我们认为这可能是FCOS优于基于锚点的对应物的原因之一。网络输出。我们网络的最后一层预测了一个80D的分类标签向量ppp和一个4D的边界框坐标向量ttt=(l,t,r,b)。与[15]类似,我们不是训练一个多类分类器,而是训练C个二进制分类器。类似于[15],我们在骨干网络的特征图之后分别添加了四个卷积层,用于分类和回归分支。此外,由于回归目标始终为正数,我们在回归分支的顶部使用exp(x)将任何实数映射到(0,∞)。值得注意的是,FCOS的网络输出变量比流行的基于锚点的检测器[15,24]少9倍,每个位置有9个锚框。损失函数。我们将训练损失函数定义为0如下:0L ( { ppp x,y } , { ttt x,y } )= 10N pos0x,y L cls ( pppx,y , c � x,y )0+ λ0N pos0x,y � { c � x,y > 0 } L reg (ttt x,y ,ttt � x,y ),0其中,L cls 是[15]中的focal loss,L reg 是[32]中的IOUloss。N pos 表示正样本的数量,本文中λ为1,是L reg的平衡权重。求和计算在特征图F i 的所有位置上进行。� { c �i > 0 } 是指示函数,如果c � i >0,则为1,否则为0。推理。FCOS的推理很简单。给定输入图像,我们将其通过网络前向传播,并获得每个特征图F i上每个位置的分类分数ppp x,y 和回归预测ttt x,y。根据[15],我们选择具有p x,y >0.05的位置作为正样本,并反转等式(1)以获得预测的边界框。03.2. 使用FPN的多级预测进行FCOS。0在这里,我们展示了如何通过使用FPN[14]的多级预测来解决FCOS的两个可能问题。1)CNN中最终特征图的大步长(例如,16×)可能导致相对较低的最佳召回率(BPR)1。对于基于锚点的检测器,由于大步长而导致的低召回率可以通过降低正锚点框所需的IOU分数来在一定程度上补偿。对于FCOS,乍一看可能会认为BPR可能远低于基于锚点的检测器,因为由于大步长,不可能召回没有任何位置编码的对象。在这里,我们通过实验证明,即使具有大步长,基于FCN的FCOS仍然能够产生良好的BPR,并且甚至可以优于基于锚点的检测器RetinaNet[15]在官方实现Detectron[7]中的BPR(参见表1)。因此,BPR实际上不是FCOS的问题。此外,通过多级FPN预测[14],BPR可以进一步改善,以达到基于锚点的RetinaNet可以实现的最佳BPR。2)地面实况框的重叠可能导致难以处理的歧义,即在重叠中的位置应该回归哪个边界框?这种歧义会导致基于FCN的检测器性能下降。在这项工作中,我们展示了多级预测可以很好地解决这种歧义,并且基于FCN的检测器可以获得与基于锚点的检测器相当甚至更好的性能。根据FPN[14],我们在不同的特征图级别上检测不同大小的对象。具体来说,我们利用五个特征图级别定义为01 检测器可以达到的召回率的上限。t*r*l*b*�min(l∗, r∗)max(l∗, r∗) × min(t∗, b∗)max(t∗, b∗).(3)96310{ P 3 , P 4 , P 5 , P 6 , P 7 }。P 3 ,P 4 和P 5是由骨干CNN的特征图C 3 ,C 4 和C 5通过[14]中的自顶向下连接后的1×1卷积层产生的,如图2所示。P 6 和P 7 是通过在P 5 和P 6上应用步长为2的卷积层产生的。因此,特征级别P 3 ,P 4,P 5 ,P 6 和P 7的步长分别为8、16、32、64和128。与基于锚点的检测器不同,将不同大小的锚点框分配给不同的特征级别,我们直接限制每个级别的边界框回归范围。具体来说,我们首先计算所有特征级别上每个位置的回归目标l � ,t � ,r � 和b �。接下来,如果一个位置满足max( l � ,t � ,r � ,b � ) > m i或max( l � ,t � ,r � ,b � ) < m i − 1,则将其设置为负样本,因此不需要再回归边界框。这里mi 是特征级别i需要回归的最大距离。在这项工作中,m 2,m 3 ,m 4 ,m 5 ,m 6 和m 7分别设置为0、64、128、256、512和∞。由于不同大小的对象分配给不同的特征级别,并且大多数重叠发生在具有相当不同大小的对象之间。如果一个位置,即使使用了多级预测,仍然分配给多个地面实况框,我们只需选择面积最小的地面实况框作为其目标。正如我们的实验所示,多级预测可以在很大程度上减轻上述歧义,并将基于FCN的检测器提高到与基于锚点的检测器相同的水平。最后,根据[14,15],我们在不同的特征级别之间共享头部,这不仅使检测器参数高效,而且提高了检测性能。然而,我们观察到不同的特征级别需要回归不同的尺寸范围(例如,P 3的尺寸范围为[0, 64],P 4 的尺寸范围为[64,128]),因此使用相同的头部对不同的特征级别是不合理的。因此,我们使用可训练的标量s i来自动调整指数函数的基数,而不是使用标准的exp( x),这在一定程度上提高了检测性能。03.3. FCOS的中心性0在使用多级预测的FCOS之后,FCOS与基于锚点的检测器之间仍然存在性能差距。我们观察到,这是由于很多低质量的预测边界框由远离物体中心的位置产生。我们提出了一种简单而有效的策略,可以抑制这些低质量的检测边界框,而不引入任何超参数。具体来说,我们添加了一个单层分支,与分类分支并行(如图2所示),用于预测位置的“中心性”2。0图3 -中心性。红色、蓝色和其他颜色分别表示1、0和它们之间的值。中心性由公式(3)计算,并且随着位置偏离物体中心而从1衰减到0。在测试时,网络预测的中心性与分类分数相乘,因此可以降低由远离物体中心的位置预测的低质量边界框的权重。0中心性描述了位置与其负责的物体中心之间的归一化距离,如图3所示。给定位置的回归目标l � ,t � ,r �和b�,中心性目标定义为,0中心性 � =0我们在这里使用sqrt来减缓中心性的衰减。中心性的取值范围从0到1,因此使用二元交叉熵(BCE)损失进行训练。该损失被添加到损失函数Eq.(2)中。在测试时,通过将预测的中心性与相应的分类分数相乘,计算出最终得分(用于对检测到的边界框进行排序)。因此,中心性可以降低远离物体中心的边界框的分数。因此,这些低质量的边界框很可能在最终的非最大抑制(NMS)过程中被滤除,从而显著提高检测性能。中心性的另一种选择是仅使用真实边界框的中心部分作为正样本,但需要额外的超参数,如[12,33]中所示。在我们提交后,[1]中已经证明了两种方法的组合可以实现更好的性能。实验结果可以在表3中找到。04. 实验0我们的实验在大规模检测基准COCO[16]上进行。按照常见做法 [15, 14,24],我们使用COCO的trainval35k数据集(115K张图像)进行训练,使用minival数据集(5K张图像)作为验证集进行我们的消融研究。我们通过将检测结果上传到评估服务器,报告我们在testdev数据集(20K张图像)上的主要结果。训练细节。除非另有说明,我们使用ResNet-50[8]作为我们的主干网络,并使用与RetinaNet[15]相同的超参数。具体来说,我们的0如果中心性与回归分支并行而不是与分类分支并行,可以提高COCO的性能。然而,除非另有说明,我们仍然使用图2中的配置。96320方法 w/ FPN 低质量匹配 BPR (%)0RetinaNet � 无 86.82 RetinaNet � ≥ 0.4 90.92 RetinaNet� 全部 99.230FCOS - 95.55 FCOS � - 98.40 表1 -基于锚点的RetinaNet在各种匹配规则下的BPR以及基于FCN的FCOS的BPR。基于FCN的FCOS与最佳基于锚点的方法具有非常相似的召回率,并且比Detectron [7]中的官方实现具有更高的召回率,Detectron只考虑IOU≥ 0.4的低质量匹配。0w/ FPN 模糊样本(%) 模糊样本(diff.)(%)023.16 17.84 � 7.14 3.75 表2 -Amb.样本表示模糊样本与所有正样本的比例。Amb.样本(diff.)类似,但排除了属于相同类别的重叠区域中的那些模糊样本,因为这种模糊性质在推断时并不重要。我们可以看到,使用FPN后,模糊样本的比例很小(3.75%)。0网络使用随机梯度下降(SGD)进行90K次迭代训练,初始学习率为0.01,小批量为16张图像。学习率在第60K和80K次迭代时分别减小10倍。权重衰减和动量分别设置为0.0001和0.9。我们使用在ImageNet[4]上预训练的骨干网络权重进行初始化。对于新增加的层,我们将它们初始化为[15]中的方式。除非指定,输入图像被调整大小,使其较短的一边为800,较长的一边小于或等于1333。推断细节。我们首先将输入图像通过网络前向传播,并获得预测的边界框和预测的类别。除非指定,以下后处理与RetinaNet[15]完全相同,我们直接使用RetinaNet的相同后处理超参数。我们使用与训练时相同的输入图像尺寸。我们假设如果仔细调整超参数,我们的检测器的性能可能会进一步提高。04.1.消融研究04.1.1 使用FPN的多级预测0如前所述,基于FCN的检测器的主要问题是低召回率和由地面真实边界框重叠导致的模糊样本。在本节中,我们将展示通过多级预测可以很大程度上解决这两个问题。最佳可能召回率。关于基于FCN的检测器的第一个问题是它可能无法提供良好的最佳可能召回率(BPR)。在本节中,我们将展示这个担忧是不必要的。这里BPR被定义为检测器能够召回的地面真实边界框数量与所有地面真实边界框数量之比。0最佳可能召回率是指检测器在训练过程中至少将一个样本(即FCOS中的位置或基于锚点的检测器中的锚框)分配给地面真实边界框的数量与所有地面真实边界框数量之比。如表1所示,仅使用特征级别P4(步长为16,即没有FPN)时,FCOS就可以获得95.55%的BPR。该BPR远高于官方实现Detectron中锚点检测器RetinaNet的90.92%的BPR,其中仅使用IOU≥0.4的低质量匹配。在FPN的帮助下,FCOS可以达到98.40%的BPR,这非常接近锚点检测器通过使用所有低质量匹配可以达到的最佳BPR。由于当前检测器的最佳召回率远低于90%,FCOS与基于锚点的检测器之间的小BPR差距(小于1%)实际上不会影响检测器的性能。这也在表3中得到了证实,在相同的训练和测试设置下,FCOS实现了比其基于锚点的对应物更好的平均召回率。因此,对于低BPR的担忧可能是不必要的。0FCN-based检测器的另一个问题是由于地面真实边界框的重叠而可能存在大量的模糊样本,如图1(右侧)所示。在表2中,我们展示了在minival分割上模糊样本与所有正样本的比例。如表中所示,如果不使用FPN并且只使用特征级别P4,则确实存在大量的模糊样本(23.16%)。然而,使用FPN后,由于大多数重叠对象被分配到不同的特征级别,该比例可以显著降低至仅为7.14%。此外,我们认为由于同一类别对象之间的重叠而导致的模糊样本并不重要。例如,如果具有相同类别的对象A和B重叠,无论重叠区域中的位置预测哪个对象,预测都是正确的,因为它总是与相同的类别匹配。遗漏的对象可以通过仅属于它的位置进行预测。因此,我们只计算不同类别之间边界框重叠的模糊样本。如表2所示,多级预测将模糊样本的比例从17.84%降低至3.75%。为了进一步证明地面真实边界框的重叠不是我们基于FCN的FCOS的问题,我们计算了有多少检测到的边界框来自模糊位置。我们发现只有2.3%的检测到的边界框是由模糊位置产生的。通过进一步仅考虑不同类别之间的重叠,该比例降低至1.5%。请注意,这并不意味着有1.5%的位置FCOS无法工作。如前所述,这些位置与具有最小面积的地面真实边界框相关联。因此,这些位置只承担错过一些较大对象的风险。如下面的实验所示,它们并不会影响检测器的性能。APAP50AP75APSAPMAPL96330方法 C5/P5 w/ GN NMS阈值 AP AP 50 AP 75 AP S AP M AP L AR 1 AR 10 AR 1000RetinaNet C5 .50 35.9 56.0 38.2 20.0 39.8 47.4 31.0 49.4 52.5 FCOS C5 .50 36.3 54.8 38.7 20.5 39.8 47.8 31.5 50.6 53.5FCOS P5 .50 36.4 54.9 38.8 19.7 39.7 48.8 31.4 50.6 53.40FCOS P5 .60 36.5 54.5 39.2 19.8 40.0 48.9 31.3 51.2 54.5 FCOS P5 � .60 37.1 55.9 39.8 21.3 41.0 47.8 31.4 51.4 54.90改进 + 在回归P5上使用中心性 � .60 37.4 56.1 40.3 21.8 41.2 48.8 31.5 51.7 55.2 + 中心性采样[1] P5 � .60 38.1 56.7 41.4 22.6 41.6 50.4 32.1 52.8 56.3 +GIoU[1] P5 � .60 38.3 57.1 41.0 21.9 42.4 49.5 32.0 52.9 56.5 + 归一化 P5 � .60 38.6 57.4 41.4 22.3 42.5 49.8 32.3 53.4 57.1 表3 -使用ResNet-50-FPN作为主干网络,在minival数据集上比较FCOS和RetinaNet。直接使用RetinaNet的训练和测试设置,我们的无锚点FCOS在AP和AR上都取得了比基于锚点的RetinaNet更好的性能。使用头部的GroupNormalization(GN)和NMS阈值为0.6,FCOS可以达到37.1的AP。在我们提交后,对FCOS进行了一些几乎没有成本的改进,性能得到了大幅提升,如“改进”下方的行所示。“在回归上使用中心性”:将中心性分支移到回归分支。“中心性采样”:只对真实边界框的中心部分进行采样作为正样本。“GIoU”:在IoU损失中对外接矩形的并集面积进行惩罚。“归一化”:使用FPN级别的步长对回归目标进行归一化。详细信息请参考我们的代码。0None 33.5 52.6 35.2 20.8 38.5 42.6 中心性† 33.5 52.4 35.1 20.8 37.842.8 中心性 37.1 55.9 39.8 21.3 41.0 47.8 表4 -对提出的中心性分支在minival数据集上进行消融研究。“None”表示不使用中心性。“中心性†”表示使用从预测回归向量计算的中心性。“中心性”表示使用从提出的中心性分支预测的中心性。中心性分支在所有指标下提高了检测性能。0使得我们的FCOS不如基于锚点的检测器。04.1.2 有无中心性0如前所述,我们提出了“中心性”来抑制远离物体中心的位置产生的低质量检测边界框。如表4所示,中心性分支可以将AP从33.5%提升到37.1%,使得无锚点的FCOS优于基于锚点的RetinaNet(35.9%)。需要注意的是,基于锚点的RetinaNet使用两个IoU阈值将锚点框标记为正样本/负样本,这也有助于抑制低质量的预测。提出的中心性可以消除这两个超参数。然而,在我们初步提交后,已经显示同时使用中心性和阈值可以获得更好的性能,如表3中的“+中心性采样”行所示。可以注意到,中心性也可以使用从预测回归向量计算,而不引入额外的中心性分支。然而,如表4所示,从回归向量计算的中心性无法提高性能,因此单独的中心性是必要的。04.1.3 FCOS与基于锚点的检测器的比较0前面提到的FCOS与标准的RetinaNet有两个细微的差异。1)除了标准的RetinaNet中的C5之外,我们在新添加的卷积层中使用了Group Normalization(GN)[29]。0对于最后的预测层,这使得我们的训练更加稳定。2)我们使用P5来生成P6和P7,而不是标准RetinaNet中的C5。我们观察到使用P5可以稍微提高性能。为了表明我们的FCOS可以作为锚点检测器的简单而强大的替代品,并进行公平比较,我们在我们的检测器中移除GN(梯度被剪辑以防止爆炸)并使用C5。如表3所示,使用完全相同的设置,我们的FCOS仍然比锚点检测器表现更好(36.3% vs35.9%)。此外,值得注意的是,我们直接使用RetinaNet的所有超参数(例如学习率、NMS阈值等),这些超参数已经针对锚点检测器进行了优化。我们认为,如果针对FCOS进行调优,其性能可以进一步提高。值得注意的是,通过一些几乎没有成本的改进,如表3所示,我们的无锚点检测器的性能可以大幅提高。鉴于无锚点检测器的卓越性能和优点(例如,比锚点检测器更简单且超参数更少),我们鼓励社区重新思考在目标检测中锚点框的必要性。04.2. 与最先进的检测器进行比较0我们将FCOS与其他最先进的目标检测器在MS-COCO基准测试的test-dev分割上进行比较。在这些实验中,我们在训练过程中随机缩放图像的较短边,范围为640到800,并将迭代次数加倍至180K(学习率变化点按比例缩放)。其他设置与表3中AP为37.1%的模型完全相同。如表5所示,使用ResNet-101-FPN,我们的FCOS在AP上比具有相同骨干网络ResNet-101-FPN的RetinaNet提升了2.4%。据我们所知,这是YOLOv2 [22]DarkNet-19 [22]21.644.019.25.022.435.5SSD513 [18]ResNet-101-SSD31.250.433.310.234.549.8DSSD513 [5]ResNet-101-DSSD33.253.335.213.035.451.1RetinaNet [15]ResNet-101-FPN39.159.142.321.842.750.2CornerNet [13]Hourglass-10440.556.543.119.442.753.9FSAF [34]ResNeXt-64x4d-101-FPN42.963.846.326.646.252.7FCOSResNet-101-FPN41.560.745.024.444.851.6FCOSHRNet-W32-5l [26]42.060.445.325.445.051.0FCOSResNeXt-32x8d-101-FPN42.762.246.126.045.652.6FCOSResNeXt-64x4d-101-FPN43.262.846.626.546.253.396340方法 骨干网络 AP AP 50 AP 75 AP S AP M AP L0两阶段方法:0带有FPN的Faster R-CNN [14] ResNet-101-FPN 36.2 59.1 39.0 18.2 39.0 48.2 带有G-RMI的Faster R-CNN[11] Inception-ResNet-v2 [27] 34.7 55.5 36.7 13.5 38.1 52.0 带有TDM的Faster R-CNN [25]Inception-ResNet-v2-TDM 36.8 57.7 39.2 16.2 39.8 52.10单阶段方法:0FCOS带有改进 ResNeXt-64x4d-101-FPN 44.7 64.1 48.4 27.6 47.5 55.6 表5 -FCOS与其他最先进的两阶段或单阶段检测器(单模型和单尺度结果)进行比较。FCOS在具有相同骨干网络的锚点检测器RetinaNet上的AP提升了2.4%。FCOS还在设计复杂性较低的最新锚点自由单阶段检测器CornerNet上取得了更好的性能。有关“改进”的详细信息,请参阅表3。0方法 # 样本 AR 100 AR 1 k0带有FPN和GN的RPN(重新实现)� 200K 44.7 56.9 带有GN但没有中心性的FCOS � 66K 48.0 59.3带有GN的FCOS � 66K 52.8 60.3 表6 -FCOS作为区域建议网络与带有FPN的RPN进行比较。使用ResNet-50作为骨干网络。FCOS改进了AR100和AR 1 k0分别提高了8.1%和3.4%。GN:组归一化。0第一次,一个不带任何花哨的无锚点检测器在性能上大幅超过了基于锚点的检测器。FCO
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功