基于自适应训练样本选择的目标检测方法

8 浏览量更新于2023-10-24 收藏 12.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Shifeng Zhang1,2, Cheng Chi3, Yongqiang Yao4, Zhen Lei1,2*, Stan Z. Li51 CBSR, NLPR, CASIA2 SAI, UCAS3 AIR, CAS4 BUPT5 Westlake University{shifeng.zhang,zlei,szli}@nlpr.ia.ac.cn, chicheng15@mails.ucas.ac.cn, yao yq@bupt.edu.cnhttps://github.com/sfzhang15/ATSS.97590通过自适应训练样本选择来弥合基于锚点和无锚点检测之间的差距0摘要0多年来，基于锚点的检测器一直占据着目标检测领域的主导地位。最近，由于FPN和FocalLoss的提出，无锚点检测器变得流行起来。本文首先指出基于锚点和无锚点检测之间的本质区别实际上在于如何定义正样本和负样本训练样本，这导致了它们之间的性能差距。如果它们在训练过程中采用相同的正样本和负样本定义，无论是从框还是从点回归，最终性能都没有明显的差异。这表明如何选择正样本和负样本训练样本对于当前的目标检测器非常重要。然后，我们提出了一种自适应训练样本选择（ATSS）方法，根据对象的统计特征自动选择正样本和负样本。它显著提高了基于锚点和无锚点检测器的性能，并弥合了它们之间的差距。最后，我们讨论了在图像上铺设多个锚点以检测对象的必要性。在MSCOCO上进行的大量实验证明了我们之前的分析和结论。通过新引入的ATSS，我们将最先进的检测器性能大幅提升至50.7%的AP，而不引入任何额外开销。代码可在以下链接找到：01. 引言0目标检测是计算机视觉领域的一个长期研究课题，旨在检测预定义类别的对象。准确的目标检测对包括图像识别和视频监控在内的各种应用具有深远的影响。近年来，随着卷积神经网络（CNN）的发展，基于锚点的检测器在目标检测领域占据主导地位，可以大致分为一阶段方法 [ 36 , 33 ]。0* 通讯作者0两阶段方法和一阶段方法 [ 47 , 9]。它们首先在图像上铺设大量预设锚点，然后通过一次或多次预测这些锚点的类别和修正其坐标，最后将这些修正后的锚点输出为检测结果。由于两阶段方法比一阶段方法多次修正锚点，前者结果更准确，而后者计算效率更高。目前公认的常见检测基准仍由基于锚点的检测器保持。最近学术界对基于锚点的检测器的关注转向了基于无锚点检测器，这是由于FPN [ 32 ]和Focal Loss [ 33]的出现。基于无锚点的检测器通过两种不同的方式直接找到对象而无需预设锚点。一种方式是首先定位几个预定义或自学习的关键点，然后限定对象的空间范围。我们将这种类型的基于无锚点的检测器称为基于关键点的方法 [ 26 , 71]。另一种方式是使用对象的中心点或区域来定义正样本，然后预测从正样本到对象边界的四个距离。我们将这种类型的基于无锚点的检测器称为基于中心点的方法 [ 56 , 23]。这些基于无锚点的检测器能够消除与锚点相关的超参数，并且在泛化能力方面取得了与基于锚点的检测器相似的性能，使其具有更大的潜力。在这两种类型的基于无锚点的检测器中，基于关键点的方法遵循与基于锚点的检测器不同的标准关键点估计流程。然而，基于中心点的检测器与基于锚点的检测器相似，将点视为预设样本而不是锚框。以一阶段基于锚点的检测器RetinaNet [ 33]和基于中心点的无锚点检测器FCOS [ 56]为例，它们之间有三个主要区别：（1）每个位置铺设的锚点数量。RetinaNet在每个位置铺设多个锚框，而FCOS在每个位置铺设一个锚点。（2）正负样本的定义。RetinaNet采用交并比（IoU）来定义正样本和负样本。0在FCOS中，一个点等于RetinaNet中一个锚点框的中心点，因此我们将其称为锚点。一对锚点和框与特征图的相同位置相关联，用于分类和回归。97600RetinaNet通过从预设的锚点框回归物体边界框，而FCOS通过从锚点定位物体。正如[56]中所报道的，基于无锚点的FCOS比基于锚点的RetinaNet具有更好的性能，因此研究这三个差异中哪些是性能差距的关键因素非常值得。本文通过严格排除它们之间的所有实现不一致性，以公平的方式研究了基于锚点和基于无锚点方法之间的差异。实验结果表明，这两种方法之间的本质差异在于正样本和负样本的定义，这导致了它们之间的性能差距。如果它们在训练过程中选择相同的正样本和负样本，则无论是从框还是从点回归，最终性能都没有明显差距。因此，如何选择正样本和负样本值得进一步研究。在此基础上，我们提出了一种新的自适应训练样本选择方法（ATSS），根据目标特征自动选择正样本和负样本。它弥合了基于锚点和基于无锚点检测器之间的差距。此外，通过一系列实验，我们得出结论：在图像上对每个位置进行平铺多个锚点以检测物体是不必要的。在MSCOCO[34]数据集上进行的大量实验支持我们的分析和结论。应用新引入的ATSS可以实现最先进的AP50.7%，而不引入任何额外开销。本文的主要贡献可以总结如下：0•指出基于锚点和基于无锚点检测器之间的本质差异实际上是如何定义正样本和负样本。0•提出了一种自适应训练样本选择方法，根据目标的统计特征自动选择正样本和负样本。0• 证明在图像上对每个位置进行平铺多个锚点以检测物体是一种无用的操作。0• 在不引入任何额外开销的情况下，实现在MSCOCO上的最先进性能。02. 相关工作0当前基于CNN的目标检测包括基于锚点和基于无锚点的检测器。前者可以分为两阶段和一阶段方法，而后者则分为基于关键点和基于中心点的方法。02.1. 基于锚点的检测器0两阶段方法。Faster R-CNN[47]的出现确立了两阶段锚点检测器的主导地位。FasterR-CNN由一个独立的区域建议网络（RPN）和一个区域预测网络（R-CNN）[14,13]组成，用于检测物体。0提案网络（RPN）和区域预测网络（R-CNN）[14,13]用于检测物体。此后，出现了许多算法来提高其性能，包括架构重设计和改革[4, 9, 5, 28,30]，上下文和注意机制[2, 51, 38, 7,44]，多尺度训练和测试[54, 41]，训练策略和损失函数[40,52, 61, 17]，特征融合和增强[25,32]，更好的提案和平衡[55,43]。如今，基于两阶段锚点的方法仍然在标准检测基准上保持着最先进的结果。一阶段方法。随着SSD[36]的出现，一阶段基于锚点的检测器因其高计算效率而受到了广泛关注。SSD在ConvNet中的多尺度层上分布锚点框，直接预测物体类别和锚点框偏移量。此后，出现了许多工作，从不同层面融合上下文信息[24, 12,69]，从头开始训练[50, 73]，引入新的损失函数[33,6]，锚点细化和匹配[66, 67]，架构重设计[21,22]，特征丰富和对齐[35, 68, 60, 42,29]等方面提高其性能。目前，一阶段基于锚点的方法在更快的推理速度下可以实现与两阶段基于锚点的方法非常接近的性能。02.2. 无锚点检测器0基于关键点的方法。这种无锚点方法首先定位几个预定义或自学习的关键点，然后生成边界框来检测对象。CornerNet[26]将对象边界框检测为一对关键点（左上角和右下角），CornerNet-Lite[27]引入CornerNet-Saccade和CornerNet-Squeeze来提高速度。Grid R-CNN[39]的第二阶段通过预测具有位置敏感特征的FCN的网格点来定位对象，然后通过网格引导确定边界框。ExtremeNet[71]检测四个极端点（最上面、最左边、最下面、最右边）和一个中心点来生成对象边界框。Zhu等人[70]使用关键点估计来找到对象的中心点，并回归到包括大小、3D位置、方向和姿态在内的所有其他属性。CenterNet[11]将CornetNet扩展为三元组而不是一对关键点，以提高精度和召回率。RepPoints[65]将对象表示为一组样本点，并学习将它们排列在一起以限制对象的空间范围并指示语义上显著的局部区域。基于中心的方法。这种无锚点方法将对象的中心（例如，中心点或部分）视为前景来定义正样本，然后预测正样本到对象边界框的四个边的距离以进行检测。YOLO[45]将图像划分为S×S网格，包含中心点的网格单元格为正样本，其余为负样本，通过预测边界框来检测对象。97610一个对象负责检测该对象。DenseBox[20]使用位于对象中心的填充圆来定义正样本，然后预测正样本到对象边界框的四个距离以进行定位。GA-RPN[59]将对象中心区域的像素定义为正样本，以预测FasterR-CNN的对象提议的位置、宽度和高度。FSAF[72]通过附加一个无锚点分支和在线特征选择到RetinaNet中。新添加的分支将对象的中心区域定义为正样本，通过预测到其边界的四个距离来定位它。FCOS[56]将对象边界框内的所有位置都视为具有四个距离和一个新颖的中心度分数的正样本来检测对象。CSP[37]仅将对象框的中心点定义为检测行人的正样本，具有固定的长宽比。FoveaBox[23]将对象的中间部分位置视为具有四个距离的正样本来进行检测。03. 锚点和无锚点检测的差异分析0不失一般性，我们采用代表性的基于锚点的RetinaNet[33]和基于无锚点的FCOS[56]来分析它们的差异。在本节中，我们重点关注最后两个差异：正负样本定义和回归起始状态。剩下的一个差异：每个位置平铺的锚点数量，将在后续章节中讨论。因此，我们只为RetinaNet在每个位置平铺一个正方形锚点，这与FCOS非常相似。在剩下的部分中，我们首先介绍实验设置，然后排除所有实现不一致性，最后指出基于锚点和无锚点检测器之间的本质差异。03.1. 实验设置0数据集。所有实验都是在具有挑战性的MS COCO[34]数据集上进行的，该数据集包含80个物体类别。按照常见做法[33，56]，训练使用trainval35k分割中的所有115K张图像，验证使用minival分割中的所有5K张图像进行分析研究。我们还将主要结果提交给评估服务器，以在test-dev分割上进行最终性能评估。训练细节。我们使用ImageNet[49]预训练的ResNet-50[16]作为骨干网络，具有5级特征金字塔结构。新添加的层与[33]中的初始化方式相同。对于RetinaNet，5级特征金字塔中的每一层都与一个8S尺度的正方形锚点相关联，其中S是总步长大小。在训练过程中，我们将输入图像调整大小，使其较短的一边为800，较长的一边小于或等于1333。整个网络使用随机梯度下降（SGD）算法进行90K次迭代训练，动量为0.9，权重衰减为0.0001，批量大小为16。我们将初始学习率设置为0.01，并在第60K次迭代时衰减0.1。0表1：RetinaNet和FCOS在MS COCOminival数据集上实现不一致性的分析。“#A=1”表示每个位置只有一个正方形锚框。0不一致性 FCOS RetinaNet（#A=1）0GroupNorm0GIoU损失0在GT框中0中心度0标量0AP（%）37.8 32.5 33.4 34.9 35.3 36.8 37.00分别为40K和80K。除非另有说明，实验中使用的训练细节与上述相同。推理细节。在推理阶段，我们以与训练阶段相同的方式调整输入图像的大小，然后将其通过整个网络进行前向传播，输出带有预测类别的预测边界框。然后，我们使用预设的得分0.05来过滤掉大量的背景边界框，然后每个特征金字塔输出1000个顶级检测结果。最后，对每个类别使用IoU阈值0.6进行非极大值抑制（NMS），生成每个图像的最终的100个置信度较高的检测结果。03.2.不一致性去除0我们将每个位置只有一个正方形锚框的锚点检测器标记为RetinaNet（#A=1），它与无锚点的FCOS几乎相同。然而，正如[56]中报道的那样，FCOS在MS COCOminival子集上的AP性能远远优于RetinaNet（#A=1），即37.1% vs.32.5%。此外，对FCOS进行了一些新的改进，包括将中心度移动到回归分支，使用GIoU损失函数以及通过相应的步长对回归目标进行归一化。这些改进将FCOS的AP性能从37.1%提升到37.8%2，使差距更大。然而，锚点检测器（32.5%）和无锚点检测器（37.8%）之间的AP差距的一部分是由于在FCOS中提出或使用的一些通用改进，例如在头部添加GroupNorm[62]，使用GIoU[48]回归损失函数，限制真实框中的正样本[56]，引入中心度分支[56]和为每个级别的特征金字塔添加可训练标量[56]。这些改进也可以应用于锚点检测器，因此它们不是锚点和无锚点方法之间的本质差异。我们逐一将它们应用于RetinaNet（#A=1），以排除这些实现不一致性。如表1所示，这些无关的02这个37.8%的AP结果不包括中心样本的改进，这是我们的贡献，已经合并到FCOS中，并将在第4.2节介绍。97620图1：正样本（1）和负样本（0）的定义。蓝色框、红色框和红色点分别表示真实框、锚框和锚点。（a）RetinaNet使用IoU同时在空间和尺度维度上选择正样本（1）。（b）FCOS首先在空间维度上找到候选正样本（？），然后在尺度维度上选择最终的正样本（1）。0将锚点检测的RetinaNet改进后的AP提高到37.0%，仍然与无锚点的FCOS相差0.8%。现在，经过去除所有无关的差异，我们可以以相当公平的方式探索基于锚点和无锚点检测器之间的本质差异。03.3.本质差异0在应用了这些通用改进之后，锚点检测的RetinaNet（#A=1）和无锚点的FCOS之间只有两个区别。一个是关于检测中的分类子任务，即定义正样本和负样本的方式。另一个是关于回归子任务，即从锚框或锚点开始的回归。分类。如图1（a）所示，RetinaNet利用IoU将来自不同金字塔级别的锚框划分为正样本和负样本。它首先标记每个对象的最佳锚框和IoU > θ p的锚框为正样本，然后将IoU < θn的锚框视为负样本，最后在训练过程中忽略其他锚框。如图1（b）所示，FCOS使用空间和尺度约束将来自不同金字塔级别的锚点划分为正样本和负样本。它首先将在真实框内的锚点作为候选正样本，然后根据每个金字塔级别定义的尺度范围从候选样本中选择最终的正样本，最后未被选择的锚点作为负样本。如图1所示，FCOS首先使用空间约束在空间维度上找到候选正样本，然后使用尺度约束在尺度维度上选择最终的正样本。相比之下，RetinaNet利用IoU同时在空间和尺度维度上直接选择最终的正样本。这两种不同的样本选择方式03 FCOS中有几个预设的超参数，用于定义五个金字塔层级的尺度范围：P3的[m2,m3]，P4的[m3, m4]，P5的[m4, m5]，P6的[m5, m6]和P7的[m6, m7]。0（a）正样本0（b）RetinaNet0（c）FCOS0图2：（a）蓝色点和框是对象的中心和边界，红色点和框是锚点的中心和边界。（b）RetinaNet从锚点框回归出四个偏移量。（c）FCOS从锚点到对象边界的四个距离回归。0表2：RetinaNet和FCOS在MS COCOminival数据集上的差异分析（%）。0分类回归框点0交并比 37.0 36.90空间和尺度约束 37.8 37.80不同的样本选择策略会产生不同的正负样本。以RetinaNet（#A=1）为例，使用空间和尺度约束策略代替IoU策略，将AP性能从37.0%提高到37.8%。对于FCOS，如果使用IoU策略选择正样本，AP性能从37.8%降低到36.9%。这些结果表明，正负样本的定义是基于锚点和无锚点检测器之间的一个重要差异。回归。确定了正负样本之后，从正样本中回归出对象的位置，如图2（a）所示。RetinaNet从锚点框和对象框之间的四个偏移量回归，如图2（b）所示，而FCOS从锚点到对象边界的四个距离回归，如图2（c）所示。这意味着对于一个正样本，RetinaNet的回归起始状态是一个框，而FCOS是一个点。然而，如表2的第一行和第二行所示，当RetinaNet和FCOS采用相同的样本选择策略以获得一致的正负样本时，无论从点还是从框开始回归，最终的性能没有明显差异，即37.0% vs. 36.9%和37.8% vs.37.8%。这些结果表明，回归起始状态是一个无关的差异，而不是一个本质差异。结论。根据这些以公平方式进行的实验，我们指出一阶基于锚点的检测器和基于中心的无锚点检测器之间的本质差异实际上是如何定义正负训练样本，这对当前的目标检测是重要的，并值得进一步研究。976304. 自适应训练样本选择0在训练目标检测器时，我们首先需要为分类定义正样本和负样本，然后使用正样本进行回归。根据先前的分析，前者是关键，而无锚点检测器FCOS改进了这一步骤。它引入了一种定义正负样本的新方法，比传统的基于IoU的策略取得更好的性能。受此启发，我们深入研究了目标检测中最基本的问题：如何定义正负训练样本，并提出了自适应训练样本选择（ATSS）。与传统策略相比，我们的方法几乎没有超参数，并且对不同的设置具有鲁棒性。04.1. 描述0先前的样本选择策略有一些敏感的超参数，例如基于锚点的检测器中的IoU阈值和基于无锚点的检测器中的尺度范围。在设置了这些超参数之后，所有的真实框必须根据固定规则选择它们的正样本，这些规则适用于大多数对象，但是一些外部对象会被忽略。因此，这些超参数的不同设置将产生非常不同的结果。为此，我们提出了ATSS方法，根据对象的统计特征自动划分正负样本，几乎不需要任何超参数。算法1描述了该方法如何处理输入图像。对于图像上的每个真实框g，我们首先找出其候选正样本。如第3到6行所述，在每个金字塔层级上，我们选择与g的中心最接近的k个锚点框，基于L2距离。假设有L个特征金字塔层级，真实框g将有k×L个候选正样本。之后，我们计算这些候选框与真实框g之间的IoU，即第7行的Dg，其均值和标准差分别在第8行和第9行计算为mg和vg。根据这些统计数据，可以在第10行得到真实框g的IoU阈值tg = mg +vg。最后，在第11到15行中，我们选择那些IoU大于或等于阈值tg的候选框作为最终的正样本。值得注意的是，我们还将正样本的中心限制在真实框内，如第12行所示。此外，如果一个锚点框被分配给多个真实框，将选择IoU最高的那个。其余的则为负样本。我们方法背后的一些动机如下所述。基于锚点框与对象之间的中心距离选择候选框。对于RetinaNet，当锚点框的中心靠近对象的中心时，IoU较大。对于FCOS，靠近对象中心的锚点将产生更高质量的检测结果。因此，距离对象中心更近的锚点是更好的候选框。0算法1 自适应训练样本选择（ATSS）0输入：G是图像上的一组真实框，L是特征金字塔级别的数量，Ai是第i个金字塔级别的锚点集合，A是所有锚点的集合，k是一个非常稳健的超参数，其默认值为9，输出：P是一组正样本，N是一组负样本01：对于每个真实框g∈G，执行以下操作：2：为真实框g构建一个空的候选正样本集合：Cg←�；3：对于每个级别i∈[1，L]，执行以下操作：4：从Ai中选择k个距离g中心最近的锚点作为S i；5：Cg= Cg ∪ Si；6：结束循环；7：计算Cg和g之间的IoU：Dg =IoU(Cg，g)；8：计算Dg的均值：mg =Mean(Dg)；9：计算Dg的标准差：vg =Std(Dg)；10：计算真实框g的IoU阈值：tg = mg +vg；11：对于每个候选样本c∈Cg，执行以下操作：12：如果IoU(c，g) ≥ tg且c的中心在g内部，则执行以下操作：13：P = P ∪c；14：结束循环；15：结束循环；16：N = A -P；17：返回P，N；0使用均值和标准差的和作为IoU阈值。对象的IoU均值mg是衡量预设锚点适用于该对象的程度。如图3（a）所示，较高的mg表示它具有高质量的候选对象，IoU阈值应该较高。如图3（b）所示，较低的mg表示大多数候选对象质量较低，IoU阈值应该较低。此外，对象的IoU标准差vg是衡量哪些层适合检测该对象的程度。如图3（a）所示，较高的vg意味着有一个特定适合该对象的金字塔级别，将vg添加到mg可以得到一个高阈值，仅从该级别选择正样本。如图3（b）所示，较低的vg意味着有几个适合该对象的金字塔级别，将vg添加到mg可以得到一个低阈值，从这些级别选择适当的正样本。使用均值mg和标准差vg的和作为IoU阈值tg可以根据对象的统计特征自适应地从适当的金字塔级别选择足够的正样本。将正样本的中心限制在对象内部。中心位于对象外部的锚点是一个质量较差的候选对象，并且将由对象外部的特征进行预测，这对训练不利，应该排除。4http://dwz1.cc/sNIgLI2RetinaNet (#A=1)37.055.139.921.441.248.6RetinaNet (#A=1) + ATSS39.357.542.824.343.351.3FCOS37.855.640.722.141.848.8FCOS + ATSS39.257.342.422.743.151.5k35791113151719AP (%)38.038.839.139.339.139.039.139.238.997640图3：ATSS的示意图。每个级别都有一个带有其IoU的候选样本。（a）具有较高mg和较高vg的真实框。（b）具有较低mg和较低vg的真实框。0保持不同对象之间的公平性。根据统计理论4，理论上大约16％的样本位于置信区间[mg +vg，1]。尽管候选对象的IoU不是标准正态分布，但统计结果显示，每个对象大约有0.2 *kL个正样本，这与其尺度、长宽比和位置无关。相比之下，RetinaNet和FCOS的策略倾向于为较大的对象提供更多的正样本，导致不同对象之间的不公平。几乎没有超参数。我们的方法只有一个超参数k。后续实验证明，它对k的变化非常不敏感，所提出的ATSS几乎可以被认为是没有超参数的。04.2. 验证0基于锚点的RetinaNet。为了验证我们自适应训练样本选择对基于锚点的检测器的有效性，我们将其用于替代改进的RetinaNet中的传统策略（#A=1）。如表3所示，它在AP上持续提升了2.3％，在AP 50上提升了2.4％，在AP75上提升了2.9％，在AP S上提升了2.9％，在APM上提升了2.1％，在APL上提升了2.7％。这些改进主要是由于根据每个真实值的统计特征自适应选择正样本。由于我们的方法只重新定义了正样本和负样本，而没有产生任何额外的开销，因此这些改进可以被认为是零成本的。基于锚点的FCOS。所提出的方法也可以应用于基于锚点的FCOS的两个不同版本：lite版本和full版本。对于lite版本，我们将一些ATSS的思想应用于FCOS中，即用我们的方法中的方式替换其选择候选正样本的方式。FCOS将对象框中的锚点视为候选正样本，这导致了大量低质量的正样本。相反，我们的方法为每个真实值的每个金字塔级别选择了前k=9个候选正样本。我们的方法的lite版本已经合并到FCOS的官方代码中作为中心采样，将FCOS从37.8％提高到0表3：在MS COCOminival数据集上对所提出方法的验证结果（%）。ATSS和中心采样分别是我们所提出方法的完整版本和精简版本。0方法 AP AP 50 AP 75 AP S AP M AP L0FCOS + 中心采样 38.6 57.4 41.4 22.3 42.5 49.80如表3所示，全版本（ATSS）在不同指标上明显优于精简版本（中心采样）。这些结果表明，我们方法中的自适应方式比FCOS中的固定方式更好地选择了沿比例维度的正样本。04.3. 分析0使用所提出的自适应训练样本选择方法训练目标检测器只涉及一个超参数k和一个相关的锚框设置。本小节对它们进行逐一分析。超参数k。我们进行了几个实验来研究超参数k的鲁棒性，该参数用于从每个金字塔层选择候选正样本。如表4所示，我们使用了k在[3, 5, 7, 9, 11, 13, 15, 17,19]的不同值来训练检测器。我们观察到，所提出的方法对k从7到17的变化非常不敏感。过大的k（例如19）会导致太多质量较低的候选样本，稍微降低性能。过小的k（例如3）会导致明显的准确率下降，因为候选正样本太少会导致统计不稳定。总体而言，唯一的超参数k非常稳健，所提出的ATSS几乎可以被视为无超参数。0表4：在MS COCOminival数据集上对超参数k的不同值进行分析。539.057.941.923.242.850.5639.257.642.523.542.851.1739.357.642.422.943.251.3839.357.542.824.343.351.3938.956.542.022.942.450.34:139.157.242.323.143.151.42:139.056.942.523.343.550.61:139.357.542.824.343.351.32:139.357.442.322.843.451.04:139.156.942.622.942.950.7RetinaNet (#A=9)3336.355.238.819.839.848.8+Imprs.3338.456.241.622.242.450.1+Imprs.+ATSS3339.257.642.723.842.850.9+Imprs.+ATSS3139.357.742.623.843.551.2+Imprs.+ATSS1339.257.142.523.243.150.3+Imprs.+ATSS1139.357.542.824.343.351.397650表5：在MS COCOminival数据集上，固定宽高比1:1的不同锚框尺度的分析结果（%）。0比例 AP AP 50 AP 75 AP S AP M AP L0表6：在MS COCOminival数据集上，固定比例8S的不同锚框宽高比的分析结果（%）。0宽高比 AP AP 50 AP 75 AP S AP M AP L0锚框尺寸。引入的方法利用锚框来定义正样本，我们还研究了锚框尺寸的影响。在之前的实验中，每个位置上铺设了一个边长为8S（S表示金字塔层的总步长大小）的正方形锚框。如表5所示，我们进行了一些实验，使用了不同尺度的正方形锚框（5，6，7，8，9），性能非常稳定。此外，如表6所示，我们还进行了一些实验，使用了不同宽高比的8S锚框。性能对这种变化也不敏感。这些结果表明，所提出的方法对不同的锚框设置具有鲁棒性。04.4. 比较0我们将最终模型与其他最先进的目标检测器在MS COCOtest-dev子集上进行比较，结果如表8所示。按照先前的工作[33,56]，这些实验采用了多尺度训练策略，即在训练过程中随机选择一个尺度将图像的较短边缩放到640到800之间。此外，我们将总迭代次数增加到180K，并相应地将学习率降低点设置为120K和160K。其他设置与之前提到的一致。如表8所示，我们的方法在不使用任何花哨的技巧的情况下，使用ResNet-101实现了43.6%的AP，优于所有使用相同主干网络的方法，包括级联R-CNN[5]（42.8%AP），C-Mask RCNN[7]（42.0%AP），RetinaNet[33]（39.1%AP）和Re�neDet[66]（36.4%AP）。通过使用更大的主干网络ResNeXt-32x8d-101和ResNeXt-64x4d-101[63]，我们可以进一步提高所提出方法的AP准确性，分别达到45.1%和45.6%。45.6%的AP结果超过了除SNIP[54]（45.7%AP）之外的所有无锚点和锚点检测器，仅低于0.1%。SNIP引入了改进的多尺度训练。0表7：在MS COCOminival数据集上使用不同位置的多个锚点的结果（%）。0方法 #sc #ar AP AP 50 AP 75 AP S AP M AP L0和测试策略。由于我们的方法涉及到正样本和负样本的定义，因此与大多数当前技术兼容且互补。我们进一步将可变形卷积网络（DCN）[10]应用于ResNet和ResNeXt主干网络以及检测器的最后一层。DCN能够持续提高AP性能，对于ResNet-101达到46.3%，对于ResNeXt-32x8d-101和ResNeXt-64x4d-101分别达到47.7%。最佳结果47.7%是通过单模型和单尺度测试实现的，远远超过了所有先前检测器的性能。最后，通过多尺度测试策略，我们的最佳模型实现了50.7%的AP。04.5. 讨论0以前的实验都是基于每个位置只有一个anchor的RetinaNet。锚点检测器（anchor-based）和无锚点检测器（anchor-free）之间仍然存在一个未被探索的差异：每个位置铺设的锚点数量。实际上，原始的RetinaNet在每个位置铺设了9个锚点（3个尺度×3个长宽比），在表7的第一行中列出的RetinaNet（#A=9）的AP达到了36.3%。此外，表1中的那些通用改进也可以用于RetinaNet（#A=9），将AP性能从36.3%提升到38.4%。在不使用提出的ATSS的情况下，改进后的RetinaNet（#A=9）的性能优于RetinaNet（#A=1），即表7中的38.4%优于表1中的37.0%。这些结果表明，在传统的基于IoU的样本选择策略下，每个位置铺设更多的锚点是有效的。然而，在使用我们提出的方法之后，将得出相反的结论。具体来说，提出的ATSS还将RetinaNet（#A=9）的AP提高了0.8%，AP 50提高了1.4%，AP75提高了1.1%，在表7的第三行和第六行中列出的性能与RetinaNet（#A=1）相似。此外，当我们将锚点尺度或长宽比从3改变为1时，结果几乎没有变化，如表7的第四行和第五行所列。换句话说，只要适当选择正样本，无论每个位置铺设多少个锚点，结果都是相同的。我们认为，在我们提出的方法下，每个位置铺设多个锚点是一种无用的操作，需要进一步研究其正确的作用。97660表8：在MS COCO测试集上的检测结果（%）。粗体字表示最佳性能。0方法数据骨干网络 AP AP 50 AP 75 AP S AP M AP L0基于锚点的两阶段:0MLKP [ 58 ] 训练集35 ResNet-101 28.6 52.4 31.6 10.8 33.4 45.10R-FCN [ 9 ] 训练集 ResNet-101 29.9 51.9 - 10.8 32.8 45.00CoupleNet [ 74 ] 训练集 ResNet-101 34.4 54.8 37.2 13.4 38.1 50.80TDM [ 53 ] 训练集 Inception-ResNet-v2-TDM 36.8 57.7 39.2 16.2 39.8 52.10Hu et al. [ 18 ] 训练集35k ResNet-101 39.0 58.6 42.9 - - -0DeepRegionlets [ 64 ] 训练集35k ResNet-101 39.3 59.8 - 21.7 43.7 50.90FitnessNMS [ 57 ] 训练集 DeNet-101 39.5 58.0 42.6 18.9 43.5 54.10Gu et al. [ 15 ] 训练集35k ResNet-101 39.9 63.1 43.1 22.2 43.4 51.60DetNet [ 31 ] 训练集35k DetNet-59 40.3 62.1 43.8 23.6 42.6 50.00Soft-NMS [ 3 ] 训练集 ResNet-101 40.8 62.4 44.9 23.0 43.4 53.20SOD-MTGAN [ 1 ] 训练集35k ResNet-101 41.4 63.2 45.4 24.7 44.2 52.60G-RMI [ 19 ] 训练集35k 五个模型的集成 41.6 61.9 45.4 23.9 43.5 54.90C-Mask RCNN [ 7 ] 训练集35k ResNet-101 42.0 62.9 46.4 23.4 44.7 53.80Cascade R-CNN [ 5 ] 训练集35k ResNet-101 42.8 62.1 46.3 23.7 45.5 55.20Revisiting RCNN [ 8 ] 训练集35k ResNet-101+ResNet-152 43.1 66.1 47.3 25.8 45.9 55.30SNIP [ 54 ] 训练集35k DPN-98 45.7 67.3 51.1 29.3 48.8 57.10基于锚点的单阶段:0SSD512 � [ 36 ] 训练集35k VGG-16 28.8 48.5 30.3 10.9 31.8 43.50STDN513 [ 69 ] 训练集 DenseNet-169 31.8 51.0 33.6 14.4 36.1 43.40DES512 [ 68 ] 训练集35k VGG-16 32.8 53.2 34.5 13.9 36.2 47.50DSSD513 [ 12 ] 训练集35k ResNet-101 33.2 53.3 35.2 13.0 35.4 51.10RFB512-E [ 35 ] 训练集35k VGG-16 34.4 55.7 36.4 17.6 37.0 47.60PFPNet-R512 [ 21 ] 训练集35k VGG-16 35.2 57.6 37.9 18.7 38.6 45.90Re�neDet512 [ 66 ] 训练集35k ResNet-101 36.4 57.5 39.5 16.6 39.9 51.40RetinaNet [ 33 ] 训练集35k ResNet-101 39.1 59.1 42.3 21.8 42.7 50.20无锚点关键点检测:0ExtremeNet [ 71 ] 训练集35k Hourglass-104 40.2 55.5 43.2 20.4 43.2 53.10CornerNet [ 26 ] 训练集35k Hourglass-104 40.5 56.5 43.1 19.4 42.7 53.90CenterNet-HG [ 70 ] 训练集35k Hourglass-104 42.1 61.1 45.9 24.1 45.5 52.80Grid R-CNN [ 39 ] 训练集35k ResNeXt-101 43.2 63.0 46.6 25.1 46.5 55.20CornerNet-Lite [ 27 ] 训练集35k Hourglass-54 43.2 - - 24.4 44.6 57.30CenterNet [ 11 ] 训练集35k Hourglass-104 44.9 62.4 48.1 25.6 47.4 57.40RepPoints [ 65 ] 训练集35k ResNet-101-DCN 45.0 66.1 49.0 26.6 48.6 57.50无锚点中心检测:0GA-RPN [ 59 ] 训练集35k ResNet-50 39.8 59.2 43.5 21.8 42.6 50.70FoveaBox [ 23 ] 训练集35k ResNeXt-101 42.1 61.9 45.2 24.9 46.8 55.60FSAF [ 72 ] 训练集35k ResNeXt-64x4d-101 42.9 63.8 46.3 26.6 46.2 52.70FCOS [ 56 ] 训练集35k ResNeXt-64x4d-101 43.2 62.8 46.6 26.5 46.2 53.30我们的方法: ATSS训练集35k ResNet-101 43.6 62.1 47.4 26.1 47.0 53.60ATSS训练集35k ResNeXt-32x8d-101 45.1 63.9 49.1 27.9 48.2 54.

下载后可阅读完整内容，剩余1页未读，立即下载