高质量目标检测和实例分割方法D2Det及其有效性

58 浏览量更新于2023-10-24 收藏 16.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

In this work, we introduce dense local regression forprecise target localization. Different from the traditionalregression employed in Faster R-CNN [43] that predictsa single global offset by a fully-connected network, ourdense local regression predicts multiple local box offsets,termed as dense box offsets, by a fully convolutional net-work. Compared to the keypoint-based localization in GridR-CNN [36], our dense local regression can more accu-rately localize an object due to its ability to regress any realnumber offset and is therefore not limited to a quantized setof keypoints within a ﬁxed-sized region. In addition, whileGrid R-CNN aims to improve localization capabilities, ourmethod collectively addresses both precise localization andaccurate classiﬁcation of target object. For classiﬁcation,we introduce a discriminative RoI pooling that extracts fea-tures from various sub-regions of a proposal and performs1114850D2Det：面向高质量目标检测和实例分割0Jiale Cao 1 �，Hisham Cholakkal 2 �，Rao Muhammad Anwer 2，Fahad Shahbaz Khan 2，Yanwei Pang 1 †，Ling Shao 201 天津大学 2 Inception人工智能研究所（IIAI），阿联酋 ‡01 {connor,pyw}@tju.edu.cn，2 {hisham.cholakkal,rao.anwer,fahad.khan,ling.shao}@inceptioniai.org0摘要0我们提出了一种新颖的两阶段检测方法D2Det，共同解决了精确定位和准确分类的问题。为了精确定位，我们引入了一种密集局部回归，用于预测目标提案的多个密集框偏移量。与传统的回归和基于关键点的定位不同，我们的密集局部回归不限于在固定区域内的量化关键点集合，并且能够回归位置敏感的实数密集偏移量，从而实现更精确的定位。密集局部回归通过二进制重叠预测策略进一步改进，减少了背景区域对最终框回归的影响。为了准确分类，我们引入了一种判别性RoI池化方案，从提案的各个子区域中进行采样，并进行自适应加权以获得判别性特征。在MS COCOtest-dev上，我们的D2Det在单模型性能方面优于现有的两阶段方法，使用ResNet101作为主干网络，性能达到45.4AP。在使用多尺度训练和推理时，D2Det的AP达到50.1。除了检测，我们还将D2Det应用于实例分割，实现了40.2的掩膜AP，并且速度提升了两倍，相比于现有技术。我们还通过在无人机图像（UAVDT数据集）中进行目标检测和在卫星图像（iSAID数据集）中进行实例分割的实验，证明了我们的D2Det的有效性。源代码可在https://github.com/JialeCao001/D2Det上获得。01. 引言0近年来，由于深度神经网络的进步，目标检测取得了显著的进展。现代目标检测器可以广泛分为单阶段方法[35, 42, 40, 29, 27, 4]和两阶段方法[18, 43, 17, 41, 8,21]。两阶段检测方法首先生成一组候选提案，然后对这些提案进行分类和回归。另一方面，单阶段方法通过在图像上进行正则采样网格，直接将默认锚点回归和分类为框。一般来说，与单阶段方法相比，两阶段方法在标准基准上的准确性方面占据主导地位。0� 前两位作者对本文贡献相同。† 通讯作者。‡ J.Cao在IIAI的研究访问期间完成的工作。0在这项工作中，我们引入了密集局部回归来实现精确的目标定位。与Faster R-CNN[43]中使用的传统回归不同，FasterR-CNN通过全连接网络预测单个全局偏移量，我们的密集局部回归通过完全卷积网络预测多个局部框偏移量，称为密集框偏移量。与GridR-CNN[36]中的基于关键点的定位相比，我们的密集局部回归能够更准确地定位目标，因为它能够回归任何实数偏移量，因此不受限于固定大小区域内的量化关键点集合。此外，虽然GridR-CNN旨在改进定位能力，但我们的方法共同解决了目标的精确定位和准确分类。对于分类，我们引入了一种判别性RoI池化，从提案的各个子区域中提取特征，并进行自适应加权。0高质量的目标检测需要精确的定位（边界框）和准确的目标分类。大多数现有的两阶段检测器[43, 31,15]在边界框定位模块上采用了类似的设计。一个典型的设计选择是回归模块，大多数两阶段检测器都采用了这种设计，包括流行的FasterR-CNN[43]。回归模块利用几个全连接层来预测候选提案的单个框偏移量。最近，GridR-CNN[36]通过将分类和回归分为两个分支，而不是共享网络，扩展了Faster R-CNN。GridR-CNN引入了一种基于完全卷积网络的定位方案，该方案在固定大小的区域中搜索一组关键点以识别对象边界。100150200250300350354045Inference time (ms)COCO APMethodAPAP@0.75FPN [31]36.239.0Cascade R-CNN [2]42.846.3Grid R-CNN [36]41.544.5Grid R-CNN Plus [37]42.045.6Libra R-CNN [39]41.144.7TridentNet [28]42.746.5D2Det (Ours)45.449.510015020025030035040034363840Inference time (ms)COCO APMethodAPAP@0.75Mask R-CNN [19]35.737.8Cas. Mask R-CNN [6]38.441.4MS R-CNN [23]38.341.5HTC [6]39.743.1D2Det (Ours)40.243.7114860自适应加权来获得有区别的特征。贡献：我们提出了一种两阶段目标检测方法D2Det，旨在实现精确定位和准确分类。为了实现精确的目标定位，我们引入了密集局部回归，其中候选提案的每个子区域预测其相对于地面真值边界框四个边的自身偏移量。结果是，通过完全卷积网络获得多个密集的边界框偏移量，该网络保留了位置敏感的特征，用于预测边界框偏移量。为了进一步改进我们的密集局部回归，我们引入了二进制重叠预测，将候选提案的每个子区域标识为对象区域或背景区域，从而减少背景区域的影响。二进制重叠预测是通过假设地面真值边界框内的所有区域都是对象来训练的。为了准确分类目标对象，我们引入了一种有区别的RoI池化，该池化首先从各个子区域中采样特征，然后执行自适应加权池化，旨在生成有区别的特征。我们在MS COCO[33]和UAVDT[11]数据集上进行了实验。我们的D2Det在这两个数据集上都达到了最先进的性能。在MSCOCO的test-dev上，我们的方法在单模型准确性方面超过了现有的两阶段检测器，具有COCO风格的AP为45.4，使用ResNet101作为主干网络（图1（a））。此外，在AP@0.75方面，与最先进的方法[28]相比，获得了3.0%的绝对增益，证明了我们的D2Det的准确定位能力。此外，当使用更强的主干网络进行多尺度训练和推理时，D2Det的COCO风格AP为50.1。此外，我们还报告了实例分割的结果，通过修改我们的两阶段检测方法的密集局部回归分支并利用实例掩膜注释来获得。我们在两个实例分割数据集上进行了实验：MS COCO和最近引入的iSAID[51]。我们的方法在这两个数据集上都相对于现有方法有一致的改进。在MSCOCO的test-dev上，我们的方法实现了40.2的MaskAP，并且相对于最先进的HTC[6]提供了两倍的加速（图1（b））。02. 相关工作0近年来，两阶段检测方法[18, 43,017, 44, 28, 36, 5,46]在标准基准测试中显示出了检测准确性的持续改进。在现有的两阶段检测器中，Faster R-CNN[43]是最流行的目标检测框架之一。在第一阶段，FasterR-CNN利用区域提案网络（RPN）生成无类别的区域提案。第二阶段，也称为Fast R-CNN[17]，提取一个固定大小的感兴趣区域（RoI）特征表示，然后计算分类分数和回归边界框坐标。0（b）实例分割图1：在MS COCOtest-dev上的准确性（AP）与速度（ms）的比较。（a）与现有的两阶段目标检测器的比较。（b）与最先进的实例分割方法的比较。所有（a）中的方法仅使用框级监督。此外，（a）和（b）中的所有方法都使用相同的设置：输入大小（�1333×800，除了FPN使用�1000×600），ResNet101与FPN（除了TridentNet引入了FPN的替代方案），没有多尺度训练或推理。所有方法的速度都是在TitanXp上报告的。除了整体的COCOAP，我们还报告了AP@0.75，以便在更高的重叠阈值下进行比较。0每个提案的nates。最近的一些研究通过集成金字塔表示[31,28, 44, 5]，扩展到多阶段检测[16, 2, 6,24]并集成了一个掩膜分支[19, 23,34]，扩展了这个框架。大多数两阶段检测器根据预定义的锚框在图像中表示每个对象。或者，几种单阶段方法[26,22, 52, 50,12]提出了一种无锚框策略，消除了对锚框的需求。这通常涉及使用成对的关键点和关键点估计来检测对象边界框。这些方法是自下而上的，因为关键点是直接从整个图像生成的，而不是定义对象实例。与这些自下而上的方法不同，GridR-CNN[36]是一种自上而下的两阶段方法，它首先定义实例，然后使用基于网格引导的关键点定位生成边界框关键点。该策略在通过RoI的扩展区域映射获得的一组固定大小的区域中搜索一组关键点，以识别对象边界。然而，即使扩展的区域映射可能无法包围整个对象，这取决于候选提案相对于地面真值的位置。此外，关键点搜索发生在一个固定分辨率的特征空间（56×56），这对于大型对象可能会有问题。在这种情况下（例如，对象大小>100×100个图像像素），相对较小的关键点搜索空间可能导致定位不够准确。此外，GridR-CNN仅专注于改进定位能力，而将分类分支保持与原始Faster R-CNN相似。在MSCOCO上，我们仅使用密集局部回归（不使用分类分支中的改进）就实现了收益。0011111001111100111110011111001111100000000000000𝑝𝑖𝑝𝑖𝑡𝑖𝑙𝑖𝑟𝑖𝑏𝑖114870（0（ � �, ��, � �, � �, ��）0RPN0辨别性RoI池化0（0�0监督0（ � �, ��, � �, � �） ��0监督0�0骨干网络� × �0密集局部回归0cls（a）整体架构0辨别性RoI池化自适应加权池化（AWP）0�/2 × � /2 AWP02� × 2� � × �0��0� �(�)0池化0� 1 3 � 1 20� 1 4 � 1 10� 1 3 � 1 4 � 1 20（c）辨别性RoI池化（b）密集局部回归0特征图0RoI特征fc层0卷积0� 10卷积0�0图2：（a）我们两阶段方法的整体架构。每个候选提案P的RoI特征，由RPN生成，通过两个不同的分支传递：密集局部回归（b）和分类（c）。我们的密集局部回归不将RoI特征视为单个全局向量，而是将其视为从RoI的k × k子区域中提取的k ×k个局部特征。这些局部特征用于预测多个密集框偏移，意味着每个局部特征p i ∈ P都预测自己的密集框偏移（ˆ l i，ˆ t i，ˆ ri，ˆ b i）。为了减少背景特征的影响，使用二进制重叠预测ˆm（绿色）对每个局部特征进行分类，将其归类为属于真实边界框G（橙色）或背景。为了训练ˆm，将G和P之间的重叠区域m（红色）分配为1。对于分类（c），我们的辨别性RoI池化首先使用轻量级偏移预测器预测每个RoI子区域的偏移，然后执行自适应加权（W（F）），将更高的权重分配给RoI的辨别性采样点。0与GridR-CNN相比，我们的方法在大型物体上的性能提升了3.7%。原始的Faster R-CNN使用RoIPool[17,43]对候选提案进行特征池化。最近的一些研究中，包括最新的Faster R-CNN和GridR-CNN的变体，都使用了RoIAlign[19]来替代RoIPool。RoIAlign将候选提案分成相等大小的空间子区域，并考虑来自提案内部子区域的特征。每个子区域内获得四个采样点，通过对所有点分配相等权重进行平均。这可能会降低分类性能，因为具有辨别性的区域可能不会出现在等距子区域中。与RoIAlign不同，可变形RoI池化[10]从候选提案的各个子区域获取用于分类和回归的特征，而不考虑它们之间的距离。然而，采样点仍然以相等权重进行平均，就像RoIAlign一样。在这里，我们引入了一种执行自适应加权以增强分类辨别性特征的方法。03.我们的方法0我们的方法基于标准的FasterR-CNN框架[43]。在我们的方法中，提出的密集局部回归（第3.1节）取代了传统的框偏移。0我们的方法基于标准的FasterR-CNN框架，其中回归部分采用了密集局部回归（第3.1节），而分类部分则采用了辨别性RoI池化（第3.2节）。我们两阶段检测框架的整体架构如图2（a）所示。我们在第一阶段使用了区域建议网络（RPN），并在第二阶段使用了独立的分类和回归分支。密集局部回归分支（图2（b））旨在精确定位目标，而基于辨别性RoI池化的分类分支（图2（c））旨在提高候选提案的分类性能。03.1. 密集局部回归0在两阶段检测框架中，边界框回归分支的目标是找到一个紧密包围物体的边界框。设P（xP，yP，wP，hP）为候选物体提议，G（xG，yG，wG，hG）为目标真实框。FasterR-CNN中的传统回归预测单个框偏移（∆x，∆y，∆w，∆h），如下所示：0∆x = (xG - xP) / wP,0∆w = log(wG / wP),0∆h = log(hG / hP)，（1）0其中（x，y）表示框的中心，（w，h）表示给定框的宽度和高度（即真实边界框G或候选提议P）。对于每个114880候选提议P、特征池化策略（例如RoIPool或RoIAlign）用于从提议中获取相应的固定大小（k×k）的RoI特征，这些特征由提议内均匀间隔的k×k子区域组成。标准的FasterR-CNN将这些RoI特征视为单个向量，称为全局特征表示，并通过多个全连接层预测单个全局框偏移（图3（a））。与前述策略不同，我们的密集局部回归方法将k×k维的RoI特征视为k2个空间相邻的局部特征。图2（b）中显示了一个这样的局部特征pi。然后，这些局部RoI特征通过完全卷积网络传递，用于预测多个局部框偏移，称为密集框偏移。密集框偏移预测了每个局部特征pi在位置（xi，yi）到真实边界框G的左上角和右下角的距离。设（xl，yt）和（xr，yb）表示真实边界框的左上角和右下角，ˆli，ˆti，ˆri和ˆbi表示局部特征pi在左、上、右和下方向上预测的密集框偏移（图2（b））。相应的真实偏移（li，ti，ri，bi）在（索引）位置i处计算，0li = (xi - xl) / wP,0ri = (xr - xi) / wP,0bi = (yb - yi) / hP，（2）0在这里，归一化因子wP和hP表示候选提议的宽度和高度。候选提议的子区域或局部特征数量取决于提议与其对应的真实边界框之间的重叠。即使在较高的重叠情况下（大部分k2个局部特征属于真实边界框），这些k2个局部特征中也包含了一些不需要的特征（例如背景）。因此，由这些背景特征预测的密集框偏移量不够精确，因此希望将其忽略。为了达到这个目的，在我们的密集局部回归中使用了二元重叠预测（在图2（a）和图2（b）中以绿色显示）来将每个局部特征分类为属于真实边界框区域还是背景。这个二元重叠预测是通过引入额外的输出ˆm来进行的，与密集框偏移量一起。在真实边界框G和候选提议P之间的重叠区域中的局部特征被赋予真实标签1，即0mi =0如果pi∈G，则为1；如果pi∈P，则为0。（3）0在这里，由于通用物体检测中无法获得像素级别的真实实例掩码，我们假设真实边界框G内的所有区域都是物体。注意，ˆm = {ˆmi：i∈[1，k2]}和m = {mi：i∈0图3：我们的密集局部回归（c）与FasterR-CNN中的传统回归（a）和GridR-CNN中的基于关键点的定位（b）的比较。FasterR-CNN中的传统回归使用全连接网络为给定的候选提议预测单个全局偏移。GridR-CNN使用概率热图预测边界框关键点。相反，我们的方法使用全卷积网络生成多个位置敏感的局部偏移，称为密集框偏移。我们的方法可以回归任何实数偏移，因此不限于固定区域内的量化关键点集合。0[1,k2]。在训练过程中，通过sigmoid归一化（σ）将(index)位置i处的二元重叠预测ˆmi传递，以计算与ground-truth标签mi的二元交叉熵损失。在推断过程中，我们的密集局部回归模块在每个局部特征pi∈P处预测五个输出（ˆli，ˆti，ˆri，ˆbi，ˆmi）。仅在σ(ˆmi)>0.5的位置预测的密集框偏移用于计算预测框的左上角和右下角点。最后，多个局部特征预测的框（图3（c））求平均以获得单个（最终）回归的边界框（使用左上角和右下角点表示）。如前所述，FasterR-CNN中的传统回归使用全连接网络为给定的候选提议预测单个全局偏移（图3（a））。与传统回归不同，我们的密集局部回归使用全卷积网络生成多个位置敏感的框偏移（图3（c））。此外，我们的二元重叠预测器减少了背景区域对最终框回归的影响。与我们的方法类似，GridR-CNN使用全卷积网络。然而，与GridR-CNN中使用的基于关键点的定位策略（图3（b））不同，我们的密集局部回归由于能够回归任何实数偏移且不限于固定感兴趣区域内的量化关键点集合，因此可以更准确地定位对象。此外，我们的方法不需要反卷积操作来增加框定位的空间分辨率。114890从而避免了额外的计算开销。03.2. 判别性RoI池化0在这里，我们描述了我们分类分支中的判别性RoI池化（图2（c））。与回归不同，分类需要具有高度区分性的特征。判别性RoI池化受到可变形RoI池化[10]的启发，并在分类方面进行了改进。首先，我们使用了一种轻量级的偏移预测，其参数数量约为可变形RoI池化中标准偏移预测的四分之一。标准偏移预测使用RoIAlign操作从k×k子区域获取特征，并将这些特征通过三个全连接层传递。相反，轻量级偏移预测只需要一个k2×k的矩阵。02大小的RoIAlign，然后是全连接层（由于输入向量较小，因此轻量级）。在偏移预测之后，标准可变形RoI池化使用RoIAlign，在每个子区域内获得的四个采样点上进行平均，将它们分配相等的权重。相反，提出的加权池化旨在自适应地将更高的权重分配给具有区分性的采样点，并受到[14]的启发。这里，原始采样点中的RoIAlign特征，即F∈R2k×2k，用于预测其对应的权重W(F)∈R2k×2k，该权重指示了所有k×k空间子区域内的采样点的区分能力。图2（c）显示了一些采样点（s11，s21，s31，s41）及其相应的自适应权重（w11，w21，w31，w41）。候选提议的加权RoI特征˜F通过以下方式获得：˜F = W(F)⊙F，（4）0其中⊙是Hadamard乘积。请注意，我们使用卷积操作从F中计算权重W（F），而不是使用固定权重。因此，我们在˜F上进行了平均池化操作，并获得了大小为k×k的判别性RoI特征。候选提议的判别性RoI池化特征被视为单个全局向量，与标准的FasterR-CNN一样，后面跟随两个全连接层以获得候选提议的分类分数。请注意，预测的偏移量在判别性RoI池化中对候选提议的子区域以及其周围进行采样。因此，提取的特征很可能包含与对象及其上下文相关的判别性信息，这有望进一步改善分类性能。03.3. 实例分割0所提出的方法可以通过修改我们的密集局部回归分支轻松扩展到实例分割。不再假设边界框G内的所有区域都属于对象（第3.1节），而是使用实例分割中可用的真实边界框掩码来标记局部特征p i ∈P（第3节）。因此，基于掩码的真实边界框二进制重叠m用于训练我们的密集回归分支中的二进制重叠预测ˆm和偏移预测（图2（b））。在推理过程中，二进制重叠预测ˆm提供了实例掩码预测。此外，我们利用两个反卷积层将输出空间分辨率增加四倍（即从7×7到28×28），并使用两个全连接层进行高效的掩码评分。我们的方法提供了一个具有竞争性性能的高效实例分割框架（见第5节）。0在实例分割中，使用实例分割中可用的真实边界框掩码来标记局部特征p i ∈P（第3节）。因此，基于掩码的真实边界框二进制重叠m用于训练我们的密集回归分支中的二进制重叠预测ˆm和偏移预测（图2（b））。在推理过程中，二进制重叠预测ˆm提供了实例掩码预测。此外，我们利用两个反卷积层将输出空间分辨率增加四倍（即从7×7到28×28），并使用两个全连接层进行高效的掩码评分。我们的方法提供了一个具有竞争性性能的高效实例分割框架（见第5节）。04. 实验04.1. 数据集和实现细节0数据集：我们在两个目标检测基准数据集上进行了大量实验：MS COCO [33]和UAVDT [11]。MSCOCO数据集包含80个类别，由三个子集组成：trainval，minival和test-dev。我们在trainval集上进行训练，并在test-dev集上报告最先进的比较结果。我们遵循标准协议，通过在多个交并比（IoU）阈值（从0.5到0.95，间隔为0.05）上进行平均来测量整体性能，以平均精度（AP）为指标。UAVDT数据集[11]中的检测轨道包含三个类别：汽车、卡车和公交车。根据[11,48]中的惯例，这三个类别被合并为一个单一的车辆类别，因为类别分布高度不平衡。我们遵循UAVDT[11]中的相同评估标准，并使用IoU阈值设置为0.7的PASCALVOC风格AP报告结果。实现细节：输入图像在训练和测试过程中被调整大小，使较短的边为800像素。我们采用ResNet模型（ResNet50和ResNet101）[20]作为骨干网络，并使用FPN [31]。在我们的工作中，RPN[43]用于生成类似于[31,36]的候选目标提议。所有与真实边界框重叠大于0.5的RoIs都被视为正样本。从每个图像中，我们通过保持1:3的正负样本比例来采样512个RoIs，并使用这些采样的RoIs来训练分类分支。密集的局部回归分支仅使用正样本RoIs进行训练。与[37]类似，我们在密集局部回归中使用了8个大小为3×3的卷积，以及对于分类和回归都为7×7（其中k=7）的池化大小。我们的方法在8个GPU上（每个GPU2张图像）进行训练，并采用SGD进行训练优化，其中权重衰减为0.0001，动量为0.9。我们对所有MSCOCO实验采用2×训练方案。在我们的实验中，除了传统的水平翻转之外，没有使用任何数据增强。在推理过程中，我们首先从RPN中对提议进行分类，按照114900方法骨干网络输入尺寸 AP AP@0.5 AP@0.75 AP s AP m AP l0单阶段方法：RetinaNet w FPN [32] ResNet101 � 1333 × 800 39.1 59.1 42.3 21.8 42.7 50.2 ConRetinaNet w FPN [25] ResNet101 �1333 × 800 40.1 59.6 43.5 23.4 44.2 53.3 EFGRNet [38] ResNet101 512 × 512 39.0 58.8 42.3 17.8 43.6 54.5 CornerNet [26]Hourglass104 511 × 511 40.5 56.5 43.1 19.4 42.7 53.9 FSAF w FPN [53] ResNet101 � 1333 × 800 40.9 61.5 44.0 24.0 44.2 51.3RPDet w FPN [50] ResNet101 � 1333 × 800 41.0 62.9 44.3 23.6 44.1 51.7 FCOS w FPN [45] ResNet101 � 1333 × 800 41.5 60.7 45.024.4 44.8 51.6 HSD [3] ResNet101 768 × 768 42.3 61.2 46.9 22.8 47.3 55.90两阶段方法：FPN [31] ResNet101 � 1000 × 600 36.2 59.1 39.0 18.2 39.0 48.2 Libra R-CNN w FPN [39] ResNet101 � 1333 × 80041.1 62.1 44.7 23.4 43.7 52.5 Grid R-CNN w FPN [36] ResNet101 � 1333 × 800 41.5 60.9 44.5 23.3 44.9 53.1 Grid R-CNN Plus wFPN [37] ResNet101 � 1333 × 800 42.0 60.5 45.6 23.4 45.2 53.2 LIP w FPN [14] ResNet101 � 1333 × 800 42.0 64.3 45.8 24.7 45.252.3 Auto-FPN [49] ResNet101 � 1333 × 800 42.5 - - - - - TridentNet [28] ResNet101 � 1333 × 800 42.7 63.6 46.5 23.9 46.6 56.6Cascade R-CNN w FPN [2] ResNet101 � 1333 × 800 42.8 62.1 46.3 23.7 45.5 55.2 D2Det (我们的) w FPN ResNet101 � 1333 × 80045.4 64.0 49.5 25.8 48.7 58.10DCN v2 [54] ResNet101-deform v2 � 1333 × 800 44.0 65.9 48.1 23.2 47.7 59.6 D2Det (我们的) ResNet101-deform v2 � 1333 × 80047.4 65.9 51.7 27.2 50.4 61.30D2Det* (我们的) ResNet101-deform v2 50.1 69.4 54.9 32.7 52.7 62.10表1：在MS COCOtest-dev上以AP为指标的最先进目标检测方法比较。当使用ResNet101骨干网络和FPN时，我们的D2Det取得了最佳的单模型性能，总体AP为45.4，超过了所有使用相同骨干网络和FPN的现有两阶段方法（TridentNet和Auto-FPN不使用FPN，因为它们采用了其他方法）。此外，当使用相同的ResNet101-deform v2骨干网络时，我们的D2Det相对于DCN v2[54]提高了3.4%。在多尺度训练和推理的情况下，我们的D2Det*实现了总体AP为50.1。0我们采用NMS，并为密集局部回归选择少量的提议（100-125个），类似于[37]。在MS COCOtest-dev上，密集局部回归后，我们采用soft-NMS[1]对这些少量的提议进行处理，这在不显著降低速度的情况下略微提高了检测准确性。04.2. MS COCO数据集0最先进方法比较：我们首先在MS COCOtest-dev上将我们的检测方法D2Det与现有文献中的检测器进行比较（表1）。请注意，文献中存在一些方法除了边界框信息外还利用实例掩码注释进行目标检测。为了公平比较，表1中的所有检测方法仅使用边界框注释。当使用流行的ResNet101骨干网络和FPN时，Libra R-CNN [39]和GridR-CNN [36]的总体AP分别为41.1和41.5。Grid R-CNNPlus [37]对GridR-CNN进行了多项更新以提高性能和效率，达到了42.0的AP。TridentNet[28]将FPN替换为具有不同感受野的并行多分支架构，实现了42.7的AP。Cascade R-CNN [2]和LIP[14]的AP分别为42.8和42.0。我们的D2Det通过达到45.4的AP显著优于现有方法。此外，我们的D2Det相对于DCNv2有明显的绝对提升，当使用相同的骨干网络时，提升了3.4%。在多尺度训练和推理的情况下，我们的D2Det*实现了50.1的AP。0在严格的度量标准（AP@0.75）下，我们的检测方法获得了3.0%的准确率，与最先进的TridentNet[28]相比，展示了我们的检测方法在准确定位方面的能力。0除了ResNet101与FPN外，DCN v2[54]还使用了ResNet101-deformv2骨干网络，并报告了44.0的AP。我们的D2Det在使用相同的骨干网络时取得了47.4的AP，并相对于DCNv2提高了3.4%。此外，在多尺度训练和推理的情况下，我们的D2Det*实现了50.1的AP。0定性分析：为了进一步分析我们的D2Det，我们使用[33]提供的错误分析协议。图5展示了在MS COCOminival上使用ResNet50和FPN时，我们的D2Det（底部行）和Grid R-CNNPlus[37]（顶部行）的错误图。正如前面讨论的（第2节），Grid R-CNN及其改进版本Grid R-CNNPlus使用基于关键点的定位，对于大型物体尤其有问题。因此，我们同时呈现了整体（左侧）和大型物体（右侧）的错误图。每个子图中的曲线表示一系列精确度-召回率曲线，具体评估设置如[33]所定义。0在整体结果方面（左侧），Grid R-CNNPlus在严格的AP@0.75下获得0.434的AP，如果完美定位，AP可能增加到0.669。我们的D2Det检测器（底部行）在AP@0.75下达到0.463的AP，如果完美定位，AP可能增加到0.697。我们的D2Det获得的改进更加显著。00.20.40.60.81[.434] C75[.584] C50[.669] Loc[.685] Sim[.712] Oth[.862] BG[1.00] FN00.20.40.60.81[.578] C75[.705] C50[.789] Loc[.807] Sim[.846] Oth[.968] BG[1.00] FN00.20.40.60.81[.463] C75[.615] C50[.697] Loc[.712] Sim[.738] Oth[.865] BG[1.00] FN00.20.40.60.81[.624] C75[.750] C50[.820] Loc[.839] Sim[.874] Oth[.973] BG[1.00] FN✓38.059.241.5✓✓41.559.644.8✓✓39.361.442.2✓✓✓42.761.546.3114910图4：D2Det在COCO test-dev和UAVDT上的定性结果。在UAVDT中，黑色区域被忽略。0整体-全部-全部00 0.5 1 召回率0精确度0整体-全部-大型物体00 0.5 1 召回率0精确度0整体-全部-全部00 0.5 1 召回率0精确度0整体-全部-大型物体00 0.5 1 召回率0精确度0图5：错误分析图，比较我们的D2Det（底部行）和GridR-CNNPlus（顶部行）在所有80个类别上的整体（左侧）和大型物体（右侧）的性能。每个子图中显示了一系列不同评估设置下的精确度-召回率曲线，如[33]所定义。我们还显示了每条曲线下的面积（图例中的括号）。我们的D2Det相对于GridR-CNN Plus持续改进。0在处理大型物体时，我们的D2Det相对于Grid R-CNNPlus提供了4.6%的增益，达到了0.624的AP@0.75严格度量，而Grid R-CNNPlus只有57.8。在完美定位的情况下，D2Det可能将AP提高到0.820，而Grid R-CNNPlus只有0.789。图4（a）展示了我们的D2Det在MSCOCO test-dev上的检测示例。消融研究：我们在MSCOCOminival数据集上进行了消融研究。表2展示了我们的密集局部回归（第3.1节）和判别RoI池化（第3.2节）的影响。所有结果都使用ResNet50和FPN进行了报告。请注意，与共享网络不同，我们的基线模型Faster R-CNN withFPN为回归和分类分别拥有独立的全连接分支。0基线 DLR（第3.1节） DRP（第3.2节） AP AP@0.5 AP@0.750表2：将我们的密集局部回归（DLR）和判别RoI池化（DRP）集成到基线模型中，在MS COCOminival上的影响。基于DLR和DRP的最终方法在性能上持续改进，相对于基线模型有4.7%的整体增益。0将我们的密集局部回归（DLR）与传统回归方法相结合，替代基线模型，将AP从37.7提高到38.0。其中，二进制重叠预测器提供了0.7的AP增益，使得AP得分达到41.5。值得注意的是，我们的DLR在严格度量（AP@0.75）上提供了3.3%的显著绝对增益，超过了基线模型。此外，将我们的判别RoI池化（DRP）与基线模型相结合，使得整体AP得分达到39.3，其中仅我们的加权方案就提供了0.4的AP增益。我们的最终方法D2Det在整体AP方面相对于基线模型保持了一致的改进，绝对增益达到了4.7%。0我们还将我们的密集局部回归（DLR）与最近引入的GridR-CNN [36]及其变体Grid R-CNN Plus[37]中使用的基于关键点的定位进行比较（表3）。为了公平比较，我们的DLR单独使用与GridR-CNN相同的分类分支。此外，所有结果都使用相同的输入尺寸、训练迭代次数和带有FPN的ResNet50骨干网络进行报告。我们的DLR单独相比于GridR-CNN及其变体提供了更好的结果。特别是对于大型物体，我们的DLR单独相比于Grid R-CNNPlus提供了2.1%的绝对增益。表3中的最佳结果是我们的最终D2Det，突出了精确定位（DLR）和准确分类（DRP）对于获得高质量的目标检测性能的重要性。Grid R-CNN [36]39.658.342.422.643.851.5Grid R-CNN Plus [37]40.258.443.422.744.153.1RetinaNet [32]LRF-Net [47]FPN [31]NDFT [48]D2DetAP33.9537.8149.0552.0356.92114920方法 AP AP@0.5 AP@0.75 AP s AP m AP l0我们的DLR单独 41.5 59.6 44.8 2

下载后可阅读完整内容，剩余1页未读，立即下载