具有不确定性的边界框回归：准确目标检测中的挑战

162 浏览量更新于2023-10-19 收藏 17.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

28880具有不确定性的边界框回归用于准确的目标检测0Yihui He 1 Chenchen Zhu 1 Jianren Wang 1 Marios Savvides 1 Xiangyu Zhang 201 卡内基梅隆大学 2 Megvii公司（Face++）0{ he2,chenchez,jianrenw,marioss } @andrew.cmu.edu zhangxiangyu@megvii.com0（a）（d）（c）（b）0图1：在目标检测数据集中，地面真实边界框在某些情况下具有固有的模糊性。使用我们的KL损失，边界框回归器预期从模糊的边界框中获得较小的损失。（a）（c）由不准确标记引入的模糊性。（b）由遮挡引入的模糊性。（d）物体边界本身是模糊的。由于树木部分遮挡，火车的左边界不清楚。（在彩色中更好地查看）0摘要0大规模目标检测数据集（例如MS-COCO）试图尽可能清晰地定义地面真实边界框。然而，我们观察到在标记边界框时仍然存在模糊性。在本文中，我们提出了一种新的边界框回归损失，用于学习边界框变换和定位方差。我们的损失大大提高了各种架构的定位准确性，几乎没有额外的计算。学习到的定位方差使我们能够在非最大抑制（NMS）期间合并相邻的边界框，进一步提高了定位性能。在MS-COCO上，我们将VGG-16 FasterR-CNN的平均精度（AP）从23.6％提升到29.1％。更重要的是，对于ResNet-50-FPN MaskR-CNN，我们的方法将AP和AP90分别提高了1.8％和6.2％，显著优于先前最先进的边界框细化方法。我们的代码和模型可在github.com/yihui-he/KL-Loss上获得。01. 引言0像ImageNet [6]，MS-COCO [35]和CrowdHuman[47]这样的大规模目标检测数据集试图尽可能清晰地定义地面真实边界框。0为了尽可能清晰地标记地面真实边界框，我们观察到在某些情况下，地面真实边界框本质上是模糊的。这种模糊性使得标记和学习边界框回归函数变得困难。图1（a）（c）展示了来自MS-COCO的一些标记不准确的边界框。当物体部分遮挡时，边界框的边界甚至更加不清晰，如YouTube-BoundingBoxes[40]中的图1（d）所示。目标检测是一个多任务学习问题，包括目标定位和目标分类。当前最先进的目标检测器（例如FasterR-CNN [42]，Cascade R-CNN [2]和Mask R-CNN[17]）依赖于边界框回归来定位物体。然而，传统的边界框回归损失（即平滑L1损失[13]）没有考虑到地面真实边界框的模糊性。此外，当分类得分高时，边界框回归被认为是准确的，但并不总是如此，如图2所示。为了解决这些问题，我们提出了一种新的边界框回归损失，即KL损失，用于同时学习边界框回归和定位的不确定性。具体而言，为了捕捉边界框预测的不确定性，我们首先将边界框预测建模为高斯分布，将地面真实边界框建模为狄拉克函数。然后，新的边界框回归损失被定义为预测分布和地面真实分布的KL散度。使用KL损失进行学习具有三个好处：（1）可以成功捕捉数据集中的模糊性。边界框回归器从模糊的边界框中获得较小的损失。（2）学习到的方差在后处理中是有用的。我们提出了varvoting（方差投票）来使用邻居的位置加权预测方差在非最大抑制（NMS）期间投票候选框的位置。（3）学习到的概率分布是可解释的。由于它反映了边界框预测的不确定程度，因此在自动驾驶汽车和机器人等下游应用中可能会有帮助[7，16，21]。1.000.350.960.3228890（a）（b）0图2：VGG-16 FasterR-CNN在MS-COCO上的失败案例示意图。 (a)两个候选框在某个坐标上都不准确。 (b)分类得分较高的边界框的左边界不准确。（在彩色中更好地查看）0然后，新的边界框回归损失被定义为预测分布和地面真实分布的KL散度。使用KL损失进行学习具有三个好处：（1）可以成功捕捉数据集中的模糊性。边界框回归器从模糊的边界框中获得较小的损失。（2）学习到的方差在后处理中是有用的。我们提出了varvoting（方差投票）来使用邻居的位置加权预测方差在非最大抑制（NMS）期间投票候选框的位置。（3）学习到的概率分布是可解释的。由于它反映了边界框预测的不确定程度，因此在自动驾驶汽车和机器人等下游应用中可能会有帮助[7，16，21]。0为了证明KL Loss和var voting的普适性，我们在PASCAL VOC2007和MS-COCO上评估了各种基于CNN的目标检测器，包括VGG-CNN-M-1024、VGG-16、ResNet-50-FPN和MaskR-CNN。我们的实验表明，我们的方法为基于CNN的目标检测器提供了更好的目标定位准确性。对于MS-COCO上的VGG-16FasterR-CNN，我们将AP从23.6%提高到29.1%，GPU推理延迟仅增加2ms（GTX 1080Ti）。此外，我们将此流程应用于ResNet-50-FPN MaskR-CNN，并将AP和AP90分别提高了1.8%和6.2%，超过了先前最先进的边界框细化算法[27]。02. 相关工作0两阶段检测器：尽管一阶段检测算法[36, 41, 30,51]效率高，但目前最先进的目标检测器基于两阶段的、基于提议的机制[42, 4, 5, 17, 31,2]。两阶段检测器生成混乱的目标提议，导致大量重复的边界框。然而，在标准的NMS过程中，即使它们的位置准确，具有较低分类得分的边界框也会被丢弃。我们的varvoting试图利用基于定位置信度的相邻边界框来更好地定位所选框。0目标检测损失：为了更好地学习目标检测，提出了不同类型的损失函数。UnitBox[49]引入了交并比（IoU）损失函数用于边界框预测。FocalLoss[34]通过改变标准交叉熵损失来处理类别不平衡，使得分类良好的样本被赋予较低的权重。[39]通过策略梯度优化mAP以学习全局优化的目标检测器。[28]引入了深度估计的不确定性。这个想法进一步扩展到3D目标检测[10,9]。[29]提出通过考虑每个任务的不确定性来加权多任务损失以进行场景理解。通过KLLoss，我们的模型可以在训练过程中自适应地调整每个目标边界的方差，这有助于学习更具有区分性的特征。0非极大值抑制：NMS是计算机视觉的重要组成部分已有几十年。它广泛应用于边缘检测[44]、特征点检测[37]和目标检测[13, 12, 42, 45]。最近，提出了soft NMS和learningNMS[1,24]来改进NMS结果。soft-NMS[1]不是消除所有得分较低的周围边界框，而是将所有其他邻居的检测得分作为与得分较高的边界框重叠的连续函数进行衰减。learningNMS[24]提出仅使用边界框和它们的分类得分来学习一个新的神经网络来执行NMS。0边界框细化：MR-CNN[11]首次提出在迭代定位过程中合并边界框。Relationnetwork[25]提出学习边界框之间的关系。最近，IoU-Net[27]提出学习预测边界框与真实边界框之间的IoU。然后，通过学习到的IoU引导检测框应用IoU-NMS。与IoU-Net不同，我们提出从概率角度学习定位方差。这使我们能够分别学习预测边界框的四个坐标的方差。(1)σ2 e− (xx228900而不仅仅是IoU。我们的var voting根据KLLoss学习到的相邻边界框的方差来确定所选框的新位置，这可以与soft-NMS（表1和表6）一起使用。03. 方法0在本节中，我们首先介绍了我们的边界框参数化。然后，我们提出了KLLoss来训练具有定位置信度的检测网络。最后，我们介绍了一种新的NMS方法，用于通过我们的置信度估计来提高定位准确性。03.1. 边界框参数化0基于两阶段目标检测器Faster R-CNN或Mask R-CNN[42,17]（如图3所示），我们提出分别回归边界框的边界。设(x1, y1, x2, y2) ∈R4为边界框表示，其中每个维度都是边界框边界位置。我们采用(x1, y1, x2,y2)坐标的参数化，而不是R-CNN[13]使用的(x, y, w,h)坐标：0tx1 = x1 - x1a0wa, tx2 = x2 - x2a0wa0ty1 = y1 - y10ha, ty2 = y2 - y2a0ha0t�x1 = x�1 - 0wa, t�x2 = x�2 - x2a0wa0t�y1 = y�1 - 0ha, t�y2 = y�2 - y2a0ha0其中tx1, ty1, tx2, ty2是预测的偏移量。t�x1, t�y1, t�x2,t�y2是真实偏移量。x1a, x2a, y1a, y2a, wa,ha来自锚框。x1, y1, x2,y2来自预测的边界框。在接下来的讨论中，为了简化，边界框坐标简记为x，因为我们可以独立优化每个坐标。我们的目标是估计定位置信度以及位置。形式上，我们的网络预测的是概率分布，而不仅仅是边界框位置。尽管分布可以是更复杂的分布，如多元高斯分布或高斯混合分布，但在本文中，我们假设坐标是独立的，并使用单变量高斯分布来简化：0PΘ(x) = 1 / √02σ2 (2)0其中Θ是可学习参数集。xe是估计的边界框位置。标准差σ衡量估计的不确定性。当σ→0时，意味着我们的网络对估计的边界框位置非常自信。它由快速R-CNN头部（fc7）上的全连接层产生。图3说明了这一点。0类别0Box0边界框标准差0Lcls0Lreg（KL损失）0fc7 fc60RoI0图3：用于估计定位置信度的网络架构。与两阶段检测网络的标准快速R-CNN头部不同，我们的网络除了估计边界框位置外，还估计标准差，并在回归损失KLLoss中考虑它们。0我们的网络架构用于目标检测的快速R-CNN头部。地面真实边界框也可以表示为一个高斯分布，当σ→0时，它是一个狄拉克δ函数：0PD(x) = δ(x - xg) (3)0其中xg是地面真实边界框位置。03.2. 使用KL损失的边界框回归0在我们的上下文中，目标定位的目标是估计最小化PΘ(x)和PD(x)[43]之间的KL散度的ˆΘ，其中N是样本数：0ˆΘ = arg min Θ01 /N0KL(PD(x) || PΘ(x)) (4)0我们使用KL散度作为边界框回归的损失函数Lreg。分类损失Lcls保持不变。对于单个样本：0Lreg 0= ∫ P D (x) log P D (x) dx - ∫ P D (x) log PΘ(x) dx0= (xg - x02 - H(PD(x)) (5) 如图4所示，当位置x e估计不准确时，我们希望网络能够预测更大的方差σ2，以使Lreg更低。log(2π)/2和H(PD(x))不依赖于估计的参数Θ，因此：0L reg ∝ (x g - x e02σ^2 + 102log(σ^2) (6)(7)(8)) +̸pi =−(1−IoU(bi,b))2/σtx =subj, b) > 0(11)28910�(� $ , �^2)0�(� − �+)}0图4：蓝色和灰色的高斯分布是我们的估计结果。橙色的Dirac delta函数是真实边界框的分布。当位置x e估计不准确时，我们希望网络能够预测更大的方差σ^2，以使L reg 较低（蓝色）0当σ = 1时，KL Loss退化为标准的欧几里得损失：0L reg ∝ (x g - x e)^20该损失函数对位置估计x e 和定位标准差σ可微分。0d/dx e L reg = x e - x g0σ^20d/dσ L reg = -(x e - x g)0σ^-3 - 10σ0然而，由于σ在分母中，梯度有时会在训练开始时爆炸。为了避免梯度爆炸，我们的网络在实践中预测α =log(σ^2)而不是σ：0L reg ∝ e^(-α02(x g - x e)^2 + 02α (9)0在测试过程中，我们将α转换回σ。对于|x g - x e| >1，我们采用类似于Fast R-CNN[12]中定义的平滑L1损失的损失：0L reg = e^(-α(|x g - x e| -1)02α (10)0我们使用随机高斯初始化来初始化α预测的FC层的权重。标准差和均值分别设置为0.0001和0，以使KLLoss在训练开始时类似于标准的平滑L1损失。（方程9和方程10）。03.3. 方差投票0在获得预测位置的方差后，根据相邻边界框的学习方差来投票候选边界框的位置是直观的。0如算法1所示，我们只需改变三行代码就可以用varvoting替代NMS：0算法1 var voting B 是一个N × 4的初始检测框矩阵。S包含相应的检测分数。C 是一个N × 4的相应方差矩阵。D是最终的检测结果集。σ t 是varvoting的一个可调参数。蓝色和绿色的线分别表示soft-NMS和var voting。B = {b 1 , .., b N}，S = {s 1 , .., s N}，C ={σ 2 1 , .., σ 2 N} D ← {} T ← B while T ≠ empty do m ←argmax S T ← T - b m S ← S f (IoU (b m , T)) � soft-NMS0idx ← IoU ( b m , B ) > 0 � var voting0p ← exp ( − (1 − IoU ( b m , B [ idx ]))2 /σ t ) b m ← p ( B [ idx ] / C [ idx ]) /p(1 / C [ idx ]) D ← D ∪ b m end whilereturn D , S0我们在标准NMS或soft-NMS[1]的循环内对所选框的位置进行投票。选择具有最高分数的检测框 b，{x 1 , y 1 , x 2 , y 2 , s, σ x 1 , σ y 1 , σ x 2 , σ y2}，根据自身和相邻边界框计算其新位置。受到soft-NMS的启发，我们为距离较近且不确定性较低的边界框分配较高的权重。形式上，设 x 为一个坐标（例如 x 1），x i为第i个框的坐标。新坐标的计算如下：0i p i x i /σ 2x,i0σ t 是varvoting的一个可调参数。在投票过程中，两种类型的相邻边界框将获得较低的权重：（1）具有较高方差的边界框；（2）与选定边界框的IoU较小的边界框。投票过程中不涉及分类分数，因为得分较低的边界框可能具有更高的定位置信度。在图5中，我们提供了var voting的可视化说明。通过varvoting，可以避免导致检测失败的图2中早期提到的两种情况。04.实验0为了展示我们用于准确目标检测的方法，我们使用了两个数据集：MS-COCO [35]和PASCAL VOC1.080.461.010.810.190.211.060.280.710.190.211.060.280.620.560.660.300.300.650.530.620.440.560.660.300.300.650.530.370.250.180.190.310.271.171.250.370.250.180.190.310.271.171.250.420.480.360.420.330.320.300.360.420.480.360.420.330.320.300.361.010.810.190.211.060.281.080.461github.com/rbgirshick/py-faster-rcnn2github.com/facebookresearch/Detectron28920（a）（b）0使用KL损失获取方差0方差投票0人 1.000人 0.420人 0.42 0.460火车 0.990火车 0.35 0.440火车 0.990火车 0.350人 0.0人 0.930人 0.360人 0.930飞机 0.300飞机 1.000飞机 0.300飞机 1.000人 1.000人 0.420（c）（d）0图5：使用VGG-16 FasterR-CNN在MS-COCO上进行方差投票的结果。每个边界中间的绿色文本框是我们预测的相应标准差σ（方程2）。与图2对应的两种失败情况可以通过方差投票进行改进：（a）当每个候选边界框在某些坐标上不准确时（右边的女性），我们的方差投票可以融入它们的定位置信度并产生更好的边界框。（b）具有更高分类得分（train0.99）的边界框实际上比具有较低分类得分（train0.35）的边界框具有较低的定位置信度。经过方差投票后，得分为0.99的边界框向正确位置移动。（最好以彩色查看）02007[8]。我们在实验中使用了四个GPU。根据线性缩放规则[15]调整训练计划和批量大小。对于VGG-CNN-M-1024和VGG-16 Net [48]，我们的实现基于Caffe[26]。对于ResNet-50 FPN [18, 33]和Mask R-CNN[17]，我们的实现基于Detectron [14]。对于VGG-16 [48]Faster R-CNN，按照py-faster-rcnn[1]的要求，在train2014上训练，在val2014上测试。对于其他目标检测网络，我们分别在新定义的train2017和val2017上进行训练和测试。我们将σt设置为0.02。除非另有说明，所有超参数都设置为默认值2。04.1.消融研究0我们评估了我们检测流程中每个元素的贡献：KL损失、soft-NMS和使用VGG-16 FasterR-CNN的方差投票。详细结果如表1所示。0Table 1。0KL损失：令人惊讶的是，仅仅使用KL损失进行训练就能大大提高AP值，提高了2.8%。这也在ResNet-50 FasterR-CNN和MaskR-CNN上观察到（分别提高了1.5%和0.9%，如表3和表4所示）。首先，通过在训练过程中学习预测高不确定性样本的高方差，网络可以从有用的样本中学到更多。其次，通过网络在训练过程中自适应地控制定位的梯度（方程8），鼓励网络学习更准确的目标定位。第三，KL损失融入了学习定位置信度的能力，这有助于网络学习更具有区分性的特征。我们的KL损失学到的方差是可解释的。我们的网络会对具有挑战性的目标边界输出更高的方差，这在自动驾驶汽车和机器人等视觉应用中非常有用。第一行23.644.622.86.725.936.323.333.634.3✓24.845.624.67.627.237.623.439.242.2✓✓27.848.028.98.131.442.626.237.538.30.00.0050.010.0250.050.1t1.00.50.00.51.0APAP50AP75AP80AP9028930KL损失 soft-NMS 方差投票 AP AP 50 AP 75 AP S AP M AP L AR 1 AR 10 AR 1000� 26.4 47.9 26.4 7.4 29.3 41.2 25.2 36.1 36.90� � 27.8 49.0 28.5 8.4 30.9 42.7 25.3 41.7 44.90� � � 29.1 49.1 30.4 8.7 32.7 44.3 26.2 42.5 45.50表1：我们的检测流程中每个元素的贡献。基线模型是VGG-16 Faster R-CNN0方法延迟（毫秒）0基线990我们的1010表2：在GTX 1080 Ti GPU上使用VGG-16 FasterR-CNN进行推理时间比较，CUDA 8 [38]和CUDNN 6 [3]0fast R-CNN头骨KL Loss AP02mlp头FPN 37.90� 38.5 +0.602mlp头+mask FPN 38.60� 39.5 +0.90conv5头RPN 36.50� 38.0 +1.50表3：不同快速R-CNN头的比较。模型是ResNet-50 FasterR-CNN0图5的一些定性示例显示了通过我们的KLLoss学习到的标准差。0Soft-NMS：如预期，Soft-NMS在基线和我们使用KLLoss训练的网络上表现一致。在基线和我们的网络上，它分别将AP提高了1.2％和1.4％，如表1所示。0方差投票：最后，通过方差投票，AP进一步提高到29.1%。我们观察到改进主要来自更准确的定位。请注意，AP50仅提高了0.1%。然而，AP 75，AP M和APL分别提高了1.8％，1.8％和1.6％，如表1所示。这表明分类置信度并不总是与定位置信度相关联。因此，学习除分类置信度之外的定位置信度对于更准确的目标定位很重要。0AP（％）0图6：使用ResNet-50 FasterR-CNN进行var投票时，σt的变化。（在彩色中更好地查看）0我们还发现方差投票和Soft-NMS可以很好地配合使用。将标准NMS与方差投票结合使用可以将AP提高1.4％。在Soft-NMS之后应用方差投票仍然可以将AP提高1.3％。我们认为Soft-NMS擅长对候选边界框进行评分，从而提高整体性能，而方差投票擅长对这些选定的边界框进行细化，以实现更准确的目标定位。图5的第二行显示了我们的方差投票的一些定性示例。如图6所示，我们测试了可调参数σt对方差投票的敏感性。当σt =0时，方差投票不被激活。我们观察到AP 75，AP 80和AP90可以受到σt的显着影响，而AP50对σt的敏感性较小。可接受的σt值范围从约0.005到0.05不等。我们在所有实验中使用σt = 0.02。0推理延迟：我们还评估了我们改进的VGG-16 Faster R-CNN在单个GTX1080 Ti GPU上的推理时间，使用的是CUDA 8和CUDNN6，因为这对于资源有限的应用程序至关重要[50，20，23，19，32]。VGG-16KL Loss69.728940AP AP 50 AP 60 AP 70 AP 80 AP 900基线[14] 38.6 59.8 55.3 47.7 34.4 11.3 MR-CNN [11] 38.9 59.8 55.5 48.1 34.8 +0.4 11.9 +0.60soft-NMS [1] 39.3 59.7 55.6 48.9 35.9 +1.5 12.0 +0.70IoU-NMS+Re�ne [27] 39.2 57.9 53.6 47.4 36.5 +2.1 16.4 +5.10KL Loss 39.5 +0.9 58.9 54.4 47.6 36.0 +1.6 15.8 +4.50KL Loss+var voting 39.9 +1.3 58.9 54.4 47.7 36.4 +2.0 17.0 +5.70KL Loss+var voting+soft-NMS 40.4 +1.8 58.7 54.6 48.5 37.5 +3.3 17.5 +6.20表4：在MS-COCO上进行准确目标检测的不同方法的比较。基线模型是ResNet-50-FPN MaskR-CNN。我们在AP上改进了基线约2%。0如表2所示，我们的方法仅在GPU上增加了2ms的延迟。与使用2mlp头进行IoU预测的IoUNet[27]不同，我们的方法仅需要一个4096×324的全连接层进行定位置信度预测。0RoI BoxHead：我们在更深的骨干网络ResNet-50上测试了KLLoss在不同RoI盒头部的有效性。res5/conv5头部由9个卷积层组成，可以应用于每个RoI作为快速R-CNN头部。2mlp头部由两个全连接层组成。res5头部可以学习比常用的2mlp头部更复杂的表示。如表3所示，KLLoss可以提高带有掩码的AP 0.9%。KLLoss可以进一步通过conv5头部提高AP1.5%。我们假设定位方差比定位更具挑战性，因此KLLoss可以更多地从conv5头部的表达能力中受益。由于conv5头部在最近的最先进的检测器中不常用，我们在后续实验中仍然采用2mlp头部。04.2. 准确的目标检测0表4总结了在ResNet-50-FPN MaskR-CNN上进行准确目标检测的不同方法的性能。使用KLLoss，网络可以在训练过程中调整模糊边界框的梯度。因此，使用KL Loss训练的Mask R-CNN在高重叠指标（如AP90）上的表现明显优于基准。变量投票通过根据相邻边界框的定位置信度进行投票来改善定位结果。AP 80和AP 90分别提高了0.4%和1.2%。变量投票也与软NMS兼容。变量投票与软NMS相结合，将最终模型的AP 90和整体AP分别提高了6.2%和1.8%。与IoUNet [ 27]相比：（1）我们的方差和定位是与KLLoss一起学习的，从而提高了性能。（2）KLLoss不需要单独的2mlp0骨干方法 mAP0基准 60.40VGG-CNN- KL Loss 62.0 M-1024 KL Loss+变量投票62.80KL Loss+变量投票+软NMS 63.60基准 68.70QUBO（禁忌）[ 46 ] 60.60QUBO（贪婪）[ 46 ] 61.90软NMS [ 1 ] 70.10KL Loss+变量投票 70.20KL Loss+变量投票+软NMS 71.60表5：在PASCAL VOC 2007上使用FasterR-CNN的不同方法的比较。0用于学习定位置信度的头部，几乎不需要额外的计算。（3）变量投票不需要迭代细化，速度更快。我们在特征金字塔网络（ResNet-50 FPN）[ 33 , 18]上进一步评估我们的方法，如表6所示。对于快速R-CNN版本，使用KLLoss进行训练将基准提高了0.4%。在应用了变量投票和软NMS之后，我们的模型在AP上达到了38.0%，优于IoU-NMS和软NMS基准。使用KLLoss进行端到端训练可以帮助网络学习更具辨别性的特征，将基准AP提高了0.6%。最终模型在AP上达到了39.2%，将基准提高了1.3%。04.3. 在PASCAL VOC 2007上的实验0尽管我们的方法是为大规模目标检测设计的，但它也可以很好地推广到小数据集上。我们在PASCAL VOC2007上进行了Faster R-CNN [ 42]的实验，该数据集包含大约5k个voc_2007_trainval图像和5k个voc_2007_test图像，涵盖了20个目标类别。骨干网络：VGG-CNN-M-1024和VGG-16IoU-NMS [27]37.356.0----KL Loss37.257.239.919.839.750.128950类型方法 AP AP 50 AP 75 AP S AP M AP L0快速R-CNN0基准（1倍计划）[ 14 ] 36.4 58.4 39.3 20.3 39.8 48.10基准（2倍计划）[ 14 ] 36.8 58.4 39.5 19.8 39.5 49.50软NMS [ 1 ] 37.4 58.2 41.0 20.3 40.2 50.10KL Loss+var voting 37.5 56.5 40.1 19.4 40.2 51.60KL Loss+var voting+soft-NMS 38.0 56.4 41.2 19.8 40.6 52.30Faster R-CNN0baseline (1x schedule) [14] 36.7 58.4 39.6 21.1 39.8 48.10IoU-Net [27] 37.0 58.3 - - - -0IoU-Net+IoU-NMS [27] 37.6 56.2 - - - -0baseline (2x schedule) [14] 37.9 59.2 41.1 21.5 41.1 49.90IoU-Net+IoU-NMS+Re�ne [27] 38.1 56.3 - - - -0soft-NMS[1] 38.6 59.3 42.4 21.9 41.9 50.70KL Loss 38.5 57.8 41.2 20.9 41.2 51.50KL Loss+var voting 38.8 57.8 41.6 21.0 41.5 52.00KL Loss+var voting+soft-NMS 39.2 57.6 42.5 21.2 41.8 52.50表6：与FPN ResNet-50在MS-COCO上的性能比较0Net[48]进行了测试。如表5所示，我们将我们的方法与soft-NMS和二次无约束二值优化（QUBO[46]）进行了比较。对于QUBO，我们测试了贪婪和经典禁忌求解器（我们手动调整了两个求解器的惩罚项以获得更好的性能）。我们观察到，它比标准的NMS要差得多，尽管据报道它在行人检测方面效果更好。我们假设QUBO在行人检测方面更好，因为有更多的遮挡边界框[47]。对于VGG-CNN-M-1024，使用变量投票进行训练可以将mAP提高1.6%。变量投票进一步提高了mAP0.8%。对于VGG-16，我们的方法结合soft-NMS将mAP提高了2.9%。我们注意到，即使在对初始检测框应用了soft-NMS之后，变量投票仍然可以提高性能。这个观察结果与我们在MS-COCO上的实验（表1）一致。05. 结论0总之，大规模目标检测数据集中的不确定性可能会影响到最先进的目标检测器的性能。分类置信度并不总是与定位置信度密切相关。本文提出了一种具有不确定性的新型边界框回归损失，用于学习更准确的目标定位。通过使用KLLoss进行训练，网络学习预测每个坐标的定位方差。由此产生的方差通过投票赋予了变量投票，可以通过投票来改进所选的边界框。对于MS-COCO和PASCAL VOC2007上的VGG-16 Faster R-CNN、ResNet-50FPN和Mask R-CNN，展示了令人信服的结果。0致谢0本研究部分得到了中国国家重点研发计划的支持（编号2017YFA0700800）。我们要感谢KrisKitani教授和孙剑博士在本研究期间的有益讨论。0参考文献0[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, andLarry S Davis. Soft-nms – improving object detection withone line of code. In Computer Vision (ICCV), 2017 IEEEInternational Conference on, pages 5562–5570. IEEE, 2017. 2,4, 7, 80[2] Zhaowei Cai and Nuno Vasconcelos. Cascade r-cnn:Delving into high quality object detection. arXiv preprintarXiv:1712.00726, 2017. 1, 20[3] Sharan Chetlur, Cliff Woolley, Philippe Vandermersch,Jonathan Cohen, John Tran, Bryan Catanzaro, and EvanShelhamer. cudnn: Ef�cient primitives for deep learning. arXivpreprint arXiv:1410.0759, 2014. 60[4] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Objectdetection via region-based fully convolutional networks. InAdvances in neural information processing systems, pages379–387, 2016. 20[5] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, GuodongZhang, Han Hu, and Yichen Wei. Deformable convolutionalnetworks. CoRR, abs/1703.06211, 1(2):3, 2017. 20[6] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In Computer Vision and Pattern Recognition,2009. CVPR 2009. IEEE Conference on, pages 248–255. IEEE,2009. 1828960[7] Nemanja Djuric, Vladan Radosavljevic, Henggang Cui, ThiNguyen, Fang-Chieh Chou, Tsung-Han Lin, and Jeff Schnei-der. 使用深度卷积网络进行自动驾驶交通参与者运动预测.arXiv预印本arXiv:1808.05819, 2018. 20[8] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, andA. Zisserman. PASCAL视觉对象类别挑战赛2007(VOC2007)结果.pascal-network.org/challenges/VOC/voc2007/workshop/index.html. 50[9] Di Feng, Lars Rosenbaum, and Klaus Dietmayer.为激光雷达3D车辆检测中的深度神经网络捕捉不确定性以实现安全自动驾驶. 在2018年第21届智能交通系统国际会议(ITSC)中,页码3266-3273. IEEE, 2018. 20[10] Di Feng, Lars Rosenbaum, Fabian Timm, and Klaus Diet-mayer. 利用异方差不确定性实现鲁棒的实时激光雷达3D目标检测.arXiv预印本arXiv:1809.05590, 2018. 20[11] Spyros Gidaris和Nikos Komodakis.通过多区域和语义分割感知的CNN模型进行目标检测.在IEEE国际计算机视觉会议论文集中, 页码1134-1142, 2015. 2, 70[12] Ross Girshick. 快速R-CNN.在IEEE国际计算机视觉会议论文集中, 页码1440-1448, 2015. 2, 40[13] Ross Girshick, Jeff Donahue, Trevor Darrell, and JitendraMalik. 用于准确的目标检测和语义分割的丰富特征层次结构.在IEEE计算机视觉和模式识别会议论文集中, 页码580-587, 2014.1, 2, 30[14] Ross Girshick, Ilija Radosavovic, Georgia Gkioxari, PiotrDoll´ar, and Kaiming He. Detectron.github.com/facebookresearch/detectron, 2018. 5, 70[15] Priya Goyal, Piotr Doll´ar, Ross Girshick, Pieter Noord-huis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch,Yangqing Jia, and Kaiming He. 准确的大型小批量SGD:在1小时内训练ImageNet. arXiv预印本arXiv:1706.02677, 2017. 50[16] Marcus Gualtieri和Robert Platt.使用注意力聚焦学习6自由度抓取和放置.arXiv预印本arXiv:1806.0

下载后可阅读完整内容，剩余1页未读，立即下载