目标检测中的偏移优化及精确目标检测

145 浏览量更新于2023-10-23 收藏 889KB PDF 举报

目标检测

预测精度

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13188pppp1.01.01.01.00.50.50.50.5tx-3 -2 -1 01 2 3ty-3 -2 -1 0 1 2 3-3 -2-10123321012 3twtG火车火车偏移仓分类txtytwth概率分布用于精确目标检测的邱和谦，李宏亮，吴庆波，石恒灿电子科技大学中国成都hqqiu@std.uestc.edu.cn，hlli@uestc.edu.cn，qbwu@uestc.edu.cn，shihc@std.uestc.edu.cn摘要目标检测结合了目标分类和目标定位问题。现有的目标检测方法通常利用平滑L1损失函数训练的回归网络预测然而，该损失函数对具有大误差的不同样本应用相同的惩罚，这导致次优回归网络和不准确的偏移。在本文中，我们提出了一个偏移箱分类网络优化交叉熵损失预测更准确的偏移。它不仅对不同的样本提供了不同的惩罚，而且避免了相同样本所引起的梯度爆炸问题候选框候选框txtytwth(a) 基于偏移回归的定位预测框预测框有较大误差的问题。具体地说，我们离散化连续-将偏移划分为多个bin，并预测每个偏移bin的概率。此外，我们提出了一个基于期望值的偏移预测和一个分层聚焦方法，以提高预测精度。在PASCAL VOC和MS-COCO数据集上的实验证明了该方法的有效性。我们的方法比基线方法性能好得多。1. 介绍目标检测是计算机视觉中一项基本而又具有挑战性的任务，它包括目标分类和目标定位问题。一系列广泛的计算机视觉应用，如自动驾驶[7，17，3941]，视频监控[6，24]和机器人[38，42，45]将受益于准确的对象定位。大多数最先进的对象检测方法[1，8，11，12，20，21，26，30，31，35，44]首先生成一系列候选框，然后预测这些框的偏移量以定位对象，如图1（a）所示。由于偏移是连续值，这些方法通过使用L2或平滑L1损失优化的回归网络来预测它们。然而，根据[9]的调查，*通讯作者。(b) 基于等距面元分类的定位图1.典型的基于偏移回归的目标检测方法与我们提出的偏移面元分类方法的比较。(a)典型的目标检测方法基于偏移回归来定位目标。(b)该方法根据输出信号在不同偏移区间上的概率分布来典型的偏移回归方法从候选框向对象进行有限的偏移，而偏移箱分类方法避免了这个L2损失[10]可能会导致梯度爆炸时，有很大的偏移误差.为了避免这个问题，平滑L1损失[9]通过裁剪梯度来削弱具有大误差的样本的影响。虽然平滑L1损失解决了梯度爆炸问题，但它无法对具有大误差的样本进行足够的惩罚，这会导致次优回归网络以及候选框和对象之间的不准确偏移。例如，在图1（a）中，火车对象不能被边界框紧紧包围。为了解决这个问题，我们提出了一个偏移量箱分类网络来预测更准确的偏移量，如图1（b）所示。所提出的方法采用交叉熵损失训练的分类网络，平滑L1或L2丢失。一方面，它给出了具有不同偏移误差的样本足够的惩罚。上火车偏移回归火车13189另一方面，它避免了梯度爆炸问题。然而，分类网络只能预测离散的偏移值。因此，我们提出了一种基于期望的偏移预测和分层聚焦偏移预测，以进一步提高预测精度。具体来说，我们使用均匀离散化将连续偏移量划分为多个bin，然后训练具有交叉熵损失的偏移量bin分类网络来预测偏移量bin的概率分布。受[37]的启发，我们通过计算离散偏移bin的softmax期望值将分类结果转化为对象位置。同时，我们提出了一个分层聚焦偏移预测网络，以逐步细化偏移仓，实现更精确的对象定位。我们验证了我们的方法在两个常见的对象检测数据集，包括PASCAL VOC和MS-COCO数据集的有效性。实验结果表明，该方法有利于准确检测目标。我们的贡献可归纳如下：• 我们提出了一个偏移量箱分类网络来预测更准确的偏移量，而不是通过平滑L1或L2损失优化的回归网络。• 为了进一步产生更精确的目标定位，我们提出了基于期望的偏移预测和分层聚焦偏移预测。• 在两个常见数据集上的实验证明了所提方法的有效性。2. 相关工作物体探测器：现代对象检测框架通常可以分为两阶段和单阶段检测器。在两阶段检测器[1，8，11，12，20，21，26，30，31，35，44]中，首先生成一组稀疏的可能包含目标的区域建议，然后提取它们的特征用于以下分类和定位。代表性的方法，包括Faster R-CNN [35]，FPN [20]和Mask R-CNN [12]，已经在各种基准上实现了主导性能。与两阶段检测器相比，单阶段检测器[18，19，21，23，32 -34]达到了较高的推理速度，如YOLO [32-34]，SSD [23]，RetinaNet [21]。他们通常跳过区域建议生成步骤，并直接预测边界框以下的锚框计划。虽然这些方法已经成功地检测到目标，但实现准确的目标定位仍然是一个具有挑战性的问题。边界框回归：为了解决对象定位的问题，大多数对象检测方法[1，8-11，15，26，28，44]利用边界框回归网络来预测将候选框转换为对象的四个坐标的偏移。R-CNN[10]通过训练具有L2损失的线性回归模型来预测这些偏移。但当样本误差较大时，容易引起梯度爆炸。更换-对于L2损失，Fast R-CNN [9]提出了平滑L1损失以减少具有大误差的样本的影响，这已被广泛接受用于对象检测中的回归。平衡的L1损失[28]进一步增加了具有小误差的样本的梯度贡献，以重新平衡所涉及的分类和定位任务以及具有不同属性的样本。另一种不同的方法KL loss[14]考虑了地面真值边界框的模糊性，并学习了边界框回归和定位方差，以实现更准确的对象定位。此外，UnitBox [46]和GIoU [36]直接使用评估指标作为目标函数，以解决优化常用距离损失和最大化指标值之间的差距。然而，很难用相同的IoU优化不同的边界框。此外，一系列对象检测器[1，8，11，26，44]试图通过迭代回归边界框来改善对象定位。它们都级联多个回归器，并在每次迭代后将检测结果送入下一个边界框回归器。级联R-CNN[1]在每次迭代中考虑了检测输出和重采样包围盒的分布，保证了检测器质量与测试质量的匹配。然而，随着迭代次数的增加，提高定位精度是非单调的。IoU-Net[15]提出用匹配的地面实况作为本地化置信度来预测IoU，以指导边界框的回归。代替回归网络，我们提出了一种具有交叉熵损失的偏移箱分类网络，以实现更准确的对象定位，这在其他计算机视觉领域也有效地转向。例如，[27]预测了检测热图和用于人体姿势估计的关联嵌入标签。[5]通过使用有序回归损失而不是L2损失来训练深度估计网络。最近，一些无锚方法[16，43，47]直接预测边界框的关键点的热图，并引入不同类型的损失函数来细化和分组这些关键点以最终检测到边界框。CornerNet [16]使用SmoothL1损失来回归局部偏移，并使用拉损失和推损失来约束关键点之间的距离。CenterNet [47]使用两个L1损失函数回归局部化偏移和对象大小。FCOS [43]采用IoU损失来回归边界框的面积。与所提出的方法不同，它们通常需要仔细分组最终对象的关键点。3. 方法在本节中，我们首先回顾和分析传统边界框回归器的问题。然后，我们介绍了我们提出的偏移箱分类网络来解决这个问题，该网络是基于流行的FPN [20]实现的。13190我我2βwh图2.我们提出的用于对象检测的偏移bin分类方法的整体架构它包括三个主要部分：RoI特征提取，偏移bin标签构建和基于期望的偏移预测。RoI特征由骨干网络FPN提取[20]。偏移面元标签构造是将连续的偏移范围离散化为多个偏移面元。基于期望值的偏移预测用于通过计算期望值将分类结果转化为偏移估计3.1. 边界框回归设（x，y，w，h）为边界框的中心坐标及其宽度和高度。在R-CNN [10]之后，常用方法利用回归网络来学习将候选框转换为地面实况框的偏移。它们将四个坐标的偏移参数化如下：tx=（x−xa）/wa，ty=（y−ya）/hatw=log（w/wa），th=log（h/ha）其中，在两级检测器中，偏差x=ti−t，β通常设置为1SGN表示符号函数。请注意，偏移误差大于β的样本会被迫将梯度限幅为1或−1，以降低其影响，从而导致这些样本的惩罚不足。因此，由平滑L1损失函数优化的回归网络预测候选框和对象之间的不准确偏移。3.2. 偏移仓分类网络t=（x−x）/w，t=（y−y）/h（一）为了解决这个问题，我们提出了一个偏移bin类-xaayaat=log（w/wa），t=log（h/ha）其中，tx、ty、tw、th是预测偏移，SIFICATION网络，实现更精确的对象定位，第所提出的方法的总体架构如图2所示。给定一个图像，我们首先生成XyWH是目标偏移量。x、x′ a和x′ a（同样对于y、w和h）分别来自预测框、地面实况框和候选框（锚框或建议框）。目标是使预测值和目标值之间的误差一组稀疏的候选框使用区域建议网-工作（ RPN ） [20] ，然后从通过特征金字塔网络（FPN）[20]获得的图像特征图中提取这些ROI特征。基于提取的ROI特征，我们偏移：Lloc=Σi∈{x，y，w，h}Lreg（ti−t）（2）预测其对应的对象类别和偏移bin置信分数而不是具体的偏移值。此外，我们使用基于期望的偏移预测和其中Lreg 平方误差L2R-CNN中的损失函数图3中的分级聚焦偏移预测进一步提高预测偏移的精度。[10]第10段。然而，当存在以下情况时，偏移误差较大。取代L2损失，Fast R-CNN [9]采用SmoothL1损失函数来规避上述问题：.2X3.2.1偏移箱标签构造如图4所示，我们将3.1节中的连续偏移量转换为一组代表性的离散偏移量，平滑L1（x）=2β，|X| ≤ β|- β，否则|− β,otherwise.（三）集. 将偏移范围（−a，a）均匀地分成m个非重叠箱。范围内每个bin的宽度w（−a，a）是2a。此外，我们还将平滑L1我不知道平滑L1=xx，|X| ≤ βsgn（x），否则（四）M[2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][1 因此，仓的总数表示为n=m+2。离散箱标签表示为L ∈ {0，1，.，n − 1}。代表-FCC+1Eχp@c$p$joµ-bp3@d Off3@$Py@djc $joµ对象class每个bin1024FPN重塑FC4nSoftmax7 X 7 X 1024Bin得分向量sROIsn-1预计偏移量∑l= 0RPN代表性离散每个面元离散012...n − 1−a一−a一连续偏移范围n个偏移面元关闭3@$Bj µ Lpb@l3 Coµ3$y crafcRoIAlignBoxheadpx，Opx，1 …px，n-1py，Opy，1…py，n-1pw，Opw，1…pw，n-1ph，Oph，…ph，n-txtytwthtrx，Otrx，1…trx，n-1特里岛一年，1…try，n-1trw，Otrw，1…trw，n-1trh，Otrh，1…trh，n-113191l=0我，我K=1K=2K=3图3.所提出的分层聚焦偏移预测的架构这里，我们示出了分层聚焦偏移预测中的三个阶段填充灰色的黄色虚线框表示每个阶段的偏移范围绿框和红框代表每个阶段的预测框和地面实况框每一阶段的偏移范围界定于前一阶段的偏移仓-五点五偏移范围score vector到R4×n，并通过softmax函数将每个坐标的score vector分别归一化为概率的形式，如下所示：-5-3-11 35偏移箱pi，l =exp（si，l）n−1exp（s（i、l）（六）-5-4-2 0 24代表5每个面元其中pi，l指示第i个坐标偏移属于第l个仓的概率。图4.胶印箱结构示意图。的偏移范围（-5，5）被均匀地离散成五个bin，并且中值-偏移面元分类器的损失函数L面元被表示为交叉熵损失：每个bin的UE代表它们的代表偏移。此外，本发明还提供了一种方法，范围（−∞，−5]和[5，+∞）分别使用端点−5和5作为它们的代表偏移L料斗（pi，l，l）=−ΣnΣ−1yl 伊洛普岛（七）每个面元的有效偏移可以如下指示：i∈{x，y，w，h}l=0在其中，当地面实况类记为l，其中yl∈ {0，1}。关于的梯度分类器层的输出得分sb可以推导为：ri，l⎪⎨−a+(l+2)∗wl∈[0,m]=m−al=m+ 1al=m+2（五）如下所示：Lbin=IL. Σ-n∈{x，y，w，h} （pi，l- 1）、yl=1（八）其中tr是对应于斯岛-i∈{x，y，w，h}（pi，l），yl= 0边界框的坐标i的bin标签l。从0到m的标签的代表性偏移被表示为每个箱的中值，并且其他标签被表示为端点的偏移。3.2.2网络学习基于离散化的偏移bin标签，直接将对象定位转换为多类分类问题，而不是直接回归。如图2所示，候选框被馈送到后向的BoxHead中。骨网络FPN [20]以生成其偏移bin得分向量s∈R4n，其中4是边界框的四个坐标，n是偏移bin的数量。然后我们重塑基于上述公式，梯度是有界的，其范数被限制为[0，1]，与L2损失函数相比，它对所有样本都更稳定同时，与SmoothL1loss相比，它有效地考虑了基于预测概率pi，l最后，我们使用损失函数L来端到端训练我们的网络，以实现准确的对象检测：L=Lcls+λbinLbin（9）其中，Lcls表示对象分类的损失，偏移面元分类损失L面元用于对象的定位λbin是控制这些损失之间平衡的权重。在本文中，我们将λbin设置为1。RPNCLSFPN期望-基于偏移框1预测输入图像期望-基于偏移框2预测：偏移范围：预测边界框：地面实况边界框期望-的偏移来预测box3偏移箱3一个3-a3偏移箱2一个2-a2的1偏移箱1-a1偏移箱标签构造RoIAlignRoIAlignRoIAlignBoxheadBoxheadBoxhead不13192我我，我nk我−1方法预期分层APAP50AP60AP70AP80AP90[20]第二十话四十五074岁569岁。5五十七6三十六0六、6箱分类四十五8七十三。367岁9五十七239岁69 .第九条。8箱分类C四十七574岁069岁。0五十八841岁5十三岁6箱分类C四十七5七十二867岁9五十八1四十二0十六岁0箱分类CC四十九0七十三。268岁4五十九044.319号。6表1.在所提出的方法中，每个组件的影响在VOC 2007测试集上报告结果[4]。使用ResNet-50-FPN [20]的基线方法通过边界框回归方法定位对象期望和分层表示基于期望的偏移预测和分层聚焦偏移预测。3.2.3基于期望的偏移预测由于偏移是具有高精度的连续值，因此分类网络仅预测离散偏移值。因此，我们提出了两种不同的方法来提高检测结果的精度：基于期望的偏移预测和分级聚焦偏移预测。对于图2中的基于期望的偏移预测方法，我们利用不同偏移仓上的概率分布来估计预测偏移 ti，其通过softmax期望值而不是最大值来计算，如下所示：ti=E（Tr）4. 实验为了评估所提出的偏移箱分类网络的有效性，我们对两个标准对象检测数据集进行了广泛的实验，包括PASCAL VOC数据集[4]和MS-COCO数据集[22]。数据集。PASCAL VOC数据集[4]包含20个对象类别，包括PASCAL VOC 2007数据集和PASCAL VOC 2012数据集。在[35]之后，我们在VOC 2007训练集和VOC 2012训练集的联合上训练我们的网络，分别包括5011和11540张图像，并在包含4952张图像的VOC 2007测试MS-COCO数据集[22]涉及80个对象类别，其规模比PASCAL更大n−1=l=0（pi，ltr）（十）VOC数据集。按照惯例[20，28]，我们使用具有115 K图像的train-2017集进行训练，并报告具有20 k图像的测试开发集的最终结果其中Tr={tr，tr、...、tr}表示代表的集合评估指标。我们采用标准的COCO风格ii，0i，1i，n−1n个仓的假定离散偏移。符号E表示离散偏移的期望值。4.1.1分层聚焦偏移预测此外，我们提出了一种分层聚焦偏移预测，采用由粗到细的策略逐步细化仓间隔，如图3所示。离散化值将更接近目标值，非常小。假设有K个阶段和nk个仓在第k阶段。在每一级中，偏移范围（−ak，ak）定义在前一级的偏移仓内。因此，仓的宽度wk可以表示为wk-是的然后，我们预测每个阶段的偏移量tk最终预测偏移可计算为：ΣK平均精度（AP），用于衡量各种质量的检测性能，其在0.5至0.95的不同IoU阈值上平均mAP，间隔为0.05.它还包括跨越小规模APS、中规模APM和大规模APL的AP。实施详情。为了公平比较，我们基于PyTorch [29]和MMDetection [2]实现了所有实验。我们采用基于ResNet-50的FPN [20]和ResNet-101 [13]作为基线网络。遵循典型的约定，我们采用PASCAL VOC数据集上的1000×600[4]和MS-COCO数据集上的1333×800[22]。我们使用2个GPU（每个GPU 2个图像）端到端纪初始学习率被设置为0.005，并在8个时期和11个时期之后降低0.1倍。除非另有说明，否则所有其他超参数都遵循默认值ti=Kik=1（十一）在MMDetection中设置[2]。设置损失权重λbin到1. 设置偏移范围a和仓数n 分别为3和20。在分层聚焦偏移中，如图3所示，在第一阶段，我们预测关闭-在偏移范围（−a1，a1）内由RPN和ob-bits生成的候选框之间的集合。然后，在每个阶段，我们预测在前一个关闭的更好的偏移不13193设置垃圾箱。通过逐步分类偏移，我们可以获得更精确的边界框。在预测中，阶段的数量K被设置为2。4.2. 消融研究在本节中，我们验证了基线ResNet-50-FPN的有效性[20]。在不损失一般性的情况下，我们-13194方法APAP50AP60AP70AP80AP90L2损失[10]44. 7七十二667岁6五十六8三十七47 .第一次会议。8[20]第二十话β = 1。0四十五074岁569岁。5五十七6三十六0六、6β = 1。544.3七十三。968岁6五十六5三十四9六、4β = 2。044.274岁368岁9五十六1三十三岁。9六、2箱分类四十七574岁069岁。0五十八841岁5十三岁6表2.不同损失函数的有效性 β表示平滑L1损失函数中的分割点。在VOC 2007测试集上报告结果[4]。4847表3.在所提出的分层聚焦偏移预测方法中，级数的有效性在VOC 2007测试集上报告结果[4]。形成消融研究，以揭示我们提出的方法中每个组分对PASCAL VOC数据集的影响[4]。464544434210 2030 40 50主成分分析我们在表1中分析了每个拟议组件的影响。通过所提出的偏移仓分类方法简单地估计对象定位将AP提高0。8%，与基线包围盒回归方法[20]相比。引入基于期望值的偏移预测和分层聚焦偏移预测都实现了增益2。5%，进一步提高了预测精度。基于期望的偏移预测考虑到其他偏移仓中的样本的概率以估计偏移，并且一致地改进具有不同IoU度量的AP。分层聚焦偏移预测在高IoU度量中执行得更好原因是它预测更精确的偏移量在更精细的偏移量bin内。最后，我们的完整方法优于基线边界框回归方法4。0%。实验结果表明，该方法在更准确的目标检测方面是有效的，特别是在更好的性能方面。在高IoU指标中。不同损失函数预测偏移量的有效性。不同损失函数预测偏移的有效性如表2所示。基于相同的骨干网络ResNet-50-FPN [20]，我们调整了回归损失平滑L1的分割点β，以使更多的样本在足够的梯度贡献的基础上被处理。然而，当我们将β设置为较大的值时，检测性能AP降低。一个可能的原因是网络学习由一些具有较大距离误差的样本主导。与SmoothL1损失和L2损失，我们的方法执行更好的性能，如图所示箱数n图5.不同超参数的偏移面元标签的面元分类效果。横轴表示面元数n，纵轴表示检测性能AP。蓝线、红线和绿线分别表示偏移范围a=1、3、5在表2中，它通过偏移bin分类来说明问题。设置偏移仓位标签。图5显示了具有不同超参数的偏移面元标签的面元分类效果。A和N分别表示划分的偏移范围的端点和仓的数目。当仓的数量n固定时，可以看出检测性能对于a=1降低，而性能对于a=3和a=5是相似的。这是因为如果a=1，则在训练期间忽略偏移大于1的许多样本。当端点a= 3或5时，可以观察到，当bin的数量n被设置为从20到50时，检测性能彼此非常接近，从而对于长范围的偏移是鲁棒的箱编号。此外，当n较小时（即，n=10）。为了平衡性能与箱数，我们在实验中选择a= 3和n=20分层聚焦偏移预测中的阶段数。阶段数的有效性，p=1P=3P=5AP阶段APAP50AP60AP70AP80AP90K= 1四十七574岁069岁。0五十八841岁5十三岁6K= 2四十九0七十三。268岁4五十九044.319号。613195基线方法我们的方法基线方法我们的方法图6.基线方法和拟定偏移量箱分类方法在VOC 2007测试集上的可视化比较第一列和第三列显示基线方法的检测结果。第二列和第四列显示了我们方法的检测结果。方法骨干APAP50AP60AP70AP80AP90更快的R-CNN*[35]ResNet-50-FPN四十五074岁569岁。5五十七6三十六0六、6我们的+更快的R-CNN[35]ResNet-50-FPN四十九0七十三。268岁4 五十九044.319号。6更快的R-CNN*[35]ResNet-101-FPN四十七875.5七十6六十岁。341岁310个。5我们的+更快的R-CNN[35]ResNet-101-FPN50块874岁069岁。5六十岁。8四十七2二十二岁5Cascade R-CNN*[1]ResNet-50-FPN四十九5七十三。169岁。061岁0 四十五9十八岁1Our+Cascade R-CNN [1]ResNet-50-FPN50块4七十三。368岁9六十岁。4四十六岁。5二十二岁2Cascade R-CNN*[1]ResNet-101-FPN51岁0七十三。669岁。661岁9 四十八321岁1Our+Cascade R-CNN [1]ResNet-101-FPN51岁9七十三。969岁。862. 1四十八7二十五0表4.与VOC 2007测试集上的最新方法进行比较[4]。符号 * 表示我们基于MMDetection [2]的重新实现结果分级聚焦偏移预测示于表3中。根据图5中的分析，我们将每个阶段中的bin数量nk设置为相同（nk=20，k=1，2，3），并且在第一阶段中端点a1= 3 因此，偏移范围的终点在第二级中为a2，在第三级中为a3设置为0。15和0。015分别可以看出，检测结果AP提高了1. 当级数K=2时，与仅一级相比，在第二阶段中，仓的宽度已经在非常小的范围内。加入第三级后，检测性能接近第二级。可以看出，具有两个阶段的bin分类可以实现更好的检测性能。可视化比较。图6显示了基线方法[20]和建议的偏移距面元分类方法之间的可视化比较。它可以可以观察到，基线方法[20]分配了一些边界框，这些边界框并不紧密地围绕对象，13196图6的第一行图像，而我们的方法可以更准确地检测对象。图6的第二行图像显示，由于低质量的边界框，汽车对象和人对象在基线方法[20]中被错过检测。4.3. 与最新方法的Pascal VOC数据集的结果。我们将我们的方法与表中VOC 2007测试集[4]上的两个基线[1，20]进行了4. 为公平比较，我们采用相同的参数设定方法及相应的基线。通过对边界盒回归网络的替换，验证了该方法的有效性.由于Cascade R-CNN [1]是一个多级对象检测器，我们在图2中用我们的偏移bin类分支替换Cascade R-CNN中每个阶段的回归分支。为了减少参数的数量，这里的偏移bin分类分支不包括图3中的分层聚焦。我们设置13197方法骨干APAP50AP75APSAPMAPL[33]第三十三话暗网-1921岁644. 019号。2五、0二十二岁4三十五5SSD512 [23]ResNet-10131岁250块4三十三岁。310个。2三十四5四十九8[21]第二十一话ResNet-101-FPN39岁1五十九1四十二321岁8四十二750块2更快的R-CNN [20]ResNet-101-FPN三十六2五十九139岁0十八岁239岁0四十八2可变形R-FCN [3]inception-ResNet-v2三十七5五十八0四十819号。4四十152岁5Mask R-CNN [12]ResNet-101-FPN三十八岁。2六十岁。341岁720块141岁150块2[28]第二十八话ResNet-101-FPN四十361岁3四十三9二十二岁9四十三151岁0[14]第十四话ResNet-50-FPN39岁2五十七6四十二521岁241岁852岁5网格R-CNN [25]ResNet-101-FPN41岁5六十岁。944. 523岁344. 9五十三1[15]ResNet-101-FPN四十6五十九0----Cascade R-CNN [1]ResNet-101-FPN四十二862.1四十六岁。323岁7四十五555.2更快的R-CNN*[20]ResNet-50-FPN三十六6五十八839岁621岁639岁8四十五0我们的+更快的R-CNNResNet-50-FPN四十5五十九6四十三1二十二岁6四十三151岁0更快的R-CNN*[20]ResNet-101-FPN三十八岁。8六十岁。9四十二1二十二岁6四十二4四十八5我们的+更快的R-CNNResNet-101-FPN四十二561岁7四十五423岁9四十五6五十三8更快的R-CNN*[20]ResNeXt-10141岁963岁9四十五9二十五0四十五352岁3我们的+更快的R-CNNResNeXt-101四十三262. 7四十六岁。3二十四岁7四十六岁。4五十四8Cascade R-CNN*[1]ResNet-50-FPN四十7五十九344. 123岁1四十三651岁4我们的+Cascade R-CNNResNet-50-FPN四十二3六十岁。4四十五823岁944. 8五十三6Cascade R-CNN*[1]ResNet-101-FPN四十二461岁1四十六岁。123岁6四十五0五十四4我们的+Cascade R-CNNResNet-101-FPN44. 462.四十二十四十七五十六7131986八3四岁75Cascade R-CNN*[1]ResNeXt-101四十三762. 6四十七5二十五3四十六岁。755. 5我们的+Cascade R-CNNResNeXt-10144. 763岁1四十八5二十五3四十七8五十七1表5.与MS-COCO测试开发集上的最新方法进行比较[22]。符号 * 表示我们基于MMDetection [2]的重新实现结果级联R-CNN的级数为2。IoU阈值在第一和第二阶段分别设定为0. 5和0. 7。这些基线通过我们的方法得到了一致的改进，这证明了所提出的方法的优势和通用性。MS-COCO数据集上的结果。此外，我们还在表5中的大规模MS-COCO测试开发集[22]上将所提出的方法与一些最先进的对象检测方法进行了比较。可以观察到，所提出的方法明显优于这些最先进的方法。提出的偏移bin分类方法可以将ResNet-50-FPN，ResNet-101-FPN和ResNeXt-101-FPN的Faster R-CNN [20，35]的AP提高3。9%，3. 7%和1。3%，分别。结果AP可以实现相当大的准确度42. 3%，44. 4%，44。7%，当我们将Cascade R-CNN [1]引入我们的方法时。优越的性能证明了所提出的偏移距面元分类方法的有效性。5. 结论在本文中，我们提出了一种偏移箱分类网络，以实现更准确的目标检测。偏移量箱标签构造首先用于将连续偏移量离散化为几个箱。然后，偏移面元分类网络预测偏移面元的概率分布。此外，基于期望的偏移预测和分层聚焦偏移预测方法被引入，以将离散化的分类结果转化为更精确的偏移。我们的方法在PASCAL VOC和MS-COCO对象检测数据集上都取得了优异的性能。实验结果表明了该方法的有效性。谢谢。本研究得到了国家自然科学基金（ No.61525102、61831005、61971095和61871078）。引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[2] Kai Chen ， Jiaqi Wang ， Jiangmiao Pang ， YuhangCao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，WansenFeng ， Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， DazhiCheng，Chenchen Zhu，Tian-13199Heng Cheng ， Qijie Zhao ， Buyu Li ， Xin Lu ， RuiZhu，Yue Wu，Jifeng Dai，Jingdong Wang，JianpingShi ， Wanli Ouyang ， Chen Change Loy ， and DahuaLin.MM检测：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155，2019。[3] 戴纪峰，易力，何开明，孙建R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年[4] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[5] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归网络在IEEE计算机视觉和模式识别会议论文集，第2002-2011页[6] Zhihang Fu ，Yaowu Chen ，Hongwei Yong ，RongxinJiang，Lei Zhang，and Xian-Sheng Hua.用于监视对象检测的前景门控和背景细化网络。IEEE Transactionson Image Processing，28（12）：6077[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[8] 斯派罗·吉达里斯和尼科斯·科莫达基斯基于多区域和语义分割感知cnn模型的目标检测在IEEE计算机视觉国际会议论文集，第1134-1142页[9] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision，第1440[10] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[11] 季成公、赵昭、李。通过迭代建议改进多阶段目标检测。[12] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔·拉尔和罗斯·吉尔希克. 面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Yihui He ， Chenchen Zhu ， Jianren Wang ， MariosSavvides，and Xiangyu Zhang.具有不确定性的边界盒回归用于精确的对象检测。在IEEE计算机视觉和模式识别会议集，第2888-2897页[15] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取定位置信度，以实现准确的目标检测。在欧洲计算机视觉会议（ECCV）的会议记录中，第784[16] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV）中，第734[17] 李步宇，欧阳万里，卢胜，曾星宇，王晓刚.Gs 3d：一个有效的3D物体检测框架-自动驾驶。在IEEE计算机视觉和模式识别会议论文集，第1019-1028页[18] Wei Li，Hongliang Li，Qingbo Wu，Xiaoyu Chen，andKing Ngi Ngan.从无人机图像中同时检测和计数密集车辆。 IEEE Transactions on Industrial Electronics ， 66（12）：9651[19] Wei Li，Hongliang Li，Qingbo Wu，Fanman Meng，Linfeng Xu，and King Ngi Ngan.Headnet：用于头部检测的端到端自适应关系网络 IEEE Transactions onCircuits and Systems for Video Technology，2019。[20] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[21] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年。[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第 740-755 页。Springer，2014.[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ，Scott Reed ，Cheng-Yang Fu ，andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21施普林格，2016年。[24] Wei Liu，Shengcai Liao，and Weidong Hu.从动态存储器中感知运动，用于监控视频中的车辆检测IEEETransactionsonCircuitsandSystemsforVideoTechnology，2019。[25] Xin Lu ， Buyu Li ， Yuxin Yue ， Quanquan Li ， andJunjie Yan.网格r-cnn在IEEE计算机视觉和模式识别会议论文集，第7363-7372页[26] Mahyar Naji

下载后可阅读完整内容，剩余1页未读，立即下载