定位对象的IoU-Net学习及其对边界框回归和非最大抑制的改进

70 浏览量更新于2023-10-13 收藏 1.26MB PDF 举报

非最大抑制

目标定位

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

精确目标检测中定位置信度的获取BoruiJiang*1，3，RuixuanLuo*1，3，JiayuanMao*2，4，Tete Xiao1，3，and Yuning Jiang41北京大学电子工程与计算机科学学院2清华大学跨学科信息科学研究所ITCS3Megvii Inc.（Face++）4头条AI实验室{jbr，luoruixuan97，jasonhsiao97}@ pku.edu.cn，mjy14@mails.tsinghua.edu.cn网站，jiangyuning@bytedance.com抽象。现代基于CNN的对象检测器依赖于边界框回归和非最大抑制来定位对象。虽然类别标签的概率自然反映分类置信度，但不存在定位置信度。这使得适当局部化的边界框在迭代回归期间退化或甚至在NMS期间被抑制。在本文中，我们提出了IoU-Net学习来预测每个检测到的边界框和匹配的地面实况之间的IoU。网络获得这种定位的置信度，这通过保留准确定位的边界框来改进NMS过程。此外，提出了一种基于优化的边界框细化方法，其中预测的IoU被制定为目标。在MS-COCO数据集上进行的大量实验表明了IoU-Net的有效性，以及它与几种最先进的对象检测器的兼容性和适应性。关键词：目标定位，包围盒回归，非极大值抑制1介绍对象检测是一系列下游视觉应用的先决条件，例如实例分割[19，20]，人体骨架[27]，人脸识别[26]和高级基于对象的推理[30]。目标检测结合了目标分类和目标定位。大多数现代对象检测器基于两阶段框架[9，8，22，16，10]，其中对象检测被公式化为多任务学习问题：1）将前景对象提议与背景区分开，并为它们分配适当的类别标签; 2）通过最大化检测结果与地面实况之间的交并比（IoU）或其他度量来回归一组系数，所述一组系数定位对象。最后，通过非最大抑制（NMS）过程去除冗余边界框（同一对象上的重复检测*表示同等贡献。2B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江借据：0.91借据：0.83借据：0.76边界框提案借据：0.60基于回归的边界框优化（FPN）借据：0.85借据：0.92借据：0.74检测地面实况基于优化的Bounding Box Refine（Ours）(a) 分类置信度和定位准确度之间不一致的示范性案例黄色边界框表示地面实况，而红色和绿色边界框都是FPN产生的检测结果[16]。本地化置信度由所提出的IoU-Net计算。使用分类置信度作为排名度量将导致在传统NMS过程中不正确地消除准确定位的边界框（绿色）。定量分析见第2.1迭代(b) 迭代包围盒回归中非单调局部化的演示案例。定量分析见第2.2节。图1：对由缺乏定位置信度带来的两个缺点的可视化。实例选自MS-COCOminival [17]。分类和定位在这样的检测流水线中被不同地解决。具体地，给定建议，虽然每个类别标签的概率自然地充当建议的然而，这带来两个缺点。(1)首先，重复检测的抑制不知道定位准确度，而分类分数通常用作对提议进行排名的度量。在图1（a）中，我们示出了一组情况，其中具有较高分类置信度的检测到的边界框相反地与对应的地面实况具有较小的重叠。类似于Gresham（2）第二，缺乏本地化信心使广泛的精确目标检测中定位置信度的获取3采用边界框回归的解释性较差。作为一个例子，以前的作品[3]报告了迭代边界框回归的非单调性也就是说，如果多次应用边界框回归，则边界框回归可以退化输入边界框的定位（如图1（b）所在本文中，我们介绍了IoU-Net，它预测检测到的边界框及其相应的地面实况框之间的IoU，使网络意识到类似于分类模块的定位标准这个简单的系数为我们提供了解决上述问题的新方法：1. IoU是定位精度的自然标准我们可以用预测的IoU替换分类置信度作为NMS中的排名关键字这种技术，即IoU引导的NMS，有助于消除由误导性分类置信度引起的抑制2. 我们提出了一个基于优化的包围盒细化过程与传统的基于回归的方法。在推断期间，预测的IoU被用作优化目标，以及定位置信度的可解释指示符。所提出的精确RoI池化层使我们能够通过梯度上升来解决IoU优化。我们表明，与基于回归的方法相比，基于优化的包围盒细化经验提供了一个单调的改善定位精度。该方法与各种基于CNN的检测器完全兼容，并且可以集成到各种基于CNN的检测器中[16，3，10]。2深入研究对象定位首先，我们探讨对象本地化中的两个缺点：分类置信度和定位精度之间的不对准以及非单调边界框回归。在MS-COCOtrainval 35 k上训练标准FPN [16]检测器作为基线，并在minival上进行测试。2.1未对准分类和定位精度为了去除重复的边界框，NMS自[4]以来一直是大多数对象检测器中不可或缺的组件。NMS工作在迭代的方式。在每次迭代时，选择具有最大分类置信度的边界框，并且使用预定义的重叠阈值消除其相邻框。在Soft-NMS [2]算法中，用置信度的递减来代替框消除，从而导致更高的召回率。最近，一组基于学习的算法已经被提出作为无参数NMS和软NMS的替代方案。[24]计算所有边界框的重叠矩阵，并执行相似性传播聚类以选择聚类的样本作为最终检测结果。[11]提出了GossipNet，一个基于边界框和分类置信度的NMS[12]提出了一种学习检测到的边界框之间的关系的端到端网络。然而，这些基于参数的方法需要更多的计算资源，这限制了它们的实际应用。4B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江(a) IoU与分类置信度（b）IoU与本地化信心图2：具有匹配的地面实况的边界框的IoU与分类/定位置信度之间的相关性。考虑检测到的具有IoU（> 0. 5）与相应的地面实况相比，皮尔逊相关系数为：（a）0.217和（b）0.617。(a) 分类置信度表示边界框的类别，但不能解释为定位精度。(b) 为了解决这个问题，我们提出了IoU-Net来预测每个检测到的边界框的定位置信度，即其IoU与相应的地面事实。在广泛采用的NMS方法中，分类置信度用于对边界框进行排名，这可能是有问题的。我们在NMS之前可视化所有检测到的边界框的分类置信度的分布，如图2（a）所示。X轴是检测到的框与其匹配的地面实况之间的IoU，而y轴表示其分类置信度。Pearson相关系数表明定位精度与分类置信度没有很好的相关性。我们将此归因于大多数基于CNN的对象检测器在区分前景（正）样本与背景（负）样本时所使用的目标。如果具有一个真实边界框的IoU大于阈值Ω训练，则在训练期间，检测边界框将检测到检测到的点。此目标可能与本地化精度不一致。图1（a）示出了具有较高分类置信度的边界框具有较差定位的情况回想一下，在传统NMS中，当存在针对单个对象的重复检测时，将保留具有最大分类置信度的边界框。然而，由于未对准，具有较好定位的边界框可能在NMS期间被抑制，导致对象的较差定位。图3定量地示出了NMS之后的正边界框的数量。边界框按其IoU分组匹配的地面实况。对于与相同地面实况匹配的多个检测，仅具有最高分数的一个被认为是阳性的。因此，No-NMS可以被认为是阳性细胞数的上限。精确目标检测中定位置信度的获取5图3：NMS之后的正绑定框的数量，通过它们的IoU与匹配的地面实况分组。在传统NMS（蓝色条）中，由于分类置信度和定位准确性的不对准，大部分准确定位的边界框被错误地抑制，而IoU引导的NMS（黄色条）保留了更准确定位的边界框。(a) FPN（b）级联R-CNN图4：基于优化的对比基于回归的BBox细化。（a）FPN中的比较当迭代应用回归时，检测结果的AP（b）Cascade R-CNN中的比较。迭代0、1和2表示Cascade R-CNN中对于迭代i≥3，我们使用第三阶段的回归量来细化边界框多次迭代后，AP略有下降，而基于优化的方法将AP进一步提高了0.8%。边界框我们可以看到，缺乏定位置信度使得超过一半的检测到的边界框具有IoU> 0。在传统的NMS过程中，抑制了9，这降低了检测结果的定位质量。2.2非单调包围盒回归通常，单目标定位可以分为两类：基于包围盒的方法和基于分段的方法。基于分割的方法[19，20，13，10]旨在为每个实例生成像素级分割，但不可避免地需要额外的分割注释。本文主要研究基于包围盒的方法。6B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江单目标定位通常被公式化为边界框回归任务。核心思想是网络直接学习变换（即，规模或移位）到其指定目标的边界框。在[9，8]中，线性回归或全连接层被应用于细化由外部预处理模块（例如，选择性搜索[28]或EdgeBoxes[33]）。更快的R-CNN [23]提出了区域建议网络（RPN），其中仅使用预定义的锚点来训练端到端对象检测器。[14 32]利用无锚、全卷积网络来处理对象尺度变化。同时，在[29]中提出了排斥损失，以鲁棒地检测具有人群遮挡的对象。由于其有效性和简单性，边界框回归已成为大多数基于CNN的检测器中的重要组成部分一系列广泛的下游应用，如跟踪和识别，将受益于准确定位的边界框。这就提出了提高定位精度的要求。在一系列对象检测器[31，7，6，21]中，细化的框将再次被馈送到边界框回归器，并再次进行细化。该过程被执行多次，即迭代边界框回归。更快的R-CNN [23]首先执行两次边界框回归，将预定义的锚点转换为最终检测到的边界框。[15]提出了一种组递归学习方法，以迭代地细化检测结果，并考虑多个建议之间的全局依赖性，最小化对象建议与地面实况G-CNN在[18]中提出，它从图像上的多尺度规则网格开始，并迭代地将网格中的框推向地面实况。然而，如[3]中所报告的，应用边界框回归超过两次不会带来进一步的改进。[3]将此归因于多步边界框回归中的分布不匹配，并通过中多阶段包围盒回归我们通过实验展示了基于FPN和Cascade R-CNN框架的迭代边界框回归的性能。每次迭代后结果的平均精度（AP）分别如图4（a）和图4（b）中的蓝色曲线所示。图4中的AP曲线示出，随着迭代次数的增加，定位精度的改善对于迭代边界框回归是非单调的。非单调性和不可解释性给应用带来了困难此外，如果没有检测到的边界框的本地化置信度，我们就不能对细化进行细粒度控制，例如对不同的边界框使用自适应的迭代次数3IoU-Net为了定量分析IoU预测的有效性，我们首先在第3.1节中介绍了用于训练IoU预测器在第3.2节和第3.3节中，我们分别展示了如何使用IoU预测器进行NMS和边界框细化。最后，在第3.4节中，我们将IoU预测器集成到现有的对象检测器中，如FPN [16]。精确目标检测中定位置信度的获取7抖动ROI独立IoU-Net输入图像FPNPrRoI-合并FC1024FC足球俱乐部1024IOURPNROIsFC1024FC1024FC分类B-B-注册图图5：第3.4节中描述的所提出的IoU-Net的完整架构输入图像首先被馈送到FPN主干中。IoU预测器从FPN主干获取输出特征。我们用3.3节中描述的PrRoI池化层替换RoI池化层IoU预测器与R-CNN分支共享类似的虚线框内标记的模块形成独立的IoU-Net。3.1学习预测IoU如图5所示，IoU预测器从FPN获取视觉特征，并估计每个边界框的定位精度（IoU）。我们生成边界框和标签，用于通过增强地面实况来训练IoU-Net，而不是从RPN中获取建议。具体来说，对于训练集中的所有真实边界框，我们使用一组随机参数手动转换它们，从而产生候选边界框集。然后，我们从这个候选集合中删除IoU小于0的边界框。5、真实的真相我们从这个候选集合w.r.t.中均匀地采样训练数据。的IoU。这种数据生成过程凭经验为IoU-Net带来了更好的性能和鲁棒性对于每个边界框，使用所提出的精确RoI池化层从FPN的输出中提取特征（参见第3.3节）。然后将这些特征馈送到两层前馈网络中进行IoU预测。为了获得更好的性能，我们使用类感知的IoU预测器。IoU预测器与大多数现有的基于RoI的检测器兼容独立IoU预测器的准确性可以在图2中找到。由于训练过程独立于特定的检测器，所以它对输入分布的变化（例如，当与不同的检测器协作时）。在后面的章节中，我们将进一步演示如何在完整的检测流水线中联合优化这个模块（即，与RPN和R-CNN联合3.2IoU引导的NMS我们解决了分类置信度和定位精度之间的错位与一种新的IoU引导的NMS程序，其中分类符合，8B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江算法1IoU引导的NMS。分类置信度和本地化置信度证据在算法中被解开我们使用本地化置信度（预测的IoU）对所有检测到的边界框进行排名，并基于聚类规则更新分类输入：B ={bl，…bn}，S，I，ΩnmsB是检测到的边界框的集合S和I是分别将边界框映射到其分类置信度和IoU估计（定位置信度）的函数（神经网络）Ω nms是NMS阈值。输出：D，具有分类分数的检测到的边界框的集合。1：D←2：当B1= do时3：bm←argmaxI（bj）4：B ← B \{bm}5：s← S（bm）6：forbj∈Bdo7：如果IoU（bm， bj）>Ωnms，则8：s←max（s，S（bj））9：B←B\{bj}10：如果结束11：结束12：D ← D ∪ {∠bm，s∠}13：结束while14：返回D证据和定位置信度（IoU的估计）被解开。简而言之，我们使用预测的IoU而不是分类置信度作为边界框的排名关键字。与传统NMS类似，将选择具有最高IoU和地面实况的框，以消除具有大于给定阈值的重叠的所有其他框。为了确定分类得分，当框i消除框j时，我们通过si=max（si，sj）更新boxi的分类i。可将此过程解释为置信度聚类：对于一组匹配相同基础事实的边界框，我们对类别标签采取最可信的预测。该算法的伪代码可以在算法1中找到IoU引导的NMS解决了分类置信度和定位精度之间的不对准。定量结果表明，我们的方法优于传统NMS和其他变体，如Soft-NMS [2]。使用IoU引导的NMS作为后处理器进一步推动了几种最先进的对象检测器的性能。精确目标检测中定位置信度的获取9算法2基于优化的包围盒细化输入：B ={bl，… bn}、F、T、λ、Ω1、Ω2B是一组检测到的边界框，其形式为（x0，y0，x1，y1）。F是输入图像的特征图。T是步数λ是步长，Ω1是提前停止阈值，Ω 2 <0是局部退化容差。函数PrPool提取给定边界框的特征表示，函数IoU表示IoU-Net对IoU的估计输出：最终检测边界框的集合1：A←2：对于i= l至T，do3：forbj∈Bandbj∈/Ado4：grad←bjIoU（PrPool（F，bj））5：PrevScore←IoU（PrPool（F，bj））6：bj←bj+λ*scale（grad，bj）7：NewScore←IoU（PrPool（F，bj））8：如果|PrevScore−NewScore|<Ω1或NewScore−PrevScore<Ω2，则9：A←A{bj}10：如果结束11：结束12：结束13：返回B3.3作为优化过程的边界框精化边界框细化的问题在数学上可以表述为寻找最佳边界框。t. ：c*= arg mincrit（transform（boxCdet，c），boxgt），（1）其中，boxdet是已确定的边界框，boxg是（targeting）ground，transform是以c为参数的边界框变换函数，并对给定的边界框进行变换。CRIT是测量两个边界框之间的距离的准则在原始的Fast R-CNN [5]框架中，crit被选为对数尺度坐标的平滑L1距离，而在[32]中，crit被选为两个边界框之间的−基于回归的算法直接用a估计最优解c*前馈神经网络然而，迭代包围盒回归方法容易受到输入分布[3]的变化的影响，并且可能导致非单调定位改进，如图4所示为了解决这些问题，我们提出了一种基于优化的边界框细化方法，利用IoU-Net作为鲁棒定位精度（IoU）估计器。此外，IoU估计器可以用作早期停止条件以实现具有自适应步长的迭代精化。IoU U-NetdirectetlyesIoU U（boxdett，boxgt）。当所述适当的预处理RoI池化层使得能够计算IoU相对于R.r.t.边界10B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江1. RoI池化2. RoI对齐3. PrRoI合并图6：RoI池化、RoI对齐和PrRoI池化的图示。框坐标§，我们可以直接使用梯度上升法来找到方程1的最优解如算法2所示，将IoU的估计视为优化目标，我们使用计算的梯度迭代地细化边界框坐标，并最大化检测到的边界框与其匹配的地面实况之间的IoU此外，预测的IoU是每个边界框上的定位置信度的可解释指示符，并且有助于解释所执行的变换。在算法2第6行所示的实现中，我们手动放大梯度w.r.t.具有该轴上的边界框的大小的坐标是（ e. 例如，在一个实施例中，我们计算了 x1withwidth（bj））。这是一个非常重要的任务在对数标度坐标（x/w，y/h，logw， logh）中进行优化，如[5]中所示我们也采用一步边界框回归用于坐标的初始化。精确的RoI池。我们引入了精确的RoI池化（PrRoI Pooling，简称）来支持我们的边界框细化*。它避免了坐标的任何量化，并且在边界框坐标上具有连续的梯度给定在RoI/PrRoI池化之前的特征图F（例如，来自ResNet-50中的Conv 4i，j是在所述地图上的所述地图上的所述关键字（i，j）。USing双线性插值，离散特征图可以被认为在任何连续坐标（x，y）处是连续的Σf（x，y）=i、jIC（x，y，i，j）×wi，j，（2）其中IC（x，y，i，j）= max（0，1 -1）|x − i|）× max（0，1 − |y-j|是插值系数。RoI中的任意一个bin={（x1， y1 ），（x2， y2）}，其中（x1 ， y1 ）和（x2，y2）是该操作的任意一个子操作和子操作的子操作§我们优选精确RoI池化层而不是RoI对齐层[10]，因为精确RoI池化层相对于RoI对齐层是连续可区分的。坐标，而RoI-Align不是。* 代码发布于：https://github.com/vacancy/PreciseRoIPooling精确目标检测中定位置信度的获取11点，分别。我们执行池化（例如，平均池化），通过计算二阶积分：2016年12月2日PrPool（bin，F）=y1 x1f（x，y）dxdy.（三）（x2−x1）×（y2−y1）为了更好地理解，我们在图6中可视化RoI Pooling，RoI Align [10]和PrRoIPooing：在传统的RoI Pooling中，需要首先量化连续坐标以计算bin中的激活的总和;为了消除量化误差，在RoI Align中，N = 4个连续点在Bin中被采样，不被定义为（ai，bi），并且该采样点在采样点上被采样。与RoI Align相反，其中N是预定义的并且不是自适应的。bin的大小，所提出的PrRoI池化基于连续特征映射直接计算二阶积分此外，基于等式3中的公式，PrPool（Bin，F）相对于R.r. t是不同的。bin的坐标例如，PrPool（B，F）的偏导数w.r.t. x1可以计算为：PrPool（bin，F）=x1PrPool（bin，F）x2−x1∫y2y1f（x1，y）dy−（x2−x1）×（y2−y1）.（四）PrPool（bin，F）对.可以以相同的方式计算其它坐标由于我们避免了任何量化，PrPool是连续可微的。3.4联合训练IoU预测器可以集成到标准FPN流水线中，用于端到端训练和推理。为了清楚起见，我们将主干表示为用于图像特征提取的CNN架构，将头部表示为应用于各个ROI的模块如图5所示，IoU-Net使用ResNet-FPN [16]作为主干，它具有自上而下的架构来构建功能金字塔。FPN从不同层次的特征金字塔，根据其规模的ROI提取的功能原始的RoI Pooling图层将替换为“精确RoI Pooling”图层。至于网络头部，IoU预测器基于来自主干的相同视觉特征与R-CNN分支（包括分类和边界框回归）我们在ImageNet上初始化预训练的ResNet模型的权重[25]。所有新图层都使用具有标准差的零均值高斯进行初始化0.01或0.001。我们使用平滑L1损失来训练IoU预测器。IoU预测器的训练数据如第3.1节所述在训练批次中的图像内单独生成。IoU标签是标准化的s.t.这些值分布在[-1，1]上。将输入图像的大小调整为沿短轴具有800px和最大1200px长轴。分类和回归分支取51212B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江来自RPN的每个图像的RoI我们使用批量大小16进行训练。该网络针对160k次迭代进行了优化，学习率为0.01，在120k次迭代后降低了10倍。我们还通过将第一个10k迭代的学习率设置为0.004来预热训练。我们使用1 e-4的重量衰减和0.9的动量在推理过程中，我们首先对初始坐标应用边界框回归为了加快推理速度，我们首先在所有检测到的边界框上应用IoU引导的NMS使用基于优化的算法进一步细化我们设置λ = 0。5作为步长，Ω1= 0。001作为提前停止阈值，Ω2=−0。01作为定位退化容限，T=5作为迭代次数4实验我们在80类MS-COCO检测数据集上进行实验[17]。在[1，16]之后，模型在80k个训练图像和35k个验证图像的联合上进行训练（trainval35k），并在一组5k个验证图像上进行评估（minival）。为了验证所提出的方法，在第4.1节和第4.2节中，使用对象检测器单独训练独立的IoU-Net（没有R-CNN模块）。由IoU-Net提供支持的IoU引导的NMS和基于优化的边界框细化应用于检测结果。4.1IoU引导的NMS表1总结了不同NMS方法的性能虽然Soft-NMS保留了更多的边界框（没有真正的因此，IoU引导的NMS在高IoU指标上的表现明显优于基线（例如，AP90）。我们深入研究了不同的NMS算法的行为，通过分析在不同的IoU阈值下的召回。原始检测到的边界框由ResNet 50-FPN生成，而不需要任何NMS。随着本地化精度要求的提高，IoU引导的NMS与其他方法之间的性能差距越来越大。具体而言，在计算输出Ω时，t=0。9在传统NMS之后下降到18.7%，而IoU-NMS达到28.9%，No-NMS4.2基于优化的包围盒细化所提出的基于优化的边界框细化与大多数基于CNN的对象检测器[16，3，10]兼容，如表2所示在具有独立IoU-Net的原始管道之后应用边界框细化，通过更准确地定位对象来进一步提高性能。该改进进一步将AP 90提高了2。8%，整体AP为0。8%，甚至对于具有三阶段边界框回归器的Cascade R-CNN也是如此精确目标检测中定位置信度的获取13方法+软网管+IoU-NMSAPAP50 AP60 AP70 AP80 AP9036.458.0 53.1 44.931.29.8FPNC36.857.5 53.1 45.7 32.310.3C37.356.0 52.245.6 33.9 13.340.659.3 55.249.138.716.7级联R-CNNC40.958.2 54.7 49.4 39.9 17.8C40.758.0 54.7 49.2 38.8 18.937.558.6 53.9 46.333.210.9Mask-RCNNC37.958.2 53.9 47.1 34.411.5C38.156.452.746.7 35.1 14.6表1：IoU引导的NMS与其他NMS方法的比较通过保留具有准确定位的边界框，IoU引导的NMS在具有高匹配IoU阈值（例如，AP90）。图7：用于将检测到的边界框与地面实况匹配的不同IoU阈值处的不同NMS方法的召回曲线。提供No-NMS（未抑制方框）作为召回上限所提出的IoU-NMS具有更高的召回率，并且有效地缩小了在高IoU阈值（例如，0.9）。方法+精细化APAP50AP60AP70AP80AP90FPN36.458.053.144.931.29.8C38.057.753.146.134.314.6级联R-CNN40.659.355.249.138.716.7C41.459.355.349.639.419.5Mask-RCNN37.558.653.946.333.210.9C39.257.953.647.436.516.4表2：基于优化的边界框细化进一步提高了几种基于CNN的对象检测器的性能。4.3联合训练IoU-Net可以与对象检测框架并行进行端到端优化。我们发现，向网络中添加IoU预测器有助于网络学习更多的区分特征，这将ResNet 50-FPN和ResNet 101-FPN的整体AP分别提高了0.6%和0.4%。IoU引导的NMS和边界框细化进一步推动了性能。我们达到40。与基线38相比，ResNet 101-FPN的AP为6%。5%（提高了14B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江骨干方法+IoU-NMS+优化APAP50 AP60 AP70 AP80 AP90FPN36.458.053.144.931.29.8ResNet-50IoU-NetC37.037.658.356.253.852.445.746.031.934.110.714.0CC38.156.352.4 46.3 35.1 15.5FPN38.560.3 55.547.633.811.3ResNet-101 IoU-NetC38.940.060.259.055.555.147.848.634.637.012.015.5CC40.659.055.249.0 38.0 17.1表3：MS-COCO的最终实验结果。IoU-Net表示嵌入有IoU预测器的ResNet-FPN。我们在AP中将FPN基线改善了约2%。方法FPNMask-RCNN级联R-CNNIoU-Net速度（秒/图像）0.2550.2670.3840.305表4：单个TITAN X GPU上多个对象检测器的推理速度。这些型号共享相同的骨干网络ResNet 50-FPN。输入分辨率为1200x800。所有超参数都设置为相同。二、1%）。表3中展示了推理速度，表明IoU-Net以可容忍的计算开销提高了检测性能。我们主要将表3中关于AP50的较差结果归因于IoU估计误差。当边界框具有较低的IoU与地面实况时，它们在外观上具有较大的变化。如图2（b）所示，对于具有较低IoU的盒子，IoU估计变得不太准确这降低了下游细化和抑制的性能我们根据经验发现，这个问题可以通过一些技术来部分解决，例如在训练过程中对具有较低IoU的更多边界框进行5结论在本文中，一种新的网络架构，即IoU-Net，提出了准确的对象定位。通过学习预测具有匹配的地面实况的IoU， IoU-Net获得这使得IoU引导的NMS过程能够防止精确定位的绑定框被抑制。所提出的IoU-Net是直观的，可以很容易地集成到一组广泛的检测模型，以提高其定位精度。在MS-COCO上的实验结果表明了该算法的有效性和实际应用的潜力。本文指出了现代检测流水线中分类和定位置信度的错位我们还制定了一个新的优化视图的问题上的包围盒细化，和建议的解决方案超越了基于回归的方法。我们希望这些新颖的观点为未来的目标检测工作提供见解。精确目标检测中定位置信度的获取15引用1. Bell，S.，Lawrence Zitnick，C. Bala，K.，Girshick，R.：内外网：用跳跃池和递归神经网络检测上下文中的对象。IEEE计算机视觉和模式识别会议论文集。pp.28742. Bodla，N.辛格湾切拉帕河Davis，L.S.：用一行代码改进对象检测。arXiv预印本arXiv：1704.04503（2017）3. 蔡志，Vasconcelos，N.：级联r-cnn：深入研究高质量的物体检测。arXiv预印本arXiv：1712.00726（2017）4. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议。卷第1页。886-893 IEEE（2005年）5. Doll'ar，P.， Ap pel，R.，在此之前，S.， Perona，P. ：Fatetur epyr am i ds用于bjct 检测。 IEEE Transactions on Pattern Analysis and Machine Intelligence36（8），15326. Gidaris，S.，Komodakis，N.：基于多区域和语义分割感知cnn模型的目标检测。在：IEEE国际计算机视觉会议论文集。pp. 11347. Gidaris，S.，Komodakis，N.：参加细化重复：通过输入输出本地化生成活动框建议。arXiv预印本arXiv：1606.04446（2016）8. Girshick，R.：快速R-CNN。IEEE计算机视觉国际会议（ICCV）（2015年12月）9. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次结构，用于精确的对象检测和语义分割。IEEE计算机视觉与模式识别会议（CVPR）（2014年6月）10. 他， K. ， G. ， G. ， Dol la'r ， P. ， Girshick ， R. ： Maskr-cnn 。在： TheI EEEEIITEINATI NAL计算机视觉会议（ICCV）（2017）11.Hosang，J.，Benenson河Schiele，B.：学习非最大抑制。ArXiv预印本（2017）12. Hu，H.，顾，J.，张志，Dai，J.，魏云：用于对象检测的关系网络arXiv预印本arXiv：1711.11575（2017）13. Hu，H.，Lan，S.，江，Y.，Cao，Z.，Sha，F.：快速蒙版：在一个镜头中分割多尺度对象候选者。IEEE计算机视觉和模式识别会议论文集pp. 99114. 黄湖，加-地杨，Y.，邓，Y.，Yu，Y.：Densebox：将地标定位与端到端对象检测统一起来。arXiv预印本arXiv：1509.04874（2015）15. 李杰，梁湘，李杰，魏，Y.，徐，T.，冯杰，Yan，S.：基于分组递归学习的多阶段目标检测IEEE Transactions on Multimedia（2017）16. Lin ， T. 是的， Doll'ar ， P. ， Gir shick ， R. ，他，K. ， Hariharan ， B. ，Belongie，S. ：用于对象检测的Fetur金字塔网络。IEEE计算机视觉与模式识别会议（CVPR）（2017）17. 林，T. 是的，我是M 在此之前，S.，嗨，J.， Perona，P.， Ramanan，D. ，Doll'ar，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。在：欧洲计算机视觉会议。pp. 740-755 Spuringer（2014）18. Najibi，M.，Rastegari，M.，Davis，L.S.：基于迭代网格的目标检测器。IEEE计算机视觉和模式识别会议论文集。pp. 236919. Pinheiro，P.O.，冷静点R多尔拉尔山口：Learninggtoosegmentobjeccandidates。神经信息处理系统的进展pp. 199016B. 江河，巴西-地罗，J.毛氏T.Xiao和Y.江20. Pinheiro ， P. O. ，Lin ， T. 是的，冷静点 R做得好， P 。：Learninggtoreneobjct段。欧洲计算机视觉会议pp. 75比91 Springer（2016）21. Rajaram，R. N.，Ohn-Bar，E.，Trivedi，M.M.：Refinenet：迭代细化以实现精确的对象定位。在：智能交通系统（ITSC），2016年IEEE第19届国际会议pp.1528-1533年。IEEE（2016）22. Ren，S.，他，K.，格尔希克河孙杰：更快的r-cnn：利用区域建议网络实现实时目标检测。在：神经信息处理系统的进展。pp. 9123. Ren，S.，他，K.，格尔希克河孙杰：更快的r-cnn：朝向实时利用区域提议网络进行对象检测。在：Cortes，C.，劳伦斯，北达科他州，李，D.D. 杉山M.，加内特R.（编辑）进展在Neu- ral Information ProcessingSystems28，pp.91-99.柯兰联营公司（2015），http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf24. 罗斯河Guillaumin，M. Van Gool，L.：通过在窗口之间传递消息进行对象检测的非最大抑制亚洲计算机视觉会议pp. 290-306. Spuringer（2014）25. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV）115（3），211-252（2015）。https://doi.org/10.1007/s11263-015-0816-y26. Taigman，Y.，杨，M.，Ranzato，M.，沃尔夫湖：Deepface：缩小与人类在人脸验证方面的水平表现。在：IEEE计算机视觉和模式识别会议论文集。pp.170127. Toshev，A.Szegedy，C.：Deeppose：通过深度神经网络进行人体姿势估计在：IEEE计算机视觉和模式识别会议论文集pp.第165328. Uijlings，J.R.，Van De Sande，K.E.，Gevers，T. Smeulders，A.W.：对象识别的选择性搜索。International Journal of Computer Vision104（2），154-171（2013）29. 王，X.，Xiao，T.，江，Y.，Shao，S.，孙，J.，沈C：斥力损失：在人群中检测行人。arXiv预印本arXiv：1711.07752（2017）30. 吴，J.，Lu，E.，Kohli，P.，弗里曼，W. T.，Tenenbaum，J.B.：学习通过视觉去动画来观察物理。在：神经信息处理系统的进展（2017）31. Yang，B.，Yan，J.，Lei，Z.，李S.Z.：从图像制作对象。arXiv预印本arXiv：1604.03239（2016）32. 余，J.，江，Y.，王志，Cao，Z.，黄T：Unitbox：一个先进的物体检测网络。2016年ACM多媒体会议论文集。pp. 516-520. ACM（2016）33. Zitnick，C. L.，做得好，P。：E d geboxes：从e d ges中提取的本地副本。欧洲计算机视觉会议（European Conference on Computerpp. 391-405 Spuringer（2014）

下载后可阅读完整内容，剩余1页未读，立即下载