深度区域小块的目标检测方法

82 浏览量更新于2023-10-13 收藏 764KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于目标检测的深度区域小块Hongyu Xu1，Xutao Lv2，Xiaoyu Wang2，Zhou Ren3，Navaneeth Bodla1 and Rama Chellappa11马里兰大学，马里兰州，美国3Snap Inc.1{hyxu，nbodla，rama}@umiacs.umd.edu2 {lvxutao，fanghuaxue}@gmail.com3www.example.com@zhou.rensnap.com抽象。在本文中，我们提出了一种名为“Deep Regionlets”的新型对象检测框架，通过在深度神经网络和传统检测模式之间建立桥梁，以实现准确的通用对象检测。受regionlet建模对象变形和多个纵横比的能力的启发，我们将regionlet纳入一个端到端可训练的深度学习框架。深度regionlet框架由区域选择网络和深度regionlet学习模块组成。具体来说，给定检测边界框建议，区域选择网络提供关于在哪里选择区域以从中学习特征的指导。regionlet学习模块专注于局部特征选择和变换，以减轻局部变化。为此，我们首先在检测框架内实现非矩形区域选择，以适应对象外观的变化此外，我们设计了一个“Deep Regionlets框架是端到端训练的，无需额外的工作。我们在 PASCAL VOC 和Microsoft COCO数据集上进行消融研究并进行广泛的实验。所提出的框架优于最先进的算法，如RetinaNet和Mask R-CNN，即使没有额外的分割标签。关键词：目标检测，深度学习，深度区域，空间变换1介绍几十年来，计算机视觉社区已经广泛研究了通用对象检测[22，4，44，16，17，37，8，26，45，42，10，13，6，41，48]，因为它对学术研究探索和商业应用都有吸引力。给定感兴趣的图像，目标检测的目标是预测对象的位置，并同时对它们进行对象检测任务的关键挑战是在为特定对象类别生成边界框时处理对象比例、姿态、视点甚至部分变形的变化。在Snap Research实习期间开始工作2H. Xu，X.Lv、X。Wang，Z.Ren，N.Bodla和R.Chellappa检测窗口建议（RoI）选定区域（非矩形）小区域区域选择网络同一r0i全卷积网络...Regionlet学习模块分类本地化图1.一、Deep Regionlets检测框架的架构。它由一个区域选择网络（RSN）和一个深度区域学习模块组成区域选择网络从由区域提议网络生成的检测窗口提议执行非矩形区域选择。深度regionlet学习模块通过空间变换和门控网络来学习regionlet。整个管道是端到端可训练的。为了更好地可视化，此处不显示区域建议网络。已经提出了许多基于手工特征的方法（即HOG [10]，LBP [1]，SIFT[30]）。这些方法通常涉及通过使用滑动窗口方法对对象的可能位置、尺度和纵横比的然而，Wang et al. s[45]基于regionlet的检测框架已经获得了很多关注，因为它提供了处理不同尺度和纵横比的灵活性，而无需执行穷举搜索。它首先通过定义三级结构关系引入了regionlet的概念：候选边界框（滑动窗口）、边界框内的区域和区域小块组（每个区域内的子区域）。它通过直接从任意检测边界框内的几个选定区域中的regionlet中提取特征来这样的特征提取层次能够处理可变的纵横比和灵活的特征集，这导致改进的学习的对象的鲁棒特征表示的基于区域的对象检测。最近，深度学习在许多计算机视觉任务上取得了重大成功，例如图像分类[24 ， 20 ， 34]，语义分割 [29]和使用深度卷积神经网络（DCNN）架构的对象检测[16]。尽管基于深度学习的检测框架具有出色的性能，但大多数网络架构[37，8，28]都没有利用成功的传统思想，例如基于可变形部分的模型（deformable part-based model，简称eMRM）或regionlet。这些方法对于物体变形、子类别和多纵横比的建模是有效的。最近的进展[33，9，32]池化和选择用于目标检测的3通过将传统的基于DPM的检测方法与深度神经网络架构相结合，取得了令人鼓舞的结果这些观察促使我们在深度卷积神经网络和传统的目标检测模式之间建立一座桥梁。在本文中，我们将传统的Regionlet方法纳入端到端的可训练深度学习框架。尽管能够处理任意的边界框，但是当直接将regionlet方法集成到深度学习框架中时会出现几个缺点。首先，在[45]中，Wanget al.提出了学习级联对象分类器手工制作的特征提取后，在每个regionlet。然而，端到端的学习在这个框架中是不可行的其次，基于区域的检测中的区域必须是矩形的，这不能有效地对导致可变形状的对象的变形进行此外，在训练完成后，区域和区域小块都是固定的。为此，我们提出了一种名为“Deep Regionlets”的新型对象检测框架，将深度学习框架集成到传统的regionlet方法中[45]。所提出的检测系统的总体设计如图1所示它由一个区域选择网络（RSN）和一个深度区域学习模块组成。区域选择网络从检测窗口建议1（RoI）执行非矩形区域选择，以解决传统regionlet方法的局限性。我们进一步设计了一个深度区域学习模块，通过空间变换和门控网络来学习区域。通过使用所提出的门控网络，这是一个软regionlet选择器，所得到的特征表示是更有效的检测。整个流水线仅使用输入图像和地面实况边界框是端到端可训练的。我们对我们的方法进行了详细的分析，以了解其优点并评估其性能。在两个检测基准数据集PASCAL VOC [11]和Microsoft COCO [27]上的广泛实验表明，所提出的深度regionlet方法优于几个竞争对手[37，8，9，32]。即使没有分割标签，我们也优于最先进的算法，如MaskR-CNN [18]和RetinaNet [26]。总而言之，我们做出了以下贡献：– 我们提出了一种新的深度regionlet方法的对象检测。我们的工作扩展了传统的regionlet方法的深度学习框架。该系统可以以端到端的方式进行训练。– 我们设计的RSN，它首先执行非矩形区域内的检测边界框从一个检测窗口pro-aposition产生的选择它为具有可变形状和可变形零件的对象建模提供了更大的灵活性。– 我们提出了一个深度regionlet学习模块，包括特征变换和门控网络。门控网络用作软区域选择器，并让网络专注于有利于检测性能的特征。1检测窗口建议由区域建议网络（RPN）生成[37，8，17]。也称为感兴趣区域（ROI）4H. Xu，X.Lv、X。Wang，Z.Ren，N.Bodla和R.Chellappa– 我们提出了对象检测基准数据集上的实证结果，证明了优于最先进的性能。2相关工作已经提出了许多用于对象检测的方法，包括传统方法[13，45，42]和基于深度学习的方法[17，37，28，35，8，16，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，19，199、32、6、21、51、52、50、48、43、41]。传统的方法主要使用手工制作的功能来训练使用滑动窗口范例的对象检测器最早的作品之一[42]使用增强级联检测器进行人脸检测，这导致了其广泛采用。基于可变形零件模型的检测（DPM）[12]提出了可变形零件模型的概念来处理对象变形。由于深度学习技术的快速发展[24，20，40，5，49，34，47，2，46]，基于深度学习的检测器已成为主要的对象检测器。基于深度学习的检测器可以进一步分类为单阶段检测器和两阶段检测器，基于检测器是否具有提议驱动机制。单级检测器[38，35，28，14，25，26，48，50]在对象位置、尺度和纵横比上应用规则的密集采样窗口。通过直接利用深度CNN网络中的多个层，单级检测器实现了高速，但其准确性通常较低与两级检测器相比。两级检测器[17，37，8]涉及两个步骤。他们首先通过区域建议网络（RPN）生成一在通过RPN过滤掉大部分负背景框之后，第二阶段对检测边界框的建议进行分类，并执行边界框回归以预测对象类别及其对应位置。两级检测器始终实现比单级检测器更高的精度，并且已经提出了许多扩展[9，32，18，6，41，21，7]。我们的方法遵循两阶段的检测器架构，利用RPN，而不需要密集的采样对象的位置，尺度和纵横比。3我们的方法在本节中，我们首先回顾了传统的基于区域的检测方法，然后介绍了端到端可训练深度区域方法的总体设计。最后，我们详细讨论了所提出的端到端的深度regionlet方法中的每个模块。3.1传统的基于区域的方法regionlet是以任意分辨率（即，窗口）与窗口（即，滑动窗口或检测边界框）成比例地定义的基本特征提取区域。尺寸和纵横比）。Wang等人[ 45]第一次提出了用于目标检测的512regionlet，如图2所示。它定义了一个三级结构之间的检测边界框，边界框内的区域数和一组regionlet（每个区域内的子区域）。在图2中，黄色框是检测边界框。R是边界框内的矩形特征提取区域。此外，小的子区域ri{i=1…N}（例如，r1，r2）在区域R内被选择，其中我们将它们定义为一组regionlet。通过使用区域小块和区域的相对位置和大小，很好地解决了任意检测边界框的困难然而，在传统的方法中，regionlet的初始化具有随机性，并且region（R）和regionlet（即，regionlet）两者都具有随机性。 r1，r2）在训练之后是固定的。此外，它是基于手工制作的功能（即， HOG [10]或LBP [1]），因此不是端到端可训练的。为此，我们提出了以下基于深度regionlet的方法来解决这些限制。图二、检测边界框、特征提取区域和小区域之间的结构关系的图示。黄色框是检测边界框，R是一个特征提取区域，显示为一个紫色矩形，在边界框内有填充的点。在R内部，表示为r1和r2的两个小子区域是regionlet。3.2系统架构一般而言，对象检测网络使用深度卷积神经网络对感兴趣的图像执行一系列卷积操作。在某一层，网络分叉成两个分支。一个分支RPN生成一组候选边界框2，而另一个分支通过将卷积特征汇集在由区域提议网络生成的提议边界框内来执行分类和回归[37，8]。利用该检测网络，我们介绍了所提出的对象检测框架的总体设计，称为“DeepRegionlets”，如图1所示。通用架构由RSN和深度区域小学习模块组成。特别地，RSN用于预测变换参数以选择给定候选边界框的区域，该候选边界框由变换参数生成2[37，8，17]也称为检测边界框作为检测窗口建议6H. Xu，X.Lv、X。Wang，Z.Ren，N.Bodla和R.Chellappa0-三个12332初始化®0=（b）第（1）款（一）图三. （a）一个仿射变换参数的初始化的示例。归一化仿射变换参数Θ0=[1，0，-2; 0，1，2]（θi∈[-1，1]）选择顶部-3 3 3 33× 3等分检测边界框中的左侧区域，显示为紫色矩形（b）门控网络的设计f表示非负门函数区域提案网。在由区域选择网络定义的每个所选区域内进一步学习小区域该系统被设计为仅使用输入图像和地面实况边界框以完全端到端的方式进行训练。RSN以及regionlet学习模块可以在给定检测窗口建议的每个所选区域上同时学习。3.3区域选择网络我们设计的RSN具有以下特性：1）端到端的可训练性; 3）生成具有任意形状的区域。考虑到这些，我们设计的RSN预测一组仿射变换参数。通过使用这些仿射变换参数，以及不要求区域是矩形的，我们在建模具有任意形状和可变形部分的对象时具有更大的灵活性。具体来说，我们使用具有三个完全连接层的小型神经网络来设计RSN。前两个完全连接的层具有输出大小第256章有了ReLU最后一个全连接层的输出大小为六，其用于预测仿射变换参数集合Θ=[θ1，θ2，θ3;θ4，θ5，θ6]。注意，由RSN提出的候选检测边界框具有任意大小和纵横比。为了解决这个困难，我们使用检测边界框内的所选区域的相对位置和大小。RPN生成的候选边界框由左上角的点定义（w0，h0）、宽度w和高度h。我们通过盒子的宽度w和高度h来规范化坐标。因此，我们可以使用归一化仿射变换参数Θ=[θ1，θ2，θ3;θ4，θ5，θ6]（θi∈[-1，1]）来评估一个候选检测窗口内不同大小和纵横比的一个选定区域，而无需将图像缩放为多个分辨率或使用多个分量来枚举可能的纵横比，如锚[37，28，14]。1区域选择网络-11-1130ƒ用于目标检测的7nm区域选择网络的初始化：利用相对坐标和归一化坐标，我们通过将整个检测包围盒平均划分为几个子区域来初始化RSN，称为单元s，它们之间没有任何重叠。图3（a）示出了从一个仿射变换（即3× 3）初始化的示例。第一个单元格是整个区域（检测边界框）中的左上角的仓，可以通过初始化对应的仿射变换参数Θ〇=[1，0，-2; 0，1，2]。另33× 3单元中的8个以类似的方式初始化3.4深度区域子学习3 3 3在RSN选择区域之后，从由归一化仿射变换参数定义的所选择的区域请注意，我们的动机是设计一个完全端到端的方式训练网络，只使用输入图像和真实边界框。因此，所选择的区域和区域小块学习都应该能够被训练CNN网络。此外，我们希望从所选区域中提取的区域更好地表示具有可变形状和可变形部分的对象。受空间变换网络[23]的启发，任何可参数化的变换，包括平移、缩放、旋转、仿射甚至投影变换，都可以通过空间Transformer学习。在本节中，我们将介绍我们的深度regionlet学习模块来学习所选区域中的regionlet，该区域由仿射变换参数定义。更具体地，我们的目标是从由一个仿射变换Θ定义的一个所选区域学习区域小波，以更好地匹配对象的形状。这使用来自RSN的所选区域R、变换参数Θ=[θ1，θ2，θ3; θ4，θ5，θ6]和一组特征图Z ={Z1，i =1，. . . ，n}。在不失一般性的情况下，令Zi是η个特征图中的一个特征图。选定区域R的大小为w×h，左上角为（w0，h0）。在Zi特征图内部，我们提出以下区域小波学习模块。假设s表示源，t表示目标，我们将（xs，ys）定义为空间pp在原始特征图Zi中的空间位置，并且（xs，ys）作为原始特征图Z i中的空间位置。pp输出空间变换后的特征图Uc是位置（n，m）。总输出特征图V为尺寸H×W。令V（x，t，y，t，c|Θ，R）是位置（xt，yt）处的输出特征值pp pp（xt∈[0，H]，yt∈[0，W]），其被计算为p pΣHΣMV（xs，ys，c|Θ，R）=U。max（0，1 − |xs− m|）max（0，1 − |ys− n|）（1）pp nm p pnM通过空间变换的反向传播为了允许通过regionlet学习模块反向传播损失，我们可以定义关于特征图和区域选择网络的梯度。在这一层的后向函数中8H. Xu，X.Lv、X。Wang，Z.Ren，N.Bodla和R.ChellappaMNpppnmp关于特征图变量Uc并且仿射变换参数Θ=[θ1，θ2，θ3;θ4，θ5，θ6]。受[23]的启发，损失函数相对于特征图的偏导数为：V（xs，ys，c|Θ，R）ΣHΣMpP=max（0，1 − |xs− m|）× max（0，1 − |ys− n|）（2）cp pnmnM此外，在反向传播期间，我们需要计算关于每个仿射变换参数Θ=[θ1，θ2，θ3;θ4，θ5，θ6]的梯度以这种方式，区域选择网络也可以被更新以调整所选择的区域。由于空间限制，我们以θ1为例，并且可以针对其他参数θi（i = 2，. . . ，6）分别。HM0如果|m − xs|≥ 1V（xs，ys，c|Θ，R） ΣΣppp∂θ1=xtnMcmax（0，1 −|ys−n|）×如果m >xs，则为1−1 ifm xs（三）值得注意的是，（xt，yt）是范围[-1，1]内的归一化坐标，因此pp它可以相对于w和h以起始位置（w0，h0）进行缩放。选通网络选通网络作为一个软区域选择器，用于分配具有不同权重的区域，并生成区域特征表示。我们设计了一个简单的门控网络，使用具有sigmoid激活的全门控网络的输出值在[0， 1]的范围内给定输出要素图V（xs，ys，c|，R），我们使用全连接层来生成pp与特征图V（xs，ys，c）相同数量的输出|，R），其后是pp激活层sigmoid，用于分别生成相应的权重最终的特征表示由特征图V（xs，ys，c|，R）及其对应权重。ppRegionlet池构造对象变形可能以不同的比例发生。例如，变形可能由人检测中的不同身体部位引起从较小的选定区域学习的相同数量的区域小波（大小H×W）具有更高的提取密度，这可能导致非紧凑的区域小波表示。为了学习紧凑、有效的区域小波表示，我们进一步执行池化（即，max/ave）操作V（xs，ys，c|Θ，R）的尺寸（H×W）。我们从游泳池建设中获得两个好处：pp(1) Regionlet表示是紧凑的（小尺寸）。（2）从不同大小的选定区域中学习的区域子能够以相同的有效方式表示这些区域，从而处理不同尺度下的对象变形。3.5与近期作品的关系我们的深regionlet的方法是相关的一些最近的工作在不同的方面。我们将在补充材料部分详细讨论相似性和差异性UU用于目标检测的94实验在本节中，我们将在两个具有挑战性的基准数据集上展示所提出的方法的综合实验结果：PASCAL VOC [11]和MS-COCO [27]。PASCALVOC [11]数据集中共有20个对象类别。我们遵循[37，4，8，17]中使用的常见设置，以实现公平的比较。更具体地说，我们在（1）VOC 2007trainval和（2）V0C 2007 trainval上训练我们的深度模型。(2) 结合VOC2007和2012两种测试方法，对VOC2007测试进行了评价。我们还报告了VOC 2012测试的结果，遵循[37，4，8，17]中的建议此外，我们还报告了VOC2007消融研究测试分割的结果MS-COCO [27]包含 80个对象类别。根据 COCO 网站的官方设置，我们使用 COCO2017trainval split（来自trainsplit的135k图像和来自valsplit的5k图像的联合）进行训练。我们在test-dev2017 split上报告了COCO风格的平均精度（AP），这需要从MS-COCO服务器进行评估。对于基础网络，我们选择VGG-16 [40]和ResNet-101 [20]来演示我们的方法的泛化，无论我们使用哪个网络骨干。á trous算法[29，31]在ResNet的第5阶段中被采用101.按照[8，9]中建议的设置，我们还通过将conv5阶段的有效步幅从32更改为16来将池化大小设置为7，以提高特征图分辨率。另外，将conv5阶段中具有步幅2的第一卷积层修改为1。这两个骨干网络都是使用预先训练的ImageNet [20，24]模型初始化的。在下面的部分中，我们报告了一系列烧蚀实验的结果，以了解所提出的深regionlet方法的行为。此外，我们在PASCAL VOC [11]和MS COCO [27]数据集上与最先进的检测器[37，8，9，18，26，25]进行了比较。4.1消融研究为了公平比较，我们采用ResNet-101作为消融研究的骨干网络。我们在VOC 2007 + 2012trainval 的联合集上训练我们的模型，并在VOC2007测试集上进行评估。图像的短边被设置为600像素，如[17，37，8]所示训练在4个GPU上进行60 k次迭代，有效的小批量大小为4，其中前40 k次迭代的学习率设置为10- 3，其余20 k次迭代的学习率设置为10- 4首先，我们研究所提出的方法来理解每个组件（1）RSN，（2）深度区域学习和（3）软区域选择，通过将其与几个基线进行比较：(1) 全球RSN。 RSN只选择一个全局区域，并将其初始化为恒等变换（即， Θ0=[1，0，0; 0，1，0]）。这相当于RoI内的全局regionlet学习(2) 仅偏移RSN。我们将RSN设置为仅通过强制θ1、θ2、θ4、θ5在训练过程中不改变。通过这种方式，该地区10H. Xu，X.Lv、X。Wang，Z.Ren，N.Bodla和R.Chellappa方法全球RSN仅偏移RSN [9，32]无栏栅我们mAP@0.5（%）30.2778.581.3（+2.8）82.0（+3.5）表1. 深小区域入路中各成分的消融研究。输出大小所有基线的H×W设置为4×小区域密度❤❤❤❤❤❤❤区域数量❤2 ×23 ×34 ×45 ×56 ×64（2 ×2）个区域78.079.279.980.280.39（3 ×3）个区域79.680.380.981.581.316（4× 4）个区域80.081.082.081.680.8表2. 当RSN选择不同数量的区域和regionlet时，消融研究的结果在不同的密度水平下学习。选择网络仅选择具有到初始化区域的偏移的矩形区域。此基线类似于[9]和[32]中的可变形RoI池(3) 非门控选择：无软选择的深区域在regionlet学习之后不执行软regionlet选择在这种情况下，学习的每个regionlet对最终特征表示具有相同的贡献。结果示于表1中。首先，当区域选择网络仅选择一个全局区域时，RSN减少到单个定位网络[23]。在这种情况下，将以全局方式提取区域小块。有趣的是，区域选择网络仅选择一个区域能够收敛，这与[37，8]不同但是，性能极差。这是因为在该区域内不能明确地学习到有区别的小区域。更重要的是，当我们将我们的方法和仅偏移RSN与全局RSN进行比较时，结果清楚地表明RSN在深区域方法中是不可或缺的此外，仅偏移RSN可以被视为类似于[9，32]中这些方法都学习矩形区域相对于其参考位置的偏移，这导致了对[37]的改进然而，非门控选择优于仅偏移RSN 2。8%，同时选择非矩形区域。实验结果表明，非矩形区域的选取可以在原始参考区域周围提供更大的灵活性，从而可以更好地对具有尖锐形状和可变形部分的非矩形对象进行最后，通过使用门函数进行软区域选择，可以将性能进一步提高0。7%。接下来，为了更深入地理解区域选择网络和regionlet学习模块，我们对以下问题进行了消融研究：（1）我们应该使用区域选择网络学习多少个区域(2)在一个选定的区域中，我们应该学习多少个regionlet（密度是大小H×W）？我们应该使用区域选择网络学习多少个区域？我们研究了当区域选择网络选择不同数量的区域时，所有区域都已初始化用于目标检测的11方法训练数据mAP@0.5（%）训练数据mAP@0.5（%）地区[45]0741.707+ 12N/A更快的R-CNN[37]0770.007+ 1273.2R-FCN [8]0769.607+ 1276.6SSD 512 [28]0771.607+ 1276.8软件NMS [4]0771.107+ 1276.8我们0773.007+ 1279.2我们的§0773.807+ 1280.1表3. 使用VGG16作为主干架构的PASCAL VOC检测结果。培训数据：“07”：VOC2007培训，“07 + 12”：VOC 2007和2012培训。我们的§表示在测试阶段应用软NMS [4]。如第3.3节所述，区域之间没有任何重叠。不失一般性，我们在表2中报告了4（2× 2）、9（3× 3）和16（4× 4）个区域的结果我们观察到，对于固定的regionlet学习数量，当选定区域的数量从4（2× 2）增加到9（3×3）时，平均AP增加，但在16（4× 4）个选定区域时达到饱和。在一个选定的区域中，我们应该学习多少个regionlet接下来，我们研究了当通过改变H和W在一个选定区域中学习不同数量的regionlet时，检测性能如何变化。而不损失为了一般性，我们设置H=W并且将H值从2变化到6。在表2中，我们报告了当我们将regionlet的数量设置为4（2× 2）、9（3×3）、16（4 × 4）、16（4 × 4）、16（3 × 4）、16（4× 4）、16（4 × 4）和16（4 ×25（5× 5）、36（6× 6）。首先，观察到将regionlet的数量从4（2× 2）增加到25（5× 5）会提高性能。随着从一个区域学习到更多的小区域该方法在提取16（4×4）或25（5× 5）密度水平的区域时具有最佳性能。有趣的是，当密度从25（5× 5）增加到36（6× 6）时，性能略有下降。当以非常高的密度水平学习区域时，可能会学习一些冗余的空间信息，而不会对检测有用，从而影响要做出的基于区域提议的决策。在所有的实验中，我们从RSN中选择了16个区域，并设置输出大小H×W= 4 ×4。4.2PASCAL VOC实验在本节中，我们将我们的结果与传统的regionlet方法[45]和几种最先进的基于深度学习的对象检测器进行比较，如下所示：更快的R-CNN [37]，SSD [28]，R-FCN [8]，soft-NMS [4]，DP-FCN [32]和D-F-RCNN/D-R-FCN [9]。我们遵循如[37，8，4，9]中的标准设置，并使用0的IoU阈值报告平均精确度（ mAP ）评分。 5 和 0 。 7. 对于第一个实验，在从 VOC2007trainval进行训练时，我们在前40k次迭代中使用10−3的学习率，然后在剩余的20k次迭代中将其降低到10−4。12H. Xu，X.Lv、X。Wang，Z.Ren，N.Bodla和R.Chellappa方法mAP@0.5/@0.7（%）方法mAP@0.5/@0.7（%）更快的R-CNN [37]78.1/62.1SSD [28]76.8/不适用DP-FCN [32]78.1/不适用离子[3]79.4/不适用LocNet [15]78.4/不适用可变形ConvNet [9]78.6/63.3可变形ROI池化[9]78.3/66.6D-F-RCNN [9]79.3/66.9我们82.0/67.0我们的§83.1/67.9表4. 使用ResNet-101 [20]作为主干架构的PASCAL VOC检测结果。培训数据：VOC2007和2012培训的联合集我们的§表示在测试阶段应用软NMS[4]方法法国国家电视台[37]YOLO9000 [36]FRCN欧姆DSSD [14]高级警司*[28]mAP@0.5（%）73.873.476.376.378.5方法离子[3]R-FCN [8]DP-FCN [32]我们我们的§mAP@0.5（%）76.477.679.580.481.2表5. 使用训练数据“07++12”的VOC2012测试集上的检测结果：2007trainvaltest和2012 trainval。SSD*表示新的数据增加。我们的§表示在测试阶段应用软NMS [4]。一个GPU接下来，由于更多的训练数据，需要在VOC 2007和VOC2012训练值的联合上增加迭代次数。我们执行与第4.1节所述相同的培训过程此外，我们在测试阶段使用来自单尺度图像测试的300个RoI，并将图像的短边设置为600。为了公平比较，我们没有部署多尺度训练/测试或在线硬示例挖掘（OHEM）[39]，尽管[4，9]中显示这些增强可以提高性能。使用VGG16 [40]主链的V0C2007测试的结果示于表3中。我们首先比较了传统的regionlet方法[45]和几种最先进的对象检测器[37，28，4]，当使用小尺寸数据集（VOC 2007trainval）进行训练时接下来，我们在增加训练数据集（VOC 2007和2012trainval的联合集）时评估我们的方法凭借深度CNN的强大功能，深度区域小波方法显著提高了传统区域小波方法的检测性能[45]。我们还观察到，更多的数据总是有帮助的。此外，令人鼓舞的是，软NMS [4]仅应用于测试阶段，而无需在训练阶段进行修改，这可以直接比[37]提高1。百分之一。总之，我们的方法始终优于所有比较的方法，如果我们用软NMS代替NMS，性能可以进一步提高[4]接下来，我们将网络骨干从VGG 16 [40]更改为ResNet-101 [20]，并在表4中列出相应的结果。此外，我们还与D-F-RCNN/D-R-FCN [9]和DP-FCN [32]进行了比较。首先，与表3中使用VGG 16 [40]网络的性能相比，mAP可以通过使用更深的网络（如ResNet-101 [20]）显着增加其次，与[9]3中的DP-FCN [32]和可变形ROI池化相比，我们3[9]报告了使用OHEM的最佳结果，我们仅比较了[9]中报告的未部署OHEM的结果。用于目标检测的13方法训练数据mmAP0. 五比零95mAP@0.5mAP小mAP培养基mAP大更快的R-CNN[37]trainval24.445.77.926.637.2高级警司 *[28]trainval31.250.410.234.549.8DSSD [14]trainval33.253.513.035.451.1R-FCN [8]trainval30.852.611.833.944.8D-F-RCNN [9]trainval33.150.311.634.951.2D-R-FCN [9]trainval34.555.014.037.750.3[18]第十八话trainval38.260.320.141.150.2[26]第二十六话trainval34.453.114.738.549.1我们trainval39.359.821.743.750.9表6. 使用ResNet-101 back-bone的MS COCO 2017测试开发上的对象检测结果。训练数据：2017训练和验证集。SSD*表示新的数据增加。比这两种方法高出3. 9%和2。7%。这提供了经验支持，即我们的深度regionlet学习方法可以被视为[9，32]中可变形RoI池化的推广，如第3.5节所讨论的此外，结果表明，从我们的方法中选择非矩形区域提供了更多的功能，包括缩放，移位和旋转来学习特征表示。总之，当使用ResNet-101作为骨干网络时，我们的方法在对象检测任务上实现了最先进的性能。VOC2012测试的评价结果如表5所示。我们遵循与[8，37，14，28，32]中相同的设置，并使用VOC“07++12”训练我们的模型：VOC2007年培训测试和2012年培训集。可以看出，我们的方法优于所有的竞争方法。特别是，我们优于DP-FCN [32]，这进一步证明了我们的方法在[32]上的推广。4.3MS COCO在本节中，我们在MS COCO [27]数据集上评估了所提出的深度regionlet方法，并与其他最先进的对象检测器进行了比较：更快的R-CNN [37]，SSD [28]，R-FCN [8]，D-F-RCNN/D-R-FCN [9]，MaskR-[26]第18话：我的世界我们采用ResNet-101作为所有方法的主干架构，以进行公平的比较。按照[18，9，26，8]中的设置，我们将图像的较短边缘设置为800像素。训练在8个GPU上以有效小批量大小8执行280k次迭代。我们首先以学习率训练模型前160k次迭代的学习率为10−3，随后的另外80k次迭代和最后40k次迭代的学习率分别为10−4和10−5五个尺度和三个纵横比被部署为锚点。我们使用发布的模型或原始作者的代码报告结果。注意到我们只部署单尺度图像训练，而没有迭代边界框平均值，尽管这些增强可以进一步提高性能（mmAP）。表6显示了2017年测试开发集的结果，其中包含20，288个图像。与基线方法Faster R-CNN [37]，R-FCN [8]和SSD [28]相比，D-F-RCNN/D-R-FCN [9]和我们的方法都提供了显着的改进14H. Xu，X.Lv、X。Wang，Z.Ren，N.Bodla和R.Chellappa超过[37，8，28]（+3. 7%和+8。5%）。此外，可以看出，所提出的方法比D-F-RCNN/D-R-FCN [9]的性能好得多（<4%）。这一观察结果进一步支持我们的深度regionlet学习模块可以被视为[9，32]中可变形RoI池化的推广还应注意的是，尽管最新的最先进的对象检测器（例如Mask R-CNN [18]）利用具有分割标签的多任务训练，但我们仍然比Mask R-CNN [18]好1。百分之一。此外，[26]中的焦点损失克服了由正/负样本的不平衡引起的障碍，这与我们的方法是我们相信它可以集成到我们的方法中，以进一步提高性能。总之，与Mask R-CNN [18]和RetinaNet4 [26]相比，当使用ResNet-101作为骨干网络时，我们的方法在MS COCO上实现了具有竞争力的性能5结论在本文中，我们提出了一种新的基于深度区域的方法进行对象检测。该方法可以在检测边界框内选择非矩形区域，从而可以更好地对具有刚性形状和可变形部分的物体进行建模。我们还设计了深度regionlet学习模块，以便可以同时学习选定的区域和regionlet此外，所提出的系统可以以完全端到端的方式进行训练，而无需额外的努力。最后，我们广泛评估我们的方法在两个检测基准和实验结果显示竞争力的性能超过国家的最先进的。6确认这项研究是基于由情报高级研究项目活动（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC 00345支持的工作美国政府有权为政府目的复制和分发重印本，但不得附带任何版权注释。免责声明：本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA，DOI/IBC或美国的官方政策或认可，无论是明示或暗示政府的我们感谢审稿人提出的宝贵意见和建议。引用1. Ahonen，T.，Hadid，A.，Pietikäinen，M.：基于局部二值模式的人脸识别。欧洲计算机视觉会议（ECCV）pp. 4694[26]报告了使用多尺度训练进行1.5倍更长迭代的最佳结果，我们只比较了训练期间没有尺度抖动的结果。此外，我们仅使用ResNet-101主干比较[18]中的结果以进行公平比较。用于目标检测的152. Bansal，A.，Sikka，K.，Sharma，G.切拉帕河Divakaran，A.：零镜头物体检测。CoRRabs/1804.04340（2018）3. Bell，S.，Zitnick，C.L.，Bala，K.，Girshick，R.B.：内外网：检测对象的上下文与跳过池和循环神经网络。IEEE计算机视觉与模式识别会议（CVPR）pp. 2874-2883（2016年）4. Bodla，N.辛格湾切拉帕河Davis，L.S.：软网管改进对象一行代码的检测。IEEE International Conference on Computer Vision（ICCV）pp. 55625. Bodla，N.郑杰，徐，H.，陈杰，卡斯蒂略哥伦比亚特区切拉帕河：深het-基于模板的人脸识别的异质特征融合IEEE Winter Conference on Applicationsof Computer Vision（WACV）计算机视觉应用冬季会议pp. 5866. 蔡志，Vasconcelos，N.：级联r-cnn：深入研究高质量的物体检测。在：IEEE计算机视觉和模式识别会议（CVPR）（2018年6月）7. 郑，B.，魏，Y.，施，H.，Feris，R.S.，Xio

下载后可阅读完整内容，剩余1页未读，立即下载