没有合适的资源?快使用搜索试试~ 我知道了~
1RON:反向连接目标先验网络的目标检测孔涛1孙富春1姚安邦2 刘华平1卢明3陈玉荣21国家重点实验室.清华大学智能技术与系统国家实验室清华大学计算机科学与技术系信息科学与技术(TNList)2英特尔中国实验室3清华大学1{kt14@mails,fcsun @,hpliu @}. tsinghua.edu.cn2{安邦.姚,陈玉荣.}@. intel.com3lu-m13@mails.tsinghua.edu.cn摘要我们目前的RON,一个高效和有效的框架,通用对象检测。我们的动机是巧妙地将最好的基于区域的(例如,更快的R-CNN)和无区域(例如,SSD)方法。在全卷积架构下,RON主要关注两个基本问题:(a)多尺度目标定位和(b)负样本挖掘。为了解决(a),我们设计了反向连接,这使得网络能够检测CNN多级上的对象。为了处理(b),我们提出了对象优先,以显著减少对象的搜索空间通过多任务损失函数对反向连接、目标先验和目标检测器进行联合优化,使RON能够直接预测不同特征图所有位置的最终检测结果。在具有挑战性的PASCAL VOC 2007、PASCAL VOC2012和MS COCO基准上进行的大量实验在VGG-16和低分辨率384× 384的输入条件下,网络在PASCALVOC 2007上的mAP为81.3%,在PASCAL VOC 2007上的mAP为80.7%。PASCAL VOC 2012数据集上的mAP。当数据集变得更大和更困难时,其优越性增加,如MS COCO数据集上的结果所在测试阶段使用1.5G GPU内存,每秒15帧,比Faster R-CNN快3倍。代码将公开提供。1. 介绍我们正在见证物体检测领域的重大进步,这主要归功于深度网络。当前顶级的基于深度网络的对象检测框 架 可 以 分 为 两 大 主 流 : 基 于 区 域 的 方 法[11][23][10][16]和无区域方法[22][19]。基于区域的方法将目标检测图1.从特定图像生成的客观先验在这个例子中,沙发在尺度(a)和(b)上得到响应,棕色狗在尺度(c)上得到响应,白色斑点狗在尺度(d)上得到响应。该网络在目标先验的指导下生成检测结果。任务分为两个子问题:在第一阶段,将专用区域建议生成网络移植到深度卷积神经网络(CNN)上,该深度卷积神经网络可以生成高质量的候选框。然后在第二阶段,设计一个区域子网络来分类和细化这些候选框。 使用非常深的C-NN [14][27],快速R-CNN管道[10][23]最近在主流对象检测基准上显示出高准确性[7][24][18]。区域建议阶段可以拒绝大多数背景样本,因此对象检测的搜索空间大大减少[1][32]。多阶段训练过程通常被开发用于区域提议生成和后检测的联合优化(例如,[4][23][16])。在Fast R-CNN[10]中,区域子网络重复评估数千个区域属性以生成检测分数。在Fast R-CNN管道下,Faster R-CNN与检测网络共享全图像卷积特征,以实现几乎无成本的区域建议。最近,R-FCN[4]试图通过添加位置敏感的得分图来使Faster R-CNN的非共享每RoI计算变得可共享。尽管如此,R-FCN仍然需要从区域提案网络生成的区域提案[23]。为了确保检测精度,所有方法都将图像大小调整到足够大的大小(通常为5936((((5937最短边为600像素)。在将图像输入深度网络时,无论是在训练时间还是在推理时间,都会消耗一些资源/时间例如,对于VGG-16网络,使用Faster R-CNN进行预测通常需要0.2 ms/图像,使用约5GB GPU内存[27]。另一个解族是无区域方法[22][19]。这些方法将对象检测视为单次问题,直接从图像像素到边界框坐标,通过全卷积网络(FCN)。这些探测器的主要优点是效率高。SSD[19]起源于YOLO[22],试图用多层深度CNN来处理对象在低分辨率输入下,SSD探测器可以获得最先进的探测结果。不过,这些方法的检测精度仍有提升空间:(a)在没有区域提议的情况下,检测器必须仅在检测模块处抑制所有否定候选框。这将增加训练检测模块的难度。(b)YOLO使用最顶层的CNN层检测对象,而无需深入探索不同层的检测能力。SSD试图通过添加前几层的结果来提高检测性能。然而,SSD仍然难以处理小型实例,主要是因为中间层的这两个主要瓶颈影响了方法的检测精度。在两个解决方案系列成功的推动下,出现了一个关键问题:是否有可能开发一个elgant框架,它可以巧妙地结合两种方法的优点,并消除它们的主要缺点?我们回答这个问题,试图弥合差距之间的区域为基础的和区域自由的方法。为了实现这一目标,我们关注两个基本问题:(a)多尺度目标定位。不同尺度的物体可能出现在图像的任何位置,因此应该考虑成千上万个具有不同位置/尺度/长宽比的区域。先前的工作[16][3]表明,多尺度表示将显着提高各种尺度的对象检测然而,这些方法总是在网络的一层检测各种尺度的对象[16][23][4]。通过所提出的反向连接,对象在其相应的网络规模上被检测到,这更优雅,更容易优化。(b)负空间采矿。目标样本与非目标样本的比例严重失衡。因此,对象检测器应该具有有效的负面挖掘策略[26]。 为了减少对象的搜索空间,我们在卷积特征映射上创建了一个对象先验(图1),并在训练阶段与检测器联合优化。因此,我们提出了RON(反向连接与对象先验网络)的目标检测框架,它可以结合区域为基础的方法和区域自由的优点此外,最近的补充-可以自然地采用诸如硬示例挖掘[26]、边界框回归[11]和多层表示[16][3]捐款. 我们做出以下贡献:1. 我们提出了RON,一个用于端到端对象检测的完全卷积框架首先,反向连接为CNN的前几层提供更多的语义信息。其次,对象性先验为对象的搜索提供了明确的指导。最后,多任务丢失功能使我们能够优化整个网络的端到端的检测性能。2. 为了达到高的检测精度,有效的训练策略,如负面的例子挖掘和数据增强。在384×384的低分辨率输入下,RON在PASCAL VOC 2007上获得了最先进的结果,其正确率为81.3%mAP,VOC 2012,mAP为80.7%,MS COCO,27.4%的mAP。3. RON具有时间和资源效率。使用1.5G GPU内存,总前馈速度为15 FPS,比开创性的Faster R-CNN快3倍。此外,我们进行了广泛的设计选择,如层组合,有/无对象优先,和其他变量,国家。2. 相关工作目标检测是计算机视觉领域的一项基础性研究课题.它的目的是本地化和识别每个对象实例与边界框[7][18]。在深度CNN成功之前[17],广泛使用的检测系统 是 基 于 独 立 分 量 的 组 合 ( HOG[30] , SIFT[21]等)。[25][26][27][28][29][这些方法使用对象组件描述符作为特征,并扫描整个图像以找到具有类特定最大响应的区域。 随着深度学习在大规模对象识别方面的 巨 大 成 功 , 已 经 提出 了 几 项基 于 CNN 的 工 作[31][25]。R-CNN[11]及其变体通常结合区域建议(从选择性搜索[29],边缘框[32],MCG[1]等生成)。基于ConvNet的后分类这些方法显著提高了检测精度[17]。在最初的R-CNN之后,研究人员正在以各种方式对其进行改进。SPP-Net[13]和Fast R-CNN[10]通过RoI-Pooling(空间金字塔池化)加速R-CNN方法,允许分类层重用在CNN特征图上计算的特征。在Fast R-CNN流水线下,一些工作试图提高检测速度和准确性,并提出更有效的区域建议5938射频地图代诺夫2× 2,512conv3× 3,512convn.转化,转化rf-mapn+1总和图2. RON对象检测概述。给定输入图像,网络首先计算骨干网络的特征。然后在每个检测尺度上:(a)添加反向连接;(b)生成对象先验;(c)在其对应的CN-N尺度和位置上检测对象最后对所有检测结果进行非极大值抑制融合选择。[23]、多层融合[3][16]、上下文信息[14][9]和更有效的训练策略[26]。R-FCN [4]试图在ResNet架构[14]下使用位置敏感的得分图来减少计算时间。由于FCN-s[20]可以提供输入图像的位置信息,因此有几项工作试图通过FCNs解决对象检测问题 该方法跳过区域建议生成步骤,直接预测多个类别的边界框和检测置信度[6]。YOLO[22]使用最顶级的CNN特征图来预测多个类别的置信度和位置。源自YOLO,SSD[19]试图预测多个CNN层的检测结果。通过精心设计的训练策略,SSD可以获得具有竞争力的检测结果。这些方法的主要优点是时间效率高例如,YOLO的前馈速度为45 FPS,比Faster R-CNN快9倍3. 网络架构本节介绍RON对象检测框架(图2)。 我们首先在第3.1节中介绍了trans-CNN上的反向连接,使得不同的网络规模具有有效的检测能力。然后在第3.2节中,我们解释如何在不同的网络尺度上生成候选框。接下来,我们在第3.3节和Secondary中介绍了引导对象搜索3.4. 最后,我们将对象性先验和对象检测结合到一个统一的网络中,用于联合训练和测试(第3.5节)。网络准备我们使用VGG-16作为测试用例参考模型,该模型使用ImageNet数据集进行预训练[27]。回想一下,VGG-16有13个卷积层,图3. 反向连接块。和3个完全连接的层。我们将FC6(第14层)和FC7(第15层)转换为卷积层[20],并使用步长为2的2×2卷积核将FC7的分辨率降低一半。到目前为止,用于物体检测的是1/8(conv 4 3),1/16(con 43),v 5 3)、1/32(conv 6)和1/64(conv 7)的输入大小,宽度和高度都是如此(见图2顶部)。3.1. 反接将细粒度细节与高度抽象的信息相结合有助于不同尺度的目标检测[12][20][14]。基于区域的网络通常将多个CNN层融合到单个特征图中[3][16]。 然后在具有区域子网络的融合地图上执行对象检测[10]。由于所有目标都需要基于固定特征进行检测,因此优化变得非常复杂。SSD[19]检测多个CNN层上的对象然而,前几层的语义信息是有限的,这影响了这些层的检测性能这就是为什么SSD在较小对象上的性能比较大对象差得多的原因[19]。受残余连接[14]的成功启发,它简化了更深层次网络的训练,我们提出了传统CNN架构上的反向连接。反向连接使先前的特征具有更多的语义信息。一个反向连接块如图3所示。首先,将去卷积层应用于反向融合图(注释为rf-map)n+1,并且将卷积层嫁接在骨干层上。以保证输入具有相同的维度。然后通过逐元素加法合并两个对应的映射。反向融合图7是骨干层7的卷积生成此图层后,每个反向连接块将以相同的方式生成,如图2所示。总共有四个不同尺度的反向融合地图。与采用单层结构的方法相比,t检测[16][23],多尺度表示在定位对象的所有尺度上更有效(如实验所示)。更重要的是,由于反向连接是可学习的,因此可以将1本文未使用最后一层FC(第16层)。conv4conv5conv6conv7反向连接反接反接det 7det 6第五船船人第四对象性对象性对象性对象性593910concat后层显着丰富。与[19]相比,该特性使RON在检测所有尺度的物体时更有效。3.2. 参考框在本节中,我们将描述如何在3.1节生成的特征图上生成边界框。已知来自网络内不同级别的特征图具有不同的感受野大小[13]。 因为反向连接可以生成具有不同尺度的多个特征图。我们可以设计盒子的分布,以便可以学习特定的特征地图位置以响应对象的特定尺度用smin表示最小尺度,每个特征图k处的框的尺度Sk为Sk={(2k − 1)·smin,2k·smin},k ∈ {1,2,3,4}。(一)我们还针对每个像素施加不同的纵横比{1,1,1,2,3}conv1×1,conv3×3,线圈架层图4. 一个初始块。3.4.检测和边界盒回归与对象先验不同,检测模块需要将区域分类为K+1个类别(PASCAL VOC数据集的K = 20,MSCOCO数据集的K= 80,加上背景的1我们使用盗梦空间模块[28]在第3.1节中生成的特征图上执行形式检测。具体来说,我们添加两个inception块3 2(图4中显示了一个块),以及类-默认框。 每个盒子的宽度和高度都是相同的。[23]第23话大开眼界在每个特征图位置总共有2个比例和5个纵横比。smin是输入大小的1(例如,320×320型号为32像素)。通过组合具有不同比例和长宽比的所有默认框的预测,我们有一组不同的预测,涵盖各种对象大小和形状.简化最初的最终产出。有许多初始选择,如[28]所示。 在本文中,我们只使用最简单的结构。使用Softmax,子网络输出每个类的s-核心,指示特定于类的实例的存在。对于边界框回归,我们预测相对于单元格中默认框的偏移量(参见图5)。3.3.客观性优先如3.2节所示,我们考虑默认框,conv3×3,512conv3×3、4 ×Abbox reg不同的比例和长宽比从许多功能地图-S. 然而,只有一小部分盒子覆盖了物体-初始convS.换句话说,对象和非对象样本之间的比例严重不平衡。地区性的冰毒-射频地图3×3,(k+1)×Asoftmaxods通过区域提案网络克服了这个问题[16][23]。然而,与默认框相比,区域建议会带来翻译差异。因此,FastR-CNN管道通常使用区域网络进行后检测,这会带来重复计算[4]。相比之下,我们添加了一个对象先验来指导搜索对象,而不会生成新的区域提案。具体来说,我们添加了一个3×3×2卷积层,然后是一个Softmax函数,以指示每个盒子中存在一个对象。对象先验贴图的通道数是10,因为每个位置有10个默认框。图1示出了从特定图像生成的多尺度对象性先验。为了可视化,对象先验图沿着通道维度被平均。我们看到,对象先验映射可以显式地反映-一个物体的存在。因此,可以显着减少对象的搜索空间。不同尺度的对象将在其相应的特征图上做出响应,我们通过适当的匹配和端到端训练来实现这一点。更多的结果可以在实验部分看到。图5. 目标检测和边界框回归模块。上图:边界框回归;底部:对象分类。3.5. 结合目标先验与检测在本节中,我们将解释RON如何将对象性先验与对象检测相结合。我们在训练和测试阶段都使用对象优先级来辅助对象检测。为了训练网络,我们首先为第3.2节生成的每个候选区域分配一个二进制类标签。然后,如果该区域覆盖了对象,我们还为它分配一个类特定的标签.对于每个地面真值框,我们(i)将其与具有最多Jaccard重叠的候选区域匹配;(ii)将候选区域匹配到具有高于0.5的Jaccard重叠的任何地面实况。这种匹配策略保证了每个地面真值框至少有一个区域框作为其签名。我们将负标签分配给jaccard重叠低于0.3的盒子。到目前为止,每个盒子都有它的对象标签和类特定的标签.该网络将动态更新类特定的标签,以帮助在训练阶段的对象检测与客观性之前。对于进料时的每个小批次59403在前向时间,网络运行对象先验和类特定检测。但在反向传播阶段,Lobj,Lcls|obj由Softmax在K+1个输出上针对每个位置pcls计算|obj={pcls|obj,pcls|obj,. . . ,pcls|obj}。0 1K该网络首先生成对象先验,检测时,选择对象性得分高于阈值的样本(图6)。额外的计算-我们使用多任务损失L来联合训练网络端到端的对象先验,分类和边界框回归:只不过是从样品的选择上传播在适当的op下(我们使用op= 0.03用于al-1),L模型),仅选择少量样本用于更新检测分支,因此,1L=α诺布日1Lobj+βlocLloc+(1−α−β)N1CLS|objLcls|目标(二)病房出入证大幅减少。图6. 将目标先验映射到目标检测。我们首先根据op对对象先验图进行二值化,然后将二值掩码投影到最后一个卷积特征图的检测域收集掩模内的位置以用于检测对象。4. 训练和测试在本节中,我们首先介绍了用于优化网络的多任务损失函数。然后,我们解释了如何联合优化网络和直接执行推理。4.1. 损失函数对于每个位置,我们的网络有三个兄弟输出分支。第一个输出对象性置信度得分pobj={pobj,pobj},由2×A上的Softmax计算方程2中的超参数α和β控制三种损失之间的平衡。我们将每个损失项与其输入数字归一化。在这种标准化下,α=β=1工作良好,并用于所有实验。4.2. 联合训练和测试我们将上述模型与端到端训练相结合进行优化。在匹配步骤之后,大多数默认框都是否定的,特别是当默认框的数量很大时。在这里,我们介绍了一个动态的训练策略来扫描负空间。在训练阶段,每个SGDminibatch由从数据集中均匀选择的N个图像构造。在每个小批次,(a)对于对象先验,选择所有正样本进行训练。阴性样本从阴性标记区域中随机抽取,阳性与阴性样本之比为1:3;(b)对于检测,我们首先根据在该小批量中生成的对象先验s-核心来减少样本数量(如第3.5节所述)。然后选择所有阳性样本。我们随机选择阴性样本,使得阳性和阴性样本之间的比例为 1 : 3 。 我 们 注 意 到 , 最 近 的 作 品 , 如 Faster R-CNN[23]和R-FCN[4]通常使用多阶段训练进行联合优化。相比之下,损失函数2在我们的实现中通过反向传播和SGD进行端到端训练,这在训练阶段更有效。在训练开始时,对象先验图处于混沌状态。然而,随着训练的进展,对象先验图更集中于覆盖对象的区域。数据扩充为了使模型更稳健,不同的对象尺度,每个训练图像是随机sam-0 1对象先验的输出(本文中A= 10,因为有10种类型的默认框)。我们用Lobj表示客观性损失。第二个分支输出边界-(一)对当事人提出的诉讼请求;(ii)随机采样块其边长为原点的{4,5,6,7,8,9}10 10 10 10 10 10箱回归损失,用Lloc表示。 它的目标是迷你-使预测位置偏移t=(tx,ty,tw,th)与目标偏移之间的平滑L1损失[10]最st=(t,t,t,t)。 与Fast R-CNN不同[10]并确保至少有一个物体就在这块补丁里我们注意到,上述数据扩充策略将增加大对象的数量,但对小对象的优化益处有限。XyW H回归K个类中每个类的偏移量,在没有类特定信息的情况下,将位置回归一次第三分支输出分类损失Lcls|obj为每个框,超过K+1个类别。给定对象性置信度得分pobj,分支首先排除区域。s,其分数低于阈值op。然后像被绑住了我们通过增加一个小规模来克服这个问题,训练在一个尺度下的大物体在更小尺度下会更小.这种训练策略可以有效地避免对特定尺寸的对象的过度拟合。推理在推理阶段,我们将类条件概率和个体框置信度N5941方法地图Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发 火车电视快速R-CNN[10]70.077.078.169.359.438.381.678.686.742.878.868.984.782.076.669.931.870.174.880.470.4更快的R-CNN[23]73.276.579.070.965.552.183.184.786.452.081.965.784.884.677.576.738.873.673.983.072.6SSD300系列[19]72.175.279.870.562.541.381.180.886.451.574.372.383.584.680.674.546.071.473.883.069.1SSD500系列[19]75.179.879.574.563.451.984.985.687.256.680.170.085.484.980.978.249.078.472.484.675.5RON32074.275.779.474.866.153.283.783.685.855.879.569.584.581.783.176.149.273.875.280.372.5RON38475.478.082.476.767.156.985.384.386.155.580.671.484.784.882.476.247.975.374.183.874.5RON320++76.679.484.375.569.556.983.784.087.457.981.374.184.185.383.577.849.276.777.386.777.2RON384++77.686.082.576.969.159.286.285.587.259.981.473.385.986.882.279.652.478.276.086.278.0表1.PASCAL VOC 2007测试集的检测结果具有每个对象类别的最佳AP的条目以粗体显示。图7. VOC 2007测试中RON 384在动物、车辆和家具上的性能可视化。这些图显示了由于定位不良(Loc)、与类似类别混淆(Sim)、与其他类别混淆(Oth)或与背景混淆(BG)而导致的正确(Cor)或假阳性的检测的累积分数。红色实线反映了随着检测数量的增加,具有“强”标准(0.5 jaccard重叠)的召回率的变化。红色虚线使用预测每个框的类特定置信度得分定义为等式3:pcls=pobj·pcls|目标(三)分数既编码了类别出现在框中的概率,也编码了预测框与对象的匹配程度在生成每个框的最终得分之后,我们根据边界框回归输出来调整框最后采用非最大值抑制法得到最终的检测结果。5. 结果我们在三个主要数据集上训练和评估我们的模型:PASCAL VOC 2007,PASCAL VOC 2012和MS CO。为了公平比较,所有实验都基于VGG-16网络。我们在单个N-vidia TitanX GPU上训练所有模型,并在所有三个数据集上展示最先进的结果。5.1. Pascal VOC 2007在这个数据集上,我们将RON与开创性的Fast R-CNN [10],Faster R-CNN [23]和最近提出的SSD [19]进行了比较。所有方法都在VOC2007和VOC2012训练集上进行训练,并在VOC2007测试集上进行测试在训练阶段,我们通过从具有标准差0.01.所有其他层由标准VGG-16模型初始化[10]。我们在前90k次迭代中使用10−3的学习率,然后将其衰减为10−4,并继续训练接下来的30k次迭代。根据GPU容量,320×320型号的批量大小为18我们利用动量0.9,重量衰减为0.0005。表1显示了方法2的结果比较。在320×320的输入尺寸下,RON已经比Faster R-CNN更好。通过将输入大小增加到384×384,RON获得了75.4%的mAP,比FasterR-CNN的性能高出3倍。杜松子酒2.2% RON384也比输入尺寸为500×500的SSD更好。最后,RON可以实现76.6%(RON 320 ++)和77.6%(RON 384 ++)的高mAP,其中多个规模测试,边界框投票和翻转[3]。小物体对探测器来说是一个挑战。如表1所示,所有方法在“船”和“瓶”上具有较差的性能然而,RON显著提高了这些类别的性能:“船”提高4.0分,“瓶”提高7.1分。总之,RON在20个类别中的17个类别的性能得到了改善。为了更详细地了解RON的性能,我们使用[15]中的检测分析工具。 图7显示了我们的 模型可以检测各种对象类别,2我们注意到,最新的SSD使用了新的训练技巧(颜色失真,随机扩展和在线硬示例挖掘),这使得结果更好。我们希望这些技巧也会改善我们的结果,这超出了本文的重点。5942方法地图Aero 自行车鸟船瓶总线车猫椅子 牛表狗马姆比凯人植物羊沙发 火车 电视快速R-CNN[10]68.482.378.470.852.338.777.871.689.344.273.055.087.580.580.872.035.168.365.780.464.2OHM [26]71.983.081.372.555.649.078.974.789.552.375.061.087.980.982.476.347.172.567.380.671.2更快的R-CNN[23]70.484.979.874.353.949.877.575.988.545.677.155.386.981.780.979.640.172.660.981.261.5超级网络[16]71.484.278.573.655.653.778.779.887.749.674.952.186.081.783.381.848.673.559.479.965.7SSD300系列[19]70.384.276.369.653.240.878.573.688.050.573.561.785.880.681.277.544.373.266.781.165.8SSD500系列[19]73.184.982.674.455.850.080.378.988.853.776.859.487.683.782.681.447.275.565.684.368.1RON32071.784.178.171.056.846.979.074.787.552.575.960.284.879.982.978.647.075.766.982.668.4RON38473.085.480.671.956.349.880.676.888.253.678.160.486.481.583.879.448.677.467.783.469.5RON320++74.587.181.074.658.851.782.177.089.757.279.962.687.283.285.080.551.476.768.584.870.4RON384++75.486.582.976.660.955.881.780.291.157.381.160.487.284.884.981.751.979.168.684.170.3表2.PASCAL VOC 2012测试集的结果所有方法都基于预先训练好的VGG-16网络。高质量召回率高于85%,并且在“弱”(0.1 jaccard重叠)标准下更高5.2. Pascal VOC 2012我们将RON与PAS- CAL VOC 2012公共排行榜上的comp 4(外部数据)轨道上的顶级方法进行比较。训练数据是所有VOC 2007、VOC 2012训练和验证数据集的并集,如下[2 3][10][19]。 我们看到了与VOC2007测试相同的性能趋势。如表2所示的结果表明,我们的模型在这个数据集。与Faster R-CNN和其他变体[26][16]相比,所提出的网络明显更好,主要是由于反向连接和使用来自多个特征图的框。5.3. MS Coco为了在更大和更具挑战性的数据集上进一步验证所提出的框架,我们在MS COCO[18]上进行了实验,并报告了来自test-dev 2015 evalu- ation服务器的结果MSCOCO数据集的评价指标与PASCAL VOC不同。不同IoU阈值(从0.5到0.95)上的平均mAP(写作0.5:0.95 ) 是 方 法 的 总 体 性 能 。 与 仅 要 求 IoU 为 0.5 的PASCAL VOC指标相比,这对本地化的重视程度明显更高。我们使用80 k训练图像和40 k验证图像[23]来训练我们的模型,并在包含20 k图像的test-dev 2015数据集上验证性能公司现采用国际5×10−4的学习率,400k次迭代,然后我们衰减它到5×10- 5 , 并 继 续 训 练 另 外 150 k 次 迭 代 。 由 于 MSCOCO数据集中的实例较小,与PASCAL VOC数据集相比,320×320模型的引用框大小的最小尺度s min为24,384×384模型的引用框大小的最小尺度s min为32。其他设置与PASCAL VOC数据集相同。使用标准的COCO评估指标,Faster R-CNN的AP得分为21.9%,RON将其提高到27.4%。使用IoU ≥0.5的VOC重叠指标,RON 384 ++与SSD 500相比提高了5.8分。同样值得注意的是,对于320×320输入大小,RON得到表3.MS COCO test-dev 2015检测结果。26.2% AP,将500×500输入尺寸的SSD提高了1.8严格的COCO AP评估指标。我们还将我们的方法与快速R-CNN和在线硬示例挖掘(OHEM)进行了比较[26],这是对Fast R-CNN的重大改进。OHEM方法还采用了最新的花里胡哨的技术,以进一步提高检测性能。OHEM的最佳效果为25.5%AP(OHEM++)。RON获得27.4%的AP,表明所提出的网络在大数据集上更具竞争力。5.4. 从MS COCO到PASCAL VOC大规模数据集对于改进深度神经网络非常重要在这个实验中,我们研究了MS COCO数据集如何帮助PASCAL VOC 的 检 测 由 于 MS COCO 上 的 类 别 是PASCAL VOC 数 据 集 上 的 类 别 的 超 集 , 因 此 与ImageNet预训练模型相比,微调过程变得更容易。从MS COCO预训 练模型开 始,RON 在PASCAL VOC2007上产生81.3% mAP,在PASCAL VOC 2012上产生80.7% mAP。来自MS COCO数据集的额外数据使mAP增加了3.7%和5.3%。表4示出了在COCO+VOC上训练的模型在PASCAL VOC 2007和PASCAL VOC 2012上具有最佳mAP。提交时,我们输入尺寸为384×384的型号在2012年VOC排行榜上名列VGG-16型号之首,埃尔斯我们注意到,其他具有更好结果的公共方法都基于更深的网络[14]。方法列车数据平均精度0.5 0.75 0.5:0.95快速R-CNN[10]火车35.9-19.7OHM [26]trainval42.522.222.6[26]第二十六话trainval45.926.125.5更快的R-CNN[23]trainval42.7-21.9SSD300系列[19]火车35k38.020.520.8SSD500系列[19]火车35k43.724.724.4RON320trainval44.722.723.6RON384trainval46.525.025.4RON320++trainval47.525.926.2RON384++trainval49.527.127.45943方法2007测试2012测试更快的R-CNN[23][19]第十九话:一个人的世界78.8--75.980.180.0RON32078.776.3RON38480.279.0RON320++80.378.7RON384++81.380.7表 4. 在 PASCAL VOC数 据 集 上 的 性 能 所 有 模 型 都 在 MSCOCO上进行了预训练,并在PASCAL VOC上进行了微调6. 消融分析6.1. 多个图层有帮助吗?如第3节所述,我们的网络从多个层生成检测框,并将结果组合起来。在这个实验中,我们比较了层组合如何影响最终性能。对于以下所有实验,如表5所示,我们使用完全相同的设置和输入大小(320×320),除了用于对象检测的层分层检测4 5 6 7地图C65.6CC68.3CCC72.5CCCC74.2表5.组合来自不同图层的要素从表5中,我们可以看出,有必要使用所有的层4,5,6和7,以便检测器可以获得最佳性能。6.2. 客观性优先如3.3节所述,网络为后检测生成对象性先验。对象先验图不仅涉及响应的强度,而且涉及它们的空间位置。如图8所示,具有各种比例的对象 该地图可以指导不同尺度的对象的搜索,从而大大减少了搜索空间。输入map4 map5 map6 map7图8. 从图像生成的客观先验图。我们还设计了一个实验来验证ob-射性先验在这个实验中,我们删除了目标先验模块,只从检测模块预测检测结果其他设置与基线完全相同去 除 对 象 先 验 图 导 致 VOC 2007 测 试 数 据 集 上 的69.6%mAP,导致从74.2%mAP基线下降4.6个点。6.3. 生成区域方案去除检测模块后,我们的网络可以得到区域建议。我们将提案性能与Faster R-CNN [23]进行了比较,并在PASCAL VOC 2007测试集上使用不同数量的提案评估了召回,如图9所示。图9.召回与PASCAL VOC 2007测试集上的提案数量(IoU=0.5)。当区域数大于100时,Faster R-CNN和RON都能实现有希望的区域建议然而,由于区域建议较少,RON的召回大幅提升了Faster R-CNN。具体来说,在前10个区域建议中,我们的320模型获得了80.7%的召回率,比Faster R-CNN高出20个百分点。这验证了我们的模型在区域建议较少的应用中更有效7. 结论我们已经提出了RON,一个高效和有效的对象检测框架。我们设计了反向连接,使网络能够检测CNN多级上的对象。并提出了目标先验知识来指导目标搜索通过多任务损失函数对整个网络进行优化,使网络能够直接预测最终的检测结果。在标准基准测试中,RON实现了最先进的目标检测性能。鸣谢本工作由国家自然科学基金委员会和德国研究基金会(DFG)在Project Grossmodal中国家自然科学基金项目6121136008/DFG TRR-169,不 适 用 于 补 助 金 编 号 61210013 、 61327809 、91420302、91520201和英特尔中国实验室。5944引用[1] P. Arbelaez,J.Pont-Tuset,J.Barron,F.Marques和J.马力。多尺度组合分组CVPR,2014。[2] H.阿兹波和我。拉普捷夫使用强监督可变形零件模型的目标检测。ECCV,2012年。[3] S.贝尔角L. Zitnick,K. Bala和R.娘娘腔。内外网:用跳跃池和递归神经网络检测上下文中的对象。在CVPR,2016年。[4] J.戴,Y. Li,K. He和J. Sun. R-fcn:通过基于区域的全卷积网络的目标检测。在NIPS,2016年。[5] P. 多尔河Appel,S. Belongie和P. 佩洛娜用于对象检测的最后特征金字塔IEEE Transactions on Pattern Analysisand Machine Intelligence,36(8):1532[6] D. 埃尔汉角Szegedy,A.Toshev和D.安盖洛夫使用深度神经网络的可扩展对象检测CVPR,2014。[7] M. Everingham,S. A.埃斯拉米湖凡古尔角,澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战:回顾 展 。 International Journal of Computer Vision , 111(1):98[8] P. F. 费尔岑斯瓦尔布河B. Girshick,D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。IEEE Transactions on Pattern Analysis and MachineIntelligence,32(9):1627[9] S. Gidaris和N.小木基于多区域和语义分割感知cnn模型的目标检测。InIC-CV,2015.[10] R.娘娘腔。快速R-CNN。在ICCV,2015年。[11] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。CVPR,2014。[12] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR,2015。[13] K. 他,X。Zhang,S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔2014年,在ECCV[14] K.他,X。Zhang,S. Ren和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功