没有合适的资源?快使用搜索试试~ 我知道了~
11405命中检测器:用于目标检测的分层Trinity架构搜索郭建元1、2、韩凯2、王云鹤2、张超1、杨朝晖1、韩武1、陈兴浩2、徐昌31机器感知教育部重点实验室(MoE)北京大学机器智能学院2华为技术诺亚3悉尼大学工程学院计算机科学学院{jyguo,zhaohuiyang,wuhancs}@ pku.edu.cn,chzhang@cis.pku.edu.cnc.sydney.edu.au,{kai.han,yunhe.wang,xinghao.chen}@ huawei.com摘要神经网络结构搜索(NAS)在图像分类任务中取得了巨大的成功。最近的一些工作已经设法探索有效的骨干或特征融合层的自动设计的对象检测。然而,这些方法只关注于目标探测器中某一个部件的搜索,而其他部件则由人工设计。我们发现搜索组件和手工设计的组件之间的不一致性将阻止更强的性能检测器。为此,我们提出了一个分层的三位一体搜索框架,同时发现有效的架构,为所有组件(即。主干、颈部和头部)。此外,我们的经验表明,不同部分的检测器喜欢不同的运营商。基于此,本文采用了一种新的机制,为不同的组件自动筛选不同的子搜索空间,从而有效地在相应的子搜索空间上对每个组件进行端到端的搜索。没有花里胡哨,我们的搜索架构,即命中检测器,实现41.4%的mAP COCO minival集与27 M参数。我们的实施可在https://github.com/ggjy/HitDet.pytorch上获得。1. 介绍目标检测是计算机视觉中的一项基本任务,在现实世界中有着广泛的应用,如自动驾驶汽车、监控视频等。深度学习的ad-vNavisphere产生了许多基于卷积神经网络的目标检测任务解决方案。通常,基于深度学习的检测器可以分为两类:(i)一阶段方法,包括YOLO [40]和SSD [33],直接利用CNN来预测感兴 趣的边界框;以及(ii)两阶段方法*通讯作者。表1.在COCO基准测试上将我们的模型与一些典型的两阶段检测器进行了 †表示NAS-FPN最初是为一级RetinaNet搜索的,我们用NAS-FPN替换FPN中的颈部以构建两级检测器。模型骨干(#params/M)脖子(#params/M)头(#params/M)地图(%)FPN基线[26]Res50(23.5)FPN(3.3)2fc(14.3)36.2NAS-FPN [13]†Res50(23.5)NAS-FPN(30.4)2fc(14.3)38.9主干基线Res50(23.5)FPN(3.3)4c1fc(15.6)36.8DetNAS [8]DetNet(9.4)FPN(2.8)4c1fc(15.6)40.2NAS-FPN + DetNASDetNet(9.4)NAS-FPN(29.7)4c1fc(15.6)39.4Hit-Detecotr(我们的)我们的(13.9)我们的(2.7)我们的(9.9)41.4方 法 , 如 Faster R-CNN [42] , 在 区 域 建 议 网 络(RPN)上提取区域建议后生成边界框。单阶段方法的优点在于检测速度快,而两阶段方法在检测精度上占优势。已经开发了一系列一阶段[41,27,22]或两阶段方法[9,18,5然而,手动设计的架构严重依赖于专家知识[25],同时仍然可能是次优的。因此,自动化网络架构设计并最大限度地减少人工劳动的神经架构搜索(NAS)引起了广泛关注并取得了令人印象深刻的进展,特别是在图像分类任务中[57,29,45,31,43,46,48、55、17]。与简单地确定图像是什么的分类任务相比,检测任务需要进一步弄清楚对象在哪里因此,用于对象检测的NAS需要更仔细的设计,并且更具挑战性。现代物体检测系统通常由四个部分组成:(a)用于提取语义特征的主干,e.G. ResNet-50 [19]和ResNeXt-101 [49];(b)用于融合多级特征的颈部,例如特征金字塔网络(FPN)[26];(c)用于生成建议的RPN(通常在两阶段检测器中);以及(d)用于对象分类的头部11406边界框回归最近,有研究在对象检测任务中探索NAS以寻找骨干[37,8]或FPN [13,51]的良好架构。与搜索的骨干或FPN架构,这些工作已经实现了更高的精度比手动设计的基线具有类似数量的参数和FLOP。然而,一次仅利用检测器的一个部分不能满足每个部件的潜力,并且单独搜索的主干和颈部可能不是最佳的或彼此不兼容。如表1所示,用于颈部搜索的NAS-FPN [13]实现了三十八岁。9%的mAP,高于vanilla FPN,而DetNAS[8]用于骨干搜索的性能优于vanilla ResNet-50骨干,具有40. 2%mAP。然而,NAS-FPN和DetNAS的直接组合导致更差的mAP,即,39岁4%,更别说跑赢两款车型了。这种有见地的观察促使我们在NAS中将在本文中,我们建议同时搜索的检测器的所有组件在一个端到端的方式。由于每个组件的最优空间之间的差异和在大的搜索空间内优化的困难,我们引入了一种分层的方法来挖掘合适的子搜索空间从大量的操作候选。特别是,我们提出的命中检测器框架包括两个关键过程,如图所示。1.一、首先,给定一个包含所有候选操作的大搜索空间,利用群稀疏正则化方法筛选出适合检测器各部分其次,采用可微的方式在相应的子搜索空间中搜索每一部分的体系结构。大量的实验表明,我们的命中检测器达到了最先进的基准数据集上的结果,这验证了所提出的方法的有效性。我们的主要贡献可概括如下:• 这是第一次以端到端的方式搜索脊椎、颈部和头部的结构,以进行对象检测。• 我们表明,不同的部分喜欢不同的操作,并提出了一个层次的方式来指定应用程序,为检测系统中的不同组分分配合适的子搜索空间,提高采样效率。• 我们的命中检测器比手工制作或自动搜索的网络性能好得多,计算复杂度低得多。2. 相关工作目标检测的目的是确定什么和在哪里的对象时,给定的图像。乘着卷积神经网络的浪潮,在一阶段[40,33,27,22,11,56]和两级[42,18,9,26,20,21,5,32]检测器。通常,对象检测器由四个部分组成:从输入图像中提取特征的主干,连接到融合多级特征的主干的颈部,在提取的特征1上生成预测候选的区域建议网络,以及用于分类和定位的头部。在过去的几年里,文献中提出了各种方法来处理检测任务,并取得了重大进展。NAS架构自动化设计模型架构,也推动了从人工设计到自动搜索最佳目标检测架构的探索在这里,我们简要地重新审视一些最近的探测器在两个维度:2.1. 手工设计在目标检测解决方案的主流演变中,检测器的手动设计受到多项工作的推动。R-CNN [15]是第一个表明CNN可以在对象检测方面带来显着性能提升的人选择性搜索[47]用于生成建议,SVM用于对每个区域进行分类。在R-CNN之后,提出了Fast R-CNN[14],通过在建议之间共享卷积层的计算来提高速度更快的R-CNN [42]用一种新的RPN(区域建议网络)取代了选择性搜索,进一步提高了准确性,并使得以端到端的方式训练模型成为可能。此外,Mask R-CNN [18]主要在实例分割任务中扩展了Faster R-CNN。同时,本文还提出了一系列无建议检测器,即.单级检测器,已经被提出来加速检测。YOLO [40]和YOLOv2 [41]直接从输入图像中提取特征,通过统一的架构预测边界盒和相关的类概率。SSD [33]通过从具有不同尺度的几个特征图预测一组边界框来进一步改进mAP与此同时,一些技术集中于改进特定部位,如脊柱、颈部和头部,以提高目标检测器的效率DetNet [25]专门为对象检测设计了一种新型骨干网络。FPN [26]开发了一种自上而下的架构,以有效地对不同尺度的特征进行编码。PANet [32]进一步修改颈部模块以获得更好的融合。Fo- cal loss [27]提出来解决类不平衡的问题。MetaAnchor [53]提出了一种灵活的机制,可以从任意先验框中生成锚点。Light- Head R-CNN [24]为两级检测器设计了一个光头,以相应地降低计算成本。2.2. 神经架构搜索用于图像分类的NAS(Neutral Architecture Search)最近引起了极大的关注。几根缰绳--1一级探测器只有三个部分(脊柱、颈部和头部)。我们在这里以两级检测器为例。11407(a)搜索空间图1.点击检测器架构搜索框架概述。我们的方法集中在寻找更好的三位一体的架构,即。脊柱、颈部和头部用于物体探测器。(a)是整个搜索空间;(b)指示用于不同分量的三个子搜索空间;以及(c)示出了对对象检测器的端到端搜索。“TBS” denotesthe layer to be基于递归学习的方法[1,3,57,58,29]训练RNN控制器生成细胞结构并相应地形成网络。还提出了基于进化算法的方法[30,35,38,39,16,45,54],通过改变当前的架构来更新架构。为了加快搜索过程,提出了基于梯度的方法[31,7,48,50,4,52]用于搜索空间的连续松弛,其允许架构搜索中的可微优化。除了NAS的分类工作,最近的一些工作试图开发NAS的对象检测器。NATS [37]声称主干的有效接收场是关键的,并使用NAS来搜索主干中每个卷积层的不同膨胀率。类似地,DetNAS [8]旨在为检测任务寻找更好的骨干。NAS-FPN [13]的目标是更好的特征金字塔网络架构用于对象检测,采用NAS来发现覆盖所有跨尺度连接的新特征金字塔架构。Auto-FPN [51]依次搜索颈部多节段特征的更好融合和头部更好结构。然而,上述方法有两个缺点:(i)搜索空间是由人类先验定义的,对于搜索来说可能太天真(例如,在DetNAS [8]中基于ShuffleNetV 2 [34]的四个选择);(ii)在每个作品中,仅搜索一个特定部分(例如,[37,8]中的骨干,[13]中的颈部)可能导致检测任务中的次优结果。为了解决这两个挑战,我们提出了命中检测器,过滤适当的搜索空间,为每个部分分层和搜索每一个部分,一个更好的检测器在一个端到端的方式。3. 点击检测器在这一节中,我们介绍了所提出的分层三位一体结构的搜索算法的目标检测和结果的检测器,即。点击检测器我们首先发现-分析了当前NAS目标检测算法中存在的问题,阐明了我们需要将所有组件一起搜索的动机然后详细介绍了如何对每个部分的子搜索空间进行拓扑过滤,最后描述了命中检测器的端到端搜索过程。以下搜索算法的陈述基于两阶段检测方法,并且可以容易地应用于一阶段方法。3.1. 预备和动机两级检测系统可以解耦为四个组件:(i)骨干。检测系统中常用的主干,如ResNet [19]和ResNeXt [49],大多是手动设计的分类任务。通常,检测器中最大比例的参数来自主干。例如,FPN的骨干ResNet-101[26]占用了所有参数的71%,为搜索留下了很大的潜力; ㈡颈部。采用网络内特征金字塔来近似不同的感受野可以帮助检测器更好地定位对象。以往的特征融合颈结构都是手工设计的,而NAS可以更好地融合不同尺度的特征; ㈢区域方案网络。典型的RPN是轻量级和高效的:一个卷积层,后面是两个完全连接的层,用于区域建议分类和边界框回归。我们遵循这个设计是为了它的效率,而不搜索这个部分;及(iv)首长。 Detec-投资者通常有一个沉重的头连接到前网络。例如,Faster R-CNN [42]采用ResNet [19]中的第5阶段,而FPN [26]使用两个大的全连接层(整个检测器的34%参数)来执行分类和回归,这对于检测来说是低效的本文将脊椎、颈部和头部这三个有搜索价值的部位称为探测器三位一体。最近,已经提出了几种方法来搜索骨干[8]或特征金字塔架构[13],(b)子搜索空间在出来评分DEL评分在出来在出来DEL评分DELOb操作操作On操作Oh(c)探测器图像骨干脖子TBSTBSTBSTBS头ROITBSTBSTBSTBS特征金字塔7×7TBS×2567×7TBS7×7×256×256TBSTBSROIAlignOp-1Op-2Op-3Op-4Op-5Op-6Op-7Op-N框类11408ValαValVal目 标 检 测 将 搜 索 空 间 A 表 示 为 有 向 非 循 环 图(DAG),其中节点指示特征,而有向边与各种操作相关联。例如卷积层和池化层。我们可以将图中从起点到终点的每条路径看作一个体系结构α∈ A。先前用于对象检测的NAS工作可以用公式表示为优化问题:α= arg minf(α)= arg minLdet(α,w(α))α∈Aα ∈A= argminLdet(α,argminLdet(一)(α,w))。(a) (b)可分块(c)卷积块α∈AVal火车W图2.我们搜索空间的块结构,例如,反转残差块中的候选操作可以选择不同的扩展,NAS过程的目的是找到特定的体系结构α∈ A,最小化验证损失Ldet(α,w),解卷积率、核大小和组卷积的组数α值训练后的权重为W。上面的公式可以表示在主干上的搜索(例如,A表示主干搜索空间)或特征金字塔网络(例如A表示FPN搜索空间)。然而,在目标检测系统中,骨干、颈部(特征融合网络)和头部应该彼此高度一致。仅仅重新设计脊柱或颈部是不够的,这会导致次优的结果。如表1所示,组合DetNAS中单独搜索的骨干和NAS-FPN中的颈部导致更差的结果。我们认为,在检测器中分别搜索主干α、颈部β和头部γ不如端到端地搜索所有这些组件:Ldet(α′,β′,γ′) ≥ Ldet(α′,β′,γ′),通常设计为具有有限数量的操作候选。此外,通常存在手动设计的搜索空间不适合需要优化的架构的情况。为了防止搜索空间不足,我们从FBNet [48]开始,并遍历尽可能多的候选项,以形成一个大的操作候选项集,如图2所示。倒置残差块[44]包含1×1卷积、k×k去卷积、另一个1×1卷积和扩展因子e。可分离块包含一个k×k深度卷积和一个1×1卷积.如果输出维度与输入维度相同把它们加在一起。瓦尔瓦尔S. t. α′,β′,γ′=arg min f(α),arg min f(β),arg min f(γ),如图1(a)所示,整个搜索空间由α βγ(二)N个不同的操作候选,例如,N=32在我们的α,β,γ= arg minLdet(α,β,γ,w(α,β,γ)),α、β、γα ∈ Ab,β ∈ An,γ ∈ Ah.其中α′、β′、γ′是通过求解相应的优化问题而得到的,如方程(1)所示。1,而αε、βε、γε通过端到端搜索算法进行优化,Ab、An、Ah分别为骨干、颈部和头部的搜索空间。在本文中,我们提出了在检测器中寻找三位一体,即。脊柱、颈部和头部以端对端的方式:α,β,γ= arg minLdet(α,β,γ,w(α,β,γ))=实验设置如果我们直接将如此大的搜索空间应用于NAS,则内存和计算开销是如此之大,以至于普通硬件无法有效地支持搜索过程。此外,在第4.4节中,我们经验性地表明,在检测系统的不同部分,相同的操作可能对最终结果产生不同的影响为了找到最合适的搜索空间为每个组件和减少计算负担,我们提出了一个筛选方案,分层过滤每个组件的操作候选人如图1(b)所示,每个候选人都与一个分数相关联。分数较高的候选人被保留,分数较低的候选人被删除。α、β、γarg minLdet(α,β,γ,argminLdet(三)(α,β,γ,w))。以骨干网的搜索空间为例,α、β、γVal火车W进行逐层搜索,每层可以选择任何候选人的操作。假设主干如图1所示,我们提出了分层的三位一体架构搜索框架,以解决问题的方程。3,其中包括两个程序:为每个组件筛选子搜索空间,进行端到端的三位一体搜索。3.2. 筛选子搜索空间搜索空间是神经结构搜索的关键因素之一。[8,37,51]中的搜索空间是人-具有L层,第i层中的第i个操作的得分表示为αl,i。所有得分构成体系结构参数矩阵α ∈ RL×N,其中第i列表示相应层中第i个操作的得分。由于考生人数相对较多,相似,难以区分。为了筛选最合适的操作子集,对矩阵α进行列稀疏正则化:在1×1(组)转换BN ReLUk×k(扩张)DWConvBN ReLU1×1(组)ConvBN+出来在k×k(扩张)DWConvBN ReLU1×1(组)转换BN ReLU+出来在k×k(扩张)卷积BN ReLU+出来11409ValLLL.整个颈部包含4 + 4 =8个横向连接10 - 12- 2016刘晓波(ΣLα2),(4)每一个层次都可以搜索到不同的特征。αil=1l我通过不同的操作来分配适当的感受野。 给定μ是一个权衡超参数。在筛选阶段,学习结构参数α,对候选集的得分进行排序,将最后几个候选集逐渐从搜索空间中删除,直到得到一个大小为Nb 的搜索空间。脊椎、颈部和头部的子搜索空间是从以下层次中选择的:整个搜索空间,即Ob,On和Oh。3.3. 在命中检测器在为每个组件获得合适的子搜索空间后,我们开始对对象检测器进行端到端搜索我们采用[31]中提出的可微方法求解方程。用随机超网表示子搜索空间在搜索期间,每个中间节点被计算为基于所有候选者的加权和。对于主干,第l个节点被公式化为:α-exp(αo)区域建议网络HEAD生成的对齐特征图被应用于预测最终分类和细化对象的边界框。我们设计了4个待搜索的块,然后是一个完全连接的层,以形成检测头。颈部和头部中每个级别的输出通道数在我们的实验中,我们设置Nb=Nn=Nh=8。即使我们仔细地提取子搜索空间,最终的搜索空间也包含8(20+8+4)× 7。9×1028种可能的架构。3.4. 优化为了同时控制搜索检测器的计算成本,我们在损失函数中添加FLOPs约束作为正则化项,并重写Eq.3为:minLdet(α,β,γ,w(α,β,γ))+λ(C(α)+C(β)+C(γ)(6)xl=0l′o(xl−1),(5)α、β、γo∈Obo′∈Ob exp(αo)其中λ是平衡精度和成本的系数,其中xl是第l层的输出,αo是操作o(·)的参数,Ob表示骨干的子搜索空间颈部和头部的节点类似于Eq。五、这种连续的放松使得整个框架对操作权重和架构参数都是不同的参数,这样我们就可以以端到端的方式执行架构搜索。在测试阶段,我们可以很容易地解码架构从α,β,γ通过选择操作具有最高的分数在每一层和构造检测器使用所选择的操作。我们的检测器超网的细节描述如下。主干的基本结构由步长为2的3×3卷积头和包含4+ 4+ 8+ 4= 20个待搜索块传统上,我们将产生具有相同空间大小的特征图的层定义为属于同一网络阶段。在每个阶段中,第一块具有用于下采样的步幅2,并且与输入图像相比,由主干生成的最后一个特征图具有32的下采样率。每个阶段的通道设置为{48,96,256,352}重复。我们使用{C1,C2,C3,C4}来表示主干生成的步幅{4,8,16,32}然后我们将特征金字塔发送到颈部。一般来说,高级别的特征具有更好的语义信息,而低级别的特征具有更级别特征具有更准确的位置信息。为了将语义信号和准确的定位信息从低层和高层传播到特征,我们使用自顶向下和自底向上的路径增强来增强,不同层次的hance特征受到[32]的启发 我们用{P1,P2,P3,P4}和{N1,N2,N3,N4}分别表示自顶向下和自底向上路径后的特征映射。检测器C(α)表示骨干部分的FLOP,并且可以分解为每个操作的线性和:Σ ΣC(α)=αoFLOPs(o,l),(7)l o∈ObC(β)和C(γ)可以类似地计算很明显,从Eq.5、不一样的--相对于架构参数和操作权重是可预测的,因此可以使用随机梯度下降来联合优化{α,β,γ,w}我们采用一阶近似[31],并交替更新架构参数和操作权重我们先固定{α,β,γ}并计算WRL/WRW,以在50%上训练网络权重训练数据,然后我们固定网络权重并计算NML/NMLα、NML/NML β和NML/NML γ,以更新剩余50%训练数据上的架构参数,其中损失函数L是在检测小批量上计算的定位和分类损失。 优化直到超网收敛。4. 实验在本节中,我们通过在COCO基准上进行详细的实验来研究所提出的命中检测器4.1. 数据集和指标我们在MS COCO 2014数据集[28]上进行实验,该数据集包含80个对象类。在[2,26]之后,我们的训练集是80k个训练图像和35k个验证图像子集(trainval35k)的联合,并且验证集11410图3.在探测器的不同部分更换某项操作对COCO minival的影响以FPN(4clfc头)作为基本检测器,输入图像的尺寸为320×320。以左图为例,每次从骨干网中随机选择一个层,以替换为操作候选。对于一个操作候选,这样的随机过程重复6次。是剩余的5k验证图像(minival)。我们考虑平均精度与不同的IoU阈值,0.5到0.95,间隔为0.05作为评价度量,即,mAP、AP 50、AP 75、AP S、AP M和AP L。最后三个衡量绩效的指标是相对于。不同尺度的物体4.2. 实现细节我们的实现基于mmdetection [6]和Pytorch框架[36]。我们首先过滤三个子搜索空间的骨干,颈部和头部,分别。然后我们按照3.4节中的算法搜索命中检测器。最后,我们在上面提到的训练集上训练我们的搜索模型。我们仅使用水平翻转作为训练的数据增强,并且没有用于测试的数据增强。实验在8个V100 GPU上进行。筛选子搜索空间。由于GPU内存限制,我们顺序筛选检测器不同部分的子搜索空间。 中的操作数整个搜索空间O为32,如图所示。2,并且对于所有三个子搜索空间Ob、On和Oh要筛选的操作的数量被设置为8。为了简化这个过程,我们将骨干超网的深度减半为2+2+4+2=10我们首先预训练骨干超网在ImageNet上使用固定的架构参数进行10个epoch,然后在COCO上微调整个检测器超网。模型权值的学习采用动量为0.9的SGD优化器和初始学习率为0.04的余弦调度,结构参数的更新采用学习率为0.0004的Adam优化器。在Eq.根据经验,将4设置为0.1。我们在第6个时期开始优化结构参数,在第12个时期完成搜索,并且在这个阶段不使用资源约束。三一建筑搜索 在筛选子搜索空间后,我们开始搜索脊椎,颈部和以端到端方式进行头连接。我们在ImageNet上基于相应的子搜索空间预训练新的骨干超网,然后在COCO数据集上搜索检测器。学习架构参数和权重的优化器与我们筛选子搜索空间时所做的相同。等式中的λ。根据经验将6设置为0.01,以权衡精度和FLOPs约束。培训详情。 我们首先在ImageNet上对搜索到的主干进行300 epoch的预训练,然后在COCO训练集上对整个检测器进行微调。输入图像被调整大小,使得其较短边具有800个像素。我们使用SGD优化器,每个GPU的批量大小为4张图像,我们的模型训练了12个epoch,称为1× schedule。初始学习率为0.04,在第8次时除以10,第十一个纪元。我们将动量设为0.9,权重衰减设为0.0001。4.3. 主要结果与手工制作方法的比较。FPN [26]以ResNet-50为主干是这里的基线模型。我们用其他优良的脊柱替代FPN中的脊柱,即。MobileNetV 2 [44]和ResNeXt-101[49],并相应地形成两个竞争对手模型。如表2所示,命 中 检 测 器 在 参 数 少 得 多 的 情 况 此 外 , 与 基 于ResNeXt的检测器相比,我们的方法在mAP上高出我们在mAP上的性能比 MobileNetV2高出11.3%,只需要多一点这表明我们的方法可以找到比手工制作的基线更好的架构。与基于NAS的方法进行比较。 如表2所示,我们将我们的方法与在COCO基准上搜索的检测器和采用基于NAS的模型作为主干的检测器进行了比较。FBNet [48]在ImageNet数据集上搜索,我们直接将其用作检测器的骨干,然而,其检测性能11411表2.COCO minival上参数数量、FLOP和mAP的比较FLOP是基于800×1200的输入和1000个区域提案网络中的提案。2、训练中的2x时间表。模型改性B N H#参数(总计)浮点数(总计)地图AP50AP75APSAPMAPLFPN [26]---41.76M197.4B36.258.039.121.340.046.1[44]第四十四话C19.61M116.94B30.151.830.916.733.038.7ResNeXt-101 [49]C60.38M273.3B40.362.144.123.645.051.6FBNet-C [48]C21.40M119.0B35.157.437.219.338.346.7DetNAS-1.3G [8]CC28.45M254.1B40.261.543.623.342.553.8[13]第十三话C68.86M616.9B38.959.342.322.342.849.8DetNAS-1.3G + NASFPNCCC55.29M672.9B39.459.642.123.743.250.4NATS-C [37]C41.76M197.4B38.461.041.222.541.850.4[51]第五十一话CC32.64M476.6B40.561.543.825.644.951.0点击检测器CCC27.12M272.3B41.462.445.925.245.054.1任务令人失望。DetNAS [8]旨在直接在检测基准上搜索更好的主干,而其余部分不变。我们的方法比DetNAS的性能高出1.2%,参数更少,FLOPs几乎很多。可以看出,命中检测器超越了所有以前的NAS为基础的方法,这表明它是重要的,在一个对象检测器中搜索的三位一体。与测试开发集的最新技术进行比较。 我们还比较了我们的命中检测器的结果与其他国家的最先进的方法对COCO测试开发,我们总结了比较表3。命中检测器只应用水平翻转作为数据增强和2x训练方案,实现了44.5%的mAP,没有花里胡哨的东西。我们的模型具有更少的参数,与其他检测器(如TridentNet和NAS-FPN)相比,性能更好。这表明我们的方法可以找到比手工制作或部分搜索方法更好的架构。表3.COCO测试开发的单模型结果比较模型测试大小地图R-FCN [9]600/100032.1更快的R-CNN [42]600/100030.3变形[10]600/100034.5FPN [26]800/120036.2[18]第十八话800/120038.2RetinaNet [27]800/120039.1[24]第二十四话800/120041.5PANet [32]800/100042.5TridentNet [23]800/120042.7NAS-FPN [13]1024/102444.2点击检测器800/120044.54.4. 消融研究不同操作的影响。 我们使用一个玩具的例子来证明,不同的部分检测器是敏感的不同的操作,所以不同的部分需要不同的子搜索空间。在这里,我们简单地选择12 OP-如图2所示,从整个搜索空间中删除所有erations。例如,以左图为例,对于每个候选操作,我们从骨干中随机选择一层,用候选操作替换原始操作,以探索所选操作候选的影响。对于每个部分(脊柱,颈部和头部),我们重复随机过程6次,以确保操作候选项可以插入不同深度的层中。我们可以发现:(1)不同的部分偏好不同的操作。(2)同一种手术在不同部位表现不同,“convk3d1”在脊柱获得30.4%-30.6%mAP,而在颈部获得30.7%-30.9%mAP;(3)同一部分中的一个操作的性能足够稳定,因此我们可以通过不同的部分来筛选子搜索空间。列稀疏正则化。为了进一步评估列稀疏正则化的影响,我们在等式中设置µ。 4到{0,0. 010 1}并随机选择4个候选操作绘制图4。 我们可以发现,如果没有列稀疏正则化(μ=0),不同操作的概率相当相似,这使得筛选过程不稳定。随着μ的增加,操作之间的差异变得更加显著,这有助于更容易地筛选适当的子搜索空间。我们设置µ=0。1在我们的实验中。筛选子搜索空间的重要性。我们通过表4所示的消融研究,研究筛选不同子搜索空间的影响。当三个部分具有相同的子搜索空间时,mAP从41.4%下降到40.1%,这表明不同的部分需要有合适的子搜索空间才能获得更好的性能。11412骨干C头4C3C2C1脖子P1七夕k=3k=5k=5d=3 d=2 d=3irk=3d=1e=6irk=5d=1e=6N1P2N2P3N3FCROIP4N40.120.090.060.030.000.120.090.060.030.00脊柱和头部倾向于使用具有较大扩张率的操作,如具有较多中间通道的倒置剩余块,以增加特征表达;颈部倾向于使用较大扩张率的操作,以获得较大的接收野。图4.列稀疏正则化中权衡参数μIRIRIRIRIRIRk=3k=3K=5K=5K=5K=7d=1D=2d=1D=2d=1d=1e=3e=3e=6e=6e=3e=6图5.可视化搜索的命中检测器。我们使用直角框来表示每一层的操作.表4.筛选子搜索空间的消融研究模型地图AP50AP751子搜索空间3子搜索空间40.161.244.041.462.445.9三位一体架构搜索的重要性。 我们ex-plore的影响,每一个搜索的一部分,命中检测器在这里。以基于ResNet-50的FPN [26]作为基线模型,我们每次用我们搜索的组件替换基线模型的一部分,并在COCO mini上验证新模型如表5所示,我们搜索的骨干架构达到39.2%mAP,搜索的头部也达到38.5%mAP。通过搜索三位一体,命中检测器的mAP增加到41.4%,这远远高于基线模型和单一部件竞争对手。另一个值得注意的发现是,脊椎和头部比颈部更能我们认为主要的原因是:(1)目标检测更强调对图像中每个目标位置的感知,因此设计用于检测的主干比设计用于分类的主干性能更好; HEAD的目标是识别和细化边界框的位置,因此在HEAD中搜索更多合适的卷积层可以为检测任务带来更多好处。我们搜索到的命中检测器如图5所示。我们观察到,主干更喜欢具有大内核大小的操作。然而,没有选择实现图3中的最佳mAP的具有膨胀3的卷积层。一个主要原因是,ResNet-50骨干在玩具前,样本只包含3×3卷积,因此使用膨胀3操作除了表5.在Hit-Detector中搜索的不同部件的评价C意味着我们用搜索到的零件替换基线中的零件。模型搜索脊颈头地图FPN基线36.24c1fc基线C36.8搜索主干C39.2颈部检查C37.4搜索头C38.5点击检测器CCC41.4扩展到一级检测器。为了评估我们方法的通用性,我们将其应用于RetinaNet [27]以搜索一级检测器。搜索算法与第3.4节中提到的相同。如表6所示,我们的模型在mAP方面优于RetinaNet 1.3%,模型大小小于基于VGG的SSD和基于ResNet-50的RetinaNet。表6.将命中检测器扩展为COCO minival上的一级检测器(1x计划)。†表示我们实施的结果。模型#参数mAPAP50AP75SSD-VGG 19 [33]36.04M29.3--SSD-ResNet101 [12]-31.2 50.433.3DSSD [12]-33.2 53.335.2[44]第四十四话16.68M31.5 50.933.5[27]第二十七话37.97M35.6 55.638.4点击检测器33.05M36.9 55.239.55. 结论在这项工作中,我们提出了一个分层的三位一体架构的搜索方案,以解决的问题,不完整的搜索检测器会导致不同的组件之间的不一致性,并导致次优性能。我们揭示了不同的组件偏好不同的操作,从而筛选出三个子搜索空间,以提高搜索效率。然后,我们搜索的所有组件的对象检测器的基础上的子搜索空间中的端到端的方式。搜索的架构,即命中检测器,实现了最先进的性能COCO基准没有花里胡哨。致谢J. Guo和C. Zhang的研究得到了国家自然科学基金61671027和国家重点研发项目的资助。2017YFB1002400中国项目,C. Xu由澳大利亚研究委员会在项目DE180101438下支持。dw_k3_d1dw_k5_d3ir_k3_d1_e6ir_k5_d3_e6= 0= 0.01= 0.1dw_k3_d1dw_k5_d3ir_k3_d1_e6ir_k5_d3_e6= 0= 0.01= 0.11×13×3概率概率类框11413引用[1] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。ICLR,2017年。[2] Sean Bell,C Lawrence Zitnick,Kavita Bala,and RossGir- shick.内外网:用跳跃池和递归神经网络检测上下文中的对象。在CVPR,2016年。[3] Han Cai,Tianyao Chen,Weinan Zhang,Yong Yu,andJun Wang.通过网络变换进行有效的体系结构搜索。在AAAI,2018。[4] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件 上 直 接 进 行 神 经 结 构 搜 索 。 arXiv 预 印 本 :1812.00332,2018年。[5] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的对象检测。在CVPR,2018年。[6] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Shuyang Sun,Wansen Feng,Ziwei Liu,Jiarui Xu , Zheng Zhang , Daizhi Cheng , ChenchenZhu,Tianheng Cheng,Qijie Zhao,Buyu Li,Xin Lu,Rui Zhu,Yue Wu,Jifeng Dai,Jingong Wang,JianpingShi,Wanli Ou,Chen Change Loy,and Dahua Lin. MM检测:打开mmlab检测工具箱和基准测试。arXiv预印本:1906.07155,2019。[7] 辰昕、邪灵犀、君无邪、齐天。 渐进式可区分体系结构搜索:缩小搜索和评估之间的深度差距。arXiv预印本:1904.12760,2019年。[8] Yukang Chen ,Tong Yang ,Xiangyu Zhang,GaofengMeng,Chunhong Pan,and Jian Sun.Detnas:对象检测上的神经架构搜索。在arXiv预印本:1903.10979,2019。[9] 戴纪峰,易力,何开明,孙建。R-fcn:通过基于区域的全卷积网络的目标检测。在NIPS,2016年。[10] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。InICCV,2017.[11] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:使用关键点三元组的对象检测。arXiv预印本:1904.08189,2019年。[12] Cheng-Yang Fu , Wei Liu , Ananth Ranga , AmbrishTyagi,and Alexander C Berg. Dssd:解卷积单次激发探测器。arXiv预印本:1701.06659,2017年。[13] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V Le. Nas-fpn:学习可扩展的特征金字塔体系结构,用于对象检测。在CVPR,2019年。[14] 罗斯·格希克。快速R-CNN。在ICCV,2015年。[15] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功