没有合适的资源?快使用搜索试试~ 我知道了~
1SP-NAS:用于对象检测的Chenhan Jiang*1,Hang Xu徐鸿<$1,张伟1,梁晓丹2,李振国11华为诺亚摘要先进的目标检测器通常采用由ImageNet分类设计和预训练的骨干最近出现了神经架构搜索(NAS),可以自动设计特定于任务的主干,以弥合分类和检测任务之间的差距。在本文中,我们提出了一个两阶段的串行到并行架构的搜索框架命名为SP-NAS,搜索空间模型数据集任务组件大小操作者ResNet [15]ImageNetCLS骨干-- DetNet [18]Coco检测骨架-- HRNet [42]Coco检测骨架--块间[32]第三十二话ImageNetCls骨干固定连接块间NAS-FPN [12]CocoDet脖子固定连接灵活的面向任务的检测骨干。 具体而言是自动FPN [46]COCOBDDDet脖子固定块间序列搜索轮的目的是找到一个序列,VOC头连接通过Swap-Expand-Reignite搜索算法,在特征层次结构中具有最佳尺度和输出通道的rial块。DetNAS [9]COCOVOC检测骨架固定≈1012内核大小rithm;并行搜索阶段然后组装几个子体系结构以及以前的搜索回来-SP-NASCOCO BDDECP VOC检测骨架增长#块渠道>1020下采样形成一个更强大的平行结构的主干。我们通过在多个检测基准上探索网络态射策略来有效地搜索检测骨干。由此产生的架构实现了SOTA结果,即最佳性能(LAMR:在EuroCityPersons基准汽车检测排行榜上,在COCO上以低于NAS-FPN的FLOPS提高了2.3%的mAP,在VOC上达到84.1%的AP 50,在准确性和速度方面都优于Det- NAS和Auto-FPN。1. 介绍目标检测是计算机视觉的核心任务之一,用于定位和分类图像中的多个目标,并已广泛用于现实世界的应用[29,28,7,2]。最近的作品,如FPN [19]和RetinaNet [20],直接使用ImageNet分类网络作为骨干特征提取器,例如,ResNet [15],它既不是特定于任务,也不是特定于数据。目标检测的主干设计与图像分类的主干设计应有所不同,前者需要在特征结构中同时对不同尺度的目标进行定位和分类,而后者只需输出*两位作者对这项工作的贡献相等。†通讯作者:xuhang33@huawei.com表1.我们的SP-NAS和其他主干网设计的比较。1) 我们直接在检测数据集上搜索主干。2)我们的骨干在搜索过程中不断增长,搜索空间更大,更灵活。3)我们搜索的是主链的整体结构,而不仅仅是嵌段间的结构。通过对最后一个特征图求平均来对图像级标签进行处理。因此,设计一个有能力的骨干对象检测更具挑战性,通常需要大量的人力。此外,一些手工制作的特定检测骨干网络[38,42,19]通常针对COCO [21]数据集,无法保证适应其他检测任务,如自动驾驶。最近,神经架构搜索(NAS)算法在发现图像分类的高精度架构方面展示了有希望的结果,这超过了手工制作的网络的性能,节省了人类然而,由于在搜索空间中快速评估候选模型的困难,用于对象检测的NAS通常更具挑战性由于主干的架构在搜索过程中不断变化,因此需要在ImageNet上重复预训练主干[35],这在计算上因此,大多数NAS工作并不直接在主干上搜索例如,Zoph等人[49]将搜索到的体系结构从分类转移到检测主干。NAS-FPN [12]和Auto-FPN [46] focus1186311864利用NAS对特征融合模块(neck)进行改进。据我们所知,DetNAS [9]是寻找更好的检测骨干的唯一工作(表1)。它通过创建一个预先训练的权重共享超级网络来避免重复的ImageNet训练通过对超网中的不同路径进行采样,DetNAS可以在不进行训练的情况下选择最佳的子然而,权重分配图在采样子网络的性能和完全训练结果之间产生了巨大的差距[36]。因此,搜索结果可能无法反映体系结构的真实性能此外,预定义和固定的超网极大地限制了骨干网的搜索空间(仅改变内核大小),而忽略了骨干网的其他关键因素,相比之下,我们的工作旨在开发一种高效灵活的NAS方案,以找到用于对象检测的最佳数据特定骨干。在这项工作中,我们提出了一个新的架构搜索框架命名为SP-NAS朝向一个灵活的和面向数据的检测骨干。 通过观察主干检测的最新设计,两个组件很重要:a)在不同骨干阶段上的计算的适当分配以及每个特征水平(例如,DetNet [ 9 ]中的额外阶段和更高的空间分辨率); b)高级和低级特征的更好融合(例如,在[ 42 ]中跨多分辨率子网络的重复融合)。因此,我们提出了一种串行到并行的搜索策略:1)串行搜索阶段的目的是在特征层次的每一级中找到具有最佳分辨率、感受野和输出通道的串行块序列; 2)并行搜索阶段然后将几个搜索到的串行体系结构组装成具有高级和低级特征的更好融合的更强大的并行结构主干。受网络态射[43,10]最新进展的启发,我们在序列级搜索阶段采用了“交换-扩展-重燃”搜索策略,允许骨干网持续增长,直到达到最优设计。在每次迭代中,我们对当前网络应用一组修改,包括然后,我们选择最好的modification中的节点与最大的性能改善。这两种操作都遵循网络形态。骨干可以保持训练和增长,同时避免在ImageNet上重复预训练。我们还发现,当变形的架构偏离原始ImageNet预训练的主干时,算法可能会陷入困境,无法进一步提高性能。因此,我们使用了一种我们发现了这个Rithm运行良好,并有效地提高了检测性能,并且通常只需要1 - 2轮ImageNet预训练就可以达到最佳串行骨干。对于并行级搜索阶段,我们的目标是找到一个最佳的并行级结构,随着每个骨干阶段的不同数量的并行节点,以更好地融合和提取高级别和低级别的功能。由于搜索空间相对较小,我们使用随机搜索与资源限制抽样。对广泛使用的检测基准进行了广泛的实验,包括Pascal VOC [11],COCO [21],BDD [47]和ECP [3]。所提出的方法优于当前最先进的检测方法,即,在汽车检测EuroCityPersons排行榜上实现最先进的性能。我们还观察到一致的性能增益超过手工制作的骨干结构与相同的块结构设置。 特别是,我们的方法比NAS-FPN高出2.5%mAP,FLOPS更少,并且在COCO上的推理时间与Cascade RCNN相似的情况下实现了更高的性能,并且在VOC上达到84.1%AP50,在准确性和速度方面优于DetNAS和Auto-FPN。2. 相关工作物体检测。现代基于锚点的检测方法,如FasterRCNN [34]和FPN [19]通常由几个模块组成:骨干、特征融合颈、区域建议网络和RCNN头。大多数关于对象检测的工作直接使用为ImageNet分类任务设计和预训练的骨干网络,例如,ResNet [15].由于目标检测器的性能 例如,DetNet [18]试图通过在后期使用更高的空间分辨率和扩大的瓶颈来开发检测的主干。然而,那些手动设计的主干不是特定于数据的(例如,为COCO设计的主干对于其他数据集可能是次优的),并且需要大量的人类专家的劳动。神经架构搜索。NAS的目标是自动找到最佳的网络架构并重新配置,把人类从这个乏味的网络架构工程中解放出来。大多数以前的作品[25,5,23,39,45]搜索分类模型的基本CNN架构,而其中一些专注于更复杂的高级视觉任务,如语义分割和对象检测[8,22,9,12]。Baker和Zoph等人[1,49,4,48]应用强化学习来训练RNN策略控制器,以生成一系列动作来指定CNN架构,这需要大量样本来收敛。 Real和Liu等人[33,24]尝试通过改变当前最好的架构来“进化”CNN架构。Liu,Xie和Cai等人[25,45,5]尝试引入架构参数11865LK4阶段1阶段2阶段3阶段L-1阶段LSerialNet……平行1...平行K1...交换/扩展不同通道后并行子网交换机熔接连接企业级搜索阶段图1.概述我们的SP-NAS迈向灵活和面向数据的主干。我们的算法可以解耦成两个阶段。a)对于序列级搜索,我们采用了此阶段的输出模型称为SerialNet。b)并行级搜索的目的是在SerialNet中的每个阶段找到具有不同数量的并行级结构,以更好地融合和提取多尺度特征。用于离散搜索空间的连续松弛,从而允许CNN架构的权重共享和可微分优化。然而,这些基于分类的搜索方法不能很好地推广到对象检测,这是由于计算密集型ImageNet预训练的要求。对于检测任务,Zoph et al.[49]将搜索到的体系结构从分类转移到检测器主干,这不能保证对任何检测数据集的最佳适应。NAS-FPN [12]和Auto-FPN [46]专注于通过NAS改进特征融合颈,以从不同的特征级别找到更好的DetNAS [9]使用进化搜索算法在预先训练的权重共享超网络上搜索更好的骨干以进行检测相反,我们的工作旨在开发一种高效灵活的NAS方案,以找到用于对象检测的最佳数据特定骨干。3. SP-NAS管道我们提出了一个串行到并行的搜索流水线:1)串行级搜索的目的是在特征层次的每个阶段中找到具有最佳深度、分辨率、感受野和输出通道的串行块的序列。2) 然后,并行级搜索将若干搜索级体系结构(并行分级)组装成具有不同语义级特征的更好的细化和融合的更强大的并行主干。我们的SP-NAS概述如图1所示。我们的SP-NAS算法可以用来改善任何检测器。此外,我们采用3.1. 串行级搜索检测网络的常用主干包括VGG [37],ResNet [15]和ResNeXt [44]。这些网络主要是为ImageNet分类设计基本块(BB)瓶颈块(BNB)ResNeXt块(XB)conv3x3(In=n,out=n)conv3x3(In=n,out=n)conv1x1(In=4n,out=n)conv3x3(In=n,out=n)conv1x1(In=n,out=4n)conv1x1(In=4n,out=2n)conv3x3(In=2n,out=2n,group=32)conv1x1(输入=2n,输出=4n)+ 残差连接+ 残差连接+ 残差连接表2.我们所选区块的详细结构因此在特征层次中以不同尺度定位多个对象是次优的一般来说,高层特征层强烈响应整个对象,因此更具区分力,而低层特征更可能被局部纹理和图案激活,并包含更多的空间信息。因此,大多数手工制作的检测特定骨干网络[38,42,18]遵循串行结构,并试图通过在后期添加膨胀和更高的空间分辨率(DetNet[18] ) 或 保 留 和 改 进 不 同 分 辨 率 的 特 征 ( FishNet[38])来利用和保留在这项工作中,我们提出了一个串行级的骨干搜索空间,其中包含一个序列的串行块与灵活的设置,丁的块,分辨率和输出通道在每个阶段的功能层次结构。搜索空间。如图1所示,序列级主干搜索空间由一系列块组成。脊柱的每一部分都可以分成几个部分根据输出特征的分辨率划分阶段,其中阶段是指由具有相同分辨率的特征馈送的块的数量在本文中,我们考虑了ResNet中的三种块:基本块、瓶颈块[15]和ResNeXt块[44],如表2所示。主链中的嵌段数从8到60不等。级的数量可以从5到7中选择,并且每个级以因子2逐渐下采样我们允许在每个阶段中有不同数量的块,从而分配com-移植是灵活的。首先,输入图像被馈送到[16,42]之后的主干架构中,该架构由两个3 × 3卷积(步幅=2)组成,将分辨率降低到1,阶段1阶段2阶段3阶段L-1…………评估拱或重新点火(如果没有改善(重定向自Rounds)…………序列级搜索阶段扩大交换……2311L−11113……11866块2块3块1块2块1块4块6块5块8块7(11),d1,d1,d1)(一)、1 d1d,1,d1)图2.说明ResNet18上的“交换”操作。在“交换”之后,第二级中的块的数量从2增加到4。以前模型并且主体中的基部通道的数量等于杆的输出通道的数量。在原始的ResNet中,每个下采样块的通道大小都加倍。然而,由于通道大小将极大地影响特征表示能力和计算成本,因此我们还在整个序列中搜索通道大小加倍的位置。同时保持ImageNet预训练的效果。在每个搜索步骤中,我们对当前网络f应用一组修改,包括如图1所示,对于[43]而输入/输出通道的数量保持不变。新块中卷积的权重被初始化为单位矩阵。对于二、对当前网络的这两种修改都将在初始化时尽可能保持输出不变,从而保持“ImageNet预训练的效果”。从使用ImageNet预训练的常用网络开始,骨干网络可以通过在当前网络上迭代“扩展”和“交换”来扩大并探索搜索空间中的各种架构详细的“交换-扩展-重新点燃”搜索策略可以在算法中找到。从一个小的基础网络(如ImageNet预训练的ResNet或ResNeXt)开始,我们在每次迭代时对当前网络应用几组修改,包括“交换”和“扩展”,并在多个节点上用一个短的训练来一个完整的架构被编码为“BNB(11,1d 1,11,1,1d 11,11 d1)”。第一个占位符编码块设置(BB:基本块,BNB:瓶颈块,XB:ResNeXt块)。“,”以不同的分辨率分隔每个阶段。“1”表示没有通道变化的常规块,而“d”表示在该块中基本通道的数量加倍。例如,ResNet50可以被编码为交换-扩展-Reignite搜索策略。 由于我们在搜索过程中改变了主干的架构,因此我们不能使用ImagNet [35]预训练模型。大多数检测模型需要从图像初始化geNet在训练过程中预先训练的模型虽然他等。[13]已经表明ImageNet预训练对于检测来说并不是不可或缺的,需要更长的训练(11×)作为补偿,这使得直接在主干上搜索在计算上变得受网络态射最新进展的启发[43,10],我们在序列搜索短语中采用时间(例如 3个时期)。然后我们评估这些建筑师-并选择性能改进最显著的最佳更新模型在实践中,我们发现,当当前架构偏离原始ImageNet预训练骨干太多时,迭代搜索算法可能会陷入无法找到可以进一步提高性能的修改。因此,我们使用了一个“重新点燃”的策略,通过预先训练的图像网络的当前卡住的我们将“卡住”状态定义实际上,我们发现这种在算法1中,nr可以被设置为1或2)。该算法大大减少了ImageNet预训练的次数,同时保持了灵活的搜索空间,可以在多个计算节点上高效并行串行级搜索的输出架构称为SerialNet。算法1:串行到并行搜索输入:停止条件nstuckS,nstuckP,重燃次数nr基线模型f0ImageNet预训练权重θ0网络初始化,网络初始化←网络初始化_网络初始化(0,0)���������������������������������Serial_level:当你 做中文(简体)While fuc S do#networkmorphism<������������������������������������������������������������,���、��������������� ←(,)������������������������������,��� ←���������������_������������(���,��� ������������)���if更新最佳网络���������������������,���������������,���������������←���������,���,���中文(简体)端端���������������←��������������������� e(��� )������������endParallel_level:并行级别← 0���������������←������������ (���������������)���������������������,��� ←���������������_������������(��� ,��� )������������������������������������而p <我的天啊���随机搜索���������,��� ←���������������_������������(���,��� ������������)���if更新最佳网络���������������������,���������������,���������������←���������,���,���中文(简体)端端块8块7块6交换Res18块3块4块511867L%方法骨干输入大小训练时期AP AP50 AP75 APS APM APLInf Time(fps)FLOPS(G)Coco[18]第十八话DetNet-59800× 13332437.9 60.141.2 22.7 41.2 48.3-292.9[第38话]渔网-150800× 13332440.6--23.3 43.9 53.7-294.9[42]第四十二话HRNet-W40800× 13332441.6 62.545.6 23.8 44.9 53.812.0(V100)380.7Cascade RCNN [6]ResNet101800× 13332442.8 62.146.3 23.7 45.5 55.210.2(V100)323.3TridentNet [17]ResNet101800× 13332442.7 63.646.5 23.9 46.4 55.6 1.7(V100)-[27]第二十七话ResNet101-TB 800× 13332444.9 63.948.9---5.5(V100)860.2DetNAS [9]DetNAS800× 13332440.0 61.543.6 23.3 42.5 53.8-289.4[31]第三十一话AmoebaNet1280× 12805043.4-----4.7(P100)655.5[12]第十二届中国国际音乐节AmoebaNet1280× 128015048.0-----3.6(P100)1317SPNetCOCO(BNB)SPNet-BNB800× 13332445.6 64.349.6 28.4 48.4 60.110.2(V100)391.1SPNetCOCO(XB)SPNet-XB800× 13332447.4 65.751.9 29.6 51.0 60.4 5.6(V100)654.5SPNetCOCO(XB)SPNet-XB1280× 12805049.1 67.153.5 31.0 52.6 63.7 2.1(V100)949.0表3. COCO上最先进的手工网络和NAS检测器的mAP和推理时间的比较。我们搜索到的堆叠在Cascade RCNN上的SPNetCOCO骨干网优于手工制作和自动设计的骨干网,具有相似或更快的推理速度。大胆的结果是基于更长的训练和额外的面具监督。方法LAMR地图合理的小闭塞全部[19]第十九话0.0880.1930.337 零 点二二八88.4[19]第十九话0.0890.1940.3400.226 87.8ECPHRNet-W40 [42]0.0670.1320.272 0 . 1 8 1 个单位88.1HRNet-W18 [42]0.0670.1320.2840.187 88.7SPNetECP0.054 0.1100.252 0.165 89.6表4. ECP最新单模型的LAMR和mAP比较LAMR是官方度量标准(越小越好)。我们搜索的模型目前在ECP排行榜上达到了TOP 1的性能(请参阅数据集网站)。3.2. 并行级搜索最近,更多的工作集中在一个并行的结构堆叠在原来的骨干,旨在更好地利用和融合的信息,从所有的特征层次与不同的分辨率骨干特征层次。这表5.在BDD和PASCAL VOC的推理过程中,平均精度和每秒帧数(fps)的比较。SPNetBDD从ResNet50开始,带有瓶颈块,SPNetV OC基于ResNet18,带有基本块。L级:s1到sL第l级sl将前一级sl−1的输出(记为xl−1)作为输入,可以表示为:xl= sl(xl−1)。 对于每一级sl,我们考虑将一系列并行的p_1加到p_K上,以增强L l是由于信息壁垒的限制,系列类结构中的三个阶段。 例如,PANet[26]通过并行自下而上,在较低层中使用精确的本地化信号特征表示。更具体地说,输出fea-前一阶段的结果以循环方式迭代地馈送到P11到P1k。取xl−1作为前一级的输出特征,则将递归p1的递归运算转换为路径增强[42]第42话一个人pK可以写为xk=pk(xk+upsample(xk−1))l l l l−1l具有重复信息的lel高到低分辨率扫描器其中k=1,…K,x0=xl,p0=sl,且upsample(·)L l跨多分辨率子网的视频交换去净化-为了使用高性能骨干结构,我们考虑在串行级搜索中基于搜索到的骨干SerialNet对子网结构进行并行级搜索,如图1所示。搜 索 空 间 。 并 行 级 主 干 堆 叠 在 结 果 上 ( 即 ,SerialNet)在序列级搜索中。搜索空间包括一系列搜索以及搜索到的主干架构的每个阶段。每个子网的子网是训练的SerialNet的相应阶段的副本。并行级结构使得能够更好地进行特征提取和融合。如图1所示,SerialNet主干包括%方法输入大小AP AP50 AP75Inf Time(fps)BDD[19]第十九话1920× 1024 36.361.236.812.4[19]第十九话1920× 1024 37.161.337.99.2自动FPN [46]1920× 1024 33.9--3.1SPNetBDD1920× 1024 38.763.239.23.7VOC[19]第十九话600× 1333-77.6-30.4自动FPN [46]600× 1333-81.8-10.6DetNAS [9]600× 1333-81.5--VOC600× 1333-84.1-19.911868pLLL由1x1 conv和上采样操作组成,将通道和分辨率限制为与xl−1一致。 因此,子网的输出功能k通过upsample(·)成为同一层p k −1的输入。对于所述电池内部的网状结构我们直接复制我们的Se找到的相应阶段,rialNet到网络,例如:pk=sl.请注意,我们还从sl中复制了权重参数。因此,我们可以充分利用检测数据集的训练和前一阶段的ImageNet预训练。第l阶段的原始输入特征映射xl−1将经过多次重复,以获得更好的特征提取。更进一步,通过执行多个up_s_mp_l_e(·)118699BDD(mAP)ECP(LAMR)VOC(AP50)基线36.50.08877.1串行级回合137.2 +0。7 0.064 - 0。024 81.2 +4。1串行级回合238.0 +0。8 0.061 - 0。003 83.5 +2。3平行位准38.7 +0。70.054 - 0 007八十四点一+0。6表6.串行到并行检索期间的消融研究。系列级搜索正在进行两轮重燃。从ResNet50中检索BDD和ECP,并分别使用mAP和LAMR进行评估。和子网中的下采样,并行级搜索空间使得能够实现不同级别特征的完全融合。我们将并行级搜索空间编码为一个列表,其中包含每个阶段的搜索次数。例如,如果SerialNet有4个阶段,则“(0,2,1,3)”表示每个阶段的并行线程数,例如,“0”表示在该阶段中没有额外的子网。搜索策略。与串行搜索相比,并行搜索空间相对较小:唯一组合的总数为(K +1)L,其中K是最大搜索次数(本文中K = 3),L是前一轮搜索发现的级数(通常为4 × 6)。由于我们在串行级搜索中重用骨干的权重作为并行搜索的初始化,因此并行级骨干的训练是有效的。因此,在并行级搜索中,我们只是使用一个随机搜索与资源约束的采样,以找到最佳的组合的并行并行搜索。编码的采样不均匀。增加一个额外子网的概率与每个子网的FLOPS的倒数成正比,这避免了在骨干网中增加太多的冗余在并行级搜索结束时,最佳性能架构被命名为SPNet。4. 实验数据集和评估指标。为了评估我们在不同领域的方法 , 我 们 对 PASCAL VOC [11] , COCO [21] , ECP[3],BDD[47]用于普通物体检测和自动驾驶检测。COCO[21]是一个常见的对象检测数据集,包含80个类,118K图像用于训练,5K用于评估。PASCAL VOC(VOC)[11]包含20个对象类。训练数据是VOC 2007 trainval和VOC 2012 trainval(10K图像)的联合,评估是VOC2007测试(4.9K图像)。我们仅使用0的IoU报告mAP分数。五是实践。EuroCity Persons Dataset(ECP)[3]是一个用于行人检测的自动驾驶数据集。ECP包含大约24K 的 训 练 图 像 和 4.3K 的 验 证 图 像 。 Berkeley DeepDrive(BDD)[47]是一个包含10个对象类的自动驾驶数据集。BDD包含大约70K的图像用于训练,10K用于评估。对于评估指标,我们采用COCO检测评估标准[21]中的指标,即IoU阈值范围为0.5至0.95的平均平均精度(mAP),间隔为0.05和不同尺度(小,中,大)。此外,为了比较ECP排行榜上的表现,我们使用了对数平均未命中率(LAMR),忽略了不同条件下的区域例(合理,小,闭塞,所有)[3]为:LAM R=exp(1f10g(m r(argmaxfppi(c)≤ffppi(c),其中,fcb(c)是在置信水平c下每幅图像的假阳性数,mr = 1-召回率(c)。因此,LAMR越低,检测器的性能越好4.1. 实施细节中间结果序列级搜索的实现详细信息。 对于每个数据集,我们为起始架构VOC选择一个ImageNet预训练模型:ResNet18 [15] 、 BDD 和 ECP : ResNet50 、 COCO :ResNet50和ResNeXt101 [44]。为了提出一个新的架构,我们采用3个随机modifications(该训练方案仅用SGD优化器训练网络3个epoch,余弦衰减学习率为0.02至0.0001,mo-1。0. 9,批量= 2×8和10−4作为重量衰减。在训练过程中更新所有骨干参数相位我们在4个计算节点上并行训练和测试新架构,每个节点有8个Nvidia V100 GPU卡。从经验上讲,我们发现已经有3个epoch的训练可以将好的模型与坏的模型分开。在COCO上大约需要3个小时,在BDD上大约需要4个小时,在ECP上大约需要1个小时,在VOC上大约需要0.5个小时来完成对一个架构的评估。将NR设置为2,并且Nstuck=20。由于整个体系结构是不断增长的,搜索空间非常大,包含超过1020个可能的路径。企业级搜索的实施详细信息。 在并行级搜索期间,我们首先使用在串行级搜索中获得的SerialNet作为基本骨干,并在骨干上添加RPN和RCNN头作为公共的两级检测器。然后,我们随机采样的并行级编码和构造的并行结构。每个子网由串行网络中相应的权重初始化.我们还使用相同的对验证准确度的估计由于模型非常大,我们在8个GPU上使用1×8的批量大小(每个GPU一个图像我们允许的最大数目为K=3。该算法的搜索空间相对较小,仅包含4 ×103个唯一候选项.中间结果分析。图3显示了ECP数据集上的性能轨迹(蓝线),串行级搜索和并行级搜索。可以发现,两个搜索轮都可以通过发现新的架构来持续提高性能。 以来11870数据集块类型启动主干串行级电子级VOCBBResNet18(11,d1,d1,d1)(11d,1111,d11111111,d111,1,1111)(0,0,0,0,0,1)ECPBDDCOCOBNBResNet50(111,d111,d11111,d11)(111d1111,d1111,11d,1111,1111)(1111111111d,11111111111111,d1111111111111,d1111111,111,1)(1111d1,111111111d,11,111111111111111d,11111111111111,1)(0,2,1,1,0)(0,1,2,3,0,0)(0,0,0,1,0,0)CocoXBResNeXt101 32x4d(111,d111,d111111111111111111,d11)(1111,d1111,d111111111111111111,d11,1)(1,0,2,1,2)表7.SP-NAS在ECP,BDD,COCO和VOC上搜索的详细主干3.2ECP数据集ECP数据集(a) 不同训练策略的表现顺序百分之八十百分百(b) 不同数据集之间骨干阶段的不同计算分配3.0百分之六十百分之八十2.82.6百分之四十百分之六十百分之四十2.42.2百分之二十0%的百分比1 2 3 4 5 67百分之二十0%的百分比2.00 20 40 600 10 20 30使用ImageNet预训练完全训练序列级搜索(1epoch)使用随机初始化完全训练序列级搜索(3epoch)ECP BDD VOC COCOStage1Stage2阶段3第四阶段第五阶段第六阶段搜索的体系结构数量搜索的体系结构数量图4. (a)全列车性能比较-图3.序列级搜索的性能轨迹和ECP数据集上的并行级搜索。红点是当前搜索性能最高的最佳模型。我们的搜索算法可以持续提高这两个阶段的性能。序列级搜索中的网络态射也是一种权重共享方法,我们想检查通过我们的搜索方法找到的性能排名是否与ImageNet预训练骨干模型的完全训练一致。图4(a)显示了我们的序列级搜索模型与VOC完全训练的性能比 较 。 可 以 发 现 , 我 们 的 搜 索 方 法 可 以 保 持 与ImageNet初始化的标准训练方案相同的性能排名。完全随机初始化的训练只能产生混乱的结果。因此,我们的消融研究。平行水平阶段和连续水平阶段的中间结果见表6。对于BDD数据集(从ResNet50开始),使用mAP进行评估,并在两轮重燃下进行序列级搜索。AP50用于评估VOC(从ResNet18开始),LAMR用于ECP(从ResNet50开始)。我们可以发现,第一次重燃对VOC和BDD的改善结果表明,随着进一步重燃,性能不断改善。4.2. 对象检测结果在确定每个数据集上的最佳架构后,我们完全训练模型,因为“快速训练方案”只在该架构上训练了3个epoch。由于模型已经非常大,我们只能使用SGD每个GPU使用一个图像来对于所有数据集,使用ImageNet预训练和我们对VOC的序列级搜索。蓝色实线是具有快速训练方案的实际序列级搜索轨迹。线上的每一点是每一轮搜索中的局部最优结构。我们使用ImageNet预训练/随机初始化来完全训练这些架构。(b)计算分配(FLOPS)的骨干阶段的搜索架构.具有更复杂对象的COCO需要在更大的感受野上进行更多的计算,而其他人则专注于前面的阶段。如果没有另外说明,我们训练24个时期。初始学习率为0.02,并降低了两倍(×0. 1)微调期间;10−4为重量衰减; 0.9为动量。在训练过程中,图像翻转用于数据扩充。COCO,0。8×101。使用2×在测试期间,不使用多尺度测试。像素大小=800×1333用于COCO ( VOC : 600×1333 , ECP : 1920×1024 ,BDD:1920×1080)。详细的最终搜索架构。表7显示了VOC、COCO、ECP和BDD最终搜索模型的详细架构。与手工制作的ResNet/ResNeXt和自动搜索的DetNAS系列不同,通过简单地在同一骨干阶段堆叠块或增加整个网络的宽度来提高不同任务的网络能力,所提出的SP-NAS可以为特定于任务的特征级别和适当的接受域增长网络。我们发现,对于ECP,所有的提升通道都发生在早期阶段,这意味着低级别的功能在本地化中起着重要的作用。对于并行级结构,可以发现阶段1的输出特征对于ECP和BDD是重要的,因此在随后的阶段中添加更多的数据。为了全面理解,我们在图4(b)中说明了搜索SPNet在不同骨干阶段的计算分配比例(FLOPS)。计算能力更强,3.253.203.153.103.053.00ACC(1-LAMR)AP5011871SPNet(预算外)SPNet(BNB)HRNet-W48ResNext101-64x4HRNet-W32ResNext101-32x4ResNet101ResNet50COCOAP(%)50444842464440424038383660 80 100 120 140 160180(a) V100上FPN的延迟(ms)36200 400 600 800 1000(b) 检测器的浮点数(G)(输入大小:800x1333)表8. ImageNet分类任务和COCO对象检测任务与现有骨干网络的性能比较。FPN检测器用于所有骨干网络。* 仅表示序列级搜索。由于COCO中场景和类别尺度的复杂性,位于第5和第6阶段,具有较大的感受场然而,对于较少类别和自动驾驶场景,早期阶段(stage1-3)的特征表示更为重要。与最先进技术的比较。测量推理速度,我们在一个V100上运行2000个测试图像GPU并取最后1000张图像计算平均推理时间进行比较。表3、表4和表5显示了SP-NAS从COCO、ECP、BDD和VOC中搜索的架构结果。SPNet在所有检测基准上都比基线FPN获得了显著的增益。在表3中,我们与以前的手工制作的检测器进行了详细的比较,这些检测器主要集中在主干设计上:DetNet [18]、FishNet[38] 、 HRNet [42] 、 Cascade RCNN [6] 、 TridentNet[17]、CBNet[27]和检测器NAS:[12][13][14][15][16][17][18][19][1在单个V100 GPU上测试了推理时间(一些标有其他GPU设备的模型遵循原始论文)。我们列出了那些没有多尺度测试的报告结果 的 方 法 , 并 且 报 告 的 SPNetCOCO 基 于 CascadeRCNN。我们搜索的模型在速度/FLOPS和准确性方面优于大多数SOTA模型图5. (a)比较mAP与在COCO上使用FPN的不同常见主干上的延迟。SPNet(BNB)是我们搜索的网络,瓶颈块为XB:ResNeXt块。(b)不同主干与若干先进探测器的组合。阶段,它已经在ImageNet和COCO上实现了优于常用骨干ResNet和其他自动/手工设计的检测骨干网络的性能。在延迟和mAP方面,我们的SP-Net在图5(a)中优于其他网络。我们进一步将SPNet和常用的主干与不同的检测器进行了比较:FPN更快的RCNN [19],Cascade RCNN[6]和级联掩码RCNN [14]在图5(b)中。搜索的SPNet可以通过替换不同的检测器来提高比手工制作的骨干网络ResNet [15],ResNeXt [44]和HRNet-w32/48 [42]更多的性能,并在FLOPS/mAP方面超越它们。与其他NAS方法的搜索效率比较。我们的方法和其他NAS方法的搜索时间可以在表9中找到。我们随机抽取了10个网络作为基线,这些网络与SPNetVOC具有相同的块数和阶段数,并使用ImageNet预训练进行训练。结果表明,我们的方法比随机样本更有效,避免了重复的预训练,并且可以用比DetNAS [9]和NAS-FPN [12]更少的时间找到更好的架构。关闭.例如,SPNetCOCO(BNB)在相同的推理时间下比Cascade RCNN [6]的性能好2.8%,并且在FLOPS和训练时期更少的情况下优于NAS-FPN [12]值得注意的是,在表4中,简单地将网络深度从ResNet 50增加到ResNet 101在ECP上具有0.6%的mAP下降,并且将网络宽度从HRNet-W18扩展到HRNet-W 40也是无用的。这反映了常见检测和自动数据集之间的骨干差距。相比之下,我们的SPNetECP达到0.067 LAMR,而ECP [3]验证集为0.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功