没有合适的资源?快使用搜索试试~ 我知道了~
11526数据驱动的规模聚集网络神经元分配易力张辉邝益民陈伟恩张敏SenseTime{liyi,kuangzhanghui,chenyimin,wayne.zhang}@ sensetime.com摘要成功的视觉识别网络得益于从广泛的尺度上聚集信息。以前的研究已经研究了块中连接层或多个分支的信息融合,试图加强多尺度表示的能力。尽管它们取得了巨大的成功,但现有的实践通常手动为每个尺度分配神经元,并在整个网络的所有聚合块中保持相同的比例,从而导致次优性能。在本文中,我们提出了学习神经元的分配,以聚合深度网络的不同构建块中的多尺度信息每个块中最具信息量的输出神经元被保留,而其他神经元被丢弃,因此多个尺度的神经元被竞争性地和自适应地分配。我们的尺度聚合网络(ScaleNet)是通过重复尺度聚合(SA)块来构建的,该块在广泛的尺度范围内连接特征图。每个尺度的特征图由下采样、卷积和上采样操作的堆栈生成。数据驱动的神经元分配和SA块以相当低的计算复杂度为代价实现了强大的代表性建议的ScaleNet,通过取代ResNet中的所有3×3卷积与我们的SA块,实现了比ResNet更好的性能,其出色的变化,蚂蚁,如ResNeXt和SE-ResNet,在相同的计算复杂度。在ImageNet分类上,ScaleNets绝对将ResNets的前1错 误率 降低 了 1.12 (101层 )和 1.82( 50层 )。 在COCO对象检测方面,ScaleNets在Faster-RCNN上分别将ResNets骨干的mAP绝对提高了3.6和4.6。代码和模型发布在https://github.com/Eli- YiLi/ScaleNet上。1. 介绍深度卷积神经网络(CNN)已成功应用于广泛的计算机视觉任务,如图像分类[18],对象检测[25]和语义分割[22],由于其图1:规模聚合(SA)块的数据驱动神经元分配示意图。学习SA块中不同尺度的输出神经元(或通道)的比例,从而在网络中的层之间自适应地改变。强大的端到端可学习表示。从下到上,CNN的层具有更大的感受野,具有更粗的尺度,并且它们对应的表示变得更语义化。已证明从多个尺度聚合上下文信息对于提高准确性是有效小尺度表示对诸如纹理、角和边的局部结构进行编码,并且对于定位是有用的,而粗尺度表示对诸如对象类别、对象交互和场景的全局上下文进行编码,并且因此澄清局部混淆。存在许多先前的尝试通过设计网络架构来融合多尺度表示。它们聚合具有不同深度的连接层的多尺度表示[32,9,13,20,6,3,16,12,26]或具有不同卷积核大小的块中的多个分支[28,4]。每个聚合块中的多尺度表示的比例在试错过程中手动设置,并且在整个网络中保持相同。理想情况下,多尺度信息聚合的最有效架构设计是自适应的。亲-特征图C 3C 21:下采样3:上采样C 12:卷积4:连接第八SA区块百分百百分之八十百分之六十百分之四十百分之二十0%的百分比块12345678910111213141516第一级第二级第三级第四级每个SA块中的神经元比例C 1C 2C 311527ResNetsDenseNetsSE-ResNetsResNeXts5050-光20115211010121550101116502151011695025.0 4024.524.03823.53623.022.522.021.521.020.52 4 6 8 10 12FLOPs(十亿)3432304 6 8 10 12 14# backbone FLOPs(十亿)图2:ScaleNets和现代架构在ImageNet验证数据集(左)和MS COCO小型验证集(右)上的前1错误率(单次裁剪测试)的比较,ScaleNet-50-light表示同样由ResNet-50构建的光ScaleNet。补充材料中给出了结构。每个尺度的神经元部分根据尺度在收集上下文中的重要性来确定。这种比例还应与网络中的阶段相适应。底层可能更喜欢细鳞片,顶层可能更喜欢粗鳞片。本文提出了一种新的数据驱动的多尺度聚集神经元分配方法,该方法自动学习一个网络的所有聚集块中每个尺度的神经元比例。我们将神经元分配问题建模为一个FLOPs约束下的网络优化问题,并采用SGD和反向投影法进行求解。具体地说,我们使用SGD训练一个种子网络,该网络具有针对所有尺度的丰富输出神经元,然后通过选择所有尺度中信息量最大的输出神经元,将训练好的网络投影到一个满足约束的可行网络中。通过这种方式,用于多尺度表示的神经元分配是可学习的,并且是针对网络架构定制的。为了有效地提取和利用多尺度信息,我们提出了一个简单而有效的尺度聚合(SA)块,以增强CNN的多尺度表示能力。代替如在[28,9,32,9,13,20,6,17,18,19,3,16],SA块显式地将具有一组因子的输入特征映射下采样到小尺寸,然后独立地进行卷积,从而得到不同尺度的表示。最后,SA块将多尺度表示重新采样到与输入特征图相同的分辨率,并将它们在通道维度上连接在一起。 我们使用SA块来将ResNets中的所有3×3卷积替换为ScaleNets。由于每个SA块中的下采样,ScaleNet通过降低空间域中的采样密度,这是独立的,但又是对信道域中的网络加速方法的补充。由于下采样操作,与先前的多尺度架构相比,所提出的SA块在计算上更高效,并且可以捕获更大的尺度(或感受野)范围,如图6所示。我们将所提出的数据驱动神经元分配技术应用于SA块,以形成可学习的SA块。为了证明可学习的SA块的有效性,我们使用可学习的SA块来替换ResNet中的所有3×3卷积,以形成一个名为ScaleNet的新架构的所提出的ScaleNet优于ResNet及其改进的变体,如ResNeXt [31]和SE-ResNet [11],以及最近流行的架构,如DenseNet [13],在图像分类和对象检测方面具有令人印象深刻的余量,同时保持相同的计算复杂性,如图2所示。具体来说,ScaleNet-50和ScaleNet-101在ImageNet上分别将ResNet-101和ResNet-50的前1错误率绝对降低了1.12%和1.82%。受益于可学习SA块的强大多尺度表示能力,ScaleNets在对象检测方面非常有效。具有主干ScaleNet-101和ScaleNet-50的更快RCNN [25]在MS COCO上绝对将ResNet-101和ResNet-50的mAP提高了3.6和4.6。2. 相关工作多尺度表示聚合的研究由来已久。它可以分为捷径连接方法和多分支方法。无线电连接接近。连接层ImageNet top1错误率(%)SCaleNet-101scaleNet-50scaleNet-101DPN-98scaleNet-50ResNet-10ResNeXt1-101SE -ResNet-152ResNet-10 1个ResNet-152ResNet-50ResNet-50Faster-RCNN 600*1000Faster-RCNN 800*1200mAP@IoU=0.50:0.9511528上采样3x3转换上采样concatenate3x3转换3x3转换′′′′′′11l ll具有不同深度的图像通常具有不同的感受野,因此具有多尺度表示。层与层之间的连接不仅可以最大化信息流以避免梯度消失,而且可以增强CNN的多尺度表示能力。ResNet [9],DenseNet [13]和Highway Network[27]通过身份快捷连接或基于门控函数的连接融合多尺度信息。深层聚合[32]进一步扩展了与跨阶段的树的捷径连接。在物体检测中,FPN [20]在一个检测器的头部[20]中从上到下将粗尺度表示融合到细尺度表示。ASIF [4]从上到下和从下到上合并来自4个层HyperNet [16]和ION [3]将来自不同层的多尺度特征所有的快捷连接方法都集中在重用前面图层的精细比例表示或后续图层的粗略比例表示。由于层之间有限的连接模式,尺度(或接收场)范围有限。相反,所提出的方法在每个SA块中利用一组下采样因子本身生成宽范围的表示尺度。因此,它是一个通用和标准的模块,可以取代现有网络的任何卷积层,并有效地用于各种任务,如图像分类和目标检测,在我们的实验中验证。多部门办法。最有影响力的多分支网络是GoogleNet[28],其中每个分支都是分布式的,用不同的深度和卷积核大小签名它的分支具有不同的感受野和多尺度表征。在文献[4]中,设计了类似的多分支网络用于人群计数。与以往的多分支方法不同,本文提出的SA块通过不同的因子对输入特征图进行下采样来扩展表示的尺度,从而生成多尺度表示.同样,它可以生成比[28,4]更宽尺度范围的表示。下采样也用于PSPNet [34]和ParseNet [24]的上下文模块。然而,上下文模块仅在网络报头中使用,而所提出的SA块在整个骨干中使用此外,每个尺度的神经元比例在上下文模块中手动设置和固定,同时自动学习并且在一个网络中从一个SA块到另一个SA块不同。我们的数据驱动神经元分配方法也与网络修剪方法[8,2,30,19]或网络架构搜索方法[35,29]相关。然而,我们的数据驱动的神经元分配方法的目标是多尺度表示聚合,而不是整个架构设计。它分别学习每个SA块中尺度的神经元比例。这样,神经元的分配问题就大大简化了,并且易于优化。3x3转换1x1转换...1x1转换+1x1转换最大池最大池图3:SA块的图示。左侧显示原始残差块,右侧显示用SA块替换3×3卷积后的模块3. ScaleNets3.1. 缩放聚合块提出的尺度聚合块是一个标准的计算模块,它是为任何给定的变换Y构造的=T(X),其中X∈RH×W×C,Y∈RH×W×Co,其中C和Co为输入和输出变量,数字分别。T是任何算子,例如卷积层或一系列卷积层。假设我们有L尺度。通过顺序地进行下采样D1、变换T1和解采样算子U1来生成每个尺度1:X1=D1(X),(1)Y1=T1(X1),(2)Y1=U1(Y1),(3)其中Xl∈RHl× Wl× C,Yl∈RHl× Wl× Cl ,且Yl∈RHl× W× Cl。将等式(1)和(2)代入等式(3),并将所有L尺度连接在一起,得到Y′=<$LU(T(D(X),(4)其中,“”表示沿厄齐尔通道维数,Y∈RH×W×Cl是最后的输出所述尺度聚合块的特征图。在我们的实现中,具有因子s的下采样Dl由具有s×s内核大小和s步幅的最大池层实现上采样U1通过具有最近邻插值的插值来实现3.2. 数据驱动的神经元分配在每个SA块中存在L尺度。不同的尺度在不同深度1x1转换+11529的区块中应发挥不同的作用。因此,简单地平均分配输出神经元比例的尺度将导致次优性能。11530kl(θ)knkn我们的核心思想是识别每个输出神经元的重要性,然后修剪不重要的神经元,同时保留重要的神经元。我们使用每个通道的BatchNorm[15]层的标度权重(本文中的γ)来评估其重要性。 其根本原因是γ在归一化后恢复了原始响应,因此算法1数据驱动的神经元分配通过设置Nk=LC初始化种子网络训练种子网络直到收敛对于k=1:K做对于n=1:Nkdo计算pkn=V(θkn)/Ob权重与特征CON正相关信心这些权重较低的神经元意味着它们不能提取可信的特征。设K,Ok(1≤k≤K),Okl(1≤k≤K,1≤l≤L)表示目标的总SA块指数端选择约束下pkn最大的神经元等式(6)端重新训练新网络直到收敛。网络,第k个节点的计算复杂度预算SA块,以及一个输出第k个块中尺度为l我们的目标是在SA块k中为每个尺度最优分配神经元,预算为Ok。形式上,我们优化层或模块。为了说明这一点,我们通过将SA块合并到最近流行的ResNet中来开发ScaleNet[9]。ΣminF(θ),s.t. k,θ1≤n≤NkOkl(θkn)≤Ok,(5)在ResNets [9]中,3×3卷积占整个网络计算复杂度的大部分。因此,我们将所有3×3层替换为SA块,如其中F(θ)是整个网络的损失函数,θ是网络的可学习权重,θkn是-在第k个SA块中设置第nl(·)指示标度index,并且Nk是第k个SA块中的输出神经元的总数我们用投影SGD优化目标函数5.我们首先优化F(θ),得到θt,然后通过优化将θt投影回由每个SA块k图3.我们将3×3卷积中的步幅替换为额外的最大池层,如在DenseNets中所做的[13]。通过这种方式,所有3×3层都可以一致地被SA块替换。如表1所示,使用ResNet-50,ResNet-101和ResNet-152作为起点,我们通过在神经元分配过程中将每个SA块的计算复杂度预算设置为其对应的残差块中的3×3conv的计算复杂度预算来获得对应的ScaleNets1minθΣ。.. V(θkn)−V(θt)。n3.4.计算复杂度所提出的SA块具有实际用途。 它使S.T.ΣOkl(θkn)≤Ok,(六)ScaleNets高效,因为特征图更小。理论上,如果我们将输出通道数设置为1,1≤n ≤NkSA块到C(即, C.L.C=C),则保存的FLOP为其中V(θkn)表示第n个神经元1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000L11531kl(θ)knΣL11HlWlCl)−9C(HWC),取ScaleNet-50-light作为在SA块k中。它被定义为BatchNorm层用于目标通道(k,n)神经元越重要,计算复杂度越低,就越有可能被保留。方程(6)通过选择neu-例如,它将其起点ResNet-50的FLOP减少了29%,同时将 ImageNet 上 的 单 次 裁 剪 top-1 准 确 率 绝 对 提 高 了0.98,并且比表2中所示的最先进的修剪方法表现得更好我们使用Tensorflow在一个V(θkn)/Ob最大的电子在每个SA块GTX 1060 GPU和i7 CPU。图像大小为224×K. 注意,b是compu的指数平衡因子。逻辑复杂性b被设置为0以避免过多的超参数调整。算法1列出了神经元分配的过程。首先,我们通过为每个尺度设置C个神经元来设置种子网络(即,Nk=CL)。第二,我们训练种子网络直到收敛。 第三,我们选择最重要通过求解方程(6),得到一个新的网络。最后,我们从头开始重新训练新网络3.3. 实例化建议的SA块可以集成到标准架构,通过取代其现有的卷积224,批量为16。ScaleNet-50、ResNet-50、SE-ResNet-50、ResNeXt-50的推理时间分别为93 ms、95 ms、98ms、147 ms,证明了该结构的优越性。3.5. 执行我们对ImageNet的实现遵循[9,11,28]中的实践。我们在训练过程中使用随机裁剪、随机水平翻转和照片失真来执行标准数据增强[28]所有输入图像均为1请注意,数字表示其起点的层号,而不是ScaleNet。11532输出大小ScaleNet-50ScaleNet-101ScaleNet-152112×1127 ×7转换,步幅256×563×3最大池,步幅2米56×561×1转化率,64D[1, 2, 4, 7]3×3卷积[C1,C2,C3,C4]U[1, 2, 4, 7]1×1转化率,256×31×1转化率,64[1, 2, 4, 7]C1,C2,C3,C4]C3×3[1, 2, 4, 7]1×1转化率,2561×1转化率,64[1, 2, 4, 7]C1,C2,C3,C4]C3×3[1, 2, 4, 7]1×1转化率,25628×282×2最大池,步幅2米28×281×1转化率,128D[1, 2, 4, 7]3×3卷积[C1,C2,C3,C4]U[1, 2, 4, 7]1×1转化率,512×41×1转化率,128[1, 2, 4, 7]C1,C2,C3,C4,C3,C4[1, 2, 4, 7]1×1转化率,5121×1转化率,128[1, 2, 4, 7]C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,C11,C12,C13,C14,C15,C16,C17,C18,C19,C1[1, 2, 4, 7]1×1转化率,51214×142×2最大池,步幅10米14×141×1转化率,256D[1, 2, 4, 7]3×3卷积[C1,C2,C3,C4]U[1, 2, 4, 7]1×1转化率,1024×61×1转化率,256[1, 2, 4, 7]3×3conv[C1,C2,C3,C4][1, 2, 4, 7]1×1转化率,10241×1转化率,256[1, 2, 4, 7]3×3conv[C1,C2,C3,C4][1, 2, 4, 7]1×1转化率,10247 ×72×2最大池,步幅2米7 ×71×1转化率,512D[1, 2, 4, 7]3×3卷积[C1,C2,C3,C4]U[1, 2, 4, 7]1×1转化率,2048×31×1转化率,512[1, 2, 4, 7]C1,C2,C3,C4]C3×3[1, 2, 4, 7]1×1转化率,20481×1转化率,512[1, 2, 4, 7]C1,C2,C3,C4]C3×3[1, 2, 4, 7]1×1转化率,20481 ×1平均池,1000-d fc,softmax表1:ScaleNet的体系结构D[1,2,4,7]表示1×1,2×2,4×4和7×7下采样层。U[1,2,4,7]表示1×1,2 ×2、4×4和7×7上采样层。我们选择7×7(而不是8×8)下采样和上采样层,因为最后一级网络的空间分辨率是7×7。 3× 3 conv [C1,C2,C3,C4]表示输出通道为C1,C2,C 3和C4的3 × 3卷积层。请注意,C1、C2、C3和C4因SA块而异,详见补充材料。top-1acc.↑FLOPS(109)↓CP-ResNet-50 [1,10]-3.681.5SSS-ResNet-50-1.941.3NISP-ResNet-50-0.211.1LCP-ResNet-50 [7]+0.091.0ScaleNet-50-light+0.981.2表2:与ImageNet上最先进的修剪方法的比较。ResNet-50和ScaleNet-50-light在相同的环境中训练,其他的在他们的论文或网站上报道。在将它们输入网络之前,将其大小调整为224×224优化是使用同步SGD与动量0.9,重量衰减0.0001和批量大小256与8 GPU的服务器上进行。初始学习率被设置为0.1,并且每30个epoch降低10倍所有的模型都要从头开始训练100个纪元。在CIFAR-100上,我们训练了300个epoch的批大小为64的模型。初始学习率设置为0.1,在150和225中降低10倍。数据放大-11533tation仅包括随机水平翻转和带有4像素填充的随机裁剪。在MS COCO上,我们使用Faster RCNN的公开实现2训练所有检测模型。模块在具有8个GPU的服务器上训练。批量大小和epoch编号分别设置为16和10。初始学习率被设置为0.01,并在epoch 4和epoch 8时降低10倍。4. 实验4.1. ImageNet分类我们在ImageNet 2012分类数据集[18]上评估了我们的方法,该数据集由1000个类组成模型在128万张训练图像上进行训练,并在50k张验证图像上进行评估,错误率为前1和当评估模型时,我们应用中心裁剪,以便在其较短的边缘首先调整为256之后从每个图像中裁剪224×224像素2https://github.com/jwyang/faster-rcnn.pytorch网站11534方法原始再落实ScaleNetTop-1错误前五错误Top-1错误前五错误GFLOPSTop-1错误前五错误GFLOPSResNet-5024.77.824.027.134.122.20(-1。82)6.04(-1。09)3.8ResNet-10123.67.122.096.037.820.97(-1。12)5.58(-0。第四十五章)7.5ResNet-15223.06.721.585.7511.520.62(-0。96)5.34(-0。41)11.2表3:ScaleNets与其基线ResNets在ImageNet验证集上的单次裁剪错误率(%)的比较。原始列是指原始论文中报告的结果为了公平比较,我们使用与训练ScaleNet相同的策略重新训练基线,并在重新实现列中报告结果。#层ResNetsScaleNets38层二十六岁8824.60(-2。28)56层二十六岁1923.83(-2。36)101层二十四岁5422.77(-1。第七十七章)表5:ScaleNet及其基线ResNet之间CIFAR-100上的前1错误率比较。所有结果均为5次运行中的最佳结果。表4:与ImageNet验证集上具有单一裁剪top-1和top-5错误率(%)的最先进架构的比较。与基线的比较。我们首先将建议的ScaleNet与表3中相应的基线网络进行比较。已经表明,具有不同深度的ScaleNets始终以令人印象深刻的余量改进其基线,同时使用相当的(甚至更少的)计算复杂性。具体来说,与基线相比,ScaleNet-50、101和152在ImageNet上分别将前1错误率绝对降低了1.82、1.12和0.96,前5错误率绝对ScaleNet-101甚至优于ResNet-152,尽管它只有66%的FLOP(7.5vs. 11.5)。它表明,显式和有效地聚合ScaleNets的多尺度表示可以在图像分类上实现相当大的性能增益,尽管深度CNN在一定程度上对尺度方差具有鲁棒性。与最先进的架构进行比较。 我们接下来在表4中比较 ScaleNets 与 ResNets 、 ResNeXts 、 SE-ResNets 和DenseNets。事实证明,ScaleNet的性能始终优于它们。ScaleNet-50、101和152与SE-ResNet-50、101和152相比,前1错误率分别降低了1.09、1.41和0.95。令人惊讶的是,我们的ScaleNets-101的性能比ResNeXt-101好0.23,并且在没有组卷积的情况下运行得更快。这些观察结果验证了所提出的ScaleNets的有效性和效率。4.2. CIFAR分类我们还在CIFAR-100数据集上进行了实验为了充分利用相同的SA块架构,我们在CIFAR-100上的基线ResNets 也 采 用 了 残 留 的 瓶 颈 块 ( 即 , 随 后 的1×1conv,3×3conv和1×1conv)代替基本残差块(两个3 ×3conv层)。网络输入为32×32图像。第一层是具有16个通道的3个卷积。然后,我们使用一个堆栈的n个残余瓶颈块上的每个这 三个 阶 段的 特征 图 大小 分 别为32×32, 16×16和8×8。每个残差中1×1conv、3×3conv和1×1conv的通道数块在第一级上被设置为16、16和64,32、32和第二级128,第三级64,64和256。子采样通过在每个阶段开始时步幅为2的卷积来执行网络以全局平均池层、100路全连接层和softmax层结束。共有9n+2个叠加加权层。当n=4,6和10时,我们分别获得微小图像的基线ResNet- 38,ResNet-56和ResNet-101它们对应的具有可比计算复杂度的ScaleNet表示为ScaleNet-38、ScaleNet-56和ScaleNet-101。我们在表5中比较了ScaleNet及其在CIFAR-100上的基线性能。同样,提议的ScaleNet以较大的利润率优于ResNet。已经验证了ScaleNets 可以在从ImageNet到CIFAR-100的多个数据集上有效地增强和改进其强基线ResNets,并且多尺度聚集对于微小图像分类也很重要。4.3. 数据驱动的神经元分配所提出的ScaleNets可以自动学习每个SA块中每个尺度的神经元比例神经元方法Top-1错误前五错误GFLOPSResNeXt-5022.2-4.2ResNeXt-10121.25.68.0SE-ResNet-5023.296.624.1SE-ResNet-10122.386.077.8公司简介21.575.7311.5DenseNet-12125.027.712.9DenseNet-16923.86.853.4DenseNet-20122.586.344.3ScaleNet-5022.26.043.8ScaleNet-10120.975.587.5ScaleNet-15220.625.3411.21153526.526.025.525.024.524.023.51 2 3 4 5 68007006005004003002001000ImageNet、ScaleNet-5023.022.822.622.422.222.0ScaleNet-56的比例编号1009080706050403020101234567891011 121314 1516第一级第二级第三级第四级CIFAR-100、ScaleNet-561 2 3 4 5 6ScaleNet-50的比例编号0123456789 101112131415161718图4:均匀神经元分配和数据驱动神经元分配之间的比较.(左)CIFAR-100,(右)ImageNet。分配取决于训练数据分布和网络架构。分配vs.数据驱动分配。图4比较了每个SA块中尺度的均匀神经元分配和数据驱动神经元分配。 我们在CIFAR-100和ImageNet上进行实验,规模L从2到5。数据驱动的神经元分配优于均匀分配,除了在L = 2的CIFAR-100上之外,在所有设置中均具有令人印象深刻的裕度。我们还观察到,数据驱动分配在L=3的CIFAR- 100和L = 4的ImageNet上表现最好。这是合理的,因为ImageNet具有更大的分辨率,并且需要比CIFAR-100更宽尺度范围的表示在我们所有的实 验 中 , 我 们 在 CIFAR-100 上 将 L 设 置 为 3 , 在ImageNet上将L设置为4,除非另有说明。基于均匀分配(SA块的增益),ScaleNet-50实现了22.76%的前1错误率通过数据驱动分配,top-1错误率可以进一步降低到22.20%。神经元分配的可视化。图5显示了ScaleNets的每个SA块中的学习神经元比例。我们观察到,神经元比例的规模是不同的SA块到另一个在一个网络。具体来说,在CIFAR-100和ImageNet上,规模2从下到上占越来 越 多 的 比 例 Scale 4 主 要 存 在 于 ScaleNet-50 在ImageNet上的前两个阶段。比例尺1秤2规模3图5:CIFAR-100和ImageNet上ScaleNets每个SA块中尺度的神经元比例。4.4.基于MS COCO的为了进一步评估其他识别任务的泛化,我们在MSCOCO [21]上进行了对象检测实验,该实验由80 k个训练图像和40 k个验证图像组成,这些图像被进一步分成35 k个minius-mini和5 k个mini-validation集。按照常见的设置[9],我们将训练图像和miniusmini图像组合在一起,从而获得115 k张用于训练的图像,以及5 k个用于评估的mini-validation集。我们采用更快的RCNN框架[25]。我们通过将图像的短边限制为800(或600)像素,并将长边的最大大小限制为1200(或1000)来测试模型。与基线的比较。表6比较了ScaleNet及其基线ResNet在MS COCO上的检测结果。通过多尺度聚合,FasterRCNN实现了令人印象深刻的增益,范围从3. 2比4 9 .第九条。特别是ScaleNet-101达到了39.5的mAP。ScaleNet对于对象检测非常有效。表7比较了用于对象检测的主干的有效性。 结果表明,ScaleNet-101实现了在ResNets、ResNeXts [31]、SE-ResNets [11]和Xception [5]中以最小计算复杂度获得最佳检测性能。均匀神经元分配数据驱动的神经元分配ImageNet top-1 err.(%)均匀神经元分配数据驱动的神经元分配CIFAR-100 top-1 err.(%)11536600/1000800/1200mmAPAPsAPmAPl地图APsAPmAPlResNet-50ScaleNet-5031.736.212.617.135.940.748.353.832.637.215.919.436.741.34652.6ResNet-101ScaleNet-10134.137.313.816.638.642.45155.135.939.517.721.339.94451.655.2表6:MS COCO上的mAP的比较mAP表示mAP@IoU=[0.50:0.95]的结果ResNets和ScaleNets的结果是通过保持除主干之外的所有设置相同来获得的,以便进行公平比较。ImageNetCocoTop-1错误 FLOPsmAP(600/1000)ResNet-15221岁5811. 5三十四3Xception21岁1190二十七岁7SE ResNet-15221岁0711. 5三十七1ResNeXt-10121岁018. 0三十六7ScaleNet-10120块9775三十七3表7:在MS COCO上用于目标检测的骨架的有效性的比较所有模型都使用相同的策略进行训练,以便进行公平比较。通过数据驱动的神经元分配,ScaleNets可以有效地执行各种视觉识别任务。5. 结论在本文中,我们提出了一个规模聚集块与数据驱动的神经元分配。SA块可以替换ResNets中的3×3conv来获得ScaleNets。数据驱动的神经元分配可以有效地分配神经元,以适应不同的环境。在每个SA块中可缩放。所提出的ScaleNets具有广泛的感受野,并执行有效和高效的图像分类和目标检测。表8:采用不同下采样方法的CIFAR-100上的前1错误率所有方法的FLOPs相同,并在5次运行中记录最佳结果。1400120012001000800ResNet的最小RF-ResNet的50最大RF-GoogleNet的50最小RF GoogleNet的最大RFScaleNet-50的最小RF最大RF4.5. 分析max pool的作用。下采样可以通过几种方式实现:(i)步长为s的3×3卷积;(ii)步长为s的扩张3×3卷积[23];(iii)s×s平均池(iv)一个步长为s的s×s最大池。我们评估-6004002000224为简单起见,通过将比例编号L设置为2,将s设置为2,在CIFAR-100上使用ScaleNet-56评估所有上述设置如表8所示,(iv)表现最好。这表明最大池是提高性能的关键因素这是合理的,因为最大池保留并增强了来自先前层的最大激活,使得随着信息从底部流向顶部,小前景区域的高响应不会被背景特征淹没。广泛的感受野。图6比较了每个块的感受野范围。实 验 结 果 表 明 , 所 提 出 的 ScaleNets 具 有 比 其 他ScaleNets更宽的感受野范围特别是,ScaleNet-50达到了仅在第二和第三块中进行分类和检测的解决方案。一方面,ScaleNets潜在地聚集具有大范围尺度的丰富表示。另一方面,它们可以在非常早期阶段提取全局上下文信息(例如, 3)在一个网络中。 一起0 2 4 6 8 10 12 14 16块索引图6:多分支网络的感受野与阻塞指数的比较ResNets的每个剩余块中的捷径分支和剩余分支分别具有最小和最大的感受野GoogleNet的每个Inception块中的1×1conv分支和5×5 conv分支分别具有最小和最大的感受野。6. 确认本 工 作 得 到 了 北 京 市 科 学 技 术 委 员 会(Z181100008918004)的部分支持。感谢商汤科技的彭张林、徐友江、王新江、郑华斌对我们的大力支持。方法top1错误。3 ×3转换器的跨距226.19步幅2,3×3卷积,扩张225.422×2平均样本池24.582×2最大样本池24.48感受野11537引用[1] https://github.com/yihui-he/channel-pruning.[2] J. M. Alvarez和M.萨尔茨曼学习neep网络中NIPS,第22702016年。[3] S.贝尔角劳伦斯·齐特尼克,K. Bala和R.娘娘腔。内外网:用跳跃池和递归神经网络检测上下文中的对象。在CVPR中,第2874-2883页[4] X.曹,Z. Wang,Y. Zhao和F.苏规模聚合网络,用于准确和高效的人群计数。参见ECCV,第734-750页[5] J. Carreira,H. Madeira和J. G.席尔瓦Xception:现代计算机可靠性的实验评估技术. IEEE软件工程学报,24(2):125[6] X.尘目标检测的自适应多尺度信息流。在BMVC中。[7] T.- W.钦角,澳-地Zhang和D.马库列斯库资源受限卷积神经网络的层补偿剪枝arXiv预印本,2018年。[8] A. Gordon , E. 埃 班 岛 O. 纳 丘 姆 湾 Chen , H. 吴 , T-J.Yang和E.崔Morphnet:深度网络的快速简单资源约束结构学习。在CVPR,2018年。[9] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页[10] Y.他,X。zhang和J.太阳用于加速非常深的神经网络的通道修剪。InICCV,2017.[11] 胡 杰 湖 , 澳 - 地 Shen 和 G. 太 阳 挤 压 - 激 发 网 络 。 在CVPR,2018年。[12] G. Huang,黄氏拟谷盗D. Chen,T. Li,F.吴湖,加-地van der Maaten,以及K.温伯格多尺度稠密网络用于资源有效的图像分类。在ICLR,2018年。[13] G. Huang,Z.柳湖,加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR,第1卷,第3页,2017年。[14] Z. Huang和N.王.深度神经网络的数据驱动稀疏结构选择。在ECCV,第304-320页,2018年。[15] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页[16] T. 孔氏A.Yao,Y.Chen和F.太阳超网络:走向精确的区域建议生成和联合对象检测.在CVPR,第845-853页[17] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。技术报告,2009年。[18] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS,第1097-1105页[19] 列别捷夫和V. Lempitsky利用群体性脑损伤的快速转换。在CVPR中,第2554-2564页[20] T.- y. Lin,P. Doll,R.格希克角他,B. Hariharan,S.别-朗吉,F。Ai和C.Tech. 用于目标检测的Fpn特征金字塔网络CVPR,2017年。[21] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象。在ECCV,第740-755页[22]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功