没有合适的资源?快使用搜索试试~ 我知道了~
选择性核网络:一种允许神经元根据多尺度输入信息自适应调整感受野大小的深度网络
5100选择性核网络0Xiang Li � 1,2,Wenhai Wang † 3,2,Xiaolin Hu ‡ 4和Jian Yang § 101 PCALab,南京理工大学 2 Momenta 3 南京大学 4 清华大学0摘要0在标准的卷积神经网络(CNNs)中,每一层中的人工神经元的感受野被设计为具有相同的大小。神经科学界众所周知,视觉皮层神经元的感受野大小受刺激调节,这在构建CNNs时很少考虑。我们提出了一种动态选择机制,允许每个神经元根据多尺度输入信息自适应调整其感受野大小。我们设计了一种称为SelectiveKernel(SK)单元的构建块,其中使用由这些分支中的信息引导的softmax注意力将具有不同内核大小的多个分支融合。对这些分支的不同注意力产生了融合层中神经元有效感受野的不同大小。多个SK单元堆叠成一个称为SelectiveKernelNetworks(SKNets)的深度网络。在ImageNet和CIFAR基准测试中,我们经验证明SKNet在模型复杂度较低的情况下优于现有的最先进架构。详细分析表明,SKNet中的神经元可以捕捉具有不同尺度的目标对象,这验证了神经元根据输入自适应调整其感受野大小的能力。代码和模型可在https://github.com/implus/SKNet上获得。0� Xiang Li和JianYang隶属于中国南京理工大学计算机科学与工程学院,PCA实验室,教育部智能感知与高维信息系统重点实验室,江苏社会安全图像与视频理解重点实验室。XiangLi还是Momenta的访问学者。电子邮件:xiang.li.implus@njust.edu.cn †WenhaiWang隶属于中国南京大学,国家新软件技术重点实验室。他曾在Momenta担任研究实习生。‡ XiaolinHu隶属于中国清华大学信息科学与技术国家实验室(TNList)计算机科学与技术系。§ 通讯作者。01. 引言0猫的初级视觉皮层(V1)中神经元的局部感受野(RFs)[14]启发了上个世纪卷积神经网络(CNNs)[26]的构建,并继续启发现代CNN结构的构建。例如,众所周知,在视觉皮层中,同一区域(例如V1区域)的神经元的RF大小是不同的,这使得神经元能够在同一处理阶段收集多尺度的空间信息。这种机制已经广泛应用于最近的卷积神经网络(CNNs)。一个典型的例子是InceptionNets [42, 15, 43,41],其中设计了一个简单的串联来聚合来自3×3、5×5、7×7卷积核的多尺度信息,放在“inception”构建块内。0然而,在设计CNN时,并没有强调大脑皮层神经元的其他RF特性之一,即自适应改变RF大小的特性。许多实验证据表明,视觉皮层神经元的RF大小并不固定,而是受刺激调节的。Hubel和Wiesel[14]发现了V1区域神经元的经典RF(CRFs),通过单一方向的条形刺激来确定。后来的许多研究(例如[30])发现,CRF之外的刺激也会影响神经元的响应。这些神经元被称为非经典RF(nCRFs)。此外,nCRF的大小与刺激的对比度有关:对比度越小,有效nCRF的大小越大[37]。令人惊讶的是,通过在一段时间内刺激nCRF,即使去除这些刺激,神经元的CRF也会扩大[33]。所有这些实验表明,神经元的RF大小不是固定的,而是受刺激调节的[38]。不幸的是,在构建深度学习模型时,这个特性没有得到太多关注。那些在同一层中具有多尺度信息的模型,如InceptionNets,具有根据输入内容调整下一个卷积层神经元RF大小的固有机制,因为下一个卷积层的神经元会根据输入的内容进行调整。5110多分支卷积网络。Highway网络[39]引入了沿着门控单元的绕行路径。两个分支的架构减轻了训练具有数百层的网络的难度。这个想法也被用在ResNet [9,10]中,但绕行路径是纯粹的恒等映射。除了恒等映射,shake-shake网络[7]和多残差网络[1]通过更多的相同路径扩展了主要变换。深度神经决策森林[21]以学习的分裂函数形成了树状的多分支原则。FractalNets [25]和MultilevelResNets[52]的设计方式使得多个路径可以以分形和递归的方式扩展。InceptionNets [42, 15, 43,41]通过定制的卷积核滤波器仔细配置每个分支,以聚合更多信息丰富多样的特征。请注意,所提出的SKNets遵循InceptionNets的思想,使用各种滤波器。02. 相关工作0线性聚合多尺度信息的多分支卷积网络可能不足以提供神经元强大的自适应能力。在本文中,我们提出了一种非线性方法,通过聚合来自多个卷积核的信息来实现神经元的自适应RF尺寸。我们引入了一种“选择性核”(SK)卷积,它由三个运算符组成:分裂(Split),融合(Fuse)和选择(Select)。分裂运算符生成具有不同核大小的多个路径,对应于神经元的不同RF尺寸。融合运算符将来自多个路径的信息组合和聚合,以获得全局和综合的表示以用于选择权重。选择运算符根据选择权重聚合不同大小的卷积核的特征图。SK卷积可以具有计算轻量级的特点,并且只会稍微增加参数和计算成本。我们展示了在ImageNet2012数据集[35]上,SKNets在模型复杂性相似的情况下优于先前的最先进模型。基于SKNet-50,我们找到了最佳的SK卷积设置,并展示了每个组件的贡献。为了证明所提出的模型确实具有调整神经元RF尺寸的能力,我们通过将自然图像中的目标对象放大并缩小背景来模拟刺激,以保持图像尺寸不变。结果发现,当目标对象变得越来越大时,大多数神经元从更大的核路径收集越来越多的信息。这些结果表明,所提出的SKNet中的神经元具有自适应的RF尺寸,这可能是该模型在目标识别方面表现优越的基础。0对于多个分支,但在至少两个重要方面存在差异:1)SKNet的方案要简单得多,没有繁重的定制设计;2)利用自适应选择机制来实现神经元的自适应RF尺寸。分组/深度/扩张卷积。由于计算成本低,分组卷积变得越来越受欢迎。将组大小表示为G,与普通卷积相比,参数数量和计算成本将被G除,它们首次在AlexNet[23]中采用,目的是将模型分布在更多的GPU资源上。令人惊讶的是,使用分组卷积,ResNeXts[47]也可以提高准确性。这个G被称为“基数”,它与深度和宽度一起描述模型。基于交错分组卷积,开发了许多紧凑型模型,如IGCV1 [53],IGCV2 [46]和IGCV3[40]。分组卷积的一个特例是深度卷积,其中组的数量等于通道的数量。Xception [3]和Mo- bileNetV1[11]引入了深度可分离卷积,将普通卷积分解为深度卷积和逐点卷积。深度卷积的有效性在后续的工作中得到了验证,如MobileNetV2 [36]和Shuf�eNet [54,27]。除了分组/深度卷积之外,扩张卷积[50,51]支持RF的指数级扩展而不会丢失覆盖范围。例如,具有扩张2的3×3卷积可以近似覆盖5×5滤波器的RF,同时计算和内存消耗不到一半。在SK卷积中,设计了更大尺寸的卷积核(例如,>1),以与分组/深度/扩张卷积集成,以避免繁重的开销。注意机制。最近,注意机制在各种任务中显示出了益处,从自然语言处理中的神经机器翻译[2]到图像理解中的图像字幕[49]。它偏向于分配最具信息量的特征表达[16,17, 24, 28,31],同时抑制不太有用的特征。注意机制已广泛应用于最近的应用,如人物重识别[4],图像恢复[55],文本摘要[34]和唇读[48]。为了提高图像分类的性能,Wang等人提出了一种在CNN的中间阶段之间进行主干和掩码注意力的方法[44]。引入了一个沙漏模块,实现了对空间和通道维度的全局强调。此外,SENet[12]通过通道重要性引入了一种有效的轻量级门控机制来自校准特征图。与通道不同,BAM [32]和CBAM[45]以类似的方式引入了空间注意力。相比之下,我们提出的SKNets是第一个通过引入非线性方法从多个卷积核中聚合信息以实现神经元的自适应RF尺寸的模型。softmaxChw෩𝐔𝐔𝐬𝐔𝐳𝐚𝐛𝐕𝐗෨ℱℱℱ𝑔𝑝ℱ𝑓𝑐i=1 j=1Uc(i, j).(2)51203x3核05x5核0分割0融合0选择0逐元素求和 逐元素乘积0图1. 选择性核卷积。0注意机制。动态卷积。空间变换网络[18]学习一个参数化的变换来扭曲特征图,这被认为是难以训练的。动态滤波器[20]只能自适应地修改滤波器的参数,而不能调整核大小。主动卷积[19]通过偏移量增加卷积中的采样位置。这些偏移量在训练后是端到端学习的,但在训练后变得静态,而在SKNet中,神经元的感受野大小可以在推理过程中自适应地改变。可变形卷积网络[6]进一步使位置偏移动态化,但它不能像SKNet那样以相同的方式聚合多尺度信息。03. 方法03.1. 选择性核卷积0为了使神经元能够自适应地调整其感受野大小,我们提出了一种自动选择操作,“选择性核”(SK)卷积,它在具有不同核大小的多个卷积核之间进行选择。具体来说,我们通过三个运算符 -分割(Split)、融合(Fuse)和选择(Select)来实现 SK卷积,如图1所示,展示了一个双分支的情况。因此,在这个例子中,只有两个具有不同核大小的卷积核,但很容易扩展到多个分支的情况。分割:对于任何给定的特征图 X ∈ RH' × W' ×C',默认情况下,我们首先分别使用核大小为3和5的两个变换函数 Φ F :X → Σ U ∈ R H × W × C 和 Φ F :X → Σ U∈ R H × W × C 进行转换。注意,Φ F 和 Φ F都由高效的分组/深度卷积、批量归一化[15]和ReLU[29]函数组成。为了进一步提高效率,使用5×5核的传统卷积被具有3×3核和扩张大小2的扩张卷积所替代。融合:如介绍中所述,我们的目标是使神经元能够根据刺激内容自适应地调整其感受野大小。基本思想是使用门控来控制多个分支携带不同尺度信息的信息流进入下一层的神经元。0为了实现这个目标,门控需要整合来自所有分支的信息。我们首先通过逐元素求和将多个(在图1中为两个)分支的结果融合起来:0U = Σ U + Σ U , (1)0然后,我们通过简单地使用全局平均池化来嵌入全局信息,生成通道级别的统计信息 s ∈ R C。具体来说,s 的第 c个元素通过在空间维度 H × W 上收缩 U 计算得到:0s c = F gp ( U c ) = 10H × W0H ∙0W ∙0此外,创建一个紧凑的特征 z ∈ R d ×1,以实现精确和自适应选择的引导。这是通过一个简单的全连接(fc)层实现的,通过降低维度来提高效率:0z = F fc ( s ) = δ ( B ( Ws )) , (3)0其中 δ 是 ReLU 函数[29],B 表示批量归一化[15],W ∈ Rd × C。为了研究 d 对模型效率的影响,我们使用缩减比例r 来控制其值:0d = max(C/r, L) , (4)0其中 L 表示 d 的最小值(在我们的实验中,L = 32是一个典型的设置)。选择:通过通道间的软注意力来自适应地选择不同的空间尺度信息,这是由紧凑的特征描述符 z引导的。具体来说,对通道级别的数字应用 softmax运算符:0ac = eA0bc = eBcz0bc = eBcz,(5)0其中A、B ∈RC×d,a、b分别表示对U和U的软注意力向量。注意,Ac∈ R1×d是A的第c行,ac是a的第c个元素,同样地4.1. ImageNet Classification5130输出ResNeXt-50 (32 × 4d) SENet-50 SKNet-500112 × 112 7 × 7,64,步长2056 × 56 3 × 3最大池化,步长2056 × 560� 1 × 1, 128 3 × 3, 128, G= 32 1 × 1, 2560� × 30�0��01 × 1, 128 3 × 3,128, G = 32 1 × 1,256全连接层,[16,256]0�0��� × 30� 1 × 1, 128 SK[M = 2, G = 32, r =16], 128 1 × 1, 2560� × 3028 × 280� 1 × 1, 256 3 × 3, 256, G= 32 1 × 1, 5120� × 40�0��01 × 1, 256 3 × 3,256, G = 32 1 × 1,512全连接层,[32,512]0�0��� × 40� 1 × 1, 256 SK[M = 2, G = 32, r =16], 256 1 × 1, 5120� × 4014 × 140� 1 × 1, 512 3 × 3, 512, G= 32 1 × 1, 10240� × 60�0��01 × 1, 512 3 × 3,512, G = 32 1 × 1,1024全连接层,[64,1024]0�0��� × 60� 1 × 1, 512 SK[M = 2, G = 32, r =16], 512 1 × 1, 10240� × 607 × 70� 1 × 1, 1024 3 × 3, 1024,G = 32 1 × 1, 20480� × 30�0��01 × 1, 1024 3 × 3,1024, G = 32 1 × 1,2048全连接层,[128,2048]0�0��� × 30� 1 × 1, 1024 SK[M = 2, G = 32, r =16], 1024 1 × 1, 20480� × 301 × 1 7 × 7全局平均池化,1000维全连接层,softmax0#P 25.0M 27.7M 27.5M0GFLOPs 4.24 4.25 4.470表1. 三列分别是基于32 ×4d模板的ResNeXt-50,基于ResNeXt-50骨干的SENet-50和相应的SKNet-50。括号内是残差块的一般形状,包括滤波器尺寸和特征维度。每个阶段的堆叠块数在括号外呈现。“G =32”表示分组卷积。括号内的fc表示SE模块中两个全连接层的输出维度。#P表示参数数量,FLOPs的定义遵循[54],即乘加次数。0Bc和bc。在两个分支的情况下,矩阵B是多余的,因为ac +bc =1。通过对各个卷积核的注意力权重,得到最终的特征图V:0Vc = ac ∙ Uc + bc ∙ Uc,ac + bc = 1,(6)0其中 V = [V1, V2, ..., VC],Vc ∈RH×W。注意,这里我们提供了两个分支情况的公式,可以通过扩展公式(1)(5)(6)推导出更多分支的情况。03.2. 网络架构0使用SK卷积,整体SKNet架构如表1所示。我们从ResNeXt[47]开始,有两个原因:1)它具有低计算成本,广泛使用分组卷积;2)它是具有高性能的最先进的网络架构之一,用于目标识别。与ResNeXt[47]类似,提出的SKNet主要由一系列重复的瓶颈块组成,称为“SK单元”。每个SK单元由一系列的1×1卷积、SK卷积和1×1卷积组成。总体上,ResNeXt中原始瓶颈块中的所有大卷积核都被提出的SK卷积所取代,使得网络能够自适应地选择适当的感受野大小。由于SK卷积在我们的设计中非常高效,与ResNeXt-50相比,SKNet-50只导致参数数量增加了10%,计算成本增加了5%。在SK单元中,有三个重要的超参数决定了SK卷积的最终设置:决定不同卷积核聚合选择数量的路径数M,控制每个路径的基数的组数G,以及控制融合操作符中参数数量的减少比例r(参见公式(4))。在表1中,我们将一个典型的SK卷积设置SK[M, G,r]表示为SK[2, 32,16]。这些参数的选择和效果在第4.3节中讨论。表1显示了一个具有四个阶段的50层SKNet的结构,分别具有{3,4,6,3}个SK单元。通过改变每个阶段中的SK单元数量,可以得到不同的架构。在本研究中,我们还尝试了另外两种架构,SKNet-26,它在各自的四个阶段中具有{2,2,2,2}个SK单元,以及SKNet-101,它在各自的四个阶段中具有{3,4,23,3}个SK单元。请注意,提出的SK卷积也可以应用于其他轻量级网络,例如MobileNet [11, 36]、ShuffleNet [54,27],其中广泛使用3×3深度卷积。通过用SK卷积替换这些卷积,我们也可以在紧凑的架构中获得非常吸引人的结果(参见第4.1节)。04.1. ImageNet分类04. 实验0ImageNet2012数据集[35]包括128万个训练图像和5万个验证图像,来自1000个类别。我们在训练集上训练网络,并在验证集上报告top-1错误率。对于数据增强,我们遵循标准做法并进行随机处理。ResNeXt-50 (32×4d)22.2325.0M4.245140top-1错误率(%) #P GFLOPs 224× 320 ×0ResNeXt-50 22.23 21.05 25.0M 4.24 AttentionNeXt-56 [44]21.76 – 31.9M 6.32 InceptionV3 [43] – 21.20 27.1M 5.73ResNeXt-50 + BAM [32] 21.70 20.15 25.4M 4.31 ResNeXt-50 +CBAM [45] 21.40 20.38 27.7M 4.25 SENet-50 [12] 21.12 19.7127.7M 4.25 SKNet-50 (我们的) 20.79 19.32 27.5M 4.470ResNeXt-101 21.11 19.86 44.3M 7.99 Attention-92 [44] – 19.5051.3M 10.43 DPN-92 [5] 20.70 19.30 37.7M 6.50 DPN-98 [5]20.20 18.90 61.6M 11.70 InceptionV4 [41] – 20.00 42.0M 12.31Inception-ResNetV2 [41] – 19.90 55.0M 13.22 ResNeXt-101 +BAM [32] 20.67 19.15 44.6M 8.05 ResNeXt-101 + CBAM [45]20.60 19.42 49.2M 8.00 SENet-101 [12] 20.58 18.61 49.2M 8.00SKNet-101 (我们的) 20.19 18.40 48.9M 8.460表2.在大致相同的复杂度下与现有技术的比较。224×表示用于评估的单个224×224裁剪,同样320×。请注意,SENet/SKNets都基于相应的ResNeXt骨干。0将图像裁剪到224×224并进行随机水平翻转[42]。对于训练和测试,采用实际的均值通道减法对输入图像进行归一化。训练过程中使用标签平滑正则化[43]。对于训练大型模型,我们使用带有动量0.9的同步SGD,小批量大小为256,权重衰减为1e-4。初始学习率设置为0.1,每30个epoch降低10倍。所有模型在8个GPU上从头开始训练100个epoch,使用[8]中的权重初始化策略。对于训练轻量级模型,我们将权重衰减设置为4e-5,而不是1e-4,并且对数据预处理使用稍微不那么激进的尺度增强。类似的修改也可以参考[11,54],因为这样的小型网络通常遭受欠拟合而不是过拟合。为了进行基准测试,我们在验证集上应用中心裁剪,其中224×224或320×320像素被裁剪用于评估分类准确性。ImageNet上报告的结果默认是3次运行的平均值。0与最先进的模型进行比较。我们首先将SKNet-50和SKNet-101与具有相似模型复杂度的公开竞争模型进行比较。结果表明,在相似的预算下,SKNets始终提高了性能,超过了最先进的基于注意力的CNNs。值得注意的是,尽管ResNeXt-101的参数数量增加了60%,计算量增加了80%,但SKNet-50的性能优于ResNeXt-101超过了绝对值0.32%。与InceptionNets的复杂度相当或更低的情况下,SKNets实现了超过绝对值1.5%的性能提升,这0top-1错误率(%) #P GFLOPs0SKNet-50 (我们的) 20.79 (1.44) 27.5M 4.470ResNeXt-50,更宽 22.13 (0.10) 28.1M 4.74ResNeXt-56,更深 22.04 (0.19) 27.3M 4.67 ResNeXt-50(36 × 4d) 22.00 (0.23) 27.6M 4.700表3.在ImageNet验证集上进行比较,当模型的计算成本与SKNet相匹配时,深度/宽度/基数增加。括号中的数字表示性能的增益。0展示了多核自适应聚合的优越性。我们还注意到,使用稍少的参数,SKNets在224×224和320×320的评估中可以获得0.3�0.4%的性能提升,相对于SENet的对应模型。0选择性卷积与深度/宽度/基数。与ResNeXt(使用32×4d的设置)相比,由于不同核心的额外路径和选择过程,SKNets不可避免地会导致参数和计算的轻微增加。为了公平比较,我们通过改变ResNeXt的深度、宽度和基数,增加其复杂度以与SKNets的复杂度相匹配。表3显示,增加复杂度确实会导致更好的预测准确性。然而,当深度增加时(从ResNeXt-50到ResNeXt-53增加0.19%),或者宽度增加时(从ResNeXt-50到ResNeXt-50更宽增加0.1%),或者稍微增加基数时(从ResNeXt-50(32×4d)到ResNeXt-50(36×4d)增加0.23%),改进是有限的。相反,SKNet-50相对于基准的ResNeXt-50获得了1.44%的绝对改进,这表明SK卷积非常高效。0相对于参数数量的性能。我们绘制了所提出的SKNet的top-1错误率与其中的参数数量之间的关系(图2)。图中显示了三种架构,SK-26,SKNet-50和SKNet-101(详见第3.2节)。为了比较,我们在图中绘制了一些最先进的模型的结果,包括ResNets [9],ResNeXts [47],DenseNets[13],DPNs [5]和SENet[12]。每个模型都有多个变体。比较架构的详细信息在补充材料中提供。所有的top-1错误都在参考文献中报告。可以看出,SKNets比这些模型更有效地利用参数。例如,SKNet-101实现了约20.2的top-1错误率,比DPN-98少使用了22%的参数。0轻量级模型。最后,我们选择代表性的紧凑架构——Shuf�eNetV2[27],它是最强大的轻量级模型之一,来评估SK卷积的泛化能力。通过在表4中探索不同规模的模型,我们可以观察到SK卷积不仅显著提高了基线的准确性,而且20.020.521.021.522.022.523.023.524.0DPNDenseNetResNetResNeXtSENetSKNetShuffleNetV2top-1 err.(%)MFLOPs#P1.0× [27]30.601462.3M1.0× (our impl.)30.57140.352.45M1.0× + SE [12]29.47141.732.66M1.0× + SK28.36145.662.63M3×333220.9727.5M4.477×73×323220.7927.5M4.475×53×313220.9127.5M4.473×35×516420.8028.1M4.565×57×7112821.1828.1M4.557×7K3K5K7SKtop-1err. (%)#PGFLOPs✓22.2325.0M4.24✓25.1425.0M4.24✓25.5125.0M4.24✓✓21.7626.5M4.46✓✓✓20.7927.5M4.47✓✓21.8226.5M4.46✓✓✓20.9727.5M4.47✓✓23.6426.5M4.46✓✓✓23.0927.5M4.47✓✓✓21.4728.0M4.69✓✓✓✓20.7629.3M4.70515020 30 40 50 60 参数数量 (M)0top-1错误率(%),单一裁剪224×2240图2.SKNet的性能与其中的参数数量之间的关系,与最先进的模型进行比较。00.5 × [27] 39.70 41 1.4M 0.5 × (我们的实现) 38.4140.39 1.40M 0.5 × + SE [12] 36.34 40.85 1.56M 0.5 ×+ SK 35.35 42.58 1.48M0表4.在ImageNet验证集上,通过轻量级模型的变体进行单个224×224裁剪的Top-1错误率(%)。0表现比SE[12]更好(提高了约1%)。这表明SK卷积在低端设备上的应用具有巨大潜力。04.2. CIFAR分类0为了评估SKNet在较小数据集上的性能,我们在CIFAR-10和100[22]上进行了更多实验。这两个CIFAR数据集[22]由彩色自然场景图像组成,每个图像为32×32像素。训练集和测试集分别包含50k和10k张图像。CIFAR-10有10个类别,CIFAR-100有100个类别。我们采用[47]中的架构作为参考:我们的网络有一个单独的3×3卷积层,然后是3个阶段,每个阶段有3个带有SK卷积的残差块。我们还在相同的骨干网络(ResNeXt-29,16×32d)上应用SE块,以进行更好的比较。更多的架构和训练细节请参考补充材料。值得注意的是,SKNet-29在CIFAR-10和100上的性能要优于或与ResNeXt-29,16×64d相当,而参数数量减少了60%,并且在CIFAR-10和100上始终优于SENet-29,参数数量减少了22%。04.3. 消融研究0在本节中,我们在ImageNet数据集上进行消融研究,以研究SKNet的有效性。0模型 #P CIFAR-10 CIFAR-1000ResNeXt-29,16×32d 25.2M 3.87 18.56ResNeXt-29,8×64d 34.4M 3.65 17.77ResNeXt-29,16×64d 68.1M 3.58 17.310SENet-29 [12] 35.0M 3.68 17.78SKNet-29(我们的)27.7M 3.47 17.330表5.CIFAR上的Top-1错误率(%,10次运行的平均值)。SENet-29和SKNet-29都基于ResNeXt-29,16×32d。0设置 Top-1错误率(%) #P GFLOPs 结果的卷积核 扩张率 组数0表6.使用第二个分支的不同设置的SKNet-50的结果,第一个卷积核的设置是固定的。最后一列中的“结果的卷积核”表示具有扩张卷积的近似卷积核大小。0表7.使用不同组合的多个卷积核的SKNet-50的结果。使用单个224×224的裁剪进行评估。0扩张率D和组数G。扩张率D和组数G是控制感受野大小的两个关键因素。为了研究它们的影响,我们从两个分支的情况开始,并固定SKNet-50第一个卷积核分支中的3×3卷积核设置为D = 1和G =32。在相似的总体复杂度约束下,有两种方法可以扩大第二个卷积核分支的感受野:1)增加扩张率D而固定组数G,2)同时增加卷积核大小和组数G。表6显示了另一个分支的最佳设置,即具有5×5卷积核大小(最后一列),这比第一个固定大小为3×3的卷积核要大。使用不同的卷积核大小是有益的,我们将其归因于多尺度信息的聚合。有两种最佳配置:卷积核大小为5×51.0x 1.5x 2.0x0.080.060.040.020.001.0x1.5x2.0x0.4000.4250.4500.4750.5000.5250.5501.0x1.5x2.0x(a)1.0x 1.5x 2.0x0.150.100.050.000.051.0x1.5x2.0x0.400.420.440.460.480.500.520.541.0x1.5x2.0x(b)0.20.10.00.10.20.31.0x1.5x2.0x0.400.420.440.460.480.500.520.541.0x1.5x2.0x(c)5160在D = 1和卷积核大小为3×3,D =2的情况下,后者的模型复杂度稍低。总体上,我们经验性地发现,具有不同扩张率的一系列3×3卷积核在性能和复杂度上都比具有相同感受野(没有扩张的大卷积核)的对应卷积核要好。0不同卷积核的组合。接下来我们研究不同卷积核的组合效果。有些卷积核的大小可能大于3×3,而且可能有多个卷积核。为了限制搜索空间,我们只使用三个不同的卷积核,称为“K3”(标准的3×3卷积核),“K5”(3×3卷积核,扩张2倍以近似5×5卷积核大小),和“K7”(3×3卷积核,扩张3倍以近似7×7卷积核大小)。请注意,我们只考虑大卷积核(5×5和7×7)的扩张版本,如表6所建议的。G被固定为32。如果表7中的“SK”被勾选,这意味着我们在同一行中勾选的相应卷积核使用SK注意力(每个SK单元的输出是图1中的V),否则我们简单地对这些卷积核的结果进行求和(然后每个SK单元的输出是图1中的U),作为一个简单的基准模型。表7中的结果表明,SKNet的出色性能归功于多个卷积核的使用和它们之间的自适应选择机制。从表7中,我们得出以下观察结果:(1)当路径数M增加时,一般来说识别错误率会降低。表中第一块(M =1)的top-1错误率通常高于第二块(M =2),第二块的错误率通常高于第三块(M = 3)。(2)无论M =2还是3,基于SK注意力的多路径聚合始终比简单的聚合方法(简单的基准模型)具有更低的top-1错误率。(3)使用SK注意力,模型从M = 2到M =3的性能增益较小(top-1错误率从20.79%降至20.76%)。为了在性能和效率之间取得更好的平衡,M = 2是首选。04.4. 分析和解释0为了理解自适应卷积核选择的工作原理,我们通过输入相同目标对象但不同尺度的图像来分析注意力权重。我们使用ImageNet验证集中的所有图像实例,并通过中心裁剪和后续调整大小逐渐放大中心对象,从1.0×到2.0×(见图3a,b中的左上角)。首先,我们计算每个SK单元中各通道中大卷积核(5×5)的注意力值。图3a,b(左下角)显示了在SK 34中两个随机样本的所有通道中的注意力值,图3c(左下角)显示了在所有验证图像中所有通道的平均注意力值。可以看出,在大多数通道中,随着目标对象的放大,大卷积核(5×5)的注意力权重增加,这表明RF尺寸的02_3 3_4 4_6 5_3 SK单元0平均注意力差异(5x5卷积核 - 3x3卷积核)00 32 64 96 128 160 192 224 通道索引0激活0SK_3_4中5x5卷积核的注意力02_3 3_4 4_6 5_3 SK单元0平均注意力差异(5x5卷积核 - 3x3卷积核)00 32 64 96 128 160 192 224 通道索引0激活0SK_3_4中5x5卷积核的注意力02_3 3_4 4_6 5_3 SK单元0平均注意力差异(5x5卷积核 - 3x3卷积核)00 32 64 96 128 160 192 224 通道索引0激活0SK_3_4中5x5卷积核的注意力0图3. (a)和(b):两个随机抽样图像的注意力结果,其中包含三个不同大小的目标(1.0x,1.5x和2.0x)。左上角: 样本图像。左下角: 在SK 34中,5×5卷积核在通道上的注意力值。绘制的结果是连续16个通道的平均值,以便于查看。右侧:不同SK单元中5×5卷积核的注意力值减去3×3卷积核的注意力值。 (c):在ImageNet验证集中所有图像实例上的平均结果。同时绘制了标准差。0神经元逐渐变大,与我们的预期一致。然后,我们计算与两个核相关联的平均注意力权重之间的差异(较大的减去较小的)在每个SK单元的所有通道上。图3a、b(右侧)显示了不同SK单元上两个随机样本的结果,图3c(右侧)显示了所有验证图像的平均结果。我们发现关于深度自适应选择的一个令人惊讶的模式:目标对象越大,分配给较大核的注意力就越多。0.080.070.060.050.040.031.0x1.5x0.060.050.040.030.020.011.0x1.5x0.100.050.000.050.100.150.201.0x1.5x51700 100 200 300 400 500 600 700 800 900 1000 类别索引0在各个类别上,SK_2_3上的平均注意力差异(5x5核-3x3核)00 100 200 300 400 500 600 700 800 900 1000 类别索引0在各个类别上,SK_3_4上的平均注意力差异(5x5核-3x3核)00 100 200 300 400 500 600 700 800 900 1000 类别索引0在各个类别上,SK_5_3上的平均注意力差异(5x5核-3x3核)0图4.SKNet-50的SK单元上平均平均注意力差异(5×5核的平均注意力值减去3×3核的平均注意力值),使用ImageNet上的所有验证样本对1,000个类别进行了统计。在低层或中间层的SK单元(例如,SK 2 3,SK 3 4),如果目标对象变大(1.0x → 1.5x),则明显地对5×5核施加了更多的重视。0通过选择性核机制在低中间层(例如,SK 2 3,SK 34)中的核心来提取特征。然而,在更高的层次(例如,SK5 3)中,所有尺度信息都丢失了,这种模式也消失了。0此外,我们从类别的角度深入研究了选择分布。对于每个类别,我们绘制了代表性SK单元上1.0×和1.5×对象的平均平均注意力差异,这些对象属于该类别的所有50个图像。我们在图4中呈现了1,000个类别的统计数据。我们观察到前面的模式对于所有1,000个类别都成立,如图4所示,当目标的尺度增大时,5×5核的重要性一致且同时增加。这表明在网络的早期部分,可以根据对象尺寸的语义意识选择适当的核大小,从而有效地调整这些神经元的感受野大小。然而,在SK53等非常高的层次上不存在这种模式,因为对于高级表示,“尺度”在特征向量中部分编码,与较低层次的情况相比,核大小的影响较小。05. 结论0受视觉皮层中神经元自适应感受野(RF)大小的启发,我们提出了具有新颖的选择性核(SK)卷积的选择性核网络(SKNets),通过自适应核选择以软注意力方式改进对象识别的效率和效果。SKNets在各种基准测试中展示出最先进的性能,从大型模型到小型模型。此外,我们还发现了核选择在通道、深度和类别之间的几个有意义的行为,并通过实验证明了SKNets感受野大小的有效适应,从而更好地理解其机制。我们希望这能够激发未来在架构设计和搜索方面的研究。0致谢作者感谢编辑和匿名审稿人对本文的批评性和建设性的意见和建议。本工作得到了中国国家自然科学基金会的支持,编号为U1713208,长江学者和国家自然科学基金会的项目,编号为61836014。5180参考文献0[1] M. Abdi和S. Nahavandi. 多残差网络. arxiv预印本.arXiv预印本arXiv:1609.05672, 2016. [2] D. Bahdanau,K.Cho和Y. Bengio. 通过联合学习对齐和翻译的神经机器翻译.arXiv预印本arXiv:1409.0473, 2014. [3] J. Carreira,H.Madeira和J. G. Silva. Xception:一种用于现代计算机可靠性实验评估的技术. 软件工程交易, 1998.[4] D. Chen,S. Zhang,W. Ouyang,J. Yang和Y. Tai.通过基于掩码引导的双流CNN模型进行人物搜索.arXiv预印本arXiv:1807.08107, 2018. [5] Y. Chen,J. Li,H.Xiao,X. Jin,S. Yan和J. Feng. 双路径网络. 在NIPS中, 2017. [6]J. Dai,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功