没有合适的资源?快使用搜索试试~ 我知道了~
3974∼自我关注的池化实现高效的深度学习陈芳1,*,古拉夫·达塔1,*,苏维克·昆杜2,彼得·A. Beerel11美国洛杉矶南加州大学2美国英特尔实验室{fchen905,gdatta,pabeerel} @ usc.edusouvikk. intel.com摘要高效的自定义池化技术可以为资源受限的计算机视觉应用程序集中修剪特征图的维度,最近获得了显著的吸引力。然而,先前的池化工作仅提取激活图的局部上下文,限制了它们的有效性。相比之下,我们提出了一种新的非本地自我注意池的方法,可以作为一个下降的替代标准池层,如最大/平均池或跨步卷积。提出的自注意模块使用补丁嵌入,多头自注意,空间通道恢复,其次是sigmoid激活和指数soft-max。这种自我注意机制有效地聚集了下采样期间非局部激活补丁之间的依赖性。在标准对象分类和检测任务上进行的大 量 实 验 表 明 , 我 们 提 出 的 机 制 优 于 最 先 进 的(SOTA)池化技术。特别是,我们在ImageNet上的MobileNet-V2的不同变体上超过了现有池化技术的测试准确性,平均为1。百分之二。 随着积极的下采样,在初始层中的激活映射(提供高达22倍的内存消耗减少),我们的方法实现了1. 与采用等内存封装的SOTA技术相比,测试精度提高43%。这使得我们的模型能够部署在内存受限的设备中,例如微控制器(而不会损失显著的准确性),因为初始激活图消耗大量的片上内存用于复杂视觉任务所需的我们的池化方法还利用通道修剪来进一步减少内存占用。代码可在https://github.com/C-乐趣/非本地池。1. 介绍最近,CNN架构在广泛的复杂视觉任务(如对象分类[15]和语义分割)*同等贡献的作者[14]第10段。随着现代相机传感器捕获的图像分辨率不断提高,初始CNN层中的大型激活图消耗了大量的片上存储器,阻碍了CNN模型在资源受限的边缘设备上的部署[6]。此外,这些大的激活图增加了推理延迟,这阻碍了实时用例[6]。池化是最流行的技术之一,可以降低这些激活图的分辨率并聚合有效特征。历史上,池化层(作为跨步卷积层或独立的平均/最大池化层)已用于几乎所有SOTA CNN主干中,以减少激活图的空间大小,从而减少模型的内存占用[39,19,15]。现有的池化技术主要从局部性的例如,LIP[11]利用卷积层来提取局部重要的聚合特征。对于特征分布不太多样的相对简单的对象但是对于更复杂的对象,仅具有局部信息的下采样特征图可能是困难的,因为对象的不同局部区域可能彼此相关例如,动物的腿可以在图像的不同局部区域中,这可以提供有用的此外,从对象和其背景中提取的特征也可能相关。例如,背景是大海,我们不太可能在前景中找到“汽车”类为了减少初始激活映射占用的大量片上内存,池化层中通常需要较大的内核大小和步长来适应模型在资源受限的设备中。当仅利用局部性进行聚合时,这可能导致特征信息此外,最近提出的传感器内[21,5]和像素内[6,7,8]计算方法可以通过下采样从初始CNN层中的积极带宽减少中受益。我们假设,通常与积极的下采样相关的准确性损失可以通过在下采样期间考虑局部和非局部信息来最小化。3975为了探索这一假设,我们将激活图划分该方法包括一个补丁嵌入层,多头自注意层,空间通道恢复层,其次是一个S形和指数激活函数。补丁嵌入层将每个补丁编码为由多个通道组成的单像素令牌。多头自注意层对不同补丁令牌之间的长程依赖性进行建模。空间通道恢复层有助于将补丁令牌解码和恢复为非局部自注意力图。sigmoid和指数激活函数分别校正和放大非局部自注意映射。最后,池化激活图计算输入激活图和非局部自注意图的逐元素乘法的逐块平均值。我们的方法超过了CNN中所有现有池化技术的测试准确度(mAP),用于各种设备上的对象识别(检测)任务,特别是当初始激活图需要显着下采样以提高内存效率时。我们的方法还可以与结构化模型压缩技术相结合,例如通道修剪,这可以进一步减少模型的计算和内存占用。总之,本文的主要亮点可概括为• 受非局部特征聚合的潜在益处的启发,我们提出使用多头自注意来积极地对消耗大量片上存储器的初始CNN层中的激活图进行下采样。• 我们建议使用空间通道恢复,加权平均,自定义激活功能,在我们的自我关注池的方法。此外,我们通过通道修剪联合优化我们的方法,以进一步减少模型的内存和计算占用。• 我们通过在对象识别和检测任务上使用不同的设备上CNN架构的广泛实验,以及与现有池化和内存减少方法的比较,证明了我们提出的方法的内存计算精度(mAP)权衡优势。此外,我们还提供了通过非局部池化技术获得的可视化地图,这为我们的方法的有效性提供了更深入的见解。2. 相关工作2.1. 合并技术大多数流行的CNN主干由用于特征聚合的池化层组成。例如,VGG[38]、 Incep- tion[39]和DenseNet[19]使用平均/最大池化层,而ResNet[15], MobileNet[36]及其变体使用步幅大于1的卷积作为可训练池化层,以分层方式在规则位置进行特征下采样。然而,这些简单的池化技术可能无法提取有用的和相关的特征,特别是当池化步幅需要很大以进行显著的下采样时。这导致了最近引入的大量新的池化层。特别是,混合[44]和混合池[25]使用平均池和最大池的组合,可以在训练期间学习。Lp pooling[12]使用Lp范数从局部窗口提取特征,其中参数p可以在训练期间学习另一项工作提出了细节保留池(DPP)[34],其中作者认为激活图中存在细粒度的细节,应该保留,而冗余特征可以丢弃。然而,细节分数是可能不是最佳的感受野中的像素值的统计的任意函数最近的一项工作引入了局部重要性池(LIP)[11],该工作使用可训练的卷积滤波器来捕获不同感受野的局部重要性,并用于在池化之前缩放激活。基于高斯的池化[20]将池化算子公式化为概率模型,以灵活地表示激活图。RNNPool[35]使用递归神经网络(RNN)来聚合不同维度的大型1D接收字段的特征。为了提取用于细粒度视觉识别的上下文感知的丰富特征,另一项名为CAP的近期工作[3]特别是,CAP在网络中应用较晚(在所有卷积层之后),并且不打算减少模型有趣的是,CAP使用一种新的注意力形式(仅涉及查询和键)来转换每个特征,而不是在这项工作中采用的传统的自我注意力模块。最后,虽然CAP使用双线性池化、全局平均池化和LSTM,但我们的方法使用补丁嵌入、空间通道恢复和加权池化。2.2. 模型压缩修剪是模型压缩的一种众所周知的形式[24,13,17],可以有效地降低DNN推理成本[13,22]。最近修剪方法的激增已经开辟了用于修剪子网络的各种方法,包括迭代幅度修剪(IMP)[10]、增强学习驱动方法[16]、基于额外优化的方法[26]。然而,这些方法需要自适应训练迭代,因此需要显著更多的训练计算成本。在这项工作中,我们采用了一种较新的模型修剪方法,即稀疏学习3976……F··P2×p∈Rmp联系我们一一ppp一一一基于位置的池化Self-Attentive Pooling输入激活(���(合并权重下采样激活图1. 基于地点的池化和非当地的自我注意池化的图示。池化权重具有与输入激活I相同的形状,在该图中仅显示输入激活I的局部区域。()表示基于局部性的池化,并且π()表示所提出的非局部自关注池化。对于基于位置的池化,每个池化权重具有有限的敏感字段,如红色框中所示对于所提出的非局部自注意池,输入激活被划分为几个补丁,并编码成一系列的补丁令牌。基于这些补丁令牌,池化权重具有全局视图,这使得它在捕获长范围依赖性方面更优越,聚合特征。[23],可以有效地产生修剪的子网,非重叠面片序列∈R(H·W)×(P2·C),从零开始训练特别是,由于该方法总是将稀疏子网络更新为非零,并确保满足目标剪枝率,因此可以安全地避免微调阶段,同时获得良好的精度。感兴趣的读者其中(H W)是输入RGB图像的大小,C是通道的数量,P2是补丁中的像素数量然后将平坦化的2D图像块馈送到多头自注意模块中。具体来说,该贴片-序列I p被分成m个头I p={I1,I2,., I m} ∈在修剪和稀疏学习中可以参考[18]以获得更多细节。最近,神经结构搜索[28]也使N×CpH· Wpp p其中N=(P2)是补丁的数量,显著的模型压缩,特别是对于内存有限的设备。最近的一项工作[27]提出了基于补丁的推理和网络重新分配,将感受野转移到后期阶段,以减少内存开销。2.3. 低功耗注意力模型Cp=P2·C是Ip中的通道数。这些令牌被馈送到多头自注意模块MSA(·)中:Ia=LN(MSA(Ip))+Ip,(1)其中LN(·)是层归一化[41,2]。有几种基于自我注意力的Transformer模型-在第j个头中,令牌系列IjN×Cp是旨在减少边缘部署的计算/内存占用的文献中的ELS。MobileVit[31] 提 出 了 一 种 轻 量 级 和 通 用 的 视 觉Transformer,结合了CNN和ViTs的优势LVT[43]提出了 两 种 针 对 低 级 和 高 级 特 征 的 增 强 自 注 意 机 制MobileFormer[4]并行化了MobileNet,首先通 过 线 性 层 投影到L(Ij)∈ RN ×dk上 。然后使用三个权重矩阵W q、W k、W vRD×dk分 别获得查询、键和值令牌,如Q j=W q L(I j)、Kj= W k L(I j)、V j= W v L(I j)。D是隐藏维度,且dk=D/m。自注意层的输出I j∈ RN ×D由下式给出:QjKjTTransformer采用双向桥接实现信息共享,在准确性和延迟性Ij=softmax()V j.(二)DKImageNet上的权衡。对于其他视觉任务,例如语义分割和浊点下采样,最近的工作已经提出了用于移动设备的基于变换器的模型。例如,LightTN[42]提出了一种单头最后,m个头的结果被连接并反向投影到原始空间上:Ia =concat(I1,I2,., Im)WO,(3)自相关模块,用于聚合全局上下文特征,以及下采样损 失 函 数 , 用 于 指 导 用 于 浊 点 识 别 的 训 练 。TopFormer[45]利用来自各种尺度的to-kens金字塔作为输入来生成用于语义分割的尺度感知语义特征。3. 背景在本节中,我们解释了由计算机视觉中的ViT架构[9]首次引入的多头自注意[40]在ViT中,输入图像I∈RH×W×C被整形为补丁令牌输入激活���((合并权重下采样激活激活补丁加权合并加权合并√3977其中W O∈ RCp×D是投影权重,最终输出I a∈RN×Cp。4. 该方法局部池化方法的权重仅与输入特征图的局部区域相关联,如图2所示。1.一、这些池化方法受到卷积层的局部性的限制,并且需要大量的层来获取大的敏感场。为了解决这个问题,我们可以直观地将全局和非局部信息编码到池权重中,如图所示。3978∈×∈×ϵ2·×× ×LI=pj=qCLLF如图1所示。为了实现这种直觉,我们提出了一种形式的自注意池,其基于多头自注意机制,其捕获非局部信息作为执行特征下采样的自注意图。然后,我们通过通道修剪来联合优化所提出的池化方法,以进一步减少整个CNN模型的内存占用。功能在补丁嵌入之后,将可学习的位置编码[9]添加到令牌系列xp以减轻由序列化引起的位置信息的丢失。2) 采用多头自注意模型对不同补丁标记之间的长程依赖关系进行当输入补丁令牌序列xp被馈送到模块中时,输出xattn是具有与xp相同形状的自注意令牌序列。3) 空间信道恢复从自关注令牌序列(h·w)×(r·cx)ϵ2xattn.令牌序列xAttn∈Rp是H W首先将其整形为Rp×p×(r·C),然后扩展为通过双线性插值的原始空间分辨率(h,w)。一个后续的卷积层,1×1内核大小将输出投影到与输入张量X.一个批规范层对输出注意力图的响应进行规范化。然后使用sigmoid函数来校正x的输出范围。至[R0,1],然后是一个指数函数,以放大图2. 非本地自关注池的架构。自我关注的反应。4) 加权池化用于从空间通道恢复块的输出生成下采样输出特征图,在图2中表示为π(x)。特别地,假设在我们的池化方法中的内核和步幅大小为(ss),并且考虑x中从(p,q)到(p + s,q + s)的局部区域,对应于该区域的池化输出可以估计为i=p+sO=I=pj=qi=p+s4.1.非局部自注意池所提出的方法的总体结构如图所示。二、它由四个主要模块组成:块嵌入、多头自关注、空间信道恢复和加权池化。1)利用块嵌入压缩空间信道信息。我们使用一个跨越的卷积层来编码和压缩沿着输入的空间和通道维度的不同补丁的局部信息。更准确地说,嵌入的输入是表示为其中π i,j(x)表示π(x)在索引(i,j)处的值。类似地,可以估计整个输出激活图从每个局部区域以步长s分隔。4.2.使用通道修剪进行为了进一步降低激活图的维度,我们使用了流行的通道修剪[23]方法。特别地,信道修剪确保一些卷积滤波器中的所有值这反过来又使相关的激活标测图通道冗余。让我们假设一层作为xRh×w×cx 具有分辨率(h w)和cx输入渠道 嵌入的输出是一个令牌序列l与相应的4D权重张量θl在这里,∈RM×N ×h×w.xp∈R(h·w)×(r·cx)p,其中,是修补程序大小,集h和w是张量的2D核的高度和宽度,M和N表示滤波器的数量,输出通道的数量为rcx。补丁嵌入由一个步幅卷积层组成,其内核大小和步幅都等于batch norm层和ReLU函数[1]。对于由[ni,nj]表示的每个补丁,补丁嵌入层输出可以公式化为:每个滤波器的通道。为了执行层权重的通道修剪,我们首先将权重张量θ1转换为2D权重矩阵,其中M和N hw分别是行数和列数。然后,我们将该矩阵划分为M行和hw列的N个子矩阵,每个通道一个。 对…的对于通道c,我们计算Frobe-xp[ni,nj]=xrelu .萨普pw·x(n·x +i,n· +j)+b(四)nius范数(F-范数),表示i、jipjp有效地计算O c= |θ:,c,:,:|二、基于分数其中wc、bc是卷积ker的权重和偏置nel,而rerelu表示ReLU激活在一个时期内需要重新布线的非零权重i,用修剪率pi表示,我们计算必须从每层修剪的通道的数量,输入激活按钮跨步转换贴片嵌入布吕普批规范ReLU位置编码序列化多头插值(上采样)Self-Attention阿登空间通道恢复经验值(加权合并Conv1×1批次标准Sigmoid⋅平均合并(输出激活ΣC(五)i=0j=0Σ3979LL ≥×××}联系我们{联系我们外部阶段合并内部阶段合并表1.不同合并技术的超参数设置方法参数设置步幅转换内 核 大 小 : 3×3LIP内核大小:1 ×1我们的p∈ {1,2,4,8},频道修剪r∈ {0. 25,1},m:2游泳池-跨步图3. 使用池化方法的两种方式的说明。修剪具有最低F范数的cpi通道。然后,我们利用由层的非零通道贡献的归一化动量来计算其层重要性,然后使用该层重要性来测量应该针对每个层l重新生长的零F范数通道的数量ri 请注意,我们首先使用我们的自注意池预训练CNN模型,然后使用这种通道修剪技术联合微调我们的池模型。虽然池化层被应用于所有下采样层,但通道修剪仅应用于初始激活图(仅在图1所示的CNN骨干的第一阶段中)。3)最大限度地减少模型的内存占用。5. CNN主干所提出的池化方法可以用于任何骨干网络,例如VGG [38],MobileNet [36]和ResNet [15]。通常,骨干网络可以大致分为几个阶段,并且下采样层(作为跨步卷积或最大/平均池化),如果存在于一个阶段中,则仅应用于第一块。具体来说,有两种方式可以在骨干网络中用我们的(或任何其他SOTA)池化方法替换该下采样层,即,外部阶段池化和内部阶段池化,如图所示3.第三章。 外部阶段池化意味着在每个阶段之后由池化层对激活进行下采样,这有助于减小每个阶段中的最终输出激活图的大小并定制池化层以学习阶段信息。内部阶段池化意味着在每个阶段的第一个块之后对激活进行下采样,这有助于减少初始激活图。如第6.1节所述,我们对评估的每个骨架优化了这些合并方法的使用。6. 实验6.1. 实验装置提出的池化方法进行了比较,几个池化方法,如跨越卷积,LIP,高斯池,和RNNPool。所有这些方法都广泛用于深度学习,据我们所知,它们都能产生SOTA性能。我们提出的方法在PyTorch中实现,具有超参数设置,以及我们比较的那些,如表1所示。具体来说,我们评估了两个池的方法2×计算和内存高效的骨干网络。Mo-bileNetv 2和ResNet18。对于两者,我们保持相同的池化设置,除了第一个池化层,在那里我们采用积极的步幅来减少内存。例如,在MobileNetV2中,我们使用步幅(s1,2,2,2,1,2,1),其中s1 1,2,4。更多细节在补充材料中。为了评估池化方法在多对象特征聚合上的性能,我们使用了两个对象检测框架,即SSD [30]和Faster R-CNN [33]。为了全面评估池化方法,我们使用了三个图像识别数据集,即STL-10,VWW和ImageNet,它们具有不同的复杂性和用例。详细情况见补充材料。为了评估多目标检测任务,我们使用流行的MicrosoftCOCO数据集[29]。具体来说,我们使用300 300的图像分辨率用于SSD框架,与[30]中使用的相同,608 608用于YoloV3框架,与[32]中使用的相同,1333 800用于更快的RCNN框架。我们使用了八个与自动驾驶相关的类,包括“人”、“自行车”、“汽车”、“摩托车”、“公共汽车”、“火车”、“卡车”、“交通灯”。我们使用平均为IoU 0的mAP来评估每个池化方法的性能。5,0。75,[0. 五 比 零 05 : 0 。 95] , 分 别 表 示 为 mAP@0.5 、mAP@0.75和mAP@[0.5,0.95]。我们还报告了小(面积小于32- 2像素),中(面积在32- 2和96- 2像素之间)和大(面积超过96- 2像素)对象的单个mAP。6.2. 准确度mAP分析图像识别基准测试的实验结果如表2、3和5所示,其中每种池化方法都应用于第6.1.2节中描述的不同骨干网络。请注意,结果网络的名称为“池化方法名称”-“骨干网络名称”。例如,在STL 10数据集上,当使用Mo-bileNetV 2和ResNet18骨干网络进行评估时,所提出的方法的性能优于现有的池化方法。7%,s1=1。 相比之下,在ImageNet中,精度增益范围从0。86%,1。66%(1. 平均值为2%)。由于VWW是一个相对简单的任务,我们提出的方法的准确性增益只有0。1400美元。7%,在不同的s1值之间。进一步分析舞台设计池+区块1块2块3残余块1×1转换ReLU3×3ConvReLU1×1转换块游泳池-跨步舞台设计块1块2块……3980×3∼∼∼表2. STL 10数据集上不同CNN主干的不同池化方法的比较。度量Top 1 Acc. (%)第一步游泳池方法s1 = 1 s1 =2s1 =4移动通信79.6972.4936.49LIP-MobileNetV279.1668.2336.50GaussianPool-MobileNetV281.5074.5633.31RNNPool-MobileNetV281.6274.6237.42Ours-MobileNetV281.7575.3940.66Ours+CP网络82.3874.1237.44跨式转换器-69.8963.7231.45LIP-MobileNetV2-0.35x73.0265.9133.97GaussianPool-MobileNetV2-0.35x 71.6767.8835.03RNNPool-MobileNetV2-0.35x72.9067.4135.09Ours-MobileNetV2-0.35x77.9969.3036.68我们的+CP-MbNetV 2 -0.35x77.4368.0833.30Strided Conv.79.8076.0566.49LIP-ResNet1881.9480.5378.55GaussianPool-ResNet1881.5778.7074.61RNNPool-ResNet1881.8080.2678.62我们的-ResNet 1882.2581.1179.39我们的+CP-ResNet 1882.6879.8176.19* 方法通过池方法的名称-主干的名称来命名。MbNetV2表示MobileNetV2骨干网络。**表3. 在VWW数据集上比较MobileNetV 2 -0.35X的不同池化方法。为了计算约束),报告为具有不同种子的三次运行的平均值,并且这些运行的方差为<0.1%,远低于我们的准确率。6.3. 定性结果可视化为了直观地说明所提出的方法的优越性,我们将对应于不同注意力机制的热图可视化到来自STL 10数据集的图像上,如图所示。4.第一章具体来说,热图是由GradCam[37]计算的,它计算每个池化层的地面实况类的梯度热图值与特定位置处的池化权重成正比与基于局部性的池化方法LIP相比如第一列和第二列所示,LIP仅关注具有大感受野的主要局部区域。相比之下,我们的方法侧重于来自不同局部区域的特征,例如第一列中的狗的嘴、耳朵、腿和第二列中的鸟和树枝。这些非局部特征是相关的,并且可能是特征聚合的长期依赖性。如第五列和第六列所示,我们的池化方法主要关注猫的皮毛的纹理,这可能是用于分类/检测的判别特征,而LIP关注猫的一般形状。当需要压缩和保留有效的详细信息时,这种一般信息可能无法指导特征聚合。6.4. 计算内存效率假设下采样的输入和输出维度相同,并将我们的自注意池和SOTA LIP层的FLOP计数表示为FSA和FLIP分别为FSA乌布2F唇 .因此,采用补丁大小在6.4节中给出了与通道修剪和其他s1值的内存精度权衡。在表4中列出了s 1=1的对象检测实验结果。在SSD框架上进行评估时,我们提出的方法比SOTA池化方法的 性能 高 0. 5% 1%( mAP@0.5, 0) 3%的 0。 对 于mAP@0.75和0,为5%。5%的0。8%,这说明了我们的方法在多目标特征聚合上的优越性当在更快的RCNN帧上进行评估时-工 作 中 , 所 提 出 的 方 法 也 达 到 了最先 进 的 性 能mAP@0.5,mAP@0.75和mAP@[0.5,0.95]与约0. 百分之一点零。6%mAP增益。所有结果,除了ImageNet和COCO的结果(截止日期)n >1使得我们的池化成本比LIP更低。 特别是,我们为初始池化层使用更大的补丁大小(范围从2到8),为后面的层使用补丁大小1(见表1)。这仍然使我们整个模型的总FLOPs计数低于LIP,如表6所示,因为由于激活图的大小很大,两种池化方法的FLOPs计数在初始层中明显高于后面的请注意,在大多数标准主干中,当每个空间维度减少2倍时,通道维度仅增加2倍,这意味着激活图的总大小随着我们深入网络而逐渐减少。我们的方法也消耗11。与基于步幅卷积的池化相比,平均FLOP降低66%,如表6所示。整个CNN网络的内存消耗对于自注意池和具有识别的LIP都是相似的。度量Top 1 Acc. (%)第一步游泳池方法s1 =1s1 =2s1 =4跨式转换器-91.72 83.52 78.83LIP-MobileNetV2-0.35x91.24 83.30 79.48GaussianPool-MobileNetV2-0.35x91.09 82.81 79.51RNNPool-MobileNetV2-0.35x90.85 83.41 79.20Ours-MobileNetV2-0.35x91.86 83.87 80.21Ours+CP网络-MbNetV 2 -0.35x91.60 82.46 76.113981表4. COCO数据集的比较。框架方法地图@0.5 @0.75@[0.5,0.95]@大@中@小移动通信36.3023.0021.9044.6014.400.80LIP-MobileNetV237.5023.1022.3044.8015.300.90SSDGaussianPool–MobileNetV237.0038.0024.0024.5022.8023.3046.5047.0016.0016.500.700.80Strided Conv.38.8024.7023.4047.0015.701.10LIP-ResNet1840.6025.1024.2047.8018.001.70GaussianPool-ResNet1840.4024.9024.1047.2017.701.40我们的-ResNet 1841.6025.4024.9048.8019.301.60Strided Conv.63.6040.8038.7052.7036.7021.00Faster RCNNLIP-ResNet1865.3042.0039.9039.0023.9052.10GaussianPool-ResNet1855.3033.1031.8044.4029.1016.00我们的-ResNet 1865.5042.6040.0051.5039.9022.80图像唇我们图4. 基于局部重要性的池化和所提出的非局部自关注池化的可视化结果。这些图像来自STL 10数据集,每种技术中的热图突出显示了感兴趣的区域,即,具有高热图值的区域将被视为有效信息并在下采样时被保留。表5. 在ImageNet数据集上比较MobileNetV 2 -0.35x的不同池化方法。度量Top 1 Acc.(%)第一步游泳池方法s1 = 1 s1 = 2移动通信70.0260.18LIP-MobileNetV271.6261.86GaussianPool-MobileNetV272.0261.24RNNPool-MobileNetV270.9759.24Ours-MobileNetV272.8862.89跨式转换器-56.6449.20LIP-MobileNetV2-0.35x58.2449.95GaussianPool-MobileNetV2-0.35x 59.2649.91RNNPool-MobileNetV2-0.35x57.8049.10Ours-MobileNetV2-0.35x60.9251.16CAL骨干配置和池化层中的相同下采样。虽然我们的自我关注池包含了更多的可训练参数,表6. 在STL 10数据集上使用不同池化方法比较整个CNN主干的总FLOP计数。架构我们的(G)LIP(G)GP(G)SD. Conv.(G)MbNetV20.2720.2640.2950.303MbNetV2-0.35x0.060.0610.0590.065ResNet181.821.931.772.07查询、关键字和值计算与局部可训练池化层相比,它们在推理期间是固定的,并且可以离线保存在片上存储器中。此外,与初始激活图相比,这些参数消耗的内存仍然显著更低,因此,它不会显著增加内存开销。请注意,将s1减少2倍大约使总内存消耗减半,从而使CNN能够部署在内存预算更紧的设备中。如表2、3和5所示,与SOTA相比,我们提出的合并方法的准确度增益随着我们3982××××∼增加S1。当我们从MobileNetV 2升级到MobileNetV 2 -0.35x以降低功耗时,也观察到类似的趋势。例如,精度增益从0. 25%到4。在STL 10上评估时,97%,这意味着非局部自注意映射可以从内存受限的模型中提取更多的区分特征。对于ImageNet,通过对初始层中的激活图进行积极的下采样(提供高达22减少内存消耗,其中11是由于MobileNetV 2 -0.35x和2是由于积极的跨步- ing),测试精度差距与SOTA技术在等内存增加从1。2%,平均为1。百分之四十三所有这些都激发了我们的方法在资源受限设备中的适用性通道修剪可以进一步减少我们的模型的内存消耗,而不会降低太多的测试精度。我们在所有骨干网络的第一阶段中考虑2信道修剪,如表2和3所示。正如我们所看到的,增加s1=1的通道修剪可以保留(有时甚至优于)我们提出的池化技术所获得的准确性然而,通道修剪并没有提高利用我们的池化技术(s1=2,4)针对更积极的下采样所获得的准确度因此,具有信道修剪的标称下采样调度(s1=1)是减少存储器占用的最合适的配置。6.5. 消融研究我们在STL 10数据集上使用ResNet18主干进行评估时,对我们提出的合并方法进行了消融研究。我们的结果示于表7中。注意,bn 1和bn 2分别表示贴片嵌入和多头自注意模块中的BN层,并且pe表示位置编码层。SelfAttn在每个跨卷积层之前直接使用多头自注意模块,而无需空间通道分离和加权池化。去除任何一个BN层都会导致测试精度略有下降。我们假设批范数(BN)层对输入数据分布进行归一化,这有助于非线性激活提取更好的特征并有助于加速收敛。注意,该论点对于CNN中的BN层是有效的,而不是特别对于自注意池化。我们的池化方法没有指数函数显着退化。这可能是因为在sigmoid函数之后的注意力地图中的每个值都被限制在0 1内,而没有放大有效特征的响应。位置编码的去除还略微降低了精度,这说明了位置信息的重要性我们假设位置编码层将位置信息合并到补丁标记中,从而补偿不同标记之间的破碎空间关系。此外,我们的池化方法没有sigmoid只产生统计测试精度。这是因为,在没有S形校正的情况下,空间通道恢复模块的输出在通过指数函数放大之后变为无穷大。表7.我们提出的合并技术的消融研究度量Top 1 Acc.(%)第一步游泳池方法s1 =1s1 = 2w\ o(bn 1)80.3482.0181.9582.0110.0013.4413.2326.1758.7178.4580.3680.0079.7310.00----w\ o(bn 2)w\ o(exp)w\ o(pe)w\ o(sigmoid)SelfAttn-MobileNetV 2(内部阶段)SelfAttn-MobileNetV 2(外部阶段)SelfAttn-ResNet 18(内部阶段)SelfAttn-ResNet 18(外部阶段)Ours–ResNet18 (Outer82.2581.11Ours–ResNet18 (Inner81.4579.17Ours–MobileNetV2 (Outer79.4568.81Ours–MobileNetV2 (Inner81.7575.39这导致了梯度爆炸。与在跨卷积之前仅使用自注意模块(而不是我们提出的池技术)相比,我们提出的方法更有效。如表7所示,我们的准确性增加是由于所提出的方法,而不仅仅是自我注意机制。17. 社会影响在本文中,我们提出了自关注池,它从激活图中聚合非局部特征,从而能够提取不同特征之间更复杂的关系,与现有的局部池层相比。我们的方法在几个对象识别和检测基准测试中优于使用流行的内存高效CNN主干的前池化方法。因此,我们希望我们的方法能够在各种资源受限的平台上部署准确的CNN模型,例如智能家居智能体和可穿戴传感器。虽然我们的目标是实现社会责任的用例,但我们的工作也可以解锁几个廉价和实时的视觉用例,这些用例可能会受到对抗性攻击和种族偏见的影响。防止滥用这一技术是今后工作的一个重要领域。8. 确认我们要感谢DARPA HR 00112190120奖和的NSF CCF-1763747奖励支持这项工作。的观点和结论本文所包含的是作者的观点,不应被解释为必然代表DARPA或NSF的官方政策或认可。1我们没有发现自我注意力模块是有效的,可能是因为我们没有在大型数据集上对其进行预训练,例如JFT-300 M [9]。3983引用[1] 阿比恩·弗雷德·阿加拉普。使用校正线性单元(relu)的深度学习arXiv预印本arXiv:1803.08375,2018。[2] Alexei Baevski和Michael Auli神经语言建模的自适应输入表示。arXiv预印本arXiv:1809.10853,2018。[3] Ardhendu Behera,Zachary Wharton,Pradeep Hewage,and Asish Bera.用于细粒度视觉分类的上下文感知注意力池在第35届AAAI人工智能大会上。AAAI,2021年。[4] Yinpeng Chen , Xiyang Dai , Dongdong Chen ,Mengchen Liu ,Xiaoyi Dong ,Lu Yuan ,and ZichengLiu.移动式成型机:桥接mobilenet和Transformer。在IEEE/CVF计算机视觉和模式识别会议论文集,第5270-5279页,2022年[5] Zhe Chen et al.采用卷积核读出方法的CMOS图像传感器在混合信号域处理近感器结构IEEE Transactions onCircuits and Systems I:Regular Papers,67(2):389[6] Gourav Datta等人P2M:一种用于资源受限的TinyML应用程 序 的 内 存 中 像 素 处 理 范 例 . arXiv 预 印 本 arXiv :2203.04737,2022。[7] Gourav Datta等人高效的高光谱成像技术相机像素内的年龄处理。arXiv预印本arXiv:2203.05696,2022。[8] Gourav Datta,Souvik Kundu,Zihan Yin,Joe Mathai,Zeyu Liu,Zixu Wang,Mulin Tian,Shunlin Lu,Ravi T.放大图片作者:J. J. J.Jaiswal 和Peter A.比雷尔P2m-detrack:内存中像素处理,实现高能效和实时多目标检测和跟踪。arXiv预印本arXiv:2205.14285,2022。[9] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。[10] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假设:寻找稀疏的 、 可 训 练 的 神 经 网 络 。 arXiv 预 印 本 arXiv :1803.03635,2018。[11] Ziteng Gao,Limin Wang,and Gangshan Wu. Lip:基于本地重要性的池化。在IEEE/CVF计算机视觉国际会议论文集,第3355- 3364页[12] Caglar Gulcehre、Kyunghyun Cho、Razvan Pascanu和Y.本吉奥。深度前馈和递归神经网络的学习范数池。第530-546页[13] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。[14] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick. 面 罩 R-CNN 。 arXiv 预 印 本 arXiv :1703.06870,2018。[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecogniti
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功