没有合适的资源?快使用搜索试试~ 我知道了~
549重新审视池化:你的接受域是次优的Dong-Hwan Jang1Sanghyeok Chu1Joonhyuk Kim1Bohyung Han1,21 ECE1 ASRI2 IPAI,首尔国立大学{jh01120,sanghyeok.chu,kjh42551,bhhan} @ snu.ac.kr摘要感受域的大小和形状决定了网络如何聚合局部特征,并极大地影响模型的整体性能。神经网络中的许多组件,如深度、内核大小以及卷积和池化的步长,都会影响接收域。然而,它们仍然依赖于超参数,现有模型的接收场导致了次优的形状和大小。因此,我们提出了一种简单而有效的动态优化池操作,称为DynOPool,它可以学习端到端的特征映射的优化比例因子。此外,DynOPool通过学习其接收场的理想大小和形状来确定特征图的适当分辨率,这允许更深层的操作者以最佳尺度观察输入图像。深度神经网络中的任何类型的嵌入式模块都可以用DynOPool以最小的成本替换。此外,DynOPool通过引入限制计算成本的额外损失项来控制模型的复杂性。我们的实验表明,配备了所提出的可学习的神经网络模块的模型在图像分类和语义分割方面优于多个数据集上的基线算法。1. 介绍尽管深度神经网络在各种应用中取得了前所未有的成功,包括计算机视觉[12,24,39,40],自然语言处理[6,33],机器人[21]和生物信息学[16],但最佳网络架构的设计仍然是一个具有挑战性的问题。虽然几个手工制作的模型在各个领域表现出令人印象深刻的性能,但已经做出了大量努力来自动识别具有相关操作的最佳神经网络架构[17,18,22,41]。然而,手工设计的架构往往是次优的,并遭受弱的泛化能力,而基于神经架构搜索的方法要么招致大量的训练成本或实现微小的改进,由于有限的搜索空间。研究人员一直在研究适用于深度神经网络的强大而有效的操作,包括卷积、归一化和激活函数。然而,他们没有太多的关注池化操作,尽管他们的简单和有效的聚合本地功能。感受场的大小和形状至关重要;太小或太大的感受场可能无法分别有效地识别大或小的物体。接受域由深度神经网络中的几个因素决定,例如模型的深度,操作的步幅,卷积的类型等。为了设计一个有效的操作接受域,卷积操作的变体[5,29,43]或具有多分辨率分支的特殊架构[11,44]被广泛采用。然而,这些方法依赖于精细的人类工程超参数或耗时的神经架构搜索[46,47]。为了减轻人类工程的架构和操作的次优性,我们提出了动态优化池操作(DynOPool),这是一个可学习的可替换的模块,取代标准的可替换操作。所提出的模块为在数据集上学习的操作找到接收场的最佳比例因子,并且因此将网络中的中间特征图调整为适当的大小和形状。这使我们从超参数的精细设计中解脱出来,比如卷积滤波器和池化运算符的步幅。我们的贡献总结如下:• 我们的工作解决了深度神经网络中现有缩放操作器的局限性,这些操作器依赖于预先确定的超参数。我们指出了在中间特征图中找到最佳空间分辨率和接收场的重要性,这在设计神经架构时仍处于探索阶段。• 我们提出了DynOPool,这是一个可学习的模块,可以找到中间特征图的最佳比例因子和接收域。DynOPool使用学习的比例因子识别某个层的最佳分辨率和接收场,并将信息传播到后续层,从而实现比例优化。550在整个网络中实现移动化。• 我 们 证 明 , 在 图 像 分 类 和 语 义 分 割 任 务 中 ,DynOPool模型在多个数据集和网络架构上优于基线算法。它还表现出理想的精度和计算成本之间的权衡。我们的论文组织如下。第2节介绍了与实验相关的工作,第3节介绍了我们优化感受野和特征图的大小和形状的动机。我们在第4节中描述了DynOPool的技术细节,在第5节中描述了实验结果。最后,我们总结了这项工作,并在第6节讨论了未来的工作。2. 相关作品神经架构搜索(NAS)[22,25,31,46,47]是一种AutoML方法,通过将具有人类归纳偏差的超参数设置作为可学习过程来优化深度神经网络架构的结构。以前基于强化学习的方法[31,46,47]需要大量的GPU时间。尽管已经提出了几种方法来通过共享权重[31]或基于梯度的优化[22,25]来加速搜索过程,但由于搜索空间的限制,它们仍然是次优的。有几个先前的工作来搜索输入分辨率[13,41],但找到每个层的最佳特征尺寸和形状仍然是一个具有挑战性的问题。动态核形状最近的方法[8,15,30,32,37]采用了卷积的变体,动态地学习接收场的大小。N-Jet [32]采用高斯导 数 滤波 器 来 使 用尺 度 空 间 理 论调 整 内 核 大小 。CKConv [37]使用连续的内核参数化技巧来实现不同大小的内核,而无需额外的成本。类似地,FlexConv [8]利用隐式神经表示来生成不同大小的大带宽滤波器。这些方法通过学习滤波器大小来识别优化的接收域,而我们的方法通过学习特征图的大小来实现。可学习模块形状适配器[23]通过直接学习特征图大小来控制接收场。它提出了一个可微的特征映射模块,适用于一个池化特征映射与一个比率(例如,0.5或1.5)和非池化映射。然而,重新调整大小模块限于选择用于上采样或下采样的预定义比率中的一个,并且仅处理对称双采样。最近,DiffStride [34]提出了一种谱池化方法来确定池化层的最佳步幅。他们通过用频域中的裁剪替换空间域中的下采样来找到合适的特征图大小和形状,其中裁剪窗口大小得到优化。3. 动机图像中的信息分布在不同的局部水平上,CNN使用一系列内核来学习不同尺度的模式,以学习强表示。由于语义上有意义的图案的大小和形状对于每个图像都有很大的不同,因此识别适当的接收域并使用接收域从图像中提取有用的信息是很重要的然而,最佳感受野的探索尚未被积极研究,并且迄今为止几乎没有讨论过自适应特征图大小的使用,尽管之前的几项工作通过其他方法间接地学习感受野大小,例如神经结构搜索或设计具有过多约束的可学习感受野。本节介绍了为什么具有固定大小和形状的传统感受场是次优的,并讨论了DynOPool如何通过在CIFAR- 100 [19]上使用VGG-16[40]进行玩具实验来解决这一问题。3.1. 非对称分布信息由于领域的特性,数据集固有地具有信息不对称性。例如,条形码图像不具有沿着垂直方向的任何信息,因为在该方向上重复相同的值。因此,希望集中在水平方向上来表示条形码图像。问题在于,除了像条形码这样具有先验信息的图像之外,固有的不对称性在大多数情况下是不可测量的。同时,输入的重复性常常被用作预处理,有时会导致信息不对称.在人类设计的网络中,图像的纵横比通常被调整以满足模型的输入规格。然而,这种网络中的接收场并不是为了处理这些操作而设计的。为了证明所提出的方法DynOPool的潜力,我们在CIFAR-stretch上进行实验,CIFAR-100的图像在垂直方向上垂直拉伸两次并随机裁剪为32 x32的大小。如图1(a)所示,DynOPool采用宽特征图,并在水平方向上提取更多有价值的信息,以实现与人类设计的模型相比更高的性能。3.2. 密集或稀疏分布的信息局部性水平是设计最佳模型的另一个有趣的组成部分。CNN通过以级联方式聚合局部信息来从图像中学习复杂的表示。然而,局部信息的值在很大程度上取决于每个示例的属性。例如,当图像模糊时,所有的微观图案,如物体的纹理,都会被抹去。在这种情况下,最好在早期层551×××××- −[·|在H完毕Wout0.30G / 71.18%(0.31G /69.49%)(a) CIFAR-拉伸1.24G/60.06%(1.26G/56.70%)(b) CIFAR瓷砖1.18G / 67.82%(1.26G /65.49%)(c) CIFAR-大型图1.我们进行玩具实验CIFAR-100与三个不同的合成数据集;(a)随机作物的垂直拉伸图像(b)平铺一个减半的图像在一个4 - 4网格(c)四倍减半的图像。虽然内容几乎相同,但每个特征图的最佳大小和形状取决于输入图像的特征而有很大不同与具有固定特征图大小的人类设计模型不同,我们的模型调整特征图大小以保持每个特征图中的最佳信息量,从而提高性能。粗体字中的数字是GMAC和DynOPool给出的精度,而括号中的数字来自人类设计的模型。并专注于全球信息。另一方面,如果图像包含大量类别特定信息,例如纹理、局部模式将更重要。为了验证这一假设,我们构建了CIFAR-100数据集的两个变体,CIFAR-tile和CIFAR-large,如图1所示。为此,我们首先将CIFAR中的原始图像降采样为一半,构建16 16图像。然后,我们将下采样的图像平铺为CIFAR-平铺的4 4,并将下采样的图像上采样为CIFAR-大的大小64 64。正如预期的那样,我们的模型如图1(b)和(c)以较大幅度优于人类设计的模型。尽管两个数据集都是用大小为16的同一组基础图像构建的,16、学习网络DynOPool的模型具有不同的形状;我们在CIFAR-tile上训练的模型比在早期层中在CIFAR-large上训练的模型具有更大的特征图。请注意,CIFAR-tile的DynOPool更喜欢在网络的开始处使用小的接收场,因为tiled对象非常小。另一方面,我们的CIFAR- large模型被鼓励在低层有大的接收场,因为输入图像是从一个小的图像放大的,在早期的层中观察大的区域是有意义的。4. 该方法输入要素格网输出要素格网双线性插值聚合函数H输入 = 8,H输出 = 3,R h = H输出/ H输入Win = 11,Wout = 3, rw = W输出/ W输入图2.建议的集成模块DynOPool的概述(最佳彩色视图)。我们优化了一对输入和输出特征图之间的比例因子r=(rh,rw),分别用xin和xout表示。棕色点p表示xout中的网格单元的中 心,而绿色十字表示同一单元中的四个查询点q。通过对应于x中的四个最近像素的特征的双线性插值给出q i的表示。通过四个查询点的特征聚合来导出网格单元in x out的输出特征,其中通常采用诸如最大池化的简单聚合函数。4.1.1DynOPool的设计图2说明了DynOPool的工作原理。DynOPool首先将特征图xin划分为Hout×Wout网格,我们详细讨论了建议的可学习的学习模块,简称为DynOPool,其中包括它的概念,H输出=[H输入·r h|W输出=[W输入·rw|、(一)优化和实际效益。其中r=(rh ,rw)表示高度的比例因子,4.1. 动态优化池(DynOPool)DynOPool中的fixed模块,它接受一个输入的特征图,x∈RHin×Win,并返回一个大小调整后的输出-特征图的宽度,并且是舍入操作。假设(1,1)和(1,1)是x的左上角和右下角的归一化坐标,则输出特征图中网格单元的大小变为2×2。put,xout∈RHout×Wout,定义和优化如下。然后,给定以p=(ph,pw)为中心的网格单元,552·[l]GMACs[·¶LΣ··一LHWHWH出出出来出来··[· |[·|四个查询点的位置定义为q=(ph±δh,pw±δw)=.p1 2得双曲余切值.12Σ,(2)h±4·H输出w±4·W输出向前其中δ=(δh,δw)表示从p的位移。的每个查询点的表示由xin中的四个最近网格单元的双线性内插给出。然后,DynOPool聚合四个特征向量,并返回每个网格单元的输出表示xout。我们选择最大池作为聚合函数,但任何其他函数都可以取代最大池,只要它能有效地从多个局部特征计算抽象表示。DynOPool具有优化的比例因子r,其主要优势有两个方面。首先,四个查询点q的位置也被优化,因为δ是r的函数。其次,通过优化r获得中间特征图的最佳分辨率,DynOPool自适应地控制深层感受野的大小和形状,而其他算子保持不变。4.1.2优化重缩放模块由(1)和(2)的组合定义,它们基于简单的 操 作 。 然 而 , 舍 入 操 作 是 不 可 微 的 , 阻 碍 了DynOPool的优化过程。为了解决这个问题,我们利用了一个可微的量化技巧,这是一个众所周知的离散随机变量的连续松弛技术[14,26]。然后,通过如下重新公式化轮函数来给出重新缩放模块:后向梯度停止坡度图3. DynOPool内部的计算流。虽然前向传递采用离散值Hinrh,但在后向传递中采用其连续对应值(Hinrh)将梯度反向传播到α中。相同的优化过程适用于宽度。通过将α定义为一个可学习的尺度参数,并优化它而不是r,训练过程在实践中大大稳定。图3说明了整体优化过程。4.2. 模型复杂性为了最大限度地提高模型的准确性,DynOPool有时会使用较大的比例因子,并提高中间特征图的分辨率。因此,为了约束计算成本并减小模型大小,我们引入了额外的损失项 GMAC ,其由每个训练迭代 t处的逐层GMAC计数的简单加权和给出,如下所示:N不是A=1Nt(A)t(A)(七)H输出=[H输入·r h|+Hin·r h−sg(Hin·r h),(3)W输出=[W输入·r w|+Win·r w−sg(Win·r w),(4)=Hout·WoutGMACs[1],H0(A)·W0(A)其中sg()表示停止梯度算子[1]。注意(3)和(4)允许我们前馈原始离散值H在rh中和W在rw中,同时通过它们的连续代理函数H在rh中和W在rw中反向传播。虽然优化现在是可行的,但仍然存在其中N是模型中的总层数,GMACs[l]表示初始状态下第l层中的GMACs计数,wt是特征在初始阶段的第l层中的映射大小(H0(A),W0(A))和当前训练迭代t(Ht(A),Wt(A))。通过定义在学习比例因子R时的额外挑战。作为前-点火,出来出来在(2)中,重新缩放模块涉及取决于r的位移函数δ。然而,当rh或rw很小时,相对于r的梯度是不稳定的,因为梯度与r2成反比,GMAC反映了在训练期间随着比例因子r的变化而计算成本增加的程度,与模型的初始状态一致。4.3. 损失r2作为dδh1dδw1我们通过线性组合使用DynOPool训练模型-鋆博士R-R2和w博士R-R2(五)具体任务目标(Ltask)和拟议GMAC损失(LGMAC)如下:由于这种梯度爆炸导致了在训练过程中x的分辨率中,我们重新参数化r使用α=[αh,αw]如下:[αh,αw]=[r−1,rw−1]。(六)A=1553Ltotal=Ltask+λ·LGMAC,(8)其中λ是控制模型的计算复杂度并保持与554××[·|特定任务的损失。该模型通过共同学习中间特征图的最佳空间分辨率来训练以最大化其性能。4.4. DynOPool的多功能性由于其模型不可知的属性,DynOPool可以在任何给定的网络中替换所有类型的递归运算符。分析优化比例因子r的优越性 对于依赖于超参数的预定方法,我们用DynOPool代替基线网络中的所有类型的递归运算符,除了最后的全局平均池化层;池化运算(例如,max-pooling)被DynOPool替换,并且步幅卷积被vanilla卷积(步幅为1)和DynOPool的组合替换。关于各型号的详细说明,请参阅补充文件。与其他需要提前选择下采样或上采样并取决于预定义池化比率的方法不同,DynOPool可以在没有比例因子约束的情况下调整特征图的大小,池比率。实际上,DynOPool的上采样过程与下采样过程相同。上采样的一个棘手之处在于,它可以使用同一组像素的特征来计算不同查询点的特征。然而,它不会引起任何问题,因为从每个查询点到像素的距离是不同的,并且每个查询点的特征是不同的。5. 实验本节总结了DynOPool在各种类型的网络和数据集上的实验结果。对于分类任务,我们使用三个数据集和三种类型的网络进行评估。我们将我们的模型与人类设计的模型和形状适配器[23]在准确性和GMAC方面进行了比较,并提出动态分层可以在几乎没有额外成本的情况下 提 高 性 能 。 此 外 , 我 们 将 我 们 的 模 块 应 用 于EfficientNet [41]以显 示与 NAS 算法 的兼 容性 ,并 在PascalVOC [7]上进行额外的实验以证明对语义分割任务的适用性。5.1. 实验装置我们主要将DynOPool应用于三个基线:VGG-16 [40],ResNet-50 [12] 和 MobileNetV 2 [39] 。 我 们 还 使 用EfficientNet-B 0 [41]来检查与NAS的兼容性。每个模型的降尺度模块采用DynOPool,其余结构保持不变asthe human-designed人类设计architecture建筑.值得注意的是,除了尺度参数α之外,DynOstrom模型的参数数量没有增加。数据集我们在三个数据集上进行实验,包括FGVC-Aircraft [27],CIFAR-100 [19]和Ima-geNet [38]. 与 包 含 不 同 一 般 对 象 的 CIFAR-100 和ImageNet不同,Aircraft是用于飞机分类的细粒度数据集。CIFAR-100是一个具有小(32 32)图像的数据集,而飞机图像的大小 和ImageNet都很大(224 224)。实验设置是为了验证DynOPool执行良好,无论图像大小或数据特性。为了优化,我们使用与Shape Adaptor相同的超参数,除了epochs的数量。根据我们的经验,DynOPool需要比Shape Adaptor更多的epoch进行训练,以允许比例因子和权重充分收敛,以响应动态模型结构的变化。特别是CIFAR-100和飞机,具有相对较小的数据集,受历元的影 响 很 大 。 相 应 地 , 我 们 在 两 个 数 据 集 上 使 用DynOPool将模型的历元从200增加到250。尺度参数α的学习率低于类似于其他动态网络的模型参数的学习率[5,23],因为尺度参数即使有微小的变化也会影响整个模型。为了防止特征图大小在训练期间减少到1,我们通过Hout=max(Hinr h,1. 5),这确保了特征图的大小至少为2同时允许模型在小于2的任何维度上通过特征图反向传播梯度。对于其他超参数和实验设置,我们在补充文档中列出了详细信息。5.2. 与人工设计模型的我们讨论的性能和所提出的方法的特点相比,人类设计的模型。5.2.1主要结果表1显示了DynOPool的性能,GMAC和准确性。我们将人类设计的模型与DynOPool模型的两种变体进行比较:1)具有与人类设计的模型类似的小计算成本的模型(DynOPool-S)和2)主要为了准确性而学习的模型(DynOPool-B)。DynOPool-S在大多数情况下以与人类设计的模型几乎相同或更少的GMAC显著提高了准确性,DynOPool-B在所有设置中都优于人类设计的模型。请注意,我们通过改变特征图的大小和形状来大大提高性能,而参数的数量几乎没有增加。要用NAS实现这个目标,至少需要几十个GPU天,因为搜索空间很大,这是由于大量的搜索层和信息不对称的考虑。相反,DynOPool解决了555MBN-V2 ResNet-50表1.人类设计模型与DynOPool模型之间的前1准确度(%)和GMAC比较还报告了网络架构中每个块的特征图的大小和形状DynOPool-S在几乎所有情况下都优于具有可比GMAC的人类设计模型值得注意的是,DynOPool-S将模型压缩到比人类设计的VGG- 16轻33%DynOPool-B在所有情况下都优于人类设计的模型,具有显著的优势。数据集FGVC-Aircraft CIFAR-100 ImageNetAcc. GMACs特征图尺寸GMACs特征图尺寸GMACs特征图尺寸人类85.315.40[224,224] [112,112] [56,56][28,28][14,14]75.40.31[32,32] [16,16] [8,8][4,4][2,2]73.915.39[224,224] [112,112] [56,56]DynOPool-S 87.013.90[224,224] [114,142] [52,53][30,19] [17,7]0.36[32,32] [21,14] [10,7] [5,4]73.810.16[224,224] [88,87] [40,37] [24,23][12,12]DynOPool-B 87.432.39[224,224] [127,256] [76,102][46,37][20,11]79.81.71[32,32] [37,32] [21,18] [12,9] [7,4]74.120.92[224,224] [151,152] [67,68] [32,30][15,13]人类81.64.12[224,224] [56,56] [28,28][14,14][7,7]78.51.31[32,32] [16,16][8,8][4,4]77.24.11[224,224] [56,56] [28,28] [14,14][7,7]DynOPool-S 82.33.57[224,224] [58,63] [18,17][9,4][4,2]80.31.01[32,32] [10,9][5,4][2,2]77.66.20[224,224] [71,71] [27,26] [12,11]DynOPool-B 87.238.53[224,224] [225,210] [68,66][16,17][4,4]80.61.73[32,32] [18,17][7,6][2,3]78.112.80[224,224] [102,99] [43,41] [16,17]人类77.60.33[224,224] [112,112] [56,56] [28,28][14,14][7,7]73.80.09[32,32] [16,16][8,8][4,4]71.70.31[224,224] [112,112] [56,56] [28,28] [14,14]DynOPool-S 78.70.34[224,224] [98,119] [39,42] [36,18][21,9][12,4]74.00.08[32,32] [13,13][6,6][4,4]72.10.49[224,224] [111,111] [55,50] [32,27] [20,16][9,7]DynOPool-B 82.62.35[224,224] [181,150] [132,174] [87,80] [51,36] [22,13]76.20.21[32,32][22,21],[12,12][7,7]73.81.16[224,224] [181,171] [95,93] [53,53]0.31G,75.4%(a) 人类设计0.36G,75.5%(b) DynOPool-S1.71 G,79.8%(c) DynOPool-B5.21G,79.2%(d) 形状适配器图4.在CIFAR-100数据集上使用DynOPool和Shape Adaptor从人类设计的VGG-16中可视化训练模型我们以GMAC和准确度可视化每个模型中中间特征图的大小和形状通过学习数据集的最佳尺度参数α,DynOPool展示了与人类设计的模型和ShapeAdaptor相比具有竞争力的性能上面的问题成功地识别出了一个优化的网络,而没有穷尽的搜索过程。如表1所示,在FGVC-飞机上,经过训练的网络具有许多非正方形特征图,其接收场为倒易形状,并且在所有测试数据集中实现了最大的性能改进。由于细粒度数据集中的图像比一般图像共享相对多的共同模式,因此可以关键是找到最佳形状的接收场,以实现更好的精度。有趣的是,DynOPool-S模型在早期的层中具有宽的特征图,但在更深的层中最终具有高的特征图。这一事实表明,所提出的动态语义模型在分析局部模式时,集中考虑了水平方向的信息,从而迫使垂直方向的信息在识别图像语义结构时变得更加重要。结果,它以更少的计算量实现了更高的性能,人类设计的模型依赖于具有标准尺寸和形状的特征图。表1展示了另一个有趣的结果,关于在CIFAR-100和ImageNet上训练的网络的特征图形状,它们在图像中包含比FGVC-Aircraft更一般的对象类别。特征图针对垂直形状进行优化,即,H > W,在几乎所有的设置中,这也与以前的工作[34]的结果一致这意味着ImageNet和CIFAR-100数据集中的信息量在空间维度上是不对称的,我们可以通过观察垂直方向的细节而不是水平方向来提取更多的信息此 外 , 我 们 在 图 4 中 可 视 化 了 人 类 设 计 模 型 、DynOPool-S/B和Shape Adaptor的特征图大小。如图4(b)和(c)所示,DynOPool-S/B学习利用非正方形特征图并展示 数据驱动的模型选择能力。特别是VGG-16556人性化设计DynOPool×79表2。DynOPool和Shape Adaptor在CIFAR-100数据集上的比较。DynOPool始终优于Shape Adaptor,且计算成本更低。757167630.10.3GMAC0.50.7表3. DynOPool与EfficientNet-B 0在ImageNet数据集上的性能。图 5. GMACs-CIFAR-100 上 人 工 设 计 的 VGG-16 和 带 有DynOPool的VGG-16使用DynOPool的模型使用不同的λ值进行训练,而人类设计的模型则通过不同的输入分辨率进行训练DynOPool-B甚至在第一个池化层之后增加了特征图的大小,与人类设计的模型相比,这导致了4.4%p的大幅准确性增益。DynOPool-B的结果表明,充分利用前几层的局部信息有时是有帮助的,而在后几层扩大感受野的大小可以减小相应特征图的大小。5.2.2准确性和GMAC图5显示了我们的DynOPool模型和CIFAR-100上的VGG-16人工设计模型之间的GMAC精度权衡。我们调整输入图像的大小,以获得人类设计的模型,VGG- 16相对于不同的计算成本的GMAC方面的准确性。这是由包括搜索空间中的输入大小的几种NAS算法的策略激发的[22,41]。对于DynOPool,我们通过改变(8)中的与人类设计的模型相比,DynOPool在几乎所有情况下都显示出在准确性和GMAC之间的卓越权衡,特别是当模型被大幅压缩时。这是因为,通过使用我们的方法,模型结构是动态和有效地为目标GMAC优化。在人类设计的模型的情况下,当输入图像大小正好是32 32(0.31 GMAC)时,性能得到优化,具有良好的权衡。我们认为这是因为CIFAR-100数据集已经使用其原始图像大小进行了多年的广泛测试,并且大多数人类设计的模型都针对输入大小进行了最佳优化。此外,人类设计的模型可能无法有效地处理非常规输入。骨干模型Acc. GMACs EfficientNet-B0Human71.8 0.42年龄大小,而不是数字的2次幂,因为额外的填充可能会导致错误。5.3. 与形状适配器的表2比较了DynOPool和形状适配器之间的准确度和GMAC [23]。尽管这两种算法的目标都是通过引入可学习的模块来找到最佳的特征图大小,但DynOPool在准确性和效率方面都优于Shape Adaptor。我们在图4(d)中展示了形状适配器的特征图大小以及准确性和计算复杂性。我们相信,我们方法的以下特点驱动了差异。形状适配器通过两个预先定义的候选尺寸尺度的线性插值确定输出特征图尺寸。该策略通过强制考虑预测比例因子下聚合的潜在不相关特征而导致大的近似误差。相反,DynOPool使用单个比例因子r自然地调整特征图大小,该比例因子由α重新参数化以实现稳定的优化。补充文件中讨论了两种方法之间的更详细比较。5.4. 与NAS算法虽然NAS是一个比DynOPool更通用的概念,但NAS中的搜索空间通常不会考虑特征图大小,并且NAS可以与DynOPool联合优化架构。我们采用DynOPool优化EfficientNet [41],这是NAS确定的最先进架构如表3所示,准确度(%)骨干模型Acc.GMACVGG-16形状适配器79.25.21DynOPool(我们的)79.81.71ResNet-50形状适配器80.34.93DynOPool(我们的)80.61.73MobileNetV2形状适配器75.70.92DynOPool(我们的)76.20.21Ef ficientNet-B172.80.75Ef ficientNet-DynOPool(我们 72.30.58557表 4. HRNet-W 48 在 Pas-calVOC 上 的 语 义 分 割 结 果 。DynOPool将人类设计的模型压缩至16%,并对mIoU略有改善。模型mIoU GMACs特征地图大小人类76. 282.55[240 ,240] [120 ,120] [60 ,60] [30 ,30][15,15]DynOPool(我们的)76.469.39[134,130] [52,50] [22,21]与EfficientNet-B 0和EfficientNet-B1相比,带DynOPool的EfficientNet-B 0在准确性和GMAC方面表现出了竞争力。尽管DynOPool的优势在此结果中并不令人印象深刻,但NAS和DynOPool的组合被视为一项可区分的优化任务,即使在特征地图比例维度中也是如此;它有可能以更少的计算成本获得更高的精度。请注意,虽然EfficientNet-B1的架构是从1)宽度,2)深度和3)分辨率维度的组合搜索空间中识别的,但我们可以使用DynOPool以大幅减少的搜索时间找到具有优化特征图大小的竞争模型。5.5. 语义分割结果为了进一步验证DynOPool的有效性,我们进行额外的实验语义分割。语义分割任务涉及场景中具有各种尺度的各种对象和材料,识别每个对象对应的最佳感受场对于提高最终精度至关重要。为了获得语义上更丰富和空间上更精确的表示,多尺度表示学习是语义分割模型中的流行方法[3,4,42,45]。例如,HR-Net [42]在整个过程中保持高分辨率表示,并并行连接高到低分辨率卷积流。为了评估DynOPool在语义分割中的性能,我们采用HRNet-W 48(HR-Net的变体)作为我们的骨干模型,并将模型中的步幅卷积替换为DynOPool和香草卷积(步幅为1)的组合。我们在PascalVOC [7]数据集上训练模型,以检查是否存在进一步改进的空间。如表4所示,DynOPool成功地将人类设计的模型压缩了16%,mIoU略有改善。有趣的是,我们的模型扩大了卷积主干和并行卷积流的上分支的分辨率,并一致地降低了并行卷积流的其余三个分支的分辨率。这突出了维护具有数据驱动的特征图大小的特征图的重要性,以提高性能,减少计算负担。我们在补充文件中提供了详细的实验设置。6. 结论和未来工作6.1. 结论我们提出了一种动态优化池,称为DynOPool,它有助于找到最优化的大小和形状的接收场和特征图。DynOPool可识别特征图的最佳尺寸和形状,而无需依赖人类的归纳偏见或过度的架构搜索。与人工设计的模型和以前的工作相比,我们的模块在多个数据集上使用各种识别模型实现了优越的性能,并在准确性和计算成本之间表现出理想的权衡。我们还表明,DynoPool与最近的NAS算法兼容,自然适用于语义分割模型。我们希望我们的模块能够让视觉社区更有效地优化深度神经网络。6.2. 未来的作品虽然我们专注于二维任务在这项工作中,我们的模块可以扩展到更高维的缩放模块。例如,在动作识别任务中,我们还可以通过调整时间池化所需的帧数,使用DynOPool从数据集中捕获时间关系。此外,与我们的发现类似,在认知科学中,几十年来众所周知,人类视觉系统感知垂直线比水平线稍长[9,20,35],并且更多地基于水平对称性而不是垂直对称性来判断对称性[10,36]。换句话说,我们的视觉系统已经适应了对垂直信息变化更敏感。尽管历史悠久,但确切的原因尚未确定,仍在讨论中[2,28]。研究我们工作中的发现与认知科学中的观察之间的联系是值得的,这有助于理解计算机视觉和人类视觉系统的不对称行为,并弥合了两个研究领域之间缺失的联系。致谢张东焕感谢现代汽车郑梦九基金会的财政支持。本研究得到了三星高级技术研究所和国家研究基金会(NRF ) 生物 医 学技 术 开发 计划 [ 编 号2021 M3 A9E4080782]以及韩国政府(MSIT)资助的信息通信技术规划评估研究所(IITP)资助[编号2021 -0-01343,人工智能研究生院计划(首尔国立大学);编号2021 -0-02068,人工智能创新中心]的部分支持。558引用[1] YoshuaBengio,NicholasL e'onard和AaronCourville。通过随机神经元估计或传播梯度以进行条件计算。arXiv预印本arXiv:1308.3432,2013。 4[2] John W Berry,John Widdup Berry,Ype H Poortinga,Mar- shall H Segall , and Pierre R Dasen. 跨文化心理学:研究与应用。剑桥大学出版社,2002年。8[3] Zhaowei Cai,Quanfu Fan,Rogerio S Feris,and NunoVas-concelos.统一的多尺度深度卷积神经网络,用于快速目标检测。在ECCV,2016年。8[4] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。8[5] Jifeng Dai , Haozhi Qi , Yuwen Xiong , Yi Li ,Guodong Zhang,Han Hu,and Yichen Wei.可变形卷积网络。InICCV,2017. 一、五[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。在NAACL,2019年。1[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,2010年。五、八[8] Hendrik P. A. 作者声明 :by Patrick Weschollek. Flex-convolution(网格世界之外的百万级点云学习)。在ACCV,2018年。 2[9] Frank W Finger和David K Spelt。水平-垂直错觉的图解。Journal of Experimental Psychology,37 (3 ):243,1947. 8[10] Celia B Fisher 和 Maria P Fracasso 成 人 和 儿 童 的Goldmeier效应:环境、视网膜和表型对视觉对称性判断Perception,16(1):29-39,1987. 8[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池TPAMI,2015。1[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。一、五[13] Yanping Huang,Youlong Cheng,Ankur Bapna,OrhanFirat , Dehao Chen , Mia Chen , HyoukJoong Lee ,Jiquan Ngiam , Quoc V Le , Yonghui Wu , et al.GPipe:Efficient training of giant neural networks usingpipeline parallel
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功