没有合适的资源?快使用搜索试试~ 我知道了~
1641频域紧致3D卷积神经网络陈寒亭1、2,王云鹤2,韩姝2,唐业辉1、2,徐春静2,施伯欣3、4,徐超1,齐天2,徐昌51机器感知教育部重点实验室(MoE)北京大学2华为技术诺亚3NELVT,部门北京大学计算机科学系4彭城实验室。5悉尼大学工程学院计算机科学学院{htchen,yhtang,shiboxin}@ pku.edu.cn,xuchao@cis.pku.edu.cn,c. sydney.edu.au{yunhe.wang,han.shu,xuchunjing,tian.qi1}@ huawei.com摘要本文研究了三维卷积神经网络(3D CNN)的压缩和加速。为了降低深度神经网络的存储器成本和计算复杂度,已经通过发现预训练网络中的冗余参数来探索了许多算法然而,大多数现有的方法都是针对处理由2维卷积滤波器(即卷积滤波器)组成的神经网络设计的。图像分类和检测)并且不能直接应用于三维滤波器(即,时间序列数据)。在本文中,我们开发了一种新的方法,用于消除冗余的三维卷积滤波器的时间维,通过将它们转换到频域通过一系列学习的最佳变换与极少数参数。此外,这些变换被强制为正交的,并且特征图的计算可以在频域中完成在基准3DCNN模型和数据集上的实验结果表明,所提出的频域紧凑3DCNN(FDC3D)可以实现最先进的性能,例如,3D-ResNet-18上的2倍加速比,不会明显影响其精度。1. 介绍深度神经网络,特别是卷积神经网络(CNN)已经在各种计算机视觉任务中得到了很好的证明。提出了大量人工设计的卷积神经网络,如AlexNet [17],VGGNet [29] 和 ResNet [13] , 以 在 具 有 挑 战 性 的ILSVRC 2012数据集上实现令人印象深刻的分类准确性[28]。在其他任务中也取得了类似的成功,包括物体探测,*通讯作者。图1.这是一个FDC3D的例子。利用学习的最佳变换将特征图和滤波器的矩阵转换到频域。然后通过结构剪枝直接降低计算量。(例如,更快的RCNN [26]和SSD [20])和分段(例如,FCN [21]和掩码r-cnn [12])。在这些前面提到的计算机视觉任务中,每个单独的图像通常被单独处理,并消耗数百MB的内存。已经开发了3D卷积来处理基于视频的处理任务,例如人类动作识别[16]。与2D卷积相比,如果为了时间信息而同时研究视频帧,则将花费更多的资源。例如,3D-ResNet-50 [11]需要354MB内存和超过22G次的浮点数乘法,这远远高于传统的2D-ResNet-50的103MB内存和4GFLOP。多年来,提出了许多方法,1642压缩和加速深度神经网络。例如,Luoet al.[22]基于来自下一层的统计信息的修剪滤波器Chen等人[2]使用了一个哈希函数,并在同一个哈希桶中用一个参数表示权重。Vanhouche等人[32]探索了具有8位整数值的深度神经网络,以32位浮点值取代原始模型,以直接实现压缩和加速。Courbariaux和Ben- gio [4]探索了具有二进制权重和激活的神经网络。Restgari等人[25]进一步将二进制卷积纳入现代神经架构,以实现更高的性能。Wang等人[34]借助离散余弦变换在频域中实现压缩滤波器。尽管上述方法在学习可移植深度网络方面做出了巨大的努力,但它们中的大多数都是为2D CNN设计的,并且可能不是处理3D卷积神经网络的最佳选择。与传统的卷积网络相比,3D CNN被开发用于处理视频(例如,动作识别[16])或一系列输入图像(例如,患者的医学图像[3]),并且3D CNN中的滤波器具有额外的维度。事实上,视频或医学图像都可以被视为图像序列,其中任何两个相邻图像之间存在高度相关性。这个额外维度中的卷积滤波器还应该具有高时间相似性,以从输入数据中提取有用的信息,如图3所示。在本文中,我们将滤波器转换为频率域,以研究它们的冗余度,并产生紧凑的3D卷积神经网络。学习一系列变换以将每个卷积层中的滤波器从空间域转换到频域。这些滤波器的系数在频域中将是结构上稀疏的,这可以通过丢弃它们的细微分量而被显著压缩。此外,这些变换在训练过程中被迫正交,以便我们可以将空间域中的卷积运算放松为对输入数据和滤波器的频率系数的相同运算,具有极低的计算复杂度。此外,对于便携式神经网络,也将放弃小重要性的冗余滤波器。所提出的方法的说明如图1所示。 在包括3D-ResNet-18和3D U-Net在内的基准模型上的实验表明,所提出的方案在压缩比和加速比方面优于用于学习紧凑3D卷积神经网络的最先进方法。本文的组织结构如下。第二节研究了网络剪枝算法和3D卷积网络的相关工作。第三节提出了一种将滤波器转换到频域的三维神经网络剪枝方法.第5节说明了实验-在基准数据集和模型上对所提出的方法进行了测试,第6节总结了本文。2. 相关作品在这里,我们首先研究各种任务中的3D CNN,然后回顾深度神经网络的修剪方法。2.1. 3D卷积神经网络3D卷积神经网络被提出来处理多帧或多图像输入,这在诸如视频和体积图像处理的最近应用中变得越来越流行开创性的工作[16]通过从时间维度提取特征来分解3D卷积滤波器,从而捕获多帧运动信息。Tran等人[31]进一步提出了C3D用于大规模数据集中的通用时空特征学习,并优于2D卷积神经网络,这表明3D卷积滤波器更适合于跟踪视频中的信息。 Feichtenhofer等[6]提出了一种双流卷积神经网络,它由2D和3D卷积滤波器组成,以提取空间和时间信息。 Hara等人[10]将经典的2D-ResNet [13]推向了三维,并取得了比相对较浅的C3 D网络更好的性能此外,Haraet al. [11]评估说,目前的视频数据集有足够的数据来训练像ResNet-152这样的深度模型。除了视频分类之外,3D CNN还广泛用于医学图像分割,因为大脑MRI图像是体积的。已经引入了3D U-Net [3]来对体积医学图像执行端到端分割。尽管3D CNN在视频和体积图像处理任务中取得了令人满意的性能,但其庞大的计算成本阻碍了其在移动和边缘设备上的部署。对三维卷积神经网络的压缩有着迫切的需求。2.2. 网络修剪网络剪枝旨在去除冗余权重来加速和压缩原始网络。Denton等人[5]利用奇异值分解(SVD)将权值分解到全连接层。Han等人[8]引入剪枝、训练量化和Huffman编码,大大减少了神经网络的存储量。Li等[19]建议通过计算其N1范数来删除对输出影响较小的滤波器。Molchanov等人[24]基于泰勒展开修剪权重,以近似成本函数的变化。Han等人[9]结合剪枝,量化和霍夫曼编码技术,实现了更高1643Σ压缩比Hu等人[15]提出了一种数据驱动的方法,以去除影响较小的冗余过滤器Luo等人[22]基于其下一层而不是当前层中的重构误差来修剪滤波器,并且将滤波器修剪视为优化问题。He等人[14]提出了一种新的基于LASSO回归的信道修剪方法来选择每层中的重要信道 Gui 等 人 [7] 提 出 了 一 种 新 的 逆 向 训 练 模 型 压 缩(ATMC)框架,以统一现有的压缩方法(修剪,因子分解,量化)。Wu等[35]提出了一种用于卷积滤波器的新的谱松弛k均值正则化,以通过压缩权重共享来实现。Yang等[36]设计LegoNets,其中传统的过滤器被高效的Lego过滤器取代。虽然上述修剪方法可以在CNN压缩中获得令人满意的结果,但它们主要集中在修剪传统的2D CNN而不是3D CNN,这在视频任务中起着重要作用。Zhang等人[37]将基于正则化的修剪算法[33]适用于3D CNN。然而,对于具有附加时间维度的3D卷积滤波器没有特殊的设计。本文提出了一种新的学习最优变换的方法,用于消除三维卷积滤波器在频域上的时间冗余3. 方法在本节中,我们将首先介绍3D CNN的分类,然后研究在频域中压缩3D滤波器的可能性然后,我们研究了一种学习一系列正交基的新方法,以有效地去除3DCNN中的冗余参数。3.1. 频域如VGGNet-16 [29]和ResNet-50 [13],当前的3D CNN主要是从一些2D模型修改而来的,例如。3D-ResNet-18[10]和3D-UNet [3],我们还应该开发有效的算法来识别3D CNN中的冗余。现有的剪枝方法已被证明是成功的,在传统的神经网络。虽然这些方法可以直接适用于3D CNN以实现相当大的加速和压缩比[37],但忽略了时间维度,这是2D和3D CNN之间的主要差异。事实上,视频中的相邻帧是高度相关的。提取多帧输入中的信息的3D与滤波器的高度和长度维度相比,时间维度具有更多的冗余,如图1所示3 .第三章。为此,我们的动机是将3D卷积滤波器转换到频域,其中变换后的表示比原始信号更稀疏,并且可以很容易地压缩。有许多变换用于因式分解输入信号并发现它们在频域中的冗余,例如:离散傅立叶变换(DFT [27])和离散余弦变换(DCT [1])。由于傅立叶频域中的系数是不适合压缩深度神经网络的虚值,因此我们利用具有实值的DCT来压缩3D卷积滤波器。如上所述,3D卷积滤波器的时间维度因此,我们建议将这些滤波器变换到时域中的频域。具体来说,我们首先重新制定卷积运算w.r.t.Fcn。1.第四,月经(即,时间维度),2D cY=X<$F=x<$f,(2)与传统网络不同,对 于 输 入 数 据 , 3D CNN 中 的 维 数 为 4 , 即 , X∈RH×W×c×T,其中H、W分别为输入数据的高度和宽度,c为通道数其中X E ∈R d2ct×H′W′T′我我i=1将X转换为矩阵ac,数字,并且T表示附加的时间维度。类似地,3D CNN中的每个卷积滤波器将具有附加尺寸,即,F∈Rd×d×c×t×N,其中d×d根据滤波器尺寸和参数(例如,填充和stride),F∈Rd2ct×N和Y∈RH′W′T′×N是矩阵-过滤器和输出特征图的ces分别。 xi∈是滤波器的大小,N是滤波器的数量,t和c是Rt×H′W′T′和f⊤∈Rt×N通过矩阵划分实现⊤时间维度和通道的数量。X=[X1,. - 是的- 是的 ,xd2c],F=[f1,. - 是的- 是的 、f d2 c]. 偏置项3D卷积运算可以公式化为:为简单起见,对于给定的t维向量f∈Rt×1,其DCT代表-Y=F<$X+b,(1)其中,Y是卷积运算,Y∈RH′×W′×N×T′频域中的表示C可以公式化为t−1<$π1<$是输出特征图,H′、W′、T′分别是Y的高度、宽度和时间维度,b是偏置cm=i=0时菲科斯m(i+)t2、(3)term.考虑到在大多数现有的2D CNN中存在相当多的冗余参数和滤波器,其中cm是DCT频率中f的第m个domain(m∈ {1,· · ·,t}).同样,DCT也可以表示为矩阵乘法,即.c=Sf,其中S为我Σ1644我⊤⊤^2^Σj=1dcSfj)i,dcSfj)i,dcSfj)2,即dcSfj)i,dcSfj)i,dcSfj)2,dcSfj)i,dcSfj)2,dcSfj)i,dcSfj)2,即dcSfj)i,dcSfj)2。的min ||Y −C我β X射线衍射||2+ γ||β||、(8)Σ. -是的-是的一个DCT的t×t变换矩阵,可根据上述函数计算得到。由于S是一个正交矩阵,即S是一个正交矩阵。SS=I,其中I是t×t单位矩阵,我们可以同时对滤波器矩阵应用DCT及其逆变换,在时间维度上的输入数据转换Eqn. 2进入频域,即,2D cY=xSSf=XS^S^F,是O(H′W′T′d2ct2)。如果我们还对X中的其他维度(通道维度和核大小维度)应用DCT,计算复杂度将显著增加到O(H′W′T′d4c2t2)。因此,我们只使用DCT消除时间维度上的冗余。3.2. 学习转换3D滤镜Fcn提出了一种基于频域的3D卷积网络压缩方法。5通过使用DCT转换所有滤波器DCT设计S.T.i=1S^=0S0···00S··· 0(四)、对于自然图像或视频,基于某些先验知识,这并不完全适合于寻求3D卷积滤波器的组稀疏性。因此,我们建议学习OP-...0 0···S其中S是d2ct×d2ct块对角矩阵。通过将滤波器变换到频域,时间变换以消除速度中的冗余3D卷积滤波器的实际尺寸。除了利用固定的字典或空间-频率域变换外,我们还使任意3D卷积层中转换滤波器矩阵的变换是可学习的,即:可以通过利用转换后的滤波器的稀疏性来容易地压缩网络。作为非结构化的重量单位,min||Y− XSF||F+λ||S^F||1,s. t. S S=I.( 六)ing [8]不能直接加速深度神经网络,而无需对矩阵乘法进行特殊实现(例如,稀疏卷积),我们试图从结构化修剪的角度解决3D CNN压缩任务[22,14],这直接减少了卷积滤波器矩阵中的列或行的数量。因此,我们丢弃了3D卷积滤波器的冗余时间维度(即,SF中的一些行),具有微妙的FCN2范数和减小的FCN。4至2其中S∈Rt×t是将所有卷积滤波器转换到频域的期望变换,I是使S正交以确保系数域中卷积相等的t×t单位矩阵,最后一项是用于消除SF中的细微元素的常规的λ1范数,λ是平衡这两项的折衷超参数如上所述,我们引入掩码矩阵M来结构化修剪3D卷积滤波器。因此,我们认为,D CThe⊤ ⊤二、一-norm更适合于修剪过滤器Y=i=1⊤xi(M/S)⊤(毛里求斯)fi在频域中,即,丢弃S^F。目标函数可以重新表述为:=X(M^<$S^)(M^<$S^)Fd2cM0···0 ||Y-X F ||2+ λ||Sf||, s.t.SS= I.i2, 1S.T. M^=00米···0、FSi=1(七)... -是的-是的.0 0···M其中,M∈t×t是用于丢弃频域中具有较小值的行的掩码矩阵,并且m是Hadamard乘积。具体地,第i项的重要性值Vi是Σ2哪里||·||2,1是求群稀疏性的n =2,1-范数。除了时间维度上的冗余,我们还可以丢弃3D卷积网络的冗余通道。我们进一步应用通道修剪的思想[14]:Σ对于第i个时间维度的转换后的滤波器,可以得到矩阵的第i个r_2-范数,其中(·)i,r_2表示该矩阵的第i个r_0_w。的β,F我i i F1i=1然后将掩码矩阵M进行为M=[M1,...,其中,如果Vi是所有Vi(i ∈ {1,. t}),否则Mi= 1(0,1表示所有值均为0,1的t维向量)。k由修剪率确定这将在后面讨论。因此,复杂性自然会降低。注意,通过Fcn中的S将输入数据转换到频域4其中Fi和Xi表示滤波器和输入的每个通道引入β来寻找冗余输入通道,γ是惩罚系数。重要输入通道可以通过最小化β的α1-范数来选择。然后,我们可以丢弃具有较小β的输入通道。通过结合FCN的目标7、FCN。8、同时消除滤波器输入通道和时域冗余的目标函数在此基础上,提出了一种新的计算方法,⊤1645CΣCT算法1压缩3D卷积神经网络-在频域中工作。输入:具有p个卷积层L1,. . .,Lp,每个层的通道和时间维度修剪率pci和pti,不同对象的参数:λ和γ。其略高于Fcn。10,因为tN(例如,在3D-ResNet-18的第二层中,t=3且N=64去除冗余参数后,时间维度t的核大小可以减少到t′,网络修剪后,输入通道c可以减少到c′,因此计算复杂度可以写为:1:对于i =1到p,2.提取Li中的卷积滤波器以形成F并初始化变换Si和信道稀疏参数β;O(H′W′T′d2c′t′2)+O(H′W′T′d2c′t′N),(12)3:重复4:随机选择一批数据转发N次;如:所以压缩方法的加速比可以写成5:使用N计算Li的输入数据X;6:使用N计算Li的特征图Y;7:使用Si将F转换到频域;rc= O(H′W′T′d2ct′2)+O(H′W′T′d2c′t′N)O(H′W′T′d2ctN)C′T′CT(十三)8:解决Fcn。9、同时更新形式Si和信道稀疏参数β。9:直到收敛10:根据β和pci丢弃精细滤波器。11:消除时间维度根据pti和跟随Fn。五、12:保存层L1的最优变换S1。13:结束14:通过保留丢弃的分量来微调N1在参数方面,为了简化,我们用一个褶积层的参数进行分析.压缩前的参数数为NCd2t。压缩后,时间维度可以减少到t′,输入通道可以减少到c′。我们还需要添加一个变换矩阵S,它有许多参数t2。因此,压缩率可以写为Nc′d2t′+t×t输出:紧凑的3D网络工作N^。Rs=NCD2T(十四)可以重新表述为min||Y−βXF||2+ γ||β||2D c+λ|||SF||、由于变换矩阵的参数相对与卷积滤波器的参数相比很小可以忽略该矩阵的参数。 然后,COM-′ ′压缩速率可以近似为Ct。S、F、βiii Fi=11j=1j2,15. 实验S.T.SS = I.(九)在本节中,我们将展示Fcn。9可以使用随机梯度下降自然优化。在我们找到Fcn的解之后。9、可以去掉不必要的滤波器来压缩神经网络。 给定信道和时间间隔的修剪率,当k = t ×pt时,pc最小β的滤波器将被丢弃,掩码矩阵M中k=t×pt最小重要值V的行将被设置为0。详细程序建议频域紧凑3DCNN(FDC3D)总结在算法1中。4. 压缩与提速分析原始卷积的计算复杂度(即,Fcn。2)是:O(H′W ′T ′d2ctN).(十)在使用Fcn学习最优变换S之后。2,频率域中卷积的计算复杂度可以写为:O(H′W′T′d2ct2)+O(H′W′T′d2ctN),(11)1646在UCF 101上提出的3D CNN压缩方法,Brats18数据集。通过大量的消融实验和可视化实验,对算法进行了深入的研究。5.1. UCF101实验我们首先在UCF 101数据集上进行实验,该数据集由101个动作类,超过13k个剪辑和27小时的视频数据组成。我们将所提出的方法与泰勒剪枝(TP)[24],滤波器剪枝(FP)[19]和基于正则化的剪枝(RP)[37]进行了比较。我们使用3D-ResNet-18 [31]作为主干,它是通过将每个2D卷积滤波器转换为3D卷积滤波器而从2D-ResNet-18修改而来的增加的时间维度参数与其他两个空间维度相同。我们使用随机梯度下降(SGD),初始学习率为0.005,动量为0.9,权重为1e−5来训练网络。在验证损失饱和后,学习率除以10。该网络训练了300个epoch。训练样本随机1647从具有16个样本持续时间的视频中生成,并随机裁剪为112×112,以便执行以下数据增强[11]。执行平均值减法,以从样本每个颜色通道。pc和pt分别设为1和1,表2.所提出的FDC3D在频域中消除冗余的有效性5 14 34倍加速分别为8和3表1.在UCF 101上加速3D-ResNet-18时增加的错误(基线:72.50%)。2×和4×表示加速比。表1报告了不同方法的压缩结果实验细节与第5.1节相同。表2报告了在拟议的FDC3D的频域中消除冗余的结果。如果我们不修剪时间维度(即,仅修剪信道),压缩的网络遭受0.81%,在2倍和4倍加速比下,精度下降3.58%通过UCF101数据集。原始的3D-ResNet-18 模 型 的 预 测 准 确 率 为 72.50% 。Taylor Pruning(TP)和Filter Pruning(FP)已成功应用于2D卷积神经网络。然而,当与原始模型相比时,这些方法的压缩模型遭受退化(5.72%和1.60%(2倍加速),这表明传统的2D压缩算法并不完全适用3D卷积滤波器 RP提出了一种基于三维正则化的神经网络剪枝方法,该方法仅受0。41%和2。87% increasederrors for 2× and4倍加速。 然而,RP并不认为高-时间维度上过滤器之间的相关性,是2D和3D卷积滤波器压缩之间的关键区别。通过引入三维CNN时间维的最优变换,该方法可以达到2倍和4倍的加速比,仅需0. 百分之十和2. 准确率下降16%所提出的方法outper-形成了以前的修剪方法,证明了证明了该方法对消除三维卷积滤波器时间维冗余的有效性5.2. 消融研究在上述部分中,已经验证了所提出的用于学习频率紧凑3D CNN的方法的有效性。该算法引入最优变换将滤波器转换到频域而不是使用DCT。此外,为了消除信道维和时间维的冗余,我们引入了信道修剪[14],并将其与Fcn中提出的最佳变换相9 .第九条。因此,有必要研究所提出的最佳变换的影响我们在UCF-101数据集上进行了消融实验。我们使用3D-ResNet-18作为原始模型。将DCT应用于滤波器,在相同的加速比下,可以获得更高的精度,证明了消除时间维冗余的有效性。然而,DCT是为自然图像设计的,并不完全适合3D CNN中的滤波器。通过学习每一层的最优变换,压缩后的网络只受0.10%的在2倍和4倍加速比下,精度下降2.16%。结果表明,学习最优变换的优越性,用于压缩3D CNN中的时间维度的形式5.3. 单层修剪25201510501 2 3 4 5 6 7加速比图2.使用不同方法修剪后的单层性能(无微调)。最小范数2表示直接去除具有最小范数2的滤波器的时间维数. DCT表示在修剪时间维度之前对滤波器应用DCT,OT表示在修剪之前应用所提出的最优在本小节中,我们评估了所提出的方法在单层中的性能,以明确了解频域压缩的有效性。我们使用3D-ResNet-18 [11]作为UCF-101数据集的原始模型为了方便,我们最小2DCTOT误差(%)方法增加错误。(%)2×4×我们(only修剪渠道)0.813.58我们(withDCT)0.422.96我们(with最优变换)0.102.16方法增加错误。(%)2×4×[24]第24话,我的5.7214.24[19]第37话:我的1.606.92RP [37]0.412.87我们的(FDC3D)0.102.161648使用所提出的使用Fcn的方法仅压缩时间维度7 .第一次会议。我们将我们的算法与时间维度上的两种朴素压缩策略进行比较:1. 2.直接去除具有更小范数的滤波器的时间维度;利用DCT变换将滤波器转换到频域而不是最优变换。我们在第一卷积层进行修剪,其滤波器的大小为7×7×7,时间维数为7。单层修剪的结果如图2所示。随着加速比的增大,误差增大。直接移除时间维度,最小的2-范数将在很大程度上影响3D CNN的性能,这表明每个维度对于3D卷积滤波器都很重要。因此,我们利用离散余弦变换将滤波器转换到频域,在相同的加速比下,取得了更好的性能。通过学习得到的最优变换,该方法获得了最佳性能,证明了最优变换适合于求三维卷积滤波器的组稀疏性。5.4. 不同深度的修剪该方法的有效性已在3D-ResNet-18上得到验证为了进一步研究所提出的方案的通用性,我们在UCF-101数据集上的3D-ResNet [11我们在ResNet-34、ResNet-50和ResNet-101上利用了所提出的方法。培训设置与第5.1节相同。表3.UCF101数据集上不同架构的错误增加2×和4×表示加速比。架构准确度(%)增加错误。(%)2×4×ResNet-3481.10.131.94ResNet-5081.80.061.63ResNet-10183.50.021.31表3显示了3D-ResNet在不同深度上的压缩结果。随着模型的深入,其准确性也会提高。然而,它们的计算成本和存储量都较大。因此,我们利用建议的加速这些网络的方法。该算法在各种结构上都能获得2倍的加速比,且精度没有明显下降。此外,随着模型深度的增加,增加的误差变小,这表明,结果表明,模型越大,冗余度越大,该方法能有效地降低模型的计算量。5.5. 过滤器可视化为了消除三维卷积滤波器的冗余由ap-对特征图进行最优变换,可以直接在频域中计算卷积。虽然在计算3D卷积时,我们不需要将压缩滤波器转换回空间域,但我们在空间域中重建卷积滤波器,以实现更直观的可视化。(a) 原始卷积滤波器。(b) 转换后的滤波器在频域中。(c) 重构卷积滤波器。图3. UCF 101数据集上滤波器的可视化。红框中的过滤器是保留的。我们在图3中的UCF 101数据集上的第一个卷积层中可视化3D-ResNet-18 [11]的过滤器。原滤波器的尺寸为7×7×7,具有3个输入通道和64个输出通道。为了方便,我们只能看到-在这些通道中选择一个过滤器。图3(a)显示了原始过滤器。由于相邻的输入图像是高度相关的,用于提取体积图像的滤波器也显示出对于相邻时间维度的相似模式,这表明在3D卷积神经网络中存在大量冗余。因此,用较小值修剪权重的传统2D CNN压缩因此,我们引入最优变换将滤波器转换到频域。图3(b)示出了由学习的最佳变换变换的频域中的滤波器。转换后的滤波器可以很容易地分为高频滤波器和低频滤波器。因此,我们可以在图3(b)中保留具有丰富信息的四个过滤器,图3(b)用红线框出。图3(c)示出了在频域中由保留的四个滤波器通过引入最优变换,我们可以在信息损失很小的情况下压缩3D卷积滤波器。5.6. 3D UNet on Brats 2018除了视频识别,3D CNN的另一个重要应用是医学图像分割。脑肿瘤分割(Brats)数据集[23]为脑肿瘤的分割提供了多模态磁共振成像(MRI)图像和专家标记的基础事实。该数据集的任务是生成片段-1649通过使用术前MRI扫描中提供的数据对不同胶质瘤亚区域进行定位标记。子区域包括增强肿瘤、肿瘤核心和整个肿瘤。该数据集由285个样本组成,分别分为228个样本的训练集和57个样本的验证集。由于医学图像是体积的,传统的2D CNN不能从多图像输入中完全提取信息。因此,提出了3D U-Net [3]来解决这种医学图像分割问题。我们使用残差3D U-Net [18]作为主干在Brats2018数据集上进行实验我们使用随机梯度下降(SGD),初始学习率为0.001,动量为0.9,权重为0.001。1e-5的cay来训练网络。在验证损失饱和后,学习率除以10。网络训练了300次。 训练样本被重塑,160×192×128。批量大小设置为1。拟议方法中,pc和pt被设置为1和1。(a)地面实况(b)3D U-Net(c)FC 3D U-Net图4.Brats 2018数据集上的分割结果与原网络相似,但参数少,计算量小。4 3表4.在Brats 2018数据集上加速3D U-Net时的骰子系数(越高越好)。FC 3D U-Net的加速比为2倍模型骰子(ET)骰子(WT)骰子(TC)3D U型网0.79740.79710.6908FC3D U-Net0.78320.78310.6816表4报告了所提出的方法在Brats 2018数据集上的压缩结果。我们采用在医学分割任务中广泛使用的骰子系数作为评价指标。骰子相似系数是计算两个样本之间空间重叠的相似性度量。骰子系数越低,性能越好。原始3D U-Net模型对增强肿瘤(ET)、整个肿瘤(WT)和肿瘤核心(TC)的分割分别达到0.7974、0.7971和0.6908的骰子分数。然后,我们将所提出的FDC 3D应用于3D U-Net。实验结果表明,压缩后的网络对ET、WT和TC的分割结果分别达到了0.7832、0.7831和0.6816,表明该方法能够很好地完成体积图像的分割任务。为了进一步评估压缩网络与原始网络的性能,我们使用3D U-Net和图4中的频域压缩3D U-Net可视化分割结果。增强的肿瘤、肿瘤核心和整个肿瘤分别标记为蓝色、绿色和黄色。图4(a)显示了地面实况,图4(b)显示了3D U-Net的分割结果。结果表明,三维U形网能成功地分割出医学立体MRL图像的不同部分。考虑到3D U网计算量大的问题,我们提出了FDC3D来消除其冗余。图4(c)显示了压缩网络的分割结果。该方法可以实现6. 结论随着互联网上多媒体的发展,视频变得无处不在然而,3D CNN需要大量的计算资源,这阻碍了它在相机和手机等边缘设备中的使用。本文提出了一种有效的压缩方法来消除三维卷积滤波器在频域中的冗余,即FDC3D。利用学习到的最优变换,将3D卷积滤波器转换到时域结构稀疏的频域,其中冗余参数可以很容易地去除。然后,可以通过也将最佳变换应用于特征图来在频率域中计算卷积。信道空间的冗余度也被考虑,以实现更高的加速比。详细的分析,包括消融研究和可视化进行了证明所提出的算法的有效性。通过对动作分类和医学图像分割的实验表明,FDC3D方法比现有方法具有更高的性能。确认我们感谢匿名评论者的有益评论。 这项工作是支 持通 过国 家国 家 自 然 科 学 基 金 项 目 .61876007 , 61872012 , 中 国 国 家 重 点 研 发 & 计 划( 2019 YFF 0302902 ) , 北 京 人 工 智 能 研 究 院(BAAI),澳大利亚研究委员会DE-180101438项目。1650引用[1] Nasir Ahmed,T Natarajan,and Kamisetty R Rao.离散余弦变换。IEEE Transactions on Computers,100(1):90-93,1974. 3[2] Wenlin Chen,James T Wilson,Stephen Tyree,Kilian QWeinberger,and Yixin Chen.压缩卷积神经网络。arXiv预印本arXiv:1506.04449,2015年。2[3] O¨zgu¨ nC¨ic¨ ek , AhmedAbdulkadir , SoerenSLienkamp ,Thomas Brox,and Olaf Ronneberger.3d u-net:从稀疏注释学习密集体积分割。医学图像计算和计算机辅助干预国际会议,第424-432页。施普林格,2016年。二、三、八[4] 马蒂厄·库巴里奥和约书亚·本吉奥。Binarynet:训练深度神经网络,权重和激活限制为+1或-1。arXiv预印本arXiv:1602.02830,2016。2[5] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构在NIPS,2014。2[6] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,第1933-1941页,2016年。2[7] Shupeng Gui,Haotao N Wang,Haichuan Yang,ChenYu,Zhangyang Wang,and Ji Liu.具有对抗鲁棒性的模型压缩:统一的优化框架。在NeuriPS,第1283-1294页,2019年。3[8] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。二、四[9] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接以实现高效的神经网络。2015年,在NIPS中。2[10] 原贤章片冈广胜佐藤丰利用三维残差网络学习时空特征用于动作识别。在IEEE计算机视觉国际会议论文集,第3154二、三[11] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史在IEEE计算机视觉和模式识别会议论文集,第6546-6555页一、二、六、七[12] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页1[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。一、二、三[14] Yihui He,Xiangyu Zhang,and Jian Sun.用于加速深度神经网络的通道修剪。在IEEE计算机视觉国际会议论文集,第1389-1397页,2017年。三、四、六[15] Hengyuan Hu,Rui Peng,Yu-Wing Tai,and Chi-KeungTang.网络修整:一个数据驱动的神经元修剪ap-向 高 效 的 深 度 架 构 迈 进 。 arXiv 预 印 本 arXiv :1607.03250,2016。3[16] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEEtransactionsonpatternanalysisandmachineintelligence,35(1):221-231,2013。一、二[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS,2012年。1[18] Kisuk Lee,Jonathan Zung,Peter Li,Viren Jain,and HSebas-tian Seung.在snemi3d连接组学挑战中的超人精度。 arXiv预印本arXiv:1706.00120,2017。8[19] Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv:1608.08710,2016。二、五、六[20] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在ECCV,2016年。1[21] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。1[22] Jian-Hao Luo,Jianxin Wu,and Weiyao Lin. Thinet:一种用于深度神经网络压缩的过滤器级修剪方法。在IEEE计算机视觉国际会议论文集,第5058-5066页二、三、四[23] Bjoern H Menze , Andras Jakab , Stefan Bauer ,Jayashree Kalpathy-Cramer , Keyvan Farahani , JustinKirby , YuliyaBurren , NicolePorz , JohannesSlotboom,Roland Wiest,et al.多模式脑肿瘤图像分割基准。IEEE医学成像学报,34(10):1993-2024,2014。7[24] Pavlo Molchanov,Stephen Tyree,Tero Karras,TimoAila,and Jan Kautz.修剪卷积神经网络以实现资源高效推理。arXiv预印本arXiv:1611.06440,2016。二、五、六[25] Mohammad Rastegari、Vicente Ordonez、Joseph Redmon和Ali Farhadi。 Xnor-net:使用二进制卷积神经网络进行 Imagenet 分 类 。 arXiv 预 印 本 arXiv : 1603.05279 ,2016。2[26] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。2015年,在NIPS中。1[27] Oren Rippel,Jasper Snoek和Ryan P Adams。卷积神经网络的频谱表示。2015年,在NIPS中。3[28] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,et al.图像网大规模视觉识别挑战。IJCV,115(3):21
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功