没有合适的资源?快使用搜索试试~ 我知道了~
4903×××× ××× × × ×LP-3DCNN:揭示3D卷积神经网络中的局部相位Sudhakar Kumawat和Shanmuganathan Raman印度理工学院Gandhinagar Gandhinagar,古吉拉特邦,印度{sudhakar.kumawat,shanmuga}@ iitgn.ac.in摘要传统的3D卷积神经网络(CNN)计算成本高,内存密集,容易过拟合,最重要的是,需要提高其特征学习能力。为了解决这些问题,我们提出了校正局部相位体积(ReLPV)块,这是标准3D卷积层的有效替代方案。ReLPV块提取3D局部邻域(例如, 3 33)对输入地图的每个位置进行定位,得到特征图。通过在每个位置的3D局部邻域中的多个固定低频点处计算3D短期傅立叶变换(STFT)来提取相位。然后,在使这些特征图通过激活函数之后,将不同频率点处的这些特征图线性组合。与滤波器大小为3的标准3D卷积层相比,ReLPV块提供了至少33至133倍的显著参数节省33至1313分别为13。我们表明,ReLPV块的特征学习能力明显优于标准3D卷积层。此外,它在不同的3D数据表示中产生一致的更好的结果。我们在体积Mod-elNet 10和ModelNet 40数据集上实现了最先进的精度,同时仅利用了当前最先进的我们还将UCF-101split-1动作识别数据集的最新技术水平提高了5.68%(从头开始训练时),同时仅使用了最新技术水平的15%。1. 介绍在过去的几年中,2D CNN领域的研究在许多计算机视觉任务中取得了前所未有的进展,例如图像分类,语义分割和图像超分辨率。 除了性能结果,2DCNN在其他补充领域也取得了良好的进展,如网络压缩,二值化,量化,正则化等。不幸的是,与2D同行不同,3D CNN并没有享受到相同级别的性能在它们的域中的问题上跳跃(例如,视频分类和上述互补领域的进展。最近的作品,如[44]和[11],列出了深度3D CNN建模和训练中的一些基本障碍,如(1)它们在计算上非常昂贵,(2)它们导致在存储器使用和磁盘空间方面的大的模型大小,(3)由于参数数量多,它们易于过拟合,(4)并且需要提高其特征学习能力,这可能需要对其网络架构或标准3D卷积层[44,25,39]。尽管存在上述挑战,但深度3D CNN文献中的当前趋势是训练计算昂贵、内存密集且非常深的网络,以实现最先进的结果[2,8,11]。在这项工作中,我们通过提出一种替代3D CNN的基本构建块的方法来避开这一趋势更确切地说,我们提出了整流局部相位体积(ReLPV)块,这是3D CNN中标准3D卷积层的有效替代方案。ReLPV块包括局部相位模块、ReLU激活函数和一组可训练线性权重。局部相位模块通过在局部n n n中计算3D短期傅立叶变换(STFT)[15](在多个低频点处)来提取局部相位信息(例如,3)输入特征图的每个位置的邻域/体积。然后,局部相位模块的输出通过ReLU激活函数,以便获得固定低频点处的局部相位信息的激活响应图。最后,一组可训练的线性权重计算这些激活响应图的加权组合。ReLPV块提供了显著的参数节省以及计算和存储节省。基于ReLPV块的3D CNN具有低得多的模型复杂度,并且不太容易过拟合。最重要的是,它的特征学习能力明显优于标准的3D卷积层。4904I∈× ××× ×× ××× ××v∈−我们在这项工作中的主要贡献如下。我们提出了ReLPV块,这是标准3D卷积层的有效替代方案。ReLPV块显著减少了可训练参数的数量,与标准相比至少减少了33到1333D卷积层,滤波器大小为3×3 ×3分别为13×13×13我们表明,ReLPV块在不同的3D数据表示上取得了一致的更好的结果。我们在体积ModelNet 10和Model-Net 40数据集上显示了这一点,通过使用当前最先进的11%参数实现了最先进的准确性。此外,我们提供的时空图像序列的结果。特别是,在UCF-101 split-1动作识别数据集上,将当前最先进的技术水平提高了5.68%,同时仅使用了最先进技术水平的15%我们提出了详细的消融和性能研究的建议ReLPV块通过改变其各种超参数。该分析将有利于未来设计基于ReLPV块的3D CNN。2. 相关工作最近,2D CNN在大多数计算机视觉问题中取得了最先进的结果[9]。此外,他们还在其他补充领域取得了重大进展,如网络压缩[16,48],二进制化[7,6,31,21],量化[50,18],正则化,[5,17,45,32]等。因此,毫不奇怪,最近有许多尝试将这种成功扩展到3D CNN领域的问题,例如,视频分类[1]、3D对象识别[26,2]和MRI体积分割[27,3]。不幸的是,3D CNN在计算上是昂贵的,并且需要大的存储器和磁盘空间。此外,由于涉及大量参数,它们很容易过拟合。因此,最近人们对3D CNN的更有效变体感兴趣受2D CNN中网络二值化技术(如BinaryConnect [7],BinaryNet [6]和XNORNet [31])的进展的启发,Ma等人在[25]中引入了BV-CNN,其中他们完全二值化了一些最先进的3D CNN模型,这些模型被引入用于从ModelNet数据集[42]中识别体素化的3DCAD模型。3D CNN的二进制化版本节省了大量的COM-进化这种技术最近已经在为视频分类任务提出的许多3D CNN架构中进行了探索。可分离卷积的思想是首先在2D中进行空间卷积,然后在1D中进行时间卷积这种因式分解在精神上类似于[43]中使用的深度可分离卷积,除了这里的想法是将其应用于时间维度而不是特征维度。这个想法已被用于各种最近的工作,包括R(2+1)D网络[39],可分离的3D CNN [44],伪3D网络[30]和分解的时空CNN [36]。基于可分离卷积思想的3D CNN在降低的时空复杂度下实现了与视频分类任务的最新技术相比具有竞争力的结果。3. 方法记法。 我们用张量表示3D CNN网络中的层输出的特征图Rc×d×h×w其中h、w、d和c分别是特征图的高度、宽度、深度和通道数ReLPV块架构。ReLPV块是标准3D卷积层的四层替代表示图1示出了ReLPV块的架构。第一层。此层是标准3D卷积层,具有大小为1的单个过滤器11 .一、它需要一个大小为c的特征图DHW作为来自前一层的输入, 并将其转换为单通道特征图,1d h w. 该层准备用于在层2中计算的3D STFT操作的输入。令f(x)为第1层的特征图输出,大小为1d hw。这里,x是表示特征映射f(x)上的位置的变量。第2层。局部相位已成功用于图像中,以检测边缘和轮廓进行特征提取[23]。相位表示不同空间频率的局部相干性图像中的边缘和骨架通过它们的连贯性来表达,并且在图像理解中起着重要作用[47]。同样的属性也适用于3D数据表示。例如,在一个实施例中,视频[29]。有许多方法用于提取多维中的局部相位[14]。我们的方法受[29]启发。第2层通过计算3D短时项来提取f(x)局部n×n×n邻域内的傅里叶变换在f(x)的每个位置x处的Nx,使用等式1。Σ与浮点基线相比,然而,这是以降低性能为代价的。此外,二值化网络F(v,x)=y∈Nxf(x−y)exp−j2πvTy(1)√仅采用二进制化的输入,这限制了其对于诸如视频分类的其他3D数据表示的应用降低3D CNN模型复杂度的另一种方法是用可分离卷积代替3D卷积这里,v R3是频率变量,j =1。使用向量符号[20],我们可以将等式1重写为等式2.F(v,x)=wTfx(2)···4905N× ×××× ×× × ×××ℜ{·}ℑ{·}×V3V2V11/n1/n1/nc x d x h x w1 x深x高x宽26 x深x高x宽26 x深x高x宽f x d x h x w先前层conv3D( 1x1x1, 1)3D STFT(k = 1/n)&局部相位提取ReLUconv3D( 1x1x1, f)下一层层1层2层3层4图1:ReLPV块架构。这里,wv是频率变量v处的3D STFT的基向量,并且fx是包含来自邻域x的所有位置的向量。注意,由于基函数的可分性,可以通过对每个维度使用简单的1D 卷积来有效地计算f (x )中所有位置x 的3DSTFT。在这项工作中,我们考虑了13个最低的非零频率变量,定义如下。选定的频率变量显示为红色v1=[k,0,0]T,v2=[k,0,k]T,v3= [k,0,-k]T,v4= [0,k,0]T,v5=[0,k,k]T,v6= [0,k,−k]T,v7=[k,k,0]T,v8=[k,k,k]T,v9= [k,k,−k]T,v10= [k,−k,0]T,v11= [k,−k,k]T,v12= [k,−k,−k]T,v13=[0,0,k]T,其中k= 1/n图2:用于计算3D STFT的频率点。选定的频率点标记为红点。绿点中的其他频率点被忽略,因为它们是所选频率点的复杂共轭。图中的点2.使用低频变量是因为它们通常包含大部分信息,因此它们比高频分量具有更好的信噪比[14]。让这里,W是对应于13个频率变量的26n3和分别返回复数的实部和虚部因此,根据等式23,对于所有13个频率点v1,v2,.. . ,v13可以写成如等式4所示。Fx=Wfx(4)由于Fx是针对输入f(x)的所有位置x计算的,因此其结果是大小为26d h的输出特征图W. 层2的更详细的数学公式是在补充文件中提供。层3 将非线性应用于局部相位信息使网络能够学习复杂的表示。该层通过使用激活函数创建从层2获得的特征图的激活响应图。我们使用ReLU激活函数以获得更好的效率和更快的收敛[28]。第四层。该层是具有f个滤波器的标准3D卷积层,每个滤波器的大小为111,其将大小为26d h w的特征图作为来自层3的输入,并输出大小为f d的特征图。HW.请注意,第1层和第4层是在3D CNN的训练阶段学习的。我们将使用符号ReLPV(n,f)表示ReLPV块,其中n和f是它的超参数。这里n表示第2层的局部3D邻域的大小,f是第4中使用的1×1×1滤波器的数量。使用STFT和Local Phase的重要性。STFT输入多维空间首先由Hinman等人研究。在[15]中作为图像编码的有效工具。它有两个重要的属性,使它对我们的目的有用:(1)自然图像通常由具有尖锐边缘特征的对象组成已经观察到,傅立叶相位信息精确地表示这些边缘特征。由于3D空间中的STFT只是一个窗口傅立叶变换,因此相同的属性适用[15]。因此,局部相位能够以与卷积滤波器相同的方式准确地捕获局部特征。(2)STFTdecor-与输入信号相关[15]。正则化是深度学习的关键,因为它允许训练更复杂的模型W=[n {w v,w v,. . . ,w v},n {w v,wv,. . . ,w v}]同时保持较低的过拟合水平,1 2 13 1213(三)泛化 去相关的特征,表现,不4906××× ×····×××××××- -×≥··×- --−和隐藏激活一直是深度神经网络更好正则化的活跃研究领域,提出了各种新颖的正则化器,如DeCov [5],Decorrelated Batch Normalization ( DBN ) [17] ,Structured Decorrelation Constraint ( SDC ) [45] 和OrthoReg [32]。由于STFT对输入表示进行去相关,并且由于可学习参数的数量减少,基于ReLPV块的3DCNN不太容易过拟合,并且泛化效果更好(结果见第5.2节)。ReLPV块中的前向-后向传播。 使用ReLPV块而不是标准3D卷积层对3D CNN网络进行端到端训练是简单的。通过ReLPV块的第1层、第3层和第4层的前向和后向传播步骤是所有深度学习库中的标准操作。层2中的反向传播类似于在没有可学习参数的情况下通过层传播梯度(例如,加法、乘法等)因为它涉及将固定基矩阵W应用于输入。注意,在训练期间,只有层1和层4中的111个滤波器被更新,而矩阵W中的权重保持不受影响。ReLPV阻滞的参数分析。与标准3D卷积层相比,ReLPV块使用的可训练参数明显更少,具有相同的滤波器大小/体积和输入-输出变化数量nels。考虑具有c输入和f输出通道的标准3D卷积层。设nn n是过滤器的大小/体积。因此,标准3D卷积层中的可训练参数的总数是c n3f。具有c个输入通道和f个输出通道的ReLPV块仅由c1+f26个可训练参数组成。因此,标准3D卷积层和所提出的ReLPV块中的可训练参数的数量的比率计算如下。#params。在3D转换器中。 层c n3f=(5)# params。在ReLPV块c·1+f·26为了简单起见,假设f = c,即,输入和输出通道的数量相同。此外,在实践中,在大多数深度3D CNN中,f27。因此,设f=27。这将上述比率降低到n3。因此,对于大小为3的滤波器33在标准3D卷积层中,ReLPV块使用少27倍的可训练参数。因此,从数值上看,ReLPV块至少节省了27×、125×、343×,729×、1331×和2197×参数,3×3×3、5×5×5、7×7×7、9×9×9、11×11×11、和13×13×13三维卷积滤波器。4. 实验在本节中,我们展示了与标准3D卷积层.我们证明了体素化的3D CAD模型和时空图像序列。4.1. 3D CAD模型上的实验和结果数据集。ModelNet [42]是一个大型的干净CAD模型(形状)的3D存储库。ModelNet10有4,899个形状(train:3991,test:908),ModelNet40有12,311个形状(train:9843,测试:2468)通常用作基准数据集,分别由10和40个类别组成。每个模型都与一个规范框架对齐,然后围绕z轴以12和24个均匀采样方向旋转(Az 12和Az 24增强)。然后将这些旋转的模型体素化为32 32 32格 我们使用[26]的体素化版本这里的任务是将给定的体素化3D模型分类到其相应的类中。4.1.1ModelNet:与基线的比较基线。我们通过在基线网络VoxNet [26],VoxNetPlus[25]和LightNet [49]中使用建议的ReLPV块(具有跳过连接)替换标准3D卷积层来开始我们的实验,并分别将这些新网络称为LP-VoxNet,LP-VoxNetPlus和LP-LightNet。LP是Local Phase的标准3D卷积层以简单的方式被ReLPV块取代。例如,VoxNet网络[26]具有以下架构:conv3D(5,32,2)conv3D(3,32,1)MP(2)FC(128)FC(K).这里,conv3D(n,f,s)是标准的3D卷积层,具有f个滤波器,每个滤波器的大小为n n n,应用步长为s。MP表示最大池化。FC代表完全连接层。K是类的数量。VoxNet的等效本地阶段版本为:ReLPV(5,32,2)ReLPV(3,32,1)MP(2)FC(128)FC(K)。 在我们耳边-关于ReLPV模块的架构,我们只关注重要的超参数,没有讨论标准3D conv层中常用的其他超参数,如步幅信息。这样的信息可以很容易地合并到ReLPV架构中。在准备LP-VoxNetPlus和LP-LightNet网络时遵循类似的过程。训练我们使用SGD作为优化器,动量为0.9,分类交叉熵为损失来训练这些新网络。在训练过程中,我们以0.08并且如果验证损失达到稳定状态,则将其减小到2倍。对于LP-VoxNet和LP-VoxNetPlus网络,在[26,25]之后,我们首先在ModelNet 40上训练它们,然后在ModelNet 10上进行微调在LP- LightNet网络上进行相反的在[26,25,49]之后,所有网络都在每个实例围绕z轴的12次均匀采样旋转上进行训练(Az12增强)。未对试验数据进行数据扩充。结果 表1显示了新网络的比较,4907× ×联系我们××× ×× ×× ×××输入层ReLPV(3,128)(5,128)通道孔下一层前一层ReLPV ReLPVconv3D(3,128)(5,128)(1,128)通道孔+下一层(a) 第1区块(b)32x32x3216x16x16 8x8x8输入层块1块2中文(简FC(40/10)平均区组2合并平均池化块2conv3D平均值(1,256)合并中文(简平均区组2合并(c)LP-3DCNN网络架构图3:实验和与最先进技术的比较。LP-3DCNN网络构建块和架构。网络ModelNet40(%)ModelNet10(%)[26]第二十六话8392[25]第二十五话81.6390.69LP-VoxNet(我们的)86.2692.24[25]第二十五话83.9193.36[25]第二十五话85.4792.32LP-VoxNetPlus(我们的)88.193.4LightNet [49](基线)86.9093.39[25]第二十五话84.2492.36LP-LightNet(我们的)87.592.95表1:基线网络与局部阶段和二进制化版本的比较。局部相位版本的性能优于基线和二进制版本。与其相应的基线一起工作我们还将新网络与基线的二进制化版本进行了[25](见第2节)。本地阶段版本在ModelNet 10和Model-Net 40数据集上的表现明显优于相应的基线及其二进制化版本。4.1.2ModelNet:与最先进的模型的比较ReLPV块并将其与其他特征图连接起来,如图2所示。3b.这种架构允许网络在对前一层中的特征图进行加权平均(即,通过对111个卷积进行重加权)或集中于局部相位信息(即,通过重加权ReLPV块)。与此同时,添加了跳过连接,如图所示。3b用于梯度到先前层的更平滑流动。对于下采样,我们使用平均池,池大小为2,步幅为2。我们的最终模型如图所示图3c具有五个非下采样块,随后是两个完全连接的层,每个层的大小为512,以及用于分类的最终softmax所有非下采样层(批量归一化后)和全连接层后面都是ReLU激活函数。层conv3D(1,256)在最后的非下采样层之后使用,以减少全连接层中的参数数量。培训和测试。我们网络的输入是来自ModelNet数据集的大小为32 32 32的体素。在[2]之后,我们将二进制体素范围从0,1更改为-1,5鼓励网络多关注正面词条。使用SGD作为优化器训练网络,网 络 架 构 。 我 们 遵 循 来 自 [2] 的 Voxception-ResNet(VRN)架构的思想,该架构采用具有ResNet风格的跳过连接的简单inception风格架构这种设计背后的直觉是要有最大数量的可能路径,让信息在网络中流动。对于输入层之后的第一个非下采样块(图1),3a),我们将来自具有不同局部相位体积大小(3)的两个ReLPV块的相等数量(128)的特征图连接起来33和5 5 5)。对于其他非下采样块,我们用附加的111卷积层来增强上述结构,该附加的111卷积层输出与下采样块相同数量(128)的特征图。动量为0.9,分类交叉熵为损失。在训练过程中,我们从0.008的学习率开始,如果验证损失达到平台,则将所有权重都使用正交初始化进行初始化。 网络首先在AZ12增强数据上训练,然后在AZ24增强数据上以低学习速率进行微调。未对试验数据进行数据扩充除了旋转,通过向每个训练示例添加噪声,随机平移和水平翻转来增强数据,如[26,2]所做。结果表2将我们的结果与使用体素化/体积ModelNet数据集作为输入的其他方法进行了比较。4908−- --- -- -网络框架增强参数(百万)ModelNet40(%)ModelNet10(%)[42]第四十二话单个,体积Az×12≈387783.5[46]第四十六话单个,体积-0.08元81.26883D-GAN [41]单个,体积-≈1183.391[26]第二十六话单个,体积Az×120.92美元8392[49]第四十九话单个,体积Az×12≈0.3086.9093.39ORION [33]单个,体积Az×120.91美元-93.8VRN [2]单个,体积Az×24≈1891.3393.61LP-3DCNN(我们的)LP-3DCNN(我们的)单个,体积单个,体积Az×12Az×24≈2≈289.492.193.7694.4FusionNet [13]VRN Ensemble [2]England,Vol.+ Mul.封装,体积(Az,El)×60Az×24≈118≈10890.895.5493.1197.14表2:ModelNet数据集上的性能结果。Az代表方位角旋转,El代表仰角旋转。“-”卷代表体积,Mul.代表多视图。为了进行公平的比较,我们在这项工作中只考虑体积网络框架。我们不包括多视图网络或基于点云的网络 。 在 单 个 网 络 框 架 中 , 我 们 提 出 的 网 络 在ModelNet10和ModelNet40数据集上的表现优于所有以前的网络。此外,它只使用了200万个参数,而目前最先进的VRN网络使用了1800万个参数。在集成框架中,VRN在ModelNet10和ModelNet40数据集上都实现了最佳性能。然而,它拥有最复杂的网络架构,多达45层,1.08亿个参数,几乎需要6天的时间来训练。在集成框架中,我们的网络优于FusionNet [13],同时使用几乎少59倍的参数和显着减少的数据增强。4.2. 时空图像序列数据集。我们使用UCF-101 split-1动作识别数据集[34]。该数据集已在[37,38,8]中用作性能研究和表示为LP-mC 3Dn,通过用ReLPV块替换标准3D卷积层来准备,如在第4.1.1节中所做的。这里,n表示计算STFT的局部3D邻域的大小。训练在[37]之后,我们使用SGD作为优化器,Nesterov动量值为0.9,分类交叉熵作为损失。我们训练网络16个时期,从0.003的学习率开始,每4个时期后将其降低10倍。请注意,所有的网络都是从头开始训练的。不使用数据扩充,如帧平移、旋转或缩放。我们重新训练了所有的基线网络(n=3,5,7)。结果与[37]中的图2一致。结果早期的工作,如[37,22]表明,在UCF- 101 split-1数据集上从头开始训练相对较浅的3D CNN,其性能在41 - 44%之间。最近的作品,如[38,8]使用深度3D残差Con-vNet架构来实现更好的结果。表3报告了我们在UCF-101 split-1 数 据 集 上 的 结 果 。 我 们 仅 使 用 5 个ReLPV就将最先进的水平提高了5.68%搜索3D CNN网络架构和hyperparam-用于动作识别任务。基线。我们使用[37]提出的用于动作识别的实验性3DCNN网络作为基线, C3D网络的小型版本[37]。为了简单起见,我们称这种网络为迷你C3D网络或mC3D。滤波器大小为n×n×n的mC3D网络表示为mC3D n具有以下架构:conv3D(n,64)MP(2) conv3D(n,128)MP(2) conv3D(n,256)MP(2) conv3D(n,256)MP(2) conv3D(n,256)MP(2)FC(2048)FC(2048)FC(101)。每个3D控制器一个完全连接的层后面是ReLU激活函数 应用所有卷积层具有适当的填充和步幅1,使得从这些层的输入到输出的张量的大小没有变化。在[37]之后,网络的输入是尺寸为3×16×112×112的视频。上述网络的等效本地相位版本表3:UCF-101分流式-1交流变频器识别数据集。基于ReLPV块的3D CNN与其相应基线的比较,其他最先进的网络。所有的网络都是从头开始训练的。−网络参数(百万)模型大小(兆字节)翻牌(百万)Acc.(%)2D-ResNet 18 [12,38]11.2--42.22D-ResNet 34 [12,38]21.5美元--42.23D ResNet 18 [38]33.2米254-45.63D ResNet 34 [38]63.5美元485-45.93D-ResNet 101 [8]86.06元657-46.73D STC-ResNet 101 [8]---47.9mC 3D3 [37](基线)LP-mC 3D3(我们的)≈18≈13139.6106.234.8826.0724453.58mC3D5 [37](基线)LP-mC 3D5(我们的)34.32美元≈13274.6106.268.6426.07742.551.44mC 3D7 [37](基线)LP-mC 3D7(我们的)71.88美元≈13575106.2143.7226.0842.350.544909个街区.我们的网络使用了1300万个参数,而3D STC-ResNet 101网络[8]构建在3D ResNet 101网络之上,使用了8600多万个参数。此外,具有不同局部相位体积的所有局部相位版本都显著优于相应的基线网络。5. 讨论及分析在本节中,我们将详细介绍ReLPV阻滞的消融和性能研究。此外,我们讨论了ReLPV块相对于标准3D卷积层所提供的一些统计优势。5.1. ReLPV块型号尺寸。表3显示,与相应的基线相比,基于ReLPV块的3D CNN使用更少的参数并占用更少的磁盘空间。此外,随着局部相位体积从3增加到9(同时保持其他超参数恒定),基于ReLPV块的网络中的可训练参数或模型大小的数量没有变化与此相反,有一个显着的上升,在基线网络中的参数和模型大小的数量与过滤器大小的增加。我们相信ReLPV块的这一特征对于资源受限环境中的3D CNN来说具有巨大计算成本。我们在第3节中讨论过,由于基函数的可分性,STFT可以通过对每个基函数使用简单的一维卷积来有效地计算。维度这种使用可分离卷积计算3D STFT的技术节省了巨大的计算成本,并且最近在3D CNN中引起了兴趣,如 第 2 节 中 所 讨 论 的 表 3 报 告 了 模 型 的 浮 点 运 算(FLOP)与相应的基线相比,基于ReLPV块的3DCNN的FLOP值较小。然而,它们随局部相体积的增加变化很小.然而,对于基线网络,随着滤波器大小从3增加到9,FLOP值增加了近8倍5.2. ReLPV阻滞的统计学优势如前所述,训练深度3D CNN的主要挑战之一是避免过拟合[37,38,11]。 Hara等人最近的一项研究。在[11]中显示,即使是相对较浅的3D CNN(如3DResNet-18)也倾向于在UCF-101等动作识别数据集上显著过拟合[34]HMDB-51 [24]。这部分是由于与2D对应物相比,3D CNN中的大量可训练参数,部分是由于大规模3D数据集的不可用[38,11]。这些构成了训练深度3DCNN的主要瓶颈。为了抑制过拟合,各种训练方法,如数据扩充,训练浅层网络,以及新颖的正则化器,图4:UCF-101 split-1数据集的过拟合结果。与基线mC 3D3网络相比,LP-mC 3D3网络的过拟合程度更低,泛化能力明显更好图5:ReLPV阻滞STFT体积搜索。LP-mC 3D3网络的STFT体积为3×3×3时性能最好。如Dropout [35]、DropConnect [40]和Maxout [10],被介绍。虽然[40,35,10]等正则化器已经被提出来正则化网络的全连接层,但最近的工作如[4,19,35]表明正则化网络的卷积层同样重要。我们的ReLPV块在用于深度3D CNN中的标准3D卷积层时,由于其使用的可训练参数明显较少,并且由于STFT的decor-relation属性,自然会使网络正则化(参见第3节)。图4报告了我们在过拟合实验中的结果。与基线mC 3D3网络相比,LP-mC 3D 3网络明显过拟合较少,并且泛化明显更好。5.3. 探索ReLPV阻滞如前所述,ReLPV块采用两个超参数作为输入,其中之一是局部体积的大小,其中针对输入特征图的每个位置计算STFT(并且提取局部相位在4910× × ×××××× ×× ×- −×××- × × −−- −- -在本节中,我们将探讨这个超参数。我们使用不同大小的本地卷进行实验,特别是从3 33至999 .第九条。我们发现这个人-ReLPV阻滞的程度随着STFT容积的增加而降低。 图5示出了根据本发明的一个实施例的夹具UCF-101测试拆分-1数据集上的LP-mC 3Dn网络,在 16 个 时 期 内 , 各 种 STFT 体 积 从 3×3×3 到9×9×9STFT容量为3 3 3的LP-mC 3D3网络性能最好,而LP-mC 3D9网络性能最差。请注意,类似的研究在[37]中对标准3D卷积层进行了研究,发现在所有层中具有3 3 3卷积核的3D CNN表现最好。5.4. 探索ReLPV块在本节中,我们将探索另一个超参数,即ReLPV块输出的特征映射的数量。简而言之,我们探索改变ReLPV块的层4中的111个滤波器的数量的效果(参见第3节)。 为此,我们使用LP-mC 3D n网络的修改版本,并使用不同的ReLPV块超参数对(n,f)进行实验。假设LP-mC 3D n,f是我们的实验网络,具有以下架构:输入层ReLPV(n,f)MP(2)ReLPV(n,f)MP(2)ReLPV(n,f)MP(2)ReLPV(n,f)MP(2)ReLPV(n,f)conv3D( 111,256)MP(2)FC(2048)FC(2048)FC(101)。层Conv3D(111,256)在最后一个ReLPV块之后使用,使得全连接层中的参数数量不在不同的网络中有所不同。表4显示了我们在UCF-101split-1测试集上的实验结果。我们观察到,对于局部STFT体积(超参数n)的固定值,性能随着111个滤波器(超参数f)的数量的增加而提高另一个重要的观察结果是,随着超参数f值的增加,模型大小和可训练参数的数量变化非常小。5.5. 基于ReLPV块的混合3D CNN模型在本节中,我们将探讨在单个3D CNN网络中使用ReLPV块和标准3D卷积层的性能效果我们将这种网络称为混合3D CNN。我们用两种类型的变量进行实验。在第一种变体中,我们用ReLPV块替换传统3D CNN网络(基线mC3D3)的顶部几层(在输入层之后),使得由ReLPV块学习的特征图被输入到后来的标准3D卷积层。在第二种变体中,底层被ReLPV块替换,使得由标准3D卷积层学习的特征图被输入到后面的ReLPV块。我们使用符号mC 3D3(B1/T1)来表示1bot.表4:探索ReLPV块。性能随着f值的增加而提高。网络参数(百万)型号大小(Mb)Acc.mC3D3(T1)17.44美元139.951.51mC3D3(T2)16.13138.547.67mC3D3(T3)13.20美元132.143.95mC3D3(B1)15.82美元126.935.1mC3D3(B2)14.13113.736.47mC3D3(B3)13.30美元107.340.84表5:混合3D CNN架构的结果。UCF-101分离-1测试集的性能结果mC 3D3的tom/top连续3D conv层被ReLPV块替换。表5报告了我们的实验结果。我们观察到,在传统3D CNN网络的顶部用ReLPV块替换标准3D卷积层可以提高其性能,而在底层添加ReLPV块时则会发生相反的然而,混合3D CNN并不优于LP-mC 3D3网络,其中所有层都被ReLPV块替换(表3)。6. 结论在这项工作中,我们提出了ReLPV块,这是标准3D卷积层的有效替代方案,以降低传统3D CNN的高时空和模型复杂度。ReLPV块在用于代替传统3D CNN中的标准3D卷积层时此外,它们在不同的3D数据表示中产生一致的更好的结果我们提出的基于ReLPV块的3DCNN架构在ModelNet和UCF- 101 split-1动作识别数据集上实现了最先进的结果。我们计划在3D CNN架构中应用ReLPV块,用于其他3D数据表示和任务,如3DMRI分割。致谢。作者非常感谢Google Research India提供的旅行资助。Sud- hakar Kumawat得到了TCS研究员的支持。Shanmuganathan Raman获得了SERB核心研究资助和Imprint 2资助。我们感谢Manisha Verma的早期贡献和技术讨论。网络参数(群)型号大小(Mb)Acc.LP-mC3D3,6412.84美元104.250.96LP-mC3D3,12812.93美元104.951.84LP-mC3D3,25613.20美元107.153.50LP-mC3D5,6412.84美元104.250.29LP-mC3D5,12812.93美元104.951.10LP-mC3D5,25613.20美元107.153.224911引用[1] Maryam Asadi-Aghbolaghi 、 Albert Clapes 、 MarcoBellanto-nio 、 HugoJairEscalante 、 V'ıctorPonce-Lo' pez 、Xa vierBaro' 、 Isabelle Guyon 、 Shohreh Kasaei 和 SergioEscalera。基于深度学习的图像序列动作和手势识别方法综述在自动人脸识别中,第476-483页。IEEE,2017年。[2] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv:1608.04236,2016。[3] O¨zgu¨ nC¨ic¨ ek , AhmedAbdulkadir , SoerenSLienkamp ,Thomas Brox,and Olaf Ronneberger.3d u-net:从稀疏注释学习密集体积分割。在MICCAI,第424-432页[4] Djork-Arne 'Clevert , Thomas Unterthiner , and SeppHochre- iter.通过指数线性单元(elus)进行快速准确的深度网络学习。ICLR,2016年。[5] Michael Cogswell,Faruk Ahmed,Ross Girshick,LarryZit-nick,and Dhruv Batra.通过解相关表示减少深度网络中的过拟合。ICLR,2016年。[6] M Courbariaux和Y Bengio。Binarynet:训练深度神经网络,权重和激活限制为+1或-1。arXiv:1602.02830,2017年。[7] Matthieu Courbariaux , Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect:在传播过程中使用二进制权重训练深度神经网络。在NIPS,第3123- 3131页[8] Ali Diba , Mohsen Fayyaz , Vivek Sharma , M MahdiArzani,Rahman Yousefzadeh,Juergen Gall,and LucVan Gool. 用 于 动 作 分 类 的 时 空 通 道 相 关 网 络 。 在ECCV,2018。[9] Ian Goodfellow , Yoshua Bengio , Aaron Courville ,Yoshua Bengio. 深度学习,第1卷。麻省理工学院出版社,剑桥,2016年。[10] Ian J Goodfellow,David Warde-Farley,Mehdi Mirza,Aaron Courville , and Yoonne Bengio.Maxout 网 络 。ICML,第III-1319页,2013年[11] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗。在CVPR中,第18-22页[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功