三维残差网络中的随机均值尺度（RMS）作为一种正则化技术的有效性

113 浏览量更新于2023-10-23 收藏 631KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于动作识别Jinhyung Kim1岁，<$ Seunghwan Cha2 <$ Dongyoon Wee3Soonmin Bae3JunmoKim11 KAIST2 Carnegie Mellon University3 Clova AI，NAVER Corp.摘要用于视频动作识别的深度神经网络经常需要3D卷积滤波器，并且由于大量参数而经常遇到过拟合本文提出了一种简单有效的正则化方法 --随机均值尺度（RMS），以解决三维残差网络中RMS的关键思想是随机改变特征的低频分量的大小低频分量可以通过特征的局部补丁上的时空平均来导出。我们提出，选择性正则化的局部平滑功能，使一个模型处理的低频和高频分量的区别，从而提高性能。与其他正则化方法类似，RMS可以仅在训练期间以很少的额外计算来增强模型RMS也可以被整合到典型的培训过程中，而不需要任何花里胡哨的东西。实验结果表明，在一个流行的动作识别数据集上的泛化性能的改善，证明RMS作为一种正则化技术的有效性，与其他国家的最先进的正则化方法相比。1. 介绍过拟合是深度神经网络面临的一个长期而实际的问题。该问题在视频动作识别领域中可能更致命，其中3D卷积神经网络（3D ConvNet）[22，7，1]已经成为用于编码时空表示的流行方法，因为它们具有大量参数。此外，3D ConvNets经常遭受过拟合，即使在最近的大规模数据集上，例如。动力学[12]。已经有几种方法通过提出更有效的网络架构来解决这个问题[24，26，17，4，2]。输入空间[30，3，29]和特征空间[10，5，27]上基于扰动的正则化是另一种广泛研究的方法，用于减轻过拟合问题。电子邮件：kkjh0723@kaist.ac.kr[2]这项工作部分是在Clova AI实习期间完成的。60402000.0 0.5 1.0 1.5 2.0缩放因子图一曰：高频信息的的特征对于动作识别更为重要。精度随调制低频幅度的比例因子而变化。（圆圈标记）或高频。（三角形标记）组件。当一个组件被缩放时，另一个组件保持不变。均值滤波器提取低频。从特征中提取分量，其余的是高频。件. 验证精度在高频时下降得更快。组件受到干扰。使用3DResNet（SlowOnly-34）在无频率的Mini-Kinetics验证数据集上训练。结垢莱姆这种方法的一个优点是，它们可以被纳入现有的模型，以提高其一般化的能力，很少或没有额外的计算。特别地，[10，5，27]广泛地研究了扰动对特征的影响.扰动通过随机标量与特征相乘来给出。虽然他们给出了很多正则化的直觉，但他们忽略了扰动的方向，我们的问题从哪里开始。为了更清楚地描述扰动的方向，让我们考虑在特征图x∈RC×T×H×W中的每个时空位置t，i和j处的特征向量xt，i，j∈RC，其中C，T，H和W分别是通道，时间，高度和宽度。我们放弃这个位置为了方便起见，下面列出了向量的索引。在这方面，扰动方向意味着要乘以随机标量的向量的方向，从而导致12103低频高频率准确度8012104调制矢量的大小，同时保持其方向。为了检验频率的影响，本研究考虑了三种扰动方向的选择;原始特征向量x的方向，其局部平均向量x′，因此，将这些应用于整个特征或高频分量比将这些应用于整个特征或高频分量更有效。此外，我们还使用其他模型（ SlowFast [4] 和通道离散网络（ CSN ）[23]）以及另一个数据集测试了RMS。以及残差向量r。x可以通过平均值fil来获得[6]第二节，说明它的普遍性。ter（或高斯滤波器）在图像处理中的应用[16]。x'包含x的低频分量，因此变化更平滑在其内部，R。剩余矢量r，r=x−x<$，包含剩余的高频分量。在假设频率是区分特征扰动方向的有意义的判据的前提下，我们分析了哪些频率分量对动作识别任务是重要的图图1显示了3D Con- vNet在各种比例因子下的精度变化，这些比例因子可调节x和r的大小。当其中一个被缩放时，另一个保持不变。请注意，模型在没有频率缩放的情况下进行训练。该图表明，高频分量的调制比低频分量的调制对动作识别性能的影响更大我们的直觉是，r可能拥有更多用于分类的基本信息，而x<$可能包含外围信息，因此对它的小扰动增加了样本的多样性，而不改变动作或对象的类型。基于这一观察，我们推测，对特征的低频分量进行选择性扰动可以是正则化网络的有效方法受此思想的启发，我们提出了一种新的正则化方法，随机均值尺度（RMS），它选择低频方向作为扰动方向。换句话说，RMS通过将随机标量乘以时空平滑特征x'来选择性地添加扰动。为了分离低频特征，我们使用3D均值滤波器（大多数深度学习框架中的3D平均池化操作）或高斯滤波器，它们是图像处理中最简单的低通滤波器（LPF）[16]。与其他正则化方法类似，RMS仅在训练期间需要，因此在推理期间不需要额外的操作。为了证明其有效性，我们在各种类型的3D残差网络（ResNet）上进行了RMS实验。[8] 动作识别。作为本研究的基线，我们采用了SlowFast Net（SlowFast）[4]中慢分支的架构，这是3DResNet本身的一种类型我们将在原论文后面的其余部分中将此模型称为SlowOnly在Mini-Kinetics和Kinetics-400数据集上的实验结果表明我们还在Mini-Kinetics数据集中将RMS与几种最先进的正则化方法RandomDrop[10]、ShakeDrop [27]和CutMix [29]进行了比较，发现RMS显示出竞争性性能。为了进行严谨的研究，我们探讨了RMS的位置和采样分布等各种因素的影响。我们还提供了经验证据，应用微扰的低频总之，我们做出以下贡献：• 我们提出了一种简单而有效的正则化方法，随机均值缩放（RMS），以解决3D ConvNet的过拟合问题。• 我们证明了RMS应用于Mini-Kinetics，Kinetics-400和Something-Something-v2数据集上的几种3DResNet的有效性。• 我们将RMS与Mini-Kinetics数据集中其他最先进的正则化进行了比较。• 我们通过广泛的消融研究验证了RMS的设计选择。2. 相关工作2.1. 视频中的动作识别与图像识别相比，视频中的动作识别需要额外的机制来处理时间信息和空间信息。因此，3D ConvNets[22，7，1]通过利用2D ConvNets在图像识别[20，8]中的进步，已经成为一种流行的动作识别3D ConvNets可以从2D ConvNets扩展，具有额外的维度以处理时空流。由于模型设计的简单扩展，3D ConvNets可以通过在[1]中的大规模图像识别数据集上训练的2D内核来扩展从图像域中学习的知识。虽然3D ConvNets显示了它们的有效性，但大量的参数被认为是它们的缺点。为了克服这个问题，[24，26，17]提出将3D内核分解为2D和1D内核的级联。成本[15]分解a 3D滤波器转换为2D滤波器，可沿H-W、T-H和T-W同时应用。此外，仅在后期阶段（头重脚轻）使用3D卷积滤波器的模型[26] 或 [24] 中的反向混合卷积）通常比完整的 3DConvNets具有更少的参数数，从而实现同时，通道分离卷积网络（CSN）[23]是一种轻量级的3D ResNet模型，通过使用深度卷积大大减少了参数的数量。另一方面，一些研究[4，2]提出了多尺度模型，根据频率分别使用信息。在文献[4]中，作者提出了一个双流模型，即慢快模型，它由用于静态空间特征的慢分支和用于动态运动特征的快分支同时，[2]提出了Octave convo-12105在单流模型中处理多频信号的解决方案。捕获全局依赖性是改进动作识别模型的另一种方法。[25]首先提出了非局部模块的概念，并证明了将其添加到3D ConvNets中的有效性。进一步的研究，[28，9]以各种方式重新定义了非局部模块，以减少计算并获得更好的性能。2.2. 正则化正则化方法是图像领域研究的一个热点，它可以有效地防止模型的过拟合. 例如，在图像域中，经常使用几种正则化技术，例如数据增强，权重衰减[14]，Dropout [18]，La- bel平滑[21]和批量归一化（BN）[11]最近的几项研究提出了通过随机遮挡一些图像区域[3]、内插两个图像[30]或将图像补丁移植到另一个图像[29]上来对输入数据空间进行数据增强在最近的研究中，模型的内部特征也成为正则化的另一个目标. Shake-Shake正则化[5]提出通过在向前和向后计算中添加随机缩放的分支来正则化多分支ResNet随机深度[10]，也称为RandomDrop，在drop-ping和连接剩余分支之间随机切换。结合这两个以前的研究，ShakeDrop [27]采用了RandomDrop到Shake-Shake的切换机制来稳定训练，以便它也可以与2分支ResNet兼容。3. 方法图2：随机均值缩放（RMS）模块。 x、x′、r和y分别是输入、输入均值、残差和输出。和（a）和（b）是同一个操作。（a）为了解释的目的，解释性地将x'和r分开，(b)是简化的形式。Σx<$i=wjxj，（1）j∈Wi其中，X是输入特征，Wi是围绕当前indexi的3维局部风，并且wj是每个相邻位置的权重。我们简单地选择wj=1/Wifor all j，这是一个均值滤波器，作为我们的默认设置。均值滤波器的一种替代方案是高斯滤波器，其权重配方见附录C。我们将输入x分解为平均值x'和残差r，r=x−x<$。（二）由RMS调制的输出y可以表示为：在本节中，我们介绍我们提出的正则化方法，随机均值缩放（RMS），它在时空平滑特征上添加扰动。为汀江.αx<$+r，训练中y=E[α]x<$+r，在tes t中。（三）实际实现中，我们进一步解释的方法作为一个网络模块。3.1. 随机均值标度用乘性噪声扰动特征是一种简单的正则化方法，经常以各种方式使用[10，5，27]。在这项工作中，我们将一种特定的扰动方法命名为随机缩放（RS），该方法通过将单个随机标量α乘以整个特征图来调制幅度。 α 可以从给定的概率分布中采样，例如，GaussianN（µ，σ）。在这项工作中，我们提出了随机均值缩放（RMS），其将RS应用于特征的局部均值而不是直接应用于特征。局部平均值是局部窗口内的加权平均值，可以计算为扰动仅在训练期间应用如果α的概率分布的平均值为1，则y=x。该方法可以应用于层中的任何级别，例如卷积，BN或非线性激活的输出。在实验部分，我们探索RMS的位置。此外，我们还表明，将RS应用于x′比将RS应用于r或x更能提高性能。可以将x′解释为x的低频分量，而r表示剩余的高频分量。3.2. 执行RMS可以实现为一个网络模块，具有几个基本操作，如图所示二、均值滤波12106与大多数深度学习框架提供的3D平均池化操作高斯滤波器也可以用基本的张量运算来实现。因此，Eq。3可以表示为图中的图第2段（a）分段。请注意，和是元素的总和和元素的多，分别计算。对于实际应用，Eq.3可以修改成一个更简单的形式，通过取代方程。2作为.x+α′x<$，训练中y=（4）x+E[α′]x′，在测试中，其中α′=α−1。图图2（b）示出了对应于等式2（b）的RMS模块4.第一章自RMS模块只需要简单的操作，如平均池和标量乘法，它是无参数的，在训练过程中只需要少量的额外计算。此外，在推断期间不需要额外的计算。4. 实验在本节中，我们在几个动作识别数据集上实验了我们提出的方法RMS。首先，我们在具有各种设计选择和超参数的 Mini-Kinetics 数据集 [26] 上选择 Mini-Kinetics作为主要测试平台是因为其相对较小的尺寸，这使得模型容易过拟合，从而使正则化效果变得更加显著。我们还使用各种网络（包括SlowOnly、CSN）[23]和[4]在Kinetics-400数据集上的SlowFast [12]。此外，将呈现Something-Something-v2（Something-v2）数据集[6]中具有RMS的SlowFast的精细化结果所有实验都在NAVER智能机器学习（NSML）[19，13]平台上进行4.1. 实验装置数据集。Kinetics-400是一个大规模的动作识别数据集，它是一个10秒长的视频剪辑的集合，这些视频剪辑来自YouTube视频，被分类为400个动作类。数据集中的视频总数约为300K，它们被分为训练集、验证集和测试集，分别约为240K、20K和40K。Mini-Kinetics数据集由Kinetics-400中200个最大的类组成。Mini-Kinetics的视频是从Kinetics-400数据集中随机抽取的。该集合有80K训练样本和5K验证样本。Something-v2数据集是另一个大型的人机交互视频集合，包含174类详细的动作描述。它总共包含大约220k视频。1大约8%的视频在我们下载时不可用网络对于实验，我们主要使用SlowOnly，从SlowFast[4]分离的慢分支作为我们的基线模型。SlowOnly保持时间分辨率，不使用时间步幅，仅在后期使用3D卷积。它可以被认为是2D ResNet到3D的典型扩展。为了在基本块和瓶颈块上检查RMS，我们在实验中使用SlowOnly-34和SlowOnly-50该型号的详细信息见附录A。在我们的研究中，所有模型都是从头开始训练的只有RGB帧被输入模型。对于RMS模块，我们选择步长为1的[3，3，3]内核用于平均池化，并且N（1. 0，0。5）将采样α作为我们实验的默认设置。根据表1（b）中的结果选择抽样分布。该模块仅在res4和res5块中添加。预处理。对于训练和评估，我们首先将所有视频的帧速率设置为25 fps。当原始fps较大时，我们丢弃帧，由于我们只利用RGB信息的网络输入，没有手工制作的功能，例如。光流，使用。训练对于训练，从视频中随机采样N个连续帧，然后将N个帧的等距间隔的T个帧馈送到模型中。在大多数实验中，我们将N和T分别设置为64和8。对于空间增强，我们应用随机调整大小的裁剪[20]和随机水平翻转。随机调整大小的作物样本随机选择大小的补丁（25%之间到图像区域的100%）和纵横比（在3/4和4/3之间），然后将补丁大小缩放到224×224。其他实施细节可在附录B.1中规定。评价为了进行评估，我们遵循常用的30作物方案[4]。从整个视频和三个大小的空间区域中沿时间均匀地采样十个剪辑256×256沿帧的长边均匀采样。通过对所有剪辑的softmax分数求平均值来获得最终预测。4.2. 微型动力学实验在Mini-Kinetics数据集上，我们训练了SlowOnly-34和SlowOnly-50来检查基本块和瓶颈块中的拟议模块。我们首先报告的性能取决于几个设计选择。我们发现，性能取决于模型的初始化。因此，我们将每个实验运行三次，并报告其可靠性的平均准确度。然后，我们比较了我们的模型与一些模型从以前的作品。12107方法Top1 Acc.（%）前5名（%）慢-3474.7±0.3392.1±0.06+ 第一次转换前的RMS。76.7±0.2393.2±0.27+ 第1个BN76.9±0.5493.2±0.30+ 第一个ReLU76.4±0.2593.2±0.09+ 第二次转换前的RMS。76.8±0.3893.3±0.12+ 第2个BN76.7±0.2393.2±0.12+ 第二次ReLU之前的RMS76.3±0.3693.0±0.12+ 所有BN77.0±0.3193.5±0.23SlowOnly-5077.5±0.8593.2±0.42+ 第1个BN78.4±0.3993.8±0.11+ 第2个BN77.8±0.5593.8±0.21+ 第3次BN78.6±0.3394.0±0.12方法分布Top1Acc.（%）Top5Acc.（%）慢-34-74.7±0.3392.1±0.06慢-34N（1. 0，0。第三章76.1±0.7692.9±0.45+ RMSN（1. 0，0。第五章）77.0±0.3193.5±0.23N（1. 0，0。第七章）76.9±0.2093.5±0.37(a) RMS的位置性能取决于RMS模块在剩余分支内的位置。方法STD.关于αTop1Acc.（%）Top5Acc.（%）慢-34RSonx<$（RMS）RSonx<$（RMS）-0.30.574.7±0.3376.1±0.7677.0±0.3192.1±0.0692.9±0.4593.5±0.23X上的RS0.375.6±0.2392.9±0.15X上的RS0.575.4±0.4093.0±0.42RS onr0.375.0±0.2692.4±0.13RS onr0.575.6±0.7792.5±0.37(c)不同特征组件上的RS。比较RS对均值、残差和特征的影响。RMS优于其他（b）RMS的抽样分布α。正常的和均匀的discovery。SlowOnly-34已使用。方法LPF（标准品）Top1Acc.（%）Top5Acc.（%）慢-34-74.7±0.3392.1±0.06+ RMSMF77.0±0.3193.5±0.23+ RMSGF（0.4）77.5±0.1693.9±0.03+ RMSGF（1.0）77.2±0.1993.7±0.23+ RMSGF（2.0）77.2±0.2993.6±0.08SlowOnly-50-77.5±0.8593.2±0.42+ RMSMF78.6±0.3394.0±0.12+ RMSGF（0.4）78.3±0.3394.1±0.11(d)RMS中的低通滤波器类型。性能取决于LPF的类型;均值滤波器（MF）和高斯滤波器（GF）。表1：Mini-Kinetics数据集上的消融研究。所有准确度均以平均值±标准差报告。多个运行。RMS模块的位置。如前所述，RMS模块可以应用于层中的任何级别，例如1）在每个卷积之前，2）在每个BN之前，3）在每个ReLU之前。注意，最后一个ReLU之前的RMS位于主分支和残差分支的总和之前。结果示于表1（a）中。我们检查了SlowOnly-34上所有可能的位置首先，与基线模型相比，无论位置如何，RMS模块都提高了分类RMS位置之间的差异并不显著，但我们发现，在使用单个RMS模块的情况下，第一个BN之前的RMS模块显示出最佳的Top-1平均由于第二个BN之前的RMS模块也显示出合理的性能，因此我们测试了将RMS模块置于每个BN之前，并且它显示出所有模块中最好的Top-1和Top-5精度。因此，我们在剩余实验中的所有BN之前添加RMS模块我们还在具有瓶颈结构的SlowOnly-50 中测试了RMS模块。考虑到基本区块的结果，我们决定只调查BN之前的位置从表1（a）的下部分可以看出，RMS模块在所有三种情况下都对网络有益。由于最后一个BN之前的RMS模块显示最佳Top-1和Top-5精度，因此我们选择它作为默认值设置瓶颈块。然而，考虑到最后一个BN中的通道数量是瓶颈块中其他通道数量的四倍，在第一个BN之前的RMS模块可以是一个有效的选择，而不会有为了提高计算效率，我们选择在瓶颈块中不使用多个RMS模块。抽样分布的影响。接下来，我们比较了几种不同的概率分布：三种不同σ的正态分布和三种不同范围的如表1（b）所示，正态分布通常比均匀分布表现更好考虑到每个分布的特性，在均值附近生成足够数量的样本可以帮助RMS提高性能。比较不同特征组件上的RS。我们在Mini-Kinetics数据集上使用SlowOnly-34比较了RS对不同特征分量的影响。在特征空间中的许多可能方向中，我们选择了三个方向进行检查：x'，r和x。表1（c）中所示的结果为我们的猜想提供了经验证据，即对平均值（x）应用RS模块比r或x更有效。我们发现x′上的RS大约12108100806040SlowOnly-34（列车）20SlowOnly-34（val）25.55.7SlowOnly-34 + RMS-GF（train）SlowOnly-34 + RMS-GF（val）0050000100000150000步骤表2：RMS与其他正则化方法的比较。所有方法都在Mini上使用SlowOnly进行了测试。图 3 ： RMS 缓解了过拟合问题。 SlowOnly-34 和SlowOnly-34 + RMS-GF在Mini- Kinetics数据集上的训练准确度（虚线）和验证准确度（实线）。火车和火车之间的差距。曲线在最后一步中，SlowOnly-34的最大值比SlowOnly-34 + RMS-GF的最大值大四倍以上。2%的Top-1准确度超过基线。它比其他的高1%以上，RS在r或x上。我们将在讨论部分讨论将RS应用于模型的三种方法及其效果。比较不同低通滤波器的RMS。 RMS使用均值滤波器（MF），也称为箱式滤波器，默认情况下从特征中提取低频分量。高斯滤波器（GF）是另一种可以取代MF的LPF。我们在Mini-Kinetics数据集上研究了RMS的3×3 GF版本RMS-GF，如表1（d）所示。GF的标准差（σf）也在表中列出我们发现GF在SlowOnly-34和SlowOnly-50中的表现通常与MF 相似或更好。当 σf 为 0.4 时，具有 RMS-GF 的SlowOnly-34的Top-1和Top-5精度我们选择σf=0。4作为RMS-GF的默认值。训练曲线分析。RMS模块作为正则化器，有望缩小训练精度和验证精度之间的差距。图3示出了在训练迭代中，SlowOnly-34以及RMS-GF模块（简称RMS-GF）的训练和验证精度。训练精度是单次裁剪精度，而验证精度是三次裁剪（随时间）的平均精度。值得注意的是，RMS-GF的训练精度总是低于基线的精度，而RMS-GF的验证精度在开始时较低，但在训练的后期超过基线动力学数据集。（μ，σ）和[a，b]分别表示N（μ，σ）和U（a，b）。准确度是多次运行的平均值。在训练结束时，基线（25.5）的训练和验证之间的准确性差距远远大于RMS（11.7）和RMS-GF（5.7）。这表明RMS模块作为正则化器工作，防止模型过拟合。与现有规则的比较。据我们所知，这项工作是第一次尝试应用规则化的动作识别。因此，我们将RMS与其他正则化方法进行比较，这些方法最初在图像识别中进行了检查。为了比较，我们在Mini-Kinetics数据集上使用SlowOnly检查RandomDrop [10]，ShakeDrop [27]和Cutmix [29]。每种方法的超参数详情见附录D。RMS与其他正则化的主要区别在于RMS从特征中提取低频分量并选择性地对其进行扰动。表2显示了Top-1精度及其超参数。RMS的性能与使用SlowOnly-34和SlowOnly-50的三种最先进的方法相当或更好。评价结果。在表3中，我们将我们的基线模型和提出的模型与在Mini-Kinetics数据集上评估的几个先前的工作[26，28，9]进行了比较。除了对于S3 D [9]模型，比较了具有自注意操作的I3 D模型，如非局部（NL）[25]，紧凑广义NL（CGNL）[28]和紧凑全局描述符（CGD）[9]，因为只有这些工作报告了我们所知的Mini-Kinetics的性能。表中显示，我们提出的模型在Mini-Kinetics数据集上实现了与其他模型相当的性能。与基线模型相比，RMS模块显著提高了SlowOnly-34和准确度方法水平Top1Acc.（%）慢-34-74.7±0.33+RMS（α）（1，0. 5））夹77.0±0.31+ RMS-GF（α∈（1，0. 5））夹77.5±0.16+ RandomDrop（α=0，β=0）批75.6±0.14+ShakeDrop（α = 0，β [0，0.5]）像素77.3±0.19+ Cutmix（λ<$Beta（1，1））批76.3±0.28SlowOnly-50-77.5±0.85+RMS（α）（1，0. 5））夹78.6±0.33+ RMS-GF（α∈（1，0. 5））夹78.3±0.33+ RandomDrop（α=0，β=0）批76.6±0.25+ShakeDrop（α = 0，β [0，0.5]）像素78.3±0.0112109方法Top1 Acc.（%）前5名（%）慢快-5059.586.6慢快-50 + RMS61.287.6表5：Something-Something-v2数据集上的性能。模型从Kinetics预训练的权重进行微调。表3：Mini-Kinetics数据集上的性能。†de-注释3次运行的平均精度。方法输入大小Top1Acc.（%）Top5Acc.（%）仅慢速8×224273.090.9+ RMS8×224274.291.5+ RMS-GF8×224274.891.6ip-CSN（我们的实现）8×224269.788.6+ RMS8×224270.589.6Slow Fast（我们的imple.）32×224275.092.1+ RMS32×224276.392.5表4：Kinetics-400数据集上的性能。仅RGB输入。所有型号均使用ResNet-50主干。（* 表示10个作物的评价。）SlowOnly-50，无任何附加参数。在所有BN之前具有RMS的SlowOnly- 34显示与基线相比Top-1准确度增加了2.3%。RMS-GF的改进更大2.8%的Top-1准确度。在SlowOnly-50的情况下，当RMS添加到最后一个BN之前时，Top-1精度增加了1.1%与基线相比，RMS-GF在Top-1准确度方面提高了0.8%。4.3. 动力学400实验在Kinetics-400中，我们不仅训练了SlowOnly，还训练了其他最近提出的模型，SlowFast和CSN。我们选择两个模型作为基线，因为SlowFast在没有预训练的情况下显示了最先进的性能，并且交互保留CSN（ip-CSN）是一个轻量级的3D模型。所有模型都使用ResNet-50作为其骨干。在本节中，我们将重点讨论我们提出的RMS模块如何影响大规模动作识别数据集中的基线网络。评价结果。在表4中，我们展示了使用RMS模块的SlowOnly、SlowFast和CSN的性能。所有模型都通过我们的实现进行了测试。表中还列出了每个模型的输入分辨率。所有的作品都只使用RGB帧作为输入，并在没有预训练的情况下进行训练。 [4] 中报告的SlowFast的 Top-1和Top-5准确度分别为77.0和92.6。ip-CSN的Top-1准确度方法Top1Acc.（%）Top5Acc.（%）S3D [26]78.4-ResNet-50 + CGD [9]77.5693.20ResNet-50 + NL×5[28]77.5394.00ResNet-50 + CGNL×5[28]78.7994.37慢-3474.7†92.1†仅慢速-34 + RMS77.0†93.5†SlowOnly-34 + RMS-GF77.5†93.9†SlowOnly-5077.5†93.2†慢-50 + RMS78.6†94.0†SlowOnly-50 + RMS-GF78.3†94.1†数据集方法Top1Acc.（%）Top5Acc.（%）CIFAR-100ResNet-110ResNet-110+RMS74.49米77.17米93.18米94.15磅ImageNetResNet-50ResNet-50+RMS76.8177.6293.2693.9112110表6：2D模型上的RMS。具有2D模型的RMS对图像识别数据集的影响。* 表示多次运行的平均准确度。在[23]中，10种作物的评价为70.8。我们的实现与原始论文中报告的基线性能的差异可能是由不同的训练环境引起的。根据该表，我们发现RMS模块在每种情况下都能提高基线性能。首先，具有 RMS 和 RMS-GF 的SlowOnly显示Top-1精度比基线提高了1.2%和1.8%。RMS还将两个最新模型SlowFast和CSN的性能分别提高了0.8%和1.3%。这表明RMS对更复杂的模型和轻量级模型都是有效的因此，我们可以得出结论，RMS可以普遍适用，而不限于某种类型的网络架构。4.4. V2实验对于Something-v2数据集，我们在Kinetics-400上微调了预训练的 SlowFast 。选择 SlowFast 是因为Something-v2需要更精细的时间细节。我们将初始学习率设置为0.01，并使用逐步衰减时间表进行微调。其他训练和评估设置与Kinetics-400实验相似。更多细节见补充材料。评价结果。表5显示了Something-v2数据集中模型的评估结果。RMS将Top-1和Top-5准确度分别从基线提高了1.7%和1.0%。结果表明，RMS的有效性并不局限于某一特定的数据集。5. 讨论在本节中，我们首先分析RMS如何改变模型2我们怀疑1）由于GPU限制导致的不同批量大小，2）实现细节的差异，以及3）由于视频阻塞和较低fps导致的数据集减少，可能会导致差异。12111准确度（%）准确度（%）X上的RS80RMS80RS onr8060 60 6040 40 4020 20 2000.0 0.5 1.0 1.52.0缩放因子00.0 0.5 1.0 1.52.0缩放因子00.0 0.5 1.0 1.5 2.0缩放因子图4：RMS使模型更适合特征的高频分量。在Mini-Kinetics验证数据集上评价SlowOnly-34，缩放低频幅度。（x′，圆圈标记）和高频。（r，三角形标记）特征的分量。当一个组件被缩放时，另一个组件保持不变。特征的高频分量。我们假设RMS引起的差异使我们提出的方法优于基线和RS的替代品。其次，我们在两个图像识别数据集CIFAR- 100和ImageNet上评估RMS，以表明RMS可以用于2D模型。5.1. RMS的效果分析表1（c）显示，x上的RS（RMS）比其他RS（x上的RS和r上的RS）更有效，尽管所有情况下的精度仍高于基线。这意味着在特征上增加扰动一般具有正则化效果，但x是一个更好的扰动方向。然而，它是模糊的模型是如何受到扰动的方向。为了研究它的影响，我们重复了与图1相同的实验在所有三种情况下都是1;x′，x和r。请注意，我们在推理过程中对res 4和res 5阶段中的所有BN的特征分量进行了缩放，其中应用了RMS模块。图图4示出了取决于低频或高频分量的调制的精度的变化。很明显，RS使模型在训练期间对其目标组件的调制具有RMS与其他参数有很大的区别，因为它使模型对高频分量的缩放比对低频分量的缩放更敏感。我们观察到RMS使两个组件之间的灵敏度差距大于基线。相比之下，x和r上的RS使模型对两个频率分量的缩放不太敏感，导致两个分量之间的灵敏度差异变得相对小于RMS。人们可能认为两个方向上的鲁棒性有利于推广，但表1（c）中的结果与直觉相反将这些观察结果纳入考虑到这一点，我们推测，当模型利用更多的高频信息而不是低频信息进行动作识别时，它们可能具有更好的泛化能力。它支持我们在图中的论点。1、高频分量的特征对于动作分类更为重要。RMS与其他方法之间的差异仍有待于未来的工作。5.2. RMS在2D模型在这项工作中，我们专注于探索正则化效应在动作识别。然而，很明显，RMS可以通过使用2D平均池化应用于2D ResNet。因此，我们在两个流行的图像识别数据集CIFAR-100和ImageNet中简要测试了RMS 。RMS，σ=0。5在两个数据集中进行了测试。更多详情请参见附录B.3。表6显示RMS大大提高了两个数据集的分类性能。结果表明，RMS也适用于2D模型。6. 结论在这项工作中，我们提出了一种新的正则化方法，3D ResNet的RMS，它经常遇到过拟合问题。据我们所知，这项研究是第一次尝试探索利用正则化的视频动作识别。我们在Mini-Kinetics数据集上进行了RMS实验研究，并进行了广泛的消融研究和分析。在Kinetics-400和Something-Something-v2中，我们展示了RMS增强了几个基线模型的泛化能力RMS开辟了使用正则化方法来改进动作识别模型的泛化的可能性。对各种方法、模型和数据集进行更全面的研究将有助于进一步改进动作识别。低频高频率准确度（%）12112引用[1] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）中，第4724-4733页，2017年。一、二[2] Yunpeng Chen，Haoqi Fan，Bing Xu，Zhicheng Yan，Yan-nis Kalantidis，Marcus Rohrbach，Shuicheng Yan，and Ji-ashi Feng.降低八度音：用倍频程卷积减少卷积神经网络中的空间冗余。arXiv：1904.05049，2019。一、二[3] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的截断正则化。arXiv：1708.04552，2017。第1、3条[4] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在IEEE计算机视觉国际会议（ICCV），2019年10月。一、二、四、七[5] 泽维尔加斯塔迪摇摇正则化arXiv：1705.07485，2017。第1、3条[6] Raghav Goyal、Samira Ebrahimi Kahou、Vincent Michal-ski 、 Joanna Materzynska 、 Susanne Westphal 、 HeunaKim、Valentin Haenel、Ingo Fruend、Peter Yianilos、Moritz Mueller-Freitag 、 Florian Hoppe 、 ChristianThurau、Ingo Bax和Roland Memisevic。学习和评估视觉常识的“某事某事”视频数据库。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。二、四[7] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗？在IEEE计算机视觉和模式识别会议（CVPR）中，第6546-6555页，2018年。一、二[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页，2016年。2[9] Xiangyu He，Ke Cheng，Qiang Chen，Qinghao Hu，Peisong Wang，and Jian Cheng.神经网络的紧致全局描述子arXiv：1907.09665，2019年。三六七[10] 高煌，孙宇，刘壮，丹尼尔·塞德拉，和Kilian Q.温伯格深度随机的深度网络。欧洲计算机视觉会议，第646-661页，2016年。一、二、三、六[11] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在第32届国际机器学习会议上，第37，ICMLJMLR.org，2015年。3[12] WillKay，JoaoCarreira，KarenSimon yan，BrianZhang，Chloe Hillier ， Sudheendra Vijayanarasimhan ， Fa

下载后可阅读完整内容，剩余1页未读，立即下载