小规模视频自训练：运动增强网络用于小尺度视频识别

180 浏览量更新于2023-10-14 收藏 653KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10429运动增强自训练的小尺度视频识别1MihirJain 2IliaKarmanov 2Cees G. M. Snoek11阿姆斯特丹大学2Qualcomm AI Research*{kgavrilyuk，cgmsnoek}@ uva.nl{mijain，ikarmano}@ qti.qualcomm.com摘要本文的目标是在未标记的视频集合上自训练3D卷积神经网络，以部署在小规模视频集合上。由于较小的视频数据集从运动中受益比外观更多，我们努力使用光流训练我们的网络，但避免在推理过程中进行计算。我们提出了第一个运动增强的自我训练制度，我们称之为MotionFit。我们首先在一个小的、有标签的视频集合上对运动模型进行监督训练。与运动模型，我们生成一个大的未标记的视频集合的伪标签，这使我们能够通过学习预测这些伪标签的外观模型来传输知识此外，我们引入了一个多剪辑损失作为一个简单而有效的方式来提高质量的伪标签，即使没有额外的辅助任务。我们还考虑到视频的时间粒度在自我训练的外观模型，这是在以前的作品中错过了因此，我们获得了一个强大的运动增强表示，tation模型适合视频下游的任务，如动作识别和剪辑检索。在小规模视频数据集上，MotionFit在知识转移方面的表现优于其他替代方案5%-8%，仅视频自我监督1%-7%，使用相同数量的类标签的半监督学习9%-18%。1. 介绍本文的目标是在未标记的视频集合上自训练3D卷积神经网络，使得它可以在小规模数据集上有效地进行微调。这对于小型公司、家庭或搜索和救援机器人中的应用是有意义的，在这些应用中，大量的标记视频通常是不可用的，并且优选在计算高效的场景中部署。常见的自训练方法是通过伪标签预测从预训练的外观模型*Qualcomm AI Research是Qualcomm Technologies，Inc.的一项计划。MMPLG小标记运动数据集伪标号MRGB大型未标记外观数据集自我训练下游任务图1：运动增强的自训练利用通过在小的标记视频数据集上训练的运动模型获得的伪标签我们将知识从运动模型转移到适合于下游视频任务的外观模型，而不需要光流计算。作用，例如[41、46、60]。Yan等人[60]，例如，在从头开始训练新网络之前，使用聚类成员作为伪标签来聚类预先学习的外观空间。他们从1900万个弱标记视频中转移知识，并使用Kinetics [9]作为他们的目标，使用大约25万个视频来微调他们的模型。与他们不同的是，我们的目标是自我训练一个模型，该模型可以在大约10k个视频的小规模数据集上进行有效的微调这样的小视频数据集从运动信息而不是外观中受益更多[48]，但是增加的流计算影响了效率。其他半监督[27，46]和自监督[21，22]适用于小规模数据集的替代方案要么不使用运动[27，46]，要么也在推理时使用它[21，22]。因此，我们努力使用光流来训练卷积神经网络，但在推理期间避免其计算。我们建议通过自我训练从运动表示中转移知识，即使在小规模视频集合上也能够进行有效的微调。我们受到广义蒸馏的启发[35]。在培训期间，它将知识蒸馏[23]与专有信息[53]相结合。例如，传递知识10430从预训练的2D卷积神经网络到3D卷积神经网络[12，19]或从深度到外观流[17，18]。特别是，Crastoet al.[11]和Stroudet al.[50] I don't know.这两项工作都探索了将运动知识转移到使用光流作为特权信息的外观模型，以及大规模标记的Kinetics [9]数据集。我们还从运动转移到外观表示，但与[11，50]不同的是，在我们的设置中，大规模数据集上的类标签在转移期间不可用相反，我们建议通过首先在小规模标记数据集上训练运动模型来获得伪标签，如 UCF101 [49] 或 HMDB51[32]。我们对提取的运动特征进行无监督K均值聚类，以获得作为伪标签的聚类分配。然后，我们通过在更大的源数据集上的自训练过程训练外观模型来预测这些伪标签，而不使用任何额外的类标签，参见图1。我们的主要贡献是一个运动增强的自我训练程序，我们称之为MotionFit。它通过在大规模未标记视频数据集上进行自我训练，提取运动知识并将其转移到外观模型。通过这种运动转移，我们避免了在推理期间耗时的光流计算，类似于运动知识蒸馏方法[11，50]的目标，但在转移期间不需要我们的第二个贡献是一个实证研究，以发现什么形式的视频伪标签应该采取在较小的规模，从训练的伪标签生成器的时间映射到视频伪标签。我们通过多剪辑损失在小规模和标记的视频数据集的运动表示上训练伪标签生成器，这使得我们的运动模型不太容易受到与视频标签无关的背景运动的影响。在使用伪标签的自训练期间，我们还通过探索整个视频的几个部分来研究不同级别的时间视频粒度，这在相关方法中没有考虑到，例如，[2，60]。最后，我们通过实验评估我们的方法的每个组成部分的重要性，并与国家的最先进的动作分类和剪辑检索两个数据集进行比较。对于剪辑检索，我们在UCF101上改进了最新技术，并在HMDB51上进行了匹配。对于动作分类，我们的自训练表示比其他知识转移（高达 +8% ），自监督（高达 +7% ）和半监督（高达+18%）方法表现得更好。2. 相关工作视频自我训练[6]的深度聚类引入了一种迭代方法，首先使用无监督K均值聚类分配伪标签，然后使用深度卷积神经网络预测这些分配。在[7]中，Caronet al.利用大型非策展数据集来训练深度聚类模型。Asano等人[4]美国提出了一个原则性的学习公式，通过最大化标签和输入数据索引之间的信息来克服同时学习和聚类特征的退化解决方案的问题。Zhan等[64]提出了一种在线深度聚类方法，该方法同时执行聚类和网络更新，而不是交替执行。[26]和[8]都对齐图像的不同变换对的聚类分配在[46]中提出了一种半监督方法，其中伪标签直接从在数据集的标记子集上训练的模型的预测中获得。他们提出了一种用于不确定性感知伪标签选择的方法与我们的工作最相似的是Norooziet al。[41]和Yanetal.[60]，他们通过伪标签预测从预先训练的模型中转移知识不同的是，我们将知识从运动表示转移到外观表示，而[41]和[60]在预训练和伪标签预测期间利用相同的表示我们还考虑不同级别的时间视频粒度的伪标签，在努力更好地模拟视频的动态性质。视频自我监督通过伪标签进行自我训练的替代方案是自我监督。在基于图像的自我监督取得成功之后，视频自我监督的早期方法也探索了类似的文本前任务[28，29，54]。其他作品通过利用时间顺序[16，33，39，59]，速度[5，10，61]，时间箭头[56]来更加关注时间视频的性质。或视频视觉对应[24，30，45]。节奏结构也有利于预测未来视频状态，例如预测未来帧[13，38]的原始像素表示或其特征表示[14，20，21]。与我们的工作最相似的是[21，22，36，47，63]，他们也探索光流。然而，不同于Sayedet al.[47]和Mahendranet al.[36]，他们对齐外观和运动表示的特征，我们通过伪标签自训练对齐两个表示。Zhan等[63]利用稀疏运动指导从出现中恢复全图像运动，同时我们为两种表示预测相同的伪标记。不同于[21]和[22]以双流方式使用流[48]，我们仍然仅使用外观表示来执行与自监督方法不同，我们可以第二次使用小的标记的目标数据集来训练运动网络以用于伪标记生成，而不是仅使用它来微调学习的视频表示模型。多模式自我监督。许多方法利用视频的多模态性质，例如音频[1- 3，31，40，42 - 44 ]或相应的文本[ 34 ]和语音[ 51 ]，通过在彼此之间对齐多个模态。不同的是，我们使用可以从光流表示导出的光流表示。10431多夹损耗多夹损耗交叉熵损失1. 训练运动伪标签生成器反向传播2. 运动增强自我训练反向传播3. 下游任务反向传播图2：MotionFit模型。我们的方法包括三个主要步骤。在第一步中，我们在具有多剪辑丢失的数据集DMPLG的运动表示上训练运动伪标签生成器MMPLG接下来，我们使用MMPLG来获得源数据集D源的伪标签。我们使用这些伪标签对D源上的外观网络MRGB进行运动增强的自训练，而不需要任何额外的类标签。学习的视频表示模型适用于仅使用外观作为输入的D目标我们通过在D目标上微调MRGB来这样做。视频的原始RGB表示。该表示有助于更好地对视频中的运动此外，它不会引入原始外观表示中不包含的新信息，如音频和文本。3. MotionFit模型我们的目标是在相对较小的目标数据集Dtarget（如UCF101 [49]和HMDB51 [32]）上学习适合下游任务的视频表示，如视频动作识别和视频检索。我们首先也在小规模数据集DMPLG上训练运动模型，我们将其称为运动伪标签生成器MMPLG，其可以与D 目标相同。接下来，我们使用MMPLG网络来提取运动特征并在大规模未标记数据集D源上获得伪标签。然后，我们切换到D源的RGB表示，并自训练一个新的外观网络MRGB来预测D源上的伪标签，以获得适合于D目标上的下游任务的运动增强视频表示模型。总体方法在图2中示出，并且接下来详细描述。3.1. 训练运动伪标签生成器为了在DMPLG上训练运动伪标签生成器，我们可以通过优化交叉熵损失来依赖于外观表示来预测地面真实标签。然而，当前最先进的网络太大而不能有效地进行通信。在小规模数据集上训练[9，15，52，58]。相反，我们更加关注视频性质，并依赖于运动表示来训练MMPLG。运动表示有助于卷积神经网络专注于更重要的局部运动变化，而不是重复和丰富的外观表示。因此，它具有从更可概括的信息中学习的优点，同时不像外观表示那样严重依赖于上下文。为了进一步增强MMPLG表示的强度，我们在每个训练样本中考虑更长的时间范围这是重要的，因为与外观表示不同，运动不能依赖于背景上下文进行识别。覆盖更长时间范围的一种方法是将更长的剪辑视为输入样本，而不是使用16帧剪辑的常见做法[29，51，59，65]。然而，当较大部分来自背景时，在时间维度上的池化可以衰减前景运动信号。我们提出了一种替代策略，其中每个训练样本由来自同一视频的标准16帧长度的多个剪辑组成。每个样本的损失通过对其剪辑上的交叉熵损失求平均来获得。前景剪辑更可能在最终激活中具有单峰分布，而背景剪辑可能相对均匀。这DMPLGMMPLG运动D源外观运动MMPLGMRGB类标签伪标签三维靶MRGB外观类标签时间建模视频剪辑功能聚类10432Σ1L. ΣLi=1Ls=1LL∈Lco（p，p~）=ΣLor der（p，p~），（2）--这意味着在softmax之后求平均（由于指数函数的性质）将产生更高的logit并且不会使梯度信息衰减那么多。因此，所提出的多剪辑损失保留了更多的时间信息，并允许来自前景的任何剪辑建设性地贡献于反向传播梯度。运动表示允许我们仅使用小规模数据集来训练MMPLG，而MRGB的外观表示在推理时间期间在计算上是高效的。注意，MMPLG和MRGB也可以具有不同的架构，允许我们使用由MMPLG获得的相同的伪标签集合来训练具有不同骨干的网络MRGB。在实验中，我们还比较了其他知识转移，包括从预训练的2DBmc（y，y~）=Bb=11RRi=1L类s（yb，i，y~b，i）Σ，（1）CNN [12，19]和运动[11，50]，在任何一种情况下都显示了我们方法的好处。自我训练的时间建模进一步丰富其中，class是剪辑标签预测的交叉熵损失，y_b，i是真实剪辑标签，y~b，i是模型预测的剪辑标签，R是每个视频的采样剪辑的数量，并且B是批量大小。在我们的实验中，我们展示了这种简单方法的好处，我们称之为多剪辑训练。Xu等[59]显示剪辑顺序预测可以有益于自监督学习：在由MRGB学习的表示中，我们使用与等式3类似的损失来在D源上训练MRGB。与[2，60]不同，我们还考虑将伪标签分配给视频的子部分，同时考虑伪标签的最合适的时间尺度。要做到这一点，我们首先提取特征使用训练的MMPLG为每个视频剪辑，我们密集来自数据集D源的所有视频的样本V={Vi}N源：Fi={fi，t}TiB其中，Ti是Vi中的剪辑的数量;N源是1BbBb=1其中，order是用于剪辑顺序预测的交叉熵损失，p~b是剪辑的正确顺序，并且p~b是模型预测的在我们的多剪辑设置中，很容易将其与我们的多剪辑损失mc相结合，以更有效地训练MMPLG。我们通过加权和来这样做：Lbatch=λLmc+（1−λ）Lco，（3）其中，批次是批次损失，λ[0; 1]是加权参数。当λ=0并且使用外观表示作为输入时，我们具有与[59]中完全相同的自监督公式。然而，在我们的实验中，我们将展示使用运动表示和仅依赖于多剪辑训练的好处3.2. 运动增强自我训练在[41]和[60]之后，我们利用具有欧几里得距离的K均值聚类来获得源数据集D源的伪标签。而不是像[41]和[60]那样依赖于外观特征，我们这样做是基于由我们的MMPLG提取的运动特征。通过K均值计算的聚类中心被认为是来自D源数据集的先前未见过的视频的伪标签我们训练另一个网络MRGB，但是使用外观表示作为输入，以预测D源的伪标签。通过这样做，我们将运动知识从MMPLG转移到外观网络MRGB。Noroozi等人[41]和Yanet al. [60]表明，与其他模型提取和转移技术相比，然而，在它们仅依赖于RGB外观的情况下我们在运动上训练MMPLG，在外观上训练网络MRGB的D源中的视频数量。视频剪辑是一个序列在我们的实验中，16、32或64帧。在此之后，我们考虑三个层次的时间粒度：剪辑级，段级和视频级。这些级别的不同之处在于它们使用Fi聚合特征以获得每个视频Vi的新的Hi= hi，sS 表示的方式。对于限幅电平，我们考虑Hi=Fi。我们将一个段定义为相邻视频剪辑的序列，并考虑两种方法来获得它们。对于第一个，我们使用与[25]中相同的方法。对于给定的视频，我们通过寻找相邻剪辑的特征与前一时间步相比突然改变的时间步来找到片段边界B1Bi ={t：||f i，t− f i，t−1||1> τ}（4）其中τ被设置为第p个百分位数，因此视频Vi中的分段的数量与其长度Ti成正比。对于第二个，我们考虑将视频等分为类似于[55]的三个片段的方法。接下来[25]，为了获得每个片段的特征表示，我们对其边界内的剪辑特征进行平均。对于视频级别，我们将整个视频视为一个片段，并通过对视频中所有剪辑的特征进行平均来表示它，类似于[60]。独立的时间粒度的水平，我们的方法的其他部分保持不变。4. 实验4.1. 数据集UCF101和HMDB51。作为我们的DMPLG和D目标数据集的实例，我们依赖于UCF101 [49]和HMDB51 [32]，这两个众所周知的数据集1用于视频动作识别。然而，在许多作品[9，15，52，58]它表明，这两个1本文使用的数据集由第一作者t=110433×个×× ×数据集太小，无法在外观表示上有效训练现代因此，这些数据集是我们实验的好选择。UCF101包含13k视频和101个人类动作。有3个分割，每个分割大约有9k个训练视频和4k个测试视频。HMDB51包含来自电影的7k视频和51个人类类。它还有3个分割，每个分割大约有5.5k个训练视频和1.5k个测试视频我们认为这些数据集的视频动作识别和视频片段检索的下游任务。动力学-400 作为D源的实例，我们依赖Kinetics- 400[9]。它包含400个10秒剪辑的人类动作类大约有246k的培训和50k的验证视频。Kinetics-400被认为是现代3DCNN预训练的标准选择[9，15，52，58]。与自监督方法类似，我们使用这个没有人类注释的数据集来预训练3D CNN。我们在其验证分裂（动力学-val）上进行消融实验，并使用其训练分裂（动力学训练）与知识转移和自我监督方法进行比较。4.2. 实现细节运动伪标签生成器。对于我们的运动表示，我们利用TV-L1 [62]，其广泛用于视频动作识别。根据最近的文献[3，11，43]，我们选择R（2+1）D-18 [52]作为我们的MMPLG的骨干。自我训练。对于外观模型MRGB，我们再次考虑R（2+1）D-18主干以及S3 D-G [58]。培训详情。我们从训练集中随机分割了大约10%的视频，以便在训练MMPLG和自我训练期间进行验证。首先将输入视频剪辑的大小调整为128 171，然后在训练期间随机裁剪为112 112。在确认或测试期间，剪辑在中心被裁剪。对于S3 D-G，我们使用具有64帧和更高分辨率224 224的更长剪辑。最近的发现[37]表明，小的minibatch大小提供了更多最新的梯度计算，并产生更稳定和可靠的训练。因此，我们在较小的数据集上训练时，每批使用8个多剪辑。对于Kinetics- 400上的自训练，我们使用16个批次大小用于R（2+1）D，32个批次大小用于S3 D-G。我们以0.001的初始学习率训练我们的模型，并以40，60，80个epoch的步长将学习率衰减10倍在针对每个数据集的MMPLG训练和微调（仅conv4、conv5和fc层）对于自我训练，我们在20和40个时期衰减学习率。MMPLG训练和微调最多可进行120个epoch，而Kinetics-400训练集的自我训练可进行45个epoch。我们的模型使用PyTorch实现，并使用vanilla同步 SGD 算法进行优化，动量为 0.9 ，权重衰减为0.0005。夹子长度Multi-clips（R）表示32641234外观59.460.358.957.059.158.4运动80.881.178.282.282.682.8表1：MPLG运动表示的益处。UCF101分割1上不同剪辑长度（以帧为单位）和每个视频多个剪辑的外观和运动表示之间的比较。当使用多个剪辑进行训练时，我们考虑将16帧剪辑作为输入。使用多剪辑训练甚至比使用更大的输入时间范围更好，这允许我们在没有额外的计算和存储器成本的情况下有效地训练MMPLG对于所有设置，运动表示比外观好20%。4.3. 运动伪标记发生器MMPLG运动表示的益处。我们首先进行消融以证明在光流表示上训练伪标记生成器的益处。我们报告的UCF101分裂1的动作识别结果为这个实验。首先，我们用等式中的损失函数训练MMPLG3，设置λ=1以仅示出在批次中使用来自同一视频的多个剪辑的重要性。在表1中，我们在等式1中消融不同数量的剪辑R的外观和运动表示。3 .第三章。我们还与标准的单剪辑训练进行了比较，但输入剪辑的时间长度较长。独立的剪辑长度和数量，运动表示是20%，比出现- ance，即使使用一个小的时间尺度。我们的多剪辑训练有助于运动表示学习，比标准的单剪辑训练提高了约4%它也比使用具有更大时间尺度的剪辑好1%以上。而对于严重依赖于上下文的外观，当使用较长的时间尺度或多个剪辑进行训练时，没有太大的改善MPLG参数λ的选择。接下来，我们进行实验，改变方程中的参数λ3 .第三章。虽然对于外观表示，改进与[59]（73.7）的结果相匹配，但运动表示并不受益于显式剪辑顺序预测。在λ=0的情况下，我们仅实现69.9的准确度，这甚至低于表观表示。对于λ<1的值，与λ=1的情况相比，我们没有看到动作识别准确性的任何增益。这支持我们的多剪辑训练过程本身在用运动表示训练时提供足够的时间信息。因此，在本文的其余部分中，我们使用运动表示用于我们的MMPLG多剪辑训练，其中R=3且λ=1MMPLG对自我训练的重要性。首先，我们使用上述MMPLG（R=3，λ=1）生成伪标签（128个簇），用于在Kinetics-400训练集上进行自训练，并在UCF 101上获得85.2%的准确率。然后，我们执行10434∼时间粒度视频[2，60]片段[25]片段[55]剪辑聚类数128 500 1000 1600表2：在Kinetics-val上的模型MRGB的运动增强自训练的时间粒度的选择在UCF101分割1上的视频动作识别的下游任务上执行比较。剪辑级别比视频级别提高4%，比片段稍好。表3：用于在Kinetics-val和Kinetics-train上对模型MRGB进行自训练的集群数量的选择比较UCF101分裂1上的视频动作识别的下游任务进行更大数量的集群有益于多达1000个集群的自训练。相同的实验，但是用在外观上训练的MMPLG而不是. 通过对这些外观伪标签进行自我训练请注意，具有外观伪标签的设置类似于[41]和[60]，它们分别针对图像域和超大规模数据集开发。与他们不同的是，我们使用运动有效地训练了小规模视频数据集的模型，但在推理过程中只依赖于外观。4.4. 运动增强自我训练接下来，我们消除网络MRGB的自训练选择，其中我们使用Kinetics-400验证集作为我们的源数据集D源。我们用运动表示在UCF-101分割1上训练我们的MMPLG，并使用它从D 源中的每个视频中提取密集采样剪辑的特征。我们比较了UCF-101分割1上的视频动作识别的下游任务上的自我训练的外观模型MRGB的选择注意，在自训练期间，模型MRGB没有看到来自UCF-101的任何视频，也没有看到Kinetics-400数据集的任何提供的类标签。时间粒度的选择。我们首先分析了考虑时间尺度对生成伪标签的重要性，如3.2节所述。我们在表2中显示了三种可能水平的结果：视频、片段和剪辑。有趣的是，如[25]和[55]中所建议的视频的更语义的分区与仅剪辑级粒度相比没有改善MRGB然而，片段和剪辑水平都优于视频水平[2，60]高达2.5%。我们还改变方程中的参数λ。3在MRGB的自我训练期间。对于任何一个时间级，我们都没有看到比使用λ=1有任何相当大的改进。为了进一步研究剪辑顺序的作用，我们添加下一个和前一个的伪标签预测的损失视频的每个采样剪辑的剪辑。这给我们带来了额外的0.4%的改善。这些结果再次支持仅具有多剪辑丢失的自训练过程有助于成功地将运动知识转移到外观模型，即使没有剪辑顺序的任何附加建模。选择簇的数量。接下来，我们比较在K均值中使用的聚类的数量的影响，以获得表3中的源数据集D源的伪标签。当三维靶夹子长度UCF101 HMDB5187.honeymoon 4±1。19五十六4 ±0.3888. honeymoon 9±1。6961岁4 ±0.80随机初始化[59] 58.9 22.0表4：不同剪辑长度对目标数据集的影响，其中DMPLG是UCF101并且D源是Kinetics。报告了三次拆分的平均准确度和标准偏差使用Kinetics-400验证用于MRGB的自训练，使用更多簇的影响是最小的。即使在更大的Kinetics-400训练集上，也只有高达1.3%的微小改善，这表明我们的运动增强自我训练对集群数量的选择并不敏感对于所有以下实验，我们选择K=1000普通班级的效果。UCF 101和Kinetics-400共有55个类为了评估它们的影响，我们将它们从后者中排除，并使用剩余的170k视频重新训练MotionFit（K=1000）我们在UCF101的split1上获得了86.3%，而在所有类别上获得了86.5%，这表明常见类别对准确性几乎没有影响。影响目标数据集。我们的自我训练方法训练具有运动信息的外观模型，以便在小型视频数据集上进行有效的微调首先，我们评估我们的方法的情况下，当DMPLG 和 D 目标是相同的，即。 UCF101 ， D 源始终为Kinetics。我们对UCF101的三个分裂中的每一个进行微调和评估，并在表4的第一行中报告结果。对于自训练，我们使用16帧剪辑，然而，将剪辑长度增加到32以进行微调可以提高性能，并且几乎不需要额外的计算。然后，我们将D目标更改为HMDB51，但保持相同的自训练模型。同样，与随机初始化相比，有相当大的准确性增益[5]，并且更长的剪辑有所帮助，但主要结论是我们的方法可以很容易地应用于其他小数据集，而不需要重做整个管道（流量提取，然后在Kinetics上进行自我训练相当大的实际优势。接下来，我们将与最先进的技术进行比较。76.579.077.380.3动力学-值79.0 79.079.774.2动力学-列车86.585.610435骨干帧分辨率模态UCF101 HMDB51骨干帧决议附加标签UCF101HMDB51随机初始化[59]R（2+1）D-1816112-58.9 22MERS [11]†R（2+1）D-1816112-78.3 42.1MARS [11]†R（2+1）D-1816112-82.2 48.7STC [12]STC-ResNext16112ImageNet84.7-DistInit [19]R（2+1）D-1832112ImageNet85.7 54.9监督[43]R（2+1）D-1816112动力学-40095.0 70.4MotionFit（我们的）R（2+1）D-1816112-87.456.4†MERS和MARS结果基于我们的实施[11]。表5：与关于视频动作识别的知识转移方法的我们报告了UCF101和HMDB51的所有3个分裂平均的微调模型的前1精度我们的方法优于MERS和MARS的运动知识转移到外观流。MotionFit也比同样依赖ImageNet类标签的方法更好Sun等人[五十一]S3d16112V + T79.544.6Asano等人[3]第一章R（2+1）D-1830112V + A83.147.1Alwassel等[二]《中国日报》R（2+1）D-1832224V + A86.852.6Xiao等[五十七]慢快64224V + A87.054.6Morgado等人[第四十届]R（2+1）D-1832224V + A87.560.8Patrick等人[四十三]R（2+1）D-1832224V + A89.360.0Kim等人[29日]R3D-1816112V65.833.7Kong等人[30个]R3D-188112V69.437.8Han等人[20个]R-2D3D-3425224V75.735.7Jing等[28日]R3D-1864112V76.647.0Zhuang等[第六十五章]慢快16112V77.046.5Han等人[21日]R-2D3D-1825224V78.141.2Benaim等人[五]《中国日报》S3D-G64224V81.148.8Han等人[22日]S3d32128V87.954.6MotionFit（我们的）R（2+1）D-1832112V88.961.4MotionFit（我们的）S3D-G64224V90.150.6表6：在视频动作识别上与自监督方法的比较。我们报告了UCF101和HMDB51的所有3个分裂平均的微调模型的前1精度。为了公平比较，我们只列出了使用Kinetics-400数据集和具有相似深度的网络当仅考虑视觉模态（V）时，我们的方法是最好的在UCF101上，我们甚至可以与在训练期间使用额外音频模态（V+A）的方法相提并论。4.5. 与最新技术水平的知识转让。在表5中，我们比较了知识转移方法。作为知识转移方法，我们考虑两个主要家族：从预训练的2D CNN中转移知识，并从运动到外观流中转移知识，与我们所做的相同。对于前者，我们选择STC [12]和DistInit [19]，对于后者，我们从[11]中选择MERS和MARS。我们通过在Kinetics-400上匹配学生外观网络与教师运动网络的特征来训练MERS。然后，我们进一步微调目标数据集上的学生模型，就像我们对MotionFit所做的那样。MARS还将特征匹配与交叉熵损失相结合，并且需要类别标签，因此它直接在目标数据集上进行训练对于教师网络，我们使用用于获得伪标签的相同MMPLG与基于特征匹配的运动转移方法相比，我们有很好的改进（在R（2+1）D-18的两个数据集上>我们甚至比10436来自预训练的2D CNN的知识转移方法，尽管它们也使用ImageNet类标签。自我监督动作识别。接下来，我们将我们的方法与最先进的自监督方法进行比较，因为我们在Kinetics-400数据集上的自训练过程中也没有使用地面真值标签我们首先在表6中比较UCF101和HMDB51上的视频动作识别。请注意，所有报告的方法都在这些数据集上微调了它们的模型，因此使用了与我们相同数量的类标签这些方法在骨干网络的选择、输入帧的数量和输入分辨率方面差异很大，使得公平比较本身成为一项具有挑战性的任务。然而，由于我们的方法的简单性，我们可以很容易地训练不同的骨干外观网络MRGB来预测由相同的MMPLG生成的伪标签。我们报告了两个骨干网络，并优于大多数其他方法，只使用视频模态，在两个数据集上具有良好的利润率使用与Benaim等人相同的S3 D-G骨架。[5]，我们获得了UCF101和1.8%的增加9.0%10437UCF101HMDB51骨干模态R@1R@5R@20R@1R@5R@20Benaim等人[五]《中国日报》S3D-GV13.028.149.5---Kong等人[30个]R3D-18V22.039.156.3---Asano等人[3]第一章R（2+1）D-18V + A52.068.684.524.847.675.5Patrick等人[四十三]R（2+1）D-18V + A57.473.488.125.451.475.0MotionFit（我们的）S3D-GV31.651.770.3---MotionFit（我们的）R（2+1）D-18V61.675.685.529.446.566.7表7：在视频剪辑检索上与自监督方法的比较。我们在UCF 101和HMDB 51拆分1上报告了n= 1，5，20的召回值R@n。为了公平比较，我们仅列出使用Kinetics-400获得的结果。当只考虑视觉模态时，我们的方法是最好的，并且与在训练期间使用额外的音频模态的方法相当在HMDB51上我们也比Han等人略好。[22]在UCF101上使用S3D主干。我们甚至比一些额外利用文本[51]或音频[3]的多模态方法执行得对于类似的分辨率和输入帧数，我们几乎与大多数多模态UCF101，分流1方法.我们的结论是我们的方法更好地利用了由于运动增强的自我训练，小数据集的类标签自我监督剪辑检索。接下来，我们将表7中的视频剪辑检索与最先进的自监督方法进行比较。我们遵循徐等人的设置。[59]并使用UCF101和HMDB51的拆分1进行比较。从每个视频中，我们采样10个剪辑，并且从测试集中提取的剪辑用于从训练集中查询剪辑我们使用最大池功能后，最后一个残留块作为剪辑功能表示。对于查询剪辑，检索n个最近的训练剪辑，并且如果它们中的任何一个具有与查询相同的类别标签，则认为检索是正确的。我们报告召回结果在不同的n值。我们的方法优于Benaim等人的方法。[5]对于两个骨干网络都有很大的保证金。我们与浅野等人的方法不相上下。[3]和Patricket al. [43]，两者都利用了附加的音频模态。我们的结论是，我们的运动增强自训练模型MRGB学习独特的动作运动，尽管只在外观表示上进行训练，另请参阅补充中的定性检索结果。半监督动作识别。最后，在表8中，我们比较了用于小规模标记数据集上的视频识别的半监督方法。继Jinget al. [27]和Rizveet al. [46]，我们在UCF 101的拆分1上进行实验，并使用3D ResNet-18作为主干。对于它们的半监督学习，竞争方法随机选择训练集的一小部分（20%或50%）作为标记子集，并使用没有标记的其余视频。该模型在未标记和标记的子集上进行训练。为了公平比较，我们将标记的部分设置为DMPLG（与D目标相同），并且将没有标记的完整训练集设置为D源。尽管Jing等人使用额外的标签来预训练2D CNN，‡使用额外的标签来预训练2D CNN。表8：在较小规模下与半监督对视频识别的比较。我们报告了在20%（或50%）的UCF101训练数据上微调这里，DMPLG（与D目标相同）是UCF101训练集的分数，并且D源是UCF101训练集。对于20%和50%标记的数据，我们的表现分别优于它们9%和5.7%。Rizve等人的增益。甚至更多，对于两个标记子集，约为18.3%和8.8%。随着标记视频数量的减少，我们观察到MotionFit的进一步优势。补充材料中报告了更多的实验分析。5. 结论我们提出了一个运动增强的视频自我训练制度，将知识从运动转移到一个外观- ance网络。训练的模型是运动增强的，并且在推理期间不需要昂贵的光流计算。使其非常适合在计算预算有限的小规模视频数据集和视频应用程序上部署为了提高伪标签的质量，我们引入了一个简单而有效的多剪辑损失来训练我们的伪标签生成器。我们的MotionFit提供了一个自我训练的模型，可以在小规模数据集上进行有效的微调，以完成动作识别和剪辑检索等下游任务我们在两个小规模数据集上微调我们的模型，并与使用相同数量的人类标签进行训练的最先进的知识转移，自监督和半监督学习方法进行比较在所有情况下，我们的方法相比，有利的现有的视觉只有替代品。20%标记50%标记Jing等[27]‡48.754.3Rizve等人[46个]39.450.2MotionFit（我们57.759.010438引用[1] Jean-BaptisteAlayrac ， AdriaRecasens ， RosaliaSchneider，ReljaArandjelo vic´，JasonRamapuram，Jef freyDeFauw ， Lu-cas Smaira ， Sander Dieleman ， andAndrew Zisserman. 自监督多模态通用网络。在NeurIPS，2020年。2[2] Humam Alwassel 、 Dhruv Mahajan 、 Bruno Korbar 、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习。在NeurIPS，2020年。二四六七[3] Yuki M Asano，Mandela Patrick，Christian Rupprecht，and Andrea Vedaldi.通过多模式自我监督从头开始标记未标记的视频。在NeurIPS，2020年。二、五、七、八[4] Yuki M Asano，Christian Rupprecht，and Andrea Vedaldi.通过同步聚类和表征学习的自我标记在ICLR，2020年。二个[5] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri、William Freeman、Michael Rubinstein、MichalIrani和Tali Dekel。SpeedNet：学习视频中的速度。在CVPR，2020年。二、六、七、八[6] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类在ECCV，2018。二个[7] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练在ICCV，2019年。二个[8] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS，2020年。二个[9] Jo aoCarreira和Andr e wZisserman 。Quovadis，动作识别？新模型和动力学数据集。在CVPR，2017年。一、二、三、四、五[10] Hyeon Cho、Tae-Hoon Kim、Hyung Jin Chang和WonjunHwang。使用

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

小规模视频自训练：运动增强网络用于小尺度视频识别

自适应扫描池：用于视频动作识别的深度卷积神经网络方法

基于注意跨模态交互和运动增强的视频动作识别框架

"记忆增强的多尺度视觉Transformer：优化长时间视频识别

大规模视频域自适应：时间注意对齐

手写数字图像识别推荐使用什么模型进行训练

esp32图像识别与训练

预训练模型： ImageNet预训练 COCO预训练

有场景识别的预训练模型吗

有哪些，可以用于训练计算机视觉模型？

基于yolo的人脸识别模型说明书

衍射神经网络 实现 汉字识别

开源语音识别软件有哪些？

基于小规模孤立词录音函数的设计原理、训练函数的设计原理

BP神经网络主要用途

user c++使用tensorflow框架训练人脸识别模型

用于表情识别的数据集有哪些？

基于卷积神经网络的手写数字识别性能评价

自定义ava数据集及训练与测试 完整版 时空动作/行为 视频数据集制作 yolov5, deep

如何得到预训练的卷积神经网络

最新资源

衍射神经网络实现汉字识别

自定义ava数据集及训练与测试完整版时空动作/行为视频数据集制作 yolov5, deep