基于元对比网络的自监督视频表示学习

13 浏览量更新于2023-10-13 收藏 15.51MB PDF 举报

视频动作识别

视频检索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

182390基于元对比网络的自监督视频表示学习0Yuanze Lin 1 * Xun Guo 2 Yan Lu 201 华盛顿大学，2 微软亚洲研究院0yuanze@uw.edu, { xunguo, yanlu } @microsoft.com0摘要0自监督学习已成功应用于预训练视频表示学习，旨在实现从预训练领域到下游任务的高效适应。现有方法仅利用对比损失学习实例级别的区分。然而，缺乏类别信息将导致难以确定正样本的问题，限制了这种方法的泛化能力。我们发现元学习的多任务过程可以提供解决这个问题的方法。在本文中，我们提出了一种基于元学习和对比学习的元对比网络（MCN），以增强现有自监督方法的学习能力。我们的方法包含两个基于模型无关元学习（MAML）的训练阶段，每个阶段包括一个对比分支和一个元分支。广泛的评估证明了我们方法的有效性。对于两个下游任务，即视频动作识别和视频检索，MCN在UCF101和HMDB51数据集上优于现有方法。具体而言，使用R(2+1)D骨干网络，MCN在视频动作识别方面的Top-1准确率分别为84.8％和54.5％，在视频检索方面为52.5％和23.7％。01. 引言0卷积神经网络（CNN）为监督视频表示学习带来了前所未有的成功。然而，标记大规模视频数据需要大量的人工注释，这是昂贵且繁重的。如何通过利用无标签视频学习有效的视频表示是一个重要且具有挑战性的问题。自监督学习在图像领域的最新进展为这个问题提供了高效的解决方案，提出使用对比损失来区分不同的数据样本。0* 作者在微软亚洲研究院实习时完成了这项工作。0图1.在UCF101数据集上使用MCN和不使用MCN训练的模型之间的比较。顶部行显示了使用[55]方法计算的R(2+1)D骨干网络conv5层的激活图。通过使用我们提出的MCN，学习到的表示可以更准确地捕捉到运动区域。底部行显示了使用MCN方法和不使用MCN方法训练的模型的Top-1准确率。0这种基于实例的对比学习也被应用于视频的预训练，并在视频动作识别和视频检索等下游任务中取得了出色的性能[18,42,31]。然而，它在缺乏常见类别信息方面具有固有的限制。实例化的区分过程将每个视频样本视为独立的类别，因此即使它们属于同一类别，两个视频样本之间的距离也会被对比损失推开。这个缺点降低了预训练参数的泛化能力。因此，监督微调下游任务的效率也会受到损害。如何提高对比自监督学习的泛化能力，并使学习到的参数能够轻松适应各种新任务的预训练领域到微调领域仍然具有挑战性。元学习已经证明了快速适应只有少量训练样本的能力。282400元学习的特点，特别是模型无关元学习（MAML），可以在两个方面帮助对比自监督视频学习。首先，实例级别的区分将每个视频视为一个类别，因此可以方便地为元学习创建大量子任务以提高模型的泛化能力。其次，元学习的目标是“学会学习”，这意味着它为在新任务上的快速适应提供了良好的初始化。这完全符合对比视频表示学习作为预训练方法的要求。因此，结合元学习和自监督学习可能有助于视频表示学习。在本文中，我们提出了一种新颖的元对比网络（MCN），它利用元学习来提高对比自监督视频学习在下游任务上的泛化和适应能力。我们的方法包含两个分支，即对比分支和元分支，建立了一个多任务学习过程来增强实例区分能力。同时，我们设计了一个基于MAML的两阶段训练过程来提高MCN的学习能力。我们的方法优于现有方法，并取得了显著的性能提升。本文的主要贡献总结如下。01）我们提出了一种新颖的元对比网络（MCN），可以显著提高以自监督学习方式学习的视频表示的泛化能力。02）我们充分研究了将元学习与自监督视频表示学习相结合的好处，并进行了大量实验，以更好地理解所提出的方法。03）我们在行动识别和检索任务的主流基准上评估了我们的方法，结果表明我们提出的方法可以达到与其他自监督学习方法相媲美的最先进或可比较的性能。02. 相关工作02.1. 预训练任务0早期的自监督学习方法主要集中在为图像设计手工预训练任务，例如预测转换后图像的旋转[12]、图像拼图[6]、学习特征的数量[35]、图像着色[56]、相对位置[6]等。之后，关于视频数据的许多自监督学习方法蓬勃发展。由于视频数据具有额外的时间维度，因此有许多特定的预训练任务。0针对时间预测设计的预训练任务，例如帧率预测[47]、节奏预测[2]、帧排序预测[53, 28,9]和运动统计预测[46]。这些预训练任务使模型能够具有更好的区分能力，这对于下游任务非常重要。02.2. 对比自监督学习0对比自监督学习在无标签数据中已经证明具有巨大潜力[20,43, 21, 5, 32,16]。由于对比自监督学习方法的存在，模型可以在没有标签的情况下区分来自不同领域的样本。在这个领域有一些先前的工作。He等人[20]提出了一个动量字典，用于存储和弹出学习到的图像特征，从而可以极大地扩展存储的特征数量。Chen等人[5]提出了一个简化的对比自监督图像学习框架，只包括有益于学习表示的主要组件。Tian等人[43]提出了一种用于视频表示学习的对比多视图编码（CMC）方法，该方法使用输入视频的不同视图来最大化实例级别的区分度。我们的方法采用了CMC和两个视图，即RGB视图和残差视图，作为基线。02.3. 元学习0关于元学习的大量研究已经针对少样本任务进行了展示。Finn等人[10]提出了一种重要的元学习方法，称为模型无关的元学习（MAML），可以与任何使用梯度下降训练的学习方法结合使用。MAML的一些变种，例如Reptile[33]和iMAML[38]，不仅可以显著节省训练时间，还可以达到与MAML相当的性能。最近，研究人员开始将元学习方法应用于计算机视觉任务，例如目标跟踪和人脸识别[13, 45,50]。在本文中，我们利用MAML来提高对比自监督视频学习的性能。与以前的努力不同，我们尝试增强自监督预训练领域和监督微调领域之间的适应性，这更具挑战性。03. 元对比网络0在本节中，我们详细描述了我们提出的元对比网络（MCN）。在第3.1节中，我们介绍了MCN的框架和两阶段训练过程。在第3.2节中，我们详细说明了MCN的对比分支。在第3.3节中，澄清了元分支的细节。在第3.4节中，我们介绍了MCN中的损失和优化方法。最后，在第3.5节中，解释了实现细节。382410图2.元对比网络的示意图。为简单起见，仅使用3个输入视频进行说明。MCN有两个阶段，包括元训练和元测试阶段。模型最初由θ参数化。α1和α2表示学习率。请注意，元分支中的全连接（fc）层与特征提取模块中的全连接层不同。FCM是特征组合模块，为元分支生成二进制分类特征。03.1. 框架0我们通过采用对比多视图编码（CMC）[43]作为基线来构建我们的框架。多视图输入被证明对基于实例的视频对比学习非常有效，因为来自同一视频的不同视图，即变换，可以增加正样本并使对比学习更加高效。我们的框架中采用了两个视图，即RGB视图和残差视图，这些视图已被证明是非常有效的视图[41]。我们的框架中有两个分支，如图2所示，即对比分支和元分支。对比分支执行对比学习，元分支执行一对二进制分类以进行高效的元学习。二进制分类与预训练任务非常相似，预测输入的两个特征是否来自同一视频样本。0我们采用两阶段的训练过程，包括元训练和元测试。训练数据被分为训练集，即支持集，和测试集，即查询集。在元训练阶段，支持集中的视频用于内部更新，更新后的参数将在元测试阶段用于特征提取。在元测试阶段，查询集中的视频与内部更新的参数一起用于元更新，从而更新初始参数。0用于MCN的下一个训练迭代的元训练阶段。03.2. 对比分支0对比分支通过收集两个视图的提取特征为正样本和负样本构建特征库，并计算对比损失，即NCE损失[14]。RGB视图包含来自视频剪辑的采样的RGB视频帧，残差视图包含两个连续RGB帧之间的差异。残差帧的计算方式为：0帧残差 n = | 帧RGB n − 帧RGB n +1 | , (1)0其中Frame Res n表示残差帧；Frame RGBn表示RGB帧；n是采样帧的索引。残差视图有效的原因可能是它可以在一定程度上反映视频剪辑的运动并提供补充信息给RGB视图。例如，当存在两个具有相同动作的不同视频剪辑时，它们可能具有相似的残差视图。这将在对比学习过程中隐式增加难样本。̸4824203.3. 元分支0对比学习在自监督视频学习中存在难正样本问题和难负样本问题。例如，可能存在包含完全不同场景和物体但相同动作和事件的视频。还存在包含相似场景和物体但不同动作和事件的视频。从理论上讲，元学习可以通过多任务学习过程缓解这个问题。为此，我们设计了由特征组合模块（FCM）和几个二进制分类任务组成的元分支，可以预测一个特征对是否属于同一视频剪辑。如图2所示，通过在FCM中连接输入视频样本的两个特征，可以构建几个实例/二进制分类任务在元分支中。相应的标签可以轻松创建以进行训练。图3显示了使用FCM为两个视频样本v1和v2创建分类任务的示例。如果一个连接的特征来自同一视频的不同视图，则标签为true，否则标签为false。我们设计二进制分类的原因有两个。首先，二进制分类损失可以与对比损失互补，以更好地学习实例区分。其次，二进制分类通过多任务学习过程实现对对比学习分支和元学习分支的高效组合，以提高泛化能力。0图3.FCM的示例。v1和v2是两个视频样本。(a)是两个视频的特征空间。RGB和Res分别表示从RGB视图和残差视图提取的特征。(b)是正特征集，其标签为真。(c)是负特征集，其标签为假。03.4. 元损失和优化0为了简化MCN方法的训练过程，我们结合了度量损失，即对比损失和交叉熵损失，即分类损失，并提出了用于最终优化的组合元损失。对比损失。对比学习旨在区分不同样本的特征。在我们的方法中，我们采用了来自CMC[43]的对比损失形式作为对比分支的目标。具体而言，同一样本的两个不同视图，例如{x1i,x2i}，被视为正样本，而来自不同样本的视图，例如{x1i, x2j}(i ≠j)，被视为负样本。使用值函数hθ，使得正样本具有较高的分数，负样本具有较低的分数。更具体地说，通过模型提取特征z1i后，函数hθ在特征集Z = {z21, z2i, ...,z2k+1}上进行训练，其中包括一个正样本z2i和k个负样本，以便可以轻松从Z中挑选出正样本。对比损失可以表示为：0对比分支的目标。具体而言，同一样本的两个不同视图，例如{x1i,x2j}，被视为正样本，而来自不同样本的视图，例如{x1i,x2j}(i ≠j)，被视为负样本。使用值函数hθ，使得正样本具有较高的分数，负样本具有较低的分数。更具体地说，通过模型提取特征z1i后，函数hθ在特征集Z = {z21, z2i, ...,z2k+1}上进行训练，其中包括一个正样本z2i和k个负样本，以便可以轻松从Z中挑选出正样本。对比损失可以表示为：0Lcontrast = -log 0∑k+1j=1hθ({z1i, z2j}),(2)0其中Lcontrast表示对比分支的对比损失，k是负样本的数量。z1i和z2i表示第i个样本的两个不同视图的提取特征。hθ(∙)可以表示为：0hθ({z1i, z2j}) = exp(z1i∙z2j)0∥z1i∥ ∙ ∥z2j∥ ∙ τ)，(3)0其中hθ(∙)是两个特征的余弦相似度，τ是动态控制范围的参数。分类损失。MCN的元分支执行实例/二元分类。我们使用二元交叉熵损失（BCE）作为我们的分类损失，可以表示为：0Lcls =0i = 1 - yi logˆyi - (1 - yi) log(1 - ˆyi)，(4)0其中N是连接特征的数量。在我们的方法中，FCN将每个批次中的4个视频剪辑的特征进行连接，每个视频有两个特征。yi是第i个连接特征的标签。ˆyi是元分支的全连接层的输出。元损失。将对比损失和分类损失从两个分支组合在一起，得到最终的元损失，定义为：0Lmeta = α ∙ Lcls + (1 - α) ∙ Lcontrast，(5)0其中α是一个超参数，用于控制二元分类损失Lcls和对比损失Lcontrast的相对影响。元损失用于在元训练和元测试阶段更新权重。优化。在元训练或元测试阶段，使用元损失Lmeta通过梯度下降来优化模型参数θ。在元训练阶段，使用从支持集获得的Lmeta来获得更新的参数¯θ，这被称为内部更新。在元测试阶段，Lmeta582430从查询集中获得的Lmtestcls用于更新θ，这被称为元更新。两个优化阶段的梯度下降步长与学习率相同。03.5. 实现细节0在本节中，我们将进一步解释MCN的实现细节。具体而言，我们提出的MCN包括两个阶段，即元训练和元测试阶段。MCN的整个过程如下所述。初始化。使用参数θ对预训练模型f(θ)进行初始化，数据集D，支持集Ds，查询集Dq，批量大小B，D = Ds ∪Dq。输入。从支持集Ds中随机采样B个输入视频Xsup。从查询集Dq中随机采样B个输入视频Xque。元训练。将采样的视频Xsup输入到网络f(θ)中提取特征。使用这些特征通过公式2计算对比损失Lmtraincontrast。使用FCM组合这些特征并得到新的特征集Smtrain。使用Smtrain通过公式4计算分类损失Lmtraincls，然后使用Lmtraincls和Lmtraincontrast通过公式5计算Lmtrainmeta。内部更新。使用Lmtrainmeta通过梯度下降更新模型参数。更新过程为¯θ = θ -α1�θLmtrainmeta(fθ)，其中α1与学习率相同。元测试。将采样的视频Xque输入到网络f(¯θ)中提取特征。使用这些特征通过公式2计算对比损失Lmtestcontrast。使用FCM组合这些特征并得到新的特征集Smtest。使用Smtest通过公式计算分类损失Lmtestcls。0然后使用Lm test cls和Lm test contrast计算Lm testmeta，计算公式为式子5。元更新。使用Lm testmeta通过梯度下降来更新最终的模型参数。对应的更新过程为θ = θ - α2�θLm testmeta(f¯θ)，其中α2与学习率相同。04. 实验04.1. 数据集0我们在三个视频分类数据集UCF101 [39]、HMDB51[27]和Kinetics-400 [24]上评估了我们的方法。UCF101[39]是一个包含101个动作类别的数据集，总共包含13320个视频。该数据集有3个划分[2,53]。在我们的实验中，我们使用训练划分1作为自监督预训练数据集，使用训练/测试划分1进行微调/评估。HMDB51[27]有约7000个视频和51个视频动作类别，相对于UCF101和Kinetics[24]来说规模较小。它也有3个划分。我们使用划分1进行微调和评估。0Kinetics-400[24]是一个从YouTube收集的用于动作识别的流行基准数据集，包含400个动作类别。总共有30万个视频样本，分为24万个、2万个和4万个用于训练、验证和测试的集合。在我们的论文中，我们只使用训练集作为我们的预训练数据集。04.2. 实验设置0数据预处理。我们从每个视频中随机采样32个连续帧作为MCN的输入。如果原始视频长度不够，将重复使用第一帧。采样的原始帧被视为RGB视图，由公式1生成的残差帧被视为残差视图。原始帧将被随机裁剪和调整大小为128×128。同时，还使用了高斯模糊、水平翻转和颜色抖动进行数据增强。骨干网络。在消融实验中，我们使用了三种主流网络结构，即S3D [52]、R3D-18 [19, 44]和R(2+1)D[44]作为MCN的骨干网络。对于视频动作识别和视频检索任务，只报告了R3D-18和R(2+1)D的结果。自监督学习。我们使用4个NVIDIA TeslaP40进行约500个epoch的模型训练。初始学习率为0.01，权重衰减为0.001。α设为0.2。对于R(2+1)D和R3D-18，我们使用批量大小分别为28和80。微调。在完成自监督学习阶段后，我们在UCF101或HMDB51上对预训练模型进行约300个epoch的微调。为了进行分类，我们在预训练骨干网络的末尾添加了一个新的全连接层。学习率设置为0.02。对于R(2+1)D和R3D-18，批量大小分别为72和200。评估。我们对提出的方法进行了视频动作识别和视频检索任务的评估。对于视频动作识别，报告了UCF101 [39]和HMDB51[27]的top-1准确率。为了进一步验证我们提出的MCN，我们还展示了线性探针结果，其中自监督学习模型的权重固定，只微调用于监督分类的全连接层。对于视频检索，与现有方法相比，比较了top-1、top-5、top-10、top-20和top-50的准确率。04.3. 消融实验0为了全面研究和理解MCN的概念，我们进行了消融实验，以展示MCN的每个设计如何影响整体性能。与基线的比较。我们在表1中比较了自监督训练中使用MCN和不使用MCN的动作识别结果。我们使用了三个骨干网络，即S3D、R(2+1)D和R3D-18，来展示MCN的性能提升。如表中所示，MCN的准确率提升是显著的。s onMCN1681.3MCN3284.8MCN6486.777.379.284.8682440在UCF101数据集上，使用S3D、R(2+1)D和R3D-18作为基线的准确率分别为76.7%、77.3%和78.6%，而使用MCN的准确率分别为82.9%、84.8%和85.4%。HMDB51数据集的相关结果也可以观察到。在不同的骨干网络和数据集上使用MCN时，性能提升是一致的。此外，我们还在表2中评估了线性探针的结果，只有全连接层进行微调。在UCF101和HMDB51数据集上，也可以观察到MCN的显著性能提升。0方法骨干网络 UCF101(%) HMDB51(%)0我们的（基线）S3D 76.7 45.50我们的（+MCN）S3D 82.9 53.80我们的（基线）R(2+1)D 77.3 46.20我们的（+MCN）R(2+1)D 84.8 54.50我们的（基线）R3D-18 78.6 47.10我们的（+MCN）R3D-18 85.4 54.80表1. MCN和基线在视频动作识别任务上使用不同骨干网络的比较。0方法骨干网络 UCF101(%) HMDB51(%)0我们的（基线）S3D 62.4 33.50我们的（+MCN）S3D 71.6 40.80我们的（基线）R(2+1)D 64.2 35.60我们的（+MCN）R(2+1)D 72.4 41.20我们的（基线）R3D-18 64.6 37.30我们的（+MCN）R3D-18 73.1 42.90表2.不同骨干网络在视频动作识别任务上的线性探测评估结果。0α的影响。如方程5所示，α用于调节元损失。我们还进行了实验来证明这个超参数的影响。表3显示了使用R(2+1)D骨干网络的4个α设置的结果。0设置 UCF101(%)0α = 0 . 1 84.10α = 0 . 2 84.80α = 0 . 3 83.40α = 0 . 4 82.70表3.不同α设置在UCF101数据集上的结果。0我们可以观察到将α设置为0.2时显示出最佳性能。因此，在我们的所有实验中，我们将α设置为0.2。输入帧数的影响。对于自监督视频表示学习，每个视频剪辑的输入帧数可能会影响最终性能。因此，我们测试了不同数量的帧进行定量分析。我们首先在UCF101数据集上预训练模型，然后微调模型进行视频动作识别任务。0在表4中，我们可以看到更多的输入帧带来更好的性能。随着输入长度的增加，MCN获得额外的改进。0方法输入帧数 UCF101(%)0基线 16 74.60基线 32 77.30基线 64 80.60表4. MCN和基线在视频动作识别任务上使用不同输入帧的结果。0各个组件的影响。我们还测试了MCN的每个组件，以确定它们对最终性能的贡献。在UCF101上的视频动作识别结果如表5所示。选择R(2+1)D作为骨干网络。如表5所示。CL表示对比损失。BL表示来自提出的元分支的二进制损失。将CL和BL组合在一起而没有元阶段，准确率提高了1.9%。通过添加元阶段，额外提高了5.6%的准确率，证明了元学习的有效性。这些实验可以证明所提出的MCN方法的有效性。0CL BL 元阶段 UCF101(%)0表5. MCN不同组件的消融研究在视频识别任务上的结果。04.4. MCN评估0在本节中，我们将我们提出的方法与其他最先进的方法进行性能比较。我们展示了在视频动作识别和视频检索两个下游任务上的评估结果。比较使用R3D-18和R(2+1)D作为骨干网络。视频动作识别。考虑到我们在实验中只使用了RGB信息，我们没有包括多模态的方法[26, 1, 36,31]。Co-CLR也通过共同训练RGB和光流样本展示出优秀的性能。在本文中，我们只包括CoCLR的仅RGB结果进行公平比较。我们首先将我们的线性探测评估结果与其他最先进的方法进行比较，以验证我们方法学习到的视频表示的可迁移性。表6的结果表明，所提出的MCN方法在UCF101和HMDB51上的性能优于其他最先进的方法。CBT [40]54.029.5MemDPC [17]54.130.5CoCLR [18]70.239.1Jigsaw[34]UCF10122551.522.5OPN [28]VGG22756.322.1Mars [46]C3D11258.832.6CMC [43]CaffeNet12859.126.7ST-puzzle [25]R3D22465.031.3VCP [30]R(2+1)D11266.332.2VCOP [53]R(2+1)D11272.430.9PRP [54]R(2+1)D11272.135.0IIC [42]R3D11274.438.3PP [47]R(2+1)D11275.935.9CoCLR [18]S3D12881.452.1ac-are3D-RotNet [23]R3D11262.933.7ST-Puzzle[25]R3D22463.933.7DPC [16]R2D-3D12875.735.7SpeedNet [2]S3D-G22481.148.8PP [47]R(2+1)D11275.935.9CoCLR [18]S3D12887.954.6CVRL [37]R3D22492.165.4ac-areJigsaw [34]19.728.533.540.049.4OPN[28]19.928.734.040.651.6B¨uchler [3]25.736.242.249.259.5VCOP [53]10.725.935.447.363.9VCP [30]19.933.742.050.564.4CMC [43]26.437.745.153.266.3PP [47]31.949.759.268.980.2IIC [42]42.460.969.277.186.5CoCLR [18]53.369.476.682.0-deo782450方法 UCF101(%) HMDB51(%)0我们的（R(2+1)D） 72.4 42.20我们的（R3D-18） 73.1 42.90表6.在UCF101和HMDB51数据集上与最先进的方法进行线性探测比较。0方法骨干网络分辨率 UCF101 HMDB510我们的 R(2+1)D 128 84.8 54.50我们的 R3D 128 85.4 54.80表7.在UCF101和HMDB51数据集上与最先进的视频动作识别方法进行比较（模型在UCF101上进行了预训练）。0方法骨干网络分辨率 UCF101 HMDB510我们的 R(2+1)D 128 89.2 58.80我们的 R3D 128 89.7 59.30表8.在UCF101和HMDB51数据集上与最先进的视频动作识别方法进行比较（模型在Kinetics-400上进行了预训练）。0然后，我们将所有参数微调的结果与其他不同预训练数据集的最先进方法进行比较。具体而言，我们在UCF101和Kinetics-400上预训练我们的模型，然后在UCF101和HMDB51上微调预训练模型。表7和表8分别显示了结果。从表中我们可以观察到，Kinetics-400上预训练的结果比UCF101上预训练的结果要好得多。Kinetics包含比UCF101更多的视频。结果表明，MCN可以更好地利用大量未标记的视频。在两个表中，我们的方法优于或与其他最先进的自监督方法具有可比性。在表8中，CVRL的结果比我们的更好。这可能有三个原因：（1）较大的输入图像分辨率（224×224）与我们的（128×128）相比；（2）更强大和更深的骨干网络0网络（R3D-50）比我们的（R(2+1)D和R3D-18）更高；（3）更有效的数据增强方法。这些实验结果可以为将元学习与自监督学习方法相结合提供启示。0方法 top1 top5 top10 top20 top500我们的（R(2+1)D） 52.5 69.5 77.9 83.1 89.30我们的（R3D） 53.8 70.2 78.3 83.4 89.70表9. 在UCF101数据集上与最先进的方法进行视频检索的比较。0方法 top1 top5 top10 top20 top500VCOP [53] 7.6 22.9 34.4 48.8 68.90VCP [30] 7.6 24.4 36.3 53.6 76.40CMC [43] 10.2 25.3 36.6 51.6 74.30PP [47] 12.5 32.2 45.4 61.0 80.70IIC [42] 19.7 42.9 57.1 70.6 85.90CoCLR [18] 23.2 43.2 53.5 65.5 -0我们的（R(2+1)D）23.7 46.5 58.9 72.4 87.30我们的（R3D）24.1 46.8 59.7 74.2 87.60表10. 与HMDB51数据集上最先进方法的比较的视频检索结果。0视频检索。除了视频动作识别任务外，我们还评估了MCN在视频检索任务上的性能，这可以更好地反映语义级别的学习能力。我们考虑原始视频剪辑的RGB和光流视图进行视频检索，其中选择的光流视图是光流的垂直维度。我们使用无监督的TV-L1算法[11]提取输入视频的光流。视频检索任务是使用预训练模型提取的特征进行的，无需额外的微调阶段。我们将测试集中的每个视频用作查询视频，根据其提取的特征从训练集中查询k个最近的视频。当检索视频的类别与查询视频的类别相同时，认为此检索结果是正确的。我们的实验中显示了top-1、top-5、top-10、top-20和top-50的检索准确率。如表9所示，与其他最先进的方法相比，我们的方法在UCF101数据集中实现了优越或可比的性能。我们观察到，CoCLR的top-1准确率略优于我们的R(2+1)D骨干网络。实际上，我们的方法与CoCLR是正交的。882460图4.UCF101上的视频检索示例。第一列表示测试集中的查询视频，其余列是从训练集中检索出的前3个结果，分别是没有和有MCN训练的模型。每个视频的类别名称显示在底部。红色字体表示错误的视频检索结果。0换句话说，MCN可以将由Co-CLR训练的模型作为基线进行额外的改进。HMDB51数据集的结果已在表10中显示，表明了我们提出的MCN的优越性能。0图5.从R(2+1)D骨干网络的conv5层生成的激活图。使用32帧输入和[55]中的方法生成。图示了视频剪辑的第1、第4、第8和第12帧。三行分别表示原始视频剪辑，没有和有MCN训练的模型生成的激活图。0在图4中，可视化了具有和不具有MCN的模型的检索结果。使用R(2+1)D作为骨干网络。使用UCF101测试集的视频剪辑来查询UCF101训练集中的3个最近视频。我们可以清楚地观察到，具有MCN的学习表示可以查询视频0更准确地识别具有相同类别的视频。04.5. 可视化0在本节中，我们在图5中可视化了MCN的激活图，以便直观地了解自监督学习过程中的改进。我们使用[55]中的方法来可视化预训练的R(2+1)D骨干网络的conv5层的激活图。有趣的是观察到，没有MCN训练的模型可能会关注不相关的区域，而MCN可以准确地关注视频剪辑的运动区域。这对于动作识别是至关重要的。例如，在图5的第一行中，我们可以清楚地看到一个人正在做挺举动作。MCN学习到的表示可以更多地关注他的动作区域，如手和肩膀。05. 结论0在本文中，我们提出了一种新颖的元对比网络（MCN），它利用元学习来提高对比自监督视频学习在下游任务中的泛化和适应能力。提出的MCN包含两个分支，即对比分支和元分支，它们将NCE损失和二分类损失结合在一起，以增强实例区分能力。同时，我们设计了一个基于MAML的两阶段训练过程，以提高MCN的学习能力。我们的方法优于最先进的方法，并取得了显著的性能提升。据我们所知，这是第一次将对比自监督视频学习与元学习相结合。我们也希望我们的工作能够激发更多对这个领域感兴趣的研究人员。982470参考文献0[1] Humam Alwassel, Dhruv Mahajan, Bruno Korbar, LorenzoTorresani, Bernard Ghanem和Du Tran.通过跨模态音视频聚类进行自监督学习.arXiv预印本arXiv:1911.12667, 2019. 60[2] Sagie Benaim, Ariel Ephrat, Oran Lang, Inbar Mosseri,William T Freeman, Michael Rubinstein, Michal Irani和TaliDekel. Speednet: 学习视频中的速度.在IEEE/CVF计算机视觉和模式识别会议论文集中,页码9922-9931, 2020. 2, 5, 70[3] Uta Buchler, Biagio Brattoli和Bjorn Ommer.通过深度强化学习改进时空自监督.在欧洲计算机视觉会议(ECCV)论文集中, 页码770-786, 2018. 70[4] Joao Carreira和Andrew Zisserman. Quo vadis,动作识别？一种新模型和Kinetics数据集.在IEEE计算机视觉和模式识别会议论文集中, 页码6299-6308,2017. 10[5] Ting Chen, Simon Kornblith, MohammadNorouzi和Geoffrey Hinton.对视觉表示进行对比学习的简单框架. 在国际机器学习会议中,页码1597-1607. PMLR, 2020. 1, 20[6] Carl Doersch, Abhinav Gupta和Alexei A Efros.通过上下文预测进行无监督视觉表示学习.在IEEE国际计算机视觉会议论文集中, 页码1422-1430, 2015. 20[7] Christoph Feichtenhofer, Haoqi Fan, JitendraMalik和Kaiming He. 用于视频识别的Slowfast网络.在IEEE/CVF国际计算机视觉会议论文集中, 页码6202-6211, 2019.10[8] Christoph Feichtenhofer, Axel Pinz和Andrew Zisserman.用于视频动作识别的卷积双流网络融合.在IEEE计算机视觉和模式识别会议论文集中, 页码1933-1941,2016. 10[9] Basura Fernando, Hakan Bilen, EfstratiosGavves和Stephen Gould.使用奇异样本网络进行自监督视频表示学习.在IEEE计算机视觉和模式识别会议论文集中, 页码3636-3645,2017. 20[10] Chelsea Finn, Pieter Abbeel和Sergey Levine.用于快速适应深度网络的模型无关元学习. 在国际机器学习会议中,页码1126-1135. PMLR, 2017. 20[11] Andreas Geiger, Philip Lenz和Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件.在2012年IEEE计算机视觉和模式识别会议中, 页码3354-3361.IEEE, 2012. 70[12] Spyros Gidaris, Praveer Singh和Nikos Komodakis.通过预测图像旋转进行无监督表示学习.arXiv预印本arXiv:1803.07728, 2018. 20[13] Jianzhu Guo, Xiangyu Zhu, Chenxu Zhao, Dong Cao,Zhen Lei和Stan Z Li. 在未知领域中学习元人脸识别.在IEEE/CVF计算机视觉和模式识别会议论文集中, 页码6163-6172,2020. 20[14] Michael Gutmann和Aapo Hyv¨arinen. 噪声对比估计:一种非标准化统计模型的新估计原则.在第十三届国际人工智能与统计学会议论文集中, 页码297-304.JMLR研讨会和会议论文集, 2010. 1, 30[15] Raia Hadsell, Sumit Chopra和Yann LeCun.通过学习不变映射进行维度降低.在2006年IEEE计算机视觉和模式识别会议(CVPR'06)中, 卷2,页码1735-1742. IEEE, 2006. 10[16] Tengda Han, Weidi Xie, and Andrew Zisserman.通过密集预测编码进行视频表示学习.在IEEE/CVF国际计算机视觉会议论文集中, 页码0-0, 2019. 2, 70[17] Tengda Han，Weidi Xie和AndrewZisserman。记忆增强的密集预测编码用于视频表示学习。arXiv预印本arXiv：2008.01065，2020年。70[18] Tengda Han，Weidi Xie和AndrewZisserman。用于视频表示学习的自我监督协同训练。在Neurips中，2020年。1, 6, 70[19] Kensho Hara，Hirokatsu Kataoka和Yutaka Satoh。时空3DCNN能否重现2DCNN和ImageNet的历史？在IEEE计算机视觉和模式识别会议论文集中，第6546-6555页，2018年。50[20] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie和RossGirshick。动量对比用于无监督的视觉表示学习。在IEEE /CVF计算机视觉和模式识别会议论文集中，第9729-9738页，2020年。1, 20[21] OlivierHenaff。对比预测编码的数据高效图像识别。在机器学习国际会议上，第4182-4192页。PMLR，2020年。1, 20[22] R Devon Hjelm，Alex Fedorov，SamuelLavoie-Marchildon，Karan Grewal，Phil Bachman，AdamTrischler和YoshuaBengio。通过互信息估计和最大化学习深度表示。arXiv预印本arXiv：1808.06670，2018年。10[23] Longlong Jing，Xiaodong Yang，Jingen Liu和YingliTian。通过视频旋转预测进行自我监督时空特征学习。arXiv预印本arXiv：1811.11387，2018年。70[24] Will Kay，Joao Carreira，Karen Simonyan，BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，FabioViola，Tim Green，Trevor Back，PaulNatsev等。动力学人类行为视频数据集。arXiv

下载后可阅读完整内容，剩余1页未读，立即下载