图像和视频的视觉对比学习方法

124 浏览量更新于2023-10-15 收藏 12.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15020Vi 2 CLR: 视觉对比学习的视频和图像0Ali Diba 1，2，Vivek Sharma 5，6，Reza Safdari 2，Dariush Lot� 2，M.Saquib Sar7，01 KU Leuven，2 Sensifai，3 Karlsruhe Institute of Technology，4 Daimler TSS，05 Massachusetts Institute of Technology，6 Harvard Medical School，7 ETH Zurich0摘要0在本文中，我们介绍了一种新颖的自监督视觉表示学习方法，该方法以联合学习的方式理解图像和视频。所提出的神经网络架构和目标旨在获得用于解决视频和图像领域中的视觉识别任务的两个不同的卷积神经网络。我们的方法称为视频/图像视觉对比学习（Vi 2CLR），利用未标记的视频来利用动态和静态视觉线索进行自监督和实例相似性/不相似性学习。Vi 2CLR优化流程包括视觉聚类部分和基于聚类内相似正实例组和来自其他聚类的负实例的表示学习，以及学习视觉聚类及其距离。我们展示了如何通过2D（图像）和3D（视频）CovNet编码器的联合自监督视觉聚类和实例相似性学习来实现如此强大且接近监督学习性能的方法。我们在Kinetics、ImageNet、PascalVOC'07和UCF101等数据集上对该方法进行了广泛评估，并与最先进的自监督方法进行了比较，取得了出色的结果。01. 引言0学习强大且有区分性的表示对于计算机视觉任务中的各种应用非常重要，例如图像分类、目标检测、图像分割、活动识别、视频分类、医学成像以及自然语言处理。最近，无监督或自监督表示学习因其不依赖于手动策划的标签而是利用来自数据本身的监督而受到了很多关注，并且仍然迅速缩小了与监督训练之间的性能差距。最近的最先进方法在很大程度上受到实例[77, 12, 29]或原型[44, 11]的驱动。0判别任务。这些判别方法依赖于两个关键组成部分：(a)对比损失和(b)图像[77, 29, 44, 12, 11]或视频[28, 27,56]增强。对比损失[25]通过将相同标签的样本拉在一起并将不同标签的样本至少按照边界推开来鼓励特征空间中的小距离。当前的对比损失函数采用噪声对比估计器[24]的形式来比较实例（InfoNCE[51]），原型（ProtoNCE[44]），包含具有相同语义标签的样本的实例（UberNCE[28]）或互补视图以及多个实例（多实例InfoNCE[45]）。数据增强或转换可以根据数据类型分为两种类型，即图像和视频。例如，对于图像判别[12]，数据集的每个样本都被视为一个类，并强制使增强版本的相同样本更相似，而对于原型[44,11]，则强制使增强版本的样本更接近原型。数据增强在图像和视频的对比表示学习中起着至关重要的作用。特别是对于图像[12,11]，最流行的增强方法包括颜色转换、几何转换和多裁剪；对于视频[28, 27,56]，随机从同一视频中挖掘剪辑作为正样本，时间上一致的空间增强以及从RGB流/光流数据的不同视图中挖掘互补信息是转换方法。有关详细评论，请参见相关工作中的第2节。0在本文中，我们提出了一种扩展的自监督训练方法，用于同时解决视频和图像的视觉识别任务。我们的贡献名为Vi 2CLR，它是一种同时在视频和图像上优化两个ConvNets的方法，用于视觉对比学习的表示的多任务学习问题。我们通过在一个端到端的学习流程中同时学习动态和静态的视觉线索来实现这一目标。015030Vi 2 CLR提供了将图像/视频数据集中的各种样本聚集在一起的能力，从而提供了变异性和多样性，这是学习表示和提高性能的重要因素。为了学习有效的表示，我们考虑了两个方面：（a）给定聚类中的所有图像或视频实例都被视为正样本，负样本从批次中挖掘，最小化多实例InfoNCE损失；（b）给定聚类中的所有联合图像-视频表示都被强制靠近聚类中心，负样本是其他聚类的中心，最小化我们的中心InfoNCE损失。我们将这个损失命名为CenterNCE。我们通过在下游任务上微调并在几个标准的视频和图像分类基准上评估它们来验证我们基于Vi 2 CLR的2D和3DConvNets的性能。对于3DConvNets，它们在目标动作识别数据集上进行微调，对于2DConvNets，我们使用学习到的特征而不进行微调，并在冻结特征之上使用MLP投影头（即线性分类器）。我们的3DConvNet在三个具有挑战性的动作识别基准数据集UCF101、HMDB51和Kinetics-400上进行评估。实验证明，我们的Vi 2CLR在UCF101（88.9%）、HMDB51（55.7%）和Kinetics-400（71.2%）上取得了最先进的性能，超过了所有当前的视频对比学习方法。我们使用ImageNet线性评估协议评估2D ConvNets。我们还展示了我们的Vi 2CLR在ImageNet上取得了74.6%的top-1准确率，优于SimCLR和SwAV。02. 相关工作0本节讨论自监督图像和视频表示学习。流行的对比学习方法。我们的目标是学习一种表示，在特征空间中，同一类别的样本之间的距离较小，不同类别的样本之间的距离较大，使用对比损失函数[25]可以通过将来自同一类别的样本拉近，将来自不同类别的样本推远来实现这一目标。在这里更相关的是使用对比学习在图像[77、29、44、12、11]和视频[28、27、56]中的研究。记忆库[77、46]方法累积先前计算的实例类别表示，然后使用它来形成正样本和负样本。他们使用噪声对比估计器[24]来比较实例，这是对比学习的一种特殊形式。端到端[81、69、12]方法在当前小批量内生成同一样本的不同表示，取代了记忆库。动量编码器[29]方法使用动量更新的编码器作为动态字典查找来进行编码。0在这项工作中，我们通过将视频和图像的两个ConvNets联合优化，作为一个多任务学习问题，使用聚类目标作为学习的监督，从而实现了视觉对比学习的表示。接下来，下面讨论的各种预训练任务和伪标签策略都是基于对比学习。基于自监督学习的预训练任务。近年来，自监督表示学习越来越受欢迎。这种学习范式通过利用数据内部的结构来获得监督，从而消除了通常昂贵的标注工作的需求。例如，可以通过修复图像、预测图像块、解决拼图谜题、着色、几何变换、学习生成真实图像的准确分布、预测未来的自我中心视频、学习在时间上接近的帧之间的视觉变化的稳定性、识别复杂的长期活动、通过推断一组无序视频的时间顺序来学习等方式来学习图像表示。基于自监督学习的伪标签。基于伪标签的判别性表示学习引起了相当大的关注，因为它消除了通常昂贵的标注工作的需求。例如，一些预训练任务通过将问题作为实例级的非参数分类问题来形成伪标签，通过对每个图像块应用一组随机变换来增强数据，并将其视为唯一的标签。15040� ��0� ��0ℓ ��0ℓ ��0ℓ �� 2� �� 03� �� 0� �0� ��0��0� �0图1. Vi 2 CLR训练流程。我们的方法用于同时学习图像和视频表示的示意图。Vi 2CLR优化利用基于聚类、视频和图像样本的对比损失组合，根据视觉聚类中正负样本的相似性进行优化。fV和fI分别表示视频和图像流的视觉编码器。0使用Exemplar-CNN[18]或使用预先确定的簇数的K-means聚类算法生成伪标签的方法[9]，或者使用自动估计簇数的FINCH聚类算法[58，63]，通过最大化每对类别分配之间的互信息目标来联合优化聚类和表示学习[82，9，58，10，1]，通过将特征与噪声对齐作为目标[7]，或使用基于优化的方法[70]。最后，值得注意的是使用时间连续性或排序作为监督信号的工作。例如，可以通过对帧进行洗牌[47]、找到奇数帧[21]、通过排序距离[61，60]、使用跟踪信息[74，62]、预测视频是向前还是向后流动[54，76]、推断时间顺序[80，64，43]、通过时间一致性[40，41，72，75]获得伪标签。与这些方法相比，我们的工作在范围和技术方法上有很大不同。我们的贡献是一种利用聚类分配作为学习有效视觉和视频表示的监督的方法。据我们所知，Vi 2CLR是第一种同时处理视频和图像识别任务的自监督神经网络，仅使用一种数据源。03. 方法0鉴于深度学习的巨大成功，通过自监督表示学习创建有效的图像或视频表示似乎不再遥不可及。我们的目标是学习体现与图像和视频相关的语义信息的表示。0我们的目标是从未标记的视频中同时学习解决图像和视频识别任务的能力。我们提出了一种同时优化3DConvNet（用于视频）和2DConvNet（用于图像）的方法。此外，我们的方法在多任务学习设置中利用聚类作为表示学习的监督。我们首先在第3.1节中介绍了预备知识。0关于使用InfoNCE的自监督学习，[12]和使用多实例InfoNCE的[28]。最后，在第3.2节中，我们介绍了我们的视频/图像对比学习表示（Vi 2CLR）流程，该流程使用聚类和实例鉴别目标在对比学习设置中。算法1概述了所提出的Vi 2CLR的步骤。请注意，我们的方法在端到端学习中仅使用一个未标记视频源训练了两个训练有素的深度ConvNet模型，一个用于视频（3D ConvNets），一个用于图像（2DConvNets）。03.1. 使用InfoNCE的自监督学习0假设我们有一组未标记的视频剪辑，其中包含N个样本，X= {x1，x2，..，xN}。可以使用InfoNCE[12，28]目标损失函数训练自监督表示神经网络f(.)。InfoNCE的目标作为实例鉴别器，在特征空间中将正样本表示拉近，同时将负样本分开。这种自监督训练网络的方法可以在视频理解的其他任务中使用，如动作识别、视频字幕、检索等。假设查询样本表示为ri = f(xi)，InfoNCE对比损失This section describes the proposed approach to train ourself-supervised Vi2CLR. The Vi2CLR optimization utilizesclustering as supervision for learning an effective visual (2DConvNets) and video (3D ConvNets) representation. Morespeciﬁcally, we train both the video and image data streamtogether via their respective 3D and 2D ConvNets simulta-neously. The training objective is to contrast between mul-tiple positive and negative instances for a given query viacomparing their cluster assignments. The Vi2CLR trainingroutine proceeds in two steps: ﬁrst learning representationand second clustering of samples. Algorithm 1 sketches thesteps of the proposed Vi2CLR. The clusters are constructedfrom joint 2D/3D learned feature representations (discussedlater) to exploit both dynamic and static visual cues. The to-tal objective function is a combination of three contrastivelosses optimizing cluster-based, video and image sample-based contrastive learning to capture higher-level semanticknowledge utilizing global and local similarities and dis-similarities. Figure 1 illustrates our approach.Our Vi2CLR learns two objective functions: fV (.) andfI(.) , where rV = fV (x) and rI = fI(ˆx) refer to the repre-sentation of the 3D ConvNet (video) and 2D ConvNet (im-age) encoder, where x is the video clip and ˆx is an image.n�i=1− logexp (rJi · cs/φs)kj=1 exp (rJi · cj/φj)(3)LVi2CLR = LCenterNCE + LVideoNCE + LImgNCE(4)15050信息归一化互信息损失函数（LInfoNCE）定义如下:0i = 1 - lo0exp(r i ∙ r p/τ) + Σn∈N i exp(r i ∙ r n/τ) (1)0其中r p是正样本特征表示，例如xi是原始样本的增强集合，而N i相反是负样本集合，其中rn是小批量中的负样本表示，τ是温度超参数。多实例信息归一化互信息损失。假设我们有一组多个查询实例的正样本，这里我们解决多实例信息归一化互信息（MIL-NCE）[45]目标损失函数。MIL-NCE的目标与InfoNCE类似，但考虑了P中的一个或多个实际正样本。基于正样本集P和负样本集N，MIL-NCE目标损失函数（L MIL-NCE）定义如下:0本节描述了训练自监督Vi 2 CLR的提出方法。Vi 2CLR优化利用聚类作为学习有效视觉（2D ConvNets）和视频（3DConvNets）表示的监督。更具体地说，我们同时通过各自的3D和2DConvNets训练视频和图像数据流。训练目标是通过比较它们的聚类分配来对给定查询的多个正样本和负样本进行对比。Vi 2CLR训练过程分为两个步骤：首先学习表示，然后对样本进行聚类。算法1概述了提出的Vi 2CLR的步骤。聚类是从联合2D/3D学习的特征表示（稍后讨论）中构建的，以利用动态和静态视觉线索。总目标函数是三个对比损失的组合，优化基于聚类、视频和图像样本的对比学习，以捕捉更高级的语义知识，利用全局和局部的相似性和差异性。图1说明了我们的方法。我们的Vi 2 CLR学习两个目标函数：f V(.)和fI(.)，其中r V = f V(x)和r I = f I(ˆx)分别表示3D ConvNet（视频）和2DConvNet（图像）编码器的表示，其中x是视频剪辑，ˆx是图像。03.2. Vi 2 CLR0由于2DConvNets期望输入图像是二维（空间）的，因此我们从视频剪辑中提取一个帧并将其作为输入传递给2DConvNets。视频剪辑本身（空间+时间维度）形成3DConvNets的输入。形式上，f V：x→r V，r V∈R d 1和fI：ˆx→r I，r I∈R d 2，其中d 1和d2分别表示编码视频和图像嵌入空间的维度。如前所述，我们对联合2D/3D表示进行聚类。为此，在提取视频和图像编码表示之后，我们首先将特征图连接起来，然后将其馈送到非线性层以获得r J∈Rd，其中d表示编码特征维度，我们称之为联合2D/3D表示。在Vi 2CLR训练的每个时期中，我们首先提取整个数据集的特征，形成联合2D/3D表示RJ，然后对特征进行聚类[4,58]以获得聚类分配。有关聚类的更多详细信息，请参见实验部分。CenterNCE损失：联合2D/3D表示还用于计算CenterNCE损失。在为每个实例获得基于联合2D/3D表示的聚类分配之后，我们计算并存储每个聚类的聚类中心。在实际训练中，对于给定的查询样本xi，强制样本更接近于其所属的聚类中心，而负样本是小批量中其他聚类的中心。与[11,44]等对比学习研究的类似精神一样，我们基于聚类中心的CenterNCE损失（LCenterNCE）如下所示:0其中 r J = f V I ( x i )为联合2D/3D表示，n为批量大小，k为数据集中的聚类数，c s 为 x i所属聚类的质心，φ表示每个聚类的集中度估计，以确保学习更平衡的聚类 [ 44]。由于我们可以访问每个样本的聚类分配，我们可以利用基于聚类的有希望的正负样本组进行挖掘。为了学习有效的表示，我们因此考虑使用聚类分配来挖掘正负对，具体来说，对于视频空间（3D）中的 r V = f V ( x )和图像空间（2D）中的 r I = f I (ˆ x )，我们有单独的MIL-NCE目标函数，定义为 L V ideoNCE和 L ImgNCE ，并基于公式 2 。具有两个ConvNet（2DConvNet和3D ConvNet）编码器的Vi 2CLR的总损失函数如下所示：0对于给定聚类中的每个实例，我们随机从同一聚类中挖掘样本RJ = fV I(X)rV = fV (x) rI = fI(ˆx) rJ = fV I(x)LCenterNCE(rJ, C)LVideoNCE(rV , PC,x)LImgNCE(rI, PC,x)LVi2CLR = LCenterNCE + LVideoNCE + LImgNCEendendVi2CLR (Kmeans)64.371.373.7Vi2CLR (FINCH)65.572.974.315060作为正样本对，负样本在训练期间从小批量中的其他聚类中挖掘。请注意，随着训练的进行，每个时期网络获得更强的表示，从而导致挖掘更好的正样本。我们相信，这反过来逐步导致语义上有意义的聚类，从而改善2D和3DConvNet编码器的性能。在编码器训练完成后，我们将它们用于执行各种下游任务，如动作识别和图像分类。0算法1 Vi 2 CLR训练。输入：视频剪辑 X = { x 1 , x 2 , .., xN } ，视频编码器 f V ( x ) ，图像编码器 f I (ˆ x ) 。其中 x为视频剪辑，ˆ x 为 x 的中间帧，当 Not MaxEpoch 时0// 联合2D、3D表示 C = Clustering ( R J )0// 对于批量(X)中的 x 的聚类分配04. 实验0在本节中，我们首先介绍用于Vi 2CLR训练和下游任务（图像和视频）的数据集，然后介绍实现细节。最后，我们将与最先进的自监督方法在图像分类、视频分类和视频检索任务上进行比较。04.1. 数据集0为了训练我们的Vi 2 CLR 2D/3D模型，我们使用了Kinetics-400 [36]训练集，其中包含约250K个最长持续时间为10秒的视频剪辑。对于下游视频识别任务，我们在Kinetics、UCF101 [ 66 ]和HMBD51[ 39 ]上进行基准测试，对于图像识别任务，我们在ImageNetILSVRC-2012 [ 57 ]和Pascal VOC2007 [ 20]数据集上进行基准测试。04.2. Vi 2 CLR实现细节0我们选择ResNet-50和S3D [ 79 ]作为Vi 2 CLR训练的2D和3DConvNet编码器，并用于下游任务。与最近的对比学习方法SimCLR [ 12 ]和CoCLR [ 28]一样，对于两个编码器，我们附加了一个非线性MLP投影头0聚类方法 Epoch #50 Epoch #100 Epoch #2000表1. 聚类对Vi 2CLR的影响。在ImageNet上使用ResNet-50训练的冻结权重和单个分类层的线性图像分类任务的Top-1准确率。0方法 ImageNet VOC070有监督 76.5 87.50Jigsaw [49] 45.7 64.9 Colorization [84] 39.655.6 BigBiGAN [17] 56.6 - MoCo [29] 60.6 79.2PIRL [46] 63.6 81.1 SeLa [82] 61.5 - CPCv2 [30]65.9 - SimCLR [12] 61.9 - SimCLR [12] 69.3 -PCL [44] 67.6 85.4 MoCov2 [13] 71.1 - SwAV[11] 74.2 88.90Vi 2 CLR 74.6 89.40表2.在ImageNet上的线性分类。使用冻结权重和单个分类层在ImageNet上训练的线性分类任务的top-1准确率。所有方法都使用ResNet-50作为主干架构，参数量为2400万。0方法 k=1 k=2 k=4 k=8 k=160有监督 54.3 67.8 73.9 79.6 82.30Jigsaw [49] 26.5 31.1 40.0 46.7 51.8 SimCLR [12]32.7 43.1 52.5 61.0 67.1 MoCo [29] 31.4 42.0 49.560.0 65.9 PCL [44] 47.9 59.6 66.2 74.5 78.30Vi 2 CLR 49.1 62.2 68.4 76.8 80.60表3. 在PascalVOC07数据集上使用线性SVM进行少样本分类。所有比较的方法都使用在ImageNet上预训练的ResNet-50进行特征提取。0128维（即d1 = 128和d2 =128）。两个编码器的拼接输出被送入另一个128维的MLP投影头（即d =128），从而得到用于计算CenterNCE损失的联合2D/3D表示。我们在下游任务评估中删除了2D/3D编码器的MLP投影头，与SimCLR [12]中的做法相同。对于Vi 2 CLR 3DConvNet训练，我们将视频剪辑的空间分辨率调整为128×128，其中我们提取视频剪辑的中间帧作为2DConvNet的输入。请注意，虽然可以使用视频剪辑中的随机帧作为2D输入，但我们经验上发现选择中间帧可以获得更好的结果。15070方法学习方法 #训练轮数 1%标记图像 10%标记图像0top-1 top-5 top-1 top-50有监督 - - 25.4 48.4 56.4 80.40UDA [78] 标签传播 - - - 68.8 88.5 FixMatch [65] 标签传播 - - - 71.5 89.10伪标签 [83] 半监督 - - - 51.6 82.4 S4L样本 [83] 半监督 - - - 47.0 83.7 S4L旋转 [83] 半监督 - - - 53.4 83.80PIRL [46] 自监督 800 30.7 57.2 60.4 83.8 Jigsaw [49] 自监督 90 - - 45.3 79.3 SimCLR [12] 自监督 200 - - 56.582.7 MoCo [29] 自监督 200 - - 56.9 83.0 PCL [44] 自监督 200 - - 75.3 85.6 SwAV [11] 自监督 800 53.9 78.570.2 89.9 SwAV [11] 自监督 300 52.7 77.0 68.9 88.7 Vi 2 CLR 自监督 300 53.3 77.8 69.7 89.10表4. 在ImageNet上的半监督学习。我们展示了在1%或10%标记数据上微调时，在ImageNet验证集上的top-1和top-5准确率结果。0从视频中间帧开始，可以获得更好的性能。我们通过随机裁剪、高斯模糊和颜色抖动来进行时间上连续的空间增强。此外，我们还通过从同一视频中随机裁剪32帧作为正样本来进行随机时间裁剪。我们使用每个GPU上64个批次的Vi 2CLR进行300个epoch的训练。我们使用8个V10032GB的GPU进行模型训练。对于线性分类实验，我们在两种设置上都对图像和视频编码器进行了100个epoch的训练：（1）冻结权重，（2）完全微调。我们使用Adam优化器，权重衰减为0.0001，初始学习率为0.01，每100个epoch减小10倍。对于所有实验，温度参数设置为0.08。04.3. 聚类对Vi 2 CLR的影响0作为我们核心方法的一部分，我们采用最近提出的FINCH算法[58]从聚类中获取弱标签。FINCH属于层次聚类算法家族，可以自动发现有意义的分区，而无需超参数（如聚类数K）。相比之下，现有的基于自监督聚类的方法（如[44，9，10]）需要手动指定聚类数。此外，FINCH在早期分区提供具有非常高纯度的聚类；它是一种计算复杂度为O（Nlog（N））的快速和可扩展的算法。根据[63，59]中给出的建议，我们使用第二个分区的聚类来挖掘聚类分配，因为这个分区增加了多样性，而不会影响标签的质量。在表1中，我们展示了使用冻结权重进行线性分类任务的结果，仅使用单个线性分类器。0底层使用ImageNet数据集上的交叉熵损失进行训练。作为FINCH的替代方案，我们还使用K-means[4]作为基准来获取聚类。注意，K-means需要先验知识，如聚类数量。为了进行公平的实证比较，我们使用FINCH估计的聚类K作为输入传递给K-means。我们可以观察到FINCH不仅自动发现了数据的有意义的分区，而且相比于K-means获得了更高的性能。我们观察到FINCH在我们的训练设置中提供了10K-15K个聚类。04.4. 图像分类0线性分类。我们评估了使用Vi 2CLR训练的ResNet-50的学习表示。在这个评估中，我们按照[12, 44]的相同设置，在ImageNet和PascalVOC2007数据集上使用冻结权重和仅训练一个线性层的交叉熵损失进行线性分类任务。在表2中，我们报告了结果。Vi 2CLR在所有使用ResNet-50模型且预训练时长不超过300个epoch的自监督方法中，获得了最高的单裁剪top-1准确率。0Few shot分类。在这个评估中，我们使用通过Vi 2CLR训练的2DConvNet编码器的学习表示来进行少样本类别的目标分类。按照[23]的相同设置，我们使用PASCAL VOC2007[20]上的固定表示训练线性SVM，并报告5次运行的平均结果。在表3中，我们展示了结果。可以观察到15080方法 UCF HMDB0R@1 R@5 R@10 R@20 R@1 R@5 R@10 R@200Jigsaw [49] 19.7 28.5 33.5 40.0 - - - - OPN [43] 19.9 28.7 34.0 40.6 - - - - Buchler [8] 25.7 36.2 42.2 49.2 - - -- VCOP [80] 14.1 30.3 40.4 51.1 7.6 22.9 34.4 48.8 MemDPC [27] 20.2 40.4 52.4 64.7 7.7 25.7 40.6 57.7CoCLR-RGB [28] 53.3 69.4 76.6 82.0 23.2 43.2 53.5 65.50Vi 2 CLR 55.4 70.9 78.3 83.6 24.6 45.1 54.9 67.60表5. 视频检索。在UCF101和HMDB51上，Vi 2CLR与最先进的最近邻视频检索方法进行比较。给定查询测试片段，我们的目标是使用召回率k（R@k）指标找到来自同一类别的训练片段。0方法 ImageNet VOC’07 UCF101 HMDB510Vi 2 CLR- L ImgNCE 71.2 86.1 - - Vi 2 CLR- LVideoNCE - - 86.6 51.2 Vi 2 CLR- L CenterNCE 72.788 87.8 53.40Vi 2 CLR-Full 74.6 89.4 89.1 55.70表6. 使用不同对比目标函数训练Vi 2 CLR的性能比较0Vi 2 CLR在很大程度上优于MoCo [29]，PCL[44]，SimCLR [12]。0半监督分类。在这个评估中，我们使用通过Vi 2CLR训练的2DConvNet编码器的学习表示，在ImageNet训练数据的随机选择子集（1%或10%）上对整个编码器和一个线性分类层进行微调。我们按照[46]的相同设置。在表4中，我们展示了在ImageNet验证集上的top-1和top-5准确率结果。我们的方法在自监督学习和半监督学习方法上都明显优于先前的最先进方法。04.5. 视频检索和分类0视频检索。在这个评估中，我们使用通过Vi 2 CLR训练的3DConvNet编码器S3D在视频检索下游任务上的学习表示。对于检索任务，我们直接评估提取的表示是否能够在没有进一步训练的情况下进行最近邻（NN）检索。我们采用了[47]的设置，并测试查询（测试集）片段和图库集（训练集）中最近邻是否属于同一类别。性能使用召回率k（R@k）进行衡量。在表5中，我们展示了结果。我们展示了使用Vi 2CLR学习的更好表示有助于获得有效的视频检索。0视频分类。对于视频分类评估，我们使用通过Vi 2 CLR训练的3DConvNet编码器的学习表示进行视频分类下游任务。我们考虑两种设置，(a)整个编码器的权重被冻结，只训练一个线性分类层，(b)整个编码器和一个线性分类层进行微调。分类层使用交叉熵损失在目标数据集UCF101、HMDB51和Kinetics-400上进行训练。在表7中，我们展示了我们的方法与最新的自监督动作分类方法在这些数据集上的比较。我们可以观察到，我们通过Vi 2CLR训练的S3D模型超过并取得了比使用其他数据模态如光流[28]、多模态信息的方法更好的结果。还有一些来自ELO[55]或XDC [1]的结果，它们使用的数据集如Youtube8M和IG65M比我们使用的Kinetics数据集大100-150倍。0我们研究了Vi 2CLR的每个目标函数对视频和图像流的影响，以展示Vi 2CLR整个训练设置的有效性。由于我们的方法是使用三个不同的目标函数进行训练的，我们分别在下游任务上展示了每个目标函数的性能。因此，我们需要在三个不同的设置下训练模型；只训练图像和视频的联合训练，只训练图像流，只训练视频流。对于这三种设置，我们利用聚类和实例聚类分配，并且对于后两种设置，我们还使用正负对进行采样来计算损失。对于联合训练，我们在联合2D/3D嵌入上进行聚类，而在训练视频或图像流编码器时，我们在每个流的嵌入上进行聚类，如第3.2节所述。对于单流训练设置，用于下游任务的相应数据集是ImageNet和PascalVOC2007用于图像流训练；UCF101和HMDB51用于视频流训练。在表6中，我们将完整的Vi 2CLR训练总损失与每个目标函数在相应的下游任务上进行了比较。可以观察到，在所有情况下，完整的Vi 2函数进行训练取得了更好的结果。04.6. 消融研究0S3D [ 79 ] Kinetics-400 S3D 224 监督 96.8 75.9 74.7R(2+1)D [15]Kinetics-4003D ResNet-50224Supervised96.874.574.3CBT [68]Kinetics-600S3D112✓54.029.5-MemDPC [27]Kinetics-400R-2D3D224✓54.130.5-MIL-NCE [45]HTMS3D224-✓82.753.1-XDC [1]IG65MR(2+1)D224✓85.356.0-ELO [55]Youtube8MR(2+1)D224✓-64.5-CoCLR [28]UCFS3D128✓70.239.1-CoCLR [28]Kinetics-400S3D128✓74.546.1-Vi2CLRUCFS3D128✓70.839.6-Vi2CLRKinetics-400S3D128✓75.447.363.4OPN [43]UCFVGG22759.623.8-3D-RotNet [35]Kinetics-400R3D11262.933.7-ST-Puzzle [37]Kinetics-400R3D22463.933.7-VCOP [80]UCFR(2+1)D11272.430.9-DPC [26]Kinetics-400R-2D3D12875.735.7-CBT [68]Kinetics-400S3D11279.544.6-DynamoNet [15]Kinetics-400STCNet11288.159.9-SpeedNet [6]Kinetics-400S3D-G22481.148.8-MemDPC [27]Kinetics-400R-2D3D22486.154.5-AVTS [38]Kinetics-400I3D22483.753.0-XDC [1]Kinetics-400R(2+1)D22484.247.1-XDC [1]IG65MR(2+1)D22494.267.4-GDT [53]Kinetics-400R(2+1)D11289.360.0-MIL-NCE [45]HTMS3D22491.361.0-ELO [55]Youtube8MR(2+1)D22493.867.4-CVRL [56]Kinetics-400R3D-5022492.266.770.4CoCLR [28]UCFS3D12881.452.1-CoCLR [28]Kinetics-400S3D12887.954.6-Vi2CLRUCFS3D12882.852.9-Vi2CLRKinetics-400S3D12889.155.771.215090方法训练数据集 ConvNet 架构输入分辨率权重冻结 UCF101 HMDB51 Kinetics-4000R(2+1)D [ 15 ] Kinetics-400 3D ResNet-50 224 监督 96.8 74.5 74.30DynamoNet [ 15 ] Kinetics-400 STCNet 112 监督 97.8 76.8 77.90表7. 视频分类. 自监督方法的比较. 所有方法（除了Weight Frozen:Supervised）都是通过自监督方法进行训练，然后在UCF101、HMDB51和Kinetics-400上进行微调。 �表示编码器权重被冻结并训练分类层， � 表示整个编码器和分类层都进行微调。0单一目标函数。我们相信联合训练视频/图像编码器和聚类学习优化了对比目标，从而学习到了强大而有效的视觉表示。05. 结论0最近，对比学习技术等自监督学习方法在与监督流程相比取得了实质性进展。社区也见证了自监督工作对迁移学习的巨大影响。在这项工作中，我们提出了一种用于视频和图像的联合自监督对比视觉表示学习方法(Vi 2CLR)。该方法通过动态和静态视觉线索提供了一种互补的学习过程，用于学习语义聚类并找到相似性。0在表示空间中，Vi 2CLR广泛展示了不同的视觉理解ConvNets如何从强大和有区别性的特征表示和预训练阶段中受益，用于视频动作识别、视频检索、图像和物体分类等下游任务。对所提出方法的广泛评估证明了在视频和图像的自监督学习领域中的最先进性能。0参考文献0[1] Humam Alwassel, Dhruv Mahajan, Lorenzo Torresani,Bernard Ghanem和Du Tran.通过跨模态音频-视频聚类进行自监督学习.arXiv预印本arXiv:1911.12667, 2019年.0[2] Relja Arandjelovic和Andrew Zisserman. 看、听和学习.在IEEE国际计算机视觉会议论文集中, 页码

下载后可阅读完整内容，剩余1页未读，立即下载