基于聚类的视频自监督对比学习方法：SLIC

3 浏览量更新于2023-10-25 收藏 948KB PDF 举报

自监督学习

标签生成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16091SLIC：用于人类动作视频的迭代聚类自监督学习Salar Hosseini Khorasgani* Yuxuan Chen* Florian Shkurti多伦多{salar.hosseinikhorasgani，yuxuansherry.chen}@ mail.utoronto.ca，florian@cs.toronto.edu摘要自监督方法已经大大缩小了与图像分类的端到端监督学习的差距[13，24]。然而，在人类动作视频的情况下，外观和运动都是变化的重要因素，这种差距仍然很大[28，58]。其中一个关键原因是，对相似视频片段进行采样是许多自监督对比学习方法的必要步骤，目前是保守地进行的，以避免误报。一个典型的假设是，类似的剪辑只发生在时间上接近在一个单一的视频，导致运动相似性的例子不足。为了缓解这一问题，我们提出了SLIC，这是一种基于聚类的人类动作视频自监督对比学习方法。我们的主要贡献是，我们改进了传统的视频内正采样使用迭代聚类组相似的视频实例。这使得我们的方法能够利用来自聚类分配的伪标签来采样更硬的阳性和阴性。SLIC在UCF 101上的前1名召回率方面比最先进的视频检索基线高出+15.4%通过对动作分类的端到端微调，SLIC在UCF 101上实现了83.2%的top-1准确率（+0.8%），在HMDB 51上实现了54.5%（+1.6%）。SLIC也是在Kinetics400上进行自我监督预训练后，在动作分类方面与最先进的技术竞争1. 介绍自我监督任务已经成为图像分类，检索和其他下游任务的有效它们也被证明在许多设置中优于端到端的监督学习[13，34]。在许多自我监督方法中的一个关键假设是，在给定查询的情况下，通过采样或生成相似和不相似的数据来进行实例区分的能力虽然这是训练图像表示的合理假设*两位作者对本文的贡献相等。图1. SLIC在UCF 101上预训练后的最近邻检索结果最左边的一列是来自UCF 101测试集的查询视频右边是UCF 101中训练集的前5个最近邻。不正确的检索结果以红色突出显示。例如，通过增强生成相似数据和通过随机采样生成不相似数据，在视频表示的情况下变得更具挑战性，因为我们需要考虑基于运动以及基于外观的相似性。不同的剪辑可能具有不同的外观和相同的运动（例如，在不同的位置跑步），或者具有相似的外观但具有不同的运动（例如，以绿色场地作为背景打板球或高尔夫球）。在实例判别中，我们保守地对正视频实例进行采样，通常通过假设它们仅在单个视频内时间上接近地发生，并且从不同视频中随机地对负视频进行采样。尽管一些方法试图通过使用额外的视图对更硬的正样本进行采样来改善实例区分，但视频表示的自监督预训练仍然不如完全监督预训练有效（当对下游类进行评估16092仅使用视觉输入的信息化）[28，52，58]。为了减轻这种情况，我们提出了SLIC，一种视频的自监督学习方法SLIC在周期性地聚类视频表示以产生伪标签和使用那些伪标签来通知正和负对的采样以通过最小化三重边际损失来SLIC还将迭代聚类与多视图编码和时间鉴别损失相结合，以学习视图不变嵌入和细粒度运动特征，以便区分由时间维度产生的相似性的附加方面。图2显示了我们的方法的概述。我们的主要贡献是两方面的。首先，我们表明，迭代聚类显着改善了传统的实例歧视在视频表示的自监督学习虽然这已经为图像表示建立了[8，9]，但尚未仔细检查视频。我们的方法是第一个利用高效的迭代聚类进行视频表示的方法，特别是用于对对比学习的较硬的阳性和阴性进行其次，我们将迭代聚类与多视图编码和时间区分损失相结合，以在预训练期间对我们证明，这些组件的相互作用，这还没有仔细检查以前的方法，是有益的。我们的实验表明，SLIC实现了最先进的视频检索结果（+15。UCF 101和+5的前1名召回率提高4%。7%，如表1所示），以及在UCF 101上预训练时的动作分类。当对动作分类进行端到端微调时，我们观察到预训练而不是使用随机初始化权重（约UCF 101和HMDB 51的top-1准确度均为+24%，如表2所示）。我们通过额外的实验证明，所有三个组件（即迭代集群-ING、多视图编码和时间辨别损失）彼此互补，并且在组合时导致更大的性能改进。我们评估了消融研究中每个组件的单独贡献，并确定迭代聚类和多视图编码是SLIC的主要影响因素（如表3所示）。2. 相关工作用于自我监督的借口任务和损失：过去已经使用了几个借口任务来为基于图像的自我监督提供训练信号，包括预测图像块相对于第一个图像块的位置[17]，用混洗的图像块解决拼图[40]，执行着色[18，54，65]，缺失像素的修复[42]，或预测图像旋转[23]。在视频数据的情况下，这些任务可以扩展到包括预测视频的混洗帧中的时间方向[57]，以及预测视频的回放速率[6，56，62]。我们所提出的方法不依赖于任何这些借口任务。上面提到的许多任务都被对比学习方法所取代，使用三重丢失[45]，多类N对损失[49]，以及噪声对比的变体估计[25，26，31，41，44，53，61]，其中任务是区分噪声和观测数据。特别是，[26，44]尝试使用先前的帧循环预测未来帧的表示，然后训练网络将预测的表示与地面真实表示和干扰项池此外，[46]使用三重丢失来吸引来自多个视频的图像，这些视频同时记录相同观测的不同视点。此外，[24]表明，在图像分类中，不需要否定来实现与自监督对比方法虽然我们用对比损失进行了实验[13，14，28，53]，但我们观察到迭代聚类在视频检索准确性方面的性能较低，因此我们的方法依赖于两个三元组损失。基于聚类的自我监督：使用聚类作为自我监督中预训练过程的一部分已经在多个先前的工作中进行了研究。例如，Clus- terFit [60]使用K-means对预训练的CNN计算的特征进行聚类，然后使用所得的聚类分配作为伪标签来训练新网络，这表明在传输任务中有显着的改进。我们的方法在两个方面有所不同：（a）我们不依赖于预训练的CNN来获得聚类特征，而是使用迭代聚类步骤，图3显示了减少误报的方法，以及（b）我们不依赖于K-means，因此我们不需要预先指定K。DeepCluster [8，9]表明，通过K-means使用迭代聚类的想法在大规模图像分类中带来了显着的我们的想法也类似于原型对比学习（PCL）[37]，它学习集群原型并在期望最大化循环中优化InfoNCE损失[53PCL与我们的工作不同之处在于，它只处理图像分类，并且使用与我们在这里使用的不同的对比学习值得一提的是，[32]提出了一种神经聚类方法，该方法不计算聚类中心，因此不需要预定义的距离度量或聚类数量。类似地，[10，63]使用最佳传输求解器和对比学习目标优化聚类，但仅解决图像分类并需要已知数量的标签，而我们的方法则不需要。我们的方法也与[47]相似，它对人脸表示进行聚类，但区别在于我们不对来自任何预训练网络的特征进行聚类，而是逐步更新用于聚类的特征。多模式和多视角自我监督：多种自我监督模式已被用于不同的16093我我我J我J我J图2.概述了所提出的具有迭代聚类框架的自监督学习（SLIC）。我们使用深度3D CNN提取特征，并在特征空间中每k个epoch进行聚类以获得聚类分配。聚类分配被用作伪标签，以采样阳性和阴性以进行三重学习。存在用其对应的光流视图替换正（RGB视图）的固定概率数据的观点例如音频和视频[2特别是，[3，5]依赖于音频和视觉输入来产生交叉熵分类的聚类分配（预先指定的聚类数量）。相比之下，我们的方法只使用视觉输入。基于RGB视频和光流的联合训练在Cochem [28]中进行了测试，这是视频表示的最佳方法之一[44]也采用了一个多视图的训练方案，类似于CONDITION[28]，通过确保不同视图的嵌入，如流量，分割掩模和姿态是一致的，相同片段之间的距离。从视频中识别动作：视频动作识别的监督学习的主要方法依赖于3D-CNN架构[21，30，52]，该架构假设单个流网络[20，52，58]或多流网络（例如RGB和光流输入的单独流）[16，21，22，48，66]。我们的方法属于前一类，因为我们使用一个共享的编码器网络来处理RGB和光流输入。3. 方法我们的目标是以自我监督的方式从视频中学习特征表示提出了一种基于迭代建议架构的核心元素包括：视图（使用单个编码器）。伪代码在附录部分D的算法1中给出。3.1. 迭代聚类为了生成训练集的伪标签，我们采用FINCH [39]算法从聚类视频嵌入中获得伪标签FINCH通过链接每个样本的第一相邻关系来发现数据中的分组，因此不需要任何数据分布的先验知识。与其他聚类方法（如K-means和DBSCAN [19]）相比，FINCH更适合我们的任务，因为它不涉及任何超参数调整或聚类数量的预先指定，并且在处理大型数据集时速度要快得多。FINCH使用余弦距离度量来计算特征空间中的每个视频实例xi的第一邻居k1例如，k1=j意味着x j是x i的第一个邻居。然后，它通过等式1生成邻接链接矩阵A（i，j）。1，如果j=k1或k1=i或k1=k10，否则邻接矩阵通过j=κ1将每个视频实例xi链接到其第一邻居，通过i=κ1强制对称，并且链接共享公共第一邻接矩阵的视频实例。k1=k1的邻居聚类是通过递归执行的I jing：i）使用三元组余量损失执行梯度更新，以及（ii）从对样本三元组的聚类分配中获取伪标签我们采用两个损失函数来优化编码器：基于实例的三重损失和时间鉴别损失。此外，我们鼓励聚类发现基于运动的相似性，通过将RGB和光流的多视图编码- 以分层方式合并从邻接矩阵A（i，j）获得的连接分量。FINCH聚类算法的输出是一个小层次的分区，这些分区以不同的粒度级别捕获底层数据结构中的分组，其中每个连续的分区是前面分区的超集。分区1是经由等式1生成的数据的平坦分区，等式1A（i，j）=（一）.16094联系我们--我·--·我···JiiH（{y}）H（{y}）由大量高纯度的小团簇组成。由于它是具有最高纯度的分区，并且为了减少采样假阳性的可能性，我们使用来自第一个分区的聚类标签来为正挖掘和负挖掘提供SLIC在每k个时期的训练期间周期性地在特征空间中执行FINCH聚类在应用FINCH之后，我们从第一分区P1更新伪标签集y=i，其中y=i1，2，.，C P1 ，而CP1是总的分区P1中生成的簇的数量。作为一种改变-本地FINCH，我们也用K-means和球形K均值作为基线（具有不同的K值在第4.5节中，我们证明了当使用足够多的聚类时，K均值和球形K均值这两个剪辑在对象和场景方面具有有限的多样性，因为它们是从相同的视频中采样的。因此，期望使用来自相同语义类的不同视频然而，由于在训练的早期阶段聚类质量的不稳定性，我们可能会采样到假阳性（即，从同一聚类中采样但属于不同语义类的阳性），这可能对训练不利。因此，我们利用这两种方法，从同一个实例中以概率pα和概率为（1 −pα）的不同实例：x+=αx++（1−α）x+，α<$Bernoulli（pα）（4）其中，x+是来自与锚点xi相同的视频实例的采样的增强剪辑，并且x+是来自与锚点xi相同的视频实例的采样的增强剪辑。结果与FINCH的性能相当，但更高的计算成本。我们量化了聚类从不同实例剪辑，x集群作为Jj，属于同一个通过计算由聚类生成的伪标签之间的算法{y}和地面真值标签{y}。Xi. pα是一个超参数，它决定了从同一个实例或同一个集群内的不同实例中采样阳性样本的我我NMI（{yi}，{y}）=I（{yi}，{yi}）我我（二）多视角的积极因素。我们将来自两个不同视图的视频数据表示为x和view（x）。对于我们的方法，光流被用作除了RGB之外的第二视图，以鼓励-年龄学习运动为基础的功能。我们使用共享编码器其中I（，）和H（）分别是互信息和熵我们在4.4节中展示了聚类质量在整个训练过程中得到了提高。3.2. 基于实例的三重丢失我们采用了三重边际损失，并将其与从聚类中获得的伪标签结合使用，这使我们能够在训练过程中对更难的阳性和阴性样本进行采样。让数据集表示为具有N个视频的D即D=x1，x2，...，目标是学习编码器f θ（），其强制两个相似视频片段之间的距离比不相似视频片段之间的距离更近。在特征空间中。给定一个由锚x，n ∈x+，n ∈g at i∈x− 组成的三元组，我们想计算f θ（）来最大化x和x−之间的距离，同时最小化x和x+之间的距离，即d （ fθ （ x ）， fθ （ x− ）） >d （ fθ （ x ）， fθ（x+）），其中d（·）是共-正弦距离d（f1，f2）=1−f1·f2-是的三重马金酒以处理两个输入视图，从而以更少的内存消耗实现更快的推理速度。为了学习视图不变嵌入，特征fθ（x）和fθ（view（x+））应该在嵌入空间中彼此接近，因为特征是从相似的视频中提取的。因此，我们对原始RGB剪辑x+进行采样，作为具有概率pβ，或者用概率为（1 − p β）的另一个视图（x+）替换RGB剪辑。这是写为：x+=βx++ （ 1−β ） view （ x+ ）， β<$Bernoulli（pβ）（5）负面挖矿大多数先前的工作[15，28，43，51]随机选择大量的否定用于对比实例辨别，其中最容易的95%的否定对训练没有贡献，最难的0.1%通常是类内否定[7]。简单否定词比肯定词离锚点更远，这将评估为零的损失，而类内否定词是指属于与an相同语义类损失的定义如下：100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000016095这可能对训练不利。另一方面，硬底片比正底片更接近锚点Ltriplet（x，x+，x−;θ，m1）=max （ 0 ， d （ fθ （ x ）， fθ （ x+ ）） −d （ fθ（x），fθ（x−））+m1）（三）其中，m1是在锚正距离对和锚负距离对之间实施裕度的超参数积极挖矿。设xi和x j是从数据集D中采样的两个不同的实例，其中xi是锚，x j与xi属于同一个聚类。许多先前的作品[15，43，51]将阳性和锚点作为来自同一视频的两个非重叠片段进行采样，这被称为实例区分。虽然增加的方式不同，和 sat i sfyd （ fθ （ x ）， fθ （ x− ））

下载后可阅读完整内容，剩余1页未读，立即下载