通过多层次特征优化增强自我监督视频表示学习

200 浏览量更新于2023-10-16 收藏 13.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

79900通过多层次特征优化增强自我监督视频表示学习0Rui Qian 1，Yuxi Li 1,2，Huabin Liu 1，John See 3，Shuangrui Ding 1，Xian Liu 4，Dian Li 5，Weiyao Lin 1*01 上海交通大学，2 腾讯优图实验室，3 Heriot-Watt大学，4 浙江大学，5 腾讯PCG {qrui9911,huabinliu,dsr1212,wylin } @sjtu.edu.cn { yukiyxli,goodli }@tencent.com,j.see@hw.ac.uk,alvinliu@zju.edu.cn0摘要0自我监督视频表示学习的关键是从未标记的视频中构建通用特征。然而，最近的研究主要集中在高级语义上，忽视了低级表示及其时间关系，而这对于通用视频理解至关重要。为了解决这些挑战，本文提出了一个多层次特征优化框架，以提高学习到的视频表示的泛化能力和时间建模能力。具体而言，利用从朴素和典型对比学习中获得的高级特征构建分布图，引导低级和中级特征学习的过程。我们还设计了一个简单的多层次特征的时间建模模块，以增强运动模式学习。实验证明，具有图约束和时间建模的多层次特征优化可以极大地提高视频理解中的表示能力。代码可在此处获得。01. 引言0视频表示学习一直是计算机视觉中的一个基本问题，用于解决一系列视频分析任务，例如动作识别和检测[11, 72, 7, 18,39, 79]，视频检索[40, 45]，视频字幕[60,48]等。为了解决这个问题，一些大规模的人工标注数据集，例如Kinetics[11]，ActivityNet[7]，YouTube-8M[1]，被开发出来以促进特定下游任务中的视频理解。然而，对视频进行人工标注是昂贵的，完全监督的方法无法利用大量未标记的视频数据。因此，开发无监督的视频表示学习方法，而不依赖于手动标注，具有重要意义。0*通讯作者。邮箱：wylin@sjtu.edu.cn0(a)0(b)0(c)0(d)0图1.四种条件的图形表示。节点表示不同的样本，边表示样本之间的关系，不同的颜色表示不同的特征，例如外观、运动和语义。图1(a)在InfoNCE损失中的一个独热标签，我们使用自环仅表示将其增强视图视为正样本的实例。图1(b)表示实例级别的相似性分布，通过嵌入空间中的余弦相似度进行测量。我们使用箭头来显示相似度超过阈值的样本。图1(c)表示语义级别的分布，我们连接相同类别的样本。图1(d)表示前两者的交集形成的综合分布。请注意，为了简洁起见，我们在后三个图中省略了自环。0为了实现这个目标，早期的研究设计了各种预训练任务，从视频序列中揭示有效的监督信号。最近，对比学习在图像表示学习中显示出了强大的能力。它通过利用实例区分来吸引相同实例的增强样本，并排斥不同实例的增强样本，从而鼓励不受增强影响的表示。随后，除了朴素的实例区分，证明了图像之间的关系和语义结构对于学习高质量的表示是有帮助的。为了将这个流程扩展到视频领域，提出了多样的时空增强技术来构建对比对并增强运动建模。一些工作使用对比学习来形成时间循环或进行未来预测，以提升密集时空特征建模。01.由于归一化，实例间的相似性分布是非对称的，它是一个有向图。79910然而，这些工作存在明显的局限性。首先，以前的工作只探索了实例间或语义间的分布，缺乏对两方面的综合性视角。其次，对于低层次特征，付出的努力比高层次表示要少，而前者被证明对于知识传递至关重要。第三，直接在输入层面而不是特征层面上执行时间增强（例如，洗牌和翻转）可能会损害特征学习。为了解决这些挑战，我们提出了一个新颖的框架，从统一的多层次视角明确地优化特征，以实现更通用的表示。深度神经网络不同层次的表示具有不同的泛化和抽象特性。具体而言，普遍认为高层次特征对实例或语义更具代表性，但对于跨任务传递的可行性较低。相反，低层次特征更易于传递，但缺乏样本之间的结构信息，并且对于时间统计特别敏感。0从不同的角度来看，这种考虑是特别有意义的。在高层次上，我们从两个方面优化深度表示：1）使用传统的InfoNCE损失进行实例区分；2）使用原型分支进行语义结构建模。通过这种方式，高层次表示可以通过将实例和语义关系都形式化为分布图（如图1所示）来获得样本之间的结构关系。从低层次上来看，这些分布图可以作为可靠的线索，用于聚合具有相似语义和实例特征（例如外观、动作）的样本，以便在多个较浅的特征空间中进行更好的优化。通过这种方式，低层次特征被赋予高层次关系知识，同时保持良好的跨任务泛化能力。0由于低层次表示对输入的时间序列敏感，我们用多层次解决方案取代了以前的数据级时间增强方法，以增强预训练表示的时间建模。首先，我们对多层次特征进行时间增强，构建具有不同运动模式的对比对，目标是区分增强样本和原始样本。其次，提出了一个检索任务，基于语义一致性匹配短时间跨度和长时间跨度的特征。与以前的数据级解决方案相比，我们的方法避免了将骨干模型强制适应不自然的序列，从而破坏了时空统计。实验结果表明，我们提出的简单时间建模方法更加通用，适用于不同的网络骨干，而传统的增强技术在SlowFast等双通道网络中有一定的局限性。0简而言之，我们的贡献可以总结如下：0•我们提出了一个多层次特征优化框架，用于无监督视频表示学习。从高层次特征中学到的实例和语义知识被利用来形成更可靠的自监督信号，用于优化低层次特征分布，从而增强可传递性。0•我们为更强大的时间分析开发了一个简单但有效的时间建模模块，采用多级增强方案。0•我们的方法在两个下游任务（动作识别和视频检索）以及两个数据集（UCF-101和HMDB-51）上实现了最先进的性能。消融研究证明了多层次特征优化以及新的时间建模策略的有效性。02. 相关工作02.1. 对比表示学习0对比学习旨在通过吸引正样本对和排斥负样本对来区分实例[ 20 , 19 , 70]。一系列工作采用了这种方法进行自监督表示学习 [ 28 ,47 , 55 , 12 , 26 , 77]。但是在InfoNCE损失中，单独使用one-hot标签存在一个主要缺点，即它只将查询的增强视为正样本，并将所有其他样本视为等同的负样本。为了解决这个问题，[ 68 , 15]在嵌入空间中使用相似性分布来引导对比学习的另一个视角。此外，[ 69 , 71 , 67 , 21 , 36]证明了不同样本之间的语义关系可以改善高层表示。为了更好地提取未标记数据中的潜在语义，[ 10 , 2 , 3 , 51]利用Sinkhorn-Knopp算法 [ 13]生成均匀分布的聚类作为预训练的伪标签。然而，[ 80]证明仅利用实例区分或语义标签并不是建立可迁移表示的最佳解决方案。因此，我们提出同时考虑实例和语义相似性分布，形成可靠的自监督信号，既保持了学到的实例唯一信息，又过滤掉了困难的负样本。02.2. 多层特征分析0深度神经网络中不同层的特征往往具有不同的属性，例如，低层特征包含更多的物体形状信息，更易于迁移，而高层特征包含更多的纹理线索，更具体地对应某些语义 [ 29 , 83 , 78 , 80 ]。[ 80]证明了从预训练网络到下游任务的主要转移是低层和中层特征。然而，大多数现有的自监督表示学习工作只关注高层特征。虽然[ 73]尝试优化中间特征向量，但没有建立不同层级之间的关系。而在我们的工作中，我们使用从高层特征中推断出的实例和语义分布的联合约束，明确优化低层和中层表示，这显著促进了预训练知识的转移。LNCE = −logh(q, q′)h(q, q′) +Ni=1 h(q, ki),(1)Lins = −N�i=12�a=1logh(z1i , z2i )�Nj=1 h(zai , z∗j),(2)h(zai , z∗j) =� h(z1i , z2i )ifi = jh(zai , z1j) + h(zai , z2j)ifi ̸= j(3)79920更多纹理线索，更具体地对应某些语义 [ 29 , 83 , 78 , 80]。[ 80]证明了从预训练网络到下游任务的主要转移是低层和中层特征。然而，大多数现有的自监督表示学习工作只关注高层特征。虽然[ 73]尝试优化中间特征向量，但没有建立不同层级之间的关系。而在我们的工作中，我们使用从高层特征中推断出的实例和语义分布的联合约束，明确优化低层和中层表示，这显著促进了预训练知识的转移。02.3. 自监督视频表示学习0在自监督视频表示学习中，一系列工作设计了各种预设任务，例如，时间顺序 [ 46 , 74 , 75 ]，时空拼图 [ 33 , 63]，着色 [ 59 ]，播放速度预测 [ 31 , 6 ]和时间循环一致性 [66 , 30 , 37]。一些工作提出从给定序列预测未来帧以学习特征嵌入 [58 , 57 , 43 , 5]。最近，受到对静态图像中对比学习成功的启发，一系列工作将对比学习流程扩展到视频领域 [ 17 , 50 , 44 , 64 , 41]。通常，[ 22 , 23 ]采用InfoNCE损失进行密集未来预测，[34 , 24]在不同域之间进行实例区分以提升视频表示。虽然对比自监督学习有助于更好的表示，但视频中的时间信息没有得到很好的利用。[ 4]揭示了直接在输入序列上应用时间增强甚至会损害性能，因为这些不自然的序列可能会破坏时空统计信息。为了解决这个问题，[ 62 , 61]将静态外观和动态运动信息分离，但需要复杂的训练过程。相反，我们提出了一种简单而有效的操作，将时间增强应用于提取的多层特征。通过这种方式，我们成功地将时间特征嵌入到视频主干中，而不需要网络适应不自然的序列。03. 方法0在本节中，我们介绍了我们提出的多层特征优化框架，如图2所示。具体而言，我们首先对高层表示进行实例和语义区分。接下来，我们开发了实例和语义分布图，为多层特征优化生成可靠的约束。然后，我们提出了一种简单的时间建模方法，以改善不同时间尺度上的时间区分。03.1. 超越实例区分0基于实例区分的最近对比学习方法在自我监督表示学习中表现出优越性能。0监督表示学习，但InfoNCE损失中的独热标签忽略了不同样本之间的关系。具体而言，如公式1所示，0其中h(u, v) = exp(uTv / (τ||u||2||v||2))，其中τ是温度，给定查询q及其增强q'，以及负键列表{k1, k2, ...,kN}，InfoNCE损失仅将查询的增强视图视为正样本，将其他所有样本视为等效的负样本。然而，考虑到现有的对比自我监督学习流程通常需要大量的负样本池，存在一些负样本可能与查询具有相似的特征，例如外观、动作或类别。在这种情况下，更好的实例区分甚至可能导致下游任务的性能下降[56]。为此，除了实例区分，我们还明确在投影的高层特征向量上开发了另一个分支，用于样本间关系建模。数学上，我们将第i个样本和第a个增强视图的投影高层特征向量表示为zai ∈RC，其中C是通道维度。实例区分学习目标可以表示为0在采用两个增强视图的情况下，N是批次中样本的数量。为了进行样本间关系建模，我们借鉴了参数化分类方法[8,36]的思想，通过定义一个可学习的矩阵P ∈RC×K作为原型，用作伪类别中心，其中K是原型的数量1。我们对zai和原型P进行矩阵乘法运算，然后进行softmax回归，得到语义分布pai ∈RK。在没有类别注释的情况下，鼓励不同增强的pi保持一致是直观的，但它缺乏不同语义之间的区分，这可能导致特征空间的坍缩[9]。受到[10, 2,3]的启发（其中聚类被视为最优传输问题），我们采用Sinkhorn-Knopp算法[13]将一组分布{pai, pai, ...,pai}转化为软目标{sa, sa, ..., sa}。0其中sai ∈ RK在类别级别上均匀分布，0每个类别的K个样本。通过这种方式，生成的软目标明确区分不同语义组的样本，并避免了平凡的情况。01K不需要与训练集中的语义类别数量一致，可以设置为一个相对较大的数值，如实验所示。⋮⋮⋮⋮⋮Temporal Modeling Module ℒ�� + ℒ�� ℒ�� ℒ�� ℒ��Proto branch ℒ��𝒢��𝒢��𝒢Stop GradientLow-levelMid-levelHigh-levelFigure 2. An overview of the multi-level feature optimization framework. We perform instance and semantic discrimination on high-levelrepresentations and infer two similarity distribution graphs Gins and Gsem, which are combined into G, a reliable self-supervisory signalto guide low-level and mid-level representation learning. Note that we stop the gradient from back-propagating to the inferred distribution.To exploit multi-level features of different resolutions, we propose a temporal modeling strategy to enhance motion pattern discrimination.lutions. Therefore, we optimize the model by minimizingcross-entropy between the soft targets and probability dis-tributions of different augmentations as in Eq 4:Lsem = −N�i=1K�k=1s1i (k)logp2i (k) + s2i (k)logp1i (k), (4)where two augmentation views are adopted. Consideringthat K could be larger than batch size, we design a queue tostore the semantic-wise distributions from previous batchesto ensure equal partition into K prototypes, but using onlythose from the current batch for gradient back-propagation.Different from previous methods [26, 10, 67], we store theinferred distributions in the queue, which would generallychange slower than feature vectors in the training phase.Therefore, our method could work with small batch sizeswithout requiring a slow-progressing momentum encoder.Finally, we jointly leverage Lins and Lsem to form theself-supervisory objective for high-level representations:Lhigh = Lins + Lsem.(5)This enables the network to simultaneously discriminate theinstances of different characteristics and uncover potentialinstance groups that share similar semantics.3.2. Graph Constraint for Multi-level FeaturesThe instance- and semantic-wise constraints lead to ef-fective high-level representations, but it is worth noting thatit is the lower-level features that mainly transfer from thepretrained network to downstream tasks [80]. Therefore,it is crucial to also pay attention to lower-level represen-tations. However, directly applying either instance or se-mantic discrimination to intermediate layers does not bringimprovement [73, 80], hence it remains a challenge to im-pose reasonable guidance on these features. Since we couldinfer instance- and semantic-wise distributions from high-level features as mentioned in Section 3.1, it is intuitive toproduce an ideal self-supervisory signal by taking these twodistributions into consideration.Particularly, we denote the instance-wise similarity dis-tribution as a directed graph Gins, and semantic-wise distri-bution as an undirected graph Gsem. Both two graphs con-sist of N nodes representing N different samples within abatch, and N ×N edges indicating the relationship betweeneach sample. The detailed formulation of the edges E is:Eins(i, j) =��W(i, j)ifW(i,j)�Nj=1 W(i,j) ≥ η0ifW(i,j)�Nj=1 W(i,j) < η,(6)Esem(i, j) =� 1if argmax(s∗i ) = argmax(s∗j)0if argmax(s∗i ) ̸= argmax(s∗j) ,(7)s.t.W(i, j) =� h(z1i , z2i )ifi = j¯h(z∗i , z∗j)ifi ̸= j,(8)where two augmentation views are adopted as in Sec-¯79930输入视频01/4 � 2m=1 � 2n=1 h(zmi, znj), s�i = s1i + s2i.这样，Eins表示推断的实例级相似性分布，它尊重样本间的关系，比one-hot编码更符合实际数据分布。同时，为了过滤掉在Eins中具有高相似性的困难负样本，我们使用Esem来截断不同伪类别节点之间的边缘。在这种情况下，我们设法全面利用独特的实例级信息和高级语义来生成可靠的低级和中级特征的自我监督。从数学上讲，我们联合利用Gins和Gsem形成组合图G，其边权重E作为最终的(11)Lret = −�tq∈[t1,t2]logh(vs(tq), vl(tq))tk∈[t3,t4] h(vs(tq), vl(tk)). (13)We use three popular video action recognition datasets,Kinetics-400 [11], UCF-101 [53] and HMDB-51 [35]. Forself-supervised pretraining, we use the training set of UCF-101 or Kinetics-400 for fair comparisons. For the down-stream tasks, following [6, 23, 34], we use split 1 of UCF-101 and HMDB-51 for evaluation.79940软目标：0E(i, j) = Eins(i, j) Esem(i, j) � Nk=1 Eins(i, k)Esem(i, k). (9)0然后计算E和推断的相似性分布之间的交叉熵，以优化低级特征，即0Lmul = -0N �0i = 10N �0j = 10a = 1 E(i, j) lo0� Nj=1 h(zrai, zr�j), (10)0其中r表示特征级别（低级或中级），zr是第r级的投影特征向量。通过这个学习目标，我们获得更加鲁棒和有代表性的低级特征，以促进知识传递。03.3. 时间建模0在提出的多层表示优化框架下，利用不同时间尺度的时间信息来增强运动模式建模是直观的，因为不同层次的特征具有不同的时间特征。受先前在视频动作识别方面的工作的启发[65, 81,49]，实现鲁棒的时间建模需要两个方面：1）不同运动模式之间的语义区分；2）在不同时间视图下的语义一致性。因此，我们设计了两个学习目标来实现这一点。0首先，为了进行运动模式区分，我们使用常规的时间变换，例如时间洗牌和时间反转，来增强各种运动模式的样本。然而，由于骨干网络是从头开始学习的，直接在输入数据上应用增强操作会迫使网络适应不自然的序列。我们开发了一种简单而有效的操作，在多层特征fr上执行时间增强，然后利用轻量级运动激发模块[38]提取增强的运动特征表示。导致语义不一致的运动模式的时间变换可以被视为原始样本和InfoNCE损失的负对，即0Laug = -0N �0i = 10a = 1 l0h(ME(fr1i), ME(fr2i)) + negai,0s.t. neg ai =0k = 1 h(ME(frai), ME(Augk(frai))), (12)0其中ME是由[38]中的运动激发模块实现的，后跟时空平均池化和两层多层感知器（MLP），Augk表示第k个时间增强操作。通过这种方式，我们将区分运动模式的能力嵌入到骨干网络中。其次，为了提高不同时间视图下的一致性，我们提出匹配0从不同长度的序列中提取特定时间戳的特征。具体而言，对于覆盖时间戳[t1, t2]的短序列vs和覆盖[t3,t4]的长序列vl，其中t3 < t1 < t2

下载后可阅读完整内容，剩余1页未读，立即下载