自监督学习：视频表示与动作识别、检索新进展

63 浏览量更新于2025-01-16 收藏 1.3MB PDF 举报

"本文主要探讨了自监督视频表示学习，这是一种在没有显式标签的情况下，通过利用视频内在的结构和一致性来学习有效视觉表示的方法。文章提出了两种关键任务，即外观一致性任务和速度一致性任务，以增强视频表示的鲁棒性。通过这两个任务的联合优化，下游任务如动作识别和视频检索的性能得到了显著提升。在UCF-101数据集上，未使用额外模态或负对的无监督预训练模型达到了90.8%的识别准确率，超过了ImageNet监督预训练模型的表现。" 1. 自监督学习的挑战自监督视频表示学习面临着两大挑战：一是缺乏明确的标签进行指导，二是视频中的非结构化和噪声视觉信息。现有的方法通常依赖对比学习，通过区分不同视频剪辑来学习表示，但这种方法需要处理大量的负对，可能导致噪声数据的引入。 2. 表观速度一致性文章的核心发现是表观速度一致性对于学习鲁棒视频表示至关重要。这一概念体现在两个方面：一是外观一致性，即相同视频的不同播放速度下的剪辑应该在视觉上相似；二是速度一致性，即相同播放速度但不同外观的剪辑间应有相似性。 3. 外观一致性任务该任务的目标是最大化同一视频中播放速度不同但内容相同的两个剪辑之间的相似性。通过这种方式，模型可以学习到忽略速度变化而聚焦于本质特征的能力。 4. 速度一致性任务这一任务则旨在最大化具有相同播放速度但外观信息差异的两个剪辑之间的相似性。这样，模型可以学习到在不同环境或条件下的不变性，提高其泛化能力。 5. 联合优化与下游任务性能同时优化这两个任务可以显著提升下游任务，如动作识别和视频检索的性能。这种一致性学习策略减少了不同目标间的冲突，增强了模型的适应性和准确性。 6. 实验结果与贡献在UCF-101数据集上，提出的无监督预训练模型在动作识别任务上取得了90.8%的准确率，超过了使用ImageNet数据集监督预训练的模型。这表明自监督学习在视频表示领域具有巨大的潜力和实用性。 7. 应用前景随着视频数据的爆炸式增长，自监督学习方法在视频分析、内容理解以及相关应用中将发挥越来越重要的作用，为无监督或弱监督的视频理解和检索提供新的解决方案。这篇文章深入研究了自监督学习在视频表示中的应用，提出了一种新颖且有效的学习框架，通过外观和速度一致性任务的结合，提升了模型的表示能力和下游任务的性能。这些成果不仅对学术界，也对工业界在处理大规模视频数据时的算法设计提供了重要参考。

8098

ACP

任务

拉

SCP

任务

拉

视频

编码器

视频

编

码器

检索

2×

视频

编

码器

视频编码

器

视频

编码器

视频编码

器

Galler

2×

视频

编

码器

视频

编

码器

具有不同速度的剪辑的特征

来自不同视频的剪辑的特征

× ×

图2：拟议框架说明。给定具有不同回放速度的一组视频剪辑（

即，

，

和

），我们使用视频编码器

（

θ）将剪

辑映射到外观和速度嵌入空间中。对于ACP任务，我们将同一视频中的外观特征拉得更近。对于SCP任务，我们

首先检索具有相似内容的相同速度视频所有视频编码器共享参数。

加速与否，而Pace [34]预测视频剪辑的确切速度。

RSPNet [5]不是预测绝对回放速度，而是预测相对速

度，以避免依赖于不精确的速度标签。但是，有些动

作太小，即使在不同的播放速度下也不能产生差异。

相反，我们只关注速度相似性。

方法

问题定义。

我们让V

={v

}

是一组

一致性感知（

SCP

）

任务，用于学习速度特征，

即

，

预测具有相同回放速度的不同视频的一致速度特征。

形式上，对于

ACP

任务，与训练

模型以预测两个

剪辑

和

是否从同一视频采样不同，我们提出最

小化

嵌入空间中

剪辑

和

的表示之间的距离。我

们的直觉是，

从同一视频采样的剪辑自然地共享相

似的外观内容。我们还随机化了回放速度，

这样

可

以等于

s j

，也

可以

不等于

。在这个世界上，模特们

训练视频，并且我们利用播放从

中

采样剪辑

反向速度

自监督视频表示学习旨在学习编码器

（i

）以在不同的视频增强下将剪辑映射到一致的

特征

。

这项任务是非常困难的，因为不足的标签和复杂的

时空信息。首先，很难从未标记的视频中为模型构建

适当的监督来学习外观和运动信息。第二，从视频捕

获运动信息是低效的，例如，从视频捕获运动信息是

低效

的。

通过计算帧序列中的光流。因此，学习的表

示可能无法满足下游任务的要求，例如动作识别和视

频检索。

3.1.

ASCNet的总体方案

在本文中，我们观察到，视频播放速度不仅是一个

很好的时间数据增强，不改变空间外观的来源，但也

提供了有效的监督视频表示学习。因此，我们提出了

一个外观一致性感知（

ACP

）

任务学习外观特征，

即。

，预测同一视频在不同时空增强下一致的外观特

征，并

以

鼓励学习外观一致性。对于SCP任务，我们强制执行

模型来编码回放速度信息，并缩短从具有

的

不同

视频采样的剪辑

和ck

的

表示之间的距离。以此方式鼓

励

来了解他们的共同点，也就是

播放速度。

我们使用两个单独的投影头

和

来

将表示从

映

射到任务对应的特征

，

，其中

，

是

ACP

任务的特征，

，

是

SCP

任务的特征。我们

的

表观速度一致

性网络（

ASCNet

）

的总体目标函数

被公式化如下：

（

）

（

）

（

−

）

（

）

，

（

）

其中

和

分别表示ACP和SCP任务γ是控制每个任务重

要性的超参数预训练的编码器

（;θ）及其输出特征X

将用于下游任务中。

3.2.

外观一致性感知

该任务旨在最小化来自同一视频的两个增强剪辑之

间的表示距离。给定

剩余11页未读，继续阅读

cpongm

粉丝: 6

自监督学习：视频表示与动作识别、检索新进展

CARL: 长视频自监督动作表示学习与细粒度帧检索提升

元对比网络提升自监督视频表示学习效果

时变对比视频表示学习：捕捉视频动态和时间等变

深度学习及其在动作行为识别中的进展.pdf

监督时空邻域拓扑学习的动作识别

基于深度学习的视频中人体动作识别进展综述.pdf

通过顺序运动累积来弱监督的跨视图动作识别

层次关系网络：深度学习在群体活动识别与检索中的应用

长视频时间对齐网络：解决大规模教学视频的噪声与时间问题

数字图像处理模式识别：机器学习在图像处理中的5种应用案例

最新资源