对比学习揭示视频表示的固定与非固定特性

PDF格式 | 1.27MB | 更新于2025-01-16 | 48 浏览量 | 举报

本文主要探讨了视频表示学习中的一个重要视角——对比视频表示学习的长短视点特征分解。传统的自监督视频表示方法往往侧重于捕捉视频的时间属性，但忽视了固定和非固定属性的作用。固定属性是指在整个视频中保持稳定的特征，这对于预测视频级别的动作类别非常关键；而非固定属性则表示随时间变化的特性，有助于处理涉及更精细时间理解的任务，如动作分割。作者提出了一种新颖的方法，通过对比学习，将视频表示空间分解为固定和非固定的功能。固定特征被设计为在短视图和长视图之间共享，提供了一个全局的视角；非固定特征则负责聚合短视图以匹配长视图中的对应片段，这有助于对视频进行更细致的时间划分。这种方法的优势在于，它能同时满足动作识别等需要全局理解的任务（静态特征的作用）和动作分割等需要精确时间信息的任务（非静态特征的作用）。研究者在博世人工智能中心和波恩大学进行实验，通过比较固定功能在动作识别任务中的优异性能和非固定功能在动作分割任务上的出色表现，验证了这种分解策略的有效性。进一步的分析揭示，静态特征倾向于捕获视频中的稳定信息，如整体动作，而非静态特征则包含了更多的动态变化信息，如动作序列中的细节。在监督学习的背景下，大规模标注数据通常偏重于静态特征的学习，但为应对更复杂的视频理解需求，通过结合固定和非固定属性的表示学习，可以提升模型的多样性和适应性。这种方法为未来的视频表示学习提供了新的思路，特别是在那些需要综合处理时间不变和变化信息的场景下，如视频内容分析和行为理解。

9246

(1)

（

）

图

我们从长视图和短视图中提取特征，并将其分解为静止和非静止特征，分别以橙色和绿色显示固定特征随时间保持相似，

并且由长视图和短视图共享，并且作为正对（由红色箭头指示）。另一方面，非平稳特征捕获时间变化;我们聚集短视图的非

平稳特征以获得长视图的正。

参见图2。短视图提供局部属性，因为它们跨越有限的

时间感受野，而全局时间属性通过长视图的较大时间

感受野更好地感知。因此，在短视图和长视图之间施

加相似性的简单解决方案不一定是最佳的。我们建议

通过将表示空间分解为两个部分来建立长视图和短视

图之间的连接：一个截面表示在短视图和长视图之间

共享的固定特征。另一部分表示属性

将它们馈送到共享的主干：

（x

）=ξ

=（ψ

，

）

，

（

）

（

）

（

）

，

（

）

），其中

∈

{

，

. . .

，

}

。

这允许我们在长视图和短固定特征表示随时间保持

相同的属性，而非固定特征随时间聚合总的来说，它

们满足以下两个性质：

将短视图聚合到相应的长视图

（

）

对于

∈ {1

，

. . .

，

}

，

（

）

视图，我们称之为非平稳特征。因此，在本发明中，

允许网络建立适当的连接。

在短视图和长视图之间，而不被强迫类似地表示它

们。我们通过在特征空间的每个部分上单独的对比损

失来施加固定和非固定特征的概念。在下文中，我

们更详细地讨论我们的方法的不同组件和设计选择。

3.1.

固定和非固定特征

对于给定的视频帧序列，我们获得

长

由所有帧组成的视图

，以及

个

非重叠

子序列，x

（

）

，

. . .

，

（

）

，其用作

短

视图。

′

（

，

. . .

，

）

。

（二）

这里，聚合函数g可以是获取短视图的非静止特征并将

它们映射到长视图的非静止特征的任何函数。选择一

个合适的聚合函数是不平凡的，值得广泛的调查。候

选函数的范围从简单的函数，如求和，到更复杂和可

学习的函数，例如线性变换、MLP或递归网络。我们

在第4.1节中提供了消融。

为了加强方程中的相似性。（1）和（2）在训练过

程中，我们构建了以下正对，用于两个单独的对比损

失。第一

pair

（

）

，

）

针对在长的

s s

这使我们能够为静态和静态构建正对。

非固定特征，见图2。

以及根据Eq.（一）. 第二对

（g（φ

（

）

，

. . .

，

（

）

，

（

N）对应于等式（2），

其中-

s s

更准确地说，我们训练了一个参数函数f

，它获取

一系列视频帧并将它们映射到一个表示空间：f

（x）

（ψ

，

φ），其中ψ

，

分别

表示x的平稳和非平稳

特征。我们通过以下方式计算长视图和短视图的特征

聚合短视图的非静止特征以匹配长视图的非静止特

征。

对于通过上述过程获得的任何给定的特征对（z

，

），我们按照对比学习[4]中的最新趋势

剩余12页未读，继续阅读

cpongm

粉丝: 6

对比学习揭示视频表示的固定与非固定特性

多视角动作识别：基于对比学习的鲁棒特征学习

多视点轨迹对比学习：增强多目标跟踪的性能

视点混淆特征学习：提升人物再识别性能

电信设备-基于多视点视频特征的3DHEVC深度视频信息隐藏方法.zip

自由视点视频系统中虚拟视点主观图像质量评估的用户模型

应用于多视点视频编码的基于深度特征的图像区域分割与区域视差估计

基于depth-map和分布式视频编码的多视点视频传输方法.pdf

学习独家视点-团购网站.ppt

虚拟视点合成视频

采用率失真与模式特征的多视点视频编码快速模式选择

最新资源