视频播放速率感知的自监督学习：提升时空表示能力

PDF格式 | 1.27MB | 更新于2025-01-16 | 12 浏览量 | 举报

"本文主要探讨了视频播放速率感知在自监督时空表示学习中的应用，提出了一种名为视频播放速率感知（PRP）的新方法。该方法利用运动细节扩展抽样策略，通过自我监督学习视频回放速率信号，以增强时空表示的学习能力。PRP由特征编码器、分类模块和重构解码器组成，通过迭代判别生成方式协同工作，以保持时空语义。此外，PRP分别通过区分性感知模型和生成感知模型关注低时间分辨率和长期表示以及高时间分辨率和短期运动细节的理解。实验结果表明，PRP在动作识别和视频检索等任务上优于现有的自监督模型。" 在计算机视觉领域，深度学习，尤其是卷积神经网络（CNN），已经取得了显著的成就，这得益于它们能够学习到丰富的低级细节和高级语义表示。然而，获取大量标注的数据集既耗时又昂贵，因此自监督学习成为了一种有效的替代方案，尤其在视频数据处理中。文章指出，在有限的可见帧条件下，不同播放速率的视频片段会呈现出不同的语义理解。例如，一个视频在正常播放速度下可能被误认为是“比赛”，但在快进播放时则可以清楚地看到是“跳远”，揭示出短期运动细节。因此，感知不同播放速率的视频对于学习能够捕捉长期和短期时空信息的表示至关重要。提出的PRP方法利用这种播放速率变化，通过自监督学习来提取这些信息。它首先采用扩展抽样策略改变视频的播放速率，然后利用特征编码器和解码器来捕获和重建这些速率变化下的时空特征。分类模块用于区分不同速率的视频，而解码器通过运动注意力机制关注细节。这样，PRP能够在没有精确标注的情况下，提升模型对时间序列的理解和表示能力。在动作识别和视频检索等应用场景中，PRP模型展示了其优越性，与现有自监督方法相比，其性能有显著提升。作者提供了开源代码，方便研究者进一步研究和应用PRP方法。通过PRP，研究人员旨在解决自监督时空表示学习中时间分辨率和长期短期特征学习不足的问题，从而推动无监督或弱监督视频理解技术的进步。这一创新为未来在大规模视频数据集上训练模型提供了新的思路，减少了对昂贵标注的依赖，同时提高了模型的泛化能力和效率。

6548

基于视频播放速率感知的自监督时空表示学

习

Yuan Yao

人

，Chang Liu

人

，Dezhao Luo

人，Yu Zhou

人，Qixiang Ye

人

中国科学院大学，中国

中国科学院信息工程研究所，北京，中国

{yaoyuan17，liuchang615}@ mails.ucas.ac.cn，{luodezhao，zhouyu}@

iie.ac.cnqxye@ucas.ac.cn

摘要

种族

？

在自监督时空表征学习中，时间分辨率和长短期特

征

科学尚未充分探索，这限制了代表性

跳远

8 x

学习模型的能力。本文提出

一种新的自我监督方法，称为视频播放

back

速率感知（

PRP

），学习时空表示，

以一种简单而有效的方式表达怨恨

PRP

根源于

运动细节

4 x

扩张抽样策略，产生自我监督

表示模型的视频回放速率信号

学习

PRP

是用特征编码器实现的，

分类模块和重构解码器，到

在协作中实现时空语义保持

迭代判别生成方式。区别性感知模型遵循特征编码

器，以通过对快进速率进行分类来优先感知低时间分

辨率和长期表示。生成感知模型作为特征解码器，通

过引入运动注意机制，专注于理解高时间分辨率和

PRP

被应用于典型的视频目标任务，包括动作识别和

视频检索。实验表明，

PRP

优于国家的最先进的自我

监督模型具有显着的利润率。代码可在

github.com/yuanyao366/PRP

上获得。

介绍

深度网络，

即，

卷积神经网络（CNN）[22]在计算

机视觉领域取得了前所未有的成功这在很大程度上可

以归因于学习到的丰富表示，包括低级细节和高级语

义[35]。实现富有

同等贡献

†

通讯作者

图

在有限的可见帧的情况下，具有不同回放速率（时间分

辨率）的视频剪辑意味着不同的语义。具有正常回放速率的

视频剪辑（第一行）可能被误解为

“

比赛

”

。在更高的回放速

率下（第二行），我们可以看到它实际上是

“

跳远

”

，其中短

期运动细节可以在慢下来的视频中感知（第三行）。感知具

有不同回放速率的视频在学习长短期时空表示中是至关重要

的。

表示，网络通常使用大规模图像/视频数据集（

例

如，

，ImageNet [16]和Kinetics [18]）在准确的注释监

督下[19]。然而，大规模数据注释是费力的、昂贵

的，或者可能是不切实际的，特别是对于诸如视频的

复杂数据和诸如动作分析和视频检索的概念[10，

18]。考虑到Web上大规模未标记数据的可用性，自我

监督表示学习利用未标记数据中的内在对应性来预训

练所需的表示，

站模型，已引起越来越多的关注。

自监督表示学习定义了一个无注释的代理任务，它

利用来自数据本身的易于开发的监督信号来训练网络

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

视频播放速率感知的自监督学习：提升时空表示能力

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源