支持集交叉监督：提升视频文本接地的新型算法

PDF格式 | 1.11MB | 更新于2025-01-16 | 85 浏览量 | 举报

"基于支持集的视频接地交叉监控方法" 本文探讨的是视频接地技术，这是一种在未经修剪的视频中定位与特定文本查询相匹配的时间片段的任务。现有的视频接地方法通过复杂的架构设计来捕获视频与文本之间的关系，尽管取得了一定的成就，但处理多模态关系的理解仍存在挑战。文章提出了一种新颖的基于支持集的交叉监督算法（Sscs），旨在提升模型理解和建模复杂关系的能力，同时避免增加额外的推理成本。 Sscs模块包含两个关键组件：区分性对比目标和生成性字幕目标。对比目标利用对比学习来学习有效的视觉表示，但由于视频中的某些实体可能同时存在于正样本（Ground Truth，GT）和负样本中，传统的对比学习方法并不适用。为解决这个问题，Sscs引入了支持集的概念，从整个视频中收集视觉信息，消除实体间的互斥，确保模型能更好地区分相关和不相关的视频片段。生成性字幕目标则专注于生成与视频剪辑匹配的文本描述，促进模型在跨模态理解上的提升。通过结合这两个目标，Sscs模块可以增强现有模型在多模态关系建模上的能力。在Charades-STA、DiDeMo和ActivityNet Caption这三个具有挑战性的数据集上，Sscs进行了广泛的评估，结果显示该方法能够显著提高当前最先进的视频接地方法的性能，特别是在Charades-STA数据集上的R1@0.5指标上有显著提升。总结来说，"基于支持集的视频接地交叉监控方法"是一种创新的视频文本匹配策略，它通过支持集的交叉监督机制增强了模型对复杂多模态关系的理解，从而提升了视频接地任务的准确性和效率。这一研究对于未来视频理解和跨模态信息检索领域的发展具有重要意义。

11573

编码器

FFN

剪辑

Sscs

模块

Inter-

行动

共享空间

文

 

编码器

FFN

基于支撑集的视频接地交叉监控

丁新鹏

、

、王楠楠

、张世伟

、程德

、李晓梦

、黄

梓源

、唐明前

、

高新波

西安

电子

科技大学

阿里巴巴集团

香港科技大学4新加坡国立大学

重庆邮电大学xpding.

gmail.com，

{

nnwang，dheng

}

@ xidian.edu.cn，eexmli@ust.hk

{

zhangjin.zsw，mingqian.tmq

}

@ alibaba-inc.com，ziyuan. u.nus.edu，gaoxb@cqupt.edu.cn

摘要

目前的视频接地方法提出了各种复杂的架构来捕捉

视频

文本关系，并取得了令人印象深刻的改进。然

而，实际上仅仅通过架构设计很难理解复杂的多模态

关系。本文介绍了一种新的基于支持集的交叉监督算

法（

Sscs

）

使用

查询：这个

人往杯子里倒了一些水

不含

的查询：人

开始拿着杯子

人

玻璃

该模块可以在训练阶段改进现有方法，而无需额外的

推理成本。建议的

Sscs

模块包含两个主要组件，

即

、

区分性对比目标和生成性字幕目标。对比目标旨在通

过对比学习来学习有效的由于一些视觉实体在地面实

况和背景间隔中共存，

即

相互排斥，天真的对比学习

不适合视频接地。我们

基线

基于

剪辑

（

基于支持集

通过支持集的概念来增强交叉监督，从整个视频中收

集视觉信息并消除实体之间的互斥，从而解决了这个

问题结合原有的目标，

SSCS

可以增强现有方法的多模

态关系建模能力。我们在三个具有挑战性的数据集上

广泛地评估了

Sscs

，并表明我们的方法可以大幅改善

当前最先进的方法，特别是在

Charades-STA

上的

R1@0.5

介绍

视频接地的目的是本地化的目标时间间隔在一个未

修剪的视频文本查询。如图1（a）所示和配对视频，

目标是定位最佳匹配段，

即

从7.3s到17.3s。已经提出

了各种方法[51，49，12]用于

王楠楠和张世伟为通讯作者。

图1.（a）视频剪辑和文本查询之间的相似性的注意力图的比

较颜色越深，相似性越“GT”表示地面实况。(b)提出了基于

支持集的交叉监督（SSCS）模块。Sscs使得语义相关的剪辑

文本对（黑圆圈和三角形）的嵌入在共享特征空间中接近。

这一任务，并取得了重大进展。这些方法可以达成共

识，视频-文本关系建模是关键的角色之一。有效的关

系应该是语义相关的视频和文本必须具有高响应，反

之亦然。

为了实现这一目标，现有的方法集中在仔细设计复

杂的视频-文本交互模块。例如，Zeng

等人。

[49]提出

了一种金字塔神经网络来考虑多尺度信息。局部-全局

策略[30]和自模态图注意力[26]作为交互操作被应用于

学习多模态关系。之后，他们使用交互的功能来执行

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

支持集交叉监督：提升视频文本接地的新型算法

一种基于多特征融合的视频目标跟踪方法

基于人工神经网络小电流接地选线方法研究.pdf

基于DSP的视频编码系统设计方案

行业分类-设备装置-一种接地空调被及其制造方法.zip

行业文档-设计装置-一种接地网接地体腐蚀率测量装置.zip

电子-一种用于输电线路接地故障自动定位装置的故障显示器

基于单片机的交通灯综述.docx

办公楼综合布线与防雷接地系统设计

动车组接地电阻测量的自适应遗传算法仿真研究

STM32控制电磁监控系统设计与实现

最新资源