视觉语言驱动的零镜头时间动作检测新模型STALE

108 浏览量更新于2024-06-19 收藏 868KB PDF 举报

零镜头时间动作检测（Zero-Shot Temporal Action Detection, ZSL-TAD）是一种先进的计算机视觉技术，它旨在解决传统时间动作检测方法在面对未见过的动作类别时的局限性。这些传统方法往往依赖大量的带有分段级注释的训练数据，这对于新动作类别的识别和扩展性来说成本高昂且不切实际。零镜头学习的概念借鉴自零拍摄图像分类，其核心在于让模型能够在无需特定类别训练数据的情况下理解和识别动作。视觉语言识别（Visual Language Understanding, ViL）模型，如CLIP和ALIGN，通过捕捉图像和文本之间的关联，为零镜头学习提供了可能。它们能从自然语言描述中提取通用特征，使得模型能够在没有特定训练样本的情况下，根据描述理解新动作类别。Sauradip Nag、Xiatian Zhu、Yi-Zhe Song 和 Tao Xiang等人提出了一种创新的模型——基于视觉语言提示的时空目标检测模型（STALE），它整合了现有的目标检测器与CLIP式的分类器，以解决位置错误传播的问题。 STALE设计的关键在于消除定位和分类之间的直接依赖，通过一个有效的架构来打破错误传播路径，提高了模型的鲁棒性和泛化能力。该模型还引入了分类和局部化的交互机制，进一步提升了性能优化。在多个标准视频基准测试中，STALE展示了显著优于现有最先进的方法的性能，甚至超过了监督学习中的强有力竞争者。STALE的实现基于PyTorch，用户可以通过https://github.com/sauradip/STALE获取代码。零镜头迁移学习在时间动作定位领域具有重要意义，因为它不仅降低了对大规模标注数据的依赖，而且允许模型灵活适应新的任务和动作。未来的研究可能会沿着语言引导的零镜头方向发展，探索更多的应用场景，比如视频内容检索、自动摘要生成或智能监控系统。这将推动计算机视觉领域的边界，促进更高效、灵活和智能的多媒体分析。

+v：mala2255获取更多论

文

4 Nag等人。

在每个时间位置处的开始、结束和动作性，并生成具有高开始和结束概

率的建议。在BMN [20]中，通过额外生成边界匹配置信度图以改进提案

生成，进一步提高了行动性。GTAN [22]改进了建议特征池过程，使用可

学习的高斯内核进行加权平均。G-CNET [47]通过图卷积网络学习语义和

时间上下文，以更准确地生成提案。BSN++ [39]进一步扩展了BMN，使

用补充边界生成器来捕获丰富的上下文。CSA [38]通过注意转移丰富了

提案的时间背景。最近，VSGN [51]使用跨尺度多级金字塔架构改进了短

动作定位。通常，现有的分类器模型大多采用两阶段

顺序

定位和分类架

构。这将导致定位误差传播问题，特别是在低数据设置中，例如，

GPS。我们的故事通过设计单阶段模型，消除了定位和分类之间的依

赖性，切断了错误传播路径，从而解决了这一局限性。

零触发时间动作检测

零触发学习（Zero-shot learning，简称ZRL）旨在

识别

在训练过程中看不到的新类[43]。这个想法是从先验信息中学习共享

知识，然后将这些知识从可见的类转移到不可见的类[30，34]。视觉

属性（

例如

颜色、形状和任何属性）是先验信息的典型形式例如，

Lampert等人。[18]独立地预先学习属性分类器以完成对看不见的类的

分类，而Parikh等人。[31]学习相对属性。尽管基于属性的方法在XML

上取得了令人鼓舞的结果，但由于属性需要手动定义，因此可扩展性

较差可见和不可见概念的语义嵌入，另一种类型的先验信息，可以解

决这个可扩展性问题 [48] 。它们通常以无监督的方式学习，如

Word2Vec [13]或GloVe [33]。Zhang等人[49]首先使用Word2Vec将零触

发学习应用于搜索引擎最近，EffPrompt [17]使用CLIP [35]中的图像-文

本然而，由于两阶段的设计，该方法也有错误传播的问题，除了它无

法学习的动作定位模块。我们通过引入一个新的单阶段的并行架构来

解决所有这些限制。

方法

我们的目标是有效地引导基于图像的ViL模型（CLIP [35]），以解决密集

的视频下游任务，例如未修剪视频中的零镜头时间动作检测（Zero-Shot

Temporal Action Detection， ZH-STO）。这本质上是一个模型自适应过

程，目的是利用大型语言语料库中丰富的语义知识

3.1

课程：视觉语言预训练

CLIP的关键功能是对齐视觉和语言数据的嵌入空间[35]。它由两个编

码器组成，即图像编码器（

例如，

、

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

视觉语言驱动的零镜头时间动作检测新模型STALE

基于视觉检测的机器人分拣系统设计.pdf

基于镜头分割的关键帧提取代码

基于HALCON的机器视觉系统的研究与实现 20181126

基于Matlab的镜头质量检查方法研究

基于yolov5的跨镜头步态识别与多目标跟踪系统源码

三维机器视觉与机器人手眼标定技术详解

【LR-TB2000在工业视觉检测系统中的角色】：视觉系统集成的关键技术

机械臂视觉抓取：OpenCV视觉伺服与闭环控制，提升抓取稳定性

机器视觉技术入门与应用

缺陷识别新手入门：揭秘机器视觉核心术语

最新资源