OpenTAL：开放集时间动作定位框架与实验验证

163 浏览量更新于2025-01-16 收藏 12.58MB PDF 举报

OpenTAL: 开放集时间动作定位是一项前沿的计算机视觉研究，它针对的是在现实世界的开放场景中，如何有效地识别和定位已知的动作类别，同时能够处理未知动作的问题。传统的TAL方法基于封闭集假设，即它们假定测试数据集中只包含预定义的动作类别，但在现实情况下，未知动作的出现使得这一假设不再适用。本文的主要贡献在于提出了一种新的问题定义——开放集时间动作定位（OSTAL），它超越了传统TAL的局限。作者团队，由Wentao Bao, Qi Yu, 和 Yu Kong 代表的罗切斯特理工学院的研究人员，开发了一个通用框架OpenTAL，采用Evidence-based Deep Learning (EDL) 方法来解决这一问题。OpenTAL的核心组成部分包括： 1. 不确定性感知的动作分类：通过引入EDL，OpenTAL能够学习和量化样本的重要性和不确定性。这种方法强调从关键样本中收集分类证据，以便更好地理解和区分动作类别。 2. 动作性预测与学习：为了区分动作帧和非动作背景，OpenTAL采用正样本和无标签学习策略，通过区分动作序列和静态背景来增强动作性检测的能力。 3. 时间位置回归与校准：OpenTAL结合时间定位的质量信息，对分类的不确定性进行校准，确保定位的准确性，即使面对未知动作也能保持稳健。 OpenTAL框架的创新之处在于其普适性，可以扩展现有的TAL模型以适应开放世界环境。实验结果在THUMOS14和ActivityNet1.3等基准测试上展示了OpenTAL的有效性，证明了它在实际场景中的优越性能。此外，研究人员已经将相关的代码和预训练模型公开在https://www.rit.edu/actionlab/opental，以便其他研究者进行进一步的研究和应用。总结来说，OpenTAL是一个重要的里程碑，它挑战了传统TAL的局限，为解决开放世界中的动作识别和定位问题提供了新的解决方案。这一研究不仅提升了视频理解技术的实用价值，也为未来相关领域的研究开辟了新的方向。











2981

未

未知的未知的

未知的未知

未知的

不

未知的

未知

不

000

未知的未知

不

未知

未知的未知的

未知的

未知的未知

未知的

不

不知道

未知

图2.提出的OpenTAL。给定未修剪的视频作为输入，OpenTAL方法是基于现有的TAL模型（如AFSD

[36]）开发的，用于OSTAL场景。它包括动作分类、动作预测和位置回归，分别通过提出的MIB-EDL损失（Eq.（5））、PU学习（Eq.（6）

）和定位损失（Eq.（7））进行学习。此外，提出了IoU感知的不确定性校准，通过考虑定位质量（Eq.（8））来校准不确定性估计。在推理

中，通过利用不确定性和动作性的两步决策过程，可以在OSTAL设置中区分已知和未知类别的视频动作，以及背景帧（参见算法1）。

3.提出的方法

设置

给定一个未修剪的视频，OSTAL任务要求模型定位所有动作

的时间位置li

=（si，ei），将动作分配给标签yi∈{0，1，...，K}，其中yi

0表示由背景帧组成的动作，并拒绝来自新类别的动作。在

训练中，模型只能访问视频数据和已知动作的注释，而未知

动作的注释未给出。这与OSR问题不同，OSR问题中未知类

别的注释和数据都未给出，因为在TAL任务中丢弃未知动作

的视频片段是不切实际的。

概述图2显示了所提出的OpenTAL的概述。给定一个未修剪

的视频，从现有的TAL模型（如AFSD

[36]）中获取动作提议的特征。为了实现OSTAL，我们通过

三叉头将目标分解为三个子任务，包括动作分类、行动性预

测和位置回归。这三个分支通过多任务损失函数进行学习，

将在详细介绍。

动机现有的TAL模型通常通过将背景视频帧分配给第(K+1)

类Background来采用(K+1)路动作分类。然而，当背景类

中存在未知动作时，这种范式无法处理OSTAL情况。为了解

决这个问题，一方面，可以尝试在现有的TAL系统中将K个

已知类别与额外的Unknown类别相结合。然而，在OSTAL

设置下，这种解决方案在实践中是不可行的，因为找到用于

训练分类器的视频片段与类别

Unknown依赖于未知动作的时间边界注释，在我们的OSTA

L设置下不可用。尽管可以通过在训练中提供未知动作的时

间注释来放宽OSTAL设置，但由于未知动作的模糊语义，学

习(K+1)路分类器是非常困难的，并且这种放宽在开放世界

中几乎没有实际意义，因为我们对未知动作的先验知识一无

所知。另一方面，可以从训练数据中删除Unknown或Back

ground类，但在OSTAL设置下这是不可行的，因为（i）我

们没有未知动作的时间注释来删除它们，（ii）纯背景帧为

行动定位提供了不可或缺的时间上下文。因此，与OSR问题

相比，OSTAL的一个独特的技术挑战在于区分已知类和未知

类的动作，以及背景帧。此外，由于未知动作与没有注释的

背景帧混合在一起，学习区分前景动作实质上等同于半监督

OSR问题[50,

67]，即模型在训练时使用标记的“已知已知”动作和未标

记的“已知未知”动作，而在测试时使用包含“未知未知”

动作的数据1。为了解决这些独特的挑战，我们提出将(K+1)

路动作分类解耦为K路不确定性感知分类（第3.1节）和行动

性预测（第3.2节）。因此，我们可以通过在两级决策中共

同利用不确定性和行动性来解决上述第一个挑战（见表1）

，并通过PU学习来解决第二个挑战（第3.2节）。

1有关这些术语的更详细讨论，请参阅[16,22]。

剩余10页未读，继续阅读

cpongm

粉丝: 6

OpenTAL：开放集时间动作定位框架与实验验证

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源