AutoLoc：弱监督时间动作定位新方法，外-内-对比技术

197 浏览量更新于2024-06-20 收藏 715KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文主要探讨了在未修剪的视频中进行时间动作定位（TAL）的方法，特别是提出了一种名为AutoLoc的弱监督框架，该框架利用外-内-对比（OIC）损失来预测每个动作实例的时间边界，从而提高了定位精度。在弱监督的情况下，仅使用视频级别的注释进行训练，解决了全面注释的高成本问题。文章指出，AutoLoc在IoU阈值为0.5时的mAP提高了13.7%到27.3%，并且其性能接近某些完全监督方法。关键词包括时间动作定位、弱监督、外-内-对比、类激活序列。" 文章详细内容: 时间动作定位（TAL）在视频分析中扮演着关键角色，尤其在未修剪的视频中，它能够帮助识别和定位特定时间段内的动作。然而，获取片段级别的精确动作注释既昂贵又耗时。因此，研究者们转向了弱监督学习，旨在在只有视频级别标签（即视频包含哪些动作，但不提供具体时间信息）的情况下进行TAL。 AutoLoc是本文提出的一种新方法，它直接预测每个动作实例的开始和结束时间，而非仅仅生成类激活序列（CAS）。CAS通常是用于表示视频中动作活跃程度的序列，但它在动作定位上的表现受限，因为它需要通过阈值化来确定动作边界，这可能导致不准确的定位。AutoLoc通过引入OIC损失，自动发现训练边界预测所需的段级监督，从而提高了定位的准确性。 OIC损失函数的核心思想在于，通过比较视频内部不同时间点的动作相似性和外部（即不同视频）之间的差异性，来指导模型学习区分动作边界。这种方法促进了模型对动作开始和结束时间的精确估计，即使在缺乏详细注释的情况下。实验结果显示，AutoLoc在多个标准评估指标上表现出显著的提升。在IoU阈值为0.5时，mAP（平均精度）从7.4%提高到27.3%，这表明弱监督模型在动作定位任务上可以达到与完全监督方法相当的效果。这一进展对于扩展TAL的应用范围，尤其是在那些难以获取大量注释数据的新领域，具有重要意义。 AutoLoc是一种创新的弱监督TAL方法，它通过外-内-对比技术优化时间边界预测，解决了注释成本高的问题，并且在性能上与强监督方法相媲美。未来的研究可能进一步探索如何在更广泛的场景中应用这种技术，以及如何提高弱监督学习在其他视频分析任务中的效能。

资源详情

资源推荐

Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.

常

已经为TAL创建了几个大规模视频数据集，例如Charades [63，62]，

ActivityNet [28]，THUMOS [37，24]。为了获得地面实况时间边界以提

供用于训练全监督TAL模型的全监督，需要大量的努力来注释这样的

大规模数据集中的因此，开发可以仅在弱监督下训练的TAL模型是有

用且重要的

视频级注释是一种可以更容易地收集的弱监督Sun等人。[67]是第

一个考虑TAL的人，在训练期间只有视频级别的注释可用，作者发现

了来自网络图像的额外监督。最近，Singh et al.设计了Hide-and-Seek

[65]，以解决弱监督检测方法通常专注于最具辨别力的部分而忽略目

标实例的其他相关部分的 Wang 等人。 [73] 提出了一个名为

UntrimmedNet的框架，由一个执行动作分类的分类模块和一个检测重

要时间段的选择模块组成。这些最近的方法在训练期间有效地学习动

作分类模型，以便随着时间的推移生成相当好的类激活序列

（CAS）。但是为了检测时间边界，在测试期间在CAS上应用简单的

阈值处理。因此，虽然这些方法可以在视频级的动作识别，时间定位

的性能仍然有很大的改进空间。

然而，全监督TAL方法（在训练期间可用的边界注释）已经超越

了简单的阈值方法。首先，一些研究人员在片段级进行定位：他们首

先通过滑动窗口或建议方法生成候选片段，然后将每个片段分类为某

些动作[60，22，75，21，7]。受单次拍摄对象检测方法[46，52，51]

的成功的启发，Lin等人[44]删除了建议阶段，并直接以单次方式进行

TAL，以同时预测时间边界和动作类。其次，最近，通过锚点生成和

边界回归的直接边界预测已经从对象检测[46，52，51，53，23]适应

于完全监督的TAL，并被证明

在检测更准确的边界[44，82，22，75，21]相当有效这促使我们将片

段级定位和直接边界预测推广到弱监督TAL：我们开发AutoLoc以首

先生成锚片段，然后回归其边界以获得预测片段;为了训练边界回归

器，我们提出了OIC损失来提供段级监督。

过去也探索了用于动作检测的其他类型的弱监督例如，Huang et

al.[32] Richard et al.[55]两者都利用动作的顺序作为训练期间使用的

监督。Mettes等人[47]仅使用点级监督进行训练的时空动作检测

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

AutoLoc：弱监督时间动作定位新方法，外-内-对比技术

AutoCAD快捷键

一个NLP研发工程师需要会的所有和代码相关的技术,尽可能详尽,尽可能多的分类列举!请认真思考后答复!至少列举100个最重要或常用技术!

修剪平均值是什么预测方法

bulk RNA-seq教程

ubantu中trim_galore的使用方法

假设我们有一对单端测序数据文件raw.fq.gz ,adapter 序列文件为 adapter.fa，我们想要使用 Trimmomatic 进行修剪和去除 adapter 序列的代码

oracle中trim函数用法

SRA-Toolkit使用方法

centos7 清理磁盘空间

详细介绍一下VR视频制作需要的技术方法及技术参数

GridDehazeNet

python实现决策树修剪

redis的list数据结构

trimmomatic 如何使用及参数命令,并举例子

帮我做一个狗狗美容的html5+css3的页面

2019年计算机应用基础统考题库 网考计算机应用基础真题7.pdf

最新资源

2019年计算机应用基础统考题库网考计算机应用基础真题7.pdf