Z. Shou,H.高湖,加-地Zhang,K.Miyazawa,S.-F.
常
已经为TAL创建了几个大规模视频数据集,例如Charades [63,62],
ActivityNet [28],THUMOS [37,24]。为了获得地面实况时间边界以提
供用于训练全监督TAL模型的全监督,需要大量的努力来注释这样的
大规模数据集中的因此,开发可以仅在弱监督下训练的TAL模型是有
用且重要的
视频级注释是一种可以更容易地收集的弱监督Sun等人。[67]是第
一个考虑TAL的人,在训练期间只有视频级别的注释可用,作者发现
了来自网络图像的额外监督。最近,Singh et al.设计了Hide-and-Seek
[65],以解决弱监督检测方法通常专注于最具辨别力的部分而忽略目
标 实 例 的 其 他 相 关 部 分 的 Wang 等 人 。 [73] 提 出 了 一 个 名 为
UntrimmedNet的框架,由一个执行动作分类的分类模块和一个检测重
要时间段的选择模块组成。这些最近的方法在训练期间有效地学习动
作 分 类 模 型 , 以 便 随 着 时 间 的 推 移 生 成 相 当 好 的 类 激 活 序 列
(CAS)。但是为了检测时间边界,在测试期间在CAS上应用简单的
阈值处理。因此,虽然这些方法可以在视频级的动作识别,时间定位
的性能仍然有很大的改进空间。
然而,全监督TAL方法(在训练期间可用的边界注释)已经超越
了简单的阈值方法。首先,一些研究人员在片段级进行定位:他们首
先通过滑动窗口或建议方法生成候选片段,然后将每个片段分类为某
些动作[60,22,75,21,7]。受单次拍摄对象检测方法[46,52,51]
的成功的启发,Lin等人[44]删除了建议阶段,并直接以单次方式进行
TAL,以同时预测时间边界和动作类。其次,最近,通过锚点生成和
边界回归的直接边界预测已经从对象检测[46,52,51,53,23]适应
于完全监督的TAL,并被证明
在检测更准确的边界[44,82,22,75,21]相当有效这促使我们将片
段级定位和直接边界预测推广到弱监督TAL:我们开发AutoLoc以首
先生成锚片段,然后回归其边界以获得预测片段;为了训练边界回归
器,我们提出了OIC损失来提供段级监督。
过去也探索了用于动作检测的其他类型的弱监督例如,Huang et
al.[32] Richard et al.[55]两者都利用动作的顺序作为训练期间使用的
监督。Mettes等人[47]仅使用点级监督进行训练的时空动作检测