弱监督时间动作定位：完整性建模与上下文分离

需积分: 0 125 浏览量更新于2024-06-30 收藏 1.38MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"Liu_Completeness_Modeling_and_Context_Separation_for_Weakly_Supervised_Temporal_Action_CVPR_2019_paper(译文) 1" 这篇论文探讨了在弱监督条件下进行时间动作定位的技术，主要关注两个关键问题：动作完整性建模和动作-上下文分离。时间动作定位是理解和分析未修剪视频的重要组成部分，它不仅需要识别动作类别，还需要准确地确定动作实例的起始和结束时间。动作完整性建模是解决弱监督问题的一个挑战，因为缺乏精确的动作边界标注。为了解决这个问题，论文提出了一种多分支神经网络架构。这个网络强迫不同的分支学习动作的不同部分，使得通过合并各个分支的激活信息，可以定位完整动作。例如，在足球罚球动作中，一个分支可能专注于球员射门的瞬间，而另一个分支可能关注球飞行的部分。通过平均这些分支的类激活序列（CAS），可以准确地定位整个动作实例。动作-上下文分离旨在区分动作实例与周围的环境。由于弱监督数据中没有明确的动作边界，论文引入了一种名为“硬负视频生成”的方法，利用静态视频剪辑作为背景样本，帮助模型学习区分动作实例和非动作区域。例如，在台球动作场景中，这种方法可以生成突出显示背景的视频片段，以区分动作本身和同时发生的上下文。在THUMOS'14和ActivityNet数据集上的实验结果显示，该框架在时间动作定位任务上优于现有技术。在ActivityNet v1.2上，平均mAP（平均精度）从18.0%显著提升到22.4%，显示出方法的有效性。这种方法对于实际世界的大规模场景特别有用，因为完全监督的方法在获取详尽标注时面临困难。论文提出的多分支网络和硬负视频生成策略为弱监督时间动作定位提供了一个新的视角，通过模拟动作完整性并分离动作与上下文，提高了模型的定位能力。这种方法的创新性和实验结果表明，它对于未来弱监督视频理解研究有着重要价值。

资源推荐