两段式视频时序动作选举算法:分水岭与回归网络的融合

1 下载量 3 浏览量 更新于2024-08-29 收藏 5.9MB PDF 举报
本文主要探讨了一种结合分水岭算法与回归网络的视频时序动作选举算法,该方法针对时序动作检测任务进行了创新设计。首先,算法采用改进的分水岭算法处理一维时序信号,通过浸水聚类技术生成一系列具有不同长度的候选动作区域,实现了对动作时序边界的有效粗略定位。这一过程利用了时间序列的特性,能够捕捉到动作的起始和结束点的可能范围。 接下来,作者提出了一个时序金字塔结构化模块,旨在整合候选区域的主体信息和上下文信息。这个模块通过构建动作片段的上下文关系,对候选区域进行深度结构化建模,生成一个增强的全局特征。这样做的目的是捕捉动作的动态变化以及它在整体视频中的位置关系,从而提升算法的性能。 在第二阶段,算法采用时序坐标回归网络进一步精确动作边界。通过这种方法,不仅可以定位动作中心,还能借助动作/背景分类器剔除非动作(背景)区域,提高了动作定位的准确性。整个网络的训练依赖于三维卷积神经网络(C3D)提取的单元级特征,C3D在网络中扮演了关键角色,因为它能有效融合视频的时间维度和空间维度的信息,从而挖掘出丰富的语义特征。 在实验部分,该算法在Thumos 14和ActivityNet两个大型基准数据集上进行了评估。结果显示,与现有方法相比,两段式视频时序动作选举算法在平均召回率方面表现出色,显著提高了动作定位的精度。这证明了该算法在实际应用中具有较高的性能优势,对于视频动作识别和分析具有重要的实用价值。 本文介绍的是一种结合传统分水岭方法与深度学习技术的视频动作检测策略,它通过多层次的特征提取和集成上下文信息,提高了动作边界定位的准确性和效率,适用于各种需要精细动作识别的场景,如视频监控、运动分析等。