递归Tubelet网络:提升动作检测性能的关键

0 下载量 112 浏览量 更新于2024-06-20 收藏 2.35MB PDF 举报
递归Tubelet建议和识别是一种创新的动作检测方法,针对视频中的复杂变化和动作的本质——一系列连续的运动,提出了全新的深度架构。该方法由董力、赵凡秋等人在中国科学技术大学和中国北京微软研究院进行研究,其核心是循环Tubelet提议和识别(RTPR)网络,该网络由两个关键组件组成:递归Tubelet提议(RTP)网络和递归Tubelet识别(RTR)网络。 RTP网络在初始帧中通过区域提议网络生成动作提议,然后通过循环机制预测下一帧中提议的移动。这种方法捕捉到了动作在时间上的延续性,即动作 Tubelet 的连续性,形成了 tubelet proximity。相比之下,传统的动作检测方法倾向于独立处理每一帧,可能导致漏检或误检。 RTR网络则采用多通道架构,每个通道都包含一个CNN和LSTM的组合,对Tubelet内的动作进行重复识别。这有助于提高对动作序列的理解和识别准确性。研究者在包括UCF-Sports、J-HMDB、UCF-101和AVA在内的多个基准数据集上进行了大量实验,结果显示,RTPR网络的表现显著优于当前最先进的方法,实现了显著的性能提升。例如,在UCF-Sports、J-HMDB、UCF-101和AVA数据集上的mAP分别达到了98.6%、81.3%、77.9%和22.3%,相较于最佳竞争对手分别提高了2.9%、4.3%、0.7%和3.9%。 这种方法不仅提升了动作检测的精度,还展示了在考虑时间上下文对于动作理解的重要性。通过递归的方式,RTPR能够更好地捕捉动态场景中动作的连贯性和一致性,这对于视频理解和实时应用具有重要意义。这项工作的成果为未来动作检测的研究提供了新的视角和技术支撑,有望推动该领域的进一步发展。