金字塔扩展深度ConvLSTM在视频显著目标检测中的应用

0 下载量 107 浏览量 更新于2024-06-20 收藏 1.68MB PDF 举报
"本文提出了一种名为金字塔扩张双向ConvLSTM (PDB-ConvLSTM) 的深度学习模型,用于视频显著目标检测。该模型利用金字塔扩张卷积(PDC)模块来同时提取多尺度空间特征,并通过扩展的双向ConvLSTM (DB-ConvLSTM) 学习时空信息。在保持实时速度(20fps)的同时,该方法在多个基准测试中表现出优越的性能,特别是在无监督视频对象分割任务中,达到了最先进的结果。" 在视频显著目标检测领域,该研究关注的是在视频每一帧中找出最引人注目的对象,这是许多视觉任务的基础,如视频对象分割、场景渲染和对象跟踪等。借鉴静态图像的视觉显著性检测研究,视频显著性检测通常分为两类:眼球注视预测和显著对象检测。此论文聚焦于后者,即确定视频中轮廓鲜明且突出的显著目标。 提出的PDB-ConvLSTM模型创新点在于其结构设计。首先,通过金字塔扩张卷积模块(PDC),模型能够捕获不同尺度的空间信息,这对于识别不同大小和位置的目标至关重要。接下来,这些空间特征被输入到扩展的双向ConvLSTM单元中,这里的前向和后向ConvLSTM单元在两层中级联,促进信息的双向流动,增强了特征提取的深度。此外,通过使用多个扩张的DB-ConvLSTM,模型进一步强化了对多尺度时空信息的捕捉能力。 实验结果显示,PDB-ConvLSTM模型在多种显著性检测任务上优于现有方法,尤其是在无监督视频对象分割上达到了最佳性能。在两个流行的基准测试中,结合条件随机场(CRF)的后处理,该模型展示了其卓越的性能和广泛的应用潜力。 总结来说,这篇论文介绍的基于金字塔扩张的深度ConvLSTM模型为视频显著目标检测提供了一个高效的解决方案,它不仅提高了检测精度,而且能够在单个GPU上实现实时处理,这对于实际应用具有重要意义。通过创新的网络架构,该模型成功地融合了空间和时间信息,提升了对视频中显著对象的检测能力。