金字塔扩展深度ConvLSTM在视频显著目标检测中的应用

151 浏览量更新于2024-06-20 收藏 1.68MB PDF 举报

"本文提出了一种名为金字塔扩张双向ConvLSTM (PDB-ConvLSTM) 的深度学习模型，用于视频显著目标检测。该模型利用金字塔扩张卷积（PDC）模块来同时提取多尺度空间特征，并通过扩展的双向ConvLSTM (DB-ConvLSTM) 学习时空信息。在保持实时速度（20fps）的同时，该方法在多个基准测试中表现出优越的性能，特别是在无监督视频对象分割任务中，达到了最先进的结果。" 在视频显著目标检测领域，该研究关注的是在视频每一帧中找出最引人注目的对象，这是许多视觉任务的基础，如视频对象分割、场景渲染和对象跟踪等。借鉴静态图像的视觉显著性检测研究，视频显著性检测通常分为两类：眼球注视预测和显著对象检测。此论文聚焦于后者，即确定视频中轮廓鲜明且突出的显著目标。提出的PDB-ConvLSTM模型创新点在于其结构设计。首先，通过金字塔扩张卷积模块（PDC），模型能够捕获不同尺度的空间信息，这对于识别不同大小和位置的目标至关重要。接下来，这些空间特征被输入到扩展的双向ConvLSTM单元中，这里的前向和后向ConvLSTM单元在两层中级联，促进信息的双向流动，增强了特征提取的深度。此外，通过使用多个扩张的DB-ConvLSTM，模型进一步强化了对多尺度时空信息的捕捉能力。实验结果显示，PDB-ConvLSTM模型在多种显著性检测任务上优于现有方法，尤其是在无监督视频对象分割上达到了最佳性能。在两个流行的基准测试中，结合条件随机场（CRF）的后处理，该模型展示了其卓越的性能和广泛的应用潜力。总结来说，这篇论文介绍的基于金字塔扩张的深度ConvLSTM模型为视频显著目标检测提供了一个高效的解决方案，它不仅提高了检测精度，而且能够在单个GPU上实现实时处理，这对于实际应用具有重要意义。通过创新的网络架构，该模型成功地融合了空间和时间信息，提升了对视频中显著对象的检测能力。

Song

，W.Wang

Jiang

，S.Zhao，J.沈，K.-M. 林

k=1

PDC模块PDB-ConvLSTM模块

ResNet

Concatenate

损失

...

R=4

DB-ConvLST M

...

输出显著性图

，

...

，

地面实况地图

，

输入帧

{

，

r=16

空间显著性学习

R=2

时空显著性学习

1 T 1 T

CNN层 LSTM单元上采样

Fig. 1.所提出的视频显著对象检测模型的架构概述

，该模型由两个组件

组成，

例如

，基于金字塔扩张卷积（PDC）的空间显著性学习模块（§3.1）

和

通过金字塔扩张双向ConvLSTM（PDB-ConvLSTM）的时空显著性学习

模块（§3.2）。

第二个模块名为

Pyramid Dilated

Bidirectional ConvLSTM

（ PDB-

ConvLSTM），它使用PDC模块的强大结构增强

了

vanillaConvLSTM，并

使用级联双向特征学习过程进行了改进，即学习更深层次的，关于前向

特征的后向信息。PDB-ConvLSTM采用从PDC模块学习的空间特征作

为输入，并且输出用于Fi的改进的时空显著性表示。 nal视频显著对象

预测（§3.2）。在

第3.3节

中，给出了我们模型的详细实现。

3.1

基于PDC模块的

典型的CNN模型由卷积层的堆叠组成，与非线性下采样操作（

例如

，最

大汇集）和逐点非线性（

例如

，

ReLU

）。下采样操作对于扩大感受野

是有效的，但是对于逐像素预测任务（诸如视频显著对象检测）是相当

有害的，因为丢失了太多的空间细节。最近提出的扩张卷积[50]提供了

一个很好的替代方案，可以在任何感受野大小下有效地计算密集的CNN

特征，而不会损失分辨率

。

这是通过具有

部分对齐的权重

的特殊的指

定的

“hole

”k

来实现

的

此外，多尺度信息通常在许多计算机视觉任务中发挥重要作用，

例如图像分类[13]和语义分割[53，4]。认知心理学的先前研究[18，39]

也强调多尺度性质是视觉显着性的基本要素受上述研究的启发2）的

情况。

更特别地，令F

∈

表示输入3D特征张量，即集合

核为{Ck

∈

}

的

和不同

膨胀因子{

}

（步长设为1）生成一组

DB-ConvLST M

...

r=1

…

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

金字塔扩展深度ConvLSTM在视频显著目标检测中的应用

基于深度学习的视频目标检测综述_王迪聪.caj

应用图像局部特征和全局特征对比的显著性检测模型

基于改进Itti视觉显著性模型的SAR图像弱目标检测

2显著性检测组会汇报ppt，主要讲解了将金字塔特征注意力网络用于显著

基于级联全卷积神经网络的显著性检测

基于MSS的显著性检测算法

基于特征排列和空间激活的显著物体检测方法.docx

基于跳跃连接金字塔模型的小目标检测.pdf

PAGE-Net: 利用金字塔注意力和显著边缘提升目标检测

深度学习框架下的扩张卷积金字塔模型PDB-ConvLSTM

最新资源