金字塔扩展深度ConvLSTM在视频显著目标检测中的应用
151 浏览量
更新于2024-06-20
收藏 1.68MB PDF 举报
"本文提出了一种名为金字塔扩张双向ConvLSTM (PDB-ConvLSTM) 的深度学习模型,用于视频显著目标检测。该模型利用金字塔扩张卷积(PDC)模块来同时提取多尺度空间特征,并通过扩展的双向ConvLSTM (DB-ConvLSTM) 学习时空信息。在保持实时速度(20fps)的同时,该方法在多个基准测试中表现出优越的性能,特别是在无监督视频对象分割任务中,达到了最先进的结果。"
在视频显著目标检测领域,该研究关注的是在视频每一帧中找出最引人注目的对象,这是许多视觉任务的基础,如视频对象分割、场景渲染和对象跟踪等。借鉴静态图像的视觉显著性检测研究,视频显著性检测通常分为两类:眼球注视预测和显著对象检测。此论文聚焦于后者,即确定视频中轮廓鲜明且突出的显著目标。
提出的PDB-ConvLSTM模型创新点在于其结构设计。首先,通过金字塔扩张卷积模块(PDC),模型能够捕获不同尺度的空间信息,这对于识别不同大小和位置的目标至关重要。接下来,这些空间特征被输入到扩展的双向ConvLSTM单元中,这里的前向和后向ConvLSTM单元在两层中级联,促进信息的双向流动,增强了特征提取的深度。此外,通过使用多个扩张的DB-ConvLSTM,模型进一步强化了对多尺度时空信息的捕捉能力。
实验结果显示,PDB-ConvLSTM模型在多种显著性检测任务上优于现有方法,尤其是在无监督视频对象分割上达到了最佳性能。在两个流行的基准测试中,结合条件随机场(CRF)的后处理,该模型展示了其卓越的性能和广泛的应用潜力。
总结来说,这篇论文介绍的基于金字塔扩张的深度ConvLSTM模型为视频显著目标检测提供了一个高效的解决方案,它不仅提高了检测精度,而且能够在单个GPU上实现实时处理,这对于实际应用具有重要意义。通过创新的网络架构,该模型成功地融合了空间和时间信息,提升了对视频中显著对象的检测能力。
2021-04-09 上传
2022-09-26 上传
2024-06-21 上传
2021-02-13 上传
2019-01-19 上传
2023-02-23 上传
2022-12-16 上传
点击了解资源详情
cpongm
- 粉丝: 5
- 资源: 2万+
最新资源
- 国际象棋得分表:LaTeX模板,用于跟踪国际象棋游戏
- auto-win-vm-ad:使用Active Directory和证书服务自动创建Windows虚拟机
- lerning_music_AI:使用AI进行钢琴演奏的简单应用
- project-list:Chrome打包应用中支持node.js api的项目列表
- 课程设计 —— 基于 java swing 的火车购票系统.zip
- BackendEasyfood:墨西哥联邦储蓄银行联合发行的sql eo前端,美国联邦储蓄银行发行的信息处理程序
- Yukee-798.github.io:我的博客
- Redis-windows
- c代码-一个简单的repl生成
- convert-sep:为斯坦福哲学百科全书(SEP)条目生成书本样式的文档
- ColorTrackTabLayout
- business_plan_template:LaTeX中的业务计划模板
- Slice-of-a-Pizza:那个美味的比萨中最神奇的一块。
- apache-jmeter-5.1.1.zip
- 快乐草药微控制器
- 一个Java作业,纯控制台学生成绩信息管理系统.zip