深度学习驱动的视频显著性预测：DeepVS与OM-CNN与SS-ConvLSTM方法

122 浏览量更新于2024-06-20 收藏 1.32MB PDF 举报

深度学习方法在视频显著性预测中的应用已经成为计算机视觉领域的热点话题，特别是在北京航空航天大学的研究团队的努力下。他们的研究聚焦于如何通过深度学习技术来准确预测视频中哪些区域最能吸引人类的视觉注意力。这项工作主要由赖江、麦旭、铁流和明朗四位研究人员合作完成，并且他们建立了一个名为LEDOV的大规模眼动跟踪视频数据库，包含了32名受试者的数据，这为理解人类注意力的规律提供了宝贵的数据基础。在他们的新方法DeepVS中，关键创新在于设计了一种名为对象到运动卷积神经网络（OM-CNN）。OM-CNN结合了对象子网的空间特征和运动子网的时间特征，引入了跨网掩码和层次特征归一化，旨在捕捉移动物体和移动部分对人类注意力的影响。这一设计反映出人类注意力往往更容易被动态的事物所吸引。此外，研究人员还观察到人类的注意力在视频帧之间存在平滑的显著性过渡，这与HVS的中心凹机制相呼应。为此，他们提出了显着结构的卷积长短时记忆（SS-ConvLSTM）网络，利用OM-CNN提取的特征作为输入，能够生成视频帧间的显著性图，考虑到注意力图在连续帧之间的转移，同时考虑到了中心偏置的结构化输出。与传统基于特征集成的视频显著性预测方法相比，DeepVS采用深度学习的方式，实现了端到端的学习，显著提高了预测精度。然而，尽管在图像显著性预测上取得了显著进展，但将深度学习应用于视频领域的研究仍相对较少，这表明DeepVS在该领域具有突破性的意义。这篇论文不仅介绍了DeepVS的具体架构和技术细节，还强调了它在视频显著性预测任务中的潜在应用价值，特别是在视频压缩、动作识别和图像字幕生成等领域。通过LEDOV数据库和深度学习模型的结合，研究人员希望能够更精确地模拟和预测人类视觉系统的注意力行为，为未来视觉处理和人机交互提供新的视角和工具。

L.Jiang

等人

莱多夫

图二

. LEDOV

中视频的类别树（根据内容）。类别

子类别的数量显示在括号中。此外，

每个类别/子类别的视频数量也显示在括号中。

Liu

等人

[23]应用LSTM网络来预测视频显着性图，依赖于注意力分布的短期和

长期记忆。然而，LSTM中完全连接的层限制了输入和输出的维度;因此，无法

获得端到端显著性图，并且需要假设[2，23]中显著性分布的强先验知识。在我

们的工作中，DeepVS探索了SS-ConvLSTM，以端到端的方式直接预测显着性

图这允许学习人类注意力的更复杂的分布，而不是预先假设的显著性分布。

LEDOV数据库

为了训练DeepVS的DNN模型，我们建立了LEDOV数据库。建立LEDOV数据库

的一些细节如下。

刺激为了使LEDOV的内容多样化，我们为视频类别构建了一个关键词树，

如图2所示。有三个主要类别，即：动物、人类和人造物体。请注意，自然场景

视频不包括在内，因为与其他类别相比，它们是稀缺的。动物类有51个子类。

类似地，人造物体的类别人的范畴又分为日常活动、体育运动、社会活动和艺

术表演等亚类。如图2所示，这些人类亚类被因此，我们总共获得了158个子类

别，然后从YouTube收集了属于这158个子类别的 538个视频每个类别/子类别的

视频数量可以在图2中找到。在补充材料中提供了所收集的视频的一些示例值得

一提的是，LEDOV包含了总共179，336帧和6，431秒的视频，并且所有视频都

至少是720p分辨率和24Hz帧速率。

Procedure. 为了监测双眼运动，在我们的实验中使用Tobii TX300眼在实验

期间，受试者与监视器之间的距离固定在65cm。在观看视频之前，要求每个受

试者对眼动仪进行9点校准之后，受试者

剩余19页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习驱动的视频显著性预测：DeepVS与OM-CNN与SS-ConvLSTM方法

基于深度学习的视频分析系统

网络游戏-基于深度神经网络的图像显著性预测方法研究与实现.zip

金字塔扩展深度ConvLSTM在视频显著目标检测中的应用

使用深度学习预测图片的显著性时有什么模型？

基于深度学习的显著性检测方法模型——SCS.pdf

基于FOS-ELM模型的深度学习方法在高边坡变形预测中的应用.pdf

基于残差结构的GAN网络的显著性预测研究.docx

基于深度学习的显著性区域的图像检索研究.pdf

视频显著性检测研究进展.pdf

利用卷积神经网络的显著性区域预测方法.pdf

最新资源