深度学习方法在视频显著性预测中的应用

103 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DeepVS：一种基于深度学习的视频显著性预测方法赖江[0000 - 0002 - 4639 - 8136]、麦旭[0000 - 0002 - 0277 - 3301]、铁流、明朗乔和王中国北京航空航天大学{jianglai.china，maixu，liutie，minglangqiao，wzulin}@buaa.edu.cn抽象。在本文中，我们提出了一种新的基于深度学习的视频显著性预测方法，称为DeepVS。具体来说，我们建立了一个大规模的眼动跟踪视频数据库（LEDOV），其中包括32名受试者我们发现，从LEDOV，人类的注意力更容易被吸引的对象，特别是移动的对象或对象的移动部分。因此，开发了对象到运动卷积神经网络（OM-CNN）在OM-CNN中，提出了跨网掩码和层次特征归一化，以结合对象子网的空间特征和运动子网的时间特征。我们进一步发现，从我们的数据库中，存在一个时间相关的人类的注意力与平滑的显着过渡跨视频帧。因此，我们提出了显着结构的卷积长短期记忆（SS-ConvLSTM）网络，使用从OM-CNN提取的特征作为输入。因此，可以生成视频的帧间显著性图，其考虑具有中心偏置的结构化输出和人类注意力图的跨帧过渡。最后，实验结果表明，DeepVS在视频显著性预测方面具有先进性关键词：显着性预测·卷积LSTM·眼动追踪数据库1介绍人类视觉系统（HVS）中的中心凹机制表明，只有小的中心凹区域在高分辨率下捕获最多的视觉注意，而其他外围区域在低分辨率下几乎没有受到注意。为了预测人类的注意力，近年来已经广泛研究了显着性预测，在对象识别、对象分割、动作识别、图像字幕和图像/视频压缩等方面具有多种应用[5，21，在本文中，我们专注于预测视频显着性在像素级，模型上的每个视频帧的注意力。传统的视频显著性预测方法主要集中在特征集成理论[16，19，20，26]，其中开发了一些空间和时间特征用于视频显著性预测。与整合理论不同，最近已经提出了基于深度学习（DL）的方法[13，18，28，29，32]，以端到端的方式学习人类注意力，显著提高了图像显著性预测的准确性。然而，只有少数作品成功地将DL应用到视频中2L.Jiang等人Fig. 1. 从两个视频中选择的一些帧的注意力热图。热图显示：(1)具有对象的区域可以吸引大多数人的注意力，（2）移动的对象或对象的移动部分吸引更多的人的注意力，以及（3）跨视频帧发生人的注意力的动态逐像素转换显着性预测[1，2，23，27]。具体而言，Cagdas et al. [1]应用了双流C-NN结构，将RGB帧和运动图两者作为视频显著性预测的输入。 Bazzani等人[2]利用深度卷积3D（C3D）网络来学习人类注意力在16个连续帧上的表示，然后学习连接到混合密度网络的长短期记忆（LSTM）网络，以生成高斯混合分布的显着性图。为了训练 DL 网络，我们建立了一个大规模的眼动跟踪视频数据库（LEDOV），其中包含32名受试者观看538个不同内容的视频的自由视角固定数据。在建立LEDOV数据库时，通过受试者间的一致性分析，我们验证了32个受试者是足够的。先前的数据库[24，33]没有调查眼动追踪实验中足够数量的受试者例如，虽然好莱坞[24]包含1857个视频，但它只有19个主题，并且没有显示主题是否足够。更重要的是，好莱坞专注于任务驱动的注意力，而不是自由视图的显着性预测。在本文中，我们提出了一种新的基于DL的视频显著性预测（DeepVS）方法。我们从图1中发现，人们倾向于被移动的物体或物体的移动部分所吸引，这一发现也在我们的LEDOV数据库的分析中得到了验证。然而，所有上述基于DL的方法在预测视频显著性时不探索对象的运动在DeepVS中，构建了一种新的对象到运动卷积神经网络（OM-CNN）来学习对象运动的特征，其中提出了跨网掩码和分层特征归一化（FN）来组合对象和运动的子网因此，不同尺度的移动对象可以被定位为显著区域。图1和我们的数据库的分析都表明，显着性图在视频帧之间平滑地过渡因此，开发了显着性结构用于视频显著性预测的传统LSTM网络[2，23]假设人类注意力遵循高斯混合分布，因为这些LSTM网络无法生成结构化输出。相比之下，我们的SS-ConvLSTM网络DeepVS3能够通过卷积连接以结构化输出保持注意力分布的空间信息。此外，由于中心偏差（CB）存在于显着图中，如图1所示，因此在SS-ConvLSTM网络中提出了CB dropout因此，显著性的结构化输出考虑CB先验。因此，可以在DeepVS中以端到端的方式获得每个视频帧的密集显著性预测。实验结果表明，我们的DeepVS方法在我们的数据库和其他2个眼动跟踪数据库中提高了视频显著性预测的DeepVS代码和LEDOV数据库都可以在线获得2相关工作特征集成方法。大多数早期的显着性预测方法[16，20，26，34]依赖于特征集成理论，该理论由两个主要步骤组成：特征提取和特征融合。在图像显著性预测任务中，提取了许多有效的空间特征，以自上而下[17]或自下而上[4]的策略来预测人类的注意力。与图像相比，视频显著性预测更具挑战性，因为时间特征在吸引人注意力方面也起着重要作用。为了实现这一点，可计数的基于运动的特征[11，42]被设计为用于视频显著性预测的附加时间信息此外，一些方法[16，40]专注于计算跨视频帧的各种时间差异，这在视频显著性预测中是有效的。利用诡辩的视频编码标准，[7，37]的方法探索了压缩域中的时空特征以用于预测视频显著性。除了特征提取之外，许多工作都集中在融合策略以生成视频显著性图。具体而言，构建了一组概率模型[15，31，40]，以整合不同类型的特征来预测视频显着性。此外，其他机器学习算法，如支持向量机和神经网络，也被应用于线性[26]或非线性[20]组合显着性相关特征。其他高级方法[9，19，41]在融合模型中应用相位谱分析，以弥合特征和视频显着性之间的差距。例如，Guo等人。 [9]利用四元数傅里叶变换（PQFT）在四个特征通道上的相位谱来预测视频显著性。基于DL的方法最近，DL已经成功地结合到自动学习空间特征以预测图像的显著性[13，18，28，29，32]。然而，只有少数工作已经设法在视频显著性预测中应用DL [1-3，23，27，33，35]。在这些工作中，以两种方式探索了动态特征：向CNN结构添加时间信息[1，3，27，35]或使用LSTM开发动态结构[2，23]。为了添加时间信息，[3]中的四层CNN和[1]中的双流CNN使用RGB帧和运动图作为输入进行训练。类似地，在[35]中，与静态显着性图（由静态CNN生成）连接的一对连续帧在我们的工作中，DeepVS的OM-CNN结构包括对象和运动的子网，因为人类的注意力更容易被移动的对象或对象的移动部分所为了开发动态结构，Bazzani等人。[二]《中国日报》4L.Jiang等人莱多夫图二. LEDOV中视频的类别树（根据内容）。类别/子类别的数量显示在括号中。此外，每个类别/子类别的视频数量也显示在括号中。Liu等人 [23]应用LSTM网络来预测视频显着性图，依赖于注意力分布的短期和长期记忆。然而，LSTM中完全连接的层限制了输入和输出的维度;因此，无法获得端到端显著性图，并且需要假设[2，23]中显著性分布的强先验知识。在我们的工作中，DeepVS探索了SS-ConvLSTM，以端到端的方式直接预测显着性图这允许学习人类注意力的更复杂的分布，而不是预先假设的显著性分布。3LEDOV数据库为了训练DeepVS的DNN模型，我们建立了LEDOV数据库。建立LEDOV数据库的一些细节如下。刺激为了使LEDOV的内容多样化，我们为视频类别构建了一个关键词树，如图2所示。有三个主要类别，即：动物、人类和人造物体。请注意，自然场景视频不包括在内，因为与其他类别相比，它们是稀缺的。动物类有51个子类。类似地，人造物体的类别人的范畴又分为日常活动、体育运动、社会活动和艺术表演等亚类。如图2所示，这些人类亚类被因此，我们总共获得了158个子类别，然后从YouTube收集了属于这158个子类别的 538个视频每个类别/子类别的视频数量可以在图2中找到。在补充材料中提供了所收集的视频的一些示例值得一提的是，LEDOV包含了总共179，336帧和6，431秒的视频，并且所有视频都至少是720p分辨率和24Hz帧速率。Procedure. 为了监测双眼运动，在我们的实验中使用Tobii TX300眼在实验期间，受试者与监视器之间的距离固定在65cm。在观看视频之前，要求每个受试者对眼动仪进行9点校准之后，受试者DeepVS50.900.700.500.300.102468101214161820222426283032的受试者数量图3.第三章。LEDOV中所有视频中不同受试者数量的一致性（CC值）。被要求自由观看以随机顺序显示的视频。同时，眼动仪记录受试者的注视点。科目采用了一种新的办法来确定足够的参与者人数。一旦记录的注视点集中在一起，我们就停止招募受试者进行眼动追踪实验。具体地，完成眼动追踪实验的受试者（偶数）被随机分成5次的2个相等的组。然后，我们测量了两组注视图的线性相关系数（CC），并将CC值在5个时间段内平均。图3示出了当受试者数量增加时两组的平均CC值如该图所示，当对象数量达到32时，CC值收敛。因此，当我们收集32名受试者的注视时，我们停止招募受试者。最后，为我们的眼动追踪数据库收集了所有32名受试者在538个视频上的5，058，178次注视调查结果。我们挖掘我们的数据库来分析人类对视频的注意力具体而言，我们有以下3项发现，其分析载于补充材料。发现1：客观性和人类注意力之间存在高度相关性。发现2：人类的注意力更容易被移动的物体或物体的移动部分所吸引。发现3：存在人类注意力的时间相关性，在视频帧之间具有平滑的显着性过渡。4该方法4.1框架对于视频显著性预测，我们开发了一种新的DNN架构，该架构结合了OM- CNN和SS-ConvLSTM。根据调查结果1和2，人类的注意力是高度相关的对象和对象的运动。因此，0 M-CNN整合对象的区域和运动两者以通过两个子网来预测视频显著性，即，物体和运动的子网。在OM-CNN中，对象子网在运动子网中的卷积层的特征上产生跨网掩码。然后，来自对象子网的空间特征和来自运动子网的时间特征通过所提出的分层特征归一化来级联，以生成OM-CNN的时空特征。OM-CNN的架构如图4所示。此外，开发了具有CB丢弃的SS-ConvLSTM来学习视频片段的动态显著性，其中OM-CNN的时空特征作为输入。CC值6L.Jiang等人OOOO(a) OM-CNN的整体架构(b) 推理模块和特征规范化子模块的详细说明见图4。用于预测帧内视频显著性的OM-CNN的整体架构。卷积核的大小如图所示。例如，3× 3× 16意味着16个大小为3× 3的卷积核请注意，第7- 9个卷积层（C7，C8和C9）具有相同大小的卷积核，因此共享（a）中的相同类似地，运动子网中的最后四个立方体中的每一个表示具有相同内核大小的2个卷积层。推断和特征归一化模块的细节在（b）中示出注意，所提出的跨网掩码、分层特征归一化和显著性推断模块用灰色背景突出显示。最后，从SS-ConvLSTM的2个去卷积层生成每个帧的显著性图。SS-ConvLSTM的架构如图5所示。4.2OM-CNN中的对象和运动子网在0 M-CNN中，对象子网被设计用于提取与对象信息相关的多尺度空间特征，其基于预先训练的YOLO [30]。为了避免过拟合，YOLO的修剪结构被应用为对象子网，包括9个卷积层、5个池化层和2个全连接层（FC）。为了进一步避免过度拟合，将额外的批次归一化层添加到每个con-fitting。我的意思是我的意思是。在B_N（·）、P（·）和*处求和h是基于卷积、最大池化和卷积操作的，其中第k个卷积层C_k的输出是对象子网可以计算为Ck= L0。1（BN（P（Ck−1）*Wk−1+Bk−1）），（1）o o o o其中Wk−1和Bk−1表示在（k−1）处的权重和偏置的核参数。o o该控制器仅适用于一个区域。 A ddition a lly，L0. I（·）是一个简单的ReLU活动DeepVS7i=1i=1i=1i=1i=1i=1i=1泄漏系数为0。1.一、除了对象子网之外，运动子网也被并入OM-CNN中，以从相邻帧对中提取多尺度时间特征与对象子网类似，具有10个卷积层的FlowNet[6]的修剪结构有关对象的详细信息-ness和motion子网，请参见图4-（a）。在下文中，我们建议将对象性和运动性结合起来。4.3对象和运动子网在OM-CNN中，我们提出了分层FN和跨网掩码来结合对象和运动子网的多尺度特征来预测显著性。特别地，跨网掩码可用于在生成时间特征时编码对象性信息此外，推理模块被开发为基于学习的特征生成跨网掩码或显著性图。分层FN。为了利用具有各种接收场的多尺度信息，从对象和运动子网的不同卷积层提取输出特征。在这里，一个分层FN被引入到级联的多尺度功能，具有不同的分辨率和通道数。具体地，我们以空间特征的层次FN为例。首先，对对象子网中第4、5、6和最后一个卷积层的特征进行归一化处理通过FN模块获得4组空间特征{FSi}4.如图-图4-（b）中，每个FN模块由1×1卷积层和双线性层组成，以将输入特征归一化为分辨率为28×28的128个通道。Al-l空间特征l{FSi}5在层次结构中连接，以获得28×28×542，作为分层FN的输出类似地，运动子网的第4、第6、第8和第10卷积层的特征通过分层级联calFN，使得时间特征{FTi}4总尺寸为28×28×512得到了推理模块。然后，给定所提取的空间特征{FSi}5和节奏-从0 M-CNN的两个子网中提取所有特征{FTi}4，推断模块If是在一些实施例中，显著性图Sf被构造以生成显著性图Sf，显著性图Sf对视频帧的帧内显著性进行在数学上，Sf可以计算为Sf=If（{FSi}5，{FTi}4）的情况。（二）推理模块If是由步长为2的4个卷积层和2个去卷积层组成的CNN结构。IF的详细架构在图4-（b）中示出。因此，Sf用于训练OM-CNN模型，如第4.5节所述。此外，具有28×28×128大小的卷积层C4的输出被视为最终的时空特征，表示为FO。之后，FO被馈送到SS-ConvLSTM中以用于预测帧内显著性。跨网掩码。发现2表明注意力更容易被移动的物体或物体的移动部分所吸引。然而，运动子网可以1FS5由对象子网中最后一个FC层的输出生成，对每个网格中候选对象的大小、类别和置信概率的高级信息进行编码。8L.Jiang等人i=1i=1M图五. 我们的SS-ConvLSTM的架构，用于预测跨帧间的显着性转换，遵循OM-CNN。注意，图中未注释训练过程。仅定位整个视频帧的运动部分而没有任何对象信息。因此，提出了跨网掩码，以在运动子网的卷积层上施加掩码根据目标的多尺度特征，可以得到跨网掩模Sc子网具体地，给定对象性子网的空间特征{FSi}5 ，S。由另一推理模块Ic如下生成，Sc=Ic（{FSi}5）的情况。（三）注意，Ic的架构与图4-（b）所示的If的架构相同，但不共享参数。因此，可以获得跨网掩码Sc以对大致与显著区域相关的对象信息进行编码然后，跨网掩码Sc用于对运动子网的前6个卷积层的输出进行因此，第k个卷积层的输出Ck在运动子网中可以被计算为Ck= L0。1（M（Ck−1，Sc）<$Wk−1+Bk−1），嗯嗯嗯其中M（Ck−1，Sc）= Ck−1·（Sc·（1 − γ）+1·γ）。（四）M m在（4）中，Wk-1和Bk-1表示（k-1）处的权重和偏置的核参数。M mγ（0 ≤γ≤1）是用于控制掩码度的可调整超参数，将Sc的范围从[0，1]映射到[γ，1]。注意，最后4个卷积层没有用跨网掩码进行掩码，以在显著性预测中考虑非对象区域的运动4.4SS-ConvLSTM根据发现3，我们开发了SS-ConvLSTM网络来学习预测视频剪辑的动态显着性。在帧t处，取OM-CNN特征FO作为输入（表示为FOt），SS-ConvLSTM利用长期和短期通过存储单元（Mt-1，Mt-1）的输入特征的相关性和隐藏的1 2状态（Ht−1，Ht−1在最后一帧处的第1和第2 LSTM层的第1和第2层的第2层然后，隐藏的DeepVS92LS1L2第二LSTM层Ht的状态被馈送到2个去卷积层中，以在帧t处生成最终显著图StSS-ConvLSTM的架构如图5所示我们为SS-ConvLSTM提出了一个CB dropout，它通过结合CB的先验知识来提高显着性预测的泛化能力。这是因为CB先验在显着性预测中的有效性已经得到了验证[37]。具体而言，CB丢弃受到贝叶斯丢弃的启发[8]。给定输入丢弃率Pb，CB丢弃算子Z（Pb）基于L时间蒙特卡罗积分来定义：Z（pb）=Bino（L，pb·SCB）/（L· Mean（SCB）），√（i-W/2）2+（j-H/2）2其中CB（i，j）= 1 −√。（五）（W/2）2+（H/2）2Bino（L，P）是随机生成的掩模，其中每个像素（i，j）根据概率P（i，j）服从L-试验二项分布。这里，概率矩阵P由CB映射S_CB建模，CB映射S_CB是根据从像素（i，j）到中心的距离（W/2，H/2）获得的。因此，dropout算子考虑CB先验，其dropout率基于pb。接下来，类似于[36]，我们通过用卷积算子（表示为）替换Hadamard乘积（表示为）来扩展传统的LSTM，以考虑动态模型中输入OM-CNN特征的空间相关性。以SS-ConvLSTM的第一层为例，帧t处的单个LSTM单元可以写为It=σ（（Ht−1◦Zh） *Wh+（Ft ◦Zf） *Wf+B），1111我我我At=σ（（Ht−1<$Zh）<$Wh+（Ft <$Zf）<$Wf+B），11a aa a aaOt=σ（（Ht−1◦Zh） *Wh+（Ft ◦Zf） *Wf+B），11 oo o o ooGt=tanh（（Ht−1<$Zh）<$Wh+（Ft <$Zf）<$Wf+B），11g gg g ggMt=At◦Mt−1+It◦Gt，Ht=Ot◦tanh（Mt），（6）1 1 1 1 1 1 1 1其中σ和tanh是sigmoid和双曲正切的激活函数，分别为。在（6）中，{Wh，Wh，Wh，Wf，Wf，Wf}和{Bi，Ba，Bo，Bg}IA O GIA O G表示每个卷积层处的权重和偏置的核参数;1 1Ot是帧t的输入（i）、遗忘（a）和输出（o）的门;Gt、Mt和Ht是1 1 1 1输入调制（g）、存储单元和隐藏状态（h）。他们都代表尺寸为28×28×128的三维张量。此外，{Zh，Zh，Zh，Zh}是四个集合ia o g随机生成的CB丢弃掩码（28×28×128）到（5）中的Z（ph），隐藏丢弃率为ph。它们被用来屏蔽隐藏状态Ht，当com-输入不同的门或调制{It，At，Ot，Gt}。类似地，给定特征丢弃1 1 1 1ratepf，{Zf，Zf，Zf，Zf}是从Z（pf）中随机生成的CBdr值ia o g对于输入特征Ft。最后，在的隐藏状态上获得显著性图St。第二LSTM层H针对每个帧t tt。4.5训练过程为了训练OM-CNN，我们利用基于Kullback-Leibler（KL）散度的损失函数来更新参数。选择这个函数是因为[13]已经证明10L.Jiang等人FFLKL发散在训练DNN以预测显着性方面比其他度量更有效将显着图视为注意力的概率分布，我们可以如下测量OM-CNN的显著性图Sf与人类注视的地面实况分布G之间的KL散度DKLDKL（G，Sf）=（1/WH）ΣWi=1ΣHj=1 Gijl〇g（Gij/Sij），⑺其中Gij和Sij是指G和S f中的位置（i，j）的值（分辨率：W×H）。在（7）中，较小的KL散度指示显著性预测中的较高准确度此外，0 M-CNN的跨网掩码Sc与地面实况G之间的KL散度也被用作训练0 M-CNN的辅助函数这是基于假设对象区域也与显著区域相关然后，通过最小化以下损失函数来训练OM-CNN模型：LOM−CNN=11+λ DKL（G，Sf）+λ1+λ DKL（G，Sc）.（八）在（8）中，λ是用于控制两个KL散度的权重的超参数。请注意，OM-CNN在YOLO和FlowNet上进行了预训练，OM-CNN的其余参数由Xavier初始化器初始化。我们发现，从我们的实验结果，辅助功能可以减少KL散度0.24。为了训练SS-ConvLSTM，训练视频被切割成具有相同长度T的剪辑。此外，在训练SS-ConvLSTM时，OM-CNN的参数是固定的，以提取每个T帧视频片段的时空特征然后，SS-ConvLSTM的损失函数被定义为T帧上的平均KL散度1ΣTLSS−ConvLSTM=Ti=1DKL（Si，Gi）。（九）在（9）中，{Si}T是由SS-ConvLSTM生成的T帧的最终显著性图L和{Gi}Ti=1是他们的注意力地图对于每个LSTM单元，内核i=1参数由Xavier初始化器初始化，而存储器单元和隐藏状态由零初始化。5实验结果5.1设置在我们的实验中，我们的眼动跟踪数据库中的538个视频被随机分为训练（456个视频），验证（41个视频）和测试（41个视频）集。具体来说，为了学习DeepVS的SS-ConvLSTM，我们在时间上将456个训练视频分割成24，685个剪辑，所有这些剪辑都包含T（= 16）帧。为了数据扩充的目的，在切割视频剪辑在输入到 DeepVS 的 OM-CNN 之前，每个帧的 RGB 通道的大小被调整为DeepVS11448×448，其中它们的平均值被移除。在训练OM-CNN和SS-ConvLSTM时，我们学习了参数使用随机梯度下降算法与亚当优化器。12L.Jiang等人表1.OM-CNN和SS-ConvLSTM中的超参数值。（4）中的对象掩模参数γ0.50.551× 1−50512（1. 5×10）125× 1−60KL发散（8）中的权重λOM-CNN运动子网中输入帧之间的步幅k初始学习率训练时期（迭代）批量权重衰减基本上是一个下降的ph和pf0.75 0.75蒙特卡罗积分次数L100SS-ConvLSTM 初始学习率1× 1−40训练时期（迭代）15（2× 15）0权重衰减5× 1−60在这里，OM-CNN和SS-ConvLSTM的超参数被调整为最小化验证集上显著性预测的 KL 散度表 1 中列出了一些关键超参数的调整值给定 OM-CNN 和 SS-ConvLSTM的训练模型，我们的眼动跟踪数据库中的所有41个测试视频都被用来评估我们的方法的性能，并与其他8种最先进的方法进行比较。所有实验都在单个Nvidia GTX 1080 GPU上进行。受益于此，我们的方法能够以30 Hz的速度对视频显著性进行实时预测5.2对我们数据库的在本节中，我们将DeepVS方法的视频显着性预测准确性与其他最先进的方法进行了比较，包括GBVS [11]，PQFT [9]，Rudoy [31]，OBDL [12]，SALICON[13]，Xu [37]，BMS [39]和SalGAN [28]。其中方法，[11]，[9]，[31]，[12]和[37]是用于视频的5种最先进的显著性预测此外，我们比较了两种最新的基于DNN的方法：[13]和[28]。请注意，在我们的实验中没有比较其他基于DNN的视频显着性预测方法[1，2，23]在我们的实验中，我们应用四个指标来衡量显着性预测的准确性：接收器操作特征曲线（AUC）下的面积、归一化扫描路径显著性（NSS）、CC和KL散度。请注意，AUC、NSS或CC的值越大，表示对显著性的预测越准确，而KL散度越小，表示对显著性的预测越好。表2列出了我们的方法和8种其他方法的AUC、NSS、CC和KL散度的结果，这些结果在我们的眼动跟踪数据库的41个测试视频上平均。如表所示，我们的DeepVS方法在所有4个指标方面都比所有其他方法表现得更好。具体而言，我们的方法分别实现AUC、NSS、CC和KL至少0.01、0.51、0.12和0.33的改善。此外，两种基于DNN的方法SALICON [13]和SalGAN [28]优于其他传统方法。这验证了DNN自动学习的同时，我们的方法明显优于[13]和[28]。造成这一结果的主要原因如下。(1)我们的方法嵌入的对象子网，利用对象的显着性预测的信息（2）在运动子网中探索对象运动以预测视频显著性。（3）网络DeepVS13表2. 我们的方法和其他8种方法在我们数据库中所有测试视频中的显着性预测准确性的平均值（标准差）。[11][12][13][14][15][16][17] 徐[37][28]第二十八话：我的世界AUC0.90（0.04）0.84（0.06）0.70（0.08）0.80（0.08）0.80（0.09）0.89（0.06）0.83（0.06）0.76（0.09）0.87（0.06）NSS2.94（0.85）1.54（0.74）0.69（0.46）1.45（0.64）1.54（0.84）2.43（0.87）1.47（0.47）0.98（0.48）2.39（0.59）CC 0.57（0.12）0.32（0.13）0.14（0.08）0.32（0.14）0.32（0.16）0.43（0.13）0.38（0.11）0.21（0.09）0.45（0.09）KL 1.24（0.39）1.82（0.39）2.46（0.39）2.42（1.53）2.05（0.74）1.57（0.42）1.65（0.30）2.23（0.39）1.62（0.33）*基于DNN的方法已经由我们的数据库使用其默认设置进行了微调图六、从我们的眼动跟踪数据库的测试集中随机选择的8个视频的显着图。这些地图是由我们和其他8种方法以及地面实况人类注视产生的请注意，对于每个选定的视频，仅显示一个帧的结果。利用SS-ConvLSTM对视频帧之间的显著性过渡进行建模。部分5.4更详细地分析了上述三个原因接下来，我们比较视频显著性预测中的主观结果图6展示了测试集中8个随机选择的视频的显著性图，这些视频是通过我们的DeepVS方法和其他8种方法检测到的。在该图中，为每个视频选择一个帧。如图6所示，我们的方法能够很好地定位显著区域，这些区域接近人类注视的地面实况图。相比之下，大多数其他方法无法准确预测吸引人类注意力的区域5.3对其他数据库的为了评估我们的方法的泛化能力，我们进一步评估了我们的方法和其他8种方法在两个广泛使用的数据库SFU [10]和DIEM [25]上的性能在我们的实验中，从我们的眼动跟踪数据库的训练集学习的OM-CNN和SS-ConvLSTM的模型直接用于预测来自DIEM和SFU数据库的测试视频的显著性表3显示了我们的方法和8种其14L.Jiang等人他方法在SFU和DIEM上的AUC、NSS、CC和KL的平均DeepVS15表3. 我们的方法和其他方法在SFU和DIEM数据库上的显著性预测准确性的平均值（标准差）。SFU[11][12][13][14][15][16][17] 徐[37][28]第二十八话：我的世界AUC 0.81（0.07）0.76（0.07）0.61（0.09）0.73（0.08）0.74（0.10）0.78（0.08）0.80（0.07）0.66（0.08）0.79（0.07）NSS 1.46（0.65）0.91（0.47）0.31（0.34）0.83（0.45）1.03（0.64）1.24（0.60）1.24（0.39）0.50（0.31）1.25（0.47）CC 0.55（0.15）0.44（0.15）0.12（0.15）0.34（0.15）0.42（0.21）0.58（0.22）0.43（0.12）0.25（0.11）0.51（0.13）KL 0.67（0.24）0.61（0.19）0.98（0.27）0.93（0.36）0.80（0.33）1.12（1.76）1.35（0.25）0.83（0.20）0.70（0.25）DIEM[11][12][13][14][15][16][17][18][19][19] 徐[37][28]第二十八话：我的世界AUC 0.86（0.08）0.81（0.09）0.71（0.11）0.80（0.11）0.75（0.14）0.79（0.11）0.80（0.11）0.77（0.11）0.81（0.08）NSS 2.25（1.16）1.21（0.82）0.86（0.71）1.40（0.83）1.26（1.03）1.68（1.04）1.34（0.74）1.20（0.80）1.60（0.71）CC 0.49（0.21）0.30（0.18）0.19（0.14）0.38（0.20）0.29（0.22）0.36（0.19）0.35（0.17）0.28（0.17）0.35（0.13）KL 1.30（0.55）1.64（0.48）1.73（0.44）2.33（2.05）2.77（1.58）1.66（0.58）1.67（0.39）1.96（1.13）1.64（0.41）*基于DNN的方法已经由我们的数据库使用其默认设置进行了微调如该表所示，我们的方法再次优于所有比较的方法，特别是在DIEM数据库中。特别地，AUC、NSS、CC和KL分别有至少0.05、0.57、0.11和0.34的这些改进与我们数据库中这证明了我们的方法在视频显著性预测中的泛化能力5.4DeepVS性能分析组件的性能分析。根据对象子网、运动子网和0 M-CNN的独立训练的模型，我们进一步分析了每个分量对DeepVS中显著性预测准确性的贡献，即，OM-CNN和SS-ConvLSTM的组合比较结果如图所示7. 从该图中可以看出，OM-CNN比对象子网表现得更好，KL散度降低0.05，并且它比运动子网表现得更好，KL散度降低0.05。0.09 KL散度减小。类似的结果适用于AUC、CC和NSS的其他度量。这些结果表明了整合对象和运动的子网的有效性。此外，OM-CNN和SS-ConvLSTM的组合比单个OM-CNN架构将KL散度降低了0.09。对于其他度量可以发现类似的结果。因此，我们可以得出结论，SS-ConvLSTM可以进一步提高OM-CNN的性能，这是由于探索了视频帧之间显著性的时间相关性SS-ConvLSTM的性能分析我们评估了SS-ConvLSTM的拟议CB丢弃的性能。为此，我们在不同的情况下训练SS-ConvLSTM模型，这些情况包括hiddenendropou tra t eph和fea turedr opou tra t epf f，以及在验证集上训练的SS-ConvLSTM模型。平均KL散度如图8-（a）所示。我们可以看到，CB丢弃可以将KL散度减小0.03 其中 h_p_h 和 p_f 两者都设置为 0 。 75 ，与具有 CBdr opot 的模型相比（ph=pf=1）。也就是说，KL驱动器的共享率为0。08，当h enbothdfd e从0. 75到0。二、这是由缺陷引起的，因为SS-Conv L S TM中的多个约束都是相反的。 h、p和pf设置为0。7 5在我们的模式中。SS-ConvLSTM模型针对固定视频长度（T=16）进行训练。我们进一步评估了经过训练的SS-ConvLSTM模型的显16L.Jiang等人着性预测性能。DeepVS171.281.261.2541.2491.2531.2391.241.231.221.28 12 16 24 32视频长度图7.第一次会议。对象子网、运动子网、0 M-CNN以及0 M-CNN和SS-ConvLSTM的组合（即，[13][14][15][16][17][18][19][1注意，较小的KL散度指示显著性预测的较高准确度(a) 辍学率（b）图8. （a）：我们的模型在不同辍学率下的KL分歧。（b）：KL在具有可变长度的测试视频上发散可变长度视频。在这里，我们在验证集上测试训练的SS-ConvLST模型，其中的视频以不同的长度进行剪辑图8-（b）示出了各种长度的视频剪辑的平均KL散度。我们可以看到，当视频长度为24或32时，SS-ConvLSTM的性能甚至更好这可能是因为经过良好训练的LSTM单元能够利用更多的输入来实现更好的视频显着性预测性能。6结论在本文中，我们提出了DeepVS方法，该方法通过OM-CNN和SS-ConvLSTM预测视频显著性。为了训练OM-CNN和SS-ConvLSTM的DNN模型，我们建立了LEDOV数据库，其中包含538个视频上的32个主题。然后，提出了OM-CNN架构来探索对象和对象运动的时空特征以预测视频的帧内显著性。SS-ConvLSTM架构被开发用于对视频的帧间显著性进行建模。最后，实验结果验证了DeepVS在AUC，CC，NSS和KL指标方面明显优于我们和其他两个公共眼动跟踪数据库中的其他8种最先进的方法。因此，可以验证DeepVS的预测精度和泛化能力致谢本工作得到了国家自然科学基金61573037和霍英东教育基金151061的支持KL散度18L.Jiang等人引用1. 巴克角Kocak，A.，Erdem，E.，Erdem，A.：用于动态显著性预测的时空显著性网络。IEEE Transactions on Multimedia（2017）2. 巴扎尼湖Larochelle，H.Torresani，L.：用于时空视觉注意力的循环混合密度网络（2017）3. Chaabouni，S.，Benois-Pineau，J.，Amar，C.B.：使用深度网络进行迁移学习，用于自然视频中的显着性预测。In：ICIP. pp. 1604-1608. IEEE（2016）4. 郑女士美国新泽西州米特拉市黄，X.，托，pH值，Hu S.M.：基于全局对比度的显著区域检测。IEEE PAMI37（3），5695. Deng，X.，徐，M.，江，L.太阳，X.，Wang，Z.：主观驱动的高性能电动汽车复杂度控制方法。 IEEE Transactions on Circuits and Systems for Video Technology26（1），916. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazirbas角戈尔科夫van derSmagt，P.，Cremers，D. Brox，T.：Flownet：使用卷积网络学习光流。In：ICCV.pp. 27587. Fang，Y.，林伟，陈志，蔡春明，Lin，C.W.：一种压缩域视频显著性检测模型。IEEE TCSVT24（1），278. Gal，Y.，Ghahramani，Z.：在递归神经网络中的一个理论上接地应用辍学在：NIPS。pp. 10199. Guo，C.，中国农业科学院，Zhang，L.：一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用。IEEE TIP19（1），18510. Hadizadeh，H.，Enriquez，M.J.，巴伊奇，静脉注射：用于一组标准视频序列的眼睛跟踪数据库IEEE TIP21（2），89811. Harel，J.，Koch，C.，Perona，P.：基于图形的视觉显著性。在：NIPS。pp. 第54512. Hossein Khatoonabadi，S.，Vasconcelos，N.，巴伊奇静脉注射Shan，Y.：一个刺激需要多少比特在：CVPR中。pp. 550113. 黄，X.，Shen，C.，Boix，X.，Zhao，Q.：Salicon：通过调整深度神经网络来减少显着性预测中的语义差距。In：ICCV. pp. 26214. INC.，T.T.：Tobii TX300眼动仪，http://www.tobiipro.com/product-listing/tobii-pro-tx300/

下载后可阅读完整内容，剩余1页未读，立即下载