立体视频显著性预测的深度学习模型及数据集构建

32 浏览量更新于2023-10-19 收藏 13.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

197490学习探索立体视频的内在显著性0张秋丹1，2 王旭1� 王世奇2 李世凯1 邝石基2 蒋建民101 深圳大学计算机科学与软件工程学院 2 香港城市大学计算机科学系0摘要0人类视觉系统通过注意机制在立体视觉信号中具有出色的偏好能力。传统的立体视频显著性预测方法依赖于低级特征和与深度相关的信息，但存在根本性的局限性。例如，由于复杂性，对包括空间、时间和深度信息在内的多个视觉线索之间的相互作用进行建模是繁琐的。在本文中，我们认为高级特征至关重要，并借助深度学习框架来学习立体视频的显著性图。模型首先利用三维卷积神经网络模仿显著性机制，通过连续帧之间的时空一致性来驱动显著性。然后，基于左右视图之间的相关性，推导出源自内在深度的显著性。最后，我们开发了基于卷积长短期记忆（Conv-LSTM）的融合网络，以建模时空和深度属性之间的瞬时交互，从而产生随时间变化的最终立体显著性图。此外，我们建立了一个新的大规模立体视频显著性数据集（SVS），包括175个立体视频序列及其注释的注视密度，旨在全面研究立体视频显著性检测的内在属性。广泛的实验证明，我们提出的模型在新建的立体视频数据集上相比最先进的方法具有更好的性能。01. 引言0近年来，我们目睹了3D内容的强劲增长和3D显示技术的快速发展，因此在立体视频上自动预测显著性变得越来越重要。立体视频显著性预测（见图1），在立体视频中探测显著性是一项具有挑战性但有回报的任务。例如，它可以作为众多立体应用的感知预处理，如立体视频编码、质量评估、医学图像分析和机器人视觉。然而，立体视频的显著性预测非常复杂，因为涉及到视频对和深度线索之间的非直观交互，使得直接应用传统的2D显著性预测算法变得困难。随着各种深度学习架构的出现，静态图像显著性预测取得了显著进展，这要归功于卷积神经网络（ConvNet）的成功应用。基于ConvNet学习的特征对于显著性推断非常有价值，因为它们能够挖掘潜在线索和启发式语义先验，以更好地解释图像内容，相比传统的手工特征更具优势。然而，直接应用静态图像显著性模型来推断动态视频显著性是不可行的，特别是对于立体视频。特别是，由于视频由连续帧组成，时间上的一致性是立体视频显著性预测中的一个重要因素。虽然最近的研究主要采用光流来探索动态场景中的显著性，但它会引入非显著特征，并在推断过程中消耗更多时间。此外，深度作为整体立体视频的重要组成部分。0� 通讯作者。wangxu@szu.edu.cn0图1.左视图剪辑的示例（包括五个连续帧），以及在新建的SVS数据集上使用我们的模型获得的真实结果和显著性结果。0在多样、动态和沉浸式场景中区分显著区域或对象是具有挑战性但有回报的。例如，它可以作为众多立体应用的感知预处理，如立体视频编码、质量评估、医学图像分析和机器人视觉。然而，立体视频的显著性预测非常复杂，因为涉及到视频对和深度线索之间的非直观交互，使得直接应用传统的2D显著性预测算法变得困难。随着各种深度学习架构的出现，静态图像显著性预测取得了显著进展，这要归功于卷积神经网络（ConvNet）的成功应用。基于ConvNet学习的特征对于显著性推断非常有价值，因为它们能够挖掘潜在线索和启发式语义先验，以更好地解释图像内容，相比传统的手工特征更具优势。然而，直接应用静态图像显著性模型来推断动态视频显著性是不可行的，特别是对于立体视频。特别是，由于视频由连续帧组成，时间上的一致性是立体视频显著性预测中的一个重要因素。虽然最近的研究主要采用光流来探索动态场景中的显著性，但它会引入非显著特征，并在推断过程中消耗更多时间。此外，深度作为整体立体视频的重要组成部分。97500感知，本质上，深度线索是另一个可以影响3D渲染过程中注视点位置的重要因素。通过考虑低级特征和深度相关信息，也提出了一系列3D显著性检测模型。Fang等人[10]提出了一种基于格式塔理论的立体视频视觉注意模型，其中计算特征对比度和运动对比度以估计空间和时间显著性。然而，忽视高级语义特征导致了上述方法的有限成功。此外，如何确定空间、时间和深度线索之间的相互作用对于立体视频显著性预测也是一个非常复杂和具有挑战性的问题。在本文中，我们提出了一种基于深度学习的立体视频显著性预测模型，通过自动探索时空一致性和内在深度方面的显著性相关特征来推断立体显著性。最终，基于Conv-LSTM融合网络将时空和深度线索上的显著性分布进行组合，生成最终的显著性图。为了便于对所提出的方法进行训练和评估，我们构建了一个包含175个视频的大型数据集，其中包含多个视觉刺激。实验结果表明，我们提出的模型在所创建的数据集上明显优于现有的显著性模型。本文的贡献如下，0•我们提出了一种基于深度学习的新型立体视频注意模型，通过分离时空和深度线索的贡献，努力探索以数据驱动的策略来揭示内在的立体视频显著性。相应地学习了高级语义特征，并基于金字塔时空显著性预测、内在深度显著性估计和Conv-LSTM融合构建了最终的注意模型。0•我们创建了一个新的具有挑战性的数据集，用于进一步研究和评估立体视频显著性估计，该数据集包含自然场景和合成场景，并将公开提供。我们提出的立体视频显著性模型已经使用这个新数据集进行了验证，显示出竞争性能。0•我们进行了分析，以研究图像内容、时间特性和深度线索对立体视频显著性预测的影响。我们相信这些分析能够为未来研究提供有用的见解，以便开发全面的立体视频显著性模型。02. 相关工作0在文献中，已经提出了各种受生物特性启发的视觉显著性计算模型，用于2D或3D图像。受灵长类动物视觉系统行为和神经结构的启发，Itti和Koch等人[17]提出了一种先驱的显著性模型，该模型基于图像的多尺度中心-周围特征对比度计算显著性图（例如颜色、亮度、纹理和方向）。Harel等人[13]通过使用基于图论的差异度量来评估不同特征激活图上的显著性，构建了一个完整的自下而上的显著性模型。Goferman等人[12]设计了一个基于四个视觉显著性原则的上下文感知显著性检测模型，以便检测场景的显著区域。Hou等人[14]进一步提出了一种基于光谱残差的视觉显著性检测模型，通过图像的对数谱构造显著性图。进一步提高静态视觉显著性模型性能的关键是提取有意义的特征来捕捉与注意力相关的信息。深度神经网络在特征提取方面的优越性提供了新的机会，已经提出了几种基于学习的静态视觉显著性检测模型来定位人眼注视点。例如，Vig等人[30]尝试基于深度神经网络集成构建视觉显著性检测模型。随后，K¨ummerer等人[22]开发了一种依赖于提取的深度学习特征的显著性模型。在[15]中，通过将深度神经网络（DNN）模型根据显著性评估指标进行微调，并在不同图像尺度上集成信息，缩小了模型预测与人类行为之间的差距。随后，Cornia等人[5]提出了一种用于自然图像上的注视点预测的显著性注意模型。在这项研究中，设计了一个注视点Conv-LSTM模型，以顺序地增强显著性预测。对于视频显著性预测，以前的研究工作侧重于从时空角度利用与显著性相关的特征表示。例如，Tu等人[29]提出了一种基于压缩领域的视频显著性检测方法，基于离散余弦变换（DCT）系数和运动信息。在[29]中，使用H.264/AVC视频比特流提取相应的信息。Xu等人[34]设计了一种基于学习的视频显著性模型，利用支持向量机来融合由高效视频编码（HEVC）提取的时空特征。Kalboussi等人[20]引入了一种视频显著性模型，通过图形分割的格式塔原理将静态映射和动态映射进行整合。在该研究中，使用密集光流来表示运动信息。为了97510图2. 提出的立体视频显著性预测模型的整体架构。0为了避免耗时的光流计算，Wang等人提出了一种基于全卷积网络的视频显著性模型，能够将空间显著性估计与动态显著性模型相结合，直接产生时空显著性推断。0随着立体显示技术的发展，有必要研究双目领域中的视觉显著性。例如，Bruce等人通过将现有的2D注意力模型扩展到双目领域提出了一个立体显著性模型。还提出了自适应渲染的感兴趣区域（ROI）提取方法。Chamaret等人使用视差信息对2D显著性图进行加权，以生成立体图像的显著性图。此外，Potapova等人通过将自上而下的线索整合到自下而上的显著性检测模型中，提出了一种立体显著性检测模型。在2D和3D图像上进行了眼动实验，用于深度显著性分析，其中立体显著性图是通过扩展先前的2D注意力模型计算得出的。具体而言，图像区域的立体显著性是基于其感知位置与舒适区域之间的距离计算的。Fang等人提出了通过计算颜色、强度、纹理和深度特征之间的对比度来生成立体显著性图。Zhang等人提出了一种基于深度学习的三维图像视觉显著性模型。在该研究中，通过预训练的卷积神经网络模型提取颜色和深度特征，推断区域的显著性值。Kim等人提出了一种立体视频显著性模型，通过涉及低级特征、运动和深度属性以及高级场景类型来生成最终的显著性图。0实质上，自动预测立体视频的显著性是一项非常具有挑战性的任务，特别是考虑到多个线索（如空间、时间和深度信息）之间的复杂交互。现有方法中采用的传统手工特征在显著性预测的准确性上存在很大限制，因为缺乏语义信息。0考虑到空间、时间和深度信息之间的复杂交互，传统的手工特征在现有方法中的应用很大程度上限制了显著性预测的准确性，因为缺乏语义信息。在本文中，我们突出了立体线索的重要贡献，并基于2D和3D卷积神经网络开发了一种基于学习的立体视频显著性模型，从而实现了增强的显著性导向的时空和深度表示。设计了一个基于Conv-LSTM的融合网络，通过探索高级特征表示来最终生成最终的显著性图，相比于现有方法具有更好的性能。03. 提出的模型0如图2所示，我们提出的模型的架构包括三个模块，包括基于金字塔时空一致性的显著性预测、基于内在深度的显著性估计和基于Conv-LSTM的融合。具体而言，基于金字塔时空一致性的显著性预测模块首先基于3DConvNet从连续帧中生成一系列具有时间一致性的显著性图。随后，基于内在深度的显著性估计模块根据深度ConvNet在左右视图之间获取深度引导的显著性图。最后，获取的时空和深度一致性显著性图被连续地输入到基于Conv-LSTM的融合网络中进行立体显著性推断。03.1. 金字塔时空显著性预测0为了构建用于立体视频的高效显著性检测模型，我们提出了一个金字塔Fi,j = σ�BN(γ,β)�mwi,j,m ∗ f(i−1),m + bi,j��,F p = [F3, F4 ↑2, F5 ↑4],(2)p = (k − 1)/2,(4)F li = max(0, wi ∗ f l(i−1) + bi),(5)F ri = max(0, wi ∗ f r(i−1) + bi),(6)97520我们提出了一种名为PySTSP-Net的时空显著性预测网络，以利用时空内在一致性。整体架构如图2所示。特别地，我们提出的PySTSP-Net模块基于3D ConvNet[28]，增强了来自空间和时间角度的与显著性相关的特征表示，包括输入层、从3D残差块演化而来的特征编码和解码层。特征编码层包括一个内核大小为7×7×3的3D卷积块和四个3D残差块，而特征解码层由两个3D反卷积块组成。同时，四个3D残差块的内核大小为3×3×3，如[26]所建议的，堆叠较小的内核可以实现比较大内核更好的分类性能。每个卷积层后面都跟着批归一化层和缩放层，以加快训练收敛过程。与用于空间特征提取的传统2D卷积神经网络相比，3D卷积神经网络的显著区别在于在卷积核和输入张量中添加了额外的时间维度。在本文中，我们将n个连续帧（In ={i1，...，in}）打包为PySTSP-Net的输入，其中表示视频帧的帧索引、高度和宽度以及通道数（表示为t×h×w×c）。3D卷积核中的额外时间维度使其能够从n个连续帧的片段中捕获具有时间一致性的视觉表示，而不仅仅是单个视频帧。因此，第i个3D卷积层中的第j个特征图由以下公式给出：0(1)其中w i,j,m和bi,j表示连接到前一卷积层中第m个特征图的3D卷积核的权重和偏置，BNγ,β表示具有可训练参数γ和β的批归一化[16]，σ表示非线性激活层。根据认知研究[33]，人类视觉系统在观看自然场景时遵循从粗到细的策略。通过3D反卷积操作将特征调整为相同的尺度后，我们将第三、第四和第五个3D残差块的输出特征级联起来构建多尺度金字塔特征，0其中F 3、F 4和F 5分别表示第三、第四和第五个3D残差块的输出特征。↑ x表示x倍上采样操作，Fp表示多尺度金字塔特征。[ ∙]表示连接操作。最后，将多尺度金字塔特征输入到特征解码层，该层由两个3D反卷积块组成，通过评估局部、邻近和背景表示，可以准确预测时空一致性引导的显著图。反卷积层最近在像素空间中将特征重构为图像处理中的像素空间，例如语义分割[24]，同时在将获得的特征上采样到原始图像尺寸方面也起着重要作用。因此，我们使用3D反卷积层通过改变空间和时间维度的步长来重构显著图。3D反卷积层的参数与上采样因子k之间的关系定义如下：0其中notes表示多尺度金字塔特征。[ ∙]表示连接操作。最后，将多尺度金字塔特征进一步输入到特征解码层，该层由两个3D反卷积块组成，通过评估局部、邻近和背景表示，可以准确预测时空一致性引导的显著图。反卷积层最近在像素空间中将特征重构为图像处理中的像素空间，例如语义分割[24]，同时在将获得的特征上采样到原始图像尺寸方面也起着重要作用。因此，我们使用3D反卷积层通过改变空间和时间维度的步长来重构显著图。3D反卷积层的参数与上采样因子k之间的关系定义如下：0k s = k d = k � 2 − k %2 , s s = t s = k, (3)0其中k s和k d是卷积核的大小和深度。参数s s和ts是3D反卷积层的空间步长和时间步长，p表示添加到特征图的额外填充。最后，两个3D反卷积块之后可以得到重建的n个连续显著性图S st = { S 1 st , ∙ ∙ ∙ , S n st }。03.2.基于内在深度的显著性估计0双目深度是确定立体视频显著性的重要线索。然而，基于立体对的推断精确深度信息本质上是一项非常复杂的任务。在这项工作中，我们设计了一种内在深度显著性估计网络（IDSE-Net），用于自动探索立体视频左右视图之间的深度导向显著性。如图2所示，我们提出的IDSE-Net由基于2D卷积的特征提取、左右视图之间的位移相关计算以及深度导向显著性重建模块组成。图2中的IDSE-Net首先通过三个卷积块分别对左右视图产生有意义的特征，每个卷积块由一个卷积层和一个relu激活层组成。第i个卷积层的特征图由以下公式给出：0其中F l i和F r i表示左右视图的特征图。参数w i和bi表示卷积核的权重向量和偏置。根据两个特征向量F l i和Fri的特定设计的相关层，评估左右视图之间的位移。这类似于立体视觉。where c(·) indicatesover, the spatial features F L of the left view are furtherconcatenated with D, and the concatenated feature vectorF c is then fed into a serials of convolution layers with thekernel size 3 × 3. As such, the depth-oriented saliency fea-tures F ds can be obtained. This process can be formulatedas follows,F c = [F L, D],(8)97530图3.基于Conv-LSTM的融合网络示意图。0匹配旨在有效地识别对应的像素对。引入的相关层受到[6]的启发，通过在两个特征图之间执行乘法路径比较来发现位移D，其中c(∙)表示相关操作[6]。此外，左视图的空间特征F L 还与D进行进一步的级联，级联特征向量F c然后被送入具有核大小为3×3的一系列卷积层。因此，可以获得面向深度的显著性特征F d s。该过程可以表示为F c = [F L, D]，(8)0D = c � F l 3，F r 3 �，(7)0F d s = max(0, w i * F c i - 1 + b i)，(9)0其中Fc表示级联的空间和深度特征。最后，通过反卷积层可以重构深度导向的显著性图S d。03.3.基于Conv-LSTM的融合0PySTSP-Net和IDSE-Net得到的显著性图表征了立体视频中的各个组成部分。然而，空间、时间和深度信息可以共同决定人眼注视位置的程度不同[10]。因此，融合得到的显著性图S d和S st是实现最终显著性预测的关键过程。此外，由于注意力在连续视频帧之间的动态转换[19]，在融合得到的显著性图Sd和S st与特征对比时考虑动态一致性是一种有意义的探索。因此，我们开发了一个基于Conv-LSTM的融合网络，目标是学习生成视频剪辑的最终立体显著性图。该架构如图3所示。具体而言，第n帧的显著性图S n d和S n st被级联成一个向量Vnc后，输入到两个卷积块中。每个卷积块由一个核大小为3×3的卷积层、一个批归一化层、一个relu层和一个最大池化层组成。输出通道数设置为256。0然后，将特征向量F nv作为Conv-LSTM层的输入，生成最终的显著性图。输入特征向量之间的长短期相关性通过最后一帧的两个Conv-LSTM层的记忆单元(M n - 1 1，M n - 1 2)和隐藏状态(H n - 11，H n - 1 2)获得。第n帧的LSTM单元表示为，0I n m = σ(W h i * (H n - 1 m ◦ Q h i) + W f i * (F n v ◦ Q f i) + B i)，0F n m = σ(W h f * (H n - 1 m ◦ Q h f) + W f f * (F n v ◦ Q f f) + B f)，0O n m = σ(W h o * (H n - 1 m ◦ Q h o) + W f o * (F n v ◦ Q f o) + B o)，0G n m = tanh(W h g * (H n - 1 m ◦ Q h g) + W f g * (F n v ◦ Q f g) + B g)，0M n m = F n m ◦ M n - 1 m + I n m ◦ G n m，H n m =O n m ◦ tanh(M n m)，(10)0其中，I n m，F n m和O nm分别表示第m个Conv-LSTM层中第n帧的输入门、遗忘门和输出门。G n m，M n m和H nm分别是候选记忆、记忆单元和隐藏状态。此外，{Q hi，Q h f，Q h o，Q h g}和{Q f i，Q f f，Q f o，Q fg}是卷积操作之前隐藏状态和输入特征的两组随机掩码[19]。因此，通过使用核大小为4×4的两个反卷积层，通过重构最后一个Conv-LSTM层的输出隐藏状态，生成第n帧的最终立体显著性图S n 3 d。03.4.实现细节0所提出的整体框架的训练不是以端到端的方式进行的。PySTSPNet和IDSE-Net分别使用凝视热度图作为groundtruth进行训练，以使这两个网络的输出成为显著性图。这两个模块的参数在Conv-LSTM融合网络的训练过程中保持不变。为了训练PySTSP-Net和IDSE-Net，我们分别使用[28,6]中的预训练模型来初始化卷积层的核参数。采用inv策略[18]来控制学习率，初始化学习率设为0.01。在训练过程中，我们还使用动量为0.9的Adadelta梯度下降法（AGD）和权重衰减0.0005来最小化预测和凝视密度图之间的L1损失。对于基于Conv-LSTM的融合，卷积层的核参数采用截断正态分布进行初始化。在训练阶段，初始化学习率设为10^-5。采用Xavier初始化器来初始化每个LSTM单元中的核参数，而内存单元和隐藏状态初始化为零。训练模型通过最小化预测和groundtruth之间的Kullback-Leibler（KL）散度损失函数来进行约束和更新。97540图4.数据集中复杂场景的示例。（a）杂乱的背景；（b）低对比度；（c）多个物体。04. 立体视频凝视数据库0据我们所知，只有少数几个用于立体视频的凝视数据集[11,7]是公开可用的，总共包含84个视频序列。然而，对于学习具有多样化视频内容的有意义特征来说，大规模的立体视频凝视数据库至关重要。此外，SAVAM数据集[11]只向受试者呈现左视图，因此无法采用所获得的凝视数据来研究立体视频显著性。此外，[7]中的数据集没有提供左右凝视点图，这对于研究立体显著性预测是重要的。在本文中，我们构建了一个新的具有挑战性的数据集，称为SVS数据集。SVS数据集包括175个分辨率为1920×1080的立体视频序列，每个立体序列由左右视图组成。数据集中的视频涵盖了从自然到合成场景的各种真实世界情景。我们还从[11]和[7]的数据集中选择了77个视频序列。在数据收集过程中，视频的持续时间是随机设置的，而不是严格固定所有视频序列的持续时间相同。此外，数据集还包括一些特殊情况，以更好地反映真实世界的场景，例如低对比度、多个物体和杂乱的背景，示例如图4所示。04.1. 数据收集过程0每个立体视频序列以3D左右模式显示在一台27英寸的LG屏幕上，分辨率为1920×1080。在我们的实验中，观看距离设置为63cm。我们使用Tobii ProX3-120来捕捉眼球凝视数据，采样率为120Hz。每个立体视频序列的帧率为25fps。受试者戴着一副被动偏振眼镜观看立体视频序列。由于我们实验中的自由视角设置，受试者可以自由移动头部，以更好地模拟正常的人类观看行为。0图5. 左右视图的凝视密度注释。0根据我们的实验设置，受试者可以自由移动头部，以更好地模拟正常的人类观看行为。0所有立体视频序列被随机分成八组，并以随机顺序进行主观观看。这种随机性也确保了两个相似的视频不会连续播放，以最小化依赖关系的影响。在播放每组视频序列之前进行校准测试。要求受试者重新调整观看位置，以确保他们在观看每组视频时可以保持位置稳定。每个视频序列在播放之前会为受试者提供3秒的缓冲时间。在观看测试期间，受试者被要求在每个视频组开始时休息3分钟，以避免疲劳感。实验中有28名受试者，年龄在18-25岁之间。要求视力正常的受试者保持眼镜清洁，以确保凝视数据的准确性。他们对显著性预测也没有经验，并且对实验的目的一无所知。04.2. 数据处理和异常值去除0在通过眼动仪收集左右视图的眼注视点后，我们使用眼注视位置的坐标创建左右视图的两个注视点图。然而，对于显著性方法来说，对离散注视点的一致性建模是相当困难的。因此，我们对两个注视点图进行高斯模糊，以模拟视网膜上光感受器的非均匀分布。最后，我们可以得到两个注视密度图作为立体视频显著性预测的基准。图5提供了立体视频帧和相应注视密度图的一些样本。97550图6. 从七种不同方法生成的显著性图的比较。最后一列显示了基准。05. 实验结果05.1. 训练和测试数据集0我们提出的立体视频显著性模型是在新建的SVS数据集上进行训练和验证的。特别地，根据9:1的比例，将SVS数据集随机分为训练集和测试集。对于只处理一个视角的PySTSP-Net，将DHF1K的数据与SVS的训练集结合起来，共同提高训练数据的多样性，总共使用860个视频序列进行训练。所有这些视频序列都被分割成具有n个连续帧的剪辑，表示为In= {i1, ..., in}。视频剪辑的空间分辨率被降采样为112 ×112。我们还允许重叠作为训练的数据增强方法。此外，非常长或非常短的视频剪辑长度可能会影响时空一致性的探索。根据经验，我们的实验中将视频剪辑的长度设置为16。此外，提取的包括158个视频序列的训练集被用于训练IDSE-Net。左右视图被输入层用于估计内在深度。对于基于Conv-LSTM的融合网络，PySTSP-Net和IDSE-Net模块的输出被连接作为输入。值得一提的是，左眼注视密度图在所有三个模块的训练阶段都作为基准。05.2. 与最先进方法的比较0在本文中，使用五个指标来衡量显著性检测模型的准确性和相似性[3]。0包括两种ROC曲线下面积（AUC）的变体（表示为AUCJud，AUCBorji），相关系数（CC），相似性度量（SIM）和归一化扫描路径显著性（NSS）。为了验证提出的视觉显著性模型在立体视频上的性能，我们将我们的方法与六种现有的最先进显著性检测模型进行比较，包括Itti等人的方法[17]，GBVS [13]，OMCNN [19]，Static-3D [8]，LBVS-3D[1]和Dynamic-3D[10]。在这些模型中，Itti等人的方法[17]和GBVS[13]是针对2D静态图像提出的。OMCNN[19]方法专注于2D视频。Static-3D[8]是针对3D立体图像的显著性模型。此外，LBVS-3D[1]和Dynamic-3D[10]旨在预测立体视频的显著性分布。在SVS数据集上的比较结果如表1所示。我们提出的模型与最先进的显著性预测方法之间的强竞争性显而易见。此外，Static-3D[8]的性能相对于传统方法如Itti等人的方法[17]和GBVS[13]要好。这可以通过Static-3D[8]中使用的额外深度属性来解释，该属性还提供了关于立体图像和视频深度信息的有用证据的。此外，OMCNN[19]是一种基于深度学习的时空视频显著性检测模型，除了我们提出的模型外，它获得了比其他基准模型更好的性能。这可能源于其他基准模型都利用手工设计的特征来编码图像内容，而没有结合复杂的深度学习方法。97560模型 AUC Jud � AUC Borji � CC � SIM � NSS �0Itti等人的方法[17] 0.7592 0.7518 0.2454 0.2037 1.1173 GBVS[13] 0.8547 0.82680.3432 0.2640 1.5990 OMCNN[19] 0.9066 0.8244 0.5184 0.4068 2.63360Static-3D [8] 0.8743 0.8632 0.3987 0.2568 1.8490 LBVS-3D [1] 0.7376 0.72480.2646 0.1784 1.2574 Dynamic-3D [10] 0.8334 0.8066 0.2987 0.2356 1.4004Proposed-ST 0.8836 0.8088 0.6096 0.4922 3.2075 Proposed-Depth 0.8444 0.79030.4767 0.3704 2.2068 Proposed 0.9201 0.8390 0.6339 0.5171 3.23200表1. SVS数据集上的性能评估。0在显著性推断过程中，使用基于学习的运动信息也可能是解释OMCNN[19]性能优越性的另一个原因。表1提供的五个评估标准的结果显示，我们提出的模型达到了最高的性能，这证明了我们基于学习的显著性方法能够比其他基准模型更好地生成立体视频的显著性分布。为了更好地说明我们提出的模型的优势，我们提供了与最先进的显著性模型的显著性图的比较结果，如图6所示。特别地，我们提出的模型比其他显著性模型更准确地预测了人眼注视位置。我们还可以发现，传统的2D静态方法（Itti等人的方法[17]和GBVS[13]）只能检测到显著对象的模糊轮廓信息。此外，我们可以清楚地看到这两个模型中的一些背景信息被误认为是显著性。对于基于学习的2D动态方法OMCNN[19]，预测准确性仍然不足。这也验证了深度信息可以影响人眼注视位置。如图6所示，很明显Static-3D[8]，LBVS-3D [1]和Dynamic-3D[10]可能将背景信息视为显著性。相比之下，我们的提出的模型学习将空时和内在深度显著性分布相结合，以生成比其他模型更准确的显著性图。05.3. 消融研究0我们进行消融研究来评估我们提出的模型中每个组件的相对影响。在表1中，我们报告了五个评估指标来估计这些组件，包括仅空时组件（标记为Proposed-ST），仅深度组件（标记为Proposed-Depth）和我们提出的完整版本模型。我们发现Proposed-ST的性能优于Proposed-Depth。因此，颜色和运动信息在预测立体视频显著性方面可能起着更重要的作用。然而，这并不意味着深度信息在立体视频显著性推断中无能为力。0这表明深度信息在立体视频显著性推断过程中是有能力的。与Proposed-ST和Proposed-Depth的性能相比，我们提出的完整版本模型的性能更好，优于仅包含单个组件的模型。这表明颜色、运动和深度信息相互作用，影响立体视频显著性的最终预测性能。06. 结论0在本文中，我们提出了一种基于学习的用于立体视频的视觉注意模型，通过单独提取空时、内在深度属性以及它们之间的相互作用来获得显著性。为了从空时角度获取显著性，我们设计了一个金字塔3DConvNet来研究来自空间和时间特征通道的显著性分布。隐式地估计左右视图之间的深度指示还使我们的提出的模型能够有效地推断受深度信息影响的显著性。通过基于Conv-LSTM的融合网络将空时和深度线索的显著性分布相结合，预测出最终的显著性图。实验结果表明，我们提出的模型在新建的SVS数据集上优于所有现有的最先进的显著性检测算法。0致谢0该工作得到了中国国家自然科学基金会的部分支持，合同号61871270，61672443和61620106008，香港研究资助局早期研究者计划资助合同号9048122（CityU21211018），广东省自然科学基金会合同号2016A030310058，深圳大学自然科学基金会资助合同号827000144，中国大数据系统计算技术国家工程实验室资助.[12] S. Goferman, L. Zelnik-Manor, and A. Tal. Context-awaresaliency detection. IEEE Trans. Pattern Anal. Mach. Intell,34(10):1915–1926, 2012. 2[14] X. Hou and L. Zhang. Saliency detection: A spectral residualapproach. In Proc. CVPR, pages 1–8, 2007. 2[16] S. Ioffe and C. Szegedy. Batch normalization: Acceleratingdeep network training by reducing internal covariate shift.Proc. ICML, pages 448–456, 2015. 4[18] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R.Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolu-tional architecture for fast feature embedding. In Proceed-ings of the 22nd ACM international conference on Multime-dia, pages 675–678, 2014. 597570参考文献0[1] A. Banitalebi-Dehkordi, M. T. Pourazad, and P. Nasiopou-los. 一种基于学习的立体3D视频显著性预测模型（LBVS-3D）.Multimedia Tools and Applications , 76(22):23859–23890,2017. 7 , 80[2] N. D. Bruce and J. K. Tsotsos. 用于立体视觉的注意力框架. In Proc. 2nd IEEE Canadian Conf. Comput. Robot Vis. , pages88–95, 2005. 30[3] Z. Bylinskii, T. Judd, A. Oliva, A. Torralba, and F. Durand.不同评估指标对显著性模型的影响. IEEE Trans. Pattern Anal.Mach. Intell. , 41(3):740– 757, 2019. 70[4] C. Chamaret, S. Godeffroy, P. Lopez, and O. Le Meur.基于感兴趣区域的自适应3D渲染. 7524:75240V, 2010. 30[5] M. Cornia, L. Baraldi, G. Serra, and R. Cucchiara.基于LSTM的显著性注意力模型预测人眼注视点. IEEE Trans.Image Process. , 27(10):5142–5154, 2018. 1 , 20[6] A. Dosovitskiy, P. Fischer, E. Ilg, P. Hausser, C. Hazirbas, V.Golkov, P. Van Der Smagt, D. Cremers, and T. Brox. Flownet:用卷积网络学习光流. In Proc. ICCV , pages 2758–2766, 2015.50[7] Y. Fang, J. Wang, J. Li, R. P´epion, and P. Le Callet.用于立体视频的眼动数据库. In Proc. Int. Workshop QualityMultimedia Exper. , pages 51–52, 2014. 60[8] Y. Fang, J. Wang, M. Narwaria, P. Le Callet, and W. Lin.立体图像的显著性检测. IEEE Trans. Im- age Process. ,23(6):2625–2636, 2014. 3 , 7 , 80[9] Y. Fang, Z. Wang, W. Lin, and Z. Fang.结合时空线索和不确定性加权的视频显著性检测. IEEE Trans.Image Process. , 23(9):3910–3921, 2014. 10[10] Y. Fang, C. Zhang, J. Li, J. Lei, M. P. Da Silva, and P. LeCallet. 视觉注意力建模用于立体视频：基准和计算模型. IEEETrans. Image Process. , 26(10):4684–4696, 2017. 2 , 5 , 7 , 80[11] Y. Gitman, M. Erofeev, D. Vatolin, B. Andrey, and F.Alexey. 半自动的视觉注意力建模及其在视频压缩中的应用. InProc. ICIP , pages 1105–1109, 2014. 60[13] J. Harel, C. Koch, and P. Perona. 基于图的视觉显著性. InProc. NIPS , pages 545–552, 2007. 2 , 7 , 80[15] X. Huang, C. Shen, X. Boix, and Q. Zhao. Salicon:通过调整深度神经网络减少显著性预测中的语义差距. In Proc.ICCV , pages 262–270, 2015. 1 , 20[17] L. Itti, C. Koch, and E. Niebur.基于显著性的视觉注意力模型用于快速场景分析. IEEE Trans.Pattern Anal. Mach. Intell. , 20(11):1254

下载后可阅读完整内容，剩余1页未读，立即下载