没有合适的资源?快使用搜索试试~ 我知道了~
深度视频质量评估器:从时空视敏度到A卷积神经聚合网络Woojae Kim1、Jongyoo Kim2、SewoongAhn1、Jinwoo Kim1和Sanghoon Lee1()1延世大学电机电子工学系{wooyoa,anse3832,jw09191,slee}@ yonsei.ac.kr2微软研究院,北京,中国jongk@microsoft.com抽象。将时空人类视觉感知结合到视频质量评估(VQA)中仍然是一个棘手的问题。以前的统计或计算模型的时空感知有局限性,适用于一般的VQA算法。在本文中,我们提出了一种新的全参考(FR)VQA框架,称为深度视频质量评估器(DeepVQA),通过卷积神经网络(CNN)和卷积神经聚合网络(CNAN)量化时空我们的框架,使找出时空敏感性的行为,通过学习,根据主观评分。此外,为了操纵失真的时间变化,我们提出了一种新的时间池方法使用的注意力模型。在实验中,我们展示了DeepVQA显着实现了超过100%的最新预测精度。在LIVE和CSIQ视频数据库上的相关系数比传统方法高出1.5%。关键词:视频质量评估,视觉敏感度,卷积神经网络,注意机制,人类视觉系统,时间池1介绍随着对视频流服务的爆炸性需求,在不可预测的网络条件下提供高质量的视频至关重要。因此,视频质量预测在向用户提供满意的流服务方面起着至关重要的作用。由于视频内容的最终接收者是人,因此有必要开发一种模型或方法来将人的感知渗透到视频质量评估(VQA)的设计中。在本文中,我们试图通过使用卷积神经网络(CNN)对人类视觉系统(HVS)的机制进行当HVS感知视频时,感知质量由空间-时间特性和空间误差信号的组合来确定。例如,可以强调或掩蔽局部失真2W. Kim等人(a) 变形帧1(e)空间误差图(err(c,d))(b) 原始帧1(f)运动图(c -a)(c)扭曲的框架2(g)时间误差图(err((c-a(d)原始帧2(h) 时空敏感图图1:预测灵敏度图的示例:(a)和(c)是一组连续的失真帧;(b)和(d)是(a)和(c)的原始帧;(e)是(c)的空间误差图,由误差函数err(c,d)计算;(g)是与所述离散帧运动映射(f)和所述原始运动映射(d-b)相比较的所述分量映射;(h)是失真帧(c)的预测时空灵敏度图。通过对 独 立 部 件 或 算 法 的 独 立 性 改 进 [1- 3 ] 。 对于图 像 质 量 评 估(IQA),基于深度学习的视觉灵敏度成功应用于提取空间特征的感知行为[3]。 相比之下,视频是包含各种运动属性的连续帧的集合。内容的时间变化强烈地影响HVS的视觉此外,已经在VQA上尝试了几种时间质量池化策略,但是它们中没有一种可以实现如针对IQA所证明的高相关性,这仍然是构建表征时间人类感知的方法的具有挑战性的问题。在这方面,我们探索了一种数据驱动的深度方案,以显着提高视频质量的两个主要动机:时间运动效果和时间记忆的质量判断。时间运动效应。我们的主要动机来自于由视频的空间和时间特性引起的组合掩蔽效应。图图1(a)-(d)示出了一组连续的失真帧及其原始帧,并且图1(e)-(g)示出了(c)中的失真帧的空间误差图、运动图和时间误差图的关键示例每个映射将在第3.2节中详细解释。被视为快照,由无线网络失真引起的若干块伪影在行人周围是明显的,如(a)中所示然而,如果它们在播放视频中显示,则几乎无法观察到它们。这是由于时间掩蔽效应,其解释了当存在大运动时色调、亮度和大小的变化对人类不太可见的现象[4]。另一方面,当运动图中出现严重误差时,如图1所示1(g),空间误差变得对人类更可见深度视频质量评估器3这在视频处理研究中被称为蚊式噪声[5,6]。由于空间误差和运动之间的这些复杂的相互作用,常规IQA方法通常导致失真视频的感知质量的不准确预测。同时,在VQA研究中,已经进行了许多尝试以通过对HVS的时空序列进行建模来解决上述现象[7- 10]。 然而,本发明导致了有限的性能,因为设计考虑HVS的空间和时间行为两者的通用模型是困难的。因此,我们提出了一种自上而下的方法,其中我们首先建立失真和感知分数之间的关系,然后考虑空间和时间因素的像素灵敏度图1(h)是我们的预测时空灵敏度图的示例。黑暗的地区,如pedestrians预测不太敏感的强运动图。1(f),而明亮区域具有图1(f)中的时间误差分量的高权重。1(g)。用于质量判断的时间记忆。此外,作为我们的第二个动机,我们探索了人类在给定视频中帧的质量分数的情况下的回顾性质量判断模式,这在图中得到了证明。二、如果在视频(视频B)中存在严重失真的帧,则人类通常确定其具有比具有均匀质量分布的视频(视频A)更低的质量,即使两者具有相同的平均质量。因此,简单的统计时间池化在VQA中不能很好地工作[1,11,12]。因此,存在对高级时间池化存储器的需求,其可在视频上实时地反映人类的恢复能力。我们称之为深度视频质量评估器(DeepVQA)的框架充分利用了卷积神经网络的优势。为了预测时空敏感度图,采用全卷积模型来提取关于视觉感知的有用信息,该信息嵌入VQA数据库中。此外,我们还通过从一个自动化机器人开发一种新的池化算法,其中一个神经网络模型用于输入的所有特定部分[13 - 15 ]。为了自适应地预测每帧的质量分数,所提出的方案使用卷积运算,我们将其命名为卷积神经聚合网络(CNAN)。我们的池化方法考虑预测分数的分布我们的贡献总结如下:1. 时空灵敏度图是通过自训练来预测的,而不需要HVS的任何先验知识此外,一个时间池化的方法是自适应地执行,通过利用CNAN网络。2. 由于时空敏感度图和时间池权重是作为中间结果导出的,因此能够从逆向工程的角度基于主观和客观分数之间的相关性来推断和可视化人类感知的重要线索,这与基于建模的常规方法完全不同。3. 通过端到端优化实现最先进的性能,人类感知可以通过基于CNN/Attention的完全参考(FR)VQA框架更清楚地验证。4W. Kim等人图2:时间质量变化及其对质量判断的影响的示例2相关作品2.1时空视敏度许多VQA模型已被开发的人类视觉灵敏度。 从这些工作中,掩蔽效应已经由空间分布函数(CSF)解释[16- 18]。由于类似于带通滤波器的时间点CSF,人类对具有非常低或高频率的信号不敏感。因此,如果存在强对比度或运动,则根据掩蔽效应[4,19,20],失真不太明显基于这些观察,已经开发了各种VQA方法。Saad等人。 [7]使用运动相干性和自我运动作为影响时间掩蔽的特征。Mittal等人 [21]介绍了自然视频统计(NVS)理论,该理论基于像素分布会影响视觉灵敏度的实验结果然而,有一个限制,反映复杂的行为的人类视觉系统的视觉敏感度模型,这些先验知识。因此,我们设计了一个基于学习的模型,学习人类的视觉灵敏度自主的视觉线索,影响人类视觉系统。最近,已经尝试通过在I/VQA中使用深度学习来学习视觉灵敏度[3,22,23]。然而,他们在提取质量特征时没有考虑运动特性。因此,在预测大运动方差的影响方面仍然存在局限性。2.2时间池在VQA领域中已经研究了时间质量池化方法如前所述,取平均值的简单策略已在许多VQA算法中采用[24- 26]。其他研究已经分析了所述计算结果,并从HVS的角度自适应地汇集了时间分数[12]。然而,由于这些朴素的池化策略仅利用有限的时间特征,因此难以推广到实际视频。最近,注意力机制已经在机器学习领域中被开发[13,15]。神经网络中的注意机制是基于HVS中的视觉注意基于注意力的方法本质上允许模型聚焦于特定区域并在时间轴上调整焦点受此启发,有一项研究通过注意力特征嵌入来解决时间池[14]。然而,由于它自适应地将权重向量嵌入到每个独立的分数特征向量,因此难以有效地利用该方案来进行计算。深度视频质量评估器5:时空敏感性学习时空敏感度图感知误差图变形帧3213264 64111主观评分4空间误差图321 32帧差异地图80 64:CNAN时间池化帧分数时间权重空间误差图188时间误差图8变形帧参考帧CNN(步骤1)CNAN关注块主观分数141 8图3:DeepVQA的架构该模型将失真帧、空间误差图、帧差图和时间误差图作为输入。步骤1:CNN模型通过平均池化回归到主观得分。步骤2:使用CNAN合并总体帧分数,并回归到主观分数上。由于缺乏对时间分数上下文的考虑而导致视频时间质量池化。相反,我们使用卷积运算来检测分数分布的特定模式,因此它自适应地加权和组合时间分数,如图所示。二、3DeepVQA框架3.1架构视觉灵敏度指示给定空间误差信号的哪个区域对HVS更敏感地学习视觉灵敏度的最直观的方法是提取给定空间误差图的权重图。如第1节所述,视频内容的视觉灵敏度由空间和时间因素确定。因此,通过将包含这些因素的足够信息作为输入,模型能够学习反映空间和时间掩蔽效应的视觉敏感度。所提出的框架如图所示。3 .第三章。在我们的方法中,首先在步骤1中学习时空灵敏度图,然后在步骤2中通过CNAN在时间上聚合每帧的灵敏度加权误差图如图在图3中,CNAN在步骤1中取得一组视频帧分数,并计算单个池化分数作为输出。具有3×3滤波器的深度CNN用于步骤1,其灵感来自最近基于CNN的IQA工作[3]为了在不丢失位置信息的情况下生成时空灵敏度图,该模型仅包含卷积层。在开始时,失真的帧和空间误差图被馈送到空间灵敏度表示。此外,该模型考虑到时间因素的帧差和时间误差图每组输入级联6W. Kim等人RDSTRD映射经过独立的卷积层,并且特征映射在第二卷积层之后被在每个卷积之前应用零填充以保留特征图大小。二阶卷积用于子采样。因此,与原始帧的大小相比,最终输出的大小是1/4,并且地面实况空间误差图相应地缩小到1/4。在步骤1中的模型结束时,使用两个完全连接的层将特征回归到主观分数上。在步骤2中,使用步骤1中预先训练的CNN模型来训练所提出的CNAN,并且回归到主观视频分数上,如图1B所示3 .第三章。一旦每个特征独立地从先前的CNN导出,它们就被馈送到CNAN中。通过CNAN,聚合得分产生最终得分。然后,使用两个完全连接的层来回归最终得分。帧归一化。从HVS的角度来看,图中的每个输入。3进行预处理,以突出必要的属性。由于CSF显示带通滤波器形状,峰值在每度约4个周期,并且灵敏度在低频处迅速下降[27]。因此,通过从其灰度缩放帧中减去低通滤波帧来简单地归一化失真帧(r_an_n[0,1])。ThenormalizedframesaredenotdbyyItandIt对于给定失真It和参考It帧,其中t是帧索引。Dr基于补丁的视频学习。在之前基于深度学习的IQA中W或K,如图所示,应用程序可充分应用[3,23,28- 30 ]。在我们的模型中,每个视频帧被分成补丁,然后提取一帧中的所有敏感补丁。接下来,这些被用于重建灵敏度图,如图1所示。3.第三章。为了避免预测的感知误差图的重叠区域,滑动窗口的步长被确定为步长补丁=大小补丁-(Nign×2×R),其中Nign是被忽略的像素的数量,并且R是输入和感知误差图的大小比。在实验中,被忽略的像素Nign被设置为4,和补丁大小大小补丁为112 112。为了训练模型,将一个视频分成多个补丁,然后将其在步骤1中,每个视频12帧被均匀采样,并且在步骤2中使用120帧来训练模型。3.2时空敏感性学习时空灵敏度学习的目标是导出给定误差图的每个像素的重要性为了实现这一点,我们利用扭曲的帧和空间误差图的空间因素。此外,帧差和时间误差图被用作时间因子。我们将空间误差图et定义为如[3]中的归一化对数差,log(1/((It−It)2+/2552)e=,(1)Slog(2552/sec)其中对于实验,= 1。为了表示运动图,沿着连续帧计算帧差。由于每个视频包含不同的每秒帧数(fps),因此考虑fps变化的帧差图为深度视频质量评估器7Spp图4:卷积神经聚合网络的架构simplydefinedasf t=|It+δ−It|其中δ=10fp s/25Ω。在一个很棒的地方Dd d时间误差图,其是失真和参考帧定义为|ft− ft|,其中ft是Td r r参考帧的帧差。然后,从步骤1的CNN模型获得st=CNNs1(It,et,f t,et;θs1),(2)dSdT其中CNNs1是具有h参数sθs1的s t p 1的C NN 模 型。TocalculJatea全局对象定义了一个框架,通过pt =stet et定义了该特性映射,其中是元素级乘积。因为我们在每个卷积之前使用零填充,所以我们忽略了倾向于为零的边界排除每个边框的每四行和列实验中因此,空间分数µt是通过平均裁剪感知误差图t1=p(H−8)·(W−8)Σ(i,j)∈Ωpt,(3)其中H和W是p的高度和宽度,(i,j)是裁剪r egionΩ. 此,Σsccc eistep1是通过一个veragepo oolgoverspatial获得的分数为µs1=tµt。然后,将汇集的分数馈送到两个完全连接的层以重新缩放预测。然后定义通过损失函数和正则化项的加权求和,Lstep1((I d,eS,fd,eT;θs1,φ1)=||fφ(µs1)−ssub||2+λ1T V+λ2L2,12其中,f(·)是关于参数φ1的真实函数,并且ssub是失真视频的真实主观分数。此外,使用参数的总变差(TV)和L2范数来减轻时空灵敏度图中的高频噪声并避免过拟合[3]。λ1和λ2分别是它们的权重参数3.3卷积神经聚合网络在步骤1中,感知误差图在空间和时间轴上的平均值被回归到全局视频分数。如前所述,简单地应用平均值mCNAN注意障碍μPஉஉ ଷஉ ଷM3m2 m1உeଵଶଷସωμPm1 ଵ ଵm2 m1߱ଵ Ԣଵஉ ଶஉ ଶm3 m2 m1உ߱߱ଶ ԢଶAGGREGATEDஉଷ Ԣଷ评分உ ସ ସm3 m2உஉ߱ସൈ◌ ԢஉସσM3M1M2௧M3 ௧输入对共享深度模型(步骤1)ŘŘŘŘŘŘŘŘŘŘŘŘŘŘŘŘŘŘŘŘص8W. Kim等人合并导致不准确的预测。 为了解决这个问题,我们在第2步中使用CNAN对一个框架的预处理进行了改进。记忆注意力机制已成功应用于各种应用程序中,以解决问题[13-15 ]。如图所示,CNAN被设计为预测所有帧分数上的分数判断的人类模式。其基本思想是使用卷积神经模型通过可区分的寻址/注意方案来学习外部然后,学习的备忘录自适应地加权并组合所有帧上的分数。图图4示出了用于时间池化的CNAN的架构步骤1中的总帧分数由单个向量µp表示。然后我们使用记忆核在注意力块中定义一组相应的重要性eM. 为了生成有效性e,使用存储器内核m对给定的µp执行一维卷积换句话说,显著性被设计为学习在某个过滤器长度期间的分数变化的特定模式。这个运算可以描述为一个简单的卷积e= m*µp。为了保持权重的维数等于μp,我们在inputμp的边 界填充 零。这一年是Σp作为最大操作或存储点的一部分时间权重ωttωt=1 asexp(et)ωt= Σ。(四)jexp(ej)最后,从注意块导出的时间权重ωt被应用于在最终聚集器处的e或iginsc或e的向量t或向量t,因为μs2=ωtµt。因此,步骤2中的目标函数表示为tpLstep2((I d,eS,fd,eT;θs1,φ2)=||fφ(µs2)−ssub||2(五)22其中,fφ2(·)表示与参数φ2有关的线性函数,并且θs1为步骤1中的参数4实验结果由于我们的目标是学习时空敏感性并通过CNAN聚合帧分数,因此我们选择了仅采用两个空间输入的基线模型(DeepQA [3])。此外,为了研究时间输入的影响,定义了没有CNAN的DeepVQA的两个更简单的模型。首先,DeepVQA-3ch仅采用两个空间输入和帧差图。第二,DeepVQA-4ch获取所有输入映射。对于两种模型,按照步骤1所我们将完整的模型表示为DeepVQA-CNAN。4.1数据集为了评估所提出的算法,使用了两个不同的VQA数据库:[11]和CSIQ[31]数据库。LIVE VQA数据库包含10个参考文献和150个失真视频,有四种失真类型:无线、IP、深度视频质量评估器9(D)(E)(c)(G)(H)(I)(J)(K)(i)(j)(N)(O)(P)(Q)(R)(S)(T)(U)(V)(W)图5:预测灵敏度图的示例;(a)、(f)、(k)和(p)是具有无线、IP、H.264压缩和MPEG-2压缩的失真帧;(b)、(g)、(l)和(q)是客观误差图;(c)、(h)、(m)和(r)是帧差图;(d)、(i)、(n)和(s)是时间误差图;(e)、(j)、(o)和(t)是预测的空间-时间灵敏度图。H.264压缩和MPEG-2压缩失真。CSIQ数据库包括12个参考文献和216个失真视频,其中包括六种失真类型:运动JPEG(MJPEG)、H.264、HEVC、使用SNOW编解码器的小波压缩、模拟无线网络中的分组丢失和加性高斯白噪声(AWGN)。在实验中,地面实况主观评分被重新调整到范围[0,1]。对于差分平均意见得分(DMOS)值,它们的尺度被颠倒,使得较大的值指示感知上更好的视频。根据视频质量专家组的建议[32],我们使用两种标准方法评估了所提出算法的性能,即:例如,空间秩相关系数(SROCC)和4.2时空灵敏度预测为了研究经训练的DeepVQA- 4ch与HVS的相关性,预测的空间-时间灵敏度图在图1B中示出。 五、这里,DeepVQA-4ch 是用λ1=0.02,λ2=0.005训练的。具有四种类型的伪影(无线、IP、H. 264和MPEG-2)的示例帧在图1A和1B中表示。5(a)、(f)、(k)和(p)。图图5(b)、(g)、(l)和(q)是空间误差图,(c)、(h)、(m)和(r)是帧差图,(d)、(i)、(n)和(s)是时间误差图,以及(e)、(j)、(〇)和⑴是预测灵敏度图。在图5中,较暗的区域指示像素值较低。在无线和IP失真的情况10W. Kim等人帧质量评分时间权重帧质量评分时间权重时间权重(m)帧评分(S)10.01310.0120.0130.0120.50.0110.50.0110.010.0100.0090 10 20 30 40 50 6000.0090 10 20 30 40 50 60帧Frame(a)(b)第(1)款图6:来自CNAN的帧质量分数μp及其时间权重ω的示例。 (a)显示第60幅“st02 25f p s. 你在生命中,在生命中(b) 显示60帧“m c13 50f p s”。你在生活中的生活是这样的。时间误差((d)和(i))在整个区域中是大的。由于人类对该运动变化线索非常敏感,因此预测的敏感度值((e)和(j))在所有区域中都很高。相反,对于H.264和M-JPEG 2失真,时间误差((n)和(s))相对低于无线和IP失真的时间误差在这种情况下,包含运动信息的帧差图是预测灵敏度图的主导因素。在图5中,在视频中跟踪前景对象。因此,运动图((m)和(r))在背景区域中,具有比对象的值更高的值。最后,预测灵敏度图((o)和(t))中的背景区域的值相对较低。这些结果与以往关于时间掩蔽效应的研究一致,而仅仅考虑空间掩蔽效应是不能得到时间掩蔽效应的。因此,可以得出结论,时间信息,以及空间误差,是重要的量化视频的视觉质量。4.3CNAN时间池化为了评估CNAN,我们分析了在注意力块中计算的时间池权重ω与步骤1中计算的归一化空间得分μp之间的关系。这里,核的大小m被实验性地设置为21×1。图图6(a)和(b)显示了µp(直线)及其时间权重ω(虚线)的两个预测时间分数分布。在图6(a)中,分数倾向于大约每5帧急剧上升或下降。相反,当预测分数低时,时间权重具有较高的值。这是因为,如第1节所述,人类评级受到负面峰值体验的影响比总体平均质量[7,12]更大。因此,很明显,学习的模型模仿了人类的时间池化机制。图6(b)示出了除了中间区域之外,分数均匀分布。如前所述,CNAN通过存储器内核m示出了针对特定模式的滤波器响应。因此,单调输入信号的滤波器响应也趋于单调。然而,在接近第30帧时当帧分数突然改变时,时间池化权重ω较大。因此,CNAN能够适当地反映评分行为并导致表3和4中的性能改进。帧评分(S)时间权重(m)深度视频质量评估器11表1:根据LIVE数据库中的采样帧的数量的计算成本和中值SROCC的比较采样帧数6 12 48 120SROCC(120epochs)0.8787 0.8812 0.8772 0.8704计算时间(1 epoch)69s201s796s1452s表2:LIVE视频数据库(SROCC)上的交叉数据集比较。型号无线IPH.264 MPEG-2全DeepVQA-4通道0.81340.8023 0.87260.8439 0.8322DeepVQA-CNAN0.8211 0.8214 0.87480.8624 0.84374.4帧数与计算量用于训练DeepVQA模型的视频帧的数量对计算成本有很大影响。如图6中,尽管质量分数对于每个帧变化,但是分布示出了某些模式。因此,通过仅使用几个采样帧来预测质量分数为了研究计算成本,我们测量性能-10.90.80.70.6612481200 20 40 60 80100120历元根据采样率进行管理在模拟中,一台由泰坦X驱动并配备Theano的机器。在图2中描绘了具有4个子集帧(6、12、48和120)的130个时期上的SROCC。7.第一次会议。当采样帧图7:根据采样帧的数量(6、12、48 和 120 帧 ) 的 SROCC 曲 线 的 比较。12例,SROCC略高于其他病例。更快的收敛速度然而,当采样帧为120时,模型在70个历元后出现过拟合,表现出性能下降。如表1所示,当使用包含少量帧的视频子集时,DeepVQA显然显示出更高的性能和更低的4.5消融研究我们验证消融的每个输入地图和CNAN在我们的框架。为了评价消融集 , 我 们 在 LIVE 和 CSIQ 数 据 库 上 测 试 了 每 个 模 型 ( DeepQA(2ch[3])、DeepVQA-3ch、DeepVQA-4ch和DeepVQA-CNAN)实验设置将在第4.6节中解释,比较结果列于表3和表4中。仅使用失真帧和空间误差图的DeepQA [3]产生的性能低于DeepVQA-3ch和4ch。由于DeepQA仅推断空间掩蔽效应的视觉灵敏度,因此然而,设计用于推断时间运动效果的DeepVQA-3ch和4ch的性能逐渐改善。此外,结合CNAN的DeepVQA模型表现出最高的性能,因为它考虑了人类的质量判断模式SROCC12W. Kim等人(a)(b)(c)(d)(e)(f)第(1)款(g)(h)图8:具有不同通道输入的预测灵敏度图的示例(a)是扭曲的框架;(b)是原始帧;(c)该帧是否与─(d)是时间误差图;(e)是空间误差图(f)-(h)是其分别来自DeepQA(2ch)[3]、DeepVQA-3ch和DeepVQA-4ch的预测灵敏度图。为了研究每个通道输入的效果,我们可视化了不同通道输入的时空灵敏度图图图8示出了具有不同信道输入的预测图图8(a)、图8(b)和图8(e)分别是失真帧、其原始帧和空间误差图。与图在图8(f)中,灵敏度图的局部区域看起来类似于空间阻挡伪影。然而,当帧差图(图。 8(c))被添加到如图所示的模型中。如图8(g)所示,如我们所预期的,对于具有强运动的区域(较暗区域),灵敏度降低。最后,如图。8(h),当所有四个输入包括时间误差图(图8(h))时。8(d)),学习灵敏度图以考虑如第1节中所描述的所有运动效应。此外,随着通道数量的增加,预测的灵敏度图趋于更平滑,这与HVS很好地一致[3]。4.6性能比较为了评估性能,我们在LIVE和CSIQ数据库上将DeepVQA与最先进的I/VQA方法进行了比较。我们首先将参考视频随机分为两个子集(80%用于训练,20%用于测试),并以相同的方式划分相应的失真视频,以便两组之间没有重叠。DeepVQA以非失真特定的方式进行训练,使得同时使用所有失真类型步骤1(步骤2)的训练阶段迭代300(20)个时期,然后在时期上选择具有最低验证误差的模型步长精度1在200个历元之后大部分饱和,如图所示。7.第一次会议。测试模型的相关系数为20个重复实验的中值,同时随机划分训练集和测试集以消除性能偏差。将DeepVQA-3ch、DeepVQA-4ch和DeepVQA-CNAN与FR I/VQA模型进行了比较:PSNR、SSIM [33]、VIF [34]、ST-MAD[35]。深度视频质量评估器13表3:LIVE VQA数据库上的中位PLCC和SROCC比较斜体表示完全参考(FR)方法。度量PLCCSROCC无线IPH.264 MPEG-2所有无线IPH.264 MPEG-2 所有PSNR0.72740.6395 0.73590.65450.74990.73810.6000 0.71430.63270.6958SSIM[33]0.79690.8269 0.71100.78490.78830.73810.7751 0.69050.78460.7211VIF[34]0.74730.6925 0.69830.75040.76010.71430.6000 0.54760.73190.6861STMAD[35]0.8887 0.8956 0.92090.89920.87740.82570.7721 0.93230.87330.8301ViS3[36]0.85970.8576 0.78090.76500.82510.82570.7712 0.76570.79620.8156电影[25]0.83920.7612 0.79020.75780.81120.81130.7154 0.76440.78210.7895V盲[7]0.9357 0.9291 0.90320.87570.84330.84620.7829 0.85900.93710.8323萨康瓦[26]0.84550.8280 0.91160.87780.8714 0.8504 0.8018 0.91680.86140.8569DeepQA[3]0.80700.8790 0.88200.88300.86920.82900.7120 0.86000.89400.8678DeepVQA-3ch0.87230.8661 0.9254 0.92220.87540.8376 0.8615 0.9014 0.95430.8723DeepVQA-4ch0.88670.8826 0.9357 0.9416 0.8813 0.8494 0.8716 0.9193 0.9664 0.8913DeepVQA-VQPooling----0.8912----0.8987DeepVQA-CNAN0.8979 0.8937 0.9421 0.9443 0.8952 0.8674 0.8820 0.9200 0.9729 0.9152表4:CSIQ VQA数据库上的中位PLCC和SROCC比较斜体表示完全参考(FR)方法。度量PLCCSROCCH.264视频编码MJPEG小波AWGN HEVC所有H.264Ploss MJPEG小波AWGN HEVC所有PSNR0.9208 0.82460.67050.9235 0.9321 0.9237 0.71370.8810 0.78570.61900.88100.8333 0.8571 0.7040SSIM[33]0.9527 0.84710.80470.8907 0.9748 0.9652 0.76270.9286 0.83330.69050.8095 0.9286 0.9148 0.7616VIF[34]0.9505 0.9212 0.91140.9241 0.9604 0.9624 0.72820.9048 0.85710.80950.85710.8810 0.9012 0.7256STMAD[35]0.9619 0.87930.89570.87650.8931 0.9274 0.82540.9286 0.83330.83330.80950.8095 0.8810 0.8221ViS3[36]0.9356 0.82990.81100.9303 0.9373 0.9677 0.81000.9286 0.80950.78570.90480.8571 0.9025 0.8028电影[25]0.9035 0.88210.87920.89810.8562 0.9372 0.78860.8972 0.8861 0.88740.90120.8392 0.9331 0.8124V盲[7]0.9413 0.76810.85360.90390.9318 0.9214 0.84940.9048 0.74810.83330.8571 0.9048 0.8810 0.8586萨康瓦[26]0.9133 0.81150.85650.85290.9028 0.9068 0.86680.9048 0.78400.78570.83330.8810 0.8333 0.8637DeepQA[3]0.8753 0.84560.84600.9103 0.9423 0.9213 0.87230.8921 0.9013 0.86230.8010 0.9021 0.9566 0.8752DeepVQA-3ch0.9398 0.9009 0.91590.86210.8090 0.8756 0.8827 0.9622 0.9501 0.81030.9134 0.8145 0.9718 0.8854DeepVQA-4ch0.9579 0.9241 0.93750.88560.8271 0.8894 0.9013 0.9732 0.9662 0.83900.9344 0.8314 0.9925 0.9043DeepVQA-4ch-VQPooling------0.9057------0.9067DeepVQA-4ch-CNAN0.9633 0.9335 0.94010.88530.8153 0.8897 0.9135 0.9777 0.9672 0.8510 0.9243 0.8106 0.9950 0.9123[36][37][38]对于IQA指标(PSNR、SSIM、VIF和DeepQA),我们对每个帧分数取平均池化以获得视频分数。此外,对无参考(NR)VQA模型进行了基准测试:V- BLIINDS [7],SACONVA [26]. 为了验证时间池化性能,我们进一步比较现有的时间池化方法:VQPooling [12].表3和表4显示了LIVE和CSIQ数据库上单个畸变类型的PLCC和SROCC比较。每个标签中的最后一列-ble报告所有失真类型的总体SROCC和PLCC,每个标准的前三个模型以粗体显示。由于我们提出的模型是一个非失真特定的模型,该模型应该工作以及整体性能时,各种失真类型共存于数据集中。在我们的实验中,DeepVQA-CNAN在所有数据库中实现了总体失真类型的最高SROCC和PLCC。此外,DeepVQA-CNAN在大多数失真类型中通常具有竞争力,即使在单独评估每种类型的失真由于LIVE和CSIQ中的大多数失真类型都是由视频压缩引起的失真,这会导致局部块效应,因此14W. Kim等人数据库中的许多时间错误。由于这个原因,时空灵敏度图在大尺度块失真类型中被过度激活,例如图1B。5(j).因此,DeepVQA在面对无线和IP失真(包括大尺寸的块效应)时的性能相对较低。如表4所示,由于AWGN仅引起空间失真,因此与具有块效应的其他类型相比,它显示出尽管如此,DeepVQA在所有数据库中实现了具有竞争力和一致性的准确性。此外,比较DeepVQA-4ch和DeepQA,我们可以推断使用时间输入有助于模型提取有用的特征,从而提高准确性。此外,与DeepVQA-4ch相比,VQPooling(DeepVQA-VQPooling)显示出轻微的改善,但CNAN显示出大约〜 2%的改善。因此,可以得出结论,经由CNAN的时间池化提高了整体预测的性能。4.7交叉数据集检验为了测试DeepVQA的泛化能力,该模型使用CSIQ视频数据库的子集进行训练,并在LIVE视频数据库上进行测试。由于CSIQ视频数据库包含更广泛种类的失真类型,因此我们选择了LIVE数据库中类似的四种失真类型(H.264、MJPEG、PLoss和HEVC)。结果在表2中示出,其中DeepVQA和DeepVQA-CNAN都显示出良好的性能。我们可以得出结论,这些模型不依赖于数据库。5结论在本文中,我们提出了一种新的FR-VQA框架,使用CNN和CNAN。通过结合空间和时间效应学习人类视觉行为,证明所提出的模型能够从人类感知的角度学习时空灵敏度此外,使用CNAN的时间汇集技术预测了人类的时间评分。通过严格的模拟,我们证明了预测的灵敏度图与HVS一致。对各种运动和失真类型的空间-时间灵敏度图进行鲁棒预测。此外,DeepVQA在LIVE和CSIQ数据库上实现了最先进的相关性。在未来,我们计划推进建议的框架NR-VQA,这是最具挑战性的问题之一。谢 谢 。 这 项 工 作 得 到 了 韩 国 政 府 信 息 通 信 技 术 促 进 研 究 所(MSIP)的支持(No. 2016-0-00204,开发用于照片级实时虚拟现实的移动GPU硬件)深度视频质量评估器15引用1. Ninassi,A.,Le Meur,O. Le Callet,P.,Barba,D.:视频质量评估中考虑空间视觉失真的时间变化。IEEEJournalofSelectedTopicsinSIGNALProcessing3(2)(2009)2532. Bovik,A.C.:感知图像和视频质量的自动预测。2008年至2024年第101(9)(2013)号法律公告3. 金,J.,Lee,S.:图像质量评估框架中人类视觉敏感度的深度学习In:Proc. IEEE Conf. Comput.目视模式识别。(CVPR)。(2017年)4. Suchow , J.W., 阿 尔 瓦雷 斯 , G.A.: 运 动 会抑 制 视 觉 变 化的 意 识 。CurrentBiology21⑵(2011)1405. 费尼莫尔角Libert,J.M.,Roitman,P.:mpeg压缩视频中的蚊子噪声国际光学工程学会; 1999(2000)号决议第604- 612段6. Jacquin,A.,Okada,H.,克劳奇,P.:用于极低比特率的内容自适应后滤 波 。 In : DataCompr ssi onConference , 1997. 97 年 的 DC 等 , IEEE(1997)1117. 萨阿德,硕士,Bovik,A.C.,Charrier,C.:自然视频质量的盲预测。IEEETransacti o nso nImageProcessi ng23⑶(2014)13528. Manasa,K.,Channappayya,S.S.:一种基于光流的全参考视频质量评估方法。ImageProcessing25(6)(2016)24809. 金,T.,Lee,S.,Bovik,A.C.:三维立体影像视觉不适生理机制之传递函数模型。IEE ETransacti onsonImageProcessing24(11)(2015)433510. 金,J.,Zeng,H.,Ghadiyaram,D.,Lee,S.,张,L.,Bovik,A.C.:用于图片质量预测的深度卷积神经模型:数据驱动图像质量评估的挑战和解决方案。IEEE Signal Processing Magazine 34(6)(2017)13011. Seshadrinathan,K.,松达拉扬河Bovik,A.C.,Cormack,L.K.:视频主客观质量评价方法研究。IEEE图像处理学报19(6)(2010)142712. 帕克,J.,Seshadrinathan,K.,Lee,S.,Bovik,A.C.:自适应感知失真严重性的视频质量池化IEEE Transacti
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功