没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文FAST-VQA:采用片段采样的吴浩宁1、 2、 3,陈超峰1、 2,侯敬文2,廖良1、 2,王安南1、 2,孙文秀3,严琼3,林伟思21南洋理工大学S-Lab2南洋理工大学计算机科学与工程学院3商汤研究和Tetras AIhaoning001@e.ntu.edu.sg抽象的。目前的深度视频质量评估(VQA)方法在评估高分辨率视频时通常具有较高的计算成本。这种成本阻碍了他们通过端到端培训学习更好的视频质量相关表示 现有的方法通常考虑朴素采样,以减少计算成本,如裁剪和裁剪。然而,它们显然破坏了视频中与质量相关的信息,因此对于学习VQA的良好表示不是最佳的。因此,迫切需要为VQA设计一种新在本文中,我们提出了网格小补丁采样(GMS),它允许考虑本地质量的采样补丁在其原始分辨率和覆盖全局质量的上下文关系,通过均匀网格中采样的小补丁这些小补丁拼接和对齐的时间,命名为片段。我们进一步构建了片段注意力网络(FANet),专门设计用于将片段作为输入。 由片段和FANet组成,所提出的用于VQA的片段样本Transformer(FAST-VQA)能够实现高效的端到端深度VQA,并学习有效的视频质量相关表示。它将最先进的精度提高了约10%,同时减少了99。1080P高分辨率视频的5% FLOPS新学习的视频质量相关表示也可以转移到更小的VQA数据集中,并提高这些场景的性能。大量的实验表明,FAST-VQA在保持高效率的同时,对各种分辨率的输入都有良好的性能我们在https://github.com/timothyhtimothy/FAST-VQA上发布代码。关键词:视频质量评估,片段,质量保持采样,端到端学习,最新技术,高效率1介绍每天,越来越多的各种内容的视频被收集并上传到互联网上。随着高清视频记录设备的增长,这些视频中越来越多的视频是高分辨率的(例如,≥1080P)。经典的视频质量评估算法arXiv:2207.02595v1 [cs.CV] 2022年7+v:mala2255获取更多论文×××2H. Wu等人210168126(~ 870 GB):内存成本基线(Swin-T)VSFA(R50)PVQ(R18+R3D-18)FAST-VQA(Ours)(~832GB)(~870GB)84(~208GB)(~354GB)(~368GB)(~267GB)原始帧42(~225GB)(~121GB)(~69GB)0(9.3GB)调整大小损坏裁剪错配片段保留本地质量&540P 720P1080P当地质量全球质量统一的全球质量决议(a) 不同分辨率下的浮点数和内存开销建议的朴素抽样方法(b) 抽样方法图1:片段的动机:(a)现有VQA方法的计算成本(批量大小为4的FLOPs内存)很高,特别是在高分辨率视频上。(b) 取样方法。简单的方法,如裁剪[17,43]和裁剪[14,15]不能很好地保持视频质量放大以获得更清晰的视图。手工制作的特征难以处理这些具有多样化内容和降级的视频近年来,基于深度学习的VQA方法[22,23,40,8,42,21]在野外VQA基准测试中表现出更好的性能[32,12,38,40]。然而,当应用于高分辨率视频时,深度VQA方法的计算成本以二次方增加,并且大小为10801920的视频将需要42。5浮点运算(FLOP)比正常的224 224输入(如图1(a)所示),限制了这些方法的实际应用。因此,迫切需要开发新的有效和高效的VQA方法。同时,由于图1(a)中指出的高内存成本,现有方法通常使用从预训练网络中提取的固定特征回归质量分数用于分类任务[11,33,10],以缓解GPU上的内存短缺问题,而不是端到端训练,防止它们学习更好地表示质量信息视频质量相关表示并限制其准确性。现有方法通过裁剪[17,43]或裁剪[14,15](如图1(b)所示)对图像或视频应用朴素采样,以降低此成本并实现端到端训练。然而,它们都在采样期间引起人为的质量损坏或变化,例如,裁剪会破坏对预测视频质量很重要的局部纹理,而裁剪会导致全局质量与局部区域不匹配。此外,这些问题的严重性随着视频的原始分辨率而增加,使其不适合VQA任务。为了提高深度VQA方法的实际效率和训练效果,我们提出了一种新的采样方案,网格小块采样(GMS),以保持对原始视频质量的敏感性GMS将视频切割成空间上均匀的非重叠网格,从每个网格中随机采样一个小块,然后将小块拼接在一起。在时间视图中,为了保证敏感性,我们限制了小块的位置以跨帧对齐FLOP(时间,相对于FAST-VQA)+v:mala2255获取更多论文FAST-VQA 3原始帧片段放大面片评分=37.38评分=66.58视频5评分=38.24 严重震动视频(a) 碎片的空间视图评分=71.71评分=86.33视频6评分=74.54 相对稳定的射击(b) 片段的时间观时间时间图2:片段,在空间视图(a)和时间视图(b)中。放大小块的视图表明,片段可以保留空间局部质量信息(a),并发现时间变化,例如跨帧的抖动(b)。在(a)中,拼接的小块也保持原始帧的全局场景信息。关于时间变化。我们将这些时间上对齐和空间上拼接的小补丁命名为碎片。如图2所示,所提出的片段可以很好地保持对空间和时间质量的敏感性。首先,它保留局部纹理相关的质量信息(例如,,发生斑点模糊在视频1/2中)通过在补丁中保留原始分辨率。其次,得益于全局均匀采样的网格,即使不同区域具有不同的质量(例如,,视频3)。第三,通过拼接的小补丁,碎片保持补丁的上下文关系,使模型可以学习全局场景信息的原始帧。最后,通过时间对齐,片段通过保留原始分辨率的小块中的帧间变化来保持时间质量敏感性,因此它们可以用于发现视频中的时间失真并区分严重抖动的视频(例如,视频5)从相对稳定的镜头(例如,,视频6)。然而,使用所提出的片段作为输入来构建网络是不平凡的该网络应遵循两个原则:1)它应该更好地提取保留在片段中的质量相关信息,包括原始分辨率补丁内保留的局部纹理和拼接小补丁之间的上下文关系; 2)它应该区分片段中小补丁之间的人为不连续性和原始视频中真实的质量下降基于这两个原则,我们提出了一个片段注意力网络( FANet ) , 视 频 Swin Transformer Tiny ( Swin-T ) [27]作 为 骨 干 。Swin-T具有分层结构,并使用分片操作处理输入,这自然适合于处理所提出的片段。33322211112放大面片344466655545放大面片6视频1视频3视频2视频4+v:mala2255获取更多论文不同颜色的像素表示它们来自不同的迷你补丁。跨补片内补片Attention Pair注意对DB自注意窗放大EC一远实际距离接近实际距离自注意窗(a)GRPB的动机区分跨补丁内注意对(b)IP-NLR负责人的动机:贴片具有多种品质一4小时Wu等人CB一个DE图3:FANet中两个拟议模块的动机:(a)门控相对位置偏差(GRPB);(b)斑块内非线性回归(IP-NLR)头。两个模块的结构如图所示。五、此外,为了避免小块之间的不连续性对质量预测的负面影响,我们提出了两个新的模块,即。、门控相对位置偏差(GRPB)和块内非线性回归(IP-NLR),以分别校正FANet中的自我注意计算和最终得分回归具体地,考虑到相同注意力窗口中的一些对可能具有相同的相对位置(例如,,图3(a)A-C,D-E,A-B),但是在原始视频中跨块注意力对(A-C,D-E)实际距离远,而块内注意力对(A-B)实际距离近得多,我们提出GRPB来明确区分这两种注意力对,以避免混淆块之间的不连续性和真实视频伪影。此外,由于不连续性,不同的小块包含不同的质量信息(图3(b)),因此在现有方法中应用的评分回归之前的池化操作可能会混淆信息。为了解决这个问题,我们设计了IP-NLR作为一个质量敏感的头,它首先回归的质量分数的迷你补丁独立的非线性层和池后的回归。总 之 , 我 们 提 出 了 用 于 VQA 的 片 段 样 本 Transformer ( FAST-VQA),具有以下贡献:1. 我们提出了片段,一个新的采样策略VQA,通过统一的网格小补丁采样(GMS)保持本地质量和无偏的全球质量与上下文关系。这些片段可以将评估1080P视频的复杂性降低97.6%,并通过保留质量的视频样本实现VQA的有效2. 我们提出了片段注意力网络(FANet)来从片段中学习局部和上下文质量信息,其中提出了门控相对位置偏差(GRPB)模块来区分片内和跨片自注意,提出了片内非线性回归(IP-NLR)来从片段中进行更好的质量回归。3. 所提出的FAST-VQA可以通过端到端训练有效地学习视频质量相关的表示。这些质量特性帮助FAST-VQA比现有的最先进的方法准确10%,比具有固定识别特性的全分辨率Swin-T基线好8%。通过迁移学习,这些质量特征还显著提高了小型VQA数据集的最佳基准性能+v:mala2255获取更多论文FAST-VQA 52相关作品经典VQA方法经典VQA方法[31,29,20,36,35,25]手工制作的功能来评估视频质量。在最近的作品中,TLVQM [20]使用了空间高复杂度和时间低复杂度手工特征的组合,VIDEVAL [36]融合了不同的手工特征来模拟不同的真实失真。然而,影响视频质量的原因相当复杂,并且无法很好地捕捉这些手工制作的功能。基于固定特征的深度VQA方法由于深度网络对高分辨率视频的计算成本极高ODS仅训练具有固定深度特征的特征回归网络。 其中,VSFA [22]使用预先训练的ResNet-50 [11]从ImageNet-1 k [5]和GRU [4]中提取的特征进行时间回归。MLSP-FF [8]还使用更重的Inception-ResNet-V2 [33]进行特征提取。 一些方法[40,41]使用用IQA数据集[13,39]预训练的特征提取器。PVQ [40]还提取了在动作识别数据集[16]上预训练的特征,以更好地消除帧间失真。这些方法受限于它们在高分辨率视频上的高计算成本。此外,在没有端到端训练的情况下,由其他任务预训练的固定特征对于提取质量相关信息来说不是最佳的,这也限制了质量评估的准确性VQA数据集选项卡。1显示了常见的VQA数据集,其他视频数据集及其大小。早期的VQA数据集[30,7]是用专门的扭曲合成的,体积非常小。最近的一些野外VQA数据集,如KoNViD-1 k [12],YouTube-UGC [38]和LIVE-VQC[32]仍然是其他视频任务的小数据集,如[16,2,9]。最近,LSVQ[40],一个包含39,076个视频的大规模VQA数据集公开可用。 通过对所提出的FAST-VQA的端到端深度学习,可以将在大规模LSVQ数据集上学习的视频质量相关特征转移到较小的VQA数据集中以达到更好的性能。表1:VQA和其他视频任务中的常见数据集大多数常见的VQA数据集都很小(用红色表示),无法独立学习足够的质量表示数据集任务失真类型大小[16]第十六话视频识别NA306,245ActivityNet [2]视频动作本地化NA27,801AVA [9]原子作用检测NA386,000CVD2014 [30]视频质量评估合成捕获234[12]第十二话视频质量评估In-the-wild1,200[32]第三十二话视频质量评估In-the-wild585[第38话]视频质量评估In-the-wild1,147LSVQ [40]视频质量评估In-the-wild39,076视觉转换器视觉转换器[19,34,1,6,26]在计算机视觉任务中表现出有效性他们将图像或视频切割成不重叠的小块作为输入,并在它们之间执行自注意操作。视觉变换器中的逐块操作自然地区分小块的边缘,并且适合于处理所提出的片段。+v:mala2255获取更多论文Gf×Sf×不不不不0, 0i,jGf−1,Gf−1i,j6小时Wu等人网格划分:Gf×Gf网格贴片采样:贴片大小SfSF时间对准贴片拼接微型贴片碎片图4:使用网格小块采样(GMS)进行片段采样的管道,包括网格划分,块采样,块拼接和时间对齐。在GMS之后,片段被馈送到FANet中(图5)。3方法在本节中,我们将介绍所提出的FAST-VQA方法的完整流程输入视频首先通过网格小块采样(GMS,第二节)被采样为片段3.1)。在采样之后,所产生的碎片被馈送到碎片注意力网络(FANet,第12节)。3.2)得到视频我们将在下面的小节中介绍这两个部分。3.1网格小块采样(GMS)为了更好地保持采样后的原始视频质量,我们在设计片段采样过程时遵循几个重要原则。我们将在下面说明这个过程以及这些原则。保持全局质量:均匀网格划分。 为了包括用于质量评估的每个区域并且统一地评估不同区域中的质量,我们设计网格分区以将视频帧切割成统一的网格,其中每个网格具有相同的大小(如图4所示)。我们将第t帧视频帧Vt切割成具有相同大小的Gf×Gf均匀网格,记为Gt={g... g,..g } , 其中g表示第i行第j列的网格。均匀网格划分过程形式化如下。gi,j=V[i×H:(i+1)×H,j×W:(j+1)×W](1)ttGfGf Gf Gf其中H和W表示视频帧的高度和宽度框架-t帧-(t+1)Gf×Sf+v:mala2255获取更多论文不不MP×不i、j不不FtFAST-VQA 7保持局部质量:原始补丁采样。 为了保留在VQA中至关重要的局部纹理(例如模糊,噪声,伪影),我们选择原始分辨率补丁,而不进行任何插值操作来表示网格中的局部纹理质量。我们采用随机补丁采样选择一个迷你补丁i,j的大小为SfSf从每个网格gi,j。贴片采样过程如下。i、ji、ji、jMPt=St(gt)(2)其中Si,j是帧t和网格i,j的补丁采样操作。保持时间质量:时间对齐。 早期作品[18,20,40]广泛认识到帧间时间变化对视频质量有影响。为了保留视频(具有T帧)中的原始时间变化,我们在不同帧中的补丁采样操作S期间严格对齐采样区域,如以下约束所示。Si,j=Si,jGf(3)保留上下文关系:补丁拼接。现有的工作[24,22,8]已经表明,全局场景信息和上下文信息影响质量预测。为了保持原始视频的全局场景信息,我们通过将它们拼接到它们的原始位置来保持小块的上下文关系,如以下等式所示:Ft=Ft[i×Sf:(i+1)×Sf,j×Sf:(j+1)×Sf]=MPi,j,0≤i,j Gf(四)其中,表示在网格小片采样(GMS)流水线之后拼接和时间对齐的小片,称为片段。3.2片段注意力网络(FANet)总体框架。 图图5显示了FANet的总体框架它使用具有四个分层自我注意层的Swin-T作为骨干。我们还设计了以下模块,使其能够很好地适应片段门控相对位置偏差。 Swin-T增加了相对位置偏差(RPB),它使用可学习的相对偏差表(T)来表示注意力对(QK T)中像素的相对位置。然而,对于片段,如图3(a)所讨论的,跨补丁对具有比补丁内对大得多的实际距离,并且不应该用相同的偏置表来建模。所以我们提出门控相对位置偏差(GRPB,图5(b)),其使用可学习的真实位置偏差表(Treal)和伪位置偏差表(Tpseudo)来代替T。它们的机制与T相同,但它们是分开学习的,分别用于内部和跨补丁注意对。将G表示为内补丁门(如果i,j在相同的迷你补丁中,则Gi,j =1,否则Gi,j=0),具有GRPB的自注意矩阵(MA)被计算为:+v:mala2255获取更多论文FRP(i,j)FRP(i,j)28小时Wu等人贴片嵌入第1层,含GRPB第2层,带GRPB第3层,含GRPB层4(a)具有GRPB的分级Swin-T骨架Self-Attention窗口内修补程序注意配对贴片内门控G+贴片内偏倚B,+交叉贴片偏置BCr跨补丁注意对(b)门控相对位置偏差(GRPB)合并后(c)贴片内非线性回归(IP-NLR)中文(简体)非线性层RNLGeLUConv3d(64,1)输出评分spred图5:FANet的总体框架,包括门控相对位置偏差(GRPB)和斑块内非线性回归(IP-NLR)模块。输入片段来自网格小补丁采样(图1)。4)。BIn,(i,j)=Treal;BCr,(i,j)=Tpseudo(五)MA=QKT+G<$BIn+(1−G)<$BCr(6)其中FRP(i,j)是片段中对(i,j)的相对位置。斑块内非线性回归。 如示于图3(b),不同的迷你补丁有不同的质量,由于它们之间的不连续性。如果我们在回归之前将来自不同块的特征池化,则小块的质量表示将彼此混淆。为了避免这个问题,我们设计了块内非线性回归(IP-NLR,图5(c)),以首先通过非线性层(RNL)回归特征,并在回归之后执行池化。将特征表示为f,将输出得分表示为spred,将池化操作表示为P 〇〇l(·),IP-NLR可以被解释为如下:spred=池(RNL(f))(7)4实验在实验部分,我们进行了几个实验来评估和分析所提出的FAST-VQA模型的性能。4.1评估设置我们使用在Kinetics-400 [16]数据集上预训练的Swin-T [ 27 ]来初始化FANet中的主干。作为选项卡。2显示,我们实现了两种碎片采样密度:FAST-VQA(正常密度)和FAST-VQA-M(低密度高效率),并将FANet中的窗口大小调整为输入大小。如无特殊说明,所有消融研究均采用FAST-VQA 变 体 。 我 们 使 用 PLCC ( Pearson linear correlation coef. ) 和 SRCC(Spearman秩相关系数)。作为度量,并使用可微PLCC损失l =(1-PLCC(spred,sgt))作为损失函数。我们将训练批量设置为16。+v:mala2255获取更多论文类型/试验集/组数据集内测试集跨数据集测试集LSVQ测试LSVQ1080pKONViD-1kLIVE-VQC现有古典现有的深度FAST-VQA 9表2:FAST-VQA和具有较低采样密度的FAST-VQA-M的比较。方法数量框架(T)斑块大小(Sf)数量网格(Gf)窗口大小在FANetFLOPs参数FAST-VQAFAST-VQA-M3216323274(8,7,7)(四,四,四)279G46G27.7M27.5M训练&基准集我们使用具有28,056个视频的大规模LS VQ训练[40]数据集来训练FAST-VQA。为了评估,我们选择了4个测试集来测试在LSVQ上训练的模型。前两组,LSVQ测试和LSVQ 1080p是LSVQ的官方数据集内测试子集,而LSVQ测试由7,400个从240P到720P的各种分辨率视频组成,LSVQ 1080p由3,600个1080P高分辨率视频组成。我们还评估了泛化能力FAST-VQA对KoNViD-1 k [12]和LIVE-VQC [32](两个广泛认可的野外VQA基准数据集)的跨数据集评估。4.2基准测试结果表3:与现有方法(经典和深度)和我们的基线(全分辨率Swin-T特征)的比较。第一名和第二名的最佳分数分别用红色和蓝色表示方法SRCCPLCCSRCCPLCCSRCCPLCCSRCCPLCC[第28话]0.5690.5760.4970.5310.6460.6470.5240.536TLVQM[20]0.7720.7740.5890.6160.7320.7240.6700.691视频[36]0.7940.7830.5450.5540.7510.7410.6300.640VSFA[22]0.8010.7960.6750.7040.7840.7940.7340.772PVQ无/贴片[40]0.8140.8160.6860.7080.7810.7810.7470.776PVQ(带贴片)[40]0.8270.8280.7110.7390.7910.7950.7700.807[27]第二十七话0.8350.8330.7390.7530.8250.8280.7940.809FAST-VQA-M(Ours)0.8520.8540.7390.7730.8410.8320.7880.810FAST-VQA(Ours)0.8760.8770.7790.8140.8590.8550.8230.844PVQ(带贴片)的改进+6%+6%+10%+10%+9%+8%+7%+5%在Tab。 3,我们与现有的经典和深度VQA方法以及我们的基线进行比较,具有特征回归而不是端到端训练的全分辨率Swin-T(表示为“全分辨率Swin-T特征”)。 凭借其视频质量相关的表示,FAST-VQA实现了最多10%的PVQ改进,PVQ是LSVQ 1080 p上现有的最先进技术。即使是高效版本的FAST-VQA-M也可以超越现有的最先进技术。FAST-VQA还显示出对其具有相同主干的基于固定特征的基线的显著改进,表明所提出的具有用于VQA的端到端训练方案的新的质量保持采样不仅更有效(在1080 P视频上仅需要2.36%的FLOP),而且比现有的基于固定特征的范例明显更准确(在LSVQ 1080 p的PLCC度量上具有8.10%的改进)。+v:mala2255获取更多论文FAST-VQA调整大小FAST-VQA-M全分辨率功能PVQ(R18+R3D-随机裁剪VSFA(R50)LIVE-VQC的线性相关××10小时Wu等人0.82 0.850.78 0.82F0.74 0.790.7 0.760.6610 100 1000 10000100000对数规模(a) 关于高分辨率场景(LSVQ-1080 P)0.7310 100 1000 10000 100000加权平均GFLops(对数规模)(b) 关于交叉分辨率场景(LIVE-VQC)图图6:所提出的FAST-VQA和基线方法的性能-FLOPs曲线表4:FLOP和运行时间(在GPU/CPU上,十次运行的平均值)比较FAST-VQA、最先进的方法和我们在不同分辨率上的基线。我们用黑体字表示FLOPs≤ 500G,运行时间≤1s。方法540P720P1080PFLOPs(G)时间(秒)FLOPs(G)时间(秒)FLOPs(G)时间(秒)VSFA[22]PVQ[40]36. casino 7×第五十二章.5×2.603/92.7613.091/97.85第六十五章.2×79. honeymoon0×3.571/134.94.143/144.640919147×58501210×11.14/465.613.79/538.4[27]第 二 十 七 话3032 10. 9×3.226/102.05357 19. 2×5.049/166.242.honeymoon 5×8.753/234.9FAST-VQA(Ours)FAST-VQA-M(Ours)2791×四六○。165×0.044/9.0190.019/0.7292791×四六○。165×0.043/9.5300.019/0.6132791×四六○。165×0.045/9.1420.019/0.7144.3FAST-VQA效率为了证明FAST-VQA的效率,我们比较了所提出的FAST-VQA与现有深度VQA方法在不同分辨率下的FLOP和CPU/GPU上的运行时间(每个样本平均运行10次),请参见Tab。四、我们还绘制了LSVQ1080p和LIVE-VQC上的性能-FLOPs曲线.第六章正如我们所看到的,FAST-VQA减少了高达210 FLOP,247运行时间比PVQ,同时获得显着更好的性能。更高效的版本FAST-VQA-M 只 需 要 PVQ 的 1/1273 FLOPs 和 我 们 的 全 分 辨 率 基 线 的 1/258FLOPs,同时仍然实现略好的性能。此外,FAST-VQA(特别是FAST-VQA-M)即使在CPU上也运行得非常快,这降低了深度VQA方法应用的硬件要求。所有这些比较显示了所提出的FAST-VQA前所未有的效率。44.4基于视频质量表征的迁移学习FAST-VQA还使得VQA上的预训练-微调方案在可获得的计算资源下成为可能。使用FAST-VQA,我们可以以端到端的方式使用大型VQA数据集进行预训练,以学习质量相关的特征,然后4此外,RAPIQUE[35]还可以在CPU上快速推断,1080P视频需要17.3秒。然而,由于其手工制作的分支,它与GPU推理不兼容VSFA(R50)平CRO(R18+R3D-18)uresPVQFull-resFeatdom跑调整大小AST-VQA-M-VQA快速LSVQ-1080 P线性相关+v:mala2255获取更多论文FAST-VQA 11表5:在LIVE-VQC、KoNViD、CVD 2014和YouTube-UGC数据集上的微调结果,与现有的经典和固定主干深度VQA方法以及经典(C)和深度(D)分支的集成方法进行了比较。Finetune数据集/LIVE-VQCKONViD-1kCVD2014LIVE-高通YouTube-UGC组方法SRCCPLCCSRCCPLCCSRCCPLCCSRCCPLCCSRCCPLCC现有的经典[36]第三十六话:RAPIQUE[35]0.7990.7520.7550.8030.7510.7860.7730.7830.8030.7680.7800.8170.83NANA0.85NANA0.77NANA0.81NANA0.6690.7790.7590.6590.7730.768VSFA[22]0.7730.7950.7730.7750.8700.8680.7370.7320.7240.743现有固定深[3]第三届中国国际汽车工业展览会0.827NA0.837NA0.7910.8140.7860.825NA0.831NA0.844NA0.801不适用0.825NANANANACoINVQ[37]NANA0.7670.764NANANANA0.8160.802环境C+D[21]第二十一话[36]第三十六话0.8250.7850.8340.8100.8160.8150.8180.8170.863NA0.880NA0.810NA0.833NANA0.808NA0.803[27]第二十七话0.7990.8080.8410.8380.8680.8700.7880.8030.7980.796FAST-VQA-M(Ours)0.8030.8280.8730.8720.8770.8920.8040.8380.7680.765FAST-VQAw/o VQ-表示(我们的)0.7650.7820.8420.8440.8710.8880.7560.7780.7940.784FAST-VQA(我们的)0.8490.8650.8910.8920.8910.9030.8190.8510.8550.852由VQ-表示+11.0%+10.6%+5.8%+5.7%+2.3%+1.7%+8.3%+9.4%+7.7%+8.7%转移到只有小数据集可用的特定VQA场景请注意,这种方式不适用于目前的方法,因为它们的高计算负荷(如第二节所述)。4.3)。我们使用LSVQ作为大数据集,并选择了四个代表不同场景的小数据集,包括LIVE-VQC(真实世界手机摄影,240 P-1080 P),KoNViD-1k(在线收集的各种内容,均为540 P),CVD 2014(合成捕获失真,480 P-720 P),LIVE-Qualcomm(选定类型的失真,均为1080 P)和YouTube-UGC(用户生成内容,包括计算机图形内容,360 P-2160P5)。我们将每个数据集随机分割10次,并报告测试分割的平均结果。作为选项卡。5显示,与视频质量相关的表示,建议的FAST-VQA优于现有的国家的最先进的所有这些情况下,同时获得更高的效率。请注意,YouTube-UGC包含4K(2160 P)视频,但FAST-VQA仍然表现良好。即使没有视频质量相关的表示,FAST-VQA也仍然实现了具有竞争力的性能,而这些功能稳步提高了性能。这意味着预训练的FAST-VQA可以作为一个强大的骨干,进一步推动与视频质量相关的下游任务。4.5碎片消融研究对于消融研究的第一部分,我们通过与其他常见采样方法和不同碎片变体进行比较来证明碎片的有效性(六)。我们在此部分中保持FANet结构不变。与表1中第1组的种植/修剪相比,6,我们比较了两种常见的采样方法:双线性插值和5由于隐私原因,目前公开版的YouTube-UGC并不完整,只有1147个视频。同行比较仅供参考。+v:mala2255获取更多论文12小时Wu等人表6:碎片的消融研究:与切割、裁剪(第1组)和不同碎片变体(第2组)的比较。测试集/LSVQ测试LSVQ1080pKONViD-1kLIVE-VQC方法/指标SRCCPLCCSRCCPLCCSRCCPLCCSRCCPLCC第1组:朴素采样方法双线性调整0.8570.8590.7520.7860.8410.8400.7720.814随机裁剪0.8070.8120.6430.6770.7340.7760.7400.773- 三茬0.8380.8350.7270.7540.8410.8270.7850.809- 6种作物0.8430.8440.7340.7610.8450.8340.7960.817第2组:片段随机小片0.8570.8610.7540.7900.8440.8450.7920.818混洗小补丁0.8580.8630.7610.7990.8490.8470.7960.821无时间对齐0.8500.8530.7360.7790.8230.8160.7640.802碎片(我们的)0.8760.8770.7790.8140.8590.8550.8230.844随机种植所提出的片段在高分辨率(LSVQ1080 p)(+4%)和交叉分辨率(LIVE-VQC)场景(+4%)上明显优于双线性重新调整大小在低分辨率的场景中,碎片仍然会带来2%的改进,而在低分辨率的场景中,碎片的问题并不那么严重。这证明了保持局部纹理对于VQA至关重要。片段也在很大程度上优于单个随机作物以及多个作物的集合,这表明保持统一的全局质量对VQA也至关重要片段变体的比较我们还比较了表1中的三种片段变体第二组6人。通过与随机小块(采样时忽略网格)的比较,证明了均匀网格划分的有效性,并通过与混洗小块的比较,证明了保持上下文关系的重要性。片段显示出比两种变体显著的改进。此外,所提出的片段表现出比没有时间对齐的变体更好的性能,特别是在高分辨率视频上,这表明保留帧间时间变化对于片段是必要表7:FANet设计的消融研究:GRPB和IP-NLR模块的影响测试集/变量/指标LSVQ测试LSVQ1080pKONViD-1kLIVE-VQCSRCCPLCCSRCCPLCCSRCCPLCCSRCCPLCC不含GRPB0.8730.8720.7690.8050.8540.8530.8080.832第1/2层上的semi-GRPB0.8730.8750.7720.8090.8560.8510.8120.838线性回归0.8720.8730.7680.8030.8470.8490.8100.835合并前非线性回归0.8730.8740.7710.8050.8510.8500.8130.834FANet(我们的)0.8760.8770.7790.8140.8590.8550.8230.8444.6FANet的烧蚀研究GRPB和IP-NLR的影响在消融研究的第二部分中,我们分析了FANet中两种重要设计的影响:主动位置偏差(GRPB)和贴片内非线性回归(IP-NLR)VQA头,如表1所示。第七章我们将IP-NLR与两种变体进行比较:线性回归层和非线性回归层,在回归之前合并(PrePool)。这两个模块都带来了不可忽视的改进,特别是在高分辨率(LSVQ1080 p)或交叉分辨率(LIVE-VQC)场景下。由于小块之间的不连续性在高分辨率视频中更加明显+v:mala2255获取更多论文≤≥FAST-VQA 13这一结果表明,校正后的位置偏差和回归头有助于解决这种不连续性所引起的问题。4.7可靠性和稳健性分析由于FAST-VQA是基于样本而不是原始视频,而单个片段样本在1080P视频中仅保留2.4%的空间信息,因此分析FAST-VQA预测的可靠性和鲁棒性非常重要。单次抽样的可靠性 我们通过两个指标来衡量FAST-VQA中单样本的可靠性:1)同一视频中不同单样本的评估稳定性; 2)单样本与多样本集合相比的相对准确性。如Tab中所示8、标准化std. dev. 在同一个视频上不同采样的概率只有0.01左右,这意味着采样的片段足以做出非常稳 定 的预 测 。 与 6 样 本 集 合 相 比 , 即 使 在 纯 高 分 辨 率 测 试 集(LSVQ1080 P)上,仅一次采样也可以达到99.40%的准确率他们证明,一个单一的样品的碎片是足够的稳定和可靠的质量评估,即使只有一小部分的信息是在采样过程中保留。表8:碎片单次采样的稳定性和相对准确度评估。测试集/得分范围LSVQ测试LSVQ1080pKONViD-1kLIVE-VQC0-1000-1001-50-100STD. dev. 单次采样标准化标准品dev.0.650.00650.790.00790.0460.01151.070.0107与6个样本百分之九十九点五九百分之九十九点四九十九点四五百分之九十九点五二不同分辨率下的鲁棒性为了分析FAST-VQA在不同分辨率下的鲁棒性,我们将跨分辨率VQA基准集LIVE-VQC分为三个分辨率组:(A)1080 P(110个视频);(B)720 P(316个视频);(C)540 P(159个视频),以查看FAST-VQA在不同分辨率上的性能,并与几种变体进行比较。结果如Tab. 9,所提出的FAST-VQA表现出良好的性能(0。80 SRCC PLCC),且改善优于组(A)1080 P高分辨率视频,证明了FAST-VQA在不同分辨率的视频上都是鲁棒可靠的。表9:LIVE-VQC数据集不同分辨率组的性能比较。决议变体(A):1080P(B):720P(C):≤540PSRCCPLCCKRCCSRCCPLCCKRCCSRCCPLCCKRCC全分辨率Swin功能(基线)0.7710.7740.5840.7960.8110.6020.8100.8530.625双线性插值(采样变量)0.7580.7730.5730.7900.8220.5990.8350.8780.650随机种植(抽样变量)0.7650.7680.5650.7740.7870.5810.7300.8090.535不带GRPB(FANet变体)0.7960.7850.5980.8020.8200.6080.8340.8830.649FAST-VQA(Ours)0.8070.8060.6100.8030.8250.6100.8400.8850.6544.8定性结果:本地质量图建议的IP-NLR头与块独立质量回归使FAST-VQA能够生成块局部质量图,这有助于我们+v:mala2255获取更多论文−14小时Wu等人原始帧重新投影的质量图片段微型贴片的质量视频1帧0视频1框架12视频1框架24图图7:时空分块局部质量图,其中红色区域表示低预测质量,绿色区域表示高预测质量。此示例视频是从LIVE-VQC [32]数据集中选择的1080 P视频放大以获得更清晰的视图。定性评估在FAST-VQA中可以学习到哪些质量信息。我们在图7中显示了1080 P视频(来自LIVE-VQC [32]数据集)的分块局部质量图和重新投影的帧质量图。如图7中的逐块质量图和重投影质量图(第24列)所示,FAST-VQA对纹理质量信息敏感,并区分清晰(帧0)和模糊纹理(帧12/24)。这表明,以片段(列3)作为输入的FAST-VQA对局部纹理质量敏感此外,动作相关区域的质量与背景区域明显不同,表明FAST-VQA有效地学习了视频中的全局场景信息和上下文关系。5结论我们的论文表明,提出的片段是视频质量评估(VQA)的有效样本基于片段,所提出的端到
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功