没有合适的资源?快使用搜索试试~ 我知道了~
113435用于UGC视频Yilin Wang,Junjie Ke,Hossein Talebi,Joong Gon Yim,NeilBirkbeck,Balu Adsumilli,Peyman Milanfar,Feng Yang谷歌公司[yilin,junjiek,htalebi,joonggonyim,birkbeck,badsumilli,milanfar,fengyang]@google.com摘要用户生成内容(UGC)的视频质量评估是业界和学术界的重要课题大多数现有方法仅关注感知质量评估的一个方面,例如技术质量或压缩伪影。在本文中,我们创建了一个大规模的数据集,全面调查通用UGC视频质量的特点。除了数据集的主观评级和内容标签外,我们还提出了一个基于DNN的框架,以彻底分析内容,技术质量和压缩级别在感知质量中的重要性我们的模型能够提供质量分数以及人性化的质量指标,以弥合低电平视频信号与人类感知质量之间的差距。实验结果表明,我们的模型实现了最先进的相关性与平均意见分数(MOS)。1. 介绍视频流媒体服务目前消耗了当今互联网流量的大部分服务提供商通常优化和流式传输可能来自专业人员( 例 如 , Netflix ) 或 案 例 创 建 者 ( 例 如 , 社 交 媒体)。在前一种情况下,服务提供商具有原始的原始,并且可以依赖于全参考视频质量评估方法来优化发送给观众的转码的质量/比特率。相反,社交媒体平台通常提供用户生成内容(UGC),其中由10个用户共享的非原始版本具有预先存在的失真或压缩伪像。鉴于UGC在社交媒体共享平台上的流行,了解此类内容(及其压缩版本)的感知主观视频质量对于做出明智的服务质量权衡至关重要。与盲视频和图像质量评估的早期方法不同,在盲视频和图像质量评估中,将一组预先存在的失真应用于原始内容[36,16],人,或者是一堆没有任何意义的画面。其次,原始质量可以由具有专业后期处理的4K HDR相机创建,或者由低端抖动相机捕获。最后,目前还不清楚有多少广告操作被应用在视频上:一些视频在上传之前被裁剪,重新缩放或严重压缩。本文中讨论的UGC视频质量是一个通用概念,包括内容吸引力、美学质量[21,29]和压缩伪影[39]的混合。这些因素中的每一个都影响观看者虽然上传者可能无法改变视频的主题,但是量化贡献感知质量因素的反馈此外,服务提供商可以使用对原始视频质量的理解来优化推荐系统(如果单个事件中存在多个视频),或者进一步压缩低质量的原始视频,而对最终结果的感知影响很小或没有影响[35]。利用这种优化允许提供商以较低的成本获得更好的用户体验感知质量度量也成为图像和视频增强框架的组成部分[13,28,40],并已显示出有希望的结果。在本文中,我们提出了一个框架,以全面的方式分析视频质量,以允许所有上述应用程序。与传统的视频质量评估指标(作为输出单个质量分数的黑盒)不同,我们的模型还提供了人性化的描述符(如表1所示),将内容的感知质量分解为其组成部分。我们的贡献如下1:• 一个增强的数据集,以探索UGC视频质量的独特特征,其中包含原始视频和相应的转码版本的主观数据,Ssions。所收集的地面实况数据使得有可能理解视频内容与感知质量之间的关系,并改进内容感知视频压缩(第22节)。3)。UGC的多样性是由几个因素造成的第一,骗局--帐篷可能是一个受欢迎的现场表演,有数百万人观看。所有数据都可以在https://media.withyoutube.com/ugc-dataset113436UGC视频CoINVQ诊断报告压缩级别0.9240.0220.0150.039内容标签舞蹈,歌舞团,户外娱乐食物,食谱,烹饪车辆,汽车,视频游戏冒险游戏,汽车,卡通失真类型高斯模糊,乘性噪声,色彩饱和度色彩饱和度、去噪、像素化颜色偏移、量化、对比度变化乘性噪声,高斯模糊,色彩饱和度通过单个特征预测质量(CP、CT、DT)(2.862,3.621,3.16)(3.107,3.172,2.95)(3.69,3.376,3.548)(4.029,3.89,3.941)所有特征预测的质量(CP+CT+DT)2.9553.033.4483.971MOS(from主观测试)2.7542.8813.293.795表1.通过视频质量综合解释网络(CoINVQ)了解通用UGC视频质量,该网络提供了整体质量估计以及人性化质量指标,包括压缩级别(0:低,1:高),内容标签(3800+ UGC实体[2]),失真类型(20+人工失真[17])。CP、CT、DT:来自压缩、内容和失真子模型的特征除了单一的质量评分,CoINVQ报告还揭示了质量评估的基本原理。例如,第一视频具有有趣的内容(舞蹈和户外娱乐),即其内容质量良好(CT=3.621)。然而,它被严重压缩(CP=2.862),并且具有模糊和噪声(DT=3.16)等失真,这导致观看体验不佳(CP+CT+DT=2.955)。• 我们设计了一个全面的框架来分析UGC视频质量,从不同的方面,如语义内容,技术质量和压缩水平,带来了新的见解来解释视频感知质量作为互补功能的相互作用(第二节)。4).• 该模型在UGC质量预测方面达到了最先进的精度,同时也提供了可靠的压缩引起的质量下降的迹象(第5)。2. 相关作品UGC视频的感知质量是一个广泛的概念。除了压缩伪像,视频制作过程中引入的失真(如镜头模糊和摄像机抖动)也会影响观众最近已经发布了一些大规模的UGC图像数据集[12,38,6],但UGC视频数据集仍然非常有限。传统的公共视频质量数据集(例如,LIVE数据集[24,3,9])主要关注原始原件中引入的压缩失真,并包含有限的UGC特征。一些公共UGC数据集,如YouTube-8 M [2]和AVA [7],是为识别而设计的,相反,在过去两年中发布了一些大规模的UGC质量数据集[11,26,33],提供原始视频和MOS。在这些数据集中,YouTube数据集(YT-UGC)[33]是最具代表性的数据集之一。它包含从150万个YouTube视频中采样的1500个视频,这些视频然而,尽管YT-UGC的一个主要目标是促进对视频压缩和质量评估的实际应用的研究,但目前的数据集此外,所提供的粗略内容类别中的视频显示出高质量的多样性,使得难以在内容和质量之间建立联系。视频质量评估已经研究了几十年,仍然是一个具有挑战性的研究课题。参考质量度量(例如,PSNR、SSIM [36]和VMAF [16])旨在测量相对于参考(原始原始)的相对质量变化,主要关注压缩质量。由于传统的无参考指标[18,20,19,34,5]主要依赖于从有限样本中总结的几个手动设计的功能,因此它们TLVQM [14]提出了75个手工制作的功能来处理各种视频失真。最近基于机器学习的指标[15,41]取得了显着的改进,受益于在大规模数据集上预训练的模型(例如,Im-ageNet)。然而,这些度量或多或少地偏向于内容相关因素,并且因此对小的图片质量变化(例如,可能由压缩引起)。如何建立一个通用的UGC视频质量的度量标准仍然是一个开放的研究课题。1134373. YT-UGC+:内容,质量,压缩为了提供对通用UGC视频质量的全面理解,我们首先探索并激发UGC质量属性的重要性(即,内容标签、通用视频质量、压缩灵敏度)以及它们之间的连接。 我们重用原始YT-UGC数据集中的视频,因为它具有广泛的多样性:1500个20秒的视频片段,涵盖15个类别(动画,封面歌曲,游戏,HDR,如何,演讲,现场音乐,歌词视频,音乐视频,新闻剪辑,体育,电视剪辑,垂直视频,Vlog和VR)和各种分辨率(从360P到4K)。我们为原始视频添加内容标签和压缩版本,以全面调查UGC视频质量的不同方面我们将增强的数据集称为YT-UGC+。MOS:4.55标签:户外娱乐(0.455),游戏(0.455),球(0.455),棒球棒(0.364),板球(0.182),溜溜球(0.182),散步(0.091),Mabinogi(视频游戏)(0.091)MOS:2.74标签:森林(0.818),树(0.727),摄影(0.455),自然(0.455),音乐家(0.182),吉他(0.091),车辆(0.091),自行车(0.091),骑自行车(0.091)MOS:4.33Labels:海滩(0.917),饮食(0.500),度假村(0.417),伊比沙岛(0.333),指甲(解剖学)(0.333),食物(0.167),游泳池(0.083),酒店(0.083),酒吧(0.083)MOS:3.01Labels:Racing(1.000),Motorsport(0.692),Stock car racing(0.615),Dirt trackracing(0.615),Vehicle(0.538),Auto Race(Japanese sport)(0.231),Clown(0.077)3.1. UGC内容标签视频内容在UGC感知质量和整体质量印象中起着重要作用因此,良好的质量度量应该具有合理的内容识别能力。大多数UGC视频数据集收集MOS [11,26]或仅提供内容标签[2,7]。原始的YT-UGC数据集包含15个高级内容类别,这些类别太粗糙,在预测质量时没有显著的描述能力(在第二节中进一步3.2)。为了进一步研究UGC内容与感知质量之间的关系,YT-UGC+数据集的第一个关键特征是更细粒度的内容标签。我们首先使用公共YT8M基线模型[2]生成多个标签,并选择前12个置信标签作为候选。使用YT 8 M模型的优势在于,它们的标签(3862个粗粒度和细粒度的条目)已经针对UGC场景进行了优化,并且该模型也在真实的YouTube剪辑上进行了训练,因此我们预计在YT-UGC+数据集视频上具有类似的准确性然后,我们通过主观测试对这些候选标签进行细化,以获得最终的地面真值标签。每个视频内容向同一受试者显示4次,每次有3个候选标签以及每个受试者被要求标记8个随机选择的视频,最后每个视频上的每个标签都由10个以上的受试者投票。我们将标签信心定义为其实际投票除以其总票数。我们将最小置信度设置为0.2,那么YT-UGC+视频上会出现610个来自YT 8 M的标签。除了高级内容标签(例如,游戏和音乐家),大多数标签更具体和细粒度(例如,汽车,树,舞蹈和宠物),这是更多的信息和描述的内容(图。①的人。3.2. 从内容到通用视频质量通用视频质量的多样性是UGC的一个重要特征。图2显示了整个集合的MOS以及单独的内容类别。大多数图1.带有MOS和内容标签的原创视频。MOS的范围从3到4(在1-5的范围内),而HDR具有最高的平均质量(4.02),而CoverSong具有最低的平均质 量 ( 3.25 ) 。 HowTo 、 LyricVideo 、 NewsClip 和TelevisionClip 的 质 量 分 布 相 对 均 匀 , 而 Gaming 、Sports和Verti- calVideo则偏向于高质量范围。所有内容类别在MOS上具有大的标准偏差,这意味着难以将高级内容标签映射到视频级的视觉质量。我们还探讨了MOS和从SEC收集的内容标签之间的相关性。3.1.为了简化问题,我们将MOS范围划分为3个质量级别(低、中和高),阈值3.0和3.8分别作为低质量条和高质量条。有了更细粒度的内容标签,我们开始发现内容和质量之间更例如,52个视频片段包含标签相比之下,7个视频上出现了“森林”标签,其中5个属于低质量。多个细粒度内容标签和深度内容特征的组合甚至可以更好地指示视频质量(在第2.1节中讨论)。4.1)。内容和视觉质量之间的联系仍然是一个悬而未决的问题,而YT-UGC+中提供的内容标签可以作为从内容方面评估质量指标的基准。3.3. UGC压缩灵敏度UGC压缩最近受到越来越多的研究兴趣[35]。然而,大多数现有的UGC数据集只包含原始视频及其MOS。为了使更多的未来研究,我们进行了另一个主观实验,收集MOS压缩的UGC视频。我们从三个流行的内容类别(游戏、体育和113438低高图2.按内容类型划分的原始视频的MOS分布。原始VOD VOBLB CBRMOS=3.25 MOS=3.41 MOS=3.22 MOS=3.32标签:楼梯(0.800),森林(0.600),小径(0.500),山地自行车(0.500),山地自行车(0.500),骑自行车(0.200),汽车(0.200),食物(0.100)MOS=4.02 MOS=3.82 MOS=3.55 MOS=3.77标签:拳击(0.917),跆拳道(0.833),踢(0.667),战斗(0.333),圣诞老人(0.250),健身房(0.167),弗洛伊德梅威瑟小。vs. 曼尼·帕奎奥(0.167),拉伸(0.083),太极(0.083),舞蹈(0.083)图4.低(上)高(下)压缩灵敏度0.60.40.20低灵敏度平均值=3.56,标准差=0.402 3 4MOS0.60.40.20中等灵敏度平均值=3.80,标准差=0.3022.533.54第4.5节MOS0.60.40.20高灵敏度平均值=3.95,标准差=0.1622.533.54第4.5节MOS图3.用于转码变体的DMOS分发。Vlog)。每一个原始视频(在第二节中使用的相同视频)。3.2)然后由VP9转码为三种变体:视频点播(VOD),视频点播与较低比特率(VODLB)和恒定比特率(CBR),使用推荐的VP9设置和目标比特率[1]。VOD和VODLB是在本机分辨率下的两遍转码,其中VODLB使用来自较低分辨率的推荐目标比特率(即,使用720P比特率来压缩1080P视频,以及使用480P比特率来压缩720P视频)。CBR是一次转码,广泛应用于实时流媒体。我们将设备显示高度限制在700P和800 P之间,因为这是YT-UGC众包平台中报告的最受欢迎的分辨率[37]。视频以全屏模式播放,受试者被要求对同一内容的所有4个版本的质量进行1至5分的评分(以随机顺序播放,以减少个人偏好的影响)。最后,每个视频片段都由30多名受试者进行评分。图图3示出了DMOS(= MOS(orig))的分布- MOS(v)),用于3种变体v(VOD、VODLB和CBR)。通常,VOD版本由于目标比特率较高而具有比VODLB版本更好的质量;并且CBR版本由于1遍转码不如2遍优化而倾向于具有最低的质量。压缩变体的DMOS是原始MOS的重要补充。良好的质量度量还应当对这些变体之间的差异敏感,即,它应该与DMOS具有合理的相关性。如[35]中所指出的,推荐的设置可能不适合低质量的UGC输入,因为默认设置对高质量的输入有一些偏见,以避免质量下降太多。为了进一步研究压缩对UGC感知质量的影响,我们将视频分为3个压缩敏感度级别,图5.不同压缩灵敏度水平下原始版本的MOS分布在DMOS上:低、中、高。对于低灵敏度视频,所有压缩变体对于高灵敏度,所有DMOS都大于Tsc(本文中=0.2)。其他视频是-长到中等水平。一般来说,低敏感度意味着原始版本和转码版本之间没有显著的质量差异这些视频对于高敏感度视频,推荐的VOD设置仍然会导致明显的质量下降,应该加以改进。我们发现有36个(19%)视频处于低敏感度,29个(15%)处于高敏感度,这意味着大量的UGC视频可以进一步优化(降低比特率或提高质量)。图4显示了低水平和高水平的两个例子。图5显示了具有不同压缩敏感度级别的原始版本的MOS分布,其中我们可以看到低敏感度的平均MOS显著低于其他级别。它与[35]中的结论相匹配,即人们对低质量视频的质量变化不如高质量视频敏感。虽然高敏感度级别的视频具有最高的平均MOS,但具有高MOS(>4)的一些视频这意味着除了输入质量之外,压缩灵敏度还可能受到其他因素的影响(例如,视频内容)。压缩敏感性是UGC的核心特征,我们希望我们的数据能激发更先进的UGC压缩和转码优化。4. CoINVQ框架为了进一步探索UGC视频质量的内在属性,本文提出了一个视频质量综合解释网络(CoINVQ)框架,(1)从多个方面提取与质量相关的特征,以便于对UGC视频质量进行分析;概率概率概率113439ContentNet输入DistortionNet块特征CompressionNetAggregationNet对视频有更深入的了解,能够进行定制处理以提高视频质量,以及(2)利用允许更多定量分析的综合特征来预测视频具体而言,CoINVQ从多个方面捕获视频质量影响:• 内容:视频内容的意义和吸引力不可避免地影响观众• 失真(技术质量):失真可能在-产出:视频质量指标●内容标签+●失真类型●压缩级别质量结论●质量得分在视频制作阶段。一些扭曲-目的是(例如,适当的清晰度滤波器或微调色彩饱和度),并且可以对感知质量具有积极的影响非预期失真(例如,运动模糊或抖动)具有负面影响。• 压缩级别:由于带宽限制,许多UGC视频在公开共享之前都进行了压缩。不像技术质量,这是一个内在的支柱-视频的压缩伪像通常由第三方引入(例如,上传应用程序),是可调整的。压缩的影响在很大程度上取决于内容的空间/时间复杂性,并且将相同的设置应用于不同的视频可能会导致完全不同的伪像。由于视频压缩的复杂性,我们将压缩水平视为整体视频质量的一• 时间聚合:视频是一系列小块(或帧),这些块可能具有不同的感官质量平均块质量分数是整体视频质量的良好代表,还是需要更复杂的时间聚合策略在我们的框架(图6)中,我们将UGC质量理解分解为这 4 个 子 问 题 , 并 将 输 入 帧 馈 送 到 3 个 子 问 题(ContentNet,DistortionNet和CompressionNet)中,以提取相应的2D深度特征以及高级质量指标:内容标签,失真类型和压缩级别(如表1所示)。然后,这些特征被连接在一起,并通过AggregationNet进行聚合请注意,我们的框架与[8]不同,在[8]中,基线模型在不同的质量评估任务中共享。如第5.2,使用单独的网络来学习不同的特征比通过单个网络学习所有特征表现得更好由于用例和模型训练限制,子网输入彼此略有不同ContentNet需要整个帧来运行整体语义分类,结果不应受到输入分辨率的影响,因此我们以每秒1帧(fps,在视频识别应用中常见)的速度采样帧,并将其调整为小分辨率。DistortionNet和CompressionNet在本机分辨率上工作,以避免重新缩放伪影。帧被分割成不相交的块用于特征提取,图6. CoINVQ框架概述。从输入视频中提取的帧和块被馈送到三个子DNN模型中,以提取相应的特征和质量指标,然后将其聚合以获得最终的质量分数。然后将补片特征缝合在一起以获得整个帧的特征。DistortionNet 只 需 要 一 个 帧 ( 1 fps ) , 而CompressionNet需要多个帧(5 fps)来捕获空间和时间伪影。4.1. ContentNetContentNet是我们的视频分类模型,为UGC质量评估任务提供语义级嵌入。它是一种在单个视频帧上训练的多标签分类模型ContentNet的输出是内容敏感的嵌入特征和预测的内容标签(在[2]中定义)。如在图7中可以看到的,预测的内容标签表示帧语义。受最近深度CNN分类器成功的启发,我们选择对我们数据上的一些现有预训练模型进行微调。我们在ImageNet数据集[22]上试验了预训练的ResNet-V2-50[10]和EfficientNet [30为了使分类CNN适应我们的数据,将以下更改应用于基线CNN模型:1)在最后一层之前添加具有大小为(16,16,100)的输出特征图的全连接层,以及2)最后一层(头部)更改为输出3862个logit,这对应于视频类的总数。我们将输入帧的大小调整为496×496,并使用交叉熵损失来微调多标签模式下的基线CNN。请注意,输入帧最多可以有20个标签。我们对各种基线CNN的分类结果如表2所示。在大多数情况下,这两种EfficientNet模型都优于ResNet模型。此外,在YT8M数据上测试的两个EfficientNet模型之间的差异并不显著,但在UGC数据上的差距似乎更大请注意,我们的最终目标是将ContentNet嵌入部署因此,在我们的补充结果中,我们比较了每个模型对整体质量预测问题的影响。我们发现,在YT8M上进行再训练比直接使用ImageNet的嵌入实现了更高的相关性。这些观察结果证明我们的努力是正确的,113440CPM标签:视频游戏(0.95),游戏(0.94),魔兽世界(0.45),魔兽争霸(0.4),战略电子游戏(0.07)标签:汽车(0.58),汽车(0.42),跑车(0.32),赛车(0.18),赛车(0.11)Labels:动物(0.43),宠物(0.23)(0.16)、运输(0.08)、骑自行车(0.07)压缩水平:0.892(高)压缩水平:0.651(中等)压缩水平:0.0(低)图7.预测内容标签的示例前5名的班级为每个帧报告预测和概率。图9.预测压缩级别的示例。是LDT=LDT+LDT+LDT。最终模型实现了T P M表2.多标签ContentNet模型在YT8M和UGC数据集上的准确性,这些数据集共有3862个类别。畸变类型分类的准确度为0.97,畸变类型分类的准确度为0.74KADID-10 K数据集的MOS相关性。4.3. CompressionNet大多数视频共享平台将原始视频转码为不同的比特率/分辨率,以满足设备和网络要求。常用的视频压缩策略是有损的,会导致明显的质量下降。这样的压缩伪影可能会严重影响观看体验,因此我们构建了一个孤立的子模型失真类 型: Jitterr ( 0.112 ) 、Colorquantization ( 0.111 ) 、Lensblur ( 0.108 ) 、 Deno ise(0.107)失真类型:颜色分量中的白噪声(0.155)、均值偏移(0.155)、对比度变化(0.154)失真类型:去噪(0.243),JPEG2000(0.240),量化(0.232),镜头模糊(0.228)学习压缩相关功能。CompressionNet的输出是压缩敏感的嵌入特征以及范围内的连续压缩级别分数图8.预测失真类型的示例。专门针对UGC数据微调CNN。最后,考虑到每个CNN的性能和计算复杂度,我们决定使用EfficientNet-b 0作为我们的ContentNet。4.2. DistortionNet用户生成的内容自然包含各种失真(例如,对比度变化或去噪),这些特征与视频内容特征正交,并且可能对感知质量具有好的或坏的影响。为了学习失真域中的质量相关特征,我们构建了第二子模型,称为DistortionNet。DistortionNet的输出是失真敏感的嵌入特征,0(无压缩)到1(重度压缩)(见图1)。9)。由于有限的公共UGC视频集与相关的地面实况MOS,我们使用自监督学习来训练模型。输入的原始视频由VP9转码,具有两种不同的压缩强度:VOD(2遍),推荐码率(75kbps)和CBR(1遍),低比特率(20kbps)。基本的质量顺序是:原始视频点播>CBR。从原始和转码的剪辑中均匀地采样五帧,并将其馈送到共享的D3D模型[27]中以获得预测的压缩级别。在完全连接层之前插入的(1,4,4,100)特征层用于提取压缩特征。损失函数包含两部分:成对损失(LCP)和对比损失(LCP)。我们设置LCP=P C P失真类型(如图所示)8)。为了实现这一目标,我们在来自KADIS-700 K和KADID-10 K的合成失真图像上训练网络[17]。该数据集提供原始图像和25个失真过滤器,如高锐化,降噪和高斯模糊。每个过滤器可以产生5个不同级别的失真 , 因 此 每 个 原 件 有 125 个 失 真 变 体 。 我 们 使 用EfficientNet-b 0(在ImageNet上预训练)作为骨干网络。培训损失包括三个部分。的sigmoid((orig-cbr)K)(其中K=4)来评估原始版本和CBR版本之间的压缩级别差异。为了计算对比度损失,将特征通过两个密集的层(以形成非线性映射),以及两个特征之间的(sim(x,y))由它们的特征距离定义[32]:LCP=sim(orig,vod)/(sim(orig,vod)+sim(orig,cbr)+sim(vod,cbr))。最终损失的定义为LCP=LCP+LCP。P C第一个是多标记(失真)的交叉入口损失LDT不类型)分类。第二个是成对铰链损失,LDT,在具有相同失真类型的两个随机选择的变体我们用LDT+LDT作为训练的损耗4.4. AggregationNet估计视频质量的一种常见方法是使用帧质量分数的平均值,它在以下方面表现良好:T PKADIS-700 K上的初始畸变网络我们就可以-在KADID-10 K数据集上调整模型由于KADID-10 K还提供了地面实况MOS,因此我们使用单独的MLP头来预测MOS分数,并使用L2距离损失(LDT)进行训练,以及在KADID-10 K上进行训练的总损失大多数公共视频数据集[31]。 目前尚不清楚,基本的汇集方法在教资会的情况下仍然运作良好,或者更精细的聚合策略是否可以实现更好的准确性。为了研究临时池化策略的影响,我们比较了3种聚合模式,模型YT8MUGC-VQTop-1Top-5前10Top-1Top-5前10ResNet-V2-500.3250.5540.6590.2340.4250.517高效Net-b 00.4630.7210.7920.1960.4260.531efficientnet-B70.4600.7230.7880.2490.4550.605113441els、AvgPool、LSTM和ConvLSTM,在YT-UGC原始MOS上。LSTM和ConvLSTM是经典的时态模型。在AvgPool模型中,每个块特征都由1×1Conv2D层(256个单元)过滤以细化特征空间。然后,这些细化的特征通过共享的2D头部(由BatchNormalization,Activation(relu),GlobalMaxPool2D,Dropout和Dense层组成)分别获得每个块的分数,其平均值用作最终质量分数。实验结果表明,在我们的数据集上,AvgPool的性能优于LSTM和ConvLSTM,这表明大多数UGC视频仍然具有相对一致的质量。这与[35]中的观测结果相匹配,其中平均块MOS与YT-UGC数据集中原始视频的整个视频MOS具有0.976的相关性。详细比较见补充材料。我们使用地面实况MOS和预测得分之间的绝对差作为损失来训练这3个聚集模型。目标视频和参考视频之间的预测MOS的差异给出了预测的DMOS。以这种方式,无参考CoINVQ分数可以用于测量由视频压缩引起的质量降级。5. 实验结果5.1. 实现细节CoINVQ 框 架 的 所 有 子 网 络 都 是 单 独 训 练 的 。ContentNet 和 DistortionNet 是 基 于 帧 的 , 并 使 用EfficientNet-b 0 [30](在Im- ageNet上预训练)作为骨干网络。CompressionNet由D3 D模型[27](在Kinetics-600 [4]上预训练)训练,以学习空间和时间视频特征。使用三个数据集来重新训练这些子模型。我们从YT8M数据集中的100k 1080P视频中随机选择了1秒的块,缩小到180P(320×180)以去除明显的压缩伪影,并将其用作训练CompressionNet的原始版本。然后我们从YT8M 1080P视频中选择另外10万帧,使用YT8M基线模型获得前20个预测标签,然后与地面实况视频标签结合以获得该特定帧的精细标签来训练内容网络。对 于 DistortionNet , 输 入 图 像 将 被 裁 剪 并 调 整 为360x640。我们将最后一个卷积层的大小合并为(8,8,100)作为深度失真特征。对于每个MLP头,我们使用具有512个单元的单个全连接层。该模型首先在KADIS-700 K上进行训练(由于许可证问题,不包括类型13和23),然后在KADID-10 K数据集上进行微调[17]。ContentNet 和 DistortionNet 在 30 V100 GPU 上 使 用RMSProp优化器进行训练,批量大小为4。学习率从0.001开始,每15k步衰减0.99倍CompressionNet在TPUv2上训练,批量大小为64。学习率为0.0001,余弦衰减,并且训练在10k步之后收敛。为了与主观数据的显示分辨率保持一致,所有YT-UGC原始视频首先被重新缩放为720 P,并分为4个不相交的360 P补丁用于DistortionNet和16个180 P补丁用于CompressionNet。来自3个预训练子模型的深度训练是在TPU v2上进行的(批量大小为256,学习率为0.0001,具有余弦衰减),并收敛于约20k步。5.2. 原始MOS的评价在下面的实验中,我们根据YT-UGC原始MOS数据评估模型我们使用5折交叉验证与一致的分裂为所有测试和报告平均结果超过测试倍。所有比较的指标都是在原始视频分辨率下使用其默认参数进行评估的,并且使用非线性逻辑函数[25]将输出分数重新缩放为[1,5]表3将CoINVQ与流行的无参考指标进行了比较。我们可以看到非基于学习的指标(BRISQUE [18],NIQE[20]和VIIDEO [19])这可能是因为UGC补丁所有基于机器学习的指标都在YT-UGC数据集上进行了微调,使用相同的5个分割。我们首先评估了两个最新的视频质量指标(TLVQM [14]和VSFA [15])。TLVQM基于75个手工制作的功能,然后使用支持向量回归(SVR)和随机森林回归(RFR)进行微调VSFA是一种基于深度学习的视频质量指标。它的性能优于基 于 手 工 制 作 的 功 能 的 指 标 , 实 现 了 与 CoINVQ(CT+DT)相似的相关性。然后,我们评估了几个基于框架的模型。前两个模型是在EfficientNet-b 0(在ImageNet上预训练)上重新训练的,其中包含从YT-UGC原始视频中提取的帧的冻结和可训练权重(每个视频100帧,假设所有帧都具有与视频相同的MOS EfficientNet-b 0(冻结)的结果与CoINVQ(CT)大致匹配,因为它们都用可训练的头部学习了内容相关的特征。我们还测试了Distor-tionNet(使用MOS在KADIS-700 K和KADIS-10 K上重新训练),它们的相关性约为0.73,接近CoINVQ(DT),但比CoINVQ(CT+DT)差。这意味着许多预先学习的内容特征被DistortionNet中新学习的失真特征淹没,但是当内容和压缩特征被单独学习并如CoINVQ中那样结合时,保留得更好。对于CoINVQ模型,组合特征比使用单个特征执行得更好,并且CP+CT+DT在所有特征组合上具有最高的相关性。压缩和失真特征似乎比内容特征对视觉质量的影响更大,但内容特征113442特征PLCCSROCCRMSEPSNR0.4020.3890.099SSIM [36]0.4930.4790.093VMAF [16]0.4010.3990.143LPIPS [41]0.5240.5070.095TLVQM(SVR)[14]0.1800.1230.207TLVQM(法国)[14]0.2760.2460.149VSFA [15]0.4030.3840.151CoINVQ(CP)0.6400.5900.196CoINVQ(CT)0.5700.5110.106CoINVQ(DT)0.3150.3250.235CoINVQ(CP+CT)0.6600.5940.192CoINVQ(CP+DT)0.4760.4590.232CoINVQ(CT+DT)0.3120.3350.201CoINVQ(CP+CT+DT)0.5000.4900.203表5.YT-UGC+压缩DMOS的结果(未重新训练)。表3.没有YT-UGC原始MOS的参考指标在KoNViD-1 k上训练的模型在YT-UGC上训练的PLCCSROCC RMSE PLCC SROCC RMSETLVQM(SVR)0.7580.7630.4210.4820.4840.599TLVQM(RFR)0.7230.7230.4450.5150.5210.628VSFA0.7920.7820.3980.6020.5990.425CoINVQ(CP)0.7250.7270.4410.5170.5210.550(CT)0.6740.6670.4690.5250.5350.542(DT)0.7370.7420.4360.6020.6140.511(CP+CT)0.7550.7550.4170.6360.6470.493(CP+DT)0.7470.7490.4270.6280.6430.498(CT+DT)0.7570.7600.4150.6300.6370.497(CP+CT+DT)0.7640.7670.4130.6700.6850.480表4.在KoNViD-1 k原始MOS上的性能当与其他特征组合时也带来额外的增益。因此,3个提取的特征都告知感知质量。增加一个新的特征会使相关性增加1%到2%,这意味着这些特征覆盖了感知质量的各个方面。我们还通过使用原始MOS重新训练AggregationNet来 评 估 另 一 个 UGC 数 据 集 KoNViD-1 k [11] 上 的CoINVQ。我们再次使用5倍交叉验证并报告测试折叠的平均结果(表4)。组合特征(CP+CT+DT)仍然在CoINVQ模型中实现了最高的相关性,并且添加额外的特征具有积极的影响。CoINVQ(DT)的相关性比CoINVQ(CP)更好,这可能是因为KoNViD-1 k中的视 频 比 YT-UGC 数 据 集 中 的 视 频 更 少 重 新 训 练 的CoINVQ(CP+CT+DT)的性能略好于TLVQM,但比VSFA差,这也可能与KoNViD-1 k数据集上压缩特征的重要性较低有关。使用在YT-UGC MOS上训练的模型来预测KoNViD-1 k视频质量,然后我们的CoINVQ模型优于VSFA和TLVQM。模型PLCCSROCCRMSE[第18话]0.1120.1210.639NIQE [20]0.1050.2360.640第十九章0.1460.1300.637TLVQM(SVR)[14]0.6970.7220.479TLVQM(RFR)[14]0.7190.7300.448VSFA [15]0.7610.7610.431EfficientNet-b 0(冻结)0.6240.6120.509EfficientNet-b0(finetune)0.6710.6900.474DistortionNet(冻结)0.7320.7350.443DistortionNet(finetune)0.7320.7380.435CoINVQ(CP)0.7700.7850.408CoINVQ(CT)0.6280.6280.495CoINVQ(DT)0.7260.7440.434CoINVQ(CP+CT)0.7870.8010.395CoINVQ(CP+DT)0.7900.8020.391CoINVQ(CT+DT)0.7500.7670.4211134435.3. 压缩视频DMOS来自前一节的5个训练模型用于预测压缩视频的质量分数(即,没有对该科进行再培训)。对于无参考度量(CoINVQ、TLVQM、VSFA),我们将DMOS计算为原始版本与转码变体之间的MOS差表5显示了DMOS预测的不同特征的相关性,以及一些流行的参考质量指标。全参考指标PSNR、SSIM和VMAF高度依赖于像素级差异或手工制作的特征,因此它们的性能比LPIPS等深度学习指标更差[41]。LPIPS主要依赖于从ImageNet中提取的特征,与我们直接从UGC视频中提取的内容特征相比,与UGC压缩的相关性略低CoINV
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功