无监督跨域自适应方法提升无参考视频质量评估

21 浏览量更新于2023-10-14 收藏 904KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5178用于无参考视频质量评估陈鹏飞1、2李磊达1、3、* 吴金建1董伟生1石光明11西安电子科技大学2中国矿业大学3琶洲实验室cpf00790079@gmail.com，{ldli，gmshi} @ xidian.edu.cn，{jinjian.wu，wsdong} @mail.xidian.edu.cn摘要在过去的几年中，卷积神经网络（C-NN）已经战胜了视频质量评估（VQA）任务。然而，基于CNN的方法严重依赖于注释数据，这些注释数据通常在VQA中不可用，导致模型泛化的困难领域自适应技术的最新然而，由于所收集的视频的失真多样性和内容变化，VQA任务的固有主观性阻碍了自适应性能。在这项工作中，我们提出了一个课程式的无监督的主适应处理跨域无参考VQA问题。拟议的办法可分为两个阶段。在第一阶段，我们在源域和目标域之间进行自适应，以预测目标样本的评级分布，这可以更好地揭示VQA的主观性质。从这种适应，我们分裂的数据在目标域的信心和不确定的子域使用建议的基于不确定性的排名功能，通过测量他们的预测置信度。在第二阶段，通过将置信子领域中的样本视为课程中的容易任务，在两个子领域之间进行精细级适配在基准数据集上进行的大量实验结果表明，该方法在精度和速度上都优于同类方法.源代码发布于https://github.com/cpf0079/UCDA。1. 介绍受益于负担得起且可靠的消费者捕获设备的发展以及社交媒体平台的巨大流行，近年来已经见证了通过互联网共享和流式传输的用户生成的视频的爆炸式增长[8]。提高其效率*通讯作者图1.该模型的流水线可分为两个阶段，i）首先从标记源数据和未标记目标数据中学习领域不变特征; ii）由从第一阶段获得的伪标签监督，通过目标域中的两个子域之间的自适应来校正那些不确定预测的性能。通过通信网络的视频编码、存储和流式传输是视频共享和流式传输平台的主要目标。一个相关的研究方向是视频编码和流传输中的速率-失真折衷的感知优化，其中失真（或质量）通常使用可以预测感知质量的人类判断的视频质量评估（VQA）算法来建模。这激发了对感知图像和视频质量评估（IQA/VQA）主题的多年研究[48，36，13，22，23，12]。与依赖于人工注释的最可靠的主观VQA研究相比最近，卷积神经网络（CNN）已经成为解决视觉相关任务的标志性骨干模型。尽管在开发客观VQA模型方面取得了令人印象深刻的进展，但它们在实际应用中经常遇到挑战，其中在标记良好的数据上训练的预测模型很容易在给定目标相同的情况下被削弱。适应源域目标域源标签1.00.80.60.40.20.0置信子域伪标号123四5目标域1.00.80.60.40.20.012345可信预测1.00.80.60.40.20.0不确定子域改进预测1234五个不确定性预测1.00.80.60.40.21.00.80.60.40.20.0123450.01234五适应5179[21]《易经》中的“道”，是指“道”。这是因为基准VQA数据集通常偏向于特定环境，并且在实践中，通常难以获得完全覆盖现实测试场景的巨大可变性的新训练集不可否认，将在一个视觉领域学习的模型推广到新的领域一直是VQA技术发展的主要障碍。提高训练模型泛化能力的一个自然想法是采用领域自适应技术，该技术被发明用于通过学习领域不变表示来处理跨领域任务。它在许多计算机视觉任务中取得了令人印象深刻的一系列成功，例如语义分割，分类和检测[31，41]，但由于质量评估的主观性质，对于VQA的特定任务仍然是一个挑战。由于从测试场景中收集的视频必然具有不同的失真和不同的视觉内容，因此其中部分视频往往比其他视频更难评级[25]。这导致网络学习每个目标样本的可转移知识的难度不同，导致不确定的预测和较差的适应性能（图1，其中我们假设具有更集中分布的预测，其显示单峰模式，具有更高的预测置信度，如[25]所述客观VQA方法的传统智慧是学习回归模型来预测平均意见得分（MOS）。然而，质量评估进展的主观性质可能无法由单个标量数字充分表示，考虑到这样的方案忽略了待评估的视频将接收来自不同主体的不同意见的事实[44]。与图像对应物相比，这在复杂的真实世界失真视频上尤其深刻。例如，LIVE-VQC数据库[34]中的视频的主观评分的平均标准差在MOS量表[0，100]上为18。在这种情况下，我们认为，一种可能的方法，以更好地揭示这种内在的主观性可能驻留在探索潜在的有用的和预测的信息，包含在主观分数的分布，这是很少讨论或利用的文献。针对上述问题，本文通过将质量评估任务转化为评分分布预测问题，提出了一种新的领域自适应方法--无监督课程领域自适应（UCDA），用于处理跨领域无参考VQA任务。如图1所示，可以在两个阶段中执行所提出的课程风格调整。在第一阶段中，标记的源数据和未标记的目标数据之间的特征分布被对齐以产生目标样本的预测。然后，目标域数据进一步分裂成两个子域的基础上，他们的预测置信度。在第二阶段，a进一步以自监督的方式在两个子域之间进行精细级自适应，目的在于通过实施高预测置信度来改善目标数据中的那些不确定预测的性能这项工作的贡献可概括为以下几点：我们提出了一种新的无监督域自适应方法，其中评级分布被用作预测目标，以更好地揭示质量评估的内在主观性。据我们所知，这是一个早期的尝试，明确强调跨不同领域的VQA可转移的知识。我们开发了一个基于不确定性的排序函数，根据预测置信度将目标域中的样本排序到不同的子域中，这些子域用于构建课程中的易/难任务我们建立了一个两阶段的对抗适应，以提高适应性能的基础上设计的曲线-。这是通过对那些不确定的预测实施高预测置信度来实现的。2. 相关作品目的VQA方法按参考信息的可获得性可分为完全参考（FR）、减少参考（RR）和无参考（N-R）。虽然在FR/RR-VQA度量中可获得参考视频的全部或部分信息[24，35，1，42]，但NR-VQA度量利用失真特定或自然视频统计模型，而不参与来自原始视频的任何信息，这是实际应用中的主要优势，也是这项工作的主要关注点。早期的NR-VQA度量主要集中在失真特定的问题上，例如速率自适应和运动模糊[43，3]。这些度量证明了特定失真的优点，但不适用于其他情况。相比之下，通用NR方法旨在处理多样化的失真。 Saad等人[32]提出了V-BLINDS，其中离散余弦变换（DCT）中的模型和量化运动相干性的运动模型被组合以预测视频质量。Mittal等人 [28]提出了一种称为VIIDEO的度量，该度量对内在统计规律进行建模，以量化失真引入的干扰。最近，Korhonen [19]选择了一个包括经验运动统计、特定伪影和美学的综合特征集来构建两级视频质量模型，称为TLVQM。在[39]中，Tu et al. 提出了一种基于融合的VQA模型称为VIDVAL，使用现有高效NR-VQA模型之上的特征集成和选择过程。NR-VQA模型的性能通过特征工程师的端到端优化得到了显著提升-···5180SDSa) 域自适应质量预测b) 基于不确定性的排名c) 自监督子域自适应图2.拟议网络的总体结构。它由三个部分组成：a）域自适应质量预测网络，b）基于不确定性的排序函数，c）自监督子域自适应网络。给定标记的源数据和未标记的目标数据，DPHd被训练为通过尝试愚弄被优化以预测域标签的Dd来学习域不变特征。然后，引入基于不确定性的排序函数，根据预测置信度将目标数据划分为置信和不确定两个子域。之后，进一步训练DPHs以在D s的帮助下提高自适应性能，这是通过在由子域标签自监督的子域之间进行自适应来实现的。在深度学习技术的帮助下，进行质量回归。值得注意的是，Zhang等人。 [47]使用CNN和VQA的重采样策略进行弱监督学习。Liu等人 [26]利用3D-CNN模型进行压缩视频的编解码器分类和质量评估。在[21]中，通过结合内容依赖性和时间记忆效应，验证了用于野外视频的名为VSFA的NR-VQA方法。[11]中开发了一种称为RIRNet的基于深度学习的模型，其中融合了来自不同时间频率的时空特征，在[7]中，Chen等人获得了NR-VQA任务的广义时空特征表示。虽然基准性能的边界已经被推到新的极限，但这些模型被设计为特定于域的，并且由于域间隙而倾向于在跨场景泛化中遇到挑战。相比之下，我们的工作试图调查在不同领域学习的表征的适用性，这是我们的灵活性。通过对齐源域和目标域之间的特征分布来对目标样本进行分类，其由骨干网络（B）、分布预测头（DPHd，其中下标d指示其属于哪个部分）和域分类器（Dd）组成; 2）基于不确定性的排序函数，用于对目标样本进行排序。基于预测置信度对样本进行分类，并将其分为置信子域和不确定子域;以及3）自监督子域适配网络，用于进行两个子域之间的适配，其中，骨干网络B借助于DPH s和D s被进一步优化。通过对两个阶段的领域分类器进行反向优化，可以有效地缓解学习特征的领域差距。3.1. 域自适应质量预测形式上，我们可以访问标记的源视频xs及其从源域{（Xs，Ydis）}绘制的相关联的评级分布ydis，以及未标记的目标视频x s。信任对于训练质量感知表示是必要的用于不同的应用。视频S从目标域{Xt}绘制xt。直观地，3. 该方法在本节中，我们将详细介绍域自适应质量预测损失的目标概括为：L_pre_l=L_DP_H（X_s，Y_dis），（1）Ds模型，图2展示了整个框架。的整个模型可以分解为三个部分：1）a其中LDPH（Xs，Ydis）表示分类对象。域自适应质量预测网络，以从源数据产生用于评级分布预测的预测1.01.00.81.00.81.00.60.81.00.60.80.40.60.80.40.60.20.40.60.20.40.20.40.00.20.01234五个0.0 10.2234五个0.01234五个0.0一个234五个1234五个B目标分布预测B预测标签1.0源视频1.00.81.01.00.81.00.80.60.80.60.40.60.40.60.40.81.00.60.8 1.00.40.6 0.80.20.40.6DPH0.00.2 0.4D1234五0.01234五个0.00.21234五DPH0.2S1.00.01234五0.40.20.80.60.20.00.2可信子域0.40.01234五个0.0一个234五个1234五个源标签0.20.01234五1.00.80.60.40.20.01234五1.00.80.60.4Dd源1.00.8Ds自信0.20.01234五目标视频目标0.60.4不确定子域不确定0.20.01234五预测置信度...秩5181··Σ1Σ1不N不L−·L域自适应背后的概念是优化骨干网络的共享参数，使得学习到的特征对于视频质量预测的主要任务是有区别的，但对于域分类的任务是没有信息的[31]。为了缩小源域和目标域之间的域间隙，训练Dd以预测输入特征的域标签，其中采用梯度反向层（GRL）[14]来翻转梯度的符号并联合训练所有参数。Dd的优化通过以下对抗损失函数实现：其中，计算DUD（）和MED（）以分别测量在具有相同平均值DUD的低值意味着预测分布更类似于具有更高主观程度的均匀分布（低预测置信度）。MED的引入旨在克服以下弱点：DUD测量倾向于使平均值接近质量量表[17]的极值的更偏斜的分布趋于平均化，而参数ε用于平衡它们的权重。的详细计算LADV11=2（LAdv（Xs）+LAdv（Xt）），（2）DUD（yt）和MED（yt）被给定为：NsL（X）=−Slog（D（B（xi），（3）DUD（yt）=dw（yt，ut）=ΣΣN （Yt（i）−Ut（i））2二分之一、副词Ndsi=1Ni=1（七）不Ladv（Xt）=−Nlog（1−Dd（B（xj），（4）MED（y）=d（y，v）=ΣΣ（Y（i）−V（i））2二分之一、tj=1其中Ns和Nt是来自tw不不t ti=1（八）源域和目标域。因此，第一阶段中的模型训练的目标由下式给出：min maxpre1λ1adv1，（5）B、D1Dd其中D1是指DPHd。λ1是控制第一阶段预测损失和对抗损失影响程度的超参数。3.2. 基于不确定性的排名尽管领域自适应技术取得了进展，但在VQA任务的背景下，它们经常遇到预测不确定性问题。虽然具有分散分布的不确定预测阻碍了自适应性能，但解决该问题的一种直接方法是对那些不确定预测实施高预测置信度。为了实现这一目标，我们决定在目标领域采用“由易到难”的课程式学习方案。通过首先解决旨在推断关于目标域的一些必要属性的简单任务，可以按照这些推断的属性来训练预测网络，以鼓励对硬任务的自信预测[46]。然而，由于缺乏目标数据划分的基础，难以界定这些简单和困难的任务。为了应对这一挑战，我们提出了一个基于信息论的距离测量，以确定从第一阶段的目标预测的置信水平。具体地，对于每个目标视频Xt ，基于从 DP_H_d 生成的评级分布预测 y（对于br_vit_y，我们省略了本节其余部分的上标），我们定义一种简单而有效的方法来测量目标视频的预测置信度I（yt），如下：I（y（t）=DUD（y（t）+ε·MED（y（t），（6）ΣΣ5182·SC其中N表示质量排名，dw（）是指2-Wasserstein距离[6]。ut是离散均匀分布，而vt是使用最大熵模型[16]导出的最大熵分布。Ut和Vt分别是其相应的累积分布函数。在来自I（y（t）的测量值的排名中（I（y（t）越大，预测置信度越高），引入h_perparameterη作为分割视频的比率从目标域到两个子域的预测置信度，我们表示为置信和不确定子域。也就是说，包含在置信子域中的视频的预测分布倾向于比不确定子域中的预测分布更集中且类似单峰。3.3. 自监督子域自适应令Xc和Xu表示分配给置信子域和不确定子域的目标样本。在两个划分的子域的基础上，考虑到它们的高预测置信度，我们将来自置信子域的样本的预测称为课程中的容易任务，这在第一阶段已经解决。第二阶段训练旨在通过面对困难任务来微调预测模型，其中来自不确定子域的数据被增强高预测置信度。这可以通过在两个子域之间进行适配来实现。为此，我们选择来自第一阶段的预测作为置信子域中的数据的伪地面实况标签。在伪标签的帮助下，可以通过最小化预测损失来优化DPHL_pre_2=L_DP_H（X_c，Y_dis），（9）5183×个Σlog（D（B（x），（11）sΣ1×个uΣ--S--CL−·L其中LDPH（Xc，Ydis）用作分类对象-分辨率为768× 432。每个组包含一个参考-有效的评级分布预测从置信子域。为了鼓励对不确定子域的自信预测，我们采用了两个子域的潜在特征空间上的对齐，这是由来自排名函数的子域标签优化Ds的对抗性学习损失被公式化为：一段视频及其对应的15段长度为10s的失真视频CSIQ视频质量数据库[40]（仅MOS）该数据库包含12个参考视频和从6种失真类型生成的216个失真视频，分辨率为832 480。CVD2014视频数据库[29]（仅MOS）。此数据库Ladv21=2（LAdv1（Xc）+LNcAdv（Xu）），（10）针对在视频采集期间引入的复杂失真。它包含234个分辨率为640× 480或1280× 720的视频。视频为10- 25s，11- 31 fps。Ladv（Xc）=−NpCp=1KoNViD-1 k数据库[15]（仅MOS）。这个数据库的目的是自然的扭曲。它总共有1200个Ladv（Xu）=−NuNuq=1log（1−Ds（B（xq））），（12）分辨率为960 540的视频大型公共视频数据集。视频长度为8 s，24/25/30 fps。其中Nc和Nu分别是来自置信和不确定子域的示例的数量此外，第二阶段中的模型训练的目标可以表示为：最小值最大值前2λ2adv2，（13）B，D2Ds其中D2代表DPHs，并且λ2充当第二阶段中的预测损失和对抗损失的权衡权重DPHs的最终输出是预测的评级分布Qdis，其可以以与MOS计算相同的方式进一步聚合到质量得分Qsco中：NQsco=m·Qdis（m），（14）m=1其中N表示评级分布的总排名。4. 实验和分析4.1. 实验方案数据库为了评估我们的方法的性能，我们利用LBVD数据库[10]，其中包含具有评级分布的主观数据作为源域数据库，并利用其他五个流行的VQA数据库作为目标域数据库。它们可以进一步分为两类：LIVEVQA [33]和CSIQ VQA [40]由人工失真的视频组成，而CVD 2014 [29]，KoNViD-1 k [15]和LIVE-VQC [34]中的内容遭受真实失真，其中没有参考视频可用。LBVD数据库[10]（MOS和评级分布）。该数据库是一个大规模的失真直播视频质量评估数据库，其中1013个样本，每个样本持续10秒，在数据库中收集。实时视频质量数据库[33]（仅MOS）。该数据库包含160个视频，分为10组LIVE-VQC数据库[34]（仅MOS）。该数据库包含585个独特内容的视频，由80个不同的用户使用101个不同的设备（43个设备型号）捕获，具有广泛的复杂、真实的失真水平。评价标准。我们采用两个流行的性能标准，皮尔逊线性相关系数（PLCC）和斯皮尔曼秩相关系数（SR-CC）来衡量的准确性和单调性的结果，分别。预期性能良好的质量评估方法提供接近1的PLCC、SRCC值。考虑到客观预测和主观评分之间的尺度不一致，我们采用四参数逻辑函数将客观评分映射到主观评分，如[4]所述。4.2. 实现细节我们使用在Kinetics [5]上预先训练的C3D [38]网络初始化骨干网络B在第一阶段，模型的结构可用FC（128）表示- GDN-FC（N）-Softmax，使用简写符号，其中FC（n）指示具有n个节点的全连接层GDN是一种广义分裂归一化（GDN）联合非线性层，其灵感来自生物学，并已被证明在质量评估中是有效的[27]。在第二阶段，DPHs模型与DPHd共享相同的架构。我们采用[41]中的相同架构来训练Dd和Ds。关于参数，我们根据经验采用ε=0。5，λ1=λ2=0。8在所有实验中在所有的实验中，我们都采用了PyTorch框架。补充为了训练DPHd，部署学习率为5e4的Adam优化器[18]以最小化分类任务的EMD损失[20]，这得益于考虑有序评级之间的关系在用于训练DPHs的第二阶段中，使用每20个时期衰减0.2倍的1e4的学习速率。为了训练Dd和Ds，我们应用SGD优化器[2]，学习率为1e−4，动量为0.9。C5184表1.不同方法在五个公开可用的目标数据库上的定量结果。所有结果都使用LBVD数据库[10]作为源域数据集进行训练。更大的PLCC、SRCC值指示更好的性能。两种设置（监督/无监督）的最佳和次佳性能被突出显示和下划线。请注意，VMAF [24]和STRRED [35]是FR/RR指标，无法在这些真实失真的数据库上进行评估。⑴指示预测评级分布的变体。数据库[33]第三十三话CSIQ VQA [40]2014年CVD2014[29][15]第十五话LIVE-VQC [34]方法分布PLCC↑SRCC↑PLCC↑SRCC↑PLCC↑SRCC↑PLCC↑SRCC↑PLCC↑SRCC↑监督VMAF [24]0.71240.72200.74830.7697------[35]第三十五话0.79850.79670.81550.8490------[32]第三十二话0.74820.72440.77100.78430.72220.70680.62730.61580.65920.6413TLVQM [19]0.75110.73380.77400.79560.82150.83520.76080.76920.75140.7522视频[39]0.77810.76360.79940.80670.84450.85800.78650.78040.79610.7816VSFA [21]0.72780.70010.78160.79800.82770.84310.73910.74520.78070.7645RIRNet [11]0.80910.78280.84260.85740.87800.88910.78120.77550.79820.7713无监督NoAdapt视频[28]TCoN [30]TCoN† [30]TA3 N [9]TA3 N†[9]UDAUDA†UCDA（我们的）CCCC0.58730.56150.60510.61720.70020.65970.65470.63710.63350.62190.65180.62400.54470.49060.20830.15440.30580.34120.11460.07340.68680.67270.72310.72450.75270.74790.73360.73050.67410.69180.69230.67490.72600.73180.75810.74050.73800.74210.68050.69470.69170.69930.73970.73050.77070.74120.71930.70300.69320.69620.70050.70160.74220.74340.77430.75600.71770.71040.70190.70710.67490.68370.70050.69890.75820.76040.69810.70850.70820.70070.68330.68700.70420.70690.76930.77600.71460.72780.71140.70520.77970.78350.82830.81670.84140.84750.79090.78510.77020.76224.3. 绩效评价我们在两个变体中评估所提出的UCDA（NoAd-apt表示模型在源域上训练，并直接在目标域上测试而不进行自适应;UDA具有与我们在第一阶段中提出的方法完全相同的架构，除了预测目标是标量分数，并且没有进一步的课程风格调整），并且通过与几个竞争对手进行比较，包括：1）八种VQA方法，其中VIIDEO[28]是唯一一种无训练的非监督类型，其他七种是监督类型（ VMAF [24] ， STRRED [35] ， V-BLLINDS[32]，TLVQM [19]，VIDEVAL [39]，VSFA [21]）和RIRNet [11]），它们直接在目标数据集上训练和测试; 2）两种通用视频域自适应方法（TCoN [30]和TA3N [9]）作为基线模型，以证明所设计的课程风格自适应的有效性，考虑到没有现有的域自适应方法专门用于VQA任务（我们使用与我们的方法相同的设置来评估它们的每个数据库上的实验通过k-fold（k= 10）交叉验证，确保训练集和测试集在内容上不重叠。将该程序重复10次，并且在表1中给出了针对所提及的竞争者和所提出的算法的所有重复的PLCC和S-RCC结果的平均值。我们还通过报告UDA，TCoN和TCoN的不变量所实现的性能来评估预测评级分布是否有助于预测性能。TA3 N，其中回归质量分数预测由评级分布预测代替。从实验结果中，我们有几个观察。首先，所提出的度量令人信服地优于所有其他无监督度量的预测精度（PLCC）和单调性（SRCC）的所有目标数据集，提供明确的定量证据的有效性，建议UCDA。具体而言，它比变体UDA表现出很大的优势（在五个目标数据集上的PLCC方面分别为0.1048、0.1278、0.0836、0.0928和0.0620），这突出了所设计的课程式适应在对那些不确定的预测实施高第二，尽管无监督VQA方法VIIDEO 被设计用于任意失真类型，但它在 CVD2014、KoNViD-1 k和LIVE-VQC数据集中的现实失真上表现不佳。第三，一般来说，更好的性能是通过这些变量，试图预测的评级分布。这一发现进一步加强了我们的观察，即预测评级分布而不是标量分数导致与质量评估的内在性质的更高相关性，这可以有益于整体质量预测。最后但并非最不重要的是，一个鼓舞人心的发现是，所提出的UCDA的性能超过了大多数的比较监督方法没有任何监督的目标数据集，甚至达到了最好的性能在KoNViD-1 k数据集，具有最大的大小在所有的测试数据集。我们强调，很少有VQA5185ᵑ在文献中，在无监督设置下工作良好的算法，我们的UCDA在这个意义上是非常有竞争力的。4.4. 消融研究采用不同数据集作为源域的影响。为了检查UCDA的有效性超出杠杆老化的LBVD作为源域数据集，我们通过评估所提出的方法与respec- t从其他数据集选择源域包含-0.860.810.760.710.660 0.10.20.30.4 0.50.60.70.80.9 1仅输入MOS值。由于我们的方法需要对质量评级分布的标签进行训练，因此我们遵循[37]通过最大熵优化从可用的MOS值近似它们。特别地，评级分布被计算为对应于作为平均值的MOS的最大熵分布。然后，我们在表2中报告了所提出的UCDA与UDA相比的预测性能。根据结果，期望的是，源域的选择对自适应预测模型的性能具有影响。与UDA相比，我们的方法始终实现更好的性能。更重要的是，它可以保持良好的性能，无论所有的传输任务。这在一定程度上表明，在我们的框架中引入课程风格的适应性促进了学习模型的泛化能力。表2.所提出的方法和U- DA相对于PLCC测量的不同源域数据集的预测性能。分别选择列式和行式数据集作为源域数据集和目标域数据集源\目标LIVE CSIQ CVD KoNViD VQC生活N/A0.82910.77470.72800.7314CSIQ0.7850N/A0.75310.73970.6821DACVD0.76070.7917N/A0.76550.7447CKoNViD0.75820.81260.8462N/A0.7598UVQC0.76140.81030.82150.7817N/A平均0.76630.81090.79380.75370.7295生活N/A0.74190.62440.59900.5918CSIQ0.7273N/A0.59870.57460.5676一CVD0.61150.6842N/A0.66760.6715UDKoNViD0.59870.69900.7505N/A0.7132VQC0.63360.70630.73230.7247N/A平均0.64280.70790.67650.64150.6360超参数η的影响。我们进行消融研究，以找到超参数η的适当值，从而将目标域的样本分成两个子域。选择不同的η值来设置验证集上的分离的判定边界。图3展示了在所有五个目标域数据库上的实验结果。当η的数量较小时，当我们递增时可以观察到明显的性能差距-图3.超参数η对预测性能的影响，通过PLCC测量。ly增加η（与η为0的配置相比），表明所设计方案的有效性。然而，一旦η的数量达到某个值（在本工作中为0.6），增加该数量不会进一步改善性能或甚至倾向于见证下降。这些发现表明分区的规模确实影响预测性能，因此在我们的实验中选择0.6作为分割目标域的比例4.5. 半监督情形为了进一步研究所提出的算法的鲁棒性，我们将所提出的方法扩展到半监督设置，其中一部分目标标签可用于参与DPHd的训练（来自目标数据集的标签以与第4.4节中描述的相同的方式处理）。对从LB-VD到KoNViD-1 k和LIVE-VQC数据集的适应进行了广泛的实验。表3中报告了具有不同比例的靶标记物（范围为0.1至0.5）的结果，其中包括其他结构域适应方法用于比较。在那里，我们表明，通过添加目标标签的可用数量，我们始终观察到，无论目标域的注释训练数据的量如何，所提出的UCDA在两个传输任务与此同时，通过与其他指标的比较，我们的模型的性能与目标域中可用的训练样本的数量呈正相关这显示了所设计的课程式适应在充分利用监督信息方面的益处。表3.实验结果测量PLCC在半监督设置下的两个转移任务。方法LBVD→KoNViD10%30%50%LBVD→VQC10% 30% 50%NoAdapt0.65470.65470.65470.63350.63350.6335TCoN [30]0.74420.75170.75950.69200.69850.7056TA3 N [9]0.72570.73160.73850.70910.72060.7237UDA0.70630.71340.72050.71600.72510.7314UCDA（我们的）0.80290.82020.83860.78930.80850.8237生活CSIQCVD KoNViDVQC×个×个××××个PLCC5186×个×个MOS = 2.86预测值=3.59→3.13MOS = 2.52预测值=3.40→2.88图4.通过来自KoNViD-1 k [15]数据库的示例进行定性比较。对于每个示例视频，采样帧的右侧是在课程风格适配之前和之后的预测评级分布，在底部提供从与其MOS标签组合的分布计算的对应质量分数。注意，红色文本的预测指示DPH d模型的结果，而绿色指示DPH s模型的预测。4.6. UCDA的定性评价我们采用KoNViD-1 k数据库来可视化UCDA带来的性能提升。属于不确定子域的视频的代表性集合以及它们的预测评级分布和质量分数在图4中可见。为了进一步研究我们的课程机制是如何工作的，我们还包括在自监督子域适应之前由DPHd做出的预测结果作为用于比较的基线模型。可以观察到，预测分布倾向于更像单峰，并且计算的质量分数比基线模型更接近MOS标签，证明课程风格适应可以鼓励高预测置信度并进一步提高性能。有趣的是，来自不确定子域的视频剪辑的场景和内容通常是复杂的，其中包含多于一个对象。一种解释是，多个物体更容易分散被试的注意力，在一定程度上影响他们此外，与这些样本相对应的MOS标签主要集中在中等质量范围附近，这与[45]中的观察结果一致，即人类倾向于对质量范围两端的视频给出比中等质量范围更一致的评级（较小的方差）。电话：020 - 88888888传真：020 - 8888888处理速度（FPS）图5.不同NR-VQA模型在CVD 2014视频数据库上的平均处理速度，单位为每秒帧数（FPS）4.7. 计算效率除了性能之外，计算效率对于NR-VQA方法也是我们比较了V-BLIINDS，VIIDEO，VSFA ，RIRNet和CVD 2014数据集上的UCDA的平均处理速度，其中所有视频样本共享640 480和1280 720的空间分辨率。为了提供不同方法的计算效率的公平比较，所有测试都在具有E5-2630 CPU和64 GB RAM的计算机上进行。使用原始代码的默认设置，无需任何修改。我们重复测试10次，每种方法的FP-S如图5所示。值得注意的是，所有基于深度学习的模型都比传统模型快得多，其中V-BLIINDS和VIIDEO每秒只能处理不到6帧我们的方法可以达到实时处理速度（超过67 fps）720p的视频，这是非常有帮助的实际应用。5. 结论本文提出了一种新的跨领域NR-VQA任务的无监督域自适应方法。评分分布预测和课程风格适应。与简单预测标量质量分数相比，前者信息量更大，与质量评估的主观性质相关性更高通过测量预测评级分布的预测置信度，后者有助于开发两阶段自适应，以通过对目标域中的那些不确定预测实施高预测置信度来改善自适应性能。大量实验结果一致验证了该方法的有效性和效率。鸣谢。本工作得到了国家自然科学基金项目的资助（62171340，61771473，61991451），江苏省自然科学基金陕西省教育厅重点项目（ BK20181354 、BK20200649）（协同创新中心，20JY024）和中央大学基础研究基金（JBF211902）。MOS = 3.06预测值=4.02→3.44MOS = 3.26预测值=2.61→3.070.80.60.40.201234五个排名107.01649.16884.25223.06137.3433.2755.4641.8262.6721280×720英寸640×48067.713概率5187引用[1] C. G. Bampis，Z. Li和A. C.波维克基于时空特征融合和模型融合的全参考视频质量评估。 IEEE Trans. 电路系统视频技术-编号，29（8）：2256[2] L. 博图大规模机器学习与随机梯度下降。在COMPSTAT’2010的Proceedings施普林格，2010年。[3] T. Bran da o和M。 P. 真恶心无参考文献的H264/AVC编码视频。IEEE传输电路系统视频技术，20（11）：1437[4] ITU-R BT.500。电视图像质量主观评价国际电信联盟，2002年。[5] J. Carreira 和 A. 齐瑟曼。 Quo Vadis ， ActionRecognition？新模型和动力学数据集。在proc IEEE会议计算机目视模式识别（CVPR），第4724- 4733页。IEEE，2017年。[6] J. A.卡里略河McCann和C.维拉尼 2-Wasserstein长度空间中的收缩与颗粒介质的热化。Archive for RationalMechanics and Anal-ysis，179（2）：217[7] B. 陈湖，澳-地Zhu，G.Li，F.Lu，H.Fan和S.王. 学习广义时空深度特征表示用于无参考视频质量评估。IEEE传输电路系统视频技术，第1-1页[8] C. Chen，Y. Lin，S. Benting，和A. 科卡兰使用回放统计的大规模自适应流的优化转码正在进行IEEE国际会议图像处理（ICIP），第3269-3273页。IEEE，2018年。[9] M. Chen，Z.基拉湾AlRegib，J.柳河Chen和J.郑用于大规模视频域适应的时间注意对准。在proc IEEE国际Conf. Comput. 目视（IC-CV），第6321-6330页，2019年。[10] 陈佩湖，澳-地Li，Y. Huang，F. Tan和W.尘实时广播视频的QoE正在进行IEEE国际会议图像处理。（ICIP），第454-458页。IEEE，2019。[11] P. 陈湖，澳-地利湖，加-地Ma，J.Wu和G.石RIRNet：Recurrent-用于视频质量评估的递归网络。在Proc. ACMInt. Conf. Multimedia（ACM MM ），第834- 842 页。ACM，2020年。[12] 陈佩湖，澳-地李健，吴玉. Zhang和W.是林书时间推理引导的移动视频直播QoE评估。IEEE传输图像处理。，30：3279-3292，2021.[13] Y. Fang，H. Zhu，Y. Zeng，K.妈，还有Z。王.智能手机摄影的感知质量评估。正在进行IEEE会议Comput.目视模式识别（CVPR），第3674-3683页。IEEE，2020年。[14] Y. Ganin和V. Lempitsky无监督域自适应反向传播。在Proc. Int. Conf.马赫学习.（ICML），第1180-1189，2015页。[15] 诉Hosu，F.Hahn，M.Jenadeleh，H.Lin，H.男人T西尔尼S. Li 和 D. 酱汁 Konstanz Natural Video Database（Konstanz Natural Video Database，KONViD-1k）在proc Int. Conf. Quality Multimedia Exper.（QoMEx），第1-6页。IEEE，2017年。[16] E. T.杰恩斯论最大熵方法的基本原理Proceedings of theIEEE，70（9）：939[17] C. 康，G.Valenzise和F.迪福图像美学评价中的主观性预测在2019年IEEE第21届多媒体信号处理国际研讨会（MM-SP）中，第1-6页IEEE，2019。[18]

下载后可阅读完整内容，剩余1页未读，立即下载