图像质量评价中的退化参考图像恢复方法及其性能分析

186 浏览量更新于2023-10-08 收藏 680KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10242本色图像（H）退化恢复（噪声、LR等）图像（D）（降噪、SR等）图像（R）恢复降解退化参考图像质量评价郑和良1*，杨欢2，付建龙2，查正军1，罗杰波31中国科学技术大学，合肥，中国2中国北京微软研究院3University of Rochester，Rochester，NYzhenghl@mail.ustc.edu.cn，{huayan，jianf} @ microsoft.com，zhazj@ustc.edu.cn，jluo@cs.rochester.edu摘要图像质量评价的一个重要方面是对图像恢复算法的国家的最先进的方法采用了一个完整的参考范例，比较恢复的图像与其相应的原始质量的图像。然而，原始质量的图像通常是不可用的盲图像恢复任务和现实世界的情况下。在本文中，我们提出了一个实用的解决方案命名为退化参考IQA（DR-IQA），它利用输入的IR模型，退化图像，作为参考。具体来说，我们提取参考信息，从退化的图像提取知识的原始质量的图像。蒸馏是通过学习参考空间来实现的，其中鼓励各种退化并对参考空间进行优化，以捕获对质量评估有用的深度图像先验请注意，原始质量的图像仅在训练期间使用。我们的工作为盲IR提供了一个强大且大量的实验表明，我们的结果甚至可以接近全参考设置的性能1. 介绍数字图像在处理、压缩、传输等期间可能经受各种质量降级。[36]第30段。并且开发了图像恢复（IR）算法以提高退化图像的质量[18，35，38，41，43，46，47]。如何评价复原图像的质量和评价红外算法是一个随之而来的问题.最先进的IQA方法采用全参考范式（FR-IQA），该范式学习将恢复的图像与其相应的原始质量图像进行比较。*这项工作是在郑和良作为研究实习生访问微软研究院时完成的代码和模型可从https：//github.com/researchmm/CKDN网站。DDD图1. (a)原始质量的图像可以为IQA提供强有力的参考信息。当原始质量图像不可用时，（b）将恢复的图像直接回归到质量分数导致性能的急剧下降为此，（c）我们提出从退化图像中提取参考信息，并使这种解决方案有效。FR、NR、DR、S和SRCC分别指示完全参考、无参考、降级参考、质量分数和斯皮尔曼年龄（如图1（a）所示）。FR-IQA算法已经被广泛采用作为IR评估度量，例如，PSNR、SSIM [36]和LPIPS[45]。然而，它们不能应用于盲图像恢复任务和现实世界的appli-阳离子，原始质量的图像是不可用的。在本文中，我们研究的问题，评估IR模型，而不依赖于原始质量的图像。为了评估没有原始质量图像的IR模型，无参考IQA（NR-IQA）方法提供了一种解决方案，即，直接将恢复的图像回归到质量分数，即，平均意见评分（MOS）[2，13，20，32]。然而，参考信息的缺乏使得问题更具挑战性并且导致性能的急剧下降，例如，0的情况。1409SRCC（斯皮尔曼相关系数[30]）下降。这促使我们寻求可用的参考信息。我们发现-图像质量评价IRRFR-IQA苏0.7922（SRCC）HIRRNR-IQAS0.6513（↓0.1409）IRRDR-IQAS0.7669（↑0.1156）H：有H：没有10243IR模型的放置（即，退化图像）通常是自由获得的，并且已经证实退化图像还包含有用的图像先验，如原始质量图像，用于解决计算机视觉中的欠约束问题为此，我们提出了一种新的解决方案，命名为退化参考IQA（DR-IQA）。然而，用退化参考直接替换现有FR-IQA模型[5]的原始质量参考会导致0.1239 SRCC下降，因为各种退化所涉及的噪声使得难以从退化图像中挖掘和利用参考信息。为了充分利用退化图像，提高DR-IQA的有效性，我们提出了一个条件K知识库D蒸馏网络（CKDN）。如图2所示，CKDN由三个模块组成，即：降级容忍嵌入模块（DTE）、质量敏感嵌入模块（QSE）和卷积分数预测器（CSP）。DTE是关键模块，其目的是从退化图像中有效地提取IQA的参考信息具体来说，它学习一个参考空间，其中各种退化图像被优化以与原始质量图像共享相同的特征统计。这样的空间是在用QSE和CSP进行质量评估的条件下学习的，其中QSE从恢复的图像中学习有此外，我们发现预训练这样的条件可以帮助学习质量敏感的特征，并进一步推进参考空间的优化。特别是，我们提出了一个相对得分回归任务，可以通过创建数据对来扩大训练数据的空间。我们进行了大量的实验来评估我们提出的解决方案。结果表明，我们提出的CKDN使DR-IQA能够在各种IR任务上实现与全参考设置相当的性能，例如，传统/基于GAN的超分辨率、去噪等。此外，我们进一步研究了参考质量和现有IQA方法的性能对评估不同IR任务的影响。我们得出三个结论性的见解：1)我们的CKDN适用于大范围的退化类型，2）参考图像对于评估基于GAN的图像极其重要，以及3）当前的IQA方法可以为评估IR算法提供大约85%的可靠判断。更多详情请参见第5节。我们的主要贡献可概括如下：1）据我们所知，我们是第一个利用退化图像进行IQA的公司。2)我们制定了这个实际的设置，并提出了一个有效的条件知识蒸馏网络来解决这个问题。3)大量的分析表明，退化的参考是很大的帮助评估基于GAN的图像。总的来说，我们相信我们的工作将有助于IQA和盲SR社区，并为评估基于GAN的模型提供见解。2. 相关工作无参考图像质量评估。NR-IQA旨在预测失真图像的感知质量，而不参考原始质量的图像。去除参考图像使得这样的设置在许多应用中更实用，因此近年来受到越来越多的关注。NR-IQA文献中的早期工作提出对自然图像的统计数据进行建模，并将参数偏差回归到图像退化[22，23，29]。近年来，深度神经网络（DNN）显示出有前途的能力，并且被用来将失真图像拟合到NR-IQA的质量分数[2，13，20，32]。考虑到训练数据有限的问题，dipIQ提出以自监督方式学习对大规模未标记图像对进行排名[19]。受FR-IQA的启发，幻觉IQA提出将失真图像与幻觉参考进行比较，这些幻觉参考通过对抗训练从失真图像中恢复一些研究人员还提出为NR-IQA生成质量图[24]。与这些工作相比有三个不同之处：1）与从评估图像生成的超分辨率参考相比2)以前的作品使用手工空间（即，RGB图像/SSIM映射），而我们学习端到端的深度嵌入。3)以前的工作试图全参考图像质量评估。全参考设置通过将IQA问题转换为两个子问题来显著简化IQA问题，即，计算恢复图像和参考图像之间的距离，并将这种距离映射到质量分数[21，36，37，44]。在这里，我们主要回顾了广泛用于评估IR模型的完整参考IQA方法[36，45]。PSNR和SSIM [36]很有吸引力，因为它们易于计算，并且具有明确的物理意义。但它们与感知的视觉质量[5，27，45]没有很好的相关性，特别是对于评估GAN生成的图像[4]。LPIPS [45]分析了深度特征作为感知度量的不合理有效性并且SWDN通过考虑基于GAN的失真的空间未对准来进一步改进LPIPS [5，6]。与FR-IQA不同，我们提出的DR-IQA仅需要退化图像作为参考，并且我们提出了条件知识蒸馏网络来利用来自退化图像的深度图像先验请注意，我们提出的DR-IQA也不同于传统的简化参考IQA（RR-IQA），其提取预定义的特征，例如频域系数和图像梯度，作为视觉通信系统场景下的参考[16，34]。10244CKD丢失条件参考--(h)IQA的深度图像先验仅用于培训(a) 退化图像(b) 耐降解包埋（DTE）（图像FC(f)评分(c) （d）质量敏感嵌入（QSE）（e）卷积分数预测器（CSP）图2.条件知识蒸馏网络（Conditional Knowledge Distillation Network，CKDN）CKDN由三个部分组成，即，（b）中的劣化容忍嵌入模块（DTE）、（d）中的质量敏感嵌入模块（QSE）以及（e）中的卷积得分预测器（CSP）。DTE通过优化条件知识蒸馏（CKD）损失将（a）中的退化图像嵌入到（h）中的参考空间。这种损失从（g）中的原始质量图像学习参考信息，并且最小化劣化图像和原始质量图像的特征之间的差异请注意，QSE和CSP提供了学习参考空间的条件，并且退化图像的学习表示为IQA提供了参考信息。3. 方法在本节中，我们将介绍DR-IQA的设置和我们提出的DR-IQA模型。我们的模型将图2（a）中的退化图像作为输入（即，IR模型的输入）和图2（c）中的恢复图像（即，IR模型的输出），并且旨在预测图2（f）中的恢复图像的质量分数。与FR-IQA类似，基本思想是将恢复的图像与参考进行比较，并进一步将学习到的差异映射到质量分数。然而，DR-IQA中的参考图像由于退化而具有噪声。为了解决这个问题，我们提出学习图2（h）中的参考空间以捕获对质量评估有用的深度图像先验。特别地，我们提出的条件知识蒸馏网络（ CKDN ）由图 2 （b ）中的降级容忍嵌入模块（DTE）、图2（d）中的质量敏感嵌入模块（QSE）和图2（e）中的卷积分数预测器（CSP）组成我们提出了一个条件知识蒸馏（CKD）的损失，以指导学习的参考空间。此外，我们提出了相对得分回归损失来预训练QSE（如图4所示）。下面我们将详细介绍3.1. 制剂DR-IQA的制定。给定原始质量图像H，退化图像可以表示为D;可以应用图像恢复（IR）算法来获得恢复图像，即，R;以及人类注释的质量得分，即，平均意见得分（MOS）可以表示为s。在火车上在阶段，所有这些{H，D，R，s}都可用。而在在测试阶段，模型仅将D、R作为输入，并预测质量分数s。CKDN的配制。CKDN由三个模块组成，即，降级容忍嵌入模块（DTE）、质量敏感嵌入模块（QSE）和卷积分数预测器（CSP），它们被表示为E1，E2，S，分别。我们可以通过以下方式获得质量分数：s=S（E1（D）-E2（R）），（1）其中D、R和s分别是退化图像、恢复图像和恢复图像的质量分数DR-IQA专用CKDN设计。与最先进的FR-IQA模型[27，45]相比，所提出的CKDN对于DR-IQA问题具有两个优势（如图3所示）。1)FR-IQA模型提取具有相同参数的恢复图像特征和参考特征，而我们的CKDN学习特定于任务的嵌入（即，DTE和QSE）。2)FR-IQA模型专注于提取特征差异，而我们更关注（通过在CSP中堆叠残差块）将特征差异映射这样的设计可以更好地处理参考图像的退化。3.2. 学习质量敏感嵌入学习恢复图像的质量敏感特征对于图像质量评估是重要的。我们建议学习一个质量敏感的嵌入（QSE）提取这样的歧视性特征。回归绝对质量分数是优化QSE的最直观的损失函数，即，10245121EH2H221EEEH2HH1CKD一一112一N我12我2一一一N12我2一1Σ2EES2我H R(a) FR-IQA模型DSSR(b) DR-IQA模型（DPEN）恢复BPr（>）图3.（a）FR-IQA模型和（b）DR-IQA模型（CKDN）的比较。FR-IQA模型侧重于计算恢复图像和参考图像之间的差异，而DR-IQA需要1) 用于恢复图像和参考图像的不同嵌入，以及2）用于将特征差异映射到分数的卷积层。图4.通过提出的相对分数回归损失对QSE进行预训练的说明。H（H）。具体来说，我们提出的条件知识蒸馏损失可以表示为：训练所述模型以将所述输入数据{D，R}拟合到所述ab。L=L+L+λ¨E（H）− E（D）¨，S这样的回归问题的平方误差（MSE）：L=1s− S（E（D）− E（R）），（2）我其中N是训练图像的数量注意在S.T.EH = E2， SH =S，其中L_ckd是条件知识蒸馏损失。L和LH是评分回归损失，分别如公式2和公式3所示。λ是损失的重量。EH=E2和SH=S是约束条件。注意在本文中，为了简单起见，我们示出了具有单一降级的单一内容的情况。3.3. 学习容劣嵌入在本小节中，我们将介绍如何学习DTE，这是我们模型的关键模块。DTE应该从劣化图像中捕获参考信息。我们的基本思想是从原始质量的图像中学习参考信息，并使用所学到的知识来指导DTE的学习为了实现这一目标，我们提出了一个条件知识蒸馏损失，并设计了一个有效的预训练方法。条件知识蒸馏。知识提取是特征学习的强大工具[11，39，48，49]。我们的扩展条件知识蒸馏利用恢复的图像作为上下文信息（条件），这在各种视觉任务中很重要[40，42]。等式2示出了用于学习CKDN的基本目标函数。让我们考虑在全参考设置中训练CKDN：这种限制对于实现有效的反对DR-IQA进行了有效的稀释，使1（D）和H（H）处于同一潜空间。换句话说，原始质量和退化图像的嵌入学习应该处于相同的条件下。条件知识提炼的预训练。等式4中的目标函数可以应用于以端到端的方式训练 CKDN ，其中参数由ImageNet [14]预先训练的参数初始化。更进一步，我们研究等式4中的条件如何影响知识蒸馏性能。我们发现预训练QSE，即，2、可以提前优化，达到更好的性能。也就是说，在通过等式4训练CKDN之前，我们首先通过相对分数回归损失来学习QSE。具体地，我们通过比较两个恢复的图像来训练模型Ri，Rj，并回归si> sj的可能性。这种损失可以表示为：L=1ΣPr（s >s）− S（E（R）− E（R））2，LH=1Σ¨s我-S（E（H）−E（R））¨，（3）rNiji、j2i2j2（五）其中L H、H（）、H（）和H（）表示分数回归损失、容劣嵌入模块、质量敏感嵌入模块和使用原始质量图像训练的卷积分数预测器。与退化图像相比，从原始质量图像学习用于IQA的深度图像先验要容易得多，即， EH（H）应该比E1（D）好。这样的观察促使我们通过以下方式来指导E1（D）由Pr（si>sj）=1/（1+10（sj-si）/M）[5]获得，M是分布的数据集特定参数，M=400在我们使用的数据集中。我们称这样的训练阶段为预先训练好的QSE可以为后续的知识提炼提供更好的与以前的工作比较。我们分析了我们提出的条件知识差异之间减去全局池222还原了一个2L2范数/加权和溶质质量分数.具体来说，我们最小化平均值（四）我>sj）可以是其中N是训练对的数量，Pr（s10246--表1.在我们的实验中使用的PIPAL [5]数据集子集的细节。#IR表示IR模型和设置的数量，#Img表示失真图像的数量。IR任务子任务# IR图像数量Sr(a) 插值(b) 传统SR(c) 面向PSNR的SR(d) 基于GAN的SR6212,400去噪(e) 均值滤波(f) 传统去噪(g) 深度去噪132,600混合物(h) 噪声图像SR(i) 去噪后SR(j) 减压后SR142,800耕作和先前的技术，例如，数据增强，香草知识蒸馏[11]和幻觉参考[17]。数据增强方法增加了H，Ri对训练数据，这将提高模型的通用性。这种策略可以被视为一种间接的知识蒸馏的参数共享的方式。香草知识蒸馏方法通过等式4优化这种策略将未对齐的特征分布从教师网络（用原始质量图像训练）提取到学生网络（用退化图像训练）。幻觉参考方法可以通过从降级图像生成幻觉参考来应用于DR-IQA，并且使用所生成的参考来进行IQA。这样的解决方案试图将与数据增强和香草知识蒸馏相比，我们的方法更直接和有效，具有良好的对齐特征。与幻觉参考方法相比，我们的选择性特征蒸馏更容易学习，因为它是一个不适定的问题，从退化图像恢复到原始质量的图像的所有4. 实验4.1. 实验装置数据集。我们在感知图像处理算法数据集（PIPAL）[5]上评估了我们的模型，该数据集是最大的IQA数据集，具有113万个人类注释。PIPAL包含两种类型的图像，它们是传统的失真图像（例如，JPEG压缩、噪声、空间扭曲等）以及通过IR算法恢复的图像由于我们提出的IQA方法是为评估IR算法而设计的，因此我们去除了传统的失真图像，并使用了已发布的PIPAL的一个子集，其中包含三个重要的图像恢复任务（即，超分辨率、去噪和混合恢复）。我们以与现实世界一致的方式分割训练集和验证集表2.与以前的作品比较。我们在DR-IQA设置中实现FR-IQA模型，↑表示越高越好。方法SRCC↑PLCC↑DIQaM [2]0.62550.6019NR-IQANIMA [32]霍尔-IQA [17]0.63300.63900.65400.6167MEON [20]0.64360.6610PSNR0.32310.3516SSIM [36]0.35730.3509DR-IQAPieAPP [27]LPIPS [45]0.65630.66500.59370.5872SWDN [5]0.67290.6052CKDN（我们的）0.76690.7514开发新的IR算法的场景。具体来说，我们将200张参考图像随机分为175张训练图像和25张验证图像，这可以确保我们在看不见的图像内容上验证我们的模型此外，我们进一步将89个IR算法分为50个用于训练的算法和39个用于验证的算法，这可以确保对未知算法进行验证。请注意，我们将旧算法用于训练，将新算法用于验证。更多细节可见于表1。评估指标。我们遵循以前的作品[2]5，20]，使用两种最广泛获得的IQA方法，即，Spearman秩序相关系数（ SRCC ） [30] 和 Pearson 线性相关系数（PLCC）。SRCC评估两个列表的单调性，即，预测得分的顺序是否与人工注释的顺序一致。PLCC同时考虑订单和价值。基线。我们比较了我们的方法，以前的方法在图像质量评估，包括NR-IQA和FR-IQA方法。在下文中，前四种方法是NR-IQA模型，并且后五种方法是FR-IQA模型。我们与他们相比，由于他们的国家的最先进的性能和高相关性。• DIQaM [2]：提出联合学习局部质量和局部权重，即，局部质量对全局质量估计的相对重要性• MEON [20]：将NR-IQA公式化为多任务训练问题，即，失真识别任务和质量预测任务。• NIMA [32]：建议预测MOS的分布，并引入了基于EMD的损失，该损失基于类距离惩罚错误分类。• Hall-IQA [17]：提出将畸变图像与GAN从畸变图像中恢复的幻觉参考进行比较。• PSNR ：峰值信噪比（ PSNR ）是均方误差（MSE）的扩展，其进一步考虑信号与噪声之间的比率。10247×××表3.主要部件的烧蚀实验方法SRCC↑PLCC↑FR模型[5]0.67290.6052CKDN0.71270.6606CKDN + CKD0.75490.7473CKDN + CKD + Pret.0.76690.7514FR上界0.79220.8233表4.Conv.上的烧蚀实验无CKD的组织块。方法Conv. 块SRCC↑PLCC↑FR模型[5]VGG0.67290.6052CKDN（我们的）CKDN（我们的）VGG残余0.70060.71270.64200.6606• SSIM [36]：结构相似性指数度量（SSIM）将图像退化视为结构信息的感知变化。• PieAPP [27]：PieAPP提出了一个基于成对偏好的感知图像错误评估框架。• LPIPS [45]：学习感知图像块相似性（LPIPS），提出使用学习的深度特征加权和作为感知度量。• SWDN [5]：空间扭曲差异IQA网络（SWDN）提出考虑空间未对准的鲁棒性，特别是对于基于GAN的失真。实作详细数据。我们遵循以前的工作[5]并将输入图像分辨率设置为288 288。学习率设置为0.15，我们使用带预热的恒定学习率策略。我们首先训练10个epoch来初始化质量敏感的嵌入，然后训练CKDN 20 epochs。我们发现等式4中的损失重量λ对优化是鲁棒的，其根据经验被设置为10.所有的扭曲都在训练过程中组合，我们的模型是端到端训练的。模型大小为103MB，训练内存为6.8GB（每个GPU的批量大小为8）。我们使用PyTorch [26]作为我们的代码库。我们的CKDN非常高效，每个实验可以在8个Tesla V100 GPU上在30分钟内完成CKDN的架构我们实现了两个嵌入，即，DTE和QSE，通过卷积层和三个残差块[10];并且我们通过四个残差块和三个完全连接的层来实现卷积分数预测器。请注意，尽管DTE和QSE共享相同的体系结构，但它们的培训策略是不同的，并且是专门设计的。4.2. 比较为了评估我们提出的CKDN，我们实现了NR-IQA和FR-IQA任务提出的方法。具体来说，对于NR-IQA模型，我们只使用恢复的图像进行验证;对于FR-IQA模型，我们保持与我们的模型相同的设置，并使用降级的IM。表5.模型结构上的烧蚀实验嵌入特征尺寸SRCC↑PLCC↑共享未共享未共享非共享72× 7236× 3618× 1872× 720.73110.74360.72340.76690.69260.73870.71760.7514表6.知识蒸馏的消融实验方法SRCC↑PLCC↑无水蒸馏0.71270.6606数据增强0.74690.7087幻觉参照物0.73480.7087知识蒸馏0.73380.7093条件知识蒸馏0.76690.7514年龄作为参考。我们在相同的训练/验证分割上训练和验证所有模型，以保持比较公平。结果可见于表2中。可以观察到，我们提出的CKDN优于所有以前的作品具有明显的利润率，这产生了最佳的解决方案时，原始质量的图像不可用。PSNR和SSIM不能很好地与退化的参考一起工作，因为通过这些方法计算的距离对于退化不是鲁棒此外，如果没有设计良好的退化参考机制FR-IQA模型在PLCC方面由于PLCC受分数值的影响2和4个下采样LR图像）将引起干扰并且被认为是噪声。然而，与最先进的模型[5]相比，使用我们提出的方法，可以利用退化图像来实现0.09404.3. 消融研究主要部件。我们在表3中评估了我们提出的CKDN的主要组成部分。可以观察到，我们提出的主干对于DR-IQA 工作良好，其比先前的 FR 模型表现好0.0398SRCC。此外，所提出的条件知识蒸馏机制可以进一步提高性能0.0422 SRCC，这表明了通过原始质量图像引导DTE的有效性。我们提出的预训练方法可以提高超过0.01 SRCC，这使得我们的DR设置模型架构。我们在表5中研究了模型设计质量敏感嵌入和容劣嵌入的共享参数将导致0.0358的此外，我们要强调的是，特征差异的空间信息是重要的，这是被FR-IQA模型忽略。具体地，通过下采样的输入特征10248×表7. SRCC期预训练消融实验。“Pret”表示预训练。历元571015ImageNet Pret.0.75490.75490.75490.7549LaPret.0.75610.75740.75360.7543LrPret.0.75870.76290.76690.7643表8.通过不同的训练/验证分割（SRCC）进行鲁棒性评估的广泛实验。列车/VAl分流基线我们FR设置50列车+ 39列车0.67290.76690.792254列+ 35阀0.68840.77940.801159列+ 30阀0.65610.76970.7943CSP，我们可以观察到0.0233 SRCC下降。最后但并非最不重要的是，表4示出了重要的是CKDN的公式化以及特定架构（例如，残差或VGG [31]块）是边缘的。知识升华。表6显示了不同知识蒸馏方法的有效性。如第3节所分析的我们发现，幻觉的参考，甚至带来了性能下降，这将是由于涉及特征噪声时恢复幻觉的参考。预训练方法。表7示出了不同的预训练方法（通过具有不同时期的不同损失进行预训练）如何影响性能。可以观察到，所提出的相对分数回归损失比绝对分数回归损失和ImageNet预训练表现得更好。这样的改进显示了在具有扩大的成对数据的高度相关的任务训练/验证分割的稳健性。我们进一步探讨了训练/验证分裂如何影响所提出的方法的有效性。首先，我们研究各种训练/验证从图像内容的方面分离我们发现，不同的训练/验证分裂导致相当的性能（0.01 SRCC内）。此外，我们从失真类型的角度研究了三种不同的训练/验证分裂结果可以在表8中找到，其中可以观察到，我们提出的方法可以在所有三个设置上实现一致的改进，并且接近通过使用原始质量图像实现的性能CKDN可以改善SR算法作为一个损失项。具体而言，我们遵循NTIRE 2020挑战赛获胜者的设置[12]，即，使用DIV8K [9]数据集并获得LPIPS [45]作为度量。结果（85k次迭代）见表9。可以观察到，我们的CKDN可以提高SR性能。我们只在上述设置上进行实验，更广泛的实验-表9.CKDN可以用作损失术语。方法基线基线+VGG基线+CKDNLPIPS↓0.53800.50390.4957表10.交叉数据集评估实验。2AFC评分是BAPPS的原始指标[45]。参考FR-IQA（LPIPS）×2 LR×4 LR2AFC评分↑69.8069.7168.98参考×8 LRL25噪声L50噪声2AFC评分↑68.3868.5867.63表11.实践结果：使用CKDN作为SR度量。结果的格式为PI↓/LPIPS↓/（1-CKDN）↓。方法Set5产品14BSD100双三7.36/0.34/0.487.02/0.43/0.417.00/0.52/0.51SRGAN3.98/0.08/0.403.08/0.16/0.352.54/0.19/0.43SPSR3.27/0.06/0.362.90/0.13/0.322.35/0.16/0.40将在今后的工作中进行。CKDN可以很好地跨数据集进行泛化。我们在一个看不见的数据集BAPPS [45]上测试了我们的模型，表10显示，即使在退化的参考和没有微调的情况下，我们的模型也可以实现相当的CKDN可以在实践中提供帮助。在表11中，我们替换了来自最先进SPSR [18]的主观图像质量实验。[15]第一个是SRGAN [16]。CKDN提供了与PI [1]和LPIPS[45]相同的结论。我们还发现一些不一致的结果，当评估可比的IR算法。这一问题有待于进一步研究。5. 讨论在本节中，我们进行了大量的实验和详细的分析，以1）评估CKDN的鲁棒性2) 显示了参考图像用于评估GANs生成的图像的极端有效性，以及3）提供了对当前IQA模型如何用作IR度量的直观理解。所提出的方法在具有大范围退化类型的退化参考上工作良好。我们建议使用IR输入，即，降级的图像，以帮助评估恢复的图像的质量，这在现实世界的场景中是实用的。我们进一步研究了使用相同的退化图像（例如， 4下采样的LR图像）作为用于评估所有恢复的（例如，SR，去噪）图像。这样的设置并不实用，但它可以直观地显示参考质量对IQA性能的影响。结果可见于表12中，并且图示可见于图5中。我们选择数据集中最常见的5种退化。可以观察到，所提出的方法在大的降解范围，例如，2×下采样，4×下采样-10249××8倍下采样LR图像（↑0.0591）高斯噪声，级别：50（↑0.1289）JPEG压缩，Q：10（↑0.1331）原始质量图像（↑0.1409）图5.通过不同类型的参考图像获得的SRCC改进的图示。用绿色标记的百分比数字是与无参考设置相比的SRCC改进。表12.关于参考图像的质量如何影响IQA性能的广泛实验。参考SRCC↑PLCC↑NR基线0.65130.6312LR图像2×4×8×0.78590.76390.71040.82860.78060.7251高斯噪声等级：250.78880.8291等级：500.78020.8190JPEG问：300.79110.8239问：10个0.78440.8288IR输入（我们的DR设置）0.76690.7514FR上界0.79220.8233ple，高斯噪声，具有以下级别：25和50，JPEG压缩与30和10的质量。在8下采样设置下性能下降，但仍优于无参考设置0.0591 SRCC。参考图像对于评估GANs生成的图像非常重要评估基于GAN的IR模型近年来吸引了大量关注[8，5，45]，因为GAN生成的伪影为IQA带来了新的挑战。我们在表13中研究了我们的模型在基于GAN的图像上的性能，并找到了引入参考（例如，完全参考或降级参考）可以显著地有益于评估基于GAN的图像（具有0.3101 SRCC增益）。这样的结果是合理的，因为GANs生成的纹理可能会混淆NR-IQA模型区分伪影和图像内容。因此，参考图像可以提供强有力的指导，以从图像内容中解开目前的IQA方法作为IR指标时，可以提供85%左右的可靠判断. 我们提供了一个直观的理解，以及目前的IQA模型可以用作IR指标。特别地，我们使用IQA模型来比较相同任务和设置下的IR算法（例如，GAN的4SR任务）并计算预测判断的准确性。我们通过相同的主干训练所有的设置，即，我们的CKDN，用于公平比较。表13中的结果表明，表13.通过SRCC和准确性评估基于GAN的图像的广泛实验准确性：我们使用IQA模型来比较两种IR算法的输出图像（哪一种更好），并计算正确判断的百分比（与人类判断相同）。↑表示越高越好。度量NR-IQADR-IQAFR-IQASRCC↑准确度↑0.40810.68530.71820.85070.75600.8580FR-IQA设置为约85%，这意味着IQA模型的85%此外，DR-IQA可以实现与FR-IQA设置相当的结果，而NR-IQA设置导致17.27%的准确度下降。6. 结论在本文中，我们研究的问题，评估IR模型没有原始质量的图像。我们提出了一个退化的参考解决方案（DR-IQA），引入IR输入，以提高质量评估性能。我们发现利用退化图像作为参考是不平凡的，并且通过学习条件知识蒸馏网络（CKDN），可以实现有希望的性能我们已经进行了广泛的评估，以证明我们所提出的方法的有效性。此外，我们得出了关于IQA和IR指标的三个有价值的结论1)我们的CKDN在大范围的退化类型下工作良好，2）参考图像对于评估基于GAN的图像极其重要，以及3）当前的IQA方法可以为评估IR算法提供大约85%的可靠判断。在未来，我们将专注于1）扩展我们的模型以评估其他条件GAN任务（例如，在绘画，和语义分割的图像），和2）进一步研究的问题，使用我们的模型作为损失/度量IR算法。7. 确认本工作得到了国家重点研发计划项目2020 AAA0105702、国家自然科学基金项目U19 B2038、安徽省高校协同创新计划项目GXXT-2019-025的支持10250引用[1] 约柴·布劳和托莫·麦克利。感知失真的权衡。在CVPR中，第6228-6237页[2] SebastianBosse，DominiqueManiry，Klaus-RobertMüller，Thomas Wiegand，and Wojciech Samek.深度神经网络用于无参考和全参考图像质量评估。TIP，27（1）：206[3] 陈第奇、益州王、文皋。无参考图像质量评估：注意力驱动的方法。TIP，29：6496[4] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS，第2672-2680页[5] Jinjin Gu，Haoming Cai，Haoyu Chen，Xiaoxing Ye，Ren Jimmy S，and Chao Dong.PIPAL：用于感知图像恢复的大规模图像参见ECCV，第633-651页[6] Jinjin Gu，Haoming Cai，Haoyu Chen，Xiaoxing Ye，Jimmy Ren，and Chao Dong.感知图像恢复的图像质量评估：新的数据集、基准和度量。arXiv预印本arXiv：2011.15002，2020。[7] 顾金金和朝东。用局部属性图解释超分辨率网络。在CVPR，2021年。[8] Shuyang Gu，Jianmin Bao，Dong Chen，and Fang Wen.GIQA：生成的图像质量评估。在ECCV，第369-385页[9] 顾书航、Andreas Lugmayr、Martin Danelljan、ManuelFritsche、Julien Lamour和Radu Timofte。DIV8K：多样化的8K分辨率图像数据集。在ICCVW，第3512-3516页，2019年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[11] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。InNeurIPSW，2014.[12] Younghyun Jo，Sejong Yang，and Seon Joo Kim.研究极端超分辨率的损失函数。在CVPRW，第424-425页[13] Le Kang，Peng Ye，Yi Li，and David Doermann.用于无参考图像质量评估的卷积神经网络在CVPR中，第1733-1740页[14] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NeurIPS，第25卷，第1097-1105页[15] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR中，第4681-4690页[16] 李强和周望。使用基于分裂归一化的图像表示的减少参考图像JSTSP，3（2）：202[17] Kwan-Yee Lin和Guanxiang Wang。幻觉-IQA：通过对抗学习进行无参考图像质量评估。在CVPR，第732-741页[18] Cheng Ma，Yongming Rao，Yean Cheng，Ce Chen，Jiwen Lu，and Jie Zhou.具有梯度引导的结构保持超分辨率在CVPR，第7769-7778页[19] Kede Ma，Wentao Liu，Tongliang Liu，Zhou Wang，and Dacheng Tao. dipIQ：通过学习对可辨别图像对进行排序的盲图像质量评估。TIP，26（8）：3951[20] Kede Ma，Wentao Liu，Kai Zhang，Zhengfang端木，Zhou Wang，and Wangmeng Zuo.使用深度神经网络的端到端盲图像质量评估。TIP，27（3）：1202[21] RafałMantiuk， Kil Joong Kim ， Allan G Rempel ，andWolf-gang Heidrich. HDR-VDP-2：一个校准的视觉指标，用于所有亮度条件下的可见性和质量预测TOG，30（4）：1[22] Anish Mittal、Anush K Moorthy和Alan C Bovik。空间域无参考图像质量评价。TIP，21（12）：4695[23] Anish Mittal、Rajiv Soundararajan和Alan C Bovik。制作“ 完全盲 ” 图像质量分析仪。 IEEE Signal processingletters，20（3）：209[24] 大磐、平使、明侯、则丰应、思哲夫、元章。用于图像质量评价的盲预测相似质量图。在CVPR中，第6373-6382页[25] Xingang Pan，Xiaohang Zhan ，Bo Dai，Dahua Lin ，Ch

下载后可阅读完整内容，剩余1页未读，立即下载