自适应超网络方法用于野外图像质量盲评价

3 浏览量更新于2023-10-24 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3667自适应超网络指导下的野外图像质量盲评价Shaolin Su<$，Qingsen Yan< $，Yu ZhuXiao，Cheng Zhang，Xin Ge，Jinqiu Sun，YanningZhang西北工业大学计算机科学与工程学院https://github.com/SSL92/hyperIQA摘要真实失真图像的盲质量评估一直是一个具有挑战性的问题，因为在野外拍摄的绝大多数先前的BIQA方法集中在如何预测合成图像质量，但当应用于真实世界的失真图像时失败MOS=68.99GM-1 =65.36 MOS=69.02GM-100 =23.16年龄为了应对这一挑战，我们提出了一种自适应超网络结构来盲评估图像质量，MOS=67.69 GM-SYS =44.29MOS=68.27 GM-SYS =87.65野外我们将IQA过程分为三个阶段，包括内容理解，感知规则学习和质量预测。在提取图像语义后，由超网络自适应地建立感知规则，然后由质量预测网络采用。在我们的模型中，图像质量可以估计在一个自适应的方式，从而概括以及在野外拍摄的各种图像实验结果表明，该方法不仅在真实图像数据库的检索上优于现有方法，而且在合成图像数据库上也取得了较好的效果，尽管该方法并不是专门针对合成图像数据库而设计的.1. 介绍图像质量评估（IQA）的目标是使计算机能够像人类一样感知图像质量。在过去的几十年里，人们付出了巨大的努力，提出了各种各样的IQA方法。尽管他们在评估实验室生成的合成失真图像方面取得了成功，但真实失真图像的IQA仍然是一个挑战。挑战主要在于三个方面：首先，在野外的IQA仅限于盲IQA（BIQA）领域，因为不存在对参考免疫的访问。前两位作者对这项工作的贡献相当。本课题得到了国家自然科学基金（61871328，61901384）、ARC（DP160100703）和航空航天综合集成国家工程实验室的空间-地面-海洋大数据应用技术。S.苏是由华为奖学金支持。通讯作者：于竹.图1.野外采集的图像包含复杂的失真和各种内容，导致提取的特征彼此不同，尽管上面显示的图像具有相似的质量分数。左上：从LIVE数据库中提取的合成失真图像来自两个数据库的MOS评分与相同的量表对齐。年龄由于参考图像的局限性，BIQA已成为全参考IQA（FR-IQA）、简化参考IQA（RR-IQA）和非参考IQA（NR-IQA）三大类IQA中最难解决的问题。其次，不同于常见的合成失真（例如，高斯模糊、JPEG压缩）加到整个图像区域上，使authen- tic失真更加复杂.所捕获的图像不仅遭受全局均匀失真（例如，失焦、低照明），而且在局部区域中包含其他种类的非均匀失真（例如，对象移动、过亮、重影）。因此，算法面临着准确捕获全局和局部失真以将其合并为适当的质量预测的挑战。第三，与合成IQA数据库相比，图像内容变化是IQA任务中的一个典型挑战，这对真实IQA数据库提出了更大的困难。现有的合成IQA数据库LIVE[34]、TID 2013 [32]和CSIQ [21]仅包括不超过30个参考图像，因为在图像内容的意义上是有限的，而真实IQA数据库LIVE Challenge [8]和KonIQ-10 k[13]由1169和10073图像包含不同的-3668分别输入内容。这种巨大的内容变化对现有的IQA方法的泛化能力提出了很大的挑战。由于失真的多样性和内容的变化，真实失真图像的IQA仍然没有得到很好的解决。如图1所示，当图像变化时，提取的特征也会变化，从而导致与平均意见评分（MOS）不一致的质量预测。在以前的工作中，既不是手工制作的功能为基础的方法，也不是浅架构的网络，这都解决了合成IQA任务，能够处理现实的失真。这表明低级别特征在表示现实世界中的复杂失真方面不够强大因此，已经尝试使用深度语义特征作为质量描述符：采用在分类任务上预训练的深度模型来预测真实世界的失真。背后的假设是，真实的失真实际上存在于像ImageNet这样的自动生成的分类数据库中[7]，并且这些预先训练的特征在某种程度上已经是质量感知的。虽然这些尝试取得了可喜的进展，但仍缺乏进一步的努力具体地说，简单地采用网络体系结构存在两个缺点，网络体系结构最初是为了学习如何识别对象而设计的，用于IQA的任务。首先，当前的深度模型只学习用于分类的全局特征。然而，对于忽略局部模式可能导致预测质量和人类视觉感知之间的不一致，因为当图像的其余部分表现出相当好的质量时，人类视觉系统（HVS）其次，随着图像内容的变化，人类感知不同对象的质量的方式也不同。如[22]所示，人类检查员会认为清晰的蓝天图像具有高质量，而大多数IQA方法会将其误认为是模糊图像，因为图像包含较大的平坦区域。因此，在识别图像内容之前直接预测图像质量不符合人类如何感知世界的规则。在HVS中，自上而下的感知模型表明，人类试图在关注其他相关子任务（如质量评估）之前理解图像。然而，在现有的模型中，将IQA任务融合到语义识别网络中，迫使网络同时学习图像内容和质量，而让网络在识别图像内容后学习如何判断图像质量更为合适在本文中，我们的目标是通过考虑上述两个经常出现在现实世界图像中的挑战来开发一种真实的IQA方法：失真多样性和内容变化。我们提出了一个局部失真感知模块，从多尺度中提取局部特征，以处理失真多样性，我们引入了一个超网络结构，动态生成质量预测网络的权重以覆盖广泛的内容变化的结构。在我们的方法中，建议的超网络可以自适应地学习规则感知质量，根据其识别的内容，和目标网络遵循这种方式给出最终的质量预测。通过基于图像内容判断质量，网络应该给出与人类感知更一致的预测。一般来说，所提出的方法的主要贡献可以概括为三个方面：• 为了提高图像质量评价的能力，提出了一种基于超网络的自适应调整质量预测参数该网络以内容感知的方式预测图像质量，识别过程后的感知更符合人类认识世界的方式。• 由于局部特征有利于处理图像中的非均匀失真，因此我们引入了一个局部特征。调用失真感知模块以进一步捕获图像质量。我们聚合局部失真特征和全局语义特征，收集细粒度的细节和整体信息，然后预测图像质量的多尺度表示。• 实验结果表明，我们的方法不仅优于其他竞争对手的认证，tic IQA数据库，而且在合成IQA数据库上也取得了竞争结果，尽管我们没有专门设计我们的模型来提取合成特征。这表明我们提出的模型的强大性和普遍性2. 相关工作2.1. 综合畸变图像的IQA在过去的几十年里，人们在合成IQA领域投入了大量的努力，这些方法遵循以下两类中的任一种：基于手工特征的IQA和基于学习特征的IQA。手工制作的基于特征的方法通常利用NSS模型来捕获失真。通过建立对失真现象敏感的场景统计模型，可以检测和量化质量退化程度。这些质量感知自然场景参数包括离散小波系数[30]、子带间的相关系数[1]、DCT系数[33]、局部归一化亮度系数及其成对乘积[29]、图像梯度、log-Gabor响应和颜色统计[3]。用于从合成失真图像中捕获统计数据的分布模型包括广义高斯分布（GGD）[29，30]、非对称广义高斯分布（AGGD）[3，29]、威布尔分布[3]、三阶分布[4]、非对称广义高斯分布[5]、非对称广义高斯分布[6]、非对称广义高斯分布[3669[33]和[38]。然而，这些手工制作的特征需要专业的设计并且是耗时的。此外，场景统计特征表示从全局视图的图像质量，因此不能够测量通常出现在真实失真图像中的局部失真。受机器学习在许多计算机视觉任务中的成功[9，10，39，40]的启发，还提出了一些基于学习的方法。在早期阶段，引入了基于码本的学习方法[37，42，43，45]。由于其强大的学习能力，基于CNN的方法被提出，并在合成IQA方面取得了重大进展在[14]中，使用从[43]继承的具有池化策略的简单CNNMa等人 [27]提出了一种更深层次的网络，可以同时学习失真类型和图像质量。在[16，23，31]中，学习失真图像的误差图以指导质量预测，学习误差图的方法包括使用残差[16]、使用从FR-IQA方法[31]计算的质量图注意到来自现有IQA数据库的训练数据的有限大小，[24]和[26]提出通过标记其质量排名而不是质量分数来生成大量训练样本Siamese网络[5]和RankNet [4]架构分别用于学习图像的排名。尽管这些IQA方法在合成数据库上取得了很大的性能改进，但在面对大规模数据时存在挑战[25，28]，表明内容变化的问题仍然没有得到很好的管理。研究还表明，IQA模型在合成数据库上表现良好，但在真实IQA数据库上给出了不准确的预测，这表明为提取合成失真而设计的体系结构无法轻松捕获野外存在的各种失真类型的特征2.2. 真实失真图像的IQA虽然大多数的IQA模型集中在合成失真的图像，有相对较少的作品集中在更具挑战性的问题，真正的IQA。在深度学习的辅助下，深度语义特征在表示图像质量方面表现出有效性。在[17]中，Kim等人研究表明，在ImageNet等分类数据库上预训练的AlexNet [20]和ResNet [12]的深度特征与感知质量表现出很强的关系，并实现了出色的准确性。在[13]中，测试了更多的预训练基线网络，结果证实了语义特征在解决野外IQA问题中的作用。在[46]中，引入了双流网络架构来预测合成和真实图像失真。在他们的工作中，真实的质量预测流采用VGG-16 [35]进行特征提取。在[22]中，Li等人提出使用来自多个补丁的ResNet50特征的统计数据进行质量预测。最近，Zhang et al. [47个]提出使用合成数据库和真实数据库中的图像对来训练IQA模型，用于特征提取的主干是ResNet-34。可以看出，当前模型直接使用来自语义学习网络的输出特征进行质量预测，然而，主要存在两个缺点：首先，在一个网络中混合语义学习和质量预测忽略了图像语义如何影响质量感知方式，而在HVS中，图像质量是在图像内容被识别之后判断的。其次，由于从全局尺度提取深层语义特征，因此忽略了图形化获得的图像中通常存在的局部失真因此，网络无法在图像中捕获详细的质量，导致不准确的预测。在这项工作中，我们提出了一种新的多尺度特征融合的超网络架构来预测图像质量在野外。虽然以前的模型在一个任务中混合了语义理解和质量预测，但我们将质量预测过程分为两个步骤：首先学习图像语义特征，然后根据图像提供的内容预测质量这个过程遵循人类自上而下的感知流程，我们设计了一个超网络连接来模拟从图像内容到感知质量方式的映射。此外，我们还提出了融合多尺度的局部失真特征来更好地表示图像质量，而不是简单地使用全局语义特征进行内容理解。通过这种方式，我们的质量预测过程变得自适应，内容感知，并能够从图像中捕获细节和整体信息。3. 该方法在这项研究中，我们的目标是开发一个质量评估网络，自适应地预测图像质量，根据图像内容。我们的网络架构如图2所示。拟议的网络由三部分组成：一个提取语义特征的骨干网络，一个预测图像质量的目标网络和一个为目标网络生成一系列自适应参数的超网络。我们将首先介绍我们的自适应IQA模型，然后在下面介绍三个子网络的细节。3.1. 自适应IQA模型传统的基于深度学习的质量预测模型接收输入图像并直接将其映射到质量分数，该过程可以描述如下：n（x，θ）=q，（1）其中，表示网络模型，x是输入图像，θ表示权重参数。请注意，一旦训练阶段完成，所有测试的权重参数都是固定的3670输入图像图2.拟建网络的管道。给定一幅图像，我们首先从基本模型ResNet50中提取语义特征，并将其导入到一个超网络中，该超网络为质量预测目标网络生成权重。质量预测目标网络的输入来自聚集图像的多尺度内容特征，捕获局部和全局失真。在我们的模块中，超网络的作用是根据图像内容制定质量感知规则，目标网络根据图像的具体表现进行质量预测。图像.该预测模型意味着提取相同类型的质量特征用于预测不同的图像。然而，在实际应用中，由于图像内容的变化，使用相同的规则来预测不同图像的质量是不彻底的，以涵盖其不同表现的结构。如[22]所示，人类将清晰的蓝天图像视为高质量，而对于质量预测模型，由于其包含大的平坦区域，该图片最有可能被视为模糊造成这种错误预测的原因是对图像语义的忽视对于人类来说，在理解图像内容的前提下，再利用相应的规则来判断图像的质量。因此，为了模仿人类的感知过程，我们将IQA的任务建模如下：n（x，θx）=q，（2）其中网络参数θx取决于图像本身，而不是对于所有输入都是固定的。为了便于理解，可将参数θx视为质量感知规则.随着图像内容的变化，感知图像质量的方式也会变化。通过这种方式，我们的IQA模型成为自适应的，因为它提取不同的质量指标相对于不同的内容。理想情况下，可以用单个网络训练相同内容的图像，以更灵活地进行质量预测，然而，训练一组覆盖这种广泛分布的内容的网络是计算效率低下的，并且不实用。因此，我们引入超网络来简化这个问题：θx=H（S（x），γ），（3）其中H代表超网络映射函数，γ表示超网络参数。我们定义了-将超网络放置为S（x），表示从输入图像x提取的语义特征。因此超网络的功能是学习图像内容到判断图像质量的规则的映射。学习的感知规则将进一步指导我们的目标网络提取自适应质量特征进行预测。通过引入中间变量θx和超网络，我们将IQA的任务实际上分为三个步骤：语义特征提取、感知规则建立和质量预测。我们使用骨干网络来提取图像语义特征S（x），使用超网络来学习质量感知规则θx，使用质量预测目标网络来获得最终的质量得分q。与等式（1）中的质量预测模型不同，在等式（1）中，图像质量是在没有语义理解或内容识别的情况下直接估计的，我们提出的模型遵循自顶向下的感知机制，因为它首先试图理解图像，直到它执行质量判断的任务。这一设计使得我们的网络在面对内容变化的图像时更灵活地提取质量影响因素此外，所提出的质量预测过程也更符合人类感知图像质量的方式。为了减少目标网络参数θx的数量，也为了更容易训练，我们将目标网络的输入简化为内容感知向量vx=Sms（x），其中Sms表示内容感知向量也由骨干语义提取网络提取，但融合多尺度特征以捕获图像中的局部失真在这种变化下，整个质量预测目标网络FC1FC2FC3FC4多尺度内容特征感知模块本地失真感知模块本地失真感知模块评分：3.42GAP重量Bais重量Bais重量Bais重量BaisReshape FC Reshape FC Reshape FCConv 3*3 GAP Conv 3* 3 GAP Conv 3 * 3 GAP Conv评分：43.20FC语义特征完全连接GAP全局平均轮询ResNet-50阶段1、2、Conv 1*1Conv 1*1Conv 1*1级联内容理解超网络评分：84.78预测局部失真3671NResNet50conv2_10ResNet50conv3_12ResNet50conv4_18.........Conv1*1Conv1*1Conv 1*1.........间隙间隙间隙3.3. 学习感知规则的超网络受[19]的启发，我们的超网络由三个1×1卷积层和几个权重生成分支组成。由于在所提出的网络中，全连接层被用作基本目标网络组件（参见第步骤3.4），应当生成两种类型的网络参数，即完全连接的层权重和偏置。对于不同类型的参数，我们使用不同的权重生成方法。全连接层权重由卷积生成，然后对提取的特征进行整形操作，而全连接层偏差由本地失真感知模块图3.所提出的局部失真感知模块的架构。基于超网络IQA模型可以描述为：n（v x，H（S（x），γ））= q.（四）基于质量预测模型，我们然后在下面给出三个子网络的架构。3.2. 语义特征提取网络如图2所示，我们的网络架构的前面部分语义提取网络专注于理解图像内容，并输出两个特征流用于质量预测。将语义特征S（x）直接送入超网络进行权值生成，将多尺度内容特征流Sms（x）作为目标网络的输入。我们之所以提取多尺度的内容特征，是因为从最后一层提取的语义特征为了捕捉真实世界中的局部失真，我们提出了通过局部失真感知模块来提取多尺度特征。如图3所示，我们设计的局部失真感知模块由一系列操作组成，包括将多尺度特征图划分为不重叠的块，沿通道维度堆叠块，进行1×1卷积和全局平均池化将它们转化为向量。拟议的模块可以被视为用作基于注意力的片提取器，其知道与局部失真相对应的特征片，以便更好地捕捉其质量。具体来说，我们使用ResNet50 [12]作为语义特征提取的主干模型。ImageNet [7]上的预训练模型用于网络初始化。在我们的网络中，原始ResNet50的最后两层，即去除平均池化层和全连接层以输出特征流。我们从conv2 10，conv3 12，conv4 18层中提取多尺度特征作为局部失真感知模块的输入，该模块输出多尺度内容向量vx。通过简单的平均池化和完全连接生成，因为偏置权重具有少得多的参数。卷积层和全连接层的输出通道是基于目标网络中相应层的尺寸来确定的，以进行尺寸匹配。生成的权值作为感知图像质量的准则，并进一步指导目标网络进行图像质量预测3.4. 质量预测的目标网络由于语义提取网络提取的多尺度特征是内容感知的，因此目标网络的功能只是将学习到的图像内容映射到质量分数。因此，我们使用一个小而简单的网络进行质量预测。如图2所示，我们的目标网络由四个完全连接的层组成，它接收多尺度内容特征向量作为输入，并通过权重确定的层传播以获得最终的质量分数。在目标网络中，我们选择sigmoid函数作为激活函数。3.5. 实现细节我们通过PyTorch实现了我们的模型，并在NVIDIA1080Ti GPU上进行了培训和测试。根据[17]中的训练策略，我们从每个训练图像中随机采样并水平翻转25个大小为224×224像素的补丁以进行增强。培训补丁继承了源图像的质量分数，并且我们最小化了训练集上的L11ΣN=||（vpi，H（S（pi），γ））−Qi||第1条，第（5）项我其中pi和Qi分别指第i我们使用Adam [18] opti- mizer，权重衰减为5×10−4，训练我们的模型15个epoch，小批量为96。学习率首先设置为2×10−5，每5个epoch后减少10。为了更快的收敛，我们模型的未预训练层，Xavier初始化的，应用的学习率大10倍。在测试阶段，从测试图像中随机抽取25个224×224像素的块，并对其进行核分析。…………………3672响应的预测得分被平均合并以得到最终的质量得分。4. 实验4.1. 数据集我们使用了三个真实失真图像数据库，包括LIVEChallenge（LIVEC）[8]、KonIQ-10 k [13]和BID [6]进行评估。LIVEC包含了1162幅由不同摄影师使用不同相机设备拍摄的真实世界的图像，因此这些图像包含复杂的复合失真。KonIQ-10 k由10073幅图像组成，这些图像选自大型公共多媒体数据库YFCC 100 m [36]，采样图像试图在亮度、色彩、对比度和锐度方面覆盖广泛且均匀的质量分布。BID是一个模糊图像数据库，包含586幅具有运动模糊和失焦等真实模糊失真的图像。除了真实的图像数据库外，我们还在合成图像数据库LIVE [34]和CSIQ [21]上测试在每个数据库中包括779和866个合成失真图像。4.2. 评估指标采用Spearman秩序相关系数（SRCC）和Pearson线性相关系数（PLCC）两个常用的准则这两个标准的范围都从0到1，值越高表示性能越好在计算PLCC之前，首先应用逻辑回归来去除由人类视觉观察引起的非线性评级，如视频质量专家组（VQEG）[11]的报告中所建议的。对于每个数据库，80%的图像用于训练，其余20%用于测试。对于合成图像数据库LIVE和CSIQ，根据参考图像实现分割，我们运行10次这种随机训练测试分裂操作，并报告中值SRCC和PLCC值。4.3. 与现有技术方法的选择了8种最先进的BIQA方法进行比较。比较方法包括基于手工制作的方法[3，29，37]，基于深度学习的合成IQA方法[2，15]和基于深度学习的真实IQA方法[22，44，46]。单一数据库评价。我们首先分析单个数据库上的实验结果如表1所示，我们的方法在所有三个真实图像数据库（LIVEC、BID和KonIQ）上的性能优于所有最先进的方法10k）用于SRCC和PLCC评估。这表明，当图像数据覆盖广泛的变化时，学习图像内容首先有助于感知图像质量表1.对五个图像数据库进行总体性能评价SRCCLIVECBIDKonIQ生活CSIQ[29]第二十九话0.6080.5620.6650.9390.746ILNIQE [3]0.4320.5160.5070.9020.806HOSA [37]0.6400.7210.6710.9460.741BIECON [15]0.5950.5390.6180.9610.815WaDIQaM [2]0.6710.7250.7970.9540.955国家足球协会[22]0.8120.8260.8560.8830.796PQR [44]0.8570.7750.8800.9650.873[46]第四十六话0.8510.8450.8750.9680.946我们0.8590.8690.9060.9620.923PLCCLIVECBIDKonIQ生活CSIQ[29]第二十九话0.6290.5930.6810.9350.829ILNIQE [3]0.5080.5540.5230.8650.808HOSA [37]0.6780.7360.6940.9470.823BIECON [15]0.6130.5760.6510.9620.823WaDIQaM [2]0.6800.7420.8050.9630.973国家足球协会[22]0.8330.8400.8720.8950.818PQR [44]0.8820.7940.8840.9710.901[46]第四十六话0.8690.8590.8840.9710.959我们0.8820.8780.9170.9660.942虽然我们没有特别添加合成图像特征提取模块，但我们的方法在两个合成图像数据库LIVE和CSIQ上取得了与最先进方法相竞争的性能。请注意，与PQR和SFA（也利用骨干分类网络来提取深层语义特征）相比，我们的方法在CSIQ数据库上的性能明显优于PQR，在LIVE和CSIQ数据集上的性能也优于SFA。我们进一步提出我们的approach对个别失真类型的性能比较。由于失真类型在真实图像数据库上具有高度多样性，因此我们仅评估合成图像数据库LIVE和CSIQ上的性能，如表2所示与其他引入特定模块来处理综合IQA任务的方法相比这证明了基于图像内容理解的IQA方法的有效性。概括能力测验。我们首先运行跨数据库测试的性能比较，测试是在内部数据库属于真实或合成失真。我们选择最具竞争力的两种方法PQR和DBCNN进行比较，结果如表3所示。在六个真实的跨数据库测试中，我们的方法获得了四倍的最高性能。对于合成跨数据库测试，我们的方法仍然表现出竞争力的其他算法，表明我们的方法的强大的泛化能力。为了进一步评估我们的方法的泛化能力，我们在整个LIVE上训练竞争模型3673表2.在LIVE和CSIQ数据库上对单个失真类型进行SRCC比较数据库现场CSIQ类型JP2KJPEGWNGBFFWNJPEGJP2KFNGBCC[29]第二十九话0.9290.9650.9820.9640.8280.7230.8060.8400.3780.8200.804ILNIQE [3]0.8940.9410.9810.9150.8330.8500.8990.9060.8740.8580.501HOSA [37]0.9350.9540.9750.9540.9540.6040.7330.8180.5000.8410.716BIECON [15]0.9520.9740.9800.9560.9230.9020.9420.9540.8840.9460.523WaDIQaM [2]0.9420.9530.9820.9380.9230.9740.8530.9470.8820.9790.923PQR [44]0.9530.9650.9810.9440.9210.9150.9340.9550.9260.9210.837[46]第四十六话0.9550.9720.9800.9350.9300.9480.9400.9530.9400.9470.870我们0.9490.9610.9820.9260.9340.9270.9340.9600.9310.9150.874表3.跨数据库测试的SRCC评估最佳通用汽车拟议数最差GM值最佳通用汽车拟议数最差GM值最佳建议固定式GM-100最差拟定值最佳建议固定式GM-100最差拟定值表4.Waterloo Explo- ration数据库上的D-检验、L-检验和P-检验结果最佳DBCNN拟议数最差DBCNN最佳DBCNN拟议数最差DBCNN最佳建议固定DBCNN最差拟定值最佳建议固定DBCNN最差拟定值图4.滑铁卢数据库上的gMAD竞争结果与GM-CNN [38]和DBCNN [46]。数据集并在大规模合成数据库 Waterloo ExplorationDatabase [25]上对其进行测试。首先计算了三个检验准则：D-检验、L-检验和P-检验，它们分别用于度量原始失真可分辨性、与失真水平的一致性和两两质量可分辨性。如表4所示，我们的方法实现了计算性能，尽管它不是专门为合成失真的IQA设计的。然后，我们在Waterloo数据库上进行了gMAD竞赛[28]，以实现直接可视化。gMAD有效地选择图像对与最大的质量差异预测的攻击IQA模型，以挑战其他的决定，认为它们具有相同质量水平的防御模型。所选择的对被显示给观察者，以确定攻击者或防御者是鲁棒的。在图4中，我们将模型固定为前两列中的防御者，分别呈现了从质量差和质量好的图像对。在最后两列中，我们的模型攻击了其他竞争方法，其中每一列都代表了从防御者预测的不良和良好质量水平中选择的图像。从图4中可以看出，当我们的模型作为防御者时，攻击者选择的图像对在感知质量上没有太大变化，而我们的模型在作为攻击者时连续选择具有巨大质量差异的图像对。这表明我们的模型在防御和攻击方面都很强大。此外，值得一提的是，我们的模型成功地识别了高质量的图像，培训测试PQRDBCNN我们LIVECBID0.7140.7620.756KonIQ0.7570.7540.772BIDLIVEC0.6800.7250.770KonIQ0.6360.7240.688KonIQLIVEC0.7700.7550.785BID0.7550.8160.819生活CSIQ0.7190.7580.744CSIQ生活0.9220.8770.926模型d试验L检验P检验[29]第二十九话0.92040.97720.9930[第38话]0.92030.91060.9748[第43话]0.92900.97640.9947HOSA [37]0.91750.96470.9983dipIQ [26]0.93460.98460.9999DeepIQA [2]0.90740.94670.9628[27]第二十七话0.93840.96690.9984两流CNN [41]0.93010.97650.9952[46]第四十六话0.93870.95270.9984我们0.90060.97470.99713674具有扁平内容的年龄，尽管它们欺骗了防御模型以具有低质量（第三列上的图像“天空”和图像“日落”）。这些结果进一步表明，我们提出的模型具有很强的泛化能力的内容变化的挑战。更多IQA模型的gMAD结果可参见我们的补充材料。图5.在PCA变换之后，在3D空间该图显示了从目标网络的第一层提取的权重，其他层的权重也表现出类似的分布。4.4. 自适应权值为了验证权值生成过程的有效性，我们从不同内容的多幅然后，我们对权重进行PCA变换，并将其绘制在3D空间中以进行可视化。在图5中，我们绘制了目标网络第一层的转换权重，其他层的权重也显示出类似的特征。从图5中可以发现几个有趣的发现：首先，对于不同内容的图像，生成的权重不同。这表明我们的网络采用不同的权重，以自适应的方式来评估图像质量。而对于传统的IQA模型，模型的权重对于所有输入图像都是固定的，如果我们绘制它们，它们将在权重空间中的相同位置重合第二，相同对象的图像产生相似的权重，尽管它们表现出不同的质量水平。从图5中可以看出，尽管它们的质量不同，但是同一类“狗”或“花瓶”的图像生成用于质量预测的相似权重。这验证了我们的模型成功地学习图像内容来指导质量预测。我们相信这种先理解后预测的方案使我们的模型具有自适应性，从而能够在面对大量多样性图像的挑战时更灵活、更准确地评估图像质量。第三，对于平坦化图像这表明我们的网络确实学会了理解高层次的表5.LIVE挑战和LIVE数据库中的消融结果组件LIVE挑战生活SRCCSRCCRes500.827 0.8520.923 0.947Res50+MS0.836 0.8590.954 0.963Res50+Hyp0.854 0.8790.944 0.959Res50+MS+Hyp0.859 0.8820.962 0.966图像内容，尽管它们表现出类似的低水平质量指标，例如平滑度。因此，我们的模型是防止错误的图像质量，由于内容的变化，如混淆一个平坦的图像模糊或错误的图像丰富的纹理到一个嘈杂的。4.5. 消融研究为了评估我们提出的组件的效率，我们在LIVEC和LIVE数据库上进行了几次消融实验我们首先使用预训练的ResNet50作为我们的骨干模型，并通过比较SRCC和PLCC来分析每个单独组件的效果结果示于表5中。我们首先通过将它们与ResNet50输出特征（Res50+MS）连接来检查我们提出的局部失真感知模块的有效性。SRCC在LIVE挑战数据库上略有改善，在LIVE数据库上明显改善，分别为1.6%和3%。然后，在骨干网中加入超网络和目标网络模块。目标网络的输入和权重都来自ResNet50的最后一个特征层。通过修改超网络，我们提出的架构，我们可以看到主要的SRCC和PLCC的改进，现场挑战和现场数据库。在LIVE Challenge上，SRCC和PLCC都增加了2.7%而在LIVE上，它们分别增加了2.1%和1.2%最后，我们在目标网络的输入中加入多尺度特征5. 结论In this paper, we propose a novel network to overcometwo challenging problems that appear in the task of au-thentic IQA: distortion diversity and content variation.所提出的网络将质量预测与内容理解分离，以模仿人类如何感知图像质量。我们采用超网络架构来完成这个感知流程，并进一步引入多尺度局部失真感知模块来捕获复杂的失真。实验结果表明，该方法具有较强的泛化能力，为IQA任务的更广泛应用提供了前景。3675引用[1] Moorthy Anush Krishna和Bovik Alan Conrad。盲态图像质量评估：从自然场景统计到感知质量。 IEEETransactions on Image Processing，20（12）：3350[2] SebastianBosse，DominiqueManiry，Klaus-RobertMüller，Thomas Wiegand，and Wojciech Samek.用于无参考和全参考图像质量评估的深度神经网络。IEEE Transactions on Image Processing，27（1）：206[3] 艾伦·C·博维克一种特征丰富的完全盲图像质量评估器。IEEE Transactions on Image Processing，24（8）：2579[4] 克里斯托弗伯吉斯，塔尔动摇，艾琳伦肖，阿里拉齐尔，马特迪兹，妮可汉密尔顿和格雷戈里N胡伦德。学习使用梯度下降排序。法律程序中第22届国际机器学习会议（ICML-05），第89-96页，2005年。[5] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[6] 亚历山大·钱西奥、安德烈·路易斯·N·塔基诺·达科斯塔、埃德·瓦多·AB·达席尔瓦、阿米尔·赛义德、拉明·萨马达尼和佩雷·奥夫拉多尔。基于多特征分类器的数字图像无参考模糊评估。IEEE图像处理学报，20（1）：64[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[8] Deepti Ghadiyaram和Alan C Bovik。对主观和客观图片质量的大量在线众包研究IEEE Transactions on ImageProcessing，25（1）：372[9] Dong Gong ， Lingqiao Liu ， Vuong Le ， BudhadityaSaha，Moussa Reda Mansour，Svetha Venkatesh ，andAnton van den Hengel.记忆正态性以检测异常：用于无监督异常检测的存储器增强深度自动编码器。在IEEE计算机视觉国际会议上，第1705-1714页[10] Dong Gong，Jie Yang，Lingqiao Liu，Yanning Zhang，Ian Reid，Chunhua Shen，Anton Van Den Hengel，andQinfeng Shi. 从运动模糊到运动流：用于消除异构运动模糊的深度学习在IEEE计算机视觉和模式识别会议上，第3806-3815页[11] 视频质量专家组等视频质量专家组关于视频质量评估客观模型验证的最终报告。2000年3月在加拿大渥太华举行的VQEG会议上[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] Vlad Hosu，Hanhe Lin，Tamas Sziranyi，and DietmarSaupe.Koniq-10 k：用于盲图像质量评估深度学习的生态有效数据库。 arXiv 预印本 arXiv ： 1910.06180 ，2019。[14] Le Kang，Peng Ye，Yi Li，and David Doermann.用于无参考图像质量评估的卷积神经网络在IEEE计算机视觉和模式识别会议论文集，第1733-1740页[15] Jongyoo Kim和Sanghoon Lee全深度盲图像质量预测器。IEEE Journal of selected topics in signal processing，11（1）：206[16] Jongyoo Kim，Anh-Duc Nguyen，and Sanghoon Lee.基于深度cnn的盲图像质量预测器。IEEE transactions onneural networks and learning systems，30（1）：11[17] Jongyoo Kim ， Hui Zeng ， Deepti Ghadiyaram ，Sanghoon Lee，Lei Zhang，and Alan C Bovik.用于图像质量预测的深度卷积神经模型：数据驱动图像质量评估的挑战和解决方案IEEE Signal Processing

下载后可阅读完整内容，剩余1页未读，立即下载