无参考自监督特征学习方法用于真实失真图像质量评估

68 浏览量更新于2023-10-15 收藏 998KB PDF 举报

图像质量评价

特征设计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2459无参考意见真实失真图像的无意识质量评估Nithin CBabu 1，VigneshKannan 2，Rajiv Soundararajan11印度科学研究所，印度2梅赛德斯-奔驰印度研发部网址：nithinc@iisc.ac.in，vigneshkannan1696@gmail.com，网址：www.example.com，rajivs@iisc.ac.in摘要摄像机采集的真实失真图像的质量评估（QA）由于其广泛的应用而重要，并且由于缺乏参考而具有挑战性虽然存在过多的监督无参考（NR）图像质量保证（IQA）算法，有必要研究无监督或意见不知情的算法，考虑到他们优越的泛化性能。我们探索了自监督学习（SSL）用于真实失真图像的特征设计，以预测质量，而无需对人类标签进行训练。虽然合成失真的SSL最近显示出了希望，但需要丰富真实失真的特征学习。实现这一目标的关键挑战是在减轻内容依赖的情况下学习质量敏感特性。我们设计了一种自监督的对比学习方法，它只需要积极的，并通过估计学习的特征和内容信息之间的互信息的界限引入内容分离损失。我们在多个真实失真的数据集上表明，我们的自监督特征可以通过与原始图像的语料库进行比较来预测图像质量，并实现最先进的性能。§1. 介绍图像质量评价（IQA）是一个重要的工具，在基准和比较不同的相机捕获的autothentically失真的图像。特别是，无参考（NR）IQA的设置在参考原始图像不可用于com-mapping的情况下变得重要。NR IQA算法通常是在学习框架中设计的，通过对人类意见评分进行训练*同等贡献†作者在印度科学研究所工作期间所做的工作§https://github.com/nithincbabu7/iqa-ContentSep然而，由于需要进行大规模的主观研究，很难获得人类标签进行训练此外，由于需要大量带注释的图像，探索NR IQA的深度学习的全部能力变得具有挑战性。因此，我们专注于真实失真图像的无监督或意见不知情的NRIQA问题，而无需对人类意见评分进行训练。尽管在单个大型数据集上使用人类标签训练的监督模型开始在跨数据集实验中显示出有希望的结果[36，34，7，27]，但随着相机，传感器和算法的不断发展，人们遇到的失真也随着时间的推移而不断发展持续进行大规模研究以设计和更新监督方法是昂贵的。因此，有必要研究意见不知道的质量方法并行更好的可扩展性和更容易的模型更新。也许，最成功的无监督NR IQA方法（如NIQE [22]和IL-NIQE [35]）是基于自然场景统计（NSS）。虽然基于NSS的特征已经成功地用于若干失真并且它们捕获了质量的重要方面，但是这样的方法尚未在真实失真的图像上实现令人满意的性能[10，34，6，30]。令人惊讶的是，为图像分类训练的深度特征已被证明包含质量相关信息，并且可以被训练来预测感知质量。尽管如此，重要的是探索如何训练深度网络来学习特征，这些特征可以更清晰地捕捉真实失真图像中的失真，而无需人工监督。我们工作的目标是探索真实失真图像的质量特征学习，并使用它们来预测质量，而无需在任何步骤中进行人工标签监督。在这项工作中，我们考虑通过自监督特征学习的无监督NR IQA问题。因此，在任何步骤中都不涉及人类标记。这是一种重要的方法，也是实现鲁棒无参考的途径2460各种数据集上的IQA性能。最近，有一些关于合成和真实失真的自监督质量特征学习的工作[19，3]。然而，对真实失真图像的特征学习可以进一步改进。真实失真图像的自监督质量特征学习具有挑战性，因为内容和质量等多个方面可能在不同的真实失真图像之间发生变化。例如，在对比学习中，识别仅在质量上不同的底片在真实失真的图像上是具有挑战性的因此，真实失真图像的质量特征的自监督学习是不平凡的。我们采用两阶段的特征学习方法，使用authen-tically扭曲的图像在合成数据集上进行预训练，以丰富特征当我们从不同的真实失真图像中获取补丁进行自我监督学习时，可能会有多种变化，例如质量和内容。为了更准确地从图像块中学习质量相关特征，我们采用了一种对比学习方法，该方法不仅区分图像块，而且通过互信息界最小化特征对内容相关变化的依赖性估计虽然IQA的特征对内容的依赖性已被用于提高其在超监督NR IQA中的性能[27]，但我们认为这种依赖性可能导致将特征与原始图像语料库进行比较的无监督NR IQA方法的性能损失在有监督的NR IQA中，大型注释数据集的可用性隐含地确保了有效使用内容信息来预测视觉质量。另一方面，不清楚内容信息如何在没有监督的情况下与质量相关。因此，需要明确减轻真实失真图像的无监督NR IQA中质量特征的内容依赖性年龄总结起来，我们的主要贡献如下：• 我们提出了一个两阶段的自我监督的特征学习方法与不同的学习方法的合成和真实失真的图像。• 当在真实扭曲的图像上学习特征时，我们只考虑积极的，因为很难获得质量不同的消极的。• 我们引入了基于互信息的损失函数，同时学习真实的失真，以减轻特征对内容的依赖，丰富质量表示的学习。• 我们引入了一个对比似然损失来优化变分近似计算，同时估计互信息的界限。• 我们表明，我们的自我监督功能可以用来使感知一致的图像质量预测，而无需任何人的意见分数训练。2. 相关工作监督NR IQA：监督NR IQA的最成功的方法之一是基于NSS特征[21，25，23，32]和人类视觉系统的建模。tem [9].[21]第25话：你是谁？[23] 代表了一些受这种方法启发的流行方法的例子。虽然基于NSS的方法捕获了几种合成失真，但它们的性能在真实失真的相机捕获图像上受到影响。随着深度学习的出现，一些研究人员研究了用于NR IQA的端到端训练[2，17，12]和预训练深度网络，并进行了一些修改[27，36，7，37，34，13]。后一种方法对于真实扭曲的图像是相当成功的。Hyper IQA [27]采用超网络对NR IQA的图像语义进行建模，而DB-CNN [36]提出了一种双流方法来捕获合成和authen- tic失真。还探索了转换器在处理NR IQA的预训练深度特征方面的作用[7]。MetaIQA [37]探索了对合成失真的元学习，以快速调整质量模型以适应真实的失真。弱监督NR IQA：另一类NR IQA方法，如[18，16，15]，通过利用现有的完全参考（FR）和NR IQA指标，依赖于弱监督。Ma等人[18]使用多个度量并为每个注释器分配相关的可靠性。最后，通过优化与注释器的一致性来训练CNN以估计质量。DipIQ [16]首先使用FR度量生成大量质量可辨别的图像对，然后使用成对学习算法与感知不确定性水平相结合来学习观点未知RankIQA [15]训练一个Siamese网络来对图像进行排名，这些图像之间的相对质量是基于相对失真水平已知的。然而，上述方法不能用于真实失真图像的上下文中，其中既没有可用的参考，也不知道失真水平。NR IQA的自监督/无监督特征学习：最早的学习质量特征而无需人工标签的方法之一是在CORNIA中设计的[33]。采用字典学习方法学习质量感知特征。最近，已经探索了用于NR IQA的自监督特征学习方法。CONTRIQUE [19]通过预测失真类型和水平作为借口任务来学习图像特征，同时对真实失真的图像进行实例判别。然而，由于内容和质量都可以在区分实例时改变，因此质量特征的学习可能会受到影响。同样的方法也通过枯叶模型对合成生成的图像进行了研究[20]。SPIQ [3]采用补丁预测框架来综合学习对比特征2461联系我们112C22×联系我们扭曲的图像。在这种方法中，补丁预测的低效率会影响特征学习过程。无监督NR IQA：NIQE [22]和IL-NIQE [35]公式表示计算NSS特征与原始自然图像块语料库之间的距离作为质量指标的方法的示例这代表了NR IQA的一种无监督方法，而无需根据人类评分训练质量特征。虽然NIQE与NSS特征一起工作，但IL-NIQE通过添加其他质量感知特征（诸如梯度特征、log-Gabor滤波器响应和颜色统计）来丰富特征我们工作的目标是表明，通过学习更丰富的特征集，人们可以使用这种无监督的方法来预测视觉质量，而无需在任何步骤中使用人类标签。3. 方法我们提出了一个两步的方法，真正失真的图像的无监督NR- IQA。我们首先在一个大型的合成失真图像语料库上学习质量特征，然后对真实失真进行微调CONTRIQUE [19]使用失真标签联合学习合成失真的特征，并通过部署实例判别框架[31]使用真实失真。然而，这样的方法没有明确地解决真实失真图像上的质量感知特征例如，如果数据中的每个样本在实例区分期间被分配为不同的类，则严重的内容偏差可能压倒学习过程并妨碍质量感知特征的学习。因此，我们使用M-SCQALE [11]对合成失真图像进行预训练，并引入一种新方法来微调这些特征并减轻真实失真图像的内容偏差我们选择的预训练框架与我们的微调框架一致。3.1. 合成数据预训练在下一小节描述我们的贡献之前，我们提供了用于预训练的M-SCQALE [11]的概述。M-SCQALE是用于IQA的多视图对比学习框架，其目标是学习区分正面和负面视图对的特征。特别地，选择正视图对作为正视图对。3.2. 通过内容分离实现真正的微调概述：如第1节和第3.1节所述，在确定真实失真图像的对比学习的积极和消极方面存在挑战。这促使我们探索真实扭曲图像的对比学习最近的几种对比学习方法，如BYOL [8]和SimSiam [4]，在完全不需要否定的情况下表现出出色的性能。BYOL使用两个特征编码器，使得替代编码器的权重被更新为主特征编码器的基于动量的移动平均。 Chenet al. [4]甚至不需要具有基于交替动量更新的编码器，并且使用停止梯度的思想来防止解崩溃。我们采用SimSiam [4]框架来实现质量感知的特征学习，而不使用底片，通过从相同的图像中绘制补丁作为正片。然而，从同一图像中获取的补丁可能会使模型偏向于学习内容之间的相关性，并干扰预训练特征的质量意识理想地，质量特征不应该对图像的内容敏感，而仅仅对失真敏感。虽然在监督NR IQA中探索了内容依赖性的作用[27，7]，但我们认为，内容依赖性可能会影响基于计算到原始图像语料库的距离的无监督NRIQA方法的性能这促使我们将内容信息从学习到的特征中分离出来，以减轻内容偏见的影响。我们通过最小化学习特征和图像内容之间的互信息的界限来实现这一点。我们描述我们的整个框架工作如下和图1.微调设置：我们在一个小批量中对N个图像进行采样，用I1，I2，.，IN表示。每个样本随机分为垂直或水平两半，并从每一半中选择最大的正方形贴片。对于任何图像I n，n1、2、. . .，N，令Cn（. ）和Cn（. ）是从In中裁剪大的非重叠片并将其大小调整为M的函数M. 设x n=Cn（In）和xn=Cn（In）表示两个增广从同一图像中选择大的块以捕获全局图像质量特征，而从同一图像的不同失真版本中选择负对。虽然M-SCQALE是专为低光图像质量保证，我们预先-从样本中提取的视图/阳性。 f（. 这里表示具有从合成预训练网络初始化的权重的特征编码器。我们将预测MLP head by h（. ）的情况。设z（n）=f（xn），z（n）=f（xn），1 1 2 2使用该框架训练几个合成失真p（n）=h（f（xn））和p（n）=h（f（x n））.失去的是1 1 2 2如第4.2.1节所述。此外，我们只预先训练了一个量表，并没有观察到太多的改进-用于更新网络权重的公式为[4]N（n）（个）（个）（个）在M-SCQALE中使用多个尺度，在真正的微调贡献。我们观察到，M-SCQALE需要积极和消极的学习，很难设计出真实的失真图像。L=φD（p1，sg（z2））+D（p2，sg（z1））.（一）n=1函数D（？）表示归一化co的负数24622221|K||K22对比对数比上限（CLUB）：为了最小化互信息，我们采用对比日志-Lθk=Nlog q θ（yk |zk）。（三）图1：描述我们用于内容分离的真实微调框架的框图正弦相似性SG（。）项指示停止梯度操作，其确保来自z（n）的梯度不流回到xn上的特征编码器以防止解崩溃[4]。来自p（n）的梯度通过损失函数中的第二项流回到特征编码器它对xn的作用方式也是相反的。缓解内容依赖：我们介绍一个-qθ（YkZk）逼近p（YkZk）。分布qθ（YkZk）被建模为以θ为参数的神经网络，其输出描述了条件分布的参数。此外，条件分布被建模为独立的多变量高斯分布，其参数需要被预测。神经网络将z（n）取为-把预测的平均值μ（z（n））和方差σ2（z（n）），K K其他损失项，以减轻学习特征对内容信息的依赖性。设e（. 表示从图像提取内容感知信息的CNN。让内容感知特征表示为y（n）=e（xn）Yk给定Zk=z（n）。根据文献[5]，神经网络的参数应该被更新，使得qθ（Yk，Zk）类似于难处理的联合分布p（Yk，Zk），而不是边缘的乘积p（Y）p（Z）。作者fa-11kk并且y（n）=e（xn）。从我们的恐惧中解脱出来-通过最小化KL（p（Yk，Zk）<$qθ（Yk，Zk））来实现这一点，真实的学习我们试图最小化互信息I（Yk;Zk），k={1，2}，其中Yk和Zk是随机的变量y（n）和z（n）作为相应的样本。θ，这与最大化以下项的对数似然性相同：q θ（Y k|Z k），实现为最大化Nk k1n=1（个）（个）互信息的比率上限（CLUB）[5]，估计为变分近似的对比似然损失：对于变分ap的参数θ，1公斤.（个）（n）Σ近似网络是有效的，以尽量减少Lmik=Nn=1logq θ yk |zK1Σ.（m）（n）（二）在互信息下，qθ（Yk，Zk）与联合分布p（Yk，Zk）的相似性大于与边缘分布p（Yk）p（Zk）的乘积的相似性.的最小化∥-否m=1logqθyk|zk.KL（p（Yk，Zk）qθ（Yk，Zk））保证了分布p（Yk，Zk）和qθ（Yk，Zk）是相似的，但不需要保证-的上述方程使用 p（Yk）p（Zk）与qθ（Yk，Zk）不相似的变分分布T型在那里-N2463∥∥∥NLLLLLL {}L因此，我们建议通过以下优化来最小化KL（p（Yk，Zk）qθ（Yk，Zk））和最大化KL（p（Yk）p（Zk）qθ（Yk，Zk）4. 实验4.1. 数据库我们评估不同的无监督的min [KL（p（Yk，Zk）qθ（Yk，Zk））θ（四）四个真实失真数据集上的NR IQA方法−KL（p（Y k）p（Z k）<$q θ（Y k，Z k））]。在[5]之后，上述优化问题可以被实现为以下损失函数在θ上的最大化，即CLIVE [6]、KONIQ [10]、FLIVE [34]和CID[30]第30段。CLIVE [6]总共包含1，162张使用多个移动设备拍摄的图像。这些图像包含各种各样的失真混合，例如噪声、模糊、曝光不足、曝光过度等。KONIQ [10]总共包含10，073张具有各种失真（如噪声）的图像，1ΣΣ（个）（个）JPEG压缩伪影、运动模糊、过饱和Lθk=Nn=1logq θ（yk |zk)1Σ（m）（n）Σ（五）这些图像是从YCC100M [28]数据集中采样的。CID[30]包含473幅图像，带有相机捕获的失真，如模糊、噪声、增强不足，-否m=1logq θ（yk|zk ）的情况。过度增强等。FLIVE [34]总共包含40，000张图像和120，000个补丁。我们只使用在补充材料中详细解释了从（4）获得等式（5）的步骤公式（2）和（5）中使用的损失函数完全相同。在一种情况下，通过更新特征编码器参数使损失最小化，在另一种情况下，通过更新变分逼近网络使损失最大化。最终的内容依赖损失mi是以下各项的平均值：mik over k=一，二。同样，变量-函数逼近网络使用θ，即也是θk除以k的平均值。更新特征编码器f（. ）和预测器h（. ）是L=Lc+λmiLmi，（6）其中λmi是用于缩放mi的超参数。我们通过在用对比度损失训练特征编码器的一些迭代之后将其添加到对比度损失函数c来对mi在学习过程的每次迭代中，变分逼近网络与特征编码器更新交替更新3.3.质量预测与[11]类似，我们在流行的完全盲质量预测框架NIQE [22]中用我们的深度特征替换 NSS 特征。令（µr，r）对应于在一组清晰且彩色的原始图像块的质量特征上学习的高斯模型参数，并且（µd，d）对应于输入图像块的高斯每个测试图像的质量分数是使用来自FLIVE的40，000张图像，而不是我们所有实验的补丁。具有不同大小和宽高比的图像以及真实世界的扭曲混合使其成为IQA具有挑战性的数据集。4.2. 实现细节4.2.1综合预训练我们使用来自KADIS [14]数据集的84万张图像进行合成预训练阶段。我们每个场景使用4个失真版本，每个小批量使用16个场景。我们使用Adam优化器训练了5个epoch，学习率为0的情况。01.我们将温度参数设为τ=0。1.一、我们使用ResNet-50作为我们的特征编码器f（。）的情况。4.2.2真正的微调我们使用从AVA中随机抽样的10，000张图像[24] 数据集，使得与用于测试的图像没有重叠。在这个微调阶段，我们只微调f（的第一个卷积层和最后一个瓶颈层。）的情况。预测MLP头h（. ）从f（.）的全局平均池化输出获取大小为2048的输入。）的情况。h（. ）具有大小为512的隐藏层，并对其应用了批量归一化，并输出大小为2048的特征。我们使用在ImageNet上预训练的ResNet-50作为我们的内容感知网络e（. ）的情况。我们将最终的1000维softmax输出作为内容特征y。我们不更新网络E（. ）的情况。变分近似网络近似条件Q=0。，的。（µr−µd）.Σr+200d2Σ−1（µr−µd）Σ。（七）N不2464给定编码特征输出z ，内容特征y的分布。该网络通过指数线性单元（ELU）激活函数将z作为输入，其α参数设置为1。0的情况。ELU输出通过两个我们使用上述方法进行评估和比较。对使用各种特征学习方法学习的不同特征进行配对。并行MLP块，每个块具有大小为1000的隐藏层其中一个MLP块输出均值，另一个输出内容特征y的方差的对数。的2465L×LL数据集CLIVE [6] KONIQ [10] FLIVE [34] CID [30]方法SRCCPLCCSRCCPLCCSRCCPLCCSRCCPLCC[22]第二十二话0.460.480.530.540.210.290.230.22IL-NIQE [35]0.440.490.510.530.220.270.310.40[33]第三十三话0.070.070.040.020.050.130.270.29[19]第十九话0.380.420.630.610.260.290.740.76提出0.510.520.650.640.300.330.640.66表1：性能分析。* 表示第4.3节中解释的意见不知情版本，以进行公平比较。从MLP块获得的均值和方差的近似值用于获得条件分布，其进一步用于损失函数mi和θ。我们使用N = 16的批量大小来更新f（. ）、h（. ）和变分逼近网络。我们使用0的学习率。001和0。0001对于f（. ）和h（. ）分别。我们在等式（6）中选择λmi=1000，并将变分逼近网络的学习率设置为10−7。我们在训练过程中使用M=256的补丁大小来保持稳定性，因为真实数据集具有不同分辨率的图像。我们对来自AVA [24]数据集的5个时期的采样图像进行微调，仅在第一个时期之后添加mi项我们使用RTX 2080 TiGPU和PyTorch框架进行所有实验。4.2.3质量预测我们使用与NIQE [22]相同的125张图像集来学习等式（7）中的原始MVG模型。我们使用大小R=96的贴片，类似于NIQE [22]。作为FLIVE[34]有多种分辨率的图像，我们调整每个图像的大小，在采用质量预测步骤之前，将图像发送到512 512。4.3. 性能比较和分析我们比较流行的无监督（意见不知道）NR-IQA方法，如NIQE [22]和IL-NIQE [35]。我们还比较了无监督特征学习方法CORNIA [33]和自监督特征学习方法CONTRIQUE [19]。这两种方法都用于提取特征，并且这些特征用于第3.3节中描述的预测框架中，以便在无监督设置中进行我们没有使用SPIQ [3]，因为代码和预训练模型不可用，并且没有提供几个实现细节。在我们的真实微调阶段使用的相同的10，000张图像集我们使用CONTRIQUE作者提供的预训练模型[19]来评估CONTRIQUE特征。既然我们的目标是舆论-意识到真实失真图像的NR IQA，我们不与其他监督NR IQA方法进行比较。我们使用SpearmanSRCC和PLCC是在一组地面实况质量分数和每个数据集中所有图像的预测，因为所比较的方法都不需要对质量标签进行训练。在计算PLCC之前，预测得分通过非线性[26]。我们从表1中观察到，我们的方法优于CLIVE [6]和FLIVE [34]上的其他可比方法，具有显著的边际。我们还看到了KONIQ [10]数据集的改进。我们观察到CONTRIQUE [19]在CID [30]上的性能优于我们的方法。我们还观察到CORNIA [33]在CLIVE [6]、KONIQ[10]和FLIVE [34]上的表现相当差，但在CID [30]数据集上的表现优于NIQE [22]。我们注意到CID [30]数据集的结构与其他三个数据集非常不同，因为只有大约八个独特的场景。虽然有几个扭曲的版本，但场景的多样性有限，这有助于减少该数据集中的多样性。与其他数据集相比，FLIVE [34]的性能通常较低，这是可以预期的，因为即使对于监督方法，它也是一个非常具有挑战性的数据集。尽管如此，我们取得了最好的结果在所有其他无监督NR方法。4.4. 消融不同组件的强度：我们评估我们提出的每个组件的强度在真实失真的数据集上的SRCC性能。特别是，我们评估了预训练特征在合成数据集上的性能，以及在有和没有基于互信息的成本函数的情况下微调对真实数据集从表2中我们可以看出，每个组件都有自己的优点。在真实数据集上添加微调可以提升CLIVE [6]，FLIVE [34]和KONIQ [10]的性能在真实微调部分中增加2466L合成正宗MI克莱夫[6]KONIQ [10]FLIVE [34]CID [30]✓✗✗0.330.600.180.62✓✓✗0.440.630.290.61✓✓✓0.510.650.300.64表2：在SRCC性能方面添加不同组分的强度（a）对比损失（b）测试集SRCC图2：在有和没有MI损失项的情况下进行微调时，在第一个历元引入MI损失项后，对比损失项和测试集性能都有所提高。进一步提高了所有数据集的性能。基于内容依赖损失的正则化：我们定性地分析了在图2中的真实微调过程期间通过等式（2）中的互信息（MI）项添加内容依赖性损失的效果。我们获得了每次迭代时对比损失项c的曲线，以及每个训练时期CLIVE[6]数据集在第一个时期之后的训练过程中引入MI损失会影响对比损失曲线，因为我们可以在图2a中看到第一个时期之后的损失增加。此外，图2b示出了当使用内容依赖性损失时在训练过程中测试集准确度的改进。SRCC曲线的改进和对比损失曲线的恶化是在添加内容依赖损失之后模型的正则化和改进的泛化性能的指示。不同类型的特点分析：我们分析了图3中算法的三种不同配置的特征输出的t分布随机邻居嵌入（t-SNE）[29]图。我们对综合预训练模型和微调模型（有和没有内容依赖损失项）这样做。我们从CLIVE [6]数据集中提取所有样本进行分析。我们将每个图像分配给五个颜色编码的粗质量箱。我们观察到，与综合预训练模型相比，没有内容依赖损失的vanilla微调模型在数据集的样本之间提供了更大的分离具有内容依赖性损失的微调模型能够更好地分离不同的质量仓，从而实现更好的质量预测。图3：t-SNE图显示了使用我们方法的不同组件时特征预测的扩展。随着每个组件的添加，我们观察到质量箱之间的分离更大图4：内容感知特性的t-SNE图。相同的颜色意味着相同的内容，但有不同的失真。颜色相同的样品往往聚在一起。内容特点分析：我们从e（. ）捕获内容相关信息。我们定性地评估了e（. ）通过对合成数据集的内容特征我们从KADIS [14]数据集中随机选择20个参考图像，并分析参考图像及其失真版本的内容感知特征的t-SNE图图4示出了使用t-SNE简化为二维的内容特征的图。每种颜色对应于一个参考图像。我们观察到来自同一参考聚类的不同失真版本，向我们展示了内容特征捕获了丰富的内容相关信息。然而，在这种情况下，这也指出了内容特征对失真或质量不是很敏感。因此，学习质量特征以与这些内容特征共享最小信息有助于减轻质量特征中的内容偏差。2467LLλmiSRCC00.4210.41100.471000.4710000.49100000.47图5：在对比损失曲线中选择不同λmi表 3 ： CLIVE 上相对于λmi的SRCC性能变化图7：预测得分的定性分析。在每个图像上指示MOS预测误差。图6：在变分近似网络不同超参数的影响：我们展示了关于改变MI损失的标度值（λ mi）的实验。我们在图5中绘制了不同λmi值的c然而，我们绘制了对比损失的平滑版本，以便更好地可视化变化。表3显示了CLIVE[6]上SRCC性能相对于λmi变化的变化。为了公平比较，我们报告了每个运行我们观察到，随着λmi的增加，对应于正则化的c的跳跃变得更大。正如预期的那样，我们发现将λmi增加到一定值可以提高SRCC的性能。然而，一旦正则化变得过于激进（λmi=10000），我们发现SRCC性能下降。对比似然法在变分近似中的影响：我们还比较了当使用等式（5）中的对比似然损失来训练变分近似网络时，与使用等式（3）中的基于对数似然的损失相比，我们的方法的性能。我们从图6中看到，当使用对比似然损失时，我们在性能上得到了一致的改进。4.5. 定性分析现在，我们对我们的质量预测模型的性能进行定性分析我们通过使用等式（7）计算我们的质量预测与CLIVE [6]数据集上的MOS之间的非线性拟合来计算地面实况质量（或平均意见评分（MOS））图7显示了对应于误差和MOS之间不同关系的图像对于低MOS图像，我们观察到该模型可以很好地预测暗图像的质量我们的模型在高MOS图像中失败的大多数图像似乎具有某些美学属性，而它在不具有这些属性的图像上表现良好。5. 结论我们的两阶段自监督特征学习为真实失真图像的无监督NR-IQA提供了一个新的框架，在多个真实失真数据集上具有最先进的我们推断，在质量感知特征的无监督特征学习中，内容偏差的迁移起着不可或缺的作用。我们基于互信息最小化的公式和基于对比似然的优化有效地解决了这种内容偏差，并给出了显着的改进。这在无监督NR IQA的背景下尤其重要，在无监督NR IQA的背景下，不清楚如何使用基于内容的特征而没有标签来进行监督。鸣谢：这项工作得到了印度政府科学技术部CRG/2020/003516号赠款的部分支持。2468引用[1] 作者：Jordan Ash，Ryan P Adams温启动神经网络训练。神经信息处理系统的进展，33：3884[2] SebastianBosse，DominiqueManiry，Klaus-RobertMüller，Thomas Wiegand，and Wojciech Samek.用于无参考和全参考图像质量评估的深度神经网络。IEEE Transactions on Image Processing，27（1）：206[3] Pengfei Chen，Leida Li，Qingbo Wu，and Jinjian Wu.Spiq：一种用于图像质量评估的自监督预训练模型。IEEE Signal Processing Letters，29：513-517，2022。[4] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第15750-15758页[5] Pengyu Cheng ， Weituo Hao ， Shuyang Dai ， JiachangLiu，Zhe Gan，and Lawrence Carin.Club：互信息的对比对数比上界。机器学习国际会议，第1779-1788页。PMLR，2020年。[6] Deepti Ghadiyaram和Alan Conrad Bovik。对主观和客观图片质量的大量在线众包研究IEEE Transactions onImage Processing，25：372-387，2016。[7] S Alireza Golestaneh，Saba Dadsetan和Kris M Kitani。通过变换器、相对排序和自一致性进行无参考图像质量评估在IEEE/CVF计算机视觉应用冬季会议论文集，第3209-3218页[8] Jean-Ba s tienGrill ， FlorianStrub ， FlorentAltch e´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar，et al.引导你自己的潜意识自我监督学习的新方法。神经信息处理系统的进展，33：21271[9] Ke Gu，Guangtao Zhai，Xiaokang Yang，and WenjunZhang.利用自由能原理进行图像质量盲评价。IEEETransactions on Multimedia，17（1）：50[10] Vlad Hosu，Hanhe Lin，Tamas Sziranyi，and DietmarSaupe.Koniq-10 k：用于盲图像质量评估深度学习的生态有效数据库IEEE Transactions on Image Processing，29：4041[11] VigneshKannan，SameerMalik，andRajivSoundararajan.低光恢复图像的质量评估：一个主观的研究和一个无监督的模型。 arXiv 预印本 arXiv ：2202.02277，2022。[12] Jongyoo Kim和Sanghoon Lee全深度盲图像质量预测器。IEEE Journal of selected topics in signal processing，11（1）：206[13] Jongyoo Kim ， Hui Zeng ， Deepti Ghadiyaram ，Sanghoon Lee，Lei Zhang和Alan C.波维克用于图像质量预测的深度卷积神经模型：数据驱动的图像质量评估的挑战和解决方案IEEE Signal Processing Magazine，34（6）：130[14] Hanhe Lin，Vlad Hosu，Dietmar Saupe. Kadid-10 k：一个大规模人工扭曲的iqa数据库。2019年第十届多媒体体验质量国际会议（QoMEX），第1-3页。IEEE，2019。[15] Xialei Liu ， Joost van de Weijer ， and Andrew D.Bagdanov Rankiqa：无参考图像质量评估的排名学习。2017年IEEE计算机视觉国际会议（ICCV），第1040-1049页[16] Kede Ma，Wentao Liu，Tongliang Liu，Zhou Wang，and Dacheng Tao. dipiq：通过学习对可辨别图像对进行排序的盲图像质量评估。IEEE Transactions on ImageProcessing，26（8）：3951[17] Kede Ma，Wentao Liu，Kai Zhang，Zhengfang端木，Zhou Wang，and Wangmeng Zuo.使用深度神经网络进行端到端盲图像质量评估IEEE Trans-actions on ImageProcessing，27（3）：1202[18] Kede Ma，Xuelin Liu，Yuming Fang，and Eero P.西蒙切利基于多标注器学习的图像质量盲评估。在2019年IEEE图像处理国际会议，第2344-2348页[19] Pavan C Madhusudana ， Neil Birkbeck ， Yilin Wang ，Balu Adsumilli，and Alan C Bovik.利用对比学习进行图像质量评价。IEEE图像处理学报，31：4149[20] Pavan C Madhusudana ， Neil Birkbeck ， Yilin Wang ，Balu Adsumilli，and Alan C Bovik.使用合成图像进行图像质量评估。在IEEE/CVF Winter计算机视觉应用会议集，第93-102页[21] Anish Mittal，Anush K. Moorthy和Alan Conrad Bovik。空间域无参考图像质量评价。IEEE Transactions onImage Processing，21：4695[22] Anish Mittal、Rajiv Soundararajan和Alan C.波维克制作“完全盲”图像质量分析仪。IEEE Signal Process. Lett. ，20（3）：209[23] Anush Krishna Moorthy和Alan Conrad Bovik。盲态图像质量评估：从自然场景统计到感知质量。 IEEETransactions on Image Processing，20（12）：3350[24] Naila Murray Luca Marchesotti和Florent Perronnin Ava：用于美学视觉分析的大型数据库。 2012年IEEE计算机视觉和模式识别会议，第2408-2415页[25] 米歇尔·A作者：Alan C. Bovik和Christophe Charrier。盲图像质量评估：一种dct域自然场景统计方法。IEEETransactions on Image Processing，21（8）：3339[26] H.R. Sheikh，M.F. Sabir和A.C.波维克最近的全参考图像质量评估算法的统计评估。IEEE Transactions onImage Processing，15（11）：3440[27] 苏少林、阎庆森、朱玉、张成、辛戈、孙金秋、张燕宁。自适应超网络引导下的野外图像质量盲评估。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第3664-3673页[28] 放大图片作者：David A. Shamma，Gerald Friedland，Ben-Elizalde ， Karl Ni ， Douglas Poland ， DamianBorth，2469还有李丽佳Yfcc100米。Communications of the ACM，59（2）：64[29] Laurens Van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（11），2008.[30] ToniVirtanen，MikkoNuutinen，MikkoVaahteranoksa，PirkkoOittinen，andJukkaHakkinen.CID2013：为评价无参考图像质量评价算法提供了数据基础IEEE传输图像处

下载后可阅读完整内容，剩余1页未读，立即下载