从补丁到图片：图像质量的感知空间

186 浏览量更新于2023-10-23 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3575从补丁到图片（PaQ-2-PiQ）：绘制图像质量的感知空间ZhenqiangY ing1*，Haoran Niu1*，Praful Gupta1，Dhruv Mahajan2，Deepti Ghadiyaram2<$，Alan Bovik1<$1德克萨斯大学奥斯汀分校2Facebook AI{zqying，haoranniu，praful gupta}@ utexas.edu，{dhruvm，deeptigp}@ fb.com，bovik@ece.utexas.edu摘要盲或无参考（NR）感知图像质量预测是一个困难的、未解决的问题，其对每天影响数十亿观众的社交和流媒体行业具有重大影响。不幸的是，流行的NR预测模型在真实世界的失真图片上表现不佳。为了推进这个问题的进展，我们介绍了最大的（到目前为止）主观图片质量数据库，包含约40，000真实世界的失真图片和120，000补丁，我们收集了约4M人的图片质量的判断。使用这些图片和补丁质量标签，我们构建了基于深度区域的架构，该架构可以学习生成最先进的全局图片质量预测以及有用的局部图片质量地图。我们的创新包括图片质量预测架构，可产生全局到局部的推断以及局部到全局的推断（通过反馈）。数据集和源代码可在https：//live. 是的。utexas edu/research PHP.1. 介绍数码图片，质量常常有问题，已经变得无处不在.每年有数千亿张照片被上传并分享到 Facebook 、Instagram和Tumblr等社交媒体网站上。流媒体服务，如Net-Video，Amazon Prime Video和YouTube占所有下游互联网流量的60%[1]。能够理解和预测的感知质量的数字图片，给定的资源限制和不断增加的显示尺寸，是一个高风险的问题。通常的误解是，如果两个图片被相同量的失真损害（例如，模糊），它们将具有相似的感知质量。然而，由于视觉系统处理图像损伤的方式，这是远远不正确的。例如图1（a）和10.平等贡献(a)（b）（c）图1：扭曲感知的挑战：由人类观察者感知的（失真的）图像的质量是感知质量。失真感知是高度依赖于内容的。图片（a）和（b）是使用相同的编码参数进行JPEG压缩的，但是呈现非常不同程度的感知失真。（c）中的空间均匀噪声在图像内容上的可见性变化，因为对比度掩蔽[2]。(a)（b）第（1）款图2：美学与感知质量（a）比（b）更模糊，但对于大多数观众来说可能更美观。1（b）有相同数量的JPEG压缩应用，但图。1（a）出现相对未受损的感知，而图。1（b）是不可接受的。另一方面，图图1（c）具有施加到其上的空间均匀白噪声，但是其感知的失真严重性在画面上变化。图片内容和失真之间的复杂相互作用（主要由掩蔽现象[2]决定）以及失真伪影的视觉处理方式，在可见或令人讨厌的视觉失真如何呈现自己方面起着重要作用。感知质量与分辨率和比特率等简单数量的相关性很一般来说，预测感知图像质量是一个困难的，长期存在的研究问题[8，2，7，9，10]，尽管它看似简单（我们很容易感觉到失真，很少，如果有的话，思考）。3576表1：流行的IQA数据集总结。在传统数据集中，图像被合成失真，具有不同类型的单一失真。 “In-the-wild” databases contain pictures impaired by complexmixtures of highly diverse distortions, each as unique as the pictures they数据库#独特的内容#扭曲#图片内容#补丁内容失真类型主体性研究框架#注释器#注释03 The Dog（2003）2957800单一、合成实验室内TID-2008 [4]251717000单一、合成实验室内2013年TID [4]252430000单一、合成实验室内[2016年5月5日]1200-12000in-the-wild众包8000350KKonIQ（2018）[6]10K-10K0in-the-wild众包14001 .一、2M拟议数据库三十九、八百一十-三十九、八百一十一一九，四百三十in-the-wild众包78653931710区分图片质量[2]和图片美学[11]的概念很重要画面质量的好坏主要取决于视觉上的失真，而审美也与画面的主体位置、意境、艺术价值等方面有关。例如图图 2 （a）明显模糊，感知质量比图2 （b ）低。2（b），这是较少的扭曲。然而，图2（a）比令人不安的图2（b）更美观。第2段（b）分段。虽然失真会有损于美学，但它也会有助于美学，如故意添加胶片颗粒[12]或模糊（散景）[13]以实现照片效果。虽然这两个概念都很重要，但图像质量预测是一个关键的、影响力很大的问题，影响着几个大批量的行业，也是这项工作的重点。强大的图像质量预测器可以显著改善社交媒体、流媒体电视和家庭影院、视频监控、医疗可视化、科学成像等的视觉体验。在许多这样的应用中，非常希望能够在摄取点评估图像质量，以更好地指导有关保留、检查、剔除以及所有进一步处理和展示步骤的决策。不幸的是，没有原始的参考图片来衡量图片质量是非常困难的。这是一个在外面的情况-任何摄像头的镜头，以及任何接受用户生成内容（UGC）的社交媒体平台的内容摄取点。无参考（NR）或盲图像质量预测在很大程度上尚未解决，尽管存在流行的模型[14，15，16，17，18，19，20]。虽然这些通常是基于视觉神经科学的坚实原理，但它们也很简单，计算量也很浅，并且在最近的数据库中测试时会出现不足，解决这个问题可能会影响每天上传的数十亿张图片的挑选、处理、压缩和显示方式为了推进这一影响巨大的未解决问题的进展，我们做出了几项新的贡献。• 我们建立了现有最大的图像质量数据库。我们对数十万张开源数字图片进行了采样，以匹配最大用例：在社交媒体上分享的照片。最终的收集包括大约40，000张真实世界的，未经处理的（由我们）不同大小，内容和扭曲的图片，以及大约120，000张各种比例和宽高比的裁剪图像补丁（第二节）。3.1、3.2）。• 我们进行了最大的主观图片质量学习至今。我们使用Amazon Mechanical Turk从近8000名受试者中收集了大约400万人对所收集内容的感知质量判断，大约是之前任何图像质量研究的四倍。3.3）。• 我们收集了两张照片和贴片质量标签来关联本地和全局图像质量。新的数据库包括大约1M的人类图片质量判断和3M的人类质量标签的补丁从相同的图片。局部图像质量与全局质量密切相关，尽管这种关系尚未得到很好的理解[21]，[22]。这些数据帮助我们了解这些关系，并更好地模拟全球图片质量。• 我们创建了一系列最先进的深度盲图像质量预测器，该预测器建立在现有的深度神经网络架构之上。使用修改后的ResNet [23] 作为基线，我们（a）使用补丁和图片质量标签来训练区域建议网络[24]，[25]来预测全局图片质量和局部补丁质量。该模型能够通过学习全局和局部图像质量之间的关系来产生更好的全局图像质量预测（Sec. 4.2）。然后，我们进一步修改该模型，(b) 预测图像质量的空间图，用于局部化图像失真（第12节）。4.3）。最后，我们（c）发明了一种局部到全局反馈架构，该架构使用局部补丁预测来产生进一步改进的整体图片质量预测（第二节）。4.4）。这一系列模型在新数据库上获得了最先进的画质性能，并且在较小的“野外”数据库上传输良好-4.5）。2. 背景图像质量数据集：大多数图片质量模型都是在三个“遗留”数据库上设计和评估的：LIVE IQA [3]、TID-2008[4]和TID-2013 [26]。这些数据集包含少量的独特的原始图像（1030），这些图像被不同类型和数量的单一失真（JPEG，高斯模糊等）综合失真它们包含有限的内容和失真的多样性，并且不限制-真实世界图像中经常出现的复杂失真混合。最近，3577图3：新数据库中的示例图片，每个图片都调整了大小。实际的图片是高度不同的大小和形状。全参考型号：许多与高质量参考图片进行比较的全参考（FR）感知图片质量预测器是可用的[9，10]，[27，28，29，30，31，32，33]。虽然有些FR算法（例如，SSIM [9]，[34]，VIF [10]，[35，36]）取得了显著的商业成功（例如，用于监视流内容），但是它们受限于它们对原始参考画面的要求。目前的NR模型不够通用：无参考或盲算法在没有参考信号的情况下预测画面内容。流行的盲图像质量算法通常测量与图像统计的感知相关、高度规则的带通模型的失真引起的偏差[2]，[37，38，39，40]。实例包括[14]第15话，我是你的女人！[16]，其使用“手工制作的”统计特征来驱动浅学习器（SVM等）。这些模型在具有单一合成失真的传统数据集上产生准确的质量预测[3，4，26，41]，但在最近的数据集上却很难实现。在野外[5，6]数据库。还创建了几个深度NR模型[42，43，44，45，46]，其在传统合成失真数据库[3，4，26，41]上产生最先进的性能，在ImageNet [50]上预训练深度网络[47，48，49]，然后进行微调，或者通过在FR模型[45]生成的代理标签上进行训练。然而，大多数深度模型在CLIVE [5]上挣扎，因为它太难了，而且太小了，无法足够地跨越图片质量的感知空间，以允许非常深的模型映射它。[51]的作者报告了很高的结果，但即使使用更有效的网络，我们也无法重现他们的数字。[52]的作者使用预先训练的ResNet-101并报告了[5，6]的高性能，但后来披露[53]他们无法在[52]中重现他们的结果。3. 大规模数据集与人体研究接下来，我们将解释我们构建的新图片质量数据集的细节，以及我们对其进行的众包主观质量研究。该数据库有大约40000张图片和120000个补丁，我们从近8000个独特的子补丁中收集了400万个人类判断（在主题拒绝后）。它明显大于常用的最近的3.1. UGC类图片采样数据收集始于从公共数据库（包括AVA [11]、VOC[54]、EMOTIC [55]和模糊检测数据集[56]）中提取的数千张图片中采样约40K不同大小和宽高比的高度多样化内容因为我们对局部质量感知的作用感兴趣，因为它与全局质量有关，所以我们还从每张图片中裁剪了三个补丁，产生了大约120K补丁。在内部讨论“代表性”的概念时我们这样做是因为数十亿张图片在社交媒体上被上传、分享、展示和查看，远远超过其他任何地方。我们使用类似于[6]的混合整数编程方法[57]对图片内容进行采样，以匹配一组特定的UGC特征直方图。我们的抽样策略在几个方面有所不同：首先，与KonIQ [6]不同，没有对图像进行下采样，因为这种干预可以实质上修改图像质量。此外，包括不同大小的图片更好地反映了实际做法。其次，我们设计了一个图片集，而不是均匀地采样特征值，其特征直方图与从未处理的图像中随机选择的15M的特征直方图相上传到Facebook。这反过来又导致了一个很大的更现实和更困难的数据库来预测特征，正如我们稍后将描述的最后，我们没有使用预先训练的IQA算法来帮助图片采样，因为这可能会在数据收集过程中引入算法偏差为了对特征直方图进行采样和匹配，我们在我们的图片集和15MUGC图片上计算了以下不同的客观特征• 绝对亮度L=R+G+B。• 使用流行模型的色彩[58]。• RMS亮度对比度[59]。• 空间信息（SI），Sobel梯度的全局标准差[60]，复杂性的度量。• 像素数，衡量图片大小的一种方法。• 使用[61]检测到的面部数量最后，我们得到了大约40K的照片。图3示出了16个随机选择的图片，并且图4示出了16个随机选择的图片。4突出了新数据库中图片的不同大小和宽高比。3578图4：图片宽度与图片高度的散点图，标记大小指示新数据库中给定尺寸的图片数量。3.2. 小块种植当随机裁剪出补丁时，我们应用了以下标准：（a）纵横比：小片具有与从其绘制的图片相同的纵横比。(b)尺寸：补片的线性尺寸是画面尺寸的40%、30%和20%。(c)位置：每一个补丁都完全包含在图片中，但是没有补丁与从同一图像裁剪的另一个补丁的区域重叠超过25%。图5示出了两个示例性图片，以及从每个示例性图片获得的三个补丁。图5：样本图片和3个随机定位的作物（20%，30%，40%）。3.3. 用于主观研究的众包管道主观图片质量评级是对人类受试者的真实心理测量，需要10-20倍的时间进行仔细检查（每张照片），例如，对象标记[50]。我们使用了亚马逊土耳其机器人（AMT）众包系统，为此目的有很好的记录[5，6，62，63]，以收集人类图片质量标签。我们将研究分为两个独立的任务：图像质量评估和块质量评估。大多数下属（7865名工人中的7141名）只参加了其中一项，以避免因观看两项而产生的偏见，即使是在不同的日期。无论哪种方式，众包工作流程都是相同的，如图所示六、每个工人都得到了指示，然后是一个培训阶段，在那里他们被展示了几个内容来学习评级任务。然后，他们观看并对N个内容进行质量评级，以完成他们的人类智能任务（HIT），最后对他们的体验进行调查。起初，我们设置N=60，但随着研究的加速，我们发现工人们的得分一致，我们设置N=210。我们发现，工人在观看大量图片时表现良好。图6：AMT任务：众包工作者在对图片或补丁进行评级时所经历的工作流程。3.4. 处理主观评分受试者拒绝：我们采取了建议的步骤[5，63]，以确保收集的人类数据的质量。• 我们只接受率>75%的工人。• 重复图像：每节课随机重复N个内容中的5个，以确定受试者是否给出一致的评级。• “黄金”图像：N个内容中有5个是从15张图片和76个补丁的集合中取样的“黄金”内容，这些图片和补丁在受控实验室研究中由18名可靠的受试者单独评级。The “gold” images are not part of the new我们根据两个因素接受或拒绝每个评分员在HIT中的评分：重复内容得分与总标准差的差异，以及是否有超过50%的得分相同。由于我们希望获得多个评级，因此工作人员可以参与多个HIT。每个内容至少获得35个质量评级，其中一些获得多达50个。将每个受试者提供的标签转换为标准化的Z评分[3]，[5]，平均（按内容），然后缩放至[0，100]，得到平均意见评分（MOS）。受试者拒绝后收集的人类主观标签总数为3，931，710（图像上为950，574，2，981，136在贴片上）。受试者间一致性：测试主观数据一致性的标准方法[3]，[5]是将受试者随机分为两个不相交的相等集合，计算两个MOS，每个图片（每组一个），然后计算两组MOS值之间的当重复超过25次随机分割时，两组MOS之间的平均LCC为0。48，指示在该现实图片数据集上的质量预测问题的难度。图图7（左）显示了一个分裂的两半人类标签的散点我们将相同的过程应用于补丁分数，获得了更高的LCC，0的情况。六十五这是可以理解的：较小的斑块含有较少的空间多样性;因此，他们得到更一致的分数。我们还发现，几乎所有未被拒绝的受试者与金色图片具有正的斯皮尔曼等级相关（SRCC），验证了数据收集过程。图片质量和补丁质量之间的关系：图 7（右）是图片MOS的整个数据库的散点图与最大斑块的MOS进行对比。3579图7：描述新的主观质量数据库的散点图。左：将所有40K+图片的人类标签随机50%划分为不相交的主题集的主题间散点图右图：图片MOS与从每张相同图片裁剪的最大斑块（线性尺寸的40%）MOS它们之间的线性相关系数（LCC）为0。43，这是强大的，因为每个补丁只代表16%的图片面积。图片MOS的散点图与较小（30%和20%）贴片的散点图非常相似，LCC略有降低，为0。36和0。28、补充材料（补充材料）。创造高度逼真的“野外”的结果数据是，它是更难以训练成功的模型。大多数上传到社交媒体的图片质量都相当不错，这主要归功于改进的移动相机。因此，新数据库中MOS的分布与之前两个这一点很重要，因为希望能够预测MOS的微小变化，这对于压缩参数选择等方面可能很重要[64]。正如我们在SEC中所展示的那样。4、新的数据库，我们称之为LIVE-FB大规模社会图片质量数据库，即使对于深度模型也是非常具有挑战性的。图图8：三个“野生”数据库的MOS（Z-评分）直方图。左：克莱夫[5]。中：KoniIQ-10K [6]。右：这里介绍的LIVE-FB数据库4. 学习盲图像质量预测器随着新数据集的可用性，包括与人类标签相关的图片和补丁（第3），我们创建了一系列深度质量预测模型，我们统称为PaQ-2-PiQ，利用其独特的特性。我们进行了四个图片质量学习实验，从一个简单的网络演变成越来越复杂和感知相关的模型，我们将在下面描述。4.1. P2P BM：一个基线图片模型首先，我们创建了一个简单的模型，它只处理图片和相关的人类质量标签。我们在下文中将其称为PaQ-2-PiQ基线模型，简称P2P-BM。我们使用的基本网络是有据可查的预训练ResNet-18[23]，我们对其进行了修改（下面将进行描述）和微调，以执行质量预测任务。输入图像预处理：由于图片质量预测（无论是通过人类还是机器）是一种心理测量预测，因此不修改输入网络的图片至关重要。虽然大多数视觉识别学习者通过裁剪、缩放、翻转等来增强输入图像，在训练感知质量预测器时做同样的事情这样的输入预处理将导致感知质量分数与不同的图片相关联，而不是它们被记录在其上。新的数据集包含数千个独特的图片大小和长宽比的组合（见图1）。4）.虽然这是数据集的核心优势，反映了它的现实性，但在训练深度网络时，它也带来了额外的挑战。我们尝试了几种在原始多尺寸图片上训练ResNet的方法，但由于固定尺寸的池和完全连接的层，训练和验证损失并不稳定。为了解决这个问题，我们将每个训练图片的大小调整为640×640，并将每个实例中的内容居中。将一维或二维大于640的图片移动到测试集中。该方法具有以下优点：（a）它允许向网络提供恒定大小的图片，使其稳定地收敛好吧，（b）它允许大批量的大小，这改善了训练，（c）它同意图片评级者的经验，因为AMT在不占据整个网页宽度的图片周围呈现白色边框培训设置：我们将图片数据集（以及相关的补丁和分数）划分为训练集、验证集和测试集。在收集的39810张图片（和119430个补丁）中，我们使用了大约75%用于训练（30K图片，以及它们的90K补丁），19%用于验证（7。7K图片，23. 1 K补丁），其余用于测试（1.8 K图片，5. 4K补丁）。当在验证集上进行测试时，输入到训练网络的图片也是白色边框的，大小为640×640。如前所述，测试集完全由具有至少一个超过640的线性维度的图片组成。能够执行以及不同宽高比的较大图片被认为是对模型的额外挑战。实施详情：我们使用了在ImageNet上预训练的ResNet-18 [66]的PyTorch实现，并在微调期间仅保留CNN主干。为此，我们添加了两个池化层（自适应平均池化和自适应最大池化），然后是两个全连接（FC）层，以便最终FC层输出单个分数。我们使用120的批量大小，并在回归单个输出质量分数时采用我们使用亚当优化器，β1=。9和β2=。99a3580表2：贴片质量预测：关于（a）最大斑块（线性尺寸的40%），（b）中等大小斑块（线性尺寸的30%）和(a) 验证和测试集中的最小面片（线性尺寸的与表3中使用的方案相同（一）（b）第（1）款（c）第（1）款验证测试验证测试验证测试模型SRCCLCCSRCCLCCSRCCLCCSRCCLCCSRCCLCCSRCCLCCNIQE [15]0.1090.1060.2510.2710.0290.0110.2170.1090.0520.0270.1540.031[第14话]0.3840.4670.4330.4980.4420.5030.5240.5560.4950.4940.5320.526CNNIQA [65]0.4380.4000.4450.3730.5220.4490.5620.4400.5800.4810.5920.475NIMA [46]0.5870.6370.6880.6910.5470.5600.6810.6700.3950.4110.5260.524P2P-BM（第二节）第4.1节）0.5610.6170.6620.7010.5770.6030.6850.7040.5630.5410.6330.630P2P-RM（第二节）4.2）0.6410.7310.7240.7820.6860.7520.7590.8080.7330.7600.7690.792P2P-FM（第二节）4.4）0.6580.7440.7260.7830.6980.7620.7700.8190.7560.7830.7860.808重量衰减01，并进行10个epoch的全微调我们采用了判别式学习方法[67]，使用较低的学习率3e-4，但头部层的学习率较高，为3e-3。这些设置适用于我们在下文中描述的所有评价设置：虽然P2P基线模型是在整个图片上训练的，但我们在图片和补丁上进行了测试。为了与流行的浅层方法进行比较，我们还训练和测试了BRISQUE [14]和我们重新实现了两种深度图像质量方法-NIMA[46]它使用Mobilenet-v2 [68]（除了我们替换输出层以回归单个质量分数）和CN- NIQA [65]，遵循作者提供的细节。所有比较的模型都在LIVE-FB训练集上经过相同数量的epoch训练。作为图片质量评估领域的常见做法，我们报告两个指标： Spearman 秩相关系数（SRCC）和线性相关系数（LCC）。结果：从表3中，首先要注意的是流行的浅层模型所达到的性能水平，[15][16][17][18][19][无监督NIQE算法表现不佳，而BRISQUE表现更好，但报告的相关性远低于预期水平。尽管基于CNN，CNNIQA [65]的表现不如BRISQUE [14]。我们的基线模型优于大多数方法，并且与NIMA [46]竞争非常好。表中的其他条目（RoIPool和Feedback Mod-表3：图像质量预测：图像质量模型在LIVE-FB数据库中全尺寸验证和测试图像上的性能。值越高，表示性能越好。NIQ没有受过训练。ELS）将在后面描述。表2示出了相同的训练的、未修改的模型在三个减小尺寸（线性图像尺寸的40%、30%和20%）的相关联的图像块上的性能P2P基线模型保持或略微改善了不同斑块大小的性能，而NIQE继续滞后，尽管受试者对缩小尺寸斑块的一致性更高（第2.1.1节）。第3.4段）。随着斑块大小的减小， NIMA 的性能受到相反，BRISQUE和CNNIQA随着补丁大小的减小而改善，尽管它们是在整个图片上训练的。4.2. P2P RM：一种图片+补丁模型接下来，我们开发了一种新型的图片质量模型，它利用了图片和补丁质量信息。我们的与Fast-RCNN一样，我们的模型有一个RoIPool层，它允许在补丁和图片大小的尺度上灵活地聚集。然而，它在三个重要方面不同于Fast-RCNN [24]。首先，我们预测全图和补丁质量，而不是回归检测边界框其次，Fast-RCNN使用两个独立的头执行多任务学习，一个用于图像分类，另一个用于检测。相反，我们的模型在补丁和图像之间共享一个头部这样做是为了允许在图片和补丁之间共享第三，虽然Fast-RCNN的两个头都只对来自ROI池区域建议的特征进行操作，但我们的模型对整个图像进行池化以进行全局图像质量预测。实施详情：在Sec。4.1，我们在ResNet-18的预训练CNN骨干中添加了一个RoIPool层，然后是两个完全连接的层RoIPool单元的输出大小固定为2×2。所有的超-参数与第节中的详细说明相同。4.1.培训和测试设置：回想一下，我们对每张图像采样了3个补丁，并获得了图片和补丁的主观评分（第2节）。（3）第三章。在训练期间，模型接收以下输入：（a）图像，（b）所有3个贴片的位置坐标（左、上、右、下），以及（c）地面实况验证集测试集模型SRCCLCCSRCCLCCNIQE [15]0.0940.1310.2110.288[第14话]0.3030.3410.2880.373CNNIQA [65]0.2590.2420.2660.223NIMA [46]0.5210.6090.5830.639P2P-BM（第二节）第4.1节）0.5250.5990.5710.623P2P-RM（第二节）4.2）0.5410.6180.5760.6553581图像（一）图像补丁评分图像特征CNN+图像补丁评分图像分Head1头ImagePatchRoIPool头0ImagePatchRoIPoolCNN图像CNN头图像分（b）第（1）款（c）第（1）款保持纵横比（该步骤可以容易地扩展以处理更密集、重叠或更小的块）（b）每个块的边界坐标被提供作为RoIPool的输入以指导块质量分数的学习（c）为了可视化，我们将双线性插值应用于块预测，并将结果表示为岩浆颜色图。我们将质量图与原始图片进行α混合（α=0. （八）。从图10中，我们观察到RoIPool模型能够准确地区分模糊、褪色或曝光不良的区域与高质量区域。这种空间定位的质量图具有支持像图像压缩、图像重定向等应用的巨大潜力。4.4. P2P FM：一种局部到全局的反馈模型如第二节所述4.3、局部块质量对全局图像质量有考虑到这一点，我们如何有效地利用本地质量预测，以进一步提高全球图片质量？为了解决这个问题，我们图9：说明我们研究的不同深度质量预测模型。 (a)P2P基线模型：ResNet-18，经过改装的头部图片（Sec. 4.1）。(b)P2P RoIPool模型：在图片和补丁质量上都进行了训练（Sec. 4.2）。 (c)P2P反馈模型：在那里，反馈校准质量预测以改进全局质量预测（第12节）。4.4）。图像和补丁的质量分数。在测试时，RoIPool模型可以处理任何大小的图片和补丁因此，它提供了预测任何数量和指定位置的补丁的质量的优点，与图片预测并行。结果：如表3所示，RoIPool模型在验证和测试数据集的整个图片当相同的训练RoIPool模型在补丁上进行评估时，改善更明显。与基线模型不同，RoIPool模型的性能随着斑块大小的减小而增加。这表明：(i)RoIPool模型比Baseline模型更具可扩展性，因此能够更好地预测不同大小的图片的质量，（ii）准确的补丁预测可以帮助指导全局图片预测，如我们在第2节中所示四点四(iii)这种新颖的图像质量预测体系结构允许计算我们接下来探索的局部质量图。4.3. 预测感知质量图接下来，我们使用P2P RoIPool模型在每个图像上生成逐块质量图，因为它足够灵活，可以对任何指定数量的块进行预测。这种独特的图片质量地图预测器是第一个从真正的人类生成的图片和补丁标签中学习的深度模型，而不是像[45]那样从算法提供的代理标签中学习。我们以以下方式生成图像质量图：（a）我们把每张图片分隔─形成一个32×32的非重叠块网格，因此开发了一种新的架构，称为PaQ-2-PiQ反馈模型，或P2P-FM（图1）。9（c））。在这个框架中，预先训练的骨干有两个分支：（i）RoIPool层，随后是用于局部补丁和图像质量预测的FC层（Head0），以及（ii）全局图像池化层。来自Head0的预测与来自第二个分支的池化图像特征连接在一起，并馈送到新的FC层（Head1），该层进行整体预测。图10：使用P2P-RM生成的空间质量图（第10节）。4.2）。左：原始图像。右图：使用岩浆色与原始贴图混合的质量贴图。ImageRoIPoolImageAvgMaxPool3582从表2和表3中，我们观察到P2P反馈模型在图片和补丁上的性能通过独特的局部到全局反馈架构得到了进一步的改善。该模型始终优于所有浅-低和深质量模型。最大的改进是在整体预测方面，这是主要目标。从感知的角度来看，反馈模型提供的改进是可以理解的，因为虽然人的质量感知是涉及低级过程的低级任务，但它也涉及观看者将他们的中央凹凝视投射在正在观看的图片的离散局部块上。整体图像质量可能是围绕每个注视点收集的质量信息的集成组合，类似于反馈模型。失效案例：虽然我们的模型在新数据库上获得了良好的性能，但它确实会在预测中出错。图11（a）显示了一张被人类评分员认为质量非常差的图片（MOS=18），而反馈模型预测的高估分数为57，这是中等的。这可能是因为受试者较少-模糊的移动物体，这可能引起了相反，图11（b）是一张被我们的模型低估的图片，预测得分为68，而主题评分为82。这可能是因为受试者为了清晰可见的水线而忽略了背景中的薄雾。这些案例进一步加强了感知图片质量预测的难度，并突出了我们新数据集的优势。4.5. 跨数据库比较最后，我们评估了P2P基线（Sec. 4.1），RoIPool（Sec. 4.2）和反馈（第4.4)模型和其他基线-从表4中，我们可以观察到，在所提出的数据集上训练的所有三个模型都可以很好地转移到其他数据库。基线、RoIPool和反馈模型在两个数据集上的表现都优于浅层和其他深层模型[46，65]。这是一个强大的结果，突出了我们新数据集的代表性和我们模型的有效性。两个数据库中最好的报告数字[69]使用了预测值= 56.9，地面实况MOS = 17.9预测值= 68.1，地面实况MOS = 82.1(a)（b）第（1）款图11：故障案例：反馈模型的预测与地面实况预测差异最大的示例。表4：跨数据库比较：在LIVE-FB数据库上训练的模型应用于CLIVE[5]和KonIQ [6]时的结果，无需微调。验证集克莱夫[5]KONIQ[6]模型SRCCLCCSRCCLCCNIQE [15]0.5030.5280.5340.509[第14话]0.6600.6210.6410.596CNNIQA [65]0.5590.4590.5960.403NIMA [46]0.7120.7050.6660.721P2P-BM（第二节）第4.1节）0.7400.7250.7530.764P2P-RM（第二节）4.2）0.7620.7750.7760.794P2P-FM（第二节）4.4）0.7840.7540.7880.808Siamese ResNet-34骨干通过在相同的数据集（以及其他5个数据集）上进行训练和测试。据报道，这款车型的销量为0。CLIVE上的851 SRCC和0。894在KonIQ-10K上，我们通过直接应用预先训练的模型来实现上述结果，从而不允许它们适应测试数据的失真。当我们在这些数据集上进行训练和测试时，我们基于图片的P2P基线模型也表现出类似的水平，获得了0的SRCC。844在克莱夫和0。KonIQ-10K上的8905. 总结发言涉及感知图像质量预测的问题图像质量问题曾经被视为一个基本的视觉科学建模问题，以改善基于弱均方误差（MSE）的电视系统和摄像机的处理方式，现在已经演变成一个需要大规模数据科学和计算视觉工具的问题。为此，我们创建了一个数据库，它不仅比以前的数据库更大更难，而且包含能够进行全局到局部和局部到全局质量推断的数据。我们还开发了一个模型，可以产生局部质量推断，使用它们来计算图片质量图和全局图像质量。我们相信，提出的新数据集和模型有可能实现基于质量的监控，摄取和控制数十亿社交媒体图片和视频。最后，图中的例子。11、竞争对手VS全局质量感知突出了无参考感知图像质量评估问题的基本困难：它的主观性，内容和无数可能的扭曲组合之间的复杂相互作用，以及掩蔽等感知现象的影响。更复杂的架构可能会缓解其中的一些问题。另外，关于图片中的对象的中级语义面部、动物、婴儿）或场景（例如，室外对室内）也可以帮助捕获更高级过程在图像质量评估中的作用。3583引用[1] 桑德文2019年9月全球互联网现象报告 [ 在线 ] 可用：https：//www. 沙藤全球互联网-2019年现象报告。[2] A. C. 波维克感知图像和视频质量的自动预测。Proceedings of the IEEE，vol. 101，no.第9页。2008-2024年，9月2013年。[3] H. R. Sheikh，M. F. Sabir和A. C.波维克最近的全参考图像质量评估算法的统计评估。IEEE Transactions onImage Processing，vol. 15，no.第11页。3440-3451，2006年11月。[4] N. 波诺马连科河谷Lukin、A. Zelensky，K. 埃吉亚扎里安M. Carli和F.巴蒂斯蒂TID 2008-全参考视觉质量评估指标评估数据库。现代无线电电子学的进展，卷。号10第4页。2009年30[5] D. Ghadiyaram和A. C.波维克对主观和客观图片质量进行了大量的在线众包研究。IEEE Transactions on ImageProcessing，vol. 25，no.第1页。372-387，2016年1月。[6] H. Lin，V.Hosu和D.酱汁Koniq-10 K：走向生态学有效的大规模IQA数据库。arXiv预印本arXiv：1803.08489，2018年3月。[7] Z. Wang和A. C.波维克均方误差：喜欢还是离开？信号保真度测量的新视角 IEEE信号处理。麦格，第26卷，没有。第1页。98-117，Jan 2009.[8] Mannos和D.萨克瑞森图像编码的视觉保真度标准的影响 IEEE Trans. INF. Theor. ，第20卷，否。第4页。525-536，七月。一九七四年[9] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE Transactions on Image Processing ， vol.13 ，第 4号，页。600-612，2004年4月。[10] H. R. Sheikh和A.C. 波维克图像信息和视觉质量。IEEETransactions on Image Processing，vol.15，第2号，页。430-444，2006年2月。[11] N. 默里湖Marchesotti和F.佩罗宁AVA：用于美学视觉分析的在 IEEE Int'l Conf. 在计算机上。视觉与模式（CVPR），2012年6月。[12] A. Norkin和N.伯克贝克AV1视频编解码器的胶片颗粒合成。在数据压缩会议（DCC），Mar. 2018年。[13] Y. Yang，H.卞，Y.彭、X。Shen和H.歌用Kinect模拟散景效果。在环太平洋会议上。多媒体，9月。2018年。[14] A. Mittal，A. K. Moorthy和A. C.波维克空间域中的无参考图像质量评估 IEEE Trans-actions on ImageProcessing，vol.号21第12页。4695-4708，2012。[15] A.米塔尔河Soundararajan和A. C.波维克制作一个“完全盲 ” 的图像质量分析仪。 IEEE Signal ProcessingLetters，vol. 20，pp. 209-212，2013。[16] D. Ghadiyaram和A. C.波维克使用特征袋方法对真实失真图像进行感知质量预测Journal of Vision，vol. 17，no.第32条，pp. 2017年1月1日至25日[17] P. Ye，J. Kumar，L. Kang和D.多尔曼用于无参考图像质量评估的无监督特征学习框架。在IEEE Int'l Conf.在计算机上。视觉和Pat-tern的设计。（CVPR），第1098-1105页

下载后可阅读完整内容，剩余1页未读，立即下载