多尺度图像质量Transformer

186 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5148多尺度图像质量Transformer柯俊杰1，王启飞1，王依琳2，佩曼米兰法尔1，杨峰11Google Research，2Google{junjiek，qfwang，yilin，milanfar，fengyang} @ google.com摘要图像质量评估是理解和改善视觉体验的重要当前最先进的IQA方法基于卷积神经网络（CNN）。基于CNN的模型的性能往往受到批量训练中固定形状约束的影响为了适应这一点，输入的图像通常被调整大小和裁剪成固定的形状，导致图像质量下降。为了解决这个问题，我们设计了一个多尺度的图像质量Transformer（MUSIQ）来处理具有不同大小和纵横比的原始分辨率图像通过多尺度图像表示，我们提出的方法可以捕捉不同粒度的图像质量。此外，提出了一种新的基于散列的二维空间嵌入和尺度嵌入来支持多尺度表示中的位置嵌入。实验结果验证了我们的方法可以在多个大规模IQA数据集上实现最先进的性能，例如PaQ-2-PiQ [41]，SPAQ [11]和KonIQ-10 k [16]。11. 介绍图像质量评估（IQA）的目标是量化图像的感知质量在深度学习时代，许多IQA方法[11，33，34，41，47]通过利用卷积神经网络（CNN）的力量取得了重大成功。然而，基于CNN的IQA模型通常受到批量训练中的固定大小输入要求的约束，即，需要将输入图像调整大小或裁剪成如图1（b）所示的固定形状。这种预处理对于IQA来说是有问题的，因为野外的图像调整大小和裁剪可能会影响图像合成或引入失真，从而改变图像的质量。为了在全尺寸图像上学习IQA，现有的基于CNN的方法使用自适应池化或调整大小来获得固定大小的卷积特征图。[24]第二十四话1 检查点和代码可在 www.example.com 上获得https://github.com/google-research/google-research/tree/master/musiq图1.在基于CNN的模型（b）中，图像需要调整大小或裁剪为固定形状以进行批量训练。然而，这种预处理可以改变图像的纵横比和组成，从而影响图像质量。我们的基于块的MUSIQ模型（a）可以处理全尺寸图像并提取与人类视觉系统一致的多尺度特征。在每个训练批次中处理单个图像，这对于在大数据集上训练是Hosu等人。[15]离线提取和存储固定大小的特征，这需要为每个增强图像增加额外的存储空间。为了保持期望比，Chen等。[7]提出了一种专用卷积，以保持卷积感受野中的纵横比。它的评估验证了高宽比保持（ARP）的IQA任务的重要性。但它仍然需要调整大小和智能分组，以实现有效的批量训练。在本文中，我们提出了一种基于补丁的多尺度图像质量Transformer（MUSIQ），以绕过固定输入大小的CNN约束，并有效地预测原生分辨率图像的质量，如图1（a）所示。Transformer [36]首次提出用于自然语言处理（NLP），最近已被研究用于各种视觉任务[4其中，Vision Transformer（ViT）[10]将每个图像分割成一系列固定大小的补丁，将每个补丁编码为令牌，然后应用于5149×对变换后的序列进行图像分类.理论上，这种基于补丁的Transformer模型可以处理任意数量的补丁（直到内存约束），因此不需要将输入图像预处理到固定分辨率。这促使我们将基于补丁的Transformer应用于以全尺寸图像作为输入的IQA任务改进IQA模型的另一个方面是模仿以多尺度方式捕获图像的人类视觉系统[1]。先前的工作[15，21，46]已经示出了使用从不同深度的CNN特征图提取的多尺度特征的益处。这启发我们将原生分辨率图像变换为多尺度表示，使得Transformer的自注意机制能够捕获关于细粒度详细补丁和粗粒度全局补丁的此外，与具有相对有限的感受野的CNN中的卷积运算不同，自注意力可以关注整个输入序列，因此可以有效地捕获不同粒度的图像质量。然而，在多纵横比多尺度输入上应用变换器并不简单。尽管自注意接受任意长度的输入序列，但它是置换不变的，因此不能捕获图像中的斑块位置。为了减轻这种情况，ViT [10]添加了固定长度的位置嵌入来编码图像中每个补丁的绝对位置。然而，当输入长度变化时，固定长度位置编码失败为了解决这个问题，我们提出了一种新的基于哈希的2D空间嵌入，它将补丁位置映射到一个固定的网格，以有效地处理具有任意纵横比和分辨率的图像。此外，由于每个尺度下的块位置被散列到相同的网格，因此它在不同尺度下对齐空间上接近的块，使得Transformer模型可以跨多个尺度利用信息。除了空间嵌入之外，还引入单独的尺度嵌入以帮助变换器区分来自多尺度表示中的不同尺度的块。本文的主要贡献可归纳为三个方面：我们提出了一个基于块的多尺度图像质量Transformer（MUSIQ），它支持处理全尺寸输入与不同的纵横比或分辨率，并允许多尺度特征提取。提出了一种新的基于散列的2D空间嵌入和尺度嵌入，以支持多尺度表示中的位置编码，帮助Transformer捕获跨空间和尺度的信息。我们将MUSIQ应用于四个大型IQA数据集。它始终在三个技术质量数据集上实现最先进的性能：PaQ-2-PiQ [41]，KonIQ-10 k [16]和SPAQ [11]，并与美学质量数据集AVA [29]的最新技术水平相当。2. 相关工作图像质量评估。图像质量评估旨在定量预测感知图像质量。评估图像质量有两个重要方面：技术质量[16]和美学质量[29]。前者侧重于感性失真，后者还涉及到图像构成、艺术价值等方面。在过去的几年里，研究人员提出了许多IQA方法：早期的基于自然场景统计的[13，25，27，45]，基于码本[38，40]和基于CNN [11，33，34，41，47]。基于CNN的方法实现了最先进的性能。然而，在批量训练中通常需要将图像裁剪或调整大小为固定大小，这影响了图像质量。已经提出了几种方法来减轻基于CNN的IQA中的大小调整和裁剪的失真。来自原始图像的多作物的集合被证明对于IQA是有效的[7，15，23，32，33]，但它引入了不可忽略的推理成本。此外，MNA-CNN [24]通过自适应地将特征图池化为固定形状来处理全尺寸输入。然而，它只接受一个单一的输入图像为每个训练批次，以保持原始的分辨率，这是没有效率的大规模训练。Hosu等人[15]从用于模型训练的全尺寸图像中提取并存储固定尺寸的特征，这对于每个增强图像都需要额外的存储，并且对于大规模训练是低效的Chen等人[7]提出了一种自适应分数扩张卷积，以根据图像纵横比调整感受野该方法保留纵横比，但不能处理不调整大小的全尺寸输入在小批量训练中还需要灵活的分组策略变形金刚在视觉上Transformer [36]首先应用于NLP任务并取得了很好的性能[9，22、39]。最近的工作将变压器应用于各种视觉任务[4其中，Vision Transformer（ViT）[10]采用纯Transformer架构，通过将图像视为一系列补丁来对图像进行分类。对于批量训练，ViT将输入图像的大小调整为固定的平方大小，224，其中提取固定数量的补片并与固定长度的位置嵌入组合这限制了其用于IQA，因为调整大小将影响图像质量。为了解决这个问题，我们提出了一种新的基于Transformer的架构，它可以接受IQA的全尺寸图像。位置嵌入。在Transformer中引入了位置嵌入来对输入序列的顺序进行编码[36]。没有它，自注意操作是置换不变的[2]。Vaswani等人[36]使用从正弦曲线生成的确定性位置嵌入···5150图2. MUSIQ模型概述。我们构建了一个多尺度的图像表示作为输入，包括本地分辨率的图像和ARP大小调整的变体。每个图像被分割成固定大小的补丁，这些补丁由补丁编码模块（蓝色框）嵌入。为了捕获图像的2D结构并处理不同纵横比的图像，通过在可学习嵌入（红色框）的网格内对补丁位置（i，j）到（ti，tj）进行散列来编码空间嵌入。引入比例嵌入（绿色框）以捕获比例信息。Transformer编码器获取输入令牌并执行多头自注意。为了预测图像质量，我们遵循Transformers中的常见策略，将[CLS]令牌添加到序列中以表示整个多尺度输入，并使用相应的Transformer输出作为最终表示。功能协调发展的ViT [10]表明，确定性和可学习的位置嵌入[12]同样有效。然而，这些位置嵌入是针对固定长度的序列生成的.当输入分辨率改变时，预先训练的位置嵌入不再有意义。提出了相对位置嵌入[2，31尽管相对位置嵌入可以用于可变长度输入，但它需要Transformer注意力的实质性修改，并且在我们的用例中不能捕获多尺度3. 多尺度图像质量Transformer3.1. 整体架构为了解决在全尺寸图像上学习IQA的挑战，我们提出了一种多尺度图像质量Transformer（MUSIQ），它可以处理任意纵横比和分辨率的输入。该模型的概述如图2所示。我们首先对输入图像进行多尺度表示，包含原生分辨率图像及其ARP大小调整的变体。不同尺度的图像被分割成固定大小的块并馈送到模型中。由于补丁来自不同分辨率的图像，因此我们需要将多宽高比多尺度输入有效地编码为令牌序列（图2中的小框），从而捕获像素、空间和尺度信息。为了实现这一点，我们在MUSIQ中设计了三个编码组件，包括：1）用于对从多尺度表示提取的块进行编码的块编码模块（第3.2节）; 2）用于对每个块的2D空间位置进行编码的新颖的基于散列的空间嵌入模块（第3.3节）; 3）用于对不同尺度进行编码的可学习尺度嵌入（第3.4节）。在将多尺度输入编码成令牌序列之后，我们使用预先放置可学习的“分类令牌 ”（ CLS ）的标准方法Transformer编码器输出端的CLS令牌状态用作最终图像表示。然后，我们将一个完整的5151K≤×PP××∈Ij在顶部连接层以预测图像质量得分。由于MUSIQ仅更改输入编码，因此它与任何Transformer变体兼容。为了证明所提出的方法的有效性，我们使用具有相对轻量级设置的经典Trans- former [36]（附录A），以使模型大小与我们的实验中的ResNet-50相当。3.2. 多尺度贴片嵌入图像质量受局部细节和全局组成的影响为了同时捕捉全局和局部信息，我们建议用多尺度表示对输入图像进行建模。来自不同尺度的补丁使Transformer能够聚合跨多个尺度和空间位置的信息如图2中所示，多尺度输入由具有高度H、宽度W、通道C的全尺寸图像以及使用高斯核来自全尺寸图像的ARP调整大小的图像的序列组成。经调整大小的图像具有高度hk、宽度wk、通道C，其中k=l，…K和K是每个输入的已调整大小的变量的数量要对齐重新-对于一致的全局视图，我们将每个调整大小的变体的较长边长度固定为Lk，并产生：αk=Lk/max（H，W），hk=αk H，wk=αk W（1）αk表示每个尺度的调整因子。在多尺度表示中，从每个图像中提取大小为P的正方形块。对于宽度或高度不是P的倍数的图像，我们相应地用零填充图像。每个补丁由补丁编码器模块编码成D维嵌入。D是Transformer中使用的潜在令牌大小。代替如[10]中那样使用线性投影对补丁进行编码，我们选择具有大小为D的完全连接层的5层ResNet [14]作为补丁编码器模块来学习输入补丁的更好表示。我们发现，当在ILSVRC上进行预训练时，用几个卷积层对补丁进行编码比线性投影其将在Transformer中用于执行掩蔽的自我注意（附录A.3）。注意，填充操作将不会改变输入，因为填充令牌在多头注意中通过掩蔽它们而被忽略。如前所述，对于每个调整大小的变体，我们将较长的长度固定为Lk。因此nkL2/P2=mk，我们可以安全地填充到mk。对于天然分辨率图像，我们简单地将序列填充或切割为固定长度l。在单输入求值期间，不需要填充因为序列长度可以是任意的。3.3. 基于Hash的二维空间嵌入空间位置嵌入在视觉变换器中很重要，以在1D序列输入中注入2D图像结构的意识[10]。传统的固定长度位置嵌入为每个输入位置分配嵌入。这对于其中块的数量不同的可变输入分辨率是失败的，并且因此序列中的每个块可以来自图像中的任意位置。此外，传统的位置嵌入模型的每个位置独立，因此它不能对齐的空间上接近的补丁从不同的尺度。我们认为，MUSIQ的有效空间嵌入设计应满足以下要求：1）在不同纵横比和输入分辨率下有效地编码块空间信息; 2）在不同尺度下的空间上接近的斑块应该具有接近的空间嵌入; 3）高效且易于实现，对跨型者的注意力无干扰。在此基础上，我们提出了一种新的基于散列的二维空间嵌入（HSE），其中位于行i，列j的补丁被散列到相应的元素在一个G G网格。网格中的每个元素都是D维嵌入。我们通过可学习矩阵TRG×G ×D定义HSE。假设输入分辨率为H W。输入图像将被分割成H-W块。对于位置（i，j）上的面片，其空间嵌入由元素定义在T中的位置（ti，ti）处，其中2012 ImageNet [30]（参见第4.4节）。由于补丁编码模块是轻量级的，并且在所有输入中共享t=i×G，tH/P=j×GW/P（二）对于大小P较小的块，它仅添加少量参数。从补丁编码器模块输出的补丁嵌入序列被连接在一起以形成用于输入图像的多尺度嵌入序列来自原始图像和经调整大小的图像的块的数目被计算为N=HW/P2和nk=hkwk/P2。由于每个输入图像具有不同的分辨率，并且pect ratio、H和W对于每个输入是不同的，并且因此N和nk是不同的。为了在训练过程中获得固定长度的输入，我们遵循NLP [36]中的常见做法，将编码的补丁令牌零填充为相同的长度。附加输入掩码以指示有效输入，如图2所示，将D维空间嵌入Tti，ti，j逐元素地添加到贴片嵌入。为了快速查找，我们简单地将（ti，tj）舍入到最近的整数。HSE不要求对Transformer注意模块进行任何更改此外，t i和t j的计算以及查找都是轻量级的并且易于实现。为了跨尺度对齐面片，来自所有尺度的面片位置被映射到相同的网格T。因此，在图像中接近但来自不同尺度的块被映射到T中的空间接近嵌入，因为i和H以及j和W与调整大小因子α成比例地改变。这实现了跨来自多尺度表示的不同图像的空间对准。5152∈∈∈i=1NppR1Σ在选择散列网格大小G的情况下，在表现力和训练能力之间存在折衷。较小的G可能导致斑块之间的大量碰撞，这使得模型无法区分空间上接近的斑块。大G浪费内存，可能需要更多样化的分辨率来训练。在我们的IQA设置中，粗略的位置信息是足够的，我们发现一旦G足够大，改变G只会导致很小的性能差异（见附录B）。我们在实验中设置G=103.4. 尺度嵌入由于我们对所有图像重复使用相同的哈希矩阵，HSE不会区分不同尺度的补丁。因此，我们引入了一个额外的规模嵌入（SCE），以帮助模型有效地区分来自不同尺度的信息，更好地利用跨尺度的信息。换句话说，SCE标记了在多尺度表示中补丁来自哪个输入尺度。我们定义SCE为一个可学习的尺度嵌入QR（K+1）×D的输入图像与K-尺度大小的变量。在空间嵌入之后，将第一元素QqRD逐元素地添加到来自原始分辨率图像的所有DQ kRD，k=1，...，K也被逐元素地添加到来自尺度k处的经调整大小的图像的所有块嵌入。3.5. 预训练和微调通常，Transformer模型需要在大型数据集上进行预训练，例如ImageNet，并对下游任务进行了微调。在预训练期间，我们仍然保持随机裁剪作为增强，以生成不同大小的图像。然而，而不是像图像分类中的常见做法那样进行方形调整大小，我们有意地跳过调整大小以针对具有不同分辨率和宽高比的输入来准备模型我们还采用了常见的增强，如 RandAugment [8] 和mixup[44]在训练前。当微调IQA任务时，我们不调整输入图像的大小或裁剪输入图像以保留图像组成和纵横比。事实上，我们只使用随机水平翻转来进行微调。对于评估，我们的方法可以直接应用于原始图像，而无需对多个增强（例如，多作物取样）。在对IQA数据集进行微调时，我们使用常见的回归损失，例如单个平均意见得分（MOS）的L1损失和地球移动距离（EMD）损失。dict质量分数分布[34]：ND=（|CDF （ m ） −CDF （ m ）|r）1（三）m=14. 实验结果4.1. 数据集我们在四个大规模图像质量数据集上运行实验，包括三个技术质量数据集（PaQ-2- PiQ [41]，SPAQ [11]，KonIQ-10 k [16] ）和一个美学质量数据集（ AVA[29]）。PaQ-2-PiQ是迄今为止最大的图片技术质量每个图像或块与MOS相关联。由于我们的模型不区分图像和提取的补丁，我们简单地使用所有30k全尺寸图像和来自训练分割的相应90k补丁来训练模型。然后，我们在7.7k全尺寸验证和1.8k测试集上运行评估。SPAQ数据集由66部智能手机拍摄的11k张图片组成为了公平比较，我们按照[11]调整原始图像的大小，使短边为512。我们只使用图像及其对应的MOS进行训练，而不包括数据集中的额外标签信息。KonIQ-10 k包含从大型公共多媒体数据库YFCC 100M中选择的10 k图像[35]。AVA是图像美学评估数据集。它包含250k图像，每个图像具有10级分数分布。对于KonIQ-10 k，我们按照[33，48]对每次运行随机采样80%的图像，并报告剩余20%的结果。对于其他数据集，我们使用与以前文献相同的分割。4.2. 实现细节对于MUSIQ，默认情况下，多尺度表示被构造为原生分辨率图像和两个ARP调整大小的输入（ L1=224和L2=384）。因此，它使用3级输入。我们的方法也适用于1尺度输入，只使用全尺寸图像，而不使用调整大小的变体。我们将这种单尺度设置的结果报告为MUSIQ单。我们使用补丁大小P=32。变换器输入标记的尺寸为D=384，这也是像素块嵌入、HSE和SCE的尺寸。HSE的网格大小设置为 G=10 。我们使用经典的 Trans-former [36]，具有轻量级参数（384隐藏大小，14层，1152 MLP大小和6个头），使模型大小与ResNet-50相当。最终模型有大约2700万个总参数。我们在ImageNet上对模型进行了300个epochs的预训练，使用Adam，β1=0。9，β2=0。999，批次大小为4096，0. 1权重衰减和余弦学习率从0. 001。我们在训练中将全尺寸图像l的最大补丁数量设置为512。对于微调，我们使用带有动量和余弦学习率衰减的SGD从0. 0002，0。0001，0。0001，0。10、30、30、20个时期的12个其中p分别是PaQ-2-PiQ、KonIQ-10 k、SPAQ和AVA上的归一化分数分布和CDFp（m）是累积分布函数，皮岛AVA的批量设置为512， KonIQ-10 k的批量设置为96，以及5153验证集测试集方法SRCCPLCCSRCCPLCC法国[25]0.3030.3410.2880.373[26]第二十六话0.0940.1310.2110.288CNNIQA [17]0.2590.2420.2660.223NIMA [34]0.5210.6090.5830.639Ying等人[41个]0.5620.6490.6010.685MUSIQ-单0.5630.6510.6400.721MUSIQ（我们的）0.5660.6610.6460.739STD± 0。002± 0。003± 0。005± 0。006表1. PaQ-2-PiQ全尺寸确认和测试集的结果。蓝色和黑色粗体数字分别代表最佳和次参考方法的结果取自[41方法SRCCPLCC法国[25]0.6650.681ILNIQE [45]0.5070.523HOSA [37]0.6710.694BIECON [18]0.6180.651WaDIQaM [3]0.7970.805PQR [42]0.8800.884SFA [20]0.8560.872DBCNN [47]0.8750.884MetaIQA [48]0.8500.887BIQA [33]（25crops）0.9060.917MUSIQ-单0.9050.919MUSIQ（我们的）0.9160.928STD± 0。002± 0。003表2. KonIQ-10 k数据集上的结果。蓝色和黑色粗体数字分别代表最佳和次佳。我们从[33，48]中取数字作为参考方法的结果。剩下的128对于AVA，我们使用r=2的EMD损失。对于其他数据集，我们使用L1损失。模型在TPUv3上训练。我们的方法的所有结果在10次运行中取平均值。报告 Spearman 秩序相关（ SRCC ）、 Pearson 线性相关（ PLCC ）和标准差（std）4.3. 与最新技术水平（SOTA）的比较PaQ-2-PiQ的结果。表1显示了PaQ-2-PiQ数据集的结果。我们提出的MUSIQ优于其他方法的验证和测试集。值得注意的是，测试集完全由至少一个维度超过640的图片组成[41]。这对于传统的深度学习方法来说是非常具有挑战性的，在传统的深度学习方法中，调整大小是不可避免的。我们的方法是能够优于以前的方法的大幅度全尺寸的测试集，验证了其鲁棒性和有效性。KonIQ-10 k的结果。表2显示了KonIQ-10 k数据集的结果。我们的方法优于SOTA方法。特别是，BIQA [33]需要在训练和测试期间从每个图像中采样25这种多裁剪集合是减轻CNN模型中的固定形状约束的一种方式。但由于每种作物表3.SPAQ数据集上的结果蓝色和黑色粗体数字分别代表最佳和次佳。我们从[11]中取数字作为参考方法的结果。Zeng等人（ResNet101）[43]Hosu等人[15]（20茬）0.817-0.756 0.757AFDC + SPP（单经纱）[7] 0.8300.273 0.648AFDC + SPP（4经）[7]0.8320.271 0.649 0.671MUSIQ-单0.8140.2470.719 0.731MUSIQ（我们的）0.8150.242 0.726 0.738标准值±0。121±0。001±0。001±0。001表4.AVA数据集的结果蓝色和黑色粗体数字分别代表最佳和次佳。cls acc.表示分类精度。MSE代表均方误差。我们从[7]中取数字作为参考方法的结果。整个图像的子视图，但总体仍然是近似的方法。此外，它为每种作物增加了额外的推理成本，并且抽样可能在结果中引入由于MUSIQ将全尺寸图像作为输入，因此它可以直接学习整个图像中的最佳信息聚合SPAQ上的结果。表3显示了SPAQ数据集的结果。总的来说，我们的模型是能够优于其他方法的SRCC和PLCC。AVA的结果。表4显示了AVA数据集的结果。我们的方法实现了最好的 MSE ，并具有顶级的 SRCC 和PLCC。如前所述，我们的模型可以通过直接查看全尺寸图像来准确预测图像美学，而不是多作物采样4.4. 消融研究保持平均速率（ARP）的重要性。基于CNN的IQA模型通常将输入图像的大小调整为正方形分辨率，而不保留原始纵横比。我们认为，这样的预处理可能是有害的IQA，因为它改变了图像的组成。为了证实这一点，我们方法SRCCPLCC[27]第二十七话0.5990.600法国[25]0.8090.817科尼亚[40]0.7090.725质保局[38]0.0920.497ILNIQE [45]0.7130.721FRIQUEE [13]0.8190.830DBCNN [47]0.9110.915Fang等人[11]（无额外信息）0.9080.909MUSIQ-单0.9170.920MUSIQ（我们的）0.9170.921STD± 0。002± 0。002方法cls acc.MSE↓SRCCPLCC[24]第二十四话0.765---Kong等人[19个]0.773-0.558-AMP [28]0.8030.2790.709-[23]第二十三话0.825---[34]第0.806-0.5920.610NIMA（Inception-v2）[34]0.815-0.6120.636MPada[32]（≥32个作物）0.8300.808-0.275-0.719-0.7205154method #参数SRCC PLCCNIMA（Inception-v2）[34]（224平方输入） 56M 0.612 0.636NIMA（ResNet50）*（384平方输入）24M 0.624 0.632ViT-Base 32*（384平方输入）[10]88M0.654 0.664ViT-Small 32*（384平方输入）[10]22M0.656 0.665MUSIQ，带方形调整（512、384、224）27M0.706 0.720MUSIQ，带ARP大小调整（512、384、224）27M0.712 0.726MUSIQ，带ARP调整大小（完整、384、224）27M0.726 0.738表5.AVA数据集上ARP大小调整和方形大小调整的比较* 意味着我们的执行。ViT-Small* 是通过将ViT中的Transformer主干替换为我们的384-dim轻量级Transformer而构建的。最后一组行显示了我们的方法和不同的递归方法。括号中的数字显示多尺度表示中使用的分辨率。图3.为调整大小为不同纵横比的图像进行模型预测。蓝色曲线显示了具有ARP大小调整的MUSIQ绿色曲线显示我们的模型使用平方输入进行训练和评估。橙色和红色曲线显示了具有方形输入的ViT和ResNet-50。MUSIQ可以检测由于不自然的大小调整而导致的质量劣化，而其他方法不敏感。将所提出的模型的性能与square或ARP进行比较。如表5所示，ARP调整大小的性能优于方形调整大小，证明了评估图像质量时ARP的重要性。为了直观地理解在IQA中保持长宽比的重要性，我们按照[7]人为地将同一图像调整为不同的长宽比，并运行模型来预测质量分数。由于激进的调整大小会导致图像质量下降，一个好的IQA模型应该给这样的不自然的图像较低的分数。如图3所示，MUSIQ（蓝色曲线）对纵横比的变化具有区分性，而来自使用方形调整大小训练的其他分数对变化不敏感。这表明ARP调整大小是重要的，并且MUSIQ可以有效地检测由于调整大小而导致的质量降级。全尺寸输入效应与多尺度输入组合在表1 2 3 4中，我们仅使用全尺寸输入（MUSIQ单）和多尺度输入（MUSIQ）进行比较。MUSIQ-single取得了令人鼓舞的结果，显示了在IQA中保留全尺寸输入的重要性。性能进一步提高使用多多尺度合成(224)0.600 0.667(384)0.618 0.695（512）0.6200.691(384、224）0.6200.707(512，384，224）0.6290.718（满）0.6400.721(full、224）0.6430.726(full，384）0.6420.730(full，384，224）0.6460.739平均集合（完整），（224），（384）0.640 0.710表6.PaQ-2-PiQ全尺寸测试集上多尺度表征组成的比较多尺度表示由括号中所示的分辨率组成。括号中的数字指示用于ARP调整大小的较长边长L。图4.从输出标记到多尺度表示（原始分辨率图像和两个ARP调整大小的变体）的注意力可视化。请注意，这里的图像被调整大小以适应网格，模型输入是3种不同的分辨率。该模型在高分辨率图像中关注细节，在低分辨率图像中关注全局。在PaQ-2-PiQ和AVA上的分辨率和增益更大，因为这两个数据集具有比KonIQ-10 k和SPAQ更多样化的分辨率这表明多尺度对于有效地捕获具有不同尺寸的真实世界图像上的质量信息我们还改变了多尺度组成，并在表6中显示，多尺度一致地提高了单尺度模型的性能。多尺度的性能增益大于单个尺度的简单集合，因为单个尺度的平均集合实际上仅使用全尺寸图像表现不佳。由于MUSIQ具有多尺度输入序列的完全接收域，因此它可以更有效地跨尺度聚合质量信息。5155×空间嵌入SRCCPLCCW/O0.7040.716固定长度（无HSE）0.7070.722HSE0.7260.738图5. G= 10的基于散列的2D空间嵌入的网格的可视化。每个子图（i，j）的大小为G G，显示了Ti，j与T中每个元素之间的余弦相似性。不同G的可视化可参见附录B.3。为了进一步验证模型在不同尺度下捕获不同信息，我们将多尺度表示中的每个图像上的注意力权重可视化为图4。我们观察到，该模型倾向于关注全尺寸高分辨率图像上更详细的区域，以及调整大小的图像上更全局的区域。这表明该模型学习以不同的粒度捕获图像质量。建议的基于散列的空间嵌入（HSE）和规模嵌入（SCE）的有效性。我们使用位置嵌入对空间信息和尺度信息进行编码的不同方式进行了烧蚀。如表7所示，在添加和不添加空间嵌入之间存在很大的差距。这与中[10]空间嵌入对于注入2D图像结构是至关重要。为了进一步验证HSE的有效性，我们尝试添加固定长度的空间嵌入作为ViT [10]。这是通过将所有输入标记视为固定长度序列并为每个位置分配可学习的嵌入来与HSE相比，该方法的性能不令人满意，原因有两个：1）输入具有不同的纵横比。因此，序列中的每个补丁可以来自图像的不同位置。固定位置嵌入无法捕捉这种变化; 2）由于每个位置被独立地建模，因此不存在跨尺度信息，这意味着模型不能定位来自多尺度表示中的不同尺度的空间上接近的片。此外，该方法是不灵活的，因为固定长度的空间嵌入不能容易地应用于具有更多块的大图像。相反，HSE在任何情况下都有意义。学习的HSE余弦相似性的可视化被提供为图5。如图所示，空间上接近的位置的HSE更相似（黄色），并且它很好地对应于2D结构。例如底部表7.AVA空间包埋的消融研究结果对于尺度嵌入SRCCPLCCW/O0.7170.729w/0.7260.738表8.AVA上鳞片嵌入的消融研究结果#参数SRCCPLCC线性投影22M 0.634 0.714简单转换23 M 0.639 0.7265层ResNet 27M0.646 0.739表9.PaQ- 2-PiQ全尺寸测试集上不同补丁编码模块的比较对于简单的conv，我们使用ResNet的根（一个7x7的conv，后面是一个3x3的conv）。对于5层ResNet，我们将残差块堆叠在Simple Conv之上。HSE在底部最亮。这表明HSE可以有效地捕获图像的2D结构。在表8中，我们表明，与不添加SCE相比，添加SCE可以进一步提高性能。这表明SCE有助于模型独立于空间信息捕获尺度信息。补丁编码模块的选择我们尝试了不同的设计来编码补丁，包括线性投影[10]和少量的卷积层。如表9所示，使用简单的基于卷积的补丁编码模块可以提高性能。添加更多的conv层具有递减的收益，我们发现5层ResNet可以为补丁提供令人满意的表示。5. 结论我们提出了一个多尺度的图像质量 Transformer（MUSIQ），它可以处理不同的分辨率和纵横比的全尺寸图像输入。通过将输入图像转换为具有全局和局部视图的多尺度表示，该模型能够以不同的为了在多尺度表示中编码位置信息，我们提出了基于散列的2D空间嵌入和尺度嵌入策略。虽然MUSIQ是为IQA设计的，但它可以可以应用于任务标签对图像分辨率和宽高比敏感的其它情况。此外，MUSIQ与接受作为令牌序列的输入的任何类型的Transformer兼容。在4个大规模IQA数据集上的实验表明，MUSIQ算法能够稳定地达到最佳性能，证明了该方法的有效性。5156引用[1] Edward H Adelson ， Charles H Anderson ， James RBergen，Peter J Burt，and Joan M Ogden.图像处理中的金字塔方法RCA工程师，29（6）：33-41，1984。2[2] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens ， and Quoc V Le. 注意力增强卷积网络。在IEEE/CVF计算机视觉国际会议论文集，第3286-3295页，2019年。二、三[3] SebastianBosse，DominiqueManiry，Klaus-RobertMüller，Thomas Wiegand，and Wojciech Samek.深度神经网络用于无参考和全参考图像质量评估。IEEE Transactions on Image Processing，27（1）：206-219，2017。6[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。一、二[5] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。arXiv预印本arXiv：2012.00364，2020。[6] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。在Hal Daume III和Aarti Singh编辑的第37届国际机器学习会议论文集，第 119 卷，第 1691-1703 页。PMLR，2020年7月13日至18日。一、二[7] Qiuyu Chen ，Wei Zhang ，Ning Zhou，Peng Lei，YiXu，Yu Zheng，and Jianping Fan.用于图像美学评价的自适应分数扩张在IEEE/CVF计算机视觉和模式识别会议的论文集，第14114-14123页，2020年。一、二、六、七[8] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第702-703页，2020年。5[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在Jill Burstein，Christy Doran和Thamar Solorio，编辑，2019年计算语言学协会北美分会会议论文集：人类语言技术，NAACL-HLT 2019，明尼阿波利斯，MN，美国，2019年6月2日至7日，第1卷（长论文和短论文），第4171- 4186 页计算语言学协会， 2019 年。 doi ：10.18653/v1/n19-1423。二、三[10] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在2021年学习代表国际会议上。网址https://openreview.net/论坛？id=YicbFdNTTY。一二三四七八[11] Yuming Fang，Hanwei Zhu，Yan Zeng，

下载后可阅读完整内容，剩余1页未读，立即下载