通用图像质量增强的N阶迭代退化

26 浏览量更新于2023-10-25 收藏 15.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

20770GIQE: 通用图像质量增强的 N 阶迭代退化0Pranjay Shyam 1 , Kyung-Soo Kim 1 � , and Kuk-Jin Yoon 2* 1 Mechatronics,Systems, and Control Laboratory, 2 Visual Intelligence LaboratoryDepartment of Mechanical Engineering, KAIST, Republic of Korea0{ pranjayshyam, kyungsookim, kjyoon } @kaist.ac.kr0摘要0由于运动模糊、雨滴、雨、雪、光照和雾等视觉退化会降低图像质量，进而影响在户外条件下部署的感知算法的性能。虽然已经广泛研究了特定于退化的图像恢复技术，但这些算法对领域敏感，在存在多种退化同时存在的实际场景中无法很好地工作。这为盲目图像恢复和重建算法提供了实际相关性。然而，缺乏一个足够多样化以涵盖所有变化的数据集阻碍了这种算法的开发。在本文中，我们利用一个合成的退化模型，递归地应用一组随机退化来生成具有不同复杂性的自然退化图像，并将其用作输入。此外，由于退化的强度在图像中可能会有所变化，空间不变的卷积滤波器无法适用于所有退化。因此，为了实现图像恢复和重建过程中的空间变化，我们设计了一个基于Transformer的架构，以利用长程依赖性。此外，为了降低Transformer的计算成本，我们提出了一个多分支结构，结合了一些修改，如互补特征选择机制和用轻量级多尺度卷积替代前馈网络。最后，为了改善恢复和重建效果，我们集成了一个辅助解码器分支来预测退化掩模，以确保底层网络能够定位退化信息。通过对涵盖去雨滴去雨去雾图像增强和去模糊的10个数据集进行实证分析，我们证明了所提方法的有效性，并获得了技术水平的性能。01. 引言0图像质量在基于视觉的算法（如目标检测、语义分割等）的性能中起着重要作用。0* 共同通讯作者，按字母顺序排列。0(a) (b) (c) (d) (e)0图1. 由提出的 N阶退化生成的图像（顶部），以及给定输入的相应空间失真掩模（底部），其中（a）是自然雨滴和合成的（b）运动模糊，（c）雪，（d）雨和（e）雨夹雪。0检测、语义分割、深度估计等任务对图像质量要求较高。因此，受到运动模糊、光照变化、雨、雾、雪和水滴等环境退化的影响，图像的性能会下降[22,31]。尽管退化的性质各不相同，但可以使用基于掩模的通用方法来建模，因为它们会影响图像的空间特性以降低其质量。然而，由于退化的强度和组合可能是非均匀的，某些区域受到的影响会比其他区域更大。因此，通用的图像恢复算法应该能够定位并对空间变化的退化具有鲁棒性。虽然感知算法可以通过扩展训练数据集[25, 37, 43,46]或利用恢复算法作为预处理步骤[15, 24,40]生成清晰图像，从而使其对各种天气条件具有鲁棒性。然而，这些方法存在一些缺点，因为构建一个足够多样化以涵盖所有变化的高级感知标注数据集是耗时且昂贵的。相比之下，图像恢复算法目前是特定于退化的（去雾、去雨、去雪等），在训练集分布之外的情况下表现不佳[11, 16, 42,44]。此外，由于现有技术水平的图像恢复算法是基于卷积神经网络（CNN）构建的，使用相同的卷积滤波器对整个特征进行处理会导致恢复效果较差，因为图像中存在多个空间变化的退化同时发生。20780然而，从实际角度来看，拥有通用的图像恢复算法将非常理想，因为它将避免扩展数据集以使其对环境变化具有鲁棒性。因此，在本文中，我们将焦点放在盲目图像恢复作为预处理步骤上，以确保感知算法在不同环境条件下具有稳健的性能。0由于CNN无法捕捉长距离依赖关系，并且它们的固定卷积滤波器不适用于不同的降解，因此无法使用标准卷积滤波器。最近，提出了Swin Transformer[28]，它可以利用CNN和Transformer的优势。从分类上来说，它们分别通过移位窗口方案处理大图像分辨率和捕捉长距离依赖关系的能力，为利用这种机制开发通用图像恢复和重建算法提供了机会。然而，简单地用Transformer模块替换卷积块会导致冗余计算大幅增加。因此，在其当前形式下，它们不能用于处理退化图像。因此，为了降低计算成本而不降低性能效果，我们提出了一个多尺度架构，从不同尺度提取代表不同特征粒度的特征，并在每个尺度上使用不同重复次数的Transformer模块。具体而言，我们使用CSWin[8]，其中通过使用水平和垂直条纹来减少自注意力的计算。在实验中，我们观察到简单地连接水平和垂直滤波器提取的特征效率低下。相反，我们提出了一个特征选择模块（FSM），它聚合相关特征并抑制不相关的特征。由于我们处理图像恢复，我们观察到自注意机制会导致高计算成本，这在高级感知任务中由于缺少解码器块或利用空间大的特征图而不会观察到。为了克服这一问题，我们提出了一种空间压缩机制来替代多头注意力。0虽然图像恢复是一个广泛研究的主题，但之前的工作未充分利用成对样本提出了一个端到端的架构。具体而言，没有利用表示受影响像素位置的空间失真掩码。我们强调，在训练期间设计恢复算法，同时预测空间失真掩码作为辅助输出，将有助于网络识别受影响的位置。在训练和评估实际图像恢复算法时面临的挑战之一是缺乏具有多个共同降解的成对数据集，包括运动模糊、光照变化、雾、雨和水滴。因此，我们利用Cityscapes[7]及其包含雾[39]和雨[17]降解的合成变体进行训练和评估恢复质量以及其对下游任务的影响。0例如语义分割。我们利用Pix2PixHD[48]考虑了水滴引起的扭曲。我们总结如下贡献：0•我们提出了一种能够恢复受盲目失真组合影响的图像恢复和重建架构。0•为了确保降解能够准确定位，我们集成了一个辅助降解预0•为了实现逼真的失真，我们提出了一个N阶降解模型，递归应用一组降解。0•我们提出了一个特征选择模块和空间压缩机制，以减少CSWin Transformer模块的计算量。0•我们研究了图像恢复对于扩展训练在下游任务中的影响，以实现稳健的性能。02. 相关工作02.1. 图像恢复和增强0图像恢复和增强是极具研究价值的领域，不同的方法被开发出来独立地恢复受到不同退化影响的图像，如不同的照明条件[19, 47]、运动模糊[23, 26, 54, 55]、雨[14, 36]、雾[9,20, 35, 42,51]和雨滴[34]。当前的SoTA假设关于退化的先验信息，因此通过遵循模型为基础的多阶段方法[2, 57]或端到端方法[1,4,13]直接生成恢复图像来恢复退化图像。然而，在实际场景中，这些退化的未知组合可能会影响图像，从而对恢复算法的性能产生不利影响，这是非常不希望的。为每个算法设计一个独特的算法的当前方法效率低下，因此鼓励研究人员探索具有共同恢复架构的可能性。为实现这一目标，[53]提出了多尺度级联CNN，并展示了相同架构在多个恢复和重建任务（如图像增强、超分辨率和图像去噪）中的性能。然而，它仍然针对有限的场景进行训练，因此当测试集的分布与训练集不同时，或者测试退化不在训练集中时，其性能表现不佳。在类似的动机下，[11]提出了一种无监督的方法，通过将图像分解为干净和噪声潜空间来生成噪声图像，然后恢复它们。20790是0输入特征图0无上采样0上采样0P(0.2)0P(0.2)0P(0.6)0运动模糊雾0雪0雨0照明0水滴0剪切混合0复制混合0无0重复0多0头部自注意力0Q0V0K0卷积/池化0� ��阶迭代退化0FSM0输入0� × � × 30DW0� 4 04 × � 10DW0� 8 08 × � 20DW0� 16 016 × � 30变压器0块 × � 10变压器0块 × � 20变压器0块 × � 30输出图像 � × �× 30上采样0DW - 深度可分离卷积 FSM -特征选择模块0局部退化0退化掩膜0� × � × 10上采样0空间压缩机制0全局退化0图2. 提出的恢复和重建架构概述，具有N阶迭代退化机制和变压器内的多头自注意力的空间压缩机制。0最近，提出了基于变压器的不同算法来执行高级视觉任务，如目标检测[3]、图像分类[10,28]和语义分割[50]。这些工作通过变压器机制建模长距离依赖关系，实现了SoTA性能。为了利用这些特性，提出了不同的工作[5,49]。IPT[5]提出了一种多头多尾的方法，其中每个头和尾执行特定的任务，然而，这种假设在真实图像中不成立。Uformer[49]提出用变压器模块替换UNet[38]架构中的卷积块，在雨水去除和图像降噪任务中实现了SoTA性能。02.2. 减少变压器的计算复杂性0尽管变压器由于其模拟长距离依赖关系的能力而展示出优越的结果，但由于自注意机制的计算要求较高，其计算复杂性是不希望的。由于自注意机制的计算复杂性与输入特征图的大小的平方成正比，因此对于图像来说，简单地应用自注意机制将导致过多的冗余计算。为了克服这种计算瓶颈，SwinTransformer[28]提出了一种移动窗口的方法，在局部区域计算自注意力并通过移动窗口增加感受野。CSWin[8]通过使用十字形窗口设计了一种更高效的方法，将特征图划分为水平和垂直条纹，然后并行执行自注意力。这种方法在计算和性能方面优于先前的变压器架构。02.3. 通用图像恢复和重建0由于其理想的特性，不同的研究提出了可用于通用图像恢复和重建的方法。值得注意的是，Dual Residual Networks[27]提出了不同的残差架构，可以调整以执行不同的恢复任务。在此基础上，[45]研究了一种并行执行多个操作以恢复各种退化的策略。然而，由于这些方法假设已知的退化模型，因此无法直接应用于自然条件下具有未知混合比例的多种退化的图像。03. 方法论03.1. 架构概述0我们在图2中总结了所提出的框架，并将其称为GIQE。重要的是，我们强调两种机制来实现通用图像恢复和重建网络，即（1）N阶退化以生成模拟自然条件的合成训练样本，（2）基于多尺度变压器的图像恢复和重建流程。03.2. 优化变压器机制0由于变压器架构涉及自注意机制的巨大计算复杂性，我们首先提出了两个技巧来提高性能，同时减少计算复杂性。首先，我们减小了用于自注意机制的特征的空间分辨率。其次，将自注意机制后的MLP层替换为多尺度特征提取模块，以提高局部信息内容。(6)+The proposed image reconstruction and restoration net-work is designed following a multi-scale approach to enablehigh-quality reconstructed images.Unlike UFormer thatdown-samples the encoded transformer features at stage l tobe used as inputs for transformer at stage l − 1, we designthe same common backbone and modify the hyperparame-ters of the architecture such as the number of transformerblocks, channels, heads, and window size. Features fromhigh-scaled images would be rich in global image seman-tics, wherein features from low-scaled images would haverich local image semantics. Fusion of these features wouldensure restored images are both globally and locally coher-ent. To merge these features effectively, we propose thefeature selection module.Feature Selection Module : Only the pixels requiringrestoration should be considered for joint restoration and re-construction, while irrelevant ones should be reconstructed.Thus, the multi-scale architecture should be able to aggre-gate features following this notion. However, element-wisesummation or concatenation doesn’t ensure such efficientfeature merging. Hence an adaptive mechanism is requiredthat can perform these tasks without the significant compu-tational overhead. We propose a feature selection modulethat first matches the feature dimensions using a 1x1 con-20800h x w x C0h x w x rC0h x w x rC/20h x w x rC/203x305x50h x w x rC0h x w x C01x1 1x10GELU深度可分离卷积0图3. 多尺度特征提取机制示意图0空间压缩机制：变压器编码器内的多头自注意力在输入特征（X∈RC×h×w）上工作，其中h为高度，w为宽度，C为通道数。因此，我们首先总结了全局多头自注意力（GMSA）的计算复杂性，以及确保减少计算的最近基于窗口的自注意力机制，即SwinTransformer（其中每个窗口有M×M个补丁）和CSWinTransformer（其中局部自注意力基于宽度为sw的水平和垂直条纹），0Ω（GMSA）= whC（4C + 2wh）（1）0Ω（Swin）= whC（4C + 2M2）（2）0Ω（CSWin）= whC（4C + sw * h + sw * w）（3）0由于输入特征空间的空间分辨率直接影响计算复杂度，在投影层之前减小它以获得Key（K）、Query（Q）和Value（V）向量将导致计算量减少。因此，我们提出两种方法，即使用平均池化（大小为s）或简单地调整特征图的形状（乘以因子s）来增加随后在MSA中使用投影层减少的通道数。因此，在对特征图进行下采样（Rs）后实现的复杂度减少可以计算为，0Ω（β GMSA）= whC × 4CR 2s+ 2wh0R0（4）0Ω（β Swin）= whC（4CR 2s + 2M 2）（5）0Ω（β CSWin）= whC × 4CR 2s + sw � h +sw � w0R s0值得强调的是，使用池化操作来减少特征图会使计算变为线性，而不是二次的。此外，由于我们仅对键和值进行输入特征图的下采样，因此可以随后使用Swin和CSWin变换器架构以确保更高的计算效率。多尺度特征提取（MSFE）：标准的变换器架构包含一个前馈网络（FFN），无法完全提取局部信息内容，而这对于图像恢复任务是必要的。这会影响性能，因为邻近像素的信息可以指导受影响像素的恢复和重建。因此，我们用由深度可分离卷积（[6]）构成的多尺度特征提取机制替换FFN块，其滤波器大小为3和5，遵循[49]。当用提议的MSFE替换FFN时，我们首先通过投影层将输入的特征维度增加一个因子r，然后将其分成两个部分，对应于大小为3和5的滤波器。在每个卷积层之后，使用GELU激活函数。完整的机制如图3所示。0� × � × �0� × � × �0� × � × �0全局平均池化01 × 1 × �0全局最大池化01 × 1 × �0第1阶段特征0第2阶段特征0第3阶段特征0卷积0ReLU0� × � × �0最终0特征0图4. 特征选择模块示意图0所提出的图像重建和恢复网络采用多尺度方法设计，以实现高质量的重建图像。与将编码的变换器特征在第l阶段下采样并用作第l-1阶段变换器的输入的UFormer不同，我们设计了相同的公共骨干，并修改了架构的超参数，如变换器块的数量、通道数、头数和窗口大小。高尺度图像的特征将富含全局图像语义，而低尺度图像的特征将具有丰富的局部图像语义。这些特征的融合将确保恢复的图像在全局和局部上都是连贯的。为了有效地合并这些特征，我们提出了特征选择模块。特征选择模块：只有需要恢复的像素才应该用于联合恢复和重建，而不相关的像素应该被重建。因此，多尺度架构应该能够按照这个概念聚合特征。然而，逐元素求和或连接不能确保这种高效的特征合并。因此，需要一种自适应机制，在不引入显著的计算开销的情况下执行这些任务。我们提出了一个特征选择模块，首先使用1x1卷积匹配特征维度，然后进行以下任务：03.3. 多尺度图像恢复20810通过大小为2、步长为2的卷积和反卷积进行特征提取。随后，通过逐元素求和、全局最大池化和平均池化操作对特征进行聚合，然后使用1x1卷积进行增强。接下来进行sigmoid操作，生成通道注意力图以识别包含重要特征的通道。特征选择模块的整体架构如图4所示。通过这种机制，我们专注于捕捉与图像恢复相关的特征，而不需要恢复的区域可以通过跳跃连接传递。辅助解码器分支：由于SOTA恢复算法旨在直接生成恢复和重建图像，因此它们必须同时定位、识别降解量，并预测恢复像素的近似值。因此，在优化过程中，网络被要求同时执行这些任务，导致次优的优化。由于我们使用配对数据集来恢复和重建退化图像，我们可以集成一个二分类的辅助解码器，用于辅助训练过程中对退化区域的估计。由于退化像素的空间位置对于两个解码器来说是相同的，辅助解码器分支可以采用与特征选择模块相同的架构，从而补充主要的恢复和重建分支。我们通过简单地将输入的退化图像（I Noisy ∈ R W × H × 3）与干净输出图像（I GT∈ R W × H × 3）相减，得到这样的掩码（IMask），其中W和H分别表示宽度和高度。然后，我们沿着通道维度进行最大池化操作，得到一个空间分辨率为W×H的地图。随后，根据位置（x，y）处的像素强度对差异地图进行阈值处理。0I mask = I GT − INoisy，其中0� 如果I（x，y）=0，则为0；否则为1（7）03.4. N阶退化0由于自然图像可能包含各种不同强度的退化，例如，雨天驾驶场景既包含动态雨水又包含运动模糊。为了确保通用恢复和重建算法的一致性性能，我们需要一个配对的训练数据集，其中包含涵盖一系列退化组合的大量退化空间。然而，捕捉这样的数据集可能是痛苦和不可能的，因为常用的配对数据集通常专注于特定的退化。因此，我们提出了一个合成退化模型，可以与真实退化图像耦合，生成各种非线性的退化组合。因此，我们提出了一种迭代退化机制，通过将变形（D（x）；x ∈运动模糊、噪声、雾、雪、雨、光照变化或无）递归地（r次）引入到干净图像中，生成合成的非线性退化图像（INoisy）。0（IGT）。虽然这些退化会使完整的训练样本变形，但我们还额外引入局部退化（LD（.）），使用随机选择的Cut-Mix [52]和Copy-Blend[41]或None操作，概率分别为0.2、0.2和0.6。该流程可以用数学方式表示为：0I Noisy = [ LD（ D（x，I GT））] r（8）0我们在图2中总结了流程，并在图1中包含了定性样本，并在补充材料中包含了更多细节。作为一种额外的增强机制，我们观察到将随机高斯模糊滤波器应用于地面真实图像可以改善边缘信息。随后，当这些信息被用作真实图像时，恢复图像具有更高的边缘信息。生成更清晰的地面真实图像的机制可以总结如下：0I Sharp − GT = I GT + α � （I GT − IBlurred）（9）0其中α表示加权相加，模糊图像使用随机选择的滤波器大小在[3, 13]之间生成。03.5. 损失函数0根据之前的工作[27,49]，我们在图像重建和恢复分支上使用像素级（L1）和结构相似性损失（SSIM）的组合，而在辅助解码器分支上使用二元交叉熵损失。为了确保训练的稳定性，我们在L1损失中使用了一个添加项ε，并将其设置为10^-6。0L = λ 1 0|| I GT − I Restored || 2 + ε + SSIM（I GT−0+ λ 2 � BCE（I Mask − GT，I Mask −Restored）（10）0在我们的实验中，我们将λ1和λ2固定为1。03.6. 训练方法0为了在具有单个或多个退化的不同数据集上训练所提出的框架，我们遵循一个通用的训练流程。具体而言，我们使用AdamW[29]作为优化器，动量系数分别为0.9和0.999，权重衰减为0.02。训练图像的分辨率固定为128×128，批量大小为4，使用2个Nvidia 3090GPU，初始学习率为2e-4。学习率按照余弦退火进行调整，最小学习率设置为2e-6。完整的网络训练400个epochs。除了提出的N阶退化外，我们还随机将图像旋转90°、180°或270°。此外，为了确保生成退化不会导致计算瓶颈，根据经验评估，我们将N的值限制为5。20820表1.GOPRO-I、GOPRO-II（r）和GOPRO-III数据集上不同机制的消融研究。PSNR和SSIM的较高值表示性能更好。0算法 GOPRO-I GOPRO-II (r) GOPRO-III # 参数0PSNR / SSIM PSNR / SSIM PSNR / SSIM (x10 6 )0输入 25.64 / 0.79 21.24 / 0.61 12.68 / 0.42 - 基准 30.78 / 0.89 22.19 /0.64 13.49 / 0.40 14.60变序降级0+ 增强 (N=1) 30.77 / 0.89 23.66 / 0.65 15.19 / 0.51 14.6 + 增强 (N=3)30.71 / 0.89 25.37 / 0.69 19.23 / 0.55 14.6 + 增强 (N=5) 30.69 / 0.8826.49 / 0.71 24.14 / 0.57 14.60空间压缩0+ 空间压缩 (池化) 30.87 / 0.88 26.43 / 0.71 24.09 / 0.57 12.4 +空间压缩 (卷积) 30.91 / 0.89 26.71 / 0.72 24.23 / 0.58 13.60特征增强0+ 多尺度特征增强 (3) 31.16 / 0.89 26.05 / 0.73 24.59 / 0.61 12.7 +多尺度特征增强 (5) 31.24 / 0.89 26.08 / 0.73 24.62 / 0.62 12.8 +多尺度特征增强 (3, 5) 31.46 / 0.89 26.24 / 0.75 24.69 / 0.63 13.1 + SDB32.03 / 0.90 26.39 / 0.76 24.76 / 0.65 13.1 + 尺度 (=2) 32.37 / 0.9226.77 / 0.79 24.93 / 0.66 19.8 + 尺度 (=3) 32.79 / 0.93 26.91 / 0.8024.99 / 0.67 25.1 + GT 锐化 33.05 / 0.93 27.05 / 0.80 25.07 / 0.68 25.10基于CSWin的33.21 / 0.94 26.42 / 0.81 25.19 / 0.68 24.60更长的训练 x100 轮0基于Swin的33.37 / 0.94 27.11 / 0.82 25.42 / 0.70 25.1基于CSWin的33.48 / 0.94 27.64 / 0.82 25.98 / 0.72 24.604. 实验分析04.1. 数据集和评估指标0我们选择自然和合成的单一降级数据集，包括运动模糊、雨水、雪、雾气、光照变化和水滴。由于缺乏捕捉多个降级及其相应的干净图像的数据集，我们扩展了cityscapes数据集，以具有上述降级的不同组合和强度。为了生成雾气，我们使用了[58]中提出的框架，而对于光照变化，我们使用了[30]中提出的模型，对于水滴，我们使用了[48]中的pix2pixHD模型，并使用[33]数据集进行训练。对于运动模糊、雨水和雪的增强，我们使用了imgaug库[21]。我们在补充材料中详细说明了数据生成过程。由于很难确定恢复图像的图像质量，我们使用高级感知任务（如语义分割）来确定恢复和重建的影响。为了评估恢复图像的性能，我们使用PSNR和SSIM作为评估指标，其中PSNR是在YCbCr图像的Y通道上计算的。04.2. 消融研究0训练Transformer模型是一项耗时的过程，因此，我们首先评估了不同机制的贡献，以确定一种有效和高效的基线算法。为此，我们利用GO-PRO[32]数据集来表示自然运动模糊，并添加合成增强，如雨水、雪、光照0更改，并且以0.25的概率为None。此外，我们随机将输入的降级图像与干净的真实图像进行切换，以确保网络可以进行图像重建。我们选择GOPRO数据集，因为它包含大量的自然成对的训练和测试图像，可以在其中包含合成降级以生成具有多个降级的图像对。为了评估在单个和多个降级条件下的性能，我们使用了3个版本的GOPRO测试集。这使我们能够确定单个降级与多个降级条件下的最佳性能。GOPRO-I包含标准的运动模糊图像作为输入，而GOPRO-II(r/s/i/f/n)则包含合成的雨水、雪、光照变化、雾气或噪声，以及运动模糊。最后，GOPRO-III包含所有变化（雨、雪、噪声、光照变化、雾气）以及不同强度的变化。我们在表1中总结了定量结果，并在图5中总结了GOPRO-II(r)图像的定性结果，其余结果包含在补充材料中。0我们首先通过固定GIQE的变压器超参数（窗口大小为8，通道大小为C1、C2、C3分别为120、96、48）和自注意力头的数量为6，来检查不同机制的性能贡献。此外，我们为不同的模型架构提供了补充结果。在此基础上，我们使用Swin变压器确定最佳的框架超参数。我们首先在不使用提出的退化流程的情况下，使用GOPRO数据集训练去模糊的基线，并在GOPRO-I、GOPRO-II(r)和GOPRO-III数据集上评估性能。由于GOPRO-II(r)和GOPRO-III中的退化不包含在训练数据集中，恢复质量较差。然而，当使用提出的N th0顺序退化模型，我们观察到在其他退化情况下恢复质量有所提高，而当图像只有运动模糊时略有下降。具体来说，对于第一0顺序退化（Aug(N=1)）增加退化空间时，我们观察到GOPRO-II(r)的性能提升了+1.47db，GOPRO-III的性能提升了+1.7db，但在GOPRO-I上观察到了-0.01db的性能下降。我们观察到增加退化顺序可以提高多个退化情况下的性能，但对于单个退化数据集的性能有所降低。我们认为性能下降是由于数据集中图像数量减少所导致的。虽然我们观察到增加退化顺序可以提高性能，例如对于GOPRO-II(r)的+1.71db，但当将退化空间增加到5阶时，增益停滞，即1.12db。此外，我们观察到数据加载器成为瓶颈，消耗更多时间处理输入，相对于GIQE而言。因此，我们将退化顺序限制在5阶。0在获得退化顺序和基线之后，我们20830输入图像Swin [ 28 ] + SC + MSFE + SDB + Scale(=3)0输入GT CSWin [ 8 ] + SC + MSFE + SDB + Scale(=3)0图5. 使用Swin [ 28 ]和CSWin [ 8 ]基于变压器的模型在GOPRO-II(r)子集上结合不同机制的定性评估0通过2D卷积滤波器或者简单地使用平均池化操作来检查空间压缩（SC）模块的影响。虽然池化操作导致线性计算复杂度和减少的参数数量（约2.2M），但与基于卷积滤波器的空间降维相比，它也导致轻微的性能下降（-0.28db）。此外，我们观察到SC机制在所有退化条件下都能提高恢复性能，超过基线（池化和基于卷积的SC分别为+0.18db，+0.22db）。然而，为了强调计算复杂度的降低，我们选择池化操作进行空间降维，因为增加变压器机制或自注意力头的数量不会显著增加计算量。在此基础上，我们使用MSFE块修改变压器机制中的FFN，并观察使用大小为3和5的可分离卷积可以获得更高的性能（分别为+0.25db，+0.33db，+0.55db，对于GOPRO-I数据集的大小为3、5和两者都是如此），同时增加了参数数量（0.3、0.4、0.7 M）。0然后我们检查在训练过程中引入辅助解码器分支（SDB）的效果，并观察到对于所有退化类型的恢复性能有所提高，即+0.57db、+0.15db和+0.07db。由于SDB机制仅在训练过程中使用，它不会对GIQE的总参数数量产生影响。随后，我们检查包括多尺度分支并使用特征选择模块合并特征的效果。我们观察到随着将缩放版本数量增加到3（即1/8和1/16比例），性能提高了+0.34db和+0.76db。最后，我们通过使用随机高斯滤波器对地面真实性进行锐化的额外技巧来检查效果。这种方法似乎可以提高性能，即+0.26db、+0.14db和+0.08db。0对不同数据集进行了评估。由于我们的评估基于SwinTransformer，我们现在将其替换为CSWinTransformer，并观察到在相同设置下具有减少的参数数量的改进性能。此外，我们观察到多种退化的存在会降低恢复算法的整体性能，因为需要从中学习恢复映射的退化空间较大。因此，我们通过增加100倍的训练时长来研究增加训练的作用，我们观察到当多种退化影响图像时，更长的训练可以显著提高恢复性能。我们将基于CSWin的多尺度GIQE版本用于剩余的评估。04.3. 图像恢复和重建04.3.1 单一退化恢复0我们首先比较了所提出机制与SoTA算法在受单一退化影响的图像恢复方面的性能，并总结了在GOPRO[32]上去模糊的结果，如表2所示。我们还检查了所提出的训练机制和Transformer网络确保的域不变性特性。此外，我们使用GOPRO预训练的权重对模型进行推理，将性能与SoTA在RealBlur[18]数据集上进行了比较。基于这些结果，我们观察到所提出的GIQE在去模糊方面超过了先前的SoTA，同时在评估在训练分布之外的图像时，性能下降较低，即RealBlur数据集。我们认为这种特性是由退化模型和Transformer架构的双重贡献所引起的。正如之前的研究[41,56]所强调的，恢复算法的能力主要取决于训练数据集中的退化多样性。值得注意的是，所提出的GIQE在GOPRO数据集上的性能优于基于转换器的UFormer1.21db，同时对领域转移表现出更高的鲁棒性。我们观察到在其他单一退化恢复任务（如去雨、去雪、去雾和图像增强）上具有类似的性能特征。我们在补充材料中提供了必要的定量和定性结果。EfficientDerain [14]23.72 / 0.7520.12 / 0.70296.227.3MPRNet [54]24.19 / 0.7920.47 / 0.664643.8520.1Uformer [49]23.51 / 0.6417.09 / 0.60926.427.3GIQE25.18 / 0.8223.41 / 0.75465.624.620840雨滴雨滴 + 雨 A.GAN [34] MPRNet [54] DuRN [26] Uformer [49] GIQE GT0图6. 雨滴[34]和Rain1400 [12]数据集上SoTA算法去除雨滴和雨滴及雨水去除的定性比较。0表2. 与SoTA图像去模糊算法的性能比较。0算法 GoPRO [32] RealBlur [18] GMACs # Params0PSNR / SSIM PSNR / SSIM (x10^9) (x10^6)0输入 25.64 / 0.79 26.55 / 0.80 - - DMPHN [55] 27.98 / 0.84 26.04 /0.79 825.1 5.4 DeblurGANv2 [23] 28.92 / 0.89 26.68 / 0.81 411.555.00MPRNet [54] 31.84 / 0.92 26.68 / 0.82 11169.5 20.1 DuRN [26]28.00 / 0.85 26.37 / 0.81 3416.9 3.7 Uformer [49] 32.27 / 0.9030.74 / 0.88 1235.2 27.3 GIQE 33.48 / 0.94 30.18 / 0.84 814.8 24.60在GOPRO数据集上，GIQE相对于UFormer在去模糊方面的性能提升了1.21db，同时对领域转移表现出更高的鲁棒性。我们观察到在其他单一退化恢复任务（如去雨、去雪、去雾和图像增强）上具有类似的性能特征。我们在补充材料中提供了必要的定量和定性结果。04.3.2 多重退化恢复我们随后评估了SoTA和GIQE在更现实的场景中对多种退化共存情况下的性能。为此，我们使用Raindrop数据集[34]，并按照Rain1400[12]的设计引入合成雨水。我们在表3中总结了定量性能，在图6中总结了定性性能。为了确保SoTA能够处理多个数据集，我们将它们重新训练在Raindrop数据集上，该数据集通过Rain1400雨滴条纹遵循了每个SoTA提出的训练方法。我们观察到当在定量和定性结果的图像上评估它们时，AGAN和DuRN的表现不令人满意。我们认为这是由于它们的特定于退化的架构引起的，而其他SoTA能够显著增强图像，但无法将其恢复到仅存在雨滴时的质量。我们认为这是由于使用卷积滤波器的缺点引起的，这使得它们对于空间变化的退化不灵活。我们在补充材料中进行了全面的评估，在评估不同退化组合时观察到类似的模式。04.4. 补充材料0我们研究了恢复和重建算法对高级感知任务（即自然条件下的语义分割）的影响，其中多种退化同时存在。0表3. 与SoTA雨滴去除算法的消融性能比较。0算法雨滴雨滴 + 雨1400 GMACs # 参数0输入 21.41 / 0.75 11.69 / 0.57 - - A.GAN [ 34 ] 23.68 / 0.75 19.79 / 0.59 531.96.2 Pix2PixHD [ 48 ] 24.05 / 0.69 17.43 / 0.58 412.9 182.4 DuRN [ 26 ] 23.91/ 0.75 17.88 / 0.62 332.9 10.10总结起来，我们证明了将图像恢复和重建算法与更深的骨干模型重新训练相比，将其集成更加高效。 5. 结论0在本文中，我们认为固定卷积滤波器由于无法处理空间变化的退化而限制了恢复和重建质量。此外，这限制了它们处理同时受到多种退化影响的图像的能力，而这在自然条件下经常遇到。为了解决这个问题，我们提出了一种基于Transformer的图像恢复算法，其输入为合成退化图像。为了确保训练样本准确捕捉退化的复杂性和动态性，我们提出了一个N阶迭代退化模型。此外，我们提出了两种技巧来降低Transformer模型的计算成本，同时增加其捕捉局部特征的能力。我们强调，在训练恢复算法时，期望底层网络能够定位、量化退化的程度和类型，并恢复受影响的区域。因此，增加了训练周期的复杂性。我们集成了一个辅助解码器分支，进行二进制分类以帮助训练，以识别图像中的退化区域。我们在单一和多重退化数据集上进行了大量实验，以证明所提方法的有效性。06. 致谢0本研究部分得到了KAIST-KU联合研究中

下载后可阅读完整内容，剩余1页未读，立即下载