“自适应特征修改层调节图像恢复的连续等级”

41 浏览量更新于2023-10-18 收藏 15.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110560通过自适应特征修改层调节图像恢复的连续等级0Jingwen He 1 , � Chao Dong 1 , � Yu Qiao 1 , 2 , †01深圳高级技术研究院计算机视觉与模式识别重点实验室，深圳先进技术研究院-商汤联合实验室，中国科学院，中国 2 香港中文大学0摘要在图像恢复任务中，如去噪和超分辨率，连续调节恢复等级对于实际应用非常重要，但大多数现有的基于深度学习的图像恢复方法都无法实现。由于从离散和固定的恢复等级中学习，深度模型无法轻松推广到连续和未知等级的数据。这个主题在文献中很少涉及，因为调节经过训练的模型与某些超参数的困难。我们通过提出一个统一的CNN框架迈出了一步，该框架除了一个单级模型之外几乎没有额外的参数，却可以处理从起始等级到结束等级之间的任意恢复等级。附加模块，即AdaFM层，执行通道级特征修改，并且可以以高精度将模型调整到另一个恢复等级。通过简单地调整插值系数，中间模型AdaFM-Net可以生成平滑连续的恢复效果，而不会产生伪影。对三个图像恢复任务进行了大量实验证明了模型训练和调节测试的有效性。此外，我们还仔细研究了AdaFM层的特性，提供了关于所提方法使用的详细指导。01. 引言0深度学习方法在图像恢复任务中取得了巨大的成功，如去噪、超分辨率、压缩伪影降低等[12, 10, 5, 4,22]。然而，研究环境和实际应用之间的恢复性能仍存在很大差距。在这项工作中，我们关注阻碍基于CNN的恢复方法广泛应用的两个主要问题。首先，实际图像的降级等级是0�前两位作者为共同第一作者。（电子邮件：jw.he@siat.ac.cn；dong.chao@siat.ac.cn）。† 通讯作者（电子邮件：yu.qiao@siat.ac.cn）。0q80 q100模型模型0q30 DeJPEG0过度锐化过度平滑0是否可能达到折中？0图1. 在图像（LIVE1 [15]）上应用q10或q80DeJPEG模型并降级为q30会产生过度锐化（左）或过度平滑（右）的图像。通常情况下，连续的降级等级，如JPEG质量q27和q34。另一方面，深度恢复模型通常是使用离散和固定的等级进行训练（例如q20，q30）。应用具有不匹配恢复等级的模型往往会产生过度锐化或过度平滑的图像，如图1所示。一个直接的解决方案是训练一个足够大的模型来处理所有的降级等级。然而，无论计算负担如何，这个通用模型对于每个单独的等级来说都不是最优的。当我们想要稍微调整输出效果时，我们必须通过改进模型结构、参数或（和）损失函数来重新训练一个新模型，这是一个繁琐的过程，结果难以预测。其次，在工业和商业场景（例如人机交互软件）中，经常需要连续调节恢复强度/效果以满足不同的需求。例如，用户总是希望有一个工具栏来灵活调整恢复等级，如01 DeJPEG也被称为JPEG去块和压缩伪影降低。 λ= 0.0 0.4 0.7 1.0 110570调节λ以获得连续的恢复效果从DeJPEG q80到q100PSNR: 32.24 33.32 33.04 32.180工具栏0从去噪σ15到σ75 σ45去噪0× 3.4超分辨率从超分辨率×3到×40q30 DeJPEG0图2。我们可以调节工具栏以在DeJPEG、超分辨率和去噪中获得连续的恢复效果。0如图2所示。然而，当前的深度模型是在固定的退化水平上进行训练的，并且不包含用户可以更改最终结果的超参数。为了填补这些空白，我们的目标是在统一的CNN框架中实现任意级别的图像恢复和持续模型调节。更正式地说，任务是以用户可控的方式处理处于“起始”级别和“结束”级别之间的退化级别的图像。为了方便实际使用，我们应该避免构建一个非常大的模型或模型库，并且防止在测试时进行另一个训练阶段。换句话说，解决方案应该包含少量的额外参数，并允许在测试中持续调整参数。这个任务在文献中是非常困难和少有研究的。也许与修改网络输出最相关的主题是任意风格转换。具体来说，我们可以将不同级别的退化视为不同类型的风格。一种代表性的方法是条件实例归一化（IN）[6]，它允许用户通过调整IN参数来混合不同的风格。然而，图像恢复对输出图像质量有更高、更精细的要求。直接应用条件IN在图像恢复中可能会产生明显的大规模伪影（参见图6）。另一个类似的概念是领域适应，它通常出现在高级视觉问题中（例如图像分类和目标检测）。它将在源领域上训练的模型适应/转移到目标领域。然而，领域适应不能轻易地推广到未见过的数据，因此不适合解决我们的问题。在这项工作中，我们提出了一种简单而有效的方法，首次实现了连续调节恢复强度，并且计算成本很低。这种方法源于这样的观察：不同恢复级别的网络之间的滤波器在模式上是相似的，但在尺度和方差上有所变化。此外，通过调节特征/滤波器的统计信息，模型输出可以连续变化。所提出的框架建立在一种新颖的自适应特征修改（AdaFM）层上，该层通过深度卷积滤波器修改中间层特征。在实践中，我们首先为起始级别训练一个标准的恢复CNN，然后插入AdaFM层并将其优化到结束级别。训练阶段结束后，我们固定CNN参数，并根据测试恢复级别插值AdaFM层的滤波器。通过调整一个控制系数（从0到1），我们可以交互地和连续地操纵恢复结果/效果。需要注意的是，我们只需要训练一次CNN和AdaFM层，测试时不需要进一步的训练。为了确保输出质量，我们证明了带有AdaFM层的模型在起始和结束级别上的性能与单级图像恢复网络相当。然后，我们展示了调节后的网络输出具有连续的恢复效果且无噪声（参见图2）。此外，我们还检查了AdaFM层的性质-复杂性、范围和方向，提供了对所提方法的详细说明。值得注意的是，添加的AdaFM层对CNN模型的参数贡献不到4%，但实现了出色的调节性能。0适合解决我们的问题。在这项工作中，我们提出了一种简单而有效的方法，首次实现了连续调节恢复强度，并且计算成本很低。这种方法源于这样的观察：不同恢复级别的网络之间的滤波器在模式上是相似的，但在尺度和方差上有所变化。此外，通过调节特征/滤波器的统计信息，模型输出可以连续变化。所提出的框架建立在一种新颖的自适应特征修改（AdaFM）层上，该层通过深度卷积滤波器修改中间层特征。在实践中，我们首先为起始级别训练一个标准的恢复CNN，然后插入AdaFM层并将其优化到结束级别。训练阶段结束后，我们固定CNN参数，并根据测试恢复级别插值AdaFM层的滤波器。通过调整一个控制系数（从0到1），我们可以交互地和连续地操纵恢复结果/效果。需要注意的是，我们只需要训练一次CNN和AdaFM层，测试时不需要进一步的训练。为了确保输出质量，我们证明了带有AdaFM层的模型在起始和结束级别上的性能与单级图像恢复网络相当。然后，我们展示了调节后的网络输出具有连续的恢复效果且无噪声（参见图2）。此外，我们还检查了AdaFM层的性质-复杂性、范围和方向，提供了对所提方法的详细说明。值得注意的是，添加的AdaFM层对CNN模型的参数贡献不到4%，但实现了出色的调节性能。02. 相关工作0所提出的自适应特征修改（AdaFM）层受到深度CNN中最近的归一化方法的启发，因此我们对这些工作进行了简要回顾。归一化已被证明对于训练非常深的神经网络是有效的。最具代表性的方法是批量归一化（BN）[8]，它被提出来解决训练过程中的内部协变量漂移问题。特别地，BN层通过在前向传播过程中计算每个批次的均值和方差来对每个神经元的输出进行归一化。后来，DmitryUlyanov等人[17]通过用他们提出的实例归一化（IN）层替换所有的BN层，在风格转换方面取得了显著的改进。其核心思想是基于每个样本的空间维度上的统计信息来对特征进行归一化，而不是每个批次。最近，还提出了几种替代的归一化方法，如实例权重归一化[14]、层归一化[2]、组归一化（GN）[20]等。空间特征变换 c) a)b) fmid = f15 + λ(g − I) ∗ f15, 0 ≤ λ ≤ 1,(2)110580(SFT)层是由Wang等人[18]提出的，它进一步将归一化操作扩展到了更一般的空间变体转换。具体来说，他们根据语义分割先验在特征图上对特征进行空间变换。与流行的基于GAN的方法相比，这种方法确实有助于生成更逼真的纹理。我们将在第3.3节中将所提出的AdaFM层与BN和SFT层进行比较。此外，最近的研究表明，BN和IN具有以较小的计算成本使模型适应不同领域的能力。具体来说，Li等人[11]提出了AdaBN（自适应批量归一化）来缓解领域偏移，并通过重新计算网络中所有BN层的统计信息表明AdaBN对于领域适应任务是有效的。Huang等人[7]表明实例归一化（IN）可以通过将内容特征的均值和方差与风格特征的均值和方差对齐来执行风格归一化。通过这种方式，他们实现了在测试时任意风格的转换。此外，Dumoulin等人[6]将IN扩展到了通过学习不同的归一化层参数集来实现多样式转换，而卷积参数是共享的。我们的方法与这些工作不同之处在于：1）所提出的AdaFM层与批量样本或实例样本无关；2）AdaFM层的滤波器大小和位置是灵活的，表明AdaFM超出了归一化操作；3）AdaFM层的插值属性可以实现恢复级别的连续调制，这在以前没有被揭示过。03. 方法03.1. 问题阐述0连续调制恢复级别的问题可以如下定义。假设我们有一个“起始”恢复级别L a 和一个“结束”恢复级别L b，目标是构建一个深度网络来处理任意降级级别L c （L a ≤L c ≤ L b）。我们的解决方案流程包括两个阶段——模型训练和调制测试。在模型训练中，我们训练一个基本模型和一个自适应模型，分别处理级别L a 和L b。而在调制测试中，我们提出了一个新的网络，通过调制某些超参数在级别L a 和L b之间实现任意恢复效果。在接下来的几节中，我们首先展示了两个重要的观察结果，这些观察结果启发了我们的方法。然后我们提出了AdaFM层，并将其与BN [8]和SFT[18]进行了比较。最后，我们描述了如何在模型训练和调制测试中使用AdaFM层。03.2. 观察0观察1.我们发现，使用不同恢复级别训练的恢复模型的学习滤波器在视觉模式上非常相似，但它们的权重不同。0图3. 滤波器可视化。0统计数据（例如均值和方差）。图3展示了一个示例，级别为L a 的滤波器 f a类似于一个二维高斯滤波器，然后从级别L a 微调到级别L b的相应滤波器 f b也会类似于一个高斯滤波器，但均值和方差不同。我们以高斯去噪问题为例进行说明。起始级别为噪声级别σ =15，结束级别为σ =50。我们采用简单且标准的CNN结构ARCNN[4]进行实验。首先在噪声级别σ =15下学习模型并获得ARCNN-15，然后在σ =50上微调网络以获得ARCNN-50。这两个模型的第一层滤波器在图3中进行了可视化。乍一看，这些滤波器看起来相似，只有细微的差异。它们之间对应滤波器的平均余弦距离为0.12，表明它们非常接近。为了进一步揭示它们的关系，我们使用一个滤波器来连接对应的滤波器。具体来说，将ARCNN-15中的每个滤波器 f 15 与另一个滤波器 g卷积以近似对应的ARCNN-50中的滤波器 f 50。根据交换律，我们有 ( g � f 15 ) � x = g � ( f 15 � x )，其中 � 表示卷积。因此，对于每个特征图 x ，通过最小化g || f 50 � x − g � ( f 15 � x ) || 2 来优化 g 的参数。 (1)0上述操作等效于在ARCNN-15的每一层后添加一个深度卷积层，并在σ =50问题上微调添加的参数。当g的大小为1×1时，它等于一个缩放和平移操作，改变原始滤波器的均值和方差。我们使用网络输出之间的峰值信噪比差来显示拟合误差。从表2中可以看出，当g的滤波器大小增加时，拟合误差的值减小。在1×1时，误差已经非常小，这证明了我们的原始假设。5×5的滤波器也在图3中进行了可视化，可以看到f 15 和f 50之间的差异。超分辨率和压缩伪影减少的类似实验结果在补充文件中呈现。观察2.我们发现通过调节特征/滤波器的统计数据可以连续改变网络输出。当滤波器g逐渐通过梯度下降进行更新时，如果我们通过插值中间结果来控制更新过程会怎样？具体来说，我们可以通过以下函数获得中间滤波器f mid ：++++110590步长20卷积0卷积0卷积0Relu0卷积0Relu0AdaFM0卷积AdaFM0残差016个残差块0卷积0AdaFM-Net0上采样0卷积0卷积0卷积0AdaFM0上采样：20基本模型0Relu0图4. 左侧展示了基本模型和AdaFM-Net。右侧展示了AdaFM在自适应过程和调制测试中的工作原理。0其中λ是插值系数。当我们逐渐调节λ从0到1时，f mid也会从f 15 连续变化到g � f 15 。将f mid放回网络后，我们发现网络输出在可视化中也会连续变化，如图2所示。详细分析可参见第3.5节和第4节。03.3. 自适应特征修改0受到上述观察的启发，我们提出了一种通过引入自适应特征修改层和相应的调制策略来进行连续调制的方法。整体框架如图4所示。我们的目标是添加另一层来操纵滤波器的统计信息，以便它们可以适应另一个恢复级别。如观察1所示，我们可以在每个卷积层之后和激活函数之前（例如ReLU）添加一个深度卷积层（或组卷积层，组数等于特征图的数量）。我们将添加的层命名为自适应特征修改层，其公式为AdaFM(x_i) = g_i * x_i + b_i，0 < i ≤ N，(3)0其中x_i是输入特征图，N是特征图的数量。g_i和b_i分别是相应的滤波器和偏置。值得注意的是，g_i取决于输入图像的退化级别。为了进一步了解其行为，我们将提出的层与批归一化（BN）[8]和空间特征变换（SFT）[18]层进行比较。与BN层的比较。当我们将g_i的滤波器大小设置为1×1时，特征修改变为一种归一化操作。请注意，BN[8]也直接放在卷积层之后。我们将其与BN进行比较，如下所示：0AdaFM(x_i) = g_i * x_i + b_i，BN(x_i) = γ(x_0σ)+β，(4)0其中µ，β是输入批次的均值和标准差，γ，β是仿射参数。1×1AdaFM滤波器的性能与不使用批次信息的BN相似。作为一个特殊情况，我们还可以使用BN来进行特征0修改和微调γ，β为g_i，b_i。实验证明，使用BN几乎可以达到与1×1AdaFM滤波器相同的结果。与SFT层的比较。当g的滤波器大小与特征图一样大时，它将执行空间特征变换，就像SFT层[18]一样。其公式如下所示：0AdaFM(x_i) = g_i ⊙ x_i + b_i，SFT(x_i) = γ ⊙ x_i + β，(5)0其中γ，β是仿射参数。AdaFM和SFT层具有相同的功能，但参数不同。具体来说，γ，β是根据另一个基于附加先验的子网络计算得出的，而g_i，b_i则是直接与网络一起学习的。03.4. 模型训练0在本小节中，我们讨论如何利用提出的AdaFM层进行模型训练。整个模型，即AdaFM-Net，由基本网络和AdaFM层组成。首先，我们训练基本网络N_a^{bas}，它可以是任何标准的CNN模型，用于开始恢复级别L_a。然后，我们将AdaFM层插入到N_a^{bas}中，形成AdaFM-NetN_{ada}。通过固定N_a^{bas}的参数，我们优化AdaFM层的参数到结束级别L_b。实验证明，仅通过微调AdaFM层，模型N_b^{ada}可以达到与从头开始训练的基本模型N_b^{bas}在级别L_b上相当的性能。由于AdaFM-Net是从L_a到L_b进行优化的，我们将这个过程称为自适应，并使用自适应准确性来表示其性能。具体来说，我们可以使用N_b^{ada}和N_b^{bas}的PSNR之间的PSNR距离作为自适应准确性的度量。影响自适应准确性的有三个因素-滤波器大小、方向和范围。（1）对于滤波器大小，较大的滤波器大小或更多的参数将导致更好的自适应准确性。我们尝试了从1×1到7×7的滤波器大小。从图5中的收敛曲线可以看出，3×3的性能要比1×1好得多，而7×7只能与5×5相媲美。进一步增加滤波器大小无法持续改善性能。MTraining settings. We use the DIV2K [1] dataset for allthe image restoration tasks. The training data is augmentedby horizontal ﬂipping and 90-degree rotations. FollowingSRResNet [10], the mini-batch size is set to 16 and the HRpatch size is 96 × 96. The L1 loss [19] is adopted as theloss function. For model training, the initial learning rateis set to 1 × 10−4 and then decayed by a factor of 10 after5 × 105 iterations. We adopt the Adam [9] optimizer withβ1 = 0.9, β2 = 0.999. All models are built on the PyTorchframework and trained with NVIDIA 1080Ti GPUs.The structure of basic model. Based on the widely usedSRResNet and DnCNN [22], the basic model Nbas adoptsa general CNN structure that consists of a pair of down-sampling (convolution with stride 2) and up-sampling (pix-elshufﬂe [16] with upscaling factor 2) layers, 16 residualblocks, and several convolution layers. Speciﬁcally, the ﬁl-ter number is 64 and the ﬁlter size is 3 × 3 for all convo-lution layers. The residual block contains two convolutionlayers and a ReLU activation layer. The middle featuresare processed in a low-resolution (1/4 of the input size) s-pace, while the output size remains the same as the inputsize. For super-resolution, we can upsample the LR imageto the HR image size as SRCNN [5]. As shown in Table 1,the basic model achieves better PSNR results than SRRes-Net, DnCNN and ARCNN on super-resolution, denoisingand compression artifacts reduction, respectively. As statedin Section 3.4 and 3.5, the basic model is also trained on d-ifferent levels (as the baseline) to evaluate the performanceof AdaFM-Nets.The position of AdaFM layers. As indicated in Sec-110600（2）对于方向，不同的恢复级别对于相同的网络具有不同的难度。那么我们应该从容易级别调制模型到困难级别，还是相反的方向？实验证明，从容易到困难是一个更好的选择（见第4.2节）。（3）对于范围，范围/间隔|L_b -L_a|越小，自适应准确性越好。例如，在超分辨率问题中，将滤波器从×2转移到×3比从×2转移到×4更容易。在第4节中，我们进行了大量实验，选择了超分辨率、降噪和压缩伪影减少的最佳范围。03.5. 调制测试0在训练过程之后，我们讨论如何根据测试时的退化级别调制AdaFM层。由于特征在与恒等滤波器卷积后保持不变，我们使用恒等滤波器I和零偏置初始化AdaFM层，这被视为AdaFM层的起始点。根据观察2，我们可以线性插值AdaFM层的参数，如下所示：0g�i = I + λ（gi - I），b�i = λbi，0 < i ≤ N，（6）0其中g�i，b�i是插值AdaFM层的滤波器和偏置，λ（0 ≤ λ ≤1）是由输入图像的退化级别确定的插值系数。将插值的AdaFM层添加回基本网络Nabas后，我们可以得到中间级别Lc（La ≤ Lc ≤Lb）的AdaFM-Net Ncada。在图2、6中展示了将系数λ从0变化到1的效果，输出效果随着λ的连续变化而变化。有趣的是，我们发现通过调整系数λ，插值网络可以相当好地处理介于级别La和Lb之间的任何恢复级别Lc，这类似于传统方法中的强度控制器。实验上，我们发现系数λ和恢复级别Lc之间的关系可以被形式化/近似为多项式函数：0λ = f（Lc）=0j = 0 wj Ljc，（7）0其中M是阶数，{wj}M0是系数。为了拟合这个多项式函数，我们需要确定至少M个点{Lic，λi}Mi=0。特别地，起始点是{L0c = La，λ0 = 0}，结束点是{λM = 1，LMc =Lb}。此外，我们需要一个包含退化图像和真实图像的测试集来衡量适应精度。对于中间级别Lic，我们使用级别Lic的测试图像作为输入。通过调整系数λ，AdaFM-Net可以生成一系列输出。我们选择在测试集上获得最高峰值信噪比（PSNR）的λ作为最佳系数，记录为λi用于Lic。值得注意的是，调制过程和曲线拟合不需要额外的训练。0广泛的实验证明，拟合曲线在范围和问题上变化很大。以压缩伪影减少为例。如果范围很小，例如JPEG质量从q80到q50，那么拟合函数是线性的（M=1），如图7所示。另一方面，如果范围很大，例如从q80到q10，那么我们必须使用曲线（M=3）进行逼近。去噪和超分辨率也观察到类似的趋势（详见第4.3节和补充文件）。作为另一种选择，我们还可以使用分段线性函数进行逼近。实际上，当范围足够小时，λ和Lc之间的关系几乎是线性的。我们可以在中间级别{Lic}上训练一组AdaFM-Nets。对于给定的级别Lc（Lic < Lc

下载后可阅读完整内容，剩余1页未读，立即下载