无数据压缩框架用于去雨网络

98 浏览量更新于2023-10-25 收藏 17.11MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

60230梦想修剪图像去雨网络0邹伟琪1，* 王洋1，* 傅学阳1 曹洋1,2，†01 中国科学技术大学 2 合肥综合国家科学中心人工智能研究院0artisan@mail.ustc.edu.cn，{ywang120, xyfu, forrest}@ustc.edu.cn0摘要0卷积图像去雨网络在巨大的计算和内存成本下取得了巨大的成功。大多数模型压缩方法需要原始数据进行迭代微调，但由于存储、隐私和传输限制，在实际应用中受到限制。我们注意到，使用自己收集的数据来微调压缩模型是过度拉伸的，因为它在具有不同降级特征的图像上表现出较差的泛化能力。为了解决这个问题，我们提出了一种新颖的无数据压缩框架用于去雨网络。基于我们的观察，深度降级表示可以通过降级特征（雨的类型）进行聚类，而与图像内容无关。因此，在我们的框架中，我们使用深度反演范式“梦想”多样的分布式降级图像，从而利用它们来蒸馏修剪后的模型。具体而言，我们以双分支方式保持修剪后模型的性能。在一个分支中，我们反演预训练模型（教师）以重构类似于原始分布的降级输入，并使用正交正则化来产生降级多样性的深度特征。在另一个分支中，修剪后的模型（学生）被蒸馏以适应教师在这些“梦想”输入上的原始统计建模。此外，我们提出了一种自适应修剪方案来确定分层稀疏性，从而减轻初始修剪模型的回归漂移。在各种去雨数据集上的实验证明，我们的方法可以减少最先进模型约40%的FLOPs，同时保持与原始数据相当的性能。01. 引言0基于卷积神经网络（CNN）的方法在单幅图像去雨方面取得了显著进展[5, 10, 16, 28, 31]。然而，由于0* 同等贡献。† 通讯作者。0（a）输入（100H）0（b）原始输出0（c）修剪0（d）微调（网络）0（e）微调（100L）0（f）我们的（无数据）0图1. 在修剪30%的权重后，预训练的HINet[5]性能显著下降（1b→1c）。使用网站或Rain100L[29]的图像对修剪后的模型进行微调，在Rain100H[29]的图像上表现出较差的泛化能力。我们保持修剪后的模型在没有原始数据的情况下的性能。0由于密集预测任务的特性以及处理各种降级特征的要求，这些CNN模型通常会遭受巨大的计算成本和庞大的内存使用。这限制了它们在真实场景中的应用，尤其是在计算能力受限的设备上。实际上，已经尝试了各种方法来压缩这些庞大的CNN模型，包括量化[11, 12, 23]、修剪[8, 13, 15,21]、蒸馏[3, 7,14]等等。这些方法需要原始数据进行交互式训练，以保持压缩模型的性能。然而，由于存储、隐私或传输限制，原始训练数据通常无法获取。为了解决这个问题，可以通过收集降级（雨天）图像并导出预训练模型输出的伪标签来自然地获取成对数据。然而，我们的研究表明，这种方式的泛化能力较差。例如，最先进的去雨网络HINet[5]在修剪30%的权重后性能显著下降，如图1c所示。使用从网站或Rain100L[29]收集的数据对修剪后的模型进行微调，在Rain100H[29]的图像上表现出较差的泛化能力，如所示。60240图1d和图1e。这些重度去雨模型通常在具有不同退化特征的图像上取得了有希望的性能，例如不同方向和密度的雨痕或雨滴。获取模型曾经训练过的所有类型的分布数据是不切实际的。最近，已经提出了一些可行的无数据模型压缩方法。它们主要尝试通过类似于DeepDream[1]的模型反演范式或通过重新训练生成网络[4]来重建原始数据进行无数据知识蒸馏。然而，这些研究仅关注图像识别任务，其中类条件概率的argmax确定决策。此外，它们的合成图像在视觉上不自然且难以产生多样性，因为主要受到类别内容的限制。因此，这些现有的无数据模型压缩方法不能直接使用。在本文中，我们提出了一种新颖的无数据去雨模型压缩框架，通过探索预训练网络学习到的统计先验知识。该方法基于我们的统计观察，即图像去雨网络可以学习到与图像内容无关的退化特征（详见第3.1节）。这激发了我们重建多样化且分布在内的退化图像的动机，从而为压缩模型的统计漂移提供足够的监督，而无需原始数据。具体而言，给定一个预训练的图像恢复模型（教师），我们在一个阶段内利用两个分支来优化随机噪声输入和修剪模型（学生）。在一个分支中，随机噪声通过固定的教师模型前向传播，然后强制输出接近收集到的干净图像（目标），在梦想损失的约束下。同时，我们利用批次维度上的深度特征的正交性正则化来产生多样化的退化特征。在另一个分支中，这些输入和输出对被用于通过知识蒸馏损失来提取修剪模型。此外，为了减轻修剪导致的统计漂移，在蒸馏之前提出了一种自适应修剪方案，通过构建不同层的修剪敏感性的显式度量与我们的重建相结合来确定分层稀疏性。本文的贡献总结如下：01)我们发现预训练的去雨网络可以学习与图像内容无关的深度退化表示。因此，我们提出了一种新颖的无数据压缩框架，用于去雨网络，其中重建了多样化的退化图像，并用于提取修剪模型。02) 我们进一步提出了一种自适应修剪方案来解决0在微调之前，确定修剪模型的分层稀疏性并适度调整统计漂移。03)在各种去雨数据集上的实验证明，我们的方法可以在不使用原始数据的情况下压缩约40%的最先进模型的FLOPs，并保持可比较的性能。02. 相关工作0单图像去雨。图像去雨是一个不适定问题，因此具有挑战性，传统方法利用退化先验来获得解决方案，包括方向直方图[2]，时空相关性[6]，结构相似性[26]，判别稀疏编码[20]等。这些手工先验往往依赖于经验观察，因此不具有普适性。最近，CNN在图像去雨方面取得了重要成就。首先提出了一种深度细节网络[10]来去除单幅图像中的雨水。Yang等人[29]使用多流网络共同检测和去除雨痕。为了获得更好的性能，设计了更复杂的基于CNN的模型，如[5, 17, 25, 31,32]。此外，Qian等人[24]使用生成对抗网络的视觉注意力来解决从单幅图像中去除雨滴的不同问题。然而，为了处理不同的退化特征，如不同密度和方向的不同雨模式，这些性能设计的CNN模型[5, 31]通常面临巨大的计算成本。0无数据模型压缩。近年来，已经提出了许多无数据模型压缩方法，以减轻对源训练数据的要求。例如，Lopes等人首次提出使用元数据重建原始训练样本进行知识蒸馏，Nayak等人利用预训练模型的信息合成有用的训练样本。DeepInversion通过引入基于DeepDream的BatchNorm层统计量实现更好的重建。Chen等人基于预训练网络重新训练生成器，用于合成训练样本以提供蒸馏监督。然而，这些方法仅关注识别任务，并且通常采用one-hot约束，因此无法应用于像图像去雨这样的密集回归任务。此外，它们重建的图像看起来不自然，因为重建过程仅由语义监督。Zhang等人重新训练生成器用于超分辨率任务，以合成训练样本以蒸馏较小的学生网络。然而，他们利用下采样来监督重建，这与雨的退化过程不符。我们提出的方法与它们有两个主要区别。首先，我们同时使用内容和不同的雨类型重建退化图像。60250相同的图像0内容，不同的雨类型0不同的图像0内容和雨类型0优化0L1损失0训练0各种类型的雨0训练后不可访问0Rain100H Rain100L Test28000我们梦想的退化图像0平均池化0t-SNE0固定的预训练模型0梦想的退化图像预训练0深度特征0我们的分布内和多样化的重建0多样性损失0去雨模型0随机输入噪声0未见过的清晰图像0模型输出0图2.我们观察到预训练去雨网络的深度表示可以根据退化特征（雨的类型）进行聚类，而与图像内容无关。这激发了我们反转预训练去雨模型并约束其退化表示的正交性，以“梦想”分布内和多样化的样本进行无数据蒸馏。0自然外观和多样的退化类型，为模型压缩提供足够的监督，以保持对各种退化特征的性能。其次，我们通过高效的计算优化重建和蒸馏的一阶段。03.无数据去雨剪枝0为了在不对源训练数据做任何假设或依赖的情况下保持原始去雨性能，本文提出了一种新颖的无数据压缩框架。03.1.动机0卷积图像去雨模型可以学习强大的统计先验，将退化（雨天）图像分布映射到清晰图像分布。尽管模型压缩不可避免地会损害原始的统计建模，但在没有微调的情况下很难进行补偿。在没有源训练数据的情况下，一个自然的想法是利用原始庞大模型（教师）学习到的统计先验来微调压缩模型（学生）的知识蒸馏。在重建样本遵循原始退化图像分布的情况下，可以通过教师将其映射到清晰图像，从而提供令人满意的蒸馏监督。然而，这种分布通常很难被形式化，从而引发以下问题：仅给定一个预训练模型，如何重建分布内的退化图像？我们分析得出这些图像需要满足两个主要条件。首先，这些图像需要具有自然外观和多样的退化类型，为模型压缩提供足够的监督，以保持对各种退化特征的性能。其次，我们通过高效的计算优化重建和蒸馏的一阶段。0应该具有自然纹理和特征。更重要的是，这些降级特征应尽可能多样，符合教师模型的偏好。因此，我们似乎试图解决以下问题：0I d = ϕ -1 ( I c )，(1)0其中ϕ表示从降级图像分布pd到清晰图像分布pc的学习去雨映射。在实践中，由于可以轻松采样到清晰图像Ic，降级图像Id（�pd）应该通过类似DeepDream[1]的模型反演范式进行优化，可以表示为：0I d = arg min x L ( ϕ ( x ) , I c )，(2)0其中x是从随机噪声到图像的优化。尽管这是一个多对一的不适定问题，但如果不加以先验约束，最优逆（Id）往往缺乏多样性。我们的直觉是，预训练的去雨网络应该学习与图像内容无关的降级表示。我们的观察结果证实了这一点，并激发我们获得降级多样性的正则化。如图2所示，我们采用了3个不同的降雨数据集，每个数据集分别选择了100张图像，其中Rain100H [29]和Rain100L[29]在图像内容上相同但降雨类型不同，而Test2800[10]与它们都不同。我们发现预训练去雨网络的深层表示（HINet[5]中具有64个维度的cat12层）可以通过降雨类型进行聚类，而与图像无关。60260优化0（噪声到图像）0批次多样性损失框架0微调0MSE0B0C0C0B0B0B0B0C0H0W0C0B0归一化池0前向0反向0修剪0随机0输入噪声0固定的教师模型0教师输出0未见过的清晰0图像0学生输出0挂钩特征0降级表示0批次0相关性0单位矩阵0图3.我们的无数据修剪框架概述。我们共同“梦想”多样的分布内的雨天图像，并蒸馏修剪模型，以保持去雨性能而无需原始数据。0因此，在公式（2）上，我们采用正交约束（详见第3.2节）来产生批次的多样性降级表示。如图2中t-SNE[27]结果中的黑色十字所示，我们的“梦想”降级图像展示了各种降级特征，并填补了与原始分布之间的差距。到目前为止，这些多样且分布内的数据可以为压缩模型提供足够的监督。此外，我们在单阶段学习中同时执行模型反演和蒸馏，我们的框架如下所示。03.2.框架0让T成为一个预训练的图像去雨模型，通常具有大量参数。让S成为一个修剪的学生网络，比T更紧凑。总体上，我们在单阶段学习框架中使用两个分支，分别将T反转以重建源降级图像，并利用这些数据对S进行微调。我们的整体方法如图3所示。0梦想降级图像。在这个分支中，我们通过将随机输入噪声优化为图像来反转预训练的T，这类似于从原始降级图像分布重新采样。具体而言，我们收集了一些干净的自然图像来构建目标集Y。给定任意目标图像（y∈RH×W×C，H，W，C分别为高度、宽度和颜色通道），通过优化可以重建降级图像ˆx：0min x L inv (T, x, y) + λ orth L orth (x), (3)0其中x ∈ RH×W×C并且是随机初始化的。我们可以通过计算L(T(x),y)来实现L inv，其中T(∙)表示教师模型T的输出，L(∙)是相似性准则损失（例如ℓ1损失）。L orth (x)表示0在T的深度特征空间中实现正交性约束，可以表示为：0L orth (x) = ||F ∙ FT - I||2, (4)0其中F ∈RB×C表示全局平均池化后并进行归一化的深度特征，I ∈RB×B表示单位矩阵。基于我们之前的观察，F可以表示退化类型，我们对其正交性进行约束以产生批次多样性，如图3右侧所示。然后，这个梦想分支的损失函数可以表示为：0L Dream = E (x,y) ∈ P xy L (T (x), y) + λ orth L orth (x),0其中Pxy表示与可学习的退化图像和固定的清晰图像组合的对。0知识蒸馏。知识蒸馏损失L KD 可以表示为：0L KD = E (x,y) ∈ P xy L (T (x), S (x)), (6)0其中S(x)表示修剪后的学生模型S的输出。当进行简单修剪时，修剪模型S和原始模型T之间存在微妙的统计建模差距。在L KD 的监督下，我们强制S逼近T的原始统计建模。03.3. 自适应修剪方案0此外，我们观察到T的不同组件模块表现出不同的修剪敏感性。例如，如图4所示，给定一个预训练的去雨模型（HINet[5]）和一张测试雨天图像，我们基于ℓ1正则化[13]对HINet的每个模块（x轴）进行单独的权重修剪，使用不同的修剪稀疏度（y轴）0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 920.10.20.30.40.50.60.70.80.9203040506070Ltotal = Linv + λorthLorthLDream+λKDLKD.(7)x, y) | y ∈ Y�;117end18APPENDSPARSITY(spa) ;19 end60270模块索引0修剪稀疏度0图4.对每个模块（x轴）分别使用不同的修剪稀疏度（y轴）进行修剪的PSNR结果（热图）。0然而，大多数先前的方法实现了参数重要性的隐式度量，这些度量在图像去雨中很难应用，特别是在没有源训练数据的情况下。为了减少修剪模型S的统计漂移并减轻知识蒸馏的压力，我们提出了一种自适应修剪方案。如算法1所示，我们的算法包括以下两个主要步骤。首先，我们明确地测量修剪模型在没有原始数据的情况下的性能下降。具体来说，我们通过使用集合Y反演模型T来重构（梦想）一批退化图像X。然后，我们可以评估给定模块的修剪稀疏性是否可接受，仅当平均PSNR大于我们的阈值时，其中这个结果是通过T和S在X上的输出对计算得到的。其次，基于上述测量，我们分层搜索预训练模型的所有子模块的最佳修剪率。对于每个给定的稀疏率，我们可以使用常见的正则化方法（如L1[13]）进行修剪。为了加速搜索过程，我们引入二分法，从每次迭代的稀疏度间隔的中点开始，如果可接受则向上搜索一半，否则向下搜索。03.4. 总体优化0配备了自适应修剪方案后，我们的框架展现出了增强的性能，总体优化如下所述。首先，我们利用自适应修剪方案修剪预训练的图像去雨模型T，如算法1所示，得到一个经过简单修剪的模型S，在微调之前仍然存在适度性能下降的问题。然后，我们使用提出的框架在没有源训练数据的情况下对修剪后的模型S进行蒸馏，如第3.2节所示。这个单阶段的损失函数可以表示为：0当此总损失在优化后收敛时，可以使用多样的分布式图像通过 T 来提取 S 。0算法1：自适应剪枝方案0输入：预训练的图像去雨模型 T输出：分层自适应稀疏度01 收集自然干净图像 Y ;03 初始化PSNR阈值 tp ;04 初始化稀疏精度 ϵ ← 1 ∙ e − 3 ;05 初始化学生模型 S ← T ;07 初始化 [ l , r ] ← [0 , 1] ; /* 区间 */09 spa ← ( l + r ) / 2 ; /* 稀疏度 */011 psnr ← 平均PSNR ( S ( X ) , T ( X ) ) ;013 l ← spa ; /* 向上搜索 */015 r ← spa ; /* 向下搜索 */04. 实验0在本节中，我们通过对各种图像去雨数据集使用最先进的方法评估了我们的无数据剪枝，并分析了我们方法的有效性。04.1. 实现0数据集。为了模拟真实场景中雨类型的复杂性和多样性，并探索一种更具普适性的方法，我们尽可能地在具有不同雨类型的数据集上进行评估。首先，我们分别在五个验证雨数据集上进行实验，分别是 Test2800 [ 10 ]， Test1200 [ 32]， Test100 [ 33 ]， Rain100H [ 29 ] 和 Rain100L [ 29]。这五个数据集同时使用了最先进的去雨方法 [ 5 , 31]（为简单起见，在以下称为 Rain13k）。此外，考虑到真实世界中相机传感器或玻璃窗户可能被雨滴遮挡，我们在 RainDrop [ 24 ]上进行评估，该数据集包含各种背景场景和雨滴。根据 [ 5 ,24 , 31 ]，我们采用 PSNR 和 SSIM作为评估雨去除性能的指标，其中 PSNR在YCbCr颜色空间的Y通道上计算。0细节。我们使用PyTorch实现了我们的方法。训练时使用Adam优化器，图像重建的学习率设置为5∙10−2，学习率ℓ1 [13]27.81 0.84426.32 0.78124.41 0.782 16.070.45927.720.83124.47 0.739erk [8]32.84 0.93131.82 0.88828.44 0.868 27.760.84434.320.94631.04 0.89533.40 0.93832.70 0.91230.07 0.894 29.190.87436.560.96532.38 0.917MPRNet[31]ℓ1 [13]29.34 0.88727.49 0.83124.92 0.816 18.660.59929.490.88825.98 0.804erk [8]32.37 0.92931.09 0.89525.30 0.835 23.460.78328.740.88028.19 0.86433.79 0.94032.95 0.91930.12 0.906 29.540.89036.940.96932.67 0.925HINet[5]1https://github.com/microsoft/nnierk [8]28.63 0.906 24.07 0.803lamp [15]29.54 0.908 24.69 0.80734.7 G30.42 0.918 25.00 0.813DuRN[18]ℓ1 [13]14.61 0.725 13.77 0.639erk [8]17.83 0.824 16.68 0.732lamp [15]19.63 0.822 18.18 0.73141.8 G31.18 0.921 24.82 0.808AGAN[24]60280Test2800 [ 10 ] Test1200 [ 32 ] Test100 [ 33 ] Rain100H [ 29 ] Rain100L [ 29 ] 平均0模型方法 FLOPs PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM0灯 [ 15 ] 33.07 0.934 32.38 0.899 29.09 0.879 28.82 0.864 35.59 0.957 31.79 0.9070我们的0原始 141.0 G 33.64 0.938 32.91 0.916 30.27 0.897 30.41 0.890 36.40 0.965 32.73 0.9210灯 [ 15 ] 33.23 0.936 32.52 0.912 27.58 0.872 27.21 0.862 30.98 0.919 30.30 0.9000我们的0原始 170.5 G 33.91 0.941 33.05 0.919 30.29 0.906 30.65 0.894 37.28 0.970 33.03 0.9260表1. 在Test2800 [ 10 ]，Test1200 [ 32 ]，Test100 [ 33 ]，Rain100H [ 29 ]和Rain100L [ 29]上的无数据修剪结果。我们通过相同的FLOPs压缩了最先进的去雨模型，以便与最经典的（ℓ 1 [ 13 ]）和最现代的（erk [ 8 ]，lamp [ 15]）修剪方法进行公平比较。修剪和原始模型的最佳分数分别用粗体和下划线标出。0微调模型的学习率设置为 1 ∙ 10 − 4。我们为每个批次收集了 20张辅助干净图像，并随机裁剪这些图像为 256 × 256。对于超参数，我们在我们的框架中设置了 { λ orth , λ KD }= { 0 . 05 , 1 . 0 } 。我们在算法 1 中将PSNR阈值设置为 50，以更好地权衡FLOPs和性能。在NVIDIA GTX 3090GPU上，每个时期只需 3 个时期，每个时期 600 次迭代。04.2. 无数据压缩结果0考虑到原始数据不可用，我们主要与其他基于幅度的修剪方法进行比较，包括最经典的 ℓ 1 正则化 [ 13]，以及最现代的 erk [ 8 ] 和 lamp [ 15 ]方法。与它们不同的是，我们设计了明确的权重重要性指标，并在修剪去雨模型时进行无数据蒸馏。值得注意的是，由于不同的设计，如渐进式架构 [ 5 , 31 ] 或注意力操作 [ 34, 35]，较小的模型有时会产生更大的计算量。因此，我们主要评估所有方法的FLOPs，这比模型大小更能反映实际的计算成本。为了公平比较，我们确保所有修剪后的模型具有相同的FLOPs，使用 nni 1 工具包，计算输入尺寸为 1 × 3 ×256 × 256 的FLOPs。0Rain13k。我们采用了 HINet [ 5 ] 和 MPRNet [ 31]，它们取得了最先进的结果，并在其他方法上取得了优势。如表1所示，我们的方法将原始HINet的FLOPs压缩了41.3%，仅降低了 0.36 dB 的PSNR和 0.001的SSIM。我们还将 MPRNet 的FLOPs减少了37.7%，仅降低了 0.35 dB 的PSNR和 0.004的SSIM。值得注意的是，对于所有方法，相同的FLOPs下，压缩后的模型大小也是近似的：HINet的 77% -80%，MPRNet的 38% - 41%。0测试集A 测试集B0模型方法 FLOPs PSNR SSIM PSNR SSIM0ℓ 1 [ 13 ] 24.52 0.849 21.81 0.7580我们的0原始 55.9 G 31.24 0.926 25.32 0.8170我们的0原始 89.4 G 31.51 0.921 24.92 0.8090表2. 在RainDrop数据集 [ 24]上的无数据修剪结果。修剪和原始模型的最佳分数分别用粗体和下划线标出。0可以看到，在相同的计算成本压缩下，其他修剪方法在修剪后不可避免地导致性能显著下降。相比之下，我们在处理各种类型和场景的雨水时，实现了与原始模型相当的性能，而无需原始数据。0RainDrop。我们采用了代表性的方法，包括使用对抗训练的 AGAN [ 24 ] 和采用“双残差连接”风格的 DuRN [ 18]。如表2所示，我们的方法将 AGAN 的FLOPs减少了53.2%，仅降低了 0.215 dB 的PSNR和 0.0005的SSIM。对于 DuRN，我们的方法在PSNR上超过其他方法0.595 dB，在SSIM上超过其他方法0.007。值得注意的是，其他修剪方法会导致 AGAN的性能急剧下降，而我们的方法仍然保持了原始性能。我们推测这是因为这些方法可能不适用于生成网络。相反，我们的方法可以有效地压缩生成网络。20253035baseline+AP+AP +Lkd+AP +Lkd +Lorth0.50.60.70.80.91.0baseline+AP+AP +Lkd+AP +Lkd +Lorth60290在Rain13K上修剪HINet [5]，修剪AGAN [24]0我们的lamp[15]原始输入0图5.修剪图像去雨模型的定性结果。我们的方法保持了修剪模型在处理各种退化特征方面的性能，并且优于现代修剪方法lamp [15]。0PSNR0Test100 Rain100H Test1200 Test2800 Rain100L0数据集0SSIM0图6.对五个测试数据集进行消融研究。我们的自适应剪枝方案（AP）在无需微调的情况下减少了修剪模型的初始统计漂移。我们的蒸馏梦想（Lkd）和批量多样性损失（Lorth）是弥合与原始模型之间性能差距的关键。0利用预训练模型学习的强先验知识来保持压缩模型的性能。04.3.消融研究0为了证明我们方法的有效性，我们在五个验证数据集上进行了几个消融实验，包括Test2800 [10]，Test1200[32]，Test100 [33]，Rain100H [29]和Rain100L[29]。在我们的方法中，修剪模型的性能主要归因于两个显著的组成部分：自适应剪枝方案以调节其初始统计漂移，然后进行蒸馏以提供无数据补偿。0因此，我们研究了自适应剪枝（AP）和知识蒸馏（Lkd）的消融。此外，为了探索重构多样性对蒸馏的影响，我们进行了批量多样性损失Lorth的消融。0自适应剪枝方案的有效性。在这部分中，我们探索了自适应剪枝方案的有效性。我们采用L1正则化[13]作为基准，因为它是最常用的权重剪枝方法之一。它根据ℓ1范数对层的权重进行排序，然后删除其中最低的给定比例。然而，这种稀疏比率通常依赖于手工设置和搜索。为了确定不同层的适当稀疏比率，我们引入了基于ℓ1正则化的自适应剪枝方案。为了公平比较，我们采用相同的预训练HINet[5]，GFLOPs为170.5，并确保所有使用不同方法剪枝的模型达到相同的FLOPs（100.0 G）。如图6所示，添加AP优于基准平均5.01dB的PSNR和0.09的SSIM，均无需微调。这表明该方案在估计不同层的冗余时表现出色。0蒸馏梦想的有效性。尽管我们的自适应剪枝方案可以减少性能下降，但修剪模型仍然难以与原始模型保持可比性能。为了解决这个问题，我们提出了我们的框架来进行蒸馏梦想。如图6所示，在我们的框架中，仅进行蒸馏（+Lkd，蓝线）相比于我们的初始修剪（无需微调，紫线），平均提高了0.9dB的PSNR和0.015的SSIM。这表明我们的无数据蒸馏使修剪模型能够重新拟合原始模型的统计建模。我们注意到，改进幅度因不同层而异。-30-20-1001020X-20-1001020Y60300目标 w L orth w/o L orth0图7.我们可以使用批量多样性损失Lorth生成具有不同退化特征的多样化雨天图像，从而提供可泛化的蒸馏监督。0不同数据集上的改进效果不同。例如，在Test2800上的改进较小（0.29 dB），而在Rain100H上的改进较大（1.95dB）。我们分析认为，这是因为用于蒸馏的合成雨天样本不够多样化。0梦想多样性的有效性。为了增加我们框架中的重构多样性，我们引入了一个约束（Lorth），用于沿批次维度的深层特征的正交性。如图6所示，我们的多样性损失（+Lorth，红线）在五个数据集上带来了一致的改进。即使在之前的Rain100H和Test100上，也分别实现了1.3和1.8dB的PSNR改进。结合表1，我们在修剪后实现了与原始HINet相当的性能，仅平均下降了0.36dB的PSNR和0.001的SSIM。我们使用多样化的梦想图像进行知识蒸馏，从而保持修剪模型在恢复具有各种退化特征的图像上的广义性能，类似于以前训练过的图像。04.4.性能分析0定性结果。如图5所示，我们展示了使用我们的方法和现代权重剪枝方法（lamp[15]）在Rain13k和Raindrop数据集上对预训练去雨模型进行剪枝的性能比较。输入的雨天图像（第一行）呈现出各种退化特征。为了公平比较，我们确保剪枝模型的计算成本压缩到相同水平。我们可以看到，即使没有原始数据，我们的剪枝方法仍然可以保持处理各种退化特征的原始能力，包括不同的雨天模式、方向和密度。0梦想的可视化。如图7所示，我们展示了使用梦想方法重建的图像。我们收集了几个未见过的干净图像作为目标（如黑色虚线框所示），并重复它们以形成一个批次进行反演优化。可以看到，通过引入Lorth，这些梦想的图像呈现出各种类型。0数据Rain100HRain100LTest2800梦想（我们的）0图8.我们使用HINet [5]梦想的图像在MPRNet[31]的深度特征空间中也表现出多样性。0雨的可视化，包括不同的方向和密度。相反，如果没有添加Lorth，批次内优化的这些图像将呈现出相似的风格。我们推测这些优化空间中的局部最小值与整个源训练数据集的某些统计特性有关。我们使用正交正则化来获得深度退化表示，并有效地产生多样的雨类型。0泛化性分析。为了进一步验证我们观察到的退化先验的泛化性，我们获取了由HINet梦想的退化图像，并使用它们在MPRNet的深度表示中执行t-SNE[27]聚类（使用56个通道的倒数第二层）。如图8所示，MPRNet的深度表示也可以按照雨的类型进行聚类，而与图像内容无关，这证实了上述泛化的退化先验。HINet梦想的这些图像在MPRNet的深度特征空间中也表现出多样性。这表明这些重构可能与源训练域共享一些统计特性，从而可以弥合压缩模型和原始模型之间的性能差距。05.结论0我们提出了一种新颖的无数据去雨模型压缩框架。首先，基于我们的观察到去雨网络可以学习到与内容无关的退化表示，我们反转预训练模型并约束其退化表示的正交性以重构多样且分布在内的雨天数据。此外，我们联合优化重构和蒸馏，从而保持压缩模型在处理各种类型的雨天时的性能。0致谢。本研究得到了中国国家重点研发计划（2020AAA0105701）、国家自然科学基金（NSFC）（61872327）和安徽省重大科技项目（No. 012223665049）的支持。[1] Mike Tyka Alexander Mordvintsev, Christopher Olah. In-ceptionism: Going deeper into neural networks. https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html, 2015.[3] Guobin Chen, Wongun Choi, Xiang Yu, Tony Han, and Man-mohan Chandraker. Learning efficient object detection mod-els with knowledge distillation. Advances in neural informa-tion processing systems, 30, 2017.60310参考文献0[2] J´er´emie Bossu, Nicolas Hautiere, and Jean-PhilippeTarel. 通过使用条纹方向直方图在图像序列中检测雨或雪.计算机视觉国际期刊, 93(3):348–367, 2011.0[4] Hanting Chen, Yunhe Wang, Chang Xu, Zhaohui Yang,Chuanjian Liu, Boxin Shi, Chunjing Xu, Chao Xu, and Qi Tian.DAFL：无数据学习学生网络。在ICCV，2019年。0[5] Liangyu Chen, Xin Lu, Jie Zhang, Xiaojie Chu, and Cheng-peng Chen.HiNet：用于图像恢复的半实例归一化网络。在IEEE/CVF计算机视觉与模式识别会议（CVPR）研讨会论文集中，页码182-192，2021年6月。0[6] Yi-Lei Chen and Chiou-Ting Hsu.广义低秩外观模型用于时空相关的雨滴。在IEEE国际计算机视觉会议论文集中，页码1968-1975，2013年。0[7] Jang Hyun Cho and Bharath Hariharan.知识蒸馏的功效。在IEEE/CVF国际计算机视觉会议论文集中，页码4794-4802，2019年。0[8] Utku Evci, Trevor Gale, Jacob Menick, Pablo Samuel Cas-tro, and Erich Elsen. 操纵彩票：使所有彩票都获奖。在HalDaum´e III和AartiSingh编辑的第37届国际机器学习会议论文集中，机器学习研究论文集的第119卷，页码2943-2952。PMLR，2020年7月13日-18日。0[9] Gongfan Fang, Jie Song, Xinchao Wang, ChengchaoShen, Xingen Wang, and Mingli Song.无数据知识蒸馏的对比模型反演。arXiv预印本arXiv:2105.08584，2021年。0[10] Xueyang Fu, Jiabin Huang, Delu Zeng, Yue Huang,Xinghao Ding, and John Paisley.通过深度细节网络从单幅图像中去除雨水。在IEEE计算机视觉与模式识别会议论文集中，页码3855-3863，2017年。0[11] Shupeng Gui, Haotao N Wang, Haichuan Yang, Chen Yu,Zhangyang Wang, and Ji Liu.具有对抗鲁棒性的模型压缩：统一的优化框架。神经信息处理系统进展，32：1285-1296，2019年。0[12] Song Han, Huizi Mao, and William J Dally.深度压缩：通过修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149，2015年。0[13] Song Han, Jeff Pool, John Tran, and William Dally.同时学习权重和连接以实现高效的神经网络。在C. Cortes，N.Lawrence，D. Lee，M. Sugiyama和R.0Garnett, 编辑，神经信息处理系统进展，第28卷。CurranAssociates, Inc.，2015年。0[14] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean.蒸馏神经网络中的知识。arXiv预印本arXiv:1503.02531，2015年。0[15] Jaeho Lee, Sejun Park, Sangwoo Mo, Sungsoo Ahn, andJin- woo Shin.基于幅度修剪的层自适应稀疏化。在国际学习表示会议上，2021年。0[16] Siyuan Li, Iago Breno Araujo, Wenqi Ren, ZhangyangWang, Eric K Tokuda, Roberto Hirata Junior, Roberto Cesar-Junior, Jiawan Zhang, Xiaojie Guo, and Xiaochun Cao.单幅图像去雨：全面的基准分析。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码3838-3847，2019年。0[17] Xia Li, Jianlong Wu, Zhouchen Lin, Hong Liu, andHongbin Zha.递归挤压和激励上下文聚合网络用于单幅图像去雨。在欧洲计算机视觉会议（ECCV）论文集中，页码254-269，2018年。0

下载后可阅读完整内容，剩余1页未读，立即下载