小波知识蒸馏提升图像到图像翻译性能

91 浏览量更新于2023-10-25 收藏 17.65MB PDF 举报

频率分析

参数优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

00.20.40.60.811.21.41.6.0124640小波知识蒸馏：朝着高效的图像到图像翻译0张林峰 1 陈欣 2 涂小兵 3 万鹏飞 3 徐宁 3 马凯胜 1 * 清华大学 1 英特尔公司 2 快手科技 3 †0zhang-lf19@mails.tsinghua.edu.cn,xin.chen@intel.com, { tuxiaobing,wanpengfei } @kuaishou.com0ningxu01@gmail.com, kaisheng@mail.tsinghua.edu.cn0摘要0生成对抗网络（GANs）在图像到图像翻译中取得了显著的成就。然而，由于大量的参数，最先进的GANs通常效率低下且内存使用庞大。为了解决这个挑战，首先，本文从频率的角度研究了GANs的性能。结果表明，GANs，尤其是小型GANs，缺乏生成高质量高频信息的能力。为了解决这个问题，我们提出了一种新颖的知识蒸馏方法，称为小波知识蒸馏。小波知识蒸馏将图像通过离散小波变换分解为不同的频段，然后只蒸馏高频段。结果是，学生GAN可以更加关注其对高频段的学习。实验证明，我们的方法在几乎没有性能下降的情况下，使CycleGAN的压缩率提高了7.08倍，加速了6.80倍。此外，我们研究了判别器和生成器之间的关系，结果表明判别器的压缩可以提升生成器的性能。01. 引言0生成对抗网络（GANs）在使用配对和非配对数据集生成高保真、高分辨率和逼真的图像和视频方面取得了巨大进展[4,13, 17, 18, 25, 41, 43,59]。GANs的出色性能促进了其在各种图像到图像翻译任务中的应用，如图像风格转换[20,21]和超分辨率[22]。与图像分类和目标检测等其他任务相比，图像到图像生成更加复杂，因为它具有更大的输出空间。作为一个结果0* 通讯作者。†本项目由快手研究计划资助。本工作是张林峰和陈欣在快手科技实习期间完成的。代码已在Github上发布。0低频高频更高频最高频06.06G FLOPs0归一化L1距离0大型GAN 小型GA00.41G FLOPs 1.56G FLOPs中型GAN0图1.不同频段上GAN生成图像与真实图像之间的归一化L1距离。不同颜色表示具有不同FLOPs的GAN。结果是在Edge →Shoe数据集上进行8次试验后平均得出的。0由于计算需求高和大量参数，现有的GANs在推理效率和内存占用方面效率低下，限制了它们在资源受限平台上的使用。知识蒸馏（KD）已经成为提高小型模型性能的有效工具[5,14]。通过模仿笨重的教师模型的预测结果和中间特征，轻量级学生模型的性能可以显著提高。在分类[44]、目标检测[53]、语义分割[31]和动作识别[28]等领域的先前知识蒸馏方法的基础上，一些最近的研究尝试直接将知识蒸馏应用于GANs。不幸的是，其中大多数获得了非常有限甚至负面的效果[23,26]。为什么知识蒸馏在GAN上效果不好？本文首先从频率的角度研究了这个问题，进行了以下实验。首先，离散小波124650教师生成器0学生生成器0KD损失0DWT0DWT0（ , ）0低频高频0低频0小波KD损失0（ , ）0教师生成器0学生生成器0(a) 知识蒸馏 (b) 小波知识蒸馏0图2. 知识蒸馏[14]（子图a）和提出的小波知识蒸馏（子图b）在Edges →Shoes数据集上的比较。小波知识蒸馏首先对生成的图像应用离散小波变换（DWT），然后仅最小化高频带上的差异。0利用变换（DWT）将生成的图像和真实图像分解为不同的频带。然后，我们分别计算每个频带上的归一化L1范数距离1。如图1所示，所有的GAN在低频带上都达到了非常低的误差，但在高频带的生成上失败了，这与GAN生成的图像没有良好细节的观察一致。此外，观察到与大型GAN相比，小型GAN在低频带上的性能相当，但在高频带上的性能要差得多。这两个观察结果表明，在GAN压缩过程中应更加关注高频。然而，GAN应用中的简单知识蒸馏直接最小化学生和教师生成的图像之间的差异，忽视了高频的优先级。受到这些观察的启发，我们提出了小波知识蒸馏，它在知识蒸馏中突出了学生对高频的学习。如图2所示，我们首先对教师和学生生成的图像应用离散小波变换，将其分解为不同的频带，然后仅在高频带上最小化L1损失。丰富的配对和非配对图像到图像转换实验定量和定性地证明了我们方法的有效性。在Horse → Zebra和Zebra →Horse数据集上，我们的方法在几乎不降低性能的情况下实现了7.08×的压缩和6.80×的加速。在讨论部分，我们进一步研究了不同频带的有效性以及知识蒸馏方案的影响。此外，还介绍了模型压缩中判别器和生成器之间的关系研究，表明压缩判别器可以显著提升压缩生成器的性能。01 有关此实验的详细信息可以在补充材料中找到。0我们的主要贡献可以总结如下。0•我们从频率的角度分析了GAN的性能，定量地显示出GAN，特别是小型GAN在生成图像中缺乏生成高质量高频信息的能力。0•基于上述观察，提出了小波知识蒸馏来解决这个问题，只蒸馏高频信息，而不是教师生成的图像中的所有信息。0•我们的方法在三个模型和八个数据集上通过六种比较方法的定量和定性结果证明了其有效性。0•我们研究了模型压缩过程中判别器和生成器之间的关系。结果表明，在对抗学习中，压缩判别器对于保持与压缩生成器的竞争是必要的，这进一步有利于生成器的性能。02. 相关工作02.1. 图像到图像翻译0生成对抗网络在制定和生成高保真度、高分辨率和逼真的图像和视频方面展示了强大的能力，因此成为图像到图像翻译中的主导模型[2, 7, 10, 13, 30, 46,47]。Pix2Pix首次提出了将条件生成对抗网络应用于成对图像到图像翻译[17]。然后，Pix2PixHD通过粗到细的生成器和多尺度鉴别器生成更高分辨率的图像[48]。一个更具挑战性的任务是使用不成对的数据集进行图像到图像翻译。CycleGAN通过引入循环一致性损失来解决这个挑战，该损失将生成的图像重构为输入域[59]。然后，attentionCycleGAN被提出来找到图像中的关键像素[9]。Spade模块在GauGAN中引入，以避免批归一化层中的语义信息丢失[39]。最近，研究人员发现CycleGAN中的完美重建可能过于困难[36]。为了解决这个问题，Park等人引入了基于补丁的对比学习，改善了生成质量，稳定了训练过程，并减少了训练时间[38]。高分辨率和逼真的生成图像以计算和参数的大量消耗为代价。为了解决这个挑战，最近提出了许多有效的压缩方法，如网络剪枝和网络架构搜索。Li等人提出了GAN压缩，该方法应用一次性搜索找到最佳的微型GAN架构[23]。Jin等人将基于Inception的残差块引入生成器，并通过通道剪枝进一步压缩它们[19]。Liu等人提出了内容感知的GAN压缩，使GAN在压缩过程中保持关键区域的内容[32]。Li等人提出了使用选择性激活鉴别器重新审视GAN压缩中鉴别器的作用[24]。X(ψ) = {ψjk = 2−j/2ψ(2−jx − k)| j, k ∈ Z},(1)124660attentionCycleGAN引入了注意力模块来找到图像中的关键像素[9]。Spade模块在GauGAN中引入，以避免批归一化层中的语义信息丢失[39]。最近，研究人员发现CycleGAN中的完美重建可能过于困难[36]。为了解决这个问题，Park等人引入了基于补丁的对比学习，改善了生成质量，稳定了训练过程，并减少了训练时间[38]。高分辨率和逼真的生成图像以计算和参数的大量消耗为代价。为了解决这个挑战，最近提出了许多有效的压缩方法，如网络剪枝和网络架构搜索。Li等人提出了GAN压缩，该方法应用一次性搜索找到最佳的微型GAN架构[23]。Jin等人将基于Inception的残差块引入生成器，并通过通道剪枝进一步压缩它们[19]。Liu等人提出了内容感知的GAN压缩，使GAN在压缩过程中保持关键区域的内容[32]。Li等人提出了使用选择性激活鉴别器重新审视GAN压缩中鉴别器的作用[24]。02.2. 知识蒸馏0知识蒸馏旨在在笨重的教师模型的监督下促进轻量级学生模型的训练，被认为是模型压缩和模型准确性提升的有效方法。首次提出使用教师模型训练学生模型的想法是由Bu-ciluˇa等人提出的用于集成模型压缩[5]。然后，Hinton等人提出了知识蒸馏的概念，引入了一个名为温度的超参数，用于软化教师logits的分布[14]。最近，已经提出了许多方法来蒸馏中间特征的知识[52, 54]以及它们之间的关系[40,45]。除了图像分类，最近的研究还成功地将知识蒸馏应用于更具挑战性的任务，如目标检测[3,53]，语义分割[31]，预训练语言模型[42,50]，机器翻译[27]，分布式训练[37]，多出口模型[56]等等。然而，关于图像到图像翻译中知识蒸馏的影响尚未得到充分研究。现有的研究表明，直接最小化学生和教师生成图像之间的距离并不能改善学生的性能，有时甚至会损害学生的性能[26]。一些先前的方法尝试将基于分类的知识蒸馏应用于图像到图像翻译，但只取得了非常有限的改进。例如，Li等人提出最小化教师和学生GAN之间的中间特征之间的距离[23]，Li等人尝试蒸馏语义信息。0最近，Chen等人提出了一种基于GANs的整体知识蒸馏框架，通过蒸馏生成器和判别器来进行知识蒸馏[6]。Jin等人提出了在中间特征上使用全局核对齐来蒸馏生成器的方法，从而提高了学生的性能而不引入额外的层[19]。我们的方法与之前的GAN知识蒸馏方法的主要区别在于我们的方法蒸馏生成的图像而不是中间特征。因此，我们的方法与之前的方法正交，并且可以与之前的方法结合以获得更好的性能。02.3. 深度学习中的小波分析0与傅里叶分析等其他频率分析方法相比，小波变换可以捕捉到符号中的空间和频率信息，因此在图像处理中被认为是一种更有效的方法[33]。随着深度学习的成功，已经提出了丰富的方法将小波方法应用于不同目标的神经网络中。Williams等人提出了用离散小波变换代替最大池化和平均池化的小波池化方法，以在下采样过程中保留图像的全局信息[49]。Chen等人提出了类似小波的自编码器，将原始图像压缩成两个低分辨率图像以加速推理计算[8]。Liu等人将小波变换引入卷积神经网络，以利用纹理分类中的频谱信息[12]。最近的研究还将小波分析应用于图像到图像的转换任务。Huang等人首次提出了Wavelet-SRNet，通过预测高分辨率图像的小波系数来进行单图像超分辨率[15]。受U-Net的架构启发，Liu等人将小波包应用于卷积神经网络中，以有效地获得大的感受野[29]。据我们所知，本文是第一篇将小波分析应用于知识蒸馏和GANs压缩的工作。03. 方法论03.1. 小波分析0给定一个函数 ψ ，令 X ( ψ ) 为 ψ 的扩展和平移的集合：0其中 ψ 是正交小波，如果 X ( ψ ) 形成 L 2空间的一组基。离散小波变换 (DWT)是一种用于金字塔图像分解的数学工具。使用DWT，每个图像可以分解为HorseZebraZebraHorsen�iKLsoftmaxft(xi)τ124670表1.使用Pix2Pix和Pix2PixHD进行成对图像到图像的转换的实验结果。较低的FID值表示更好的性能。∆表示与原始学生相比的性能改进。每个结果是在8次试验中平均得出的。0Pix2PixHD Pix2Pix0#参数 (M) FLOPs (G) 方法指标 #参数 (M) FLOPs (G) 方法指标0FID ↓ ∆ ↑ FID ↓ ∆ ↑045.59 48.36 教师 41.59 ± 0.42 – 54.41 6.06 教师 59.70 ± 0.91 –028.32 × 1.89025.59 ×0原始学生 85.06 ± 0.98 – Hinton等人 [14] 45.31 ± 0.63 -0.67 Hinton等人 [14] 86.97 ± 3.49 -1.91 Zagoruyko等人 [52]44.21 ± 0.72 0.43 Zagoruyko等人 [52] 84.25 ± 2.08 0.81 Li和Lin等人 [23] 44.03 ± 0.41 0.61 Li和Lin等人 [23] 83.63 ± 3.121.43 Li和Jiang等人 [26] 43.90 ± 0.36 0.74 Li和Jiang等人 [26] 84.01 ± 2.31 1.05 Jin等人 [19] 43.97 ± 0.17 0.67 Jin等人 [19]84.39 ± 3.62 0.67 Ahn等人 [1] 44.53 ± 0.48 0.11 Ahn等人 [1] 84.92 ± 0.78 0.140Ours 42.53 ± 0.29 2.11 Ours 80.13 ± 2.18 4.930表2. 使用CycleGAN进行无配对图像到图像转换的实验结果，从Horse到Zebra和从Zebra到Horse。较低的FID值表示性能更好。∆表示与原始学生相比的性能改进。每个结果是在8次试验中平均得出的。0#参数（百万） FLOPs（十亿）方法指标 #参数（百万） FLOPs（十亿）方法指标0FID ↓ ∆ ↑ FID ↓ ∆ ↑011.38 49.64 教师 61.34 ± 4.35 – 11.38 49.64 教师 138.07 ± 4.01 –015.81 × 3.35014.82 ×0原始学生 152.67 ± 9.63 – Hinton等[14] 84.08 ± 3.78 0.96 Hinton等[14] 148.64 ± 1.62 4.03 Zagoruyko等[52] 81.24 ± 2.013.80 Zagoruyko等[52] 148.92 ± 1.20 3.75 Li和Lin等[23] 83.97 ± 5.01 1.07 Li和Lin等[23] 151.32 ± 2.31 1.35 Li和Jiang等[26]81.74 ± 4.65 3.30 Li和Jiang等[26] 151.09 ± 3.67 1.58 Jin等[19] 82.37 ± 8.56 2.67 Jin等[19] 149.73 ± 3.94 2.94 Ahn等[1]82.91 ± 2.41 2.13 Ahn等[1] 150.31 ± 3.55 2.360Ours 77.04 ± 3.52 8.00 Ours 146.01 ± 1.86 6.660Ours + Li和Lin等 76.40 ± 3.17 8.64 Ours + Li和Lin等 145.96 ± 1.92 6.7107.08 × 7.2906.80 ×0原始学生 141.86 ± 1.57 – Hinton等[14] 70.35 ± 3.27 0.19 Hinton等[14] 142.03 ± 1.61 -0.17 Zagoruyko等[52] 67.51 ± 4.573.03 Zagoruyko等[52] 141.23 ± 1.88 0.63 Li和Lin等[23] 68.58 ± 4.31 1.96 Li和Lin等[23] 141.32 ± 1.27 0.54 Li和Jiang等[26]68.94 ± 2.98 1.60 Li和Jiang等[26] 151.09 ± 3.67 1.58 Jin等[19] 67.31 ± 3.01 3.23 Jin等[19] 140.98 ± 1.41 0.88 Ahn等[1]69.32 ± 5.89 1.22 Ahn等[1] 141.50 ± 2.51 0.360Ours 61.65 ± 4.73 8.89 Ours 138.84 ± 1.47 3.020Ours + Li和Lin等 60.13 ± 4.08 10.41 Ours + Li和Lin等 138.52 ± 0.95 3.340包括LL、LH、HL和HH四个频带，其中LL表示低频带，其他为高频带。LL波段可以通过DWT进一步分解为LL2、LH2、HL2、HH2等。将DWT表示为Ψ(∙)，则图像x的高频和低频波段分别可以写为ΨH(x)和ΨL(x)。具体而言，在本文中，我们在所有实验中应用了3级离散小波变换。ΨL(x)表示LL3波段。ΨH(x)={HL3、LH3、HH3、HL2、LH2、HH2、HL1、LH1、HH1}。03.2. 知识蒸馏0重新审视分类任务中的知识蒸馏。在本小节开始时，我们重新审视了0知识蒸馏在分类任务上的应用[14]。给定一组训练样本X ={x1，x2，...，xn}及其标签Y ={y1，y2，...，yn}，将学生网络和教师网络分别表示为fs和ft，学生的损失函数可以表示为L Student = α∙L CE + (1-α)∙LKD，其中LCE表示预测f(x)与其标签y之间的交叉熵损失，α∈(0，1]是一个超参数，用于平衡两个损失项，LKD表示知识蒸馏损失。在分类任务中，L KD可以表示为0L KD = 10未知 , softmax函数 fs ( x i )0未知 , (2)0其中KL表示Kullback-Leibler散度，(a)(b)(c)(d)(e)(f)(g)(h)∥(ft(xi) − fs(xi)∥1.(3)∥(ΨH ◦ ft)(xi) − (ΨH ◦ fs)(xi)∥1. (4)124680输入0基线（14.82×）0教师0我们的方法（14.82×）0输入0基线（3.88×）0真实值0我们的方法（3.88×）0Jin等人（14.82×）0Li和Jiang等人（3.88×）0Li和Jiang等人（14.82×）0Jin等人（3.88×）0图3. 使用CycleGAN进行Horse → Zebra的定性结果（a-d），以及使用Pix2Pix进行Edges →Shoes的定性结果（e-h）。括号中的数字表示与其教师相比的加速比。“基线”表示没有知识蒸馏训练的学生。0它衡量了学生和教师的分类概率分布之间的距离。τ是softmax函数中的温度超参数。0图像到图像翻译的知识蒸馏在图像到图像翻译任务中，由于预测结果f(x_i)是像素值而不是分类概率分布，KL散度不能用来衡量学生和教师之间的差异。一个简单的替代方法是用学生和教师生成的图像之间的L1范数距离替换KL散度。然后，我们可以扩展Hinton知识蒸馏用于图像到图像翻译，其损失函数可以表示为0L KD = 10n未知0除了Hinton知识蒸馏之外，还有丰富的特征知识蒸馏方法可以直接应用于图像到图像翻译。由于我们的方法不是基于特征的，所以我们在这里不介绍它们。0小波知识蒸馏基于上述说明，现在我们可以介绍提出的小波知识蒸馏，它只在学生和教师之间的高频差异上最小化。其损失函数LWKD可以表示为0L WKD =10n未知0在无配对图像到图像翻译模型（如CycleGAN）中，有时会有两个生成器用于两个翻译方向。在这种情况下，提出的小波知识蒸馏损失可以同时应用于两个方向。0总体训练损失可以表示为L overall = L origin + α ∙ LWKD，其中L origin表示不同模型的原始训练损失，例如对抗学习损失和循环损失。α是平衡两个损失函数的超参数。超参数敏感性研究已在补充材料中给出。(a)(b)(c)(d)(e)(f)(g)(h)(i)124690输入基线我们的教师输入基线我们的教师输入基线我们的教师0图4. 其他数据集上的定性实验：Winter → Summer（子图a-b），Summer → Winter（子图d-e），Apple → Orange（子图c），Photo→ Monet（子图f），Cityscapes（子图g），Facades（子图h）和Maps（子图i）。0表3.使用Pix2Pix在Cityscapes上进行成对图像到图像翻译实验的结果。更高的mIoU值更好。∆表示与原始学生相比的性能改进。每个实验平均进行8次试验。0#参数（百万） FLOPs（十亿）方法指标0mIoU提升 ∆ 提升054.41 96.97 教师 46.51 ± 0.32 –013.61 4 . 00 × 24.90 3 . 88 ×0原始学生 41.35 ± 0 . 22 – Hinton等人[14]40.49 ± 0 . 41 -0.86 Zagoruyko等人[52]40.17 ± 0 . 36 -1.18 Li和Lin等人[23] 41.52± 0 . 34 0.17 Li和Jiang等人[26] 41.77 ± 0 .30 0.42 Jin等人[19] 41.29 ± 0 . 51 -0.06Ahn等人[1] 41.88 ± 0 . 45 0.530我们的方法 42.93 ± 0 . 25 1.5804. 实验04.1. 实验设置0模型和数据集实验主要使用Pix2Pix[17]、CycleGAN[59]和Pix2PixHD[48]三个模型进行。我们的教师模型是使用它们发布的代码设置的原始模型(ngf=64)2。学生模型与教师模型具有相同的架构和深度，但通道较少(ngf=32/24/16)。定量实验在Horse→ Zebra、Edge →Shoe和Cityscapes[11]上进行。此外，我们还在Winter →Summer、Summer → Winter、Apple →Orange、Photo → Monet、Facades和Maps[16,58]上进行定性实验。0评估设置根据之前的工作[19]，我们采用Cityscapes和其他数据集上的Fr´echet Inception Distance(FID)和mIoU作为性能指标。较低的FID和较高的mIoU表明生成的图像质量更好。有关更多详细信息，请参阅补充材料中的代码。02 “ngf”表示“生成器滤波器的数量”04.2. 定量结果0配对和非配对图像转换的定量实验结果分别显示在表1和表2中。Cityscapes上的实验结果显示在表3中。观察到：(a)直接将原生知识蒸馏(方程3)应用于GANs有时会导致性能下降。例如，使用Pix2pix和Pix2PixHD在Edges →Shoes上，FID分别增加了1.91和0.67。(b)相比之下，我们的方法在所有数据集和模型上都取得了一致且显著的性能提升，超过其他GAN知识蒸馏方法的明显差距，例如在CycleGAN上平均降低了3.78的FID。(c)在Horse →Zebra和Zebra →Horse上，使用我们的方法训练的学生模型几乎与教师模型具有相同的FID，这表明几乎没有性能下降的情况下进行了7.08倍的压缩和6.80倍的加速。(d)与没有知识蒸馏的学生相比，蒸馏学生不仅达到了更低的FID，而且倾向于具有更低的FID标准差，这表明知识蒸馏可以稳定GAN的训练。(e)我们的方法和先前的特征知识蒸馏方法可以一起使用，进一步在CycleGAN上平均降低了0.63的FID。04.3. 定性结果0CycleGAN在Horse → Zebra(a-d)和Pix2Pix在Edges →Shoes(e-h)上的定性结果显示在图3中。观察到：(a)在Horse →Zebra上，基线模型无法将整个马的身体转化为斑马(例如，子图a、b和c)。此外，斑马的条纹生成混乱且不自然(例如，子图d)。这个问题也存在于其他知识蒸馏方法中(例如，子图c)。相比之下，蒸馏学生生成的图像没有这些问题。(b)在Edges → Shoes上，蒸馏学生生成的图像050010001500200025000.00.51.01.52.02.53.0Discriminator LossGenerator Loss050010001500200025000.00.51.01.52.02.53.0Discriminator LossGenerator Loss050010001500200025000.00.51.01.52.02.53.0Discriminator LossGenerator Loss050010001500200025000.00.51.01.52.02.53.0Discriminator LossGenerator Loss0.51.01.52.02.51451501550.51.01.52.02.576780.5 1.0 1.5 2.0 2.51551501457876124700(a)D-Params=0.18M (b)D-Params=0.69M (c)D-Params=1.56M (d)D-Params=2.77M0损失0损失0损失0损失0迭代迭代迭代迭代0图5.训练期间的判别器损失和生成器损失。在所有子图中，生成器被压缩了15.81倍。在子图(d)中，判别器的原始尺寸。在子图(a-c)中，判别器被压缩了15.39倍、4.01倍和1.78倍。这四个实验的FID已在图6中显示。0马到斑马0斑马到马0FID0判别器参数（M）0图6.对图5中具有不同大小判别器的蒸馏CycleGAN的实验。FID越低越好。0具有更好的颜色和细节（例如子图f和g中的鞋带）。在子图（f）中，蒸馏的学生成功地生成了鞋子上的亮点，使图像更加逼真。05. 讨论05.1. 消融研究0在本小节中，我们对知识蒸馏中不同频带的个别影响进行了详细研究。表4展示了在Horse → Zebra和Zebra →Horse上使用CycleGAN的实验结果。观察到：（a）仅蒸馏低频带（11.07/10.39FID增加）严重损害了学生模型的性能。（b）仅蒸馏高频带（即所提出的小波知识蒸馏）可以实现最佳性能。（c）蒸馏高频带和低频带可以略微减少FID，但其性能仍不如仅蒸馏高频带。这些观察明确证明了蒸馏高频带的好处以及蒸馏低频带的负面影响，这也符合图1中的结论-在GAN压缩过程中应更加关注高频带。05.2. 较小的判别器使压缩的生成器更好0通常，在实际的GAN应用中，只需要在设备上部署生成器，而判别器在此时总是被丢弃的。作为一种结果，0因此，大多数先前的工作只对生成器进行压缩，而忽略了对判别器应该进行的操作。然而，由于判别器直接影响生成器的训练损失，它对生成器的性能有着至关重要的影响。在本小节中，我们研究了判别器的容量如何影响生成器。图5展示了具有不同大小判别器的四个CycleGAN的生成器和判别器的训练损失。在所有子图中，生成器经过15.81倍压缩，并使用小波知识蒸馏进行训练。在子图（d）中，判别器具有原始大小。在子图（a-c）中，判别器分别经过15.39倍、4.01倍和1.78倍压缩。此外，它们对应的FID在图6中显示。0观察与分析观察到：（i）当生成器被压缩而判别器未被压缩时（子图d），生成器的损失要高得多，而判别器的损失要低得多。这一观察表明，当判别器的大小远大于生成器时，它在与生成器的竞争中取得了压倒性的成功。因此，判别器和生成器之间的平衡被打破，使得生成器难以从对抗损失中学习到有用的信息。（ii）当判别器被压缩为4.01倍（0.69M）时，蒸馏生成器实现了最佳性能。太小和太大的判别器都会导致生成器性能下降，表明在对抗学习中判别器和生成器之间的不平衡会损害生成器的训练。基于这些观察，我们可以得出结论，尽管在应用中不使用判别器，但仍需要对其进行适当的压缩，以保持对抗学习中判别器和生成器之间的平衡，从而进一步有益于生成器的训练。05.3. 知识蒸馏范式0知识蒸馏首次在教师-学生（TSKD）范式中提出，其中先训练教师模型，然后将其蒸馏到学生模型中。最近，提出了丰富的知识蒸馏范式以实现更好的性能，例如深度相互学习。124710表4. 不同频带的消融研究。每个实验平均8次。FID越低越好。0频率 FID ↓0低高 Horse → Zebra Zebra → Horse0× × 85.04 ± 6.88 152.67 ± 5.070� × 96.11 ± 14.39 163.06 ± 3.910× � 77.04 ± 3.52 146.01 ± 1.860� � 81.81 ± 4.52 148.09 ± 2.180表5.知识蒸馏范式的比较。所有这些实验都使用小波知识蒸馏。每个实验平均8次。FID越低越好。0数据集 KD方案指标0FID ↓ ∆0Horse → Zebra0原始学生85.04 ± 6.88 –0TSKD 77.04 ± 3.52 8.00 TAKD 1 78.53 ±2.98 6.51 TAKD 2 78.69 ± 3.26 6.35 SD83.51 ± 2.00 1.53 DML 1 81.06 ± 3.56 3.98DML 2 84.72 ± 5.17 0.320Zebra → Horse0原始学生152.67 ± 5.07 –0TSKD 146.01 ± 1.86 6.66 TAKD 1 148.03 ±1.40 4.56 TAKD 2 147.75 ± 1.75 4.92 SD151.74 ± 3.46 0.93 DML 1 150.37 ± 2.182.30 DML 2 152.03 ± 1.93 0.640TAKD 1: Horse → Zebra和Zebra →Horse的教师助手的FID分别为55.00和140.49。TAKD 2: Horse →Zebra和Zebra → Horse的教师助手的FID分别为51.34和133.29。DML1和DML 2: 分别有2个和3个同行。0(DML) [57]，自蒸馏 (SD) [55] 和教师助手知识蒸馏(TAKD)[34]。其中许多方法的效果比传统的TSKD范式更高。不幸的是，这些知识蒸馏范式通常只在分类任务上进行评估，它们在更具挑战性的任务中的表现尚未得到充分研究。在本小节中，我们对以下几种KD范式在图像到图像翻译中与GANs的比较进行了介绍。0• TSKD是最常见的知识蒸馏图，先训练一个大型教师，然后将其蒸馏到一个小型学生中。0•TAKD提出了一个教师助手来弥合学生和教师之间的差距。它首先将知识从教师蒸馏到教师助手，然后再将知识从教师助手蒸馏到学生[34]。0•SD是TSKD的一个特例，当学生和教师具有相同的架构时。实验和理论结果证明了它的成功[35]。0•DML（即在线知识蒸馏，协作学习）训练多个学生（即同行）相互学习[57]。0不同知识蒸馏范式的实验结果如表5所示。观察到：(a)所有的知识蒸馏方案相对于基准模型都能提升性能。此外，最常见的TSKD比其他KD方案表现更好。(b)在DML和SD中，性能提升要比TSKD和TAKD低得多，这表明预训练和高质量的教师对于图像到图像翻译非常关键。(c)TSKD和TAKD之间没有显著的性能差异，这意味着在图像到图像翻译的知识蒸馏中，教师助手无法促进小型学生的训练。0分析这些观察结果表明，知识蒸馏在图像分类和图像到图像翻译之间存在巨大差异。我们认为这种差异是由以下原因引起的：(a)与图像分类相比，图像到图像翻译更具挑战性，因此需要一个高性能的教师来提供更好的指导。(b)此外，在分类中，新的知识蒸馏方案的好处之一是作为标签平滑的有效性[51]。然而，标签平滑在图像到图像翻译中是无效的，因为它是一个像素级的回归问题。06. 结论0本文提出了从频率角度分析和提炼图像到图像翻译任务中的GAN。据我们所知，我们首次定量展示了GAN在不同频带上的性能差异，并提出在知识提炼过程中突出其对高频带的学习。丰富的配对和非配对图像到图像翻译实验证明了其在定量和定性结果方面的显著性能。例如，CycleGAN可以实现几乎没有性能下降的7.08倍压缩和6.80倍加速。消融研究中的实验结果进一步展示了提炼高频带的优点。此外，我们还介绍了模型压缩中鉴别器和生成器之间关系的研究，表明通过在对抗学习中保持它们的平衡来维持生成器的压缩中小鉴别器是有益的。此外，我们还分析了不同知识提炼范式对图像到图像翻译中GAN的影响。令人惊讶的是，与分类结果不同，大多数新的知识提炼范式在GAN上效果不佳。我们希望这一观察结果可以鼓励在超越分类的任务中进行知识提炼的研究。我们的限制和未来工作在补充材料中讨论。124720参考文献0[1] Sungsoo Ahn, Shell Xu Hu, Andreas Damianou, Neil DLawrence, and Zhenwen Dai. 变分信息提炼用于知识转移.在IEEE计算机视觉和模式识别会议上，第9163-9171页，2019年。 4, 60[2] Jie An, Siyu Huang, Yibing Song, Dejing Dou, Wei Liu,and Jiebo Luo. Artflow: 通过可逆神经流进行无偏图像风格转换.在IEEE计算机视觉和模式识别会议（CVPR2021）上，虚拟，2021年6月19日至25日，第862-871页。计算机视觉基金会/IEEE，2021年。 20[3] Mohammad Farhadi Bajestani and Yezhou Yang. TKD:用于主动感知的时间知识提炼.在IEEE计算机视觉应用冬季会议上，第953-962页，2020年。 30[4] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度自然图像合成.arXiv预印本arXiv:1809.11096，2018年。 10[5] Cristian Buciluˇa, Rich Caruana, and AlexandruNiculescu-Mizil. 模型压缩. 在第12届ACMSIGKDD国际会议上的知识发现和数据挖掘中，第535-541页。ACM，2006年。 1, 30[6] Hanting Chen, Yunhe Wang, Han Shu, Changyuan Wen,Chunjing Xu, Boxin Shi, Chao Xu, and Chang Xu.提炼便携式生成对抗网络以进行图像转换.在人工智能AAAI会议论文集中，第34卷，第3585-3592页，2020年。 30[7] Haibo Chen, Lei Zhao, Zhizhong Wang, Huiming Zhang,Zhiwen Zuo, Ailin Li, Wei Xing, and Dongming Lu. Dualast:用于艺术风格转换的双样式学习网络.在IEEE计算机视觉和模式识别会议（CVPR2021）上，虚拟，2021年6月19日至25日，第872-881页。计算机视觉基金会/IEEE，2021年。 20[8] Tianshui Chen, Liang Lin, Wangmeng Zuo, Xiaonan Luo,and Lei Zhang. 学习类似小波的自动编码器以加速深度神经网络.在第32届AAAI人工智能会议上，2018年。 30[9] Xinyuan Chen, Chang Xu, Xiaokang Yang, and DachengTao. Attention-GAN用于野外图像中的对象转换.在欧洲计算机视觉会议（ECCV）论文集中，第164-180页，2018年。 30[10] Jiaxin Cheng, Ayush Jaiswal, Yue Wu, Pradeep Natarajan,and Prem Natarajan.针对改进任意风格转换的样式感知归一化损失.在IEEE计算机视觉和模式识别会议（CVPR2021）上，虚拟，2021年6月19日至25日，第134-143页。计算机视觉基金会/IEEE，2021年。 20[11] Marius Cordts，Mohamed Omran，SebastianRamos，Timo Rehfeld，Markus Enzweiler，RodrigoBenenson，Uwe Franke，Stefan Roth和BerntSchiele。城市景观语义理解的Cityscapes数据集。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年。60[12] Shin Fujied

下载后可阅读完整内容，剩余1页未读，立即下载