没有合适的资源?快使用搜索试试~ 我知道了~
在线多粒度蒸馏用于GAN压缩
67930在线多粒度蒸馏用于GAN压缩0任宇熙 * 吴杰 * 肖雪峰 杨建超 字节跳动公司0{ renyuxi.20190622, wujie.10, xiaoxuefeng.ailab, yangjianchao } @bytedance.com0图1:我们引入了在线多粒度蒸馏(OMGD)方案来压缩条件GAN。OMGD将Pix2Pix和CycleGAN的计算量减少了40.3-46.6倍,同时保持了视觉保真度。0摘要0生成对抗网络(GANs)在生成出色的图像方面取得了显著的成功,然而,由于庞大的计算成本和庞大的内存使用量,它们在资源受限设备上的部署是困难的。尽管最近在压缩GAN方面取得了显著的成果,但仍存在潜在的模型冗余,并且可以进一步压缩。为了解决这个问题,我们提出了一种新颖的在线多粒度蒸馏(OMGD)方案,用于获得轻量级的GAN,这有助于生成具有低计算需求的高保真度图像。我们提供了首个用于GAN压缩的单阶段在线蒸馏尝试,其中逐步提升的教师生成器有助于改进基于无判别器的学生生成器。互补的教师生成器和网络层提供了全面和多粒度的概念,以从不同维度增强视觉保真度。在四个基准数据集上的实验结果表明,OMGD成功地在Pix2Pix和CycleGAN上压缩了40倍的MACs和82.5倍的参数,而不损失图像质量。01 这些作者对本工作做出了相同的贡献。0它揭示了OMGD为在资源受限设备上部署实时图像转换提供了可行的解决方案。我们的代码和模型已在以下网址公开:https://github.com/bytedance/OMGD01. 引言0最近,生成对抗网络(GANs)[16]在多样化的视觉应用中取得了显著的成果,例如图像合成[39, 40, 34, 64,5]和图像到图像的转换[23, 66, 10, 26, 11,47]。尽管取得了不同程度的进展,但其最近的大部分成功[23, 66, 47, 64, 10,5]都涉及巨大的资源需求。在资源受限的移动电话或其他轻量级物联网设备[21, 50, 30,9]上部署这种需要巨大计算成本的模型是困难的。为了减轻这种昂贵和笨重的计算成本,GAN压缩成为一个新兴且关键的任务。许多主流的模型压缩技术[29, 28, 56, 38, 57,33]被用于学习高效的GAN,包括知识蒸馏[30, 1, 49, 8, 13,15, 31, 20, 9, 24]、通道剪枝[30, 31,49]和神经架构搜索[15, 30, 31]。67940图2:OMGD与包括GAN压缩[30]、CAT[24]、DMAD[31]、GAN-Slimming[49]、AutoGAN-Distiller[13]和Co-Evolution[45]在内的现有竞争方法之间的性能-MACs权衡。□表示U-Net风格的生成器,�表示Res-Net风格。OMGD在更少的计算成本下显著优于这些方法。'Baseline'表示模型是使用naive GAN loss进行训练的。0然而,上述压缩算法主要存在三个问题。首先,它们倾向于直接使用成熟的模型压缩技术[7, 63,19],这些技术并非为GAN定制,缺乏对GAN复杂特性和结构的探索。其次,它们通常将GAN压缩形式化为多阶段任务。例如,[30]需要依次进行预训练、蒸馏、进化和微调。基于蒸馏的方法[30, 31, 13, 9, 8, 49,24]需要预训练一个教师生成器,然后蒸馏出学生生成器。端到端的方法对于减少多阶段设置中的复杂时间和计算资源是必要的。第三,当前最先进的方法仍然承担着高计算成本的负担。例如,最佳模型[31]需要3G的MACs,相对于在轻量级边缘设备上部署来说相对较高。为了克服上述问题,我们提出了一种新颖的在线多粒度蒸馏(OMGD)框架来学习高效的GAN。我们放弃了复杂的多阶段压缩过程,设计了一种面向GAN的在线蒸馏策略,以一步获得压缩模型。我们可以从多个层次和粒度挖掘潜在的互补信息,以帮助优化压缩模型。这些概念可以被视为辅助监督信号,对于具有低计算成本的模型的容量瓶颈突破非常关键。OMGD的贡献可以总结如下:0•据我们所知,我们首次尝试将蒸馏推广到GAN压缩领域的在线方案,并在无判别器和无真实标签的情况下优化学生生成器。该方案交替训练教师和学生,通过迭代和逐步优化这两个生成器。逐步优化的教师生成器有助于启动学生生成器并逐步引导优化方向。0•我们进一步将在线蒸馏策略扩展为多粒度方案,从两个角度进行。一方面,我们采用基于不同结构的教师生成器来捕捉更多互补的线索,并从更多多样化的维度增强视觉保真度。另一方面,除了输出层的概念,我们还将通道粒度的信息从中间层传递出来,作为额外的监督信号。0• 在广泛使用的数据集(如horse → zebra[66],summer → winter [66],edges → shoes[60]和cityscapes[12])上进行的大量实验表明,OMGD可以将包括pix2pix [23]和CycleGAN[66]在内的两个重要条件GAN模型的计算量减少40倍,而不会损失生成图像的视觉保真度。这表明OMGD在各种基准数据集、不同条件GAN、网络架构以及问题设置(配对或非配对)上都是高效且稳健的。与现有的竞争方法相比,OMGD能够以更少的计算成本获得更好的图像质量(见图1和2)。此外,OMGD0.5倍(只需要0.333GMACs)成功取得了令人印象深刻的结果,为在资源受限设备上部署提供了可行的解决方案,甚至突破了在移动设备上实时图像转换的障碍。02. 相关工作02.1. GANs和GAN压缩0生成对抗网络(GANs)[16]在一系列计算机视觉任务上取得了令人印象深刻的成果,例如图像到图像的转换[66, 23, 10, 26, 11, 47, 35],图像生成[39, 40, 34, 64, 5, 4]和图像修复[36, 58, 48,62]。具体而言,Pix2Pix[23]通过生成器和判别器之间的极小极大博弈来利用配对训练数据进行图像到图像的转换。CycleGAN[66]在弱监督的情况下进一步扩展了GAN的能力,训练阶段不使用配对数据进行图像转换。尽管最近各种GAN方法取得了令人印象深刻的成功,但它们往往占用越来越多的内存和计算成本[10, 35,5]来支持它们强大的性能,这与在资源受限设备上部署的要求相冲突。67950图3:在线多粒度蒸馏框架的流程图。学生生成器GS只利用互补的教师生成器GWT和GDT进行优化,并且可以在无判别器和无真实标签的情况下进行训练。该框架将不同层次的概念从中间层和输出层传递,进行知识蒸馏。整个优化过程是在在线蒸馏方案下进行的。即GWT、GDT和GS同时且逐步地进行优化。0[23]在图像到图像的转换中通过生成器和判别器之间进行极小极大博弈,利用配对训练数据。CycleGAN[66]在弱监督的情况下进一步扩展了GAN的能力,训练阶段不使用配对数据进行图像转换。尽管最近各种GAN方法取得了令人印象深刻的成功,但它们往往占用越来越多的内存和计算成本[10,35,5]来支持它们强大的性能,这与在资源受限设备上部署的要求相冲突。0最近,由于GAN在轻量级设备部署领域的潜在应用,面向GAN的压缩已成为一项重要任务。Shu等人[45]首次提出了使用协同进化算法来去除冗余滤波器以压缩CycleGAN的初步研究。Fu等人[13]采用AutoML方法,在目标计算资源约束的指导下搜索出一个高效的生成器。Wang等人[49]提出了一个统一的GAN压缩优化框架,包括模型蒸馏、通道剪枝和量化。Li等人[30]设计了一个“一劳永逸”的生成器,通过权重共享将模型训练和架构搜索解耦。Li等人[31]提出了一种可微分的掩码和共同注意力蒸馏算法来学习有效的GAN。Jin等人[24]提出了一种一步剪枝算法,从教师模型中搜索出一个学生模型。在这项工作中,我们设计了一个在线多粒度蒸馏框架。0通过引入多粒度知识引导,学生生成器可以通过利用来自不同教师和层的互补概念来增强,从而从本质上提高了压缩模型的能力。02.2. 知识蒸馏0知识蒸馏(KD)[19]是一种基本的压缩技术,其中较小的学生模型在较大的教师模型或集合的有效信息传递和监督下进行优化[6]。Hinton[19]通过最小化学生和教师网络之间的输出分布统计之间的距离来进行知识蒸馏。通过这种方式,学生网络试图学习包含不同类别之间相似性的暗知识[19],这是由真实标签无法提供的。Romero等[41]进一步利用中间层的特征图的概念来提高学生网络的性能。Zhou等[65]指出,特征图的每个通道对应于一个视觉模式,因此他们专注于在中间层的每个通道中传递特征图的注意力概念[53, 54,55]。此外,You等[59]发现多个教师网络可以为学习更有效的学生网络提供更全面的知识。MEAL[44]将大型复杂的训练集合压缩成一个LGAN(GT , D) =Ex,y[log D(x, y)]+ Ex[log(1 − D(x, GT (x))].(1)LRecon(GT ) = Ex,y[∥ y − GT (x) ∥1].(2)G∗T = arg minGT maxD LGAN(GT , D) + LRecon(GT ). (3)LSSIM(pt, ps) =(2µtµs + C1)(2σts + C2)(µ2tµ2s + C1)(σ2t + σ2s + C2),(4)Lfeature(pt, ps) =1CjHjWj∥ φj(pt) − φj(ps) ∥1, (5)Lstyle(pt, ps) =∥ Gφj (pt) − Gφj (ps) ∥1,(6)67960单一网络采用对抗性学习策略来指导预定义的学生网络从教师模型中转移知识。离线知识蒸馏在优化阶段需要预训练的教师模型,而在线知识蒸馏同时优化教师和学生网络或仅优化一组学生对等体[51]。Anil等[2]并行训练了两个具有相同架构的网络,这两个网络迭代地扮演学生和教师的角色。在本文中,我们采用基于多粒度的在线蒸馏方案,旨在通过利用教师生成器的互补结构和来自不同层的知识来学习一个有效的学生模型。03. 方法论0在本节中,我们首先介绍了提出的在线GAN蒸馏框架,其中学生生成器不受鉴别器的限制,试图直接从教师模型中学习概念。多粒度蒸馏方案在第3.2节中介绍。多粒度概念[32]通过互补的教师生成器和来自不同层的知识来捕捉。我们在图3中展示了OMGD框架的整个流程。03.1. 在线GAN蒸馏0最近,一系列基于蒸馏的GAN压缩[30, 31, 13, 9, 8,49]采用离线蒸馏方案,利用预训练的教师生成器来优化学生生成器。在本文中,我们提出了一种面向GAN的在线蒸馏算法,以解决离线蒸馏中的三个关键问题。首先,传统的离线蒸馏方法中的学生生成器应该保持一定的容量,以保持与鉴别器的动态平衡,避免模型崩溃[37,43]和梯度消失[3]。然而,我们的学生生成器不再与鉴别器深度绑定,可以更灵活地训练并获得进一步的压缩。其次,预训练的教师生成器无法指导学生如何逐步学习信息,并容易在训练阶段引起过拟合[17,27]。然而,我们的教师生成器有助于热身学生生成器,并逐步指导优化的方向。第三,由于评估指标是主观的[43],选择合适的预训练教师生成器并不容易。然而,我们的方法不需要预训练模型,解决了这个选择问题。教师生成器。我们遵循[23,66]中的损失函数和训练设置来训练教师生成器GT和鉴别器D。GT旨在学习一个将源域X的数据映射到目标域Y的函数。我们以Pix2Pix [23]为例,它使用配对数据({xi,yi}Ni=1,其中xi∈X和yi∈Y)来优化0网络。生成器 G T 被训练为将 x i 映射到 y i,而鉴别器 D被训练为区分 G T生成的假图像和真实图像。目标被形式化为:0此外,引入重构损失来使 G T 的输出接近于真实标签 y:0GAN设置中的整体目标定义如下:0学生生成器。在提出的面向GAN的在线蒸馏方案中,学生生成器 G S 仅利用教师网络 G T进行优化,并且可以在无鉴别器的设置下进行训练。G S的优化不需要同时使用真实标签 y。也就是说,G S仅仅学习具有类似结构(GT)的更大容量生成器的输出,这极大地降低了直接拟合 y的难度。具体而言,我们在每个迭代步骤中反向传播 G T 和G S 之间的蒸馏损失。通过这种方式,G S 可以模仿 G T的训练过程进行逐步学习。将 G T / G S 的输出表示为 p t /ps,我们使用结构相似性(SSIM)损失[52]和感知损失[25]来衡量 p t 和 p s之间的差异。SSIM损失[52]对局部结构变化敏感,类似于人类视觉系统(HVS)。给定 p s、pt,SSIM损失通过以下公式计算两个图像的相似度:0其中 µ s ,µ t 是亮度估计的均值,σ 2 s ,σ 2 t是对比度的标准差,σ ts 是结构相似性估计的协方差。C 1,C 2 是避免零分母的常数。感知损失[25]由特征重构损失L feature 和风格重构损失 L style 组成。L feature 鼓励 p t和 p s具有相似的特征表示,这是通过预训练的VGG网络[46] φ来衡量的。L feature 的形式化如下:0其中 φ j ( x ) 是输入 x 的第 j 层 φ 的激活。C j × H j × W j是 φ j ( x ) 的维度。L style用于惩罚风格特征的差异,例如颜色、纹理、常见模式等[14]。L style 的计算公式如下:LKD(pt, ps) =λSSIMLSSIM + λfeatureLfeature+ λstyleLstyle + λT V LT V(7)LKDmulti(pwt , pdt , ps)= LKD(pwt , ps) + LKD(pdt , ps),(8)uc(i, j),(9)LCD(GWT , GS) = 1n(),(10)L(GWT , GDT , GS)= λCDLCD(GWT , GS) + LKDmulti(pwt , pdt , ps)(11)67970其中 G φ j ( x )是VGG网络中第j层激活的Gram矩阵。此外,引入了总变差损失 L T V [42]来鼓励生成图像的空间平滑性。我们使用四个超参数 λSSIM,λ feature,λ style,λ T V来平衡上述损失,因此总的在线KD损失 L KD ( p t , p s )计算如下:03.2. 多粒度蒸馏方案0基于新颖的在线GAN蒸馏技术,我们从两个角度进一步将我们的方法扩展为多粒度方案:教师生成器的互补结构和来自不同层的知识。在线多粒度蒸馏(OMGD)框架的整体流程如图3所示,我们使用更宽的教师生成器 G W T和更深的教师生成器 G D T 来形式化 G S的多目标优化任务。除了教师生成器的输出层外,我们还通过通道蒸馏损失[65]从中间层挖掘知识概念。多教师蒸馏。基于不同结构的教师生成器有助于从不同角度捕捉更多互补的图像线索,并增强图像转换性能[59]。此外,多教师蒸馏设置还可以进一步缓解过拟合问题。我们从两个互补维度扩展学生模型到教师模型,即深度和宽度。给定一个学生生成器 G S,我们扩展 G S 的通道以获得更宽的教师生成器 GWT。具体而言,卷积层的每个通道都乘以一个通道扩展因子η。另一方面,我们在每个下采样和上采样层之后插入几个残差块到 G S 中,构建一个更深的教师生成器 G DT,其容量与 G W T相当。如图3所示,设计了一个部分共享的鉴别器,共享前几层并分离两个分支,分别为 G W T 和 G D T获取鉴别器的输出。这种共享设计不仅提供了鉴别器的高灵活性,还利用了输入图像的相似特征来改善生成器的训练[20]。我们直接将两个互补教师生成器提供的蒸馏损失组合成多教师设置中的KD损失:0其中,p w t 和 p d t 分别是 G W T 和 G D T输出层的激活。0中间层蒸馏。输出层的概念无法考虑到教师网络的更多中间细节,因此我们进一步将通道粒度信息作为额外的监督信号传递给 G S以促进其性能。具体来说,我们计算通道注意力权重[22,65]来衡量特征图中每个通道的重要性。注意力权重 w c定义为:0w c = 10H × W0H×0W×0其中,u c表示特征图的第c个通道。然后,将一个1×1的卷积层连接到G S的中间层,以扩展通道数,并计算通道蒸馏(CD)损失:0n×0c j =1 ( w ij t w − w ij s ) 20其中,n 是要采样的特征图数量,c 是特征图的通道数。w ij是第i个特征图的第j个通道的注意力权重。总之,整个在线多粒度蒸馏目标可以形式化为:04. 实验04.1. 实验设置0为了公平比较,我们遵循之前的研究[13, 30, 31,45]中使用的模型、数据集和评估指标。模型。我们在Pix2Pix [23]和CycleGAN[66]上进行实验。具体来说,我们采用原始的U-Net风格生成器[23]和[30]中的Res-Net风格生成器来进行Pix2Pix[23]模型的实验。Res-Net风格生成器采用深度卷积和逐点卷积[21]来实现更好的性能-计算权衡。我们只使用Res-Net风格生成器[30]来进行CycleGAN模型的实验。数据集和评估指标。我们在edges → shoes [60]和cityscapes[12]数据集上评估Pix2Pix模型。CycleGAN模型在horse →zebra [66]和summer → winter[66]上进行测量。在cityscapes上,我们使用DRN-D-105[61]来分割生成的图像,并计算mIoU(平均交并比)作为评估指标。更高的mIoU意味着生成的图像更真实。我们采用FID(Frechet InceptionDistance)[18]来评估其他数据集上的图像,较小的FID意味着生成性能更令人信服。edges→shoesRes-NetGAN-Compression [30]4.81G (11.8×)0.70M (16.3×)26.60DMAD [31]4.30G (13.2×)0.54M (20.9×)24.08OMGD 1.0×1.408G (40.3×)0.137M (82.5×)25.88OMGD 1.5×2.904G (19.6×)0.296M (38.2×)21.41U-NetOriginal [23]18.60G (1.0×)54.40M (1.0×)34.31DMAD [31]2.99G (6.2×)2.13M (25.5×)46.95OMGD 0.5×0.333G (55.9×)0.852M (63.8×)37.34OMGD 0.75×0.707G (26.3×)1.916M (28.4×)32.19OMGD 1.01.219G (15.3 )3.404M (16.0 )25.00cityscapesRes-NetGANDMAD [31]4.39G (12.9×)0.55M (20.5×)41.47CAT [24]5.57G (10.2×)-42.53OMGD 1.0×1.408G (40.3×)0.137M (82.5×)45.21OMGD 1.52.904G (19.6 )0.296M (38.2 )45.89U-NetOMGD 0.5×0.333G (55.9×)0.852M (63.8×)41.54OMGD 0.75×0.707G (26.3×)1.916M (28.4×)45.52OMGD 1.0×1.219G (15.3×)3.404M (16.0×)48.9167980表1:在Pix2Pix模型中与最先进方法的性能比较。0数据集生成器样式 方法 MACs #参数 FID ( ↓ )0数据集生成器样式 方法 MACs #参数 mIoU ( ↑ )0原始 [23] 56.80G (1.0 × ) 11.30M (1.0 × ) 44.320原始 [23] 18.60G (1.0 × ) 54.40M (1.0 × ) 42.710实现细节。本文中通道扩展因子η设为4。在实验中,我们将学习率设置为0.0002,并在实验中线性衰减至零。对于Res-Net风格的生成器,边缘→鞋子的批量大小设置为4,其他数据集设置为1。对于U-Net生成器,所有实验中批量大小都固定为4。边缘→鞋子、cityscapes、马→斑马和夏季→冬季的更新间隔n分别为1、3、4、4。对于CycleGAN,我们每m个周期评估一次教师生成器,并将性能最佳的生成器G_T作为优化G_S的目标。通过这种方式,我们避免了CycleGAN训练中的不稳定问题,并鼓励G_S从最佳的教师模型中学习。m分别设置为10和6,用于马→斑马和夏季→冬季。04.2. 实验结果04.2.1 与最先进方法的比较0在本节中,我们从计算成本、模型大小和生成质量三个方面比较OMGD与几种最先进的方法。我们分别比较了Pix2Pix和CycleGAN的性能。Pix2Pix。Pix2Pix模型的实验结果显示在表1中,可以总结如下观察结果:1)OMGD对于风格生成器都具有鲁棒性,并且在计算成本上明显优于最先进的方法。2)OMGD与0Res-Net风格的生成器(称为OMGD(R))在MACs压缩40.3×和参数压缩82.5×的情况下,实现了与原始模型相当的性能。与当前最佳方法CAT相比,OMGD(R) 1.0 ×仅使用四分之一的计算成本将mIoU从42.53提升到45.21(提升了6.3%),在cityscapes上取得了最先进的性能。此外,尽管OMGD(R) 1.5 ×压缩了19.6×的MACs和38.2×的内存,但它仍然建立了最先进的性能。3)由于U-Net风格生成器具有U形结构和连接操作,压缩U-Net风格生成器是困难的。OMGD与U-Net风格生成器(称为OMGD(U))将原始模型压缩了15.3×,并在边缘→鞋子上将FID减少了9.31。OMGD(U) 1.0 ×的MACs仅为DMAD[31]的一半,将边缘→鞋子的FID从46.95降至25.0,并在cityscapes上获得了19.3%的mIoU改进。此外,OMGD(U)0.5 × 和0.75 × 也取得了令人印象深刻的结果,OMGD(U)0.75 ×仅使用0.707G的MACs就实现了最先进的压缩性能。0CycleGAN。我们遵循之前的研究[30, 13, 24, 15,49],使用Res-Net风格的生成器进行CycleGAN的实验,并将结果显示在表2中。一方面,尽管OMGD(R)的MACs压缩率为40.3×,参数压缩率为82.5×,但其性能远远超过原始模型。We directly train the student generator via the conventionalGAN loss and report its results as the “Baseline” in Table3 and Table 4. As can be observed, our method surpasses“Baseline” by a large margin. For example, it declines FIDfrom 77.07 to 25.00 on edges→shoes and increases mIoUfrom 33.90 to 48.91 on cityscapes. To further demonstratethe effectiveness of several essential components in OMGD,we perform extensive ablation studies. The experiments ofablation study are conducted on U-Net style generator forPix2Pix and Res-Net style generator for CycleGAN,Analysis of online distillation stage. To evaluate thesignificance of the online distillation scheme, we designa variant (abbreviated as “Ours w/o OD”) to optimize themodel with the offline two-stage distillation setting.Asshown in Table 3 and 4, removing the online distillationstage leads to an noticeable drop in performance. For exam-ple, “Ours w/o OD” declines mIoU to 45.76 on cityscapes,with a decrease of 6.4% when compared with our approach.It indicates that the online training scheme helps to guidethe optimization process to achieve more impressive results.Analysis of complementary teachers setting. To inves-tigate the effectiveness of complementary teachers setting,we design a variant “Ours w/o DT” that removes the deeperteacher generator and only employs a wider one for opti-mization. As summarized in Table 3, our method attemptsto obtain more promising results compared with “Ours w/oDT” on both benchmarks.It indicates that the comple-mentary teacher setting significantly improves the capacityof the student generator. It is worth notice that the unsta-ble training process of CycleGAN causes confusion for thedeeper teacher generator GDT , hence we only leverage thewider teacher generator on CycleGAN.Analysis of multiple distillation layers. To delve deepinto the significance of multiple distillation layers, we de-67990表2:CycleGAN模型与最先进方法的性能比较。0数据集 方法 MACs #参数 FID ( ↓ )0马→斑马0原始 [66] 56.80G (1.0 × ) 11.30M (1.0 × ) 61.530Co-Evolution [45] 13.40G(4.2×)- 96.150GAN-Slimming [49] 11.25G(23.6×)- 86.090Auto-GAN-Distiller [13] 6.39G(8.9×)- 83.600GAN-Compression [30] 2.67G(21.3×)0.34M(33.2×)64.950DMAD [31] 2.41G(23.6×)0.28M(40.0×)62.960CAT [24] 2.55G(22.3×)- 60.180OMGD(我们的)1.408G(40.3×)0.137M(82.5×)51.920夏季→冬季0原始[66] 56.80G(1.0×)11.30M(1.0×)79.120Co-Evolution [45] 11.10G(5.1×)- 78.580Auto-GAN-Distiller [13] 4.34G(13.1×)- 78.330DMAD [31] 3.18G(17.9×)0.30M(37.7×)78.240OMGD(我们的)1.408G(40.3×)0.137M(82.5×)73.790表3:Pix2Pix模型的消融研究0数据集方法FID(↓)0边缘→鞋子0基线77.070我们的无OD 26.190我们的无DT 33.880我们的无CD 26.620我们的25.000数据集方法mIoU(↑)0城市景观0基线33.900我们的无OD 45.760我们的无DT 44.040我们的无CD 48.120我们的48.910表4:CycleGAN模型的消融研究0数据集方法FID(↓)0马→斑马0基线96.720我们的无OD 77.090我们的无CD 61.210我们的51.920夏季→冬季0基线78.430我们的无OD 76.480我们的无CD 75.470我们的73.790例如,OMGD(R)将马→斑马的FID从61.53降低到51.92,将夏季→冬季的79.12降低到73.79。另一方面,OMGD(R)在性能(FID)或计算成本(MACs)方面显著超越竞争方法,并在两个数据集上建立了新的最先进性能。04.2.2消融研究68000图4:马→斑马,夏季→冬季,城市景观和边缘→鞋子的定性压缩结果。OMGD在显著减少计算量的同时保持了保真度。0表5:移动手机(CPU)上的延迟加速。0设备 原始 OMGD(U) 1.0 ×0延迟 延迟 MAC0华为P20 416.73ms 43.00ms (9.7 × ) 15.3 ×0小米10 140.80ms 14.01ms (10.0 × ) 15.3 ×0我们设计了一个变体(称为“Ours w/oCD”)来去除通道级蒸馏。如表3和表4所示,“Ours w/oCD”获得了较低的性能,这表明中间层的概念可以被视为辅助监督来辅助训练。通过引入多个蒸馏层进行蒸馏,我们的方法在四个数据集上分别获得了6.5%,1.6%,15.1%和1.5%的性能改进。04.2.3 延迟加速0我们使用t�ite工具包在两部手机(华为P20和小米10)上报告了CPU延迟结果。如表5所示,我们的框架有助于在推理过程中获得显著的加速。例如,OMGD(U) 1.0 ×使延迟从140.8ms降低到14.01ms,延迟下降了90%。这表明我们的框架为实时图像翻译提供了解决方案。04.2.4 定性结果0我们在图4中展示了OMGD和现有方法的可视化结果,这证明了OMGD的有效性。0我们在图4中展示了OMGD和现有方法的可视化结果,这证明了OMGD的有效性。如图所示,我们的方法在几乎没有视觉保真度损失的情况下,帮助减少了40.3-46.6 ×MACs。例如,我们的40×压缩模型可以在马→斑马数据集上生成自然的斑马条纹,而[30]和原始模型仍保留了输入马的颜色。OMGD试图平滑地转换背景风格,同时保留前景中的基本元素。对于Pix2Pix,OMGD有助于捕捉边缘→鞋子上的布料纹理细节和皮革织物的光泽。此外,OMGD在处理路面特征(如粗糙度和车道线)方面表现出优势。05. 结论0在本文中,我们提出了一种在线多粒度蒸馏(OMGD)技术,用于学习轻量级GAN。引入了面向GAN的在线方案,交替促进教师和学生生成器,教师帮助学生热身并逐步引导优化方向。OMGD进一步利用了来自互补教师生成器的多粒度概念和来自不同层的辅助监督信号。广泛的实验证明,OMGD试图将Pix2Pix和CycleGAN压缩到极低的计算成本,而几乎没有明显的视觉保真度损失,这为在资源受限设备上部署GAN提供了可行的解决方案。[1] A. Aguinaldo, Ping-Yeh Chiang, Alexander Gain, AmeyaPatil, Kolten Pearson, and S. Feizi. Compressing gans us-ing knowledge distillation. ArXiv, abs/1902.00159, 2019.[2] R. Anil, G. Pereyra, Alexandre Passos, R´obert Orm´andi,G. Dahl, and Geoffrey E. Hinton. Large scale distributedneural network training through online distillation. ArXiv,abs/1804.03235, 2018.[3] Mart´ın Arjovsky, Soumith Chintala, and L. Bottou. Wasser-stein gan. ArXiv, abs/1701.07875, 2017.[4] Andrew Brock, Jeff Donahue, and Karen Simonyan. Largescale gan training for high fidelity natural image synthesis.arXiv preprint arXiv:1809.11096, 2018.[5] A. Brock, J. Donahue, and K. Simonyan. Large scale gantraining for high fidelity natural image synthesis.ArXiv,abs/1809.11096, 2019.[16] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and68010参考文献0[6] Cristian Bucila, R. Caruana, and AlexandruNiculescu-Mizil. 模型压缩. 在KDD '06上,2006年。0[7] Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, andSong Han. 一次性:训练一个网络并为高效部署进行专门优化.在国际学习表示会议上,2020年。0[8] Ting-Yun Chang and Chi-Jen Lu. Tinygan:用于条件图像生成的BigGAN蒸馏.ArXiv,abs/2009.13829,2020年。0[9] Hanting Chen, Yunhe Wang, Han Shu, Changyuan Wen,Chunjing Xu, Boxin Shi, Chao Xu, and Chang Xu.压缩生成对抗网络以进行图像转换.AAAI人工智能会议论文集,34(04):3585-3592,2020年4月。0[10] Yang Chen, Yu-Kun Lai, and Yong-Jin Liu. Cartoongan:用于照片卡通化的生成对抗网络.在IEEE计算机视觉和模式识别会议(CVPR)上的论文集,6月,2018年。0[11] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,Sunghun Kim, and Jaegul Choo. StarGAN:统一的生成对抗网络用于多域图像到图像的转换.在IEEE计算机视觉和模式识别会议(CVPR)上,6月,2018年。0[12] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, M. Enzweiler, Rodrigo Benenson, Uwe Franke, S.Roth, and B. S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功