超分辨率通用风格转移的新知识蒸馏方法

126 浏览量更新于2023-10-25 收藏 12.91MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1用于超分辨率通用风格转移的Huan Wang1，2刘伟，Yijun Li3，Yuehai Wang1，Haoji Hu1 <$，Ming-Hsuan Yang4，51浙江大学2东北大学3Adobe研究4UC Merced5谷歌研究wang. husky.neu.eduyijli@adobe.com{wyuehai，haoji hu}@ zju.edu.cnmhyang@ucmerced.edu图1：超分辨率风格化示例（10240×4096像素），在单个Tesla P100（12GB）GPU上渲染约31秒。左上角是内容和风格。四个特写镜头（539 ×248）显示在程式化图像下。摘要通用风格转换方法通常利用来自深度卷积神经网络（CNN）模型（例如，VGG-19）在大量图像集合上进行预训练。尽管其有效性，其应用程序受到很大的模型大小的限制，以处理有限内存的超分辨率图像在这项工作中，我们提出了一种新的知识蒸馏方法（命名为协同蒸馏）的编码器-解码器为基础的神经风格转移，以减少卷积滤波器。本文的主要思想是通过发现编码器-解码器对构建了一种排他性的协作关系来支持的，这种协作关系被认为是一种新的风格知识转移模型此外，为了克服应用协同蒸馏时的特征大小不匹配，引入线性嵌入损失来驱动学生网络学习教师特征的线性嵌入大量的实验表明，我们的方法适用于不同的通用风格转移方法（WCT和AdaIN）时，即使模型大小减少了15.5次特别是，在WCT上的压缩模式，我们实现了超分辨率（超过40万像素）的uni-unique风格的传输上的12 GB GPU的第一次。对基于优化的风格化方案的进一步实验表明，该算法对不同风格化范式具有通用性我们的代码和训练模型可在https://github.com/mingsun-tse/collaborative-distillation上获得。* 这一工作主要是王欢在浙江大学电子工程系时完成的。†通讯作者。186018611. 介绍通用神经风格转移（NST）专注于从任何参考图像合成具有新风格的内容图像。这通常需要一个具有相当大容量的模型来提取有效的表示，以捕获任意样式的统计数据。最近基于神经网络的通用风格转换方法[13，4，24，39，40，37]一致表明，采用预训练的深度神经网络（如VGG- 19 [51]）所表现出的表示可以实现视觉上令人愉悦的转换结果和任意风格图像的泛化能力。然而，由于硬件内存有限，VGG-19的大模型尺寸极大地限制了输入图像分辨率。到目前为止，通用的风格转换方法仅报告大约一百万像素的结果（例如，1024×1024像素），配备12 GB内存。虽然虽然NST很可能通过多个GPU实现更高分辨率的风格传输，但VGG-19庞大的模型尺寸的根本问题仍然存在，阻碍了NST的实际应用，特别是在移动设备上。与此同时，近年来在模型压缩领域取得了快速发展[17，21，36，19]，其目的是减少大型CNN模型的参数，而不会造成相当大的性能损失。尽管取得了进展，但大多数模型压缩方法只关注高级任务，例如，分类[18，58，56，48]和检测[63，19]。低层次视觉任务的压缩模型仍然较少探索。知识分解（KD）[2，1，21]是一种很有前途的模型压缩方法，它通过将大型网络（称为教师）的知识转移到小型网络（称为学生），其中知识可以是软化概率（可以反映称为暗知识的固有类相似性结构）或样本关系（可以反映不同样本之间的相似性结构）[4 4、46、60、47]。这些知识作为一个热门标签之上的额外信息，因此可以提高学生的表现。然而，这些额外的信息主要是标签相关的，因此几乎不适用于低级别的任务。什么是低水平视觉任务中的暗知识（例如神经风格转移）仍然是一个悬而未决的问题。同时，基于编码器-解码器的模型被广泛用于神经风格传递，其中解码器通常通过编码器的知识来训练。值得注意的是，它们在风格化过程中共同构建了一种排他性的合作关系，如图所示二、由于解码器D被训练成专门与编码器E一起工作，如果另一个编码器E′也可以与D一起工作，这意味着E′可以在功能上扮演E的角色。基于这一想法，我们提出了一种新的知识来提取神经风格转移中的深层模型：编码器和解码器之间的协作关系。给定冗余大编码器（例如，VGG-19），我们提出了一个两步压缩方案：首先，培养一个合作伙伴-输入E1+D1 E2+D2 E1+D2 E2+D1图2：两种不同编码器-解码器协作关系上的排他性协作现象的示例：WCT [39]的图像重建（第1行）和AdaIN [24]的样式传输（第2行）。第1列是输入，其他四列显示使用不同的编码器-解码器组合的输出如果两个编码器-解码器对（E1-D1，E2-D2）是独立训练的，则编码器只能与其匹配的解码器一起工作。用于编码器的演讲者网络，即，在我们的上下文中的解码器;其次，用一个小的编码器代替大的编码器，然后在协作者固定的情况下训练小的编码器。由于小编码器通常具有较少的通道，nels，其输出功能具有比大编码器更小的尺寸。因此，小型网络不能直接与协作者合作为了解决这个问题，我们建议限制学生学习教师输出的线性嵌入值得注意的是，在我们的方法中，我们不限制特定的协作形式。在本文中，我们将展示它可以应用于两种不同的最先进的通用型transfer方案：WCT [39]（其中合作是图像重建）和AdaIN [24]（其中合作是风格转移）。这项工作的主要贡献是：• 我们提出了一种新的通用神经风格转移的知识蒸馏方法。编码器和解码器之间的排他协作关系被认为是一种新的知识，可以应用于不同的合作关系。• 为了解决我们算法中学生网络和教师网络之间的特征维数失配问题，我们提出限制学生学习线性嵌入教师• 大量的实验显示了我们的方法在不同风格化框架下的优点（ WCT [39] ， AdaIN [24] 和 Gatys[13]），15. 5倍参数缩减，视觉效果更佳。Es-特别是在WCT上，压缩模型使我们能够在单个12GB GPU上首次进行超分辨率（400018622. 相关工作风格转移。在深度学习时代之前，图像风格转换主要通过非参数采样[9]，非真实感渲染[15，52]或图像类比[20]来解决。但是，这些方法是为某些特定样式设计的，并且依赖于低级统计信息。最近，Gatyset al.[13]提出了神经风格转移，它采用来自预训练VGG- 19模型的深度特征[51]，并通过匹配生成图像和给定风格图像之间的二阶统计来实现风格化。已经开发了许多方法来改善视觉质量[34，57，49，64]，速度[35，54，29，11，37]，用户控件[41，59，14]，样式[8，3，38，24，39].然而，所有这些基于神经网络的方法的一个共同一些方法[54，29，49]实现了高分辨率的风格化结果（高达10百万像素，例如， 3000×3000像素）通过学习一个小前馈网络的特定风格的例子或cate-但他们并没有推广到其他看不见的风格。与此相反，我们的目标是实现超分辨率的图像风格转移的通用风格只有一个模型模型压缩。模型压缩和加速也引起了人们的关注，最近，其目的是获得一个更小，更快的模型，而不会在性能上有很大的妥协。现有方法大致分为五类，即，低秩分解[7，27，32，63]，修剪[33，18，17，36，58，19，56，55]，量化知识化[5，48，65，25]，知识蒸馏[2，1，21，61]和紧凑的架构重新设计或搜索[26，23，50，62，45，53，10]。然而，这些方法主要是在高层次的视觉任务中探索很少有方法关注低级视觉任务，如风格转换，其中许多方法也受到CNN庞大模型大小的限制与用于高级视觉的CNN压缩不同，其中它仅需要维护特征的全局语义信息以保持准确性，用于低级视觉的模型压缩的额外挑战可能是如何维护局部结构，例如，风格转换中的局部纹理和颜色多样性在这项工作中，我们开发了一种深度监督的知识蒸馏方法，以从预训练的冗余VGG-19中学习更小的模型[51]。压缩模型en-享受15倍以上的参数和计算减少。更重要的是，模型尺寸的减小使得单-在超分辨率图像上的立体风格转移。据我们所知，最近只有一项工作[30]采用GAN [16]来学习超分辨率图像上的不成对风格转移网络。然而，他们通过处理图像子样本，然后将它们合并回整个图像来实现这一点。相比之下，我们的方法从根本上减少了模型复杂度，可以直接处理整个图像。3. 该方法3.1. 协同蒸馏风格无关的风格化方法通常采用编码器-解码器方案来学习用于风格渲染的深度表示，然后将它们反转回风格化的图像。由于样式信息没有直接在模型中编码，因此编码器部分需要具有足够的表达能力来提取通用样式的信息表示。现有方法[13，4，24，39]通常选择VGG-19 [51]作为编码器，考虑到其巨大的容量和分层架构。对于解码器来说，根据不同的风格化方案，它可以与编码器有这里讨论了两种最先进的任意风格传输方法， WCT [39] 和 AdaIN [24] （ i ）对于WCT，风格化过程是使用风格特征的二阶统计量将白化和着色变换[22然后由解码器将变换后的内容特征反变换为图像。因此，解码器训练不直接涉及风格化。WCT 中的合作关系本质上是形象重构。 (ii) 对于AdaIN，与WCT不同，其解码器训练直接参与风格化。将两幅图像（内容和风格）输入编码器，然后在特征空间中最后，解码器将渲染的内容特征反转回风格化的图像。风格化的图像应该在内容（或风格）距离方面接近内容（或风格）。因此，AdaIN的协作关系是风格转移。尽管上述两种方案的范例不同，但它们都是基于编码器-解码器的，并且解码器通过编码器的知识来训练。这意味着，在解码器的训练期间，编码器的知识被泄露到解码器中。据推测和经验证实，解码器D只能与其匹配的编码器E一起工作，就像螺母与螺栓一样。对于另一个编码器E′，即使它具有与E相同的架构，D和E′也不能一起工作（见图11 ）。2）。这种排他性表明解码器具有一些特定于其编码器的固有信息。如果我们能找到一种方法使网络E′也与D兼容，这意味着E′可以在功能上取代原始编码器E。如果E′同时比E小得多，那么我们就达到了模型压缩的目的。基于这一思想，我们提出了一种新的蒸馏方法特定于NST，命名为协同蒸馏，由两个步骤组成第一步，根据手头的任务，我们为大型编码器训练一个协作者网络。如图3（a），对于WCT [39]，解码器被训练来反转特征以尽可能忠实于输入图像（即，1863感知损失编码器（固解码器输入图像SEncoder（一）重建图像内容内容/风格损失编码器（固Adain解码器SEncoder风格化的图像（b）第（1）款风格（c）第（1）款图3：建议的协作蒸馏框架的图示（最佳颜色）。（a）和（b）分别描述了通用神经风格传递的两种编码器-解码器协作关系：WCT的图像重建[39]和AdaIN的风格传递[24蓝色箭头显示训练协作者网络（即解码器）时的前向路径。绿色箭头显示了训练小型编码器（“SEncoder”）以在功能上取代原始编码器（“Encoder”）时的前向路径。(c)示出了所提出的线性嵌入方案，以解决特征大小不匹配问题，并将更多的监督注入到小型编码器的中间层。图像重建），其中采用像素重建损失和感知损失[29]，Σk3.2. 线性嵌入在所提出的协同蒸馏方法中，小型编码器与解码器网络连接。在L（k）=<$Ir− Io<$2+λp <$F（i）− F（i）<$2，（1）r2 ro2i=1其中k∈ {1，2，3，4，5}表示VGG-19的第k级;F（i）表示ReLU_i_1层的特征图;λp是平衡感知损失和像素重建损失的权重;Io和Ir分别表示原始图像和重建图像[24]《易经》中的“道”，编码器直接参与风格转换。因此，其解码器损失由内容损失和风格损失组成，Σ4它们的接口存在特征尺寸不匹配的问题。具体地说，如果原始编码器输出大小为C×H×W的特征，则解码器的输入也被假定为大小为C×H×W。但是，由于小型编码器的滤波器较少，它将输出一个大小为C′×H×W（C′

下载后可阅读完整内容，剩余1页未读，立即下载