没有合适的资源?快使用搜索试试~ 我知道了~
4084⇥越大越好吗?风格转换及超越的罗切斯特大学关闭NY,USAjan6@cs.rochester.edu北京大学中国北京li_tao@pku.edu.cn黄浩志XverseInc.深圳,广东,中国huanghz08@gmail.com马锦文北京大学中国北京jwma@math.pku.edu.cn罗彻斯特大学关闭NY,USAjluo@cs.rochester.edu摘要网络架构在风格转换中起着举足轻重的作用现有算法大多采用VGG19作为特征提取器,计算量大。在这项工作中,我们对流行的网络架构进行了实证研究,发现一些更有效的网络可以取代VGG19,同时具有可比的风格转移率。除此之外,我们还证明了一个高效的网络可以通过一个简单的通道修剪方法来去除其空通道,从而进一步加速网络的速度。通常可以应用于任何图像,但不能转移图像的结构。相反,基于GAN的图像翻译只能用于从训练数据所来自的某些领域生成图像 基于GAN的图像翻译的优点在于它可以改变图像的结构和外观。在神经风格迁移方面已经取得了显著的进展。开创性的工作是在[15,18],其中Gatys等人。第一次尝试将风格表示与深层特征的Gram矩阵联系起来。在这条研究路线上,许多基于迭代优化的算法费为了防止由于使用一个更轻量级的网络,并获得更好的风格转移[001 pdf 1st-31files]神经网络[14,41]和前馈,66,13,4,]结果,我们引入了一个更精确的深度特征对齐策略来改进现有的风格转换模块。以GoogLeNet为例,已提出虽然这些算法可以产生高质量的风格化结果,但它们必须在效率和泛化能力之间进行权衡。最近,使用改进的样式转换模块修剪GoogLeNet通用风格转换方法[、、、为2. 107年3月。比最先进的方法快4倍二,三十二,四十二,,11,[曾亲--并且可以在512 512张图像上实现68.03 FPS。 广泛的实验表明,VGG19可以被一个更轻量级的网络所取代,效率和可比的风格转换质量。1. 介绍神经风格转换是一种图像编辑任务,旨在根据参考图像改变图像的艺术风格。给定一对内容和样式图像作为输入,样式转换方法将生成具有内容图像的场景和视觉效果可以处理任意的样式和内容。为了生成高质量的图像,同时保留通用转移的好处,引入了一些改进方法,例如多级风格化[43,44,42,54],迭代EM过程[20],小波变换[74],归一化流[1],注意力机制[51]和对比损失[5],这些方法在风格转移方面取得了重大进展。用于提取特征的网络架构在风格转换算法中起着关键作用[68]。在风格转换中一个长期存在的惯例是,大多数最先进的算法使用VGG19 [60]作为主干。考试-(例如:颜色、纹理、笔画等) 的风格形象。为ple,迭代方法[18,16,,45]使用VGG19例如图1、我们将一幅“Chureito塔”的图片风格转换与基于GAN的图像翻译的区别在于,风格转换模型作为特征提取器并相应地计算损失项另一方面,基于前馈神经网络的方法[43,44,20,74]采用VGG 19作为编码器16, 57, 55, 52,40 45岁,27 3477,70, 19, 787, 43,28 58, 44 20, 7425,51, 46,6871,54, 5, 6, 855, 52, 404085⇥内容:Chureito塔Whaet领域与柏树蓝色漩涡啤酒图1:在任意内容和样式图像上使用高效架构的样式传输结果自动编码器的一部分。在风格转移质量方面,虽然VGG19确实可以产生如上述算法所证明的良好的风格转移图像,但Wang等人.[68]显示ResNet-50 [22]具有softmax转换技巧,与VGG 19相当甚至更好,这打破了VGG 19总是最好的神话。在效率方面,VGG19有12.95MB的参数和189.50 GFLOPs,这给样式传输算法带来了很大的计算负担,特别是当我们处理实时样式传输应用程序时。我们能否找到一种与VGG19具有可比风格传输质量但更高效的网络架构?本研究解决了这个问题。为了找到高效和高性能的风格传递网络架构,我们首先对28种最流行的网络架构的风格化效果和效率进行了实证研究[60,36,30,26,62,61,53、56、73、76]。我们观察到,尽管使用VGG19 [60]作为主干的风格传输算法确实产生了高质量的风格化结果,但使用更轻量级的主干(如GoogLeNet [61]和MobileNetv2 [56])可以更有效地实现类似的风格化效果。接下来,我们揭示了上述经典体系结构可以进一步加速在风格转移的成本很小。以GoogLeNet为例,我们发现在ImageNet数据集[37]上预训练的网络中ReLU层的深度特征包含一些空通道,这些通道对风格传输没有贡献,但仍然可以节省计算和内存资源。受[39]的启发,我们通过一种简单而有效的通道修剪方法在ReLU层之前删除卷积和批归一化运算符中的空通道和相应的过滤器修剪后的GoogLeNet达到2以微小的性能下降为代价的加速。为了防止使用更有效的网络时性能下降,我们采用了一种简单而有效的方法,即基于Avatar-Net [58]使用的样式传输模块的三明治交换变换(S2)。与Avatar-Net[58]相比,S2是轻量级的,可以在内容和风格特征之间执行更准确的特征对齐,这对于高效的网络至关重要,因为可以使用更少的特征图来执行特征对齐。实验结果表明,S2算法比现有的方法具有更好的内容保持能力。我们的主要贡献可概括如下:• 我们对跨文化交际风格进行了实证研究,不同网络体系结构的性能,揭示了我们可以使用更有效的网络(例如,GoogLeNet)取代VGG19以提高效率。• 我们通过一个简单的通道修剪方法去除网络• 我们提出了一个基于Avatar-Net [58]的三明治交换变换(S2)模块,它更适合高效网络,从而提高了高效网络的风格化质量。2. 相关工作通用样式转换。通用的风格转换算法可以分为两类:基于优化的方法和基于前馈神经网络的方法。Gatysetal. [17]属于第一只猫。 这种方法只对编码器进行优化,而不需要解码器。我们使用Gatys等人的方法。[17]在实证研究中由于避免了解码器架构和解码器训练的影响,因此能更好地反映不同特征提取骨干的风格传递能力。与基于优化的方法相比,基于前馈神经网络的算法[7,28,43,44,20,58,74,67,10,72]通常由两部分组成:一个自动编码器和一个在瓶颈处工作的风格转换模块。所有这些方法所使用的自动编码器架构是相同的,即,VGG19网络[60]在ImageNet数据集[37]上预先训练作为编码器,其反转版本作为解码器。在这项工作中,我们专注于寻找和改进高效的网络架构,以取代VGG19,同时保持高质量的风格化效果。图像到图像翻译。除了样式转换,图像到图像转换[31,69,50,63,59,48,79,29,49]也可以用于转换图像样式。 渲染对于特定的视觉风格,图像到图像的翻译方法通常需要传输前和传输后的数据集来训练生成器和训练器网络。然而,通用的风格转换方法可以用于以零拍摄方式对任意内容和风格图像进行风格转换4086内容风格内容风格(a) 内容/风格(b) VGG19189.50G FLOPs(c) ResNet3438.36G FLOPs(d) Inception V3413.4G FLOPs(e)Google LeNetv22.49G FLOPs(f)GoogLeNet15.02GFLOPs图2:与VGG19相当的高效网络架构的风格传输结果请放大屏幕以查看详细信息。我们将GoogLeNet作为其余部分的示例网络,因为它具有更好的质量-效率权衡。表1:不同网络的用户研究统计。没有人比其他人更好。网络GoogLeNet Inception MobileNetv2 ResNet34 VGG19第一名403413408429 419平均秩2.87862.95002.91433.0643 2.9929神经网络修剪。 网络剪枝方法可以分为两类:权值剪枝和通道剪枝.权重修剪[21,38,3,12]通常检测过滤器中的非操作权重位置,并通过设置为零来禁用它们信道修剪方法[39,23,75,24]完全删除信息冗余信道及其相应权重。我们使用的通道修剪方法是Li等人的方法的简单变体。[39]第39段。由于风格转移方法通常使用网络中ReLU层产生的特征映射,因此我们的方法删除了每个ReLU层的空通道,从而间接删除了前面卷积/批归一化运算符的权重。这与[39]不同,[39]专注于直接修剪卷积层的通道更重要的是,由于我们正在删除非功能性的空通道以进行样式转换,因此不需要进行微调。3. VGG19总是最好的吗?现有的最先进的风格转移算法[43,44,20,74]通常具有类似的框架,其包括1)用于提取(编码器)和反转(解码器)特征的自动编码器,2)在自动编码器的瓶颈处工作的特征转移模块。VGG19 [60]通常用作特征提取器。如Wanget al.[68],特征提取器的体系结构在风格转换算法中起着在风格转换质量方面,自动编码器提 取的深度特征 直接影响风格 转换的质量VGG19确实可以产生高质量的风格转移结果。然而,正如[68]所证明的那样,VGG 19并不总是最好的。例如,使用softmax transformation技巧训练的ResNet-50[22]在风格传输质量方面在效率方面,VGG 19通常占用总时间风格转换算法的成本。例如,VGG19占用AdaIN推理时间的72.73%。因此,VGG19在效率方面并不完美,需要一个更轻量级的特征提取器来实现更快的风格传输。4. 寻找高效的架构为了找到一种具有强大风格传递能力的高效网络架构,我们对28种流行的网络架构进行了实证研究[60,36,30,26,62,61,53,56,73,76]。 我们基于一个由1092个内容-风格对(42个内容; 26种风格)。我们首先在ImageNet数据集上训练每个网络[37],然后使用这些网络基于Gatys等人的算法生成风格化图像。[17]分别表示。在这里,我们应用Gatys等人提出的算法。[17]因为它不需要解码器来将特征反转回图像,从而避免了由解码器训练引入的偏差。根据视觉比较,VGG 19/16/13/11,ResNet 18/34,GoogLeNet,Inceptionv 3和MobileNetv 2在精细局部纹理生成方面优于其他架构。我们在图中展示了上述优越架构的视觉比较。2,完整的比较结果见补充材料。为了加强我们的发现,基于视觉比较,MobileNetv2,GoogLeNet,Inceptionv3和ResNet34在风格迁移结果方面与VGG19相当,我们进一步进行了用户研究,以定量评估上述架构的风格迁移质量。用户研究基于从互联网上抓取的1092个内容风格对组成的数据集。在每个问题中,我们以随机顺序并排显示五个风格化图像,并要求用户根据其风格转移质量对这些图像进行最后,我们总共收集了2072个排名结果。表1显示了用户研究的统计数据。根据定量评估的结果,上述五种网络结构具有相似的平均等级,并且第一等级的数量也彼此接近由于GoogLeNet显示出良好的风格转移性能,4087ConvBNReLUConvBNReLUMaxPoolConvReLUConvBNConvBNConvBNReLU输出输入轴:W轴:H010100011零信道11001010⇥BN去除ReLU去除输出输入C(a) 剪枝Conv-BN-ReLU(b) 修剪初始(c) 修剪反向残差块图3:删除不同模块的空通道。1/10 FLOPs of VGG19,w.l.o.g. ,我们选择GoogLeNet作为替代VGG19的示例性高效网络。请注意,所提出的分析和方法可以应用于任何替代的高效架构。5. 使高效网络更快通过使用GoogLeNet而不是VGG19作为fea,真实提取器、风格转换算法(例如,,Gatys [17]和AdaIN [28])可以实现3倍以上的加速。然而,对于实际应用,总是期望进一步的速度改进。所以这里有一个问题:我们能进一步提高GoogleNet的效率吗?受此启 发 , 我 们 通 过 可 视 化 其 每 个 通 道 的 特 征 图 对GoogLeNet进行了深入分析,我们发现ReLU层的一些通道(特别是在较浅的层中)是空的,即,零张量图4显示了GoogLeNet的ReLU_1_1层的特征图和每个通道的平均响应。我们可以发现,空通道对所有随机输入图像都没有响应。基于MS_COCO数据集的空通道定量分析请参考补充资料。通过对大量图像的定量分析,我们发现这些空通道的位置在给定不同的输入图像时保持不变,即,它们是数据不可知的。在推理过程中,空通道不向后续层传递任何信息(数学证明请参见补充材料)。然而,空通道本身、上层中相应的卷积和BN运算符仍然会浪费GPU内存和计算资源。由于只使用ReLU层的特征进行风格转换,因此我们可以通过修剪上层卷积层和BN层中的空通道和其他相应参数来加速风格转换算法,而不会损害转换质量。要删除特征图中的空通道,最直观的方法是使用通道修剪方法。然而,在这方面,图4:GoogLeNet中ReLU_1_1层生成的特征图的可视化。我们垂直显示了16个输入图像产生的特征,而每个通道的特征水平并排显示。广泛使用的过滤器修剪方法提出的李等。[39]不能直接用于风格转换,因为它专注于修剪卷积层中的低贡献过滤器,然后是相应的BN和ReLU层,而风格转换算法通常基于ReLU层的特征图卷积层中的低贡献过滤器为此,我们通过[39]调整了该方法,使其专注于修剪ReLU层中的空通道,然后删除Conv和BN的相应过滤器值得注意的是,由于删除空通道不会损害风格传递性能,因此在修剪后不需要微调网络,而[39]确实需要。我们使用的修剪方法适用于不同的架构。这里我们展示了如何修剪三个典型的网络模块,Conv-BN-ReLU层、Inception和Residual Block。图3(a)示出了Conv-BN-ReLU模块的修剪。我们首先将每个空通道的索引存储在二进制向量m中。 在m中,每个位置被设置为1或0以表示保持/修剪对应的信道。例如图3(a)中,m的值被设置为“11001010”。然后将m传递到ReLU层之前的上层卷积层和BN层。基于m,特征中的所有空通道和相应的权重埃莫韦ONVBNReLU11ConvBNReLU101Conv输出输入ONV11RC011BN+004088⇥���= ���−���m$%&,Φ���,* =���+*联系我们f#=f,f#=f2014年10月24日,st(%&CcSscs= Φ((a) Adain4&5+t67*87*t169:.(b) StyleSwap [7]fcs=φf#c,f#s,fcs=Φ(fcs,fs)(c) 风格装饰器(d) 我们的S2图5:不同特性转移模块的比较虚线椭圆的形状表示特征的方差,颜色表示特征的均值三角形和正方形表示特征片。(a)AdaIN将全球通过采用upgrato normalize/graduate fc,然后使用graduate对fs匹配/着色f <$cs, 所产生的fcs与fs具有相同的均值μ和标准差σ,但不能直接传递复杂的纹理(b)StyleSwap通过使用最小值来获得fc和fs之间的最佳匹配来创建fc。它有能力创建精细的纹理,但不能传递整体的全局外观,因为它不能匹配fcs和fs之间的µ和σ。(c)Avatar-Net也无法匹配μ和σ,从而产生受损的全局外观。我们的S2在绘制复杂纹理时可以受益于fcs,并保持fcs的μ,σ等于fs。在Conv和BN操作符被删除。修剪Incep- tion模块,如图。如图3(b)所示,我们首先修剪Inception模块中的每个分支,然后将修剪后的分支以将fc投影到fs的空间,然后使用交换模块来直接从fs到fc s复制/绘制笔划。然后引入AdaIN模块进行修正特征图。图展示了我们修剪通过调整fcs和fs之间的µ和σ来实现色差。Mobilenetv2内的反向残差块为了允许从输入到输出的残差连接,我们将m从输入特征传递到输出,并相应地修剪其他特征图。通过删除空通道,我们将GoogLeNet的参数大小从6.63 MB减少到3.28 MB,将Mobilenetv2的参数大小从2.22 MB减少到760.11 KB。通过对VGG网络(VGG 11/16/19)进行空通道可视化和定量分析,发现VGG网络(VGG 11/16/19)的空通道数比其他网络(如VGG 11/16/19)少,GoogLeNet和MobileNetv2。我们推测其原因可能是VGG网络不使用剩余连接,因此,每个通道比由Inception和Residual块组成的网络此外,网络的空通道的数量可能能够反映其在风格上的表现转移我们把这个留给未来的工作。6. S2:三明治交换变换到目前为止,我们已经通过用一个修剪过的GoogLeNet替换VGG19来提高样式传输的效率。为了使高效网络具有与使用大主干的最先进方法相当的风格传输性能,我们对Avatar-Net [58]中最流行的风格传输模块之一StyleDecorator进行了简单而有效的改进,使其更适合高效网络。我们将改进的样式传输模块命名为Sandwich Swap Transform(S2),因为它使用了类似于StyleDecorator [58]的三层结构如图S2采用AdaIN-Swap-AdaIN级联的方式进行特征转移。在S2中,我们首先采用AdaIN模块S2解决了自动编码器的瓶颈问题。我们的S2是由AdaIN [28]和StyleSwap [7]驱动的。如图5(a)示出,AdaIN首先用upgraph将内容特征fc归一化,然后相对于样式特征fs通过upgraph对其重新着 色 。 具 体 来 说 , AdaIN 可 以 保 持 μ ( fcs ) =μ(fs),σ(fcs)=σ(fs),其中μ,σ表示特征图的平均值和标准差。H,W轴,并具有C1的形状。注意,μ和σ的匹配可以减少fcs和fs之间的Gram损失,因此AdaIN可以将视觉效果从样式转移到内容。然而,AdaIN在传递全局外观方面很好,在绘制复杂纹理时通常会下降。StyleSwap(图5(b))根据fc和fs之间的最佳匹配,直接将精细织构从fs借用到fs。由于fcs由fs的几个选定的补丁组成,fcs和fs的μ和σ不同。此外,直接对非正规化fc和fs进行交换可能会使最优匹配[58]。因此,StyleSwap的结果包含很好的纹理 , 但 通 常 有 色 差 。 我 们 的S2 结 合 了 AdaIN 和StyleSwap,它集两者之长,并减轻了两者的缺点三 明 治 交 换 变 换 ( S2 ) 基 于 Avatar-Net 中 的StyleDecorator,它可以被视为StyleDecorator的一个变体,专门用于高效网络。我们的方法在fs空间而不是归一化空间中进行样式交换。通过这种方式,样式交换过程可以通过同时采用纹理和颜色来执行最佳匹配而在StyleDecorator中不考虑颜色来实现更准确的补丁匹配对于大型模型,我们通常在特征中有足够数量的特征图,阿利ΦΨ布拉布拉ƒsΦ法国ΠΠFCfsfcs=100,,100()*+fe*t/0e+*t1e3���fcfsΠΠΨΦΨ公司简介f“cf“csΠΠΦ ∘ΨFCΦ ∘Ψ法国fsf“c=Φfc,fs,f“cs=Φf“c,fsfsfs=Φf“cs,fs[58个]3(c)4089向下16×Block2Block1FCfs法国反向块1区块5(a) Content(b)Style(c)StyleSwap(d)AdaIN(e) 线性WCT(f) WCT(g) OptimalWCT(h) 阿凡达网络(i) 我们图6:样式转换结果与最先进的通用样式转换算法的比较所有比较的图像都是由相应方法的官方发布代码生成的。(a) Input(b)GoogLeNet(c)GoogLeNet w/pruning(d) 输入(e) LeNetv2(f)图7:使用和不使用修剪的样式转换结果之间的比较。顶行:图像重建结果。底行:样式转换结果。concat concat concat concat下8×下4×下2×额外的计算负担。另一方面,它增加了用于进行样式转换的特征图的数量c下跌s2×起来2×下来2×起来2×下来2×起来2×下来2×起来2×从而增强风格化效果。请参见图9(h)针对无此策略的消融结果因为AdaIN更专注于控制颜色和Style Swap图8:我们实验中使用的风格迁移框架。这里,块/逆块 是 分 别 由 每 个 池 化 / 上 采 样 层 分 割 的 网 络 对 于GoogLeNet,每个块都是一个Inception模块。对齐因此,由于颜色和纹理是重叠的,因此可以通过适当的纹理然而,由于高效率的网络通常在S2中,我们发现S2允许分别使用颜色参考和纹理参考进行风格转换。为了实现这一点,在S2中,我们首先使用第一AdaIN模块将内容特征fc和纹理参考特征fst转移到颜色参考特征fsc的域。所产生的内容参考特征和纹理参考特征分别为fxc和fxt。然后我们就可以用关于fc和fs,并获得fcs。最后,我们采用拥有更少的特征地图,更准确的特征对齐,是高效网络创造良好风格传递效果的关键,这说明了我们发现,我们的风格交换策略实现了更好的风格传输质量高效的网络,并保留更多的内容信息的风格转移的图像。另一个改进是由Anet al. [2],我们将来自所有编码器块的深度特征连接在一起,并将连接的fc和fs馈送到S2中(图8)。这种策略一方面使S2能够从高层到低层利用特性,而不需要引入第二AdaIN将fsc的颜色信息传递给fst。所产生的特征f_t,s_c具有f_s_t的结构和f_s_c的 颜 色,同时保留f_c的内容信息。7. 实验在本节中,我们介绍了针对最先进方法的评估结果图图8展示了我们用来进行风格转换的网络骨干网络基于修剪后的GoogLeNet。我们使用修剪GoogLeNet的反转版本作为解码器。风格反向块2逆块4反向块3反向块5第四区块Adain交换AdainBlock34090Xk· k·表2:通用风格化方法的定量评价结果越高越好。方法样式Swap AdaIN WCT LinearWCT OptimalWCT Avatar-Net我们的0.48510.3525 0.2032 0.4363 0.2511 0.3829 0.4452用户偏好(%)“7.38 8.20 3.28 26.50 4.37 14.4835.79表3:计算时间比较(单位:秒)。方法样式Swap AdaIN WCT LinearWCT OptimalWCT Avatar-Net我们的1281280.0478 0.0037 2.6873 0.0051 0.5003 NA0.01422562560.3068 0.0093 3.0805 0.0167 0.8793 0.17320.01455125121.5782 0.0344 4.1922 0.0603 1.8077 0.37180.014710241024OOM 0.1363 OOM 0.2278 4.1589 OOM0.0775与GoogLeNet连接的传输模块是S2。因为我们正在研究一种更通用的方法来加速风格转换,GoogLeNet可以被其 他 高 效 的 网 络 所 取 代 , 比 如 MobileNetv2 和ResNet18。更多的结果、分析和失效案例可以在补充材料中找到所有源代码将向公众开放。7.1. 实验设置我们使用的自动编码器采用修剪的GoogLeNet作为编码器。对于解码器,我们相应地介绍了编码器的结构反转版本在网络训练期间,编码器的参数被冻结,解码器基于MS_COCO [47]数据集进行训练,以将特征反 转 回 图 像 。 我 们 使 用 原 始 图 像 和 反 转 图 像 的FrobeNius范数作为重构损失:L重建=kI输入-I输出kF,(1)其中Iin表示输入图像,Iout是重构图像,并且F表示Frobenius范数。受Li et al.[43],我们引入感知损失项[33]以提高解码器的重构质量5Lep=ki(Iin)-ki(Iout)kF,(2)i=1其中,Imai()表示ImageNet [9]预训练VGG-19 [60]的第i总损失函数为,L=10L重建+10L重建,(3)其中,损失和损失两项相抵。解码器被训练了五个时期。我们使用Adam [35]算法,固定学习率为0。第001章最小化损失7.2. 视觉比较我们将高效风格转换方法的风格转换质量与最先进的通用方法进行比较:StyleSwap [7]、AdaIN [28]、WCT[43]、Avatar- Net [58]、LinearWCT [42]和OptimalWCT[54]。StyleSwap不能传递精确的纹理和颜色,如图所示6(c). AdaIN(d)和LinearWCT(e)可以生成复杂的细节。然而,所生成的图像在颜色(行1/3)和局部纹理(行2/4)方面与对应的样式图像在视觉上不同。WCT(f)和OptimalWCT(g)擅长创建视觉上令人愉悦的局部纹理和明亮的颜色。然而,这两种方法的风格转换结果看起来支离破碎,使得内容无法识别。 Avatar-Net(h)在保留内容图像中的字符和对象方面改进了WCT的结果。然而,传输的图像是失真的。例如,在第一行中,Avatar-Net用不一致的蓝色和橙色绘制巴士的车身,但内容图像中巴士的颜色是统一的此外,在第二行和第四行,Avatar-Net用陆地(第2行)和窗户(第4行)的颜色渲染图像中的天空,在某些情况下会我们认为Avatar-Net的伪影是因为StyleDecorator模块[58]可能并不总是创建准确的特征对齐,如第二节所分析的。6.由于S2方法可以进行更精确的特征对齐,因此我们的方法在图像的每个对象内具有更均匀的风格化效果例如,公交车和街道(第1行),天空和土地(第2行)具有不同的风格,但每个对象内部的视觉效果是一致的,这证明了我们在S2中所做的改进的有效性。7.3. 定量比较我们在一个由1092个内容-风格对(42个内容; 26种风格)。受[74]的启发,我们采用原始内容和风格化图像之间的结构相似性指数(SSIM)作为衡量内容保存性能由于风格迁移效果的客观评价仍然是一个悬而未决的问题,我们进行了一项用户研究,主观评估风格化效果的所有比较方法。我们在表2中显示了用户研究的统计数据。StyleSwap的SSIM得分最高,但用户偏好最低。这是因为StyleSwap的结果更偏向于con-4091内容纹理颜色纹理颜色纹理内容纹理颜色内容内容颜色(a) 输入(b) Adain(c) 交换(d) Swap+AdaIN(e) AdaIN+Swap(f) 风格装饰器(g)三明治交换(h)不含FA图9:S2模块和功能聚合(FA)的消融研究我们的结果(g)与Avatar-Net(f)不同帐篷保护我们的高效方法拥有最高的用户虽然它的SSIM得分仅次于StyleSwap,但这表明一个更高效的网络可以实现与重骨干类似的风格传输性能。7.4. 计算时间比较我们对最先进的通用方法进行了计算时间比较,以证明通过使用有效的主干提高所有的方法都在同一个计 算 平 台 上 进 行 了 测 试 , 其 中 包 括 一 个 NVIDIATitanXp GPU卡与16GB RAM。我们比较了不同分辨率的内容和风格图像的计算时间如表3所示,我们的方法在效率方面优于所比较的方法。我们的有效方法可以实现实时(约68 FPS)的风格在512年的决议中转移。7.5. 消融研究空通道修剪。在图7中,我们显示了使用GoogLeNet与精简的GoogLeNet(c)和Mo-bileNetv 2(e)与修剪MobileNetv2(f)。如图1的顶行所示。7、去除空通道不损害自动编码器的图像重建结果。修剪网络和未修剪网络之间的定量比较请参见补充材料更重要的是,去除/不去除空通道的风格转移结果几乎相同,这表明我们可以通过去除空通道来减小网络的参数大小,而不会损害风格转移结果的质量。这也解释了我们在移除空通道后不需要微调模型的原因三明治交换模块。以证明有效性对S2模块的各个单元进行了烧蚀研究。如图9(b),AdaIN [28]模块可以将整体全局外观(例如,颜色)。然而,它不能转移精细的纹理。图9(c)显示了仅使用样式交换模块[7]的样式转换结果。样式交换的结果包含丰富的细节,但不完美的颜色。S2中的先验AdaIN是将fc投影到fs的域中,从而校正最佳匹配的偏差(图2)。9(e))。此外,后验AdaIN可以重新匹配样式交换后的输出特征的均值和方差到fs,这可以校正样式交换模块引入的色差(图1)。9(d))。图9(g)显示了S2的风格转换结果包含更好的纹理和更准确的颜色。图10:混合纹理和两个独立的参考图像的颜色。7.6. 分别传递颜色和纹理通过使用S2,我们可以通过混合来自两个独立参考图像的纹理和颜色来图 10显示了样式混合结果。在左上角的示例中,生成的图像从左侧的颜色参考带来绿色全局颜色,并且在顶部具有参考图像的纹理。我们发现,在生成的图像中的纹理风格混合是不如只有一个参考的风格转移的结果。 我们认为这是因为颜色和纹理是隐式重叠的,因此当应用S2中的后验AdaIN(第三层和最后一层)时,通过样式交换(第二层)传输的纹理会受到干扰。8. 结论在本文中,我们提出了一个有效的网络架构,可以取代耗时的VGG19风格转移的实证研究。我们发现 一 些 架 构 ( 如 GoogLeNet ) 更 轻 量 级 , 但 与VGG19具有可比的风格传输质量此外,我们表明,有效的网络的特征映射包含一些空通道,和删除空通道的通道修剪方法可以进一步提高效率。通过删除空通道,GoogLeNet在高分辨率图像上实现了实时高效的风格传输。此外,在自动编码器的瓶颈处,我们引入了一个基于StyleDecorator的三明治交换变换(S2)模块来传输艺术风格。 S2提高了风格转换中特征对齐的准确性,从而在风格转换中实现了更好的内容保留。大量的实验表明,通过用更轻量级的网络(例如,精简后的GoogLeNet)与S2结合,我们可以显著加快风格转移,同时保持相当的风格转移质量。4092引用[1] Jie An,Siyu Huang,Yibing Song,Dejing Dou,WeiLiu,and Jiebo Luo. Artflow:通过可逆神经流进行无偏图像风格传输。在CVPR,2021年。[2] 安介,熊浩一,君寰,罗杰博。通过神经结构搜索实现超快的真实感风格转换在AAAI,2020年。[3] Miguel A Carreira-Perpinán 和 Yerlan Idelbayev 。在CVPR,2018年。[4] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank:神经图像风格传递的显式表示。在CVPR,2017年。[5] 陈海波,王志忠,张慧明,左志文,李爱林,魏兴,卢东明,等。艺术风格转换与内外学习和对比学习。NeurIPS,2021。[6] Haibo Chen , Lei Zhao , Zhizhong Wang , HuimingZhang , Zhiwen Zuo , Ailin Li , Wei Xing , andDongming Lu.Dualast:用于艺术风格转移的双重风格学习网络。在CVPR,2021年。[7] 田启晨和马克施密特。快速的基于补丁的任意风格转移。arXiv预印本arXiv:1612.04337,2016。[8] Jiaxin Cheng , Ayush Jaiswal , Yue Wu , PradeepNatarajan,and Prem Natarajan.风格感知归一化损失,用于改善任意风格迁移。在CVPR,2021年。[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。CVPR,2009。[10] Yingying Deng , Fan Tang , Weiming Dong , HaibinHuang,Chongyang Ma,and Changsheng Xu. 通过多通道相关实现任意视频风格传输。arXiv预印本arXiv:2009.08003,2020。[11] 邓莹莹,唐凡,董伟明,孙文,黄飞跃,徐长生。通过多适应网络传输任意风格。在ACM MM,2020。[12] 丁晓涵,周祥新,郭宇晨,韩俊功,刘吉,等.用于修剪非常深的神经网络的全局稀疏动量sgd。NeurIPS,2019。[13] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。在ICLR,2017。[14] Oriel Frigo , Neus Sabater , Julie Delon , and PierreHellier.拆分和匹配:基于示例的自适应补丁采样,用于无监督的风格转换。在CVPR,2016年。[15] Leon Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络进行纹理合成。InNeurIPS,2015.[16] Leon A Gatys,Matthias Bethge,Aaron Hertzmann,andEli Shechtman.神经艺术风格迁移中的色彩保存。arXiv预印本arXiv:1606.05897,2016年。[17] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.艺术风格的神经算法。arXiv预印本arXiv:1508.06576,2015。[18] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR,2016年。[19] Xinyu Gong,Haozhi Huang,Lin Ma,Fumin Shen,Wei Liu,and Tong Zhang.神经立体图像风格转移。在ECCV,2018。[20] 顾沭阳、陈聪良、景辽、卢远。复杂的风格转换和深层的功能重组。在CVPR,2018年。[21] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接以实现高效的神经网络。InNeurIPS,2015.[22] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年。[23] 杨和、康国良、董宣义、傅彦伟、杨毅。用于加速深度卷积神经网络的软滤波器修剪在IJCAI,2018。[24] 杨鹤、刘平、王紫薇、胡芷兰、易阳。通过几何中值进行 滤 波 器 修 剪 , 用 于 深 度 卷 积 神 经 网 络 加 速 。 在CVPR,2019年。[25] 胡志远,佳佳,刘备,卜耀华,傅建龙。审美意识的图像风格转移。在ACM MM,2020。[26] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在CVPR,2017年。[27] Haozhi Huang , Hao Wang , Wenhan Luo , Lin Ma ,Wenhao Jiang,Xiaolong Zhu,Zhifeng Li,and Wei Liu.视频的实时神经风格传输。在CVPR,2017年。[28] Xun Huang和Serge J Belongie.实时任意样式传输,具有自适应实例规范化。InICCV,2017.[29] Xun Huang , Ming-Yu Liu , Serge
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Unity UGUI性能优化实战:UGUI_BatchDemo示例
- Java实现小游戏飞翔的小鸟教程分享
- Ant Design 4.16.8:企业级React组件库的最新更新
- Windows下MongoDB的安装教程与步骤
- 婚庆公司响应式网站模板源码下载
- 高端旅行推荐:官网模板及移动响应式网页设计
- Java基础教程:类与接口的实现与应用
- 高级版照片排版软件功能介绍与操作指南
- 精品黑色插画设计师作品展示网页模板
- 蓝色互联网科技企业Bootstrap网站模板下载
- MQTTFX 1.7.1版:Windows平台最强Mqtt客户端体验
- 黑色摄影主题响应式网站模板设计案例
- 扁平化风格商业旅游网站模板设计
- 绿色留学H5模板:科研教育机构官网解决方案
- Linux环境下EMQX安装全流程指导
- 可爱卡通儿童APP官网模板_复古绿色动画设计
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功