风格-注意网络：任意风格图像合成高质量内容

5 浏览量更新于2023-10-18 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15880基于风格-注意网络Dae Young Park1，*和Kwang Hee Lee2，*，**韩国人工智能研究所1likebullet86@gmail.com，2lkwanghee@gmail.com图1：建议的SANet的结果我们可以将各种风格的图像转换为高质量的内容摘要任意风格转移旨在将内容图像与图像的风格合成，以创建以前从未见过的第三图像。最近的任意风格转换算法发现它的挑战，以平衡内容结构和风格模式。此外，由于基于补丁的机制，同时维护全局和局部样式模式是困难的。本文介绍了一种新颖的风格-注意网络（SANet），它能根据内容的语义空间分布，*表示同等贡献**Kwang Hee Lee目前隶属于波音韩国工程技术中心。形象新的身份丢失函数和多层次特征嵌入使我们的SANet和解码器能够在丰富样式模式的同时尽可能多地保留内容结构。实验结果表明，我们的算法合成的风格化的图像在实时，是更高的质量比国家的最先进的算法。1. 介绍艺术风格转移是一种通过在内容图像上均匀地合成来自给定风格图像的全局和局部风格模式来创建艺术的技术，最近，Gatys等人的开创性工作。[5]显示特征之间的相关性，15881来自预先训练的深度神经网络的训练可以很好地捕捉风格模式。Gatys et al.[5]足够灵活，可以组合任意图像的内容和风格，但由于迭代优化过程，速度非常慢。已经做出了重大努力来降低该过程的计算成本。基于前馈网络，已经开发了几种方法[1，8，12，22，3，14，19，26，29]前馈方法可以有效地合成风格化图像，但限于固定数量的风格或提供不足的视觉质量。对于任意风格转换，一些方法[13，7，20]整体地调整内容特征以匹配风格特征的二阶统计。AdaIN [7]简单地调整内容图像的均值和方差以匹配样式图像的均值和方差。虽然AdaIN通过传递特征统计有效地结合了内容图像的结构和样式模式，但由于该方法的过度简化性质，WCT[13]通过用协方差代替方差的白化和着色过程将内容特征转换到风格特征空间通过将这些风格化特征嵌入到预先训练的编码器-解码器模块中然而，如果特征具有大量的维度，WCT将相应地需要计算上昂贵的操作。Avatar-Net [20]是一个基于补丁的样式装饰器模块，它将内容特征与样式模式的特征相Avatar-Net不仅考虑整体风格分布，而且考虑局部风格模式。然而，尽管做出了有价值的努力，这些方法仍然不能反映样式图像的详细纹理，扭曲内容结构，或者不能平衡局部和全局样式模式。在这项工作中，我们提出了一种新的任意风格的transfer算法，实时合成高质量的风格化图像，同时保持内容结构。这是通过一个新的风格注意网络（SANet）和一个新的身份丢失函数来实现的。对于任意风格转换，我们的前馈网络由SANets和解码器组成，通过根据内容特征对风格特征进行空间重排来学习内容特征和风格特征我们提出的SANet与Avatar-Net的风格特征装饰器密切相关[20]。然而，有两个主要区别：所提出的模型使用1）学习的相似性内核，而不是一个固定的和2）软注意，而不是硬注意。换句话说，我们改变了自我注意机制，以一个可学习的软注意为基础的网络风格装饰的目的。我们的SANet使用可学习的相似性内核来表示内容特征图，作为与其每个位置相似的风格特征的加权和使用期间的身份丢失在训练中，输入相同的图像对，并且我们的模型被训练以恢复相同的结果。在推理时，用样式图像替换输入图像之一，并且基于样式特征尽可能多地恢复内容图像。与内容-风格的取舍不同，身份的丧失有助于保持内容结构而不丧失风格的丰富性，因为它有助于恢复基于风格特征的内容。我们工作的主要贡献如下：• 我们提出了一个新的SANet灵活地匹配语义上最接近的风格功能的内容功能。• 我们提出了一种学习方法的前馈网络组成的SANets和解码器是优化的使用传统的样式重建损失和新的标识损失。• 我们的实验表明，我们的方法是非常有效的（约18合成高质量的风格化图像，同时平衡全局和局部风格模式并保留内容结构。2. 相关工作任意样式传输。任意风格迁移的最终目标是同时实现和保持通用性、质量和效率.尽管最近取得了进展，但现有的方法[5，4，1，8，12，22，3，6，10，11，23，24，28，18]提出了通用化，质量和效率之间的权衡。最近，已经提出了几种方法[13，20，2，7]来实现任意风格转移。AdaIN算法通过传递全局特征统计量来简单地调整内容图像的均值和方差以匹配样式图像的WCT执行一对特征变换，白化和着色，用于预训练的编码器-解码器模块内的特征嵌入。Avatar-Net引入了基于补丁的特征装饰器，它将内容特征转移到语义上最接近的样式特征，同时最小化它们的整体特征分布之间的差异。在许多情况下，我们观察到WCT和Avatar-Net的结果不能充分表示详细的纹理或保持内容结构。我们推测，WCT和Avatar-Net可能无法合成详细的纹理风格，因为它们的预训练通用编码器-解码器网络是从MS-COCO数据集[15]等风格特征差异很大的通用图像中学习的因此，这些方法考虑将样式特征映射到特征空间中的内容特征上，但是没有办法控制样式的全局统计或内容尽管Avatar-Net可以通过基于补丁的样式装饰器获得本地样式模式，但样式图像中样式模式的比例取决于补丁的大小。因此，不能同时考虑全局样式模式和局部样式模式。相比之下，AdaIN将35882图2：培训流程概述（a）固定的VGG编码器编码内容和样式图像。两个SANet分别映射Relu 4 1和Relu 51要素中的要素解码器将组合的SANet输出特征变换为I cs（等式10）。4）. 固定的VGG编码器用于计算Lc（等式10）。7）和Ls（等式（八）。（b）恒等式损失L恒等式（等式九、量化Ic和Icc之间或Is和I ss之间的差异，其中Ic（Is）是原始内容（样式）图像，Icc（Iss）是从图像对（内容或样式）合成的输出图像。纹理和色彩分布好，但不能很好地代表在该方法中，由于缩放适应的内容和样式损失的组合，在内容和样式之间存在另一种折衷。在本文中，我们试图解决这些问题，使用SANets和拟议的身份丢失。通过这种方式，所提出的风格转移网络可以表示全局和局部风格模式，并保持内容结构，而不会失去风格的丰富性。自我注意机制。我们的风格注意力模型与最近用于图像生成和机器翻译的自我注意力方法[25，30]有关。这些模型计算序列中某个位置的响应，通过关注所有位置并在嵌入空间中对其进行加权平均来生成图像建议SANet学习内容特征和风格特征之间的映射，通过稍微修改的自我注意机制。3. 方法本文提出的风格传递网络由一个编码-解码模块和一个风格-注意模块组成。2.所提出的前馈网络有效地生成高质量的风格化图像，适当地反映全球和当地的风格模式。我们新的身份损失函数有助于保持内容的详细结构，同时充分反映风格。并从后者的特点在这项工作中，预训练的VGG-19网络[21]被用作编码器和对称解码器，两个SANet被联合训练用于任意风格的传输。我们的解码器遵循[7]的设置。为了充分结合全局风格模式和局部风格模式，我们集成了两个SANet，采取从不同的层（Relu 4 1和Relu 5 1）编码的VGG特征图从内容图像Ic和样式图像Is对中，我们首先提取它们各自的VGG特征图Fc=E（Ic）并且在某一层（例如，Relu 4 1）of the编码器在对内容和样式图像进行编码之后，我们将这两个特征映射馈送到SANet模块，该模块映射内容特征映射Fc和样式特征映射Fs之间的对应关系，产生以下输出特征映射：Fcs=SANet（Fc，Fs）（1）在对Fcs应用1×1卷积并按如下方式对两个矩阵进行元素求和后，我们获得Fcsc：Fcsc=Fc+Wcs Fcs，（2）其中我们将来自两个SANet的两个输出特征映射组合为3.1. 网络架构Fm=conv（Fr41+上采样（Fr51）），（3）我们的风格转移网络获取内容图像Ic，CSC3×3CSCCSC任意风格图像Is作为输入，并且合成风格1，其中Fr41和Fr51是输出特征图ob。35883CSC使用来自两个SANet的语义结构对图像Ics进行了语义化，conv3×3表示包含3×3的内容，45884CSCCSC1CSCCs其中，内容、风格和身份损失的组成者分别是Lc、Ls和Lidentity，λc和λs是不同损失的权重。与[7]类似，内容损失是均值方差通道归一化目标特征Fr 4 1和Fr 5 1与均值方差通道之间的欧几里得距离C c- 输出图像VGG特征的明智归一化E（Ics）r 4 1和E（Ics）r 5 1，如下所示：L c= ||E（I cs）r 4 1 − F r 4 1||2个以上||E（I cs）r5 1 − F r 5 1||二、图3：SANet。用于组合两个特征图的卷积，以及Fr51C风格损失定义如下：ΣLC（七）在上采样之后被添加到Fr41然后，通过下式合成风格化的输出图像Ics：Ls=||µ（φ i（I cs））− µ（φ i（I s））||2i=1（八）进料Fm解码器如下：I cs=D（F m）.（四）+的||σ（φi（I cs））−σ（φ i（I s））||二、CSC3.2. 用于样式特征嵌入的SANet图3显示了使用SANet模块的样式特性嵌入对来自编码器的内容特征图Fc和风格特征图Fs进行归一化，然后变换到两个特征空间f和g中计算注意力Fi和Fj之间的关系如下：ΣiiTjj其中每个Φ表示en中的层的特征图。用于计算样式损失的编码器。我们使用具有相等权重的Relu 1 1、Relu 2 1、Relu 3 1、Relu 4 1和Relu 5 1我们已经应用了 Gram矩阵损失[5]和AdaIN风格损失[7]，但结果表明AdaIN风格损失更令人满意。当Wf、Wg和Wh固定为单位矩阵时，内容特征图中的每个位置都可以转换为风格特征图中语义上最近的特征在这种情况下，系统无法充分Fcs=C（F）exp（f（Fc）日g（Fs））h（Fs），（5）风格特征。在SANet中，虽然W f、W g和W h是可学习的矩阵，我们的风格转移模型可以通过只考虑风格损失Ls的全局统计来训练。其中f（Fc）=WfFc，g（Fs）=Wg Fs，h（Fs）=Wh Fs. 此外，F表示逐通道的F的标准化版本。响应通过要考虑全局统计数据和语义，基于内容特征和风格特征之间的局部映射，我们定义了一个新的身份损失函数，Σ系数C（F）=e×p（f（F i）Tg（F j））. 在这里，我是在-阿吉·C·Sdex是输出位置的索引，j是枚举所有可能位置的索引在上述公式中，Wf，Wg，01-02||（Icc − Ic）||2个以上||（Iss − Is）||（二）ΣL和Wh是学习的权重矩阵，如[30]中所示，它们被实现为1× 1卷积。+λ恒等式2i=1（||φ i（I cc）−φ i（I c）||2我们的SANet网络结构与现有的非局部块结构[27]，但输入数据的数量不同（SANet的输入由Fc和Fs组成）。的+的||φ i（I ss）− φ i（I s）||2）、（九）SANet模块可以通过学习映射内容和风格特征图之间的关系（例如亲和度），在内容特征图的每个位置适当地嵌入局部风格3.3. 完整系统如图2，我们使用编码器（预训练的VGG-19 [21]）来计算训练SANet和解码器的损失函数：L=λcLc+λsLs+L恒等式，（6）45885其中Icc（或Iss）表示合成的输出图像从两个相同的内容（或风格）图像中，每个φi表示编码器中的层，并且λidentity1和λidentity2是识别损失权重。在我们的实验中，加权参数被简单地设置为λ c=1，λ s=3，λ identity1=1，λ identity2=50。内容和风格损失控制着内容图像的结构和风格模式之间的权衡。与其他两种损失不同，身份损失是从相同的输入图像计算的，在风格特征上没有差距。因此，身份丧失集中45886图4：结果详情。底部行中由边界框标记的区域在顶部行中被放大，以获得更好的可视化效果。图5：五种风格转换算法的用户偏好结果。方法时间（256px）时间（512像素）Gatys等人[五]《中国日报》15.86350.804WCT [13]0.6890.997[20]第二十话0.2480.356AdaIN [7]0.0110.039我们的（Relu4 1）0.0120.042我们的（多层次）0.0170.055表1：执行时间比较（以秒为单位）。保持内容图像的结构，而不是改变样式统计。结果，同一性损失使得可以保持内容图像的结构和参考图像相似性的风格特征。4. 实验结果图2显示了我们基于建议的SANets的风格传输网络的概述演示网站将重新-在https://dypark86.github.io/SANET/上租赁。4.1. 实验设置我们使用MS-COCO [15]对内容图像进行训练，使用WikiArt [17]对样式图像进行训练。这两个数据集包含大约80，000张训练图像。我们使用Adam优化器[9]，学习率为0.0001，批量大小为5个在训练过程中，我们首先将两个图像的较小维度重新缩放为512，同时保持纵横比，然后随机裁剪大小为256×256像素的区域。在测试阶段，我们的网络可以处理任何输入大小，因为它是完全卷积。4.2. 与之前工作的为了评估我们的方法，我们将其与三种类型的任意样式转换方法进行了比较：Gatys等人提出的迭代优化方法。[5]，两种基于特征变换的方法（WCT [13]和AdaIN [7]），以及基于补丁的方法Avatar-Net [20]。定性实例。在图11中，我们显示了通过最先进的方法合成的风格转移结果的示例。其他结果见文献资料。请注意，在我们模型的训练过程中没有观察到任何测试风格的图像。基于优化的方法[5]允许任意的风格转移，但很可能遇到坏的局部最小值（例如，图2中的第2行和第4行第11段）。AdaIN [7]简单地调整内容特征的均值和方差来合成风格化图像。然而，其结果不太吸引人，并且由于内容和风格之间的权衡（例如，图1中的第1、2和8行。第11段）。此外，AdaIN [7]和WCT[13]有时会产生扭曲的局部风格模式，因为内容特征的整体调整，以匹配风格特征的二阶统计，如图所示。11.虽然Avatar-Net [20]根据内容图像的语义空间分布使用样式模式装饰图像并应用多尺度样式转换，但由于其对补丁大小的依赖性，它通常无法同时表示局部和全局样式模式此外，在大多数情况下，它不能保持内容结构（图4中的第4列）。第11段）。相比之下，我们的方法可以解析不同的样式模式，如全局颜色分布，纹理和局部样式模式，同时在大多数示例中保持内容的结构，如图所示。11个国家。与其他算法不同，我们的可学习SANets可以灵活地解析足够级别的样式特征，而无需最大限度地对齐内容和样式特征，无论是否存在较大的域间隙（图1中的第1行和第6行）。第11段）。提出的SANet语义区分内容结构，并将类似的样式模式转移到区域上，45887相同的语义。我们的方法为每种类型的语义内容传输不同的风格。在图11（第3行）中，我们的风格化图像中的天空和建筑物使用不同的风格模式进行风格化，而其他方法的结果在天空和建筑物之间具有模糊的风格边界。我们还提供了图中的结果的细节。4.我们的结果表现出多尺度风格模式（例如，颜色分布、灌木笔画以及样式图像中粗糙纹理的白色和红色图案）。Avatar-Net和WCT会扭曲笔刷笔划，输出模糊的头发纹理，并且不保留面部外观AdaIN甚至不能保持颜色分布。用户研究。我们使用14个内容图像和70个样式图像来合成总共980个图像。我们为每个主题随机选择了30个内容和风格组合，并以随机顺序并排向他们展示了通过五种比较方法获得的风格化图像。然后，我们要求受试者指出他/她最喜欢的每种风格的结果。我们收集了来自80个用户的2,400张投票，并在图中显示了每种方法的投票百分比。5.结果表明，我们的方法得到的程式化结果往往优于其他方法。效率表1显示了运行时性能所提出的方法和其他方法在两个图像尺度：256和512像素。我们测量了运行时性能，包括样式编码的时间。基于优化的方法[5]由于其迭代优化过程，因此计算量很大相比之下，我们的多尺度模型（Relu 4 1和Relu 5 1）算法分别以59 fps和18 fps运行256和512像素的图像，单尺度（只有Relu 4 1）算法分别以83 fps和24 fps运行256和512像素的图像。因此，我们的方法可以切实可行的实时处理风格转移我们的模型比基于矩阵计算的方法（WCT [13]和Avatar-Net [20]）快7- 204.3. 消融研究损失分析。在这一部分中，我们展示了内容风格损失和身份损失的影响。图6（a）显示了将λ恒等式1、λ恒等式2和λs分别固定为0、0和5，同时将λc从1增加到50. 图6（b）显示了将λ c和λ s分别固定为0和5，并将λ恒等式1和λ恒等式2分别从1增加到100和从50增加到5，000所获得的结果。在没有身份损失的情况下，如果我们增加内容损失的权重，内容结构得到保留，但风格模式的特征消失了，因为内容损失和风格损失之间的权衡相比之下，在不丢失内容的情况下增加身份丢失的权重可以在保持样式模式的同时尽可能多地保留内容结构。然而，扭曲图6：内容类型的损失与身份丧失（a）将λ恒等式1、λ恒等式2和λ s分别固定为0、0和5，并将λ c从1增加到50所获得的结果。（b）将λ c和λ s分别固定为0和5，并将λ identity1和λ identity2分别从1增加到100和从50增加到5，000所获得的结果。图7：多级特征嵌入。通过在多个层次上嵌入特征，我们可以丰富风格化图像的局部和全局模式。内容结构是无法避免的。因此，我们采用了内容风格损失和身份损失相结合的方法来保持内容结构，同时丰富风格模式。多层次特征嵌入。图7显示了分别从Relu 4 1和Relu 5 1获得的两个程式化输出当只使用Relu 4 1进行风格转换时，风格特征和内容结构的全局统计得到了很好的维护。然而，局部样式模式并不很好地出现。相比之下，Relu 5 1有助于添加局部风格模式，如圆形模式，因为感受野更宽。但是，内容结构会扭曲，画笔笔划等纹理会消失。在我们的工作中，为了丰富样式模式，我们将从不同层（Relu 4 1和Relu 5 1）编码的VGG特征映射作为输入并将两个输出特征映射组合起来，从而集成了两个SANet4.4. 电子邮件在本节中，我们通过几个应用程序展示了我们方法的灵活性。45888CCCCSCCSCCSCCSCCCC图8：我们的算法允许在运行时通过插值来调整这种权衡在特征图F m之间执行 Fm。图像作为我们模型的输入。当α=0时，网络试图重建内容图像，当α=1时，网络试图合成最具风格的图像（如图所示）。（八）。样式插值。在几种样式之间插入图像，特征图Fm从不同的风格可以被馈送到解码器中（如图1所示）。第9段）。空间控制。图10示出了空间控制风格化的示例。另外需要一组掩码M（图10的第3列）作为输入，以映射内容区域和样式之间的空间对应我们可以在每个空间区域中指定不同的样式，把Fm和M Fm放在一起，这里是一个简单的掩码，out操作。图9：四种不同样式的样式插值。图10：空间控制示例。左：内容图像。中间：样式图像和蒙版。右：两个不同风格图像的风格化图像。内容风格的权衡。风格化程度可以在训练期间通过调整等式中的风格权重λs6或在测试时间期间通过在馈送到解码器的特征图之间进行内插来实现对于运行时控制，5. 结论在这项工作中，我们提出了一种新的任意风格转换算法，该算法由风格注意网络和解码器组成我们的算法是有效的和高效的。与[20]中基于补丁的样式装饰器不同，我们提出的SANet可以通过使用传统样式重建损失和身份损失的学习来灵活地装饰样式特征。此外，拟议的身份丢失有助于SANet维护内容结构，丰富本地和全局样式模式。实验结果表明，所提出的方法合成的图像是优于其他国家的最先进的任意风格的转移算法。致谢。本研究由文化体育观光部（MCST）和韩国创意内容机构（KOCCA）在文化技术（CT）研究和开发计划2019引用[1] D.陈湖，澳-地Yuan，J. Liao，N. Yu和G.华StyleBank：神经图像风格传递的显式表示。Proc. CVPR，第1卷，第4页，2017年。我们调整风格化特征Fm←−αF m+（1−α）F m[2] T. Q. Chen和M.施密特基于补丁的快速样式传输CSCCSCCCC[001- 1000000][001 - 1000000][001- 1000000]映射Fm通过取两个内容任意的风格。arXiv预印本arXiv：1612.04337，2016。45889图11：比较结果示例。45890[3] Dumoulin，J. Shlens和M.库德鲁艺术风格的学术InProc.ICLR，2017.[4] L. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行纹理合成。神经信息处理系统的进展，第262-270页，2015年[5] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在Proc. CVPR，第2414-2423页[6] L. A. Gatys，A. S. Ecker，M. Bethge，A. Hertzmann和E.谢克特曼神经风格迁移中知觉因素的控制。在Proc.CVPR，2017中。[7] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输在Proc. ICCV，第1510-1519页[8] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。在proc ECCV，第694-711页。施普林格，2016年。[9] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[10] C. Li和M.魔杖结合马尔可夫随机场和卷积神经网络进行图像合成。在Proc. CVPR，第2479-2486页[11] C. Li和M.魔杖基于马尔可夫生成对抗网络的预计算实时纹理在Proc. ECCV，第702-716页。施普林格，2016年。[12] Y. Li，C. Fang，J. Yang，Z. Wang，X. Lu和M. H.杨用前馈网络实现多样化纹理合成在Proc. CVPR，2017中。[13] Y. Li，C. Fang，J. Yang，Z. Wang，X. Lu和M. H.杨通过特征变换进行通用样式传递。神经信息处理系统进展，第386-396页，2017年。[14] Y. Li，N. Wang，J. Liu，and X.侯揭秘神经风格转移。arXiv预印本arXiv：1701.01036，2017。[15] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L.Zitnick.MicrosoftCOCO：上下文中的通用对象。Proc. ECCV，第740-755页。Springer，2014.[16] A.帕斯克S.钦塔拉R.科洛伯特，K.Kavukcuoglu，C. Farabet，S.本吉奥岛Melvin，J. Weston，and J.马-里索兹。PyTorch：张量和动态神经网络-在Python中工作，具有强大的 GPU 加速，可用： https ：//github.com/pytorch/pytorch，2017年5月。[17] F. Phillips和B.麦金托什维基艺廊有限公司：批判性思维的案例。会计教育问题，26（3）：593[18] E. Risser，P. Wilmot，and C.巴恩斯使用直方图损失的稳定可控arXiv预印本arXiv：1701.08893，2017。[19] F. Shen，S.Yan和G.小曾。用于神经风格转移的Meta网络arXiv预印本arXiv：1709.04111，2017。[20] L.盛、Z。Lin，J. Shao，and X.王. Avatar-Net：通过特征装饰实现多尺度零拍摄风格转换。在Proc. CVPR，第8242-8250页[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[22] D. Ulyanov，V. Lebedev，A. Vedaldi和V. S. Lempitsky纹理网络：纹理和风格化图像的前馈合成。在Proc.ICML，第1349-1357页[23] D. Ulyanov，A.Vedaldi和V.Lempitsky 实例规范化：快速风格化缺少的成分。 arXiv 预印本 arXiv ：1607.08022，（2016）。[24] D. Ulyanov，A. Vedaldi和V. S. Lempitsky改进的纹理网络：在前馈风格化和纹理合成中最大限度地提高质量和多样性。在Proc. CVPR，第1卷，第3页，2017年。[25] A. 瓦斯瓦尼北沙泽尔，北Parmar，J.乌斯科赖特湖琼斯A. N.戈麦斯。凯泽和我。波洛苏欣注意力是你所需要的。神经信息处理系统进展，第5998-6008页，2017年[26] H. Wang，X.Liang，H.张维迎，D.Y. Yeung和E.P. 邢ZM-Net：实时零拍摄图像处理网络。 arXiv预印本arXiv：1703.07255，2017。[27] X. 王河，巴西-地Girshick，A.Gupta和K.他外非局部神经网络。arXiv预印本arXiv：1711.07971，2017年。[28] X. Wang，G. Oxholm，D.张，和Y.- F.王.多模式转换：一个分层的深度卷积神经网络，用于快速的艺术风格转换。在proc CVPR，第2卷，第7页，2017年。[29] H. Zhang和K.丹娜实时传输的多风格生成网络。arXiv预印本arXiv：1703.06953，2017。[30] H.张岛Goodfellow，D. Metaxas和A. Odena自我注意生成对抗网络。arXiv预印本arXiv：1805.08318，2018。

下载后可阅读完整内容，剩余1页未读，立即下载