多样化图像风格迁移方法基于可逆映射实现多样化效果

72 浏览量更新于2023-10-14 收藏 25.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

An exquisite artwork can take a diligent artist days oreven months to create, which is labor-intensive and time-consuming. Motivated by this, a series of recent approachesstudied the problem of repainting an existing photographwith the style of an artist using either a single artwork ora collection of artworks. These approaches are known asstyle transfer. Armed with style transfer techniques, anyonecould create artistic images.148800通过可逆的跨空间映射实现多样化的图像风格迁移0陈海波，赵磊�，张慧明，王志忠，左志文，李爱林，邢伟�，陆东明0浙江大学计算机科学与技术学院0{cshbchen, cszhl, qinglanwuji, endywon, zzwcs, liailin, wxing, ldm}@zju.edu.cn0内容风格化结果0图1：我们提出的DIST生成的风格化示例。第一列显示内容图像。其他四列显示基于保罗∙塞尚风格的多样化风格化结果。0摘要0图像风格迁移旨在将艺术作品的风格转移到任意照片上，以创建新颖的艺术图像。尽管风格迁移本质上是一个不确定的问题，但现有方法通常假设有一个确定的解决方案，因此无法捕捉到可能输出的完整分布。为了解决这个限制，我们提出了一种多样化的图像风格迁移（DIST）框架，通过强制执行可逆的跨空间映射来实现显著的多样性。具体而言，该框架由三个分支组成：解缠分支、逆向分支和风格化分支。其中，解缠分支将艺术作品分解为内容空间和风格空间；逆向分支鼓励输入噪声向量的潜在空间与生成的艺术图像的风格空间之间的可逆映射；风格化分支使用艺术家的风格渲染输入内容图像。凭借这三个分支，我们的方法能够合成具有显著多样性的风格化图像，而不会损失质量。我们进行了广泛的实验和比较，从定性和定量的角度评估了我们的方法。实验结果证明了我们方法的有效性。0* 通讯作者0制作一件精美的艺术品可能需要一位勤奋的艺术家数天甚至数月的时间，这是一项劳动密集型和耗时的工作。受此启发，最近的一系列方法研究了使用单幅艺术作品或艺术作品集合以某位艺术家的风格重新绘制现有照片的问题。这些方法被称为风格迁移。借助风格迁移技术，任何人都可以创作艺术图像。01. 引言results, providing insufficient visual quality. Therefore, theproblem of diverse style transfer remains an open challenge.In this paper, we propose a Diverse Image Style Trans-fer (DIST) framework which achieves significant diversitywithout loss of quality by enforcing an invertible cross-space mapping. Specifically, the framework takes randomnoise vectors along with everyday photographs as its inputs,where the former are responsible for style variations and thelatter determine the main contents. However, according toabove analyses, we can learn that the noise vectors are proneto be ignored in the network. Our proposed DIST frame-work tackles this problem through three branches: disen-tanglement branch, inverse branch, and stylization branch.The disentanglement branch factorizes artworks intocontent space and style space. The inverse branch encour-ages the invertible mapping between the latent space of in-put noise vectors and the style space of generated artisticimages, which is inspired by [32]. But different from [32],we invert the style information rather than the whole gen-erated image to the input noise vector, since the input noisevector mainly influences the style of the generated image.The stylization branch renders the input content image withthe style of an artist. Equipped with these three branches,DIST is able to synthesize significantly diverse stylized im-ages without loss of quality, as shown in Figure 1.Overall, the contributions can be summarized as follows:148810如何表示图像的内容和风格是风格迁移的关键挑战。最近，Gatys等人的开创性工作首次提出使用预训练的深度卷积神经网络（DCNNs）从图像中提取内容和风格特征。通过分离和重新组合任意图像的内容和风格，可以创建新颖的艺术作品。这项工作展示了CNN在风格迁移中的巨大潜力，并在这一领域引起了极大的兴趣。基于这项工作，一系列后续方法已被提出，以在效率[13, 21, 34]、质量[20, 35, 40, 43,39, 4]和泛化[6, 5, 10, 24, 30, 27,22]等方面取得更好的性能。然而，多样性作为另一个重要方面，受到的关注相对较少。0俗话说，“千人千面”。同样，不同的人对艺术作品的风格有不同的理解和解读。对于图像的艺术风格，没有统一和定量的定义。因此，风格化结果应该是多样化的，而不是独特的，以满足不同人的偏好。换句话说，风格迁移是一个不确定的问题，可以找到大量的解决方案。不幸的是，现有的风格迁移方法通常假设有一个确定的解决方案。结果，它们无法捕捉到可能输出的完整分布。0处理风格迁移中多样性的一种直接方法是将随机噪声向量与内容图像一起作为输入，即利用输入噪声向量的可变性产生多样的风格化结果。然而，网络往往更关注高维结构化的内容图像，忽视噪声向量，导致确定性输出。为了确保潜在空间的可变性能够传递到图像空间，Ulyanov等人[35]通过在像素空间中扩大生成图像之间的距离来强制执行它们之间的差异。类似地，Li等人[23]引入了一种多样性损失，惩罚了小批量中不同样本的特征相似性。尽管这些方法在一定程度上可以实现多样性，但它们明显存在局限性。首先，强制增加输出之间的距离可能导致结果偏离局部最优解，从而降低图像质量。其次，为了避免给生成的图像引入太多伪影，多样性损失的权重通常设置为较小的值。因此，风格化结果的多样性相对有限。第三，多样性不仅仅是生成图像之间的像素距离或特征距离，它包含更丰富和更复杂的内涵。最近，Wang等人[37]通过使用正交噪声矩阵扰动图像特征映射而保持原始风格信息不变，实现了更好的多样性。然而，这种方法容易生成失真的结果，提供不足的视觉质量。因此，多样性风格迁移问题仍然是一个待解决的挑战。在本文中，我们提出了一种多样性图像风格迁移（DIST）框架，通过强制执行可逆的交叉空间映射，实现了显著的多样性而不损失质量。具体而言，该框架以随机噪声向量和日常照片作为输入，其中前者负责风格变化，后者确定主要内容。然而，根据上述分析，我们可以得出结论，网络往往会忽视噪声向量。我们提出的DIST框架通过三个分支解决了这个问题：解缠分支、逆分支和风格化分支。解缠分支将艺术作品分解为内容空间和风格空间。逆分支鼓励输入噪声向量的潜在空间与生成艺术图像的风格空间之间的可逆映射，这受到[32]的启发。但与[32]不同的是，我们反转风格信息而不是整个生成的图像到输入噪声向量，因为输入噪声向量主要影响生成图像的风格。风格化分支使用艺术家的风格渲染输入内容图像。配备这三个分支，DIST能够合成显著多样的风格化图像而不损失质量，如图1所示。总的来说，贡献可以总结如下：0•我们提出了一种新颖的风格迁移框架，通过学习潜在空间和风格空间之间的一对一映射，实现了显著的多样性。0•与现有的风格迁移方法[35，23，0与[37]通过降低质量获得多样性的方法相比，我们的方法可以产生高质量和多样性的风格化结果。0•我们的方法提供了一种解缠图像风格和内容的新方法。0•我们通过与几种最先进的风格迁移方法进行广泛比较，证明了我们方法的有效性和优越性。02.相关工作0风格迁移。风格迁移旨在通过重新绘制现有照片，利用从真实艺术作品中提取的风格信息合成具有艺术风格的新图像。Gatys等人[7]首次提出了将任意图像的内容和风格分离和重新组合的方法，这些内容和风格是从预训练的VGG-19网络[31]中捕获的，以生成新的艺术图像。这种方法能够产生引人注目的风格化结果，但由于迭代优化过程，速度非常慢。为了实现更快的风格化，[13，21，34]提出利用前馈网络。(1)148820为了有效地合成风格化图像。然而，这些方法虽然享受推理效率，但通常受到视觉质量的限制。在此基础上，许多方法[20, 36, 40, 43,38]已经提出，从不同的方面提高了生成图像的质量。另一方面的工作集中于改进风格转移网络的泛化能力，并开发了许多任意风格转移方法[5, 10, 24, 30, 27,12]。上述风格转移方法从单一艺术品中提取风格表示。Sanakoyeu等人[29]指出，仅使用单一艺术品是不足够的，因为它可能无法代表艺术风格的全部范围。因此，[29]提出了从相关艺术品集合中学习风格的方法，极大地提升了视觉质量。[17, 18,33]是三个后续工作。[17]可以捕捉风格的细微变化，同时能够区分不同的风格并解开内容和风格之间的联系。[18]提出了一个内容转换块，以内容和风格特定的方式改变对象。Svoboda等人[33]通过一种新颖的两阶段对等正则化层实现了零样式转移。在本文中，我们沿着这条路线继续工作，关注这些方法忽视的多样性问题。多样图像生成。目前有许多能够生成多样输出图像的生成模型，其中生成对抗网络（GANs）[8, 28, 2, 26, 41,3]可能是最为知名的一种。GANs的核心思想在于对抗损失，强制生成图像的分布与真实数据分布相匹配。然而，GANs经常遭受模式崩溃的问题。为了解决这个问题，Srivastava等人[32]提出鼓励输入噪声向量与生成图像之间的一对一关系，从而显著提高了生成图像的多样性。Kazemi等人[16]进一步引入了SC-GAN用于内容和风格解耦表示学习。具体而言，他们强制输入噪声向量的内容/风格代码与生成图像的内容/风格信息之间的对应关系。因此，通过固定输入的内容部分，他们可以以多种风格生成特定场景。其他部分类似。上述方法都致力于噪声到图像的生成问题，而风格转移是一个图像到图像的翻译问题。在图像到图像的翻译场景中实现多样性要困难得多，因为当高维结构化图像与噪声向量一起作为输入时，噪声向量（负责多样性）很容易被忽视[25,1]。与风格转移类似，图像领域转换也是一个图像到图像的翻译问题，其目标是学习不同但相似的视觉领域之间的映射，例如马�斑马。为了实现多样性，Zhu等人[46]提出了一种能够建模的BicycleGAN0连续和多模态分布，与[32]具有相似的精神。然而，该方法仅适用于具有配对训练数据的问题。在此基础上，[11,19]提出了多样的无监督图像领域转换方法，这些方法基于以下假设：图像表示可以分解为捕捉跨领域共享信息的领域不变内容空间和可以模拟相同内容的多样变化的领域特定样式空间。与图像领域转换不同，在样式转移中，内容图像和样式图像通常包含完全不同的内容，这表明上述方法不适用于样式转移。到目前为止，只有少数几个尝试在样式转移中实现多样性。[35,23]提出了最大化风格化图像之间的距离。[37]采用深度特征扰动（DFP）操作来扰动深度图像特征映射。尽管这些方法在一定程度上可以实现多样性，但它们牺牲了生成图像的质量。在本文中，我们提出了一种新颖的样式转移方法，可以在不牺牲视觉质量的情况下实现更好的多样性。03. 方法0受[29, 17, 18,33]的启发，我们不是从单一艺术品中学习艺术风格，而是从一系列相关艺术品中学习。形式上，我们的任务可以描述如下：给定一组照片x�X和一组艺术品y�Y（X和Y的内容可以完全不同），我们的目标是学习一个具有显著多样性的风格转换G：X→Y。为了实现这个目标，我们提出了一个由三个分支组成的DIST框架：风格化分支、解缠分支和逆分支。在本节中，我们详细介绍这三个分支。03.1. 风格化分支0风格化分支旨在用y�Y的风格重新绘制x�X。为此，我们使G能够通过使用鉴别器D对抗训练来逼近Y的分布：G试图生成类似于Y中的图像，而D试图区分风格化图像和真实图像。这两个网络的联合训练导致生成器能够产生所需的风格化效果。这个过程可以表示如下（注意，对于G，我们采用由编码器Ec和解码器D组成的编码器-解码器架构）：0Ladv := Ey�Y [ log(D(y))] + Ex�X,z�p(z)0[ log (1 - D(D(Ec(x),z)))]0其中z∈Rdz是一个随机噪声向量，p(z)是标准正态分布N(0,I)。我们利用其变异性来鼓励生成图像的多样性。148830Es0E0D0Lrecon0ECD0鉴别器0PP0LFp0Es0风格0示例0内容示例0样本0样本0´0Linv0高斯先验0Lp0Ladv0Lcadv0图2：我们方法的概述。（a）通过对抗损失Ladv和内容结构损失Lp（第3.1节），我们能够将艺术风格转移到内容图像上。（b）通过内容特征损失LFp，内容特征对抗损失Lcadv和艺术品重建损失Lrecon（第3.2节），我们获得了一个能够从风格化图像中提取风格信息的编码器Es。（c）通过逆损失Linv（第3.3节），我们鼓励风格化图像的风格空间与输入噪声向量的潜在空间之间的双射映射，从而实现显著的多样性。0仅使用上述对抗损失不能保留生成图像中x的内容信息，这不符合风格转换的要求。最简单的解决方案是在内容图像x�X和风格化图像D(Ec(x),z)之间使用像素级损失。然而，这种损失过于严格，会损害风格化图像的质量。因此，我们放宽了约束：我们不直接计算原始图像之间的距离，而是首先将它们输入到一个平均池化层P中，然后计算它们之间的距离。我们将这个内容结构损失表示为：0Lp := Ex � X,z � p(z) [ || P(D(Ec(x),z)) - P(x) ||22 ] (2)0与像素级损失相比，Lp以更粗粒度的方式衡量内容图像和风格化图像之间的差异，并且只要求它们在一般内容结构上相似，更符合风格转换的目标。虽然风格化分支足以获得所需的风格化效果，但是它不能保留x的内容信息。0可标记的风格化图像，它只能生成确定性的风格化图像，而缺乏多样性，因为网络倾向于忽略随机噪声向量z。03.2. 解缠分支0[32]通过强制输入噪声向量和生成的图像之间的双射映射来缓解GAN 中的模式崩溃问题。与 [32]不同的是，我们的模型将噪声向量与内容图像一起作为输入，前者负责风格变化，后者确定主要内容。因此，在反向过程中，我们不像 [32]那样将整个生成的图像反转为输入噪声向量，而是将风格化图像的风格信息反转为输入噪声向量（详见第3.3节）。具体来说，我们利用一个风格编码器从风格化图像中提取风格信息，并强制风格编码器的输出与输入噪声向量保持一致。现在的主要问题是如何获得这样一个风格编码器。我们通过解缠分支解决了这个问题。(4)total := λadvadv + λpp + λfpF P +(7)148840首先，解缠分支采用一个编码器 E ′ c，它以风格化图像 D(Ec(x), z)作为输入。鉴于内容图像和风格化图像共享相同的内容，但在风格上有很大差异，如果我们鼓励 E c的输出（其输入为内容图像）与 E ′ c的输出（其输入为风格化图像）之间的相似性，E c 和 E ′ c将提取共享的内容信息并忽略特定的风格信息。请注意，E c和 E ′ c是两个独立的网络，它们不共享权重。这是因为提取照片内容和艺术作品内容时存在一些差异。我们将相应的内容特征损失定义为：0L F P := E x � X, z � p(z) [ || E ′ c(D(E c(x), z)) - E c(x) || 2 2] (3)0然而，L F P 可能会鼓励 E c 和 E ′ c输出的特征图中每个元素的值非常小（即 ∥ E c(x) ∥→0，∥ E ′ c(D(E c(x), z)) ∥→ 0）。在这种情况下，尽管 L FP 被最小化，但 E c(x) 和 E ′ c(D(E c(x), z))之间的相似性并没有增加。为了缓解这个问题，我们使用特征鉴别器 D f，并引入内容特征对抗损失：0L cadv := E x � X, z � p(z) [ log(D f(Ec(x))) +0log(1 - D f(E ′ c(D(E c(x), z))))]0L cadv 衡量了分布偏差，对其输入的值不太敏感，相比于 LF P 来说。此外，L cadv 与 L F P一起可以促进两个维度的相似性，进一步提高性能。然后，解缠分支采用另一个编码器 E s，与内容编码器 E ′ c和解码器 D 一起重构艺术图像。由于 E ′ c被限制为提取内容信息，E s必须提取风格信息来重构艺术图像。因此，我们得到了我们期望的风格编码器 E s。我们将重构损失定义为：0L recon := E y � Y [ || D(E ′ c(y), E s(y)) - y || 1 ] (5)03.3. 反向分支0借助风格编码器 Es，我们可以访问艺术图像的风格空间。为了实现多样性，反向分支通过使用反向损失来强制实现潜在空间和风格空间之间的一对一映射：0L inv := E x � X, z � p(z) [ || E s(D(E c(x), z)) - z || 1 ](6)0反向损失确保生成图像 D(E c(x), z)的风格信息可以反转为相应的噪声向量 z，这意味着 D(Ec(x), z)0通过保留 z 的影响和变异性，我们可以通过从标准正态分布N(0, I) 中随机采样不同的 z 来获得多样化的风格化结果。03.4. 最终目标和网络架构0图2说明了我们方法的完整流程。我们总结了所有上述损失并得到复合损失。0λ cadv L cadv + λ recon L recon + λ inv L inv0其中超参数 λ adv , λ p , λ fp , λ cadv , λ recon , 和 λinv控制每个项的重要性。我们使用复合损失作为训练模型的最终目标。网络架构。我们基于最近的AST骨干[29]构建，并通过我们提出的改进来扩展它以产生多样的风格化结果。具体而言，内容编码器 E c 和 E ′ c具有相同的架构，由五个卷积层组成。风格编码器 E s包括五个卷积层、一个全局平均池化层和一个全连接（FC）层。与[15]类似，我们的解码器 D有两个分支。一个分支以内容图像 x为输入，包含九个残差块[9]、四个上采样块和一个卷积层。另一个分支以噪声向量 z为输入（注意，在推理时，我们可以将 z 或从参考图像 y提取的风格编码 E s ( y )作为其输入），包含一个FC层来产生一组仿射参数 γ , β。然后通过AdaIN [10]将这两个分支合并，0AdaIN ( a, γ, β ) := γ � a − µ ( )0σ ( a )0� + β (8)0其中 a 是分支一中前一个卷积层的激活， µ 和 σ分别是通道的均值和标准差。图像鉴别器 D是一个完全卷积网络，具有七个卷积层。特征鉴别器 D f由三个卷积层和一个FC层组成。至于 P，它是一个平均池化层。损失权重设置为 λ adv = 2， λp = 150， λ fp = 100， λ cadv = 10， λ recon =200，和 λ inv =600。我们使用学习率为0.0002的Adam优化器。04. 实验0我们进行了广泛的实验和比较，以评估我们提出的方法。首先，在第4.1节中，我们展示了我们模型生成的多样艺术品，并进行了定性比较。接下来，在第4.2节中，我们提供了定量结果。最后，在第4.3节中，我们剔除了我们模型的单个组件，以展示它们的重要性。数据集。与[29，17，18，33]一样，我们将Places365[45]作为内容数据集，将Wikiart [14]作为风格数据集。148850Van Gogh Cezanne Morisot Monet Gauguin Roerich0风格内容生成的艺术品0Peploe0图3：DIST生成的风格化示例。第一行显示了不同艺术家的艺术品。第二行显示了内容图像。其他三行显示了我们模型生成的多样化风格化图像。0数据集（具体而言，我们从WikiArt收集了每位艺术家的数百幅艺术作品，并为他/她训练了一个单独的模型）。训练图像被随机裁剪和调整大小为768×768分辨率。基线方法。我们采用以下可以产生多样性的方法作为基线：Gatys等人[7]，Li等人[23]，Ulyanov等人[35]，DFP [37]和MUNIT[11]。除了上述方法，我们还与AST[29]和Svoboda等人[33]进行比较，以使实验更加充分。请注意，我们使用它们的官方发布的代码和默认的超参数设置进行实验。04.1. 定性比较0在本节中，我们展示了我们的方法生成的图像，以确认多样性和质量方面的定量结果。图3显示了我们基于不同艺术家风格的风格化结果。我们可以看到，对于每个艺术家的风格，我们的模型产生了显著多样的艺术图像，具有显著的视觉质量。在图4中，我们展示了定性比较结果。0我们观察到AST[29]和Svoboda等人[33]无法生成多样的输出。Gatys等人[7]、Li等人[23]和Ulyanov等人[35]只产生轻微的变化，很难注意到。DFP[37]在风格化图像中引入了许多失真，无法保留主要的内容结构，尽管实现了显著的多样性。MUNIT[11]产生了高度多样但质量较差的风格化效果。从图4的放大部分可以看出，MUNIT[11]只改变了内容图像的颜色，没有学习任何纹理模式，导致结果不令人满意。这是因为MUNIT[11]建立在这样的假设上：不同域中的图像具有不同的风格空间，但共享一个公共的内容空间，这意味着它只能在视觉上相似的域之间进行图像转换（例如，白天场景�夜晚场景）。相比之下，DIST不要求内容图像和风格图像在内容上相似。图3和图4中的结果验证了我们方法的有效性和优越性。附加结果在补充材料中提供。148860内容0风格（梵高）0Gatys等人 MUNIT DIST0Li等人 Svoboda等人0DFP0图4：定性比较。第一列显示内容图像和梵高的艺术作品。其他列显示不同方法生成的风格化图像。0表1：不同方法的欺骗率、用户研究和LPIPS距离。数值越高越好。0Gatys等人[7] AST [29] Svoboda等人[33] Li等人[23] Ulyanov等人[35] DFP [37] MUNIT [11] DIST0欺骗率0.206 0.454 0.278 0.072 0.079 0.027 0.121 0.525 用户研究0.089 0.316 0.242 0.010 0.012 0.006 0.004 0.321 LPIPS距离0.256 0.0000.000 0.175 0.163 0.431 0.538 0.46404.2. 定量比较0在本节中，我们使用一些评估指标评估我们的模型。具体而言，我们采用欺骗率[29]和用户研究[27, 40, 4,44]来衡量质量，并采用LPIPS（学习感知图像块相似性）距离[42]来衡量多样性。欺骗率。这是Sanakoyeu等人[29]提出的一个定量指标。具体而言，我们预先训练了一个VGG-16网络[31]来在Wikiart[14]上对艺术家进行分类。然后，欺骗率被计算为被网络分类为所生成图像的艺术家的艺术作品的比例。我们在表1的第二行报告了欺骗率，可以看到我们的方法表现最好，而DFP[37]表现最差。用户研究。我们还进行了人类评估研究，以比较DIST与其他方法的性能。给定一个内容图像，我们使用不同的方法对其进行风格化，并将风格化结果与内容图像一起展示给参与者。然后，我们要求这些参与者选择最符合目标艺术家风格的风格化图像。我们向50个参与者展示了20组图像，并最终收集了1000个投票。我们在表1的第三行报告了每种方法的投票百分比。我们观察到DIST生成的风格化图像位居前列。0平均而言，DIST的评分最高，而MUNIT的评分最低。为了衡量多样性，我们使用5个内容图像和6位艺术家的艺术作品得到30种不同的组合，并且对于每种组合，我们要求每种方法产生20个输出。因此，我们获得了每种方法生成的5700对（30×C 2 20 = 5700）风格化图像。LPIPS距离。LIPIS[42]测量生成图像之间的平均特征距离。表1的第四行显示了每种方法的LPIPS距离。可以观察到DIST在MUNIT[11]之后获得了第二高的分数。总之，尽管DFP[37]和MUNIT[11]在多样性方面表现出色，但在质量方面表现不佳。相比之下，DIST既具有显著的多样性又具有优越的视觉质量。04.3. 消融实验0根据上述分析，解缠分支和逆向分支是实现多样性的关键。在本节中，我们通过消融实验研究探讨了这两个分支的影响。有和没有解缠分支。为了研究解缠分支的影响，我们评估了在移除该分支时DIST的性能。我们在图5(c)中报告了实验结果，其中我们观察到148870图5：消融实验结果。 (a) AST的结果 (欺骗率=0.454，LPIPS=0.000)，(b) DIST的结果 (欺骗率=0.525，LPIPS=0.464)，(c)DIST无解缠分支的结果 (欺骗率=0.112，LPIPS=0.446)，以及 (d) DIST无逆向分支的结果(欺骗率=0.531，LPIPS=0.034)。放大以获得更好的视图和细节。0图像质量严重下降的原因可能是将整个生成的图像反转为输入的噪声向量是不合理的，因为输入的噪声向量只影响生成图像的风格，与其内容无关。0图6：训练阶段的逆向损失。0有和没有逆向分支。在这里，我们训练了一个不涉及逆向分支的DIST模型。如预期的那样，图5(d)的结果显示生成的图像中几乎没有风格变化。这是因为网络倾向于忽略输入的噪声向量。这个问题可以通过使用提出的逆向分支来解决。如图6所示，通过逆向分支，训练阶段结束时逆向损失接近0，表明DIST模型学习到了潜在空间和风格空间之间的可逆映射。现在，输入的噪声向量可以极大地影响网络的输出。请注意，噪声向量z可以用从参考图像y中提取的风格代码Es(y)来替换，以产生更可控的风格化结果，如图7所示。消融实验结果表明，解缠分支和逆向分支是我们方法的两个关键要素。没有这两个分支，我们的方法无法生成多样且高质量的风格化图像。0图7：参考引导的风格化结果。05. 结论0在本文中，我们提出了一种多样化图像风格转换（DIST）框架，通过鼓励输入噪声向量的潜在空间与生成艺术图像的风格空间之间的一对一映射，实现了显著的多样性而不损失质量。该框架由三个分支组成，其中风格化分支负责对内容图像进行风格化，另外两个分支（即解缠分支和逆向分支）负责多样性。我们广泛的实验结果证明了我们方法的有效性和优越性。在未来的工作中，我们希望将我们的方法扩展到其他任务，如文本到图像的合成和图像修复。致谢。本工作部分得到了以下项目的支持：2020YFC1522701、2020YFC1523101、19ZDA197、LY21F020005、2021009、2020YFC1523201、2020YFC1523202、2019C03137、教育部脑科学与脑-机集成前沿科学中心（浙江大学）、浙江大学洞窟寺庙数字保护重点科研基地（国家文物局）。[1] Yazeed Alharbi, Neil Smith, and Peter Wonka. Latent filterscaling for multimodal unsupervised image-to-image trans-lation. In Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition, pages 1458–1466,2019. 3[2] Martin Arjovsky, Soumith Chintala, and L´eon Bottou.Wasserstein gan.arXiv preprint arXiv:1701.07875, 2017.3[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Largescale gan training for high fidelity natural image synthesis.arXiv preprint arXiv:1809.11096, 2018. 3148880参考文献0[4] Haibo Chen，Lei Zhao，Zhizhong Wang，HuimingZhang，Zhiwen Zuo，Ailin Li，Wei Xing和DongmingLu。Dualast：用于艺术风格转换的双样式学习网络。在《IEEE/CVF计算机视觉和模式识别会议论文集》中，第872-881页，2021年。2, 70[5] Tian Qi Chen和MarkSchmidt。任意风格的快速基于补丁的风格转换。arXiv预印本arXiv:1612.04337，2016年。2, 30[6] Vincent Dumoulin，Jonathon Shlens和Manjunath Kud-lur。艺术风格的学习表示。arXiv预印本arXiv:1610.07629，2016年。20[7] Leon A Gatys，Alexander S Ecker和MatthiasBethge。使用卷积神经网络的图像风格转换。在《计算机视觉和模式识别IEEE会议论文集》中，第2414-2423页，2016年。2, 6,70[8] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和YoshuaBengio。生成对抗网络。在《神经信息处理系统进展》中，第2672-2680页，2014年。30[9] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在《IEEE计算机视觉和模式识别会议论文集》中，第770-778页，2016年。50[10] Xun Huang和SergeBelongie。自适应实例归一化实时任意风格转换。在《IEEE国际计算机视觉会议论文集》中，第1501-1510页，2017年。2, 3, 50[11] Xun Huang，Ming-Yu Liu，Serge Belongie和JanKautz。多模态无监督图像到图像的转换。在《欧洲计算机视觉会议论文集》中，第172-189页，2018年。3, 6, 70[12] Yongcheng Jing，Xiao Liu，Yukang Ding，XinchaoWang，Errui Ding，Mingli Song和ShileiWen。任意风格转换的动态实例归一化。在《人工智能AAAI会议论文集》中，第34卷，第4369-4376页，2020年。30[13] Justin Johnson，Alexandre Alahi和LiFei-Fei。用于实时风格转换和超分辨率的感知损失。在《欧洲计算机视觉会议》中，第694-711页。Springer，2016年。20[14] Sergey Karayev，Matthew Trentacoste，Helen Han，AseemAgarwala，Trevor Darrell，Aaron Hertzmann和HolgerWinnemoeller。识别图像风格。arXiv预印本arXiv:1311.3715，2013年。5, 70[15] Tero Karras，Samuli Laine和TimoAila。用于生成对抗网络的基于风格的生成器架构。在《计算机视觉和模式识别IEEE会议论文集》中，第4401-4410页，2019年。50[16] Hadi Kazemi，Seyed Mehdi Iranmanesh和NasserNasrabadi。生成对抗网络中的风格和内容分离。在《2019年IEEE冬季计算机视觉应用会议论文集》中，第848-856页。IEEE，2019年。30[17] Dmytro Kotovenko，Artsiom Sanakoyeu，SabineLang和BjornOmmer。用于艺术风格转换的内容和风格分离。在《IEEE国际计算机视觉会议论文集》中，第4422-4431页，2019年。3, 50[18] Dmytro Kotovenko，Artsiom Sanakoyeu，PingchuanMa，Sabine Lang和BjornOmmer。用于图像风格转换的内容转换块。在《计算机视觉和模式识别IEEE会议论文集》中，第10032-10041页，2019年。3, 50[19] Hsin-Ying Lee，Hung-Yu Tseng，Jia-BinHuang，Maneesh Singh和Ming-HsuanYang。通过分离表示实现多样化的图像到图像转换。在《欧洲计算机视觉会议论文集》中，第35-51页，2018年。30[20] Chuan Li和MichaelWand。结合马尔可夫随机场和卷积神经网络进行图像合成。在《计算机视觉和模式识别IEEE会议论文集》中，第2479-2486页，2016年。2, 30[21] Chuan Li and Michael Wand.基于马尔可夫生成对抗网络的预计算实时纹理合成。在欧洲计算机视觉会议中，页码为702-716，2016年。20[22] Xueting Li, Sifei Liu, Jan Kautz, and Ming-Hsuan Yang.学习线

下载后可阅读完整内容，剩余1页未读，立即下载