没有合适的资源?快使用搜索试试~ 我知道了~
深度特征扰动的多样化任意风格转换
7789基于深度特征扰动的多样化任意风格转换王志忠,赵磊,陈海波,邱丽红,莫启航,林四环,魏星,卢东明浙江大学计算机科学与技术学院{endywon,cszhl,feng123,zjusheldon,moqihang,linsh,wxing,ldm}@ zju.edu.cn摘要图像风格转换是一个欠定问题,其中大量的解决方案可以满足相同的约束(内容和风格)。虽然已经有一些努力,以提高风格转移的多样性,通过引入替代多样性损失,他们有限制的泛化,有限的多样性和可扩展性差。在本文中,我们解决了这些限制,并提出了一个简单而有效的方法,多样化的任意风格转移。该方法的核心思想是一种称为深度特征扰动(DFP)的操作,该操作使用正交随机噪声矩阵来扰动深度图像特征图,同时保持原始样式信息不变。我们的DFP操作可以很容易地集成到许多现有的WCT(白化和着色变换)为基础的方法,并使他们能够产生不同的结果,为任意风格。实验结果表明,这种无学习的通用方法可以在保持风格化质量的前提下,大大提高风格的1. 介绍风格转换,即用另一种风格重新描绘现有图像,在学术界和工业界都被认为是一项具有挑战性但又相互交叉的任务。最近,Gatyset al. [7,6,8]已经证明了相 关 性 ( 即 , 从 预 训 练 的 深 度 卷 积 神 经 网 络(DCNN)中提取的特征图之间的特征向量(例如,Gram矩阵)可以很好地表示图像的风格。从那时起,已作出重大努力,以改善在许多方面,包括效率[29,12,16],质量,性[15,31,21,10],一般性[2,5,11,19,26,22],用户控制[1,9]和照相现实主义[23,20,32]等。然而,尽管取得了显著的成功,这些方法往往忽视了一个重要的方面,即,多样性,因为许多应用(例如,艺术创作和创意设计),* 通讯作者以满足不同用户的偏好。就多样性而言,一个常见的解释是,图像风格转移是一个欠定问题,其中大量的解决方案可以满足相同的内容和风格,就像由不同方法生成的结果都可以是视觉上令人愉悦和感知上正确的一样。然而,缺乏有意义的变化,香草风格的转移机制[8,12,29]阻碍了多样性的出现,因为基于优化的方法往往收敛到类似的局部最优,而前馈网络只产生固定的输出固定的输入。尽管这个问题具有挑战性和意义,但不幸的是,它几乎没有得到足够的重视,只有少数努力来解决它。例如,基于前馈网络,Li et al. [18]引入了一种多样性损失,该损失惩罚了小批量中不同样本的特征相似性。Ulyanov等人[30]最小化了生成的分布与Julesz en-mos上的准均匀分布之间的Kullback-Leibler发散[13,35]。虽然他们的方法可以在一定程度上生成多样化的纹理样本或风格化的图像,但他们仍然受到三个(1)限制性概括。一旦经过训练,他们的前馈网络就被绑定到一种特定的风格,而这种风格不能推广到其他风格。 (2)有限的多样性。 由于它们的多样性通过惩罚有限数据集的小批量中的变化来学习,并且多样性损失的权重应设置为较小的值,多样性程度是有限的。(3)可扩展性差。将他们的方法扩展到其他方法需要对训练策略和网络结构进行棘手的修改,这可能对一些基于学习的方法有用,如[11],但不适合最近的免学习方法[19,26,20],因为这些方法以风格不可知的方式传输任意风格。面对上述挑战,我们重新思考多样性问题,我们将使用的一个重要见解是,广泛用作图像风格表示的Gram矩阵[8]可以对应于无限数量的不同特征图,并且图像重建。7790从这些特征图中构造出来的是我们正在寻找的各种结果。显然,多样性问题现在已经转化为如何用相同的Gram矩阵获得不同的特征映射的问题受Liet al的工作启发。[19]通过白化和着色变换(WCT)分解Gram矩阵并分离它们的匹配,我们提出了一种简单而有效的方法,即,深度特征扰动(DFP),实现多样化的任意风格转换。我们的多样性是通过使用正交噪声矩阵来扰动从DCNN中提取的图像特征图,同时保持原始样式信息不变来获得的。也就是说,尽管扰动后的特征图彼此不同,但它们都具有相同的Gram矩阵。为了便于理解,我们将Gram矩阵作为风格的表示,并定义具有相同Gram矩阵的不同特征映射共享相同的风格特征空间。在这项工作中,我们的DFP基于WCT的框架[19],因此它可以很容易地融入许多基于WCT的方法[19,26,20],并使它们能够生成不同的结果,而无需任何额外的学习过程。请注意,这种无需学习的过程与前面提到的需要以预定义的风格学习的多样化方法有着根本的不同。因此,我们的方法是能够实现多样化的任意风格转移。这项工作的主要贡献有三个方面:• 我们建议使用深度特征扰动,即,通过正交噪声矩阵扰动所述深度图像特征图,同时保持原始样式信息不失真。变,实现多样化任意风格传递。• 我们的方法可以很容易地结合到现有的基于WCT的方法[19,26,20]中,这些方法用于不同风格的传输任务,例如,艺术风格转换,语义-水平风格转移和照片真实感风格转移。• 理论分析证明了该方法产生多样性的能力,实验结果表明,该方法可以大大提高多样性,同时保持风格化的质量。2. 相关工作Gram-based方法Gatys等人[7,6,8]首先提出了一种基于匹配相关性的任意风格转换和纹理合成的算法(即,Gram矩阵)之间的深度特征映射,但是一个主要缺点是效率低下。为了解决这个问题,Johnsonet al.[12]和Ulyanovet al. [29,30]直接训练的前馈生成网络用于快速风格转换,但这些方法每次都需要重新训练网络以获得新的风格,这是不灵活的。对于这种限制,提出了一些方法[5,33,2,18,25]将多个样式合并到一个网络中,但它们仍然限于固定数量的预定义样式。最近,Huang和Belongie [11]进一步允许在单个前馈网络中进行任意类型的传输。基于WCT的方法最近,Liet al. [19]提出了利用一系列特征变换来以无风格学习的方式实现快速的任意风格转换。他们重新制定了风格转移的任务,作为一个形象重新-构造过程,其中内容图像的特征图在中间层关于它们的样式统计被白化(即,革兰氏矩阵),然后着色以显示样式图像的相同统计特征。该方法本质上是一种基于Gram的方法,但它通过矩阵分解拆分Gram矩阵,并通过白化和着色变换(WCT)分离它们的匹配,从而为我们的深度特征扰动提供了机会。此外,Shengetal. [26]将其与样式交换[3]相结合,以实现更高质量的语义级样式转换。Li等[20] Yooet al. [32]将其定义为快速照片级真实感风格转换。最近,Liet al.[17]从理论上推导出变换矩阵的形式,并直接用前馈网络学习Lu等人[22]通过将其视为最优运输问题,导出了一个封闭形式的解决方案。在我们的工作中,以最具代表性的方法[19,26,20]为例,所提出的方法可以很容易地集成到无学习的WCT过程中,并使这些方法能够生成不同的结果,这将在第5节中显示。多样化的方法。 我们的方法与[18]和[30]密切相关。Li等[18]引入了多样性损失,以允许前馈网络产生不同的输出。 它明确地测量了视觉上的变化-生成的结果之间的差异,并在一个小批处理中惩罚它们Ulyanov等人[30]提出了一种新的公式,允许训练对Julesz系综进行采样的生成网络[13,35]。具体而言,其学习目标的多样性项类似于Li等人。[18],其通过相互比较生成的图像来量化批次中缺乏多样性。虽然这些方法可以在一定程度上产生不同的输出,但它们仍然受到有限的推广性,有限的多样性和可扩展性差,正如我们在第1节中介绍的那样。所提出的方法基于WCT [19],并且可以很容易地集成到基于WCT的方法中,以使它们能够生成不同的结果。与之前需要为每种风格训练一个独立网络的多样性方法不同,我们的多样性是无学习的此外,在没有额外约束的情况下,我们的方法可以产生无限数量的解,这些解具有令人满意的质量以及明显的多样性。3. 风格特征空间定义图像的风格是一个相当棘手的问题,至今还没有统一的结论7791Gl Gl图1.我们的多样化任意风格的输送管道。(a)我们添加一个正交噪声矩阵Z来扰动白化和着色变换(WCT)。与[19]一样,VGG和DecoderX首先被训练用于图像重建,然后被固定用于风格转移。C和S分别表示内容图像和样式图像。(b)我们的扰动白化和着色变换(PWCT)可以应用于[19]的多级风格化框架的每个级别。非正式地说,风格可以被看作是一个视觉属性的家族,例如颜色、笔触和线条画等。最近,Gatys et al.[7,6,8]提出了一种新的艺术图像风格表示(Gram矩阵)。在他们的作品中,图像的风格由从预训练的DCNN中提取的深度特征图之间的相关性表示。Given图像→x作为输入,从某个层提取的矢量化特征图(我们只取VGG模型[28]的一层)表示为F∈RC×HW,其中H、W是原始特征图的高度和宽度,C是通道数图像→x的样式可以表示为如下:Σ约束,S_∞={F∈F:L(F)≤∞},(4)其中特征图在风格特征上近似相等。在这项工作中,我们的深度特征扰动可以很容易地实现第一个约束(等式2)。(3)),而方法[18,30]只满足第二个约束(方程。(四))。也就是说,我们的方法得到的各种扰动特征映射的Gram矩阵可以是完全相等的。4. 深度特征扰动其中FGij=和FFik Fjk=FFT∈RC×C,(1)Kare the activations of the ith and jthOur deep feature perturbation (DFP) is based on thework of Li et al. [19]并将其纳入其白化和着色变换(WCT)过程,以帮助生成二-伊克JK位置k处的滤波器,FT是F的转置矩阵。诗风格化的结果。我们的方法的流水线显示在图1中,多样化的风格转换主要显然,对于一个确定的Gram矩阵G,可以是大量的特征图对应于它。令Fl表示层l中的图像的矢量化特征图。如果Fl的Gram矩阵与G匹配,则Fl被感知为层l中的风格G。形式上,给定损失函数:L(F)=|| FFT− G||、(二)通过扰动白化和着色变换(PWCT)实现,该变换包括两个步骤,即,白化变换和扰动着色变换。白化变换 给定一对内容图像Ic和样式图像Is,首先提取它们的矢量化VGG特征映射Fc=Φ(Ic)∈RC×HcWc和Fs=Φ(Is)∈G l lL我们定义满足以下约束的特征映射属于G的同一风格特定特征空间。在某 一层 Φ ( 例如 , Relu3 1 ) , 其中 Hc 、 Wc(Hs、Ws)是内容(样式)特征的高度和宽度,C是通道的数量我们第一中心SG={F1∈F:LG (F1)=0},(3)减去它的平均向量。然后,将所述变换(等式(Eq.(5))用于将Fc变换为Fc,7792-T型C c其中F是一组特征图。属于相同S的特征在风格特征上是感知上等同的。尤其是,有时候我们不需要他们的奶奶-完全相等,然后我们可以得到松弛的其中特征图彼此不相关(即,FFT= I)。1F=E D2英法,(5)CcCcC7793SSn表1.单级扰动和多级扰动在运行时间方面的定量比较,在大小为512×512的图像和6GB Nvidia 980Ti GPU上进行测试图2Li等[19个]I5I4I3I2I1I5+I4I5+I1I3+I2+I1I5+I4+I3+I2+I1时间/秒3.013.533.513.043.033.024.143.543.054.15图3Li等[20个]-I4I3I2I1I4+I3I4+I1I2+I1I4+I3+I2+I1时间/秒0.29-0.320.310.300.290.330.320.300.34内容I4 I3 I2 I1内容I5 I4 I3 I2 I1Styles Liet al. [19] I5 + I4 I5 + I1 I3 + I2 + I1I5+I4+I3+I2+I1图2.单级微扰与多级扰动我们的DFP被集成到方法[19]中。最上面一行显示的是只扰动图1中的单级风格化得到的结果。第1段(b)分段。下面一行显示了通过在多个级别上扰动风格化所获得的结果。Styles Liet al. [20] I4 + I3 I4 + I1 I4 + I3 + I2 + I1图3.单能级微扰与多能级微扰的另一种比较我们的DFP被集成到方法[20]中。此方法仅使用四级样式化。最上面一行显示的是只扰动一个单级样式化得到的结果。下面一行显示了通过在多个级别上扰动风格化所获得的结果F(因为ET E=I且FFT=I)。我们最终-其中Dc和Ec由奇异值de-csc c1Gram矩阵Fc FT的合成(SVD)∈RC×C在D2之间设置正交噪声矩阵 和ET,css(等式。(1)),即,Fc FT=Ec Dc ET。Dc是对角矩阵可能消耗最少的计算和运行时间(我们将C c的特征值,而Ec是相应的正交特征向量矩阵扰动着色变换我们先把F放在中间通过减去它的平均向量Ms。着色的反式-在第5.2节中讨论)。我们首先获得随机噪声矩阵N(例如,从标准正态分布中抽样,我们将在1第5.2节)根据D2和ET假设Ss[19]中使用的形式基本上是白化1斯德普岛例如, 使用等式(6)变换F_(?)c,使我们可以得到that the shape of D 2 是(C-k)×(C-k),其中k是−5得到满足与Fs相同的Gram矩阵的F_s(即,小奇异值的数量(例如,少于10个,联系我们Li等[19]建议删除这些小奇异值FcsFcs=F sFs)。以获得更高质量的结果),并且ET的形状是1F=E D2ETF,(6)(C-k)×C,则N的形状为(C-k)×(C-k)。张建宗C为了获得正交噪声矩阵,我们将SVD应用于其中D和E的奇异值分解得到的分解N,即,N=E n D n V T,并直接使用矩阵F FT∈RC×C,即F FT =E D E T。 D是正交矩阵Z = En∈ R(C-k)×(C-k)。最后我们ss sssss s s s s s s 1特征值的对角矩阵,E是正确的-在等式D2和ET之间插入Z。(六)、我们新的不安sss特征向量的响应正交矩阵着色变换的目标是使Gram ma-着色变换公式化如下:1FFcs的导数与Fs的导数相同。根据我们的分析CSNsssC在第3节中,这两个特征图具有相同的风格-具体特征空间。从理论上讲,F?cs应该有一个较大的由于ZZT=I,我们可以推导如下:有很多可能性,但Eq。(6)只生产其中一种FF1=(ED2ZETF)(FTEZT1D2ET)他们为了尽可能多地遍历这些解,CSNCSN1sssC C SSST1ble,我们建议使用深度特征扰动。=EsD2(ZETFcFc EsZT)D2ETssss我们的深层特征扰动的关键思想是不可分割的,将正交噪声矩阵评级为等式 (6)在保持特征的Gram矩不7794Ss阵不变的情况下对特征F_(?)c_s进行扰动。因此,有三个地方插入噪声矩阵,即,之间12、在D和E之间,在E和F之间,在D的右侧,=Es Ds ET=Fs FT在后面的实验中,我们发现仅仅使用我们的扰动着色变换可能会降低风格化的质量这可能是因为F(Eq.(6)不仅包含ss sc cs7795CSNCSNλ=02λ = 0。4 λ = 0。6 λ = 0。8 λ = 1。0图4.多样性和质量之间的权衡,方法[19](+我们的DFP)中的多样性超参数λλ=03λ = 0。5 λ = 0。6 λ = 0。8 λ= 1。0图5.多样性和质量之间的权衡,方法[26](+我们的DFP)中的多样性超参数λ1风格信息(革兰氏矩阵)从E D2ET,而且sss一些内容信息来自于F_c(等式10)。 (5))。虽然我们的特征扰动(Eq.(7))可以保持风格信息不变,内容信息可能会受到噪声矩阵的影响,表现为质量下降。幸运的是,在基于WCT的方法中[19,26,20],F_(10)c中的帐篷信息不是内容的决定因素在最后的结果中,与这些方法一样,主要服务于Fcs作为风格特征,并与内容特征Fc混合以平衡风格和内容(类似于我们的等式(9))。为了在保持原始质量的同时增加分集,我们引入分集超参数λ以提供对它们之间的权衡的用户控制λ=04λ = 0。6λ = 0。8λ = 1。0图6.多样性和质量之间的权衡,方法[20](+我们的DFP)中的多样性超参数λ5. 实验结果5.1. 实现细节我们将我们的深度特征扰动纳入三种现有的基于WCT的方法,用于不同的Fcsn′=λF+(1−λ)Fcs.(八)输入式传输任务,即, [19]对于艺术风格转移,[26]第20话:一个人的幸福,一个人的幸福。然后,我们将F′ 平均向量m为现实主义风格转换。除了将WCT替换为厄切恩这是我们的PWCT,我们不修改其他任何东西,例如预-风格,即,F′ ′=F+m. 最后,我们将F经过训练的模型,预处理或后处理opera-CSNCSN SCSN在将其馈送到解码器之前,将其与内容特征Fc进行比较如果没有特别说明,在所有实验中,我们的多样化版本的风格化权重α是一致的Fcsn′=αF′+(1−α)Fc,(9)并且随机噪声矩阵N是从标准正态分布中采样的。我们很好-其中超参数α作为用户控制风格化强度的权重,如[19]。多层次风格化。我们遵循[ 19 ]中使用的多级粗到细风格化,但用我们的PWCT替换他们的WCT,如图所示。第1段(b)分段。事实上,我们不需要在每一个级别上都添加噪音。我们将在第5.2节讨论这个问题。讨论。事实上,优化[18,30]的发散性损失可以被视为我们方法的次优近似,如第3节所分析的。但由于多样性损失仅在有限数据集的小批量上优化,并且权重应设置为较小的值(否则会严重降低质量),因此多样性程度有限。相比之下,不同的正交噪声矩阵可以是无数的和多样的,因此对于我们的方法的结果,可能存在具有不同多样性的无限可能性。此外,我们的方法是无学习的,并且可以对任意风格有效,而[18,30]的多样性损失每次都需要针对每种风格进行优化调整多样性超参数λ,使我们的质量类似于以前的工作,即,[19]为0.6, [26]为0.5,[20]为1。我们将在以下部分中讨论这些设置 我们的代码可以在:https://github上找到。com/EndyWon/Deep-Feature-Perturbation.5.2. 消融研究单能级微扰与多能级微扰。我们研究了单级扰动和多级扰动对两种基于WCT的方法[19,20]的影响,因为它们都使用多级风格化(而方法[26]仅使用单级风格化)。为了只扰动特定的水平,我们将所选水平的多样性超参数λ设置为默认值(即,0.6[19]和[20]的1),以及其他级别为0。如图1的顶行所示。当我们分别从最深层(I5)到最浅层(I1)扰动时,质量相应地降低。这种现象存在于图的顶行中。3也是。我们分析其原因可能是深层次风格化较低频粗糙7796图7.多样性与风格化强度的关系每一列(除第一列外)显示通过不同α值(风格化强度)获得的结果第一行显示了原始方法的结果[19]。中间一行显示通过设置λ = 0获得的结果。6(默认的多样性强度)为我们的多样化版本[19]。最下面一行显示了我们的[19]的多样化版本将λ值增加到1所获得的结果α= 0。6是[19]的默认样式化设置。Liet al. [19个] Sheng等[26日] Li等[20个] 变采样图8.正交噪声矩阵与生成结果的关系第一列显示输入内容(顶部)和样式(底部)图像。第二至第四列分别显示了使用正交噪声矩阵(顶部)和原始随机噪声矩阵(底部)扰动方法[19,26,20]获得的结果。最后一列显示了通过改变方法[19](顶部)和[26](底部)的正交噪声矩阵的采样分布获得的结果。较浅的层次风格化更多的高频精细特征,因此将噪声添加到较浅的层次中将影响最终结果的像素性能。在最深层次上的扰动可以达到与原始方法相当的风格化质量(见图I5)。图2和图4中的I4(3)第三章。另一方面,多级扰动将噪声引入到多级中,如图1的底部行所示。图2和图3。我们可以看到,引入太多的噪音是不必要的,会降低风格化的质量。我们还比较了表1中的运行时间。注意,对于方法[20],我们只考虑样式化时间。与原始方法(第2列)相比,当我们扰动较浅的水平时,增量运行时间减少然而,最深层次的扰动只增加了非常少量的时间(粗体)。多样性和质量之间的平衡。由方程式在公式(8)中,我们引入分集超参数λ以提供用户对分集和质量之间的权衡的控制。 不同的方法可能需要不同的λ值。在这一部分中,我们展示了不同λ值对方法[19,26,20]的影响,同时保持其默认风格化设置。对于方法[19]和[20],我们只扰动前几节中建议的最深层次对于方法[26],我们扰动其瓶颈层,因为它只使用单级风格化。结果示于图4、5和6。我们可以看到,多样性程度随着λ值的增加而增加,但对于方法[19]和[26](图4和5),当应用大λ然而,在方法[20](图6)中不会出现这个问题,这可能是因为该方法[20]包含一个平滑步骤来去除明显的伪影,并且在一定程度上抑制了多样性的出现,这也将通过稍后的第5.3节中的定量比较来验证。为了权衡,我们最终分别为[19],[26]和[20]的默认λ值采用0.6,0.5和1多样性与风格化强度的关系。 这种多样性还与风格化的强度有关以[19]为例,第七章论证了这两个方面之间的关系。比较上面的两行,我们可以观察到,对于我们的默认多样性设置,(λ=0. 6),它适用于风格化强度α≤0的情况。6,但破坏了那些具有较大α值的内容结构。我们在最下面一行设置了一个较大的多样性强度(λ=1),我们可以观察到它对于那些风格化强度较低的人仍然工作得很好(例如,α≤0。4).也就是说,我们可以设置一个较大的分散强度较小的风格化其实作为7797SSSSSs内容风格Li等[19个]Sheng等[26日]Li等[20个]图9.不同风格迁移方法的定性比较。第一列(从上到下)显示了[19,26,20]的输入和原始输出其他列(从上到下)显示[18,30]和[19,26,20]的不同输出(+我们的DFP)。我们已经在第4节中分析过,我们的多样性可能会影响来自Fc的内容信息(等式2)。(5)),因此,内容结构将被风格模式淹没,λ的值太高,如最后两列中所验证的由于噪声矩阵的大小不同,矩阵乘法的计算量很小。正如我们在第4节中所分析的,当我们插入正交噪声矩阵Z时,1在D2和ET之间,Z的大小仅为(C-k)×(C-k),Ss因此,风格化强度(α)和应当考虑多样性强度(λ)然而,在实践中,用户只需要首先确定不同方法的最佳风格化强度α(通常是默认值),然后调整适当的λ值以保持质量。此外,在每种方法中,我们的结果都验证了常数λ值可以稳定地工作在不同的内容和风格输入上。插入正交噪声矩阵的位置。在第4节中,我们提到了三个地方插入或-1正交噪声矩阵,(6),即,D2之间 和ET,其中C是c1通道的数量,k是D2中小奇异值的数量。对于另外两种情况,由于ET和Fc的形状分别为(C-k)×C和C×HcWc(其中Hc,Wc是内容特征的高度和宽度),因此Z的大小应该是C×C,如果我们在-把它插入ET和Fc之间,如果我们插入HcWc×HcWc,它在F的右边。一般来说,对于最深层次的,C−k C Hc Wc,因此我们最终将Z插入1D2 和ET,因为这可能消耗最少的计算,运行时间。Ss在ET和Fc之间,在Fc的右侧。我们的行为同样的实验,并发现他们中的每一个没有区别的定性比较。但在定量比较中,在运行时间和计算要求上,也有一些区别。这主要是因为,正交噪声矩阵与生成结果的关系。为了验证正交噪声矩阵Z在DFP中的重要性和必要性,我们将其与原始随机噪声矩阵N进行了比较,并讨论了其采样分布的影响。结果Li等[18个国家]Ulyanov等人[30个]Li等[19]第十九话Sheng等[26]第二十六话Li等[20]第二十话7798表2.不同方法的定量比较。我们使用平均像素距离和LPIPS距离来测量多样性[34]。通过加入我们的DFP获得的结果几乎没有质量下降。定量比较。 我们计算平均值像素LPIPS像素空间样本对距离与深度特征空间来分别测量多样性。对于每种方法,我们使用6个内容图像和6个样式图像来获得36种不同的组合,对于每个组合,我们获得20个输出。每种方法产生的输出共6840对(每对具有相同的内容和风格),我们计算它们之间的平均距离。在像素空间中,我们直接计算RGB通道中的平均像素距离,其可以用公式表示如下:d(→x,→x)= ||第1、(10)条||1,(10)示于图8,正如我们所看到的,使用原始随机像素1 2宽×高×255×3噪声矩阵产生低质量的结果(参见底行中的列2到4[19]和[26]得到的结果就像纹理和噪声的组合,淹没了内容信息。与前两者相比,[20]即使在原始随机噪声扰动的情况下也能尽可能地保持内容信息这可能是因为它由两个步骤组成,第二步去除明显的伪影以保持内容图像的结构但正如结果所示,质量仍然显着下降。与前面的实验类似,我们也对原始随机噪声扰动调整了α和λ的值,但仍然不能改善产生效果差的问题 为了探索正交噪声矩阵的采样分布的影响,我们使用均匀分布代替方法[19]的标准正态分布(见顶行最后一列),并改变方法[ 26 ]的正态分布的平均值和标准差(见底行最后一列)。正如我们所看到的,生成的图像与默认图像没有显着差异,这表明影响结果的关键因素是噪声Z的正交性,而不是其采样分布。5.3. 比较在本节中,我们将我们的DFP纳入方法[19,26,20],并从定性和定量两个方面将其与其他多样化的风格迁移方法[18,30]进行比较。对于方法[18]和[30],我们使用默认配置运行作者发布的代码或预训练的模型对于我们的方法,我们使用5.1节中描述的默认设置。定性比较。我们在图中显示了定性的比较结果9 .第九条。我们观察到[18]和[30]只产生微妙的多样性(例如,表面上的微小变化),其不包含任何有意义的变化。通过对比,对于我们的DFP方法,结果显示出明显的多样性(例如,脸,头发,背景,甚至眼睛)。与原始输出相比,其中,→x1和→x2表示用于计算pix el的两个图像距离 W和H是它们的宽度和高度(它们应该具有相同的分辨率)。在深层特征空间中,我们使用张等人提出的LPIPS(学习感知图像块相似性)度量。[34]。它在AlexNet[14]特征空间(conv1 5,在Imagenet [24]上预先训练)中计算距离,并使用线性权重来更好地匹配人类的感知判断。如表2所示,[18]和[30]在像素和LPIPS距离中产生低多样性得分。没有我们的DFP,原始方法[19,26,20]不能产生不同的结果。通过引入DFP,这些方法显示出很大的不同改进。请注意,由于方法[26](+我们的DFP)在转换样式时仍然受到一些语义约束的限制,并且方法[20](+我们的DFP)包含平滑步骤以去除细节效果,因此它们的多样性分数低于方法[19](+我们的DFP)。6. 结论在这项工作中,我们引入深度特征扰动(DFP)的白化和着色变换(WCT),以实现多样化的任意风格的转移。通过结合我们的方法,许多现有的基于WCT的方法可以产生不同的结果。实验结果表明,该方法可以在保持风格化质量的同时,大大增加风格的多样性。现阶段,我们只探索了基于WCT的方法,但这种无需学习的通用范式可能会在未来激发出一系列此外,WCT还广泛应用于许多其他领域,如图像到图像翻译[4],GAN[27]等。因此,我们相信我们的方法也可以为这些研究领域提供良好的致谢。我们衷心感谢匿名审稿人帮助我们改进本文。这项工作得到了浙江省科技计划(编号:2019C03137)、浙江省 基 金 项 目 ( 编 号 : LGF18F020006 、LY19F020049)。方法距离距离Li等[18个国家]0.0800.175Ulyanov等人[30个]0.0770.163Li等[19个]0.0000.000Sheng等[26日]0.0000.000Li等[20个]0.0000.000Li等[19]第十九话0.1620.431Sheng等[26]第二十六话0.1020.264Li等[20]第二十话0.0910.2037799引用[1] 亚历克斯·J·尚潘达 语义风格的转换和转向-在艺术品上涂鸦。arXiv预印本arXiv:1603.01768,2016。1[2] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank:神经图像风格传递的显式表示。在IEEE计算机视觉和模式识别会议(CVPR)中,第1897-1906页一、二[3] 田启晨和马克施密特。快速的基于补丁的任意风格转移。arXiv预印本arXiv:1612.04337,2016。2[4] Wonwoong Cho 、 Sungha Choi 、 David Keetae Park 、Inkyu Shin和Jaegul Choo。通过分组深度白化和着色变换实现图像到图像的转换。在IEEE计算机视觉和模式识别会议(CVPR)中,第106398[5] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。国际学习表征会议(ICLR),2017年。一、二[6] Leon Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络进行纹理合成。在神经信息处理系统(NIPS)的进展中,第262-270页,2015年。一、二、三[7] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.艺 术 风 格 的 神 经 算 法 。 arXiv 预 印 本 arXiv :1508.06576,2015。一、二、三[8] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2414-2423页,2016年。一、二、三[9] Leon A Gatys,Alexander S Ecker,Matthias Bethge,Aaron Hertzmann,and Eli Shechtman.神经风格迁移中知觉因素的控制。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第3985-3993页,2017年。1[10] 顾沭阳、陈聪良、景辽、卢远。复杂的风格转换和深层的功 能重 组。 在IEEE计算 机视 觉和模 式识 别会议(CVPR)的会议记录中,第8222-8231页,2018年1[11] Xun Huang和Serge Belongie。实时任意样式传输,具有自适 应实 例规范 化。 在IEEE国际 计算 机视觉 会议(ICCV)的会议记录中,第1501-1510页,2017年。一、二[12] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议(ECCV)的会议记录中,第694-711页。施普林格,2016年。一、二[13] 贝拉·朱莱斯纹理元,纹理感知的元素,以及它们之间的相互作用。Nature,290(5802):91,1981. 一、二[14] 亚历克斯·克里热夫斯基并行卷积神经网络的一个奇怪的技巧。arXiv预印本arXiv:1404.5997,2014。8[15] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络进行图像合成。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第24791[16] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成在欧洲计算机可视化会议(ECCV)会议记录中,第702-716页。施普林格,2016年。1[17] Xueting Li,Sifei Liu,Jan Kautz,and Ming-Hsuan Yang.学习线性变换快速任意风格转移。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2019年。2[18] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.用前馈网络实现多样化纹理合成。在IEEE计算机视觉和模式识别会议论文集(CVPR),2017年。一二三五七八[19] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.通过特征变换进行通用样式传递。神经信息处理系统(NIPS)进展,第386-396页,2017年。一二三四五六七八[20] Yijun Li , Ming-Yu Liu , Xuting Li , Ming-HsuanYang,and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在欧洲计算机视觉会议(ECCV)的会议记录中,第453-468页,2018年。一、二、四、五、六、七、八[21] Jing Liao,Yuan Yao,Lu Yuan,Gang Hua,and SingBing Kang.通过深层意象类比实现视觉属性转移。ACM Transactions on Graphics(TOG),2017年。1[22] Ming Lu,Hao Zhao,Anbang Yao,Yurong Chen,FengXu,and Li Zhang.通用样式转换的封闭形式解决方案。在IEEE国际计算机视觉会议(ICCV)的会议记录中,第5952-5961页,2019年。一、二[23] Fujun Luan,Sylvain Paris,Eli Shechtman,and KavitaBala.深度照片风格转移。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第4990-4998页,2017年。1[24] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,et al.图像网大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211-252,2015年。8[25] 沈发龙,严水城,曾刚。通过Meta网络的神经风格转移。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第8061-8069页,2018年。2[26] 卢胜,林紫怡,邵静,王晓刚头像-网络:通过特征装饰的多尺度零激发样式传递。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第8242-8250页,2018年。一、二、五、六、七、八[27] Aliaksandr Siarohin、Enver Sangineto和Nicu Sebe。用于gans 的 白 化 和 着 色 批 量 转 换 。 国 际 学 习 表 征 会 议(ICLR),2019年。8[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。37800[29] Dmitry Ulyanov,Vadim Lebedev,Andrea Vedaldi,andVic- tor S Lempitsky.纹理网络:纹理和风格化图像的前馈合成。国际机器学习会议(ICML),第1349-1357页,2016年。一、二[30] 德米特里·乌里扬诺夫,安德烈·维达尔迪,维克多·伦皮茨基。改进的纹理网络:最大化前馈风格化和纹理合成的质量和多样性。在IEEE计算机视觉和模式识别会议(CVPR)的Proceedings中,第6924-6932页,2017年。一二三五七八[31]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功