没有合适的资源?快使用搜索试试~ 我知道了~
基于线搜索的特征转换用于逼真风格转换中的快速、稳定和可调节的内容风格控制
Tai-Yin ChiuUniversity of Texas at Austinchiu.taiyin@utexas.eduDanna GurariUniversity of Colorado BoulderDanna.Gurari@colorado.eduhttps://github.com/chiutaiyin/LS-FT.2490基于线搜索的特征转换用于逼真风格转换中的快速、稳定和可调节的内容风格控制0图1:在四个不同的基于自动编码器的逼真风格转换模型中嵌入了五种变换,分别是WCT 2 [31],PhotoWCT (PhWCT) [16],PhotoWCT 2(PhWCT 2 ) [6]和一个精简模型 (PCA-d) [7]。我们的新变换在内容保留和风格转换之间取得了更好的平衡,优于现有的变换。与AdaIN[10]、ZCA [15]、OST [20]和MAST [11]相比,我们的LS-FT可以更好地保留PhotoWCT和PCA-d的内容,提升WCT 2的风格化强度,并在PhotoWCT 2 中实现更好的内容-风格平衡。0摘要0逼真风格转换是将内容从一幅图像转换为另一幅图像的风格时合成逼真图像的任务。现代模型通常嵌入一个融合描述内容图像和风格图像的特征的变换,然后将结果特征解码为风格化图像。我们引入了一种通用变换,可以控制保留多少内容和融入的风格的强度之间的平衡。我们首次进行了一系列实验,展示了现有变换在不同风格转换模型中的性能,并展示了我们的变换在不同模型中同时运行快速、产生一致合理的结果以及控制内容和风格之间的平衡方面的优势。为了支持我们方法和模型的复现,我们在01. 引言0逼真的风格转换是一项图像编辑任务,它使用另一幅图像的风格(我们称之为风格图像)来渲染内容图像,使得结果对人类来说看起来像一张逼真的照片。在本文中,我们解决了如何在保留内容的同时确保强烈采用风格的关键挑战。目前用于逼真风格转换的最先进方法包括具有特征转换的自动编码器[16, 31, 1, 6,7]。这些方法的优势在于它们可以从任意风格图像中转换风格(即通用),由于在单次前向传递中进行预测,因此速度快,并且不需要对任何风格图像进行训练(即无需学习风格)。基本模型包含一个编码器来提取内容和风格图像的特征,一个特征转换来适应内容2500风格特征相对于风格特征的梯度,以及一个解码器将适应的特征转换为风格化图像(如图2(a)所示)。更先进的模型嵌入多个变换以获得更好的美学效果(例如,图2(b)所示的PhotoWCT 2)。先进模型的一个局限性是缺乏一个通用的、稳定的、适用于所有模型的变换,能够在所有模型中实现内容-风格平衡,如图1所示。逼真风格转换模型中最常用的变换是AdaIN [10]和ZCA [15]。然而,AdaIN和ZCA在嵌入WCT 2中时可能无法忠实地反映风格图像的风格,并且在嵌入PhotoWCT时无法很好地保留内容(图1)。当嵌入PhotoWCT2时,AdaIN可能会出现风格化强度不足,而ZCA可能会引入破坏逼真性的伪影。当嵌入PCA-d时,ZCA和AdaIN可能会导致严重的伪影,如第4.2节所示。最近,提出了一种迭代特征变换[5](IterFT),它具有一个控制旋钮,可以在内容保留和风格转移之间进行调节,因此可以自适应地解决不同模型中内容-风格不平衡的限制。然而,如第3.1节和第3.2节所解释的,这种变换在实践中是不稳定的,经常产生较差的结果。此外,它的速度相对较慢。在这项工作中,我们提供了几个贡献。我们通过大量实验揭示了现有变换在不同逼真风格转换模型中使用时无法很好地推广的问题。我们通过引入一种新的变换LS-FT来解决现有变换的局限性。我们的实验表明,LS-FT通过允许在内容保留和风格化强度之间进行调节,始终实现更好的内容保留和风格化强度平衡。此外,我们的实验表明,它的运行速度比唯一另一种可以在内容保留和风格化强度之间进行调节的变换IterFT快8倍,并始终产生更合理的结果。消融研究揭示了我们的变换改进性能的关键机制:引入IterFT的两个步骤(集中化和去中心化)和基于线搜索的优化。02. 相关工作0逼真风格转换模型。DPST [21]是第一个基于深度神经网络的逼真风格转换模型。然而,DPST的速度很慢,因为它需要数百次前向传播和反向传播来渲染一张图像。为了解决这个问题,大多数现代逼真风格转换模型使用自动编码器在单次前向传递中渲染图像。01 [30] 是一个例外,它学习仿射映射来改变像素值。0图2:基于自动编码器的逼真风格转换算法。 (a)基本模型在瓶颈处使用特征变换(红色框)作为输入,输入内容图像 Ic 和风格图像 Is,生成风格化图像 Isty。 (b)PhotoWCT 2 [6]在解码器中嵌入多个转换方法,依次将relu4_1内容特征调整为relu1_1特征。0其中一些自动编码器模型 [14, 13, 3, 9]是在风格图像上进行训练的。然而,由于各种原因,这些模型并没有成为最先进的模型。例如,一些模型只适用于低分辨率的输入图像,比如DTP [13]只支持256×256的分辨率。其他模型通常会产生不现实的结果,如补充材料中的LST [14]和DSTN [9]所示。其他模型是无需学习风格的自动编码器。为了实现风格化,它们嵌入了转换方法,这也是我们工作的重点。这些模型具有许多优点,包括嵌入不同转换方法以实现不同目的的灵活性,如快速速度、强大的风格化效果和更好的逼真度。无需学习风格的模型包括PhotoWCT [16]、WCT 2 [31]、PhotoNAS [1]、PhotoWCT 2 [6]和PCA-d[7]。然而,一个长期存在的挑战是如何知道在风格转换架构中嵌入哪些转换方法。例如,许多流行的模型使用ZCA作为特征变换,然而之前的工作 [6] 已经表明,它会导致WCT2和PhotoNAS的风格效果较弱。我们首次介绍了将流行的转换方法与多种风格转换架构配对的研究。0我们展示了现有转换方法的局限性,并表明我们的新转换方法LS-FT由于能够在内容保留和风格化强度之间取得平衡的能力以及运行速度快而具有更好的泛化性。0用于逼真风格转换的特征变换。最近,已经提出了许多转换方法。AdaIN [10]是最简单的方法,它使内容特征适应风格特征的标准差向量和均值向量。在AdaIN的基础上,ZCA [15, 4]考虑了通道之间的交叉相关性,并将内容特征转换为与风格特征的均值和协方差相匹配。实验结果 [15, 16, 1]表明,与AdaIN相比,ZCA具有更强的风格化效果。OST[20]进一步修改了ZCA的协方差匹配操作,以更好地保留内容并保持更强的风格化强度。02 由于模型尺寸过大,PhotoNAS在主要论文中被排除在外,甚至无法处理GPU上的小型高清图像分辨率。AdaIN ZCA OST MAST IterFT LS-FTAdvanced photorealistic style transfer models often em-bed multiple feature transformations. This is exemplified inFig. 2(b) for PhotoWCT2 [6], which has four IterFTs. Thefirst IterFT adapts the relu4 1 content feature with respect tothe relu4 1 style feature for nupd iterations, followed by thesecond IterFT which adapts the relu3 1 content feature withrespect to the relu3 1 style feature for nupd iterations untilthe last IterFT finishes adapting the relu1 1 content featurewith respect to the relu1 1 style feature.2510快速 � � � � � � 一致的结果 � � � � � � 内容-风格控制 � � � � � �0表1:我们的LS-FT与现有转换方法的比较。我们的LS-FT是唯一一个同时实现三个有益属性的方法。0风格化强度。然而,内容保留的改进有限。所有这些转换方法的一个共同限制是它们缺乏控制内容保留和风格转移之间平衡的方法。为了解决先前转换方法的局限性,提出了迭代特征变换(IterFT)[5]。它相对于先前的工作的主要优势在于,它支持在内容保留和风格转移之间进行调整,以满足每个模型的需求。然而,我们的实验证明,这种转换方法通常会产生不合理的结果。此外,它的速度相对较慢。为了克服IterFT的这些缺点,并利用其根据不同模型需求进行调整的能力,我们对其进行了扩展,并提出了一种名为LS-FT的新转换方法。我们的实验证明,LS-FT不仅在实践中实现了模型的自适应性,而且在执行速度比IterFT快8倍的同时,始终产生合理的结果。值得注意的是,最近提出的MAST [11]转换方法与前述的转换方法和我们的LS-FT采取了不同的方法。具体而言,大多数转换方法将整个内容特征进行调整,而MAST则将每个内容特征像素与语义上相近的风格特征像素进行调整。然而,如图1所示,MAST只能对内容图像进行弱风格化。我们在表1中总结了每种转换方法的特性,通过我们的实验进行了验证。我们的转换方法通过同时具有快速(例如,与表2中的ZCA相比更快或相当的速度)、始终产生良好结果(补充材料中的图3和图9)和实现内容-风格控制(补充材料中的图5和图6-7)来改进先前的工作。0图像转换。图像转换模型被训练用于将一个域中的图像渲染成另一个域的风格(例如,白天 →夜晚),因此能够适应图像风格。与照片级风格迁移不同,图像转换不是通用的,这意味着当感兴趣的域发生变化时,我们需要重新训练模型。图像转换不仅改变风格,还改变内容(例如,直发 → 卷发)。03. 方法0我们现在介绍我们设计的用于多种风格转移的通用特征转换方法(IterFT)。0架构。我们首先描述了我们重新设计的迭代特征转换(IterFT),用于支持多种风格转移。然后,我们介绍了两个关键因素,使得我们的转换方法相比IterFT具有更高的质量(第3.2节),以及基于线搜索的特征转换(LS-FT),使得速度更快(第3.3节)。03.1. 背景 - 迭代特征转换0回顾一下,IterFT是一种用于风格转移的特征转换方法,已经被证明能够控制内容保留和风格转移之间的平衡。它通过使最终特征的二阶统计类似于风格特征,同时保持其与内容特征的接近来实现。具体而言,如图2(a)所示,我们将 F t 定义为从内容特征 F c转换得到的特征,参考风格特征 F s。为简单起见,特征 F 是一个形状为 C × H ×W(C、H、W分别为 F的通道长度、高度和宽度)的张量,当从神经网络层产生时,它被重塑为形状为 C × HW的矩阵。迭代特征转换(IterFT)通过使二阶统计量(Gram矩阵1)0H c W c F t F T t,使得 F t 的二阶统计与 F s接近,同时保持 F t 与内容特征 F c 的接近。令 n c = H cW c 和 n s = H s Ws,IterFT使用梯度下降和公式2中的解析梯度 d l d F t求解公式1中的优化问题。0min F t l ( F t ) = min F t || F t - F c2 2 + λ || n s F s F T s || 2 2,(1)0n c F t F T t10n c ( 10d l d F t = 2(F t - F c) 4 λ0n s F F T s t,(20n c F t F T t10其中 λ > 0 是控制内容保留和风格转移之间平衡的系数。将 F t 初始化为 F c,通过 nupd 次更新规则得到最终特征 F t:F t ← F t - η d l03.2. 修改的迭代特征转换0我们的第一个修改是基于观察到IterFT无法稳定生成合理的结果。如图3所示。我们假设IterFT的失败是因为它仅依赖于一个步骤(即二阶统计量匹配)。min¯Ftl(¯Ft) = min¯Ft||¯Ft − ¯Fc||22 + λ|| 1nc¯Ft¯FTt − 1ns¯Fs¯FTs ||22subject to µ(¯Ft) = 0,(3)¯Ft ← ¯Ft − η dld¯Ft, ¯Ft ← ¯Ft − µ(¯Ft),(4)dld¯Ft= 2(¯Ft − ¯Fc) + 4λnc( 1nc¯Ft¯FTt − 1ns¯Fs¯FTs )¯Ft. (5))minηl(¯Ft − η dld¯Ft) subject to η > 0,(6)2520与之前的转换方法(例如,集中化、二阶统计匹配和去中心化)相比,我们的转换方法(即IterFT)采用了更加稳定且合理的三个步骤(即集中化、二阶统计匹配和去中心化)。我们的实验结果验证了这两个步骤的重要性,通过显示它们添加到IterFT中使得转换结果能够稳定生成合理的结果(第4.2节),而从现有的转换方法(例如AdaIN和ZCA)中删除这两个步骤会导致合成图像质量的降低(见补充材料)。我们认为这种修改的好处与均值向量匹配密切相关。虽然之前的研究主要集中在解释风格迁移中样式和风格化特征之间匹配二阶统计的原因,但我们推测匹配一阶均值向量也很重要,而这一点得到了集中化和去中心化的支持。我们在补充材料中使用之前转换方法的算法解释了这一点。具体而言,令¯ F = F - µ(F) 表示 F 的集中化特征,其中 µ(F) 是 F 的 HW列的均值向量,F - µ(F)的矩阵-向量减法是通过数组广播完成的。之前的转换方法的算法如下:(1)集中化:将 F c 和 F s 集中化为 ¯ F c 和¯ F s。(2)二阶统计匹配:将 ¯ F c 改为 ¯ Ft,使得对于AdaIN,¯ F s 和 ¯ F t的方差相等,对于ZCA和OST,¯ F s 和 ¯ F t的协方差相等。(3)去中心化:将 µ(F s) 添加到 ¯ F t中得到转换后的特征 Ft。我们修改了IterFT,在迭代特征更新之前应用集中化,在之后应用去中心化。数学上,对于集中化的内容和样式特征¯ F c 和 ¯ Fs,修改后的优化问题可以写成公式3,其中约束条件 µ(¯ Ft) = � 0 要求 ¯ F t 被集中化。将 ¯ F t 初始化为 ¯ Fc,可以使用公式4中的梯度下降3求解集中化特征 ¯ Ft,其中公式5中的解析梯度 d l d ¯ F t。0虽然准牛顿方法似乎是可行的,但在这里它们是不切实际的,因为它们由于计算Hessian矩阵而占用大量内存;例如,对于FHD输入(1920x1080),公式3中损失函数的Hessian矩阵有(64x1920x1080) 2 = 1.76e16个元素在relu 1 1层。0图3:定性结果展示了我们对IterFT的修改如何克服IterFT在生成合理风格化图像方面的不稳定性。这些结果是通过将变换嵌入到PhotoWCT 2模型中产生的。0最终得到的特征 F t 通过 µ ( F s ) 去中心化: ¯F t + µ ( F s )。我们通过图3展示了我们的修改相对于IterFT的改进在质量上的表现。请注意,约束条件 µ ( ¯ F t ) = � 0 总是满足的,而梯度下降则最小化了损失值。这可以通过首先假设当前的¯ F t 是集中的来证明。在此基础上,我们有 µ ( ¯ F t − η d l0d ¯ F t ) 。这意味着更新后的特征是集中的。0如果 µ ( d l0d ¯ F t ) = � 0 ,可以证明如下: µ ( d l0= 2( µ ( ¯ F t ) − µ ( ¯ F c )) + µ ( S ¯ F t ) = µ ( S ¯ F t )= S µ ( ¯ F t ) = � 0 . 因此,以 ¯ F c 为初始值的 ¯ F t的更新结果都是集中的。03.3. 基于线搜索的特征变换0我们修改的IterFT算法中存在一个问题,即算法需要多次迭代来更新特征,这样会很慢。在实践中,学习率 η 的值和迭代次数 n upd的值通常被设定为0.01和15,参考[5]。然而,直观上,学习率 η应该是动态确定的,使得在开始的迭代中 η 较大以加速收敛,在后期迭代中 η较小以微调解决方案。0有了动态的 η ,迭代次数 n upd也可以大大减少。为了动态确定 η 的值,对于最新的 ¯ F t(来自上一次迭代)和从公式5计算得到的导数 d l d ¯ F t,我们解决以下线搜索优化问题:0其中损失函数 l 在公式3中定义,约束 η > 0 强制 ¯ F t向下降方向移动。公式6的含义是我们从点 ¯ F t 开始,沿着 d l d ¯ F t的相反方向,即下降方向,寻找一个新的点 ¯ F t − η d l0d ¯ F t ,使其最小化0为了加速现有方法的收敛,一个简单的解决方案是增加学习率,但这是不够的,因为我们无法知道要增加多少。我们在补充材料中讨论了这个问题。aη3 + bη2 + cη + d = 0,(7)||¯Ft−|| 1nc ¯Ft ¯FTt −replace it0λ||style balance.For tuning the content style balance (i.e., determined bythe value of λ), we introduce a coefficient α such that λ =α2530损失函数。通过将公式6中的 d l d ¯ F t用公式5替换,并进行一些微积分运算(详细推导见补充材料),我们可以证明最优的 η 应该是以下三次方程的解:0其中系数定义如下:0a = 0n 2 c tr[D2D2],b = 0n 2 c tr[DFD2],d = -02 tr[D2],(8)0c = tr[D2]+ 20n c tr[D2S]+ 2λ0� tr[DFDF]+tr[DFDTF] �,(9)0其中D2 ≡ DD T,DF ≡ D¯FTt,D ≡ dld¯Ft和S ≡01 n c ¯Ft ¯FTt − 1 n s ¯Fs¯FTs。虽然方程8和方程9乍一看可能令人生畏,但方程7实际上可以高效地求解,原因如下。首先,D及其子项S在ModifiedIterFT的梯度下降计算中必须计算,因此在进行线搜索η时不会引入额外开销。其次,由于所有系数都根源于仅两个重复项D2和DF,我们只需要计算一次D2和DF即可推导出所有系数。第三,矩阵乘法D2和DF以及两个矩阵A和B的迹运算tr[AB]可以在GPU上并行计算。最后,通过计算系数,我们可以使用立方公式[29]5在常数时间内解决方程7中的立方函数。为了满足约束η >0,我们必须确保方程7至少有一个正解。我们在补充材料中证明了这一点。总之,我们基于线搜索的特征转换(LS-FT)通过以下四个步骤产生转换后的特征Ft,其中包括内容特征Fc和风格特征Fs:01.将内容和风格特征集中为¯Fc和¯Fs,并将¯Ft初始化为¯Fc。02.根据方程5计算梯度和学习率η,根据方程7计算。03.根据方程4更新¯Ft,并在需要时从步骤2开始迭代。04.通过添加风格特征的均值µ(Fs)来去中心化¯Ft。0我们将在第4.1节中展示,与ModifiedIterFT不同,步骤3中的迭代是不必要的,一个特征更新对于LS-FT是足够的。为了平衡内容损失|| ¯Ft − ¯Fc || 2 2和风格损失λ || 10n c ¯Ft ¯FTt − 1 n s ¯Fs ¯FTs || 22在方程3中,最好将λ的值接近于比率05方程6是η的四次函数。如果方程7有三个正解,它们对应于方程6的局部最小值、局部最大值和全局最小值。因此,我们只需将解插入方程6中,看哪个结果最小,我们就选择哪个。0ns ¯Fs ¯FTs || 22。然而,由于¯Ft是未知0内容的ns ¯Fs ¯FTs || 22。0ns ¯Fs ¯FTs || 2 2。依次改变α支持增强风格0规范化强度或内容保留。我们在主文中展示了固定α的结果,并在补充材料中对α的影响进行了扩展分析。04.实验0我们现在评估我们的转换在建立多个逼真风格转换架构(第4.2节)中建立风格-内容平衡的能力以及其改进的计算效率(第4.3节)。04.1.线搜索优化的收敛性0我们首先描述了我们的分析,以确定在我们的LS-FT转换中使用多少次迭代来进行线搜索优化,通过将其嵌入四个风格转换架构中:WCT 2,PhotoWCT,PhotoWCT2和PCA-d。0实现。基线是ModifiedIterFT,我们通过引入线搜索优化来加速它。ModifiedIterFT遵循IterFT[5],将0.01作为学习率和15作为每层迭代次数。我们想知道在15次迭代后,LS-FT需要多少次迭代才能超过ModifiedIterFT的性能。0数据集。我们使用PST数据集[30],这是用于照片级风格转换评估的最大数据集。它包含786对内容图像和风格图像。0度量。回想一下,Modified IterFT和LS-FT在每个reluN1层上迭代地根据风格特征调整内容特征,以最小化Eq.3中定义的损失值。我们监控每次变换后的损失值。具体来说,对于每个变换,每个reluN1层计算一系列的15个损失值。考虑到所有输入对,我们在每个reluN1层上有786个系列的15个损失值。我们计算786个系列的均值和标准差,并将均值系列绘制为曲线,将标准差系列绘制为曲线周围的阴影区域。0结果。对于PhotoWCT 2,图4显示了每个reluN1层的平均损失曲线和相关的标准差。由于空间有限且结果相似,WCT2、PhotoWCT和PCA-d的结果在补充材料中提供。比较LS-FT和ModifiedIterFT,我们观察到LS-FT收敛速度更快。例如,在relu41层观察平均曲线时,LS-FT只需¯Fsty,N ¯FTsty,N2540图4:Modified IterFT和LS-FT之间的收敛比较。这里在PhotoWCT 2上测试Modified IterFT和LS-FT。0模型[6]在瓶颈(relu4 1层)和解码器中的relu3 1、relu2 1、relu1 1层应用特征变换。对于内容-风格输入对,根据每个层的ModifiedIterFT或LS-FT的每次迭代计算Eq.3的损失值,得到一系列的15个损失值,对应于15次迭代。曲线显示了来自所有786个输入对的786个系列的平均系列。周围的阴影区域表示一个标准差范围内的区域。观察到LS-FT比Modified IterFT收敛更快,而且在每个层上,LS-FT只需要一次迭代就能胜过Modified IterFT。0两次迭代,第二次迭代稍微改进了第一次迭代,而ModifiedIterFT在所有迭代中缓慢收敛。此外,relu41层的LS-FT在第一次迭代后的损失值已经低于ModifiedIterFT在15次迭代后的损失值,这表明relu41层的LS-FT只需要一次迭代就足够了。注意,LS-FT在每次迭代中的较小标准差比ModifiedIterFT更快地收敛,这意味着LS-FT的更快收敛在整个数据集中是普遍的。我们注意到在其他三个层也出现了同样的现象,这表明在这些层上,LS-FT只需要一次特征更新就足够了。04.2. 内容保留和风格化强度0为了评估我们的特征变换相对于先前的变换在内容保留和风格化强度之间实现更好平衡的能力,我们在四个基于自动编码器的风格转换模型中嵌入了多个变换进行基准测试:WCT2 [31]、PhotoWCT [16]、PhotoWCT 2 [6]和PCA-d [7]。0数据集。我们再次使用PST数据集[30]进行测试,该数据集包含786对内容图像和风格图像。0我们的实现。我们再次评估我们的LS-FT和ModifiedIterFT(即我们的稳定IterFT [5])。0基准。为了比较,我们评估了ZCA [15]、OST [20]、AdaIN[10]和MAST [11]。由于IterFT[5]的结果不合理,因此我们没有将其用于比较,如补充材料中所示。0度量。对于每个模型-变换对,我们计算所有风格化图像的平均内容损失和平均风格损失,通过计算每个风格化图像Isty 与内容图像I c 的内容损失和风格图像I s的风格损失。为了定义损失,我们让¯ F k,N ∈ C N × Hk,N W k,N (N = 1, 2, 3, 4)表示图像I k (k ∈ {c, s,sty})的中心化reluN 1特征。根据NST [8],NST使用relu41层表示内容,使用多个层(例如reluN 1,N = 1, 2, 3,4)表示风格,我们将内容损失定义为||¯ F sty, 4 - ¯ F c, 4 ||2 2,0风格损失为�4N=1 || 10然后,我们使用图像质量评估指标SSIM [28]、FSIM[32]和NIMA[27]评估风格化图像的质量。SSIM和FSIM评估风格化图像与其源内容图像之间的结构相似性,而NIMA评估风格化图像作为独立照片而不参考内容图像。0结果。图5(a)显示了不同模型-转换对导致的平均内容-风格损失的整体分布。我们观察到MAST在所有模型中产生的风格效果最弱,这在图6中的定性结果中得到了证实。因此,对于我们对每个模型的细粒度分析(图5(b,c,d)),我们将MAST排除在分析之外。如图5(b,c,d)所示,我们的ModifiedIterFT和LS-FT具有类似的性能,并始终在所有四个风格转换架构中实现更好的内容保留和风格化强度的平衡。对于WCT2,其在图5(a)中的低内容损失来自其模型设计,而它依赖于转换来增强其风格化强度以忠实地反映风格。我们观察到LS-FT在α=10的情况下成功地增强了WCT2的风格化强度,相比其他转换(图5(b)),AdaIN的风格损失增加了30.7%,ZCA的风格损失增加了6.8%。它们更差的风格损失也反映在定性结果中。如图6中的第一行所示,虽然AdaIN未能很好地传递红叶效果,而ZCA传递得更强烈,但LS-FT通过给叶子渲染更多的红色改进了ZCA。PhotoWCT模型旨在很好地反映风格,因此具有较低的风格损失,如图5(a)所示。因此,它需要一个转换来增强其内容保留。定量上,我们的转换(例如α=0.2的LS-FT)与其他转换相比,导致最低的内容损失(图5(c)),ZCA的内容损失增加了62.1%,AdaIN的内容损失增加了2550图5:不同模型-转换对的风格化图像的平均内容损失与平均风格损失。与其他转换不同,我们的ModifiedIterFT(M-IterFT)和LS-FT增强了WCT 2的风格化强度,增强了PhotoWCT和PCA-d的内容保留,并在PhotoWCT2中实现了风格强度和内容保留的良好平衡。0图6:我们的转换(Modified IterFT和LS-FT)实现更好的内容-风格控制的示例。与其他转换不同,ModifiedIterFT和LS-FT可以推广到不同的模型,实现内容-风格的平衡。0相比之下,ZCA的内容损失更大,达到了21.9%。从质量上讲,以图6中PhotoWCT面板的第一行为例,ZCA的内容损失增加了62.1%,导致出现严重的伪影(地面上阳光的不均匀反射),而AdaIN的内容损失增加了21.9%,导致无法保留更精细的内容(背景中不太真实的日落)。0PhotoWCT 2模型旨在改善PhotoWCT的内容保留和WCT2的风格化强度。然而,它并不总是很好地保留内容并传递足够的风格效果,如前面在图1中提到的,它在与AdaIN一起传递的风格效果不足,并且在与ZCA一起引入破坏内容的伪影。因此,它需要一个转换来实现比AdaIN更强的风格化强度和0与ZCA相比,我们观察到我们的LS-FT在α=1的情况下可以通过减少AdaIN的风格损失6.2%和ZCA的内容损失36.4%来实现更好的内容保留(图5(d))。如图6中PhotoWCT2面板的第一行所示,我们的LF-FT保留了比ZCA更好的内容,并传递了比AdaIN更强的风格。0PCA-d是PhotoWCT2的改进版本,它更轻量化,并且在内容-风格平衡方面比PhotoWCT2更好。虽然[7]表明PCA-d在使用ZCA作为转换时可以产生逼真的结果并反映出良好的风格效果,但我们的实验表明,ZCA仍然可能产生轻微的伪影(图6中PCA-d面板第一行中的不自然阳光)和偶尔的严重伪影(第二行湖泊上的雾状伪影)。如HD0.18 / 0.37 / 0.130.18 0.270.010.600.290.04FHD0.59 / 0.63 / 0.240.20 0.290.021.140.730.09QHD OOM / 0.98 / 0.400.24 0.330.062.151.270.17UHD OOM / OOM / 0.88 0.33 0.400.135.022.840.342560图7:不同模型-转换对产生的风格化图像的质量评估。对于每个模型,与流行的AdaIN和ZCA相比,我们的ModifiedIterFT和LS-FT可以产生与AdaIN相当甚至更高的分数。请注意,(d)中的虚线表示PST数据集中内容图像的平均NIMA分数。0图5(e)所示,AdaIN的表现甚至比ZCA更差,内容和风格损失更大。相比之下,我们的LS-FT通过减少ZCA的内容损失13.5%来减轻伪影,如图6所示。从不同模型-转换对产生的风格化图像的平均质量分数可以进一步验证我们之前的发现(图7)。特别是对于Pho-toWCT和PCA-d,由于内容保留的提升,LS-FT和ModifiedIterFT的质量分数在所有转换中都是最高的,除了MAST之外,而在其他两个模型的情况下,LS-FT,ModifiedIterFT和AdaIN的质量分数相当,高于ZCA和OST的质量分数。请注意,MAST往往具有更高的分数,因为它通常对内容进行弱调整。04.3. 速度性能0最后,我们将我们的LS-FT与其他转换方法在四种风格迁移架构中的速度进行比较:WCT 2 [31],PhotoWCT[16],PhotoWCT 2 [6]和PCA-d[7]。所有测试都是在具有11GB内存的Nvidia-1080TiGPU上进行的。0我们评估了我们的LS-FT转换及其去除了线搜索的变种Modified IterFT(稳定的IterFT [5])。0基线。我们评估了ZCA [15],OST [20],AdaIN [10]和MAST [11]。0数据集。我们在四个分辨率上进行测试:1280 ×720(高清),1920 × 1080(全高清),2560 ×1440(QHD)和3840 ×2160(UHD或4K)。为了收集图像,我们从YouTube下载了一个4K视频[25],采样了100帧,并将每一帧降采样到其他较低的分辨率。对于每个模型,每个分辨率的转换速度是在总共100张图像上平均的。0结果。表2显示了风格化速度。由于PCA-d是一个产生轻量化特征以实现更快转换的精简模型,并且由于空间有限,我们在补充材料中的另一张表中报告了PCA-d的结果。06 IterFT的速度与M-IterFT几乎相同,因此在此忽略。0WCT 2 /PhotoWCT /PhotoWCT 20不可调节 可调节0ZCA OST AdaIN MAST M-IterFT LS-FT0表2:使用不同转换方法对不同分辨率图像进行风格化的速度。为了清晰起见,模型和转换所花费的时间是分开的。根据是否考虑模型适应性,将转换分为两组。在所有分辨率上,LS-FT比ModifiedIterFT(M-IterFT)快7-8倍,因为它不需要多次迭代。LS-FT的速度也比ZCA和OST快或相当。OOM:内存不足。单位:秒。0与其去除了线搜索的变种ModifiedIterFT相比,LS-FT在控制风格化强度和内容保留之间的平衡方面一直比其快7-8倍,因为它不需要多次迭代。例如,LS-FT仅需0.34秒即可对一张UHD图像进行风格化,而Modified IterFT需要2.84秒,因此LS-FT比ModifiedIterFT快8.35倍。0将LS-FT与四种基线转换进行比较,这四种转换无法控制风格化强度和内容保留之间的平衡,总体上LS-FT具有竞争力。例如,在所有分辨率上,LS-FT比OST和MAST更快,而在UHD分辨率情况下,LS-FT与ZCA的速度相当快,并且比其他情况下的ZCA更快。唯一的例外是AdaIN,它是最快的转换。这是由于它的数学公式最简单。05. 结论0我们提出了一种基于线搜索的特征转换(LS-FT)用于逼真的风格转换。实验证明,LS-FT与不同的风格转换架构相比,可以通过提高风格化强度、增强逼真度或达到更好的风格-内容平衡来提高性能,同时运行速度快。2570参考文献0[1] Jie An,Haoyi Xiong,Jun Huan和Jiebo Luo.通过神经架构搜索实现超快速逼真风格转换.在AAAI会议上,2020年,第10443-10450页。0[2] Ivan Anokhin,Pavel Solovev,DenisKorzhenkov,Alexey Kharlamov,Taras Khakhulin,AlekseiSilvestrov,Sergey Nikolenko,Victor Lempitsky和GlebSterkin. 无需领域标签的高分辨率日间转换.在《计算机视觉和模式识别》IEEE/CVF会议论文集中,2020年,第7488-7497页。0[3] Jiaxin Cheng,Ayush Jaiswal,Yue Wu,Pradeep Natara-jan和Prem Natarajan.用于改进任意风格转换的风格感知归一化损失.在《计算机视觉和模式识别》IEEE/CVF会议论文集中,2021年,第134-143页。0[4] Tai-Yin Chiu. 理解通用白化和着色变换的通用风格转换.在《计算机视觉国际会议》IEEE论文集中,2019年,第4452-4460页。0[5] Tai-Yin Chiu和Danna Gurari.用于快速和多功能通用风格转换的迭代特征转换.在欧洲计算机视觉会议上,第169-184页。Springer,2020年。0[6] Tai-Yin Chiu和Danna Gurari.Photowct2:紧凑型自动编码器用于由块训练和高频残差的跳跃连接产生的逼真风格转换.《arXiv预印本》arXiv:2110.11995,2021年。0[7] Tai-Yin Chiu和Danna Gurari.基于PCA的知识蒸馏,实现轻量级和内容-风格平衡的逼真风格转换模型.在《计算机视觉和模式识别》IEEE/CVF会议论文集中,2022年,第7844-7853页。0[8] Leon A Gatys,Alexander S Ecker和Matthias Bethge.使用卷积神经网络的图像风格转换.在《计算机视觉和模式识别》IEEE会议论文集中,2016年,第2414-2423页。0[9] Kibeom Hong,Seogkyu Jeon,Huan Yang,JianlongFu和Hyeran Byun. 面向领域的通用风格转换.在《计算机视觉国际会议》IEEE/CVF论文集中,2021年,第14609-14617页。0[10] Xun Huang和Serge Belongie.实时自适应实例归一化的任意风格转换.在《计算机视觉国际会议》IEEE论文集中,2017年,第1501-1510页。0[11] Jing Huo,Shiyin Jin,Wenbin Li,Jing Wu,Yu-KunLai,Yinghuan Shi和Yang Gao.用于语义对齐风格转换的流形对齐.在《计算机视觉国际会议》IEEE/CVF论文集中,2021年,第14861-14869页。0[1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功