没有合适的资源?快使用搜索试试~ 我知道了~
9382基于特征分布的神经风格迁移的矩匹配Nikolai Kalischek Jan D.苏黎世联邦理工学院摄影测量与遥感生态视觉{nikolai.kalischek,jan.wegner}@ geod.baug.ethz.ch,schindler@ethz.chP. 毕加索康定斯基五世梵高里希特角图1:风格转换结果:艺术家摘要风格转换的目的是以另一幅图像的图形/艺术风格呈现给定图像的内容神经风格转换(NST)的基本概念是将风格解释为卷积神经网络的特征空间中的分布,使得可以通过匹配其特征分布来实现期望的风格。我们表明,该概念的大多数当前实现具有重要的理论和实践局限性,因为它们仅部分对齐特征分布。我们提出了一种新的方法,更精确地匹配的分布,从而更忠实地再现所需的风格,同时仍然是- ING计算效率。具体 来 说 , 我 们 适 应 的 双 重 形 式 的 中 心 矩 离 散(CMD),最近提出的域适应,以尽量减少目标风格和输出图像的特征分布之间的差异该度量的双重解释明确匹配所有高阶集中矩,因此是仅考虑一阶和二阶矩的现有NST方法的自然扩展。我们的实验证实,强大的理论属性也转化为视觉上更好的风格转移,更好地从语义图像内容中分离风格。1. 介绍2017年,《Loving Vincent》上映,这是第一部超过65,000帧的全画幅故事片。的确,单框是由100多位艺术家中的一位绘制的油画。电影的制作分为两步。首先,整部电影都是由真正的演员在绿色屏幕前制作的第二步,每一帧都由一位艺术家用梵高的技巧和风格进行绘画,花了六年多的时间才完成。尝试自动化这种形式的纹理合成,称为风格转移,至少可以追溯到90年代中期[12]。最近,Gatyset al. [9]开创了神经风格转移(NST)的想法。它基于这样的想法,即预先训练的卷积神经网络(CNN)的深层对高级语义信息进行编码,并且对实际外观不敏感,而浅层学习低级特征,如颜色,纹理和画笔图案。在这种情况下出现的一个基本问题是如何定义风格。Li等[25]证明了[9]中引入的损失可以重写为最大平均离散度(MMD),提供了风格转移的解释,即对齐特征分布。事实上,大多数现有的方法都可以这样解释。这导致了一系列的工作,所有这些工作都围绕着对齐CNN的特征分布,将风格转移与域适应(DA)联系起来。在这里,我们深入探讨这种解释。通过将NST描述为分布匹配,它可以适用于一套用于测量概率分布之间的分歧的工具,例如积分概率方法,f-分歧和最优运输(OT)。9383≥两个分布之间的散度d(P,Q),分别是概率测度,一般不是度量,但它们应满足(i)非负性:d(P,Q)0;和(ii)不可约单位性:d(P,Q)=0当且仅当P=Q。然而,从特征分布的角度来看,现有的风格转换方法存在着相当初级的理论局限性。大体上,有两所学校。要么分布是不受限制的,但它们之间的差异是在不遵守不可逆定律的情况下测量的[9,25,15,32];要么分布近似于简单的函数,因此它们允许封闭形式的解决方案[29,19,24,27]。在这里,我们展示了如何在最近提出的中心要素差异 ( CMD ) 框 架的 帮 助 下 克服 这 些 限 制 [39]。 该(伪)度量是基于将分布表示为紧区间上的矩序列。在极限情况下,CMD是紧支撑分布集上的积分概率度量,因此根据定义,它符合不可逆律(以及非负性)。重要的是,在其对偶公式中,CMD在计算上是有效的,并且近似可以用中心矩的上限无缝地证明[38]。总之,我们做出了以下贡献:(i)我们系统地分类现有的NST方法,根据他们的方式对齐分布;(ii)我们明确的基本近似,并强调相应的限制;(iii)我们提出了一种新的NST算法的基础上的中心矩离散。据我们所知,我们的方法是第一个以严格和计算有效的方式对齐风格分布的方法从经验上讲,该方法实现了艺术风格和语义内容之间更清晰的分离,并且根据具有>50个参与者的用户研究,实现了视觉上更引人注目的风格转移。2. 相关工作风格迁移是近二十年来计算机领域的一个研究热点.直到最近,它还是基于手工制作的功能和风格。这包括基于笔划的渲染[20],以使用一组画笔笔划[13]重新绘制图像,图像绗缝[5],其中根据分割图将纹理合成为小块,或者以超监督方式学习样式过滤器的图像类比[14向CNN的转变引起了神经风格转移。当前的NST技术可以归类为基于图像优化或模型优化[16]。第一组中的方法迭代地将风格转移到每个新的输出图像,遵循[9]的开创性论文。这项工作首先引入了在CNN中匹配中间层的特征统计的想法。后续作品从不同的方向探索提高风格化的质量。Risser等人[32]通过结合额外的直方图和总变化损失来规避优化的不稳定性。为了进一步增强诸如边缘之类的低级别内容的保存,Liet al.[22 ]第22话失去一个人为了在语义上匹配的补丁(例如,从狗的眼睛到猫的眼睛),[28]定义了一种损失,它比较了具有相似语义的区域。类似地,[21]使用MRF在样式图像的特征空间中找到最近邻块。两者都需要在内容和样式图像中具有相似的形状和边界。Gatys等人[10]还增加了用户对感知因素的控制,如颜色或比例,例如,通过仅在亮度通道中转移样式以保持颜色。最近,Kolkinet al.[19]还通过成本函数中的适当权重来结合用户定义的空间约束。每个图像的迭代优化相对较慢。模型优化方法采用前馈网络[17,36]在大型数据集上离线训练,以实现实时风格转换。最初,他们被限制到一个固定的一套风格[35,36,4,23]。后来,它们被扩展到处理不可见的样式。黄和贝隆吉[15]提出了一个自适应实例规范化层,它使用来自样式图像的仿射参数规范化内容图像,Chen和Schmidt [2]定义了一个交换层,它使用匹配的样式特征补丁替换内容特征补丁。然而,快速前馈推理是有代价的,因为它没有达到迭代方法的质量。最近已经表明,自适应实例归一化以及白化颜色变换[24]是高斯分布之间的OT映射的特殊情况,从而为前馈模型[27,29]提供了一些理论基础。领域自适应是迁移学习的一个特殊实例,即,在不同领域中提取和转移知识。域自适应(DA)利用源域中的监督来指导目标域的学习,其中没有标记数据可用[3]。其原理是可以测量源域和目标域之间的偏移,因此也可以最小化。一些作者已经注意到与NST的密切关系[25,1]。一种常见的方法是通过将潜在特征空间中的分布与Kullback-Leibler发散度[40]、最大平均发散度[26]或相关性对齐[34]等度量对齐来学习联合特征空间。同样与风格转换相关的是,DA的另一种方法是直接学习源域和目标域之间的映射,例如,使用GAN[1]。关于DA的概述,请参见[3,37]。在这里,我们利用另一个想法,最初针对DA,强调其密切关系的风格转移。9384我L·JJL我我风格LJLLL3. 方法我们首先简要回顾了神经风格转移的核心思想。在这种情况下,我们重新审视了几种现有的方法,并将它们分为三类。通过将分布对齐的观点带到其逻辑终点,我们接着提供了一个替代的损失函数,该函数具有强有力的理论保证,计算效率高,并提供了视觉上吸引人的结果(c.f。图①的人。3.1. 神经风格迁移NST的基本思想是使用预先训练的深度神经网络来生成具有内容图像Ic的内容特定特征和来自样式图像Is的样式特定特征的图像I。。通常,最小化a其中P(RCl)是R C l上的经验测度空间。我们求出νl=ν l(I),并在不需要时删除层索引。 有了这些定义,我们现在根据分布对齐来回顾现有的风格转换方法。基于MMD的优化。已经是NST的第一篇论文了[9]使用特征图的统计来提取特定于风格的的属性,通过革兰氏矩阵G。 Gramma包含二阶统计量,在我们的例子中,特征图中相应通道之间的相关性与对齐分布的联系可能并不明显,但Liet al.[25]表明[9]中的风格损失可以重写为MMD [11]的无偏经验估计,其中多项式核k(x,y)=(xT y)2:内容和风格损失的凸组合:L型 (I o,I s)=2[Fl(I o),Fl(I s)].(五)L=αL含量+(1 −α)L风格。(一)我们在[29]的符号之后进一步指定这些损失 假设g是深度编码器,比如VGG-19 [33]。 对于具有空间维度H l W l=n l和通道深度Cl的对应输出特征图的特定层l,我们将特征图的第j个分量表示为(整形)函数F l:Rd→RCl,j∈[n l]。记Fl=(Fl)j∈[n]∈RCl×nl,称Fl(I)为图像I的第l个(整形)特征映射. 也就是说 , 图像I 的 第 L个 特 征 图 是 在 应 用 所 有 层 l =1,. . . ,L到I。那么,内容损失与Σl l2在再生核希尔伯特空间(RKHS)是特征的假设下[7],MMD为零当且仅当两个分布相同。通过将Io和Is的特征图视为样本,最小化目标(5)与最小化νIo和νIs之间的差异相同。基于矩的优化方法显式地最小化风格分布之间的差异这些方法的理论支持来自矩生成函数(MGF)。如果MGF在含零的开区间内是有限的,则分布的矩是因此,如果两个具有有限MGF的分布具有相等的矩,则它们相同。L含量(Io,Ic)||、(二)||,(2)L除了将风格转移与分布对齐联系起来之外,Lietal.[25]还引入了基于批处理的样式丢失其中L在g的一组层上迭代。通常,仅使用单个深层来计算内容损失;而风格损失是多个层(浅层和深层)上的平均值,具有超参数wl:Σ标准化统计 该损失是第一个明确匹配特征空间中的矩的损失,即均值μFl(I)和标准差σFl(I):C3ClLL(I,I)=wL(I,I).(三)i2i2L(I o,I s)<$[(µ l − µ l)+(σ l− σ l)]。风格OSL 风格OSL风格i=1F(Io)F(Is)F(Io)F(Is)(六)3.2. 作为特征分布的l的损失可以根据它们如何排列分布来分类。我们首先需要一些额外的定义,再次遵循[29]。为了获得分布,我们将特征图Fl(I)视为Cl维的n=H·W样本上的经验分布测度有趣的是,当在前馈模式中应用时,力矩对准也可以产生合理的结果,而无需迭代优化。基于[36,4]的思想,Huang和Belongie [15]将均值和方差与变换层对齐总之,将内容图像图像减少了νI之间的分歧–而我注意,通过将n-l个样本视为无序集合,明确放弃空间布局。这与风格属性(如颜色、笔画和纹理)独立于位置的直觉相对应更正式地说,我们定义1升由于高阶矩的差异仍然存在。基于最优运输的优化提供了一个原则框架,以最大限度地减少分布之间的差异,特别是考虑到νl:Rd→P(RCl), I<$→i=1δFl(I),(4)nl9385底层空间当在可能的空间工作时-性质测度Pp(Rd)具有有界p阶矩,Wasser-9386∼∼pW(P,Q)=inf→·LNN2我爱你W√200。51 00. 51 00. 51 00. 51 00. 51 00. 5 1X(a) 源X(b) 目标X(c) MMDX(d) MM /OTX(e) CMD,K=5X(f) CMD,K= 50图2:1D中分布匹配的图示。源Beta(2,3)和目标Beta(0. 五,零。45)不能与MMD、MM或OT(在1D中与MM相同相反,CMD已经用五个矩很好地将它们详情见正文P,Q∈ Pp(Rd)的stein距离定义为:∫为什么Gram矩阵违反了指数的同一性:二次核是非特征的,即,的ppΓ(P,Q)||dπ(x,y)。||dπ(x,y).(七)地图PExp[k(x,)]不是单射的,分布p在RKHS中没有唯一的嵌入。此外,二次内核(resp.革兰氏矩阵)明显受限我们可以使用Wasserstein距离进行反向传播使νIo和νIs之间的差异最小化。在一般情况下,计算OT的复杂度为O(n3lognl),不适合迭代优化方案。然而,将分布限制为高斯分布,则νι0:=(μνIo,μνIo)和νIs:=(μνIs,μνIs)允许一个封闭形式的解,W2(νI,νI)=μν−μν到第二时刻。对于深度特征激活来说,这些统计数据是非常不可能的,所以MMD(p,q)=0几乎肯定不意味着p=q。类似的论点也适用于现有的冰毒-ods直接基于矩匹配(MM),因为它们只匹配均值和方差。定义具有相同方差的两个不同分布高斯分布N(0,2)和拉普拉斯分布L(0,1)。我的天.Is 2111Σ(八)虽然OT是一个强大的框架,+ Tr ΣνIo+Is-2(2002年)ΣνIs2.水平,它是步履蹒跚的高计算成本。 高斯-sian近似使OT易于处理,但代价是这类似于匹配第一和第二时刻如在基于矩的优化中那样(高斯的高阶矩均值和方差)。方便地,OT图也可以直接导出。如果一个人愿意接受高斯近似,风格fea-可以通过迭代地最小化2或通过将OT映射集成到编码器-解码器网络[29、19、27、24]。已经表明[29,27],自适应实例归一化可以被视为具有对角协方差的高斯的OT3.3. 动机从统计学的角度来看,所有三类方法在某种程度上都与最佳对齐特征分布的目标相矛盾。基于MMD的方法依赖于简单化(通常是线性或二次)内核[9,25]。以前,[32]已经确定了训练过程中的不稳定性,因为不同的分布导致相同的MMD。他们指出,在均值和方差中的二阶矩可以相互补偿,产生相同的Gram 矩 阵 ( 并 且 因 此 产 生 具 有 二 次 核 的 相 同MMD),因为Gram矩阵与非中心二阶矩相关。我们提供了另一种解释-p(x)p(x)p(x)p(x)p(x)p(x)2Σ9387丢失信息。没有证据表明νIo和νIs的分布(近似)是高斯分布我们主张,OT,至少在其普遍的、受限制的形式中,也主要归结为匹配第一和第二矩-最后,我们指出平均过度惩罚效应:[39]发现在小扰动下DA训练期间分布对齐的不稳定性详情请参阅[39]。3.4. 神经风格迁移我们建议使用合适的积分概率度量,即中心矩离散度,而不是仅匹配一阶和二阶矩[38]。在其核心,该度量利用作为矩序列的紧支撑分布的对偶表示。转换为中心矩导致自然的几何关系,如方差,偏度和峰度。没那么9388-∈≥联系我们∞→∞·1MOSl ll在纹理合成的早期工作[31]中,已经研究了匹配高阶矩的思想,但是到目前为止,在NST中被忽略了。图2、阐述了CMD语言表达能力的增强在我们的玩具示例中,源和目标是具有不同参数的单变量Beta分布,即,它们的第三和第四矩是非零的。我们用10,000个样本来表示每个分布,并使用梯度下降来最小化相应的对齐损失该示例证实,基于一阶矩和二阶矩的三种方法都不能对齐两个分布(注意,对于1D情况,MM和OT是相同的)。相反,CMD将它们很好地对齐。两个紧支分布P和Q之间的CMD定义如下[39]:克对于LayerL.这些矩仅仅是经验测度的矩,即E[Fl(I)µFl(I)]RCl的幂。通过采用CMD,我们有一个积分概率度量对于NST在我们的处置,不仅具有良好的理论属性,但也易于实现,计算效率高,并能够处理复杂的特征分布与显着的高阶矩。4. 结果在本节中,我们将我们的结果与每个类别的现有方法进行比较。在总结了实现的细节之后,我们定性地评估了将样式特征与CMD对齐的效果。除了视觉上的比较,我们报告了一项用户研究的定量结果,这支持了我们的假设,即高阶矩携带重要的风格信息,而不cmdk(P,Q):=.i=1ai<$ci(P)−ci(Q)<$2,其中(九)忽视最后,我们进一步研究了不同的影响-消融研究中的几个时刻。c(X)=EX[x]i=14.1. 实验装置X[η(i)(x−EX[x])]i≥2我们采用VGG-19 [33]作为特征编码器并读取一个i0。 η(i)(x)是i定义为(i+1)m−1在层级别L11、21、31、41、51处输出特征图。稍微偏离常用的NST设置,我们使用原始卷积输出conv-l而不是它们的整流版本relu-l,因为我们将它们箝位到[0,1]η(i):Rm→R(m−1)!使用sigmoid激活来计算CMD,参见(11)。x→. xr1···xrm(十)M.内容损失是在conv4 1上计算的,1m(r1,···,rm)∈N0r1+···+rm=k通过构造,CMD是非负的,遵守三角不等式,并且如果P=Q,则CMDk(P,Q)=0。 [38,定理1]指出,CMDk(P,Q)= 0对k表示P=Q, 因 此 CMD是紧支撑分布上的度量。对于实际应用,计算cmd∞显然是不可能的,我们必须从上面将k绑定到K与用于风格转换的其他近似[29,19]相比,有界cmdK具有自然的理论合理性。可以证明[39,命题1],等式9的求和中的第i项由严格随阶数i减小的上界来限定。也就是说,方程(9)中的高阶矩项的收敛单调地收敛到0。为了保持实现效率,我们只计算边际矩,通过限制n(i)(x)=(x i,···,x i)的单项向量。使CMD适应我们的风格特征分布是直截了当的。为了满足要求,我们在每个特征输出周围包装一个sig-moid函数σ(),以便重新将经验分布的支持度严格限制为[0,1]。与我们稍微滥用了符号,将σ(νl)写为从S形变换特征计算的νl,并定义.ΣL型(Io,Is):=cmdkσ(νI),σ(νI),(11)在风格损失中,我们使用与[9]中提出的相同的加权方案。最佳化是使用Adam [18]。我们不是在固定次数的迭代后盲目停止,而是基于当前风格损失和风格损失的移动平均值的差异实现停止标准。我们将我们的算法与五条基线进行比较:一条来自MMD组[9],两条基于直接矩差[25,15],两条基于OT [24,27]。我们使用现有的开源实现1,并保留原始论文中提出的所有超参数,重新获得源代码。我们的实现基于PyTorch[30],并且也是公开的。[2]对于我们的实验,我们将矩的阶数限制为K=5,因为高阶数的影响很小。4.2. 定性结果我们已经查明了以前的NST方法的理论局限性。三点三为了了解这些如何转化为具体的视觉差异,我们分析了风格化图像如何保持三种不同的风格属性,颜色,纹理和笔画,形状。参见图3,补充材料中有进一步的结果。1对于[9,25,27],作者的原始实现;对于[15,24],由[27]的作者提供的实现。2代码:https://github.com/D1noFuzi/cmd styletransferE我9389(a) 投入(b)AdaIN [15](c)Gatys [9](d)MM [25](e)OST [27](f)WCT [24](g)Ours图3:我们的算法和以前的方法在所有三个类别中的风格转换结果。最好在屏幕上观看。请放大以欣赏风格细节。颜色和亮度。本文所关注的是全自动NST,没有额外的用户控制。因此,输出应该具有样式图像的调色板。也就是说,应当仅保留内容图像的语义内容,但是应当用代表风格的颜色来替换颜色 请看图3的第一行, 的正确的鹦鹉强烈泄漏到AdaIN的结果,在WCT中也可见Gatys和MM和痕迹除了我们的方法之外,基于OT的那些在调色板方面表现最好,但是OT具有不被内容保证的夸张的亮度变化的趋势,例如,女孩的脸在第五排背景在第六排事实上,它显示了局部颜色和强度信息在某种程度上隐藏在高阶矩中。这一观察结果也得到了第二节消融研究的支持。四点四9390≈纹理和笔触。在艺术风格转移时,保持笔触和纹理尤其重要,以保留伴随的个人绘画技巧。我们发现,提出的CMD方法是特别好的复制颗粒画布,定向笔触等。图3中的第1行和第5行以及第2行中的湖面倒影都是明显的例子。我们还指出了第四行中特别具有挑战性的例子。放大样式图像,我们可以看到纸张的粗糙纹理,以及对定向阴影笔划的偏好。虽然没有一种方法在这个困难的情况下是完美的,但只有我们的方法和某种程度上的Gatys(但具有强烈的色彩伪影)才能部分地拾取这些Pat-tons。总的来说,我们观察到定向高频模式似乎受益于更高(特别是奇)的时刻,但需要进一步的研究来深入探讨这种关系。形状最后,我们把注意力转向形状。这种致敬在某种程度上更为复杂,因为装饰性和装饰性的形状元素,如图3第3行中的方形图案,是风格的一部分,而类似大小的语义上有意义的元素是内容的一部分,如第4行中的眼睛或第5行中的化妆。CMD设法解开这两个方面,并保留重要的边界和细节的内容相当不错,同时仍然强加的特点形状特征的风格。也许最有说服力的例子是第三排。但是在其他情况下,在强加风格和保留显著内容特征之间的微妙平衡似乎受益于高阶矩,第四、五、六排4.3. 定量结果用户研究。如何定量评价NST尚无明确共识。什么是“正确的”输出的问题事实上,人们可以用同样的方法,只通过改变风格和内容损失的相对权重来产生非常不同的结果,这取决于应用和个人品味。目前的共识是进行用户研究,向参与者展示结果,而不透露它们是如何产生的,并收集用户偏好的统计数据我们注意到,虽然我们同意美学质量很难衡量,但人们通常可以毫不犹豫地在少数替代风格化中选择他们最喜欢的风格化,这为这些研究提供了一些支持:至少,它们是一个指导方针,在现有的方法中,哪一种方法将提供相对最大份额的用户群体最喜欢的结果。我们使用与上述相同的方法进行用户研究:AdaIN [15],Gatys [9],Mo-ment Matching [25],OST[27],WCT [24]和pro-提出的CMD方法该研究使用了柯达图像数据集的一部分[6]和NST中广泛使用的其他内容图像,显示了各种场景,物体和人类。风格数据集由NST常用的绘画和素描组成,来自一系列艺术家,包括毕加索,康定斯基,梵高等。我们总共详尽地结合了31个内容图像和20个风格图像,每个算法产生620个风格化图像。在这项研究中,六个风格化结果以随机顺序并排显示,以及底层内容和风格图像。用户被要求选择一个单一的图像,将最好的转移风格方面,如形状,纹理和颜色使用自己的判断。总 的 来 说 , 我 们 从 56 个 不 同 的 参 与 者 中 收 集了>2700张选票。评分报告见表1。1.一、这项研究揭示了一些有趣的见解。事实上,我们提出的CMD方法表现良好,比最接近的竞争对手多10%的选票。[9]的经典NST获得了第二高的票数。这支持了我们的主张,即迭代方法在质量方面仍然具有优势,因为一次性方法可以用质量换取速度。AdaIN*GatysMMOST*WCT*我们1555334435234635875.7%百分之十九点七百分之十六点三百分之十九点三百分之十七点一21.7%表1:在我们的用户研究中,每种方法收到的投票数*表示单次前馈方法。4.4. 消融研究在我们的方法中,可以单独重新加权或关闭矩。我们已经进行了一项消融研究,以更好地了解不同时刻的影响,见图。四、请注意,该调谐旋钮与[10]精神中的用户控制正交,其中在预处理中隔离特定属性(如颜色)并选择性地应用图4显示了不同力矩组合的风格转换结果对角线上仅使用与行/列索引对应的单个力矩然后,沿着行逐渐添加高阶矩,因此例如位置(2,2)仅对应于第二矩(权重向量a=[0,1,0,0,0]),并且元素(2,4)对应于第二、第三和第四矩(权重向量a=[0,1,1,1,0])。正如预期的那样,在时刻和视觉属性之间没有明显的尽管如此,这项研究还是说明了一些有趣的关系。首先,人们可以立即看到,即使是第五阶仍然贡献了重要的风格元素,例如在第一排的下巴和帽子上。奇数时刻似乎主要调节整体亮度和对比度,而偶数时刻则倾向于改变颜色和高频纹理。9391一阶矩二阶矩三阶矩四阶矩五阶矩(a) 内容(b)样式(c)α= 0。6(d) α = 0。2(e)α = 0。01(f)α= 0图5:通过改变内容损失的相对影响α来改变风格转移的强度(参见当量①①)。图4:仅使用选定时刻的消融研究。详情见正文我们的CMD方法只改变了非线性对齐的损失函数例如,用户仍然可以通过调整样式和内容损失的相对权重来控制样式在图像内容上的印记强度。为了说明这一点,我们使用我们的CMD方法,并线性插值方程中的权重α(一). 图5示出了如何将更多的权重放在内容损失上产生越来越弱的“部分风格化”的示例,该“部分风格化5. 局限性和今后的工作NST目前有两个概念方向:迭代优化技术和一次性前馈方法。我们的算法属于前者。虽然迭代方法仍然可以产生更好的结果,但它们对于实时应用来说太慢了我们方法继承了这个缺点,它不能用于(接近)实时视频合成。在概念层面上,我们必须做两个简化的近似,采取的步骤,从数学形式主义的CMD到一个实际的实施。一方面,我们将中心矩的阶数限制为有限,实际上是小K。至少在原则上,通过增加K,该限制可以保持尽可能小,因为附加中心矩的影响可证明地随着阶的增加而收敛→0另一方面,也许更重要的是,我们只利用我们损失的边缘中心时刻。出于计算原因,我们采取了这种捷径,但它有效地意味着我们只有在边缘分布独立时才能实现精确的分布目前还没有证据表明这是事实,我们也没有看到一种简单的方法来衡量由于近似而可能丢失多少信息。6. 结论我们重新审视了神经风格转移的解释,即对齐特征分布。在将现有的方法分为基于MMD、矩匹配和OT的三大类然后,我们提出了一种基于中心矩差异的新方法。我们的方法可以被解释为最小化一个完整的概率度量,或匹配所有的中心矩所需的顺序。我们的方法具有理论和实际的好处。从理论上讲,它具有很强的近似保证。在实践方面,它提供了一种计算效率高的方法来解释复杂特征分布的高阶矩,并实现了许多艺术风格的视觉上更好的转移。在更广泛的范围内,即使Portilla和Simoncelli提出了更高阶的纹理合成匹配[31],Gatys等人。[8,9]在开创神经风格转移时,忽略了除二阶矩之外的所有在这方面,我们的方法重新引入高阶匹配NST。内容风格9392引用[1] Konstantinos Bousmalis , Nathan Silberman , DavidDohan,Dumitru Erhan,and Dilip Krishnan.无监督像素级域自适应生成对抗网络。在CVPR,2017年。[2] 陈天琦和马克·施密特。快速的基于补丁的任意样式的样式传输。arXiv预印本arXiv:1612.04337,2016。[3] 加布里埃拉·丘卡视觉应用程序的领域适应:全面调查。arXiv预印本arXiv:1702.05374,2017。[4] 文森特·杜穆林,乔纳森·施伦斯,曼朱纳特·库鲁尔. 一种 艺 术 风 格 的 学 术 代 表 arXiv 预 印 本 arXiv :1610.07629,2016。[5] Alexei A Efros和William T Freeman。纹理合成和转移的图像绗缝。ACM SIGGRAPH,2001年。[6] 里奇·弗兰岑柯达无损真彩色图像套件。网址://r0k.us/graphics/kodak/网站。[7] KenjiJumizu , Arthur Gretton , Xiaohai Sun , andBernhard Schoülk opf. 条件依赖的核测度。InNeurIPS,2008.[8] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络进行纹理合成arXiv预印本arXiv:1505.07376,2015年。[9] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR,2016年。[10] Leon A Gatys,Alexander S Ecker,Matthias Bethge,Aaron Hertzmann,and Eli Shechtman.神经风格迁移中知觉因素的控制。在CVPR,2017年。[11] ArthurGretton,Karsten M Borgwardt,Malte J Rasch,Bern-hardScho?l k opf,andAl e xanderSmola. 克内尔双样本检验。Journal of Machine Learning Research,13(1):723[12] David J Heeger和James R Bergen。基于金字塔的纹理分析/合成。在Proceedings of the 22nd annual conference onComputer graphics and interactive techniques,pages 229[13] 亚伦·赫茨曼使用多种大小的弯曲画笔笔划进行绘画渲染。ACM SIGGRAPH,1998年。[14] Aaron Hertzmann , Charles E Jacobs , Nuria Oliver ,Brian Curless , and David H Salesin. 形 象 类 比 。 ACMSIGGRAPH,2001年。[15] 黄勋和塞尔日·贝隆吉。任意风格的实时传输,具有自适应的实例规范化。在ICCV,2017年。[16] 景永成、杨业州、冯尊雷、叶景文、余益州、宋明丽Neural Style Transfer : A Review.IEEE Transactions onVisualization and Computer Graphics,2019。[17] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。[18] 迪德里克·P·金马和吉米·巴。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014年。[19] 尼古拉斯·科尔金,杰森·萨拉文,格雷戈里·沙赫纳洛维奇。通过放松的最佳传输和自相似性的风格转移。在CVPR,2019年。[20] Jan Eric Kyprianovich , John Collomosse , TinghuaiWang,and Tobias Isenberg.“艺术”状态:图像和视频艺术 风 格 化 技 术 的 分 类 。 IEEE Transactions onVisualization and Computer Graphics,19(5):866[21] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络进行图像合成。在CVPR,2016年。[22] Shaohua Li ,Xinxing Xu , Ligiang Nie , and Tat-SengChua.拉普拉斯引导的神经风格转移。在ACM多媒体,2017年。[23] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.用前馈网络实现多样化纹理合成。在CVPR,2017年。[24] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.通过特征转换实现通用样式转换。在NeurIPS,2017年。[25] 李阳浩,王乃彦,刘嘉颖,侯小迪。揭开神经风格转移的神秘面纱。arXiv预印本arXiv:1701.01036,2017。[26] Mingsheng Long , Han Zhu , Jianmin Wang , andMichael I Jordan.具有联合适应网络的深度迁移学习。在ICML,2017年。[27] 陆鸣,赵昊,姚安邦,陈玉蓉,徐峰,张丽。通用样式转换的封闭式解决方案。在ICCV,2019年。[28] Roey Mechrez,Itamar Talmi,and Lihi Zelnik-Manor.非对齐数据图像变换的上下文损失。在ECCV,2018年。[29] 尤瑟夫·穆鲁沃瑟斯坦式的转移。在AISTATS,2020年。[30] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKilleen , Zeming Lin , Natalia Gimelshein , LucaAntiga , et al. Pytorch : An imperative style , high-performance deep learning library. 神经信息处理系统的进展,第8026-8037页,2019年[31] 哈维尔·波蒂拉和埃罗·P·西蒙切利。基于复小波系数联合统计的参数纹理模型。国际计算机视觉杂志,40(1):49[32] 埃里克·里瑟皮埃尔·威尔莫特和康奈利·巴恩斯使用直方图损失的稳定可控神经纹理合成和风格转移。arXiv预印本arXiv:1701.08893,2017。[33] 凯伦·西蒙尼扬和安德鲁·齐瑟曼用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014年。[34] Baochen Sun 和 Kate Saenko 。 Deep Coral : Correlationalignment for deep domain adaptation.在ECCV,2016年。[35] 德米特里·乌里扬诺夫、瓦迪姆·列别捷夫、安德烈·韦达尔迪和维克托·S·伦皮茨基。纹理网络:纹理和风格化图像的前馈合成。InICML,2016.[36] 德米特里·乌里扬诺夫,安德烈·维达尔迪,维克多·伦皮茨基。实例规范化:快速风格化缺少的成分arXiv预印本arXiv:1607.08022,2016.9393[37] 王梅和邓小平。深度视觉域适应:综述。神经计算,312:135[38] 沃纳·泽林格,托马斯·格鲁宾格,埃德温·卢格,托马斯·纳茨尔·阿格尔,苏珊娜·萨明格·普拉茨。中心矩差异(CMD)用于域不变表示学习。arXiv预印本arXiv:1702.08811,2017年。[39] WernerZellinger,BernhardAMoser,ThomasGrubinger , EdwinLughofer , ThomasNatschlagger,andSusanne Saminger-Platz.基于矩对齐的神经网络鲁棒无监督域自适应信息科学,483:174[40] Fuzhen Zhuang,Xiaohu Cheng,Ping Luo,Sinno JialinPan,and Qing He.监督表示学习:使用深度自动编码器的迁移学习。InIJCAI,2015.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功