没有合适的资源?快使用搜索试试~ 我知道了~
通用风格转换的广义白化和着色变换
1理解通用风格转换的广义白化和着色变换德州大学奥斯汀分校chiu. utexas.edu摘要样式转换是以其他图像的样式渲染图像的任务。在过去的几年里,神经风格迁移在这一任务中取得了巨大的成功,但遭受要么无法推广到看不见的风格图像或快速风格迁移。近年来,一种通用的风格转换技术将零相位分量分析(ZCA)应用于图像特征的白化和着色,实现了快速、任意的风格转换。然而,使用ZCA进行风格迁移是经验性的,没有任何理论支持。此外,其他白化和着色变换(WCT)比ZCA还没有被调查。本文将ZCA推广为WCT的一般形式,从神经风格迁移的角度分析了ZCA的表现,并说明了为什么ZCA是不同WCT之间风格迁移的好选择,以及为什么有些WCT不适合风格迁移。1. 介绍风格转移是合成其内容来自目标内容图像并且风格来自另一纹理图像的图像的任务。在早期阶段,一种成功的风格转换方法是图像绗缝[4],它考虑纹理图像和内容图像上的某些量(例如图像强度和局部图像方向)的空间映射。另一种方法[8]通过在图像和它们的艺术过滤版本之间进行类比,使风格转移成为可能。虽然这些方法产生了良好的效果,他们遭受只使用低级别的图像特征。后来,神经风格转移的开创性工作[5]利用卷积神经网络的能力来提取图像的特征,这些特征可以解耦并很好地表示视觉风格和内容。然后通过联合最小化特征损失[17]和公式化为Gram矩阵差的风格损失来实现风格转移[6]。该优化通过迭代[6,12,16,18]来求解因此,在本发明中,尽管具有显著的结果,但其存在计算效率低的问题。为了克服这个问题,提出了一些使用预先计算的神经网络来加速风格转移的方法[10,13,20然而,这些方法仅限于一种可转移的风格,并且不能推广到其他不可见的风格。StyleBank [1]通过使用样式过滤器控制传输的样式来解决此限制。每当需要一种新的风格时,它可以被学习到过滤器中,同时保持神经网络固定。另一种方法[3]提出训练一个条件风格转移网络,该网络使用多个风格的条件实例规范化。除了这两种方法之外,还提出了更多实现任意风格转换的方法[2,7,21然而,它们部分地解决了这个问题,并且仍然不能概括到每一种看不见的风格。最近,出现了几种探索内容图像特征和风格图像特征的二阶统计量的方法用于通用风格转移。AdaIN [9]试图匹配风格化图像特征和风格图像特征的差异。使用零相位分量分析(ZCA)(一种特殊的白化和着色变换(WCT))进行特征变换的方法[14]进一步关注图像特征的协方差虽然AdaIN具有更高的计算效率,ZCA方法在视觉上合成的图像更接近于所考虑的风格,但Avatar-Net [19]旨在找到两者之间的平衡。虽然ZCA方法的特征变换产生了良好的风格化图像,它仍然是一个经验的方法,缺乏任何理论分析。报告还[14]没有提到其他WCT方法的性能在这里,我们推广ZCA的一般形式的WCT风格转移。此外,我们结合神经风格迁移的思想,分析讨论了WCT风格迁移的性能。从分析中,我们解释了为什么ZCA是好的风格之间的转移不同的WCT和显示,并不是每一个WCT是很好地适用于风格转移。在实验中,我们研究了与ZCA相 关 的 五 种 天 然 WCT 方 法 [11] , 主 成 分 分 析(PCA),Cholesky分解,标准化ZCA,44524453JFn1标准化PCA实验结果表明,PCA和标准化PCA的效果不好,而其他导致的感知有意义的图像,这是与我们的理论相一致。2. 背景由于本报告主要继承了ZCA的神经风格迁移和通用风格迁移的思想,因此在下文中对其进行简要介绍。2.1. 神经风格迁移形式FjFT。事实上,这样的Gram矩阵可以用作图像I的样式表示。此外,来自较高卷积层的Gram矩阵捕获I的较粗糙样式表示,而来自较低层的Gram矩阵捕获较精细样式表示。为了方便起见,当我们稍后提到特征图时,它指的是重塑的特征矩阵F而不是原始特征张量Φ。为了合成具有来自图像Ic的内容和来自图像Is的样式的图像Io,必须找到最优Io以最小化内容损失和样式损失:argmin||F(I)−F(I)||2Gatys et al. [6]第一次提出了有效的一种使用神经网络进行风格转换的方法关键LOIolΣ1lCF1(二)2这项工作的发现是,通过使用con-通过使用卷积神经网络,图像的风格表示和内容表示可以被解耦。这+j∈Ωλj|| J Gj(Io)−MJ Gj(Is)||F,“风格”意味着可以独立地改变图像的风格或内容以生成另一个感知上有意义的图像。从VGG-19网络(一种针对对象识别的卷积神经网络)中观察到将内容与风格分离的能力。VGG由一系列卷积层组成,随后是三个完全连接的层。在每个卷积层的输出处是输入图像的特征图。对于具有相似内容的两个图像,从较高卷积层提取的它们的特征图应该比从较低卷积层提取的特征图更接近,使得最终的这意味着来自更高卷积层的特征图可以用作图像的内容表示。假设φj(I)是VGG- 19网络的第j个卷积层处的输入图像I的特征图例如,可以从层j=relu4_1或relu4_2中提取I的可行内容表示。另一方面,风格表征的计算是来自初级视觉系统的灵感,其中计算神经元之间的相关性。 令φj(I)是图像I在形状为hj(I)×wj(I)×kj 的 第 j 个 卷 积 层处 的 特 征 图,其中hj(I)、wj(I)和kj是特征图的高度、宽度和通道长度。对于每一层,例如第j层,我们可以定义形状为kj×kj的格拉姆矩阵Gj(I),其中(α,β)分量是通道α和β之间的相关性,并由下式给出:其中F表示Frobenius范数,l表示某个高是用于评估样式损失的卷积层的预定义集合,λ j是缩放因子,并且nj = hj(Ic)wj(Ic)和mj =hj(Is)wj(Is)。2.2. 使用ZCA进行通用样式转换不像神经风格转移,其中从内容图像和风格图像学习是必要的,以优化方程。二、[14]提出了一种免学习方案,并将风格转移作为图像重建过程。特别是,四个自动编码器一般的图像重建。每个编码器是预先训练的VGG-19网络的一部分,该网络包括到ReluN 1层(N= 1、2、3或4)的输入层,并且在训练过程期间保持固定,而对应的解码器在结构上与编码器网络对称。训练了自动编码器网络通过最小化重建损失||I r−I i||2、凡Ii和Ir是输入图像和重建图像。在训练之后,每个自动编码器可以用于单级风格转移,并且四个自动编码器可以级联以执行多级风格转移,以实现更好的合成图像。用于单级样式传输的自动编码器的内部工作如下所示。自动编码器的编码器用于提取输入图像的特征图。对于风格转移,一种特殊的白化和着色变换(WCT),使用零相位分量分析(ZCA)的特征变换。然后由解码器将变换后的特征转换回感知上有意义的图像。具体地,给定内容图像Ic和样式图像Is,提取的fea.Gj(I)α,β=hΣj(I)wΣj(I)φj(I)h,w,αφj(I)h,w,β.(一)编码器的输出为形状为k×n的Fc和形状为k× n的Fsk×m。Fc和Fs首先减去它们的h=1 w=1是指集中式特征F¨c和F¨s具有通过将φj(I)整形为形状为kj × kj的矩阵Fj(I),hj(I)wj(I),可以用简洁的形式来表示零均值。然后将特征分解应用于它们的协方差矩阵和derive1F¯cF¯T=EcΛcET和nc cn4454-一个-一个−-一个-一个-一个−C111F¯sF¯T=EsΛsET。增白步骤形成F¯c因此,委员会认为,mS s到根据11的不相关特征Fc(1FcFT=I)当量第三章:nC-一个不W=U1 Σ−2=U1 EΛ−2ET,(7)不F~ c=EcΛc2EF¯c。(三)其中Σ的特征分解为Σ=EΛE,并且着色步骤变换F~ c 到F¯zca 使得U1是正交矩阵。U1的不同选择定义不同的白化变换。1F¯zcaF¯T=1F¯sF¯T根据等式第四章:nzcams此外,在某些情况下,-一个1使用标准化随机向量y=V2xF¯zca=EsΛ2ETF~ c。(4)其中V是对角方差矩阵diag(Σ)。模拟Ss类似于Eq.在图7中,y的白化矩阵Wy被写为最后,通过添加以下平均值,将F<$zca重新居中为Fzca:F,完成整个WCT。在功能转换后-Wy=U2 P12,其中U2是正交矩阵,P是是y的协方差矩阵,也是y的相关矩阵在该信息中,解码器将变换后的特征F zcax,即,P=E[yyT]=V2E[xxT]V12=V2ΣV二、到具有来自Ic的内容和来自Is的样式的图像。由于白化向量Wyy=U2P2V12x,我们而且,通过多层次风格转移:与Relu41相关联的自动编码器可替换地,可以将针对x的白化矩阵W表示为层将Ic和Is作为输入并产生合成图像I4。然后将I4作为内容图像和I传递给W=U2 P2V1二、(八)在一些实施例中,图像处理器110可以使用与结果113相关联的自动编码器来生成合成图像113。重复该过程,直到从与relu11相关联的自动编码器生成合成图像11。我们将在后面的3.4节中解释为什么多层次风格迁移效果更好。在这份报告中,我们研究了五种天然美白转化-可以简洁地表示为在Eq.7或Eq。8.首先回忆一下[14],使用ZCA白化变换进行风格转换。ZCA白化矩阵Wzca由下式给出:Wzca= Σ−1=EΛ−1ET,(9)223. 方法在[14]中,它使用WCT的特殊情况ZCA来实现风格转换。然而,它很少提到是否其对应于等式中的U1=I。7 .第一次会议。与ZCA白化密切相关,PCA白化矩阵Wpca被定义为其他WCT方法也可以很好地用于样式转换分析讨论了WCT的性能。WPCA=ETΣ12= Λ2ET .(十)在这里,我们认为广义WCT计划的风格转移,提供了一个理论,从神经风格转移的角度来解释为什么ZCA是一个很好的方式为这项任务,为什么其他一些WCT可能不会。3.1. 白化变换Wzca和Wpca之间的主要区别在于,在旋转ET之后,Zca最终旋转回到原始坐标E,随后进行缩放Λ2。如果将ZCA变换或PCA变换应用于标准化的向量,则可以得到标准化版本ZCA变换矩阵WZCA或PCA变换矩阵假设x=(x,. . .,X)T是要被WPCASTDSTD1个d[10][11][12][13][14][ 15][16][17][18][19][1而x被Wzca=P−1V−1 =E Λ−1ET V−1为了白化的目的,不需要通过从x中减去μ来集中,我们遵循[14]的结果,其中STD22pp21第二章,(十一)对中心信号进行白化变换因此,我们认为,Wpca=E T P−1V−1 = Λ−2ET V−1,(12)2 2标准ppp2在下文中,假设x以μ= 0为中心。其中使用特征分解P=EpΛpET。白化变换是一种线性运算,其带来注意,Wzca和Wpca对应于Up= I和具有协方差矩阵Cov(x)= Σto的随机向量xSTD不STD2另一随机向量z=(z,. . .,z)T具有恒等式U2= Ep在等式8,分别。1d最后一个自然美白是Cholesky美白,它的协方差矩阵Cov(z)=I。具体而言,线性运算由d×d矩阵W定义,该矩阵将x转换为z=Wx,满足E [zzT] =W E [xxT]W T=WΣW T= I。(五)−−−−−:p44551STD名称来自Σ −1的Cholesky分解:Σ−1=LL T。与Eq相比。6,我们可以将乔莱斯基白化矩阵W_chol导出为W胆固醇= L T。(十三)因此,WΣWTW=W,因此注意,WChol对应于U1=LTΣ2 由方程式7 .第一次会议。W T W = Σ −1。(六)此外,可以验证标准化版本Wchol也是L T。4456SS我我SSSSX1nΣc=E[(fCcCs3.2. 着色变换着色变换是相应的白化变换的逆过程。特别是在单-证据首先回想一下,白化矩阵应该满足等式(1)。六、因此,我们有Σ=(WT W)−1=W−1(WT)−1。因此水平样式传输、内容特征Fc=[f c,. . . ,f c]k×nc−f¯c)(fc— f¯c)T ] =W−1(WT)−1 、(17a)以及风格特征Fs=[fs,. . . ,f s]k×m由下式提取ed1m一种由VGG-19网络的一部分组成的编码器。 Fc和Σs=E[(f s−f¯s)(fs−f¯s)T]=W−1(WT)−1。(17b)S s然后将Fs转化为F¯c=[f c−f¯c,. . . ,f c−f¯c]和sss1Nss让Fs=[f1Σ−f,. . . ,fm−f]通过减去它们的平均值f¯c=1nf¯ c且f¯s=1nf s,分别。Af-11ni=1imi=1i1吨F FT−F FT计算协方差Σc=nFcFc和nWCTWCTmSsΣs=1F¯sF¯T,对于其中的每一个,我们都可以定义一个白化-nmms1ΣWCTwctT1Σs sT(十八)根据所述方法的变换矩阵Wc或Ws在SEC中介绍。第3.1条 变白和有色的特征=ni=1fi(fi)− M i=1fi(fi)然后通过下式导出要解码的Fwct:Fwct=W−1WcF¯c+[f¯s,. . . ,f¯s]k×n,(14)其中Wc是白化变换,W−1是着色=E [f wct(f wct)T] −E[fs(fs)T],其中E[fwct(fwct)T]等于Ss ssW−1WE[(f c−f<$c)(fc−f<$c)T]WT(W−1)T变换,以及k × n矩阵[f,. . . ,f]sccs是重新定心步骤。为了符合第12节中的配方3.1我们定义+W−1Wc(E[f c]−f¯c)(f¯s)T+f¯s(E[fc]−f¯c)TWT(W−1)T+f¯s(f¯s)T,(十九)fc作为表示n个示例fc,i = 1,. . . ,n和fs作为表示m个示例fs,i= 1,. . .、m. 增白基质Wc然后,Ws可以从协方差Σc=C s其可以被简化为W−1(W−1)T+0+0+f<$s(f<$s)T=E[f s(f s)T], (二十)S sE[(f c−f¯c)(fc−f¯c)T]和Σs=E[(f s−f¯s)(fs−f¯s)T],其中f¯c=E[fc],f¯s=E[fs]。因此,随机其中恒等式(W−1)T= (W T)−1和E [(f s−表示F的列的向量fwctWCT由下式给出f¯s)(f¯ s−f¯s)T]=E[f ¯ s(f ¯ s)T]−f¯s(f¯s)T。因此l(Fwct)的第二项是E[fs(fs)T]- E[fs(fs)T] = 0。f wct=W−1Wc(f c−f<$c)+f<$s。(十五)配备Eq。15、我们可以分析性能这证明了如果使用Fwct,接下来我们关注第一个术语:用于风格转换的WCT。3.3. 单级风格转换的WCT分析1||F−F||2nwct cF1Σn= tr[1(FnWCT— Fc)(Fwct−Fc)T]从神经风格迁移的角度来看,[14]中的单层次风格迁移实际上可以看作是一种方式=tr[(fwct−fc)(fwct−fc)T]你我我i=1它使用ZCA来提供一个快速和近似的解决方案,minFl(F;Fc,Fs),其中l(F;Fc,Fs)定义为=tr[E[(fwct−fc)(fwct−fc)T]](二十一)l(F;Fc,Fs)=||2+λ||2+λ||1FFT−FsF T||二、有了f c−c<$,f c−f<$c和f c−s<$,f c−f<$s,方程21可以扩展为F联系我们内容损失`nmsF风格损失tr[W−1WcE[f c −c¯fc −c¯T]WT(W −1)T](十六)其中形状k×n的Fc和形状k×m的Fs是ex-s c s−tr[W−1WcE[f c−c¯fc−s¯T]](二`n114457十二)在VGG网络的relu4_1、relu3_1、relu2_1或relu1_1层的输出处提取,并且k是该层处的此外,可以证明,如果使用WCT来近似解,则损失函数−tr[E[f c−s<$f c−c<$T]WT(W−1)T]+tr[E [f c−s<$f c−s<$T]]。第一个迹线等于tr[W−1(W−1)T] = tr[Σs]。的l(F;Fc,Fs)是有界的.S s定理3.1. 给定一个单级风格转换,其被表示为l(F;Fc,Fs)的最小化。如果F=Fwct,其根据等式(1)计算。14,则风格损失为零,内容损失由F和F的均值和协方差限定。第二和第三迹项是等价的,因为对于任意矩阵A,tr[A]=tr[AT]。由于E[f c−c¯f c−s¯T]等于E[f cf cT]− E[f c]f<$sT−f<$c E[f c]T+f<$cf<$sT=E[f cf cT]−f¯cf¯cT=Σ=W−1(W−1)T,(23)公司简介44582i j ij2i j ij1 1 1 11第二和第三迹项变为tr[W-1(W-1)T]。使用,得分为S c对于第四迹,我们观察到E[f c−s¯f c−s¯T]可以进一步写成1 1 1 1tr[Σ2Σ2]= tr[E Λ2ET E Λ2ET]c cTc'sT'scT'sTs c sSsCCcΣnΣnE [f f] −E [f]f−f E [f] +f f=tr[σs es(es)T σc ec(ec)T]=W−1(W −1)T+f¯cf¯cT−f¯cf¯sT−f¯sf¯cT+f¯sf¯sTi i i jJ Ji=1j =1c cΣ(二十八)=W−1(W−1)T+(f¯c−f¯s)(f¯c−f¯s)T,=σsσc(es)Tec×tr[es(ec)T]C c(二十四)取其迹,第四迹项变为tr[W−1(W−1)T]+||f¯c−f¯s||二、把一切都放在首位ij ijiJi、jΣ=σs σc[(es)Tec]2,c c2i、j我们一起得到损失l(Fwct;Fc,Fs)为l(Fwct;Fc,Fs)=||f¯c−f¯s||2个以上其中σs1 1分别求出Σ2(Σ2)的相应特征向量 S ctr[W−1(W−1)T− 2 W−1(W−1)T+ W−1(W−1)T].另一方面,由于一般W和W可以s s s cC c(二十五)写成W=U−1和WS c=U−12SsS2C c C与利用Cauchy-Schwarz不等式某些正交矩阵Us和Uc(参见等式7),..tr[W−1(W−1)T1]等于tr[2UT1U Σ2]。根据tr[W−1(W−1)T]≥ −tr[W−1W−1T]tr[W−1W−1T]s csscCssC c(二十六)冯·诺依曼如下所示:以及恒等式:c=W−1W−1T和s=C cW−1W−1T,我们可以推导出不等式1 1ΣnΣSs|tr[Σ2 U T U Σ2]|≤σs σc=σs σc[(es)Tec]2,l(Fwct)≤||f¯c−f¯s||2+(√tr(Σs)+√(c))2,(27)sscC我我i=1Σ我我我i、jJ(二十九)我们用这个身份[(e s)Te c]2=||e s||2= 1,i.其中上限与平均值相关联,并且F和F的协方差□通过将因子σc替换为jΣi j i2σs σc[(es)Tec]2,其中σc,c sii,ji i i i j j定理3.1说,无论WCT被用于单级风格转移,总是没有风格损失,并且内容损失的上限仅取决于内容特征和风格特征,而与所使用的WCT无关。有界的内容损失意味着WCT可以捕获内容图像的一般外观怎么-它变成等式中的ZCA的分数28岁这意味着ZCA的得分是上界的良好近似,因此ZCA是风格转移的良好选择。相比之下,当使用Us和Uc的错误选择时,它可能导致负分数和不良风格迁移结果,并且PCA就是这样的情况之一。如果PCA(参见等式10)被使用,得分是然而,内容的细节是否能够保持仍然取决于11不tr[E ~2~2E]使用的WCT为了评估不同WCT在风格迁移方面的表现,我们必须提出一个简单的S s ccΣnΣn(三十)=σ s σ c tr[es(e c)T]=σ s σ c(es)Tec。但也是指示性的量化指标。为此,遵循定理。3.1我们有一个推论如下。我我我我i=1我我我i=1当量30可以是小的或负值,因为(es)Tec推论3.1.1。tr[W-1(W-1)T]可以用作得分iiS C可能是负数。 这意味着PCA不是一个好的操作-函数来计算使用WCT的样式传输结果:tr[W−1(W−1)T]的值越高,性能越好。风格转换的问题。此外,如果ZCA的标准化版本(参考用于样式转移的WCT的管理1 1 1 1当量11)被使用时,得分为tr[V2P2P2V2],其中Vs s c csPr oof. 回忆方程式25其中f¯c,f¯s,Σc=W−1W−1T,(Vc)和Ps(Pc)是对角方差矩阵,C c和Σs=W−1W−1T都只取决于内容和的相关矩阵Fs(Fc 既然是科瓦里-方差矩阵Σ连接到相应的相关性样式图像,并且与所使用的WCT无关在那里-因此,最小化损失函数l(Fwct)的WCT更多地对应于tr[W-1(W-1)T]的更高值。□矩阵P的关系Σ=V2PV2,Σ2=V2P2UU是某个正交矩阵。可以证明U是s c14459非常接近单位矩阵,因此我们有Σ2≈1 11 1 1 1V2P2。 这意味着分数tr[V2P2P2V2]是利用推论3.1.1,我们可以理解为什么ZCA11s s c c是风格转换的好选择如果ZCA(参见等式(9)是[2019 - 02 - 15][2019 - 02 -02][2019 - 02-02][2019 -02][2019 - 02 - 02][2019 - 02 - 02][2019 - 02 -02][2019 - 02][2019 - 02 - 02][2019 - 02 - 02][2019 -02 - 02][2019 - 02 - 02]][2019 - 02 - 02][2019 - 02 -02][2019 - 01]][2019 - 02 - 01][2019 - 01][2019 -01]][2019 - 01][2019 - 01][2019 - 01]]所以S c4460FNN,sFFNFN,sF3秒标准化ZCA和ZCA对花柱转移的性能相似。此外,与PCA的情况类似,内容特征来源的原始顺序Relu4 1层(1||F 4−F 4,c||2项在Eq. (31)n4Fdardized PCA可能会导致负分,并且不好风格转移。相反的顺序实际上找到了一个次优的解决方案的损失以下:3.4. 多层次风格传递[14]经验表明,多个自动编码器||F 1−F1,c||2个以上n1Σ4N=11λ N||NFNFT−MNF FTN,s||二、单级风格传递可以级联实现更好风格转换结果。这里我们从神经风格迁移的角度提出一种解释:假设我们想要找到使以下损失函数最小化的合成图像I:(三十四)其中内容信息来自Relu11层。如第2.1,因为来自较高卷积层的特征图更好地表示图像的内容信息,所以级联的原始顺序给出更好的||2个以上||2+n4Σ4N=11λ N||NFNFT−MNF FTN,s||二、合成结果4. 实验(三十一)其中FN=FN(I)是在VGG-19网络的ReluN 1层提取的I的特征,FN,c我们通过首先从relu4 1部分求解I4来解决这个4.1. 培训详情我们在MS-COCO数据集上训练自动编码器。MS-COCO数据集由11.8K训练图像组成每个将数据集中的图像调整为512×512,并随机裁剪为256×256作为批量输入。 对于Relu4 1||F(I)−F||2F(I)F(I)TF FT和relu3 1的情况下,自动编码器训练与一批444,cF +λ||4444−4秒4秒||二、对于10个时期,大小为16,而对于relu2 1和relu1 1n44n4m4F(三十二)在这种情况下,自动编码器被训练5个epoch。我们使用Adam优化器,学习率为1×10- 4,不它是与1层,并且使用WCT来近似解。接下来我们要找到另一个图像I3上的I4这样I3是接近I4,也优化了损失λ3||1F 3 F T− 1F 3,sF T||二、 如果I3接近I4,那么重量衰减在报告[14]中,解码器以编码器中的最大池化层对应于上采样层的方式在结构上n33m 33,sF在解码器中。 方法中的最大池化操作I3对于Eq.三十二 为了解释这一点直接损失||I4−I3||2、要求在relu31层提取的I4和I3特征接近。总体而言,I3优化了以下损失:编码器丢失了特征图中的空间信息,并且解码器中的相应上采样操作不能很好地恢复丢失的结构。因此,解码后的图像将包含结构伪影和失真||F 3(I3)−F 3(I4)||2F+ λ3||F3(I3)F3(I3)TF FT-3秒||二、在边界[15]。为了解决这个问题,我们使用转置卷积-作为最大池化层的对称部分n3n3m3F(三十三)与上采样层相比,转置卷积其精确地对应于与将I4作为内容图像的Relu31层相关联的单级样式传输,并且其解可以通过WCT来近似。我们可以对I3之上的I2和I2之上的I1重复该过程,并且I1将是等式(1)的次优解31岁有效地,我们近似方程的解31,其中每个自动编码器将前一个自动编码器的输出图像作为内容图像。层具有可调整的参数,以灵活地学习侦察使图像结构化,避免失真。4.2. 讨论在图1中,我们展示了基于五个自然WCT的风格转换的八个示例,它们分别与ZCA、PCA、ZCA和PCA的标准化版本以及Cholesky分解相关联。在桌子上4.1是在下的分数tr(W-1(W-1)T)的对应值S c这一观点也解释了为什么合成结果如果自动编码器以相反的顺序级联,则更糟:首先,使用与Relu11层相关联的自动编码器从Ic和Is生成I1,然后将I1和Is馈送到与Relu21层相关联的自动编码器中以生成I2,并重复该过程,直到与Relu41层相关联的自动编码器生成I4。相比不同层次的风格转换。请注意,比较-在不同的示例中使用这些值是没有意义的,因为值取决于许多因素,诸如内容图像和样式图像的大小以及像素值的分布。让我们首先关注PCA和PCA-std的结果。如果我们仔细观察,我们可以注意到1n11n14461图1.使用五个自然WCT的风格转移的示例PCA和PCA-std的结果不好,但仍然捕获了内容图像的一般外观和来自样式图像的样式,这可以通过在图像中的有界内容损失和零样式损失来解释。单级样式传输。相比之下,ZCA、ZCA-std和Cholesky的结果要好得多,因为tr(W−1(W−1T(c))如表4.1所示。4462SC例如ZCAPCAZCA标准品PCA标准品Cholesky170177.1 /2244.9-8200.9 /-28.769862.4 /2246.2-7389.0 /-98.962073.5 /2063.2464.0 /8.5-15.3/5.2466.4 /8.4-22.6 /-3.7442.8 /8.2283055.0 /3349.3359.5 /140.383012.9 /3358.85748.971536.8 /2940.6688.4 /9.6-3.4 /-3.3691.5 /9.76.1/-0.9642.1 /8.8338127.9 /1861.52267.4 /144.337572.1 /1852.16400.9 /-228.432533.6 /1695.7404.6 /3.979.8/2.7402.9 /3.8-48.1 /-0.5375.4 /3.5460312.3 /2513.32079.1 /-20.260144.6 /2533.06482.2 /-549.652955.3 /2269.4616.0 /7.643.9/-0.3620.8 /7.70.8/2.9587.6 /6.9592117.1 /4942.3-9806.4 /-386.391384.9 /4969.04170.3 /624.579736.5 /4623.41146.7 /13.427.1/3.51151.0 /13.539.0/1.51115.4 /12.76147059.6 /5585.015089.9/33.0146909.1 /5592.4-6802.0 /-88.6135144.2 /5232.41175.9 /16.479.8/-6.91183.1 /16.5162.9 /7.01138.3 /15.6759170.7 /2247.07361.8 /-8.359147.1 /2264.912447.2 /-276.253560.3 /2096.3647.1 /6.3-34.7 /-1.3650.4 /6.398.5/-4.3620.0 /5.9844762.8 /1174.6-6245.8 /-76.044515.5 /1173.110660.4/-104.739738.1 /1067.6255.8 /4.5-31.8/2255.3/4.515.1/2.5241.2 /4.3表1.图中八个例子的tr(W−1(W−1)T)值1.一、每个单元格都包含四个值,它们由斜杠分隔对应于来自与reluN 1层相关联的单个级别的值,N=4、3、2、1。一些观点与我们之前的分析一致。显然,来自PCA和PCA-std的结果不是很好,但是我们可以观察到来自风格图像的风格在一定程度上被转移到合成图像。这是因为从神经风格迁移的角度来看,WCT在单水平风格迁移中不会导致任何风格信息丢失,如The-orem3.1的证明所示。此外,我们可以观察到通过PCA和PCA-std的合成图像仍然捕获内容图像的一般外观。这可以通过定理3.1中证明的有界内容损失来解释。然而,正如在Eq中解释的那样。30,因为通过PCA或PCA-std的风格转移导致更差的内容损失,所以内容信息的细节在合成图像中被破坏。表中对此进行了说明。4.1,其中在每个示例中,PCA和PCA-std的tr(W-1(W-1)T)的值小得多WCT,如标准化ZCA或Cholesky分解,对于风格迁移,从神经风格迁移的角度来看,ZCA总是首选的。相比之下,PCA,最广泛使用的白化方法之一,是不适用于风格转移。5. 结论在这份报告中,我们研究了一般形式的WCT风格转移。我们从神经风格迁移的角度分析了WCT的表现从分析中,我们表明为什么一些WCT,特别是ZCA,是很好的选择不同的WCT之间的风格转移,为什么其他一些WCT可能不适用于风格转移。在实验中,我们研究了五个自然的WCT,并表明ZCA,标准化ZCA和Cholesky分解的特征转换可以达到良好的风格转换结果,同时s c主成分分析和标准化主成分分析不太适用于风格比其他WCT方法的值更高,甚至可以阴性此外,表。图4.1显示,在每个示例中,ZCA和ZCA-std的tr(W−1(W−1)T)的值非常小。转移引用S c这与前面的讨论是一致的。这就是ZCA和ZCA-std的合成图像看起来几乎相同的原因此外,我们可以注意到,在每个示例中,对于Cholesky分解,tr(W−1(W−1)T)[1] 陈东东、卢远、廖静、余能海、刚华Stylebank:神经图像风格传递的显式表示。Proc.CVPR,第1卷,第4页,2017年。1[2] 田启晨和马克施密特。 基于快速补丁的样式s c任意风格的传递。arXiv预印本arXiv:1612.04337,位置方法的值略小于ZCA和ZCA-std,这意味着通过Cholesky方法的结果然而,图1中的可视化。1显示它们之间只有很小的差异;一个小但明显的差异是在铅笔素描的第三个例子中,其中Cholesky结果中的左侧部分更亮。总而言之,尽管有许多选择2016. 1[3] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。ICLR,2017。1[4] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在第28届计算机图形和交互技术年会的会议记录中,第341-346页ACM,2001年。14463[5] Leon Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络进行纹理合成。在Advances in NeuralInformation Processing Systems , 第 262-270 页 , 2015中。1[6] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集,第2414-2423页,2016年。一、二[7] Golnaz Ghiasi , Honglak Lee , Manjunath Kudlur ,Vincent Dumoulin,and Jonathon Shlens.探索实时、任意神 经 艺 术 风 格 化 网 络 的 结 构 arXiv 预 印 本 arXiv :1705.06830,2017。1[8] Aaron Hertzmann 、 Charles E Jacobs 、 Nuria Oliver 、Brian Curless和David H Salesin。形象类比。第28届计算机图 形学和 交互技 术年会 论文集 ,第 327-340页。ACM,2001年。1[9] Xun Huang和Serge Belongie。 实时任意样式传输,具有自适应实例规范化。2017年IEEE国际计算机视觉会议(ICCV),第1510-1519页。IEEE,2017年。1[10] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。1[11] Agnan Kessy、Alex Lewin和Korbinian Strimmer。光学白化和去相关。美国统计学家,72(4):309-314,2018。1[12] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络进行图像合成。在IEEE计算机视觉和模式识别会议论文集,第2479-2486页1[13] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成欧洲计算机视觉会议,第702施普林格,2016年。1[14] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.通过特征变换进行通用样式传递。神经信息处理系统进展,第386-396页,2017年。一二三四六[15] Yijun Li , Ming-Yu Liu , Xuting Li , Ming-HsuanYang,and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。arXiv预印本arXiv:1802.06474,2018。6[16] 李阳浩,王乃彦,刘嘉颖,侯小迪。揭秘神经风格转移。arXiv预印本arXiv:1701.01036,2017。1[17] Aravindh Mahendran和Andrea Vedaldi。通过反转它们来理 解 深 度 图 像 表 示 。 在 Proceedings of the IEEEconference on computer vision and pattern recognition,第5188-5196页,2015中。1[18] 埃里克·里瑟皮埃尔·威尔莫特和康奈利·巴恩斯使用直方图损失的稳定可控神经纹理合成和风格转移。arXiv预印本arXiv:1701.08893,2017。1[19] 卢胜,林紫怡,邵静,王晓刚头像-网络:通过特征装饰的多尺度零激发样式传递。在IEEE计算机视觉和模式识别会议论文集,第8242-8250页,2018年。14464[20] Dmitry Ulyanov,Vadim Lebedev,Andrea Vedaldi,and Vic- tor S Lempitsky.纹理网络:纹理和风格化图像的前馈合成。在ICML,第13491[21] Hao Wang , Xiaodan Lian
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功