没有合适的资源?快使用搜索试试~ 我知道了~
快速风格转换的灵活卷积求解器
1一种用于快速风格转换的灵活卷积求解器GillesPuyTechnicolor975 Avenue des ChampsBlancsF-35576Cesson-Se'vigne 'gilles. technicolor.comPatrickPe'rezValeo.ai15 Rue de laBaume F-75008巴黎patrick. valeo.com摘要我们提出了一种新的灵活的深度卷积神经网络(convnet)来执行快速的神经风格转换。我们的网络经过训练,可以近似但快速地解决[15]中任意风格的艺术风格转换问题。虽然解决方案已经存在,但我们的网络在设计上具有独特的灵活性:它可以在运行时被操纵以在最终输出上实施新的约束。作为例子,我们表明,它可以被修改来执行任务,如快速的照片风格传输,或快速的视频风格传输与短期的一致性,没有再培训。这种灵活性源于所提出的架构,该架构是通过展开[15]中使用的梯度下降算法获得的添加到[15]中以解决新任务的规则可以在我们的网络中即时报告,即使在训练之后。1. 介绍风格转移是一个长期存在的问题[12,23,38,13],最近已经通过深度convnets获得了令人印象深刻的结果。在[15]中,通过最小化由预训练的convnet提供的特征构建的损失来获得风格化图像。损失涉及两个方面:第一个保留一个图像的内容;第二个转移另一个图像的风格。这种方法的缺点是它的速度,因为风格化图像是长时间优化过程的结果。然而,这种方法是高度灵活的,因为可以操纵原始风格的传递损失,以引导解决方案朝向期望的结果。这种灵活性允许人们在风格转换期间控制感知因素[16]。它允许人们使用有利于时间一致性的正则化器来增加原始风格损失,以执行视频风格转移[40,41]。它还允许使用正则化器实现照片风格转换,使变换成为局部仿射[33]。这种灵活性是至关重要的,以构建一个工具,给予最大的自由,一个艺术家。因此,一个方法上的挑战是使[15]的方法更快,同时保持其大部分原始灵活性。因此,避免重新训练任何新的风格转移功能的人希望添加。所有快速求解[15]的方法都依赖于同一个原理:训练将自然图像作为输入的深度网络,以估计风格转移损失的最小值,从而获得输入的风格化版本。第一种快速方法[26,48]严重缺乏灵活性,因为每种风格都需要训练一个这一缺点在随后的工作中得到了部分解决,这些工作表明可以通过网络参数的一个小子集对风格进行编码最近的工作表明,有可能训练一个网络,该网络将任何一对绘画和内容图像作为输入,并产生一个风格化的图像,即使是在训练时没有看到的绘画[17,25,29]。因此,为快速艺术风格转换而训练的深度网络获得了越来越多的灵活性。然而,这些快速风格转换方法不如[15]的方法灵活,因为人们不能轻易地在其中插入新功能。例如,在网络架构和特定再训练的适应之后实现快速视频风格传输[5,20,24,41]。同样,[30]的作者不得不调整[29]的网络架构并重新训练它,使其能够快速传输照片风格。捐款. 为每个风格转换任务专门化网络是一项繁琐的工作。我们的主要贡献是提出一个新的灵活的网络,(a)训练以通过无监督学习针对任意风格快速解决[15]的艺术风格转移问题,以及(b)其可以在测试时被修改以考虑艺术风格转移损失的重要修改。这些修改不需要在训练时知道。在将它们添加到网络中时不需要这种高水平的灵活性源于所提出的网络架构,该架构具有[15]中使用的梯度下降算法的结构:对初始风格转移损失的修改像现有的方法一样,我们的网络产生快速可控的艺术风格转移结果,但不像他们,它可以用来执行其他几个任务,而无需重新训练。 这种灵活性使我们能够制作这张网-89638964ℓℓℓnS′Σ¨F F−ℓ¨工作执行照片风格传输速度比国家的最先进的方法,这构成了我们的第二个贡献。我们的第三个贡献是表明,我们可以在测试时引入一个正则化器来风格化视频,而不会受到闪烁伪影的影响。相比之下,现有的最先进的方法,像我们的,不是专门设计用于这个任务遭受闪烁,即使使用相同的正则化。作为网络灵活性的最后一个例子最后,让我们强调一下,与几个作品不同,我们训练网络时没有使用任何绘画作为风格,而是显示它与绘画的一般性。2. 其它相关工作在引言中讨论了视觉风格转换的相关研究。我们在这里讨论相关的作品,启发了我们的网络架构的设计。算法展开。广泛的经典迭代求解器相当于线性和分量非线性映射的重复应用。在固定次数的迭代上展开这样的算法允许人们将其视为具有共享的预定义权重的神经网络的若干层。这可以作为一个实际的、可训练的神经网络的起点。这个想法是由[19]在稀疏编码的背景下引入的:迭代收缩阈值算法(ISTA)[2]给出了用于快速近似稀疏编码的可学习网络(LISTA)。每一层都有独立的可训练权重,整个网络都是在监督下训练的。在线性逆问题的相关上下文中,包括压缩传感[3,36,37,34,52]和图像恢复在快速风格迁移中,最近的其他作品已经展示了这种范例的成功实例在[46]中,解决了有效的在不可压缩欧拉方程的经典求解器的每个时间步长内,压力场上的泊松方程的昂贵求解被训练的3D convnet代替。在这种情况下,损失等于散度平方范数。在另一个背景下,[45]学习一个复杂逆渲染问题的深度神经求解器在这两项工作中,训练的求解器提供了初始最小化问题的解决方案的良好近似,但与迭代求解器相比具有巨大在本文中,我们还建议学习一个复杂优化问题的无监督神经求解器,但遵循上面解释的展开原则。因此,其他人已经获得的加速并不是我们的主要贡献。更重要的是,展开方法提供了在运行时适应我们的网络的可能性,以便适应原始成本函数的重要变化3. 网络架构3.1. 通过梯度下降的风格转移风格转换是指将一幅具有n个像素和3个颜色通道的图像Xc∈Rn×3-转换为另一幅图像Xs ∈ Rn ×3的“风格”,同时保留Xc中的“内容”。 [15]《易经》中的“道”,是指“道”。使用从VGG-19获得的深度特征定义年龄[44]。然后,风格转移方法包括解决涉及这些深特征的最小化问题的在图像X ∈ Rn×3上进行最小化。我们表示[39,7,32,35,49,51],几个工程遵循这一联合国-由F,C∈R n×c且S∈Rn′×c<$在第二次世界大战中,滚动法在某些情况下,所有权重(绑定或未绑定)都是针对要解决的特定任务进行训练的,例如,[49]。在某些其它情况下,仅训练定义图像先验的权重,其它权重由要解决的问题的数据保真度项定义,[7]的文件。注意,根据这些逆问题的本质,完全监督是可能的:实际上容易获得要被反相的变换的输入-输出样本,例如,通过感应或人工VGG-19层的图像X、Xc和Xs。在[15]中,特征C编码Xc的内容,而Gram矩阵SS编码Xs的风格。因此,风格转移的损失最小化采取以下形式L(X)=Lc(X,Xc)+Ls(X,Xs),(1)哪里的内容损失Lc(X,Xc)=λ<$$> F−C<$2/(n c),其中λ<$>0,确保有损自然形象相比之下,我们的方法完全IccF无监督,作为其他快速风格转移的替代品。无监督神经求解器。 没有超级训练-将Xc的内容转移到最终图像(X·XF代表mafrobeniusnorm),而风格损失Ls(X,Xs)=λ<$L<$(X,Xs),其中视觉近似地解决复杂优化问题的(快速)前馈网络是一个具有挑战性的问题,重要的应用。 使用成本函数,∈IsL(X,Xs)=SS s¨1¨1⊺2ℓ¨1SS′ℓ(二)兴趣作为训练损失似乎很简单,但数额损失提供的实际指导必须足以使这种无人监督的训练取得成功。除了作品1我们考虑用户提供纹理示例以指导超分辨率算法的结果的设置。c并且λ λn> 0,确保Xs的风格转移到最终图像。我们使用Is={conv 11,conv 21,conv 31,conv 41,[2]为了便于标记,图像和特征映射的两个空间维度被展平为单个矢量维度28965ℓFfSnℓℓℓ(i) 在VGG-19中通过前向传递计算每个特征F_n(ii) 计算偏导数:Σ公司简介∝ℓ·ℓn ℓ FF−1SS′ℓℓΣ(5)图1.比较VGG-19的结构和我们的for-ward映射。(iii) 将该偏导数反向传播到输入以获得Δ LΔ;Σ(iv) 计算加权和<$Ls=λ<$$>L<$。∈ I sS s对于样式损失I c = { conv 5 1 },对于内容损失I c={conv 42},例如,[15]。通过从图像X(0)开始并通过梯度下降逐渐更新它以最小化损失L(1),可以获得风格化图像X(0)X(t+1)=X(t)−μL(X(t)),(3)其中μ >0是步长。虽然取得了令人印象深刻的结果,但这种方法仍然很慢,但convnets已被设计为以低得多的计算成本近似地最小化(1)[17,26,48]。3.2. 学习梯度下降,用于风格迁移3.2.1全球架构我们提出了一个新的convnet来实现快速的风格转移。其架构遵循梯度下降算法(3)的更新规则,其中实际梯度由学习的更新gt代替:我们通过模仿这4个步骤来构建gt,但是我们用一个新的convnet替换了原始的VGG-19,该convnet的过滤器经过训练,可以在N个学习更新中对任何自然图像进行为了简化符号,我们去掉迭代索引t- low。然而,我们强调,在我们的实现中,所有的过滤器在每次迭代t(untied weights)都是不同的。[变换步骤(i)]我们用新的特征f_(X),f_=conv 11,. . . ,conv 51(见图1)。①的人。 我们称每个f为前向映射,因为它取代了在VGG-19中向前传球对于涉及样式丢失的每个VGG-19层,我们都有一个对应的层。在这两种架构中,空间维度被连续减半,通道数量加倍(最后一层除外)。VGG-19在任何池化之前至少有一个额外的卷积在VGG-19和我们的网络中,信道的初始数量是64[变换步骤(ii)]该偏导数的计算可以通过用f(X)代替(5)中的F来变换X(t+1)=X(t)−g.X(t),XΣ, t = 0,. . . ,N −1,(4).f(X)·f<$(X)<$f<$(X)−ΣGSSH.(六)t sn′ℓℓℓ其中N是展开迭代的次数。请注意,所提出的网络可以被视为残差网络[22]。如果严格遵循展开的思想[19],gt的计算架构应该与ar相同建筑结构为了降低计算成本,然而,当我们使用(6)时,我们在训练中面临着突然的损失。我们怀疑这种效应是由于矩阵乘积f(X)f(X)f(X),因为它可以在推理和反向传播过程中放大大的值。因此,我们用我们允许我们自己一些简化。而梯度梯度材料L是由.f(X)· 1ΣGS S H(七)内容项和样式项,我们通过仅模仿Cumulus的计算架构来设计gt;因此,gt对(4)中的Xs的唯一依赖性然而,与[26]中一样,我们用RGB图像Xc初始化X(0),而不是梯度下降的经典随机初始化,并且我们在训练损失中使用完全成本L 这允许我们将X c的内容保留在最终图像X(N)中。3.2.2GT的架构gt应取代的梯度ε Ls由下式获得:4个步骤:ℓ′ℓℓℓℓℓ对于(6).学习的矩阵G、H降低了VGG-19风格矩阵SS的维数,使其与我们网络的通道维数兼容。矩阵GSSH,在图中称为风格过滤器2,控制应用于输入图像的样式此过滤器校正f(X),以便X的样式在(模仿)反向传播。通过计算选择样式图像的VGG-19特征,可以在运行时应用任何样式.让我们澄清一下,我们使用原始的预训练VGG-19来计算特征S。nℓn118966nS.图2.快速风格转换的一次学习迭代的结构特征S是样式图像的VGG-19特征,允许在运行时应用任意样式。学习矩阵G、H和所有卷积滤波器。参数L控制每层的通道数量和一次学习迭代中的滤波器数量。[变换(iii)]我们使用反向映射b来模拟反向传播。 每个b的结构与对应的映射f的结构对称。每个b都将层f处的偏导数(7)作为输入,并将其转换为针对该尺度的学习更新:g t的完整结构如图所示。2.所有卷积都是使用反射填充计算的。注意,(7)中用“ד表示的矩阵乘法.b1f(X)·GS SΣH.(八)ℓ′ℓℓℓℓℓ ℓ3.2.3与现有方法的请注意,在精确反向传播以计算ReLU时,应用的非线性不是ReLU,而是子梯度关于ReLU 类似地,我们在b语言中使用的非线性也是ReLU的子梯度。这些非线性具有以下形式B·h(ReLU(A))(见图其中,.我们的convnet架构从根本上不同于[26]和[11,17]等后续工作提出的架构。除了残留的架构,主要的区别在于对风格的控制:我们通过在每个尺度上独立地过滤特征来控制它,而风格由[11,17]中的实例归一化参数控制。我们的convnet架构共享更多的simi-h(ReLU(A))jc=h(A)jc=0,如果Ajc≤0,1,如果Ajc>0,(九)与[6,29,30]的相似性。虽然这些架构不模仿梯度下降算法的迭代过程其中j、c分别索引空间位置和特征信道。这种非线性的选择使我们能够获得比在f和b中使用ReLU时更好的结果,如通常在编码器/解码器架构中所做的那样。(see秒(五)。在反向传播过程中,梯度满足<$B·h(A)+B·<$h(A)=<$B·h(A),因为<$h(A)=0(下面处理0处的不连续性)。因此,梯度继续在A>0的地方流动。关于0处的不连续性,应该注意A是在卷积之后和ReLU之前A的任何值恰好为0的概率很低。如果发生这种情况,我们可以设置0)= 0.[变换(iv)]通过对风格损失中尺度I的学习更新(8)求和来Σ1Σg(X,Xs)= λ<$b<$ f <$$>(X)×G<$S<$S<$H<$. (十)因此,样式也通过过滤深层特征来控制。然而,我们注意到[29,30]需要矩阵求逆来进行风格转换,而我们的不需要。4. 资产重组在本节中,我们将解释如何在运行时重构网络,以在样式化图像上强制执行新属性。第5节给出了通过各种此类重构获得的结果。4.1. 风格损失Ls(X,Xs)的修正在[16]中,作者利用[15]方法的灵活性来控制风格迁移过程中的这样的控制是通过修改原始样式损失Ls来完成的。 由于我们的网络结构与因此,这些对L的修改可以被转移到sn′伊希斯在我们的网络中,在运行时,以系统的方式。它确实8967SSSSSCSℓnℓL我的宝贝美国足以研究这种变化的后果,并在我们的网络报告下面我们举三个例子在[15]的方法中,人们可以控制每一个在风格化过程中,通过调整(1)中的权重λ来这些权重的任何变化直接影响计算WTLs的步骤(iv)中的加权和。因此,我们可以通过使用公式10中的新λ值来控制网络中每个风格尺度的效果人们还可以希望混合不同风格的图像Xi,斯蒂湖isation 通过使用以下方法,可以在图[15,16]中实现Sucha混合:近似算子,推广投影算子,广泛用于优化[8]。注意,如果L和R是凸的,则上述算法将收敛到(13)[8]的解。在非凸情形下,上述算法在L和R上的某些条件下收敛到(13)的鞍点[1]。我们注意到(3)和(14)之间的唯一区别是:是每次梯度更新后PµR通过在我们的网络中复制此修改,更新(4)变为LsX,{Xi}=iαiLs(X,Xi),其中iαi=1,作为新的X(t+1)= PΣ。X(t)−g X(t),XΣΣ.(十六)风格缺失这个新损失的偏导数(ii)为使成为RT S.F·1 FF −1ΣΣ αS<$[ Xi] S[ Xi] 、(11)因此,我们能够在我们的正则化函数中添加任何正则化函数的效果网络运行时-没有任何再培训。 我们网络ℓnℓℓℓ伊什岛伊什塞吉继承了优化算法的灵活性。其中,S[Xi]表示图像Xi在第i处的特征,4.2.1照片风格转移S sVGG-19层通过传播这种修改,我们可以在我们的网络中混合不同的风格,方法是将(7)改为最小化(1)在样式是油漆时会产生良好的结果Σ1f(X)·G .ΣΣΣ αS<$[ Xi] S[ Xi]Hing. 不幸的是,结果不那么令人印象深刻,风格是一张照片,因为结果往往不是照片-′ℓℓℓ伊什伊什我。(十二)现实 为了解决这个问题,[33]建议支持跨-从内容图像到最终图像的形成,最后,人们可以用空间控制来改进上述风格的混合,通过将每个样式xi与内容图像中的不同区域相这是通过在风格损失中引入掩码来实现的令Mi表示第i个样式和第i个区域的第i层处的掩模。掩码样式损失满足都是局部仿射的这是通过在(1)中向L添加惩罚项来完成的,其变为L(X)+λLTr(X<$LX),其中L是X c的Matting Laplacian [28]。这个正则化可以很容易地通过(16)在我们的网络中集成,其中R(X)=λLTr(X<$LX)。注意,在这种情况下,PR(Y)=−1(I+2λL)Y.我们注意到[30]建议发布-¨¨2通过将其乘以ma来处理其网络的输出,ΣλℓΣ¨11?类似于(I+2λL)−1。在我们的网络中,这个过程-sé(MiF)(MiF)−S[Xi]S[Xi]?。L2¨ℓ ℓ∈ I s 塞 吉′这是F在每次学习更新之后,都要进行检查,就像在代理中一样。梯度法让我们强调另一个区别在我们的网络中传播这些变化后,spa-的临时控制权。通过将(7)改为与[30]:我们从来没有逆矩阵(I+2λLL)计算PR(Y).相反,我们使用计算效率高的方法n′−1Mif(X)·GS[Xi]S[Xi] H。图信号处理[43]。该方法详见补充材料。简而言之,它包括4.2. 添加新的调节器除了控制样式丢失之外,人们可以很容易地对解决方案施加额外的约束。事实上,让R(X)表示正则化器并用它来扩充(1):minL(X)+R(X)。(十三)X解决此问题的一种策略是使用近似梯度下降算法,其迭代满足nnn8968将PR(Y)的估计看作是在具有LaplacianL的图上对Y进行滤波。相应的滤波器可以用多项式逼近,从而导出一种快速的图滤波算法.这种图形过滤技术用于,例如,图上的高效小波分解[21],快速光谱聚类[47]或图上的深度学习[9]。4.2.2视频风格转移X(t+1)=PµRΣX(t)−µL.ΣΣX(t),(14)视频风格转换的挑战之一是确保时间一致性[40]的作者通过用正则化器增强(1)来解决这个问题,其中PµR是与R相关的近端算子:PµR(Y)∈ arg min 1 <$X− Y <$2+ µR(X)。(十五)X2F一致性这些调节器可以很容易地集成到我们的网络中。为了简单起见,我们考虑[40]中提出的短期一致性正则化器,并将自己限制在在线场景中:获得第(i+1)个风格化图像8969电视FR我c ci我Xc-Xsh-N :1 -L:64h-N :2 -L:64h-N :3 -L:64XcXs最多到con v21 最高可达co nv31 最高可达co n v41 最高可达co n v51L(X(N)):h-N :3 -L:160的情况。33±0。07h-N :3 -L:320的情况。27±0。06h-N :4 -L:640的情况。26± 0。06ReLU-N :3-L:64Xc&Xs×0. 2×0。6×1。0×1。4Xc,X1&X20的情况。2X1- 0 8X2 0的情况。4X1- 0 6X2 0的情况。6X1- 0 4X2 0的情况。8X1- 0 2X2s s ss s sss s s0的情况。29±0。070的情况。27±0。060的情况。24±0。050的情况。27± 0。06Xc-XsReLUhXc-XsReLUh图3.选择N、L和非线性(h(·)或ReLU)的影响。样式显示在内容图像的左下角。第一和第二行:在1000对验证图像上实现的平均LTV(±标准差)显示在每个模型下方。第三行:使用图4.在运行时可以选择样式比例(顶行)、全局样式强度(中间)和样式混合。使用的样式显示在内容图像的底部角落(第一列)。观察到低分辨率纹理和解决方案。这个最小化问题的解决方案可以使用我们的训练网络通过更新(16)快速估计,从h(·)或ReLU(N=3,L=64)。X(0)=XBIC. 注意,P R的计算可以估计,X(i+1),而X(i)是预先计算的。设wi(·)为原函数的函数,通过,例如,梯度下降让我们承认,这个应用程序的灵感来自于[42]其中皮肤纹理的分辨率通过使用将X(i)映射到X(i+1)上,并且M二进制掩码指示-这样高分辨率纹理的数据库。在这种扭曲有效的地方(去除不遮挡,如[40]中的运动边界)。 第(i+1)个程式化的im-年龄可以作为(13)的解使用R(X)=5. 风格转移实验5.1. 培训¨λR?i?(wi(X(一)¨2)-X)<$,其中,<$是逐点的乘法这个问题的解决方案可以估计如[26]中所做的那样,例如,我们用To来增加L通过更新快速使用我们训练的网络(16)。语音变体(TV)规则化和使用Nt=1 LTV(X(t)),邻近算子PR计算速度快,满足其中LTV(X)= L(X)+ λTVTV(X)作为训练损失。的PR(Y)=ΣY+ 2λRM2ωwi(X(i)I+2λM2电视规则化有利于X(N)的视觉X(t)的像素值其中按元素计算逆。4.2.3用户引导纹理超分辨率我们考虑在用户引导的场景中放大低分辨率纹理X低的问题首先,用户提供他判断类似于Xlow的纹理的高分辨率图像Xref。然后,我们利用两个相似纹理具有相似VGG-19 Gram矩阵[14]这一事实,利用此信息来放大Xlow这是通过最小化Ls(X,Xref)来完成的,其中X是我们优化的图像,用于放大X低。我们还力求尽量减少8970在eval之前在0和1之间剪切损失的评估使用Xavier初始化所有过滤器初始化[18],并使用Adam [27]在2014 MS-COCO训练数据集上以2·10−5的步长进行训练[31]。训练图像被集中裁剪为最大可能的正方形,并调整为320×320。在每次迭代中,随机绘制两个图像:第一个是作为一个骗局,帐篷形象,第二个作为风格形象。在[0,0. 1)在每次迭代时添加到两个图像。请注意,与艺术风格转换的几个作品不同,我们因此没有在任何绘画上训练我们的网络。 我们R(X)=λR<$X-DXB2,其中D模拟下-使用λconv4 2=0。02,λTV=0。3,λ=β/α,其中低FP100022s采样算子,以确保解α=εSε Sε/(c2n′)和βε是独立的值域,∈IsX 低。 总的来说 ,我们 提出求解minXLc (X ,Xbic)+Ls(X,Xref)+R(X)。图像Xbic表示Xlow的双三次上采样版本,并且项Lc(X,Xbic)充当第二正则化器,确保X low的双三次上采样版本之间的一致性。dom变量的值为0或0。9- 1概率为0 9为后者。标准化α有利于风格之间视觉上相似的风格化变量β允许我们通过公式10来理清每种风格尺度的影响,8971[15][25][29]第一次世界大战期间,美国的军事行动LTV(X):0. 1070. 2350. 2540. 210LTV(X):0. 0790. 2880.2500217LTV(X):0的情况。1310的情况。2080的情况。216 0. 225LTV(X):0的情况。1360的情况。2770的情况。2910的情况。233XcXs[33个][30个]我们XcXs[33个][30个]我们图5.上图:使用[15,25,29]和我们的方法获得的艺术风格迁移结果。在每个图像下方报告了实现的损失LTV(X)。底部:使用[33,30]和我们的方法获得的照片级真实感风格转移结果。最终的结果。在每次迭代中绘制新的β-ε5.2. 建筑研究我们在Fig. 3艺术风格转移结果为7在30个时期内训练的不同网络:N=1,2,3,4L=64,L=16,32,64,N=3。我们注意到,当N和L都增加时,风格化在视觉上得到改善当这些参数增加时,从2014MS-COCO验证集获取的超过1000对内容和样式图像的平均损失也有所改善。最后,当使用经典的ReLU解码器作为后向映射时,我们图中的备注。3个椭圆体结构和白色伪影覆盖在结果上。我们假设与h(·)的逐点乘法迫使网络更好地保留内容图像的轮廓和边缘,避免这些寄生结构的存在这些伪影出现在训练网络的任意风格,但不存在时,使用几个固定的风格。对于所有剩余的实验,我们固定N=4,L=64,并训练这个网络50个epoch。5.3. 快速艺术风格转换为了说明我们的网络至少与现有技术的解决方案一样灵活,我们在图中呈现。4的结果,我们控制,在运行时,风格尺度的数量,全局风格强度,以及我们混合不同的风格。这个形象。质量,我们的结果是类似的国家的最先进的方法。定量地说,[15]的方法达到了LTV(X)的最低值,所有的快速方法都得到了类似的值。第二个最好的值,大多数时候,是由我们的网络获得的,但这是预期的,因为它被训练成最小化LTV(而其他人不是)。5.4. 快速照片风格传输。照片风格转移结果与[30,33]和我们的方法在图中给出。5.我们对所有的λ和λL=50使用βλ=1。我们实现了与替代方法相似的视觉质量的风格化。然而,没有一种方法可以避免伪影。我们的结果中的颜色有时是“ 扁 平 的 ” , 在 [30] 中 也 很 明 显 。 这 是 由 于 mattingLaplacian滤波:因此,在内容图像中相似并且被稍微不同地风格化的相邻区域最终被平均。所有方法都将受益于更好的过滤器/正则化。在Nvidia Tesla P100 Pascal GPU上测量的平均计算时间报告如下。在所有分辨率下,我们的方法比[30]的方法快近两倍(列“使用拉普拉斯算子”)。这一优势主要归功于图形过滤技术。在两种方法中重新移动涉及抠图拉普拉斯算子的任何处理之后(因此去除了真实感先验),我们的方法仍然是最快的,除了在最高分辨率下:我们在Fig.5艺术风格转移结果ob-关于Laplacian没有拉普拉斯算子与我们的网络联系起来,并将它们与[15,25,29]。我们对所有的ε都使用βε=1。对于[15],我们最小化决议256 ×128[30个]0.79我们0.44[30个]0.20我们0.048972LTV(X)使用以Xc初始化的L-BFGS算法,512 ×2563.121.860.230.11因为我们的网络经过训练,1024 ×51215.238.110.340.378973[30]第29话:我的世界GroundtruthXrefSRCNN[10]Ours-NotguidedOurs-Guided地面实况Xre fSRCNN[10]我们的-不被引导我们的-被引导PSNR - SNR Gram25.5 dB - 4.75 dB28.7 dB- 6.26 dB26.5 dB -16.5 dBPSNR - SNR Gram28.1 dB - 6.45 dB32.6 dB- 8.67 dB32.1 dB -10.9 dB图6.顶部:用[29]或[30]风格化的两个视频序列的帧,以及我们使用时间正则化的方法。样式将显示在原始帧的左下角。底部:使用用户提供的纹理X参考(地面实况图像的左下角)获得的纹理超分辨率(两个方向均为× 3)。在每个结果下面提供了重建图像和地面实况图像之间的PSNR以及相同图像的VGG-19 Gram矩阵放大时可以更好地查看结果5.5. 视频风格转移。我们在Fig.6视频风格传输结果。我们将我们的方法(包括短期一致性)与[29]用于艺术风格转移和[30]用于照片风格转移的方法进行了比较。 我们使用来自MPI Sin- tel数据集[4]的视频进行艺术风格转移。为了加强照片真实感和短期一致性,我们组成了相应的近端操作简单。使用Deep-Flow [50]预先计算图像之间的光流,但可以使用任何快速流量估计方法。我们使用λR=0。三十七补充材料中提供了录像。我们注意到[29,30]获得的视频中的闪烁伪影。由于短期一致性规则化,我们的方法减少了这种闪烁。人们可以争辩说,也可以对[29,30]的结果应用时间一致邻近算子。这确实减弱了闪烁。然而,补充材料中提供的视频表明,我们的结果比[29,30]的后处理结果呈现更少的闪烁。图6,在[29]获得的视频中的主要人物的头发上以及在[30]获得的视频中的天空中更好地注意到时间一致性的缺乏最后,我们承认,对于[29,30]和我们的方法,风格化本身是完全不同的(即使没有使用时间一致性邻近算子)。5.6. 用户引导纹理超分辨率我们在Fig.6个用户引导的纹理超分辨率下采样算子D由大小为17×17的高斯滤波器组成,其中σ=3,随后是使用步幅3进行下采样。请注意,我们只处理亮度。颜色仅用于可视化。我们提出了使用SRCNN [10]获得的结果,我们的方法使用β=0用于所有-因此不是用户指导的-并且对于完整的方法,β = 1用于= conv1 1,conv 2 1,conv 3 1,conv 4 1,β conv 5 1 = 0。我们设λR= 50。我们测量重建图像和地面真实图像之间的PSNR以及相同图像的VGG-19 Gram矩阵之间的SNR(因为这些矩阵对于相似的纹理是相似的[14])。我们的方法比SRCNN更好这可能是因为SRCNN是专门针对双三次下采样训练的,而我们使用的是步幅高斯滤波。关于我们的研究结果,类似的PSNR达到和没有用户输入,但与用户输入的Gram矩阵之间的SNR因此,我们获得了一个更好的重建的整体纹理,即使不是像素准确。在视觉上,我们的方法与用户指导允许提高高频。6. 结论我们提出了一种新的深度,全卷积网络,用于快速艺术风格转移,具有关键优势:它可以在运行时被重构以合并艺术风格转移损失的重要修改。由于该属性,可以比最先进的方法更快地执行照片风格传输、视频风格传输而不遭受闪烁伪影以及用户引导的超分辨率,所有这些都无需重新训练。我们在补充材料中提供了额外的结果并讨论了该技术的一些局限性8974引用[1] HeddyAttouch,Je'roRummeBolte和BenarF. Sv aite r. 半代数和驯服问题的下降方法的一致性数学课程。,137(1- 2):91[2] Amir Beck和Marc Teboulle。线性反问题的一种快速迭代收缩阈值算法。SIAM J. on Imaging Sci. ,2(1):183[3] Mark Borgerding,Philip Schniter,and Sundeep Rangan.AMP启发的深度网络用于稀疏线性逆问题。 IEEETrans. 信号处理,65(16):4293-4308,2017。[4] 放大图片作者:Daniel J. Butler,Jonas Wulff,Garrett B.Stanley和Michael J.黑色.一个用于光流评估的自然开源电影。欧洲计算机视觉会议(ECCV),第611-625页,2012年[5] 陈东东,廖静,卢远,余能海,华刚。连贯的在线视频风格转移。在IEEE国际计算机视觉会议(ICCV)中,第1114[6] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank:神经图像风格传递的显式表示。在IEEE计算机视觉和模式识别会议(CVPR),第2770-2779页[7] Yunjin Chen和Thomas Pock。可训练的非线性反应扩散:一个灵活的框架,快速有效的图像恢复。IEEETransactionsonPatternAnalysisandMachineIntelligence,39(6):1256[8] 帕特里克湖康贝特和让-克里斯托夫·佩斯凯。《科学与工程,信号处理中的邻近分裂方法一章,第185-212页。最优化及其应用Springer。Springer New York,2011.[9] MichaeülDefferrard,XavierBresson,andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统进展,第3844-3852页,2016年[10] Chao Dong , Chen Change Loy , He Kaiming , andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在European Conference on Computer Vi-sion(ECCV),第184-199页[11] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。在2017年国际学习代表会议上[12] Alexei A. Efros和William T.弗里曼。图像绗缝纹理合成和转移。计算机图形和交互技术会议(SIGGRAPH),第341-346页,2001年[13] Oriel Frigo , Neus Sabater , Julie Delon , and PierreHellier. Split and match:基于示例的自适应补丁采样,用 于 无 监 督 样 式 传 输 。 在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,第553-561页[14] 作者:Leon Gatys,Alexander S. Ecker,and MatthiasBethge. 使用卷积神经网络进行纹理合成在Ad-神经信息处理系统(NIPS),第262-270页,2015年。[15] 利昂·A Gatys,Alexander S. Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议中,第2414-2423页[16] 利 昂 ·AGatys , Alexander S.Ecker , Matthias Bethge ,Aaron Hertzmann,and Eli Shechtman.神经风格迁移中知觉因素的控制。在IEEE计算机视觉和模式识别会议(CVPR)中,第3730- 3738页[17] Golnaz Ghiasi , Honglak Lee , Manjunath Kudlur ,Vincent Dumoulin,and Jonathon Shlens.探索实时、任意神经 艺术 风格 化网 络的 结构。英国 机器 视觉 会议(BMVC),2017年。[18] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。国际人工智能和统计,第9卷,第249-256页,2010年[19] Karol Gregor和Yann LeCun。学习稀疏编码的快速近似。国际机器学习会议(ICML),第399-406页,2010年[20] 阿格里姆·古普塔,贾斯汀·约翰逊,亚历山大·阿拉希,李菲菲.表征和提高神经风格转移的稳定性。在2017年IEEE计算机视觉国际会议(ICCV)上,第4087-4096页[21] D a vidK. 哈蒙德,皮埃尔·范·安尼斯特,雷米·格里邦瓦尔.基于谱图论的图上的小波。应用计算哈蒙Anal. ,30(2):129[22] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)中,第770-778页[23] 放大图片作者:Charles E. Jacobs,Nuria Oliver,BrianCurless , andDavidH. 销 售 形 象 类 比 。 在ConferenceonComputergraphicsandinteractivetechniques(SIG-GRAPH)中,第327-340页[24] Haozhi Huang , Hao Wang , Wenhan Luo , Lin Ma ,Wenhao Jiang,Xiaolong Zhu,Zhifeng Li,and Wei Liu.视频的实时神经风格传输在IEEE计算机视觉和模式识别会议中,第7044- 7052页[25] Xun Huang和Serge Belongie。实时任意样式传输,具有自适 应实 例规范 化。 在IEEE国际 计算 机视觉 会议(ICCV)中,第1510-151
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功