伪优化器实现快速纹理合成

74 浏览量更新于2023-10-25 收藏 15.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

wu.shi@siat.ac.cnyu.qiao@siat.ac.cn x Δx x Δx54980通过伪优化器实现快速纹理合成0吴石乔宇深圳先进技术研究院-商汤联合实验室，中国科学院深圳先进技术研究院，深圳人工智能与机器人研究院0摘要0使用深度神经网络进行纹理合成可以生成高质量和多样化的纹理。然而，它通常需要一个繁重的优化过程。以下工作通过使用前向网络加速该过程，但以可扩展性、多样性或质量为代价。我们提出了一种新的高效方法，旨在模拟优化过程，同时保留大部分特性。我们的方法以噪声图像和描述符网络的梯度作为输入，并根据目标图像合成出一个精细的图像。与其他快速合成方法相比，我们提出的方法可以合成出更好质量和多样性的图像。此外，我们的方法在大规模数据集上训练，可以推广到合成未见过的纹理。01. 引言0Gatys等人的开创性工作[5]可以根据示例图像生成高质量和多样化的纹理图像。他们的关键思想是通过使用迭代优化过程将合成图像的统计信息与参考图像匹配。参考统计信息是通过在识别任务上训练的描述性网络提取的。这个过程需要多次根据描述性网络的梯度信息修改合成图像，直到它足够接近参考统计信息。即使使用现代GPU，合成一个中等大小的图像通常需要几分钟的时间。后续的几项工作[21, 13, 10,14]提出了加速推理过程的方法，但以可扩展性、多样性或质量为代价。[21]训练一个前向网络，在合成图像上施加纹理损失[5]，以合成单个目标纹理。主要缺点是训练的网络除了训练中使用的纹理外，无法生成新的纹理。[13]设计了一个带有条件标签的深度神经网络来合成0梯度纹理损失0L-BFGS或Adam0梯度0伪优化器0n步0纹理损失0一步0图1.我们提出了一个前向框架，伪优化器，用于在一步中模拟[5]的优化过程。0以用户可控的方式调整尺寸多个纹理。这种方法极大地扩展了合成网络的可扩展性。然而，这种方法不能像[5]那样在线生成新的纹理。[10]提出使用自适应实例标准化来进行快速任意风格转换。在这种方法中，输入图像的激活被标准化，然后通过参考图像的统计数据进行缩放和平移。因此，参考图像可以在推理时自适应地插入。在风格转换任务中，它表现出良好的泛化能力。WCT[14]进一步将线性变换扩展为白化和着色变换的组合。该方法从特征中计算协方差矩阵，并使用SVD分解计算变换矩阵。这不适合在GPU上计算。我们注意到他们方法的共同思想是通过变换网络将信息从输入图像转换为参考图像。0我们将快速前向方法的思想融入基于优化的方法中，提出了一种名为伪优化器（PO）的新型快速纹理合成框架。在我们的框架中，[5]的优化过程通过训练一个前向网络将梯度信息映射到最优解来简化为一个预测问题（图3）。我们对优化过程进行了仔细研究。54990优化过程的计算路径，并得出结论，该过程可以通过前馈网络和一些取决于优化器选择的算术运算来实现。将迭代优化算法展开为前馈神经网络已经在压缩感知领域中使用[7，24]。由于神经网络被认为是良好的通用逼近器[20]，我们用可学习的网络替换优化过程的反向部分，并训练网络来近似迭代优化过程。我们的方法具有以下优点：0•高效。大量的迭代优化步骤被替换为所提出网络的单次前向传递。推理时间从几分钟减少到每张图像小于0.1秒。网络是完全卷积的，在训练后可以生成任意大小的图像。0•自适应。我们的方法设计为自我监督的，并且可以从大规模数据集中进行学习。目标纹理在推理阶段像Gatys等人的方法一样以在线方式集成。0•多样性。我们设计了一种增量学习机制，使模型难以记忆每个目标图像，从而产生多样化的结果。我们进一步提出了一种渐进式架构，以鼓励合成结果的局部性。0我们进行了大量实验证明了我们框架的有效性。与缓慢的基于优化的方法相比，所提出的网络可以在几乎实时生成视觉上令人满意的结果。定性和定量结果表明，我们的方法在质量、多样性和可扩展性方面优于其他快速纹理合成方法。代码可在https://github.com/swift-n-brutal/syntex获得。02. 相关工作0传统方法在许多传统方法中，纹理合成被定义为从概率分布中进行采样的问题。Heeger和Bergen[9]通过改进随机噪声图像以匹配图像金字塔中滤波器响应的直方图。Simoncelli和Portilla[17]使用小波系数的一阶和二阶统计量来建模纹理。这些方法的主要缺点是表达能力有限。Zhu等人[27]基于滤波器响应上的马尔可夫随机场构建纹理模型，并使用Gibbs采样合成纹理。Efros和Leung[4]提出了一种顺序模型，通过基于合成像素和马尔可夫随机场模型的像素逐个合成。[3]改进了先前的方法。0通过一种称为图像拼接的过程来合成纹理。尽管这些方法可以产生良好的结果，但由于收敛困难或顺序合成过程的缘故，它们的推理时间是臭名昭著的长。0基于优化的方法最近，Gatys等人[5]提出了一种成功的纹理合成方法，通过将合成图像的统计数据与参考图像进行匹配。他们从一个白噪声图像开始，逐步使用迭代优化方法对图像进行改进，直到与参考统计数据足够接近。在相同的思想下，[1]将长程一致性统计数据纳入目标函数，并生成具有特定空间结构的纹理。[19]通过匹配高斯金字塔的不同尺度上的统计数据来合成优质高分辨率纹理。[23]使用直方图损失来合成纹理，并使优化过程更加稳定。citesendik2017deep引入了结构能量来捕捉自相似性和规律性。所有这些方法都有一个共同的缺点，即需要耗费大量的时间和内存进行优化。0高效方法随后的几种方法[21，13，10，0[ 5 ]的推理过程加速的方法有[ 14 , 25 ]。[ 21 ]将纹理损失[5]施加在前馈网络的输出上。该网络被训练成将不同尺寸的一组噪声图像映射到纹理图像。[ 25]提出了一种对抗性扩展方法来合成非平稳纹理图像。缺点是训练的网络只能合成与训练中使用的纹理类似的纹理。[ 13]设计了一个带有条件标签的深度神经网络，以用户可控的方式合成多个纹理。他们提出了选择单元和增量学习算法，极大地扩展了合成网络的可扩展性。此外，他们引入了多样性损失以防止网络发生模式坍塌[ 6]。然而，他们的方法无法生成训练数据集之外的新纹理。在与纹理合成密切相关的风格迁移领域，[ 10]提出使用自适应实例归一化来进行快速任意风格迁移。它为风格和域转换的许多自适应方法提供了灵感[ 11 , 15]。WCT [ 14]将线性变换进一步扩展为协方差矩阵上的白化和着色变换的组合。他们方法的共同思想是使用变换网络将信息从输入图像变换到参考图像。为了使我们的框架也具有自适应性，我们使用纹理损失的逐层梯度作为变换的信息。0将优化算法展开为前馈神经网络G(1)G(2)G^(1)G^(2)G^(3)G(3),55000已经应用于压缩感知[ 7 , 24 ]和图像处理[ 16]领域。这些基于网络的方法的一个优点是它们不需要迭代过程。这有效地减少了与基于优化的方法相比所需的时间。由于神经网络被认为是良好的通用逼近器[ 20]，我们用可学习的网络替换了Gatys等人方法的反向部分，并训练网络来近似迭代优化过程。03. 方法0纹理合成旨在从示例纹理中推断出一个生成模型，然后可以合成与给定纹理类似的新图像。基于优化的方法可以生成高质量和多样化的图像，但需要很长的推理时间。我们提出将优化过程简化为通过训练一个前馈网络，将目标函数的梯度映射到最优解的预测问题。这样，优化可以在单次前向传递中完成。逻辑流程如下所示。我们首先在第3.1节中回顾使用CNN的基于优化的方法，然后在第3.2节中分析将优化循环展开为前馈网络的可行性。在第3.3节中，我们精心设计了一个名为Pseudo Optimizer(PO)的新型前馈网络，以模拟优化过程。该网络以纹理损失的梯度信息作为单个目标图像的输入，并预测对输入图像的修改方向。在第3.4节中，我们通过简单地在一组不同的目标图像上对其进行训练，引入了自适应扩展(AdaPO)到PO网络。我们通过说明它与AdaIN和WCT的关系来解释“自适应”的合理性。在第3.5节中，我们提出了一个渐进模型(ProPO)，它由多阶段的改进组成，是一系列AdaPO网络。每个子网络都有独立的参数和不同的目标。渐进架构提高了结果的质量和多样性。03.1. 使用CNN进行纹理合成0[ 5]的作者将纹理合成简化为从与示例纹理图像的空间摘要统计匹配的图像集合中进行采样的问题。他们使用VGG19网络[18]，这是一个在对象分类上训练的卷积神经网络，用于提取一组强大的描述性特征激活：{ F ( l ) ∈ R N ( l ) × C ( l ) } L l=1，其中 ( l ) 是层的索引，N ( l ) 是空间维度，C ( l ) 是层( l ) 中的通道数。摘要统计由相关性定义，即Gram矩阵1 G( l ) ∈ R C ( l ) × C ( l )，之间的相关性。01符号与原始论文中的符号不同。这里我们使用归一化的Gram矩阵来抵消图像尺寸的变化。0VGG0VGG0输入0目标0梯度0优化器0前向信号0反向信号Adam/L-BFGS0输入Gram矩阵0目标Gram矩阵0L2损失0图2.使用CNN[5]进行纹理合成。架构和参数主要设计用于前向使用，因此可能不适用于高效的纹理合成。在第3.3节中，我们用可学习的网络替换了反向信号（红色箭头），以一步合成。0不同特征的响应：0G(l)ij = 0N(l)0k ∈ [N(l)] F(l)k,i F(l)k,j, i, j ∈ [C(l)]. (1)0给定示例图像˜x，他们将生成过程视为通过求解优化问题来实现0arg min x ∈X Ltex(x, ˜x; [L]) =0Ltex0l = 10||G(l)(x) - G(l)(˜x)||20(2)其中X是图像空间，[L]表示参与计算的层的集合。目标函数Ltex通常被称为相关工作中的纹理损失。在实践中，使用局部优化方法（例如Adam [12]和L-BFGS[26]）来改进生成的图像。具体来说，初始图像从噪声分布x�Z中采样，优化器根据当前（和/或历史的）梯度∂Ltex/∂x迭代地改进图像x。优化步骤通常重复数百次，以得到高质量的纹理图像。POVGG Input Delta Feature mapLossGradientConvolutionResblock x rNN upsample + convElementwise addTarget Gram.(3)55010通常合成一张256x256的图像需要超过一分钟的时间，这对于快速纹理合成应用来说是不可接受的。03.2. 展开优化循环0将迭代优化算法展开为前馈神经网络的想法已经应用于压缩感知领域[7,24]。在本小节中，我们从概念上证明了使用神经网络中的常见组件展开[5]的优化过程的可行性。为了合成单一纹理，目标Gram矩阵在优化过程中被计算一次并固定。在图2中，虚线框中包围着有效的优化循环。前向信号通过调整后的VGG网络[5]传递，以计算等式2中给出的纹理损失。该网络由几个卷积层后跟ReLU层组成，并且偶尔使用平均池化层进行下采样。反向信号（红色箭头）可以分为两部分：（1）计算损失相对于输入的梯度，以及（2）使用优化器来改进梯度。对于（1）中的操作，∂Ltex/∂F(l)是一系列矩阵-向量乘法，可以通过一个1x1卷积层来实现。卷积层的梯度是一个具有共享参数的转置卷积层。ReLU层的梯度是一个门控层，平均池化层的梯度是一个具有常数乘法器的平铺（或最近邻上采样）层。因此，（1）的计算可以通过一个前馈网络来实现。对于（2），它取决于优化器的选择：0• Adam[12]是一种仅使用一阶梯度的高效优化方法。该方法保持梯度的逐元素均值和方差的移动平均统计，并为每个参数计算自适应学习率。计算可以通过使用基本算术运算按照公式进行。0• L-BFGS[26]是一种拟牛顿优化方法。它维护梯度和更新的历史记录，并通过历史信息调整新步骤的方向。大多数操作是向量的内积和基本算术运算。唯一棘手的部分是需要试错的线搜索步骤，这可以通过条件循环来实现。有关详细讨论，请参阅补充材料。0因此，优化步骤可以概念上通过一个前馈网络来实现，其中还包括一些与优化器相关的附加算术操作。优化过程只是重复数百次的步骤，最终得到一个长的计算图。0图3.伪优化器（PO）。我们的方法旨在使用前馈网络模拟优化过程。PO模块以从描述性网络（VGG19）计算得到的每层梯度作为输入，并预测改进输入图像的变化。所使用的更新器只是逐元素相加。03.3. 伪优化器0展开优化循环只是提供了一种以前馈方式解释迭代算法的方法。然而，计算时间保持不变。减少计算时间的一种方法是限制展开的迭代步数，但这是以质量为代价的。我们观察到梯度的计算与描述性网络紧密耦合，描述性网络主要用于在前向方向上进行训练，因此可能不适合高效的纹理合成。我们精心设计了一个名为伪优化器（PO）的新的前馈网络来模拟优化过程。架构如图3所示。PO网络重用描述性网络的前向部分（图2中的黑色箭头）提取梯度信息，并用可学习的网络替换后向部分（图2中的红色箭头）。具体来说，它以纹理损失（2）的每层梯度作为输入，并预测输入图像的像素级修改∆x：0∆x = PO0�� ∂ L tex ( x, ˜ x; [0∂F(l)(x)0� L0l=10�0我们将右侧的函数简写为PO[L](x,˜x)。由于神经网络被认为是良好的通用逼近器[20]，我们可以训练网络输出（2）的最优解。然而，这在实践中是不可行的，�n∼ Zx[0]PO[1]Target x~VGG stage 1PO[2]x[1]VGG stage 2PO[3]x[2]VGG stage 3x[3]VGG fullS[3]S[2]S[1]L1n(10)55020因为每个噪声输入可能对应不同的局部最优解，并且计算最优解需要太长时间。因此，我们不是为每个输入寻找局部最优解，而是通过再次将纹理损失应用于输出并训练网络PO[L]来使修改后的图像接近于（2）的最优解，以最小化以下目标：0S[L](˜x) � Ex�ZLtex(x + ∆x, ˜x; [L])。 (4)03.4. 自适应伪优化器0原始的基于优化的方法[5]是一种完全自适应的方法。也就是说，目标纹理图像可以是任意图像，并且不需要在模型之前看到。为了使我们的PO网络成为一种自适应方法，网络的输入，即每层梯度，需要足够描述性。接下来，我们讨论我们的方法与自适应实例归一化的关系，自适应实例归一化是自适应纹理合成和风格迁移的关键组成部分。0与自适应实例归一化的关系自适应实例归一化（AdaIN）广泛应用于快速自适应纹理合成和风格迁移[10,14]。基本上，网络中某一层的激活被归一化，然后通过目标图像˜x的统计信息进行转换：0F（out）k，i=0σ 2 i（F） + �（F k，i − µ i（F）） + µi（˜ F），（5）0其中 F := F（x），˜ F := F（˜ x），µ i 和 σ 2 i是实例-通道均值和方差。WCT[14]进一步将线性变换扩展为白化和着色变换的组合。它们的共同思想是通过变换将信息集成到从输入域到目标域的变化中。我们的方法使用每层梯度作为这样的信息：0∂ 0∂F（l）k，∙（x）= 40N（l）0� G（l）（x） − G（l）（˜ x） �F（l）k，∙（x），（6）0变换矩阵由输入和目标Gram矩阵之间的差异定义，带有一个常数乘法器。通过使用一组目标图像 { ˜ x i } n i = 1，训练自适应伪优化器（AdaPO）非常简单。训练目标定义如下：0S [ L ] ada（{ ˜ x i } n i= 1 ） � 10i = 1 S [ L ] (˜ x i)，（7）0图4. 渐进式伪优化器（ProPO）。实际阶段数为5。为了节省空间，我们在此图中只绘制了3个。03.5. 渐进式伪优化器0我们进一步提出了一种渐进式架构（图4）来训练稳定性和多样化的结果。渐进模型（称为ProPO）由多阶段的细化组成。在第一阶段，PO网络接受噪声输入 x [0]并使用第一级纹理损失来细化输入图像。在接下来的阶段中，逐渐添加更高级别的纹理损失到目标中，PO网络细化前一阶段的输出。形式上，中间图像定义为：0x [0] � Z（噪声分布），（8）0x [ m ] = x [ m − 1] + PO [ m ]（x [ m − 1]，˜ x），1 ≤ m ≤ L，（9）0并且 x [ L ]被视为最终输出。我们对中间结果施加与输入梯度级别相对应的纹理损失。最终的目标函数是所有阶段的纹理损失的平均值：0S [ L ] pro（{ ˜ x i } n i= 1 ） � 10m = 10i = 1 E x [0] � Z L tex（x [ m]，˜ x i；[ m ]）。04. 实验04.1. 实验设置0数据集我们从互联网收集了一个由47个花卉图像组成的小数据集，用于说明目的，并对该数据集进行了一些初步实验。此外，我们使用了Describable Texture Dataset[2]（DTD），这是一个更大的数据集，用于测试我们方法的鲁棒性和可扩展性。该数据集包含47个纹理类别，每个类别包含120张图像。我们将图像的最短边缩放为256，并从图像中随机裁剪和翻转补丁进行数据增强。0基准我们总结了相关基准方法的属性，见表1。TextureNet[21]用于合成单一纹理，不适用于多个或自适应合成。AdaIN [10]用于紧密合成̸where F (div) is the feaVGG19 network. Following their setting, we synthesizeb = 5 images for each texture and compute the diversityloss for each method respectively. The numeric results arelisted in Table 2. We can see that our method generallyoutperforms the other two fast feed-forward methods. Thequalitative results are shown in Figure 7. Our synthesizedtexture images present richer diversity in both coarse andﬁne details. For validating the robustness and scalability,we train our method with the same structure on DTD. Thetraining data size increases from 47 to 5760. All of the threemethods have a raise in the texture loss. Our method still55030方法速度可扩展性0Gatys等人[5]慢任意TextureNet[21]快单一MultiTexture[13]快多个AdaIN [10]快任意WCT[14]快任意PO（我们的）快任意0表1.纹理合成方法在速度和可扩展性方面的比较。'单一'表示网络被训练用于合成单一纹理。'多个'表示网络被训练用于合成一组固定的纹理。'任意'表示网络完全自适应并能够在线合成。0相关任务，风格迁移。尽管他们的模型可以适应噪声图像的迁移，但我们发现他们合成的纹理不令人满意，因此将他们的模型从我们的基准中排除。在第4.2节中，我们主要比较Gatys等人[5]、MultiTexture[13]、WCT[14]和我们的方法的性能。我们使用可以从互联网上公开下载的基线项目进行实验。0训练细节。按照[5]的设置，从VGG19网络的conv1_1、pool1、pool2、pool3和pool4层中提取了五个级别的特征图。我们将它们从1到5进行编号，并为所有模型设置L=5。PO网络的架构如图3所示。每层梯度首先通过两个卷积层和r=2个残差块[8]，然后上采样以匹配下一个特征图的大小。我们使用最近邻上采样，然后是一个卷积层。卷积层的输出后面跟着InstanceNorm [22]和LeakyReLU层。我们在所有实验中都使用ProPO结构，因为它产生的结果比AdaPO更具质量和多样性。稍后将在消融研究中进行比较。我们使用Adam[12]优化器来训练ProPO模型，以最小化目标函数(10)。超参数设置如下：batchsize=1，lr=2e-4，beta1=0.5，beta2=0.999。训练迭代次数为800K，学习率在400K次迭代后线性减小为0。04.2.实验结果0接下来，我们将介绍基准方法和我们的实验结果，并在效率、质量、多样性和可扩展性方面比较它们的性能。我们方法(ProPO)的更多结果可以在图6中找到。0与Gatys等人[5]相比，这是一种完全自适应的方法，可以产生高质量和多样化的结果。主要缺点是需要大量的优化过程。0纹理损失曲线。Gatys等人的方法最终优于其他三种快速前馈方法。而我们的方法可以在单个GPU上每秒合成超过13张图像。0我们比较了这种方法和我们方法之间的质量和效率之间的权衡。我们在表2中报告了纹理损失(2)，并在图5中绘制了随时间(迭代次数)变化的损失曲线。Gatys等人的方法在大约400次迭代后收敛，并且在纹理损失方面优于其他快速前馈方法和我们的方法。然而，使用2080 TiGPU和16个CPU核心合成需要超过一分钟的时间。我们未经优化的代码可以在单个GPU上每秒合成超过13张图像，远远超过Gatys等人的方法。可以在图6中查看定性结果。我们可以看到合成的图像(第6列)在粗糙和细节结构方面与目标图像(最后一列)非常相似。0与快速前馈方法的比较。对于快速前馈方法，我们主要比较它们的多样性和可扩展性。多样性可以通过[13]中定义的多样性损失来衡量。我们修改了公式，通过对一组合成图像{x_i}进行损失的期望来计算。0对比快速前馈方法。对于快速前馈方法，我们主要比较它们的多样性和可扩展性。多样性可以通过[13]中定义的多样性损失来衡量。我们修改了公式，通过对一组合成图像{x_i}进行损失的期望来计算。55040输入 x [0] x [1] x [2] x [3] x [4] 我们的 x [5] 目标 x˜ Gatys et al.0图6. ProPO的结果。最左列包含输入噪声图像x [0] � Z。第二到第五列分别包含x [1]，x [2]，x [3]，x[4]的结果。第六列包含我们方法的输出x [5]。第七列包含目标纹理图像x˜。最右列包含Gatys et al. [5]的结果。0在未见过的互联网图像上进一步测试我们的方法。结果如图8所示。大多数颜色和纹理都可以保留，这表明我们的方法可以推广到未见过的图像。然而，一些大规模的模式无法被识别，这需要在将来进行研究。04.3. 消融研究0架构设计当使用单阶段模型AdaPO进行训练时，我们发现纹理损失通常高于使用ProPO的纹理损失。此外，我们经常观察到AdaPO合成图像中出现类似边框的伪影（图9）。我们认为这是非常困难的55050图7.使用相同目标图像（右侧）和不同噪声输入的合成结果（左侧的三个）。0图8. 未见过图像的合成结果（左）。0方法质量 ↓ 多样性 ↑ Floral DTD Floral0Gatys et al. [5] 90.1 N/A 433.2 MultiTexture[13] 719.8 6639.0 385.9 WCT [14] 2042.56673.2 309.3 PO (ours) 645.9 4672.5 397.10表2.自适应（多重）纹理合成方法的比较。质量通过纹理损失（2）进行衡量（值越低越好）。多样性通过多样性损失（11）进行衡量（值越高越好）。使用Gatys etal.的方法在DTD上合成图像需要太长时间，因此我们省略了他们在DTD上的结果。我们想提到的是，他们的结果通常在质量和多样性方面表现更好。0图9. AdaPO的结果。合成结果中经常出现类似边框的伪影（左）。0直接从噪声图像合成与完整纹理特征匹配的图像是非常困难的。受[14]启发，我们提出了多阶段模型（ProPO）来合成0逐渐将特征从低层匹配到高层，逐渐生成输出。以第一阶段PO[1]（图4）为例，第一层的神经元具有较小的感受野，负责低层特征，如颜色。从噪声输入中合成小的颜色块相对较容易。多阶段效果可以在图6中观察到。我们还观察到多阶段结构导致更丰富的多样性。我们推测，渐进结构可以鼓励优化器的局部性，因为输出是逐步合成的，后续的PO模块tend to make as little modi�cation as possible to theprevious results.0扩展目标函数我们观察到我们的框架不仅限于纹理损失。唯一的要求是目标函数可微分。这使我们能够使用扩展的纹理损失，例如移位的Gram矩阵[1]和多尺度Gram矩阵[19]。我们在补充材料中展示了使用[1]目标的一些结果。05. 结论0我们提出了一种名为PseudoOptimizer（PO）的新框架，用于快速纹理合成。我们的方法使用前馈网络（AdaPO）模拟Gatys etal.的优化过程。的方法[5]。网络使用纹理损失的每层梯度来预测使输入更接近最优解的修改。我们进一步提出了一种渐进的架构（ProPO）来提高合成图像的质量和多样性。两个网络都是完全自适应的，可以合成由目标图像控制的图像，无论是在训练数据集内部还是外部。我们在两个数据集上进行了大量实验。我们的模型可以在几乎实时中合成视觉上令人愉悦和高质量的纹理图像。我们的方法在质量、多样性和可扩展性方面优于其他快速合成方法。尽管我们的方法在推理阶段比Gatys etal.的方法运行得更快，但在质量方面仍有改进的机会。我们还计划使用不同的目标函数研究大规模自监督学习任务的性能。0致谢：本工作部分得到中国科学院科技服务网络计划（KFJ-STS-QYZX-092），广东特支计划（2016TX03X276）和国家自然科学基金（U1813218，U1713208），深圳市基础研究项目（JCYJ20170818164704758，CXB201104220032A），中科院-香港联合实验室和深圳市人工智能与机器人研究院的支持。55060参考文献0[1] Guillaume Berger和Roland Memisevic.在基于CNN的纹理生成中引入长程一致性. arXiv:计算机视觉和模式识别, 2016年. 2 , 80[2] Mircea Cimpoi, Subhransu Maji, Iasonas Kokkinos,Sammy Mohamed,和Andrea Vedaldi. 描述野外纹理.《IEEE计算机视觉和模式识别会议（CVPR）》, 2014年6月. 50[3] Alexei A. Efros和William T. Freeman.用于纹理合成和转换的图像拼贴.《第28届计算机图形学与交互技术年会论文集》, SIGGRAPH’01, 第341-346页, 美国纽约, 2001年. 计算机协会. 20[4] A. A. Efros和T. K. Leung. 非参数采样的纹理合成.《第七届IEEE国际计算机视觉会议论文集》, 卷2, 第1033-1038页,1999年. 20[5] Leon Gatys, Alexander S Ecker,和Matthias Bethge.使用卷积神经网络进行纹理合成.《第28届神经信息处理系统进展》, 第262-270页. CurranAssociates, Inc., 2015. 1 , 2 , 3 , 4 , 5 , 6 , 7 , 80[6] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, AaronCourville,和Yoshua Bengio. 生成对抗网络.《第27届神经信息处理系统进展》, 第2672-2680页. CurranAssociates, Inc., 2014. 20[7] Karol Gregor和Yann LeCun. 学习稀疏编码的快速近似方法.《第27届国际机器学习会议论文集》, ICML’10, 第399-406页,美国, 2010年. Omnipress. 2 , 3 , 40[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren,和Jian Sun.深度残差学习用于图像识别.《IEEE计算机视觉和模式识别会议（CVPR）》, 2016年6月. 60[9] David J. Heeger和James R. Bergen.基于金字塔的纹理分析/合成.《第22届计算机图形学与交互技术年会论文集》, SIGGRAPH’95, 第229-238页, 美国纽约, 1995年. 计算机协会. 20[10] 黄勋和Serge J. Belongie.实时自适应实例归一化的任意风格转换.《IEEE国际计算机视觉会议（ICCV）2017》, 第1510-1519页,2017年. 1 , 2 , 5 , 60[11] 黄勋，刘明宇，Serge Belongie，Jan Kautz.多模态无监督图像到图像的转换.《欧洲计算机视觉会议（ECCV）》, 2018年9月. 20[12] Diederik P. Kingma和Jimmy Ba. Adam:一种用于随机优化的方法. 《第三届国际学习表示会议论文集》,2015年. 3 , 4 , 60[13] 李一军，方晨，杨洁梅，王兆文，卢欣，杨明煊.基于前馈网络的多样化纹理合成.《2017年IEEE计算机视觉与模式识别会议》0《计算机视觉和模式识别会议（CVPR）》. IEEE, 2017年7月.1 , 2 , 6 , 80[14] 李一军，方晨，杨洁梅，王兆文，卢欣，杨明煊.通过特征变换实现通用风格转换.《第30届神经信息处理系统进展》, 第386-396页. CurranAssociates, Inc., 2017. 1 , 2 , 5 , 6 , 80[15] Mingyu Liu，Xun Huang，Arun Mallya，TeroKarras，Timo Aila，Jaakko Lehtinen和JanKautz。少样本无监督图像到图像的转换。arXiv：计算机视觉和模式识别，2019年。20[16] Vishal Monga，Yuelong Li和Yonina CEldar。算法展开：可解释的、高效的信号和图像处理深度学习。arXiv：图像和视频处理，2019年。30[17] Eero P. Simoncelli和JavierPortilla。通过小波系数幅度的联合统计来表征纹理。在第5届国际图像处理会议上的论文集芝加哥，伊利诺伊州，页4-7。IEEE计算机学会，1998年。20[18] Karen Simonyan和AndrewZisserman。用于大规模图像识别的非常深的卷积网络。arXiv：计算机视觉和模式识别，2014年。30[19] XavierSnelgrove。高分辨率多尺度神经纹理合成。在SIGGRAPH Asia2017技术简报中，SA'17，页13:1-13:4，纽约，纽约，美国，2017年。ACM。2，80[20] Sho Sonoda和NoboruMurata。具有无界激活函数的神经网络是通用逼近器。应用和计算谐波分析，43(2)：233-268，2017年。2，3，40[21] Dmitry Ulyanov，Vadim Lebedev，Andrea和Victor Lem-pitsky。纹理网络：纹理和风格化图像的前馈合成。在第33届国际机器学习会议论文集中，卷48的机器学习研究论文集，页1349-1357，纽约，纽约，美国，2016年6月20-22日。PMLR。1，2，5，60[22] Dmitry Ulyanov，Andrea Vedaldi和Victor S.Lempitsky。实例归一化：快速样式化的缺失成分。CoRR，abs/1607.08022，2016年6月。60[23] Pierre Wilmot，Eric Risser和ConnellyBarnes。使用直方图损失的稳定可控神经纹理合成和风格迁移。CoRR，abs/1701.08893，2017年。20[24] Jian Zhang和BernardGhanem。Ista-net：用于图像压缩感知的可解释的基于优化的深度网络。在计算机视觉和模式识别（CVPR）IEEE会议上，2018年6月。2，3，40[25] Yang Zhou，Zhen Zhu，Xiang Bai，DaniLischinski，Daniel Cohen-Or和HuiHuang。通过对抗性扩展进行非平稳纹理合成。ACM Trans.Graph.，37(4)，2018年7月。20[26] Ciyou Zhu，Richard H. Byrd，Peihuang Lu和Jorge No-cedal。算法778：L-bfgs-b：用于大规模约束优化的Fortran子程序。ACM Trans. Math.Softw.，23(4)：550-560，1997年12月。3，40[27] Song Chun Zhu，Yingnian Wu和DavidMumford。滤波器、随机场和最大熵（框架）：走向55070纹理建模的统一理论。计算机视觉国际期刊，27(2)：107-126，1998年4月。2

下载后可阅读完整内容，剩余1页未读，立即下载