StyleFormer：实时传输任意风格的参数化样式合成方法

117 浏览量更新于2023-10-13 收藏 5.66MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14618StyleFormer：基于参数化样式合成的任意样式实时传输吴晓蕾1 *，胡志豪1 *，卢胜1†，徐东21北京航空航天大学软件学院2澳大利亚悉尼大学{wuxiaolei，huzhihao，lsheng}. buaa.edu.cn，dong.sydney.edu.au图1.结果我们提出的StyleFormer，它可以忠实地将各种风格的内容图像。摘要在这项工作中，我们提出了一种新的前馈任意风格传输方法，称为StyleFormer，它可以同时实现细粒度的风格多样性和语义内容的一致性。具体来说，我们的受Transformer启发的特征级风格化方法由三个模块组成：（a）用于稀疏但紧凑的参数化样式模式提取的样式库生成模块，（b）用于内容引导的全局样式合成的变换器驱动的样式合成模块，以及（c）用于灵活但忠实的样式化的参数化内容调制模块。输出的风格化图像令人印象深刻地与内容结构相一致，对详细的风格变化敏感，但仍然整体上坚持来自风格图像的风格分布。定性和定量的比较以及全面的用户研究表明，我们的StyleFormer优于现有的SOTA方法，在生成视觉上合理的风格化结果与实时效率。1. 介绍任意风格转换的目的是通过使用任意艺术品的风格来重新渲染一个自然图像* 前两位作者贡献相同。†通讯作者：路胜Gatyset al的早期作品。[1]发现从经过良好训练的深度卷积神经网络中提取的特征可以指示内容结构，并且它们的统计分布捕获了风格模式，这激发了一系列具有高级风格和内容描述的作品[2，3，4，5，6，7]。尽管已经取得了显着的结果，这些方法通常被公式化为一个复杂的优化问题，其中必须最小化每个图像对的深度网络上的损失，导致高计算成本。大量的工作[8，9，10，11，12，13，14，15，16]已经被提出来平衡风格化质量，泛化能力和执行效率。一种常见的范例是用特征传递模块预训练前馈网络，以通过使用单个前向传递来“普遍地”产生程式化的结果。该模块应该能够同时产生从样式图像重新分配的多样化样式模式，并保持与内容图像的连贯现有的尝试或者试图调整内容特征的整体统计与样式特征的整体统计[17，18，19，20，21，22，23]，或者非局部地交换相关样式特征以便匹配内容特征[24，25，26，27，28，29，30，31]。虽然这些方法明显快于那些基于优化的作品，但它们可能无法很好地推广到未看到的图像，这不可避免地降低了风格化质量或扭曲了内容结构。14619在这项工作中，我们提出了一种新的任意风格转移方法，遵循类似的前馈范式，但在这里，我们制定了如何产生多样化和连贯的风格化结果作为一个过程，首先找到一个有限的一组可学习的风格代码的全局组合，然后参数化调制的内容特征的组合的风格代码。整个网络可以分解为三个模块：样式库生成、Transformer驱动的样式合成和参数化内容调制。样式库生成模块产生样式代码的有限集合作为样式模式的稀疏且紧凑的表示。变换器驱动的风格组合模块采用来自著名的变换器架构[32]的表达性多头注意策略来全局地组合这些代表性的风格代码，其旨在建模与内容结构一致并且对详细的风格变化敏感的新的风格分布，但仍然整体上属于由风格图像跨越的风格流形。参数化内容调制模块通过将组合的样式代码视为一组内容调节的逐组仿射变换来将每个内容特征与其风格化的对应物对齐，从而提供了更大的灵活性来表示不同的样式模式，但仍然坚持内容。基于这些模型，我们的前馈任意风格转换方法，称为StyleFormer，可以为各种艺术品产生视觉上合理的风格化结果，同时确保具有细粒度风格细节的风格多样性，以及与输入内容图像的内容一致性（参见图1）。①的人。我们的网络基于常见的风格和内容损失[18，3]在MS-COCO [33]和Wikiart [34]上进行端到端训练。当与先前的基于优化的方法[1，3]和基于前馈的方法[18，17，25，19，23，35]相比时，我们的方法在视觉质量和效率方面实现了SOTA风格化结果。2. 相关作品基于优化的风格化。Gatys等人[1]首先将样式表示为多级特征相关（例如，Gram矩阵），并将风格转换定义为平衡内容和风格差异的迭代优化过程。此后，基于新的样式和内容损失，或通过将该框架用于不同的场景和要求，开发了许多变体[3，5，37，38，7，39，40]文献[5]和[7]探讨了如何在迁移过程中控制感知因素，另外两篇文献[37]和[38]对文献[1]中提出的成分进行了去神秘化。与上述工作不同的是，最近的工作[3]首先将风格视为非参数特征分布而不是参数统计，然后使用self-相似性。尽管在这些作品中报告了视觉上合理的结果，但通常需要仔细的超参数调整过程[39，40]以更好地优化每种风格的目标函数。此外，基于优化的方法效率较低，使得这些方法不适合于实时应用。前馈近似。最近，一批作品[8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，[23]将迭代反向传播过程近似为用于实时风格传递的前馈网络。一些作品[10，12，41，42，16]指定了每个训练过的网络-为单一风格而工作。其他方法[8，13，9，11，43]试图将多个样式合并到一个模型中，但它们仍然无法处理看不见的样式。最近的方法集中在任意风格的传输，通过建立一个更灵活的前馈架构。例如，第一行作品[18，17，22，19]提出将内容特征的整体统计与风格特征的整体统计直接第二行作品[44，45，46，47]利用生成对抗网络的力量来生成风格化图像。第三行作品[24，25，28，29，30]试图交换最相关的样式补丁，以匹配功能级别的内容补丁，这可能会导致片状的结果。SANet [23]提出了风格-注意网络，根据内容图像的语义空间分布来整合风格模式。AAMS [27]使用自我注意机制，并交换样式以直接匹配内容结构。MANET [35]使用自注意模块来解开内容和风格特征，然后使用交叉注意操作来根据内容分布重新组织风格分布。我们不是直接将交换的样式特征补丁馈送到解码器，而是产生一组内容感知仿射变换，以将每个内容特征分组转移到其风格化的对应物中，从而在表示不同的样式模式时提供更多的灵活性。Transformer器Transformer [32]最初应用于NLP任务，并取得了显着的改进，它利用注意力机制来编码长距离依赖关系。最近，研究人员将Transformer用于各种CV任务，如图像分类[48，49]，对象检测[50，51]，视频接地[52，53，54]和低级视觉任务，包括图像翻译 [55] ，超分辨率 [56] 和去噪 [48] 。我们提出的StyleFormer继承了Transformer令人印象深刻的关系建模能力，学习内容一致的风格组合的风格传输任务，但我们改进了朴素的transformer为基础的风格组合在参数化的方式，导致更灵活的渲染结果与不同的风格模式，坚持的内容语义。14620CCnnvvSSoof tftmmaaxxCCnnvvSSLLIICEApppplyGuuideMapGennerrationC--××CC∈CS∈CSCS图2.我们提出的方法的总体框架我们首先通过使用固定编码器（VGG-16）从内容图像XC和样式图像XS生成内容特征ZC和样式特征ZS。然后将样式特征Zs送入样式库生成模块生成样式代码。每个样式码存储仿射系数Vi（即样式值）和对应的样式密钥Ki，i=1，. . .，Ns，其中Ns是样式代码的数量。以内容特征Zc为查询（Q），样式键Ki为键(K)，风格值Vi作为值（V），我们采用变换器驱动的风格合成模块来为每个组产生内容条件的精细系数V_i（g）。群的总数为G。之后，在参数化内容调制模块中，我们应用归一化的内容特征Z（g），以预测引导图W（g），从而从V（g）中分割出αf系数，然后生成最终的分组风格化特征Z（g）。最后，我们将所有组的Z（g）连接起来作为最终的风格化特征Z然后输入解码器以产生风格化图像。“IN”表示实例规范化操作。最好用彩色观看。3. 方法遵循前馈样式传输范式，我们提出了一种新的任意样式传输方法（称为StyleFormer），以基于众所周知的Transformer-like架构[32]来学习样式的全局组成，并以参数化方式生成全局内容一致和局部真实的样式模式。3.1. 概述我们提出的StyleFormer的框架总结在图中。二、首先，内容图像Xc和风格图像Xs被送入编码器Eθenc（·），以获得内容和风格特征Zc∈RHc×Wc×C和基于适当的重组和切片操作的结构。Ns是根据空间大小决定的样式代码的数量（参见第3.5）。具体地，V包含N个样式值，并且每个样式值具有大小为（C/G）（C/G+1）的G个仿射变换矩阵。注意，我们将每个样式代码分成G组以确保效率，并且还通过使用J变体来丰富每组中的仿射变换以产生更多样化的样式模式。给定上述两个量分别作为键和值，以内容特征Zc作为查询，转换器驱动的样式组合（在Sec.3.3）模块应用多头注意机制以生成逐组内容一致的仿射系数V~（g ）∈RHc×Wc×J×（C/G）×（C/G+1），并添加-Zs∈RHs×Ws×C，其中Hc和Wc是高度，按组归一化的内容特征Z（g）∈内容特征的宽度，H和W是风格特征的宽度，C是通道数。注意，在我们的工作中，Zc和Zs然后根据Zs将Zc转换为风格化特征Zcs，并设计了一个新的特征转换模块，包括风格库生成、Transformer驱动的风格合成和参数化内容调制模块.最后，将程式化特征Zcs馈送到可学习解码器Dθdec（·）来生成风格化图像。RHc× Wc×（C/G）×1，g∈ {1，. . .，G}。参数内容调制（在第3.4）模块采用Z（g）来为每个组生成引导图，基于该引导图，我们首先从每个空间位置处的所有J个仿射变换矩阵中采样两个对应的仿射变换矩阵，然后我们生成每个空间位置处的内插仿射变换矩阵基于内插仿射变换ma-三次，Z（g）最终被变换为产生Z（g），样式特征Zs被馈送到样式库生成器中。中策每组通过沿着通道连接{Z（g）}G（详细说明见第二节）3.2）生成风格码模块，该模块包括作为一组示例风格模式的风格键KRNs×C，以及作为一组与风格键相对应的仿射变换矩阵的风格值VRNs×G×J ×（C/G）×（C/G+1），该仿射变换矩阵可以将内容特征参数化地转换为风格化特征。CSG=1尺寸，我们产生最终的风格化特征Zcs。3.2. 样式库生成样式库生成过程的目的是从样式特征Zs中发现一组有限的样式代码，这些样式代码可以样式图像��×��S转换器驱动的样式合成StyleFormer/1 N …VSZs/样式值参数内容调制风格化的图像…KK KV~（g12式钥匙KNs内容图像c风格银行ZCQ切片应用W（g）指南地图生成Z（g）CSZCSZ（g）C级联SoftmaxConv分裂Conv分裂在在样式库生成编码器（修解码器14621C∈C联系我们××××∈∈C∈∈∈|| Z=|| AZ+ b，（1）∈⊗(a) 内容图像（b）样式图像（c）风格化图像(d)注意力地图图3.来自不同群体的注意力地图的可视化不同组集中在内容图像的不同空间位置，左边的注意力地图集中在桥和树上，中间的集中在天空和河流上，而右边的只集中在桥面上通过对内容特征使用仿射变换来参数化地重新生成编码的样式模式。每个样式码包括样式键Ki和样式值为了减小其空间大小并且因此加速多头注意过程，并且我们还将对输出仿射变换矩阵V~（g）进行上采样以匹配空间分辨率。在参数内容调制模块之前的Z（g）如图3.这种多头注意操作表明不同群体关注不同的风格模式。因此，在每一个实施例中注意力模块的输出是相同的。head将是逐组内容一致的仿射系数V~（g）RHc×Wc×J×（C/G）×（C/G+1）。更进一步，变换器驱动的样式合成模块还生成按组归一化的内容特征Z（g）RHc× Wc×（C/G）×1，g1，. . . ，G，它们是信道-在实例正常化之后的明智拆分内容特征操作，如图所示。二、3.4.参数内容调制在此模块中，我们想要对逐组内容一致的仿射系数V~（g）进行切片，且接着应用经切片的仿射系数以将逐组内容一致的仿射系数V ~（g）变换为逐组内容一致的仿射系数。将内容特征Z（g）归一化为Z（g）。借连接─中策Vi，i ∈ {1，. . . ，N s}。Ki∈RC表示范例风格ing{Z（g）}G沿着通道维度，我们最终特征和V∈RG×J ×（C/G）×（C/G+1）集成了一个丰富的CSG=1我与该示例性特征相关联的仿射系数集合，其包括大小为（C/G）（C/G+1）的仿射变换矩阵。在使用J切片时，将样式码分成G将带来更大的灵活性。具体地，分组操作降低了用于存储和学习仿射系数的成本，因为具有C（C+1）个系数的仿射变换可以通过总共具有C（C/G+1）个系数的分组仿射变换来近似此外，在每个组中使用J个候选仿射变换，当我们用附加的引导信号对它们进行插值时，有助于更灵活的风格表示。因此，样式库生成模块包括两个并行分支，用于：（1）提取风格值张量VRNs× G × J ×（C/G）×（C/G+1）;网络架构如图所示。4，我们将在第二节讨论它。三点五3.3. 转换器驱动的样式合成以内容特征Zc为查询，样式键K作为键，样式值V作为值，我们使用产生程式化特征Zcs。切片通过首先生成引导图W（ g ）来执行切片操作。RHc×Wc×1从Z（g ）基于卷积层的堆栈。在每个空间位置，我们然后使用引导图中的相应值来确定两个最近的索引，然后从J中采样两个相应的仿射变换矩阵f（g）中的精细变换矩阵，并且最终线性地早期内插这两个仿射变换矩阵以生成切片仿射变换矩阵。从那时起，逐组切片仿射变换矩阵变成一对A~（g）RHc×Wc×（C/G）×（C/G）和b~ （g）RHc×Wc×（C/G）×1。除了变换驱动的样式合成模块之外，切片操作还使得最终的仿射系数更多地依赖于内容结构。此外，与基于softmax的插值相比，切片操作的计算效率更高正在申请在获得逐组切片仿射系数之后，最终风格化特征可以获得为以内容结构为条件的多头注意机制来组合风格。请注意，在将键和值馈送到多头注意模块之前需要实例规范化[42]，因此我们Zcs=G哪里G（g）CSG=1G~（g）（g）~（g）CG=1可以丰富风格和内容之间的互动G=||1表示G如[25]所示。这里，头的数量与样式库中的组G的数量相同。注意，步长为2的两个额外卷积是每-仿射变换的逐组特征指示每个空间位置处的矩阵乘法运算。Zcs具有与输入内容特征Zc的大小相同的大小。14622× × ××LL××44V1，V2，样式值Sstride参数。注意，在生成样式值之前的最后一个卷积层的输出通道17408由G/J（C/G）（C/G+1）J计算，其中C=256，G=16并且J=4。款式数量在该模块中生成的代码（即，N s=Hs （Ws）为样式库生成K1，K2，式钥匙由输入样式特征的空间分辨率决定，但是由于2个步幅卷积层而被下采样。编码器Eθenc（·）是预训练和固定的VGG-16[36]（直到ReLU 31层），并且解码器Dθdec（·）图4.我们的网络详细样式库生成模块。Zs表示样式特征。Vi和Ki，i=1，. . .、N分别是输出样式值和键。注意，该模块采用实例规范化的内容特征作为其输入，使得其想要更多地关注结构线索并移除内容图像中的纹理图案，这再次导致更可靠的风格化结果。3.5.损失和实施细节损失在我们的设计中，所提出的网络是完全不同的，entiable，这使得反向传播整个网络，除了固定的编码器。它以类似于最近的前馈任意样式传输方法[18，10]的监督方式进行训练，其中内容图像从MS-COCO [33]收集，并且样式图像来自WikiArts [34]。训练损失包括风格损失和内容损失，即，L=αLc+βLs，（2）其中，风格损失s以与所使用的相同的方式匹配所生成的输出和输入风格图像之间的VGG-16特征在AdaIN[18]中。在STROTSS [3]之后，内容损失c匹配从生成的输出和输入内容图像之间的VGG-16特征中提取的自相似性模式，这松散地保留了语义和空间布局而不是严格的像素值。实施详情。将样式库中的头数和组G数设置为16。我们将每个组中的仿射系数J的数量设置为4。通道数C=256。损失函数中的加权参数设置为α=60和β=1。我们的银行生成模型的网络结构图中示出了Ule。4.第一章样式值和样式键在两个并行分支中生成。在样式值生成分支中，存在2个跨步卷积层、三个卷积层和整形操作。在样式密钥生成分支中，存在2个跨步卷积层，随后是整形操作。每个卷积层被写为Conv（C_out，K，S），其中C_out，K和S表示输出通道的数量、内核大小和内核大小。镜像编码器，所有填充层都被重新替换，在训练阶段随机初始化的弯曲填充。在我们的模型中没有标准化层（如果没有特别提到），如[18]所建议的。4. 结果和评价4.1. 数据集和培训详情我们使用MS-COCO [33]的内容图像和WiKiArt [34]的样式图像作为训练数据。每个数据集包含大约80，000个样本。我们将批量大小设置为16，并使用Adam优化器，其固定学习率为1 e-4。对于每个内容/样式图像，我们首先将图像大小调整为512512的分辨率，然后随机裁剪一个256 256区域作为训练样本。由于我们的网络是完全卷积的，因此它可以在测试期间应用于任何分辨率的图像我们训练我们的模型800，000步，这需要五天的机器上有一个单一的NVIDIA Tesla V100 GPU。4.2. 与现有技术的我们定量和定性地比较了我们的方法与一组基线方法，包括AdaIN [18]，WCT [17]，Avatar-Net [11]，LST [19]，两种迭代优化方法（Gatys [1]和STROTSS[3]）和两种基于注意力的方法（SANet [23]和MANET[27]）。定性评价。由我们的方法和基线方法生成的代表性风格转换结果在图中提供。五、AdaIN [18]简单地以通道方式调整均值和方差，从而提供次优解决方案，并且通常保留重复的纹理图案（参见图5中的第5列、第6列和第7列）。（五）。尽管WCT最佳地匹配二阶统计量，但它也可能产生失真的图案，因为它不能总是恢复原始样式图案。例如，背景杂波和不需要的螺旋图案出现在图1中的第1、第5、第6和第7列中。五、还观察到，当样式模式简单地由线条组成时，WCT具有较差的性能（参见图2中的第2列）。（五）。Avatar-Net[ 25 ]的结果在大多数情况下是片状和模糊的（见图1中的第1，3，4，6和7列）。5）因为它直接将样式补丁交换到对应的内容补丁，这使得难以保持内容结构。与上述方法不同，LST [19]重塑重塑Conv（256，3，2）Conv（256，Conv（256，3，2）Conv（256，Conv（256，Conv（256，Conv（17408，风格特征14623图5.风格化结果的比较。第一行和第二行分别显示内容和样式图像。其余行分别是使用AdaIN [18]，WCT [17]，Avatar-Net[11]，LST [19]，Gatys [1]，STROTSS [3]，SANet [23]，MANet [35]和我们的StyleFormer的风格化结果。最好用彩色观看。旨在将较低级别的样式模式（例如，颜色），而笔画的风格通常被忽略（见第2，第6，第7栏图。（五）。基于优化的方法Gatyset al. [1]和STROTSS [3]允许任意的风格转移，但是很难调整最佳结果，因为平衡内容和风格损失的权重是敏感的，并且很可能遇到不良的局部最小值，如图1中的第1列和第5列所示五、在此外，STROTSS [3]倾向于复制样式图像中的内容，这使得结果看起来很奇怪（参见图中的第5列）。（五）。应该提到的是，这两种基于优化的方法的运行速度比我们提出的前馈方法慢100倍以上（参见表1）。我们进一步提供了两种基于注意力的方法SANet[23]和MANET [35]的结果。从结果中，我们观察到这两个AdainWCT阿凡达网LSTGatys斯特罗茨SANet内容Manet风格我们14624× ××表1.遵循WCT [17]，我们在我们提出的方法和基线方法（即，Gatys等人[1]，STROTSS [3]，AdaIN [18]，WCT [17]，Avatar-Net [25]，LST [19]，MANET [23]和SANet [35]）在协方差矩阵差（风格损失Ls），用户偏好和执行时间方面。256×256表示每个测试图像的分辨率为256×256。Gatys等人斯特罗茨AdainWCT阿凡达网络LSTSANetManet我们风格损失（即，Ls）3.201.221.773.095.912.671.411.831.14偏好（%）9.899.325.3711.024.2410.7310.178.4730.79A/B检验（%）25.0024.6922.8332.9111.6933.3332.3127.16-256×256的时间（秒）512×512时间（秒）1024×1024时间（秒）39.01740.34142.31992.724112.53170.2010.0040.0050.0070.5311.2984.0770.8840.9711.1740.0040.0050.0240.0110.0380.1690.0090.0110.0140.0130.0260.071(a) 内容图像（b）样式图像(c)基线（d）图6.我们提出的方法与基于简单Transformer [32]的基线方法之间的比较。方法更有可能在背景区域中生成重复的样式模式（参见图5中的第5、第6和第7列）（五）。与这些方法相反，如图1A所示。5，我们的方法达到了最佳性能，平衡了风格模式丰富性和内容结构一致性。我们的StyleFormer不是整体对齐二阶统计量或直接重新排列样式特征，而是在分组内容条件参数转移策略的帮助下使用变换器驱动的样式组合模块，因此我们的方法可以更灵活地表示不同的样式模式，同时仍然保留内容结构，这也可以在图中观察到。六、定量结果。我们进一步从风格损失、用户偏好和执行效率三个方面进行了定量比较。- 风格损失（即， L s）：遵循WCT [17]，我们在协方差矩阵差异方面比较了不同的方法，并在表1的第一行中报告了结果。据观察，我们提出的方法StyleFormer实现了所有方法中最低的风格损失。- 用户偏好：此外，我们进行了一项用户研究，将我们的方法与八种最先进的风格转换方法[1，3，18，17，19，25，23，35]进行了比较。用户偏好（即，哪种方法的结果是人类最喜欢的）。我们选择了100个内容样式对进行评估。我们使用官方代码和每个方法的默认参数对于每个用户，选择20个最后，我们收集了来自57位用户的1140张投票。如表1所示，我们的方法接收30。总票数的79%，这比基线方法高得多。考虑到从九种方法的结果中选出最佳方法是一项具有挑战性的任务，我们还进行了多重A/B检验。还如表1所示，当与AdaIN [18]、Avatar-Net[25]、Gatys [1]、LST [19]相比时，我们的方法赢得了77%、88%、75%、67%、73%、68%、75%和67%的[23][24][25][26][ 28][29]分别这些结果表明，我们的方法取得了更好的结果。- 效率：在表1中，我们比较了我们的方法与其他方法在三种图像分辨率下的运行时间：256 256、512 512和1024一千零四基于优化的方法[1，3]在计算上是昂贵的，因为它需要数百次向前和向后传递来生成最终的风格化结果。其他作品包括 WCT [17] ， AdaIN[18]，Avatar-Net [11]和LST [19]都是基于前馈网络，其中WCT相对较慢，因为它需要几个前馈通道，并且SVD操作必须在CPU中执行。根据下采样和分组操作，对于分辨率为1024×1024的每对图像，该方法的运行时间仍在0. 1s.4.3. 更多的讨论朴素的Transformer驱动的样式组合对于图像样式化是否足够？在图6中，我们将我们的样式形成器与不涉及样式库生成和参数内容调制模块的简单基线方法（即，它仅使用变换器驱动的样式合成模块）进行比较，其中仿射系数直接被样式特征替换。我们观察到我们的StyleFormer（图 6（d））实现了比该基线方法更好的结果（图6（d））。6（c））在保存内容结构和表达风格模式方面。再-14625内容样式1cs=样式2图7.两种风格图像的笔画和背景的交换。Z_cs表示风格化特征，A和b表示仿射变换矩阵和来自风格1或风格2的偏差，并且Z_c表示内容特征。(a)内容（b）样式（c）cs c（d）csC(e)CS(f)CSC与和(from从左到右）图8.仿射变换的消融研究。我们改变Eq. 其中，Z。是内容特征，A和b是仿射变换矩阵和偏置向量，并且Zcs是风格化特征。（c，d，e，f）中的结果是解码的风格化图像。当b被移除时，黄色背景趋于消失（参见图2中设置Zcs=AZc时黄色背景是否8（c）和Zcs=b在图。（见第8（e）段）。当A被单位矩阵代替时（即，在图8（d）中Z_cs=Z_c+b），来自风格图像的细节笔划不再存在于输出图像中。当α增长时，输出图像中围绕埃菲尔铁塔边缘的笔划变得更强，同时出现更多的曲线（见图2中的第二行）。（八）。这些观察表明，详细的风格模式（例如笔画）主要存储在A中，整体风格模式主要存储在B中，这为多风格应用提供了更大的灵活性。在图7中，受益于这些系数的分解功能，我们的StyleFormer交换了两个风格图像的笔划和背景，从而能够更灵活地控制风格化结果。仿射系数应该是内容条件的吗？在图9中，我们提供了我们的完整方法和我们的方法的结果，而不使用来自第2节中的切片操作的内容条件仿射系数。三点四分。据观察，我们的StyleFormer通过比较第2行中的两个结果生成更丰富的样式模式，并保持更好的内容一致性（参见第1内容风格带导游图不带导游图行），这验证了所提出的内容条件图9.引导图的消融研究。据观察，我们的方法与指南地图保持更好的内容一致性（见第一行中的蓝色框），也产生更丰富的样式模式（见第二行）。结果不仅表明，我们可能无法解决的图像风格化问题，通过简单地应用变压器式的风格组合的体系结构，但也验证了我们的参数化风格组合模块的有效性。仿射系数中的每一项的解纠缠泛函。为了简单起见，我们改变了等式（1）中的符号（用于每个位置处的操作）。其中A和b表示内容条件仿射变换矩阵和偏置向量，Z。是归一化的内容特征。通过控制A的权α，我们还将其修改为Zcs=αAZc+b.在图8中，我们提供了当使用不同组参数时的我们观察到风格背景（或称整体风格模式）仿射系数可以在保持内容结构的同时带来更灵活的风格表示。5. 结论在这项工作中，我们提出了一个视觉上合理的实时风格传输方法（称为StyleFormer），它包括三个新提出的模块，包括样式库生成模块，变压器驱动的风格组合模块和参数化内容调制模块。有了这些新模块，我们的StyleFormer可以生成具有细粒度样式细节和连贯内容结构的结果。大量的实验结果表明，我们的方法的有效性和它的潜力，结合多种风格模式。谢谢。本工作得到了国家重点研究发展项目（2005 -2006）的资助。2018AAA0101900）、国家自然科学基金（No. 61906012号62132001）。14626引用[1] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR中，第2414-2423页，2016年。一、二、五、六、七[2] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成见ECCV，第702-716页。施普林格，2016年。1[3] NicholasKolkinJasonSalavon和GregoryShakhnarovich。通过松弛的最优传输和自相似性实现风格转移。在CVPR中，第10051-10060页，2019年。一、二、五、六、七[4] Tamar Rott Shaham，Tali Dekel和Tomer Michaeli。单根：从一个单一的自然图像学习生成模型.在ICCV，第4570-4580页，2019年。1[5] Leon A Gatys，Alexander S Ecker，Matthias Bethge，Aaron Hertzmann，and Eli Shechtman.神经风格迁移中知觉因素的控制。在CVPR，第3985-3993页，2017年。一、二[6] Mao-Chuang Yeh ， Shuai Tang ， Anand Bhattad ，Chuhang Zou，and David Forsyth.通过校准的指标改进风格转换。在WACV，第3160-3168页，2020中。1[7] 亚历克斯·J·尚潘达语义风格的转换和转向-在艺术品上涂鸦。arXiv预印本arXiv：1603.01768，2016。一、二[8] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在CVPR，第1897-1906页，2017年。一、二[9] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。在ICLR，2017。一、二[10] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。参见ECCV，第694-711页。施普林格，2016年。一、二、五[11] 沈发龙，严水城，曾刚。通过Meta网络的神经风格转移。在CVPR中，第8061-8069页，2018年。一、二、五、六、七[12] Dmitry Ulyanov，Vadim Lebedev，Andrea Vedaldi，andVic- tor S Lempitsky.纹理网络：纹理和风格化图像的前馈合成。在ICML，第1卷，第4页，2016中。一、二[13] Hang Zhang和Kristin Dana实时传输的多风格生成网络。在ECCVW，2018年。一、二[14] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。改进的纹理网络：最大化前馈风格化和纹理合成的质量和多样性。在CVPR中，第6924-6932页，2017年。一、二[15] 永成景、杨柳、叶州杨、迅雷风、益州余、大成涛、明丽宋。具有自适应感受野的可控制的快速风格迁移。在ECCV，第238-254页，2018年。一、二[16] 吉尔·莱斯·普伊和帕特里克·佩雷斯。一个灵活的通用解决方案，用于快速风格转换。在CVPR中，第8963-8972页，2019年。一、二14627[17] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。在NIPS，第386-396页，2017年。一、二、五、六、七[18] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在ICCV，第1501-1510页，2017年。一、二、五、六、七[19] Xueting Li ， Sifei Liu ， Jan Kautz ， and Ming-HsuanYang.学习线性变换以实现快速图像和视频风格转换。在CVPR中，第3809-3817页，2019年。一、二、五、六、七[20] Hao Wang ， Xiaodan Liang ， Hao Zhang ， Dit-YanYeung，and Eric P Xing.Zm-net：实时零拍图像处理网络。arXiv预印本arXiv：1703.07255，2017。一、二[21] Chunjin Song ， Zhijie Wu ， Yang Zhou ， MinglunGong，and Hui Huang.Etnet：用于任意样式传输的错误转换网络在NIPS，第668-677页，2019年。一、二[22] Ming Lu ，Hao Zhao，Anbang Yao ，Yurong Chen，Feng Xu，and Li Zhang.通用样式转换的封闭形式解决方案。在ICCV，第5952-5961页，2019年。一、二[23] Dae Young Park和Kwang Hee Lee用风格-注意网络进行任意风格转换。在CVPR中，第5880- 5888页，2019年。一、二、五、六、七[24] 田启晨和马克施密特。快速的基于补丁的任意风格转移。arXiv预印本arXiv：1612.04337，2016。一、二[25] 卢胜，林紫怡，邵静，王晓刚头像-网络：通过特征装饰的多尺度零激发样式传递。在CVPR中，第8242-8250页，2018年。一二四五七[26] 顾沭阳、陈聪良、景辽、卢远。复杂的风格转换和深层的功能重组。在CVPR中，第8222-8231页，2018年。1[27] Yuan Yao ， Jianqiang Ren ， Xuansong Xie ， WeidongLiu，Yong-Jin Liu，and Jun Wang.注意力感知的多笔划风格转移。在CVPR中，第1467-1475页，2019年。一、二、五[28] Yulun Zhang ， Chen Fang ， Yilin Wang ， ZhaowenWang，Zhe Lin，Yun Fu，and Jimei Yang.通过图形切割进行多模态风格转换。在ICCV，第5943-5951页，2019年。一、二[29] Jing Liao，Yuan Yao，Lu Yuan，Gang Hua，and SingBing Kang.通过深层意象类比实现视觉属性转移。ACM Transactions on Graphics（TOG），36（4）：1一、二[30] Roey Mechrez，Itamar Talmi，and Lihi Zelnik-Manor.非对齐数据图像变换的上下文损失。在ECCV，第768-783页，2018年。一、二[31] Zhizhong Wang，Lei Zhao，Sihuan Lin，Qihang Mo，Huiming Zhang ， Wei Xing ， and Dongming Lu.Glstylenet：结合全球和本地金字塔特征的精致风格转移。IET计算机视觉，14（8）：575-586，2020。1[32] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， LukaszKaiser，and Illia Polosukhin.注意力是你所需要的。参见NIPS，第5998二、三、七14628[33] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014. 二、五[34] K.尼克尔画家通过号码https：//www.kaggle.com/c/painter-by-numbers，2016.二、五[35] 邓莹莹，唐凡，董伟明，孙文，黄飞跃，徐长生。通过多适应网络传输任意风格。在ACM Multimedia，第2719二六七[36] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。二、五[37] Len Du.神经风格迁移到底需要多少深度学习？消融研究。在WACV，第3150-3159页，2020中。2[38] 李阳浩，王乃彦，刘

下载后可阅读完整内容，剩余1页未读，立即下载