使用Transformers进行图像风格转换——StyTr2

123 浏览量更新于2023-10-25 收藏 6.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11326StyTr2：使用Transformers进行图像风格转换邓莹莹1，2唐凡3董伟明1，2* 马重阳4潘兴佳2王磊5徐长生1，21中国科学院大学人工智能学院2中国科学院自动化研究所NLPR3吉林大学人工智能学院4快手科技5CIPUC摘要图像风格转换的目标是在保持原始内容的同时，呈现具有由风格参考引导的艺术特征的图像。由于地点在卷积神经网络（CNN）中，提取和保持输入图像的全局信息是困难的。因此，传统的神经风格迁移方法面临着偏见的内容表示。为了解决这个关键问题，我们考虑到输入图像的长程依赖关系，通过提出一个Transformer来进行图像风格转换层_1第二层第三层称为StyTr2的方法。与用于其他视觉任务的视觉转换器相比，StyTr2包含两个不同的转换器编码器来生成特定于域的分别用于内容和样式的序列在编码器之后，采用多层Transformer解码器根据风格序列对内容序列进行我们还分析了现有的位置编码方法的不足，并提出了内容感知的位置编码（CAPE），这是尺度不变，更适合于图像风格传输任务。定性和定量实验证明了所提出的StyTr2与最先进的基于CNN和基于流的方法相比的有效性。代码和型号可在https://github.com/diyiiyiii/StyTR-2 上获得。1. 介绍图像风格转换是一个有趣且实用的研究课题，可以使用引用的风格图像来渲染内容图像。基于纹理合成，transmart-style transfer方法[5，18]可以生成生动的风格化图像，但由于笔划外观和绘画过程的公式化，计算复杂。之后，研究人员专注于基于卷积神经网络（CNN）的神经风格转移。基于优化的风格转换方法[19，31，47]迭代地呈现具有学习的风格表示的输入内容图像。遵循编码器-传输-解码器流水线，任意*共同通讯作者图1.使用最左边的图像作为输入内容和样式转换任务中的样式引用（a）基于Gatys等人的预训练VGG的特征可视化。[19 ]第10段。(b)我们的Transformer解码器的功能可视化。风格转移网络[2，3，22，29，30，33，38，52，54]通过将内容图像的二阶统计量与风格图像对齐来优化，并且可以以前馈方式有效地生成风格化结果。然而，这些方法在某些情况下不能达到令人满意的结果，由于有限的能力来建模内容和风格之间的关系。为了克服这个问题，最近的几种方法[13，14，35，39，63]应用了自我注意机制以改善风格化结果。上述风格转移方法利用CNN来学习风格和内容表示。由于卷积运算的接收域有限，CNN在没有足够层的情况下无法捕获长程依赖性。然而，网络深度的增加可能会导致特征分辨率和细节的损失[24]。细节的缺失会在内容结构的保持和风格的展现方面破坏风格化的效果如图1（a）所示，在卷积特征提取的过程中省略了一些细节。An等人[1]最近表明，典型的基于CNN的风格转移方法通过可视化风格化过程的内容泄漏而偏向于内容表示，即，在重复几轮风格化操作之后，（一）conv1_1 {conv1_1，conv2_1}{conv1_1，.，conv4_1}戴帽子的女人亨利·马蒂斯1905.（b）第（1）款11327内容将发生巨大变化。随着Transformer [51]在自然语言处理（NLP）中的成功，基于transformer的架构已被用于各种视觉任务。将Transformer应用于计算机视觉的魅力在于两个方面。首先，它是自由的学习的全局信息的输入与自我注意机制的帮助。因此，可以容易地在每个层内获得整体理解。其次，Transformer架构对输入形状中的关系进行建模[41]，并且不同的层提取类似的结构信息[46]（参见图1（b））。因此，Transformer具有很强的表示能力，可以捕获精确的内容表示，避免细节丢失。因此，生成的结构可以被很好地保存。在这项工作中，我们的目标是消除基于CNN的风格转移方法的偏见表示问题，并提出了一种新的图像StyleTr ansferTr ansformer框架，称为StyTr2。与原始的Transformer不同，我们在StyTr2框架中设计了两个基于transformer的编码器来获取特定于域的信息。在编码器之后，Transformer解码器用于渐进地生成图像块的输出序列。此外，对于NLP提出的位置编码方法，我们提出了两个考虑：（1）不同于按逻辑排序的句子，图像序列标记与图像内容的语义信息相关联;（2）对于风格转换任务，我们的目标是生成任何分辨率的风格化图像图像分辨率的指数级增加会导致位置编码的显著变化，导致位置偏差大，输出质量变差。通常，用于视觉任务的期望位置编码应当以输入内容为条件，同时对图像尺度变换是不变的。因此，我们提出了一个内容感知的位置编码方案（CAPE），学习的位置编码的基础上，图像的语义特征和动态扩展的位置，以适应不同的图像大小。总而言之，我们的主要贡献包括：• 一个基于transformer的风格转换框架，称为StyTr2，用于生成风格化结果，并保留输入内容图像的结构和细节。• 内容感知位置编码方案，其是比例不变的并且适合于样式转移任务。• 综合实验表明，StyTr2优于基线方法，并取得了令人满意的内容结构和风格模式的突出成果。2. 相关工作图像风格转移。Gatys等人[19]发现CNN中的分层可用于提取图像内容结构和样式纹理信息，并提出了一种基于优化的方法来迭代地生成风格化图像一些方法[25，28]采用端到端模型来实现一种特定风格的实时风格传输对于更高效的应用程序，[7，17，32]在一个模型中组合多种样式并实现出色的风格化结果。更一般地，任意风格转移近年来获得更多关注。Huang等人.[22]提出了一种自适应实例规范化（AdaIN），用样式的均值和方差代替内容的AdaIN被广泛用于图像生成任务[2，21，26，33，52]，以融合内容和风格特征。Li等[29]设计一个颜色和着色转换（WCT）来对齐内容和样式特征的二阶统计量。而且，许多方法[1，50，57]也旨在在效率的前提下促进发电效果。基于CNN模型，[13，14，35，39，56]将自注意力引入编码器-传输-解码器框架，以实现更好的特征融合。Chen等人[9]提出了一种包含两种对比度损失的内外风格转换算法（IEST），该算法能产生和谐满意的风格化效果。然而，现有的编码器-传输-解码器风格的传输方法不能处理长范围的依赖关系，并可能导致丢失的细节。用于视觉任务的Transformer。作为递归和卷积神经网络的替代方案，Transformer [51]首先被提出用于机器翻译任务，并已广泛用于各种NLP任务[4，11，15，36，43，44]。受NLP中Transformer突破的启发，许多研究人员开发了用于各种图像/视频相关任务的视觉转换器[60]，包括对象检测[6，12，65]，语义分割[53，64]，图像分类[10，16，37，55，61]，图像处理和生成[8，10，24]。与完全卷积网络相比，基于变换器的网络可以通过使用自注意机制来捕获在本文中，我们介绍了基于变换器的结构的风格转移任务，可以被看作是序列到序列生成的图像补丁。位置编码。位置编码通常用于基于变换器的模型中以提供位置信息。有两种类型的位置编码被使用：函数和参数位置编码。功能位置编码通过预定义函数（诸如正弦函数[51]）来计算。参数位置编码通过模型训练来学习[15]。为了确保变换器的平移不变性，相对位置编码[20，45，48，62]考虑了图像序列中标记[59]和[23]还包括基于CNN的模型中的位置编码作为空间归纳。在本文中，我们提出了一个内容感知的位置编码机制，是规模不变的，更适合于图像生成任务。113282⇥··P不XQ我Q我Q我Q我MM2D添加规范FFN添加规范多头注意V K Q添加规范多头注意V K Q样式内容(a) Transformer解码器层（b）StyTr2网络图2.我们的StyTr2框架的整体管道我们将内容和样式图像分割成补丁，并使用线性投影来获得补丁序列。然后，添加有CAPE的内容序列被馈送到内容Transformer编码器，而样式序列被馈送到样式Transformer编码器。在两个Transformer编码器之后，采用多层Transformer解码器根据样式序列对内容序列进行样式化最后，我们使用渐进式上采样解码器来获得最终输出。3. 我们的方法为了利用变压器的能力，以捕捉长期依赖的图像特征的风格转移，我们制定了一个顺序补丁生成任务的问题。给定一个内容图像I cRHW 3和风格图像Is我们将两个图像分割成补丁（类似于NLP任务中的令牌），并使用线性投影层将输入补丁投影到顺序特征嵌入E中。0 1 2 300 1011 23(a)（b）第（1）款图3.内容感知位置编码的示意图形状为L<$C，其中L=H<$W是E的长度，m= 8是斑块大小，CM m是的维度E. 的空间距离。因此，我们提出两个重要的我们的框架的整体结构如图所示二、3.1. 内容感知位置编码当使用基于变换器的模型时，位置编码（PE）应当被包括在输入序列中以获取结构信息。根据[51]，第i个补丁和第j个补丁的注意力得分计算为：Ai，j=（（Ei+Pi）Wq）T（（Ej+Pj）Wk）问题. 首先，对于图像生成任务，我们是否应该在计算PE时考虑图像语义？传统的PE是为逻辑排序的句子设计的，但图像块是根据内容组织的。我们将两个贴片之间的距离表示为d（，）。在图的右侧3（a）差异在d（（x0，y3），（x1，y3））之间（红色和灰色斑块）并且d（（x0，y3），（x3，y3））（红色和蓝色块）应该小，因为我们期望类似的内容块具有类似的风格化结果。第二，传统=WTETEjWk+WTETPjWk（1）+WTPTEjWk+WTPTPjWk，正弦位置编码仍然适用于视觉任务时，输入图像的大小呈指数增长如图所示在图3（a）中，当图像被调整大小时，其中Wq和Wk是查询和键的参数矩阵计算， i表示第i个一维PE。在2D情况下，在pixel（xi，yi）处的片与在pixel（xj，yj）处的片之间的位置相对关系是：P（xi，yi）P（xj，yj）第四百零一章二=[cos（w（x-x））+cos（w（y-y））]，在相同位置的块（由小的蓝色矩形描绘）之间的距离可以显著地改变，这可能不适合视觉任务中的多尺度方法。为此，我们提出了内容感知的位置编码（CAPE），这是规模不变的，更适合于风格转移任务。与正弦PE只考虑斑块之间的相对距离不同，CAPE是k=0克吉伊克吉伊以图像内容的语义为条件。我们假设使用n×n位置编码足以表示其中wk=1/100002k/128，d=512。的位置两个面片之间的相对关系仅取决于图像的语义对于图像I2RHW 3，我们将固定的nn位置编码重新缩放为HW，如下所示：Transformer解码器Transformer解码器层样式值密钥库Cape۩线性投影Transformer编码器线性投影解码器Transformer编码器11329PEPE联系我们{E P E P E P}64 ⇥2LFCAKLLKLQKv如图3（b）所示。以这种方式，各种图像尺度将不会影响两个块之间的空间关系。图块（ x ， y ）的CAPE，即PCA（x，y），表示为：PL= Fpos（AvgPoolnn（ E）），Transformer解码器。我们的Transformer解码器用于以回归的方式根据编码的样式序列Ys来翻译编码的内容序列Yc。与NLP任务中的自回归过程不同，我们将所有连续的补丁作为一次输入来预测S sP（x，y）=XX（aP（x， y）），（3）k=0l =0输出. 如图3（a）、每个Transformer解码器层包含两个MSA层和一个FFN。输入我们的Transformer解码器包括编码的内容其中AvgPoolnn是平均池化函数，Fpos是用作可学习位置编码函数的1×1卷积运算，L是遵循以下序列的可学习PE在我们的实验中，n被设置为18，kl是插值权重，并且s是相邻块的数量。最后，我们将CAi添加到i，作为第i块在像素位置（x，y）处的最终特征嵌入。3.2. 样式转换TransformerTransformer编码器。我们通过使用基于Transformer的结构来学习序列视觉表示，从而捕获图像块的长程依赖性。与其他视觉任务不同[6，8，12]，风格转移任务的输入来自两个不同的领域，分别对应于自然图像和艺术绘画因此，StyTr2有两个Transformer编码器来编码特定于域的特征，这些特征用于在下一阶段将序列从一个域转换到另一个域。给定输入内容序列的嵌入，c1+CA1，c2+CA2，...，CL+CAL，我们先把它输入到Transformer编码器。编码器的每一层由多头自注意模块（MSA）和前馈网络（FFN）组成输入序列被编码为查询（Q）、键（K）和值（V）：Q=Zc Wq，K=Zc Wk，V=Zc Wv，（4）其中W，W，W2RC头。多头注意序列，即， Y={Yc1+PCA1，Yc2+PCA2，.，YcL+CA1，并且样式序列Y s= Y s1，Y s2，.， Y sL. 我们使用内容序列来生成查询Q，并使用生成键K和值V的样式序列：Q=YcWq，K=YsWk，V=YsWv。（七）然后，Transformer解码器的输出序列X可以通过下式计算：X00=FMSA（Q，K，V） +Q，X0=FMSA（X00+PCA，K，V） +X00，（8）X= FFF N（X0） +X0。层归一化（LN）也应用于每个块的结尾[51]。CNN解码器。Transformer的输出序列X是HWC的形状。我们使用三层CNN解码器来细化Transformer的输出，而不是直接对输出序列进行上采样来构造最终结果解码器跟随[64]。对于每一层，我们通过采用一系列操作来扩展规模，包括 3×3 Conv+ ReLU+ 2×2Upsample。最后，我们可以得到最终结果的分辨率为H<$W<$3。然后计算如下：FMSA（Q，K，V）= Concat（Attention1（Q，K，V），.. .，注意N（Q，K，V））Wo，（五）3.3. 网络优化生成的结果应该保持原始内容结构和参考样式模式。所以我们其中Wo公司简介是可学习的参数，N是C构建两个不同的感知损失项来测量输出图像Io和输入图像I o之间的内容差异注意头的数量，并且d头=N。应用剩余连接以获得编码内容序列Yc：内容图像Ic以及Io和输入样式引用Is之间的样式差异。我们使用由预训练的VGG提取的特征图Yc0=FMSA（Q，K，V）+Q，Yc=FFFN（Yc0） +Yc0，（六）模型来构建内容损失和风格损失[1，22]。内容感知损失c被定义为：其中FF N（Yc0）=max（0，Yc0W1+b1）W2+b2。层在每个块之后应用归一化（LN）[51]。类似地，输入样式序列11330Nl·L=1Xk$（I）-$（I）k，（9）Z s={Es1，Es2，.，EsL}被编码为序列YscNlIoi=0时我C2遵循相同的计算过程，除了不考虑位置编码，因为我们不需要在最终输出中维护输入样式的结构。其中$i（）表示从预训练的VGG 19中的第i层提取的特征，并且Nl是层的数量。11331··⇥SNl我 O我 SXL决议我们StyleFormerIESTAdaAttNArtFlowMCC桅杆个aamSANet化身Adain256 ⇥2560.1160.0130.0650.1040.1420.0130.0302.0740.0150.2600.007512 ⇥5120.6610.0260.0920.2130.4180.0150.0962.1730.0190.4700.008表1.两种输出分辨率下不同方法的平均推理时间（秒）风格感知损失Ls被定义为：1NlL=kµ（$（I））-µ（$（I））ki=0时风格转移方法，但可以应用于图像，而不会损坏生成的结果。ArtFlow [1]设计了一个基于流的网络，以最大限度地减少图像重建误差，（十）恢复偏差AdaAttN [35]在每个点的基础上执行专注的归一化，以进行特征分布对齐。+kσ（$i（Io））-σ（$i（Is））k2，其中μ（）和σ（）分别表示提取特征的均值和方差我们还采用身份丢失[39]来学习更丰富、更准确的内容和风格表示。具体来说，我们将两个相同的内容（样式）图像放入StyTr2中，生成的输出Icc（Iss）应该与输入Ic（Is）相同。因此，我们计算两个恒等损失项来度量Ic（Is）和Icc（Iss）之间的差异：Lid1=kIcc-Ick2+kIss-Isk2，NlIEST [9]利用对比学习和外部记忆来提高视觉质量。StyleFormer [56]将Transformer机制引入传统的基于CNN的编码器-解码器流水线。相比之下，我们提出了一个纯粹的基于转换器的架构，以解决由卷积引起的丢失内容细节的问题定时信息。我们的模型在两个NVIDIA Tesla P100 GPU和两个NVIDIA GeForce RTX 3090 GPU上训练了大约一天。在表1中，我们使用一个Tesla P100比较了两种输出分辨率下L=1Xk$（I）-$（I）k+k$（I）-$（I）k。ID2Ni=0时i cc我C2伊苏我S2（十一）定性评价。图4示出了根据本发明的实施例的视觉结果。质的比较。由于简化了校准通过最小化以下函数来优化整个网络L=λcLc+λsLs+ λid1Lid1+ λid2Lid2。（十二）我们将λc、λs、λid1和λid2设置为10、7、50和1，以减轻幅度差异的影响。4. 实验4.1. 实现细节MS-COCO [34]用作内容数据集，WikiArt [42]用作样式数据集。在训练阶段，所有图像都被随机裁剪成256 256的固定分辨率，而在测试时支持任何图像分辨率。我们采用Adam优化器[27]，学习率设置为0。0005使用预热调节策略[58]。我们将批量大小设置为8，并使用160，000次迭代来训练我们的网络。4.2. 与SOTA方法的比较我们将我们的方法与AdaIN [22]，Avater [49]，SANet [39]，AAMS [63]，MAST [14]，MCC [13]，Art进行比较。[1] ， AdaAttN [35] ， IEST [9] 和 StyleFormer [56] 。AdaIN、Avater、SANet、AAMS和MAST是典型的基于CNN的图像风格化方法.MCC [13]是一个视频211332AdaIN [22]的结果没有足够的风格模式。程式化图像呈现影响整体传输质量的裂缝伪影。AAMS [63]专注于内容图像的主要结构（指注意力地图中的突出区域），但忽略了其他部分。因此，二级结构不能很好地维持。基于补丁交换的方法导致过度模糊输出的伪像。MCC [13]使用自注意力的变换公式，但是不存在限制网络输出最大值的非线性操作导致对象边界周围的溢出问题。基于流的模型特征表示能力有限，ArtFlow [1]的结果普遍存在风格不足或不准确的问题。程式化图像的边界可能由于数值溢出而呈现不期望的图案。AdaAttN [35]的逐点基础导致风格退化，因此生成的结果中的风格化模式与输入参考不一致。IEST [9]的视觉质量优于其他方法。但是，生成结果的样式可能与输入样式引用（第1行和第3行）不一致。在基于CNN的“编码器-解码器”流水线之后相比之下，StyTr2利用基于transformer的网络，该网络具有更好的特征表示，可以捕获输入图像特征的长期依赖关系，并避免11333OO风格内容我们StyleFormerIESTAdaAttNArtFlowMCC桅杆个aamSANet化身Adain图4.使用不同方法的风格迁移结果的定性比较。我们StyleFormerIESTAdaAttNArtFlowMCC桅杆个aamSANet化身AdainLc编号1.912.861.972.292.132.382.462.442.442.842.34Ls编号1.472.913.472.453.081.561.553.181.182.861.91表2.定量比较。我们通过不同的方法计算结果的平均内容和风格损失值，以衡量输入内容和风格的保留情况。最好的结果以粗体显示，而次好的结果则用下划线标记。缺少内容和样式细节。因此，我们的结果可以实现保存良好的内容结构和理想的样式模式。定量评价。我们计算生成的结果和输入内容图像之间的内容差异以及生成的结果和输入样式图像之间的样式差异直观地，差异越小，输入内容/样式被保留得越好。我们随机选择40个样式图像和20个内容图像来生成800个风格化图像。对于每种方法，我们基于等式（1）计算内容差异。（9）并根据等式（10）计算风格（十）、表2显示了相应的定量结果。总的来说，我们的方法实现了最低的内容损失，IEST [9]是第二好的。然而，如在上面的定性评估中所讨论的，IEST的样式损失是最高的，因为生成的结果的样式外观在风格损失方面，SANet [39]和StyTr2优于其他方法. 因此，我们的结果可以有效地保持输入内容和参考风格。4.3. 内容物泄漏内容泄漏问题通常发生在风格化过程中，因为基于CNN的特征表示可能无法充分捕获图像内容中的细节。这种类型的人工制品在重复几轮相同的风格化过程[1]后很容易被人眼发现，其由以下公式表示：I i= G i（. - 是的 G2（G1（I c，I s），Is）.. 、.、（13）其中G i是第i轮的生成器，I i是对应的风格化结果。为了解决内容泄漏问题，Anet al.[1]提出了一种可逆网络来取代基于CNN的模型。然而，严格的可逆性可能不适合生成任务[40]。此外，ArtFlow的鲁棒性和生成的视觉效果可能会由于功能11334⇥⇥⇥⇠我们的风格前IEST AdaAttN ArtFlow MCC MAST AAMS SANet Avatar AdaIN图5.内容泄漏问题的可视化顶部/底部：分别在第1轮和第20轮之后使用某种方法运行相同风格化过程之后的结果表示.相比之下，我们利用基于转换器的架构的能力来捕获长距离的依赖关系。因此，我们的方法可以显着减轻内容泄漏问题。我们将StyTr2与基于CNN的方法和基于流的模型ArtFlow [1]进行了比较。图5展示了第1轮和第20轮试验后的相应结果。重复的程式化过程。如上一行所示，在第一轮之后，基于CNN的方法生成的内容结构受到了不同程度的破坏，但我们的结果仍然呈现出清晰的内容细节。虽然ArtFlow生成的结果保持了清晰的内容结构，但风格化的效果并不令人满意（例如，边缘缺陷和不适当的风格模式）。图5的底行示出了随着风格化过程的轮数增加，由基于CNN的方法生成的内容结构趋于模糊，而由我们的同样的问题也适用于StyleFormer，它也依赖于基于CNN的编码器-解码器流水线。因此，我们的模型捕获精确的内容表示，从而获得卓越的风格传输结果，同时有效地缓解内容泄漏问题。4.4. CAPE分析如3.1节所述，在计算PE时，我们应该考虑内容图像的语义信息。为了比较所提出的CAPE与正弦PE，这是没有语义感知，我们展示了两种情况下，输入的内容图像具有重复的模式或简单地拼贴重复一个图像四次。如图6所示，当使用正弦PE时，我们可以在最终结果将输入分辨率设置为256 256，这与用于训练的图像分辨率相同。此外，处理与训练示例不同的输入分辨率对于基于学习的方法通常是具有挑战性的。为此，一个理想的PE视觉任务应该是尺度不变的，但图像分辨率的急剧变化导致在传统的PE显着差异。我们在图7中比较了我们的CAPE与正弦PE。在第三行中，输入大小为512512、这是两倍的图像分辨率进行训练。因此，委员会认为，结果呈现出垂直轨道伪像Content Style正弦PE CAPE图6.使用具有重复模式的内容图像比较正弦PE和CAPE。位置偏差在第二行中，输入分辨率为256 256，与训练数据相同。相应的结果没有垂直轨迹的问题相比之下，我们的方法通过设计支持CAPE的任何输入分辨率。因此，我们在最后一行的结果图7呈现清晰的内容结构和适当的程式化模式。我们的补充材料中提供了其他消融研究。为了验证CAPE是否可以提供位置信息，我们在图8中显示了具有不同输入的CAPE。虽然两个CAPE并不相同，但它们具有与可学习PE [16]和正弦PE相似的编码行为，例如突出显示的对角线，重复和周期性模式。与可学习的PE不同，其中编码是以整个数据集为条件的，我们的CAPE动态编码不同的输入，因此可以很容易地推广到各种分辨率。4.5. 用户研究我们进行了用户研究，以进一步比较我们的方法。AdaAttN [35]，ArtFlow [1]，MCC [13]，AAMS [63]和[22]选择AdaIN作为基线。我们在定量比较中重复使用图像，并邀请100名参与者评估不同方法的结果参与者被告知我们的用户研究的目的和细节参与者包括52名男性和48名女性，年龄范围为19 - 45岁。给定一个内容图像和一个样式图像，我们展示了我们的方法生成的结果和另一个随机选择的方法的输出进行比较，风格内容第20第111335样式内容256×256正弦PE256×256Cape512×512正弦PE图7.使用两种不同分辨率的内容图像比较正弦PE和CAPE512×512CapeAdaAttNArtFlowMCC个aamAdain整体百分之四十四点八百分之二十五点七百分之二十五点五百分之十八点二23.5%内容百分之四十五点七百分之二十八点三百分之二十点六百分之十九点四百分之三十一点七可学体育正弦PECape风格百分之二十三点六百分之十六点七百分之二十七点八百分之十四点八13.5%图8.不同类型体育运动的标准化注意力得分。要求用户选择（1）哪个结果具有更好的风格化效果（2）哪个风格化结果更好地保留内容结构以及（3）哪个风格化结果更一致地传递风格模式。评选过程不设时间限制，但每道题的测评时间应超过30秒。每个参与者进行40轮比较，我们为每个问题收集4000张我们统计了现有方法优于我们的投票，并在表3中显示了统计结果。我们的方法在整体质量、内容保存和风格一致性这三个标准5. 结论在这项工作中，我们提出了一个新的框架，称为StyTr2，图像风格转移。我们的StyTr2包括一个内容Transformer编码器和一个样式Transformer编码器，用于捕获特定于域的远程信息。开发了一个Transformer解码器来翻译内容表3.用户研究结果。每一个数字分别代表在总体质量、内容保留和风格方面，相应方法比我们的方法更受青睐的票数百分比。基于参考样式序列的序列。我们还提出了一个内容感知的位置编码方案，是语义感知的，适合于尺度不变的视觉生成任务。作为使用可视化Transformer进行样式传输的第一个基线，StyTr2解决了基于CNN的模型的内容目前，我们的方法的测试时间速度不如一些基于CNN的方法快。从CNN中提取一些先验信息来加速计算将是一个有趣的未来方向。谢谢。本课题得到了国家重点科技攻关项目的资助。2020AAA0106200 ，由国家自然科学基金委员会在nos.61832016 ， U20B2070 ， 6210070958 ， 62102162 ， byCASIA-Tencent Youtu模式识别国家重点实验室开放项目。11336引用[1] Jie An，Siyu Huang，Yibing Song，Dejing Dou，WeiLiu，and Jiebo Luo. ArtFlow：无偏见的图像风格转换通过可逆的神经流在IEEE/CVF计算机视觉和模式识别会议（CVPR），第862-871页，2021年。一、二、四、五、六、七[2] Jie An，Tao Li，Haozhi Huang，Li Shen，Xuan Wang，Yongyi Tang，Jinwen Ma，Wei Liu，and Jiebo Luo.通过零通道修剪在高分辨率图像上实现实时通用样式传输。arXiv预印本arXiv：2006.09029，2020。一、二[3] 安介，熊浩一，君寰，罗杰博。通过神经结构搜索实现超快的真实感风格转换。在 AAAI 人工智能会议（AAAI），第10443-10450页，2020年。1[4] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSubbiah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan-tan ， Pranav Shyam ， Girish Sastry ， AmandaAskell，et al. Language models are few-shot learners.神经信息处理系统进展（NeurIPS），第1877-1901页，2020年。2[5] Stefan Bruckner和M Eduard Gröller。用于说明性体绘制的样式传递函数。 Computer Graphics Forum ， 26（3）：715-724，2007. 1[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在欧洲计算机视觉会议（ECCV），第213-229页，2020年。二、四[7] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第18972[8] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao.预训练的图像处理Transformer。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2021年。二、四[9] 陈海波，王志忠，张慧明，左志文，李爱林，邢伟，卢东明，等。艺术风格迁移与内外部学习和对比学习。神经信息处理系统进展（NeurIPS），2021年。二、五、六[10] Mark Chen，Alec Radford，Rewon Child，Jeffrey Wu，Heewoo Jun，David Luan，and Ilya Sutskever.从像素生成在国际机器学习会议（ICML），第1691-1703页，2020年。2[11] 戴宁，梁建泽，邱希鹏，黄宣静。风格转换器Transformer：不成对的文本风格转换，不使用分离的潜在表示。在2019年计算语言学协会（ACL）年会上。2[12] Zhigang Dai，Bolun Cai，Yugeng Lin，and Junying Chen.Up-detr：使用变压器进行对象检测的无监督预训练。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2021年。二、四[13] Yingying Deng ， Fan Tang ， Weiming Dong ， HaibinHuang，Chongyang Ma，and Changsheng Xu.通过多通道相关实现任意视频风格传输。在AAAI人工智能会议（AAAI），第1210-1217页，2021年。一、二、五、七[14] 邓莹莹，唐凡，董伟明，孙文，黄飞跃，徐长生。通过多适应网络传输任意风格。在ACM国际多媒体会议，第2719-2727页一、二、五[15] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向转换器的预训练在NAACL的诉讼中HLT，第4171-4186页，2019年。2[16] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.《一张图像值16x16个单词：大规模图像识别在国际会议上学习表示（ICLR），2021年。二、七[17] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。国际学习表征会议（International Conference on Learning Representations，ICLR），2016。2[18] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在 Proceedings of Annual Conference onComputer Graphics and Interactive Techniques ，第 341-346页1[19] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第2414-2423页，2016年。一、二[20] Pengcheng He ， Xiaodong Liu ， Jianfeng Gao ， andWeizhu Chen. Deberta：解码增强的bert，注意力分散。2021年国际学习表征会议（International Conference onLearning2[21] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV），第172-189页，2018年。2[22] 黄勋和贝隆吉·塞尔日。任意风格转换以自适应实例规范化实时执行。在 IEEE 国际计算机视觉会议（ICCV），第1501-1510页一二四五七[23] Md Amirul Islam，Sen Jia和Neil D. B.布鲁斯卷积神经网络编码了多少位置信息在国际会议上学习表示（ICLR），2020年。2[24] YifanJiang，ShiyuChang，andZhangyangWang.TransGAN：两个纯粹的变形金刚可以组成一个强大的GAN，并且可以扩展。神经信息处理系统进展，2021年。一、二[25] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议（ECCV）中，第694-711页。施普林格，2016年。2[26] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第4401-4410页，2019年。211337[27] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[28] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成在欧洲计算机视觉会议（ECCV），第702-716页，2016年。2[29] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。在先进的神经信息处理系统（NeurIPS），第386-396页，2017。一、二[30] Yijun Li ， Ming-Yu Liu ， Xuting Li ， M

下载后可阅读完整内容，剩余1页未读，立即下载