DRB-GAN：动态ResBlock用于艺术风格传输的模型

131 浏览量更新于2023-10-13 收藏 4.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6383DRB-GAN：一个用于艺术风格转移的徐文举1，龙成江2，王瑞生3，王广辉4*1OPPO美国研究中心，InnoPeakTechnology Inc，Palo Alto，CA，USA2 JD Finance AmericaCorporation，Mountain View，CA，USA3加拿大阿尔伯塔省卡尔加里大学地理信息工程系4加拿大安大略省多伦多瑞尔森大学计算机科学系xuwenju123@gmail.com，cjfykx@gmail.com，wangcs@ryerson.ca，ruiswang@ucalgary.ca摘要本文提出了一种用于艺术风格传输的动态ResBlock生成风格代码被建模为连接风格编码网络和风格传递网络的动态ResBlocks的共享参数在风格编码网络中，使用风格类别感知注意机制来参与风格特征表示以生成风格代码。在风格传递网络中，多个动态ResBlocks被设计为集成风格代码和提取的CNN语义特征，然后馈送到空间窗口层实例归一化（SW-LIN）解码器中，这使得能够实现具有艺术风格传递的高质量合成图像。此外，设计了风格集合条件判别器，使DRB-GAN模型在训练阶段具有任意风格迁移和集合风格迁移的能力。无论是任意风格的传输还是集合风格的传输，大量的实验都有力地证明了我们提出的DRB-GAN优于最先进的方法，并在视觉质量和效率方面表现出其优越的性能。我们的源代码可在www.example.com获得https://github.com/xuwenju123/DRB-GAN。1. 介绍艺术风格转换是指合成一幅图像，共享结构相似的内容图像，体现艺术风格的风格。这里的艺术风格是指艺术家的绘画风格，艺术形象是指同一艺术家创作的一组形象，每一个形象都有其独特的个性。如图1所示，样式图像1和样式集合1中的所有样式图像都是*这项工作由Chengjiang Long和Guanghui Wang监督图1.两种类型的艺术风格转移的示例：（a）任意风格转移和（b）集合风格转移。注意，样式图像1和样式集合1来自艺术家Pablo Picasso，并且样式图像2和样式集合2来自艺术家浮世绘。我们提出的DRB-GAN实验表现良好的任意风格的传输和收集风格的传输。毕加索创作的绘画，其风格包括色彩、笔触、形式或光线的运用。因此，一个理想的艺术风格转换应该能够合成具有一致风格流派的图像，并考虑到艺术家的不同作品。为了促进更有效的艺术风格转换，一些现有的作品已经探索了任意风格转换[17，20]，其严重依赖于仅一个任意风格图像。因此，它们不能有效地产生反映对艺术作品集的以颜色、比例和笔划大小为特征的艺术风格的理解的一堆结果。最近在生成对抗网络（GANs）[55，41，55，41，5，36]上的一些努力已经成功地实现了集合风格转移，它将风格集合中的每个风格图像视为一个域。然而，现有的集合风格转换方法只识别和转换领域主导风格线索，缺乏探索风格多样性的灵活性在本文中，我们提出了一种用于艺术风格传输的动态ResBlock生成对抗网络（DRB-GAN）。如图2所示，它由样式编码网络、样式传输网络和样式col组成。6384选择判别网络特别是，受DIN [20]和StyleGAN [23]思想的启发，我们将“样式代码”建模注意，每个DRB由卷积层、动态卷积[3]层、ReLU层、AdaIN [17]层和具有残余连接的实例归一化层这样的处理是用心地调整用于动态卷积的共享参数并且自适应地调整用于AdaIN的仿射参数，以确保内容图像和风格图像之间的瓶颈特征空间中的统计匹配。我们将一个固定的预训练VGG编码器[43]和一个可学习的编码器作为风格编码网络中的特征提取器，以捕获风格类感知的特征表示。输出的风格类感知概率可以用作注意力权重，以注意用于风格代码重新校准的风格特征。由于经由样式集合中的图像来学习样式类别感知注意请注意，我们的注意力机制实施了“风格代码”的更好聚类，这不同于先前的基于类激活映射的多个DRB利用来自风格编码网络的特别地，我们从[28]中借用局部特征归一化的思想，并设计了一个SW-LIN函数，该函数动态地将局部通道和逐层归一化与每个解码器块中的可学习参数相在空间窗口约束下，我们的SW-LIN能够灵活地移动特征空间中的均值和方差。因此，我们的SW-LIN解码器可以避免可能的文物，并保留的能力，synn- thesize高分辨率风格化。由于我们可以对风格码应用加权平均以获得此外，我们的判别网络采取几个风格的图像采样，从同一艺术家的目标风格集合作为参考，erences，以确保在特征空间的一致性结合感知监督，我们设计的识别器为我们的DRB-GAN提供了良好的指导，使我们逐渐拥有任意风格迁移和集合风格迁移的能力，在训练阶段缩小了两者的差距。通过大量的实验，我们已经证明了我们提出的DRB-GAN对任意风格传输和集合风格传输的有效性。几个方面区分我们的工作从以前的风格转移模型[41，28，44]。首先，我们的DRB-GAN引入了一种新的艺术风格传输原型，其中其次，我们引入了一种风格类感知的注意机制，用于风格代码的重新校准，然后采用精心设计的多个动态ResBlocks集成的风格代码和提取的语义特征，以实现艺术风格的转移时，生成高质量的合成图像。最后，DRB-GAN的判别网络充分利用了从目标集合中采样的风格图像在训练阶段，通过知觉监督，可以很好地保持和提高任意风格迁移的能力。定量和定性实验都证明了所提出的DRB-GAN的有效性和效率，以及其在艺术风格迁移中的优越性能，无论是任意还是集合风格迁移。2. 相关工作生成对抗网络（GANs）[11]已成功应用于视觉识别[14，37，15，39，39]。38，16]、对象检测[19]、图像生成[45，12，23，48，47]，图像平移[56，29，25]，阴影重建moval [6，46，52，51]、图像字幕[1，7]等。这些GAN模型经过训练，以最大限度地减少训练数据和未观察到的generations的分布我们的GAN模型设计有一个特殊的判别器，它通过从目标集合中提取相似的图像作为参考来判断生成的图像任意样式传输。Gatys等人[10]首次采用预先训练的神经网络来优化合成尺寸的图像。然而，该方法在像素空间中低效地搜索数值解。为了解决这个问题，最近的方法依赖于一个可学习的神经网络来匹配特征空间中的统计信息。最早的Per-Style-Per-Model（PSPM）算法为一个特定的样式图像训练单个模型[21]。而每模型多样式（MSPM）算法被提出[50，49，2]以使用一个模型用于多个样式图像。例如，StyleBank [2]使用一个单一模型来合并多个样式图像的特征表示。最近，提出了Arbitrary-Style-Per-Model（ASPM）算法[32，4，30]，以在一个统一模型中传输任意新样式。[42 ]第42话：一个人6385∈∈图2.概述了所提出的DRB-GAN，其由风格编码网络、风格传输网络和判别网络组成被建模为动态ResBlocks的共享参数的样式代码是来自样式编码网络的输出，其中预训练的VGG编码器和可学习编码器的组合作为特征提取器。一个风格类感知的注意力机制被用来重新校准的风格代码。然后，最终的样式代码被馈送到样式传输网络中，该网络被设计为具有多个精心设计的动态ResBlocks的编码器-解码器结构。用于基于所述样式图像生成网络参数的网络参数。AdaIN [17]和DIN [20]方法采用条件实例归一化来动态生成实例归一化层中的仿射参数CST [44]引入了一个统一的有条件风格迁移模型。以不同的方式，Liet al.[31]在风格特征上利用白化和着色变换（WCT）。然而，这些风格转移算法将一个单独的风格图像视为一个风格。这种假设忽略了艺术家的艺术收藏的概念相反，我们的模型采用新颖的动态ResBlocks来有效地处理艺术风格转移任务。收藏风格转移。集合风格转移方法[8，5，35]在图像集合或域上工作。它们建立在GAN的基础上，将输入映射到不同的域。我们将这种类型的方法称为每域每模型（PDPM）算法。例如，CycleGAN [55]采用一个生成器将图像转换到另一个域，并使用另一个生成器将它们转换回循环一致性。AST [41]扩展了基于GAN的模型，用于高分辨率的艺术风格转移。CSD [28]介绍了一个内容转换块，以保留合成图像中的最近的工作[18，36]建议处理多域翻译任务。相比之下，我们提出的方法模型的因此，我们将我们的母亲称为多域每模型（MDPM）方法。3. 该方法如图2所示，我们的DRB-GAN由三个网络组成，即一个风格编码网络和一个风格转换网络构成图像生成器G，一个判别网络作为判别器D，保证生成的图像具有与风格一致的期望风格收藏中的图片让我们使用下标c来表示第c个样式。给定从N个不同风格图像集合中随机采样的内容图像x X和任意风格图像yc Y，我们的目标是利用生成器G传送内容图像以产生期望的合成图像x~c，从而经由鉴别器D确保与风格图像yc的一致风格。3.1. 具有风格类感知注意力如图2所示，我们对样式代码进行建模作为动态ResBlocks的共享超参数，其被设计为在残差结构[13]中集成动态卷积（ DConv ）和自适应实例归一化（AdaIN）[17]。样式编码网络用于从样式图像生成样式代码以用于内容图像上的样式传递网络。注意力引导特征提取器。我们介绍了一个架构的风格编码的级联功能从一个预先训练的VGG编码器和一个可学习的编码器。可学习编码器中的参数被更新，而VGG编码器中的参数被固定。由于固定VGG网络是在COCO数据集上预先训练的[34]，它已经看到了许多具有各种纹理的图像，因此它具有全局属性和强大的泛化能力。考虑到COCO数据集与其他数据集之间的差距，具有固定编码器的网络很难拟合如此复杂的模型。因此，我们引入了一个可学习的编码器作为固定VGG编码器的补充，以提取风格的细微变化。受类别激活映射（CAM）[53]的启发，我们采用分类权重来重新校准我们编码的风格特征，表示为Fs。注意机制基于辅助分类器Dcls，其被训练以预测样式分类概率wc，其用于输入样式图像属于第c个类别的可能性然后，6386CcCc·ωγ、β·SWSWSW，φ√VarKKSW样式编码被重新校准为sc=ωc Fs，（1）然后将重新校准的样式编码特征馈送到设计为多层感知（ MLP ）的权重生成模块 H 中，以确定动态ResBlocks的参数值。用于任意样式传输的样式代码生成。给定重新校准的样式编码，该模块将参数生成为动态ResBlocks中的“样式代码”，其可以写为：{θω，θγ，β}={Hω（s），Hγ，β（s）}，（2）其中sc是样式特征，Hω（）是用于生成动态卷积[3]层的滤波器权重θc另一个MLPHy，β（）在AdaIN [17]层中创建仿射参数θc层中的参数是从样式编码网络动态生成的SW-LIN解码器。GAN模型倾向于在生成的样本中产生伪影[24]，这显著降低了其应用。许多研究者试图在解码器模块中用层规范化函数代替实例规范化函数来去除伪影。在研究了这些归一化操作之后，我们观察到实例归一化分别对每个特征图进行了归一化，从而潜在地破坏了在特征相对于彼此的幅度中发现的任何信息而层规范化操作将特征图一起规范化，从而潜在地破坏作为样式的表示的每个特征图。因此，我们为解码器块配备空间窗口层实例归一化（SW-LIN）函数，其将这些归一化函数与可学习参数ρ动态组合：集合风格转换的加权平均策略。我们引入了一个加权平均策略来扩展任意风格的编码集合风格的传输。具体地，我们基于同一艺术家的几幅代表性绘画和相应的权重π来计算对于集合中的第k个样式图像，权重πk由样式图像与SW-LIN（γ，β，ρ）=γ（ρφc+（1-ρ）φl）+β，（3）其中，γ、β是可学习参数，并且Φcl分别是逐通道、逐层归一化特征特别地，统计均值和方差是跨空间位置的窗口而不是整个输入张量h获得的。形式上，我们得到查询内容图像。因此，我们可以用公式表示h−Exi∈sw[h（xi）]（四）“φsw=xi∈sw.[h（xi）]{θ¯c，θ¯c1}={Σπ θc ，1Σπ θc|cN}，SW-LIN功能有助于我们的解码器灵活地归一化功能。因此，如果不修改ω γ，βKk=0kωkKk=0kγk，βk模型架构或超参数，我们的SW-LIN解码器可以去除伪影并保留以下功能：其中K是用于计算在测试阶段生成的权重的平均值，并且c指示目标样式域。我们的实验结果表明，我们的加权平均策略产生令人印象深刻的结果收集风格转移任务。3.2. 动态资源块型转移网络我们的风格传递网络包含用于对输入进行下采样的CNN编码器、多个动态残差块以及用于对输出进行上采样的空间窗口层实例归一化（SW-LIN）解码器使用不同的动态重新阻止。作为传输网络的核心，每个动态ResBlock由卷积层、动态卷积[3]层、ReLU层、AdaIN[17]层和具有残差结构的实例归一化层组成。它被设计成在残差块中集成动态卷积和自适应实例归一化层注意到所有合成高分辨率风格化。3.3. 任意和选择型传输的判别网络简单地回答一个真实或虚假的问题是不够的，以提供正确的监督，以生成器的目标是个人风格和收藏风格。为了解决这个问题，我们引入了一个新的条件判别器的风格图像的集合，鼓励生成的图像保持在任何风格流派的纹理。如图2所示，我们的集合鉴别器将生成的图像和从目标样式集合中采样的几个样式图像作为输入。特征提取部分为每个图像生成一个特征图，我们将它们按通道顺序连接起来。然后使用具有三个卷积层的小型网络来基于级联特征图评估质量。与条件GAN的判别器除了生成的图像之外还将类别标签作为额外的输入不同，我们的判别器将样式图像的集合作为参考，以6387确保特征空间的样式一致性。6388LCLc c M×JLl l2l l 2×C与所选择的风格图像和相应的生成的风格化图像之间的感知监督（参见等式7）一起工作，我们的鉴别器提供了良好的指导来训练生成器以用于任意和集合风格转移。因此，在训练阶段，任意型和集合型迁移之间的差距已经被平滑地缩小。3.4. 目标函数目标损失函数L以对抗损失Ladv、感知损失Lper和风格分类损失Lcls为流程来公式化L=Ladv+λperLper+λclsLcls（5）风格分类损失cls被用于风格编码网络中的辅助分类Dcls，以确保风格类别预测是正确的。Lcls= E yY，cN（−log D cls（c|y））。（九）4. 实验实作详细数据。我们的模型由Py- Torch [40]实现。它是在Place365 [54]数据集的624，777个内容图像和WikiArt [22]数据库的11个艺术绘画集合上训练的我们采用 Adam [26] 作为优化求解器。学习率设置为0.0001。我们训练模型进行600，000次迭代，批量大小为其中λ每和λCLS 是权重参数。为1. 训练图像通过随机旋转增强选择和水平翻转，然后调整大小和随机对抗性损失adv被设计为区分来自合成图像的块和来自属于相同风格集合的一组风格图像的块，即、Ladv=Eyc，ycY，cN[−logD（y，{y}）]768 768分辨率请注意，在测试过程中，我们的模型能够处理任意大小的图像我们根据经验设定λ c=1，λ s=0。02，λ cls=1，且λ vgg=1。基线方法。我们的DRB-GAN模型的目标是ii i=0c c M（六）以生成高分辨率的艺术风格化。我们来-+Ex<$c<$G（x），yc<$Y，c<$N[−log（1−D（x<$，{yj}j=0））]，其中M指示在每次迭代时由集合鉴别器在我们实验中，我们发现设置M=2足以获得良好的性能。感知损失per用于计算多个级别的风格损失以及风格图像和使用预训练的VGG网络生成的风格化图像之间的内容损失，其方式类似于先前的工作[33，9]，即。、Lper=λcLc+λsLs，（7）其中，通过匹配样式特征的平均值和标准偏差来计算样式损失Ls=ElN（（µc−µc）+（Gramc−Gramc）），将我们的DRB-GAN与最先进的方法进行对比，即，例如Gatys等的实例式传输方法。[10]，任意风格转换方法，包括AdaIN [17]，CST [44]和MetaNet[42]，以及集合风格转换方法，如AST [41]和CycleGAN [55]）。为了公平的比较，我们部署所有竞争的方法，大小为768- 768的图像上的风格转移，除非另有说明。请注意，我们使用作者公开发布的代码，并在相同的训练数据上训练评估指标。我们使用欺骗率来评估如何以及目标风格特征被转移到生成的图像。欺骗率被计算为由预先训练的艺术家分类网络为正确的艺术家预测的我们还进行了人类感知研究，以评估风格化结果的质量lyx~yx~内容保存和风格一致性的目标其中，NL是所涉及的层的数量（在这项工作中，我们使用 VGG 网络中的 Relu12 、 Relu22 、 Relu33 、Relu43和Relu51层以及第l层中的特征图此外，µand是均值，Gram表示相应特征图的Gram矩阵我们采取内容损失的优点是保持内容图像和合成图像之间的结构相似性内容损失是目标特征与输出图像的特征之间的欧几里德距离。Lc=Ex<$X，c<$N||φ（x）−φ（x~）||、（8）其中Φ表示Relu41层的特征。在训练阶段，使用目标域标签随机采样样式图像。然后，我们将内容图像转移到目标风格域，以便学习跨多个艺术风格域的所有映射。6389样式的4.1. 任意样式传输4.1.1定性评价图像风格化。我们在图3中呈现了不同风格迁移方法的定性结果以供比较。所有结果都是在高分辨率的图像上获得的。比较显示了我们的DRB-GAN在视觉质量方面图3（j）中的这些图像在区域中不包含伪影，并且最重要的是，它们保留了内容图像的结构相似性。相反，算法AdaIN和MetaNet不能生成锐利的细节和精细的笔划。我们还在AdaIN、Gatys和CycleGAN获得的那些图像中观察到不可忽略的人工结构。和模型CSD [28]6390×γ、β(a)（b）（c）（d）（e）（f）（g）（h）（i）（j）图3.不同模型的程式化结果的性能比较。从左到右分别是（a）内容图像、（b）样式图像、（c）CSD、（d）AST、（e）Gatys、（f）CycleGAN、（g）AdaIN、（h）MetaNet、（i）CST和（j）DRB-GAN的结果。和AST [41]未能将康定斯基风格（第三行）传输到内容图像。图4.莫奈（第一列）和梵高（最后一列）的给定风格样本之间的插值结果。放大的区域（第2行）表明，我们的方法不仅模仿颜色，而且还模仿特定于该风格的轮廓和纹理。样式插值。为了在不同风格的图像之间进行平滑过渡，我们对动态生成的权重进行线性插值。插值权重{θ<$ω，θ<$γ，β}的计算公式如下：{θ~ω，θ~γ，β}={αθc1+（1-α）θc2，αθc1表1.与最先进方法的定量比较。平均推理时间和GPU内存消耗，测量泰坦XP GPU，为不同的方法与批大小为1和输入图像的768 768。“模型”列用于样式转换方法的类别。对于内容和样式得分，值越高表示性能越好。十种不同风格的得分是平均的.方法时间（秒）GPU内存（MiB）模型欺骗率人类研究内容风格得分Wikiart测验0.626--Gatys等人2003887PSPM0.251百分之六十七点一0.127Adain0.168872ASPM0.061百分之四十三点六0.019WCT5.2210720ASPM0.02339.2%0.013基于补丁8.704159ASPM0.063百分之五十三点四0.043约翰逊0.06671ASPM0.08038.5%0.021CycleGAN0.071391PDPM0.130百分之四十三点二0.012AST0.071043PDPM0.450百分之六十三点九0.312DRB-GAN0.081324MDPM0.57372.2% 0.453ω ωγ，β+（1−α）θc2|c1，c2N}（十）我们向每个参与者展示700组图像。每个其中α是0和1之间的插值因子，c1和c2表示样式域。图4展示了莫奈和梵高风格之间的平滑过渡，细节放大。我们的模型捕捉了这两种风格之间的微妙变化。4.1.2定量评价风格转移欺骗率。为了定量测量不同模型的性能，我们采用AST [41]使用的欺骗率度量欺骗率是被预先训练的网络识别为目标风格的风格化图像的正确率。我们采用与CSD [27]相同的方法来测量风格转移欺骗率，并在表1中报告平均欺骗率。如我们所见，我们的方法DRB-GAN达到0.573，这显著优于其他基线方法。作为比较，网络对来自Wikiart的艺术家的真实图像的平均准确度为0.626。人类感知研究。我们还对不同方法的性能进行了人体研究。具体地说，6391组由基于相同内容和样式图像通过不同方法生成的样式化图像组成。我们要求参与者选择一个最真实地反映目标风格的图像。风格得分被计算为频率，并且特定方法被选择为组中的内容分数由参与者提供以评估内容图像的结构相似性。人类感知研究报告见表。1.一、我们可以看到，我们的方法获得了最好的分数，证明了我们的模型在风格转换和结构保留方面的优越性能。速度和记忆。表中还列出了时间和内存消耗的比较。1.一、我们观察到，我们的方法具有相当的速度和适度的GPU内存的需求由于权重生成模块创建了一个平滑的流形结构，我们的模型可以通过插值和模型平均来执行灵活的风格转换，这显着提高了我们的模型作为一个多域每模式（MDPM）算法的效率相反，其他模式缺乏进行多样性或集合性艺术风格转换的能力6392LL（a）（b）（c）（d）（e）（f）（g）（h）（i）（j）图5. DRB-GAN的消融研究。从左到右是（a）内容图像，（b）样式图像，（c）DRB-GAN的结果，（d）解码器中的w/层归一化层，（e）解码器中的w/实例归一化层，（f）w/o VGG编码器;（g）w/o cls;（h）w/o adv;（i）w/AdaIN ResBlk，而不是我们的Dynamic ResBlk，以及（j）分别是来自顶行中标记的三个区域的放大细节。表2.不同方法的定量比较。SD代表风格距离度量; DS表示欺骗分数。设置任意风格（SD↓）收藏风格（DS↑）K=251020Adain263.40.066 0.045 0.013 0.011Metanet271.80.032 0.026 0.023 0.020DRB-GAN241.20.576 0.580 0.581 0.583(a)（b）（c）（d）（e）在收藏风格转移方面的表现比较。（a）样式收集，（b）和（c）是我们的DRB-GAN的结果，并且（d）和（e）是AST的结果。(a)（b）（c）（d）（e）图7.收集鉴别器方面的性能比较。(a)（b）DRB-GAN w/收集鉴别器，（c）DRB-GAN w/条件鉴别器，（d）CST和（e）分别是来自顶行中标记的三个区域的放大细节。4.2. 收集样式传递我们将用于集合风格转移的DRB-GAN模型表示为DRB-GAN@K，其中K是用于创建平均Transformer网络的来自同一艺术家的绘画图像的数量我们测试一系列K值，包括2、5、10和20。特别地，DRB-GAN对于任意样式传输等效于DRB-GAN@1。在表2中，我们展示了用这些不同的K值获得的欺骗分数更大的K导致更多的改进，并且最大的性能提升来自K=2到K=5。图6中提供了DRB-GAN@20的风格化。可以看出，与AST相比，DRB-GAN@20的结果更好，细节更清晰，反映了艺术风格的主导线索。这也可以从图8（f）和（j）中观察到。4.3. 消融研究在任意类型传输任务中，我们通过移除或替换网络的每个部分来执行消融研究，以验证所提出的网络的有效性，并在图5和表3中总结结果。如我们可以看到的，在解码器中不使用层实例归一化函数的情况下，当在解码器中使用层归一化函数时，模型产生降级的风格化（参见图5（d）），或者当使用实例归一化时，在风格化中创建伪像（参见图5（e））。结果验证了我们的主张，实例规范化规范化每个特征地图separately，从而潜在地破坏特征地图中的信息请注意，层规范化操作将特征图一起规范化，从而潜在地将每个特征图演示为样式的表示。没有VGG编码器的训练选择捕获没有细微细节的主导风格线索（参见图5（f））。表3.消融研究的定量分析。DS：欺骗评分，CS：内容评分，SS：风格评分方法DS↑CS↑SS↑DRB-GAN w/ IN解码器0.56142.1%0.007DRB-GAN w/ LN解码器0.568百分之五十四点七0.102DRB-GAN w/ AdaIN ResBlk0.552百分之三十六点二0.006DRB-GAN w/o VGG编码器0.570百分之六十六点三0.228DRB-GAN w/oLclsDRB-GAN w/oLadvDRB-GAN0.5710.5420.573百分之七十点二百分之三十二点二72.2%0.2730.0010.3836393此外，我们观察到，在没有注意力重新校准模块（Dcls）的情况下的训练导致笔划大小变化的轻微退化。一个可能的原因是，注意力重新校准模块可以缩短一个单独风格图像的特定风格模式与该领域的整体风格线索之间的差距（见图56394× × × ××× ××（a）（b）（c）（d）（e）（f）（g）（h）（i）（j）图8.对不同分辨率图像训练的不同模型的风格化结果进行性能比较。从左从右到右分别是（a）内容图像、（b）样式图像、（c）DRB-GAN768、（d） DRB-GAN512、（e）DRB-GAN256、（f）DRB-GAN @ 20512、（g）CycleGAN256、（h）MetaNet512、（i）StyleBank512和（j）AST512的结果。蓝色数字表示原始图像较小边缘的大小。(a) 含量（b）达芬奇（c）（d）（e）千延（f）（g）（h）修拉（i）（j）图9.定性评价我们的方法以前看不见的风格。可以观察到，所生成的图像与所提供的目标风格（c）、（f）、（i）-致，示出了该方法的良好泛化能力并且还可以观察到，我们的模型在集合风格转移（d）、（g）、（j）上表现出良好的性能。（d））。对抗性训练对于提高生成图像的视觉质量至关重要（见图5（e））。我们成功地将对抗式和感知式监督相结合，以获得高质量的风格转移。最后，我们展示了我们的动态Resblk相对于AdaIN Resblk的优势（参见图5（f））。收集鉴别器的效果在图7中，我们演示了我们的收集鉴别器的效果。与条件GAN的鉴别器将类别标签作为额外输入相比，我们的DRB-GAN产生更好的风格化图像。然而，CST不能保持合成图像和目标风格图像之间的风格一致性4.4. 讨论图像分辨率的影响。我们的DRB-GAN在高分辨率图像风格传输中是它也是鲁棒的，以执行不同分辨率的图像上的风格转移。为了说明图像分辨率的影响，我们在图8中显示了定性比较。它表明，我们的模型在不同的图像分辨率上创建一致的风格化有轻微变化的溶液。在相同的图像分辨率下，该模型的结果比其他基线模型好得多。看不见的风格的有效性。我们应用我们的DRB-GAN来处理任意样式传输和集合样式传输任务的不可见样式。可视化结果在图9中提供。显然，这些结果有力地证明了我们所提出的方法的鲁棒性。5. 结论我们已经提出了DRB-GAN用于艺术风格转换。在我们的模型中，所提出的注意机制和判别网络充分利用了目标风格图像中的风格信息，从而提高了模型广泛的实验结果清楚地表明，我们提出的DRB-GAN模型在生成比最先进的质量更好的合成风格图像方面具有显着的性能。6395引用[1] 陈晨、穆帅、肖万鹏、叶泽雄、吴烈思、齐菊。用条件生成对抗网改进图像字幕在AAAI人工智能会议论文集，第33卷，第8142- 8150页2[2] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在IEEE计算机视觉和模式识别会议论文集，2017年。2[3] Yinpeng Chen，Xiyang Dai，Mengchen Liu，DongdongChen，Lu Yuan，and Zicheng Liu.动态卷积：注意卷积核。在IEEE计算机视觉和模式识别会议集，2020年。二、四[4] Wonwoong Cho 、 Sungha Choi 、 David Keetae Park 、Inkyu Shin和Jaegul Choo。通过分组深度白化和着色变换实现图像到图像的转换。在IEEE计算机视觉和模式识别会议（CVPR），2019年。2[5] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，2018年。第1、3条[6] 丁斌，龙承江，张玲，肖春霞。Argan：用于阴影检测和去除的注意递归生成对抗网络。在IEEE国际计算机视觉会议集，2019。2[7] Xinzhi Dong ， Chengjiang Long ， Wenju Xu ， andChunxia Xiao.双图卷积网络与Transformer和课程学习的图像字幕。ACM多媒体国际会议，2021年。2[8] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。arXiv预印本arXiv：1606.00704，2016。3[9] Yuanbin Fu，Jiaoyi Ma，Lin Ma，and Xiaojie Guo.编辑：示例域感知图像到图像翻译。arXiv预印本arXiv：1911.10520，2019。5[10] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，2016年。二、五[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26722[12] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在神经信息处理系统的进展，2017年。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉与模式识别会议，2016年。3[14] 胡涛，龙成江，肖春霞。一种新颖的视觉表示文本使用不同的条件根视觉识别。IEEE Transactions on ImageProcessing，30：3499-3512，2021。2[15] 刚华，龙澄江，杨明，高彦用于识别的核机器集成的协同主动学习。IEEE国际计算机视觉会议。 IEEE，2013。2[16] 刚华，龙澄江，杨明，高彦。来自人群的协作主动视觉识别：分布式集成方法。IEEE Transactions on PatternAnalysis and Machine Intelligence，40（3）：582-594，2018。2[17] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在2017年IEEE国际计算机视觉会议上。一、二、三、四、五[18] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议论文集，2018年。3[19] 作者： Ashraful Islam ， Chengjiang Long ， ArslanBasharat，and Anthony Hoogs.Doa-gan：用于图像复制-移动伪造检测和定位的双阶注意生成式对抗网络。在IEEE计算机视觉和模式识别会议论文集，2020年。2[20] Yongcheng Jing ， Xiao Liu ， Yukang Ding ， XinchaoWang，Errui Ding，Mingli Song，and Shilei Wen.用于任意样式传输的动态在AAAI人工智能会议，2020年。一、二、三[21] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。2[22] Sergey Karayev 、 Matthew Trentacoste 、 Helen Han 、Aseem Agarwala 、Trevor Darrell、Aaron Hertzmann 和Holger Winnemoeller 。识别图像样式。 arXiv 预印本arXiv：1311.3715，2013年。5[23] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。IEEE/CVF计算机视觉和模式识别会议论文集，2019年。2[24] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。4[25] Junho Kim，Minjae Kim，Hyeonwoo Kang和KwangheeLee。U-gat-it：具有自适应层实例归一化的无监督生成注意力网络，用于图像到图像的翻译。arXiv预印本arXiv：1907.10830，2019。2[26] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。56396[27] Dmytro Kotovenko、Artsiom Sanakoyeu、Sabine Lang和Bjorn Ommer。内容与风格的分离，便于艺术风格的转换。在IEEE国际计算机视觉会议论文集，2019。6[28] Dmytro Kotovenko ， Artsiom Sanakoyeu ， PingchuanMa，Sabine Lang，and Bjorn Ommer.用于图像样式转换的内容转换块。在IEEE计算机视觉和模式识别会议论文集，2019。二三五[29] Anders Boesen Lindbo Larsen ，Søren Kaae Sønderby，Hugo Larochelle，and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。在2016年国际机器学习会议上。2[30] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换以实现快速图像和视频风格转换。在IEEE计算机视觉和模式识别会议论文集，2019。2[31] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。在神经信息处理系统的进展，2017年。3[32] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在2018年欧洲计

下载后可阅读完整内容，剩余1页未读，立即下载