单一文本条件下的图像风格转换

136 浏览量更新于2023-10-25 收藏 5.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18062CLIPstyler：使用单一文本条件的Gihyun Kwon1Jong Chul Ye1，2部韩国科学技术院金载哲研究生院人工智能研究科生物与脑工程1{cyclomon，jong.ye} @ kaist.ac.kr图1.我们的风格转换结果在各种文本条件。翻译的图像具有内容图像的空间结构，具有对应于文本的真实纹理。摘要现有的神经样式转移方法需要参考样式图像来将样式图像的纹理信息转移到内容图像。然而，在许多实际情况下，用户可能没有参考样式图像，但仍然对仅通过想象它们来转移样式感兴趣为了处理这样的应用程序，我们提出了一个新的框架工作，使风格转移使用CLIP的预训练文本-图像嵌入模型，我们演示了内容图像风格的调制只有一个文本条件。具体来说，我们提出了一个补丁明智的文本图像匹配损失与多视图增强的现实纹理传输。大量的实验结果证实了成功的图像风格转换与现实的纹理，反映语义查询文本。1. 介绍风格转换的目的是通过转换风格图像的语义纹理来转换内容图像Gatys等人 [7]提出的神经风格转移的研讨会工作使用预先训练的VGG网络来转移风格纹理18063通过计算与内容和样式特征的Gram矩阵匹配的样式损失他们的风格损失已经成为后来作品的标准，包括通过单个内容图像的像素优化进行风格化[3]，实时操作各种风格图像的任意风格转移[9，16，18，27]，以及优化前馈网络风格化每个图像[10，24]。虽然这些用于风格转移的方法可以通过将著名艺术作品的风格转移到普通图像来成功地创建视觉上令人愉悦的新艺术作品，但是它们需要参考风格图像来改变内容图像的纹理。然而，在许多实际应用中，参考样式图像对用户不可用，但用户仍然对“模仿”样式图像的纹理感例如，用户可以想象能够将自己的照片转换为莫奈或梵高风格，而无需拥有着名画家的画作。或者你可以仅仅通过想象将白天的图像转换成夜晚的图像。事实上，为了克服现有风格转换的局限性，创造出真正有创造力的艺术作品，我们应该能够转换出我们想象中的完全新颖的风格。为了实现这一目标，有几种方法试图用传达所需风格的文本条件来处理图像这些方法通常使用预先训练好的文本-图像嵌入模型，将文本条件的语义信息传递到视觉域。然而，这些方法通常具有以下缺点：由于嵌入模型的性能限制，语义没有得到适当的反映[28，29]，并且由于该方法严重依赖于预先训练的生成模型[20] ，因此操作被限制在特定的内容域（例如人脸）。为了解决这个问题，我们提出了一种新的图像风格传输方法，使用最近提出的CLIP [21]的文本图像嵌入模型来传递文本条件的语义纹理。具体来说，我们不是像AdaIN [9]那样诉诸像素优化或操纵实例规范化层，而是建议训练一个轻量级CNN网络，该网络可以表达关于文本条件的纹理信息更具体地，内容图像由轻量级CNN通过匹配所传输的图像的CLIP模型输出与文本条件之间的相似性来变换以遵循文本此外，当网络针对多个内容图像进行训练时，我们的方法可以实现文本驱动的风格传输，而不管内容图像如何。我们的方法来自几个技术创新的实施。首先，我们不直接使用图像来优化损失，而是建议使用分片CLIP损失来引导网络发挥画笔的作用具体来说，为了计算建议的损失，我们首先对输出图像的补丁进行采样，并使用不同的透视图进行增强。后来，我们发现-通过计算查询文本条件与处理后的补丁之间的相似度来减少CLIP丢失。通过应用这种补丁式CLIP损失，我们发现我们可以将样式转移到内容图像的每个局部区域。此外，增强导致补丁风格更加生动和多样。此外，为了克服依赖于补丁的过度风格化问题，我们提出了一种新的阈值正则化，使得具有异常高分数的补丁不会影响网络训练。大量的实验结果表明，该模型可以根据文本条件进行多种风格的转换，与现有的基于风格图像的方法相比，具有更广泛的风格转换范围。2. 相关作品2.1. 风格迁移受Gatys等人的启发。[7]通过联合最小化内容和风格损失提出了迭代像素优化，Johnson等人。[10]和Ulyanov等人。[24]提出使用Gatys等人的相同损失函数训练风格化前馈网络。[7]。通过扩展上述单内容风格转移方法，Li等人。[16，17]提出了白化和着色变换（WCT）方法来变换内容特征以遵循风格特征的统计。 Huang 等人 [9] 提出了自适应实例归一化（AdaIN），其中样式图像特征的平均值和标准差被应用于内容图像的Li等人[15]提出了内容和风格特征之间的线性变换，用于图像和视频上的快速风格转移。最近，Yoo等人。[27]提出了一种基于小波变换的WCT，用于更好地保存照片般真实感风格传输的内容信息。 Park 等人。 [19] 提出了风格注意网络（ SANet ），以便风格可以引用内容特征信息。Svoboda等人[23]提出了使用图卷积网络进行风格转移，以将潜在空间中的风格和内容结合起来。Deng等[2]提出了以空间注意为内容特征、通道注意为风格特征的多适应模块。最近，Liu et al.[18]提出自适应注意归一化作为SANet的改进的基于注意的风格转移[19]。Xu等人。[26]提出了一种新的动态残差块框架，以整合生成模型的风格和内容特征。Hong等人[8]介绍了一种领域感知风格转移方法，其中模型将领域感知信息与风格一起转移。Kotovenko等人。[13]专注于Bezier曲线的笔画属性，并提出优化建模的二次Bezier曲线的参数而不是像素。虽然这些方法已经显示出成功的结果，18064dir−这些方法需要样式图像以便使内容图像遵循目标样式的纹理。2.2. 文本引导合成在现有的文本引导图像合成中，用于文本嵌入的编码器作为生成模型的引导条件。Zhang等人。[28，29]将文本条件集成到多尺度生成模型中，以实现高质量图像合成。AttnGAN [25]进一步提高了文本和图像特征的注意力机制Mani-GAN [14]提出了一种同时嵌入文本和图像特征的模块。最近，OpenAI引入了CLIP [21]，这是一种在4亿文本图像对上训练的高性能文本图像嵌入模型CLIP模型在连接文本和图像域方面表现出了最先进的性能。利用CLIP强大的表示嵌入功能，有几种方法可以对带有文本条件的图像进行操作。StyleCLIP [20]通过探索StyleGAN [12]的学习潜在空间进行了attribute操作。他们成功地控制了生成过程中找到一个适当的矢量方向，以向给定的文本条件。然而，StyleCLIP具有局限性，因为潜在的探索可以在训练的域中操纵图像。因此，StyleGAN-NADA[6]提出了一种只使用文本条件的模型修正方法，将训练好的模型调整到一个新的领域，而不需要额外的训练图像。虽然这些模型可以用文本条件来操纵图像，但它们严重依赖于预先训练的生成模型。因此，生成的图像被限制在训练的图像域。在我们的模型中，我们可以将文本条件的纹理转移到源图像，而不管图像的域，这在前述基于生成模型的操作中没有3. 方法3.1. CLIPstyler的基本框架如前所述，我们的框架的目的是通过预训练的文本图像嵌入模型CLIP [21]将目标文本的语义风格转移到内容图像Ic与现有方法的主要区别在于，在我们的模型中，没有样式图像I用作参考。由于我们的模型的目标是在CLIP的单独监督下获得语义转换后的图像，因此我们有几个技术问题需要解决：1）如何从CLIP模型中提取语义我们的方法的指定架构如图2.我们提出的贴片式CLIP损失的总体示意图。我们使用损失函数优化神经网络f图二.当给定内容图像Ic时，我们的目标是获得风格转换输出Ic。然而，我们在实验中发现，传统的像素优化方法不能反映出理想的纹理效果为了解决这个问题，我们引入了一个CNN编码器-解码器模型f，它可以捕获内容图像的层次视觉特征，同时在深特征空间中对图像进行造型，以获得真实的纹理表示。因此，我们的风格化图像Ics是f（Ic），我们的最终目标是优化f的参数，使其能够使输出具有目标纹理。3.2. 损失函数CLIP损失：为了引导内容图像遵循目标文本的语义，最简单的基于CLIP的图像管理方法[20]是最小化全局剪辑损失函数，其公式为：Lglobal=DCLIP（f（Ic），tsty），（1）其中DCLIP是CLIP空间余弦距离。该损失函数变换整个帧的输出图像以遵循文本条件的语义。然而，当使用这样的全局CLIP损失时，通常输出质量被破坏，并且在优化过程中稳定性低。为了解决这个问题，StyleGAN-NADA [6]提出了一种定向CLIP损失，它可以在源和输出的文本图像对之间对齐CLIP空间方向。因此，我们还采用了定向CLIP损耗，在我们的情况下可以将其定义为：T=ET（tsty）−ET（tsrc），I=EI（f（Ic））−EI（Ic），L=1I·T，（2）|∆ I|| ∆ T|其中EI和ET分别是CLIP的图像和文本编码器;tsty、tsrc是样式的语义文本18065CSCS××× ××−CS··贴片N贴片目标和输入内容。当我们使用自然图像的内容，tsrc只是设置为PatchCLIP损失：虽然提出的Ldir在修改预训练的生成模型方面表现出良好的性能，但它与我们的模型并不完全匹配，因为我们的目标是将tsty的语义纹理应用于给定的内容图像。我们的结果还表明，在我们的框架中单独使用Ldir会降低输出的质量。为了克服现有的CLIP损失的缺点，我们提出了一种新的PatchCLIP纹理传输损失。受《盖蒂斯等人》中关于原始风格丧失的思想的启发[7]，即传递空间不变的信息，我们发现，可以通过最小化CLIP损失函数来获得类似的效果，该损失函数相对于从任意位置的ICS中具体地说，我们随机作物足够数量的补丁从IC。在这个阶段，裁剪的IM的大小-年龄固定。对于所有N个裁剪的补丁，我们应用在计算CLIP方向损失之前，对裁剪的补丁进行随机几何增强。受Frans等人的启发[5]，我们发现在每个补丁上使用增强可以帮助网络表示更生动和多样化的纹理。虽然有许多可能的增强类型，我们建议使用透视增强。通过使用透视增强，当在多个点中查看时，所有补丁被引导为具有相同的语义，使得CLIP模型的语义信息可以被重构为更像3D的结构。阈值拒绝：由于补丁采样和增强的随机性，我们的方法经常遭受过度风格化，其中风格网络f在易于最小化损失分数的特定补丁上进行优化为了缓解这个问题，我们包括正则化来拒绝高分补丁的梯度优化过程。在给定阈值τ的情况下，我们简单地使对应贴片的计算损失因此，我们提出的贴片式CLIP损耗定义为：T=ET（tsty）−ET（tsrc），I=EI（aug（I总损失：对于总损失函数，我们使用四种不同的损失。首先，我们使用标准的定向CLIP损失Ldir来调制内容图像的整个部分（例如色调、全局语义）。其次，我们添加我们提出的PatchCLIP损失L补丁局部纹理风格化。在CLIP损失函数之上，为了保持输入图像的内容信息，我们包括内容损失Lc，并计算从预训练的VGG-19网络中提取的内容和输出图像的特征之间的均方误差，类似于Gatys等人的现有工作[7]的文件。最后，为了减轻来自不规则像素的侧伪影，我们包括总变差正则化损失Ltv。因此，我们的总损失函数被公式化为：Ltotal=λdLdir+λpLpatch+λcLc+λtvLtv（4）4. 结果4.1. 实验设置我们的内容图像可以有任何分辨率大小，但考虑到资源容量，我们对所有内容图像使用512 512分辨率。对于训练，我们将λd、λp、λc和λtv分别设置为5 102、9103、150和2 10−3。对于内容丢失，类似于Gatys等人。[7]，我们使用层“conv4 2”和“conv5 2”的特征来对于神经网络f，我们使用轻量级U-net [22]架构，该架构具有三个下采样层和三个上采样层，其中每个下采样层的通道大小为16，32和64。对于稳定的训练，我们在f的最后一层包含sigmoid函数，使得像素值范围在[0，1]的范围内。为了训练网络，我们使用Adam优化器，学习率为5 10−4。总的训练迭代被设置为200，并且我们在迭代100时将学习率降低到一半。在单个RTX2080Ti GPU上，每个文本的训练时间约为40秒。对于补丁裁剪，我们使用补丁大小128作为默认设置，因为它显示了最佳的感知质量。我们可以通过改变作物的大小来获得不同的效果。裁剪的块的总数被设置为n= 64。对于透视增强，我们使用Py提供的函数i补片 =1I·T，|∆T|| ∆T|N火炬图书馆具体实施见补充资料。对于阈值拒绝，我们将τ设置为0.7，其中结果具有最好的视觉质量。L=1R（li我，τ）（3）为了减少文本嵌入的噪声，我们使用Radford等人提出的快速工程技术。哪里 R（s，τ）=0，如果s≤τs，否则[21 ]第20段。具体来说，我们做了几个具有相同含义的文本-ing，并将它们馈送到文本编码器。然后，我们使用平均嵌入，而不是原始的单一文本条件。最后，为了更好地为读者提供视觉效果，我们...在那里，我是来自输出图像的第i个对所有输出应用相同的对比度增强技术aug是随机透视增强，R（，）表示阈值函数。包括基线。请参考我们的Github存储库：https://github.com/cyclomon/CLIPstyler。L.18066图3.各种查询文本条件下的样式转换结果。我们的方法可以合成真实的纹理，反映文本的条件。其他结果在我们的补充材料中。4.2. 定性评价图1和图3显示了我们的方法的典型风格转移结果。有了相应的文本条件，我们可以成功地转换图像风格，匹配的文本条件，而不改变图像的内容。在结果图像中，我们不仅可以对艺术风格进行风格转换，还可以对广泛的一般纹理风格进行风格转换。特别是，由于我们通过文本条件给出条件例如，我们可以在使用文本条件（如“白色羊毛”和“绿色水晶”）时给出附加的颜色信息。我们还可以选择哪种“对象”用作目标纹理。在图1的结果中，我们可以同时选择纹理类型（“油画”）和图案对象（“花”），这样我们的方法可以获得更丰富的4.3. 与基线的与现有的风格转换的比较：虽然我们的方法不遵循传统的风格框架，在需要风格图像的风格转换中，我们可以间接地将我们的结果与现有的风格转换方法进行比较。由于CLIP模型是在广泛的自然图像以及艺术图像上训练的，因此我们可以将著名艺术品的风格与相应的文本条件进行转换，并将其与现有方法进行比较。对于基线，我们选择各种最先进的艺术风格传输方法，包括任意风格传输（AdaAttn [18]，SANet [19]，CST [23]和AdaIN[9]）和像素优化[7]。图4.尽管只使用文本条件，但我们的方法的结果显示出与基线方法相似的风格迁移结果在第一行到第三行中，我们比较了文本引导风格迁移的艺术风格迁移性能与基线的那些。对于AdaIN [9]和Gatys et. [7]，输出在仅集中于主要颜色变化的情况下表达目标纹理风格方面显示出局限性。AdaAttn [18]、SANet [19]和CST [23]的最新风格转换方法的结果具有复杂的纹理信息，同时保留了内容图像的结构我们18067图4.与基线样式转换方法的比较结果与基线相比，我们的方法的结果仅使用文本条件进行样式化虽然我们的方法没有样式参考，但输出图像具有复杂的纹理，这些纹理遵循文本条件的语义。其结果是在不破坏原有内容形状结构的情况下，在不同的位置也具有艺术品的生动纹理图案。为了进一步与非艺术风格进行比较，我们在图的最后一行包括了风格迁移结果4.第一章由于基线风格迁移方法大多是在艺术作品上训练的，因此我们可以看到，基线风格迁移方法难以迁移非艺术风格的纹理。然而，我们的方法可以成功地提取查询文本的语义纹理，并将它们应用到内容图像。与文本引导操作模型的比较：图5显示了我们的模型与基线文本引导操作方法之间的比较结果至于基线，我们选择了最先进的方法，使用CLIP模型和预训练的StyleGAN。由于基线模型是在人脸上训练的，因此我们用CelebA-HQ的图像进行了实验[11]。在结果中，我们的方法可以表达真实的纹理的内容图像，这是匹配的查询文本条件。具体地，在StyleGAN-NADA [6]的结果中，内容图像被修改为遵循文本条件，但仅内容图像的一部分可以改变，或者改变不充分反映文本条件的语义。图5最后一行的结果显示了我们的方法和StyleGAN-NADA在接受文本条件的方式上的不同之处。由于我们的模型专注于纹理，因此模型将艺术风格（例如梵高风格）应用于整个图像，但Style-NADA改变了面部身份，因为它专注于文本条件本身。在风格的结果图5.与其他文本引导操作模式的比较。我们的结果在整个位置上具有更真实的纹理。基线模型显示出有限的变化，并且在某些情况下，图像的内容被修改。CLIP [20]中，由于该方法可以在学习的潜在域内操纵图像，因此除了第三行之外的所有结果都未能变换图像。为了进一步比较，由于我们的方法是基于使用CLIP损失的网络权重优化（或微调），我们还研究了其他操纵方法是否可以通过结合CLIP损失来产生更好的风格转移。首先，我们将CLIP损失与类似于Gatys等人的像素优化相结合。第二，我们只18068图6.消融研究结果。用字母标注的每列是风格转换输出（a）使用整个损失，（b）去除Ldir，（c）去除阈值拒绝，（d）去除增强，（e）将透视增强替换为随机仿射变换，（f）去除我们提出的L补丁。图7.不同手法的比较研究。上图：带有“野兽派风格绘画”的输出。底部：带“皮革”的输出在Huang等人[9]的预训练风格转移网络上使用CLIP损失进行 AdaIN 代码优化。最后，我们还通过使用VQGAN-CLIP1的源代码，使用CLIP损失对预训练的VQGAN [4]进行了潜在代码优化。图7中的结果表明，与基线相比，我们优化网络f的方法显示出更高的更具体地说，像素优化，图像不能反映文本的语义条件。在VQGAN+CLIP和AdaIN+CLIP的情况下，纹理被应用于内容，但是内容结构严重劣化。在补充材料中，我们另外示出了两个不同基线的比较结果：1）通过使用文本检索图像作为样式图像来应用现有样式传递方法，以及2）使用由文本到图像生成模型生成的图像作为样式图像。我们的补充材料中还包括更多与定量用户研究的4.4. 消融研究为了验证我们的方法中每个组件的必要性图6显示了我们的消融研究结果。当我们使用所有建议的损失函数（图。（6），我们可以获得最好的结果，在每-1https://github.com/nerdyrodent/VQGAN-CLIP图8.我们的快速风格转换方法的培训框架。我们使用裁剪的补丁作为内容图像，并使用相同的建议损失函数来训练VGG19网络的解码器。概念域特别是，以及三维纹理，我们可以获得一个干净的图像，没有伪影方面的颜色。如果不使用整个图像CLIP lossLdir（图6（b）），则无法捕获全局语义，因此我们可以看到以不规则模式映射的颜色。当阈值拒绝被移除时（图6（c）），图像在特定块上过聚焦并且导出过风格化图像当不使用增强时（图 6（d）），没有反映三维逼真纹理。当使用常用的仿射变换而不是我们提出的透视增强时（图 1 ）。 6（e）），存在不想要的工件。最后，当仅使用作为整个图像的损失函数的方向CLIP Loss时，除了颜色之外，纹理只有很小的变化（图6（f））。为了进一步评估，我们在补充材料中显示了各种消融实验的用户研究结果。5. 进一步延长5.1. 快速风格转移在我们的默认框架中，我们应该为单个内容图像训练样式网络f以应用给定的样式。为了克服这一点，我们感兴趣的是一种方法，训练f使用各种纹理补丁，而不是单一的内容图像。一旦以这种方式训练网络，则训练的网络可以用于各种内容图像中。我们提出的快速训练方案如图所示8.作为一个训练集，我们随机裁剪了来自18069∼×图9.结果从我们的快速风格转移方法。DIV2k的高分辨率纹理图像[1]。为了更快的训练，我们采用预先训练的VGG编码器-解码器网络而不是U-Net作为风格网络f，并且仅解码器网络被微调。在训练步骤中，我们使用了相同的损失函数，但我们没有裁剪子块，因为输入块已经从大图像裁剪。我们使用Adam优化器更新模型200步，学习率为1 10−4。总训练时间为40秒.为了推断，每个内容图像花费不到0.5秒。更多细节见补充材料。图9是我们的快速风格转换方法的结果。由于我们使用不同的纹理输入训练模型，因此我们可以实时地对任意内容图像进行风格转移。我们可以看到，结果图像反映了文本条件的语义纹理。与我们的结果相比，在图1和图2中使用单个内容图像训练。如图1和图3所示，我们可以在更快的风格转移设置中获得类似的纹理转移质量。此外，结果可以适应任何类型的内容输入与不同的结构多样性。然而，在某些情况下（例如“霓虹灯”、“火”），图像在不必要的区域（例如背景）上具有纹理。尽管如此，结果表明，我们的快速传输可以为任意内容图像提供高质量的风格传输。图10.高分辨率的风格转移来自我们的快速风格转移方法。左：内容图像。右：文本条件为“A sketch with black pencil”的样式转换输出图像分辨率为3000× 2000。处理图像大约需要4秒。5.2. 高分辨率风格转换由于我们的快速风格转移可以适应任何类型的基于补丁的训练的内容图像，我们可以用更高分辨率的内容图像转移风格。训练方案与我们的快速风格转换方法相同。在训练VGG模型之后，我们可以将高分辨率图像馈送到训练好的网络进行风格转移。在图10中，我们可以将输入的样式更改为给定的文本条件，同时保持内容的细节。更多结果在补充材料中。6. 结论本文提出了一种新的图像风格转换框架，仅利用文本条件来转换语义纹理信息。使用新的patchCLIP损失和增强计划，我们得到了现实的风格转移的结果，通过简单地改变文本条件，而不需要任何风格的图像。实验结果表明，我们的框架产生了最先进的图像风格转移。有关限制和社会影响的讨论，请参阅我们的补充材料。鸣谢：本研究得到了科学部ICT和韩国海关署资助的韩国国家研究基金会（NRF）面向海关管理的领域技术开发项目（NRF-2021 M3 I1 A1097938）的支持，并得到了韩国政府资助的信息通信技术规划评估研究所（IITP）资助（编号2019 -0-00075，人工智能研究生院计划（KAIST））的支持。18070引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017单图像超分辨率挑战：数据集和研究。在IEEE计算机视觉和模式识别会议上，2017年7月。8[2] 邓莹莹，唐凡，董伟明，孙文，黄飞跃，徐长生。通过多适应网络传输任意风格。第28届ACM国际多媒体会议论文集，第2719-2727页，2020年。2[3] Michael Elad和Peyman Milanfar。通过纹理合成的花柱转移。 IEEE Transactions on Image Processing ， 26（5）：2338-2351，2017。2[4] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在IEEE/CVF计算机视觉和模式识别会议上，第12873-12883页，2021年。7[5] 凯文·弗兰斯、LB索罗斯和奥拉夫·维特科夫斯基。Clipdraw：通过语言图像编码器探索文本到绘图的合成arXiv预印本arXiv：2106.14843，2021。4[6] Rinon Gal ， Or Patashnik ， Haggai Maron ， GalChechik，and Daniel Cohen-Or. Stylegan-nada：图像生成器的Clip-guided do- main适配。arXiv预印本arXiv：2108.00946，2021。三、六[7] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页，2016年。一二四五六[8] Kibeom Hong ， Seogkyu Jeon ， Huan Yang ， JianlongFu ， and Hygiene Byun. 域感知的通用样式传输。IEEE/CVF计算机视觉国际会议论文集，第14609-14617页，2021年。2[9] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在Int. Conf.Comput.目视，第1501-1510页，2017年。二、五、七[10] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。2[11] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。6[12] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE Conf. Comput.目视模式识别，第44013[13] DmytroKotovenko，MatthiasWright，ArthurHeimbrecht，and Bjorn Ommer.重新思考风格转换：从像素到参数化笔触。在IEEE/CVF计算机视觉和模式识别会议论文集，第12196-12205页，2021年。2[14] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.Manigan ：文本引导的图像处理。在IEEE/CVF计算机视觉和模式识别会议的论文集，第7880-7889页，2020年。3[15] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习快速图像和视频的线性变换风格转移在IEEE/CVF计算机视觉和模式识别会议论文集，第3809- 3817页，2019年。2[16] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。arXiv预印本arXiv：1705.08086，2017. 2[17] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在欧洲计算机视觉会议（ECCV）的会议记录中，第453-468页，2018年。2[18] Songhua Liu ， Tianwei Lin ， Dongliang He ， Fu Li ，Meiling Wang，Xin Li，Zhengxing Sun，Qian Li，andErrui Ding. Adaattn：重新审视任意神经风格迁移中的注意机制。在IEEE/CVF计算机视觉国际会议论文集，第6649二、五[19] Dae Young Park和Kwang Hee Lee风格-注意网络的任意风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第5880-5888页，2019年。二、五[20] 或者 Patashnik ， Zongze Wu ， Eli Shechtman ， DanielCohen-Or，and Dani Lischinski.Styleclip：文本驱动的风格图像处理。在IEEE/CVF国际计算机视觉会议集，第2085二、三、六[21] Alec Radford，Jong Wook Kim，Chris Hallacy，AdityaRamesh ， Gabriel Goh ， Sandhini Agarwal ， GirishSastry，Amanda Askell，Pamela Mishkin，Jack Clark，et al. Learn- ing transferable visual models from naturallanguage super- vision. arXiv预印本arXiv：2103.00020，2021。二、三、四[22] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。4[23] Jan Svoboda、Asha Anoosheh 、Christian Osendorfer 和Jonathan Masci。用于任意图像风格转移的两阶段对等正则化特征重组。在IEEE/CVF计算机视觉和模式识别会议论文集，第13816-13825页，2020年。二、五[24] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。改进的纹理网络：最大限度地提高前馈风格化和纹理合成的质量和多样性。在IEEE计算机视觉和模式识别会议的论文集，第6924-6932页，2017年。2[25] Tao Xu ， Pengchuan Zhang ， Quyuan Huang ， HanZhang ， Zhean ， Xiaeli Huang ， and Xiaodong He.Attngan：使用注意力生成对抗网络生成细粒度文本到图像。在IEEE计算机视觉和模式识别会议论文集，第1316- 1324页3[26] Wenju Xu ， Chengjiang Long ， Ruisheng Wang ， andGuanghui Wang.Drb-gan：一个用于艺术风格转移的动态重新块生成对抗网络。在IEEE/CVF计算机视觉国际会议论文集，第6383-6392页，2021年。2[27] Jaejun Yoo 、 Youngjung Uh 、 Sanghyuk Chun 、Byeongkyu Kang和Jung-Woo Ha。照片级真实感风格传输18071小波变换在IEEE/CVF国际计算机视觉会议，第90362[28] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，和Dimitris N Metaxas.Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。在IEEE计算机视觉国际会议论文集，第5907- 5915页二、三[29] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，和Dimitris N Metaxas.stack-gan ++：使用堆叠生成式对抗网络进行真实图像合成IEEE Transactions on PatternAnalysis and Machine Intelligence ， 41 （ 8 ）： 1947-1962，2018。二、三

下载后可阅读完整内容，剩余1页未读，立即下载