没有合适的资源?快使用搜索试试~ 我知道了~
可恢复的任意样式传输方法(RAST):通过多重恢复实现内容和风格信息的传输
331RAST:通过多重恢复实现可恢复的任意样式传输英楠马辰秋赵旭东李阿努普巴苏部加拿大阿尔伯塔大学计算机科学系{ma4,zhao.chenqiu,xudong9,basu} @ ualberta.ca图1:可恢复任意样式传输(RAST)架构生成的结果。内容图像显示在左上角。样式图像显示在样式化图像的右上角。摘要任意风格转换的目的是再现具有艺术风格或照片真实感风格的目标图像。尽管已有的方法可以成功地传递样式信息,但任意的样式传递仍然面临着许多挑战,例如内容泄漏问题。具体而言,艺术风格的嵌入会导致内容的变化.本文从图像恢复的角度出发,解决了内容泄漏问题.提出了一种可恢复任意风格传输(RAST)的迭代架构,通过多次迭代实现内容和风格信息的传输。我们通过图像恢复的准确性来控制风格化图像的内容风格平衡。为了确保所提出的RAST架构的有效性,我们设计了两个新颖的损失函数:多重恢复损失和风格差异损失。此外,我们提出了一种新的定量评估方法来衡量内容保存性能和风格嵌入性能。通过与现有方法的对比实验表明,本文提出的方法在内容保持和风格嵌入方面具有较好的性能,能够生成风格化的图像。1. 介绍任意样式传输[37,39,5]是一个长期存在的图像处理主题,其目的是渲染具有引用的任意样式的图像。风格可以是艺术的或照片般逼真的。自Gatys et al.[13]提出使用卷积神经网络来解决艺术风格转换,神经风格转换[9,22,46]作为计算机视觉在艺术领域的应用引起了极大的关注。最近,基于转换器的方法[6,51]也通过应用自我注意机制和位置编码参与神经风格转移。虽然前-332尽管嵌入式算法可以实现样式的传递,但在保持内容保留和样式嵌入之间在艺术风格转换中,由于风格差异,在艺术风格嵌入过程中保持内容细节是一个挑战过多的样式嵌入会导致内容信息的更改。对于照片般逼真的风格转移,建筑更注重内容保留,这可能导致缺乏精致的图案[20]。我们提出了一个新的框架,从图像恢复的角度来解决内容风格平衡的问题。在样式转换过程中,大多数样式特征不改变内容信息。因此,嵌入这些样式特征不会影响内容恢复。然而,某些风格特征的嵌入可能会导致内容泄漏[1],这可能导致图像恢复失败。我们的目的是在不影响内容和样式图像恢复的情况下,将更多的样式特征嵌入到内容特征中。与现有的最小化输入图像和风格化图像之间的内容和风格差异的方法不同,我们通过最小化恢复图像和输入图像之间的差异和最大化风格化图像和输入图像之间的风格差异来实现风格转移该方法可以避免不同的内容信息或风格信息在特征评估过程中造成的干扰通过大量的实验,定性和定量的结果表明,我们提出的框架具有更好的性能,内容保存和风格嵌入。此外,我们的框架可以更准确地将风格化图像恢复到输入图像。本文的贡献总结如下:• 我们提出了一个四循环的框架来支持迭代学习,以便可以实现可恢复的任意风格迁移(RAST)。RAST框架可以通过多种解释实现内容和风格信息的传输内容传输可以保证内容保存的性能风格传递可以保证风格的一致性。• 我们提出了多恢复损失和风格差异损失,这是从感知损失扩展。特别是,风格差异损失可以使我们的框架嵌入更多的不影响恢复的风格模式。多重恢复损失可以通过多重恢复来实现内容传输和风格传输。• 我们还提出了一种新的定量评估方法,从恢复的角度来衡量内容保留和风格嵌入本文件的其余部分安排如下:第2节回顾了最先进的风格迁移方法,并指出了我们提出的框架和现有方法之间的差异。第3节介绍了我们提出的RAST框架和相关的损失函数。器械信息和数据排列总结见第4节。我们还展示了本节的实验结果。我们说明了我们提出的RAST框架的有效性,通过比较它与八个国家的最先进的approaches。我们使用定性和定量方法评估绩效。2. 相关工作2.1. 图像样式转换自20世纪90年代以来,图像风格迁移一直是一个引人注目的研究最初,它被提出作为一种基于笔画的渲染算法[17,11],它可以在目标图像上添加笔画,并有客观的指导。后来,它被进一步探索为图像类比[18,42,12]问题,以从成对图像中学习变换风格转换也可以通过利用高斯滤波器[14]和双边滤波器[45]作为图像滤波[49]问题来解决。然而,这些方法只能学习低层图像特征,不能保证图像结构。除了传统的方法,Gatys et al.[13]提出了一种基于神经的风格转移方法,该方法利用卷积神经网络重新组合来自层的内容特征和风格特征。在Gram矩阵的支持下,可以实现受Gatys等人的启发,前馈神经网络[9,22,46]已被广泛应用于解决风格转换任务。随着编解码器体系结构的应用,提出了许多基于变换的方法。AdaIN[21]该方法提出了自适应的实例归一化层,以获得特征的均值和方差。基于AdaIN,WCT [31]利用白化和着色用协方差代替方差,OptimalWCT[35]用更一般的封闭形式解决方案进一步改进。类似地,LST [30]提出了跨域特征的线性变换来解决通用样式转换。此外,基于转换的方法也可以通过神经流来改进[8,19,27]。ArtFlow [1]利用可逆的神经流,解决了内容泄漏问题.除了上述基于变换的方法之外,图像风格转移也可以通过基于块的方法来解决StyleSwap [3]将内容图像的每个激活补丁替换为匹配的样式补丁。类似地,Avatar-net [41]提出了一种基于补丁的样式装饰器,它可以使用模式特征来装饰内容特征。随着注意力机制的广泛应用[47,52],基于注意力的方法[37,7,5]也参与到了研究中。333IsOCSC不O不风格转换字段。通过计算特征空间上的风格关注度,SANet [37]可以将匹配的风格特征嵌入到内容特征中。考虑到来自多个层的特征,SANet结合了局部和全局样式模式。此外,IEContraAST [2]通过涉及内部-外部学习[38,44]和对比学习[23,39,50]探索了SANet作为骨干。通过对机器人的外部学习[15],IEContrast可以学习人类感知风格。同时,对比学习可以保证内容和风格传递的准确性此外,还提出了分别采用多自适应 和 多 通 道 相 关 技 术 的 MANET [7] 和 MCCNet[5]AdaAttN [33]提出了一个自适应注意力归一化模块,它可以从浅层和深层特征中学习空间注意力。PAMA [36]提出了渐进式注意流形对齐,通过重复的注意操作动态地重新定位风格特征。此外,通过使用自注意机制和位置编码,在风格转移领域提出了基于变换器的方法[6,51,34] StyTr2[6]所提出的内容感知位置编码和修改的Transformer 结 构 以 适 合 样 式 传 输 任 务 。 类 似 地 ,StyleFormer [51] 利 用 样 式 库 和 参 数 组 合 修 改 了Transformer结构,这可以保证样式转换性能。TxST[34]提出了一种文本驱动的体系结构,可以根据文本描述实现风格转换。2.2. 基于恢复的风格迁移基 于 恢 复 的 风 格 转 移 [55 , 25 , 4 , 54] 首 先 由CycleGAN [55]采用。类似于基于GAN的方法[15,40,28],它将风格转换作为域自适应问题来解决。CycleGAN利用两个生成器和两个判别器实现了从A域到B域和从B域到A域的双向图像生成。利用像素级的一致性损失,恢复的图像可以帮助生成器和鉴别器优化域自适应的准确性。然而,CycleGAN仍然受到几何结构约束。具体地,域A和B中的图像需要具有相似的几何结构。如果几何结构不同,颜色和纹理的自适应性能将无法保证。类似地,DiscoGAN [25]涉及通过双生 成 器 学 习 跨 域 关 系 的 恢 复 。 StarGAN [4] 是 在CycleGAN的基础上提出的,具有分类模块和域分类损失 , 可 以 使 用 单 个 生 成 器 实 现 恢 复 过 程 。 除 了StarGAN之外,CAST [54]提出了一种不同的解决方案来取代CycleGAN的双发电机。它采用对比学习来涉及多种风格图像,并利用记忆库架构[16]来存储风格用一个发电机发电。相反,我们提出了一个可恢复的任意样式传输(RAST)框架,它从图像恢复的角度来处理内容泄漏问题。该框架不涉及分类模块和风格库,而是通过迭代学习实现通过共享基于注意力的传输块的相同参数,我们的框架可以实现双向多恢复与相同的传输块。与CycleGAN、Disco-GAN、StarGAN和CAST不同的是,RAST框架可以同时实现内容和风格信息的传输。此外,我们提出了多恢复损失和风格差异损失的特 征 级 别 , 以 支 持 我 们 的 RAST 框 架 。 请 注 意 ,CycleGAN、DiscoGAN、Star-GAN和CAST主要通过对抗过程来实现域自适应。然而,我们的框架主要是指导恢复过程,以实现内容和样式信息的交付。3. 该方法以前的任意样式传输方法通常会遇到内容泄漏问题。为了解决这一问题,提出了可恢复的任意样式传输(RAST)框架。该框架通过对内容图像和风格图像的多重恢复,不仅实现了内容和风格信息的传递,而且滤除了干扰图像恢复的风格特征。为了保证该框架的有效性,我们还设计了多恢复损失和风格差异损失来指导学习过程。我们的框架概述如图2所示。在我们的传输块中,我们采用SANet [37]作为主干,它可以通过计算风格注意力来语义地映射内容特征图和风格特征图之间的对应关系。预训练的VGG-19网络[43]用作编码器以获得特征图。解码器是一个对称的VGG- 19网络[21],它可以将特征图解码为图像。除此之外,多尺度鉴别器[48]被用作外部鉴别器[2]来学习人类感知的风格信息。3.1. 网络架构所提出的框架的主要架构如图2所示。假设是所提出的方法的传输块,输入图像包括内容图像Ic和样式图像Is,并且输出是样式传输图像Io,其是Ic的内容部分和Is的样式部分的组合。数学上:信息,这也可以实现任意风格的trans-I第一,(1)334Is“LLIsIcÝÑ%我埃克塞特TpI,I q阿利什茨恢复损失,它不仅可以计算图2:建议的可恢复任意样式传输(RAST)框架概述。它包括一个传输块,通过共享相同的参数来迭代地用于风格化和恢复。它还采用了两个外部鉴别器D1和D2,它们分别可以处理现实到艺术和艺术到现实的过程。在那里我cI/o被定义为进程的表示法风格转换IoIc,Is在本节剩余部分将使用的拟议方法中。据我们所知,没有什么是内容或风格的黄金幸运的是,在所提出的方法中,我们重新输入所提出的方法的风格化图像I。和内容图像的风格,当传送块适当地工作时,新的输出被期望接近原始内容图像I。。在数学上,这可以表示为:3.2. 损失函数如3.1节所讨论的,我们的框架可以通过多重恢复过程实现可扩展的任意样式转换.为了保证特征提取的准确性,设计了特征级多重恢复损失多重和风格差异损失差异,分别保证特征一致性和风格嵌入。我们利用感知损失[22,21]作为基础函数来计算特征差异。如公式4所示,fs可以通过特征图的均值和标准差来计算风格特征的差异,其中,ITpI,IqVGG-19网络的第i层。 具体地,Relu 11,C cS oOCcc日使用Relu 2 1、Relu 3 1、Relu 4 1和Relu 5 1层其中I1c是恢复的内容图像,其应该接近原始内容图像Ic。此外,我们还可以通过使用Is作为内容图像,Io作为样式图像来恢复样式图像。恢复的样式图像Ils被假定为接近原始样式图像Ils,其在数学上在等式3中示出,其中Ils是被假定为接近原始样式图像Ils的恢复的样式图像。来捕获风格特征图。E表示特征图的平均值,σ表示特征图的标准差。此外,fc可以计算内容特征的差异,如公式5所示,其中Relu 4 1和Relu 5 1层用于提取内容特征。L原创风格图片 同样,当我们切换Ic和是的,我们可以在总共得到4个不同的恢复图像,这是fspI1,I2qi}EpipI1qq′ EpipI2qq}2(四)应该接近原始输入图像。总体而言,所提出的框架的多个恢复图像如下所示` }σp<$ipI1qq<$σp<$ipI2qq}2fcpI1,I2q(五)2.第一个问题是什么?第二个问题是什么?我我|我&TpIo,Icq基于上述功能,我们设计了多功能的C cS o1L多ITpI,Iq我的天|IcTpIs,Ioq&TpI1o,Isq(三)SANet传递块传递块传递块传递块传递块解码器传递块Ic$335多CCCCSSSSSSCC恢复图像和输入图像之间的特征差异年龄,但也衡量之间的差异,多恢复图像.S sCo%TpIc,I1oqL其中I1c、I2c、I1s和I2s是恢复的内容图像和样式图像分别。`αrfcpI1c,I2cq`fspI1c,I2cq`fcpI1s,I2sq`fspI1s,I2sqs。(六)传递块编码器336L1212LLLLLLLL内容= 0.5= 1= 2风格图3:初始化阶段后建议损失函数的训练性能。如等式6所示,Lmulti首先计算恢复图像之间的特征差Ic|s,Ic|s和输入图像Ic|S. 具体地,计算Ic与Ic、Is与Is之间通过恢复的内容特征差。 这是因为I1c和I2s中的内容特征是从风格化图像I0和I1o中传输的,而不是由输入图像直接提供的。同样,由于从Is到I1s和I2c到I2c的过程都是一个动态的风格传递过程,因此计算了I1s和Is、I2c和I2c之间的风格特征差异。除了由于内容和风格的传递而造成的特征损失外,L multi还计算了多幅恢复图像之间的特征差异。如图2所示,我们的RAST架构涉及多恢复过程。对于每幅输入图像,分别通过内容传输和风格传输产生两幅恢复图像通过可视化,我们观察到通过内容传输恢复的图像与通过风格传输恢复的图像略有不同因此,我们计算I1c和I2c、I1s和I2s之间的特征差。 考虑到不同的传输过程所造成的差异,我们的架构可以进一步提高内容传输和风格传输的准确性。我们采用超参数α来为不同传输方法引起的这种特征差异提供不同的权重如图4所示,更高的α值可以带来更好的特征一致性。与标准的循环损失不同[55],整体多重恢复损失multi可以计算传输引起的特征差异,同时也考虑了不同传输方式引起的误差,可以用来替代我们架构中存在的内容损失和风格损失。 值得一提的是,内容特征和风格特征的损失被赋予了相等的权重。除了多重恢复损失,我们还设计了风格差异损失。 为了避免程式化的图像欺诈-图4:使用多恢复损失的不同超参数的训练结果。其他权重与等式8中的权重相同。对于60000次迭代,批处理大小设置为4。内容权重= 0.5权重= 1权重= 2样式图5:不同风格差异损失权重的训练结果。其余权重与等式8中的相同。对于75000次迭代,批处理大小设置为4。针对内容图像,设计了风格差异损失diff,以最大化内容图像和风格化图像之间的风格差异。具体来说,我们最大化IO和IC,I1O和IS之间的风格特征差异.风格差异损失Ldiff的公式如下所示Ldi ff“f s p I o , I c q ` f s p I 1 o , I s q.(7)风格差异损失diff与multiple的结合可以保证从风格图像中嵌入风格特征。风格差异损失diff可以确保风格化图像中的风格特征不同于内容图像中的风格同时,多媒体中的风格一致性计算可以保证嵌入的风格特征来源于风格图像。使用不同diff权重进行训练的结果如图5所示,其中较高的diff权重可以在样式化图像中产生更丰富的样式。由于风格差异损失的目的是最大化风格特征的差异,因此我们期望在训练过程中增加值,如图3所示。为了保证最终损失函数的收敛性,我们在最终损失中取风格差异损失diff除了上面提出的损失,我们还包括三个现有的损失函数:身份丧失[37],对比337LDDLLL风格内容我们的CAST PAMA StyTr2 IEASTArtFlowMCCNetSANet AdaIN图6:用于比较的风格化结果。第1列和第2列分别表示样式图像和内容图像.第3到第11列是从所提出的架构和最先进的方法中得到的程式化结果。第一至第六行揭示了艺术风格的转移。照片般真实的风格转移显示在第7和第8行。[2]和[2]的区别身份丢失身份由SANet [37]提出,以实现身份映射,其中内容和样式源自同一图像。SANet实验证明,身份丢失可以优化内容保存,提高风格嵌入的准确性.此外,我们还包括:1和2,可以分别处理现实到艺术和艺术到现实的过程。最终损失函数L_final可以概括为b-low,其中损失权重被设置为λ1- 2、λ 2 - 2、λ 3 - 1、λ 4 - 5和λ5 - 0。3.L利用对比损失Lcontra进行传统学习[2]。最终1多2diff(八)以批量大小为4为例,每个内容图像匹配两个不同风格的图像,从而可以获得具有相同内容信息的两个结果。类似地,每个样式图像可以产生共享相同样式的两个结果。对比损失可以通过评估关联结果的特征差异来学习风格化与风格化之间的关系。最后,我们利用外部对抗性损失adv[2]涉及内部-外部学习,它可以学习人类感知的风格信息。与IEAST [2]不同,我们包括两个多尺度鉴别器[48]λ3L同一性`λ4Ladv` λ5L对照。请注意,我们将现有的内容损失和风格损失替换为建议的多恢复损失多和风格差异损失diff,可以实现。利用建议的损失函数,建议的RAST架构的有效性可以保证。除了两个损失函数的指导外,三个最新的损失函数可以从不同的角度进一步优化风格转换性能。338ˆˆ方法我们铸造PAMAStyTr2的至少ArtFlowMCCNetSANetAdainLPIPS(Ic,I1c)LPIPS(Is,I1s)LPIPS(Ic,I1c)Ls(Is,I1s)推断时间(ms/img)0.1870.2502.0210.78760.3240.4234.2032.62480.2660.3053.5941.857100.2600.3123.6461.2225380.3280.3094.7861.05260.4110.1845.5490.9852800.3200.1785.4061.33490.4550.4367.3251.27260.4340.4546.9521.92712表1:与最先进方法的定量比较。4. 实验结果为了证明RAST架构的风格传输性能,我们比较了八种最先进的方法,包括CAST [54],PAMA [36],StyTr2 [6], IEAST [2], Artflow [1], MCCNet [5],SANet [37]和AdaIN [21].定性和定量比较结果分别见第4.2节和第4.3节。4.1. 实现细节我们提出的RAST架构使用MS- COCO [32]作为内容数据集和WikiArt [24]作为样式数据集进行训练。在训练阶段,训练图像的较小维度我们采用Adam优化器[26],学习率设置为0.0001。批量大小设置为8,在单个Nvidia RTX A6000 GPU上进行160000次迭代。在测试阶段,我们分别从MS-COCO和WikiArt的测试集中随机选择了10000幅我们调整图像大小,512 512,使得评估度量可以应用于相同的大小。测试阶段在单个Nvidia GeForce RTX 2080 GPU上完成。此外,我们利用广泛使用的图像对可视化涉及艺术风格转移和照片般真实感的风格转移。请注意,我们的架构可以处理任何大小的测试图像。4.2. 定性比较在图6中,我们显示了我们的RAST方法对八种最先进方法的定性结果。为了证明任意风格转移性能,我们包括艺术风格转移(第1 - 6行)和照片真实感风格转移(第7和第8行)的比较。为了确保实验的多样性,我们利用不同类型的内容图像,包括肖像,建筑,动物,静物和风景。我们还采用各种风格的风格图像。通过比较,我们观察到AdaIN [21]有时会产生不可靠的结果,对局部细节(第1、2、4、5和6行)的保护较弱,并产生不希望的模式(第2、5、6、7和8行)。SANet [37]带来了重复模式(第1、2、3、4、6和8行)和视觉伪影(第3和7行)。与SANet类似MCCNet [5]还遭受轮廓周围的光晕伪影(第3、4、6和7行)。Artflow [1]在图像边缘附近(第1、2、3、4、6和8行)产生意外图案。IEAST [2]在风格化图像(第2、3和6行)中应用重复模式,并且面临颜色失真问题(第1、5、7和8行)。上述问题已部分解决的最新方法。然而,最近提出的方法仍然受到一些现有的问题,如缺乏精致的模式和内容保存差。内容保存不足可能会导致内容细节丢失,并使结果变得模糊。从图6中,我们可以观察到StyTr2 [6]有时无法保留内容信息(第3、第5、第6和第7行)。它还遭受颜色失真问题(第6和第8行).PAMA仍然没有摆脱内容保存的头痛(第1和第7行).此外,它还存在风格嵌入不足的问题(第2、6和8行).类似地,CAST [54]不能产生内容保留的结果(第1、5和7行),这导致内容变化并使结果模糊。此外,它还面临着真实感风格转换(第1、第6和第8行)的颜色失真问题相比之下,我们的RAST架构实现了可扩展的任意风格的传输,通过多个配置,这涉及到内容信息和风格信息的传输。因此,与其他现有技术的方法相比,RAST可以实现具有有前途的风格嵌入性能的优越的内容保存性能。4.3. 定量比较除了定性比较,我们还涉及定量比较。在现有的方法中,没有一个黄金标准来评估输入图像和风格化图像之间的风格转移性能。其原因是内容图像Ic和风格化图像Io之间的风格信息不同。风格意象Is与风格化意象Io之间的内容信息也是不同的。针对这一局限性,本文提出了一种新的方法,通过评估内容保持性能和风格一致性性能来间接衡量内容保持性能和风格一致性性能。3391|LLLÑÑ方法我们铸造PAMAStyTr2的至少ArtFlowMCCNetSANetAdain内容保存评分风格一致性评分偏好评分4.3743.5703.8603.1342.9622.9823.1103.0802.9983.3623.1883.2103.4443.1623.3322.8542.7702.6723.0643.0623.0542.6243.0762.8102.1742.4162.186表2:用户研究结果。输入图像I c之间的特征差异|s和重新存储的图像Ic s。具体地,我们通过评估内容图像Ic和恢复的内容图像I1c之间的特征差异来测量内容保留性能,因为Ic和I1c共享相同的风格特征。此外,I1c中的内容信息从Ic跟随Ic发送,IoI1c过程,它只涉及内容传输.类似地,通过评估涉及相同内容特征的样式图像Is和恢复的样式图像Is对于评估,我们采用学习感知图像块相似性(LPIPS)[53]和感知损失[22]作为评估指标。测试集(10000个图像对)的评价结果如表1所示。从结果中,我们可以观察到,所提出的RAST框架可以针对LPIPS(第2行)和内容丢失c(第4行)评估度量两者实现优异的内容恢复性能。PAMA和Stytr2方法也可以实现有希望的内容保存。以上结果表明,多重恢复训练确实提高了内容一致性。该框架对样式信息引起的内容变化进行了限制,避免了内容泄漏问题。除了内容保存,RAST还可以实现有希望的样式一致性性能,其在样式丢失方面排名第一(第5行),在LPIPS方面排名第三(第3行)。结果表明,风格差异损失Ldiff和风格传递损失transs的结合可以有效地使我们的框架达到较好的风格一致性。此外,ArtFlow方法还可以实现出色的风格一致性,风格损失和LPIPS指标均排名第二除了内容保存和风格一致性,我们还比较了测试集上的推理时间与时间计算从输入图像进入模型到返回风格化结果,不包括加载和保存图像的过程从表1(第5行)中,我们可以观察到SANet可以实现出色的样式传输速度.我们的RAST框架和IEAST方法也可以得到类似的结果,利用SANet作为骨干。用户研究。为了进一步证明所提出的框架的性能,我们设计了一个用户研究,其中包括20个部分。对于每个部分,我们向参与者展示一个不同的图像对具有标记内容和样式的图像。我们提出了程式化的结果,所提出的方法和八个国家的最先进的方法在一个九平方网格。结果在网格中随机排列,方法的名称对参与者隐藏对于每个风格化的结果,参与者被要求分别对内容一致性表现、风格一致性表现和 整 体 表 现 进 行 评 分 。 评 分 标 准 从 1 ( 差 ) 到 5(好)。这样,参与者可以在比较其余八种方法的结果后确定当前方法的分数。我们从25名参与者中收集了13500个分数。表2中显示了平均得分,其中偏好得分表示总体性能。与表1相比,我们可以认识到,在用户研究中存在两个离群值,IEAST和CAST。 原因是IEAST可能会导致一些微小的意外模式,如人眼,在用户学习过程中可能不会注意到;然而,这些可能导致较低的分数。此外,CAST模型产生模糊的结果,这使得评估结果较低。然而,这种情况在用户研究期间可能不会引起注意总体而言,我们可以得出结论,我们提出的方法可以实现可比的风格转移性能。5. 结论我们提出了可恢复的任意样式传输(RAST)架构,从图像恢复的角度处理内容泄漏问题。通过多次迭代,实现了内容信息和风格信息的同时传递与以往的方法不同的是,本文的研究重点是最小化恢复图像与输入图像之间的差异,最大化风格化图像与输入图像之间的差异,以避免不同的内容信息或风格信息所造成的干扰.此外,提出了两种新的损失函数,即风格差异损失和多重恢复损失,以保证RAST结构的有效性实验结果表明,该算法在保持内容一致性的同时,具有较高的风格传递性能和风格一致性。340引用[1] Jie An,Siyu Huang,Yibing Song,Dejing Dou,WeiLiu,and Jiebo Luo.Artflow:通过可逆的神经流传递无偏见的图像风格。在IEEE/CVF计算机视觉和模式识别会议论文集,第862-871页[2] 陈海波,王志忠,张慧明,左志文,李爱林,魏兴,卢东明,等。艺术风格迁移与内-外学习和对比学习。神经信息处理系统的进展,34:26561[3] 田启晨和马克施密特。快速的基于补丁的任意风格转移。arXiv预印本arXiv:1612.04337,2016。[4] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第8789-8797页,2018年。[5] Yingying Deng , Fan Tang , Weiming Dong , HaibinHuang,Chongyang Ma,and Changsheng Xu.通过多通道相关实现任意视频风格传输。在AAAI人工智能会议集,第35卷,第1210-1217页[6] Yingying Deng,Fan Tang,Weiming Dong,ChongyangMa,Xingjia Pan,Lei Wang,and Changsheng Xu.风格2:图像风格与变压器转移。 在IEEE/CVF计算机视觉和模式识别会议论文集,第11326-11336页[7] 邓莹莹,唐凡,董伟明,孙文,黄飞跃,徐长生。通过多适应网络传输任意风格。第28届ACM国际多媒体会议论文集,第2719-2727页,2020年。[8] Laurent Dinh , David Krueger , and Yoshua Bengio.Nice : 非 线 性 独 立 分 量 估 计 。 arXiv预 印 本 arXiv :1410.8516,2014。[9] Vincent Dumoulin , Jonathon Shlens , and ManjunathKud-lur. 对艺术风格的博学的表现arXiv预印本arXiv:1610.07629,2016。[10] Michael Elad和Peyman Milanfar。通过纹理合成的花柱转 移 。 IEEE Transactions on Image Processing , 26(5):2338[11] JakubFi se r,On drejJamr is ka,MichalLuk a`c,EliShecht-man , PaulAsente , Jing wan anLu , andDanielSy`kora.Stylit:照明引导的基于示例的3d渲染风格化。ACMTransactions on Graphics(TOG),35(4):1-11,2016。[12] Oriel Frigo , Neus Sabater , Julie Delon , and PierreHellier. Split and match:基于示例的自适应补丁采样,用 于 无 监 督 样 式 传 输 。 在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,第553-561页[13] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换在IEEE计算机视觉和模式识别会议论文集,第2414-2423页,2016年。[14] 布鲁斯·古奇埃里克·莱因哈德艾米·古奇 人类面部插图 : 创 作 和 心 理 物 理 评 估 。 ACM Transactions onGraphics(TOG),23(1):27[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》,2014年第27期。[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页[17] 亚伦·赫茨曼使用多种大小的弯曲画笔笔划进行绘画渲染 。 在 Proceedings of the 25th annual conference onComputer graphics and interactive techniques,pages 453[18] Aaron Hertzmann 、 Charles E Jacobs 、 Nuria Oliver 、Brian Curless 和 David H Salesin 。 形 象 类 比 。 在Proceedings of the 28th annual conference on Computergraphics and interactive techniques,pages 327[19] Jonathan Ho,Xi Chen,Aravind Srinivas,Yan Duan,and Pieter Abbeel. Flow++:通过变分去量化和架构设计改进基于流的生成模型。国际机器学习会议,第2722-2730页。PMLR,2019年。[20] Kibeom Hong , Seogkyu Jeon , Huan Yang , JianlongFu , and Hygiene Byun. 域 感 知 的 通 用 样 式 传 输 。IEEE/CVF计算机视觉国际会议论文集,第14609-14617页,2021年[21] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。在IEEE计算机视觉国际会议论文集,第1501-1510页,2017年[22] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[23] 姜敏国和朴载植Contragan:用于条件图像生成的对比学习。神经信息处理系统的进展,33:21357[24] Sergey Karayev 、 Matthew Trentacoste 、 Helen Han 、Aseem Agarwala 、Trevor Darrell、Aaron Hertzmann 和Holger Winnemoeller 。 识 别 图 像 样 式 。 arXiv 预 印 本arXiv:1311.3715,2013年。[25] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。国际机器学习会议,第1857-1865页。PMLR,2017年。[26] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[27] Durk P Kingma和Prafulla Dhariwal。Glow:具有可逆1x1卷积的生成流。神经信息处理系统的进展,31,2018。341[28] Dmytro Kotovenko、Artsiom Sanakoyeu、Sabine Lang和Bjorn Ommer 。艺术风格转换的内容与风格分离在IEEE/CVF计算机视觉国际会议论文集,第4422-4431页[29] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络进行图像合成。在IEEE计算机视觉和模式识别会议论文集,第2479-2486页[30] Xueting Li,Sifei Liu,Jan Kautz,and Ming-Hsuan Yang.学习线性变换以实现快速图像和视频风格转换。在IEEE/CVF计算机视觉和模式识别会议论文集,第3809-3817页[31] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.通过特征变换进行通用样式传递。神经信息处理系统的进展,30,2017。[32] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[33] Songhua Liu , Tianwei Lin , Dongliang He , Fu Li ,Meiling Wang,Xin Li,Zhengxing Sun,Qian Li,andErrui Ding. Adaattn:重新审视任意神经风格迁移中的注意机制。在IEEE/CVF计算机视觉国际会议论文集,第6649-6658页[34] Zhi-Song Liu,Li-Wen Wang,Wan-Chi Siu,and VickyKalo- geiton.命名您的样式:任意艺术家感知的图像风格转移。arXiv预印本arXiv:2202.13562,2022。[35] Ming Lu,Hao Zhao,Anbang Yao,Yurong Chen,FengXu,and Li Zhang.通用样式转换的封闭形式解决方案。在IEEE/CVF计算机视觉国际会议论文集,第5952-5961页[36] 罗轩,韩震,杨灵康,张玲玲。一致的风格转移。arXiv预印本arXiv:2201.02233,2022。[37] Dae Young Park和Kwang Hee Lee风格-注意网络的任意风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集中,第5880-5888页[38] Seobin Park,Jinsu Yoo,Donghyeon Cho,Jiwon Kim,and Tae Hyun Kim.通过元学习快速适应超分辨率欧洲计算机视觉会议,第754-769页。Springer,2020年。[39] 朴泰成、阿列克谢·A·埃夫罗斯
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功