没有合适的资源?快使用搜索试试~ 我知道了~
7693×作画大师:基于样本的高分辨率人像风格转换帅杨黎明姜紫薇刘晨换来南洋理工大学S-Lab{shuai.yang,liming002,ziwei.liu,ccloy} @ ntu.edu.sg(a)输入(b)卡通风格转换(c)漫画风格转换(d)动画风格转换(e)随机生成的卡通(f)变化的外在风格(g)变化的内在风格(h)变化的两种风格图1.我们提出了一种新的DualStyleGAN的样本为基础的高分辨率(1024 - 1024)的肖像风格转移。从真实面部(a)生成的(b)-(d)的艺术肖像成功地模仿了在它们各自的左下角看到的示例的颜色和结构风格DualStyleGAN具有双样式路径:分别用于对内容和样式进行灵活控制的内在样式路径和外在样式路径。(e)从任意的内在和外在风格代码生成的卡通脸。通过(f)用固定的内在风格改变外在风格,(g)用固定的外在风格改变内在风格,以及(h)改变两种风格生成的样本。摘要最近对StyleGAN的研究表明,通过有限数据的迁移学习,艺术肖像生成在本文中,我们探索更具挑战性的基于样本的高分辨率肖像风格转移,通过引入一种新的DualStyleGAN,灵活控制原始人脸域和扩展的艺术 肖 像 域 的 双 重 风 格 。 与 StyleGAN 不 同 的 是 ,DualStyleGAN提供了一种自然的风格转换方式,分别用内在风格路径和新的外在风格路径来表征肖像的内容和风格。精心设计的外在风格路径使我们的模型能够高度调节颜色和复杂的结构风格,以精确地模仿风格示例。此外,一种新的渐进微调方案被引入到平滑转换生成空间的模型的目标域,即使在网络架构上实验证明了DualStyleGAN在高质量肖像风格转换和灵活风格方面优于最先进的控制代码可在https://github.com/ wilyang1991/DualStyleGAN上找到。1. 介绍艺术肖像在我们的日常生活中很受欢迎,特别是在与漫画,动画,海报和广告相关的行业中。在本文中,我们专注于基于样本的肖像风格转移,一个核心问题,旨在将样本艺术肖像的风格转移到目标人脸上。它的潜在应用是有吸引力的,因为它允许任何新手轻松地将他们的照片转换成基于他们最喜欢的艺术品风格的令人惊叹的拼贴画,否则将需要高度专业的手工创作技能。基于图像风格转移[23,24,31]和图像到图像转换[6,19,22]的自动肖像风格转移已经被广泛研究。最近,Style-GAN [17,18],最先进的面部生成器,通过迁移学习[29]非常有希望用于高分辨率艺术肖像生成。具体而言,StyleGAN可以7694可以有效地微调,通常只需要数百幅肖像图像和小时的训练时间,将其生成空间从面部域转换到艺术肖像域。它在质量、图像分辨率、数据需求和效率方面都比传统的图像风格转换和图像间转换模型有很大的优势。上述策略虽然有效,但只能学习分布的整体翻译,无法执行基于范例的风格迁移。对于已经被转移用于生成固定漫画风格的StyleGAN,大笑的脸将在很大程度上被映射到漫画域中其最近的一个,即,一幅有着夸张嘴巴的肖像。用户没有办法缩小脸来粘贴他们喜欢的艺术品,如图。第1段(c)分段。虽然StyleGAN通过潜在交换提供了固有的基于范例的单域风格混合[1,17],但这种面向单域的操作是违反直觉的,并且不适合涉及源域和目标域的风格转换。这是因为这两个域之间的不对准可能在样式混合期间导致不想要的伪像,特别是对于特定于域的结构。然而,作为专业的拼贴画,impor-martiche应该模仿艺术家如何处理面部结构,漫画中的抽象和漫画中的变形为了应对这些挑战,我们提出了一种新的Dual-StyleGAN,以实现基于样本的肖像风格转移的有效建模和双重风格控制DualStyle- GAN保留了StyleGAN的一条内在样式路径来控制原域的样式,同时增加了一条外在样式路径来建模和控制目标扩展域的样式,这自然对应于标准样式传递范式中的内容路径和样式路径。此外,外部样式路径继承了StyleGAN的分层架构,以调节粗分辨率层中的结构样式和精细分辨率层中的颜色样式,以实现灵活的多级样式操作。向原始StyleGAN架构添加外部样式路径对于我们的任务来说并不简单,因为它有可能改变预训练的StyleGAN的生成空间和行为为了克服这一挑战,我们提出了有效的方法和见解来设计外部风格路径和训练Dual-StyleGAN。1)模型设计:基于对StyleGAN的微调行为的分析,我们提出将外部风格以残差的方式引入到卷积层中,这可以很好地近似微调对StyleGAN卷积层的我们表明,这样的设计使DualStyleGAN能够有效地调节关键的2)模型训练:我们引入了一种新的渐进式微调方法,其中首先精心初始化外部风格路径,以便DualStyle- GAN保留StyleGAN的生成空间,用于无接缝迁移学习。然后,我们开始用一个简单的风格转换任务来训练DualStyle- GAN,然后逐渐地,增加任务难度,逐步将其生成空间平移到目标域。此外,我们提出了一个面部去风格化的方法,提供人脸肖像对,作为监督,以促进模型学习多样化的风格,避免模式崩溃。通过上述新颖的配方,所提出的Dual-StyleGAN提供了高质量和高分辨率的拼贴画,并对颜色风格和复杂的结构风格提供了灵活多样的控制,如图所示。1.一、总之,我们的贡献有三个方面:我们提出了一种新颖的DualStyleGAN来表征和控制基于样本的高分辨率肖像风格转移的内在和外在风格,仅需要几百个风格示例,在高质量和多样化的艺术肖像生成中实现了优于最先进方法的性能。我们设计了一个原则性的外在风格路径,通过微调,从外部域引入风格功能,并提供层次的风格操作的颜色和结构。我们提出了一种新的渐进微调方案,用于在网络上进行鲁棒迁移学习。2. 相关工作使用StyleGAN生成艺术肖像。风格- GAN [17,18]合成具有分层风格控制的高分辨率人脸图像Pinkney和Adler [29]在有限的卡通数据上对StyleGAN进行了微调,并发现它在生成可信的卡通面孔方面很有前途。原始模型和微调模型表现出合理程度的语义对齐[36],允许通过将其在原始模型中嵌入的潜在代码应用于微调模型以获得相应的风格化面部来toonify真实面部。这个框架是高效的和数据友好的,吸引了进一步的深入研究,如嵌入加速[30],更好地选择潜在代码[34],在极其有限的数据上训练[14,28]。与我们的工作相反,这些方法只学习整体分布翻译,而没有基于范例的风格控制。Kwong等人[21]在模型对齐的假设下,通过交换来自示例样式图像的精细分辨率层特征与来自内容图像的精细分辨率层特征来实现样式转移。然而,在没有有效监督的情况下,对齐随着不一致的微调而减弱,最终导致层交换失败。因此,该方法主要适用于颜色转移,而不能有效地控制重要的结构样式。相比之下,我们的模型有一个明确的外在风格路径,可以条件训练,以表征结构风格。此外,监督学习不同的风格是通过面部去风格化。图像到图像转换。 肖像风格转移可以···7695ee我eeeZWee∈eeZeeLL我平移生成空间源域目标域源域监督目标域无条件微调非风格化肖像条件微调(a) 输入S(b)g(z+)(c) g(+)(d) g(z+)(a) StyleGAN(颜色表示条件)(b) DualStyleGAN图2.比较StyleGAN上的无条件微调和DualStyleGAN上的有条件微调。(e) 输入S(f)g(z+)(g)无注册(h)输入S (i)g(z+)(j)不初始化通过图像到图像转换框架实现[27,32,37,38]。主要思想是学习面部和艺术肖像域之间的双向映射[39]为了找到具有较大表观差异的域之间的对应关系,U-GAT-IT [19]使用注意力模块来关注域之间共享的关键区域。Ani-GAN [22]在鉴别器中使用共享层来提取两个域的共同特征。GNR [6]学习有效的内容特征和样式特征,分别作为在数据增强期间未改变或改变的内容特征和样式特征。对于漫画的风格,应用显式图像扭曲来模仿不同的面部变形[4,33]。这些策略允许图像到图像翻译框架对涉及剧烈变换的人脸进行风格化。然而,从头开始学习复杂的双向翻译使得该框架仅限于低分辨率图像,并且需要很长的训练时间。我们的方法遵循StyleGAN的微调框架,该框架在创建高分辨率肖像方面是有效的,并且提供了超出上述方法能力的灵活的3. 通过DualStyleGAN我们的目标是建立DualStyleGAN的基础上,图3.面部去风格化的插图(b)-(d)中顺序地示出了(a)在每个阶段中的去风格化(e)-(g):正则化防止了对与脸无关的绿色玩具的过度拟合。(h)-(j):z+作为拟合复杂卡通人脸的良好初始值一种逐渐增强肖像真实感的方法。阶段I:潜在初始化。艺术肖像S首先由编码器E嵌入StyleGAN潜在空间。在这里,我们使用pSp编码器[30]并对其进行修改以将FFHQ面部[17]嵌入到+空间中,这对与面部无关的背景细节和扭曲的形状比如[34]中所建议的原始+重建的面g(z+)的示例如图1B所示。图3(b),其中g是在FFHQ上预训练的StyleGAN,z+=E(S)R18×512是潜在代码。虽然E是在真实面孔上训练的,E(S)很好地捕捉了肖像S的颜色和结构。第二阶段:潜在优化。在[29]中,通过优化g的潜在代码来重建该图像[1]并将该代码应用于微调模型g',从而对面部图像进行风格化。我们采取相反的步骤来优化g′的潜在z+,以使用新的正则化项来重建S,并将得到的z+应用于g以获得其去风格化的版本,z+=argminLperc(g′(z+),S)经过训练的StyleGAN,它可以被转移到一个新的领域,并表征原始和ez++λIDLID(g′(z+),S)+<$σ(z+)<$1,(一)扩展域。无条件微调将StyleGAN生成空间作为一个整体进行平移,导致所捕获样式的多样性丧失,如图所示。二、我们的关键思想是寻求有效的监督,以学习不同的风格(第二节)。3.1),并明确建模两种风格与两个单独的风格路径(节。3.2)。我们用一个原则性的渐进策略训练DualStyleGAN,以实现鲁棒的条件微调(第二节)。3.3)。3.1. 面部去风格化其中perc是感知损失[15],ID是保持面部身份的身份损失[7],σ(z+)是z+中18个不同的512维向量的标准误差。λID=0。1.一、与[1]不同的是,我们设计了正则化项,将z+拉到定义良好的空间以避免如图2所示的过盈配合3(f)(g),并且在优化之前使用z+而不是平均潜在代码来初始化z+,这有助于准确地拟合如图3(f)(g)中的面部结构。3(i)(j)。第三阶段:图像嵌入。最后,我们嵌入g(z+)为z+=E(g(z+)),进一步消除了不真实的fde-Ie人脸去风格化的目的是从艺术肖像中恢复真实的人脸,形成锚定的人脸-肖像对作为超视。给定目标域的艺术肖像,我们希望在面部域中找到它们的合理对应物。由于这两个领域可能有很大的外观差异,这给我们带来了一个不小的挑战,以平衡面部真实性和逼真的肖像。为了解决这个问题,我们提出了一个多阶段的去风格化尾由此产生的g(z+)具有合理的面部结构,为如何变形和抽象面部结构模仿S.3.2. DualStyleGAN图4显示了DualStyleGANG的网络细节。内在风格路径和生成器网络形成标准StyleGAN,并在微调期间保持固定。的7696可训练子模块固定预训练子模块固定运营4×4A常数4×4×512Conv 3×3+…×w1外部样式路径中间结构代码内在样式路径32×32一中间样式代码一FCFC…FC足球俱Conv 3×3×w6+Conv 3×3×w7+中间色码64×64×(1-w)×w…FC足球俱乐部8 8 一Tc外部样式代码z×(1-w9)×w9一TcEEN我面对图像…图像风格SzConv 3×3Mod+DemodConv 3×3Mod+Demod上采样ModResModResTsMod+DemodMod+Demod上采样ModResMod+Demode∈∼e·∼∼生成器网络(a) 输入(b) 卡通化(c) ResBlock(d) Adain(e) DATFCFC图4. DualStyleGAN的网络详情。为了简单起见,省略了StyleGAN的学习权重、偏置和噪声。内部样式路径接受单位为Gaus的内部样式代码正弦噪声z∈R1×512,艺术肖像的z+或真实肖像的z+图5. ResBlocks最好模拟Toonify [29]。ModRes,下面我们提供一些对StyleGAN微调行为的实验分析。模拟微调行为。toonification [29]的成功依赖于微调前后模型的语义对齐,即两个模型具有共享的潜在空间[21]和密切相关的卷积特征。这也意味着这些特征的差异也与原始特征密切相关。此外,在StyleGAN的所有子模块中,卷积层在微调期间变化最大[36]。因此,可以保持所有其他子模块固定,但仅学习卷积特征的变化,以模拟微调中卷积权重矩阵的变化。在StyleGAN中,深度特征的常见调整包括通道方式、空间方式和元素方式的调制,对应于AdaIN [10],对角注意E嵌入的面我. 外部样式路径简单地使用(DAT)[20]和ResBlock。 我们做一个玩具z+作为外在风格代码,捕捉有意义的语义线索,如头发颜色和面部表情,形状(Fig.第3(b)段)。通过将单位高斯噪声映射到外在样式分布,也可以经由采样网络N对外在样式代码进行从形式上讲,如果有一张脸-年龄I和艺术肖像图像S,通过G(E(I),E(S),w)实现基于范例的风格转换,其中wR18为两条路径灵活样式组合的权值向量,默认设置为1。艺术肖像的生成由G(z1,N(z2),w)实现. 当w=0时,G退化转换成用于面部生成的标准G,即,G(z,,0)g(z).StyleGAN提供了一个分层样式控件,其中精细分辨率层和粗略分辨率层分别对低级颜色样式和高级形状样式建模,这启发了我们对外在样式路径的设计。颜色控制。在精细分辨率层(8 18)中,外部样式路径采用与StyleGAN相同的策略。具体地,z+通过映射网络f、颜色变换块Tc和仿射变换块A。所得对于最终的AdaIN,风格偏差与来自权重为w的内在风格路径的风格偏差融合[10]。与g不同的是,增加了由全连接层组成的可训练Tc来表征特定领域的颜色。结构控制。在粗分辨率层(17)中,我们提出调制残差块(ModRes)来调整结构样式并添加结构变换块Ts来 表 征 特 定 领 域 的 结 构 样 式 。 ModRes 包 含 一 个ResBlock [8]来模拟微调过程中卷积层的变化,以及一个用于样式条件的AdaIN块。为了理解提议的动机,实验发现,调制通道(图。 5(d))或空间(图5(e))维度本身不足以近似微调行为。ResBlocks实现了最相似的结果(图1)。5(c))到那些通过微调整个StyleGAN(图。第5(b)段)。因此,我们选择残差块并将AdaIN应用于残差路径中的卷积层以提供外部样式条件。摘要我们的DualStyleGAN非常简单但有效。1)复杂样式的层次建模:它提供了颜色和复杂结构样式的层次建模2)灵活的样式操作:支持权重为w的两个域之间的灵活样式混合。3)所有模式崩溃:微调仅训练外在风格路径,同时保持预训练的StyleGAN完整,这保留了原始的多样面部特征以避免模式崩溃。4)结构保留:我们的调制残差块的加性属性导致了鲁棒的内容丢失,如我们将在第2节中详细描述的。三点三3.3. 渐进式微调我们提出了一个渐进的微调方案,以平滑地将DualStyleGAN的生成空间转换到目标域。该方案借用课程学习的思想[2],分三个阶段逐步增加任务难度,如图所示。第6(a)段。阶段I:源域上的颜色转移。DualStyle- GAN的任务是在这个阶段中在源域中进行颜色传输由于我们的外在风格路径的设计,它可以完全通过特定的模型初始化来实现。具体地说,卷积滤波器在模-7697LeLLLL ∈ Z−--ee我eGDG Dll,g(z+)将具有更多的结构样式。因 此 ,外在风格路径将学习捕获和传输除颜色之外的更多结构风格。第三阶段:目标域上的风格转移。最后,我们在目标域上微调DualStyleGAN。 我们就像一个典型的艺术作品的风格代码z+和z+Ie特征S用Lperc(G(z+,z+,1),S)重构S。 如在对于随机内在风格代码z,我们应用风格损失第一阶段目标第二阶段目标第三阶段目标++(a) 渐进迁移学习Lsty=λCXLCX(G(z,ze,1),S)+λFMLFM(G(z,ze,1),S),其中CX是上下文损失[26],FM是特征匹配损失[10],以将G(z,z+,1)的风格匹配到S。对于内容损失,我们使用恒等损失[7]和ModRes的权重矩阵的L2输入初始网络第一阶段后第二期之后第三阶段后+(b) 在渐进迁移学习的各个阶段,风格迁移的结果图6.渐进式微调图解。(a)DualStyle- GAN的任务是进行越来越困难的风格转换。(b)DualStyleGAN在每个阶段之后的表现。Lcon= λIDLID(G(z,ze,1),g(z))+ λreg<$W<$2。(三)与第一阶段中的初始化类似,权重矩阵上的正则化使得残差特征接近于零,这保留了原始的内在面部结构并防止过拟合。我们的全部目标是minmax λadvLadv + λpercLperc + Lsty + Lcon.(四)风格选择前后选择样式选择前选择后图7.优化外部样式代码以优化颜色。为了产生可忽略的残留特征,将有效残留块设置为接近0的值,并且利用标识矩阵来初始化颜色变换块中的全为此,DualStyleGAN运行StyleGAN的标准样式混合操作,其中精细分辨率和粗略分辨率层分别使用来自内在和外在样式路径的潜在代码。如图在图6(b)中,初始化的DualStyleGAN生成仍然位于预训练的Style-GAN的生成空间中的可信人脸,从而允许在下一阶段中进行平滑微调。第二阶段:源域上的结构转移。这个阶段的目标是在源代码上微调DualStyleGAN,以完全训练其外部样式路径来捕获和传输中级样式。StyleGAN在阶段II中,我们抽取随机潜在码z1和z2,并且将喜欢eG(z1,ez2,1)来近似具有感知损失的风格混合 目 标 g ( z+ ) , 其 中 ez2 是 从 z2 采 样 的 , E ( g(z2)),l是发生风格混合的层,并且z++是l向量z1和(18 l)向量z2的级联。在微调期间,我们逐渐将l从7减小到5,目标如下minmaxλad vLadv+λper cLper c(G(z1,z2,1),g(z+)),(2)其中Ladv是StyleGAN对抗损失。通过降低3.4. 潜在优化和采样潜在优化。很难完全捕捉到极其多样化的风格。为了解决这个问题,我们修复了Du-alStyleGAN,并优化了每个外部样式代码,以适应其基础事实S。优化遵循将图像嵌入到潜在空间中的过程[1],并最小化等式中的感知损失和上下文损失。(四)、如图7、颜色通过潜在优化得到很好的细化。潜在采样。为了对随机外部样式进行采样,我们训练采样网络N,以使用最大似然准则将单位高斯噪声映射到优化的外部样式代码的分布[9]。请参阅[9]。续费由于结构(z+的前7行)和颜色(z+的后11行)在DualStyleGAN中很好地分离,因此我们将这两部分分开处理,即,结构编码和颜色代码独立地从N中采样并连接以形成完整的外部样式代码。4. 实验数据集。我们的目标是允许用户收集他们最喜欢的艺术品的肖像图像,以便DualStyleGAN进行pastiche。我们希望数据集被限制在几个hundred图像,便于收集。因此,我们选择了三个流行风格的卡通,漫画,动漫数据集。Car- toon数据集[29]有317张图像。我们使用来 自 WebCaricature [11 , 12] 的 199 张 图 像 和 来 自Danbooru Por- traits [3]的174张图像分别构建Caricature内在风格意象外在风格意象7698和Anime数据集我们分别在相同的数据集和CelebA-HQ [16,25]上测试外在和内在风格7699∗∗∗∗××输入示例我们的UI 2 I风格StarGAN 2 GNR Toonify FS-Ada U-GAT-IT图8.基于样例的肖像风格迁移的视觉比较实作详细数据。我们的渐进式微调使用八个NVIDIATesla V100 GPU,每个GPU的批量大小为4。阶段II使用λadv=0。1,λperc=0。5,并且分别在l = 7、6、5上训练300、300、3000次迭代,花费大约0.5小时。阶段III设置λadv=1,λperc=1,λCX=0。25,λFM=0。25,将(λID,λreg)设置为(1,0. 015),(4,0.005),(1,0. 02)并在汽车上进行1400、1000、2100次迭代训练-卡通漫画和动漫,分别。 训练需要平均约0.75小时。去风格化(第3.1),潜在的优化和训练采样网络(第3.1节)。3.4)使用一个GPU,分别需要大约5、1、0.13小时。测试每张图像大约需要0.13s为了简单起见,我们使用[n1v1,n2v2,. 为了指示向量w中的前n1个权重被设置为值v1,接下来的n2个权重被设置为值v2。ws和wc分别表示结构权重向量(w的前7个权重)和颜色权重向量(后11个默认情况下,我们将w设置为1进行训练,并将wc设置为1,ws设置为0。75,1和[4 0,3 0. 75]分别用于卡通、漫画、动漫的测试。4.1. 与最新方法的图8显示了与六种最先进方法的定性比较:基于图像到图像转换的StarGAN 2 [5]、GNR [6]、U-GAT-IT[19]和StyleGAN-表1.用户偏好评分。最佳分数以粗体标记。方法卡通漫画动漫平均GNR [6]0.010.060.040.04StarGANv2 [5]0.010.000.040.02[21]第二十一话0.050.150.140.11我们0.930.790.780.83基于UI 2 I风格[21],Toonify [29],少镜头适应(FS-Ada)[28]。图像到图像转换和FS-Ada使用256 256个图像。其他方法支持1024。Toonify、FS-Ada和U-GAT-IT学习域级别而不是图像级别的样式。因此,他们的结果是不一致的风格的例子。严重的数据不平衡问题使得很难训练有效的循环翻译。因此,StarGAN2和GNR过拟合样式图像并忽略动画样式上的输入面。UI2I风格通过层交换捕获良好的颜色风格,但模型未对齐使得结构特征难以混合,导致结构风格转移失败,如第2节中所分析。二、相比之下,DualStyleGAN在颜色和复杂结构方面都传递了范例风格的最佳风格。为了定量地评估性能,我们进行了用户研究,邀请27名受试者从四个基于范例的测试中选择他们认为最好的结果7700×∗×∗∗输入无线对w/对无线对w/对(a) 人脸画像监督效果:避免过拟合(a) 随机风格转移(b) 基于范例的风格迁移输入λreg=0λreg=0.005λreg=0.01λreg=0.02图9.与StyleCariGAN比较[13]。风格转换方法。每个样式数据集使用10个结果进行评估。表1总结了平均偏好得分,其中DualStyleGAN获得最佳得分。(b) 正则化项的效果:保存内容请比较StyleCariGAN。我们进一步比较,输入仅IIIII+III期I+III期I+II+III期[13]第十三章:一个人的幸福StyleCari-GAN结合了StyleGAN和循环翻译,采用风格混合进行颜色转换,并通过循环翻译学习结构转换。我们遵循它通过优化[18,35]找到内容和示例图像的潜在代码。根据潜在代码是从官方样式调色板还是从示例图像中随机采样的,StyleCariGAN可以传输随机或基于256 256图像的范例样式。如图9,StyleCariGAN生成相同的面部结构(c)渐进式迁移学习的效果:鲁棒性图10.消融研究。因为它的循环翻译只学习一个整体结构风格4×4 + 8×8 16×16 32×32满样式的通过比较,我们的方法有效地调整结构风格的基础上的例子。此外,我们的结果具有更高的分辨率和视觉质量,即使Style- CariGAN使用6 K训练图像,也比我们的多得多。4.2. 消融研究配对数据。图10(a)比较了在第二节中有和没有面部肖像监督的结果。第3.1条在没有超视的情况下,该模型在不考虑输入人脸结构的情况下过拟合肖像。监督有效地引导模型找到人脸和人像之间的结构关系,从而导致更合理的结果。正规化。正则化项在内容损失中的影响(等式10)。(3)如图所示。10(b).如果没有正则化项,模型会过度拟合示例的发型使用正则化项解决了这个问题。较大的λreg将过度保留输入的面部形状,如嘴部。因此,我们使用λreg=0。第005章作为交换渐进式微调。如图10(c),在没有初始化阶段I的情况下,预先训练的StyleGAN的生成空间被严重改变(图10)。6(b)),完全不合格的转移培训。如果不对真实人脸进行预训练以捕获人脸语义特征,则外在 风 格 路 径 无 法 完 成 阶 段 III 中 的 复 杂 任 务 。DualStyleGAN只有通过全面渐进的微调,才能准确地传递外在风格。图11.所提出的外在风格路径学习语义层次结构调制。不同层次的影响。为了研究外在风格路径的每一层是如何影响面部特征的,每次我们激活一个层的子集(例如,w =[30,21,13 0]只激活两个16 16层),并在图中比较它们的结果。11个国家。由于基于AdaIN的颜色调制已经在StyleGAN中得到了很好的研究,因此我们只关注粗分辨率层中的结构调制。可以看出,初始层调整了整体面部形状,16×16层放大面部组件,如嘴巴,32×32层专注于局部形状,如皱纹。4.3. 进一步分析颜色和结构保存。用户可能希望将原始照片的颜色保留为Toonify [29]。我们提供两种颜色保持方法。第一种方法是通过设置wc=0,如图12(c)所示,仅去激活外部样式路径中的颜色相关层。另一种方法是在最后11层中用内在样式代码替换外在样式代码与第一种方式相比,内在潜在代码额外地经过颜色变换块,使得最终颜色与目标域更加对齐,如图11所示。12(d).最后,通过设置ws1可以很容易地实现结构保持。<图12(e)显示了检查-StyleCariGAN我们的意见内容示例7701(a) 输入(b)完整样式(c)编辑权重(d)编辑潜在样式(e)温和样式图12.保存照片的颜色和结构。输入皮克斯漫画扣篮图14.在皮克斯,漫画和扣篮风格的性能。(a) 输入(b) unseen style(c)beforeopt(d)选择权之后图13.内在风格和外在风格的融合。ws =0的轻度花柱迁移。五、风格融合。在图13中,我们通过内插两个内在和/或外在样式代码来融合样式。光滑变换意味着样式流形的合理覆盖。其他风格的表现。我们进一步收集数据集在皮克斯,漫画和扣篮风格从互联网上,分别有122,101和120张图片。我们的方法在这些风格上取得了良好的性能,如图。十四岁以看不见的风格表演 考虑到训练数据之外的不可见风格,我们的方法仍然可以传输合理但不太一致的风格(图1)。15(c))。 通过对看不见的图像进行去风格化,以获得固定的内在风格代码,并如第3.4节所述优化外在风格代码,可以学习到更好的风格(图3)。15(d))。然而,它引入了一些工件。我们将健壮的不可见样式扩展留给未来的工作。4.4. 限制在图16中,我们显示了Dual-StyleGAN的三个典型故障案例。首先,虽然面部特征被很好地捕获,但在我们的结果中丢失了非面部区域(如帽子和背景纹理)中的第二,动漫人物的脸通常有非常抽象的鼻子。如果我们保留照片的颜色,鼻子变得明显,但不自然的动漫风格。第三,我们的方法仍然存在数据偏差问题。动漫数据集对直发和刘海有很强的偏见,使得我们的方法无法处理没有刘海的卷发同时,不常见的风格,如极大的眼睛不能很好地模仿。因此,将我们的方法应用于具有严重数据不平衡问题的任务可能会导致对代表性不足的数据的不满意结果。图15.以看不见的风格表演。(a) 细节缺失(b)非自然色彩保留的动画(c)数据偏差:发型(d)数据偏差:不常见的样式图16. DualStyleGAN的局限性5. 结论和未来工作在本文中,我们扩展了StyleGAN接受新领域的风格条件,同时保留其在原始领域的风格控制。这导致了一个有趣的应用程序的高分辨率基于样本的肖像风格transfer 与 友 好 的 数 据 要 求 。 DualStyleGAN 通 过StyleGAN的额外风格路径,可以有效地建模和调节内在和外在风格,以实现灵活多样的艺术肖像生成。我们证明了DualStyleGAN上有效的迁移学习可以通过特殊的架构设计和渐进式训练策略来实现。我们相信,我们在架构和数据方面的模型扩展的想法可以潜在地应用到其他任务,如更一般的图像到图像翻译和知识提炼。在未来的工作中,我们希望探索推荐合适的风格图像及其权重向量w的输入照片,以方便使用,并通过数据增强来减轻数据偏差问题。致谢。本研究得到了RIE 2020行业联盟基金-行业合作项目(IAF-ICP)资助计划的支持外在内在各种款式7702引用[1] Rameen Abdal,Yipeng Qin,and Peter Wonka.图像-年龄2风格:如何将图像嵌入到潜空间中?在Proc. Int'lConf.计算机视觉,第4432- 4441页,2019年。二三五[2] YoshuaBengio , Je´romeLouradour , RonanCollobert ,andJason Weston.课程学习。在Proc. IEEE Int'l Conf.机器学习,第41-48页,2009年。4[3] Gwern Branwen , Anonymous 和 Danbooru 社 区 。Danbooru2019肖像:一个大规模的动漫头部插图数据集 。 https : www.gwern.net/Crops#danbooru2019-肖像,2019年3月。5[4] 曹凯迪,廖景,陆远。 Carigans:不成对的照片到漫画翻译。ACM Transactions on Graphics,37(6 ):1-14,2018。3[5] Yunjey Choi,Youngjung Uh,Jaejun Yoo,Jung-WooHa.Stargan v2:多领域的多样化图像合成 在Proc. IEEEInt'l Conf.计算机视觉和模式识别,第8188-8197页,2020年。6[6] Min Jin Chong 和 David Forsyth 。 GANs N' Roses : 稳定、可控、多样的图像到图像的翻译。arXiv预印本arXiv:2106.06561,2021。一、三、六[7] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在Proc. IEEEInt'l Conf.计算机视觉和模式识别,第4690-4699页,2019年。三、五[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE国际会议计算机视觉和模式识别,第770-778页,2016年。4[9] Yedid Hoshen,Ke Li,and Jitendra Malik.具有生成潜在最近邻的非对抗性图像合成。在Proc. IEEE Int'l Conf.计算机视觉和模式识别,第5811-5819页,2019年。5[10] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。 在proc 国际计算机视觉会议,第1510-1519页,2017年。四、五[11] 景火、杨高、石应桓、尹虎君。用于漫画识别的变分鲁棒跨模态度量学习 在proc ACM Int'l Conf.主题研讨会多媒体,第340-348页,2017年。5[12] Jing Huo,Wenbin Li,Yinghuan Shi,Yang Gao,andHujun Yin. 网络漫画:漫画识别的基准在proc 2018年英国机器视觉会议。5[13] Wonjong Jang,Gwangjin Ju,Yucheol Jung,JiaolongYang,Xin Tong,and Seungyong Lee. StyleCariGAN:通过风格特征图调制的漫画生成。ACM Trans-actionson Graphics,40(4):1-16,2021。7[14] Liming Jiang,Bo Dai,Wayne Wu和Chen Change Loy。欺骗D:用于有限数据的gan训练的自适应伪增强。在神经信息处理系统的进展,2021年。2[15] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在Proc. European Conf.计算机视觉,第694-711页。施普林格,2016年。3[16] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。程序国际会议学习代表,2018。5[17] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。 在Proc. IEEE Int'l Conf.计算机视觉和模式识别,第4401-4410页,2019年。一、二、三[18] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改善stylegan的图像质量 在proc IEEE计算机视觉和模式识别,第8110-8119页,2020年。一、二、七[19] Junho Kim、Minjae Kim、Hyeonwoo Kang和Kwang HeeLee。U-GAT-IT:无监督生成注意力网络,具有自适应层实例归一化,用于图像到图像的翻译。 在proc 学习代表,2019年。一、三、六[20] 权智贤和叶钟哲图像生成与翻译中内容-风格解缠的对角注意与风格感。在Proc. Int'l Conf.计算机视觉,2021年。4[21] Sam Kwong,Jialu Huang,and Jing Liao.通过预先训练的stylegan2网络进行无监督的图像到图像翻译。IEEETransactions on Multimedia,2021。二、四、六[22] Bing Li,Yuanlue Zhu,Yitong Wang,Chia-Wen Lin,Bernard Ghanem , and Linlin Shen.AniGAN : Style-guided generative adversarial networks for unsupervisedanime face generation.IEEE Transactions on Multimedia,2021。第1、3条[23] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络的图像合成。在Proc. IEEE Int'l Conf.计算机视觉和模式识别,第2479-2486页,2016年。1[24] Jing Liao,Yuan Yao,Lu Yuan,Gang Hua,and SingBing Kang.通过深层图像类比进行视觉属性转移。ACM Transactions on Graphics,36(4):120,2017。1[25] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功