基于分层GANs的人脸照片艺术人像绘制

3 浏览量更新于2023-10-18 收藏 3.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10743APDrawingGAN：基于分层GANs的人脸照片艺术人像绘制冉毅，刘永进，北京自然科学研究院计算机科学系中国清华大学{yr16，liuyongjin}@tsinghua.edu.cn作者：Lai Yu-Kun，PaulL.松香英国卡迪夫大学计算机科学与信息学院{LaiY4，RosinPL}@ cardiff.ac.uk面部照片艺术家的绘画深层意象类比CNNMRFGatys结果使用相同的输入测试照片的巴拉克奥巴马头像CycleGANPix2Pix一张测试照片APDrawingGAN输出(a) 训练集中的图像(b) 我们的方法(c) 现有方法图1：（a）艺术家使用稀疏的线条和很少的阴影区域绘制肖像画，以捕捉特定面部照片的独特外观。(b)我们的APDrawingGAN学习这种艺术绘画风格，并自动将人脸照片转换为高质量的艺术肖像画。(c)使用相同的输入人脸照片，六种最先进的风格转移方法无法生成所需的艺术绘画：Deep ImageAnalogy [20]，CNNMRF [18]，Gatys [11]和Headshot Portrait [32]改变面部特征或无法捕捉风格，CycleGAN [40]和Pix2Pix [15]在头发，眼睛或嘴角周围产生虚假细节。摘要使用深度学习的图像风格化已经取得了重大进展，特别是使用生成对抗网络（GAN）。然而，现有的方法不能产生高质量的艺术肖像画。这种绘画具有高度抽象的风格，包含稀疏的连续图形元素（如线条），因此小的人工制品比绘画风格更容易暴露。此外，艺术家往往会使用不同的策略来绘制不同的面部特征，所绘制的线条与明显的图像特征只有松散的联系。为了应对这些挑战，我们提出了APDrawingGAN，这是一种基于GAN的新型架构，它基于分层生成器和区分器，结合了全局网络（图像作为* 通讯作者整体）和局部网络（用于各个面部区域）。这允许针对不同的面部特征学习专用的绘画策略。由于艺术家为了训练APDrawing-GAN，我们构建了一个包含高分辨率肖像照片和相应专业艺术绘画的艺术绘画数据集。广泛的实验和用户研究表明，APDrawingGAN比最先进的方法产生更好的艺术绘画。1. 介绍肖像画是一种悠久而独特的艺术形式，通常使用稀疏的连续图形集-10744标准元件（例如，线条）来捕捉人的独特外观。它们是在个人或照片的存在下绘制的，并依赖于观察，分析和经验的整体方法。一幅艺术肖像画应该完美地捕捉人的个性和感情即使是受过专业训练的艺术家，通常也需要几个小时才能完成一幅好的肖像画（图1）。1a）。用艺术家的绘画训练计算机程序特别是，随着深度学习的发展，提出了神经风格转移（NST），它使用CNN来执行图像风格转移[11]。后来，基于生成对抗网络（GAN）的风格转移方法（例如，[15，40，2，5]）通过利用（成对或未成对的）照片和风格化图像的集合进行学习，已经取得了特别好的结果。这些现有的方法大多使用杂乱的样式来演示，这些样式包含许多碎片化的图形元素，例如画笔笔划，并且对单个元素的质量具有缺陷不太明显）。艺术肖像画在风格上与以往研究的肖像画风格有很大的不同，主要表现在以下五个方面。首先，APDrawing样式是高度抽象的，包含少量稀疏但连续的图形元素。AP图纸中的缺陷（如额外，缺失或错误的线条）比其他风格（如绘画）更明显（例如，印象派和油画），涉及成千上万的不同大小和形状的笔画的密集集合。第二，APDrawing风格转换比一般风格转换有更强的语义约束特别是面部特征不应缺失或移位。即使是小的伪影（例如，眼睛周围）可能是清晰可见的、分散注意力的和不可接受的。第三，AP绘图中的眼睛与头发）。第四，要素（如面部部分的轮廓）不能被艺术家精确地定位，这对基于像素对应的方法提出了挑战（例如，Pix2Pix [15]）。最后，艺术家在APDrawings中放置与人物视图或照片中的低级特征没有直接关系的线条。示例包括指示流动的头发中的线，或者即使图像不包含不连续性也指示面部特征的存在的线。这些绘画元素很难学。因此，即使是最先进的图像风格传输算法（例如，[11，15，18，20，32，40]）-十个不能产生良好的和有表现力的AP图纸。参见图1c的一些示例。为了解决上述挑战，我们提出了 APDraw-ingGAN，这是一种新颖的分层GAN架构，专用于面部结构和APDrawing样式，用于将面部照片转换为高质量的APDrawings（图11）。（见第1段b）。去实现-为了有效地学习不同面部区域的不同绘画风格，我们的GAN架构包括几个专门用于面部特征区域的本地为了进一步处理艺术家绘画中基于线条的风格和不精确定位的元素我们工作的主要贡献有三方面：• 我们提出了一个层次GAN架构，用于从人脸照片合成艺术肖像画，可以生成高质量和表现力的艺术por- trait图纸。特别是，我们的方法可以学习复杂的发型与微妙的白线。• 艺术家在创建绘图时使用多个图形元素。为了最好地模仿艺术家，我们的模型将GAN的渲染输出分成我们还提出了一个损失函数专用于APDrawing在我们的架构中的四个损失项，包括一个新的DT损失（以促进线笔划为基础的风格在APDrawings）和本地传输损失（本地网络，以保持面部特征）。• 我们使用从10个人脸数据集中收集的6，655张正面人脸照片对模型进行预训练，并构建了一个AP-Drawing数据集（包含140张高分辨率人脸）。照片和由专业艺术家绘制的相应肖像画），适合于训练和测试。APDrawing数据集和代码可用。12. 相关工作图像风格化在非真实感绘制和深度学习研究中得到了广泛的研究。下面我们从三个方面对相关工作进行总结。2.1. 基于神经网络的风格迁移Gatys等人[11]首先提出了一种使用CNN将风格图像的风格特征转移到内容图像的NST方法。对于给定的图像，其内容和风格特征分别由VGG网络中的Gram矩阵[10]通过优化图像以匹配内容图像的内容和样式图像的样式两者来实现样式传递这种方法对不同艺术家的油画风格转换都有很好的效果。然而，他们的风格是建模为纹理特征，因此不适合我们的目标风格与纹理少。Li和Wand [18]使用马尔可夫随机场（MRF）损失代替Gram矩阵来编码风格，并提出了组合MRF和CNN模型（CNNMRF）。1https://cg.cs.tsinghua.edu.cn/people/刘永进/Yongjin.htm10745CNNMRF可以应用于非真实感（艺术作品）和真实感图像合成，因为局部块匹配用于MRF损失并促进局部可扩展性。然而，局部补丁匹配限制了该方法仅在样式和内容图像包含相似局部特征的元素时才能很好地工作。Liao等人[20]提出了通过在两个输入图像之间找到语义上有意义的密集对应来进行视觉属性转移的深度图像模拟它们计算CNN提取的特征图之间的对应关系。深度图像模拟成功地应用于照片到风格的转换，但在转换AP绘图风格时，图像内容有时会受到影响，使生成的图像中的主体难以识别。Johnson等人[16]提出了基于高级特征的感知损失的概念，并训练了一个用于图像风格传递的前馈网络。与[11]类似，他们基于纹理的损失函数不适合我们的风格。除了上述针对APDrawing样式传输的限制之外，大多数现有方法要求样式图像接近内容图像。2.2. 人像的非真实感绘制在NPR领域，已经开发了许多用于生成肖像的方法[29]。Rosin和Lai [28]提出了一种使用高度抽象的平面颜色区域来设计肖像的方法。Wang et al. [38]提出了一种基于学习的方法来将图像风格化为由弯曲的笔触组成的肖像。Berger等[3]提出了一种数据驱动的方法来学习肖像素描风格，通过分析艺术家素描数据中的笔画和几何形状。 Liang等人[19]建议一种通过使用扩展的MaskR-CNN生成面部特征模型并在子区域上应用两种笔划绘制方法来进行肖像视频风格化的方法。上述方法产生特定类型的技术的结果，例如，曲线笔触人像，人像素描。然而，他们没有研究艺术肖像画的风格。还有一些基于实例的风格化方法是为肖像设计的。Selim等人[30]提出了一种肖像画转移方法，通过在方法[ 11 ]中加入空间约束来减少面部失真。Fis Baglier等人[9]提出了一种基于实例的肖像风格化方法Pix2Pix [15]是图像到图像翻译的通用框架，它在条件集[22]中探索GAN。Pix2Pix可以应用于各种图像翻译任务，并在各种任务上取得了令人印象深刻的结果，包括语义分割，着色和草图到照片翻译等。CycleGAN [40]旨在通过引入循环一致性损失来学习两个没有配对数据的域之间的翻译。该模型特别适用于配对训练数据不可用的任务。当应用于具有配对数据的数据集时，该方法产生的结果类似于完全监督的Pix2Pix，但具有更多的训练时间。Pix2Pix和CycleGAN都不适合APDraw风格，并且由于第二节中总结的五个挑战，经常会产生模糊或混乱的结果1用于AP绘图。3. APDrawingGAN概述我们将学习将面部照片转换为APDrawings的过程建模为一个函数，该函数将面部照片域P映射到基于黑白A.从配对训练数据S data={（p i，a i）|p i∈ P，a i∈A，i=1，2，.，N}，其中N是照片AP绘图的数量在训练集中对。我们的模型基于GAN框架，由生成器G和CAND组成，两者都是专门为具有基于线条的艺术家绘画风格的APDrawings设计的CNN。生成器G学习要在A中输出AP绘图，学习确定图像是否是真正的APDrawing或生成。由于我们的模型是基于GAN的，被训练以最大化将正确标签分配给真实的AP绘图ai∈A和合成绘图G（pi），pi∈P两者的概率，并且同时G被训练以最小化该概率。将损失函数表示为L（G，D），它是专门设计的，包括四项Ladv（G，D），LL1（G，D），LDT（G，D）和Llocal（G，D）.然后，可以通过用函数L（G，D）求解以下最小-最大问题来公式化函数G（G，D）：min maxL（G ，D ）=Ladv （G，D ）+λ1LL1（G，D）通过设计多个引导通道并应用[8]中的引导纹理合成方法来生成视频。但所有G D+λ2LDT（G，D）+λ3Llocal（G，D）（一）这些方法使用类似的纹理合成方法，这使得它们不适合AP绘图样式。2.3.基于GAN的图像合成生成对抗网络（GAN）[12]在解决许多图像合成问题方面取得了很大进展，其中与我们的工作密切相关的是Pix2Pix和CycleGAN。节中4、介绍了APDrawing的体系结构。乾L（G，D）中的四项在第二节中给出。五、最后，我们提出了培训方案，在第二节。六、我们的APDrawingGAN的概述如图所示。二、4. APDrawingGAN架构与标准的GAN架构不同，在这里，我们提出了一个生成器和判别器的分层结构10746512×512256×256128×128512×512256×256128×1282×2……输入pI全球我全球净融合网输出功率（ kW）高×宽高×宽× ×2222DT损失88×…六个地方网I本地局部区域真正的AP图纸512×512256×256128×128标签（ai）=实数局部提取器全球净真/假高×宽�� ×22×�� 44×88六个地方网合成图像Label（G（pi））= false分层生成器Ground truthaiA分级鉴别器图2：拟议的APDrawingGAN的框架。分层生成器G以人脸照片pi∈ P作为输入，并且可以被分解为全局网络（用于全局面部结构）、六个局部网络（用于四个局部面部区域、头发和背景区域）和融合网络。六个局部网络的输出被组合成Ilocal，并与全局网络的输出Iglobal融合，以生成最终输出G（pi）。损失函数包括四项，其中引入了一种新颖的DT损失，以更好地学习精致的艺术线条风格。层次化的CNOD区分是否通过组合全局鉴别器和六个局部鉴别器，基于分类结果来确定输入是否是真实的AP图每个网络包括一个全球网络和六个本地网络。六个局部网络对应于左眼、右眼、鼻子、嘴、头发和背景的局部面部区域。此外，生成器具有自适应融合网络，以从全局和局部网络的输出合成艺术绘画。这种层次结构背后的原因是，在肖像画中，艺术家对面部的不同部位采用不同的绘画技巧例如，通常为眼睛绘制精细的细节，并且为头发绘制的曲线通常遵循头发的流动，但不精确地对应于图像强度。由于单个CNN在图像中的所有位置共享过滤器，并且很难对多个绘制特征进行编码/解码，因此使用多个CNN的分层全局和局部网络的设计可以帮助模型更好地学习不同位置的面部特征。4.1. 分层生成器G生成器 G 将输入的面部照片转换为 AP- 绘图。APDrawings的样式是在模型是训练出来的。在层次结构 G={Gglobal ，Glmouth ， Gfusion} 中， Gglobal 是全局生成元，Glmouth={Gleyel，Gleye r，Glnose，Glmouth，Glhair，Glbg}是六个局部生成元的集合，Gfusion是融合网络.我们使用U-Net结构设计G[26]。Gleye l、Gleye r、Glnose和Glmouth中的每一个都是具有三个下卷积块和三个上卷积块的U形网。Glhair和Glbg中的每一个是具有四个下卷积块和四个上卷积块的U网。局部生成器的作用是学习不同局部人脸特征的绘制风格;例如，在一个实施例中，用于头发的多毛型（即，通过短的起伏或长的笔触来捕捉单个发丝的柔软的纤细细节），眼睛和鼻子的精细线条风格，以及嘴的实线或线条风格。具有跳过连接的U-Net可以结合多尺度特征，并提供足够但不过度的灵活性，以在APDraw中学习艺术家对Gleye l、Gleye r、Glnose、Glmouth的输入是以面部界标为中心的局部区域（即，左眼，右眼，鼻子和嘴）通过MTCNN模型获得[39]。Glbg的输入是通过肖像分割方法检测的背景区域[31]。Ghair的输入是面部照片中的剩余区域。我们将所有本地生成器的输出混合到一个聚合的绘图I本地，通过在重叠区域使用最小池。这种最小池化可以有效地保留来自各个本地生成器的响应，因为低强度被视为艺术绘画中的黑色像素的响应。G global是一个具有8个下卷积块和8个上卷积块的U-Net，它处理人脸的全局结构。 G融合由一个平坦卷积块、两个残差块和一个最终卷积层组成。我们使用G融合将I局部和I全局融合在一起（即，外-10747DTDTDTDTDT(a) A AP图纸x（b）IDT（x）（c）I′（x）计算整个图形中每个像素的LL1损失LL1（G，D）=E（pi，ai）Sdata[<$G（pi）−ai<$1]（3）使用L1范数通常比L2范数输出更少的模糊结果，因此更适合AP绘图样式。直线提升距离变换损失LDT是一种专门针对直线笔画提升而设计的新措施以APDrawings的风格由于APDraw中的元素图3：两个距离变换IDT（x）和I′（x）没有精确地对应于图像中的位置一个APDrawingx.DT张力，我们引入LDT来容忍小的错位-这在艺术家的肖像画中经常出现Gglobal的放置）以获得最终的合成图ofG.在许多以前的GAN模型中（例如，[12，14]），通常会在发电机网络中输入或添加一些噪声。在[15]之后，我们没有显式地在G中添加噪声，而是在U-Net块中使用dropout [33]作为噪声。4.2. 层次化CMDs该 CNOD 区分输入绘图是否是真实艺术家在D={Dglobal，Dl∞}的系统中，Dglobal是一个全局判别式.并且 Dl_bg ={Dl_eye_l ， Dl_eye_r ， Dl_nose ，Dl_mouth，Dl_hair，Dl_bg}是六个局部鉴别器的集合。D全球检查整个图纸，以判断整体的APDraw-的特征，而局部判别器在DlR检查不同的局部区域，以评估精细细节的质量- 以及更好地学习APDrawings中的笔画线。为此，我们使用距离变换（DT）和倒角匹配，如下所示。A DT（又名距离图）可以由数字图像表示，其中每个像素存储距离值。给定真实或合成的AP绘图x，我们将x的两个DT定义为图像IDT（x）和I ′ DT（x）。（x）：假设x是二进制的图像x，IDT（x）中的每个像素将距离值存储到它的最近的黑像素xel在x∈ I中，每个像素xel在I′（x）将距离值存储到其最近的白色像素xel中。图3显示了一个例子。我们训练两个CNN2来检测APDrawings中的黑线和白线，表示为Θb和Θw。APDrawingsx1和x2之间的倒角匹配距离定义为Σ我们实现了D全局和所有局部鉴别器，在Pix2Pix中使用马尔可夫模型的Dl算法[15]。的dCM（x1，x2）=IDT（x2）（j，k）（j，k）∈Θb（x1）（四）唯一的区别是输入：整个图纸或不同的局部区域。马尔可夫过程每个Σ+（j，k）∈Θw（x1）′（x2）（j，k）70×70的补丁在输入图像中，并检查的风格每个补丁来自不同粒度的局部补丁（即，在那里，我（x）（j，k）和I′（x）（j，k）是距离值，′全局和局部输入的粗略和精细级别）允许所述图像处理器学习局部模式并更好地将真实艺术家的绘画与合成的绘画区分开分别为图像IDT（x）和IDT（x）中的像素（j，k）。活泼地dCM（x1，x2）测量从x1中的每个行像素到x2中的相同类型（黑色或白色）的最近像素的距离之和。则LDT定义为5. 损失函数LDT（G，D）=E（pi，ai）<$Sdata[dCM（ai，G（pi））（五）在等式中的损失函数中有四项。1，解释如下。对抗性损失Ladv模拟了APDrawings正确区分真实或虚假APDrawings的能力。遵循Pix2Pix [15]，对抗性损失公式化为：+dCM（G（pi），ai）]局部传递损失Llocal对Gl中的六个局部生成器的中间输出施加了额外的约束，然后表现为损失函数中的正则化项将AP绘图x的六个局部区域表示为El（x），Er（x），ΣL（G，D）= E[log（D（p，a）Ns（x）、Mt（x）、Hr（x）和Bg（x）。 L局部定义为AdvDj∈D（pi，ai）sdataJ我我我10748Llocal（G，D）=l+lo g（1−Dj（pi，G（pi）]。（二）E（pi，ai）表示data||1 ||1当Dj∈Dl∈ D时，图像pi，ai和G（pi）都被限制在由Dj指定的局部区域内. 当D使该损失最大化而G使其最小化时，L adv迫使合成图变得更接近目标域A。+||G l眼r（Er（p i））−Er（ai）||1+||G lnose（Ns（p i））−Ns（a i）||1+||G l口（Mt（p i））−Mt（ai）||1+||Glhair（Hr（pi））−Hr（ai）|Σ|1+的||G lbg（Bg（p i））−Bg（ai）||1（六）像素损失LL1 驱动合成图形以像素的方式接近地面实况图。我们2我们使用双色调NPR图像和NPR算法[ 27 ]生成的相应线条作为数据来训练两个CNN模型。10749图4：从左到右：原始面部照片、NPR结果[27]、添加清晰下颌轮廓的 NPR 结果（用于预训练）和APDrawingGAN的结果。面部照片来自 CFD [21] 和Siphon [36]的数据集。6. 培训APDrawingGANAPDrawing 数据集。为了训练提出的 APDraw-ingGAN，我们构建了一个包含140对人脸照片和相应肖像画的数据集。为了使训练集的分布更加一致，所有的肖像画都是由一位专业艺术家绘制的。所有图像和图纸均对齐并裁剪为512×512尺寸。补充材料中举例说明了一些例子。预训练的训练。由于艺术家绘制每幅肖像画既耗时又费力，因此我们构建的数据集仅由少量图像对组成，这使得训练特别具有挑战性。为了解决这个问题，我们使用了一个粗略的预训练，使训练开始在一个良好的初始状态。我们收集了来自10个人脸数据集的6，655张正面人脸照片[37，21，6，25，24，7，35，34，4，36]。对于每张照片，我们使用[27]中的双色调NPR算法生成合成图。由于它经常生成没有清晰下颌线的结果（由于这些位置的图像对比度低），我们使用OpenFace [1]中的面部模型来检测下颌上的标志，然后将下颌线添加到NPR结果中。图中示出了两个示例。4.第一章请注意，以这种简单的方式合成的绘图只是粗略的近似值，仍然远离理想的APDrawings。我们使用10个epoch后的预训练模型作为后续正式训练的初始化。由于我们的NPR生成的图纸（与艺术家的图纸不同正规训练。我们将我们的APDrawing数据集划分为70个图像对的训练集和70个图像对的测试集。年龄对然后，我们将小角度旋转（-10 10）和缩放（11.1）的数据增强应用于训练集。此外，我们应用Adam优化器[17]，学习率为0.0002，动量参数β1=0。5，β2=0的情况。999，批量为1。7. 实验我们在PyTorch中实现了APDrawingGAN [23]，并在具有NVIDIA Ti- tan Xp GPU的计算机上进行了实验。发生器G的输入和输出分别是彩色照片和灰度图，因此输入和输出通道的数目是3和1。在我们所有的λ1=100，λ2=0。1，λ3=25。本节中提供的所有评估结果都基于测试集，以确保公平性。7.1. APDrawingGAN中的消融研究我们对APDrawingGAN中的一些关键因素进行了消融研究，以下结果表明，所有这些因素对APDrawingGAN都是必不可少的，它们共同产生了高质量的APDrawingGAN风格化结果。本地网络（即，APDrawingGAN中的Gl和Dl）对于捕捉每个面部区域的风格至关重要由于APDrawing的样式在不同的局部区域包含几种独立的渲染技术，如果没有局部网络，模型无法使用位置无关的完全卷积网络很好地学习不同的样式如图5、在没有局部网络的情况下，模型生成的结果是凌乱的，其中面部区域和毛发区域都呈现出凌乱的毛发样式，导致明显的缺陷。线促进DT损失LDT是必不可少的，以产生良好的和干净的结果与微妙的线条。没有DT损失，在毛发区域中存在较少的精细线，并且出现一些不期望的白色斑块，如图2中的第二行所示五、此外，一些不吸引人的线条出现在下巴周围，导致与输入照片不同的绘图，如图2中的两个结果所示。五、通过使用DT损耗有效地避免了这些线路。使用在NPR数据上预先训练的模型进行训练有助于模型在更短的时间内生成良好的结果。没有初始化的结果更差，在面部区域中具有更多杂乱的线条，而在头发区域中具有更少精细的白线，如图2中两个结果的下巴区域和第二结果的头发区域所示。五、预训练有助于模型快速收敛到一个好的结果，避免这种伪影。7.2. 与最新技术水平的比较我们将APDrawingGAN与六种最先进的风格转换方法进行比较：Gatys [11]，CNNMRF [18]，Deep ImageAnalogy [20]，Pix2Pix [15]，CycleGAN [40]和HeadshotPortrait [32]。由于Gatys （具有平均Gram 矩阵）、CycleGAN和Pix2Pix的输入与CNNMRF、深度图像模拟和Headshot Portrait的输入不同，因此我们分别比较它们。与Gatys、Cycle-GAN和Pix 2 Pix比较的定性结果如图所示。六、Gatys10750(a) 输入（b）地面实况（c）W/O本地网络（d）W/O DT损失（e）W/O初始化（f）我们的图5：消融研究：（a）输入面部照片，（b）艺术家绘制的地面真实图，（c）在APDrawingGAN中移除局部网络Gl_和Dl_的结果，（d）从等式（1）中移除线促进DT损失LDT1，（e）不使用NPR数据预训练的模型作为初始化的结果，（f）我们的结果。输入面部照片地面实况Gatys CycleGAN Pix2Pix APDrawingGAN图6：与Gatys [11]，CycleGAN [40]，Pix2Pix [15]和我们的APDrawingGAN的比较结果。默认接受一个内容图像和一个样式图像作为输入。但为了公平比较，我们使用训练集中的所有风格图像并计算平均Gram矩阵来模拟目标风格，如[40]所示如图6、Gatys的方法对于APDrawing风格化生成的结果很差：在风格化的结果中缺少一些面部特征，并且不同区域的风格化不一致。造成这些伪像的原因是该方法将风格模型化为Gram矩阵中的纹理信息，不能捕捉到纹理较少的目标风格，并且基于VGG输出的内容丢失不能精确地保留人脸特征。CycleGAN [40]也不能很好地模仿艺术肖像风格。如图CycleGAN的结果看起来不像艺术家的画，特别是在面部特征方面。存在许多伪像，诸如眼睛中的缺失细节、模糊/抖动的嘴部区域、暗斑（例如，眼睛和下巴在底部行）造成的阴影，而不是捕捉眉毛的风格。CycleGAN无法保留面部特征，因为它使用循环一致性来约束内容，这比监督方法更不准确，并且当其中一个域没有准确恢复时会导致问题。Pix2Pix [15]生成的结果保留了艺术绘画的某些方面，但它们也有许多伪像。有许多杂乱的不需要的线条，使得风格化的结果与输入照片不同，头发中的白线也没有很好地学习。原因在于，具有一个CNN的生成器无法在不同的面部区域中学习几种独立的绘制技术，并且没有专门设计用于APDrawing风格的损失项。相比之下，我们的方法很好地捕捉了不同面部区域的不同绘画技巧，并生成10751输入内容输入方式CNNMRF深度图像模拟头像肖像图7：与CNNMRF [18]，Deep Image Analogy [20]，Headshot Portrait [32]和APDrawingGAN的比较结果高质量的结果与微妙的白线在头发和面部特征画在艺术家与CNNMRF、深度图像模拟和头部特写肖像的定性比较结果如图所示。7.第一次会议。这些方法以一个内容图像和一个样式图像作为输入，并且要求这两个图像是相似的。给定测试集中的内容图像，我们在训练集中选择两个与内容图像语义相似的样式图像（即，他们有相似的面部特征），如图所示。7.第一次会议。CNNMRF [18]生成的结果不显示与目标样式相同的颜色分布。CNNMRF和深度图像模拟[20]都生成了面部特征更接近风格图像但不像输入内容图像，即，内容已被错误地从样式图像复制。头像肖像[32]是一种肖像特定的方法，但它产生照片般逼真的结果，这不是目标艺术家肖像画的风格。相比之下，我们的方法生成的图纸，既保留了面部照片中的面部特征，并捕捉艺术肖像绘画风格。此外，我们的结果是高质量的，非常接近艺术家绘制的地面真相。对于定量评估，我们使用Fre' chetInceptionDistance（ FID ）[13] 将我们的APDraw- ingGAN与CycleGAN[40]和Pix 2 Pix [15]进行比较，这是一种广泛使用的GAN评估指标。我们在完整的测试集上评估FID，以测量生成的AP图纸和真实的AP图纸之间的相似性比较结果见表1。作为参考，我们还报告了训练集和测试集中真实APDrawings之间的FID度量。实验结果表明，该方法的FID值要低得多，这表明我们生成的分布比CycleGAN和Pix2Pix更接近真实的APDrawing分布。由于图像风格的主观性，我们还进行了一项用户研究，将我们的结果与CycleGAN和Pix2Pix进行比较，结果表明我们的APDrawingGAN排名最高表1：CycleGAN、Pix 2 Pix和我们的AP-DrawingGAN在FID指标方面的比较。我们的方法显示出更低的FID值，表明我们生成的分布比CycleGAN和Pix2Pix更接近真实的APDrawing分布。方法FIDCycleGAN [40]87.82[第15话]75.30APDrawingGAN62.14真实（培训与测试）49.72占71.39%。有关用户研究的更多详细信息，请参见补充材料。8. 结论和未来工作在本文中，我们提出了APDrawingGAN，一个层次GAN模型，将人脸照片转换为APDraw- ing。我们的方法致力于人脸和AP绘画风格，特别是旨在避免现有方法产生的许多人工因素。实验结果和用户研究表明，我们的方法可以实现成功的艺术肖像风格转移，并优于国家的最先进的方法。虽然我们的方法可以学习复杂的发型与微妙的白线，结果仍然不像艺术家我们计划在今后的工作中解决这些问题。确认本工作得到了国家自然科学基金（ 61725204 ，61521002 ）、英国皇家学会牛顿高级院士（NA150431）和教育部普适计算重点实验室的资助。APDrawingGAN地面实况10752引用[1] Brandon Amos ， Bartosz Ludwiczuk ， and MahadevSatya- narayanan. OpenFace：一个带有移动应用程序的通用人脸识别库。技术报告，CMU-CS-16-118，CMU计算机科学学院，2016年。6[2] Samaneh Azadi ， Matthew Fisher ， Vladimir Kim ，Zhaowen Wang，Eli Shechtman，and Trevor Darrell.多内容GAN用于少量字体样式传输。在IEEE计算机视觉和模式识别会议上，CVPR2[3] Itamar Berger，Ariel Shamir，Moshe Mahler，ElizabethCarter，and Jessica Hodgins.素描的风格与抽象。ACMTransactions on Graphics（TOG），32（4）：55：1-55：12，2013. 3[4] Olga Chelnokova、Bruno Laeng、Marie Eikemo、JeppeRiegels、Guro Løseth、Hedda Maurud、Frode Willoch和Siri Leknes。美丽的奖赏：阿片系统调节人类的社会动机。分子精神病学，19：7466[5] 杨晨，赖玉坤，刘永进。CartoonGAN：用于照片卡通化的生成对抗网络在IEEE计算机视觉和模式识别会议上，CVPR'18，第9465-9474页，2018年。2[6] Re'miCourset，MarineRougier，RichardPalluel Germain，Annique Smeding，Juliette Manto Jonte，Alan Chauvin和Dominique Muller 。高加索和北非法国面孔（CaNAFF）：人脸数据库国际社会心理学评论，31（1）：22：1-22：10，2018。6[7] 娜塔莉·C艾布纳，米凯拉·里迪格，乌尔曼·林登伯格.FACES-年轻、中年和老年女性和男性面部表情数据库：开发和验证。 Behavior Research Methods ， 42（1）：351-362，2010. 6[8] JakubFi se r，On drejJamr is ka，MichalLuk a`c，EliShecht-man ， PaulAsente ， Jing wan anLu ， andDanielS y`k ora.StyLit：照明引导的基于示例的3D渲染风格化。ACMTransactions on Graphics（TOG），35（4）：92：1-92：11，2016. 3[9] Jakub Fis Baghier ， Ond Jagrej Jamris Baghka ， DavidSimons ，Eli Shecht-man ， Jing w anLu ， PaulAsente ，MichalLuk a`cBaghier ，andDanielS y`k ora. 基于示例的风格化动画合成。 ACM Transactions on Graphics（TOG），36（4）：155：1- 155：11，2017. 3[10] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。神经信息处理系统进展NeurIPS '15，第262-270页，2015年。2[11] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议，CVPR'16，第2414-2423页，2016年。一二三六七[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统，NeurIPS'14，第2672-2680页，2014年三、五[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统，NeurIPS'17，第6629-6640页，2017年。8[14] 睿煌、张舒、李天宇、冉河。超越面旋转：全局和局部感知GAN的photorealistic和身份保持正面视图合成。在IEEE计算机视觉国际会议的开幕式上，ICCV'17，第2439-2448页，2017年。5[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络进行图像到图像翻译在IEEE计算机视觉和模式识别会议上，CVPR'17，第1125-1134页，2017年。一二三五六七八[16] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，ECCV3[17] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[18] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络的图像合成。在IEEE计算机视觉和模式识别会议上，CVPR'16，第2479-2486页，2016年。一、二、六、八[19] 梁冬雪、朴敬洙和普热梅斯拉夫·克伦皮耶。人脸特征模型用于人像视频风格化。symmetry，10（10）：442，2018。3[20] Jing Liao，Yuan Yao，Lu Yuan，Gang Hua，and SingBing Kang.通过深层意象类比实现视觉属性转移。ACMTransactions on Graphics（TOG），36（4）：120：1一二三六八[21] 黛比·S Ma，Joshua Correll，and Bernd Wittenbrink.芝加哥人脸数据库：一个自由的刺激集的面孔和规范化数据。 Behavior Research Methods ， 47 （ 4 ）： 1122-1135，2015. 6[22] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。3[23] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca An

下载后可阅读完整内容，剩余1页未读，立即下载