没有合适的资源?快使用搜索试试~ 我知道了~
8217基于非对称循环映射的冉毅,刘永进,北京自然科学研究院计算机科学系中国清华大学{yr16,liuyongjin}@tsinghua.edu.cn作者:Lai Yu-Kun,PaulL.松香英国卡迪夫大学计算机科学与信息学院{LaiY4,RosinPL}@ cardiff.ac.uk摘要肖像画是一种常见的艺术形式,具有很强的抽象性和表现力。由于其独特的特点,现有的方法只能在成对的训练数据下才能得到不错的结果,这是昂贵和耗时的。在本文中,我们解决了问题的自动转换,从人脸照片到肖像画与不成对的训练数据。我们观察到,由于照片和图纸之间的信息丰富度的显著不平衡,现有的不成对传输方法,如Cy- cleGAN,倾向于将不可见的重建信息无差别地嵌入到整个图纸中,导致重要的面部特征在图纸中部分缺失。为了解决这个问题,我们提出了一种新的非对称循环映射,该映射强制重建信息可见(通过截断损失)并且仅嵌入在选择性面部区域中(通过放松的前向循环一致性损失)。连同眼睛、鼻子和嘴唇的本地化鉴别器,我们的方法很好地保留了生成的肖像画中所有重要的面部通过引入一个风格分类器,并考虑到风格向量,我们的方法可以学习使用一个单一的网络生成多种风格的肖像画。大量的实验表明,我们的模型优于国家的最先进的方法。1. 介绍肖像画是一种独特的艺术风格,它具有高度的抽象性和表现力。然而,绘制精美的por- trait图是耗时的,并且需要由熟练的艺术家进行。因此,实现港口码头工程图的自动生成是十分必要的.图像风格转换一直是计算机视觉研究的热点。近年来,受深度学习有效性的启发,Gatys et al.[4]引入卷积神经网络(CNN)将风格从风格图像转换为内容图像,并开辟了该领域* 通讯作者神经风格转移的过程随后,生成对抗网络(GAN)在解决图像风格转换问题方面取得了很大成功[10,25]。然而,现有方法主要应用于杂乱样式(例如,油画风格),其中程式化的图像充满了零碎的笔触,并且对每个单独元素的质量要求较低。艺术人像线描(APDrawings)是一种完全不同于以往的绘画风格。生成它们非常具有挑战性,因为它的风格非常抽象:它只包含一组稀疏的图形,cal元素,是基于线条的,禁用阴影,并具有高语义约束。因此,先前的基于纹理的风格转换方法和一般的图像到图像转换方法不能在AP- Drawing风格上产生良好的结果(图13)。1)。据我们所知,AP-DrawingGAN[20]是通过使用分层结构和距离变换损失来明确处理APDrawing然而,这种方法需要成对的训练数据,这是昂贵的获得。由于配对数据的可用性有限,该方法不能很好地适应野外光照不受约束的人脸照片与配对的训练数据相比,从非配对数据学习的APDrawing生成更有挑战性。先前用于不成对图像到图像翻译的方法[25,21]使用循环结构来正则化训练。尽管循环一致性损失能够从非配对数据中进行学习 , 但 我 们 观 察 到 , 当 将 其 应 用 于 人 脸 照 片 到APDrawing的转换时,由于这两种数据类型中信息丰富度的显著不平衡,这些方法往往会在整个APDrawing中不加区别地嵌入不可见的重建信息,从而导致生成的APDrawing质量的降低,例如重要的面部特征部分缺失(图1(f-g))。在本文中,我们提出了一个不对称的循环结构,以容忍某些重建质量问题。我们认为,由于信息不平衡,网络不需要从生成的APDrawing重建准确的人脸照片。因此,我们在重建的人脸照片之间引入了松弛的周期一致性损失8218(a) 投入(b)Gatys等人(c)Linear Style Transfer(d)MUNIT(e1)ComboGAN(style1) (e2)ComboGAN(style2)(e3)ComboGAN(style3)(f)DualGAN(g)CycleGAN(h)UNIT(i)APDrawingGAN(j1)Ours(style1)(j2)Ours(style2)(j3)Ours(style3)图1.与最先进方法的比较:(a)输入人脸照片;(b)-(c)风格转换方法:Gatys [4]和线性风格转换[14];(f)-(h)单模态图像到图像翻译方法:DualGAN [21],CycleGAN [25],UNIT [15];(d)-(e)多模态图像到图像转换方法MUNIT [9]和ComboGAN [1];(i)肖像生成方法APDrawingGAN [20];(j)我们的方法。请注意,APDrawingGAN需要配对数据进行训练,因此与其他工作不同,它使用配对的APDrawing数据集进行训练。由于这一本质区别,我们在后续评价中不与该方法进行比较。和输入照片。通过这样做,不必要的详细照片信息不需要完全嵌入在APDrawings中。随着眼睛,鼻子和嘴唇的本地化鉴别器,我们的方法可以生成高质量的APDrawings,其中所有重要的面部特征都被保存。从未配对数据中学习,使我们的方法能够利用来自Web数据的APDrawings进行训练,并将更具挑战性的照片纳入训练集。为了利用来自web训练图像的风格的自然多样性(一些示例参见图2),我们的方法1进一步从混合web数据学习多种风格的AP-绘图,并且可以使用简单的风格代码来控制输出风格。我们工作的主要贡献是:• 我们提出了一种新的非对称循环结构的GAN模型,以避免在整个APDrawing中不加选择地嵌入重构信息,这通常会导致循环一致性丢失。• 我们使用多个局部判别器来加强存在性,并确保面部特征提取的质量。• 我们从未配对的混合Web数据中学习多样式的APDrawings,以便用户可以使用简单的样式代码在多种样式之间切换。2. 相关工作2.1. 神经风格迁移CNN的能力已经通过许多视觉感知任务得到了验证。受此启发,Gatys et al.[4]提出使用预训练的CNN来提取内容特征和风格1该代码可在https://github.com/yiranran/ Unpaired-Portrait-Drawing上获得从图像中提取样式特征,并通过优化图像以使其保持来自内容图像的内容并匹配来自样式图像的样式特征来实现样式转换,其中Gram矩阵用于测量样式相似性。该方法开辟了神经风格转换的新领域,并在此基础上提出了许多后续方法Li和Wand [13]提出通过使用马尔可夫随机场(MRF)正则化器而不是Gram矩阵来对风格进行建模来保持局部模式,并将MRF与CNN相结合来合成风格化图像。为了加速[4]的缓慢优化过程,一些方法(例如,[11,17])使用前馈神经网络来代替优化过程并最小化相同的目标函数。然而,这些方法仍然存在每个模型被限制为单个样式的问题。加快 为了提高优化并允许风格灵活性[4],Huang和Belongie [8]提出了自适应实例归一化(AdaIN),以将内容特征的均值和方差与风格特征的均值和方差对齐。在这些示例引导的风格转移方法中,风格是从单个图像中提取的,这不如从一组图像中学习以合成风格那样令人信服(参见第2.2节)。此外,这些方法将风格建模为纹理,因此是不合适的对于我们的肖像线绘画风格,几乎没有纹理。2.2. 基于GAN的图像到图像翻译GAN [5]在许多计算机视觉任务中取得了很大进展,包括图像超分辨率[12],文本到图像合成[16,22],面部属性操纵[23]等。在这些工作中,两个统一的GAN框架Pix2Pix [10]和CycleGAN [25]在图像到图像翻译方面取得了很大进展。Pix2Pix [10]是第一个基于条件GAN的通用图像到图像翻译框架,后来被8219输入人脸照片(a) 样式1(b)样式2(c)样式3图2.我们选择了三个代表性的风格,在我们收集的网络肖像线 绘 制 数 据 。 第 一 种 风 格 来 自 Yann Legendre 和 CharlesBurns,其中使用平行线绘制阴影。第二种风格来自KathrynRathke,其中很少使用黑暗区域,并且使用简单的流线绘制面部特征。第三样式来自vectorportal.com,其中利用连续粗线和大的暗区域。扩展到高分辨率图像合成[18]。更多的工作集中在学习从未配对的数据,由于难以获得配对的图像在两个域。一个流行且重要的观察是循环一致性约束,它是CycleGAN [25]和Dual-GAN [21]的核心。循环一致性约束强制从域A到B和从B到A的两个映射在连续地应用于图像时将图像还原回其自身。与在图像级强制循环一致性不同,UNIT [15]通过共享潜在空间假设和强制实施特征级循环一致性来解决这个问题这些方法对于一般的图像到图像的翻译任务工作良好。然而,在人脸照片到AP-绘图的翻译中,由于源域和目标域之间的信息不平衡,循环一致性约束导致AP绘图中的部分面部特征丢失。在本文中,我们放松了前向(照片→绘图→照片)循环中的循环一致性,并提出了额外的约束来避免这个问题。[3]中的NIR(近红外)到RGB方法采用了一种非常不同的不对称类型:它对前向和后向循环使用相同的损耗此外,它的目标与我们的任务不同。上述未配对翻译方法也受限于翻译输出的多样性诸如爬取的web数据之类的未配对数据通常自然地包含多模态分布(即不一致的样式)。当图3.在CycleGAN中,为了从生成的图纸重建输入照片,严格的循环一致性损失将不可见的重建信息不加区别地嵌入整个图纸中。在鼻子周围的局部区域中应用灰度值的非线性单调映射以可视化嵌入的重建信息。tecture将样式特征插入到生成器中,并使用软分类损失来区分训练数据中的模式并生成多样式输出,从而生成比最先进的方法更好的APDrawings。3. 我们的方法3.1. 概述我们提出的方法使用一种新的非对称循环结构GAN在没有配对训练数据的情况下执行人脸照片到APDraw- ing的翻译假设P和D是面部照片域和AP绘图域,并且在这两个域之间不需要存在 我们的模型使用训练数据S(p)={p i} 学习从P映射到D 的函数Φ|i=1,2,· · ·,N}·P和S(d)={d j|j=1,2,···,M}·D.N和M是训练照片和APDrawings的数量。 该模型由两个生成器G和逆生成器F组成,生成器G将人脸照片转换为人像照片,逆生成器F将人像照片转换为人脸照片,逆生成器F将人像照片转换为人脸照片,逆生成器F将人像照片转换为人脸照片,逆生成器F将人像照片转换为人脸照片。APDrawing域中的信息要少已知模式的确切数目和每个样本所属的模式,可以通过将每个模式视为单独的域并使用多域转换方法[1]来解决多模式图像到图像的转换。但是,在许多情况下,包括我们的问题设置,这些信息是不可用的。MUNIT [9]处理多模态图像到图像的转换,而不知道每个样本所属的模式。它将图像编码为域不变的内容代码和域特定的样式代码,并将内容代码与从目标域采样的样式代码重组。虽然MUNIT可以生成多种不同风格的输出,但它无法生成线条清晰、令人满意的人像线条图。我们的archi-比在面部照片领域。例如,在脸颊区域中,在原始照片中存在许多颜色变化,但是脸颊通常被绘制为完全白色(即,白色)。不包括线)。像CycleGAN [25]中那样对重建的面部照片和输入照片强制执行严格的循环一致性损失将导致网络在生成的APDrawings中以非常小的变化嵌入重建信息(即,肉眼看不见的颜色在网络计算中)[2]。参见图3的示例。在非常小的变化中嵌入重建信息实现了CycleGAN中的周期一致性损失和GAN损失之间的平衡;生成的绘图G(p)非线性映射8220可以成功地重建一张类似于in-L(G,F,DD,DP)的人脸照片:把照片,因为小的颜色变化,而在同一时间时间G(p)可以类似于真实的绘图,并且被分类为真实的。将不可见的重构信息无差别地嵌入到整个图形中,将对目标函数优化产生很强的制约。此外,它将允许重要的面部特征在生成的绘图中部分缺失。我们观察到,尽管循环一致性约束对于正则化训练很有用,但我们只对从照片到肖像画的单向映射感兴趣。因此,与CycleGAN不同,我们不期望或要求逆生成器F将面部照片重建为与输入照片完全相同的照片(这几乎是不可能的任务)。相反,我们提出的模型是不对称的,因为我们在F(G(p))和p之间使用宽松的循环一致性损失,其中只有边缘信息被强制相似,而严格的循环一致性损失被强制在G(F(d))上,D.通过容忍F(G(p))和p之间的重建信息损失,目标函数优化具有足够的灵活性以恢复APDrawings中的所有重要面部进一步提出了一种截断损失来增强嵌入信息的可见性,在松弛的循环一致性损失起作用的所选边缘的局部区域周围。此外,局部绘制鉴别器的鼻子,眼睛和嘴唇被引入,以加强他们的存在,并确保这些地区在生成的图纸的质量。通过使用这些技术,我们的方法生成高质量的人像线条画与完整的面部特征。我们的模型还处理多风格的APDrawing生成。我们从互联网上收集的APDrawing数据包含各种样式,其中只有一些带有作者/源信息标签。 我们从收集的数据中选择代表性的风格(见图1)。2)、对采集到的图纸训练分类器。然后,将学习的表示提取为样式特征并插入到生成器中以控制生成的绘图样式。引入了一个附加的样式损失来优化每种样式。我们模型中的四个网络以对抗的方式进行训练[5]:两个判别器DD和DP被训练为最大化为真实和合成的图纸和照片分配正确标签的概率;同时两个生成器G和F被训练为最小化判别器分配正确标签的概率。损失函数L(G,F,DD,DP)包含五种类型的损失项:对抗损失Ladv(G,DD)+Ladv( F , DP ) 、 松 弛 循 环 一 致 性 损 失 Lrelaxed−cyc(G,F)、严格循环一致性损失Lstrict−cyc(G,F)、截断损失Ltrunc(G,F)和风格损失Lstyle(G,DD)。然后通过求解带有损失函数的极大极小问题来优化函数Φmin maxL(G,F,DD,DP)G、F、D、D、P=(Ladv(G,DD)+Ladv(F,DP))+λ1Lrelaxed−cyc(G,F)+λ2L严格−cyc(G,F)+λ3L截断(G,F)+λ4L样式(G,DD)(一)在第3.2节中,我们介绍了我们的模型的架构和我们对G,DD和F,DP的不同设计。在3.3节中,我们介绍了我们的非对称周期一致性要求和五个损失项。我们的方法的概述如图所示。4.第一章3.2. 架构我们的GAN模型包括一个生成器G和一个识别器DD,用于人脸照片到图纸的转换,另一个生成器F和识别器DP,用于逆向图纸到照片的转换。考虑到P中人脸照片和D中APDrawing之间的信息不平衡,我们设计了G,DD和F,DP两种不同的结构。3.2.1面部照片到绘图生成器G生成器G将面部照片p和风格特征s作为输入,并且输出其风格由s指定的肖像线条画G(p,s)。样式功能% s。 我们首先训练一个分类器C(基于VGG 19),它将肖像线条画分为三种风格(图1)。2)、使用带标签的Web绘图数据。然后我们提取最后一个全连接层的输出,并使用softmax层计算三维向量作为每个绘图(包括未标记的绘图)的样式特征。网络结构。G是一个编码器-解码器,中间有残差块[7]。它从一个平面卷积和两个向下卷积块开始,对人脸照片进行编码并提取有用的特征。然后将样式要素映射到3通道特征图,并通过将其与第二下卷积块的特征图连接而插入到网络中。使用附加的平坦卷积来将样式特征图与提取的特征图合并。然后,使用相同结构的九个残差块来构造内容特征并将其转移到目标域。然后,输出图形由两个上卷积块和一个最终卷积层重建。3.2.2图纸DD绘图D D有两个任务:1)区分生成的人像线描与真实的人像线描;2)将一个图形分类为三个选定的样式,其中一个真实的图形d期望被分类为正确的样式标签(由C给出),而一个生成的图形G(p,s)期望被分类为由三维样式特征s指定的样式。8221HED截断损失Trunc发电机组发电机组LPIPS松弛循环一致性损失HED输入照片生成的图形 ( ,)重建计划( 重建,重建)风格特征={ , ln, le, ll}Discriminator鼻子辨别眼睛辨别阿尔伦·奥勒唇语识别布里尔风格损失风格分类真/假对抗性损失输入绘图生成的照片 ( )重建 (, )鉴别器对抗性损失真/假风格特征严格循环一致性损失发电机组发电机组图4. 我们的模型是一个非对称的循环结构的GAN模型,它由一个照片到绘图生成器G,一个绘图到照片生成器F,一个绘图生成器D和一个照片生成器DP组成。 我们在重建的面部照片F(G(p))和输入照片p之间使用宽松的循环一致性损失,同时在重建的绘图G(F(d))和输入绘图d之间强制执行严格的循环一致性损失。我们进一步引入局部绘图鉴别器Dln,Dle,Dll的鼻子,眼睛和嘴唇和截断损失。我们的模型处理多样式生成器中插入一个样式功能,并添加一个样式损失。对于第一个任务,为了加强所生成的绘画中重要面部特征的存在,除了分析完整绘画的判别器D之外,我们添加了三个局部判别器Dln、Dle、Dll以分别专注于判别鼻子绘画、眼睛绘画和嘴唇绘画。这些局部鉴别器的输入是掩码绘图,其中掩码从面部解析网络获得3.3. 损失函数在我们的损失函数中有五种类型的损失(等式2)。①①)。我们详细解释如下:对抗性损失。对抗性损失判断鉴别者DD其公式为:工作[6]。DD由D、Dln、Dle、Dll组成。网络结构。 全局BLOG D基于PatchGAN [10]并修改为具有两个分支。的Ladv(G、D和D)Σ)=的D∈DDΣEd∈S(d)[logD(d)](二)两个分支共享三个下卷积块。然后,一个分支Drf包括两个平坦卷积块,以输出-+D∈DDEp∈S(p)[log(1−D(G(p,s))]把一个预测地图的真实/假的每个补丁在绘图。另一个分类分支D cls包括更多的下卷积块,并输出三个样式标签的概率值。局部鉴别器Dln、Dle、Dll也采用PatchGAN结构。3.2.3绘图到面照片生成器F和照片生成器DP其中s是从S(d)中的绘图的样式特征中针对每个p随机选择的。由于DD最大化了这种损失,G最小化了这种损失,这种损失促使生成的图纸变得更接近真实的图纸。我们还对照片鉴别器DP和逆映射F采用对抗性损失:Ladv(F,DP)=Ep∈S(p)[logDP(p)]反方向的生成元F取一条纵向线+Ed∈S(d)[log(1−DP(三)(F(d))]绘制d作为输入,并输出面部照片F(d)。它采用了一 种 中 间 有 九 个 残 差 块 的 编 码 器 - 解 码 器 架 构 。PhotoCtrudDP采用Patch-GAN结构对生成的人脸照片和真实照片进行区分.松弛向前循环一致性损失。如前所述,我们观察到域D中的信息比域P中的信息少得多。我们不期望p→G(p,s)→F(G(p,s))在像素方面类似于p。相反,我们只期望8222nnp和F(G(p,s))是相似的。我们使用HED [19]从p和F(G(p,s))提取边缘,并通过[24]中提出的LPIPS感知度量来评估边缘的用H表示HED,用Llpips表示感知度量,松弛的周期一致性损失被公式化为:Lrelaxed−cyc(G,F)=Ep∈S(p)[Llpips(H(p),H(F(G(p,s)](四)严格向后循环一致性损失。另一方面,所生成的人脸照片中的信息适于重建绘图。 因此,我们期望d→F(d)→G(F(d),s(d))在像素上类似于d,这里风格特征s(d)是d的风格特征。然后,向后循环中的严格循环一致性损失被公式化为:Lstrict−cyc(G,F)=Ed∈S(d)[||d−G(F(d),s(d))||第1页](五)截断损失。截断损失旨在防止生成的图形在小值中隐藏信息。它与松弛的循环一致性损失具有相同的格式,除了所生成的绘图G(p,s)首先被截断为6位(一般数字图像以8位存储强度)以确保编码信息清晰可见,然后被馈送到F中以重建照片。将截断运算记为T[·],截断损失公式化为:Ltrunc(G,F)=Ep∈S(p)[Llpips(H(p),H(F(T[G(p,s)])](六)在训练的第一阶段,截断损失的权重保持较低,否则模型很难随着训练的进行,体重逐渐增加。风格缺失。风格丢失的引入有助于G生成具有不同风格特征的多种风格将DD中的分类分支表示为Dcls,样式损失为公式(a) 输入内容(b)输入风格(c)Gatys(d)LinearStyleTransfer(e)我们的(style1,2,3)图5.与两种最先进的神经风格转换方法的比较,即,[14]第十四章:一个人的生活4. 实验我们在PyTorch中实现了我们的方法。所有的实验都是在一台电脑上进行的泰坦XP GPU。Eq. 其中λ1=5−4。5i,λ2=5,λ3=4。其中,i是当前历元数,n是总历元数。4.1. 实验装置数 据 我 们 从 互 联 网 上 收 集 了 人 脸 照 片 和APDrawings,构建了一个由798张人脸照片和625张精美的人像线条画组成的训练语料库,以及一个由154张人脸照片组成的测试集。在收集的绘画中,84幅标有艺 术 家 Charles Burns , 48 幅 标 有 艺 术 家 YannLegendre,88幅标有艺术家Kathryn Rathke,212幅来自网站vectorportral.com,而其他人没有标记作者/来源信息。我们观察到Charles Burns和Yann Legendre都使用类似的平行线来绘制阴影,因此我们将这两位艺术家的绘画我们选择凯思琳日期为Lcls(G,DD)=Ed∈S(d)[−Σp(c)log D cls(c|(d)]CRathke为风格2,矢量图形为风格3。这两部作品都有着鲜明的特点:凯瑟琳·拉特克使用了流畅的线条,但很少使用暗部,+Ep∈S(p)Σ′[−p(c)logDCCLS(c)|G(p,s)](七)粗线和大的暗区。所有训练图像都被调整大小并裁剪为512×512像素。培训过程。1 )训练分类器C。我们首先对于实际绘图d,p(c)是样式标签上的概率c由分类器C给出,D cls(c|d)是通过D cls在c上预测的softmax概率。我们乘以概率p(c),以考虑那些可能不属于单一风格但位于两种风格之间的真实绘画,例如softmax概率[0. 58,0。40,0。02]。对于生成的图形G(p,s),p′(c)表示样式标签c上的概率,由样式特征s,D cls(c)指定|G(p,s))是c上的预测softmax概率。这种分类损失驱动Dcls将图形分类为正确的样式,并驱动G生成接近给定样式特征的图形。训练样式分类器C(第3.2.1节),绘图和数据扩充(包括随机旋转、平移和缩放)。为了平衡每种风格的绘画数量,我们在C语言的训练阶段提取了第一和第二风格的所有绘画,但只提取了第三风格的部分绘画,以实现对不同风格的更均衡的训练。2)训练我们的模型。然后,我们使用训练好的分类器来获得所有625幅绘画的风格特征。我们使用合成的绘图进一步增强训练数据。用真实图纸和合成图纸的混合数据训练我们的网络,可以为所有三种风格生成高质量的产品(图1和图2)。5-7 ,我们的结果8223(a) 输入(b)DualGAN(c)CycleGAN(d)UNIT(e)Ours(style1)(f)Ours(style2)(g)Ours(style3)图6.与三种单模态不成对图像到图像翻译方法的比较:DualGAN [21],CycleGAN [25],UNIT [15]。(a)输入(b)MUNIT(c)ComboGAN(style1,2,3)(d)Ours(style1,2,3)图7.与两种可以处理多模态或多域翻译的不成对图像到图像翻译方法的比较:MUNIT [9],ComboGAN [1].通过分别馈送[1,0,0],[0,1,0],[0,0,1]的样式特征来生成样式1,2,3的样式)。4.2. 比较我们将我们的方法与两种最先进的神经风格转换方法进行比较:Gatys [4],LinearStyleTransfer [14],以及五种不成对的图像到图像转换方法:Du- alGAN[21],CycleGAN [25],UNIT [15],MUNIT [9]和ComboGAN [1].与 神 经 风 格 转 移 方 法 的 比 较 如 图 所 示 。 五 、GatysLin-earStyleTransfer 在 视 觉 上 产 生 了 更 好 的 效果,但仍然不是所需的线条绘制:生成的图形有许多粗线,但它们是以粗糙的方式产生的。与这些示例引导 的 样 式 转 换 方 法 相 比 , 我 们 的 方 法 从 一 组APDrawings中学习,并为所有三种样式生成与单模态不成对图像到图像转换方法的比较如图所示。六、DualGAN和CycleGAN都基于严格的周期一致性损失这导致了照片到线条画翻译的困境:生成的绘图看起来像真实绘图(即,接近二进制,包含大的均匀区域),但不能正确地重建原始照片;或者生成的绘图具有灰度变化和良好的再现性,但看起来不像真实的绘图。此外,与CycleGAN相比,DualGAN更像灰度,更不像抽象,线条绘制风格更差UNIT采用特征级的循环一致性损失,使得结果在图像级的约束较少,使得人脸看起来变形。相比之下,我们的结果既保留了面部结构,又具有良好的图像和线条质量。与可以处理多模态或多域翻译的不成对图像到图像翻译方法的比较如图所示。7.第一次会议。结果表明,MUNIT不能捕捉到线条画的风格,其结果更类似于带有阴影和许多灰色区域的铅笔画。ComboGAN无法捕获所有三种代表性的风格,并且在风格2和3上的表现优于风格1。我们的架构在生成器中提前插入样式信息,这为多样式生成提供了更多的空间因此,我们的方法产生了独特的重新-8224补充材料中的FID评价(a)输入(b)不含���������������������(c)不含���������������������(d)不���含酒精;(e)不含酒精;(f)不含酒精;图8.消融研究:(a)输入照片,(b)去除松弛循环一致性损失的结果(即,使用L1损失)和去除局部鉴别器的结果,(c)去除松弛循环一致性损失的结果,(d)去除局部鉴别器的结果,(e)在计算松弛循环一致性损失中去除HED的结果,(f)我们的结果。表 1. 用 户 研 究 结 果 。第 i 行 显 示 了 不 同 方 法( LinearStyleTransfer ( LST ) [14] 、 Cy- cleGAN [25] 、ComboGAN [1]和Ours)的百分比,这些方法在四种方法中排名第iLST ComboGAN CycleGAN 我们Rank1 百分之一点三14.9%百分之十五点二68.5%等级2 百分之七点四百分之三十一点八百分之三十八点八22.0%Rank3 31.2%31.4%30.0%百分之七点四Rank4百分之六十点一百分之二十一点九百分之十五点九二点一厘结果表明,该方法能较好地再现三种风格的特征4.3. 用户研究我 们 进 行 了 一 项 用 户 研 究 , 将 我 们 的 方 法 与LinearStyleTransfer(LST),CycleGAN和ComboGAN进行比较(Gatys,DualGAN和UNIT由于视觉质量较低而不包括在内,MUNIT由于不捕获线条绘制风格而不包括在内)。我们从测试集中随机抽取60张人脸照片,并将其中20LST所需的样式参考是从实际图纸中随机选择的。参与者一次被展示一张照片、一幅真实的绘画(风格参考)和四幅生成的绘画,并被要求基于风格相似性、面部结构保留和图像质量对四个结果进行拖动和排序。34名参与者参加了用户研究,共收集了2,040张选票。表中总结了每种方法的百分比结果(排序为1、2、3、4)。1.一、我们的方法在68中排 名 最 好 。 5% 的 得 票 率 , 而 LST 、 ComboGAN 和CycleGAN在1. 百分之三,十四。9%和15。2%的实例 。 我 们 的 方 法 的 平 均 排 名 是 1.43 , 相 比 之 下 ,CycleGAN的2.47,ComboGAN的2.60和LST的3.50。这些结果表明,我们的方法优于其他方法。在用户研究中评价的所有生成图纸均在补充材料中提供。我们提供了另一个定量的82254.4. 消融研究我们对我们方法中的关键因素进行了消融研究:(1)松弛循环一致性损失;(2)局部判别器;(3)HED边缘提取。结果表明,他们都是必不可少的,我们的方法。如图在没有松弛周期一致性损失和局部鉴别器的情况下,面部特征经常丢失(例如,鼻子在第一和第二行中缺失,鼻子和眼睛细节在第三行中缺失)。仅去除松弛周期一致性损失(图8c)保留更多的面部特征区域(例如,第一个是(),第二个是()。8、但仍有部分缺失。只删除本地鉴别器(图。8 d)产生很少的缺失部分(比(图。 8 b)在面部结构中,但有些面部特征没有以所需的方式绘制:通常在面部边界或头发附近绘制的一些黑色区域或阴影出现在鼻子附近。当同时使用松弛循环一致性损失和局部判别器时,结果(图1)。8 f)保留所有面部特征区域,并且没有不期望的黑色区域或阴影出现在面部中。这些结果表明,松弛循环一致性损失和局部鉴别器都有助于保持面部特征区域,并且是互补的,局部鉴别器也有助于避免面部特征中的不希望的元素。如图8 e,在松弛循环一致性损失计算中没有HED边缘提取,线条往往不连续或模糊(见第一行和第二行的鼻子,第三行的眼睛和嘴唇)。与之相比,我们的结果具有清晰、尖锐和连续的线条。这一结果表明,使用HED边缘提取有助于模型生成更清晰,更完整的线。5. 结论在本文中,我们提出了一种方法,不成对的肖像线画生成使用不对称循环映射。我们的方法可以学习多风格的肖像画生成从混合的Web数据使用一个额外的风格特征输入和软分类损失。实验和用户研究表明,我们的方法可以产生高质量的独特的结果,为三个代表性的风格和优于国家的最先进的方法。确认本工作得到了国家自然科学基金(61725204,61521002)、BNRist、教育部普适计算重点实验室和英国皇家学会牛顿高级院士(NA150431)的部分资助。8226引用[1] Asha Anoosheh、Eirikur Agustsson、Radu Timofte和LucVan Gool。ComboGAN:图像域翻译的无限制可扩展性在IEEE计算机视觉和模式识别研讨会(CVPR工作室)会议上,第783-790页,2018年。二三七八[2] Casey Chu,Andrey Zhmoginov,and Mark Sandler. 凯普·甘,隐写术大师。CoRR,abs/1712.02950,2017。3[3] 窦浩,陈晨,胡西苑,彭四龙。非对称CycleGan用于不成对的NIR到RGB人脸图像转换。IEEEInternationalConference on Acoustics ,Speech and Signal Processing(ICASSP),第1757IEEE,2019。3[4] 利昂·A Gatys,Alexander S. Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议中,第2414-2423页,2016年。一、二、六、七[5] Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C.Courville和Yoshua Bengio。生成性对抗网。在神经信息处理系统(NeurIPS)的进展中,第2672-2680页,2014年。二、四[6] 顾书阳、包建民、浩阳、董晨、方文、卢远。使用条件GAN进行面具引导的肖像编辑在IEEE计算机视觉和模式识别会议(CVPR),第3436-3445页,2019年。5[7] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)中,第770-778页,2016年。4[8] Xun Huang和Serge J.贝隆吉实时任意样式传输,具有自适 应 实 例 规 范 化 。 在 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),第1510-1519页2[9] 黄勋刘明宇Serge J.Belongie和Jan Kautz。多模态无监督图像到图像翻译。在第15届欧洲会议(ECCV),第179-196页,2018年。二、三、七[10] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A.埃夫罗斯使用条件对抗网络进行图像到图像翻译在IEEE计算机视觉和模式识别会议(CVPR)中,第5967-5976页,2017年。一、二、五[11] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转 换 和 超 分 辨 率 的 感 知 损 失 。 第 14 届 欧 洲 会 议(ECCV),第6942[12] Christian Ledig , Lucas Theis , Ferenc Huszar , JoseCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew P.艾特肯,特贾尼,托茨,王泽涵,施文哲.使用生成对抗网络的照片级真实感单图像超分辨率。在IEEE计算机视觉和模式识别会议(CVPR),第105-114页2[13] Chuan Li和Michael Wand。结合马尔可夫随机场和卷积神经网络的图像合成-姐在IEEE计算机视觉和模式识别会议(CVPR)中,第2479-2486页,2016年。2[14] Xueting Li,Sifei Liu,Jan Kautz,and Ming-Hsuan Yang.学习线性变换以实现快速图像和视频风格转换。在IEEE计算机视觉和模式识别会议(CVPR),第3809-3817页,2019年。二、六、七、八[15] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统进展,第700-708页,2017年二、三、七[16] 斯 科 特 ·E. Reed , Zeynep Akata , Xinchen Yan ,Lajanugen Logeswaran,Bernt Schiele,and Honglak Lee.生成对抗文本到图像合成。法律程序中第33届国际机器学习会议(ICML),第1060-1069页,2016年。2[17] Dmitry Ulyanov,Vadim Lebedev,Andrea Vedaldi,andVic- tor S.Lempitsky纹理网络:前馈合成纹理和风格化图像。第33届国际机器学习会议(ICML)论文集,第1349-1357页,2016年。2[18] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.使用条件GANs进行高分辨率图像合成和语义操作在IEEE计算机视觉和模式识别会议中,第8798-8807页,2018年。3[19] 谢 赛 宁 、 涂 卓 文 。 整 体 嵌 套 边 缘 检 测 。 在 IEEEInternational Conference on Computer Vision(ICCV),第1395-1403页,2015年。6[20] Ran Yi,Yong-Jin Liu,Yu-Kun Lai,and Paul L.松香ApdrawingGAN:使用分层GANs从人脸照片中生成艺术 肖 像 画 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中,第10743-10752页一、二[21] Zili Yi,Hao(Richard)Zhang,Ping Tan,and MinglunGong
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功