基于门控循环映射的非成对卡通图像合成

36 浏览量更新于2023-10-25 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3501示例性示例性源源基于门控循环映射的非成对卡通图像合成1、袁瑶1、崔苗苗1、连周辉2、谢轩松1、华宪生1、阿里巴巴集团达摩2王轩北京大学计算机技术研究所图1.所提出的非成对卡通图像合成方法能够将不同的源照片（左为肖像，右为场景）转换成具有可控卡通风格的卡通图像作为对应的样本。[15][16][17][18][19][摘要在本文中，我们提出了一个通用的解决方案，卡通图像合成与不成对的训练数据。与以往的工作学习预定义的卡通风格为指定的使用场景（肖像或场景），我们的目标是训练一个共同的卡通翻译，不仅可以同时渲染夸张的动漫脸和逼真的卡通场景，但也提供灵活的用户控制所需的卡通风格。由于任务的复杂性和缺乏配对数据，这是具有挑战性的。该方法的核心思想是引入门控循环映射，即利用一种新的门控映射单元产生特定于类别的风格代码，并将该代码嵌入循环网络中以控制翻译过程。对于类别的概念，我们将图像分类为不同的类别（例如，4种类型：照片/卡通肖像/场景），并学习更细粒度的类别翻译，而不是两个域之间的整体映射（例如，照片和卡通）。此外，该方法可以很容易地扩展到卡通视频生成与辅助数据集和一个新的自适应风格损失。实验结果证明了该方法的优越性，并验证了其在通用卡通图像合成这一全新任务中的有效性。1. 介绍卡通是一种流行的艺术形式，可广泛应用于广告、动画制作、虚拟角色创作等多种场景艺术家们的目标是根据现实世界中的人物和场景，以简化或夸张的方式构建一个生动的卡通世界。然而，以卡通风格人工再现现实世界是劳动密集型的，需要大量的专业技能。最近，受生成对抗网络（GAN）[10]在图像到图像翻译任务中的强大功能的启发，提出了一系列基于GAN的方法来实现照片到卡通（P2C）翻译。这些方法可以大致分为场景卡通化[6，7，31]和肖像卡通化[26，28，33，34]，它们针对不同的用例进行了定制。对于前者，主要思想是引入专门的损失或预提取的表示来锐化边缘和平滑表面，从而学习照片和卡通图像之间的抽象转换。然而，他们无法生成逼真的卡通脸与夸张的几何变换，如精致的大眼睛和简化的嘴。肖像卡通化方法被提出来产生具有大的几何变化的漫画[28，33，34]或漫画[5，26]脸然而，它们严重依赖于面部特征（例如，分解的面部成分或引导的面部标志），并且不适合于普通场景。3502还有一些无监督的图像到图像翻译（UIT）模型[17，23，35]或基于StyleGAN的方法[25，27]旨在处理具有挑战性的selfie2anime任务，而它们要么产生不满意的结果，缺少内容，要么需要为每个特定风格训练模型。总的来说，P2C和UIT都不能提供对卡通风格的灵活用户控制，即，生成任意输入范例风格的卡通图像，并且肖像和场景需要通过专门设计的模型进行处理。本文的目标是设计一个通用的卡通图像合成框架，该框架能够以可控的卡通风格渲染多种源照片。如图1所示，与一个单一的训练生成器，夸张，gerated卡通脸和现实卡通场景在所需的风格（指定的输入样本），可以同时合成。这项任务的挑战在于三个方面。首先，没有配对的训练数据可用，模型需要以无监督的方式进行训练。现有方法[7，17，31]通常利用循环一致性来利用未配对数据。但是，由于纹理样式的变化以及几何形状的显著变化，很难生成高质量的结果其次，与可以通过在大规模数据库上训练直接学习的预定义样式相比，我们只有一个样式混合的卡通集合，并且旨在使用训练模型以任意样式渲染图像第三，由于肖像和场景的转换要求不同，需要分别为它们训练多个生成器，这使得它成为一个沉重的架构，从而限制了它的实际使用。为了解决上述挑战，我们提出了一个简单而有效的卡通图像合成模型与门控循环映射。与以前的工作[7，17，37]相比，使用多个生成器（GA→B和GB→A）强制学习两个域之间的双向映射，我们设计了一个简化的循环网络，其中单个生成器配备了门控式编码器Egs 。例如， gs 利用一种新的门控映射单元（GMU）由域和组特定层组成，用于产生类别特定的风格代码，该代码可以直接注入到生成器中，以提供目标风格指导，使得更容易学习纹理风格，同时使网络能够将相应的风格转换为给定的图像。对于组和类别的概念，考虑到人像和场景图像之间巨大的语义差异和不同的转换需求，引入了一种细粒度的类别转换机制。每个域（照片或卡通）中的所有图像与上述门控循环网络合作，可以简单地使用单个生成器在所有方向上进行图像转换，其中只有解码器部分由相应的样式代码调制。提出的策略不仅实现了一个通用的卡通翻译器，具有显着的轻量级架构，但也提供了一个灵活的用户控制所需的卡通风格。总之，本文的主要贡献有三个方面：• 本文提出了一个全新的任务，即用一个通用的转换器来合成风格可控的卡通图像，并通过设计一种新型的门控循环映射网络来解决这个问题• 我们开发了一个门控映射单元，它利用门控机制通过域和组特定的层来学习特定于类别的风格表示。• 我们将所提出的方法扩展到卡通肖像的视频合成，利用辅助数据集和新的自适应风格损失，通过精确控制面部表情实现稳定的结果。2. 相关工作2.1. 基于GAN的图像到图像翻译生成对抗网络（GAN）[10]已广泛用于许多计算机视觉任务，如图像翻译[14，21]，图像超分辨率[19，32]和图像修复[24]。在这些任务中，图像到图像翻译框架提供了通过监督[14，30]或无监督学习[21，37]在两个域之间翻译图像的一般解决方案。Pix2pix [14]是第一个提出具有条件GAN [22]的监督图像翻译模型的工作，后来被扩展为生成高分辨率图像[30]。由于难以获得配对图像，CycleGAN [37]利用循环一致性来学习来自未配对数据的变换。UNIT [21]通过假设共享潜在空间来解决同样的问题。为了从源域图像产生不同的输出，通过将域不变内容与随机域特定样式相结合，提出了多模态方法[13，20]尽管取得了很大的进展，这些技术具有有限的可扩展性的卡通图像合成，由于错位的结构与夸张的几何和简化的笔画。最近，U-GAT-IT [17]介绍了一种注意力模块和一种新的归一化来缓解这个问题，但它仍然不能产生令人满意的效果，线条流畅，风格多样。我们的模型克服了这些挑战，能够合成高质量的卡通图像与可控的卡通风格。2.2. 卡通形象生成场景卡通化。Chen等人[7]首次提出了一种基于GAN的卡通风格化模型，并介绍了3503--∈∈∼∈A(a) CycleGAN(b) 风格导向的循环结构(c) 门控循环映射结构图2.我们的门控循环映射框架的说明。所提出的模型从CycleGAN（a）开始。代替强制学习两个域XA、XB之间的映射，我们通过直接将目标样本X的样式代码zX注入到生成器中来引入样式指导z，以实现夸张的几何变换和自适应样式转移（b）。进一步发展到（c），门控循环映射结构利用门控样式编码器来产生类别特定样式代码zi，j，从而在单个框架中处理不同的变换要求。语义内容损失和边缘损失，以保持清晰的边缘和平滑的阴影。它被进一步扩展到Ani- megAN [6]，这是一种具有轻量级设计和改进的损失函数的更快模型。Wang等人[31]利用从图像中提取的白盒表示来指导自动化过程。虽然从真实世界的场景到卡通动画产生了高质量的结果，这些模型只学习纹理抽象，他们是不能够合成夸张的卡通肖像。肖像卡通化。Yi等人[33]提出了AP- DrawingGAN，使用分层结构将人脸照片转换为肖像画，并将其扩展到无监督版本[34]。MangaGAN [28]采用多GAN架构来生成每个面部组件，并将它们组合在一起以合成最终的漫画结果。[5，26]通过估计地标扭曲风格化的肖像，实现了照片到漫画的翻译。最近，基于StyleGAN的卡通化方法[25，27]通过将版本内算法[3，29，36]与转移的StyleGAN模型[15，16]相结合而获得了很大的普及。尽管有高质量的结果，但它们需要为每种特定的风格训练一个模型，并且很容易出现内容缺失的情况。此外，所有这些方法都是针对人像迁移的，缺乏对常见场景的通用性和对各种风格的可扩展性。在本文中，我们提出了一个通用的框架，它可以将任意卡通风格转换到不同的照片，包括肖像和场景。3. 方法描述在本节中，我们首先制定了一般汽车卡通图像合成的任务，并概述了如何通过所提出的门控循环映射（第3.1节）来解决这个问题然后，我们对网络架构的每个部分（第3.2节）和训练方案的设计（第3.3节）进行了详细的描述最后，我们通过一个辅助数据集和一个新的自适应风格损失（第3.4节），将所提出的方法扩展到卡通肖像的视频生成3.1. 问题表述与分析设XA和XB分别是照片域和汽车域中的图像集，并且这两个域之间不存在配对数据所提出的方法旨在将源照片转换为X A到目标卡通图像xg XB，可控制卡通风格。我们的模型从CycleGAN [37]开始，它利用循环一致性GB（GA（X））X来实现没有配对训练数据的域转换，如图2（a）所示。然而，我们观察到，当将上述策略应用于“肖像照片到动漫脸”的翻译任务时考虑到在非超空间中很难强制学习映射GA（xA）XB，虽然这是一种直观的方式，但是通过将目标域图像的纹理风格直接注入到源特征中来学习这种转换要简单得多，我们引入了如图2（b）所示的风格引导的在训练过程中，从目标域Xt中随机提取目标样本xt以提供风格指导zxt，结合精心设计的风格损失，鼓励网络生成具有类似风格的风格自适应卡通图像xt。这种直观的策略可以一石二鸟：1）这使得网络更容易实现夸张的几何变换。2）它使用户能够灵活和连续地控制卡通风格。此外，与其他图像翻译任务（例如，cat2dog，female2male），其中每个域包括属于同一物种的一组图像，我们的任务将“域”定义为照片或卡通风格的各种图像，导致每个域中的图像之间存在显著的结构差异。通过对卡通画样本的广泛观察，我们发现大多数卡通人物都是由精致的大眼睛和简化的鼻子和嘴巴组成，以夸张的方式反映现实世界中的人，几何变化很大。然而，卡通场景是由真实的A.A.布吕CIBBA.A.阿克斯湾CIBB$t&A.A.布吕CIBBA.A.$t&CIBB1010，0美元，0... 10，0美元��门控式编码器0.0000��100，0��3504×Element-wise multiply域特定层： 10%特定于组的层： #↔公司简介--源代码生成的图像编号一个门控鉴别器Reconstr uctions你好GMU真/假图3.概述了我们的网络架构，它包括一个生成器G，一个门控风格的编码器Egs和一个门控编码器Dg。G用于合成源图像x s的卡通化输出xg，其遵循参考图像x t的类似风格。Egs利用由域和组特定层φ d、φ g组成的门控映射单元（GMU）来产生类别特定样式代码，该类别特定样式代码经由MLP注入到解码器中以指导生成过程。Dg还利用GMU来学习特定于类别的二进制分类。由于没有配对数据可用，因此采用循环映射进行图像重建。来源：©selfie2anime [17].只有清晰的边界和稀疏的色块的照片，以相对真实的方式反映真实世界的摄影此属性使不同的转换要求从场景和肖像图像。为了解决这个问题，我们首先执行细粒度的数据划分，将每个域中的图像分为两组（肖像或场景），从而将所有图像分为四类具有不同的风格或要求，定义为Xi，j，i，j∈{0，1}，其中i，j表示域标签（照片或汽车），该方法可以通过使用显著轻的架构同时生成夸张的卡通脸和真实的卡通场景。在下文中，我们将对所提出的模型的每个部分进行详细描述。3.2. 网络架构3.2.1发生器令xs和xt表示来自源的样本，卡通）和组标签（肖像或场景）。与以前学习照片和卡通领域之间的翻译的方法相比，我们的方法只学习照片或卡通肖像），从而避免了结构不匹配的不合理映射。通过这种方式，复杂的一般卡通化任务可以简化为具有定制映射的特殊多域翻译问题[8，9]不是使用多个生成器和编码器，而是通过将门控式编码器Egs嵌入到循环映射网络中来设计优雅的门控循环映射结构，如图2（c）所示编码器Egs配备了一种新的门控映射单元，可以为风格图像xi，j产生类别特定的风格代码zi，j。其中zi，j代表特定美食的风格目标类别，并且zt表示由选通样式编码器Egs输出的样式代码。我们的生成器采用编码器-解码器架构，并且样式码zt通过自适应实例规范化（AdaIN）[12，15]被馈送到解码器中。给定源图像xs和从参考样式图像xt中提取的样式代码zt，可以通过xg=G（xs，f（zt））获得生成图像，其中f（zt）表示由多层感知器（MLP）动态生成的AdaIN参数（尺度μ和移位σ由于在此任务中很难收集配对数据，因此我们使用循环结构[37]来重建源图像x=G（x，f（z）），其中G是共享生成器，并且从xs中提取样式代码zs。3.2.2门控式编码器gory，我们可以用一个公共生成器G代替原始生成器GA，GB，并利用来自目标猫的zi，j门控式编码器Egs 目的是生产类别-控制平移方向，即，迫使G学习如何将图像转换为特定类别。门控映射单元也被集成到判别器中用于多类别判别。这样我们的中的参考样式图像xt的特定样式代码ztX类t。考虑到不同类别图像的共享和独特风格表示，我们通过在常规风格编码器的后端连接门控映射单元（GMU）来构造门控风格编码器Egs$10%你好，样式代码伊阿勒特1个-普雷1个-样式代码伊GMU参考价格门控映射单元源代码门控样式编码器（t，t ）（s，s ）GGMLPMLP#3505→∈L→的顺序翻译，→→联系我们˜∈图4.门控样式指导的效果。(a)源和参考的输入。(b)生成的结果没有样式指导。（c，d）在GMU中没有域/组特定层的情况下生成的结果。(e) 完整的模型结果。源面：[17]第十七话Es。具体地，使用Es从参考图像xt中提取共同特征Ft，GMU将Ft嵌入到特定的类别空间中，以获得定制的风格代码zt。建议GMU由域特定层和组特定层连接的门控机制。公共特征Ft首先在不同分支中通过域特定层φdi（i=0，1），然后我们通过选择门获得特征Fd：Fd=αt·φd0（Ft）+（1−αt）·φd1（Ft），（1）其中α t0、1是作为开关的控制因子，以使所选域层的输出特征有效。例如，xt来自卡通域，αt设置为1，使Ft通过特定层φd0。对于由特定于组的层产生的最终样式代码zt也是如此：z t= β t·φ g0（F d）+（1 − β t）·φ g1（Fd）。（二）正如我们所看到的，αx和βx的值分别取决于图像x的域标签和群标签。GMU中的层由全连接层构成。特定于类别的样式代码zt稍后被注入到生成器中以指导翻译过程。图4示出了证明门控样式引导的效果的一些合成结果文体指导使(a) 来源（b）参考（c）无Lsty（d）无L$s（e）完整模型图5.花柱重建损失Lsty和不同花柱损失Lds 的影响。来源：©selfie2anime [17].GMU被集成到常规的SVM中，以帮助它学习特定于类别的二进制分类，表示为门控的SVMg。在X中X t过程中，生成的图像x g（或参考图像x t）被馈送到Dg中作为假（或真）样本。由于xg和xt属于同一类别，因此xg的GMU控制因子等于（αt，βt相反的过程也是如此Xt→Xs。3.3. 培训给定源图像x sX s和参考图像xt Xt，我们用损失函数训练我们的模型，损失函数由对抗项、图像重建项、风格重建项和风格多样性项组成：Ltotal=Ladv+λrecLrec+λstyLsty+λdsLds，（3）其中λrec、λsty和λds分别表示相应损失的权重对抗性损失。我们将对抗损失adv[10]应用于两个映射方向。对于映射方向：X s X t，给定源图像x s和参考样式图像x t，生成器G合成具有与x t相似样式的卡通化结果x g。真实样本的分布Xt与由G生成的伪样本的分布Xg之间的距离计算为：我们的方法更容易实现大的几何变化，特别是卡通肖像。对于GMU，在没有特定于域的层φd的情况下，照片和卡通图像被视为相同的类别，并且因此被折衷Ladv=Exs，xt[log（1−Dg（G（xs，f（zt）]+ E x t [log（D g（x t）]，其中，使用Egs（xt）提取样式代码zt。（四）用两个域的中间纹理样式生成结果。群体特定层φg消除了人物肖像和场景语义不一致带来的相互干扰，有助于同时生成夸张的人物肖像和卡通风格的真实场景3.2.3门控开关给定一个图像x，期望该算法区分x是所需类别的真实图像还是由G产生的假图像。与Eg类似，图像重建丢失。由于没有配对数据，在这个任务中，我们使用循环一致性损失[37]来推动由Xs Xt Xs与xs相同，使源图像成功转换回其原始类别。它隐含地确保生成的图像xs正确地保留了源图像xs的语义内容，并且可以使用L1距离公式化为：Lrec= ||G（G（x s，f（z t）），f（z s））−x s||1 .一、3506（五）3507}LLL∈LLL˜˜L斯瓦特第1章类间风格变体伊希斯}类内第二章#t2风格不变损失图6.适应性风格损失的例证。由于样本xt1和xt2是从作为引用的同一个类（用黄色标记）中获取的，类内样式不变的丢失鼓励生成使G（xs，xt1）和G（xs，xt2）产生的图像相等。类间样式变体损失鼓励生成的结果与类间样本（xt，xt）不同。1 2风格重建丢失。为了确保生成的图像xg的卡通风格与参考目标样本xt一致，我们应用类似于[13，38]的风格重建损失sty，其为潜在空间中的风格表示提供了风格约束：Lsty= ||E gs（G（x s，f（z t）− z t||1 .一、（6）麦粒肿的影响如图5（c）（e）所示。多样的风格损失。为了进一步鼓励网络synn- thesizing与参考图像提供的不同风格一致的不同输出，我们对生成器应用直观的约束。给定两个样本（xt，xt），(a) 图7.具有双列数的结果（b）具有双列数的结果。用新的适应性风格损失Las代替原始的多样性风格损失L ds的效果。来源：Google [1].肖像画特别是，一个辅助数据集和一个新的自适应风格损失的引入，以产生稳定的结果，在内容细节的高度一致性。数据扩展。我们使用的卡通和照片肖像来自selfie2anime数据集[17]，该数据集包括混合风格的各种动漫脸，并且每个图像都被视为一类卡通风格。考虑到数据偏差（例如，大多数动漫脸有刘海）和缺乏内容多样性的某些风格，我们介绍了一套包含不同性格特征的卡通肖像，目标域12特征和不同的面部表情（例如，打开/关闭Xt提供各种风格表示（zt1，zt2）和源图像xs，合成图像xg1，xg2应该具有不同的外观。我们定义Lds为x g 1之间的L1距离 xg2：Lds= −||G（x s，f（z t1））− G（x s，f（zt2））||1 .一、（七）如图5（d）（e）所示，ds鼓励样式代码包含更多参考的卡通细节，不仅是抽象的纹理和调色板，还包括各种拟人化程度的头发颜色，眼睛大小和脸型值得注意的是，引用的所有本地样式都是自动捕获的，没有任何本地指导。3.4. 进一步延长对于卡通肖像，所提出的方法保证所生成的图像xg可以适当地保留高级内容结构（例如，姿态、视点和人的属性）和纹理风格（例如，抽象笔划、头发颜色和面部特征）。然而，仍然很难产生内容结构完全保留的结果。不仅高层属性，而且局部细节（如面部表情）也应该与源图像一致。眼睛/嘴），以类似于新类Cnew的卡通风格，将其添加到原始数据集中，使得可以合成动态表情。适应性风格丧失。原始的多样风格损失ds假设每个参考图像xt Xt代表一个卡通风格，并鼓励网络生成具有不同参考风格图像的多样输出。然而，对于具有新类cnew的扩展数据集，它可能会带来内容不一致性，其中包括一系列风格相似的卡通角色。当xt1和xt2都以相似的风格从cnew中采样时，多样的风格损失ds仍然迫使网络产生各种图像，使得局部内容随着参考而变化，从而产生与源图像不一致的面部表情，如图7（a）所示。因此，我们将ds替换为一种新的自适应样式损失，如图6中直观地可视化的。给定类内样本xt1和xt2作为参考样式图像，我们鼓励G（xs，xt1）和G（xs，xt2）产生的合成结果相等，这被定义为类内样式不变损失。对于类间样本xt1和xt2，生成的结果应该不同，其中类间样式变量损失（等于Lds）。具体地，计算自适应样式损失Las，其中一个基本原因是训练数据存在偏差，动态表情中的图像很少出现。在本节中，我们将解决上述问题，签署人：L=−Lds，（xt1，xt2）∈cnewLds，其他的。参考.3508（八）将该方法推广到动画视频合成中，直观战略确保的只有内容-源3509LL×从xt中提取不相关的特征。从而实现面部表情的精确控制（参见图7（b））。4. 实验结果在本节中，我们首先描述实现细节和用于评估的数据集。然后，我们验证了所提出的方法的通用汽车卡通图像合成的有效性，并说明其优于其他国家的最先进的方法。最后，我们表明，我们的方法可以扩展到视频合成的卡通肖像。实作详细数据。我们的方法在PyTorch中使用具有32GB内存的单个NVIDIA Tesla-V100 GPU实现。我们的生成器，门控式编码器和门控式解码器的架构在补充材料中描述。αx和βx是GMU中的控制因子，并且被设置为分别表示图像x的域标签（0表示照片，1表示卡通）和组标签（0表示肖像，1表示场景）损失项的权重设置为λrec= 1，λsty= 1。ds/as的初始值设置为2，并在100 k次迭代中线性衰减为0。我们使用Adam优化器[18]，学习率为1 e-4，训练我们的模型大约10万次迭代。数据集。我们在混合的photo2cartoon数据集上进行实验，该数据集由涵盖各种情况的肖像和场景数据组成。对于肖像数据，我们使用selfie2anime数据集[17]来提供卡通肖像和照片肖像，作为两个类别。在selfie2anime中使用相同的数据配置，3400张自拍照片和3400张动漫脸，分辨率为256 256用于训练，100张自拍照和100张动漫脸用于测试。对于场景数据，我们从[31]提出的数据集中收集了5100个风景照片和5100个动画场景，分别作为照片场景和卡通场景，构建了scene2cartoon数据集。我们随机挑选5000个场景图像进行训练，剩下的100个场景图像进行测试。4.1. 通用卡通图像合成4.1.1可控风格我们的实验验证了所提出的方法的有效性，在所需的卡通风格，以不同的源照片。如图8所示，给定测试集中的源照片和任意卡通样本，我们的方法可以生成高质量的结果，保留源的语义结构和样本的卡通风格该算法通过一个通用的卡通翻译器实现了自适应的几何变换，既能实现卡通人物的夸张面部特征，又能实现卡通场景的真实感结构纹理。除了测试集中的照片图像外，我们还使用野外图像和各种场景案例（例如，动物、食物、城市景观和其他物体）来展示网络自拍2anime scene2cartoon表1.FID和KID× 100±标准品两个任务× 100分(see补充材料）。样式插值。我们的模型构建了一个由不同内容、不同风格的卡通形象组成的复杂流形。我们可以沿着这种方式，通过混合和插值从不同的参考提取的风格表示，从而合成一个动画从一个卡通风格到另一个。样式插值的结果在补充视频中提供。4.1.2与最先进方法的在本节中，我们将我们提出的方法与其他现有的方法进行定性和定量比较。定性比较。在图9中，我们首先将我们的方法的selfie 2anime结果与四种最先进的方法进行比较：CycleGAN [37]、U-GAT-IT [17]、Coun-cilGAN [23]和白盒[31]。由于UIT模型[13，17，20，23，37]无法同时学习肖像和场景翻译，这些方法的合成结果是通过使用相应数据训练的独立selfie2anime（或scene2cartoon）模型产生的。需要指出的是，我们只使用混合数据训练单个模型。尽管如此，我们的方法优于其他方法，并合成高质量的动漫人脸，具有清晰的边缘和精致的特征，如精致的大眼睛和流畅的结构线。更多的内容细节也被更好地保留。由于场景图像之间存在很大的语义差异，多模态方法[13，23]无法合成合理的结果。因此，我们用AnimeGAN [6]代替了CouncilGAN，这是一种针对场景定制的P2C方法，用于场景到卡通的比较。如图9右侧所示，我们的方法解决了多模态模型中的问题，并产生了比P2C方法更精致的结果。定量评价。我们首先使用真实图像和生成图像的特征表示之间的Fre'chet初始距离（FID）[11]和Kernel初始距离（KID）[4]来评估视觉质量。由于CartoonGAN [7]和AnimeGAN [6]是为特定风格的卡通抽象而设计的P2C方法，因此它们无法合成动漫角色。我们只计算scene2cartoon任务的指标。为了公平比较，我们仅在使用面部相关任务进行训练时，才评估CouncilGAN[23我们还包括另一种用于评估的多模态方法DRIT++[20]。方法FID↓KID↓FID↓KID↓卡通GAN [7]AnimeGAN [6]CycleGAN [37]MUNIT [13]DRIT++[20][17]第十七话[23]第二十三话--91.3593.6993.0790.0589.5179.74--2.50±0.272.48± 0.262.84± 0.272.61± 0.312.36± 0.231.59± 0.25267.84255.85265.26270.80282.73285.32-253.837.86± 0.806.19± 0.746.59± 0.748.38± 0.5510.57 ±0. 849.10±-0.656.40± 0.733510源示例源示例图8.合成不同的卡通形象（肖像在左边，场景在右边）与可控风格提供相应的样例的结果通过单个训练模型，卡通场景可以与肖像同时合成来源：©selfie2anime [17].图9.与最先进方法的定性比较我们的结果是用随机样式生成的来源：©selfie2anime [17].该模型可以生成具有连续面部变化的卡通视频。图10中描绘了一些代表性帧的结果，并且可以在补充视频中找到更完整的视频。更多结果和其他讨论（例如，限制、负面影响等）可以在补充材料中找到。图10.卡通视频合成的代表帧和相应的原始视频的结果。来源：Google [1].评估对于所有方法，我们使用来自源代码do- main的相同测试图像如表1所示，我们的方法对于scene2cartoon任务，我们的方法优于其他UIT方法，并与P2C方法相当。4.2. 卡通人物通过3.4节中描述的方法扩展，我们的模型能够实现视觉上令人愉悦的卡通人像视频合成，既能保持源图像的内容细节，又能进行精确的控制面部表情。给定一个图像xt∈cnew作为参考，5. 结论本文提出了一种不成对的卡通图像合成方法，该方法不仅可以实现不同照片的自适应几何变换，而且可以灵活地控制卡通风格。将一般卡通图像合成问题转化为一个多模态、多领域的图像翻译问题，提出了一种基于门控循环映射的图像翻译方法，将门控风格引导嵌入到循环网络中控制翻译过程。利用一种新的门控映射单元，可以获得适合于具有不同纹理或结构的各种图像的类别特定的风格代码。实验结果表明，与现有技术相比，该方法具有较好的效果和优越性，同时也验证了该方法在卡通人像视频合成中的可扩展性。3511引用[1] Google. [EB/OL] 。 https://google.com/ 网站。六、八[2] Seeprettyface。[EB/OL]。https：//seeprettyface.com/. 1[3] Rameen Abdal ， Yipeng Qin ， and Peter Wonka. Im-age2stylegan++：如何编辑嵌入的图像？在IEEE/CVF计算机视觉和模式识别会议的论文集，第8296-8305页3[4] Mik ołajBin´o wski，Doug alJSutherland，MichaelArbel，and Arthur Gretton.揭秘mmd甘斯。arXiv预印本arXiv：1801.01401，2018. 7[5] 曹凯迪，廖景，陆远。 Carigans：不成对的照片到漫画翻译。arXiv预印本arXiv：1811.00222，2018。第1、3条[6] 陈杰，刘刚，陈欣。Animegan：一个新颖的轻量级的照片动画。在国际智能计算与应用研讨会上，第242-256页Springer，2019年。一、三、七[7] 杨晨，赖玉坤，刘永进。Cartoongan：用于照片卡通化的生成对抗网络在IEEE计算机视觉和模式识别会议论文集，第9465-9474页，2018年。一、二、七[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页，2018年。4[9] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第8188-8197页，2020年。4[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672一、二、五[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展（NIPS），第6626-6637页，2017年。7[12] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。4[13] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页，2018年。二六七[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。2[15] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页，2019年。一、三、四[16] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页，2020年。3[17] Junho Kim，Minjae Kim，Hyeonwoo Kang和KwangheeLee。U-gat-it：具有自适应层实例归一化的无监督生成注意力网络，用于图像到图像的翻译。arXiv预印本arXiv：1907.10830，2019。二、四、五、六、七、八[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[19] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第4681-4690页2[20] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第35-51页，2018年。二、七[21] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统的进展，第700-708页，2017年。2[22] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。2[23] Ori Nizan和Ayellet Tal。打破循环--你只需要同事。在IEEE/CVF计算机视觉和模式识别会议论文集，第7860-7869页，2020年。二、七[24] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 2536-2544，2016中。2[25] 贾斯汀NM平克尼和多伦阿德勒。用于域间可控图像合成的分辨率相关 gan 插值。 arXiv 预印本 arXiv ：2010.05334，2020。二、三[26] Yichun Shi，Debayan Deb，and Anil K Jain. Warpgan：金-讽刺漫画的一代。在IEEE计算机视觉和模式识别会议论文集，第10762-10771页，2019年。第1、3条[27] Guoxian Song，Linjie Luo，Jing Liu，Wan-Chun Ma，Chun-pong Lai ， Chuanxia Zheng ， and Tat-Jen Cham.Agilegan：通过反转一致迁移学习风格化肖像。ACMTransactions on Graphics（TOG），40（4）：1-13，2021。二、三[28] 苏浩，牛建伟，刘雪峰，李清风，崔嘉禾，万吉。基于漫画绘制方法论的不成对图片转漫画翻译。arXiv预印本arXiv：2004.10634，2020。第1、3条3512[29] OmerTov ， YuvalAlaluf ， Yotam Nitzan ， OrPatashnik，and Daniel Cohen-Or.设计一种用于花柱图像处理的编码器。 ACM Transactions on Graphics（TOG），40（4）：1-14，2021。3[30] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集，第8798-8807页，2018年。2[31] Xinrui Wang and Jinze Yu. 学会把我们卡通化- 使用白盒卡通表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第8090-8099页，2020年。一、二、三、七[32] Xintao Wang，Ke Yu，Shixiang Wu，Jinjin Gu，YihaoLiu ， Chao Dong ， Yu Qiao ， and Chen Cha

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于门控循环映射的非成对卡通图像合成

基于门控循环单元神经网络的储层孔渗饱参数预测.pdf

数据移动和循环映射如何帮助实现更快的GPU程序？

LSTM门控机制为什么将数据映射至0到1之间

基于贪心算法的节点映射策略和基于k最短路径的链路映射策略

门控循环神经网络写歌词的代码

基于贪心算法的节点映射策略和基于k最短路径的链路映射策略、基于路径分裂和路径迁移的映射、节点可靠感知的高效虚拟网络映射策略的比较策略

基于余弦函数的混沌映射可以和基于正弦函数的混沌映射结合构成新的混沌系统么

基于tent混沌映射的粒子群算法

基于路径分裂和路径迁移的映射策略

混沌映射的循环移位是如何操作

基于纹理的方法的风格迁移具体有哪些方法？

lstm门控单元的阈值

基于混沌映射的图像加密

基于photoshop对图像进行假彩色合成

Spring的MVC是DispatcherServlet把请求执行到处理控制器上，处理控制映射类包括

基于tent映射的自适应粒子群算法

基于神经网络的pid控制

基于频控阵雷达的盲速目标检测算法的设计和实现

最新资源