没有合适的资源?快使用搜索试试~ 我知道了~
基于GAN反演的多类草图生成方法
4319SketchInverter:基于GAN反演的多类草图图像生成北京航空航天大学余静波*北京航空航天大学刘润涛约翰·霍普金斯大学钱瑜北京航空航天大学北航摘要本文提出了第一个基于GAN反演的多类草图图像生成方法(MC-SBIG)。MC-SBIG是一项具有挑战性的任务,由于草图和自然图像之间存在显著的领域差距,因此需要强大的先验知识现有的基于学习的方法依赖于大规模配对数据集来学习这两种图像模态之间的映射。然而,由于公共配对素描照片数据稀缺,正在努力寻找基于学习的方法来获得满意的结果。在这项工作中,我们介绍了一种新的方法的基础上GAN反演,它可以利用一个强大的预训练生成器,以促进图像生成从一个给定的草图。我们的基于GAN反演的方法有两个优点:1.它可以自由地利用预先训练的图像生成器的先验知识; 2.它允许所提出的模型专注于学习从草图到低维潜在代码的映射,这是比直接映射到高维自然图像容易得多的任务。我们还提出了一种新的形状损失,以进一步提高生成质量。大量的实验表明,我们的方法可以产生草图忠实和照片般真实的图像,并显着优于基线方法。1. 介绍手绘草图是一种直观而有力的视觉表达方式。近年来,草图受到计算机视觉和计算机图形界越来越多的关注,并且已经研究了许多与草图相关的任务,例如识别[16,57],草图解析[39,40],基于草图的2D图像检索[32,47],49,56]或3D形状[7,12,55,59],以及基于草图的2D图像生成[10,18,19,33,34,54]或3D形状生成器-[22,35,48]. 在这些任务中,基于Sketch的Image由于其在动画、时尚和教育方面的广泛应用,G世代(SBIG)很受欢迎随着生成对抗网络(GAN)[20]及其变体[24,37,62,63]的发展,这项任务已经得到了显着的改进。对象级SBIG的目标是根据草图自动生成具有照片级真实感的具体而言,该任务可分为两种类型:单类和多类。对于单类设置,模型被设计为处理特定的目标类。例如,DeepFaceDrawing[8]和DeepFaceDrawing[30]使用草图作为软约束来控制面部图像生成;该工作[33]提出了一种两阶段方法来生成时尚图像(例如,鞋)的草图。相比之下,多类SBIG专注 于 生 成 多 个 类 的 图 像 , 例 如 EdgeGAN [18] 和SketchyGAN [10]。基于草图生成照片 *非常困难,因为照片和草图之间存在很大的领域差距,这是由两个内在特征造成的:(1)草图是抽象的和变形的,(2)草图缺乏颜色和大多数纹理信息。相比之下,照片忠实于现实世界中的物体。因此,要为给定的草图合成大小的图像,模型需要校正草图中的形状变形并填充缺失的颜色和纹理,这需要大量的先验知识。学习先验知识是不平凡的:现有的数据集几乎不足以学习单类SBIG模型,但不能支持多类。这个问题解释了为什么多类SBIG模型[10,18,19,34,54]的合成质量比单类模型[8,30,33]差得多。为了消除照片和草图之间的领域差距,Edge-GAN[18]学习了这两个领域的联合语义嵌入。 最近的工作[54]采用了CycleGAN[62]并提出了一种开域优化策略,从而在训练数据相对有限的情况下,可以推广到开域类不幸的是,由这些方法生成的图像的质量仍然远远不能令人满意。*这些作者对这项工作的贡献是相同的。†通讯作者。*在本文中,照片和自然图像可互换使用。4320图1.我们提出的方法,SketchInverter,基于手绘草图生成的自然图像草图是从SketchyCOCO数据集[18]和Sketchy数据库[47]测试集中随机虽然大规模的草图照片数据集是稀缺的,但值得注意的是,大规模的照片数据集是可用的(例如,ImageNet),可用于训练性能良好的多类图像生成器。直接的想法是利用强大的图像生成器学习的先验知识GAN反演是一种常用的图像编辑方法,其中采用预训练的GAN模型来产生图像。同时,输入向量被动态地调整(对于基于优化的)或学习(对于基于学习的),使得生成的图像可以匹配期望。GAN反演方法保证了合成图像的高质量,因为它使用了预训练的GAN模型。直观地说,预先训练的GAN模型的先验知识也显着减少了草图和照片之间的领域差距。在这项工作中,我们首次将GAN引入多类SBIG,旨在为给定的草图获得高质量的照片(如图所示)①的人。 如图2(a)所示,我们采用基于学习的GAN反演方法。具体地说,使用在大规模图像数据集上预训练的图像生成器,我们还训练了草图编码器,以将草图映射到图像生成器的潜在空间中(如图所示)。第2段(b)分段)。与现有的多类SBIG模型相比,这种设计有两个优点:(1)它分两步实现任务,首先将输入的草图转换为潜码,然后基于潜码生成逼真的使用预训练的图像生成器,模型可以专注于第一步。(2)它利用了预训练图像生成器的先验知识,确保了合成照片的质量。具体来说,我们选择反转一个经过良好训练的GAN模型,即,BigGAN[6]在我们的实验中,由于其在图像生成方面令人印象深刻的性能。与传统的基于GAN反演的方法不同,我们的任务需要生成多个类别的照片。许多现有的GAN反演工作专注于单类设置,而只有少数工作考虑附加条件,例如IC-GAN [38]。ICGAN使用两个编码器:一个将输入图像映射到对应的潜码,另一个将输入图像映射到对应的潜码。一个类标签。然而,如果输入草图不明确或倒置的类标签不正确,则生成结果可能偏离目标类别因此,我们设计了一个条件编码器,在草图编码和照片生成过程中将类标签作为一个为了使生成的图像与输入的草图相匹配,我们引入了形状损失,最大限度地减少了输入草图与生成的照片轮廓之间此外,我们构建了一个合成数据集来训练我们的模型,包括潜在代码、图像和草图的配对数据。虽然我们的模型是在合成数据上训练的,但大量的实验表明,我们的模型可以推广到真实数据。生成的图像的视觉质量是显着优于其他现有的作品。贡献-这项工作的部分总结如下:我们,第一次,介绍了GAN反演对象级多类草图为基础的图像生成。通过预训练的GAN模型学习的先验知识可以显着减少草图和照片之间的领域差距。我们设计了一个条件编码器,将带有类标签的草图映射到潜在空间,并通过预训练的GAN模型生成多类图像;我们还提出了一个形状损失,以鼓励生成的图像匹配输入草图。大量的实验表明,我们的方法可以明显优于其他基线方法。2. 相关作品基于草图的图像生成。基于草图的图像生成旨在从给定的草图生成照片级逼真的图像。早期的作品,如Sketch 2- Photo[9]和PhotoSketcher[17]选择从给定草图中检索的照片中合成新照片。近年来,随着生成对抗网络(GAN)的发展[20],越来越多的作品采用···4321(一)重建图像(b)第(1)款重建图像以及多模式学习,这一点越来越受到社会的关注。现有三种类型的反演方法[53]。(i)基于学习的GAN反演[3,38,61]:该方法首先生成具有随机采样的潜在代码的图像集合,然后分别使用图像和代码作为输入和监督,以训练将图像映射到代码的编码器。(ii)基于优化的GAN反演[1,2,11,31,36,42,50]:该方法通过直接优化潜在代码来一次处理单个实例,以最小化(iii)混合GAN反演[3,4,21,60,61]:该方法结合了图2.(a)典型的GAN反转过程:将图像反转到潜在空间并重建它。(b)我们的基于草图的图像生成方法:将草图映射到生成器的潜空间并生成图像。通过重建,我们训练我们的模型在草图照片数据集上学习这种映射GAN可以直接学习从草图到照片的像素级翻译。根据生成图像的类型,此任务可分为三类:(i)人脸图像生成[8,30];(ii)场景级图像生成[18];(iii)对象级图像生成[10,18,19,33,34,54]。有两种类型的对象级草图到图像生成,(i)单类图像生成:[33]建议两阶段模型,用于在单个类中具有参考图像的无监督草图到照片生成。他们采用CycleGAN[62]作为基线,并以自我监督的方式进行培训(ii)多类别图像生成:[10]使用带有Masked Residual Unit块的generator从50个类生成图像。[18]将图像和边缘映射联合学习到共享的潜在空间中,在该潜在空间中,矢量可以从交叉模态数据中编码高级属性信息。[54]采用CycleGAN[62]作为基线,并提出了开放域优化策略。[19]使用轮廓线来表示手绘草图,并使用两阶段生成器从部分笔划生成照片。Contextu- alGAN [34]将草图到图像生成转化为图像完成问题:该网络学习草图和图像对的联合分布,并通过迭代遍历流形来获得结果。近期工作[51]使用草图实例作为监督来微调训练有素的生成器(StyleGAN[26]),旨在生成忠实于草图的图像。请注意,我们的方法与他们的方法不同,我们的目标是训练一个自动编码器,可以将多类草图集合映射到潜在空间,并通过训练有素的生成器生成照片[6]。GAN反演。GAN反演是一项任务,旨在找到相应的潜在代码,以恢复固定的良好训练的GAN模型的输入图像。GAN反演支持多个下游任务,如图像处理、图像插值、图像恢复、3D重建、通过使用编码器来生成用于稍后优化的初始潜在要反演的GAN模型可以是(i)有条件的[38]或(ii)无条件的。现有的GAN反演模型大多属于(ii)。跨模态图像翻译。目前,计算机视觉界越来越重视使用大规模的预训练模型来学习跨模态图像翻译。[43,44]使用预训练CLIP[41]来实现基于文本的超现实主义图像生成。NUWA[52]是一种多模态预训练模型,可以为各种视觉任务生成新数据或操作现有视觉数据。我们不与NUWA进行比较,因为由于数据集规模的差异,这可能是不公平的。该模型只需要16,000个草图-照片对进行训练,而NUWA使用了290万个文本-图像对。3. 方法我们的模型SketchInverter旨在根据给定的草图生成多个类别的照片。它建立在基于学习的GAN反演之上,首先学习从草图到条件GAN(cGAN)模型的潜在空间的映射,然后利用预训练的cGAN生成忠实于输入草图的照片。针对这一问题,提出了三种具体的设计方案,包括:(1)提出了一种新的条件GAN逆编码器,将输入草图映射到以类别标签为条件的潜在空间中(2)为了保证生成图像的真实性,引入了一种新的形状损失算法.(3)构建合成数据集进行训练,以解决配对数据稀缺问题。3.1. 整体架构我们的模型的整体架构如图所示。3.第三章。我们的模型旨在将给定的草图s映射到相应的潜码z,然后生成在某些方面与s匹配的自然图像x,例如,姿势和方向。具体来说,我们的模型将草图s及其对应的标签y作为输入,并通过草图编码器E将它们映射到潜在代码z。接下来,固定的预训练生成器G在给定潜在代码的情况抽样生成伪造图像真实图像映射真实草图潜在空间重建抽样生成伪造图像反演真实图像潜在空间重建4322ΘEΘE∥ −∥可训练的冷冻zGTL形xGT互补的接下来,潜码zy将是预训练图像生成器G的输入。为了训练这个条件草图编码器,我们在地面真实潜在代码zGT和预测潜在代码zy之间应用L1损失:minLz=zGT−E(s,y)1(1)3.3. 图像生成我们提出的模型使用BigGAN网络作为图3.我们的多类草图为基础的图像生成框架。它包含三个网络:条件编码器E、预训练生成器G和图像到草图网络S。蓝色的模型块是可训练的,绿色的是固定的。黑色箭头表示前馈,蓝色箭头表示编码器E的监督。s、zGT和xGT是地面实况对。类标签。地面实况潜码和图像是zGT和xGT。在训练过程中,除了重建损失外,还应用形状损失来提高生成图像的真实性,该形状损失比较了假草图rec与原始输入草图之间的差异。通过草图-照片转换网络S从生成的照片转换伪草图。在我们提出的模型中,BigGAN被用作图像生成器G。它是一个条件生成对抗网络(cGAN),并在ImageNet[14] 数 据 集 上 进 行 预 训 练 。 对 于 原 始BigGAN,它将随机噪声向量和类别标签作为输入并输出图像。3.2. 条件草图编码给定草图,编码器将其映射到预训练图像生成器的潜在空间。 对于多类SBIG,具有不同类标签的草图应映射到潜在空间的不同位置。然而,对于大多数基于学习的GAN反演方法,编码器简单地将图像映射到潜码而没有任何条件(如图所示)。(见第4(a)段)。后来的工作cGAN反演[38]使用两个编码器来预测给定图像的潜在代码和类别标签(见图1)。第四条(b)款)。不幸的是,我们的实验(见第二节。4.4)表明,这种设计对我们的任务表现不佳,因为手绘草图是抽象的和无色的,因此编码器往往无法正确预测类标签。在这项工作中,我们第一次提出了一个条件编码器E的学习为基础的GAN反演方法来预测类条件的潜在代码zy=E(s,y)。如图4(c),条件编码器包括6个剩余块,手绘草图的类别信息通过类条件BatchNorm注入编码器中。详细的架构见Sup-图像发生器G.因此,给定潜码zy和类标签y,图像生成器将产生对应的图像,xs , y=G(zy,y)=G(E(s,y),y)。由于它是在ImageNet数据集上预先训练的,因此我们提出的模型可以利用其先验知识并生成高质量的图像。在训练过程中,BigGAN的参数是固定的。此外,在训练过程中使用图像重建损失和形状损失,以确保生成的图像的质量和忠实性。3.3.1图像重建损失我们采用图像重建损失来保证所生成的图像与目标图像相似(等式2)。2)的情况。像以前的GAN反演工作一样,我们计算xs,y和xGT之间的像素距离和感知距离。我们还基于AlexNet[28]提取的特征引入了LPIPS [58]损失,因为LPIPS损失已被证明比感知损失[25]保持更好的图像质量[21,45]。最小L图像=xGT−G(E(s,y),y)1+λLPIPSF(xGT)F(G(E(s,y),y))1(二)其中F表示预训练的AlexNet [28]。3.3.2形状损失仅重建损失不能保证生成的图像和输入草图在姿态和方向上相似。我们认为这可能是由于图像域中的损失不能完全保证生成图像的形状和细节。为了使生成图像的内容与输入草图更加一致,整体学习映射应该是周期一致的,并且我们引入形状丢失作为监督。在输入草图和由可训练的照片到草图转换网络S生成的假草图之间应用形状损失。S和E通过形状损失联合优化:yyEGSzSLzxs,yS(xs,y)L图像4323∥ −∥最小最小L形状=s−S(xGT)14. 实验4.1. 实验装置ΘS ΘE+<$F(s)−F(S(xGT))<$1+s−S(G(E(s,y),y))1+F(s)F(S(G(E(s,y),y)1(三)数据集和评价方案。我们在我们的合成数据集上训练我们的提议模型,SketchInverter和基线。我们在真实的手绘草图照片数据集上评估它们,即,[47]第四十七话:一个人使用L1范数距离,因为它在我们的初步实验中达到了最佳3.3.3完整目标我们模型的总体目标是:V(E, S)=λzLz+λimageLimage+λshapeLshape(4)COCO [18]. 请注意,当与基线进行比较时,所有模型都只在合成数据集上进行训练。我们的合成数据集我们按照第12节中的描述收集了该数据集。三点四分。[47]第四十七话. 该数据集包括成对的图像和草图,我们选择8个重叠的类其中λz,λ 图像和λ形状控制不同的权重,与我们的合成数据集从原来的125 cate-并将它们分成训练集和测试集。损失条款。在消融研究部分,我们比较了完整目标的不同变体,并表明每个项都有助于模型3.4. 合成数据集为了正确地将草图映射到预训练的Big-GAN的潜在空间中,我们需要大量成对的草图和图像。现有多类草图-照片数据集[18,47]的图像是有限的,并且缺乏足够的多样性,因此它们无法覆盖预训练BigGAN的生成空间为了解决数据问题,我们构建了一个由成对的图像、潜在代码和草图组成的合成数据集。具体来说,我们首先从ImageNet 1,000个类中选择16个类别,例如,鸟狗飞机帆船然后,我们从先验分布p中采样潜在码zGT的集合。接下来,我们通过预训练的生成器G获得图像xGT。最后,使用预先训练的照片到草图网络获得这些图像的相应草图[29]。这个合成数据集由12,000对潜在代码zGT,图像xGT和草图s组成。3.5. 培训战略在前面的章节中,我们介绍了损失,方程。4、在设定的训练条件下只对合成数据进行训练。为了探索我们是否可以通过使用真实数据集(如SketchyCOCO[18]数据集)获得更好的结果,我们设计并比较了三种训练策略:(i)在我们的合成数据集上进行训练,并直接在真实数据集上进行测试。(ii)在我们的合成数据集上进行训练,并在真实数据集上进行微调(iii)在我们的合成数据集和真实数据集的混合上从头开始训练。节中4.4、比较不同训练策略的效果。请注意,当在真实数据集上训练或微调时,其中真实潜在代码不可用,优化目标是:V(E, S)=λimageLimage+λshapeLshape(5)··4324×[18]第十八话该数据集包括14个对象类,我们选择了与我们的合成数据集相关的4个类,并将它们分为训练集和测试集。基线方法。我们将我们的方法与三种基线方法进行了比 较 , 包 括 Pix2pix [24] , EdgeGAN [18] 和 AODA[54]。[24]第二十四话Pix2pix是为图像到图像的翻译任务而提出的。在[18]之后,模型在两种模式下进行训练。第一种模式表示为Pix 2 pix-Sep,其中为每个类分别训练16个模型。第二种模式表示为Pix 2 pix-Mix,其中所有16个类只训练一个模型。EdgeGAN [18]. 提出了一种用于基于草图的图像生成的EdgeGAN算法.我们使用合成数据集的成对草图和照片来训练这个模型。我们将使用草图而不是边缘图进行训练的设置命名为EdgeGAN-S。AODA[54]. AODA提出了一个框架,共同学习草图到照片和照片到草图的映射,这个模型也在我们的合成数据集上训练。实施细节和评估我们在我们的合成数据集上训练SketchInverter 200 epoch学习率设定为0.001。潜在代码z是128- dim,草图和照片的大小是128 128。我们使用Adam[27]优化器,批量大小设置为128。补充资料中提供了进一步的实施细节我们使用以下五个指标来评估由不同方法生成的图像的质量,多样性和忠实性,包括Fre'chet初始距离(FID)[23],内核初始距离(KID)[5],初始分数(IS)[46],学习感知图像块相似性(LPIPS)[58]和分类准确性(Acc)。····4325草图图像草图图像草图图像(一)(b)第(1)款(c)第(1)款图4. (a)使用一个非条件编码器将草图映射到潜在代码,并基于类别标签生成图像。(b)使用两个非条件编码器将草图分别映射到潜在代码和类别标签,并使用它们来生成图像。 Ez和Ey分别输出潜在代码和类标签。(c)我们的方法SketchInverter:使用条件编码器将带有类别标签的草图映射为潜在代码,并通过生成器生成图像。表1.比较基线和我们的方法。我们的方法在所有指标上都优于其他基线草图数据库SketchyCOCO模型FID↓KID↓IS↑LPIPS↓加计↑FID↓KID↓IS↑加计↑[24]第二十四话107.590.0439.040.670.94170.060.081 6.94 0.125[24]第二十四话207.650.174.970.70.174219.390.174.89 0.123EdgeGAN-S[18]182.20.0176.370.660.81218.670.125.54 0.903奥达[54]305.80.214.60.680.021315.460.23.10.11SketchInverter(我们的)56.710.0129.630.550.988121.040.024 7.15 0.9954.2. 定性结果图5显示了我们提出的方法、SketchInverter和四种基线方法的代表性结果。草图(第1列)和相应的照片(第2列)来自Sketchy数据库。由于空间限制,我们在补充中展示了在SketchyCOCO数据集上实现的更多可视化结果。很明显,我们的方法(图)。5(c))可以产生比其他人更高质量的照片。用一个模型来处理不同的类是非常有挑战性的。如最后三列所示,基线方法正在努力生成不同类别的真实照片Pix 2 pix-Sep(图5(d))相对来说效果更好,因为它是针对各个类训练的。相比之下,SketchIn-verter是一个多类模型,可以很好地处理任务,甚至优于Pix 2 pix-Sep。无论是动物类,如鸟类和狗或其他类,如杰克o灯笼,SketchInverter可以生成适当的颜色,纹理和形状的照片。这种优越性是通过采用预训练的图像生成器来实现的,这使得我们的模型能够利用其先验知识。值得注意的是,我们的方法有可能通过切换到更先进的图像生成器来生成更高分辨率或更高质量的自然图像。在忠诚方面,即,无论生成的照片中的物体是否与草图物体对齐,我们的方法也是所有方法中最好的。应该指出的是,虽然一些素描照片对在Ez类标签GEzEyGyz类标签Ez类标签G4326真实的数据集并不是完全对齐的,就像图2第二行中的鸟的例子一样。5、我们生成的照片更忠实于输入的草图,同时保持真实感。更多结果见补充资料。4.3. 定量结果如表1所示,我们的方法在所有指标方面都优于其他基线方法。Pix 2 pix-Sep是为每个类单独训练的唯一基线。它的性能比Pix 2 pix-Mix好得多,这意味着类之间的域内间隙是不平凡的。我们的方法远远优于Pix 2 pix-Sep,这表明我们的模型比在单个类别上训练的模型集合更好地此外,SketchInverter生成的图像可以更好地识别图像分类器比其他基线方法,这证明了我们的方法的优越性这些结果还证明了使用预训练图像生成器的好处,该生成器从大规模图像数据集中学习了出色的先验知识。4.4. 消融研究条件编码器的效果。为了证明所提出的条件编码器的有效性,我们将我们的条件编码器与两个变体进行比较:(i)使用简单的卷积编码器,该编码器将草图作为唯一的输入并将其映射到潜在代码;(ii)使用两个编码器,类似于[38],输入仅为草图;而4327图5. 在Sketchy数据库的草图上测试的可视化结果。(a)(b)地面实况;(c)我们的方法;(d)Pix2pix-Sep:每班一个型号;(e)Pix2pix-Mix:所有类别的单一模型; EdgeGAN-S; AODA。(c)(d)(e)(f)(g)都是在我们的合成数据集上训练的,并在Sketchy数据库上测试。更多结果见补充资料。(一)(b)(c)(d)(e)(f)第(1)款(g)(h)图6. 消融研究的可视化结果。(a)草图;(b)地面实况;(c)使用一个非条件编码器;(d)使用两个非条件编码器;(e)在没有形状损失的情况下进行训练;(f)我们的完整模型;(g)在Sketchy数据库训练集上微调的我们的完整模型;(h)在我们的合成4328数据集和Sketchy数据库训练集的混合上训练的我们的完整模型。列(c)(d)(e)(f)是在我们的合成数据集上训练和在Sketchy数据库上测试的相同设置一个编码器将草图转换为潜在代码,而另一个编码器预测类别标签。在(i)和(ii)中使用的编码器具有相同的架构。值得注意的是,虽然在这两个变体中使用的编码器是无条件的,在这两个变体中使用的生成器和我们提出的模型是有条件的,即,需要类标签。因此,我们认为,4329表2. 不同类型编码器的比较。我们提出的一致性编码器产生更逼真和忠实的结果。FID↓ KID↓IS↑LPIPS↓ 加计↑单个编码器61.86 0.0138.740.60.989两个编码器82.19 0.018 12.210.630.186我们56.71 0.0129.630.550.988与这两个变体相比,我们提出的模型不使用更多的监督。表2显示了我们提出的条件编码器优于这两种变体.使用单个非条件编码器具有更高的分类精度。然而,如图6(c),该方法不能捕获草图中指示的细节(例如, 鸟的方向和狗的姿势)。此外,在我们的实验中,我们发现,使用单一的非条件编码器可能会遭受模式崩溃的问题,生成的图像具有相似的形状,并在几个有限的模式下降因此,该方法实现了最低IS评分(见表2)。使用两个编码器的变体可能预测不正确的类别标签,从而产生错误的图像。如图1的第一示例所示。在图6(d)中,模型将鸟预测为南瓜灯,使得所生成的图像是不正确的。该变体实现了最高的IS得分和最低的分类准确度,表明高IS得分并不来自高质量,而是来自意想不到的异常多样性。与非条件编码器相比,本文提出的条件编码器能够更好地学习输入草图到潜在空间的映射,从而生成的图像更忠实于输入草图。此外,不像以前的GAN反演工程,我们的方法允许用户在生成过程中分配一个特定的类,这是特别有用的,当输入草图是模糊的。形状损失的影响。形状损失被提出来约束生成的图像中的对象的形状以与输入草图对齐。图6(e)和(f)显示了形状损失的有效性。我们可以观察到,使用形状损失训练的模型可以生成在形状和方向上更忠实于草图的图像如果没有形状损失,则模型倾向于生成具有不正确形状的对象,例如,马头不见了表3中的定量结果表明,形状损失可以提高模型不同训练策略的比较。我们提出的模型SketchInverter在合成数据集上进行了训练,并在真实数据集上进行了测试。我们想知道在训练过程中包含真实数据是否可以进一步提高模型我们比较了三个培训策略,已介绍了在第二节。3.5. 粗略的表3. 比较有和没有形状损失的训练。形状损失的监督提高了结果的真实性和多样性FID↓KID↓IS↑LPIPS↓无形状损失60.040.0139.370.62我们56.710.0129.630.55表4.不同培训策略的比较FID↓KID↓IS↑LPIPS↓ 加计↑仅合成数据56.710.0120.550.988对真实数据进行58.58 0.0140.510.982混合57 030.011 9.650.530.991数据库作为演示的真实数据。表4比较了不同培训策略的绩效。与仅在合成数据上训练相比,在真实数据上进行微调的策略在LPIPS上表现最好,这表明真实数据可以增强对Sketchy数据库中目标图像的置信度。6(g),马的颜色和鸟的背景更接近地面真相(图。第6(b)段。然而,由于灾难性的遗忘现象,在较小的数据集上进行微调会导致较低的FID,KID和IS分数。在Acc、KID和IS上,采用合成数据和真实数据混合训练的策略效果最好,表明该策略可以提高图像质量和多样性。图6(h)显示了这一战略的一些结果。例如,第二排的狗比其他狗更真实,更符合地面实况照片。SketchInverter对实际数据具有出色的泛化能力。注意,该策略,即,仅在合成数据集上训练,与在训练期间需要真实配对数据的其它两个数据集相比,执行比较好的匹配。实验结果表明,在真实数据上进行训练或微调不会为图像质量或多样性带来很多好处。5. 结论本文提出了第一个基于GAN反演的多类草图图像生成框架,该框架可以生成高保真、真实、多样的图像该框架可以通过使用预训练图像生成器的先验知识来显着减少设计并开发了一种新的条件编码器,将草图映射到具有预先分配的类标签的潜在空间。我们还提出了一个合成数据集,并探索了不同的训练策略,以解决配对的草图-照片数据有限的问题。谢 谢 。 本 研 究 得 到 了 国 家 自 然 科 学 基 金(No.62002012)。4330引用[1] Rameen Abdal,Yipeng Qin,and Peter Wonka.图像-年龄2风格:如何将图像嵌入到潜空间中?在IEEE/CVF计算机视觉国际会议论文集,第4432-4441页[2] Rameen Abdal , Yipeng Qin , and Peter Wonka. Im-age2stylegan++:如何编辑嵌入的图像?在IEEE/CVF计算机视觉和模式识别会议的论文集,第8296-8305页[3] David Bau 、 Jun-Yan Zhu 、 Jonas Wulff 、 WilliamPeebles 、 Hendrik Strobelt 、 Bolei Zhou 和 AntonioTorralba。大型发电机的反相层在ICLR研讨会,第2卷,第4页,2019年。[4] David Bau 、 Jun-Yan Zhu 、 Jonas Wulff 、 WilliamPeebles 、 Hendrik Strobelt 、 Bolei Zhou 和 AntonioTorralba。看看一个帮派不能创造什么。在IEEE/CVF计算机视觉国际会议论文集,第4502- 4511页[5] 我的儿子比尼奥 斯 基,丹尼卡J萨瑟兰,迈克尔阿贝尔,阿瑟格雷顿。揭秘mmd甘斯。arXiv预印本arXiv:1801.01401,2018.[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv:1809.11096,2018。[7] 陈嘉欣和方毅。基于草图的3d形状检索中通过语义保持对抗学习的深度跨模态自适应在欧洲计算机视觉会议(ECCV)的会议记录中,第605-620页[8] Shu-Yu Chen,Wanchao Su,Lin Gao,Shihong Xia,and Hongbo Fu.深面刨:基于草图的人脸图像深层次生成 。 ACM Transactions on Graphics ( TOG ) , 39(4):72[9] Tao Chen , Ming-Ming Cheng , Ping Tan , ArielShamir,and Shi-Min Hu. Sketch2photo:互联网图像蒙太奇。ACMTransactions on Graphics(TOG),2009年。[10] 陈文玲和詹姆斯·海斯。素描:从多样化的写实素描到图像合成.在CVPR,2018年。[11] Antonia Creswell和Anil Anthony Bharath。反生成对抗网络的生成器。IEEE Transactions on Neural Networks andLearning Systems,30(7):1967[12] 戴国贤、谢进、范铸、方毅。基于草图的三维形状检索的深度相关度量学习。2017年第31届AAAI人工智能会议。[13] HarmDeVries,FlorianStrub,Je're'mieMary,HugoLarochelle,Olivier Pietquin和Aaron C Courville。通过语言调节早期视觉处理。神经信息处理系统的进展,30,2017。[14] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[15] Vincent Dumoulin , Jonathon Shlens , and ManjunathKud-lur. 对艺术风格的博学的表现arXiv预印本arXiv:1610.07629,2016。[16] M. Eitz,K. Hildebrand,T. Boubekeur和M. Alexa从草图特 征 线 检 索 大 规 模 图 像 描 述 符 的 评 价 ComputersGraphics,34(5):482[17] Mathias Eitz , Ronald Richter , Kristian Hildebrand ,Tamy Boubekeur,and Marc Alexa.摄影素描师:交互式基于草图的图像合成。IEEE计算机图形学与应用,2011年。[18] Chengying Gao , Qi Liu , Qi Xu , Limin Wang ,Jianzhuang Liu,and Changing Zou. Sketchycoco:从手绘场景草图生成图像。 在IEEE/CVF计算机视觉和模式识别会议论文集,第5174-5183页[19] Arnab Ghosh 、 Richard Zhang 、 Puneet K Dokania 、Oliver Wang 、 Alexei A Efros 、 Philip HS Torr 和 EliShechtman。交互式草图填充:多类草图到图像转换。在CVPR,2019年。[20] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展,第2672-2680页,2014年[21] Shanyan Guan、Ying Tai、Bingbing Ni、Feida Zhu、Feiyue Huang和Xiaokang Yang。协作学习更快的风格嵌入。arXiv预印本arXiv:2007.01758,2020。[22] 韩晓光、常高、益州余。深度-ketch 2face:基于深度学习 的 素 描 系 统 , 用 于 3D 人 脸 和 漫 画 建 模 。 ACMTransactions on graph-ics(TOG),36(4):1[23] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展,30,2017。[24] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。 在IEEE计算机视觉和模式识别会议论文集,第1125- 1134页[25] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[26] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第4401-4410页[27] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[28] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展,25:1097[29] Mengtian Li,Zhe Lin,Radom 'ır M ech,Ersin Yumer,and Deva Ramanan.照片素描:从图像中推断轮廓图。在WACV,2019年。4331\[30] 李宇航,陈学金,杨斌新,陈子涵,程志华,查正军。深面盆:从手绘草图中创建人脸图像。在第28届ACM多媒体国际会议上,MMACM。[31] Zachary C Lipton和Subarna Tripathi。从生成对抗网络中精确恢复潜在向量。arXiv预印本arXiv:1702.04782,2017。[32] Fang Liu,Changing Zou,Xiaoming Deng,Ran Zuo,Yu-Kun Lai , Cuixia Ma , Yong-Jin Liu , and HonganWang.场景捕捉器:基于场景草图的细粒度图像检索。欧洲计算机视觉会议,第718-734页。Springer,2020年。[33] 刘润涛,于倩,于思婷。无监督素描到照片合成。欧洲计算机视觉会议,第36-52页。Springer,2020年。[34]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功