手绘草图生成高质量图像

138 浏览量更新于2023-10-20 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5174SketchyCOCO：手绘场景草图图像生成高成英1刘琦1徐琦1王利民2刘建庄3邹长青4张伟1中山大学数据与计算机科学学院2南京大学软件新技术国家重点实验室3华为诺亚mail2.sysu.edu.cn07wanglimin@gmail.comhuawei.comaaronzou1125@gmail.commcsgcy@mail.sysu.edu.cn摘要我们介绍了第一种方法自动图像生成，从场景级手绘草图。我们的模型允许通过手绘草图指定合成目标的可控图像生成。其关键贡献是一个名为EdgeGAN的属性向量桥接生成对抗网络，它支持高视觉质量的对象级图像内容生成，而无需使用手绘草图作为训练数据。我们已经建立了一个名为SketchyCOCO的大规模复合数据集来支持和评估解决方案。我们验证了我们的方法在SketchyCOCO上的对象级和场景级图像生成的任务通过定量，定性的结果，人的评价和消融研究，我们证明了该方法1. 介绍近年来，生成对抗网络（GANs）[16]在建模视觉数据的高维分布方面取得了显着的成功。特别地，高保真图像可以通过在对象级数据上训练的无条件生成模型（例如，[4]中的动物图片），类特定数据集（例如，室内场景[33]），甚至是具有重复纹理的单个图像[32]。在实际应用中，自动图像合成可以根据特定的要求生成图像和视频。这解释了为什么越来越多的研究以另一种输入信号为条件的对抗网络，如文本[37，20]，语义图[2，21，6，34，27]，输出[2，20，38]和场景图[2，23]。与这些资源相比，手绘草图在以直观和灵活的方式表达用户的想法方面具有独特的优势*通讯作者。具体来说，为了描述对象或场景，草图可以比其他来源更好地传达用户在本文中，我们将生成对抗网络的使用扩展到一个新问题：从如图1所示的手绘场景级草图可控地生成具有许多对象和关系的逼真图像。这个问题是极具挑战性的，因为有几个因素。手绘草图的特征在于各种抽象级别，对于手绘草图，一千个用户有一千种不同的外观，这些外观甚至根据用户的理解能力来表达相同的共同对象，从而使得现有技术难以对从手绘场景草图到精确满足用户意图的现实自然图像的映射进行更重要的是，手绘场景草图往往是不完整的，包含前景和背景。例如，用户往往喜欢用特定的细节描绘出最关心的前景对象，并且他们希望结果完全满足这一要求，而他们留下空白并且仅仅粗略地描绘背景对象而不关注其细节，从而要求算法能够应对用户的不同要求。为了解决这个具有挑战性的问题，我们根据场景级草图的特点，将其分解为前景和背景生成两个连续的阶段。第一阶段集中于前景生成，其中生成的图像内容应该完全满足用户的特定要求。第二阶段负责背景生成，其中生成的图像内容可能与草图松散地对齐。由于每个对象在前景中的外观已经由用户指定，所以可以分别从各个前景对象生成逼真且合理的图像内容而且，生成的前景可以对背景提供更多的约束5175BigGAN [4] StackGAN [37] Sg2im[23] Layout2im [38]ContexturalGAN [26] OursPix2pix [21]Ashual et al.[二]《中国日报》图1：所提出的方法允许用户可控地从手绘草图中生成具有许多对象的逼真场景级图像，这与无条件GAN和有条件GAN形成鲜明对比，因为我们使用场景草图作为上下文（弱约束），而不是从噪声[4]或语义图[2，28]或边缘图[21]等较硬条件生成。从左到右，输入的约束变得更强。生成，这使得背景生成更容易，即，渐进式场景生成降低了问题的复杂性。为了解决草图的抽象性所引起的数据变化问题，我们提出了一种新的神经网络架构称为EdgeGAN。它学习一种联合嵌入，将图像和相应的各种风格的边缘图变换到一个共享的潜在空间中，在这个潜在空间中，向量可以表示高级属性信息（即，对象姿态和外观信息）。在共享的潜在空间中的属性向量的桥梁，我们能够转换的问题，从手绘草图的图像生成从边缘地图，而不需要收集前景手绘草图作为训练数据，我们可以解决的挑战，建模一对多的对应关系的图像和无限的手绘草图。为了评估我们的方法，我们基于MS COCO Stuff [5]构建了一个名为SketchyCOCO的大规模复合数据集。该数据集的当前版本包括14K+场景级图像和草图的成对示例，20K+前景草图，图像和边缘图的三重示例，涵盖14个类别，27K+背景草图和图像示例的成对示例，涵盖3个类别，以及14K+场景草图的分割基础事实。我们将建议的EdgeGAN与现有的草图到图像方法进行比较。定性和定量的结果表明，建议的EdgeGAN实现显着优越的性能。我们将我们的贡献总结如下：• 我们提出了第一个基于深度神经网络的框架，用于从场景级手绘草图生成图像。• 我们提出了一种新的生成模型，称为边缘GAN的对象级图像生成从徒手素描该模型可以以端到端的方式进行训练，并且不需要用于训练的草图-图像成对地面实况。• 我们基于 MS COCO Stuff [5] 构建了一个名为SketchyCOCO的大规模复合数据集。该数据集将极大地促进相关研究。2. 相关工作基于草图的图像合成。早期的基于草图的图像合成方法是基于图像检索的。 Sketch2Photo [7] 和PhotoSketcher [15]通过合成从给定草图中提取的对象和背景来合成真实的图像。PoseShop [8]通过让用户在查询中输入额外的2D图像来合成人的图像，以便检索更加精确。最近，SketchyGAN [9]和ContextualGAN[26]已经证明了变体GAN对于从手绘草图生成图像的价值。与Sketchy-GAN [9]和ContextualGAN [26]主要解决从描述单个对象的对象级草图生成图像的问题不同，我们的方法专注于从场景级草图生成图像。条件图像生成。最近的几项研究已经证明了变体GAN用于从文本[37，20]，场景图[23]，语义布局图[20，38]生成场景级复杂图像的潜力这些方法中的大多数使用多阶段粗到细策略来同时推断输入或中间结果中的所有语义布局的图像外观。由于手绘场景草图具有前景和背景明显不同的特点，因此我们采用了另一种方法，采用分而治之的策略来顺序生成图像的前景和背景5176现场草图分割结果生成前景输出图像另一个包括生成器GI和生成器BIDI，用于图像生成。G I和G E都将相同的噪声向量连同指示特定类别的独热向量一起作为输入。鉴别器DI和DE试图区分图2：拟议框架的工作流程在对象级图像生成方面，我们的EdgeGAN与无条件GAN和有条件GAN形成鲜明对比，因为我们使用草图作为上下文（弱约束），而不是从DCGAN [29]，Wasser-stein GAN [1]，WGAN-GP [17]及其变体等噪声中生成，或者使用诸如边缘图[10，11，24，21]，se等硬条件Mantic map [2，21，6，34，27]，同时提供更精确的控制比那些使用文本[37，20]，布局[2，20，38]和场景图[2，23]作为上下文。3. 方法我们的方法主要包括两个顺序模块：前景生成和背景生成。如图2所2，给定场景草图，首先利用[40]中的草图分割方法定位和识别对象在为每个前景对象实例生成图像内容之后（即，属于前景类别的草图实例）。通过将背景草图和生成的前景图像作为输入，通过在单遍中生成背景图像来实现最终图像。这两个模块是分开训练的接下来，我们将描述每个模块的详细信息。3.1. 前景生成EdgeGAN的整体架构。直接建模单个图像及其相应草图（如SketchyGAN [9]）之间的映射是困难的，因为映射空间非常大。因此，我们以另一种可行的方式来应对挑战：我们学习由跨域数据表示的对象的公共表示。为此，我们设计了一个adversar- ial架构，如图所示3（a），对于EdgeGAN。Edge-GAN不是直接从草图推断图像，而是将草图到图像生成的问题转移到从编码手绘草图的表达意图在训练阶段，EdgeGAN通过向对抗网络提供图像及其各种绘画风格的边缘图来学习对象图像及其边缘图的公共属性向量。在推理阶段（图。 3（b）），EdgeGAN用属性向量捕获用户的表达意图，然后从中生成期望的图像。EdgeGAN的结构如图3（a），所提出的EdgeGAN具有两个通道：一个包括一般，所生成的图像或边缘图来自真实分布。另一个伪DJ用于通过告知所生成的伪图像是否与伪边缘图匹配来鼓励所生成的伪图像和描绘相同对象的边缘图，这将GI和GE两者的输出作为输入（图像和边缘图沿着宽度维度连接）。边缘编码器用于通过L1损失使边缘图的编码属性信息接近馈送到GI和GE 的分类器用于推断输出的类别标签，GI，其用于鼓励生成的假图像经由焦点损失被识别为期望的类别[25]。EdgeGAN的每个模块的详细结构如图所示。3（c）款。我们在bicycleGAN [39]中使用相同的编码器模块实现边缘编码器，因为它们在功能上扮演类似的角色，即，我们的编码器编码“内容”（例如，姿态和形状信息），而bicy-cleGAN中的编码器对于Classi- fier，我们使用类似于SketchyGAN的结构，同时忽略对抗损失，仅使用焦点损失[25]作为分类损失。所有发生器和鉴别器的架构均基于WGAP-GP [17]。目标函数和更多的训练细节可以在补充材料中找到。3.2. 背景生成一旦所有的前景实例都被合成，我们训练pix2pix[21]来生成背景。背景生成任务的主要挑战大多数场景草图的背景都包含背景实例和区域内的空白区域（如图所示）。2），这意味着由于缺少草图约束，属于背景的某些区域是不确定的。通过利用pix2pix并使用生成的前景实例作为约束，我们可以允许网络生成与合成的前景实例相匹配的合理背景。以图2为例，输入图像的斑马下方的区域不包含用于约束的背景草图，并且输出图像示出了这样的区域可以合理地填充有草和地面。4. SketchyCOCO数据集我们通过从Sketchy数据集[31]、Tuber-lin数据集[12]和QuickDraw数据集[18]（大约700个）（（（5177真假输入1819/232第 1690/189号决议9 9 7 /1043258/7683/551145/211848/168 892/32481/277230/18317825/19107116/1741伪造图像假国会议员MP图像试验草图独热矢量从草图分割边生成图像生成真的吗边缘编码器ResNet房国会议员MP图像图像分类器Conv-LeakyReLU FC-Reshape-IN-ReLU MRU块Conv-IN-LeakyReLUDeConv-IN-ReLUmp均值合并德康夫-IN-Tanh One-hot vector（a）训练阶段（b）推理阶段（c）网络结构图3：所提出的EdgeGAN的结构。它包含四个子网：两个发生器GI和GE，三个鉴别器DI、DE和DJ，边缘编码器E和图像分类器C。 EdgeGAN学习图像的联合嵌入和将该图像描绘到共享潜在空间中的各种风格的边缘映射，其中向量可以从跨模态数据中编码高级属性信息。图4：SketchyCOCO中14个前景和3个背景类别的代表性草图图像配对示例每个类别的数据大小，分为训练/测试，显示在顶部。每个前景类的草图对于每个类，我们将这些草图分为两部分：80%用于训练集，其余20%用于测试集。我们从COCO Stuff [5]中收集了14081张自然图像，其中至少包含17个类别中的一个，并将它们分成两组，80%用于训练，其余20%用于测试。使用这些自然图像的分割掩模，我们将背景实例草图（云，草和树草图）放置在这些图像的相应背景区域这个步骤产生27，683（22，171+5，512）对背景草图图像示例（如图11所示）。4）.然后，对于自然图像中的每个前景对象，我们检索与图像中对应的前景对象具有相同类别标签的最相似草图。该步骤采用Sketchy数据库中提出的草图图像嵌入方法[31]。此外，为了获得更多的数据用于训练对象生成模型，我们从完整的COCO Stuff数据集中收集前景对象。通过这一步和人工选择，我们得到了20，198（18，869+1，329）个前景草图、图像和边缘图的三元组实例。由于来自COCO Stuff的自然图像的所有背景对象和前景对象具有类别和布局信息，因此我们获得布局（例如，对象的边界框）以及用于合成的场景草图的分割信息在背景和前景草图的构建之后，我们自然地获得了五元组的地面真实数据（图1）。（五）。请注意，在在上述步骤中，训练集和测试集中的场景草图只能分别由训练集和测试集中的实例草图组成5. 实验5.1. 对象级图像生成基线。我们将EdgeGAN与一般图像到图像模型pix 2pix [21]和两个现有的草图到图像模型ContextualGAN[26]和SketchyGAN[9]进行了比较，收集了20，198个三元组{前景草图，前景图像，前景边缘图}示例。与SketchyGAN和pix2pix不同，它们可以使用边缘图和手绘草图作为训练数据，EdgeGAN和ContextualGAN仅将边缘图作为输入，而不使用任何手绘草图进行训练。为了公平和彻底的评估，我们为SketchyGAN，pix2pix和ContextualGAN设置了几种不同的训练模式。接下来我们将为每个模型介绍这些模式。• EdgeGAN：我们使用前景图像训练单个模型，并且只为所有14个前景对象类别提取边缘图。• ContextualGAN [26]：由于原始方法不能使用单个模型来学习多个类别的草图与图像的对应关系，因此我们使用前景图像及其边缘图来分别训练每个前景对象类别的模型。编码器L1损失假边焦点损失伪造图像分类器边缘边缘编码器假边{one-hot + noise}向量属性向量属性向量{one-hot + noise}向量独热矢量属性向量5178（e）（一）（b）第（1）款（c）第（1）款（d）其他事项图5：SketchyCOCO的五元组地面实况数据的图示，即，(a) {前景图像，前景草图，前景边缘图}（训练：18，869，测试：1，329），（b）{背景图像，背景草图}（训练：11，265，测试：2，816），（c）{场景图像，前景图像&背景草图}（训练：11，265，测试：2，816），（d）{场景图像，场景草图}（训练：11，265，测试：2，816），以及（e）草图分割（培训：11，265，测试：2，816）。• [9]第十九话：我们在两种模式下训练原始的Sketchy-GAN。第一种模式表示为SketchyGAN-E，使用前景图像和仅其边缘图进行训练。由于SketchyGAN可能在实验中使用边缘图和手绘草图作为训练数据，因此我们也以另一种模式训练SketchyGAN：使用前景图像和{它们的边缘图+草图}进行训练。在这个名为SketchyGAN-E S的训练模式中，我们遵循与SketchyGAN相同的训练策略，首先将边缘图馈送到模型，然后用草图对其进行微调。• pix2pix [21] ：我们在四种模式中训练原始的Pix2pix架构。前两种模式被表示为pix 2 pix-E-SEP和pix 2 pix-S-SEP，其中我们分别通过仅使用来自14个前景类别的边缘图或草图来分别训练14个模型。另外两种模式被表示为pix 2 pix-E-MIX和pix 2 pix-S-MIX，在这两种模式中，我们分别使用所有14个类别的边缘图或草图来训练定性结果。我们在图6中显示了四种比较方法的代表性结果。一般来说，边缘GAN比上下文GAN提供更真实的结果.在信仰方面，输入的草图是否能够描绘生成的图像），EdgeGAN也优于ContextualGAN。这可以通过EdgeGAN使用学习的属性向量来解释，该属性向量从跨域数据中捕获可靠的高级属性相比之下，ContextualGAN使用低级草图边缘相似性度量来监督图像生成，这对输入草图的抽象程度很敏感。与产生逼真图像的 EdgeGAN 相比， pix2pix 和SketchyGAN仅对输入草图进行着色，并且当两个模型仅用边缘图训练时不改变输入草图的原始形状（例如，参见图6（bl）、（cl）和（c2））。这可能是因为SketchyGAN和pix2pix的输出都受到输入的强烈约束（即，由训练数据提供的一对一对应当输入是来自另一个域的手绘草图时，这两个模型由于它们在训练期间只看到边缘图，因此难以产生逼真的结果相比之下，Edge-GAN的输出受输入草图的约束相对较弱，因为其生成器将从跨域数据而不是输入草图中学习的属性向量作为输入。因此，EdgeGAN可以实现比pix2pix和SketchyGAN更好的结果，因为它对跨域输入数据相对不敏感。通过用手绘草图增强或改变训练数据，SketchyGAN和pix2pix都可以为某些类别生成逼真的局部补丁，但无法保留全局形状信息，正如我们可以看到的那样，图中的结果的形状。6（b2）、（c3）和（c4）被扭曲。输入我们的（a）（b1）（b2）（c1）（c2）（c3）（c4）图6：从左到右：输入草图，来自EdgeGAN的结果，ContextualGAN（a），SketchyGAN的两种训练模式（即， SketchyGAN-E （ b1 ）和 SketchyGAN-E S ）（b2），pix 2 pix的四种训练模式，即pix 2 pix-E-SEP（ c1 ）、 pix 2 pix-E-MIX （ c2 ）、 pix 2 pix-S-MIX（c3）和pix 2 pix-S-SEP（c4）定量结果。为了定量比较，我们对两种方法进行了真实性和可信性的评价.我们使用FID [19]和准确度[2]作为现实主义指标。较低的FID值和较高的准确度值指示较好的图像真实性。值得一提的是，Inception Score[30]指标不适合我们的任务，因为最近的几项研究（包括[3]）发现Inception Score基本上只适用于在ImageNet上训练的模型。通过计算生成图像的边缘图与输入草图的相似程度来具体地说，我们使用形状相似性（SS），这是L2Ga-5179表1：定量实验和人体评价的结果模型（对象）FIDAcc.SS（e+04）真的-ISM信仰-充满的我们87.60.8872.2940.6370.576ContextualGAN225.20.3772.6600.0380.273SketchyGAN-E141.50.2771.9960.0930.945SketchyGAN-E S137.90.1272.3150.0230.691pix2pix-E-SEP143.10.6132.1360.0710.918pix2pix-E-MIX128.80.4992.1030.0580.889pix2pix-S-MIX163.30.2232.5690.0470.353pix2pix-S-SEP196.00.4582.5270.0330.310模型（场景）FIDSSIMFID（当地）真实-信仰-主义丰满Ashual等人[2]-布局123.10.304183.60.0831.874Ashual等人[2]-场景图167.70.280181.90.1181.570GauGAN-semantic map80.30.306123.00.2082.894GauGAN-语义草图215.10.285239.50.0001.210我们164.80.288112.00.5912.168bor feature [14]输入草图与canny边缘检测器从生成的图像中生成的边缘图之间的距离，以衡量忠实度（值越低表示忠实度越高）。定量结果总结为表1，其中我们可以看到，所提出的EdgeGAN在真实性度量方面实现了最佳然而，在忠实度指标方面，我们的方法优于大多数竞争对手，但不如pix 2 pix-E-SEP，pix 2 pix-E- MIX，SketchyGAN-E。这是因为由这些方法生成的结果看起来更像是输入草图的彩色化，其形状几乎与输入草图相同（见图11）。6（b1），（c1），（c2）），而不是realist-tic。定量结果基本上证实了我们在定性研究中的观察。5.2. 场景级图像生成基线。不存在专门设计用于从场景级手绘草图生成图像的现有方法。SketchyGAN最初是为从手绘草图生成对象级图像而理论上也可用于场景级的手绘草图。pix2pix [21]是一种流行的通用图像到图像模型，应该应用于所有图像翻译任务。因此，我们使用SketchyGAN [9]和pix2pix [21]作为基线方法。由于我们有14081对{scene sketch，scene im-age}示例，因此直接训练pix 2 pix和SketchyGAN模型来学习从草图到图像的映射是直观的。因此，我们对具有较低分辨率的实体进行了实验，例如，128×128。我们发现无论是pix2pix还是Sketchy的训练GAN 容易发生模式崩溃，通常在 60 个时期（SketchyGAN为80个时期）之后，甚至所有14081对{scene sketch，scene image}来自Sketchy的例子-使用COCO数据集。原因可能是数据多样性太大，无法建模。即使是14K对的大小仍然不足以完成成功的训练。然而，即使有80%的14081对{前景图像背景草图，场景图像}的例子，我们仍然可以使用相同的pix 2 pix模型的背景生成没有任何模式崩溃。这可能是因为pix2pix模型在这种情况下避免了前景草图和对应的前景图像内容之间的挑战性映射。更重要的是，训练可以快速收敛，因为前景图像提供了足够的先验信息和背景生成的约束。与其他系统的比较。我们还比较了我们的方法与先进的方法，生成图像使用其他模式的约束。• GauGAN [28]：原始的GauGAN模型将语义映射作为输入。我们发现GauGAN模型也可以用作从语义草图生成图像的方法，其中草图的边缘具有类别标签，如图7的第7列所示。7.在我们的实验中，我们测试了在数据集COCO Stuff上预训练此外，我们通过将我们收集的SketchyCOCO数据集上的语义草图作为输入来训练模型。结果示于图7列6和8。• Ashualet al.[2]：Ashual et al.提出的方法。可以使用布局或场景图作为输入。因此，我们将这两种模式与它们的预训练模型进行了比较。为了确保公平性，我们只测试SketchyCOCO数据集中包含的类别，并将最小对象数的参数设置为1。结果示于图7列2和4。定性结果。从图7中，我们可以看到，由手绘草图生成的图像比由Ashual等人 [2]的场景图或布局生成的图像更加逼真这是因为手绘草图为场景图或布局提供了更严格的约束条件（它提供了比场景图或布局更多的与以语义草图为输入的GauGAN相比，我们的方法通常会产生更真实的图像。此外，与使用语义映射训练的GauGAN模型相比，我们的方法也取得了更好的结果，可以在生成的前景对象区域中找到证据（GauGAN生成的奶牛和大象具有模糊或不合理的纹理）。在一般情况下，我们的方法可以产生更好的结果，在整体视觉质量和前景物体的现实主义比Gaugan和Ashual等人。的方法。整个图像的整体视觉质量也与最先进的系统相当。5180布局Ashual等人场景图Ashual等人语义地图GauGAN语义草图GauGAN草图我们地面实况图7：场景级比较。详情请参见第5.2节中的文本定量结果。我们采用三个指标来评估的忠实性和真实感的场景级图像。除了FID之外，结构相似性度量（SSIM）[35]是另一种用于量化生成图像和地面实况图像相似程度的度量。SSIM值越高，意味着距离越近。最后一个度量，称为FID（本地），用于计算所生成的图像中的前地面对象区域的FID值。从表1可以看出，除了与Gaugan语义地图模型和Ashual等人的比较外，大多数比较结果都证实了我们在定性研究中的观察结果和结论。[2]-在某些度量中的布局模型。使用语义映射训练的GauGAN模型在FID和SSIM方面优于我们的模型有几个原因。除了语义地图数据作为更严格的约束提供的固有优势外，使用语义地图训练的GauGAN模型包含COCO Stuff数据集中的所有类别，而我们的模型在SketchyCOCO数据集中只看到17个类别因此，GauGAN生成的图像中的实例的类别和数量The Ashual et al.[2]-布局模型在FID和SSIM方面优于我们的布局模型。这可能是因为当生成背景时，输入布局信息可以提供比草图更明确的空间约束。然而，我们的方法在FID（local）的度量上具有更大的优势，这证实了我们在定性结果分析中的观察，即我们的方法可以生成更真实的前景图像。由于我们的方法将手绘草图作为输入，这可能比GauGAN使用的语义图更容易访问，因此我们相信，与GauGAN模型相比，我们的方法仍然是图像生成工具的竞争系统5.3. 人工评价我们对这两个物体进行了人体评估研究-水平和场景水平的结果。如表1所示，我们评估了八个对象级和五个场景级比较模型的结果的真实性和忠实性。我们分别选取了51组对象级测试样本和37组场景级测试样本。在真实性评价中，要求30名参与者从每个测试样本的比较模型生成的图像中挑选出他们认为最“真实”的结果图像对于忠实性评估，我们按照SketchyGAN [9]对八个对象级比较模型进行评估。具体来说，对于每个样本图像，相同的30个参与者看到相同类别的六个随机草图，其中一个是实际的输入/查询草图。要求参与者选择他们认为提示输出图像的草图。对于五个场景级比较模型，要求30名参与者在1到4的尺度上对GT图像和所得图像之间的相似性进行评级，其中4表示非常满意，1表示非常不满意。总共收集了51×8×30=12，240和51×30=1，530条用于对象级别的忠实性和真实性评估，37×5×30=5，550和37×30=1，110条路径分别用于场景级忠实度和真实度评价。表1中的对象水平统计结果基本上证实了忠诚度的定量结果场景级评价结果表明，该方法在真实感上得分最高，但与FID的定量结果不一致。这可能是因为参与者更关心前景对象的视觉质量而不是背景区域的在场景级别的忠实性方面，GauGAN优于我们的方法，因为从地面实况图像生成的输入语义图提供了更准确的约束。5.4. 消融研究我们进行全面的实验，以分析我们的方法的每个组成部分，其中包括：a）是否5181编码器E已经学习了高级跨域属性信息，b）联合编码器DJ如何工作，以及c）哪个GAN模型最适合我们的方法，以及d）是否可以使用多尺度鉴别器来改善结果。由于篇幅有限，在本节中，我们只介绍我们对最重要的研究的调查研究a），并将其他研究纳入教学材料。图8：不同样式的边或草图的结果。第1至4列：不同的手绘草图第5列至第9列：canny、FDoG [22]、影印（PC）、照片草图[13]和XDoG的边缘[36个]我们测试了不同风格的绘图，包括由各种过滤器生成的草图和边缘图作为输入。我们将结果显示在Fig.8.我们可以看到，我们的模型适用于各种各样的线条绘制风格，尽管其中一些没有包含在训练数据集中。我们认为，无论线描画是何种风格，编码器E的属性向量都能提取线描画的高级属性信息6. 讨论与局限性15% 13%27% 4%4%3% 24%百分之十前左前左左后卫右后卫权右前图10：SketchyCOCO中前景物体视角统计结果.以及场景草图中前景对象的大小，同时保持背景不变。因此，背景生成中存在显著变化。将前景作为背景训练的约束，前景和背景融合良好。我们可以看到，接近甚至产生了长颈鹿下的阴影。数据集偏倚。在当前版本的SketchyCOCO中，所有用于对象级训练的前景图像都是从COCO-Stuff数据集中收集的。在数据收集阶段，我们只丢弃主要部分被COCO-Stuff遮挡的前地对象为了测量前景对象的视图多样性，我们从训练数据中的每个类中随机抽取50个该结果如图所示。10.正如我们所看到的，有一些主要的视角，如侧视图。我们正在考虑增强SketchyCOCO以创建一个更平衡的数据集。草图分割。我们目前在场景草图的实例分割步骤中使用[40]中的实例分割算法。实验发现，对于对象级草图过于抽象的场景草图，所采用的分割算法可能无法分割出部分对象为了解决这个问题，我们正在考虑剪裁一个更有效的算法，在未来的场景草图分割的7. 结论（一）（b）第（1）款（c）第（1）款（d）其他事项（e）本文首次提出了一个基于神经网络的框架来解决从手绘草图生成场景级图像的问题。我们已经建立了一个大规模的复合数据集称为SketchyCOCO的基础上图9：从上到下：输入草图，以及IM-我们的方法产生的年龄。背景生成。我们研究了背景生成的可控性和鲁棒性。如图9(a) 到（c），我们逐步将背景类别添加到空白背景。实验结果表明，新添加的背景草图能够合理地改变输出图像，说明这些草图确实控制了图像不同区域的生成。可以看出，虽然背景中存在较大的无约束空白，但输出图像仍然合理。我们研究我们的方法产生不同结果的能力。如图9（c）到（e），我们改变位置在MS COCO Stuff上对我们的解决方案进行评估实验结果表明，该方法能够从大量的手绘草图中生成逼真的图像确认我们感谢所有评论者的宝贵意见和反馈。我们感谢Jiajun Wu提出的宝贵建议和富有成效的讨论，这些建议和讨论最终促成了EdgeGAN模型。本工作得到了广东省自然科学基金（批准号：200100101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101 2019A1515011075），国家自然科学基金（批准号：61972433、61921006）。5182引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。[2] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性和关系在IEEE计算机视觉国际会议论文集，第4561-4569页[3] 阿里·博尔吉评估方法的利弊。计算机视觉和图像理解，179：41[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[5] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页[6] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成在IEEE计算机视觉国际会议论文集，第1511-1520页[7] Tao Chen ， Ming-Ming Cheng ， Ping Tan ， ArielShamir，and Shi-Min Hu. Sketch2photo：互联网图像蒙太奇。ACM图形交易（TOG），28（5）：1[8] Tao Chen，Ping Tan，Li-Qian Ma，Ming-Ming Cheng，Ariel Shamir，and Shi-Min Hu. Poseshop：人体图像数据库构建和个性化内容合成。 IEEE Transactions onVisualization and Computer Graph-ics，19（5）：824[9] 陈文玲和詹姆斯·海斯。素描：从多样化的写实素描到图像合成. 在IEEE计算机视觉和模式识别会议论文集，第9416-9425页，2018年[10] 泽州丞、庆雄杨、宾胜。深着色。IEEE InternationalConference on Computer Vision，第415-423页，2015年[11] Aditya Deshpande，Jason Rock和David Forsyth。学习大规模自动图像着色。在IEEE计算机视觉国际会议论文集，第567-575页[12] Mathias Eitz，James Hays，and Marc Alexa.人类是如何描绘物体的？ACM Transactions on Graphics（TOG），31（4）：1[13] Mathias Eitz，Kristian Hildebrand，Tamy Boubekeur，and Marc Alexa.照片草图：基于草图的图像查询与合成系统。SIGGRAPH 2009：对话，第1-1页。2009.[14] Mathias Eitz ， Ronald Richter ， Tamy Boubekeur ，Kristian Hildebrand，and Marc Alexa.基于草图的形状检索。ACM图形交易（TOG），31（4）：31，2012年。[15] Mathias Eitz ， Ronald Richter ， Kristian Hildebrand ，Tamy Boubekeur，and Marc Alexa.摄影素描师：交互式基于草图的图像合成。IEEE Computer Graphics andApplications，31（6）：56[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。InAdvances神经信息处理系统，第2672-2680页，2014年。[17] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年[18] David Ha和Douglas Eck。草图的神经表征。arXiv预印本arXiv：1704.03477，2017。[19] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，第6626-6637页，2017年[20] Seunhoon Hong，Dingdong Yang，Jongwook Choi，andHonglak Lee.推理语义布局的分层文本到图像合成。在IEEE计算机视觉和模式识别会议论文集，第7986- 7994页[21] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。[22] Chenfanfu Jiang ， Yixin Zhu ， Siyuan Qi ， SiyuanHuang ， Jenny Lin ， Xiongwen Guo ， Lap-Fai Yu ，Demetri Terzopou- los，and Song-Chun Zhu.可配置的，真实感的图像渲染和地面合成的采样随机- tic语法表示室内场景。arXiv预印本arXiv：1704.00112，2，2017。[23] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在IEEE计算机视

下载后可阅读完整内容，剩余1页未读，立即下载