基于上下文GAN的草图约束图像生成

149 浏览量更新于2023-10-13 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于上下文GAN的草图约束图像生成卢永义1[0000−0003−1398−9965]、吴尚哲1、3[0000−0003−1011−5963]、戴玉荣2[0000−0002−3148−0380]、邓志强1[0000−0001−6495−3685]1香港科技大学2腾讯优图3牛津大学{yluaw，cktang} @ cse.ust.hk，swuai@connect.ust.hk，yuwingtai@tencent.com抽象。在本文中，我们研究的图像生成指导手绘草图。当输入草图画得不好时，由于翻译过程施加的硬条件，普通图像到图像翻译的输出跟随输入边缘。相反，我们建议使用草图作为弱约束，其中输出边不一定遵循输入边。我们使用一种新的联合图像完成方法来解决这个问题，其中草图提供用于完成或生成输出图像的图像上下文。我们训练一个生成的对抗网络，即上下文GAN，通过使用联合图像来学习草图和相应图像的联合分布。我们的上下文GAN有几个优点。首先，简单的联合图像表示允许在相同的图像草图空间中简单且有效地学习联合分布，这避免了跨域学习中的复杂问题。其次，虽然输出与其输入整体相关，但生成的特征在外观上表现出更大的自由度，并且不像以前的条件GAN那样与输入特征严格对齐。第三，从联合图像的视点来看，图像和草图没有差异，因此完全相同的深度联合图像完成网络可以用于图像到草图生成。在三个不同的数据集上进行的实验表明，我们的上下文GAN可以在挑战性输入上生成比最先进的条件GAN更逼真的图像，并且在常见类别上具有很好的泛化能力。关键词：图像生成·上下文完成。1介绍图像平移在[9]中展示的各种应用中产生令人印象深刻的摄影结果。条件生成对抗网络（cGAN）的常见方法将硬条件（如像素对应[9]）与翻译过程结合在一起，这使得输出与输入边缘严格对齐这在草图到图像中可能是非常成问题的这部分工作是在Yongyi Lu在腾讯优图实习时完成的2Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐输入CE pix2pix我们的输入 CE pix2pixOUURSSFig. 1.通过两个条件GAN（即，CE [17]和pix2pix [9]）和我们的上下文GAN。即使草图画得很糟糕，它们在传达鸟类和汽车的特征时仍然很有表现力。我们的方法不需要严格的对齐，同时仍然忠实于输入，从而产生更逼真的图像。修复房联合图像掩模掩模上下文：已完成：上下文：生成日期：我们图二、图像生成构成图像完成。上图：使用未裁剪部分作为上下文的语义图像底部：联合图像完成与sketch具有“未完成”内容，其中完成部分位于该边缘上。我们的作业图像并排地连接草图及其对应的图像。当输入是手绘草图时，生成图1显示了不同对象的随意在这种情况下，条件GAN（例如，pix2pix [9]）不能生成逼真且视觉上舒适的图像。我们的草图到图像生成的目标是自动生成手绘对象的照片图形图像。即使是绘制得很差的草图，也不允许在冗长的文本描述中指定可能很笨拙的内容另一方面，翻译应该尊重稀疏的输入内容，但可能需要形状上的一些偏差来生成逼真的图像。为了解决这些挑战，我们提出了一种新的上下文生成对抗网络，用于草图到图像的生成。我们提出的图像生成问题作为一个图像完成问题，素描提供了一个弱的上下文约束。图2说明了核心概念。在常规图像完成中，使用周围图像内容作为上下文来完成输入图像的损坏部分。在鸟完成示例中，未掩蔽的部分鸟特征是上下文信息。以此类推，在我们的联合存储信息组合中，“cor up t ed”部分的存储信息基于上下文GAN的草图约束图像生成3图3.第三章。图像生成任务中整个GAN频谱的图示我们的上下文GAN与无条件GAN和条件GAN形成鲜明对比，因为我们使用草图作为上下文（弱约束），而不是从噪声或硬条件中生成，这在以前的方法中没有得到很好的例如，通过为“集成”或生成photo ap i c o bi c t而输入的k e t chh来提供“c o n t e x t”。在这种方式中，我们将我们的目标从条件GAN（草图作为硬条件）中的常见图像到图像转换转变为在联合图像完成（草图作为上下文）中完成缺失的整个图像。请参考图3，以了解我们提出的上下文GAN和整个GAN频谱中的常见条件GAN之间的差异。基于这种新的联合草图图像完成的想法，我们提出了一个新的和简单的上下文GAN框架。生成对抗网络被训练以学习联合分布，并使用定义的联合图像捕获草图与其对应图像之间的固有对应关系该方法经由反向传播将“联合”图像编码为潜在空间中的“联合”为了推断最接近的映射，我们使用草图作为弱约束，并定义我们的目标函数，该目标函数由上下文损失和传统的GAN损失组成。我们还提出了一个简单的计划，更好地初始化的草图。这种新颖的方法具有几个优点：（1）没有单独的图像和素描学习领域;仅使用一个网络来理解作为单个图像的联合草图-图像对。这与只有草图被视为输入的图像翻译形成鲜明对比(2)通过使用弱草图约束，当与其输入边缘相关时，所生成的图像可以表现出超出输入草图的不同姿态和形状，这可能不严格地与草图约束相关。（3）从杂志的视点来看，因此，完全相同的草图到图像生成方法/网络可以用于反向或图像到草图生成。我们提出的框架是通用的，可以采用任何国家的最先进的生成模型。利用GAN进行图像完成[33]，我们提出了一个两阶段的方法来学习联合图像中固有的草图-图像对应关系以及施加弱草图约束。为了训练，网络使用未裁剪的联合图像来学习草图-图像对应关系。4Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐最后，我们搜索所提供的损坏图像的编码，其仅使用所述sketch ch来基于修改的目标来更新所述weeakc〇ntext以用于然后，通过将其馈送到生成器，该生成器从草图生成摄影对象，从而使用该编码来重建图像实验结果表明，我们的上下文GAN可以生成更真实和自然的图像比最先进的条件GAN具有挑战性的输入，例如。图1所示的绘制不佳的草图，同时产生与边缘对应于摄影对象的良好草图上的现有技术相当的结果2相关工作深度学习的快速发展已经解释了最近在图像生成方面令人兴奋的进展，特别是生成对抗网络（GAN）的引入[8]。然后将条件变量引入GAN [16，27，35]。与联合图像的上下文GAN相关的是具有感知和上下文损失的深度图像完成[33]。使用未损坏的数据进行预训练，G和D网络被训练以重建完整的图像。他们令人印象深刻的例子表明，即使是从输入中裁剪面部图像的大区域，生成的完整面部图像看起来也非常逼真。另一个令人印象深刻的图像完成工作[17]是基于具有标准重建损失和对抗损失的自动编码器。自动编码器也已成功应用于从视觉属性生成图像[32]。类似于图像完成，其中图像的未裁剪部分为面部图像完成提供适当的上下文，在我们的草图到图像生成中，输入的关键字被定义为用于完成联合图像的整个自然图像部分的“未裁剪的关键字”从草图生成图像的另一种方式需要从其中检索图像的巨大数据库。在[34]中，收集了草图-照片对的数据库，并使用深度学习来学习联合嵌入。Sketchy数据库[20]提供了一组草图-照片对，用于训练跨域CNN，以将它们嵌入同一空间。在最近的工作中，草图和图像之间的映射研究了基于草图的图像检索，其中草图和图像是在单独的网络中学习的。在[4]中，评估了几个三重CNN来测量草图和照片之间的相似性三元组网络用于学习联合嵌入。虽然提出了经典表示来从草图查询中检索图像[11，3，21]，但最近的方法使用了复杂的特征表示[6，22，5，19]。最近的跨域嵌入方法训练深度网络来学习草图和3D模型[25]以及图像和3D模型[14]的公共特征空间提出了用对比损失[7]和三重或排名损失[26]训练的连体网络另一方面，我们不需要这样的草图照片集合或将草图和图像视为两个独立的域，因为它们形成相同的联系。所有这些都是对潜在空间中的“累积”关节信息的有效编码，基于上下文GAN的草图约束图像生成53方法最近的语义修复工作将修复视为一个受约束的图像生成问题[33]，其中生成的内容应该与周围的像素对齐，同时基于观察到的上下文保持语义真实性。类似地，我们提出的图像生成问题作为一个图像完成问题，草图提供了一个弱的上下文约束。我们的深度模型建立在[18]中提出的GAN架构上，并进行了以下技术修订。3.1草图-图像联合表示草图到图像生成是一项重要的任务，因为草图通常是高度抽象的，具有稀疏的视觉内容，并且它们有时绘制得很糟糕而不是按照传统的方法分离草图和图像，我们建议他们在一个联合输入空间建模。具体地，基于包含具有真实图像（B）及其对齐的草图样式（A）的样本的语料库，我们在空间上将它们连接成联合草图-图像对（AB），如图2所示。在我们的框架中，联合图像自然地捕获上下文信息，即，该方法可以用于识别草图和图像部分之间的对应关系，这对于使用GAN学习它们的联合分布是有效的。具体来说，我们使用联合图像训练GAN模型，然后生成器根据相应草图部分的上下文自动预测损坏的图像部分。生成器将联合图像嵌入到非线性联合空间z上，即，z是草图和图像的联合嵌入，而在先前的工作中（例如，[36]）z只是图像的嵌入因此，不是直接用整个z约束生成的图像（硬约束），而是能够经由输入的联合嵌入z的草图部分间接地约束生成的图像，从而保持忠实，同时在输出图像的外观中表现出一定的自由度。图4示出了将在后续部分中详细描述的该流水线。3.2目标函数为了得到损坏的联合图像和重建的联合图像的最接近的映射，我们需要在草图部分最类似于输入草图的情况下对一个联合图像G（z）进行分离。给定随机采样的输入zpz，我们定义损失函数包含目标中的两个损失上下文丢失。我们使用上下文损失[18]来测量未损坏部分之间的上下文相似性，即，输入草图部分和重建草图，其被定义为：Lcontextual（z）=DKL（M⊙y， M⊙G（z））（1）其中，M是损坏的联合图像的二进制掩码，并且m表示Hadamard产生。与[18]不同，由于草图是二进制图像，而不是6Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐z(a) 优化初始化。（b）完井管道。图4.第一章上下文GAN管道。（a）B：红色框表示基于KL发散的更好的初始化（b）给定初始化B，我们对等式（1）中定义的损耗使用反向(3)以将损坏的图像A映射到潜在空间。映射的向量然后通过G网络以生成缺失图像C。与自然图像相比，我们使用KL散度来衡量两个草图分布之间的相似性，这往往会产生更好的对齐草图的。理想地，草图部分处的所有像素在两个像素之间是相同的。y和G（z），即，Lcontextual（z）=0，并且我们惩罚G（z）没有生成与观察到的输入草图y类似的草图。感知损失。感知损失保持预测图像的语义内容，其使用G网络的对抗性损失来定义Lperceptual（z）= log（1-D（G（z）（2）z的有效函数是两个操作的加权和：z=argmin（Lcontextual（z）+λLperceptual（z））（3）其中λ是用输入约束生成的图像的超参数小的λ将保证输入和输出的相似外观3.3上下文GAN我们的上下文GAN由训练阶段和完成阶段组成训练阶段与传统的GAN训练相同，除了我们的训练样本是联合图像。在训练之后，我们学习实现再现联合图像数据分布的目标的生成网络G，即，将样本从噪声分布pz映射到数据分布pdata。通过反向传播进行投影。我们的目标是对损坏的联合图像输入（即，已经被掩蔽的图像部分）到潜空间中G的流形上的最接近的图像，使得我们可以使用这个最接近的图像。基于上下文GAN的草图约束图像生成7图五、当使用反向传播更新潜在向量z时的流形遍历（如图所示具有四次迭代z（0）是通过我们的初始化方案挑选的随机噪声;z（k）不是k-h的整数;并且z（k）是f的整数。联合图像作为我们的预测结果。我们不是最大化D（y），而是计算在Eq中的z最小化函数或最小化函数。（三）、这意味着我们通过迭代反向传播将损坏的输入投影到生成器的z具体地，输入是用均匀随机噪声初始化的向量z，以及仅具有左侧的草图的联合图像，其中右侧的图像被掩蔽。我们在等式中反向传播损失。(3)以更新网络G的随机采样输入z。注意，在这个阶段中，只有输入向量z使用梯度下降更新，网络G和D的权重保持不变。图5提供了在反向传播期间遍历潜在空间的可视化请注意，[33]也在逆映射上采用了类似的梯度下降优化。在备份执行后，在应用程序的闭合映射向量z中的cor将被恢复，因为该空间是通过Gnetw或kgerateG（z）来实现的。在y（图像p或tion）的最小值中的剩余图像填充与G（z）：xgenerated=M⊙y+（1−M）⊙G（z）（4）初始化。我们使用均匀采样的噪声向量作为输入。一个明显的问题是生成的图像受到初始化的影响如果G（z）的初始化草图部分在感知上表现出与输入草图的大间隙，则将难以利用梯度下降将损坏的图像映射到潜在空间中的最接近的z这将导致失败样本，即使我们在等式中设置非常小的λ（三）、为了解决这个问题，我们如下改进初始化：我们对N个均匀随机噪声向量进行采样，并通过正向传递获得它们各自的初始化草图然后，我们计算输入草图与这N个初始化草图之间的成对KL散度给出最低KL散度的一个表示N个样本中的最佳初始化，并且将被用作初始化草图。该过程在图4中示出。我们在实现中设置N网络架构图6显示了完整的网络。在[18]之后，从-1到1均匀采样的100-D随机噪声向量被馈送到生成器G。然后，一个8192× 2的线性层将输入重塑为4× 8× 512。我们8Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐发电机：512256128643z8x1616x3232x6464x128G（z）鉴别器：假512256128643房4x88x1616x3232x64y64x128见图6。用于上下文GAN的G和D使用内核大小为5且步长为2的五个上卷积层。除了最后一层之外，我们在所有层中使用泄漏整流线性单元（LReLU）激活。最后，在输出层中应用tanh。这一系列上卷积和非线性对潜在空间进行非线性加权上采样，并生成64 ×128的更高对于鉴别器，输入是尺寸为64×128×3的图像，之后是所有层的4个卷积，其中保留了您的图像的尺寸，并且具体来说，我们添加4个卷积层，内核大小为5，步幅为2，以产生4×8×512的输出。然后，我们添加一个全连接层来将输出重塑为一维，然后添加一个softmax层来计算损失。3.4网络泛化真正的手绘草图表现出各种各样的风格，它可能是非常不同的合成草图自动生成的图像。为了提高网络的通用性，并避免过度拟合一些特定风格的草图-图像对，我们通过使用多种风格的草图作为训练集来增加我们的训练数据。具体来说，我们使用[29]中提出的XDoG边缘检测器，Photoshop中的影印效果[1]和[10]中提出的FDoG过滤器来产生不同风格的草图。为了更好地模拟手绘草图，我们还使用[23]简化了边缘图像。我们将每种风格的数据分为训练集和测试集，并训练不同的风格模型。我们不是从头开始训练所有的样式模型，而是首先获得预训练的XDoG样式模型。然后使用其他风格的草图对网络进行微调影印风格、简化和FDoG。原因是我们发现XDoG与原始摄影图像更相似，并且包含更多细节。这样才能保证网络首先使用良好的局部最小值进行训练，然后使用其他草图样式增强网络。我们在实验中表明，增强基于上下文GAN的草图约束图像生成9样式有助于更好地概括草图-图像对应关系，同时在外观上允许一定程度的自由。4数据集和实现在本节中，我们将描述在训练和实现中使用的数据集。我们使用3类图像测试了我们的网络：脸鸟车以来可用的草图数据集非常有限，我们应用了几种工具来从图像生成草图用于训练。我们从大规模CelebFaces属性（CelebA）数据集[15]、Caltech-UCSDBirds-200-2011[24]和Stanford' s C a r s D [ 13]中获得了原始面部、鸟类和汽车图像。4.1数据预处理对于人脸类别，CelebA数据集包含大约20万张图像。我们使用OpenFacedlib [2]裁剪并对齐面部区域。我们获得了400K图像，其中有2个不同的地标图用于对齐。我们生成三种样式最后得到了1200 K的人脸草图-图像对。对于鸟类类别，CUB-200-2011数据集只包含11个。7K原始图像。我们首先使用上述方法制作了三种风格的草图。为了尽可能地去除背景，我们根据注释的边界框裁剪对象和相应的草图。要扩充此数据集为了训练，我们随机地裁剪每个图像4个图像，并且将它们水平翻转。zontally。最后，我们获得了大约100K的鸟类素描图像对。对于该数据库，我们仅使用来自数据库的16K数据库CarsDataset [13]并生成一种风格的草图。4.2执行我们使用上下文GAN为每个类别预训练网络。我们使用Adam优化器[12]，学习率为0。0002和0的β。对于生成器和鉴别器网络两者，均为5。该网络的批量大小为64，epoch为200，根据训练集的大小，训练时间为6到48小时在获得XDoG风格的良好训练的模型然后，我们使用其他风格的草图在较低的学习R（e. G. ，1e-5）使用相同的网络结构来获得其他类型的模型。在完成期间使用上下文损失和具有0的λ的感知损失来更新输入z。01，动量为0。9.随机裁剪是在反向传播期间应用我们设置了一个相对较小的λ，因此上下文损失在测试时优化中更重要，以便生成的图像中的草图部分与输入草图最相似。在反向传播期间，发生器和鉴别器是固定的。对于实验结果，该更新可以在500次迭代中完成（损失等式（Eq. (3)收敛速度非常快，我们的细化初始化，通常在100次迭代后变得稳定，这需要1秒）。我们对所有三个类别使用相同的网络架构。10Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐5结果在本节中，我们将展示我们的实验结果和对上述基准数据集的比较。我们还使用我们认为非常丑陋的手绘草图来测试我们的上下文GAN。这些手绘草图从未出现在训练示例中。5.1基准数据集如上所述，我们首先在一种风格上使用我们上面描述的网络训练基础模型，即，XDOG样式，然后在其他样式上进行微调：影印效果和简化风格。与所有不同风格的训练相比，这种策略更有效。理想情况下，我们可以使用任意风格的草图生成图像，前提是预训练模型学习语义正确的内容以及忠实的对应关系。我们将使用网络上从未见过的手绘草图进行测试CelebA图7示出了我们在具有三种不同风格的CelebA数据集上的一些结果，这表明我们的方法可以成功地预测或“补偿”给定的未补偿或补偿的图像页面，并且得到与给定草图良好对应的高质量图像。请注意，生成的结果不仅从输入草图捕获重要细节并因此保持忠实于输入草图，而且与最先进的图像生成方法（诸如像素到像素方法[9]）相比，还在外观上表现出一定程度的自由度，在像素到像素方法[9]中，生成的结果严格符合输入草图的要求。CUB我们使用CUB鸟数据集进一步验证了所提出的框架的鲁棒性。与人脸和汽车相比，CUB鸟图像包含更多的纹理信息（例如，羽毛），这使得学习素描以及对应更加困难。为了消除负面影响，我们采用相对全变差平滑[31]对草图进行预处理，旨在将结构与纹理分离。然后，我们将它们与原始图像组合以形成我们的联合图像。结果示于图8中。为了证明我们的框架是通用的，可以应用于其他类别的图像，我们还在汽车图像上进行了测试。与人脸和鸟不同，汽车数据集更具挑战性，因为汽车的背景和姿势都很图9显示了使用我们的方法的采样结果请注意，前两个输入草图相同。然而，我们的网络能够生成两个不同的图像，即，输入草图仍然约束生成的汽车特征，但不要求它们与草图严格对齐。基于上下文GAN的草图约束图像生成11XDoGPCSIM见图7。CelebA数据集上三种草图样式的结果：XDoG，影印（PC）和简化（Sim）。最好用彩色观看。XDoGPCSIM见图8。三种草图样式中CUB数据集的结果：XDoG，影印（PC）和简化（Sim）。最好用彩色观看。见图9。FDoG样式的Car数据集上的结果。关于手绘草图的比较研究表明，我们的研究限制了我们的模型从（丑陋的）手绘草图生成图像的能力。我们收集了50个徒手素描的3个类别。每个草图都是在给定随机图像的情况下绘制的。我们将我们的结果与上下文编码器（CE）[17]和图像到图像翻译（pix2pix）[9]进行比较。图10展示了示例结果。为了公平比较，所有方法都使用默认参数设置使用相同的样式模型（人脸和鸟类数据集的简化，汽车数据集的FDoG）进行测试，而不对手绘数据进行微调12Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐输入CE pix2pix我们的输入CEpix2pix我们的输入CEpix2pix我们见图10。与CE [17]和pix 2 pix [9]进行比较，在三个不同的类上使用丑陋/绘制不佳的草图对于每组，从左到右：输入草图，CE结果，pix2pix结果和我们的结果。我们的方法是有弹性的损坏/抽象的输入质量差。最好用彩色观看。从图10中我们了解到，当直接应用于徒手草图而不进行微调时，pix 2 pix无法生成逼真的自然图像，因为输入的草图很丑/抽象。虽然它可以学习准确的语义内容，例如，眼睛、鼻子、嘴巴等，它倾向于严格遵循输入草图的形状，即使输出与学习的数据分布相距甚远，并且具有高对抗性损失（在我们的情况下，感知损失）。当涉及到汽车数据集时，CE甚至更糟。相比之下，我们的研究结果表明，所提出的框架是有弹性的损坏的输入质量差，我们设法将输入映射到最接近的z在潜在的空间，并使用这个最接近的向量来生成图像，反映输入草图的语义，同时看起来自然和逼真。请注意，pix2pix产生具有很小随机性的确定性输出，而我们的方法能够通过更新流形z来产生随机输出，这可能会捕获更完整的数据分布谱。图5通过提供在反向传播期间遍历潜在空间的可视化来给出证据（在第3.3节中详细描述）。5.2定量评价虽然我们在绘制糟糕的草图上明显优于CE [17]和pix 2 pix [9]5，但为了公平起见，我们进一步对良好的草图进行了两个定量实验，其中边缘与相应的照片图形对象对应得很好：（a）具有地面真实的SSIM;（b）面部验证准确性。两(a)和（b）在CelebA上用1000个测试图像进行评估。基于上下文GAN的草图约束图像生成13表1. CelebA测试集的SSIM和验证准确性。方法pix2pix [9] CE [17] 我们方法pix2pix [9] CE [17] 我们SSIM0.90120.5477 0.8856验证Acc.99.6997.19 99.80SSIM：结构相似性度量（SSIM）[28]用于测量生成的图像和地面实况之间的相似性。结果示于表1中。我们在典型草图上取得了与pix2pix相当的结果，比CE好得多。请注意，pix2pix和CE的输出严格遵循输入草图，如果输入草图绘制得不好，SSIM可能无法结合人类感知的测量。验证精度：这项研究的动机是，如果生成的面孔是合理的，它应该有相同的身份标签与地面真相。使用预训练的Light CNN [30]提取身份保留特征，并使用 L2 范数进行表 1 列出了结果：我们的表现优于pix2pix，这表明我们的模型不仅学会了捕捉重要的细节，而且对不同的草图更具弹性。5.3双向生成我们还提供了前向生成的比较，即，通过破坏草图部分来从图像当我们学习草图和图像的联合分布时，在我们的上下文GAN框架下，我们从草图生成图像还是从图像生成草图没有区别我们采用相同的网络架构（参见第3.3)和实施（见第二节）。4.2)就像在草图到图像的场景中一样，除了我们交换了草图和图像的角色作为训练和测试中的保持部分图11显示了从摄影图像生成草图的一些令人信服的结果，这也表明我们的模型可以学习草图与其对应图像之间的忠实对应关系。5.4限制虽然我们的上下文GAN对丑陋/抽象的草图有弹性，并且可以真实地生成在外观上表现出更多自由度的图像，但一个潜在的限制是，在面部方面，我们希望生成的图像可以保留输入草图的身份（即，代表同一个人）。然而，由于手绘草图的性质，在给定稀疏视觉内容的情况下，不能保证保持身份的面部生成此外，它可能无法识别与输入相关联的某些类型的属性。图12（a）和图12（b）可视化了输出缺少眼镜和胡须的两种情况，而它们在感知上总体上对应于它们的输入。我们相信，添加人脸属性等约束将更好地指导生成过程。我们主要关注我们提出的框架，并将其留给未来的工作。图12（c）示出了具有手绘面的不规则形状的另一个故障示例，其位于数据子空间之外，使得难以在潜在空间中找到最接近的映射14Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐见图11。逆生成。奇数列是输入图像，而偶数列是生成的草图。(a)(b)（c）第（1）款见图12。故障案例。(a)（b）缺少属性;（c）输入面的不规则形状。6结论和未来工作我们表明，草图到图像生成的问题可以制定为联合图像完成问题的草图提供完成的背景基于这一新颖的思想，我们提出了一个新的和简单的上下文GAN框架。生成对抗网络被训练来学习联合分布并捕获草图与其对应图像之间的固有对应关系，从而绕过跨域学习问题。该应用将“合并”联合图像编码为潜在空间中的“未合并”联合图像与端到端的方法相比，我们的方法是一个两阶段的方法，需要更长的推断时间在测试过程中。然而，两阶段方法允许我们分离训练和测试。在训练中，我们的生成器学习人脸、汽车和鸟类的自然外观，使得潜在空间中的任何噪声在测试中，虽然我们用三种不同的草图风格来增强草图绘制，但我们并不限制人类自由手绘严格遵循这三种增强风格。我们进行了彻底的实验，以证明所提出的框架的优点。在未来，我们计划研究更强大的生成模型，并探索更多的应用场景。虽然我们的输出忠实于输入草图，但新的定量测量可能需要被确定为基于确定（最差的）输入草图和我们生成的图像（例如，图像）的“精确”测量结果。图1），一个主题和困难的问题在其本身的权利。鸣谢本作品得到了腾讯优图的部分支持。基于上下文GAN的草图约束图像生成15引用1. 在 photoshop 中用一个步骤创建过滤图库影印效果。网址： //www.youtube.com/watch? v=QNmniB_5Nz02. Amos，B.，Ludwiczuk，B.，Satyanarayanan，M.：Openface：一个带有移动应用程序的通用人脸识别库。Tech.代表，CMU-CS-16-118（2016）3. Bimbo，A. D.，帕拉，P.：基于用户兴趣弹性匹配的可视化图像检索。IEEETrans.PattternAnal.Mach。我告诉你。19（2），121- 132（1997）。https：//doi.org/10.1109/34.574790，http://dx.doi.org/10.1109/34.5747904. Bui，T.，里贝罗湖Ponti，M.，Collomosse，J.P.：基于草图的视觉搜索的三重卷积网络的泛化和共享。 CoRR abs/1611.05301 （ 2016 ），http://arxiv.org/abs/1611.053015. 曹，X.，张洪，Liu，S.，郭，X.，Lin，L.：Sym-fish：对称感知翻转不变草图直方图形状描述符。In：IEEE ICCV（December 2013）6. 曹玉，Wang，C.，中国地质大学，张，L.，Zhang，L.：大规模数据库的边缘指数是一种重要的数据类型.In ：IEEECVPR. pp.761- 768（2011）。https：//doi.org/10.1109/CVPR.2011.5995460，http://dx.doi.org/10.1109/CVPR.2011.59954607. Chopra，S.，哈德塞尔河LeCun，Y.：有区别地学习相似性度量，其中PP是用于实现有效性的。 In：CVPR. vol. 第1页。 539- 546卷 1（2005年6月）。https://doi.org/10.1109/CVPR.2005.2028. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，C〇urville，A.， Bengio，Y. ：Genertiveadve rsarialnets. ^^2672- 2680（2014）、http://papers.nips.cc/paper/5423-generative-adversarial-nets。PDF9. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。在：CVPR（2017）10. 康，H.，Lee，S.，崔振光：连贯的线条画。在：ACM非质子交换膜和再生能源研讨会（NPAR）上。pp. 4311. 加藤，T.，栗田，T. Otsu，N.，Hirata，K.：一种基于可视化模板的全色数据库草图检索方法。In：ICPR.pp.530https://doi.org/10.1109/ICPR.1992.20161612. 金玛，D.P.， Ba，J.： Adam：随机最佳化的方法。Corrabs/1412.6980（2014），http://arxiv.org/abs/1412.698013. Krause，J.，斯塔克M. Deng，J.，李菲菲：用于细粒度分类的3D对象表示。在：2013年IEEE计算机虚拟现实国际会议上。pp. 554http：//doi.org/10。11 09/ICCVW. 2013年。7714. 李，Y.，Su，H.，Qi，C.R.，菲什，N.，Cohen-Or，D.，Guibas，L.J.：图像和图像的联合嵌入是基于图像处理的。 ACMTOG34（6），234：1-234 ： 12 （ 2015 ）。 https ： //doi.org/10.1145/2816795.2818071 ，http://doi.acm.org/10.1145/2816795.281807115. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性IEEE计算机视觉国际会议（ICCV）（2015年12月）16. Oord，A.v.d.，Kalchbrenner，N. Vinyals，O.，埃斯佩霍尔特湖格雷夫斯，A.，Kavukcuoglu，K.：用pixelcnn解码器生成条件图像第30届神经信息处理系统国际会议论文集。pp. 4797Curra nAssociateI nc.（2016年）17. P a th a k，D. ，Krahenbul，P.，别这样，杰，达瑞尔，T.， Efros，A. ：C〇ntextenc 〇der：通过修复进行特征学习。见：CVPR（2016）16Y. Lu，S.吴永伟<英>香港实业家。戴及郑坚唐18. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习CoRR abs/1511.06434（2015）19. Saavedra，J.M.，巴里奥斯，J.M.：基于草图的图像检索使用学习的keyshapes（lks）。In：BMVC.pp. 164 111号。BMVA压力（2015年5月）20. Sangkloy，P.，Burnell，N.哈姆角，澳-地Hays，J.：sketchy数据库：学习如何找回画得不好的兔子。电影ACM TOG（2016）21. Scaroff，S.：在im-a g e中编码形状类别的可变形原型他妈的。PR30（4），627（1997年）。http：//doi. 〇rg/10。1016/S0031-3203（96）00108-2，http：//dx.doi.org/10.1016/S0031-3203（96）00108-222. Shrivastava，A.，Malisiewicz，T.，Gupta，A.，Efros，A.A.：跨域图像匹配的数据驱动视觉相似性。ACM TOG 30（6）（2011）23. Simo-Serra，E.，Iizuka，S.，Sasaki，K. Ishikawa，H.：学习简化：用于粗略草图清理的全卷积网络。ACM TOG 35（4）（2016）24. Wah，C.，Branson，S.，Welinder，P. Perona，P.，Belongie，S.：Caltech-UCSD 鸟类 -200 -2011 数据集。 Tech. Rep. CNS-TR-2011-001 ， CaliforniaInstitute of Technology（2011）25. 王福，康湖，加-地李玉：使用卷积神经网络进行基于草图的三维形状检索。在：IEEE计算机视觉和图像处理会议论文集中。pp. 187526. 王杰，Song，Y.，Leung，T.，Rosenberg，C.王杰，Philbin，J.，陈伯，吴Y：通过深度排名学习细粒度图像相似性。在：CVPR中。pp. 138627. 王，X.，Gupta，A.：使用风格和结构对抗网络的生成图像建模In：ECCV（2016）28. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评估：从错误可见性到结构相似性。 IEEE Transactions on Image Processing13（4），60029. 温姆勒H、基普里亚尼季斯J.E.奥尔森S.C.：Xdog：一个前倾向高斯差分简编包括先进im-时代风格化ComputersGraphics36（6），740https://doi.org/http：//dx.doi.org/10.1016/j.cag.2012.03.004，http：//www. sciencedirect.com/science/article/pii/S009784931200043X30. Wu，X.，中国农业科学院，他河太阳，Z.，Tan，T.：一种用于带噪声标签的深度人脸表示的浅cnn。arXiv预印本arXiv：1511.02683（2015）31. 徐，L.，阎青，越-地夏，Y.，Jia，J.：基于自然变异测度的纹理结构提取。02 The Dog（2012）32. Yan，X.，杨杰，Sohn，K.，Lee，H.：属性2image：从视觉属性有条件地生成图像。欧洲计算机视觉会议。pp. 77602TheDog（2016）33. 是的，R.A.，陈春，Lim，T.Y.，Schwing，A.G.，Hasegawa-Johnson，M.，做，M.N.：基于深层生成模型的语义图像修复在：CVPR（2017）34. 余，Q，刘芳，SonG，Y.Z.，Xiang，T.，Hospedales，T.，Loy，C.C.：把那只鞋给我画出来。见：CVPR（2016）35. 张洪，徐，T.，Li，H.，Zhang，S.，（1991），中国农业科学院，黄，X.，王，X.，Metaxas，D.：Stack- gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成。In：IEEEInt. Co n f. 来吧。Visi〇n（ICCV）。pp. 590736. Zu，J. 是的， Kr¨ahenb u¨h l，P.， S hechtman，E.， Efros，A. A. ：Generativevis在自然图像流形上的u_i_l_a_ulation。在：欧洲计算机会议V i s io n. pp. 597 - 613 02TheDog（ 2016）

下载后可阅读完整内容，剩余1页未读，立即下载