没有合适的资源?快使用搜索试试~ 我知道了~
1草图素描+色彩Scribbler:用草图和颜色Patsorn Sangkloy1,Jingwan Lu2,Chen Fang2,Fisher Yu3,James Hays11佐治亚理工学院2Adobe Research3普林斯顿大学生成的结果图1. 用户可以绘制和涂抹颜色来控制深度图像合成。左边是从手绘草图生成的图像。在右边,几个对象已经从草图中删除,一个 花 瓶 已 经 添 加 , 各 种 场 景 元 素 的 颜 色 已 经 被 稀 疏 的 颜 色 笔 划 所 限 制 。 有 关 最 佳 分 辨 率 和 其 他 结 果 , 请 访 问scribbler.eye.gatech.edu摘要最近的几项工作使用了深度卷积网络来生成逼真的图像。 这些方法避开了传统的计算机图形渲染管道,而是通过从大量照片(例如,房间或卧室)。然而,这些方法的效用有限,因为用户很难控制网络产生什么。在本文中,我们提出了一种深度对抗图像合成架构,该架构以草图边界和稀疏颜色笔画为条件,我们展示了一个基于草图的图像合成系统,它允许用户在草图上涂鸦,以决定对象的首选颜色。然后,我们的网络可以生成令人信服的图像,满足用户的颜色和草图约束。该网络是前馈的,允许用户实时查看他们编辑的效果。我们比较最近的工作草图图像合成,论文和表明,我们的方法产生更逼真,多样化,可控的输出。该架构在用户引导的灰度图像着色方面也是有效的。1. 介绍最近,出现了许多基于神经网络的图像合成方法[41,25,12,37,21,13]。这些方法可以在许多领域生成详细和多样的(如果不是非常逼真的)图像。然而,目前还不清楚如何控制这些强大的新工具。我们如何才能让日常用户(非艺术家)利用深度图像合成方法的力量,并产生现实主义的图像?最近的几种方法已经探索了可控制的深度合成[8,50,55,14,56,18,46],我们关注两种互补形式的控制颜色笔画。 草图是一种引人注目的控制形式,因为任何人都可以绘制(可能非常糟糕),因为它很容易编辑草图,例如。以移除或添加对象,而图像域中的等效操作需要艺术专业知识。颜色是一种引人注目的控制形式,因为许多草图或灰度场景在颜色方面基本上是模糊的[54],但用户很容易干预,例如。潦草地写下窗帘应该是蓝色的,帷幔应该是红色的(图1)。这两种形式的控制都相对稀疏,需要一个深度网络来合成输入中包含的图像细节。 深度网络还必须隐式地学习大量的高级图像理解,例如。对于特定对象允许什么颜色、对象的边界使得颜色不会溢出到单个语义区域之外、以及对于不同场景元素的适当高频纹理。我们提出了一种深度对抗(GAN)图像合成架构,经过训练,可以从稀疏和简单的草图边界和颜色笔画生成逼真的图像我们在一组不同的合成草图上训练我们的网络,这些草图可选地用随机采样的颜色笔画进行增强。该网络学习恢复素描过程中丢失的颜色和细节,并将稀疏的颜色指示外推到语义场景元素。我们展示了三个领域的图像合成的定性结果-面孔,汽车和卧室。我们测试合成草图以及不完美的手绘草图。我们的方法类似于Sketch Inversion [14],它也从草图生成图像,尽管我们展示了对抗训练的好处,引入了颜色控制信号,展示了面部以外的图像域的结果,并证明用户可以对草图进行简单的编辑以控制合成。我们的控制信号54005401与Zhu et al相似。[56] -他们还证明了GAN可以受到草图和颜色笔画的约束。然而,我们的架构是从草图和颜色到图像的前馈映射,而朱等人。执行优化以将用户草图映射到潜在GAN空间中,以便在自然图像流形上找到最相似的图像(如GAN所理解的)。他们的方法在训练时看不到用户输入,因此无法学习用户输入和所需图像输出之间的复杂映射他们的方法也明显较慢,因为它不是一个严格的前馈过程,这阻碍了交互式图像编辑。Isolaet al.[18]这与我们的生活有很大的不同。这两种方法都使用条件GAN进行草图到照片以及灰度到颜色合成任务,尽管它们并不关注用户对合成的控制。本文的贡献包括:• 我们是第一个展示对抗性深度架构的人,它可以学习从带有稀疏颜色的草图中生成逼真的图像我们的前馈架构快速且具有交互性。• 与现有工作相比,我们提高了草图到图像合成的质量[14]。我们制作更高分辨率、更多样化的图像,涵盖更多图像领域(除了人脸之外,还有卧室和汽车)。• 我们的方法可以从不同的草图风格,包括不完美的人类草图或合成草图生成逼真的图像我们通过使用多种草图样式增强训练数据来实现这种通用性。• 最后,我们证明了我们的对抗体系结构也是有前途的图像着色。我们展示了令人鼓舞的结果,灰度到RGB转换,并介绍了可控的着色使用相同的稀疏的颜色笔画与草图。2. 相关工作通过从图像集合中学习来合成图像是计算机图形和视觉社区的长期兴趣。以前,最成功的方法往往是非参数方法,这些方法找到了重用现有图像片段的巧妙方法[30,9,15,22,6,3]。在过去的几年里,基于深度卷积网络构建的参数模型已经显示出了有希望的结果[12,8,37,21,13]。虽然深度图像合成方法还不能创建逼真的高分辨率图像,但它们具有隐含的泛化能力,这对于数据驱动的非参数方法(例如,根据其他椅子的外观变化产生幻觉的能力[8])。因为我们的视觉世界是非常复杂的(外观取决于关于视点、材料、属性、对象身份、照明等)而重尾非参数方法即使在“大数据”时代也是有限的。但是,深度图像合成方法可能会隐含地分解我们的视觉世界,从而推广到训练示例之外的情况。深度图像合成的常见方法是学习低维潜在表示,该低维潜在表示稍后可用于重建图像,例如,变分自动编码器(VAE)[21]或生成对抗网络(GAN)[12]。一般来说,深度图像合成可以基于任何输入向量[46],例如属性[50],3d视点参数和对象身份[8],图像和期望的视点[55]或灰度图像[54,17,23]。生成对抗网络(GANs)最有前途的深度图像合成技术之一是生成对抗网络(GANs)[12,37],其中生成网络试图欺骗同时训练的将图像分类为真实或合成的神经这个按钮阻止生成器生成明显的假图像。特别地,用于图像合成的直接回归损失通常导致“保守”网络,其产生接近于数据的平均值但在感知上不现实的模糊和去饱和的输出。经过训练,生成器网络能够从低维潜在输入空间生成不同的图像。尽管在该潜在空间中的优化可以用于“行走”自然图像流形(例如,对于图像编辑[4,56]或网络可视化[31,32]),空间本身在语义上没有很好地组织--潜在向量的特定维度不对应于语义属性,尽管将它们映射到中间结构图像[47]可以给我们更多的洞察力。条件GAN不是从潜在向量合成图像,而是探索条件GAN,其中生成器以更有意义的输入为条件,例如文本[39,38],低分辨率图像(超分辨率)[24,20]或不完整的图像(修复)[35,34,51]。条件GAN也被用于将图像转换为不同的领域,例如产品图像[52]或不同的艺术风格[27]。人们也可以condition上的特定输入,例如,Reed等人[39]将生成器和编译器都设置在输入文本的嵌入上,这使得编译器更强大。在本文中,只有我们的生成器是condi- tioned输入草图和颜色笔画离开discriminator辨别真假,而不是评估适当的输出给定的特定输入。控制深度图像合成最近的几个作品分享了我们的动机,即向深度图像生成添加用户可编辑控件控制信号的示例包括对象的3D姿态[8]、自然语言[39]、语义属性[50]、语义分割[5]和对象密钥。5402点和边界框[38]。Gatys等人的艺术风格转换方法。[11]也可以被认为是控制深层图像合成的机制。他们的方法不该方法对于需要合成真实细节的变换(例如,试图保持素描的“内容”和照片的“风格”)。最相似的可控深度图像合成方法是Zhu等人的方法。[56]其针对与位于学习的自然图像流形上的输入草图(可能具有颜色笔划)相似的图像进行优化。然而,当草图和图像显著不同时,识别在该流形内与草图内容相似的匹配图像可能具有挑战性。对于[ 56 ]中的然而,图像边缘不一定是人类草图笔划的良好代理[42],并且其方法没有能力学习用户输入和期望输出之间的映射。相比之下,我们的方法可以通过端到端学习草图反转[14]也与我们的工作密切我们将草图到照片的结果与草图反转进行比较。可控着色我们的颜色控制笔划受到使用优化的着色的启发[26],其内插稀疏颜色笔划,使得颜色变化倾向于发生在强度边界处。该算法不学习对象和颜色之间的关联,因此只能内插用户提供的颜色(例如,如果用户仅标记前景对象,则场景背景中的树将不是绿色的)。该算法也不会学习对象的空间范围,因此颜色可能会“捕捉”到虚假的边界,或者在不那么突出的边界上的弱强度边缘上溢出。我们的深度网络学习对象颜色趋势和对象范围,因此可以在没有颜色笔划或在场景元素的子集上使用颜色笔划的情况下对对象进行干净的着色(图1)。类似的控制笔划已经应用于素描和漫画图像[36,45],但结果仍然是非照片级的,缺乏照明和阴影。我们不知道稀疏涂鸦被用作深度生成网络的输入约束,尽管Scribble- Sup [28]使用稀疏涂鸦来监督语义分割网络的输出。涂鸦是训练数据,在测试时没有用户控件。并行工作与我们的工作并行,Isola等人的“pix2pix”方法。[18]还使用条件GAN进行草图到照片和灰度到颜色合成。此外,他们还探索了其他几个有趣的图像到图像的与我们的方法不同,他们使用他们在输入上同时调节生成器和控制器,而我们只调节生成器。他们的结果质量很高,即使他们的训练数据是简单的图像边缘,他们也能够从粗糙的草图合成鞋子和手袋相比之下,我们注意训练各种合成素描风格。我们的作品之间最显着的区别是,我们引入了稀疏的颜色控制笔划,并演示了如何训练网络,以便它学会智能地插值这些控制信号,而Isola等人。[18]不强调可控合成。3. 概述在本文中,我们将探索向生成神经网络添加直接和细粒度的用户控件。 我们提出了一个通用的前馈网络,可以进行端到端的训练,直接将用户我们提出的网络本质上是一个以控制信号为条件的深度生成模型。该网络学习从控制信号到像素域的变换。它学会以逼真的方式填充缺失的细节和颜色。第3.1节讨论了本文中介绍的所有应用程序共享的网络结构。第3.2节介绍了目标函数,特别是内容损失和对抗损失的组合,这鼓励结果是照片般逼真的,同时满足用户第4节和第5节展示了如何在建议的框架中实施两个不同的用户控件- 使用第6节在几个交互式应用程序中应用了所提出的框架。3.1. 网络架构我们设计了一个前馈神经网络,它以图像为输入,并生成一张相同分辨率的照片作为输出。当生成以同一域中的高维输入为条件的图像时(即,从图像到图像),通常采用编码器-解码器类型的网络架构,例如在草图反转[14]、图像着色[54,17]和草图简化[43]中。在一个典型的网络结构中,输入被下采样几次到较低的维度,然后经历一系列非线性变换,最后上升-5403w,w/2,h/2w,hw/8,w/4,3264128256 128 64 32图2.网络架构。对于生成器(顶部),我们遵循编码器-解码器设计,并且使用三个下采样步骤、瓶颈分辨率处的七个残差块和三个上采样步骤。残差块使用步幅1。下采样使用步幅为2的卷积。上采样使用双线性上采样,然后使用残差块。我们使用完全卷积网络来处理卷积(底部)。有关代码和架构的详细信息,请参阅scribbler.eye.gatech.edu采样到所需的输出大小。最近,他等。[16]提出了使用跳过层的剩余连接,允许网络块仅学习剩余分量。残差块的使用简化了更深层网络的训练,从而提高了神经网络处理更复杂任务的能力。我们采用了一个编码器-解码器架构与残留的- ual连接。从Sketch Inversion [14]中的网络设计开始我们尤其表示图像高级信息的预训练神经网络的训练层虽然像素和特征损失被广泛用于解释合成输出与输入的相关性,但单独使用它们通常不足以生成多样化的逼真图像。更重要的是,在我们的问题设置中,粗糙的用户控件的条件给我们留下了一个高度不适定的问题,其中潜在的解决方案空间是多模态的。因此,在只有像素和特征损失的情况下,网络倾向于对所有可能的解决方案进行平均,因为缺乏损失,从而推动了现实主义和多样性。对于像脸这样的图像类别,结果往往具有相似的肤色[14]。对于更复杂的类别,如汽车和卧室,其中前景和背景内容可以具有各种各样的形状和颜色,结果可能在视觉上不合理,因为网络选择中性图3中的第二行和第三行演示了这些问题。为了鼓励更多的变化和生动的结果,我们实验增加了一个对抗性的损失的目标函数。由Goodfellow等人[12]提出的生成对抗网络(GAN)最近引起生成网络Gθ与判别对抗网络Dφ联合训练,以便判别网络尝试区分生成的图像和地面真实图像,而生成器尝试欺骗判别网络,使其认为生成的结果是真实的。Dosovitskiy等人[7]表明,用对抗性损失补偿特征损失会导致更真实的结果。广告损失Ladv定义为:再增加一个上/下采样层,并将最后一个卷积层之间的所有卷积层中的滤波器ΣLadv=−logD φ(Gθ(xi))(1)下采样层和第一上采样步骤。此外,我们用双线性上采样步骤替换去卷积层,然后是两个残差块,因为最近发现去卷积层有可能产生在深度生成模型中常见的棋盘伪影[33]。总的来说,我们的架构有大约780万个可学习的参数,而我们实现的Sketch Inversion网络有大约170万个。请参见图2中的架构图。3.2. 目标函数给定成对的训练图像(输入,地面实况),其中输入图像从地面实况照片(在我们的情况下是合成生成的草图和彩色笔划)导出,最简单和最常见的损失是生成的图像和地面实况之间的平均每像素L2差,我们将其表示为Lp。以前的工作[14]表明,添加一个功能损失,对于图像生成任务是有益的。特征损失Lf被定义为L2差, 特征空间,其中特征是从cer中提取的我们发现对抗性损失也有利于我们基于草图的图像合成问题(图3)。通过对抗性训练,网络不太强调精确再现地面实况,而是专注于生成更逼真的结果,这些结果具有与地面实况的合理颜色和形状偏差。对抗训练往往是不稳定的,特别是在训练开始时,生成器没有产生任何有意义的东西,而训练器可以很容易地区分真假。我们发现,使用弱判别器Dφ有助于稳定训练。我们还避免了在输入图像上设置条件反射,因为这会增加不稳定性[35]。特别是,我们使用了一个完全卷积的结构,没有完全连接的层和批量归一化。第7节介绍了成功对抗训练的其他技巧。最后,我们还添加了总变化损失Ltv,以确保输出中的平滑性[19]。我们的最终目标函数变为:L=wpLp+wfLf+wadvLadv+wtvLtv(2)5404图3. 结果比较。从上到下:输入草图,内容丢失的草图反转,内容丢失的网络,内容丢失和对抗性丢失的网络4. 基于草图的照片合成在本节中,我们将探讨如何应用所提出的前馈网络来产生内容、颜色和纹理的幻觉,从而基于任意风格的输入草图来重建照片为了训练这样一个深度神经网络,我们需要大量的训练草图-照片对。虽然高质量的手绘草图在网上很容易找到,但根据草图绘制的相应照片却没有。因此,我们应用高质量的线条画合成算法来生成合成草图从照片。为了在测试时处理真实的手绘草图,我们对训练数据进行了各种数据扩充,以提高网络的通用性。在本文中,我们对三种图像类别进行了实验我们相信,所提出的框架可以很好地推广到其他类别,给出类似的训练数据量和训练时间。4.1. 训练草图的生成对于每个图像类别-训练期间的输入(和输出)分辨率为128x128。为了使网络对精确位置保持不变,我们随机裁剪输入图像和地面实况图像。对于脸部和卧室类别,我们首先将图像大小调整为256x256,然后随机将其裁剪为128x128。对于汽车类别,我们在裁剪之前将图像缩放到170x170,因为大多数汽车已经占据了很大的图像区域,将它们放大太多意味着失去了全球的空间布局和背景。除了随机裁剪,我们还随机调整草图的亮度级别,以从同一草图中获得不同级别的细节(即,某些草图线将在更高的亮度级别下消失)。最后,我们还通过在草图上覆盖随机数量的白色笔画(草图输入的背景颜色)来随机切断草图中的我们随机化白色笔画的长度,宽度和位置。4.2. 网络泛化真正的手绘草图展示了各种各样的风格,从抽象的钢笔和墨水插图到带有阴影的铅笔画。手绘草图的特征可能与我们通过算法生成的合成草图非常不同。即使有各种增强、随机裁剪、随机亮度调整和随机截止,训练过的网络仍然可能过拟合该特定风格的草图。为了提高网络的通用性,我们通过添加多种风格的草图来进一步增强对于人脸类别,我们获得20k个额外的图像,对于每个图像,我们随机选择以下四种算法之一来合成相应的草图。参见图4中的示例草图。• StyleNet[11]我们应用基于神经网络的风格转移算法将钢笔画的纹理风格转移到地面真实照片。• Photoshop滤镜[2]将Photoshop的“照片复制”效果应用风格迁移XDoGPhotoshop中大细节和笔触的黑暗。[Ulyanovetal. 2016][Holgeretal. 2012年][WangandTang2009]• 逆图像上的高斯模糊[1]使用Photo- shop,我们还可以通过在Photoshop颜色减淡模式下对逆(灰度)图像执行高斯模糊来合成另一种草图风格。这将创建图4.我们使用五种方法从照片中生成合成草图不同的算法。我们还包括并增加了一小组手绘草图-照片对,以帮助泛化网络来处理真实的手绘草图输入。带有很少阴影的详细线条图。• CUHK最后,我们添加了CUHK数据集,该数据集包含188幅手绘肖像素描及其相关内容。5405图5. 手绘测试草图的基于草图的照片合成。尽管素描风格多种多样,但我们的网络通常会产生高质量,多样化的结果。请注意输出中的肤色和头发颜色变化。有些输出是非照片级真实感的,因为它们在某种程度上忠实于漫画化的输入草图。不幸的是,某些结果具有不切实际的高低频对比度,并且看起来不自然。照片[48]为了给高质量的手绘草图赋予更高的权重,我们对草图应用了镜像和不同程度的旋转,最终得到了总共1869张图像。在这一点上,我们有21848图像的6种不同的素描风格。在XDoG风格的200k草图上进行了预训练,网络使用20k多风格草图进行了微调我们使用与之前相同的参 数 设 置 , 并 在 这 些 额 外 的 数 据 上 训 练 网 络 5 个epoch。4.3. 结果和讨论出于比较的目的,我们实现了[14]中描述的SketchInversion架构我们使用相同的训练数据和参数设置训练图3显示了Sketch Inversion(第二行)生成的结果的并排比较,我们的深度网络在三个不同的图像类别上进行了无对抗性损失(第三行)和有对抗性损失(第四行)的与草图反转相比,我们更深的网络即使没有对抗性损失,也能在复杂的卧室场景中产生更清晰的结果,并在用很少的线条绘制简化草图时更好地表现出缺失的细节(眼睛和眉毛的在对抗性损失的情况下,我们的网络被鼓励生成具有更清晰边缘、更高对比度和更逼真色彩和照明的图像。如3.2节所述,对抗性损失有助于网络产生更多样化的结果,避免总是为肖像画产生相似的肤色和头发颜色,以及为卧室和汽车产生沉闷和不现实的颜色。图5显示了结果中不同的头发颜色和肤色。在这三个图像类别中,卧室可以说是最具挑战性的,因为每个卧室场景都可以包含多个对象类别。事实上,我们目前的网络仅用20万训练数据就成功地处理了它,这让我们相信训练一个一般草图的可能使用更深层次的网络跨多个图像类别的照片网络。在使用多种草图样式和各种数据增强进行训练后(第4.2节),我们的网络在输入任意手绘草图的情况下生成更逼真的结果。图5显示了基于Google搜索找到的草图的重建结果。请注意,这些草图是以不同的风格绘制的,有些是详细和现实的,有些是抽象和简化的。结果表明,我们的网络可以很好地推广到任意手绘草图,并且对头部姿势,背景颜色和纹理的变化具有鲁棒性。数据增强,如随机裁剪和截断,也有助于我们的网络幻觉丢失的细节。图5(右下)显示了网络可以在一定程度上填补缺失的眼睛。然而,生成缺失的对象部分本身就是一个挑战,因此我们认为它超出了本文的范围。用对抗性损失训练的网络具有交互行为。当将其应用于具有夸张面部特征的卡通或非专业草图时,该网络倾向于例如,大得不像人的眼睛会被缩小到真实的大小,或者形状怪异的脸会被平滑和为了产生逼真的结果,网络学习不盲目相信草图输入,而是使用其对对抗训练期间获得的自然图像流形的理解。5. 用户引导的着色上一节重点介绍了使用灰度草图来指导彩色照片的生成。由于输入中缺少颜色信息,导致问题无法确定,因为一个草图可以对应于以许多不同方式着色的照片虽然使用5406图6.卧室(左)和汽车(右)测试草图的引导草图着色结果如果没有颜色笔画,我们的网络会产生与输入草图(最左边的一列)密切相关的结果通过颜色笔画,我们的网络调整结果以满足不同的颜色约束。请注意,第四个和第五个卧室的草图被编辑为在墙上添加一个框架图片和一盏灯,只使用简单的用户编辑。对抗性损失将输出约束为位于自然图像的近似流形上,因此限制了颜色选择。仍然由生成器来选择特定颜色。在本节中,我们将探索如何允许用户直接控制输出中的颜色。我们修改了网络的输入,以便在训练过程中包含粗略的颜色信息(第5.1节)。我们研究在两个应用程序中添加颜色控件:引导草图着色(第5.2节)和引导图像着色(第5.3节)。5.1. 训练颜色笔划的生成控制着色结果的最直观的方法之一为了训练网络在测试时识别这些控制信号,我们需要为训练数据合成颜色笔划。我们根据地面实况图像中的颜色生成合成笔划。为了模拟任意的用户行为,我们模糊了地面实况图像,并在随机位置对随机数量的随机长度和厚度的彩色笔划进行采样。我们在笔划起始点选取地面实况像素颜色作为笔划颜色,并继续增长笔划,直到达到最大长度当增长一个笔划时,如果当前像素颜色和笔划颜色之间的差异超过某个阈值,我们将使用在当前像素处采样的新颜色重新开始笔划通过随机化各种笔画参数,我们能够合成类似于用户在测试期间绘制的颜色笔画。5.2. 引导草图着色这里的目标是将颜色控制添加到基于草图的图像合成管道中。我们之前的目标函数仍然成立:我们希望输出具有与输入相同的内容(像素和特征损失),并且看起来真实(对抗损失)。像素损失在这里是必不可少的,因为它迫使网络通过对颜色笔画进行更多的关注来更精确地处理颜色。我们通过在输入的草图上放置颜色笔画来我们(一)(b)第(1)款(c)(d)图7. 引导图像着色:a)灰度输入,b)原始彩色图像,c)深着色结果[54],d)第一和第三行:覆盖在输入顶部的彩色笔划(放大以查看彩色笔划)。第二和第四行:着色结果。然后像以前一样训练网络,使用强调内容损失和不强调对抗损失的参数设置,以便结果更好地满足颜色约束(第7.2节)。图6显示了基于输入草图和颜色笔划重建卧室和汽车场景的结果。请注意,笔画的颜色与地面实况图像中的颜色偏离很大,然而,网络能够将输入颜色传播到尊重对象边界的相关区域。5.3. 引导图像着色最近的工作[17,54]探索了为图像着色任务训练深度神经网络模型然而,输出中颜色的选择完全取决于网络.在本节中,我们将研究使用颜色笔画(第5.1节)来指导着色过程。我们通过从地面实况照片中提取单通道灰度图像并将其与包含彩色笔划的三通道图像相结合来生成训练数据。图7示出了汽车图像上的各种着色结果。给定一个灰度图像,我们的系统根据在随机位置用不同颜色绘制的笔划合成真实的汽车请注意,大多数行程都放在车身上,因此不会影响车身。5407图8. 交互式图像编辑。用户可以逐步修改草图以更改眼睛、头发和头部装饰。其他区域的颜色。由于对抗训练,天空是蓝色的,树木是绿色的,而不管前景物体的颜色。在内部,网络学习识别语义内容,因此可以在相关区域中放置正确的颜色,同时尽可能满足用户约束6. 交互式图像生成工具我们的网络在20 ms内将分辨率为256x256的输入草图转换为类似照片的结果。在图像生成和编辑应用程序中进行增量编辑后,实时性能可实现即时视觉反馈。使用草图和颜色笔画来加强细粒度控制对于一些设计应用程序很有用。例如,室内设计师可以快速勾勒出物体的大致形状,指定各个区域的颜色,并让我们的系统填充缺失的细节和纹理,以生成一个合理的卧室场景。在看到结果后,设计师可以交互式地修改对象的形状和颜色,并获得即时的图6说明了潜在的设计工作流程。同样,汽车设计师可以遵循类似的工作流程来设计新车,并在不同的背景设置中测试外观。我们的肖像合成系统可以成为艺术家设计虚拟角色的工具(见图8)。 基于初始设计,可以改变眼睛和/或发型的形状,添加眼镜和/或头部装饰等。除了设计之外,肖像重建技术对于foren-sic目的也是有用的,例如。[14]第十四话:7. 网络培训详细信息由于对抗训练的不可预测性,我们发现将训练分为两个阶段是有帮助的。7.1. 优化内容丢失在第一阶段,我们将等式2中的对抗权重wadv设置为0,并让网络专注于最小化内容损失,这是像素和特征损失的组合为了使用输入的草图强制执行细粒度控制,我们选择VGG-19的ReLU 2 -2层net [44]来计算特征损失,因为更高级别的特征表示往往会鼓励网络忽略重要的细节,例如瞳孔的确切位置。我们将像素损失和特征损失的权重wp、wf设置为1,并且将TV损失的权重wtv设置为1 e-5。在进入训练的第二阶段之前,我们使用32的批量大小训练网络大约3个epoch。7.2. 增加对抗性损失考虑到网络已经针对内容丢失进行了预训练,我们会针对不同的应用程序使用不同的丢失设置对其进行对于从灰度草图的照片重建(第4节),我们关闭像素损失,保持特征损失,并添加对抗损失,其中 权 重 设 置 如 下 : wf=1 , wp=0 , wtv=0 ,wadv=1e8。 对于彩色应用(第5节),我们强调特征和像素损失,并不强调对抗性损失,以便输出更好地遵循颜色控制,wf= 10,wp=1,wtv=0,wadv=1e5。我们使用1 e-5和1 e-6之间的学习率,在我们的生成网络旁边训练对抗8. 结论和未来工作在本文中,我们提出了一个深度生成框架,使两种类型的用户控件来指导结果生成-使用草图来指导高层次的视觉结构和使用稀疏的颜色笔画来控制颜色模式。尽管有希望的结果,我们目前的系统suf- fers从几个限制。首先,我们有时会观察到不同颜色的物体部分或区域之间的模糊边界,这会降低再现的整体真实感结果。图6显示了汽车结果中的颜色泄漏问题,其中汽车引擎盖的颜色其次,我们的系统在严格遵循颜色/草图控制和最小化对抗损失之间挣扎。换句话说,对抗性损失禁止生成的图像呈现不寻常的颜色和形状。如果用户指定了一种罕见的颜色,例如,紫色代表汽车,红色代表树木,我们的网络将把它映射到一种被对抗性损失认为更真实的不同颜色。展望未来,我们想研究如何通过鼓励清晰的颜色边界和找到系统的方法来处理罕见的控制信号来改善结果致谢这 项 工 作 得 到 了 泰 国 皇 家 政 府 奖 学 金 PatsornSangkloy , NSF CAREER 奖 1149853 给 James Hays ,NSF奖1561968和Adobe礼品基金的支持。5408引用[1] 将照片转换为线条画。www.youtube.com/watch? v=Gyu2yPwiQvA,2012年。5[2] 创建过滤器画廊影印效果与一个单一的步骤在pho-toshop。www.youtube.com/watch? v=QNmniB 5 Nz 0/,2016年。5[3] C. Barnes , E. Shechtman , A. Finkelstein 和 D. 戈 德 曼Patchmatch:一种用于结构图像编辑的随机对应算法。ACM图形汇刊-TOG,28(3):24,2009. 2[4] A. Brock,T. Lim,J. M. Ritchie和N.韦斯顿 使用内省对抗网络进行神经照片编辑。ArXiv电子印刷品,9月2016. 2[5] A.尚潘达 语义风格转换和把不起眼的涂鸦变成精美的艺术品。arXiv预印本arXiv:1603.01768,2016。2[6] T. 陈 文 M. Cheng , P. Tan , A. Shamir 和 S.- M. 胡Sketch2photo:互联网图像蒙太奇。ACM Transactionson Graphics(TOG),28(5):124,2009。2[7] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。在NIPS,2016年。4[8] A. 多索维茨基Tobias Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。IEEE计算机视觉与模式识别会议(CVPR),2015年6月。一、二[9] A. A. Efros和T. K.梁非参数采样纹理合成。计算机视觉,1999年。第七届IEEE国际会议论文集,第2卷,第1033-1038页,第2卷,1999年。2[10] M. Eitz、J. Hays和M. Alexa人类如何绘制物体?ACM事务处理图表,31(4),2012年7月。3[11] L. A. Gatys,A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在IEEE计算机视觉和模式识别会议集,第2414-2423页,2016年。三、五[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展,第2672-2680页,2014年。一、二、四[13] K.格 雷 戈 尔 岛Danihelka , A.格 雷 夫 斯 D.J.Rezeland,以及D.维尔斯特拉Draw:用于图像生成的递归神经网络。ICML,2015。一、二[14] Y. Gu?c?l u?t u?rk,U. 居克卢乌河 vanLie r和M. A.vanGer-ven.卷积草图反演。在2016年的ECCV VISART研讨会上,计算机视觉与艺术相遇。一二三四六八[15] J. Hays和A.A. 埃夫罗斯使用数百万张照片完成场景在ACM SIGGRAPH 2007论文,SIGGRAPH2[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2016年。4[17] S. Iizuka、E. Simo-Serra和H.石川让我们有颜色!:联合端到端学习全局和局部图像先验知识的自动图像彩色化,neous 分 类 ACM Transactions on Graphics ( Proc. ofSIGGRAPH 2016),35(4),2016. 二、三、七[18] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。arxiv,2016. 一、二、三[19] J. Johnson,A. Alahi和L.飞飞实时风格转换和超分辨率的 感 知 损 失 , 第 694- 711 页 Springer InternationalPublishing,Cham,2016. 4[20] C. Kaae Sønderby,J.卡瓦列罗湖 Theis,W. 诗以及F. Hus za'r.图像超分辨率的摊销MAP推断ArXiv电子印刷品,2016年10月。2[21] D. P.Kingma和M.威林自动编码变分贝叶斯。在2014年的国际学习代表会议(ICLR)上。一、二[22] J. - F. 拉隆德湾Hoiem,A.A. 埃夫罗斯角罗瑟,J。Winn和A. 天 啊 照 片 剪 贴 画 。 ACM Transactions on Graphics(SIGGRAPH 2007),26(3):3,2007年8月。2[23] G. Larsson,M. Maire和G.沙赫纳洛维奇学习自动着色的表示在欧洲计算机视觉会议(ECCV),2016年。2[24] C. 莱迪格湖 的i s,F。 Hus za'r,J. Cabal lero,A. Ait ken,A. Te-jani,J.Totz,Z.Wang和W.石使用生成对抗网络 的 照 片 般 逼 真 的 单 幅 arXiv 预 印 本 arXiv :1609.04802,2016。2[25] H.利河,巴西-地格罗斯河Ranganath和A. Y. Ng.卷积深度信念网络用于分层表示的可扩展无监督学习。在第26届机器学习国际年会上,ICML '09,第609-616页,2009年。1[26] A. Levin,D. Lischinski和Y.韦斯使用最佳化着色。在ACM图形学报(TOG),第23卷ACM,2004年。3[27] C. Li和M.魔杖利用马尔可夫生成对抗网络进行预计算实时纹理2016年欧洲计算机视觉会议(ECCV)。2[28] D. Lin,J. Dai,J. Jia,K. He和J.太阳 Scribble- sup:用于语义分割的Scribble-supervised卷积网络。在IEEE计算机视觉和模式识别会议(CVPR),2016年。3[29] Z. Liu,P. Luo,X. Wang和X.唐在野外深度学习人脸属性。在国际计算机视觉会议(ICCV)的会议记录中,2015年。5[30] L. McMillan和G.主教全光建模:一个基于图像的渲染系统.在第22届计算机图形和交互技术年会的会议记录中,SIGGRAPH'95,第39-46页,1995年。2[31] A. 阮 A. 多索维茨基 J. Yosinski T. 布洛克斯,还有J. Clune通过深度生成器网络合成神经网络中神经元的首选输入。神经信息处理系统进展29. 2016. 2[32] A. Nguyen,J. Yosinski,Y. Bengio,A. dosovitskiy和J. Clune即插&即用生成网络:潜空间中图像的条件迭代生成。在arXiv预打印。2016. 2[33] A. Odena,V. Dumoulin和C. 奥拉 Deconvolu和棋盘形工件。distill.pub/2016/deconv- checkerboard/,2016. 45409[34] A. v. d.奥德湾Kalchbrenner和K. Kavukcuoglu像素递归神经网络。第33届国际机器学习会议论文集,ICML2016,2016。2[35] D. Pathak,P. Kr aehenbuhl,J. 多纳休,T. Darrell和A.埃夫罗斯上下文编码器:通过图像修复进行特征学习。2016. 二、四[36] Y. Qu , T.- T. Wong 和 P. - A. 衡 漫 画 着 色 。 ACMTransactions on Graphics(SIGGRAPH 2006 issue),25(3):1214-1220,2006年7月。3[37] A.拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv:1511.06434,2015。一、二[38] S. Reed,Z.Akata、S.莫汉,S.滕卡湾schiele和H.李你学习在哪里画什么。在NIPS,2016年。二、三[39] S. Reed,Z.Akata,X.延湖,澳-地洛格斯瓦兰湾schiele和H.李你生成对抗文本到图像合成。第33届国际机器学习会议论文集,2016年。2[40] O.龙内贝格山口Fischer和T.布洛克斯U-Net:生物医学图像分割的卷积网络,第234-241页。2015. 3[41] R. Salakhutdinov和G.辛顿深层玻尔兹曼机。在国际人工智能和统计,第5卷,第448-455页,2009年。1[42] P. Sangkloy,N.伯内尔角Ham和J. Hays。 sketchy数据库:学习如何找回画得不好的小圆面包。ACM图形汇刊(会议录)GRAPH),2016. 3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功