基于GAN的交互式草图到图像转换

177 浏览量更新于2023-10-12 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

篮球足球西瓜橙Cookie月亮草莓菠萝蛋糕炸鸡1交互式草图填充：多类草图到图像转换1RichardZhang 2Puneet K. Dokania1Oliver Wang2Alexei A. Efros 2，3Philip H. S. Torr1EliShechtman21牛津大学2Adobe Research3加州大学伯克利分校交互式草图填充类条件下的轮廓到图像的翻译图1：（上）给定稀疏的用户输入（第一行），我们的模型估计完整的形状，并将其作为推荐提供给用户（以灰色显示），以及最终合成的对象（第二行）。这些估计值会随着用户添加（绿色）或删除笔划（红色）而更新-以前的编辑以黑色显示。（下）这种生成是有类条件的，我们的方法能够为同一轮廓生成不同的多个对象（例如，‘circle’) by conditioning the generator on the object摘要我们提出了一种基于GAN的交互式草图到图像转换方法，可以帮助新手用户轻松创建简单对象的图像。用户从稀疏草图和期望的对象类别开始，然后网络推荐其合理的完成并显示相应的合成图像。这就形成了一个反馈回路，用户可以根据网络的建议编辑草图为了使用一个单一的模型，广泛的对象类，我们引入了一个基于门控的方法，类条件，这使我们能够生成不同的类，没有功能混合，从一个单一的生成器网络。1. 介绍基于条件GAN的图像翻译[25，43，61]模型在获取抽象用户输入方面取得了显着的成功，例如边缘图或语义段。图，并将其转换为真实的图像。这些方法以交互速率运行，并且将它们与用户界面相结合允许用户快速创建有趣的（但通常是不现实的）图像。一些限制阻止它们被用作帮助用户生成他们心目中的对象的图像的真正的交互式工具。首先，要求用户提供整个抽象图作为输入（全边缘或标签图）。这对许多人来说可能很困难，因为未经训练的从业者通常难以徒手绘制物体及其部件的准确比例[6]，3D形状和透视[45]。使用当前的图像转换方法，通过编辑现有图像[8，40]来获得逼真的图像要比从头开始创建图像容易得多。其次，目前基于GAN的图像翻译方法仅限于单一类别的图像。例如，从猫切换到狗需要为每个类加载（或存储在内存中）一个新模型。我们提出了一种新的基于GAN的交互式图像生成系统，用于绘制对象：1）仅在给定稀疏和部分用户笔划的情况下生成完整图像（或11711172草图）; 2）用作推荐系统，其在用户的创造过程期间建议或帮助用户，以便生成期望的图像;以及3）使用具有有效选通机制的用于多个图像类的单个CONSTRUCTURAL GAN。这样的系统允许来自用户的创造性输入，而使准确的对象比例正确的挑战性任务留给模型，该模型不断预测用户草图的合理完成（图12）。①的人。我们使用稀疏对象轮廓/草图/简化边缘而不是密集边缘图作为用户输入，因为这些更接近新手用户倾向于绘制的线条[7]。我们的模型首先完成输入，可以是部分轮廓线或边缘，然后生成以完成的形状为条件的图像。这种两阶段方法有几个优点。首先，我们能够在我们的交互界面（类似于ShadowDraw [31]）中为艺术家提供关于一般对象形状的反馈，使他们能够快速优化完成的形状，直到满意为止其次，我们发现这比直接从部分轮廓到图像更有效，因为对完整轮廓/草图的额外中间监督将问题分解为两个更容易的子问题对于第二阶段，多类条件生成，我们使用的门控机制的输入类标签的条件。简单地说，门控允许网络专注于特定于条件类的网络的重要部分（激活）。这样的方法允许类的干净分离，使我们能够在多个对象类中训练单个为了证明我们的方法作为基于笔划的图像生成的交互工具的潜力，我们收集了十个简单对象类（菠萝、足球、篮球等）的新图像数据集。白色背景。为了对我们的门控机制进行压力测试，六个对象类具有类似的圆形轮廓，因此模型真正取决于类标签，并且不能仅从笔划中找出类图2示出了使用我们的系统的交互式编辑会话的短视频除了这些简单的对象，我们还展示了我们的方法在复杂对象（如面部和鞋子）上的潜力2. 相关工作交互式生成交互式界面的自由手绘可以追溯到伊万萨瑟兰与我们最相关的预深度工作ShadowDraw [31]引入了为新手用户生成多个阴影的概念，以便能够绘制草图。PhotoSketcher [13]介绍了一种基于检索的方法，用于从草图中获取真实图像。最近，深度递归网络已被用于生成草图[18，14]。Sketch-RNN [18]提供了部分笔划的完成，具有在训练时通过Quickdraw数据集获得中间笔划信息的优势SPI- RAL [14]使用一种增强学习方法来学习生成数字和面部。Zhu等人[60]训练生成模型和基于优化的接口，以在给定颜色或边缘约束的情况下生成可能的图像。该技术仅限于一个类，并没有提出一个建议的形状完成。Sketchy- GAN [3]也旨在生成多类图像，但缺乏交互能力。与上述方法相比，我们的方法为用户提供了形状和外观的交互式预测，并支持多个对象类。生成式建模图像分布的参数化建模是一个具有挑战性的问题.经典的方法包括自动编码器[21，54]和玻尔兹曼机[47]。更现代的方法包括自回归模型[12，51]，变分自编码器（VAE）[28]和生成对抗网络（GAN）。GAN和VAE都通过网络的前馈通道从随机采样的低维“潜在”代码学习到高维图像的映射GAN最近取得了成功[9，41，1]，混合模型的特点是从图像到潜在空间的学习映射以及对抗训练[10，11，30，4]。上述方法可以通过低维向量（诸如对象类或噪声向量）、高维图像或两者来调节。Isola等人[25]提出“pix2pix”，建立条件GAN对图像到图像翻译任务的一般有用性。然而，他们发现通过注入随机噪声向量来获得多模态是困难的，结果在[33，38，62]中得到证实。这是模式崩溃[16]的一个例子，这是一种在图像到图像GAN中特别普遍的提出的解决方案包括更好地调节优化的层，例如频谱归一化[58，35]，对损失函数的修改，例如WGAN [2，17]或优化过程[20]，或建模建议，例如MAD-GAN [15]和MUNIT [24]。一种建模方法是将来自输出的预测器添加到条件，以阻止模型忽略条件。这已经在辅助分类器GAN（ACGAN）[36]中的分类设置以及InfoGAN [4]和ALI/BiGAN（“潜在回归”模型）[ 11，10 ]的回归设置中我们探索了一种通过门控进行架构修改的补充方法。门控机制剩余网络[19]，第一介绍-1173图2：我们的界面视频我们可以看到两个版本的界面。左侧显示了用户如何使用几笔快速生成多个对象，而右侧显示了多模态完成的实用性，用户可以在绘制时快速探索不同的可能形状生成。请使用Acrobat Reader查看。输入笔划生成轮廓生成图像示例真实轮廓示例真实图像真的还是假的？用于生成最终图像的外观生成器GA以及对手鉴别器DS和DA。示例使用如图2中的用户界面所示。二、3.1. 形状完成形状完成网络GS应当基于用户输入向用户提供其完成的形状的可视化，并且应当继续更新所建议的形状。图3：我们的两阶段方法首先，我们完成一个使用形状生成器GS的部分草图。然后我们转-使用外观生成器GA将完成的草图延迟成图像。两个生成器都用它们各自的鉴别器DS和DA来训练。用于图像分类[29]，已经使得非常深的网络可以训练。 Veit等人[53]发现，体系结构中的跳过连接使得能够在测试时移除块。后续工作[52]在训练期间建立块移除，目标是将块的子集专门化到不同的类别。受这些结果的启发，我们提出了使用门控图像生成，并提供了一个系统的分析门控机制。自适应实例规范化（AdaIn）层也类似地用于任意风格转换[23]和图像到图像转换[24]以及逐行线性调制（FiLM）[39]。这两种方法都基于高维条件（例如图像或自然语言问题）来缩放和移动特征分布门控在自然语言处理的顺序模型中也起着重要作用：[ 22 ][23][24][25][26]类似地，并发工作[27]，[37]使用AdaIN风格的网络来调节生成器参数。3. 方法我们将交互式图像生成的问题分解为两个阶段：从稀疏的用户草图完成对象形状，以及从完成的形状合成外观。更具体地，如图1B所示。3我们使用形状生成器GS进行自动形状（轮廓/稀疏草图/简化边缘）生成和以交互方式创建形状。为此，我们采取了一种数据驱动的方法，为了训练网络，我们通过从完整轮廓/完整稀疏草图/完整简化边缘中删除随机方形补丁来模拟部分笔画（或输入）的贴片有三种尺寸（64×64，128×128，192×192），并放置在尺寸为256×256的图像中的随机位置（见图1）。5为例）。把技术扩展到-远的轮廓，并产生更多的人一样的草图，我们采用图中所示的多阶段程序。六、我们将这些生成的草图称为我们以这种方式自动生成数据，创建一个数据集，其中对于给定的完整轮廓/草图或简化的边缘图，创建75个不同的输入。该模型，如图。3，基于[ 34 ]中用于非图像条件生成的架构。我们修改了架构，使调节输入提供给发电机和多个尺度，如图所示4.第一章这使得条件输入成为生成过程的活跃部分，并有助于产生多模态完成。3.2. 外观合成一个理想的交互式草图到图像系统应该能够用一个生成器生成多个不同的图像类。除了内存和时间考虑（避免每个类加载/使用单独的模型，减少整体内存），单个网络可以共享与跨类常见的轮廓识别和纹理生成相关的特征，这有助于每个类使用有限的示例进行训练。正如我们稍后所展示的，通过级联的类调节可能无法正确地调节当前图像翻译网络中的类信息[25，62]。$S真实或假的？$##GSG1174输入部分轮廓已完成的输出大纲阴影（平均轮廓）下采样输入Latentz图4：第一阶段（形状生成器）为了实现多模态补全，形状生成器使用非图像条件模型[34]的迭代设计，条件输入以多个尺度提供，因此生成器网络纲要模拟部分输入更大的块，它可以预测接近零的α，并有效地关闭层。在训练期间，主网络内的块可以以各种方式变换图像，并且F可以调制，使得选择最有用的块。与以前的特征图调节方法如AdaIn [50]，我们将门控应用于生成器图5：模拟输入，用于模拟部分轮廓。图6：简化的边缘第二个边缘图是使用[25]的技术获得的，而第三个是使用[32]的中间边缘图，并使用[46]进一步简化，看起来更接近人类的草图。为了解决这个问题，我们提出了一种有效的软门控机制，如图所示。7.第一次会议。从概念上讲，我们的网络由一个小型外部门控网络组成，该网络以对象类为条件（编码为1-hot向量）。门控网络输出用于修改主发电机网络的特性的参数。给定输入特征张量Xl，X1+ 1=X1+ H1（X1）。（一）通过在残差块之前上采样或在残差块之后下采样来获得分辨率的改变请注意，我们从这一点开始省略l下标以减少混乱。我们门控网络使用学习网络F（y）为网络的每一层增加预测标量α，其中y是条件向量：X+αH （ X ），其中 α∈[0 ， 1]（2）如果条件向量y对一个特定的和鉴别器。这使得迭代器能够根据类输入选择有效判断世代是一些块可以跨条件向量中的区域共享，而其他块可以专门用于给定的类。一种更强大的方法是使用向量α逐通道地应用该加权：X+α<$H（X），其中α∈[0，1]c，（3）其中，k表示逐通道乘法。这允许特定的通道被提供额外的自由度。我们发现，这种用于门控的通道方式提供了最强的结果。AdaIn描述了在缩放和移动特征分布之前应用实例归一化[50]（IN）操作的情况。我们约束每个元素[1]中的α和β。我们还探索了在软门控之后对偏置项进行量化，无论是逐块使用每层标量β∈[−1，1]，还是逐通道使用每层矢量β∈[−1，1]c，但我们发现它们没有多大帮助，因此我们将它们排除在最终模型之外。各种浇口的图示见图8。最后，我们描述了我们的网络体系结构，其中uti-对上述门控残差块进行量化。我们将我们的架构基于来自MUNIT [24]的所提出的残差编码器-解码器模型该架构由3个conv层、8个残差块和3个up-conv层组成残差块具有256个通道。第一，我们深化网络，基于更深的网络所具有更多有效的不相交的部分共享路径[53]，并添加24个残差块。为了使更多的剩余1175一y门控参数$#简单串联（仅输入）$#朴素级联（所有层）Concat+辅助分类器/潜在回归器$#门控调节[我们的]房/假的门控参数门控条件判别器[我们的]我们的模型对生成器和鉴别器的所有残差块使用门控，其他形式的调节，例如（仅输入中的朴素级联，所有层，AC-GAN等潜在回归器[36]）也被评估。香草（无调节）门控（+Shift）自适应实例归一化通道选通（+Shift）双通道选通图8：使用修改的残差层注入调节（左）没有调节的（左中）H（X）块通过标量参数α和移位β进行软门控。（中）自适应实例归一化[23]在实例归一化层之后应用通道缩放和移位（右中）通道选通增加了对α范围的限制。（右）我们发现，通道式门控（没有添加偏置）根据经验产生最佳结果。训练任务FID面临部分简化边缘→图像383.02部分简化边缘→简化边缘→图像374.67鞋部分简化边缘→图像170.45部分简化边缘→简化边缘→图像154.32表1：单级生成，2级与1级。我们从不同的任务管道评估结果的质量。块，我们大大减少了每层的宽度为32个通道。我们将这个网络称为SkinnyResNet。此外，我们发现将下采样和上采样块修改为残差连接也改善了结果，并且还使我们能够将门控应用于所有块。当使用门控时，门预测网络F（y）也使用残差块来设计额外建筑细节在补充材料中。4. 实验我们首先比较了我们在现有数据集（如UTZapposShoes数据集[57]和CelebA-HQ [26]）上生成交互式图像的两步方法最先进的技术，如pix2pixHD [55]用于从自动完成的草图生成最后，我们在一个多类数据集上评估了我们的方法，我们收集了这些数据集来测试我们提出的门控机制。4.1. 单类生成数据集我们使用edges 2shoes [25]，CelebA-HQ[26]数据集来测试我们在单类生成上的方法。我们训练任务平均访问部分边缘→图像73.12%部分轮廓→图像88.74%部分轮廓→完整轮廓→图像[我们的]97.38%表2：多类生成，2阶段与1阶段。我们从不同的任务管道评估结果的质量准确度是由一个固定的，预先训练的分类网络，计算所得的图像。简化边缘以尝试更接近地类似于人类将如何通过首先使用[32]的预处理代码来绘制笔划，进一步使用草图简化网络来减少笔划[46]。架构我们使用第3.1节中描述的架构来完成形状。在这种情况下，每个数据集只包含一个类，因此我们可以使用现成的网络，例如pix2pixHD [56]进行渲染。结果参见图9、我们的两步技术允许我们可以从部分笔画中完成简化的边缘图，并从自动完成的简化边缘生成逼真的图像。表1还表明，在两个数据集（脸部和鞋子）上，使用两步程序产生的结果比直接从部分草图映射到完整图像更强。一y一y一$#y&%损失$#y4（）⍺64（）⍺ β4（）∈[0，1]4（）⍺β在4（）1176图9：草图&填充进度示例。第一行表示在画布上逐步添加新笔划，第二行显示自动完成的草图，第三行是最终生成的图像。随着稀疏笔画被用户改变，完成的形状和生成的图像也会演变请注意，局部更改笔划会在图像的其他部分产生一致的更改方法SkinnyResNet加密课AMT傻瓜。课AMT傻瓜。加速[%]速率[%]加速[%]速率[%]架构对于形状完成，我们使用第3.1节中的架构。对于类调节图像生成，测试第3.2节中的门控架构。地面实况100.0 50.0 100.0 50.01代/类97.017.7±1.46电容（In）62.6 15.0±1.4 39.2 7.5±1.06Concat（所有）64.5 15.3±1.41 51.4 5.4±0.88Cat（In）+E-Class 65.6 14.5±1.5Cat（All）+Cat-Class 67.0 19.7±1.42BlockGate（+bias）89.6 19.6±1.34BlockGate99.617.3±1.61AdaIn 94.5 14.9±1.47ChanGate（+偏倚）94.1 14.8±1.43ChanGate97.023.4±1.9992.7 14.1±1.48表3：多类轮廓→图像任务的准确性与真实性。我们使用预训练的网络来测量生成精度。我们用真实与真实来衡量现实主义。AMT的假法官越高对双方越好。我们的SkinnyResNet架构优于编码器-解码器网络，灵感来自MUNIT [24]。我们执行一个彻底的消融我们的架构，并发现通道明智的门控实现了高精度和更高的现实主义。4.2. 多类生成数据集为了探索我们的完整管道的有效性，我们引入了一个新的大纲数据集，该数据集由10个类中的每个类的200个图像（150个训练，50个测试）组成所有的图片都有一个白色的背景，并收集使用搜索关键字在流行的搜索引擎。在每个图像中，我们获得图像的粗略轮廓。我们找到最大的斑点在图像中的年龄阈值后，它成一个黑白图像。我们填充最大斑点的内部孔，并使用SavitzkyGolay滤波器获得平滑轮廓[44]。结果为了测试自动完成的形状的保真度，我们评估了训练的分类器的准确性，能够正确地标记特定的generation。我们首先在表2中测试我们的2阶段技术优于1步生成。我们在两个轴上评估多类轮廓到图像生成的结果：坚持条件反射和现实主义。我们首先测试条件坚持-网络是否生成正确类的图像。现成的网络以前曾用于评估着色[59]，街道场景[25，56]和ImageNet生成[42]。我们采用类似的方法，并为我们的10个类微调预训练的InceptionV3网络[49]。然后用该网络测试各代的分类精度。结果见表3。为了判断生成质量，我们还使用Amazon MechanicalTurk（AMT）执行“可视化图灵测试”。土耳其人看到一个真实的图像，然后是一个生成的图像，反之亦然，并要求识别假的。一个能产生逼真图像的al-taxm会“愚弄”土耳其人，让他们我们使用[59]中的实现。结果示于表3中，定性实例示于图3中。10个。门控架构我们将我们提出的模型与残余编码器-解码器模型[24]进行比较。此外，我们将我们提出的门控策略和SkinnyRes-Net架构与以下用于条件图像生成的方法进行比较：1177输入编码器-解码器Concat（输入）Concat（所有）篮球足球西瓜橙色Cookie月亮草莓菠萝纸杯蛋糕炸鸡通道-门图10：调节进样比较。我们使用Skin-nyResNet架构在轮廓→图像任务上显示了跨方法的结果。Concat经常会混淆类，例如橘子和篮球，而门控机制（例如ChannelGate方法）则会成功。门控方法还改善了编码器解码器架构的结果。Concat（In）公司简介Concat（所有）公司简介瘦ResNet阻止-栅极频道-栅极BlockGate(with偏ChnGate(with偏Adain地面实况每-类Concat（输Concat（全1178图11：从部分轮廓到图像的直接映射我们提出的系统使用2阶段方法，使用完成的边缘图作为中间。在这里，我们展示了从部分轮廓直接映射到图像时的结果。当轮廓定义良好时，网络可以生成逼真的图像。然而，当轮廓稀疏时，网络会与几何结构斗争。图12：多类草图填充结果几个输入笔划（第一行）就足以自动完成类特定的轮廓（第二行）和外观（最后一行）。• 每类：每个类别一个生成器;这是具有多个网络的唯一测试设置，所有其他设置都训练单个网络• Concat（In）：朴素串联，仅输入层• Concat（All）：朴素串联，所有层• Concat（In）+Aux-Class：我们添加一个辅助分类器，用于仅输入和所有层设置• BlockGate（+Bias），BlockGate：逐块软门控，带和不带偏置参数• AdaIn：自适应实例规范化• QuadelGate（+Bias），通道软门控：通道方式软门控，带和不带偏置参数朴素连接是否有效地注入条件？在图10中，我们显示了从10个类别中的每一个中选择的示例。每个类的基线通常都遵循条件，因为每个类都有自己的网络。然而，当单个网络被训练成生成所有类时，对于任一网络和任一类型的级联，朴素级联不能成功地注入类信息对于EncoderDecoder网络，basketball、橙子、纸杯蛋糕、菠萝和炸鸡都彼此混淆。关于SkinnyResNet网络中，生成的是橙子而不是篮球，菠萝和炸鸡腿也被混淆了。如表3所示，当级联所有层时，分类准确度略高（64. 5%）与仅输入层（62. 6%），但两者都很低。门控是否有效地注入调节？另一方面，使用所提出的软门控导致成功的世代。我们在Skin-nyResNet上测试了软门控的变体，准确性大大提高，在89. 6%至99。6%，与每个班级使用单个发生器（97. 0%）。在门控机制中，我们发现通道乘法产生最真实的图像，实现AMT愚弄率为23。百分之四有趣的是，愚弄率高于每类生成器17。百分之七。定性地说，我们注意到每类生成器有时会在后台显示伪像，如在“月亮”的生成中所见。我们假设在正确的条件反射机制下，跨多个类的单个生成器具有看到更多训练数据并找到跨类的共同元素（例如干净的白色背景）的益处。门控是否跨体系结构有效？如表3所示，使用通道选通而不是朴素关联可以提高整个架构的准确性和真实性。例如，对于编码器/解码器架构，门控使得能够成功生成菠萝。无论是定量还是定性，我们提出的SkinnyResNet架构的结果都更好。世代是否会归纳出不寻常的轮廓？训练图像由对应于每个类的几何形状的轮廓组成。然而，一个有趣的测试sce- nario是该技术是否推广到看不见的形状和类的组合。在图1中，我们展示了一个输入圆不仅产生了圆形的对象，比如篮球、西瓜和饼干，还产生了非圆形的对象，比如草莓、菠萝和纸杯蛋糕。请注意，即使轮廓中没有任何关于这些部分的结构指示，也会生成菠萝顶部和底部5. 讨论我们提出了一个两阶段的交互式对象生成的方法，围绕一个形状完成中介的想法。这一步既使训练更加稳定，也允许我们向用户提供粗略的几何反馈，他们可以根据自己的意愿选择整合。确认AG、PKD和PHST得到了ERC资助ERC- 2012-AdG、EPSRC资助Seebibyte EP/M013774/1、EP- SRC/MURI资助EP/N 019474/1的支持，并希望了解皇家工程院和FiveAI。部分工作是在AG在Adobe实习时完成的1179引用[1] 我的天Arj o vs k y和L e'onBottou。这是训练生成对抗网络的原则性方法。在ICLR，2017。2[2] M. Arjovsky，S.Chintala和L.博图Wasserstein ganICML，2017. 2[3] 陈文玲和詹姆斯·海斯。写生：从写实写生到影像合成.在IEEE计算机视觉和模式识别会议论文集，第9416-9425页，2018年。2[4] X. Chen ，Y. 段河，巴西 - 地Houthooft ， J. 舒尔曼岛Sutskever和P.阿比尔Infogan：通过信息最大化生成对抗网络进行可解释表示学习。NIPS，2016年。2[5] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。EMNLP，2014年。3[6] 戴尔·J·科恩和苏珊·贝内特。为什么大多数人不能画出他们所看到的？实验心理学杂志：Human Perception and Performance，23（3）：609，1997.1[7] ForresterCole、AlekseyGolovinskiy、AlexLimpaecher、HeatherStoddartBarros、AdamFinkelstein、ThomasFunkhouser和SzymonRusinkiewicz。人们的界限在哪里？ACM Transactionson Graphics（TOG），27（3）：88，2008. 2[8] Tali Dekel，Chuang Gan，Dilip Krishnan，Ce Liu，andWilliam T Freeman.稀疏的智能轮廓来表示和编辑图像。在IEEE计算机视觉和模式识别会议论文集，第3511- 3520页，2018年。1[9] Emily L Denton、Soumith Chintala、Arthur Szlam和RobFergus。使用对抗网络的拉普拉斯金字塔的深度生成图像模型。2015年，在NIPS中。2[10] Je f fDonahue ， PhilippK raühenbühl ，和 Tr ev 或Darrell。对抗性特征学习。ICLR，2017年。2[11] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。ICLR，2017年。2[12] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。载于ICCV，1999年。2[13] Mathias Eitz ， Ronald Richter ， Kristian Hildebrand ，Tamy Boubekeur，and Marc Alexa.摄影素描师：交互式基于草图的图像合成。IEEE Computer Graphics andApplications，31（6）：56-66，2011. 2[14] 雅罗斯拉夫·甘宁，特哈斯·库尔卡尼，伊戈尔·巴布施金，SM·埃斯拉米和奥里奥尔·维尼亚尔斯。使用强化对抗学习合成图像程序。ICML，2018。2[15] Arnab Ghosh ， Viveka Kulharia ， Vinay Namboodiri ，PhilipH. S. Torr和Puneet K Dokania.多智能体多样性生成对抗网络。CVPR，2018年。2[16] 伊恩·古德费洛。Nips 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160，2016年。2[17] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在NIPS中，第5767-5777页，2017年。21180[18] David Ha和Douglas Eck。草图的神经表征。神经信息处理系统会议，2017年。2[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。二、四[20] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年。2[21] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络降低数据的维数。Science，313（5786）：504-507，2006. 2[22] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。3[23] Xun Huang和Serge J Belongie.实时任意样式传输，具有自适应实例规范化。在ICCV，第1510-1519页，2017年。三、五[24] Xun Huang，Ming-Yu Liu，Serge Belongie，and JanKautz.多模态无监督图像到图像翻译。ECCV，2018年。二三四六[25] P. Isola，J-Y. Zhu，T. Zhou和A.埃夫罗斯使用条件对抗网络的图像到图像翻译。CVPR，2017年。一、二、三、四、五、六[26] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。ICLR，2018年。5[27] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。CVPR，2019年。3[28] D. Kingma和M.威林自动编码变分贝叶斯。ICLR，2014年。2[29] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS，第1097-1105页，2012中。3[30] Anders Boesen Lindbo Larsen，Søren Kaae Sønderby，Hugo Larochelle，and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。InICML，2016.2[31] Yong Jae Lee ， C Lawrence Zitnick ， and Michael FCohen. Shadowdraw ：手绘的实时用户指导。ACMTransactions on Graphics（TOG），第30卷，第27页。ACM，2011年。2[32] Yijun Li ， Chen Fang ， Aaron Hertzmann ， EliShechtman，and Ming-Hsuan Yang.Im2pencil：可控铅笔插图从照片。在IEEE计算机视觉和模式识别会议论文集，第1525-1534页四、五[33] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。ICLR，2016年。2[34] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？ICML，2018。三、四[35] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida. 生成式对抗网络的谱归一化。ICLR，2018年。21181[36] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成ICML，2017. 二、五[37] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。CVPR，2019年。3[38] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。CVPR，2017年。2[39] 伊森·佩雷斯，弗洛里安·斯特鲁布，哈姆·德·弗里斯，文森特·杜莫林，和亚伦·库维尔.影片：具有一般条件层的视觉推理。AAAI，2018年。3[40] Tiziano Portenier ， Qiyang Hu ， Attila Szabo ， SiavashArjomand Bigdeli，Paolo Favaro，and Matthias Zwicker.Faceshop ：基于深度草图的面部图像编辑。 ACMTransactions on Graphics （ TOG ）， 37 （ 4 ）： 99 ，2018。1[41] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016. 2[42] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术NIPS，2016年。6[43] Patsorn Sangkloy，Jingwan Lu，Chen Fang，Fisher Yu，and James Hays. Scribbler：使用草图和颜色控制深度图像合成。在CVPR，第2卷，2017年。1[44] Abraham Savitzky和Marcel JE Golay。用简化的最小二乘程序对数据进行平滑和微分分析化学，36（8）：1627-1639，1964。6[45] Ryan Schmidt ， Azam Khan ， Gord Kurtenbach ， andKaran Singh.论三维曲线绘制任务的专家表现。在第六届欧洲图形学研讨会关于基于草图的接口和建模的会议中，第133ACM，2009年。1[46] Edgar Simo-Serra，Satoshi Iizuka，Kazuma Sasaki，andHi-roshi Ishikawa.学习简化：用于粗略草图清理的全卷积网络。ACM Transactions on Graphics（TOG），35（4）：121，2016。四、五[47] 保罗·斯摩伦斯基动力系统中的信息处理：和谐理论的基础。技术报告DTIC文件，1986年。2[48] 伊万·E萨瑟兰速写垫一个人机图形通信系统。在SHARE设计自动化研讨会论文集，DAC1964年，美国纽约州ACM。2[49] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR，第2818-2826页，2016年。6[50] D Ulyanov，A Vedaldi和VS Lempitsky。实例规范化：快速风格化所缺少的成分corr abs/1607.0（2016）. 4[51] Aaronvanden Oord ， NalKalchbrenner ， LasseEspeholt，Oriol Vinyals，Alex Graves，et al.条件图像生成与pixelcnn解码器。在NIPS，2016年。2[52] Andreas Veit和Serge Belongie。具有自适应推理图的卷积网络。ECCV，2018年。3[53] Andreas Veit，Michael J Wilber，and Serge Belongie.剩余网络表现得像是相对较浅的网络的集合在NIPS，第550-558页，2016中。三、四[54] Pascal Vincent ， Hugo Larochelle ， Yoshua Bengio ，Pierre-Antoine Manzagol.使用去噪自动编码器提取和合成鲁棒特征。InICML，2008. 2[55] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。5[56] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。CVPR，2018年。五、六[57] Aron Yu和Kristen

下载后可阅读完整内容，剩余1页未读，立即下载