用户自定义GAN：用草图定制GAN模型

70 浏览量更新于2023-10-13 收藏 3.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1z原始模型中的样本zG→G绘制您自己的GAN王胜宇1鲍大卫2朱君燕11卡内基梅隆大学2麻省理工学院CSAIL新型号的样品新型号的样品（a）用户草图（b）使用人类草图定制GAN图1.使用一个或多个人类草图自定义GAN。我们的方法采用一个或几个手绘草图（a）并修改现成的GAN以匹配输入草图（b）。相同的噪声z用于原始模型G和修改的模型G’两者。虽然我们的新模型改变了对象摘要用户可以通过绘制单个示例来创建深度生成模型吗？传统上，创建GAN模型需要收集大规模的样本数据集和深度学习的专业知识。相比之下，素描可能是传达视觉概念的最普遍的方式在这项工作中，我们提出了一种方法GAN Sketching，用于用一个或多个草图重写GAN，使GAN训练更容易为新手用户。特别是，我们根据用户草图改变原始GAN模型的权重。我们鼓励模型此外，我们探索了不同的正则化方法，以保持原始模型实验表明，我们的方法可以塑造GAN以匹配草图指定的形状和姿势，同时保持真实感和多样性。最后，我们展示了一些应用程序的GAN，包括潜在的空间插值和图像编辑。1. 介绍像GANs这样的深度生成模型的力量和前景[19]在于它们能够以最小的用户努力合成无休止的由于近年来大规模生成模型[30，6，49，47]的质量和分辨率的提高，这些模型的潜在效用继续增长尽管如此，高质量生成模型的训练需要高性能的计算平台，使得该过程对于大多数用户来说遥不可及此外，培训14050z原始模型中的样本zG→G14051高质量的模型需要昂贵的大规模数据收集和仔细的预处理。常用的数据集，如ImageNet [12]和LSUN [64]，需要人工标注和手动过滤。专门的FFHQ Face数据集[29]需要精细的面部对齐和超分辨率预处理。此外，技术上的努力也不是微不足道的：开发高级生成模型需要专家团队的领域知识[52，30]，他们通常在特定数据集上的单个模型上投入数月或数年。这就引出了一个问题：普通用户如何创建他们自己生成模型？用猫创建艺术品的用户可能不想要猫的通用模型，而是想要处于特定期望姿势的特殊猫的定制模型：或近，或近，或近。为了获得这样一个自定义模型，用户必须策划数千张向左倾斜的猫图像，然后找到专家投入数月的时间进行模型训练和参数调整吗？在本文中，我们提出的任务，创造一个gener- ative模型，从只是少数手绘草图。自从Ivan Sutherland的SketchPad [ 57 ]以来这一传统在基于草图的图像合成和3D建模领域得到了延续[26，10，27]。但是，而不是从草图创建单个图像或3D形状，我们希望了解是否有可能从手绘草图创建逼真图像的生成模型与基于草图的内容创建不同，其中输入和输出都是2D或3D视觉数据，在我们的情况下，输入是2D草图，输出是具有数百万个不透明参数的网络，这些参数控制算法行为以制作图像。我们问：有了这样一个不同的输出域，我们应该更新哪些参数，以及如何更新？我们如何知道模型的输出是否在本文中，我们的目标是回答上述问题，开发一种方法来定制生成模型，以少量的草图样本由用户提供为了实现这一点，我们利用现成的生成模型预先训练的大规模数据，并设计一种方法来广告-只是一个子集的模型权重，以匹配用户的草图。我们提出了一种新的跨域模型微调方法，鼓励新模型创建的图像，类似于一个用户的草图，同时保留的颜色，纹理和背景的原始模型。如图1所示，我们的方法可以改变对象的姿态和放大猫的脸，只有四个手绘草图。我们使用我们的方法来创建几个新的定制GAN模型，我们表明，这些修改后的模型可以用于几个应用程序，如生成新的样本，两个生成的图像之间的插值，以及编辑自然照片。我们的方法需要最小的用户输入。而不是通过手动过滤和图像对齐，用户只需要提供一个或几个样本草图，我们的方法有效地工作。最后，我们对我们的方法进行基准测试，以充分表征其性能。代码和模型也可以在我们的网页上找到。2. 相关作品基于草图的图像检索与合成。检索类似于人类素描的图像已经得到了广泛的研究，包括依赖于特征描述符的经典方法[15，8，55，36]，以及最近的深度学习方法[65，53，37，45，50]。上述基于草图的图像检索（SBIR）技术已经为基于草图的3D建模系统（例如，Teddy [26]）以及图像合成系统，包括Sketch 2 Photo[10]和Photo-Sketcher [16]。这些开创性的作品进一步激发了基于图像到图像转换的深度学习解决方案[27，73 ， 60] ，如 Scribbler [54] ， SketchyGAN [11] ，SketchyCOCO [18]以及基于草图的面部和头发编辑[44，41]。其他相关工作包括草图识别[14，66]和草图生成[20]。总的来说，上述方法使得新手用户能够合成单个自然照片。在这项工作中，我们希望采用相同的直观界面来重写生成模型。一旦完成，所得到的模型可以产生无限数量的类似于输入草图的新样本。该模型可进一步用于随机采样、潜在空间插值以及自然照片编辑。内容创建的生成模型。经过多年的发展，深度生成模型能够生成高质量，高分辨率的图像[19，29，6，31]，为广泛的计算机视觉和图形应用提供动力。最近的例子包括图像投影和GAN编辑[72，5，1，71，51，43]，图像到图像转换，[27，38，42，33]，模拟到真实[48，56]，和域适应[17，59，23]。生成模型的进步是以密集计算[6，30]，大规模高质量数据集[12，64，29]的构建以及模型训练[52，30]的领域专业知识为代价的因此，最近的先进模型往往是在拥有丰富计算和人力资源的研究实验室中开发与以往的工作不同，我们的目标是帮助新手用户快速自定义自己的模型，而无需繁琐的数据收集和领域知识。我们使用一个草图接口和我们的跨域微调方法来实现它。与我们的工作类似，模型重写[4]旨在通过用户交互来改变预训练模型的规则。与模型重写中使用的对象复制和粘贴工具相比，我们的草图界面提供了新的功能。例如，与从不同图像中查找部件并将其合成在一起相比，通过快速草图来描述对象形状、姿势和场景布局要容易得多模型微调。为了训练新数据集的GAN模型，14052LLXYX →Y∼∼X Y研究人员已经使用迁移学习微调了预训练的生成器和预训练对的权重[13，67]。微调可以从零开始改进训练[63]，但它也很容易在新的训练数据上过拟合。为了避免过度拟合，一些研究小组建议限制模型权重的变化：Batch Statistic Adaptation保留除批次统计之外的所有权重[40]; Freeze-D冻结鉴别器的层[39]; AdaFM保留生成器层[68]; MineGAN在改变潜在采样时保持权重[62];弹性权重合并[32]基于Fisher信息[ 35 ]保留权重。另一种技术是数据增强，已被证明对小规模数据集有效[69，28，58，70]。与上述作品不同的是，我们的目标不是微调权重来学习草图的模型。相反，我们的目标是使用户能够创建一个新的逼真图像模型，该模型建立在预先训练的GAN的颜色，纹理和细节的基础上，由用户指定的对象形状和草图姿势指导。3. 方法两个约束使得从用户草图创建GAN模型具有挑战性首先，由于我们的目标是简化生成模型的用户创建，因此我们必须仅利用要求用户提供数百或数千张草图是不合理的;相反，我们的目标是能够使用最少一张草图创建其次，由于我们的目标是合成逼真的图像，而不需要用户创建逼真的图像，用户提供的草图不是从目标域绘制的。训练数据（即，草图）和模型输出（即，图像）使我们的问题设置与传统的GAN训练目标（直接匹配训练数据）在我们的设置中，目标是创建一个逼真的照片模型，其中形状和姿势由草图指导-但输出是逼真的图像，而不是草图。为了克服上述挑战，我们使用域转换网络引入了跨域对抗损失（第3.1节）。不幸的是，简单地使用这种损失会戏剧性地改变模型的行为，并产生不切实际的为了保留原始数据集的内容及其多样性，我们在应用图像空间正则化的同时进一步训练模型（第3.2节）。最后，为了缓解假房假房图2.培训程序。我们的培训包括两个主要部分。（a）草图：草图鉴别器DY在伪草图和用户草图之间进行分类。使用预先训练的映射网络F[34]将我们的模型G（z;θ′）的输出转换为假草图。（b）图像：图像IDDX在假图像和真实图像之间进行分类。从原始模型G（z;θ）的训练集中采样真实图像。希望创建新的GAN模型G（z;θ′），其输出图像仍然遵循相同的数据分布，而输出图像的草图版本类似于Y的数据分布。先前的几次拍摄GAN算法在这种设置中无法工作，因为用户没有提供来自新数据集的为了解决这个问题，我们利用了一个跨领域的图像翻译网络，从图像到草图.该网络可以使用输入-输出对（例如照片及其草图版本）进行训练或者，它可以通过非配对学习来学习[73，24]。一旦映射网络经过预训练，我们就不需要在模型创建期间使用草图-图像地面实况对。为了弥合草图训练数据和图像生成模型之间的差距，我们引入了跨域对抗损失[19]，以鼓励生成的图像与草图匹配。在进入鉴别器之前，生成器的输出通过预先训练的图像到草图网络F被转换成草图。模型过拟合，我们将更新限制在特定层，并在3.3节中使用数据增强。Lsketch=Eyp数据（y）log（DY（y））+Ezp（z） log（1−DY（F（G（z），（一）3.1. 跨领域对抗学习设，分别是由图像和草图组成的域。我们已经收集了一组大规模的训练图像xpdata（x）和一些人类草图ypdata（y）。我们将G（z;θ）表示为预训练的GAN，其从低维代码z产生图像x，我们其中我们使用Photosetcch [34]作为我们的图像来绘制网络F。请注意，我们的方法能够推广到不是来自原始PhotoSketch训练或测试集的草图示例（第4.1节）。尽管草图风格不同，但网络仍然有助于捕捉对象的整体形状。（（可训练固定14053W3.2. 图像空间正则化我们观察到，单独使用草图上的损失导致图像质量和生成多样性的急剧下降，因为这种损失仅强制所生成的图像的形状与草图匹配。为了解决这个问题，我们添加了第二个对抗性损失，将输出与原始模型的训练集进行比较。（空格）。我们观察到这是有效的，因为修改映射网络足以获得我们的目标分布，这是原始分布的子集。这种选择在以前的几次拍摄GAN作品中也被证明是有效的[61]。我们还尝试了优化，ING整个发电机，并观察到生成的输出包含严重的文物。预先训练的权重。我们使用预先训练的PhotosetcchL图像=Ex图像数据（x）log（DX（x））+Ezp（z）log（1 − D X（G（z）））。（二）网络F，并且我们在整个训练过程中固定F的权重在训练过程中，我们优化了DX，DY的所有参数用预先训练的权重初始化DX、DY使用单独的鉴别器DX来保留图像。模型输出的年龄质量和多样性，同时匹配用户草图。作为替代的权重正则化。我们还使用权重正则化进行了实验，其中我们使用以下损失明确惩罚权重的大变化：L重量=||θ′− θ||1 .一、（三）尽管该正则化不需要原始模型的训练集，但是我们观察到应用权重正则化导致比图像空间正则化稍差的性能（等式1）。2）的情况。更多详细比较见第4.1节。最近的一种方法，弹性权重合并（EWC）[32]，旨在克服灾难性遗忘，并可用于正则化少量GAN训练[35]。在我们的设置中，我们发现简单的基于L1的权重正则化损失（等式1）。3）表现与EWC相当。为了简单起见，我们报告基于L1的权重正则化的结果。我们对使用图像和权重正则化方法相结合训练的模型进行了实验，发现它们的性能并不优于仅使用图像正则化训练的模型。然而，我们注意到，应用权重或图像正则化对于平衡图像质量和形状匹配至关重要。3.3. 优化我们的全部目标是：L=Lsketch+λ imageL image，⑷其中λimage= 0。7.控制图像正则化项的重要性。我们想学习一组新的权重G（z;θ′），具有以下极大极小目标：原始的GAN。补充材料中提供了更多培训详情。数据扩充。我们尝试将可微增强[69]应用于草图进行训练。我们发现，温和的增强在我们的情况下表现更好，特别是，我们使用翻译的增强。虽然当我们使用从Photosetcch网络F生成的30个输入草图时，增强不一定改善结果，但我们发现，对于使用一个或几个手绘草图输入的模型训练来说，这是必不可少的更多详情见第4.1节。4. 实验4.1. 评价数据集。为了能够进行大规模的定量评估，我们构建了一个模型草图场景的数据集，其中地面真实目标分布定义如下。我们使用PhotoSketch [34]将来自LSUN [64]马、猫和教堂的图像转换为草图，并手动选择具有相似形状和姿势的30个草图集作为用户输入，如图3所示。为了定义目标分布，我们手动选择与输入草图匹配的另外2，500个图像。我们从10，000个候选图像中选择到指定输入的最小倒角距离[3]（通过Bui等人的SBIR方法检索的候选图像。[7]也被认为是，但没有匹配的姿势作为忠实）。我们的方法只允许访问30个指定的草图; 2，500个真实图像的集合表示真实但不可见的目标分布。为了在现实场景中测试我们的方法，我们从Quickdraw数据集[9]收集人类草图用人类草图来策划评估集是具有挑战性的因此，我们对测试用例进行定性评估。性能指标。我们根据 Fre' chet Inception Distance[22]（FID）评估我们的模型。θ′= argminθ'MaxDX，DYL.（五）已验证图像和评估集。FID测量两个集合之间的分布相似性，并且用作要编辑的图层。为了防止模型过拟合并加快微调速度，我们只修改了StyleGAN2 [30]的映射网络的权重，这基本上将zN（0，I）重新映射到不同的中间潜在空间生成的图像的多样性和质量的度量为了公平比较，我们通过选择具有最佳FID的迭代来评估每个模型。14054‡↑ ↓原始基线（倒角）我们的图3.合成草图的定性结果。每行显示一个模型绘制任务。对于四个任务中的每一个任务，使用30张PhotoSketch草图进行训练;示出了一个训练草图。我们展示了从原始模型生成的样本，使用基线（倒角）微调的模型以及使用我们的方法定制的模型（完整（w/o aug.）），而Horse rider型号为Full（w/aug.））.对于每个任务，我们显示了从相同的三个z生成的样本。继Karraset al.[30]，截断ψ = 0。在所有样品中应用5我们观察到，由我们的方法生成的样本比基线更好地匹配草图。培训设置FID↓FID↓姓氏号八月马到了星期站山墙骑马者马在一边站立猫山墙教堂样品骑手的侧视猫教会预培训原件不适用50.43 42.24 58.71 32.64Bui等人[7] 30 46.00 43.52 59.86 29.94原始型号50.43 42.24 58.71 32.64L草图27.39 40.65 50.09 19.33基线我们倒角30 47.04 48.18 54.04 19.711-样品1 29.25 41.50 44.68 26.885-样品5 33.11 41.6131.2023.28Lsketch+ aug.28.28 39.03 49.52L草图+L重量30.94 38.55 49.76 17.55L草图+L重量+aug。21.99 35.44 48.84 22.41L草图+L图像27.5029.62 33.94 16.70L草图+L图像+aug。19.9430.39 36.73完整（w/aug.）30C十九点九四30.39 36.73二十一点三十五分表1. 定量分析。我们报告了原始模型、基线和我们的方法在四个不同的测试用例中的Fr e ′ chet起始距离（FID），并使用合成草图输入。基线详情见第4.1节。我们测试了在较少训练样本上训练的模型变体（No.样本），并通过改变训练组件来消除我们的方法。C表示应用平移增强。，指示更高还是更低更好。对原始模型的评估以灰色显示，最佳值以黑色突出显示。（：“D scratch”表示草图鉴别器D Y被随机初始化;“W-shift”表示W空间中的移位是生成器的唯一可调参数。基线。我们将我们的方法与以下基线进行比较。我们评估了自定义时对模型输出的影响，方法是使用一个常数向量∆w来移动潜在wnew=w+ ∆w，该常数向量∆w是通过对类似于用户草图的样本进行平均而得出的，类似于向量算术方法在Radfordet al.[46]：∆w=Ematch[w]−Eorig[w]。表2. 消融研究。我们评估了我们的损失和数据增强的四个测试用例与合成s k蚀刻输入的每个组件的效果，并报告了在我们的评估集上测试的Fre'chet起始距离（FID）。价值越低越好。这里 E_orig[w] 是原始未修改模型中的平均潜伏，E_match[w]是样本子集上的平均潜伏我们实现了两个基线变体，它们使用不同的方法对Ematch[w]进行采样。（1）基线（SBIR）：使用Bui等人的基于草图的图像检索方法来选择最佳匹配样本。[7]，（2）基线（倒角）：使用输入草图y和图像x的草图之间的对称倒角距离 d （ x ， y ） +d （ y ， x ）匹配样本，如通过PhotoSketch [34]计算为了估计Ematch[w]，我们从100万个样本中选取最匹配的10，000张图像，并使用与所有用户草图的最小距离对每张图像进行评分。草图骑马者马在一边站立猫山墙教堂D划痕‡W移位‡303044.91 27.8430.66 34.8647.69 24.4142.24 17.88完全（不含aug）3027.5029.6233.9416.7014055LLLLLLLLL L LLWL素描输入L草图+ L权重L草图+ L图像相同迭代最优迭代图4.正则化方法的效果。我们比较了使用（顶部）仅草图，（中间）权重正则化权重和（底部）图像正则化图像训练的模型。（左）同一迭代中的快照。（右）根据我们的评估指标选择的最佳迭代。我们观察到，无论应用哪种正则化，图像看起来都更逼真，并且用图像正则化训练的模型比用权重正则化训练的模型获得了更好的多样性。表1显示了定量比较。我们注意到，我们的方法获得了比基线（SBIR）和基线（倒角）明显更好的FID。结果与我们在图3中的定性比较一致，其中基线与用户草图的匹配程度几乎不如我们的方法（选择基线（倒角）进行视觉比较，因为它获得了比基线（SBIR）更好的平均FID）。消融研究。我们首先研究我们的正则化方法和数据增强的效果。结果示于表2中。增强。我们发现，增强并不一定提高性能的草图从Photosetcch生成在应用图像正则化的情况下，骑马者模型受益于增强，而一侧的马，站立的猫和山墙教堂模型在没有增强的情况下表现得更好。然而，我们发现，当训练输入是人类创建的草图时，增强是至关重要的，如稍后所讨论的。比较正则化方法。正则化方法图像或权重都比仅用草图训练的模型提高了FID，而用图像正则化图像训练的模型优于用权重训练的模型。这与我们在图4中的观察一致，图4显示了使用和不使用正则化训练的模型的快照。在相同的训练迭代中，两种正则化方法都保持了图像质量，并且图像正则化获得了最多样化的输出。当为每种方法选择最佳迭代时，比较再次揭示了正则化模型获得形状匹配和图像质量的更好平衡。我们还研究了其他训练成分的影响，如表1所示。下面的分析集中在没有增强的情况下训练的模型上，因为增强通常不利于合成草图输入。我们指草图+图像为完整（w/o aug.）和草图+图像+放大完整（w/aug.）.D刮伤。为了测试是否有必要为草图使用预训练的权重，我们评估了一个随机初始化D Y的变体。在大多数情况下，我们观察到性能大幅下降这表明，预培训即使在将训练域从图像切换到草图时，鉴别器也是重要的这一发现与之前关于少数镜头GAN微调的工作一致[39，35]。W班我们测试的变体，其中唯一的可调参数是添加到映射网络的偏差，有效地执行在空间中的移位。我们观察到这种方法导致了合理的性能，尽管比我们的完整方法差了这表明，我们的训练过程可以潜在地作为一个灵活的潜在的发现方法。然而，一般来说，调整整个映射网络使我们的方法更有效。更少的草图样本。我们测试，如果我们的方法是能够工作在一个较小的数量的草图。对于每个任务，我们只训练了1或5个草图的模型，这些草图是从之前的30个草图中选择的。结果报告于表1中。我们观察到，使用1或5个草图训练的模型在原始模型上有所改进。在大多数情况下，在30个草图上进行训练仍然表现出色，这表明当用户提供更多草图时，结果可以改善的程度在站立的猫任务中，用5个草图训练取得了稍微好一点的结果，而在侧边的马任务中，改进很小。当使用30个草图时，其他两个任务用很少的草图训练模型仍然具有挑战性，但我们的方法随着用户草图的数量而改进。使用真人素描进行测试。为了使GAN自定义可用于日常用户，我们然后测试我们的方法对新手用户手绘草图的有效性我们从Quick- draw [9]数据集中收集猫和马的草图作为训练图像。我们首先在单个草图上训练模型，并在图5中显示成功和失败的案例。我们注意到，我们的方法中使用的图像到草图转换网络Photosetcch[34]是在与Quickdraw数据集不同的草图风格上训练的。尽管风格不同，但我们的方法在更像轮廓并且描绘简单姿势的草图上成功猫头）。然而，还有改进的空间，以支持更广泛的草图风格和姿势。特别是，对于具有更抽象风格或复杂姿势的草图，结果更差。我们还观察到14056增强无增强增强图5. 使用单个人工创建的草图创建模型。每行显示了从Quickdraw [9]的单个草图上训练的模型生成的未策划样本使用相同的噪声z并且截断Φ= 0。5适用于每个模型。显示了猫（顶部）和马（底部）的结果对于每个类别，第1行是原始的预训练模型，第2行和第3行表示成功情况，最后两行是失败情况。图6. 使用多个人工创建的草图创建模型。图5中的一些失败案例可以通过更多的输入草图来改进。3个类似的草图用于猫模型（顶部），4个用于马模型（底部）。以与图5如图6所示，通过增加输入用户草图的数量，可以提高在困难情况下的性能。此外，我们发现，增强是必不可少的，我们的方法是成功的用户草图。如图7所示，给定相同的输入草图，只有使用增强训练的模型将忠实地生成与无增强图7. 增强对人类创建的草图的影响。我们从图5（顶部）和图6（底部）中获取模型，并观察到只有经过增强训练的模型才会生成忠实匹配草图的图像。图8. 自定义FFHQ模型。每行显示定制FFHQ模型上的样本，在4个人类创建的草图上训练（显示1个）。素描我们也将我们的方法应用于人脸的生成模型。我们使用我们的Full（w/aug.）方法，我们发现使用λimage=0. 5在这种情况下产生更好的结果。结果示于图8，并且可以观察到生成的输出类似于输入草图。4.2. 应用在本节中，我们将讨论将我们的方法应用于图像编辑和合成任务的几种方式。我们表明，与我们的定制模型，可以执行潜在的空间编辑和操纵自然图像。我们还演示了柔性材料中定制模型之间的插值。潜在空间编辑。生成模型中的可解释用户控件对许多图形应用程序都很有用我们调查此属性是否仍然适用于我们的定制模型。更重要的是，编辑操作应该与原始模型相同，以避免需要在每个定制模型上再次运行潜在发现算法为了研究这一点，我们将潜在发现方法GANSpace [21]应用于原始模型。通过沿着报告的潜在方向移动，我们观察到我们的定制模型可以执行与Har¨rk ¨nen等人的结果完全相同的操作。如图9所示。既然我们原始模型成功案例失败案例原始模型成功案例失败案例14057图9. 自定义模型的可编辑性。我们应用Har¨rk ¨nenetal. [21]以定制的模型。我们观察到，从原始模型中发现的编辑操作对定制的模型图10. 使用自定义模型进行插值。潜空间插值是顺利与我们的定制模型。在这里，我们显示山墙教堂（顶部）和马的一面（底部）的结果。图12. 故障案例。我们的方法无法生成与Attneave的猫素描[ 2 ]（上图）或毕加索的马素描（下图）相匹配的图像。模型使用Huhet al.[25 ]第20段。由于我们的方法修改了形状和姿势，同时保留了相同z下的背景和对象的纹理，因此我们可以将投影的z馈送到自定义模型，并且输出实际上是具有与草图匹配的新形状和姿势的输入图像的变换版本。我们还验证了潜在空间编辑（图9）仍然适用于“变换的”照片。结果见图11。5. 讨论在这项工作中，我们提出了一种方法，使用户能够创建定制的生成模型，通过利用现成的预训练模型和跨域训练。我们的方法所需的输入只是一个或多个手-(a) 真实图像(b) 投影到z(c) 自定义(d) 潜在编辑绘制草图，这使得新手用户可以创建模型。我们的方法克服了用户草图和生成器参数空间之间的大域差距，它是能够推广到不同风格的草图。然而，我们的方法仍有许多改进之处我们已经在第4.2节中展示了我们的方法推广到其他草图样式和不同姿势，但是我们的方法并不保证适用于所有草图。例如，我们在毕加索的马素描和律师的睡猫[ 2 ]上测试了我们的方法如图12所示，我们的方法不能图11. 原始和定制模型的自然图像编辑。给定真实图像作为输入（a），我们使用Huh等人将图像投影到原始模型[25]（b）。然后，我们将投影的z输入到在草图上训练的站立猫模型，它有效地编辑输入以匹配草图（c）。此外，我们还展示了可以使用GANSpace [21]（d）进一步编辑图像。与图9类似，来自定制模型的两个图像都可以通过“添加毛发”操作来应用仅仅调整生成器的映射网络，我们的方法没有改变模型如何处理w-空间潜伏期。因此，保留了潜在编辑的属性。此外，我们观察到潜在插值在我们的模型中保持平滑，如图10使用我们的模型进行自然图像编辑。我们的方法是能够“编辑”一个原始模型，以创建一个新的模型，匹配用户的草图，但是否有可能编辑一个单一的照片使用我们的我们表明，自然的图像编辑可以实现的图像投影。为了说明，我们将自然图像从原始图像投影到一个噪声z上创建与姿势忠实匹配的模型。我们注意到，毕加索的素描画得风格鲜明，Attneave的猫描绘了一个复杂的姿势，这两个都是失败的潜在原因。另一个限制是，使用我们目前的方法，实时定制模型是不可能的，因为我们的模型需要超过3万次迭代来训练。我们的方法需要访问原始模型的训练集，这可能使其不适用于无法获得此数据的设置。最后，虽然我们的方法可以灵活地控制形状和姿势，但它不能自定义其他属性，如颜色和纹理。为了扩展表现力，我们注意到我们的跨域损失可以应用于其他输入，例如VGG特征，颜色涂鸦或语义布局。谢谢。我们感谢努普尔·库马里和叶宇飞对草稿的校对。我们也感谢 Gaurav Parmar 、 Kangle Deng 、 Nupur Kumari 、Andrew Liu、Richard Zhang和Eli Shechtman的有益我们非常感谢 Naver Corporation 、 DARPA SAIL-ON HR 0011 -20-C-0022（转DB）和Signify Lighting Research的支持草图添加毛发闭上眼睛14058引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？IEEEInternationalConference on Computer Vision（ICCV），2019年。2[2] 弗雷德 · 阿特尼夫视觉感知的一些信息方面。Psychological Review，61（3）：183-193，1954. 8[3] 哈里·G·巴罗、杰伊·M·特南鲍姆、罗伯特·C·博尔斯和海伦·C·沃尔夫。参数对应和倒角匹配：两种新的图像匹配技术。技术报告，SRI INTERNATIONAL MENLOPARK CA ARTIFI-CIAL INTELLIGENCE CENTER，1977. 4[4] David Bau ， Steven Liu ， Tongzhou Wang ， Jun-YanZhu，and Antonio Torralba.重写深层生成模型。欧洲计算机视觉会议（ECCV），2020年。2[5] David Bau ， Hendrik Strobelt， William Peebles ，JonasWulff，Bolei Zhou，Jun-Yan Zhu，and Antonio Torralba.具有生成图像先验的语义照片处理。ACM SIGGRAPH，38（4）：1-11，2019。2[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在国际会议上学习表示（ICLR），2019年。一、二[7] 图比，莱昂纳多·里贝罗，莫阿西尔·庞蒂，约翰·科洛-莫斯. 使用三重损失卷积神经网络进行基于草图的图像检索的紧凑描述符计算机视觉和图像理解，2017年。四、五[8] Yang Cao ， Changhu Wang ， Liqing Zhang ， and LeiZhang.用于大规模基于草图的图像搜索的边缘索引。在IEEE计算机视觉和模式识别会议（CVPR）中，2011年。2[9] Salman Cheema、Sumit Gulwani和Joseph LaViola。快速绘制：改善几何图的绘制体验InACM SIGCHI，2012. 四、六、七[10] Tao Chen ， Ming-Ming Cheng ， Ping Tan ， ArielShamir，and Shi-Min Hu. Sketch2photo：互联网图像蒙太奇。 ACM Transactions on Graphics （ TOG ）， 28（5）：124，2009。2[11] 陈文玲和詹姆斯·海斯。素描：从多样化的写实素描到图像合成 . 在 IEEE 计算机视觉和模式识别会议（CVPR），2018年。2[12] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，2009年。2[13] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals ， JudyHoffman，Ning Zhang，Eric Tzeng，and Trevor Darrell.Decaf：用于通用视觉识别的深度卷积激活功能2014年国际机器学习会议（ICML）。3[14] Mathias Eitz，James Hays，and Marc Alexa.人类是如何描绘物体的？ACM Transactions on Graphics（TOG），31（4）：44-1，2012. 2[15] Mathias Eitz，Kristian Hildebrand， Tamy Boubekeur，and Marc Alexa.基于草图的图像检索：基准和特征袋描述符。 IEEE transactions on visualization and computergraphics，17（11）：1624-1636，2010. 214059[16] Mathias Eitz ， Ronald Richter ， Kristian Hildebrand ，Tamy Boubekeur，and Marc Alexa.摄影素描师：交互式基于草图的图像合成。IEEE Computer Graphics andApplications，31（6）：56-66，2011. 2[17] Yaroslav Ganin ， Evgeniya Ustinova ， Hana Ajakan ，PascalGermain ， HugoLarochelle ， FrancoisLa violette ，MarioMarc- hand，and Victor Lempitsky.神经网络的领域对抗训练。 Journal of Machine Learning Research（JMLR），17（1）：2096-2030，2016. 2[18] Chengying Gao ， Qi Liu ， Qi Xu ， Limin Wang ，Jianzhuang Liu，and Changing Zou.Sketchycoco：从手绘场景草图生成图像。IEEE计算机视觉和模式识别会议（CVPR），2020。2[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，2014年。一、二、三[20] David Ha和Douglas Eck。草图的神经表征国际学习表征会议，2018年。2[21] 埃里克·哈克·奥南、亚伦·赫茨曼、雅克·科莱蒂宁和西尔万·帕里斯.Ganspace：发现可解释的Gan控件。在神经信息处理系统的进展，2020年。七、八[22] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，Bern-hard Nessler，and Sepp Hochreiter.由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在神经信息处理系统的进展，2017年。4[23] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。苏铁：周期一致的对抗域适应。在2018年的国际机器学习会议（ICML）上。2[24] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。欧洲计算机视觉会议（ECCV），2018年。3[25] Minyoung Huh ，Jun-Yan Zhu Richard Zhang，SylvainParis，and Aaron Hertzmann.将图像转换和投影到类条件生成网络。在欧洲计算机视觉会议（ECCV），2020年。8[26] 五十岚武夫、松冈聪、田中英彦。泰迪：三维自由设计的草图界面ACM SIGGRAPH，1999年。2[27] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议，2017。2[28] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式对抗网络。神经信息处理系统进展（NeurIPS），2020年。3[29] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），2019年。2[30] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进14060stylegan的图像质量IEEE计算机视觉和模式识别会议，2020年。一二四五七[31] Diederik P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。arXiv预印本arXiv：1807.03039，2018。2[32] James Kirkpatrick，Razvan Pascanu，Neil

下载后可阅读完整内容，剩余1页未读，立即下载