基于单个增强训练样本的图像形状处理

11 浏览量更新于2023-10-13 收藏 3.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13769（一）（b）第（1）款（c）第（1）款（d）其他事项（e）基于单个增强训练样本的图像形状处理Yael Vinker*Elias Horwitz*Nir Zabari Yedid Hoshen计算机科学与工程以色列耶路撒冷希伯来大学http://www.vision.huji.ac.il/deepsim/{yael.vinker，eliahu.horwitz，nir.zabari，yedid.hoshen} @ mail.huji.ac.il训练图像对操纵原始输出图1：从单个训练对学习的图像操作。给定单个真实图像（b）和相应的基元表示（a），我们的模型学习在基元（a）到目标图像（b）之间进行映射。在推断时，原始基元（c）由用户操纵，改变以红色（d）突出显示。然后，操纵的图元通过网络，该网络输出真实图像域中的对应的操纵图像（e）在右侧，我们可以看到操作成功执行，同时保留了源图像的内部统计信息摘要在本文中，我们提出了DeepSIM，一个基于单幅图像的条件图像处理生成模型。我们发现，广泛的增强是实现单图像训练的关键，并将使用薄板样条（TPS）作为一种有效的增强。我们的网络学习在图像的原始表示与图像本身之间进行映射图元表示的选择对操纵的容易性和表达性具有影响，并且可以是自动的（例如，边缘）、手动（例如分段）或混合，例如分段顶部的边缘。在操作时，我们的生成器允许通过修改原始输入表示并将其映射到网络来进行复杂的图像更改。我们的方法被证明在图像处理任务上取得了显着的性能。1. 介绍深度神经网络显著提高了图像处理任务的性能，而大型训练* 同等贡献可以获得诸如将面部标志映射到面部图像的数据集。然而，在实践中，存在许多设置，其中要被操纵的图像是唯一的，并且由许多类似的输入-输出样本组成的训练集是不可用的。此外，在一些情况下，使用大数据集甚至可能导致不受欢迎的输出，其不保留期望图像的特定特征。仅在单个图像上训练生成模型是一个令人兴奋的最近的研究方向，其可能具有将基于神经网络的图像操作方法的范围扩展到独特图像的潜力。在本文中，我们介绍了-DeepSIM，这是一种易于实现但非常有效的方法，用于从单个图像对训练深度条件生成模型。我们的方法能够解决各种图像处理任务，包括：（i）形状翘曲（图2）（ii）对象重排（图 5）（iii）物体移除（图5）（iv）对象添加（图2）（V）创建绘制的和逼真的动画剪辑（图12）。8和我们项目页面上的视频）。给定单个目标图像，首先，为训练图像创建图元表示。这可以是无监督的（即，边缘图、无监督分割）、有监督（即，分割图、草图、绘图），或13770训练对输入输出训练对输入输出训练对输入输出图2：我们的模型产生的结果。该模型在单个训练对上训练，显示在每个样品的左侧。第一行第二排第二排两者的结合。我们使用一个标准的条件图像映射网络来学习映射之间的原始表示和图像。一旦训练完成，用户就可以通过操纵简单图元（充当更简单的操纵域）来明确地设计和选择他们想要应用于目标图像修改后的图元被馈送到网络，该网络利用期望的操纵将其该过程如图1所示。1.一、有几篇论文探讨了从单个图像中可以学到两个最近的半成品SinGAN [28]和InGAN [29]建议将其扩展到纹理合成的范围之外[6，16，21，38]。SinGAN以无条件的方式处理单个图像操作的问题，允许无监督的生成任务。InGAN，另一方面，提出了一个条件模型应用各种几何变换的图像。我们的论文扩展了这一机构的工作，通过探索的情况下，监督图像到图像的翻译，允许修改特定的图像细节，如图像部分的形状或位置。我们发现增强策略是使DeepSIM有效工作的关键打破了图像翻译社区使用简单裁剪和翻转增强的标准做法，我们发现使用薄板样条（TPS）[11] 增强方法对于基于单个图像对输入训练条件生成模型是必要的。TPS的成功是由于它探索了可能的图像操作，将训练分布扩展到了内部。包括被操纵的输入。我们的模型成功地学习了目标图像的内部统计数据，允许专业和业余设计师探索他们的想法，同时保留目标图像的语义和几何属性，并产生高保真度的结果。我们在本文中的贡献：• 一种用于训练仅由单个图像对监督的条件生成器的通用方法。• 认识到图像增强是这项任务的关键，以及薄板样条（TPS）增强的显着性能，这是以前没有用于单图像处理。• 在一系列图像处理应用中实现出色的视觉性能。2. 相关工作经典的图像处理方法：几十年来，图像处理一直是图像处理、计算摄影和图形学领域的研究热点。本文件不可能概述这一系列工作的范围我们建议读者参考[31]的书进行广泛的调查，并使用Photoshop软件进行图像处理方法的实用收集。一些值得注意的图像处理技术包括：泊松图像编辑 [26] ，接缝雕刻 [3] ，PatchMatch [4]，ShiftMap [27]和图像类比[14]。基于样条13771训练图像对输入输出图3：时装设计示例。左边是训练图像对，中间是操纵的基元，右边是操纵的输出-从左到右：连衣裙长度，无肩带，环绕颈部。原始训练图像处理图4：自然外观的操作。左图：图像基元，顶部是训练基元，底部是操作基元。中间：训练图像。右：操纵输出-改变鸟的翅膀的方向方法包括：场变形[5]和RDBF的图像扭曲[1]。学习原始图像表示和照片真实感图像之间的高分辨率参数函数对于预深度学习方法来说非常具有挑战性。深度条件生成模型：图像到图像转换将图像从源域映射到目标域，同时保留输入图像的语义和几何内容。大多数图像到图像翻译方法使用生成对抗网络（GANs）[12]，用于两种主要场景：i）域[40，19，23，8]之间的无监督图像转换感知图像损失函数[15，35，25，41]。现有的图像到图像转换方法需要许多标记的图像对。有几种方法[7，10，39]被精心设计用于图像操作，但是它们需要大型数据集，这些数据集主要可用于面部或内部，并且不能应用于图像的长尾。非标准扩增：条件生成模型通常使用裁剪和翻转增强。分类模型还使用色度和噪声增强。最近，已经设计了用于分类任务的学习增强的方法，例如：AutoAugment [9]. [24]用于扩充分类网络的学习翘曲字段。薄板样条变换已被用于医学领域，例如[32]，但它们用于大型数据集而不是单个样本的训练。[37]用于从单个注释的3D医学扫描（使用类似于[18]的技术）训练分割网络的学习增强，但是它们需要类似扫描的大型未标记数据集TPS还被用作参数化扭曲的方式，用于学习图像之间的密集对应关系，例如[13]和[20]。从单个图像学习：虽然大多数深度学习工作使用大型数据集，但开创性的工作表明，单个图像训练在某些情况下是有效的。[2]表明，单个图像可以用于学习深层特征。在从单个图像训练图像生成器方面已经完成了有限的工作-深度图像先验[34]，重新定位[29]和超分辨率[30]。最近，开创性的工作SinGAN [28]提出了一种用于单无条件图像生成模型训练的通用方法。然而，它的条件操作能力是非常有限的.另一方面，TuiGAN [22]提出了一种基于单个图像对的条件无监督图像到图像方法然而，他们的方法需要为每个新的对重新训练另一方面，我们的方法使用单个对齐的图像对来训练单个生成器，该生成器可以用于多个操作而无需再训练。13772→∈→图5：挑战性操作的结果。右上角-原始图像。左-用于训练模型的原始图像。中心-在最右边的两辆车之间切换位置。右-删除最左边的汽车并修复背景。更多结果请参见SM。它能够显著地影响对包括场景中的大对象的图像的更精细的改变。3. DeepSIM：从单个图像学习条件我们的方法只使用由主图像及其原始表示组成的单个图像对来学习条件生成对抗网络（cGAN）考虑到有限的训练集，我们通过在训练对上使用薄板样条（TPS）翘曲来增加数据。所提出的方法有几个目标：i）单一图像训练ii）保真度-输出应反映原始表示图6：TPS可视化。原始图像对的随机TPS扭曲。这就是SM。图像）对（x，y）。条件鉴别器D：（Rdx×dy×dp，Rdx×dy×3）[0，1]使用深度分类器来实现，该深度分类器将一对图元和对应的图像映射到这两者是地面真实图元图像对的概率中。D是受过训练的对手表示iii）外观-输出图像应出现来自与训练图像相同的分布。接下来，我们将描述我们的方法的每个组件：3.1. 产品型号：我们的模型设计遵循cGAN的标准实践反对G。鉴别器的损失（adv（x，y;D，G）= log（D（x，y））+ log（1−D（x，G（x）Adv）是：（二）模型（尤其是Pix2PixHD [35]）。让我们表示我们的训练图像对（x，y），其中yRdx×dy×3是输入图像（dx和dy是行数和列数），x∈Rdx×dy×dp是对应的图像基元（dp是合并损失total是重建损失和对抗损失的总和，由常数α加权：图像基元中的通道数我们学习total（x，y;D，G）=（三）生成网络G：Rdx×dy×dpRdx×dy×3，其中学习将输入图像基元x映射到生成的图像G（x）。结果的保真度使用 VGG 感知损失 perc ：（ Rdx×dy×3 ，Rdx×dy×3）→R3.2. 增强：+α·Adv（x，y;D，G）[17]，比较两个图像使用从每个图像中提取的一组激活，使用在ImageNet数据集上预先训练的VGG网络（我们遵循[35]中的实现）。因此，我们将重建损失写为rec：rec（x，y; G）=条件GAN损失：遵循标准实践，我们添加对抗性损失，其测量鉴别器区分（原始，生成的图像）对（x，G（x））和（原始，真）对（x，G（x））的能力。当存在大数据集时，找到在经验数据分布下优化total的生成器G和条件鉴别器D可以产生强生成器G. 然而，由于我们只有单个图像对（x，y），因此该公式严重过拟合。这具有G不能推广到新的原始输入的负面后果。为了推广到新的基元图像，需要人为地增加训练数据集的大小，以便覆盖预期基元的范围条件生成模型通常使用简单的裁剪和翻转增强。我们将在稍后展示（第二部分）。（4）这个简单13773×FxxXY∼YY图7：三种不同图像基元的结果。最左边的一列显示源图像，然后每一列展示我们的模型在指定图元上训练时的结果我们操纵了图像基元，添加了右眼，改变了视角，缩短了喙。我们的结果在每个操纵的基元旁边呈现。组合原语在高级别更改（例如眼睛）和低水平变化（例如，背景）。然而，增强策略将不会推广到具有非平凡变化的原始图像。我们采用薄板样条（TPS）作为一个附加的根据随机TPS翘曲的经验分布：D′，G′= min maxEfΩtotal（f（x），f（y）;D，G）（5）为了扩展我们的单个图像G D数据集。对于每个TPS增强的控制点（i，j）的等距3- 3网格被放置在图像上，然后我们通过在水平和垂直方向上的随机（均匀分布）的像素数的控制点移位。该移位创建了我们用t（i，j）表示的非平滑扭曲。为了防止在我们的训练图像中出现退化变换，移位量被限制在图像宽度和高度之间的最小值的至多10%。我们通过最小化来计算平滑TPS插值函数f：minΣt（i，j）−f（i，j）2我们使用Pix2PixHD架构和官方的hyperparameters（除了使用16000次迭代）。3.4.原始图像：为了编辑图像，我们将生成器设置在图像的表示上，即我们表示图像图元。图像基元所需的属性为：能够精确地指定所需的输出图像并且易于图像编辑器的操作。这两个目标是冲突的，尽管编辑图像的最精确表示是编辑图像本身，但这种级别的管理对于人类编辑器来说是非常具有挑战性的，事实上，简化这种表示是非常重要的i、j+ λ∫ ∫。F22+2f2Σdxdy（四）对于这项工作。由先前的条件生成器使用的两个标准图像基元是图像的边缘表示和图像的语义实例/分割图分割图提供了有关其中，fxx、fxy、fyy表示f的二阶偏导数，其形成由λ正则化的平滑性度量。可以非常有效地执行对翘曲f的优化，例如[11 ]第10段。我们将使用上述程序生成的随机TPS的分布以上在图1中示出。63.3. 最佳化：在训练期间，我们对随机TPS扭曲进行采样。每个随机扭曲fΩ变换输入基元x和图像y以创建新的训练对（f（x），f（y））（其中我们表示f（x）（i，j） =x （i′，j′），其中（i′，j′）= f（i，j））。我们优化生成器和鉴别器的adversarially，以尽量减少损失的期望值总的不确定性图像的高级属性，但对精细细节的指导较少边缘图提供了相反的折衷。为了达到两全其美的效果，我们使用了两种原始表示的组合。组合表示法的优点见第2节。五、我们的编辑过程在SM中进行了说明。4. 实验4.1. 定性评价我们提出了许多结果，我们的方法中的主要文件和SM。在图2中，我们的方法从单个图像训练中生成非常高的分辨率结果。在顶行中，我们对来自边缘特征的面部图像执行精细改变，例如，抬起鼻子，翻起眉毛。在+F13774训练对输入输出动画帧图8：单个图像动画。顶部：将动画转换为视频剪辑，底部-将视频剪辑转换为一幅绘画的动画。左：单个训练对，中间-后续帧，右：生成的输出。视频剪辑可在我们的项目页面上找到。训练对输入SinGAN我们的团队训练图像对输入Pix2PixHD BicycleGAN我们的-MI图9：图像处理比较。最左列示出了由手动创建的绘制图像和目标图像组成的训练对。给出经操纵的图像作为输入。我们可以看到，SinGAN保留了一些细节，但未能捕获形状，另一方面，TuiGAN正确捕获了形状，但没有保留图像的细节。我们的方法是能够捕获的形状和细节的操纵，具有高保真度。第二行，在左边，我们使用了组合primitive（edges和segmentation），我们修改了狗的帽子，使它的脸变长。在右边，我们显示了复杂的形状变换，通过使用分割原语。我们的方法在汽车上增加了第三个轮子，并将其形状转化为跑车。这显示了分割基元的强大功能，可以使用简单的操作对形状进行重大更改。参见附图3和图4更多的例子在图9中，我们比较了不同的单图像方法在绘画到图像任务上的结果。我们的方法被训练成从粗糙的油漆图像映射到一棵树，而SinGAN和TuiGAN使用图10：边缘与图像比较。列1、 2示出了训练边缘和图像。列3示出了在推理时用作输入Pix 2 PixHD-MI无法生成正确的鞋子，因为没有足够的指导。 Bi-cycleGAN有足够的指导，但不能重现正确的细节。我们的结果是高质量和保真度。作者的最佳实践。我们可以看到，SinGAN输出的图像比真实感图像更类似于油漆，并且无法捕获树的新形状。我们注意到，虽然SinGAN允许一些条件生成任务，但这不是它的主要目标，这解释了令人印象深刻的结果。另一方面，TuiGAN在捕捉形状方面做得更好，但未能捕捉到精细的细节和纹理。我们的方法能够改变树的形状，以对应于油漆，同时保持树和背景的外观，如在训练图像中与TuiGAN不同，我们为原语的所有未来操作学习单个生成器，而不需要为每个操作重新训练。在图10中，我们比较了在大型数据集上训练的两个模型。我们可以看到，Pix 2 PixHD-MI（在整个edge2shoes数据集上训练的Pix 2 PixHD，其中BicycleGAN能够将两个参数13775方法S1S2S3S4S5L SLSLSLSLSPix2PixHD-SIA0.44 0.510.470.490.410.50.530.260.460.44我们的-无VGG0.140.050.260.110.110.070.280.140.190.08我们0.120.070.210.120.10.040.220.120.140.06表1：LRS2帧的定量比较。 Pix 2 PixHD-SIA（裁剪和翻转）和我们的方法（TPS）在5LRS2视频（均在单对上训练）。对于每个序列左列：LPIPS，右柱：SIFID。图11：目视比较TPS增强的影响。我们使用TPS的方法输出的图像与地面实况比仅仅是裁剪和翻转增强（SM中的进一步结果）更相似。所需鞋的外观（样式）的边缘图和指导。虽然它能够捕获所需鞋的一般颜色，但是它不能捕获鞋的精细细节（例如，鞋的颜色）。鞋带和带扣）。这是在大型数据集上训练的一般缺点，因为一般映射函数变得不那么专业化，因此在单个图像上的准确性较低。单图像动画在[28]中以无监督的方式展示了仅从单个图像生成短剪贴画视频的想法，我们表明我们的模型可以用于从单个图像对以监督的方式创建艺术短视频剪辑。该应用程序允许与SinGAN相反，它在潜在空间中执行随机行走，我们允许对动画“故事”进行细粒度控制。此外，我们的模型也可以用于相反的方向。也就是说，基于单个帧和对应的风格化图像将短视频剪辑转换成绘制的动画。这个应用程序可能是有用的动画师和设计师。一个例子可以在图中看到。8.我们注意到，由于我们的工作不关注视频生成，因此我们没有任何时间一致性优化，如[33]所做的那样我们强烈建议读者在我们的项目页面上查看视频4.2. 定量评价由于先前的单个图像生成器大多在无条件生成上操作，因此没有建立合适的评估基准。我们提出了一个新的基于视频的有条件单图像生成基准跨越了一系列场景来自每个视频的单个帧然后，训练后的网络用于从图元映射到所有其他视频帧的图像，并使用LPIPS [36]计算预测误差，使用SIFID[28]计算保真度。对来自LRS2数据集的帧的视觉评估可以在图1中看到。11个国家。将我们的方法与Pix 2 PixHD-SIA进行比较，其中“SIA”代表“单图像增强”，例如一个Pix 2PixHD模型，使用随机裁剪和翻转扭曲而不是TPS在单个图像上训练。我们的方法显着优于Pix 2 PixHD-SIA的保真度和质量表明，我们的TPS增强是至关重要的单图像条件生成。Cityscapes和LRS2的定量评价见表1。2、Tab。1.一、我们报告的LPIPS和SIFID的5个LRS2序列的每一个和平均16个城市景观视频。在所有比较中，我们的方法显著优于Pix 2 PixHD-SIA。更多技术细节可参见SM。SinGAN无法执行此任务，未获得有意义的结果。虽然TuiGAN理论上可以执行此任务，但它需要为每个帧重新训练模型，这是不切实际的。用户研究我们按照Pix2Pix和SinGAN的协议进行了用户研究。我们依次呈现了30张图像：10个真实图像、10个操纵图像以及10个并排的真实图像和操纵图像对。参与者被要求将每个分类为“真实”或“由AI生成”。在配对的情况下，我们要求参与者确定“左”或“右”图像是否真实。每个图像显示1秒，与之前的原型一样。该研究由140名参与者组成。(104男性，36名女性）。未配对图像上的混淆率13776度量Pix 2 PixHD-SIA分段，裁剪+翻转DeepSIM（我们的）分段、TPS分段+边缘、TPSLPIPS0.3420.2160.134SIFID0.2920.1270.104表2：Cityscapes数据集的结果-我们报告了16个视频的平均值。结果表明TPS增强和组合原语的重要性。为42. 6%，而在配对图像上为32。6%。这表明我们处理的图像非常逼真。5. 分析输入基元由于分割捕获图像的高级别方面，而边缘图更好地捕获图像的低级别，我们分析结合两者的基元。这种选择并不常见，例如：Pix2PixHD提出了结合实例和语义分割图，然而，这并不提供低级细节。图7比较了三个基元。边缘表示无法捕获眼睛，大概是因为它无法捕获其语义含义。分割无法捕获新背景区域中的细节，从而产生拖影效果。组合图元能够捕获眼睛以及背景区域的低级纹理。在图5中，我们呈现了使用组合图元的更多操纵结果。在中间的一列，我们交换了最右边的汽车的位置。由于对象的大小不同，因此使用对边缘的小改变来填充一些空的图像区域。在最右列中可以看到更极端的结果，左侧的汽车被重新移动，产生了大的空图像区域。通过使用边缘填充缺失的细节，我们的方法能够成功地完成背景（参见SM的消融）。运行时间：我们的运行时间是神经架构和迭代次数的函数。当在相同的硬件（NVIDIA RTX-2080 Ti）上运行所有实验时，256 x256图像（例如“脸”的形象（图）2）SinGAN需要正如前面所讨论的，TuiGAN需要为每个人提供一个新的培训过程而我们的DeepSIM没有。cGAN损耗是否必要？我们评估了去除cGAN损失，仅保留Cars图像上的VGG感知损失（参见SM）。对于这样的高分辨率图像，cGAN是更好的感知损失。在较低分辨率下，VGG结果是合理的，但仍然比cGAN损失更模糊在大型数据集上训练的方法可以推广到稀有图像吗？我们提出的例子，这是不是这种情况。图10表明，BicycleGAN没有像Pix 2 PixHD-MI那样推广新的（分销中的）鞋子。我们表明图12：失效模式。左：生成不可见对象- 狗的眼睛中心：背景复制-海龟背后的海。右：空的空间插值-猫的鼻子。在图像远离用于训练的源分布的更极端的情况下，当前的方法完全失败。有关进一步分析，请参见SM。深度单图像方法中的增强：虽然我们是第一个提出使用广泛的非线性增强的单图像训练，但我们认为SinGAN隐含地是一种基于增强的非条件生成方法。在第一级，它学习一个无条件的低分辨率图像生成器，而后面的阶段可以被视为一个升级网络。关键的是，它依赖于由第一阶段GAN生成的一组一些其他方法，例如Deep Image Prior不使用任何形式的增强。故障模式：我们强调了DeepSIM的三种主要故障模式（图1）。12）：i）生成不可见的对象-当操纵需要生成在训练中不可见的对象ii）背景复制-当将对象添加到新的背景区域上时，网络可能错误地复制最初围绕对象的一些背景iii）空区域中的插值-由于在空图像区域中没有给出指导，因此网络有时不正确地产生细节。有关进一步分析，请参见SM。6. 结论我们提出了一种基于TPS增强的从单个训练图像训练条件生成器的方法。我们的方法是能够执行复杂的图像manipulation在高分辨率。单图像方法具有显着的潜力，它们将图像的细节保留到以前在大型数据集上训练的方法通常无法达到单图像方法（包括我们的方法）的一个限制是需要为每个图像训练单独的网络。加快单图像生成器的训练是未来工作的一个有前途的方向。致谢我们感谢Jonathan Reich创造了这些原语和动画示例。Shmuel Peleg的深刻评论和建议。输出培训13777引用[1] Nur Arad，Nira Dyn，Daniel Reisfeld和Yehezkel Yeshu-运行。通过径向基函数的图像变形：应用于面部表情。CVGIP：图表。模型图像处理。，56（2）：161-172，Mar. 1994. 3[2] Yuki M Asano ， Christian Rupprecht ， and AndreaVedaldi.自我监督的批判性分析，或者我们可以从一张图片中学到什么。arXiv预印本arXiv：1904.13132，2019。3[3] Shai Avidan和Ariel Shamir。用于内容感知图像调整大小的接缝雕刻。SIGGRAPH，2007年。2[4] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 2[5] Thaddeus Beier和Shawn Neely基于特征的图像变形。SIGGRAPH Comput. Graph. ，26（2）：351992年7月3[6] Urs Bergmann，Nikolay Jetchev和Roland Vollgraf。用周期性空间GAN学习纹理流形。CoRR，abs/1705.06566，2017。2[7] 陈文玲和詹姆斯·海斯。Sketchygan：Towards diverseand realistic sketch to image synthesis，2018. 3[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。3[9] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。arXiv预印本arXiv：1805.09501，2018。3[10] Tali Dekel，Chuang Gan，Dilip Krishnan，Ce Liu，andWilliam T Freeman.智能、稀疏的轮廓来表示和编辑图像。arXiv预印本arXiv：1712.08232，2017。3[11] Gianluca Donato和Serge Belongie近似薄板样条映射。欧洲计算机视觉会议，第21-31页Springer，2002年。二、五[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页3[13] Xintong Han，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S Davis.Viton：一个基于图像的虚拟试穿网络。在CVPR，2018年。3[14] 放大图片作者：Charles E. Jacobs，Nuria Oliver，BrianCurless，and David H. 销售形象类比。SIG-GRAPH，2001年。2[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。3[16] Nikolay Jetchev，Urs Bergmann，and Roland Vollgraf.空间生成对抗网络的纹理合成，2017。2[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。4[18] Angjoo Kanazawa、David W Jacobs和Manmohan Chan-draker。Warpnet：用于单视图重建的弱监督匹配。在IEEE计算机视觉和模式识别会议论文集，第3253- 3261页3[19] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、JungkwonLee和Jiwon Kim。学习发现跨域关系与生成对抗网络。ICML，2017。3[20] Junsoo Lee ， Eungyeup Kim ， Yunsung Lee ， DongjunKim，Jaehyuk Chang，and Jaegul Choo.基于增强自参考和密集语义对应的草图图像着色。在CVPR，2020年。3[21] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成在Bastian Leibe、Jiri Matas、Nicu Sebe和Max Welling编辑的《计算机视觉- ECCV2016 -第14届欧洲会议》中，荷兰阿姆斯特丹，2016年10月 11-14日，Proceedings，第III，Lecture Notes inComputer Science的第9907卷，第702-716页施普林格，2016年。2[22] Jianxin Lin，Yingxue Pang，Yingce Xia，Zhibo Chen，and Jiebo Luo.Tuigan：学习使用两个不成对图像的多功能图像到图像第18-35页，2020年。3[23] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS，2017年。3[24] Saypraseuth Mounsaveng ， David Vazquez ， Ismail BenAyed，and Marco Pedersoli.数据增强的一般变换的对抗学习。arXiv预印本arXiv：1909.09801，2019。3[25] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR，2019年。3[26] 帕特里克·佩雷斯、米歇尔·冈内特和安德烈·W·布莱克。泊松图像编辑。InSIGGRAPHs，2003. 2[27] Yael Pritch，Eitam Kav-Venaki，and Shmuel Peleg. Shift-映射图像编辑。载于ICCV，2007年。2[28] Tamar Rott Shaham，Tali Dekel和Tomer Michaeli。单根：从一个单一的自然图像学习生成模型.在IEEE计算机视觉国际会议论文集，第4570-4580页，2019年。二、三、七[29] Assaf Shocher 、 Shai Bagon 、 Phillip Isola 和 MichalIrani。自然图像重定向的内部分布匹配。CoRR，abs/1812.00231，2018。二、三[30] Assaf Shocher、Nadav Cohen和Michal Irani。在IEEE计算机视觉和模式识别会议论文集，第3118-3126页，2018年。3[31] 理查德·塞利斯基。计算机视觉：算法和应用。SpringerScience Business Media，2010. 2[32] Zhixian Tang ， Kun Chen ， Mingyuan Pan ， ManningWang，and Zhijian Song.基于统计形状模型和三维薄板样条深度学习的医学图像增强策略。IEEE Access，7：133111- 133121，2019。3[33] On dérejTexle r， D a vidFutelek ， Michalku czerera ， On dérejjamri sreplika ， Sa'rkaSochor o v a' ， MencleiChai ， Se r g eyTulya kov，andDanielS Y'kora. 使用few-进行交互式视频样式化基于射击补丁的训练ACM事务处理图表，39（4），2020年7月。713778[34] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。深度图像先验。在IEEE计算机视觉和模式识别会议论文集，第9446- 9454页，2018年。3[35] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。CoRR，abs/1711.11585，2017。三、四[36] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShecht-man 和 OliverWang 。Theunreasonableeffectiveness作为一个感知度量。arXiv预印本arXiv：1801.03924，2018。7[37] 艾米·赵、古哈·巴拉克里希南、弗雷多·杜兰德、约翰·V·古特塔格和阿德里安·V·达尔卡。使用学习的变换进行单次医学图像分割的数据增强。在IEEE计算机视觉和模式识别会议论文集，第8543-8553页，2019年。3[38] Yang Zhou，Zhen Zhu，Xiang Bai，Dani Lischinski，Daniel Cohen-Or，and Hui Huang.通过对抗扩展进行非平稳纹理2[39] 朱军燕，菲利普·Kra？ henb？ hl，伊莱·谢赫特曼和阿列克谢·A.埃夫罗斯自然图像流形上的生成视觉操作。2018. 3[40] Jun-Yan Zhu，Taesung Park，Phillip Isola，and Alexei A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。InICCV，2017. 3[41] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。神经信息处理系统的进展，第465-476页，2017年。3

下载后可阅读完整内容，剩余1页未读，立即下载