基于上下文的图像修复：推断与翻译方法的评估

187 浏览量更新于2023-10-13 收藏 4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于上下文的图像修复：推断、匹配和翻译宋宇航 *1[0000−0003−4990−2964]、杨超 *1[0000−0002−6553−7963]、林哲2[0000−0003−1154−9907]、刘晓峰3[0000−0002−4514−2016]、秦Huang1[0000 - 0002 - 3031 - 0208]、Hao Li 1、4、5[0000 - 0002 - 4019 - 3420]和C.- C.郭杰1[0000−0001−9474−5035]1University of Southern California，3740 McClintock Ave，Los Angeles，美国{yuhangso，chaoy，qinhuang}@ usc.edu，cckuo@sipi.usc.edu2Adobe Research，345 Park Ave，San Jose，USAzlin@adobe.com3卡内基梅隆大学，5000 Forbes Ave，匹兹堡，美国liuxiaofeng@cmu.edu4Pinscreen，525 Broadway，Santa Monica，USAhao@hao-li.com5USC Institute for Creative Technologies，12015 E Waterfront Dr，Los Angeles，美国抽象。我们研究了图像修复的任务，这是一个不完整的图像与合理的内容，以填补缺失的区域。为此，我们提出了一种基于学习的方法来生成视觉上连贯的完成给定的高分辨率图像与丢失的组件。为了克服直接学习高维图像数据分布的困难，我们将任务分为推理和翻译两个独立的步骤，并用深度神经网络对每个步骤进行建模。我们还使用简单的启发式来引导从边界到孔的局部纹理的传播我们表明，通过使用这样的技术，修复减少了学习两个图像特征的翻译功能在更小的空间，因此更容易训练的问题我们在几个公共数据集上评估了我们的方法，并表明我们生成的结果比以前的最先进的方法具有更好的视觉质量。关键词：图像修复·GANs·特征操作1介绍从采样的噪声或conditioning上的其他输入，如图像，文本或标签生成照片般逼真的图像的问题已被大量研究。尽管最近深度生成模型（如Pixel-CNN [26]，VAE [20]和GAN [12]）取得了进展，但生成高分辨率图像仍然是一项艰巨的任务。这主要是因为对像素的分布进行建模是困难的，并且当维度变高时，经训练的模型容易引入模糊分量和伪影。已经提出了若干方法* 表示贡献相等。2Y. Song等人(a)（b）（c）（d）（e）（f）图1.一、我们的结果与GL修复[14]进行了比较（a）（d）具有缺失孔的输入图像(b)（d）由GL inpainting [14]给出的修补结果。(c)（f）使用我们的方法的最终修复结果。图像大小为512x512。为了缓解这个问题，通常通过利用多尺度训练[36，6]或整合先验信息[24]。除了一般的图像合成问题外，图像内绘的任务可以描述为：给定一个不完整的图像作为输入，我们如何用语义上和视觉上合理的内容来填充缺失的部分。我们对这个问题感兴趣有几个原因。首先，这是一个动机良好的任务，用于一个常见的场景，我们可能想要从图片中删除不需要的对象或恢复损坏的照片。其次，虽然纯粹的无监督学习对于大输入可能具有挑战性，但我们在这项工作中表明，当我们以多阶段自监督方式进行训练并利用已知区域中的高频信息Context-encoder [27]是将深度神经网络应用于图像修复的首批作品之一它训练了一个深度生成模型，该模型使用重建损失和对抗损失将不完整的图像映射到完整的图像虽然对抗性损失显著提高了修复质量，但结果仍然非常模糊，并且包含明显的伪影。此外，我们发现它无法产生合理的结果，如512x512图像的较大输入，显示它无法推广到高分辨率修复任务。最近，[14]通过使用扩张卷积和额外的局部鉴别器改进了结果。然而，由于模型的空间支持，它仍然限于相对较小的图像和孔。Yang等人。 [34]提出使用风格转移进行图像修复。更具体地说，它使用上下文编码器的输出初始化孔，然后通过使用样式转移技术[21]将高频纹理从边界传播到孔来改进纹理。这表明，匹配神经特征不仅可以传递艺术风格，还可以合成真实世界的图像。该方法是基于优化的，适用于任意大小的图像。然而，计算是昂贵的，它需要很长的时间来修补一个大的图像。我们的方法克服了上述方法的局限性。与[34]类似，我们将修复过程解耦为两个阶段：推理和翻译。在推理阶段，我们训练了一个Image2Feature网络，该网络使用粗略预测初始化孔并提取其特征。预测-基于上下文的图像修复：推断、匹配和翻译3图像是模糊的，但在孔中包含高级结构信息。在翻译阶段，我们训练一个Feature2Image网络，将特征转换它细化孔中的内容，并输出具有锐利和逼真纹理的完整图像它与[34]的主要区别在于，我们将纹理细化建模为学习问题，而不是依赖于优化这两个网络都可以进行端到端的训练，并且使用经过训练的模型，可以在单个前向传递中完成推理，这比迭代优化快得多为了减轻训练Feature 2 Image网络的难度，我们设计了一个补丁交换层将特征图作为输入，并将孔内的每个神经补丁替换为边界上最相似的补丁。然后，我们使用新的特征映射作为Anchore2Image网络的输入。通过重新使用边界上的神经块，特征图包含足够的细节，使得高分辨率图像重建可行。我们注意到，通过将训练分为Image2Feature和Feature2Image两个阶段，大大降低了输入和输出之间可能映射的维度利用补丁交换注入先验知识进一步指导训练过程，使得更容易找到最优变换。当与GL修复[14]相比时，我们在256x256尺寸下生成更清晰，更好的修复结果我们的方法还可扩展到更高的分辨率（即512x512），GL图像修复无法处理。与神经修复[34]相比，我们的结果在大多数示例中具有可比或更好的视觉质量。特别是，我们合成的内容与边界融合得更好天衣无缝我们的方法也快得多本文的主要贡献是：（1）设计了一个基于学习的图像修复系统，该系统能够在高分辨率图像中合成具有高质量内容和纹理的缺失部分。（2）我们提出了一种新颖且稳健的训练方案，该方案解决了特征操作的问题并避免了欠拟合。（3）我们表明，我们的训练模型可以实现与最先进的性能相媲美的性能，并推广到其他任务，如风格转换。2相关工作利用生成对抗网络（GANs）生成图像最近取得了显著的进展。vanillaGANs [12]已经显示出生成清晰图像的良好已经提出了几种技术来稳定训练过程，包括DCGAN [28]、基于能量的GAN [38]、Wasser-steinGAN（WGAN）[30，1]、WGAN-GP [13]、BEGAN [4]、LSGAN [23]和基于能量的GAN [38]。最近的Progressive GANs [19]。与修复更相关的任务是条件图像生成。例如，Pix 2 Pix [17]、Pix 2 Pix HD [32]和Cy-cleGAN [40]使用配对或未配对的数据跨不同的域翻译图像。在[35，27，34，33，14]中也研究了使用深度神经网络进行图像修复。4Y. Song等人Image2Feature网络Feature2Image网络图二、我们的网络架构概览我们使用Image2Feature网络作为粗推理，使用VGG网络提取特征图。然后patch-swap匹配从边界到孔的神经块。最后，Feature2Image网络转换为完整的高分辨率图像。我们的补丁交换可以与最近的作品在神经风格转移。 Gatys等人[10]首先将风格转移公式化为将纹理合成与内容重构相结合的优化问题。作为替代方案，[8，9，26]使用内容和风格图像之间基于神经补丁的相似性匹配进行风格转移。Li和Wand [21]优化输出图像，使得每个神经补丁与样式图像中的类似神经补丁匹配。这允许以昂贵的计算为代价的任意样式传输[5]提出了对[21]的快速近似，其中它直接构建特征图，并使用逆网络以前馈方式合成图像。传统的非神经修复算法[2，3]主要在图像空间上工作虽然它们共享补丁匹配和传播的类似想法，但它们通常对高级语义和结构信息是不可知的。3方法3.1问题描述我们将图像修复的任务形式化如下：假设我们给定一个输入图像I0，R和R ′ r分别表示丢失区域（孔）和已知区域（边界）。我们希望用可能的内容IR填充R，并将其与I0组合为一个新的完整图像I.评估修复的质量主要取决于人类感知，但理想地，IR应满足以下标准： 1. 具有鲜明的现实感 ;2. Itcontansmeaningulconten tt 和 iscoherentwithIRnd3.它看起来像地面实况图像Igt中出现的内容（如果可用）。在我们的上下文中，R可以是单个孔或多个孔。它也可以具有任意形状，放置在图像的随机位置上。VGG层●●●补丁交换跳过连接真/假配对真/假配对基于上下文的图像修复：推断、匹配和翻译5113.2系统概述我们的系统将图像修复任务分为三个步骤：推理：我们使用Image2Feature网络，用粗糙的内容填充不完整的图像作为推理，并从修复的图像中提取特征图匹配：我们在特征图上使用patch-swap来匹配从高分辨率边界到具有粗推断的孔的神经块。翻译：我们使用Feature2Image网络将特征图转换为一个完整的形象。整个流水线如图所示。3.第三章。3.3培训我们介绍了训练Image2Feature和Feature2Image网络的单独步骤。为了说明的目的，我们假设 10的大小是256x256x3，并且孔R具有大小128x128。推理：训练Image2Feature网络Image2Feature网络的目标是用粗略的预测来填补漏洞。在训练期间，到Image2Feature转换网络的输入是256x256x3不完整图像10，并且输出是大小为64x64x256的特征图F1该网络由基于FCN的模块G1组成，该模块G 1由下采样前端、多个中间残差块和上采样后端组成。G1之后是19层VGG网络的初始层[31]。在这里，我们使用VGG网络的过滤器金字塔作为类似于[10]的图像的高级表示。首先，I0作为输入被给出到G1，G1产生大小为128x128的粗略预测IR。然后将IR嵌入到R中，形成完整的图像I1，其再次通过VGG19网络以获得作为F1的relu31的激活。F1的尺寸为64x64x256。我们还使用了一个额外的PatchGAN鉴别器D1来促进对抗训练，它将一对图像作为输入，并输出真/假概率的向量。对于G1，下采样前端由三个卷积层组成，每个层的步幅为2。中间部分具有堆叠在一起的9个残余块。上采样后端与前端相反，由步长为2的三个转置卷积组成。每个卷积层后面都是批量归一化[16]和ReLu激活，除了输出图像的最后一层。我们还在所有残差块中使用扩张卷积。类似的架构已在[32]中用于图像合成和[14]中用于修复。与文献[32]不同的是，我们使用扩张层来增加感受野的大小。与[14]相比，我们的感受野也更大，因为我们在残差块中具有更多的下采样块和更多的扩张层在训练期间，总损失函数被定义为：LG 1 = λ1L感知+ λ2Ladv.（一）第一个术语是感知损失，其被证明与人类对相似性的感知更好地对应[37]，并且已被广泛用于许多任务[11，6Y. Song等人111118、7、5]：L perceptual（F，I g t）=<$MF<$（F1− vgg（I gt））<$1。（二）这里，M_F是仅在特征图的孔上产生要计算的损失的加权掩模。我们还为孔和边界之间的重叠像素分配了更高的权重，以确保合成是连贯的。VGG19网络的权重从ImageNet预训练模型中加载，并在训练期间固定。对抗损失基于生成对抗网络（GAN），定义为：L adv= max E [log（D1（I0，I gt））+log（1-D1（I0，I1））]。（三）D1我们使用一对图像作为鉴别器的输入。在对抗训练的设置下，真实对是不完整图像I0和原始图像Igt，而伪对是I0和预测I1。为了对齐每个损失的绝对值，我们分别设置权重λ1= 10和λ2= 1。我们使用Adam 优化器进行训练。学习率设为 lrG= 2e−3 和 lrD=2e−4，动量设为0.5。匹配：补丁交换操作补丁交换是一种将F1转换成新的特征图F’。我们的想法是预测IR是模糊的，缺乏-1 1很多高频细节。直观地说，我们希望传播从RomR´n到R的x图仍然提供以下的高水平信息爱尔兰共和国代替直接在I 1上操作，我们使用F1作为纹理propagation的代理。类似地，我们使用rand’toteteteergionF1correspondingtoRandR’onI1。对于在chpi（i=1，2，…N）的F1over-lapingwithithr，我们在下面的表格中找到了闭合的缓冲区互相关度量：′p，p′>d（p，p）=p·p′（4）假设pi的最接近匹配的补丁是qi，然后我们用qi替换pi。在chinr处的一个chap与chin r处的多个最小化的p进行交换之后，对ches处的多个ap进行平均，并且输出是新的特征图F’。我们举例说明这个过程图3.第三章。测量孔和边界之间的所有神经贴片对的互相关在计算上是昂贵的。为了解决这个问题，我们遵循[5]中的类似实现，并使用并行卷积来加速计算。我们将算法总结为以下步骤。首先，我们对r上的神经元进行归一化和校验，并将校验的矢量视为一个协方差滤波器。接下来，我们在r上应用卷积滤波器。结果是，在r的每个位置处，我们得到值的向量，该值的向量是在l〇cation的h处的n个值与在hesinr'处的所有值之间的互相关。最后，我们将使用最大值的最大值的最大值来执行最大值。由于整个过程可以并行化，因此时间量显著减少。实际上，处理64x64x256的特征图只需要大约0.1秒基于上下文的图像修复：推断、匹配和翻译71GT11GT̅̅(a) 搜索（b）交换图三.补丁交换操作的图示。孔r中的每个神经块片在边界上搜索最小的一个神经块片，并且该神经块片片与该神经块片片一起运行。翻译：训练Feature2Image翻译网络Feature2Image网络的目标是学习从交换的特征映射到完整清晰的图像的映射。它有一个类似于G1的U-Net风格生成器G2，除了隐藏层的数量不同。G2的输入是大小为64x64x256的特征图该生成器具有七个卷积块和八个去卷积块，并且前六个去卷积层使用跳过连接与卷积层连接。输出是一个完整的256x256x3图像。它还包括一个基于Patch-GAN的PDMD2，用于对抗训练。然而，与Image2Feature网络不同的是，它将一对图像作为输入，D2的输入是一对图像和特征图。一个简单的训练范例是使用Image2Feature网络F1的输出作为补丁交换层的输入，然后使用交换的特征F’来训练Feature2Image模型。以这种方式，从粗略预测11导出特征图，并且可以端到端地训练整个系统。然而，在实践中，我们发现这导致具有显著噪声和伪影的质量差的重建I4）.我们进一步观察到，使用地面实况作为训练输入产生显著改善的视觉质量的结果也就是说，我们使用特征图F gt=vgg（I gt）作为特征映射的输入。patch-swap图层，然后使用交换要素F′= patch swap（Fgt）来训练Feature2Image模型。由于I gt在测试时不可访问，我们仍然使用F′=patch swap（F1）作为推断的输入。请注意，现在Feature2Image模型使用不同类型的输入进行训练和测试，这不是训练机器学习模型的通常在这里，我们为这种现象提供了一些直觉从本质上讲，通过训练Feature2Image网络，我们正在学习从特征空间到图像空间的映射。由于F1是Image2Feature网络的输出，因此它固有地包含大量的噪声和模糊性。因此，由F′构成的特征空间具有比特征更高的维数′1′由F组成空间gt.结果是，该模型很容易不符合F1，使很难学会一个好的映射。或者，通过使用F’，我们选择了一个干净的，紧凑的特征子集，使得映射空间小得多，使其更容易学习。我们的实验还表明，使用地面真值训练的模型在测试时可以很好地推广到噪声输入F′。与[39]相似，8Y. Song等人1可以通过从地面实况和Image2Feature预测两者进行采样来进一步提高鲁棒性。Feature2Image转换网络的总损失定义为：LG2= λ1L感知+ λ2Ladv.（5）在最终输出和最终输出之间的整个图像上定义重建损失。我和地面实况我gt：L perceptual（I，I gt）=vgg（I）− vgg（I gt）2。（6）对抗损失由鉴别器D2给出，并定义为：L= max E [log（D（F ′，I））+log（1 − D（F ′，I））]。（七）AdvD22gtGT2gt对抗训练的真对和假对是（F′，Igt）和（F′，I）。gt gt在训练Feature2Image网络时，我们设置λ1= 10和λ2= 1。对于学习率，我们设置lr G= 2e−4和lr D= 2e−4。与Image2Feature网络相同，动量设置为0.5。3.4多尺度推理给定经过训练的模型，推理是直接的，可以在一个向前的过程中完成。输入I0依次通过Image2Feature网络得到I1和F1= vgg（I1），然后是补丁交换层（F′），最后是Feature2Image网络（I）。然后我们使用I的中心并与I0混合作为输出。0图4.第一章多尺度推理。我们的框架可以很容易地适应多尺度。关键是我们直接对较低尺度的输出进行上采样，作为下一尺度的Feature2Image网络的输入（在使用VGG网络提取特征并应用补丁交换之后）。这样，我们只需要最小尺度s0的Image2Feature网络来获得I0和F0。在更高的尺度si（i >0），我们简单地设置1 100′00G1111VGG交换1的g02上采样1111′111VGG交换G12上采样2121′21VGG交换G22基于上下文的图像修复：推断、匹配和翻译9Isi= upsample（Isi−1），令Fsi= vgg（Isi）（图4）. 训练Image2Feature1 1 1网络在高分辨率下可能具有挑战性然而，通过使用多尺度这种方法使我们能够从较低的尺度进行初始化，从而使我们能够有效地处理大输入我们在所有实验中使用多尺度推断4实验4.1实验装置我们分别在两个公共数据集上进行训练和测试： COCO [22] 和ImageNet CLS-LOC [29]。每个数据集中的训练图像数量为：COCO为118，287，ImageNet CLS-LOC为1，281，167。我们与内容感知填充（CAF）[2]，上下文编码器（CE）[27]，神经补丁合成（NPS）[34]和全局局部修复（GLI）[14]进行比较对于CE、NPS和GLI，我们使用公共可用的训练模型。CE和CAF被训练处理固定孔，而GLI和CAF可以处理任意孔。为了公平地评估，我们对固定孔和随机孔的设置进行了对于固定孔，我们在ImageNet测试集的图像大小512x512上与CAF，CE，NPS和GLI进行了比较孔被设置为224x224，位于图像中心。对于随机孔，我们使用调整为256x256的COCO测试图像与CAF和GLI进行比较。在随机孔的情况下，孔大小的范围从32到128，并且被放置在图像上的任何地方我们观察到，对于256x256图像上的小孔，使用补丁交换和 Feature2Image 网络进行优化是可选的，因为我们的Image2Feature网络在大多数情况下已经生成了令人满意的结果而对于512x512的图像，则需要应用多尺度修复，从大小256x256开始。为了解决这两种尺寸并应用多尺度，我们以256x256训练Image2Feature网络，并以256x256和512x512训练Feature2Image网络在训练过程中，我们使用提前停止，这意味着当保持的验证集上的损失收敛时，我们终止训练在我们的NVIDIA GeForce GTX 1080Ti GPU上，每个型号的训练通常需要一天时间才能完成，对于512x512图像，测试时间约为400毫秒。4.2结果定量比较表1显示了我们的方法，CE [27]，GLI [14]和NPS [34]之间的数值比较结果。我们采用三种质量测量：平均误差、SSIM和初始得分[30]。由于上下文编码器仅inpaints 128x128图像，并且我们未能针对较大输入训练模型，因此我们直接使用128x128结果并将其双线性上采样到512x512。在这里，我们也计算SSIM仅在孔面积。我们看到，虽然我们的平均1误差更高，但我们在所有方法中获得了最好的SSIM和初始得分，这表明我们的结果更接近人类感知的真实情况。此外，平均误差<1不是用于内绘制的最佳测量，因为它有利于平均颜色和模糊结果，并且不直接考虑感知质量的最终目标。10Y. Song等人表1. ImageNet的200张测试图像的数值比较方法和平均值1误差r SSIM输入ceptiO nSCORreCE [27]15.46%0.459.80NPS [34]15.13%0.5210.85GLI [14]15.81%0.5511.18我们的方法15.61%0.5611.36目视结果图9显示了我们与GLI [1]在随机孔情况下的比较。我们可以看到，我们的方法可以更好地处理多种情况，如对象删除，对象完成和纹理生成，而GLI的结果是嘈杂和不连贯的。从图10中，我们还可以发现，对于大孔，我们的结果在大多数情况下优于GLI这表明，直接训练用于大型硬件的网络是困难的，并且其中我们的“pat ch-swap”可以是最有帮助的此外，我们的结果比GLI具有显著更少的伪影。与CAF相比，我们能更好地预测全局结构并且填充与周围上下文更一致的内容。与CE相比，我们可以处理更大的图像和合成的内容更清晰。与大多数情况下依赖于并行工程的并行算法相比，我们的算法在大多数情况下具有相似或更好的质量，并且我们的算法运行速度也要快得多。同时，我们的最终结果比Image2Feature的中间输出有所改善。这表明使用补丁交换和Feature2Image变换是有益的和必要的。为了更好地评估和比较其他方法，我们从COCO测试集中随机选择了400张图像，并将这些图像随机分发给20个用户。每个用户都会得到20张有洞的图像，以及NPS，GLI和我们的修复结果。他们每个人都被要求以非递增的顺序对结果进行排名（这意味着他们可以说两个结果具有相似的质量）。我们总共收集了399张有效选票，发现我们的结果在大多数情况下排名最好：在75.9%的排名中，我们的结果获得了最高分。特别是，我们的结果压倒性地优于GLI，在91.2%的时间内获得更高的分数。这主要是因为GLI不能很好地处理大孔。我们的结果也与NPS相当，排名更高或相同的86.2%的时间。4.3分析比较与[34]相比，我们的方法不仅速度快得多，而且有几个优点。首先，Feature2Image网络合成了整个图像，而[34]只优化了孔部分。通过对齐输出和输入之间边界的颜色，我们可以稍微调整色调，使孔融合的边界更无缝和自然（图。第10段）。其次，我们的模型经过训练，可以直接对真实世界图像的统计数据进行建模，并且在所有分辨率上都能很好地工作，而[34]在图像较小时无法产生锐利的结果与其他基于学习的基于上下文的图像修复：推断、匹配和翻译110修复方法，我们的方法更通用，因为我们可以处理更大的输入，如512x512。相比之下，[27]只能修复128x128的图像，而[14]仅限于256x256的图像，并且孔被限制为小于128x128。消融研究对于Feature2Image网络，我们观察到用大小卷积层替换解码器部分中的去卷积层解决了如[25]中所述的棋盘图案（图2B）。左5）。我们还尝试只使用2损失而不是感知损失，这会使图像更模糊（图2）。5中间）。此外，我们实验了VGG19的不同激活层以提取特征，并且发现relu3 1比relu2 1和relu4 1工作得更好。我们还可以通过多次运行Material2Image网络来使用迭代推理在每次迭代中，最终输出用作VGG和补丁交换的输入，然后再次提供给Feature2Image网络进行推理。我们发现迭代地应用Feature2Image可以提高纹理的清晰度，但有时会在边界附近聚集伪影。对于Image2Feature网络，替代方案是使用vanilla上下文编码器[27]来生成I0作为初始推断。然而，我们发现我们的模型产生了更好的结果，因为它更深，并且利用了完全卷积网络和膨胀层。(a)（b）（c）（d）（e）（f）（g）图五、左：使用反卷积（a）与调整大小卷积（b）。中间：使用2重建损失（c）与使用感知损失（d）。右图：使用不同的输入数据训练Feature2图像（e）使用Image2Feature预测训练时的结果(f)使用ground truth训练时的结果。(g)使用地面实况和预测混合进行微调时的结果。如第3.3，保证Feature2Image网络成功训练的一个重要实践图5还显示，使用来自Image2Feature网络的预测进行训练会产生非常嘈杂的结果，而使用地面实况训练或使用地面实况和预测混合物进一步微调的模型可以产生令人满意的修复。我们的框架可以很容易地应用到现实世界的任务。图图6显示了使用我们的方法去除摄影中不需要的物体的示例鉴于我们的网络是完全卷积的，因此将其应用于任意大小的照片是直接的它还能够填充任意形状的孔，并且可以处理比[15]大得多的孔。12Y. Song等人Approximure2Image网络本质上学习了一个通用函数，从交换的特征图中重建图像，因此也可以应用于其他任务。例如，通过首先从内容和样式图像构建交换的特征映射，我们可以使用网络来重建新图像以进行样式传输。图7显示了使用我们在COCO上训练的Anterior2Image网络进行任意风格转换的示例。尽管网络对于正在传输的样式是不可知的，但是它仍然能够生成令人满意的结果并且实时运行。这表明我们的线性模型具有很强的泛化能力，因为它只在单个COCO数据集上实现，而不像其他的(a)（b）（c）（d）（e）（f）见图6。真实世界照片的任意形状修复。(a)、（d）：输入。(b)（e）：修复掩模。(c)（f）：产出。(a)（b）（c）（d）（e）（f）图7.第一次会议。任意样式传输。（a）、（d）：内容。（b）、（e）：文体。（c）、（f）：结果。我们的方法非常适合恢复部分丢失的物体，如飞机或鸟（图1）。第10段）。然而，如果图像具有过度复杂的结构和图案，或者对象的主要部分丢失，使得Image2Feature网络无法提供良好的推断，则它可能会失败（图2）。（八）。(a)（b）（c）（d）（e）（f）图8. 故障案例。（a）、（c）和（e）：投入。（b）、（d）和（f）：产出。基于上下文的图像修复：推断、匹配和翻译13见图9。ImageNet结果与随机孔的视觉比较。每个示例从上到下：输入图像，GLI [14]，我们的结果。所有图像的大小为256× 256。5结论我们提出了一种基于学习的方法来合成高分辨率图像中丢失的内容我们的模型是能够inpaint图像与现实和尖锐的内容在一个前馈的方式。我们表明，我们可以通过将任务分解为多个阶段来简化训练，其中每个阶段的映射函数具有较小的维度。值得注意的是，我们的方法是一种Meta算法，自然我们可以探索各种网络架构和训练技术，以改善推理和最终结果。我们还期望类似的多阶段、多尺度训练的思想可以用于直接从采样合成高分辨率图像。6致谢这项工作得到了ONR YIP资助N 00014 -17-S-FO 14、CONIX研究中心（ JUMP 的六个中心之一）、由 DARPA 赞助的半导体研究公司（SRC）计划、Andrew和Erna Viterbi早期职业主席、美国国防部科学技术研究所（ U.S. Electrical Research Institute of Technology ，简称DARPA ）和美国国防部科学技术研究所（ U.S. Electrical ResearchInstitute of Technology ，简称 U.S. Electrical Research Institute ofTechnology，简称U.S.）的部分支持。陆军研究实验室（ARL），合同号W 911 NF-14-D-0005，Adobe。资料的内容并不一定反映政府的立场或政策，亦不应推断政府对此表示认可。14Y. Song等人图10个。ImageNet和COCO结果的可视化比较每个例子从左到右：输入图像，CAF [2]，CE [27]，ESTA [34]，GLI [14]，我们的结果w/o Anchore 2Image，我们的最终结果。所有图像的大小为512 ×512。基于上下文的图像修复：推断、匹配和翻译15引用1. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein gan arXiv预印本arXiv：1701.07875（2017）2. 巴恩斯角Shechtman，E.，Finkelstein，A.，Goldman，D.B.：Patchmatch：一种用于结构图像编辑的随机对应算法. ACM Trans. Graph. 28（3）、243. 巴恩斯角Shechtman，E.，戈德曼，D. B. Finkelstein，A.：广义面片匹配对应算法。欧洲计算机视觉会议。pp. 29比43 Sprnger（201 0）4. Berthelot，D.，Schumm，T.，梅斯湖：开始：边界平衡生成对抗网络。arXiv预印本arXiv：1703.10717（2017）5. Chen，T.Q.，施密特，M.：快速的基于补丁的任意风格转移。arXiv预印本arXiv：1612.04337（2016）6. Denton，E.L.，Chintala，S.，费格斯河等：使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在：神经信息处理系统的进展。pp. 14867. Dosovitskiy，A.，Brox，T.：基于深度网络生成具有感知相似性度量的图像。在：神经信息处理系统的进展。pp. 6588. Elad，M.，Milanfar，P.：通过纹理合成进行风格转换IEEE TransactionsonImgeProcess ing26（5），23389. 弗里戈岛Sabater，N.德隆，J.，Hellier，P.：拆分和匹配：用于无监督风格转换的基于示例的自适应补丁采样。 In ： Proceedings of the IEEEConferenceonComuterVis isinandPater nRecognitin. pp. 55310. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：艺术风格的神经算法。arXiv预印本arXiv：1508.06576（2015）11. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络的图像风格转换。 In ： Computer Vision and Pattern Recognition （ CVPR ）， 2016IEEEConferenceon. pp. 2414-2423 2016年IEEE12. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 267213. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.：改进的瓦瑟斯坦甘斯训练。arXiv预印本arXiv：1704.00028（2017）14. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的图像完成。ACM Transactions on Graphics（Proc. 36（4），107：1 - 107：14（2017）15. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的图像完成。ACM Transactions on Graphics（TOG）36（4），107（2017）16. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167（2015）17. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译arXiv预印本arXiv：1611.07004（2016）18. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和更新的感知损失。 In：EuropeanConferenceonCom up uterVison。pp. 694-711 Springer（2016）19. Karras，T.，Aila，T. Laine，S.，Lehtinen，J.：GAN的逐步增长，以提高质量，稳定性和变化。arXiv预印本arXiv：1710.10196（2017）16Y. Song等人20. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。ArXiv预印本arXiv：1312.6114（2013）21. Li，C.，Wand，M.：结合马尔可夫随机场和卷积神经网络的图像合成。在：ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。pp. 247922. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。在：欧洲会议上的竞争对手。pp. 740-755 02TheDog（2014）23. 毛泽东，李，Q.，谢，H.，Lau，R.Y.，王志，Smolley，S.P.：最小二乘生成对抗网络。arXiv预印本ArXiv：1611.04076（2016）24. Nguyen，A.，Yosinski，J.，Bengio，Y.，Dosovitskiy，A.，Clune，J.：即&插即用生成网络：潜空间中图像的条件迭代生成。arXiv预印本arXiv：1612.00005（2016）25. Odena，A.，Dumoulin，V.，Olah，C.：反卷积和棋盘式伪影。Dis-till（2016）.https：//doi.org/10.23915/distill.00003，http://distill.pub/2016/deconv-checkerboard26. van den Oord，A.，Kalchbrenner，N.埃斯佩霍尔特湖Vinyals，O.，格雷夫斯，A.，等：用pixelcnn解码器生成条件图像在：神经信息处理系统的进展。pp. 479027. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。In：Proceedings of the IEEEConference on C〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 253628. Radford，A.梅斯湖Chin

下载后可阅读完整内容，剩余1页未读，立即下载