基于结构感知外观流的图像修复

15 浏览量更新于2023-10-12 收藏 2.26MB PDF 举报

纹理生成

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1、StructureFlow：基于结构感知外观流的图像修复任玉瑞1、余小明2、张若南2、托马斯H.李3，1刘珊4葛李121北京大学电子与计算机工程学院2彭城实验室3北京大学信息技术高级研究院4腾讯美国yrren@pku.edu.cnxiaomingyu@pku.edu.cnzhangrn@pcl.ac.cntli@aiit.org.cnshanl@tencent.comgeli@ece.pku.edu.cn摘要近年来，深度神经网络在图像修复技术中取得了显著的进步.然而，它们中的大多数要么不能重建合理的结构，要么不能恢复细粒度的纹理。为了解决这个问题，本文提出了一个两阶段模型，将修复任务分为两个部分：结构重建和纹理生成。在第一阶段中，边缘保持的平滑图像被用来训练一个结构重建器，该结构重建器完成输入的缺失结构在第二阶段，基于重构的结构，设计了一个基于外观流的纹理生成器，以产生图像细节。在多个公开数据集上的实验表明了该网络的优越性能。1 . 介绍图像修复是指生成替代结构和纹理的损坏的输入图像的丢失区域，并获得视觉上逼真的结果。它具有广泛的应用范围。例如，用户可以通过使用绘画技术来移除不想要的对象或编辑图像的内容。图像修补任务的一个主要挑战是生成正确的结构和逼真的纹理。一些早期的基于补丁的作品试图用来自现有区域的图像补丁填充缺失的洞[1，8]。这些方法通过最近邻搜索和复制相关的补丁，可以合成生动的纹理来完成背景修复任务。然而，由于这些方法不能捕捉到高层次的语义，它们很难为具有非重复模式（例如：脸）。随着深度神经网络技术的出现，最近的一些作品[22，12，32，33，16]将修复任务建模为条件生成问题，其学习输入损坏图像和地面真实图像之间的映射函数。这些方法能够学习意味着-图1.（从左到右）输入损坏图像、重建结构图像、外观流场可视化、最终输出图像。我们的方法首先恢复丢失区域的全局结构，然后根据恢复的结构从现有区域中采样特征生成纹理为了可视化外观流场，我们绘制了一些典型的缺失区域的样本点。箭头表示表观流量的方向。简单的语义，因此它们可以为缺失的漏洞生成连贯的结构。然而，由于这些方法不能有效地分离的结构和纹理信息，他们往往遭受过平滑的边界或纹理文物。为了解决这个问题，提出了一些两级网络[33，26，21]这些方法在第一阶段中恢复丢失的结构，并在第二阶段中使用重构的信息述的方法181182在[33]中提出的使用地面实况图像作为标签结构恢复。然而，地面实况图像包含高频纹理。这些无关的细节可能会误导结构重建。Spg-net [26]预测缺失区域的语义分割标签作为结构信息。然而，具有相似语义标签的区域可能具有不同的纹理（例如，同一建筑物的窗户和墙壁），这给最终回收造成了困难。使用边缘图像作为结构指导，EdgeConnect [21]即使对于一些高度结构化的场景也取得了良好的效果然而，边缘图像的分布与目标图像的分布有很大不同。换句话说，边缘提取器丢弃了太多有用的信息，例如图像颜色，使得难以生成生动的纹理。在本文中，我们提出了一种新的两阶段网络结构流图像修复。我们的网络由一个结构重建器和一个纹理生成器。为了恢复有意义的结构，我们采用边缘保持平滑图像来表示图像场景的全局结构。边缘保留平滑方法[30，31]旨在去除高频纹理，同时保留尖锐边缘和低频结构。通过使用这些图像作为结构重建器的指导，网络能够专注于恢复全局结构，而不受无关纹理信息的干扰。在重建丢失的结构后，使用纹理生成器来合成高频细节。由于具有相似结构的图像邻域是高度相关的，因此可以使用未损坏的区域来生成缺失区域的纹理然而，卷积神经网络很难对长期相关性进行建模[33]。为了在不同区域之间建立清晰的关系，我们建议使用外观流[35]从具有相似结构的区域中采样特征，如图1所示。由于在修复任务中外观流很容易陷入糟糕的局部最小值[33]，因此在这项工作中，我们进行了两次修改以确保训练过程的收敛。首先，用高斯采样代替双线性采样，扩大了采样操作的感受野。其次，我们引入了一个新的损失函数，称为采样正确性损失，以确定是否正确的区域被采样。主观和客观的实验比较，几个国家的最先进的方法表明，我们的方法可以达到竞争力的结果。此外，我们进行消融研究，以验证我们的假设和修改。我们的论文的主要贡献可以概括为：• 我们提出一个结构重建器来产生边缘保留的平滑影像作为整体的结构资讯.• 我们引进外观流程，建立长期在缺失区域和现有区域之间进行校正，以生成生动的纹理。• 为了简化外观流的优化，我们提出用高斯采样代替双线性采样，并引入一种新的采样正确性损失。• 在多个公共数据集上的实验表明，我们的方法能够取得有竞争力的结果。2 .相关工作2.1.图像修复现有的图像修复工作可以大致分为两类：使用基于扩散或基于分块的技术的方法和使用深度神经网络的方法。基于扩散的方法[2，6]通过将邻域外观传播到目标孔来合成纹理。然而，这些方法只能处理背景修复任务中的小孔。它们可能无法产生有意义的结构。与基于扩散的方法仅使用丢失孔的邻域像素不同，基于块的方法可以利用远程信息来恢复丢失区域。基于补丁的方法[1，8，3]通过从源图像的未损坏区域搜索和复制相似的图像补丁来填充目标区域。这些方法可以为相对较大的缺失孔生成照片般逼真的纹理。为了找到合适的图像块，提出了双向相似性[24]，以在计算块相似性时捕获更多的视觉信息并引入更少的视觉伪影为了减少计算量，PatchMatch [1]利用图像中的自然相干性作为先验信息，设计了一种快速最近邻搜索算法。然而，这些基于块的方法假设非孔洞区域与缺失区域具有相似的语义内容，这在诸如人脸图像修补的某些任务中可能不成立。因此，它们可能在具有重复结构的一些图像中工作得很好，但对于具有独特结构的图像不能产生合理的结果。最近，已经提出了许多基于深度学习的方法来将修复任务建模为条件生成问题。这些方法的一个显著优点是，它们能够从损坏的图像中提取有意义的语义，并为图像生成新的内容。上下文编码器[22]是早期的尝试之一。它使用编码器-解码器架构，首先提取特征，然后重建输出。然而，这个网络很难保持全局一致性，并且十有八九会生成带有视觉伪影的结果。Iizuka等人[12]通过使用局部和全局判别器来解决这个问题，局部和全局判别器分别负责为缺失的孔生成真实的变化内容和保持竞争图像的一致性。Yu等人[33]寻找183S$yc$y@R@coµ3$yc$oy伊什伊什T@x$y@G@ µ@yp$oy（a#$ℒℒ&（a#$R@coY@y@d S$y c$y@Gp 33jpµSpmpljµgFjµplR@3l$Mp3k + Iµp $ +Iµp $ S$y c$y@Mp3k + Iµp$ +R@coY@y@d S$yc$y@：CoµYol oµpl Block 3：RQ 3 d plBlock 3ℒ&）应用程序@pypµc@ Floy图2.我们的StructureFlow概览。我们的模型首先生成全局结构（即边缘保留的平滑图像）。然后使用纹理生成器产生高频细节并输出最终结果。我们将外观流添加到我们的纹理生成器中，以从现有区域中采样特征。卷积神经网络在建立长期相关性方面是无效的。为了解决这个问题，他们提出了上下文注意，借用偏远地区的功能。Liu等[16]相信输入的掩蔽孔中的替代像素将伪像引入到最终结果中。因此，他们提出了部分卷积来迫使网络只使用有效像素（未损坏的像素）。门控卷积[32]通过将特征选择机制扩展为可针对所有层的每个位置进行学习，进一步推广了这一思想。在论文[ 21 ]中提出的EdgeConnect与我们的论文具有相似的动机：通过使用附加的先验信息产生合理的结构。EdgeConnect首先恢复边缘图，然后以精细的细节填充丢失的区域然而，由于边缘图的表达能力有限，这种方法可能会产生错误的细节的对象的边界。2 .2. 光流与显流光流用于描述连续视频帧之间的物体、表面和边缘的运动。它已被广泛用于视频帧合成[37，29]，动作识别[25，28]等。光流估计是计算机视觉中的一个重要课题。已经提出了许多方法[11，27最近，一些方法[5，13]通过训练深度神经网络来解决这个问题。然而，这些技术需要足够的地面真实光流场，这是非常难以获得的。因此，创建了一些合成光流数据集[5]用于训练。其他一些方法[18，19]通过以无监督的方式训练网络来解决这个问题然而，许多现有的无监督光流估计方法难以捕获大的运动。一些论文[18，23]设法使用多尺度方法来改善结果。我们认为，这是由于有限的接受领域，双线性采样。在本文中，我们使用高斯采样作为一种改进。[35]提出的外观流用于使用基于流的方法从源场景（对象）生成目标场景（对象）。该算法通过计算源和目标之间的相关性来预测目标的二维坐标矢量（即目标坐标）。外观流场）。这个想法可以用于图像修复任务。为了为缺失孔生成真实的替代内容，可以合理地在本文中，我们改进了[35]中的外观流程，使其适用于图像修复任务。3 .我们的方法我们的StructureFlow修复网络的框架如图2所示。我们的模型由两部分组成：结构重建器Gs和纹理生成器Gt。结构重建器Gs用于预测丢失的结构，从而生成全局结构图像S。纹理生成器G t根据重构的结构St i绘制细节并输出最终结果StI。3.1.结构重建器图像修复任务的一个主要挑战是为缺失区域生成有意义的结构。为此，我们首先设计了一个结构重建器Gs，用于恢复输入图像的全局结构.边缘保留平滑方法[30，31]旨在去除高频纹理，同时保留尖锐边缘和低频结构。其结果能很好地代表全局结构。设Igt为地面实况图像，Sgt为Igt的边缘保持平滑结果。我们的结构重建器Gs的处理可以写为：S=Gs（Iin，Sin，M）（1）184Cℓ1advℓ1其中M是输入图像Iin的掩码。它是一个二值化矩阵，其中 1 表示缺失区域， 0 表示背景。Sin=Sgt<$（1−M）是的结构。在这里，表示元素级乘积。S是预测的结构。Gs的重建损失被定义为预测结构Sg和地面真实结构Sgt之间的距离。s=S−Sgt1（2）同时，为了模拟目标结构Sgt的分布，我们将生成对抗框架[7]应用于我们的结构重建器。Gs的对抗损失可以写为：生动的纹理信息可以“流”到损坏的区域。然而，以无监督的方式训练外观流是一项艰巨的任务[18，23]。网络可能难以捕捉大的运动，并陷入糟糕的局部最小值。为了解决这个问题，我们首先提出使用高斯采样而不是双线性采样来扩大感受野。然后，我们提出了一个采样正确性损失来约束可能的收敛结果。采样过程根据输入像素（特征）计算梯度。如果采样操作的感受野是有限的，则只有少数像素可以参与操作。由于相邻像素（特征）通常是高度相关的，因此需要大的感受野因此，BilinearLs=E[log（1-D（G（I，S（M））用非常有限的感受野采样可能不适合-AdvSs在in能够用于需要建立长期相关性的任务。+E[logDs（Sgt）]（3）其中Ds是结构反射器的反射率。我们使用以下优化来联合训练生成器Gs和BHDs为了扩大感受野，我们在出现流操作中使用高斯采样代替双线性采样。具有核大小n的高斯采样操作的过程可以写为：min maxLs（G，D）=λsLs+λsLs（四）Σn ΣnFo=0ai，jΣFi，j（8）GsDsss1 ℓ1AdvAdvi=1j=1ni=1nj=1 ai，j其中λs和λs是正则化参数。我们设定advλs = 4和λ s= 1。3 .2.纹理生成器在获得重构的结构图像S_t 后，我们的纹理生成器G_t被用来产生逼真的纹理。纹理生成器Gt的处理可以写为：I=Gt（Iin，S其中，RNI表示最终输出结果。我们使用100%的损失来计算重建误差。其中Fi，j是样本中心周围的特征，Fo是输出功能。权重ai，j计算为：2002年2月2日ai，j=exp（−2σ2）（9）其中，Rlh和Rlv分别是采样中心与特征Fi，j之间的水平距离和垂直距离。参数σ用于表示高斯采样核的方差。提出的采样正确性损失被用来约束外观流场。它决定了t=I−Igt1（六）当前采样区域是“好的”选择。我们使用预先训练的VGG19来计算这种损失。我们特别为了生成逼真的结果，我们在纹理生成器中使用了对抗性损失。首先计算输入损坏图像Iin和地面实况图像Igt的VGG特征。设Vin和Vgt是由VGG19的特定层生成的特征。对称t; t;t=E[log（1-Dt（Gt（Iin，St，M）]+E[logDt（Igt）]（7）BolM表示包含缺失区域坐标的坐标集，N是集合M中元素的数量。然后，我们的采样正确性损失计算相对由于具有相似结构的图像区域是高度相关的，因此可以使用重建的结构S来提取这些相关性以用于纹理生成，从而提高图像的质量。地面实况特征与采样特征1µA（Vgt，Vin）演出然而，卷积神经网络对于捕获长期依赖性并不有效[33]。为了在不同的人之间建立明确的关系LLL185MaxLt=N（x，y）∈Mexp（−x，yx+ x，y+y）（10）x为oh区域，我们将外观流引入到我们的Gt。作为V在x+∆x，y+∆y是通过以下方法计算的采样要素：如图2所示，外观流用于扭曲提取输入的特征。因此，包含我们的高斯采样和μ（μ）表示余弦类似，是的 µmax是一个归一化项。对于每个特征Vgtx，y x，yµ哪里186x为ohPSNRSSIMFID掩模0-20%20-40%40-60%0-20%20-40%40-60%0-20%20-40%40-60%CA27.15020.00116.9110.92690.76130.57184.858618.419037.9432PConv31.03023.67319.7430.90700.73100.5325---EdgeConnect29.97223.32119.6410.96030.86000.69163.00977.263519.0003我们32.02925.21821.0900.97380.90260.75612.94207.035422.3803表1. CA [33]，PConv [16]，EdgeConnect [21]和我们的模型在数据集Places2 [34]上的评估结果。由于代码和PConv的模型不可用，我们报告了他们的论文中提出的结果其中（x，y）∈M，我们从Vin，并计算它们的余弦相似度为µ max。纹理元素的最大大小。在4.3节中，我们讨论了σ对最终结果的影响.我们根据经验发现当我们设置σ=3时获得的最佳结果。µmax=maxµ（Vgt，Vin’）（11）我们分阶段训练模型。第一，结构调整--x，y′′x，yx′，y（x，y）∈Ω其中，V表示包含Vin中的所有坐标的坐标集。我们的纹理生成器使用以下内容结构器Gs和纹理生成器Gt使用边缘保留图像Sgt分别训练。然后，我们继续使用重构的结构St对G t进行微调。该网络使用256×256幅图像进行训练，优化不t tt t t t t尺寸为12。我们使用亚当优化器[15]与学习率为10- 4。min maxL（Gt，Dt）=λ1L1+λcLc+λadvLadv（12）GtD t4.2. 比较其中λt，λt和λt是超参数在我们101cAdv我们主观和客观地比较我们的方法实验中，我们设置λ t= 5，λ t= 0。25和λt=1时。101c4 . 实验Adv使用几种最先进的方法，包括上下文注意力（CA）[33]，部分卷积（PConv）[16]和EdgeConnect [21]。4.1。实现细节基本上，自编码器结构被用来设计我们的生成器Gs和GT。添加几个残差块[9]以进一步处理特征。对于外观流，我们将扭曲的特征与卷积块获得的特征连接起来。我们的鉴别器的架构类似于BicycleGAN [36]。我们使用两个具有不同尺度的PatchGAN [14]来预测真实的vs。为具有不同大小的重叠图像块进行假操作。为了解决生成对抗网络的不稳定训练的臭名昭著的问题，在我们的网络中使用了谱归一化[20我们在三个公共数据集上训练我们的模型，包括Places2 [34]、Celeba [17]和Paris StreetView [4]。最具挑战性的数据集Places2包含超过1000万张图像，包括400多个独特的场景类别。Celeba和Paris StreetView分别包含高度结构化的人脸和建筑物图像。我们使用[16]提供的不规则掩模图像基于它们相对于整个图像的孔尺寸（例如，0-20%等）。我们采用边缘保持平滑方法RTV [31]来获得结构重建器Gt的训练标签。在RTV平滑方法中，使用参数σ来控制平滑窗口的空间尺度，从而控制平滑窗口的图像修复任务缺乏专门的定量评价指标。为了尽可能准确地比较结果，我们采用了两种类型的度量：失真测量度量和感知质量测量度量。结构相似性指数（SSIM）和峰值信噪比（PSNR）假设理想的恢复结果与目标图像完全相同它们用于测量结果的失真。Fre'chetInceptionDistance（FID）[10]计算两个分布之间的因此，它可以指示结果的感知质量。在本文中，我们使用预训练的Inception-V3模型来提取真实图像和修复图像的特征，同时计算FID分数。位置2的最终评价结果报告于表1中。我们计算了测试集中10k个随机图像的统计量可以看出，与其他模型相比，我们的模型取得了竞争力的结果。主观比较我们在亚马逊土耳其机器人（MTurk）上进行了人类主观研究我们要求志愿者从真实图像和生成图像中对于每个数据集，我们随机选择600张图像，并为它们分配从0%到60%的随机掩码比率进行评估。每个图像由不同的志愿者比较5次。评估-评价结果如表2所示。我们的模型在高度结构化的领域取得了比竞争对手更好的结果187图3.与现有模型的定性比较。(From从上到下）输入损坏的图像，CA的结果[33]，EdgeConnect的结果[21]，我们的StructureFlow的结果和地面实况图像。CAEdgeConnect我们Celeba5.68%26.28%32.04%巴黎百分之十七点三六33.44%33.68%地点28.72%26.36%23.56%表2.用户研究的评价结果。志愿者被要求从真实图像和生成图像的图像对中选择更真实的图像。表中提供了愚弄率场景，如人脸数据集Celeba和街景数据集Paris。这表明我们的模型可以为缺失区域生成有意义的结构我们还在数据集Places2中实现了图3显示了不同模型的一些示例结果。年龄的颜色恢复时，全球结构。因此，EdgeConnect可能会为某些缺失区域填写不正确的详细信息同时，不同对象的边缘可能在边缘图中混合在一起，这使得难以生成纹理。相比之下，我们的边缘保持平滑图像可以很好地代表图像的结构。因此，我们的模型可以很好地平衡结构重建和纹理生成。甚至对于具有大孔比率的一些高度结构化的图像，也获得了照片般逼真的结果。4.3。消融研究在本节中，我们将从两个角度分析StructureFlow的每个组件对最终性能的贡献：结构和外观流程。在本文中，我们假设，埃尔斯可以看出，元胞自动机的计算结果存在误差。这意味着该方法可能难以平衡纹理和结构的生成。EdgeCon能够恢复正确的全局结构。然而，它可能在对象的边缘处生成错误的细节。我们的方法可以生成有意义的结构，以及生动的纹理。我们还在图4中提供了EdgeConnect和我们的模型的重建结构。我们发现边缘图丢失了太多有用的信息，如IM-结构信息对于图像修复任务因此，我们首先重建结构，并使用它们作为先验信息来生成最终结果。为了验证这一假设，我们删除了我们的结构recruiter- tor和训练一个修复模型，只有纹理generator。损坏的图像及其掩码直接输入模型。请注意，我们还保留了网络中的外观流，以便进行公平的比较。结果示于表3中。可以看出，我们的结构-地面实况我们EdgeConnectCA输入188Iµp gço µ dha=0 a=3 a=9图5.RTV保边光顺方法中参数σ对最终结果的影响最后三列显示了由σ = 0生成的平滑图像训练的模型的结果。0、3、9，其中第一行显示结构重建器的结果，第二行显示生成的结果。PSNRSSIM巴黎无结构28.460.8879不带光面28.410.8848无流量28.770.8906结构流29.250.8979Celeba无结构29.420.9324不带光面29.610.9335无流量29.910.9368结构流30.310.9420输入EdgeConnect的结构EdgeConnect结构我们我们表3.消融研究的评价结果我们提供四个模型的统计：在没有结构重建器的情况下训练的模型（即，w/o结构），使用地面图4. EdgeConnect [21]和我们的StructureFlow之间的视觉比较。（从左到右）输入损坏的图像、EdgeConnect的重建结构、Edge-Connect的修补结果、StructureFlow的重建结构、StructureFlow的修补结果。真实重建器可以给模型带来稳定的性能增益。然后，我们把注意力转向边缘保持的平滑图像。我们相信边缘保持平滑图像能够表示结构，因为平滑操作去除了高频纹理。为了验证这一点，我们使用地面实况图像Igt作为结构重建器的标签来训练模型。结果可见于表3中。与StructureFlow相比，我们可以发现使用包含高频纹理的图像作为结构会导致性能下降。然而，很难准确地区分图像的纹理和结构。平稳运行的适当程度是多少？我们发现在结构重建器和纹理生成器之间存在一个折衷。如果去除的纹理很少，则结构重建将更加困难，因为它需要作为结构重建器的标签的真实图像（即，w/o Smooth），在没有外观流操作的情况下训练的模型（即，w/o Flow）和我们的完整模型（即，StructureFlow）。统计是基于随机掩模，掩模比为0%-60%。σ= 0σ= 1σ= 3σ= 6σ= 9PSNR28.4128.8129.2529.1428.98SSIM0.88480.88960.89790.89620.8990表4.使用σ= 0，1，3，6，9生成的边缘保留图像训练模型的数据集Paris上的评估结果。统计数据基于随机掩码，掩码比率为0%-60%。恢复更多信息。但是，纹理生成将更容易。因此，我们需要平衡这两项任务的难度，以取得更好的效果。我们使用RTV [31]光滑方法中的σ来控制Sgt中纹理元素的最大尺寸。σ值越大，计算结果越平滑。我们使用从σ= 0，1，3，6，9生成的平滑图像来训练我们的StructureFlow。对数据集Paris的评价结果如表4所示。可以看出，当σ= 3时获得最佳结果。太小和太大的σ值都会导致模型性能下降。在图5中可以找到一个示例。当189WCWBIµp大肠杆菌代码µg Mpp/oSpplµgCOÇQc µQ 33 Lo33U3 ″ g B ″ l ″Qp ″Sp″pl″g南佛洛图6.高斯采样的消融研究和采样正确性损失。使用所提供的彩色编码图可显示外观流场。流动方向用颜色编码，大小用颜色强度编码。σ= 0时，结构重建器无法生成合理的结构，因为它受到无关纹理信息的干扰。当使用σ= 9训练时，纹理生成器未能产生真实的图像，因为一些有用的结构信息被去除。流动消融在本消融研究中，我们首先评估我们的外观流动带来的性能增益然后，我们说明了高斯采样的有效性和采样正确性损失。为了验证我们的外观流的有效性，我们在不使用纹理生成器中的外观流块的情况下训练模型。评价结果见表3。可以看出，我们的StructureFlow比没有使用外观流操作训练的模型具有更好的性能，这意味着我们的外观流可以帮助纹理生成并提高模型性能。接下来，我们测试我们的高斯采样和采样正确性损失。本消融研究训练了两个模型：在外观流的翘曲操作中使用双线性采样训练的模型和在不使用采样正确性损失的情况下训练的模型。图6显示了这些模型获得的表观流场。可以看出，在不使用采样正确性损失的情况下训练的模型双线性采样也无法捕捉长期相关性。我们的StructureFlow获得了一个合理的流场，并为遗漏区域生成逼真的纹理。4 .4.用户案例我们的方法可以用于一些图像编辑appli-阳离子。图7提供了一些使用示例。用户可以通过在输入中交互地绘制遮罩来移除不需要的对象。我们的模型能够为缺失的区域生成现实的替代内容。另外通过图7.使用我们的StructureFlow的对象删除和图像编辑示例。我们的模型能够为缺失的区域生成逼真的替代内容。直接编辑结构图像，用户可以复制或添加新的对象和内容到图像。5 . 结论在本文中，我们提出了一个有效的结构感知框架恢复损坏的图像与有意义的结构和生动的纹理。我们的方法将修复任务分为两个子任务：结构重建和纹理生成。我们证明了边缘保持的平滑图像可以很好地表示全局结构信息，并在修复任务中发挥重要作用。在纹理生成方面，我们使用外观流从相关区域中抽取特征。我们验证了我们的流程操作可以给最终的结果带来稳定的性能增益。我们的方法可以获得竞争力的结果相比，几个国家的最先进的方法。我们的源代码可在以下网址获得：https://github.com/RenYurui/鸣谢。本课题得到了深圳市科技计划项目（JCYJ20170818141146428）、深圳市智能多媒体与虚拟现实重点实验室（ZDSYS201703031405467）的支持。此外，我们感谢匿名评论者的宝贵意见。190引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ACM Transactions on Graphics（ToG），第28卷，第24页中。ACM，2009年。一、二[2] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。第27届计算机图形和交互技术年会论文集，第 417-424 页。 ACMPress/Addison-Wesley Publishing Co. 2000. 2[3] Soheil Darabi，Eli Shechtman，Connelly Barnes，Dan BGoldman，and Pradeep Sen.图像融合：使用基于块的合成来组合不一致的图像。ACM Trans.Graph. ，31（4）：82-1，2012. 2[4] Carl Doersch 、 Saurabh Singh 、 Abhinav Gupta 、 JosefSivic和Alexei Efros。是什么让巴黎看起来像巴黎？ACM Transactions on Graphics，31（4），2012。5[5] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页，2015年。3[6] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在第28届计算机图形和交互技术年会的会议记录中，第341-346页ACM，2001年。2[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26724[8] James Hays和Alexei A Efros。使用数百万张照片完成场景。 ACM Transactions on Graphics （ TOG ）， 26（3）：4，2007. 一、二[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年。5[11] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence，17（1-3）：185-203，1981. 3[12] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（Proc. SIGGRAPH 2017），36（4）：107：1-107：14，2017。一、二[13] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议上，第2462-2470页，2017年。3[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。5[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[16] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。在欧洲计算机视觉会议（ECCV）的会议记录中，第85-100页，2018年。一、三、五[17] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在IEEE计算机视觉国际会议论文集，第3730-3738页5[18] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深体素流的视频帧合成。在IEEE计算机视觉国际会议论文集，第4463-4471页，2017年。三、四[19] Simon Meister，Junhwa Hur，and Stefan Roth. Unflow：对具有双向集中损失的光流进行无监督学习。2018年第32届AAAI人工智能。3[20] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv：1802.05957，2018。5[21] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成图像内绘。 arXiv 预印本 arXiv ：1901.00212，2019。一、二、三、五、六、七[22] DeepakPathak、 PhilippKr aühenbuühl 、 Jef fDonahue 、TrevorDarrell和Alexei Efros。上下文编码器：通过修复进行特征学习。2016. 一、二[23] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流估计。在IEEE计算机视觉和模式识别会议集，第4161-4170页，2017年。三、四[24] D. Simakov，Y. Caspi，E. Shechtman和M.伊拉尼利用双向相似性对视觉数据进行求和.在2008年IEEE计算机视觉和模式识别会议上，第1-8页，2008年6月。2[25] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在Advances in neural informationprocessing systems，第5683[26] Yuhang Song，Chao Yang，Yeji Shen，Peng Wang，Qin Huang，and C-C Jay Kuo. Spg-net：图像修复的分割预测和指导网络。arXiv预印本arXiv：1805.03356，2018。一、二[27] Deqing Sun ， Stefan Roth ， JP Lewis ， and Michael JBlack.学习光流。欧洲计算机视觉会议，第83-97页Springer，2008. 3[28] Limin Wang，Yuanjun Xiong，Zheng Wang，Yu Qiao，Dahua Lin，Xiaoou Tang，and Luc Van Gool.时间段网络：深入行动识别的良好实践.191在欧洲计算机视觉会议上，第20施普林格，2016年。3[29] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。神经信息处理系统进展（NeurIPS），2018年。3[30] 李旭、策武路、易旭、加牙贾。通过l0梯度最小化进行图像平滑 ACM Transactions on Graphics （ SIGGRAPHAsia），2011年。二、三[31] 黎诩、琼嫣、杨霞、佳雅。通过相对总变差从结构中提取结构。ACM Transactions on Graphics（TOG），31（6）：139，2012。二三五七[32] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.利用门控卷积进行自由形式图像修复。arXiv预印本arXiv：1806.03589，2018。第1、3条[33] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.具有上下文关注的生成式图像修复。在IEEE计算机视觉和模式识别会议论文集，第5505- 5514页，2018年。一二四五六[34] Bolei Zhou ， Agata Lapedriza ， Aditya Khosla ， AudeOliva，and Antonio Torralba.地点：一个用于场景识别的 1000 万图像数据库。 IEEE Transactions on PatternAnalysis and Machine Intelligence ， 40 （ 6 ）： 1452-1464，2018。5[35] Tinghui Zhou，Shubham Tulsiani，Weilun Sun，JitendraMalik，and Alexei A Efros.按外观流查看合成欧洲计算机视觉会议，第286施普林格，2016年。二、三[36] Jun-Y

下载后可阅读完整内容，剩余1页未读，立即下载