渐进重建视觉结构的编码解码VSR层的图片修复技术

94 浏览量更新于2023-10-13 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5962编码VSR层解码VSR层鉴别器⊕⊕⊕⊕Masked Edge重建边缘编码VSR解码VSR层层p图像修复武汉大学计算机科学学院，武汉，中国2UBTECH Sydney AI Centre，School of Computer Science，Faculty of Engineering澳大利亚{jingyuanli，zhanglefei，remoteking}@ whu.edu.cn，{fengxiang.he，dacheng.tao}@ sydney.edu.au转换特征转换特征转换特征转换特征图1：视觉结构的渐进重建。新结构的一小部分在每个振动时效层中产生。在开始时，已知的信息是有限的，因此编码层只估计丢失结构的外部部分。随着信息在前馈过程期间累积，解码层可以具有恢复丢失的内部部分的能力。生成的部分被收集并同时发送到鉴别器。摘要图像修复技术是修复受损图像中缺失部分的一种方法，在目标去除、图像恢复等计算机视觉应用中发挥着重要作用。尽管现有方法在具有小孔的图像上表现良好为了解决这个问题，本文提出了一个渐进的重建视觉结构（PRVS）网络，逐步重建的结构和相关的视觉特征。具体地说，我们设计了一个新的视觉结构重建（VSR）层纠缠重建的视觉结构和视觉特征，这有利于彼此共享参数。我们重复堆叠四个VSR层在编码和解码阶段的一个 U-Net 类架构，以形成一个generative对抗网络（GAN）的生成器，用于恢复图像的小或大的孔。我们证明了普遍性-*通讯作者⇣⌘PRVS网络的定位误差上界为O1N这在理论上保证了其性能。广泛在Places2、Paris Street View和CelebA数据集上的实证评估和比较验证了所提出的方法的优势，并表明该模型优于当前最先进的方法。源代码包可在https://github.com/jingyuanli001/PRVS-Image-Insaining获得。1. 介绍图像修复的目的是恢复受损图像中缺失的部分。最近，它已成为计算机视觉中的一项重要任务，并在许多应用中显示出有前途的性能，例如物体去除和图像恢复[22，24，1]。以前的研究[28，32，29]基于纹理搜索，在具有小孔的图像上产生了合理的结果、5963p然而，当填充大的孔时，这些算法受到有限的信息（具体地，用于恢复丢失部分的合格结构信息）的影响，并且通常受到模糊纹理或甚至无意义内容的影响。最近的研究试图通过引入额外的生成器来估计缺失部分的视觉结构来解决这个问题。他们利用估计的视觉结构作为先验知识，以提高恢复性能。例如，Nazeriet al. [16]和Xionget al. [27]建议显式编码边缘和显著性信息，以分别提高修复网络性能。然而，他们没有产生语义上有意义的和详细的结构。这主要是因为他们利用对抗损失来评估生成的结构，将每个结构图视为一个整体，因此网络很难恢复合格的局部结构。此外，cas-cading两个或更多的发电机是次优的参数优化。在本文中，我们设计了一个视觉结构重建（VSR）层，通过纠缠的结构和内容的生成来具体地，VSR采用部分卷积和瓶颈块来重新存储丢失区域中的一部分边缘。然后将重构的边缘与具有孔的输入图像组合，以通过填充语义上有意义的内容来逐渐缩小孔的大小。我们堆叠两个VSR层在编码阶段和两个VSR层在解码阶段。所有四个VSR层一起无缝地帮助U-Net类架构通过前馈过程逐步恢复我们将新的端到端可训练GAN修复方案称为渐进重建视觉结构（PRVS）网络。这种端到端网络可以很容易地训练，并且可以适当地恢复丢失的结构信息，以便随后恢复丢失的细节。对于用于细节生成的模板，我们遵循[12]整合风格损失和感知损失，这些损失来自在ImageNet上预训练的VGG-16 [21]。对于用于结构生成的鉴别器，我们将Patch-GAN鉴别器与频谱归一化和对抗性损失集成在一起。组合的训练目标预计将帮助模型学习产生结构良好的结果。从理论上分析了该方法的泛化能力，并给出了O1推广N这导致了两个实际的实现最近的一些结果[2，15，34]。第一，推广界证明了推广能力与算法复杂度之间的负相关关系根据这个结果，我们在判别器中采用预训练的VGG由于假设空间的对应容量只有一个（潜在的最小容量），因此固定权重的VGG可以显著降低鉴别器的假设复杂度，并且从而提高泛化能力。第二，理论结果表明权矩阵的谱范数之间存在负相关，这导致谱归一化以控制谱范数（这也由[2，14，17]提出）。在标准数据集Places2 [35]，Paris Street View [4]和CelebA [13]数据集上进行了广泛的实验结果表明，我们的方法显着优于国家的最先进的方法。2. 相关工作2.1. 图像修复的生成式模型图像修复的目的是恢复受损图像中丢失的区域通过使用深度学习，图像修复有了显着的改进[11]。Pathak等人[18]将GANs [5]引入修复，尽管产生相对低分辨率的幻觉。Iizuka等人[7]引入了局部和全局鉴别器，辅以扩张卷积[30]和泊松混合[19]，以保留高频信息的丰富性并处理任何位置的矩形掩码。由于卷积滤波器只能提取局部信息，传统的GAN很难从遥远的区域捕获纹理信息。结果，Yangetal.[29]，Yanet al. [28] Yuet al. [32]研究了利用深度特征图上的块匹配的思想来收集外观特征，这使得GAN能够生成清晰和准确的结果。然而，这些方法是为矩形孔设计的，并且由于难以搜索合适的补丁而不能处理更大的不规则掩模。Liu等[12]提出了一个部分卷积层来帮助修复不规则的孔。新特征图的值从非掩蔽区域计算;同时更新各层中的掩码。从ImageNet [21]上预先训练的VGG-16 [23]中获取的感知损失和风格Yu等人[31]进一步部署了[32]的模型中的门控卷积层，用于不规则修补任务。虽然上述方法对修复领域做出了重大贡献，但缺乏结构知识限制了它们在修复领域的潜力。恢复连续掩蔽的图像。2.2. 用于修复的Wang等人[25]表明图像的二进制边缘图可以有益于图像合成模型，并有助于在图像生成期间评估对象边界学习的边缘图可以表征图像结构。此外，估计二进制映射比估计RGB图像更容易因此，还存在重建用于修复的视觉结构的自然倡议，诸如Nazeri等人。[16]和Xionget al. [27]第10段。5964<·>Xpc1部分卷积<·>Mpc1在在在in受人类艺术家的启发，纳泽里等人。[16]使用两个GAN进行修复任务，该任务利用来自第一个生成器的边缘图作为修复网络的先验。同样，Xionget al. [27]将模型划分为多个子网络，逐步恢复图像，使模型能够感知显著性信息。这两种方法通过构建精确的中等目标来简化修复任务，即，恢复边缘或中的XE在Img在边缘<·>边缘⊙v上的E c+EinEpartEEG-损坏图像的前景-背景。级联元素乘法此外减法然而，随着腐败越来越大，他们无法适当地重建视觉结构。在引言中给出了详细的原因。3. 方法我们设计了一个渐进重建的视觉结构（PRVS）网络的图像修复。生成器采用P-UNet作为主干（参见图1B）。3），其用部分卷积层[12]替换U-Net[ 20 ]中的每个卷积层，以捕获不规则边界的局部信息。此外，生成器在P-UNet的编码和解码阶段堆叠一系列视觉结构重建（VSR）层。图2：视觉结构的生成。结构部分由部分卷积生成，然后是残差块，然后与输入结构组合。由部分卷积层生成的映射。 x0ijk表示第k个通道中位置i，j处的新特征值。Wk是层中的第k个xij和mij分别是以位置i，j为中心的输入特征张量块和输入掩码张量块（其大小与卷积核相同）。（WT（xij<$mij）sum（1）+b，如果sum（mij）！=0x0ijk=ksum（mij）骨，这些骨纠结地重建了视觉结构（边缘）和视觉特征。上采样模块结合了转置卷积和部分卷积的优点，提高了图像修复效果.0，否则类似地，位置i，j处的新掩码值的值可以表示为：⇢下面，我们首先介绍部分卷积层，它可以帮助我们跟踪每层中的掩模形状。m0ij=1、如果sum（mij）！= 00，其他然后，详细介绍了VSR层和损耗函数。之后，我们提出了PRVS网络的内部绘画.为了方便起见，在我们的工作中，掩模中的掩蔽区域和非掩蔽区域的值分别被分配为0和1。3.1. 视觉结构重建层VSR层由结构生成器和特征生成器组成。结构生成器首先更新输入边缘以缩小丢失区域的大小。然后使用更新的边缘图来指导新特征的生成。下面我们首先介绍部分卷积[12]，它可以帮助我们跟踪掩模形状。然后介绍了VSR层内边缘和特征的生成。3.1.1部分卷积部分卷积层有助于恢复掩蔽区域[12]。在每一步中，部分卷积层更新掩模;同时，更新后的特征图的值仅依赖于未掩模区域的值的新值如果卷积窗覆盖的先前掩码中的值的和不为0，则掩码为1设X0表示特征部分卷积层帮助我们在前馈过程中跟踪掩模形状，并使我们能够逐步重建视觉结构。3.1.2可视化结构生成器在本节中，我们将部分卷积表示为Pconv（，），其中第一个参数是输入特征，第二个参数是输入掩码。我们用h，i来表示渠道维度中的关联结构生成器中有四个输入因子，它们是2RHWC 中的图像特征图X，2RHW 1中的结构图E，图像MImg2{0，1}HWC的前一个掩码，以及分别为边M边2 {0，1}H<$W<$1的可见掩码（见图1）。2）的情况。这两个面具的形状相同，但不同。频道号码我们首先采用部分卷积层来更新特征图和掩码，如下所示，Xpc1，Mpc1=Pconv（hXin，Eini，hMImg，MEdgei）（3.1）然后将第一部分卷积生成的特征图馈送到残差块[6]和单通道输出卷积核以产生结构图Econv。在本文中，我们使用瓶颈残差块与核大小瓶颈块-⊙M+MM5965在inE在我在米转换特征部分去卷积特性部分转换要素VSR图层损失计算边给送饲料跳过连接图3：我们提出的模型的整体架构。VSR层位于网络的前两层和后两层。生成的结构和特征图被发送到下一层和解码层。最后，生成两个不同尺度的结构（边缘）图来学习结构信息。以及信道号分别为1、3、1和64、16、64然后，我们使用来自部分卷积的掩模Mpc1来校正结构图的形状输入结构Ein用于替换新结构图Econv中的先前已知区域，因此仅保留新生成的部分Econv（Mpc1-Min）。这可以描述为Eq.（3.2）。这有助于边缘生成器中的部分卷积和残差块集中在新生成的EEG=E卷积（Mpc1-MEdge）+MEdge（3.2）结构生成器的最终输出是Mpc1和EEG。在我们的设计中，生成器只需要估计最接近已知区域的结构部分，这更容易基于特征图生成。3.1.3VSR层的体系结构VSR层的主要目的是将结构信息合并到重构的特征图中我们将EEG与输入的原始特征图X连接起来，使用结构图来指导下一个特征图的生成。然后，将级联的特征图和对应的掩模发送到另一部分卷积层中以更新图像特征图Xout（参见等式（1））。（3.3））。我们使用来自结构生成器的掩码Mpc1（其仅更新一次）作为输出掩码并使用其用于校正图像特征图的形状（等式（1）中的逐元素乘法）。（3.3））。如果任何下采样操作使新的特征图变得更小，则将最大池化应用于Min以产生预期形状的掩模。Xout，Mpc2=Mpc 1（Pconv（hXin，EEGi，hMin，Mpc1i））（3.3）通过这种方式，从VSR层生成的特征携带了更多的结构信息，这有助于恢复图像。VSR层的最终输出是EEG、Xout和Mpc 1.3.2. 结构学习与损失函数许多结构部分是由VSR层生成的，注意，来自不同层的新恢复的结构因此，我们过滤掉不用于辅助图像生成的结构的部分，并且仅保留新生成的部分，如Eq.其中E部分是每个VSR层中新生成的结构：E部分=EEG（Mpc1-Min）（3.4）从发电机中过滤出来的部件被收集起来并发送到UPS。我们使用Ei表示来自每个级别的第i个VSR层的组合结构斑块鉴别器E1rtpaE2RTpaEpredE1部分2E部分我predVGG特征提取器我gtφpool1 φpool2φpool3孔损失，有效损失感知损失风格损失对抗性损失5966部分Adv池iAdv最近的上采样LeakyReLU“层”是指具有相同输入尺寸的层组。E0表示原始输入。组合过程可以表示如下：Ei+1=EiMi+Ei+1（3.5）以这种方式，生成不同尺度（256和128）的两个结构图对于网络，我们使用Patch-GAN [9]判别器和预训练和固定的VGG-16网络[23]分别进行结构生成学习和图像生成学习，如下所示。对于结构生成学习-图4：部分去卷积上采样。左边是P-UNet中的上一个上采样模块，右边是我们使用Patch-GAN鉴别器来评估每个结构补丁是否属于真实或虚假分布。Patch-GAN鉴别器计算来自生成器的结构的对抗性损失来自第i层的结构图的对抗性损失表示为Li。此外，谱归一化[14]，它将权重矩阵除以相应的Lipschitz常数，应用于我们的算法中。理论分析表明，谱归一化可以控制泛化误差（参见[34]）。对于图像生成学习，使用来自预训练和固定VGG-16的感知损失和风格损失。感知损失和风格损失比较所生成的图像的深度特征图与地面真相之间的差异。这些损失函数在是我们的我们添加一个反卷积层后的部分-典型卷积在PRVS网络的解码器级，采用最近上采样的方法来扩大3.3. 整体架构在生成器中，两个VSR层被部署在编码器级中，并且两个被部署在P-UNet的解码器级中（16层），如图2所示。3.第三章。在生成器的开始，在损坏区域中几乎没有信息，并且单个VSR层不被期望恢复整个损坏区域的视觉结构。然而，随着信息在下采样和上采样期间累积，解码级中的VSR层能够估计中心区域的视觉结构作为下面的. φ池i表示来自第i个池化的特征图因此，外部和内部视觉结构是通用的，层中的固定VGG-16。在以下等式中，Hi，Wi和Ci用于表示第i个特征图的高度、权重和通道大小。然后，感知损失可以写为如下：在编码和解码阶段分别由VSR层来表示。这些VSR层一起形成用于修补的视觉结构。除了VSR层，部分反褶积层（图1）。4）结合局部con-Lpreceptual= XNi=11Hi Wigt池i -φpred|1（3.6）具有转置卷积的卷积也用于上采样层。在原始P-UNet中，跳跃连接使得难以直接应用转置卷积。类似地，样式损失的计算如下：φstyle=φpoolφT（3.7）而不会损害部分卷积的好处。为了解决这个问题，我们使用部分卷积层来使掩模形状在不同通道中相同。XN1池i.1我池i.通过转置卷积[33]降低到上采样特征Lstyle=.（φstylegt-φstylepred）。地图瓶颈剩余块被添加到我们的i=1 CiCiHiWi池i池i1（3.8）模型（图中的白色块）3）合并最后的结构图。从[32]修改的上下文注意力也是此外，我们的模型中还使用了Lvalid和Lhole，它们分别计算未掩蔽区域和掩蔽区域总损失函数如下：L总=λ孔L孔+λ有效L有效+λtvL tv+λ样式L样式用于帮助在倒数第三层之前获得更好的纹理更多详情请参见附录A。4. 理论分析泛化能力对于机器来说+λperceptualLperceptual+λadv（L12Adv）（3.9）学习算法，这是指将训练数据的良好性能推广到未知数据的能力我们虽然感知损失和风格损失是为学习RGB图像生成而设计的，但共享参数使结构生成受益于目标函数。类似地，图像生成也受益于结构学习的对抗损失。提出的方法是建立在GAN的基础上，该GAN用于生成一组新的样本点，这些样本点遵循现有数据的分布。学习过程是为了缩小现有数据和生成数据的潜在分布之间的差距。最近的一个理论结果批次归一化LeakyReLU转置卷积批次归一化3X3部分卷积3X3部分卷积|φ+L5967ε2δp证明了鉴别器是GANs泛化能力只要GAN的假设复杂度足够小，GAN的泛化能力就能得到保证，而不管生成器假设集的大小如何（参见附录B.2中的引理3; cf.[34]，定理3.1）。将现有数据和生成数据的潜在分布分别表示为μ和ν。假设训练样本集的经验分布为μN，生成数据的经验分布为νN，其中N为训练样本集的大小。将生成器表示为g 2 G，将判别器表示为f2F，其中G是生成数据的分布类，F是判别器的假设类。从数学上讲，GAN最小化了积分概率，分布之间的能力度量（IPM）dF（μN，ν）[15][16][17][18][19]其中W是整个算法中特征图的最大维度。此处省略了详细的证明，但在附录中提供。最后，我们得到以下定理。为了简洁起见，我们表示等式（1）的右手侧（RHS）。（4.3）2作为R.定理2. 假设鉴别器集合F是偶数，即， f 2 F蕴涵-f2 F，且所有判别式都有∆，i的界。例如，kfk1对于任何f2F，假设μN和νN满足dF（μ（N，νN） infdF（μ（N，ν） +φ.（4.4）ν2G然后，概率至少为1 -δ，我们有dF（μ，νN）-infdF（μ，ν）dF（µN，v），sup{Ef2Fx2µN[f（x）]-Ex2ν[f（x）]}.（ 4.1）24Rν2G✓N1 + log◆+2∆S2个日志（1）+φ。（4.5）同时，dF（μ，νN）表示现有数据的潜在分布与生成数据的经验分布之间的距离，通常称为经验风险此外，infν2GdF（μ，ν）表示最佳假设与观测数据之间最后，Gen-GANs的均衡误差定义为：dF（μ，νN）-inf dF（μ，ν）.（4.2）ν2G有关泛化误差定义的更多详细信息，请参考[34]。如图 3所示，鉴别器由两部分组成，即预训练和权重固定的VGG-16 分类器和五层 CNN （补丁鉴别器）。为了简洁起见，我们将这两个部分分别表示为VGG特征提取器（VFE）和补丁鉴别器（PD）。具体地，PD由一系列卷积层和非线性运算（非线性度）构成，其被表示为（A1，σ1，A2，σ2，A3，σ3，A4，σ4，A5，σ5），其中A1是卷积层。卷积层，并且σi是非线性（泄漏ReLU）。然后，我们可以得到以下关于鉴别器的假设复杂度的定理1（覆盖界的最小值）。假设每个权矩阵的谱范数是有界的：kAi，kσsi. 又设每个权矩阵Ai有一个参考矩阵Mi，满足kAi-Mikσbi，i = 1，. ......、五、σ5的Lipschitz常数假定为ρ。则ε-覆盖数满足logN（F|S，ε，k·k2）N3R N详细的证明在此省略，但在附件中提供。当量（4.5）给出了一个O1推广界N为我们的建议，并提供了两个实际的实现-选项：（1）使用预先训练和固定的VGG-16作为训练的一部分。（2）利用谱正规化的正则化技术，将所有权矩阵的谱范数标度为1（使si= 1），比未进行谱正规化时的谱范数低得多.同时，我们的推广界（方程）之间存在正相关关系。（4.5））和所有权矩阵的谱范数的乘积。因此，谱归一化也可以显著地帮助实现泛化误差的显著较低的上界，并且因此提高泛化能力。5. 实验结果5.1. 设置我们的模型在NVIDIA RTX 2080TI 11G GPU上以5的批量大小进行训练。我们使用Adam优化器[10]来优化我们的生成器和鉴别器。我们首先使用2×10-4作为初始学习率来训练我们的模型。然后，我们以1/10- 5的学习率微调了我们的模型。在微调期间，批处理归一化层[8]在生成器的编码阶段，bilize培训。在CelebA和巴黎街景数据集上训练模型花了三天时间，其中包括一天的微调。对于Places2，两周.Σ。2 2Y5！二、X5！3三分之二需要进行微调对于超参数，我们选择log 2WkXk2ε2i我有效电视台ρ sbi，（4.3）λhol为50、50、0.01、180、0.1、0.1 ，λ，λ，λ伊尔，5968图5：修复方法的比较。从左至右：面具图像边缘连接[16]。PConv [12]。我们的了我们的模型能够生成高质量的结果，即使掩模很大。结果来自Places2和Paris Street View数据集。并非所有图像都经过后期处理。地点-SSIMP-UNet边缘连接我们10%-20%0.9440.9420.95620%-30%0.8920.8910.91430%-40%0.8330.8310.86140%-50%0.7620.7590.79750%-60%0.6310.6290.672Places-PSNRP-UNet边缘连接我们10%-20%27.6727.4828.8720%-30%24.6024.5425.6630%-40%22.5222.5323.4640%-50%20.8820.9221.7450%-60%18.8018.8319.51地点-MAEP-UNet边缘连接我们10%-20%0.01470.01510.012520%-30%0.02620.02650.022530%-40%0.03880.03890.033740%-50%0.05300.05310.046650%-60%0.07680.07680.0689表1：来自Places2数据集的结果。该方法是针对不规则孔洞修复任务而设计的与Yuet al. [31]见附录C。5.2. 培训测试我们评估了我们的模型并比较了以下数据集的基线Places2 Challenge Dataset：麻省理工学院发布的数据集，包含来自超过365个场景的超过8，000，000张图像。虽然数据集是为分类而设计的，但它适合于构建修复模型，因为它使模型从许多自然场景中学习分布。CelebA数据集：一个专注于人脸图像的数据集，包含超过180，000张训练图像。在该数据集上训练的模型可以容易地转移到面编辑/完成任务。-Paris Street View Dataset ：通常用于修复方法的数据集。它包含14，900张训练图像和100张测试图像。对于来自CelebA数据集的图像，我们从图像中裁剪了中心178 × 178像素。对于巴黎街景数据集，我们将训练图像分为左，中，右，因此总共获得了44，700张图像。我们实验中的所有图像都被调整为256 × 256。对于地面实况结构，使用Canny边缘[3]算法。用于模型训练和测试的掩码来自[12]。为了测试，我们从数据集中选择了10，000张图像，迭代地使用按掩模比率分组的测试掩模。5.3. 定量结果为了进行定量分析，我们将我们的模型与巴黎街景，Places2和CelebA数据集上的当前最先进的方法进行了比较。表1中的结果对来自Places2验证集的10，000个图像求平均值我们在不同的掩模比率（第一列中的百分比）上测试了模型。其他数据集的结果见附录C。比较的模型是1）边缘连接[16]、2）P-UNet[12]和3）GatedConv[31]。我们的模型显示了定量结果的优越性。我们从峰值信噪比（PSNR），结构相似性（SSIM）和平均绝对误差（MAE）方面评估了生成的结果[26]。5969图6：不同方法生成结构（边）的比较。从左至右：地面实况，掩蔽图像，来自单个生成器的边缘，来自我们模型的边缘。我们模型的边缘更好地描述了必要的结构细节0.03400.03200.03000.02800.02600.02400.0220电话：+86-510 -88888888传真：+86-510 -88888888迭代次数（千次）表2：模块的有效性。我们在巴黎街景数据集上测试了每个模块，掩模比例为50%-60%。基线PD PD+VSR图7：每个模块的训练损失。PD表示基线和部分去卷积层。PD+VSR表示基线、部分反褶积层和VSR层。5.4. 修复质量比较从应用的角度来看，定性结果比定量结果更重要。我们比较了我们的模型与图中的视觉结果五、根据该图，可以观察到，随着孔尺寸变大，以前的模型变得不稳定，而我们的模型仍然可以产生结构良好的内容。我们希望该模型能够受益于通过参数共享进行的结构生成和图像生成的联合训练。为了验证我们的想法，不同模型之间的边缘质量的比较也在图中进行。六、我们比较了边缘从我们的模型，从一个单一的发电机。5.5. 模块的有效性我们在表2中测试了每个新模块的有效性，表2由不同模块的三种组合组成。测试的第一个模型是P-UNet，与第节中提到的相同的超参数5.1.第二个模型配备有部分去卷积层以取代最近的上采样。第三个模型包括我们的VSR层。我们应用了相同的每个模型的超参数，以确保公平性。除“Full”外，删除了像素关注模块[326. 结论在本文中，我们提出了一种新的图像修复方法，逐步将结构信息纳入特征，以基于生成的对抗网络（GANs）输出更结构化的图像。具体地说，该生成器采用了四个新颖的视觉结构再现（VSR）层，逐步重建的结构。此外，部分反卷积是利用在发生器中，以解决部分卷积与现有的模块的限制。在鉴别器中，我们采用补丁鉴别器来评估生成的具有对抗性损失的结构，并采用预训练和权重固定的VGG-16来评估具有风格损失和感知损失的图像。理论分析对我们的方法进行了评价，并给出了理论保证。在多个标准数据集上的实验验证了该方法的可行性。确认本工作得到了国家自然科学基金项目61771349和61822113 ，以及澳大利亚研究委员会项目 FL-170100117和DP-180103424的资助。基线PDPD+VSR充分SSIM0.6970.7070.7160.724PSNR22.0422.1922.3122.48Mae0.05720.05560.05450.0534训练损失（平均L1误差）5970引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM TOG，28（3）：24，2009. 1[2] Peter L Bartlett，Dylan J Foster，and Matus J Telgarsky.神经网络的谱归一化边界在Proc. NIPS，第6240-6249页，2017年。二、十一、十二、十三、十四[3] 坎尼边缘检测的计算方法。IEEE TPAMI，8（6）：679-698，1986. 7[4] Carl Doersch 、 Saurabh Singh 、 Abhinav Gupta 、 JosefSivic和Alexei Efros。是什么让巴黎看起来像巴黎？ACM TOG，31（4）：101，2012。2[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Proc. NIPS，第2672-2680页，2014中。2[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在procCVPR，第770-778页，2016年。3[7] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM TOG，36（4）：107，2017。2[8] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在 Proc.ICML，第448-456页，2015中。6[9] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在Proc.CVPR，2017中。5[10] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[11] YannLeCun，KorayKavukcuoglu和C le mentFarabet。卷积网络及其在视觉中的应用。在procISCAS，第253-256页，2010年。2[12] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。Proc. ECCV，第85-100页，2018年。二三七十四[13] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在Proc. ICCV，第3730-3738页，2015中。2[14] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv：1802.05957，2018。二、五[15] 阿尔弗雷德·穆勒积分概率度量及其生成函数类. AAP，29（2）：429-443，1997. 二、六[16] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成图像内绘。 arXiv 预印本 arXiv ：1901.00212，2019。二三七十四5971[17] Behnam Neyshabur ， Srinadh Bhojanapalli ，和Nathan Sre- bro.神经网络的谱归一化边界的pac-baidu 方法。 arXiv 预印本 arXiv ： 1707.09564 ，2017。2[18] DeepakPathak ， PhilippKraühenbuühl ， JeffDonahue，TrevorDarrell和Alexei A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在Proc.CVPR，第2536-2544页，2016年。2[19] 帕特里克·佩雷斯、米歇尔·冈内特和安德烈·W·布莱克。泊松图像编辑。ACM TOG，22（3）：313-318，2003. 2[20] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的卷积网络在Proc. MICCAI，第234-241页，2015中。3[21] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang，Andrej Karpathy，Aditya Khosla，MichaelBernstein ，et al. 图像网大规模视觉识别挑战。IJCV，115（3）：211-252，2015. 2[22] Rakshith Shetty，Mario Fritz和Bernt Schiele。对抗性场景编辑：从弱监督中自动删除对象CoRR，abs/1806.01911，2018。1[23] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv：1409.1556，2014。二、五[24] 宋林森，曹杰，宋林晓，胡一波，何冉。几何感知的面部完成和编辑。 CoRR ， abs/1809.02967 ，2018。1[25] Ting-Chun Wang ， Ming-Yu Liu ， Jun-Yan Zhu ，Andrew Tao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在Proc. CVPR，第8798-8807页，2018年。2[26] 放大图片作者：Alan C.哈米德？博维克Sheikh和Eero P.西蒙切利图像质量评估：从错误可见性到结构相似性。IEEE TIP，13（4）：600-612，2004. 7[27] Wei Xiong，Jiahui Yu，Zhe Lin，Jimei Yang，XinLu，Connelly Barnes，and Jiebo Luo.前景感知图像绘画。 arXiv 预印本 arXiv ： 1901.05945 ， 2019 。二、三[28] 燕昭仪、李晓明、慕丽、左王梦、石光山。Shift-net ：通过深度特征重排进行图像修复。 Proc.ECCV，第3-19页，2018年。一、二[29] Chao Yang ， Xin Lu ， Zer Lin ， Eli Shechtman ，Oliver Wang，and Hao Li.基于多尺度神经块合成的高分辨率图像修复。在Proc. CVPR，第6721- 6729页，2017年。一、二[30] Fisher Yu和Vladlen Koltun。通过扩张卷积的多尺度上下文聚合。 arXiv预印本 arXiv： 1511.07122 ，2015。2[31] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.利用门控卷积进行自由形式图像修复。arXiv预印本arXiv：1806.03589，2018。二、七、十四5972[32] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.具有上下文注意的生成式图像修复。在Proc. CVPR，第5505-5514页，2018年。一、二、五、八[33] Matthew D.放大图片作者：William W.泰勒和罗伯特·费格斯解卷积网络。在Proc. CVPR，第2528-2535页，2010中。5[34] Pengchuan Zhang ， Qiang Liu ， Dengyong Zhou ， TaoXu，and Xiaodong He.gans中的判别-泛化权衡。arXiv预印本arXiv：1711.02771，2017。二五六十三[35] BoleiZhou ， A`gataLapedriza ， AdityaKhosla ， AudeOliva，and Antonio Torralba.地点：一个用于场景识别的1000万图像数据库。IEEE TPAMI，40（6）：14522

下载后可阅读完整内容，剩余1页未读，立即下载