超高分辨率图像修复的上下文残差聚合方法

84 浏览量更新于2023-10-25 收藏 4.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于上下文残差聚合的超高分辨率图像修复张占旭华为技术加拿大有限公司。公司{zili.yi，qiang.tang，shekoofeh.azizi，daesik.jang，zhan.xu}@ huawei.com图1：超高分辨率图像的修复结果。摘要近年来，数据驱动的图像修复方法取得了令人鼓舞的进展，影响了基本的图像编辑任务，如对象删除和损坏的图像修复。这些方法比经典方法更有效，但是由于内存限制，它们只能处理低分辨率输入，通常小于1K。与此同时，使用移动设备拍摄的照片的分辨率增加到8K。对低分辨率已修复结果进行简单的上采样只能产生较大但模糊的结果。而将高频残差图像添加到大的模糊图像上可以生成清晰的结果，细节和纹理丰富。受此启发，我们提出了一种上下文残差聚合（CRA）机制，可以通过加权聚合上下文补丁的残差来为丢失的内容产生高频残差，从而只需要网络的低分辨率预测。由于卷积层神经网络只需要对低分辨率的输入和输出进行运算，从而很好地抑制了存储器和计算能力的成本。此外，对高分辨率训练数据集的需求也得到了缓解。在我们的实验中，我们在小图像分辨率为512×512，并对高分辨率图像进行推理，实现引人注目的修复质量.我们的模型可以修复高达8K的图像，具有相当大的孔大小，这是以前基于学习的方法难以处理的。我们进一步阐述了网络架构的轻量级设计，在GTX 1080Ti GPU上实现了2K图像的实时性能。代码可在：https：//github. com/Ascend-Huawei/Ascend-Canada/tree/master/Models/Research_HiFIll_Model1. 介绍智能手机用户有兴趣以任何形式操纵他们的照片，改变对象位置，删除，75087509清除不需要的视觉元素，或修复受损的图像。这些任务需要自动图像修复，其目的是在给定相应掩模的情况下恢复图像的丢失或劣化部分。图像修复是近几十年来的一个研究热点，但由于自然图像固有的模糊性和复杂性，一般的图像修复仍然具有挑战性。高质量的修补通常需要生成视觉上真实和语义上连贯的内容来填充空洞区域。现有的图像孔洞填充方法可以分为三类。第一类我们称之为一个例子是基于扩散的方法[1，3]，其基于等照度线方向场传播目标孔周围的局部图像外观。另一个流是依赖于纹理合成技术，它通过从周围区域扩展和借用纹理来填充漏洞[6，9，13，29，31]。补丁算法像[9，10，11，29]一样，通过从与孔边界上的像素最相似的背景区域中搜索图像块来逐步填充孔中的第二组尝试这些方法学习对训练图像的分布进行建模，并假设被相似上下文包围的区域可能具有相似的内容[15，18，20，21，30，33]。例如，PixelRNN [20]使用二维递归神经网络（RNN）来沿两个空间维度对像素级依赖性进行建模。更一般的想法[15，33]是训练编码器-解码器卷积网络来对二维空间内容进行建模。[18，30]不是对原始像素进行建模，而是训练卷积网络来对图像范围的边缘结构或前景物体轮廓进行建模，从而实现边缘或轮廓的自动完成这些技术在找到与查询具有足够视觉相似性的示例图像时是有效的，但是如果数据库没有类似的示例，则很容易失败。为了克服基于复制或基于建模的方法的局限性，第三组方法试图将两者结合起来[19，24，32，35，36，37]。这些方法学习以数据驱动的方式对图像分布进行建模，同时，它们开发了明确地从背景区域借用补丁/特征的机制。[36]介绍了一种新颖的上下文注意力层，该层能够从遥远的空间位置借用特征[37]进一步将上下文注意力机制扩展到多个尺度，并且一直从特征级扩展到图像级。[24]采用补丁交换层，该补丁交换层将高频纹理细节从边界传播到孔区域。大多数以学习为基础的方法属于第二或第三类第三组。与传统方法相比，这些技术具有很强的学习不同语义的自适应和高级特征的能力，因此更擅长于产生视觉上合理的内容，特别是在修复结构化图像（如面部）时[15，20，24，35，36，37] ，物体[18，21，30，33]和自然场景[15，24，35，36]。由于现有方法直接在原始输入上使用卷积层，因此当输入大小高达8K时，内存使用率可能会变得非常高且难以处理。另一个问题是，当孔尺寸随着图像尺寸增加时，质量迅速恶化。甚至如果训练是可行的，那么访问大量的高分辨率训练数据将是乏味和昂贵的。为了解决这些问题，我们提出了一种新的上下文残差聚合（CRA）机制，使有限的资源完成超高分辨率的图像。具体来说，我们使用神经网络来预测低分辨率的修复结果，并对其进行上采样，以产生一个大的模糊图像。然后，我们产生的高频残差孔补丁通过聚合加权高频残差从上下文补丁。最后，我们将聚合残差添加到大的模糊图像，以获得清晰的结果。由于该网络仅在低分辨率图像上运行，因此内存和计算时间的成本显着降低。此外，由于模型可以用低分辨率图像训练，因此减轻了对高分辨率训练数据集的需求。此外，我们还介绍了其他技术，包括超薄和深层配置，注意力分数共享，多尺度注意力转移和轻量级门控卷积（LWGC），以提高修复质量，计算和速度。我们的方法可以修补图像大到8K与令人满意的质量，这是不能处理先前的基于学习的方法。示例性结果示于图1中。本文的贡献概述如下：– 我们设计了一个新颖有效的上下文Resident-双聚合（CRA）机制，使超高分辨率修复具有令人满意的质量。该机制使得能够利用有限的存储器和计算资源来修复具有相当大的孔尺寸（高达25%）的大图像（高达8K），这对于现有方法来说是难以处理的。此外，该模型可以在小图像上训练并应用于大图像，这显著提高了对高分辨率训练数据集的要求。– 我们开发了一个不规则孔的轻量模型Filling可以在NVIDIA GTX 1080 Ti GPU上对2K分辨率的图像执行实时推理，使用的技术包括超薄和深层配置、注意力分数共享和轻量级门控卷积（LWGC）。– 我们在多个抽象层次上使用注意力转移其能够通过以多个尺度从上下文加权复制特征来填充漏洞，7510Σ即使在低分辨率图像上测试时，修复质量也超过现有方法一定幅度。2. 相关作品2.1. Vanilla&卷积本质上是不规则孔洞填充的麻烦，因为卷积滤波器将所有像素视为有效像素，从而导致视觉伪影，如颜色不一致、模糊和边界伪影。部分卷积[19]被提出来处理不规则的孔，其中卷积被掩蔽并重新归一化以有效像素为条件。门控卷积[35]通过为每个通道和每个空间位置提供可学习的动态特征选择机制来推广部分卷积思想，从而实现更好的视觉性能。在这里，我们进一步改进了门控卷积-通过轻量化设计提高效率。2.2. 情境关注上下文注意力[36]被提出来允许在修复期间的长距离空间依赖性，这使得能够从远处的位置钻孔像素来填充缺失的区域。上下文注意层有两个阶段：In the“match” phase, the attention scores are computed byobtaining region affinity between patches in- side andthose outside the holes.在“参与”阶段，通过复制和聚合来自由注意力分数加权的上下文的补丁来填充漏洞。[37]通过在多个层上使用上下文注意力的金字塔来扩展与[37]相比，我们只计算一次注意力分数，并在多个抽象层次上重用它们，这导致更少的参数和更少的计算。2.3. 图像恢复图像不必相等，但必须是512的倍数。生成器获取低分辨率图像并填充孔。同时，注意力分数由发生器的注意力计算模块（ACM）计算（第3.2.1节）。此外，通过从原始输入中减去大模糊图像来计算上下文残差最后，将聚合的残差添加到上采样的修补结果，在掩模区域中生成大的尖锐输出，而掩模外部的区域仅仅是原始原始输入的副本。3.2. 上下文残差聚合（CRA）之前已经提出了通过使用上下文信息[24，32，34]和上下文注意机制[36]来填充缺失区域。同样，我们部署CRA机制从上下文区域借用信息然而，CRA机制不仅从上下文借用特征，而且还借用残差。特别是，我们采用了上下文注意力的思想[36]，通过获得缺失区域内部/外部补丁之间的区域亲和力来计算因此，上下文相关的特征和外部的残留物可以被转移到孔中。我们的机制包括两个关键模块：注意力计算模块和注意力转移模块。3.2.1注意力计算模块（ACM）注意力分数是基于来自高级特征图（在图2中表示为PP被划分为块，并且ACM计算缺失区域内部和外部块之间的余弦相似性：. pipjc=，（1）图像和模糊版本之间的差异i、jǁpiǁ ǁpjǁ其本身代表高频图像[4，7]。早期的作品使用高斯模糊获得的差异进行低级别的图像处理任务，如边缘检测，图像质量评估和特征提取[8，23，26]。我们采用这个概念来分解输入图像，其中pi是从掩码外部P提取的第i个块，pj是从掩码内部P提取的第j个块。然后softmax应用于相似性分数以获得每个补丁的注意力分数：eci，j低频和高频分量。低频分量是通过对相邻的信号进行平均得到的，si，j=Ni=1eci，j（2）无聊的像素，而高频分量（即，图像残差）是通过用原始图像的低频分量减去原始图像而获得的。3. 方法3.1. 整个管道图2展示了所提出的CRA机制的整体管道，其中生成器是框架中给定一个高分辨率的输入图像，我们首先将图像下采样到512×512，然后对其进行上采样，以获得相同的模糊大图像其中N是缺失孔外部的补片的数量。在我们的框架中，每个补丁大小为3×3，P为32×32，因此总共可以提取1024个补丁。在实践中，孔内补片的数量可以针对不同的孔尺寸而变化。我们统一使用1024×1024的矩阵来保存任何可能的补丁对之间的亲和力得分，尽管其中只有一小部分有用。3.2.2注意力转移模块（ATM）在从P获得注意力分数之后，可以用由注意力分数加权的上下文补丁来填充较低级别特征图（Pl）中的size作为原始输入（第4.1节）。的高度和宽度pl=Nsi，jpl（三）j i=1i7511我J=Σ N图2：该方法的整体流水线：（顶部）CRA机制，（底部）生成器的架构其中l∈1，2，3是层号，pl是从被掩蔽区域外部的pl中提取的第i个块，pl是第j个要填充在遮罩区域内部的面片。N表示上下文补丁（背景）的数量。在计算所有孔内片之后，我们可以最终获得填充特征Pl。由于特征地图的大小随层而变化，因此补丁的大小也应该相应地变化。假设特征图的大小为1282，并且注意力得分是从322个补丁计算的，则补丁大小应该大于或等于等于（128/32）2=42，从而可以覆盖所有像素。如果补丁大小大于4×4，则某些像素会重叠，这很好，因为网络可以学习适应。多尺度注意转移与分数共享。在我们的框架中，我们使用同一组注意力分数多次应用注意力转移（图2）。注意力分数的共享导致更少的参数和更好的记忆和速度方面的效率。3.2.3残留聚集残差聚集的目标是计算孔区域的残差，以便可以恢复丢失内容的清晰细节。可以通过聚合从先前步骤获得的加权上下文残差来计算缺失内容的残差：适当地选择尺寸以精确地覆盖所有像素而不重叠，以确保填充的残差与周围区域一致。一旦获得聚合的残差图像，我们将其添加到生成器的上采样模糊图像中，并获得清晰的结果（图2）。3.3. 发生器的体系结构发生器的网络架构如图2所示。我们使用一个两阶段的粗到细的网络架构，其中粗网络hallucines粗糙错过的内容，和细化网络预测更精细的结果。生成器将图像和指示孔区域的二进制掩码作为输入，并预测完成的图像。输入和输出大小预计为512 ×512。粗网络在卷积前将输入降采样到256×256，以扩大感知域，减少计算量，而精网络则是512×512。粗网络的预测通过替换后者的空穴区域与前者的空穴区域作为精化网络的输入。Refine网络利用一个高级特征图计算上下文注意力得分，并在多个较低级别的特征图上执行注意力转移，从而可以在多个抽象级别上借用远距离上下文信息。我们也采用扩张卷积-i=1si，jRi（四）[15]在粗网络和精网络中，以及感受野的大小为了提高计算效率，其中R是残差图像，并且Ri是从掩模外部的上下文残差图像中提取的第i个块，并且Ri是要在掩模内部填充的第j个块贴片我们的修复网络设计得很细很深，并且LWGC适用于生成器的所有其他实施考虑因素7512包括：（1）使用3.4. 轻量级门控卷积门控卷积（GC）[35]利用了不规则洞修复的艺术。然而，与vanilla卷积相比，GC的参数数量和处理时间几乎翻了一番。在我们的网络中，我们提出了三个修改版本的GC，称为轻量级门控卷积（LWGC），它减少了参数的数量和处理时间，同时保持有效性。原始GC的输出可以表示为：表1：计算门方法参数计算Hk，Wk= 3C输入，C输出=32GC [35]Hk×Wk ×C输入 ×C输出9216LWGCdsHk×Wk ×Cin+Cin ×Cout1312LWGCpwC输入×C输出1024LWGCscHk×Wk ×Cin ×1288WGAN-GP损失作为我们的对抗损失[12]，它在第二阶段细化网络中强制执行全局一致性。交替地用等式9和等式10中定义的损耗来训练滤波器和生成器：Ld=Ex<$∈Pg[D（x<$）]−Ex∈Pr[D（x）]+G=conv（Wg，I）σEx<$∈Px<$$>[<$$>x<$$>D（x<$）<$2−1]二（九）F=conv（Wf，I）O=σ（G）σ（F）（五）其中D（？）是输出，G（. ）是generator输出。x，x，x，是真实图像，生成图像，其中σ是Sigmoid函数，因此输出值在[0，1]范围内。在我们的实验中，ELU是一个激活函数，设置为ELU。Wg和Wf是卷积滤波器的两个不同集合，它们分别用于计算门和特征。GC使网络能够学习动态特征选择机制。我们提出的LWGC的三种变体命名为：深度可分离LWGC（LWGC ds）、逐像素LWGC（LWGC pw）和单通道LWGC（LWGC sc）。它们的区别在于门分支G的计算：G=convdepth−separable（Wg，I）（6）G=convpixelwise（Wg，I）（7）G=conv（Wg，I）， G为单通道（8）深度可分离的LWGC采用深度卷积，然后是1×1卷积来计算门。像素级LWGC使用像素级或1×1卷积来计算门。单通道LWGC输出在乘法期间广播到所有功能通道的单通道掩码单通道掩码类似于部分卷积，而部分卷积的掩码给定内核的高度（Hk）和宽度（Wk）以及输入通道（Cin）和输出通道（Cout）的数量，我们比较表1中计算门所需的参数我们对粗网络的所有层使用单通道LWGC，对细化网络的所有层使用深度可分离或逐像素LWGC，这已被证明与常规GC一样有效，但更有效（第 4.2节）。3.5. 网络培训3.5.1培训损失在不降低性能的情况下，我们还将培训目标显著简化为两个术语：对抗损失和重建损失。公司现采用国际以及它们之间的插值，Pg，Pr，Px是它们各自对应的分布Ladv=−Ex<$∈Pg[D（x<$）]（10）我们还添加了L1损失以强制预测与原始图像的一致性。与[36]相比，我们避免了计算上昂贵的空间折扣重建损失。为了简单起见，我们只为所有孔内像素的重建损失分配较小的恒定权重因此，重建损失写为：Lin−hole= |G（x，m）− x|m（11）L上下文= |G（x，m）− x|Lrec=α1Lin−hole + α2Lcontext（13）其中，α1和α2是孔内项和上下文项的系数（α1=1，α2=1）。2）。粗网络是用重建损失显式训练的，而细化网络是用重建损失和GAN损失的加权和训练的。粗网络和精网络是用合并的损失同时训练的，如公式14所示。Lg=Lrec+βLadv（ 14）其中β是对抗性损失系数（β=10−4）。3.5.2随机掩码生成为了使修复蒙版多样化，我们使用两种方法在训练过程中动态生成不规则蒙版。第一个是[19]，它模拟眼泪，划痕，斑点或手动擦除与刷子。第二种方法通过随机操纵真实对象形状模板来生成掩模，从而考虑对象移除场景。这些形状模板是从对象分割掩模中获得的，并且包括广泛的类别，例如单个、多个或拥挤的7513对象。我们还随机旋转，翻转和缩放模板与随机比例。在实践中，根据具体需要，上述两种方法可以组合或分开7514图3：比较下采样和上采样运算符：（顶部）使用“双线性”上采样和“平均化”下采样可生成与周围环境更加一致的纹理。（底部）使用平均下采样和最近邻会产生平铺伪影，而双线性和双三次上采样的性能同样出色。图4：不同门控卷积配置的比较。例如，LWGCsc +LWGCds表示：粗网络使用单通道LWGC，精网络使用深度可分离的LWGC。3.5.3训练过程在训练过程中，所有实验中所有图像的颜色值都线性缩放到[-1，1]，蒙版使用1表示孔洞区域，使用0表示背景。掩码图像被构造为x<$（1−m），其中x是输入图像，m是二进制掩码，并且<$表示点积。修复生成器G需要级联-作为输入，并预测与输入图像相同大小的y=G（x，m）整个训练过程在算法1中示出算法1：训练我们提出的网络初始化;当G对于i = 1，...，5难道从训练数据中采样批量图像x生成x的随机掩码m;修复y←G（x，m）;倒推x<$y<$m+x<$<$（1−m），采样一个随机数α∈U[0，1]，得到插值x<$（1−α）x+αx<$;更新具有损失Ld的CNOD;端从训练数据中采样批量图像x生成x的随机掩码m;修复y←G（x，m）;倒回x<$m ←y<$m+x<$m（1−m）;用损失Lg更新生成元G;端4. 实验结果我们在三个数据集上评估了所提出的方法，包括Places 2 [38]，CelebA-HQ [16]和DIV 2K [25]。我们的模型在两个NVIDIA 1080 Ti GPU上训练，图像分辨率为512×512，批量大小为8。对于DIV 2K和CelebA-HQ，图像被下采样到512×512。对于Places2，图像被随机裁剪为512×512。训练后，我们在以下图像上测试模型：GPU上的512到8K的各种分辨率最终模型共有 2.7M 个参数，并在 Tensor-Flow v1.13 上使用CUDNN v7.6和CUDA v10.0实现4.1. CRA设计如图2所示，CRA机制涉及发生器外部的一个下采样和两个上采样操作。选择不同的下采样和上采样方法为了探索这一点，我们尝试了四种下采样方法：最近邻、双线性、双三次和平均老化。平均化将输入均匀地分割为目标面片并对每个块中的所有像素求平均以获得512×512图像。我们还探索了三种上采样方法，包括：最近邻，双线性或双三次。请注意，两个上采样操作必须一致，因此我们不考虑不一致的组合。HD数据集上的实验结果表明，平均化在下采样方面表现为了简单起见，我们使用平均下采样和双线性上采样。7515图5：使用Places2验证数据集的512×512（上）和1024×1024（下）图像进行定性比较。表2：Places2验证集的定量评价结果。请注意，某些型号在2K或4K图像上测试时会导致内存不足（OOM）错误，因此相应的单元格为空。图像尺寸512 ×5121024 ×10242048 ×20484096 ×4096度量L1MS-SSIM FID是时间L1MS-SSIM FID是时间L1MS-SSIMFID是时间L1MS-SSIMFID是时间[36]第三十六话 6.7330.84427.541 17.56 62ms 7.2700.842410.21 17.69 663ms––––––––––[35]第三十五话 6.0500.88484.939 18.20 78ms 6.9420.87848.347 17.04 696ms––––––––––PEN-Net[37]9.7320.828014.13 14.51 35ms 10.420.812819.36 12.51 289毫秒––––––––––PartialConv[19]8.1970.839929.32 13.13 35ms 11.190.838132.20 13.53 110Ms 16.190.837341.23 11.17 920ms–––––全球-地方[15]8.6170.846921.27 13.48 53ms 9.2320.839226.23 13.05 219毫秒9.3080.834727.09 12.61 219毫秒–––––我们5.4390.88404.898 17.72 25ms 5.4390.88404.899 17.72 31ms 5.4920.88404.893 17.85 37ms 5.5030.88404.895 17.81 87.3ms4.2. 轻量级门卷积我们提出了三种类型的LWGC，这是比原来的GC更快我们在CelebA-HQ数据集上实验了它们如何影响修补质量和效率，以探索LWGC对结果的影响，通过将粗/精网络的原始GC 替换为LWGC 。如图4所示，LWGCsc +LWGCsc配置带来了可见的伪影，而其他五种配置在质量方面表现同样出色。考虑到LWGCsc+LWGCpw比其它四种方案所需参数少，我们采用LWGCsc+LWGCpw结构。4.3. 与基于学习的方法的比较我们将我们的方法与其他最先进的基于学习的修复方法进行了比较，包括全局 - 局部 GAN [15] ，DeepFillV1 [36]， [35]第三十五话：网[37]和部分卷积[19]。为了进行公平的比较，我们尝试在所有实验中使用相同的设置，但不能完全保证。官方预训练的DeepFillV 1 [36]模型训练了100 M次迭代，批量大小为16，全局-局部GAN [15]训练了300 K次迭代，批量大小为24。两人都在256×256的图像上训练，最大尺寸为 128×128 的喉孔。所有其他模型都在512×512图像上进行了30万次迭代训练，批量大小为8 ，其中不规则孔占整个图像的 25% 。原始的DeepFillV2模型[35]附加了一个草图通道到输入，以方便图像操作，我们只是删除了草图通道，并重新训练模型。对于所有这些方法，除了将填充的内容粘贴回原始图像之外，不执行特定的后处理步骤。定性比较图5显示了我们的模型在512×512图像上，形式与以前的方法一样好或略好部分卷积[19]和全局-局部GAN [15]在掩模较小且较窄时表现良好，但当孔大小变为更大全局-局部GAN [15]在保持填充内容与周围环境的颜色一致性方面存在问题。DeepFillV1 [36]生成了合理的结果，但偶尔孔区域内的伪影可见，表明其易受不规则掩模的影响。DeepFillV2 [35]在孔大小增加时生成不连贯的纹理。然而，当在具有较大孔尺寸的较大图像上进行测试时，我们的模型表现一贯良好，而其他方法的内画结果显着恶化（例如，图5中的严重孔形伪影）。7516图6：不同超分辨率方法的比较：红色方块区域被放大以获得更多细节。Figure 7: Comparisons of our method with Inpaint (software), Photoshop content-aware fill and an open-source PatchMatchimplementation [28]. Photoshop和Inpaint的蒙版是手动绘制的，因此不能保证相同。定量比较表2报告了我们在平均L1错误、MS-SSIM[27]、初始评分（IS）[22]和Frechet初始距离（FID）[14]方面的定量评估结果。它还显示了NVIDIA GTX1080 Ti GPU上每个图像的平均推理时间。这些指标是在Places2验证集的所有36，500个图像上计算的每个图像被分配一个随机生成的不规则掩码。为了检查在各种图像尺寸上的性能，我们线性地将图像和掩模缩放到各种尺寸。月经表2显示，我们提出的模型在512×512图像上实现了最低的 L1 损失和 FID 。当输入图像大于或等于1024×1024时，我们提出的模型在所有指标上都取得了最佳结果。在此外，所提出的方法在速度方面明显优于其他基于学习的方法具体来说对于512×512的图像，它比第二快的方法快28.6%，对于1024×1024的图像快3.5倍，对于2048×2048的图像快5.9倍。此外，该模型可以在87.3毫秒内修复4096×4096幅图像，这是其他基于学习的图像修复算法难以处理的由于GPU内存的限制。4.4. CRA与超分辨率的比较图6比较了我们CRA的高分辨率结果与通过各种超分辨率技术获得的结果。在获得512×512的修复结果后，我们使用不同的上采样方法将输出上采样到原始大小，包括SRGAN [17]，Nearest Neighbor [17]，bor和Bicubic，然后，我们将填充的内容粘贴到原始图像。SRGAN [17]是一种基于学习的方法，可以执行4倍超分辨率，并且官方预训练模型是在DIV2K上训练的我们可以观察到，由CRA产生的空穴区域通常更尖锐并且视觉上与周围区域更加一致。4.5. 与传统方法的比较此外，我们将我们的方法与基于 PatchMatch [2]（Photoshop，Inpaint）的两种商业产品我们发现基于PatchMatch的方法能够生成清晰的纹理，但具有与周围区域不一致的扭曲结构。5. 结论我们提出了一种新的上下文残差聚合技术，该技术能够实现超高分辨率图像的更高效和高质量的内部绘制。与其他数据驱动的方法不同，分辨率和孔大小的增加不会恶化修复质量，也不会显著增加我们框架中的处理时间当在1K和2K之间的高分辨率图像上进行测试时，我们的模型非常高效，在相同大小的图像上，它比最先进的图像此外，与最先进的技术相比，它通过将FID减少82%来实现更好的质量。我们还将我们的方法与商业产品在某些情况下表现出显著的优越性。到目前为止，我们的方法是唯一一种基于学习的技术，可以在超高分辨率图像（4K至8K）上实现端到端修复。在未来，我们将探索其他任务的类似机制，如IM-年龄扩展、视频修复和图像融合。确认我们要感谢邓鹏、陈绍华、孙新江、田春华和华为技术公司的其他同事对该项目的支持。7517引用[1] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。通过矢量场和灰度级的联合插值来填充IEEE图像处理学报，10（8）：1200[2] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ACM Transactions on Graphics（ToG），第28卷，第24页中。ACM，2009年。[3] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。第27届计算机图形和交互技术年会论文集，第 417-424 页。 ACMPress/Addison- Wesley Publishing Co.，两千[4] 彼得·伯特和爱德华·阿德尔森。拉普拉斯金字塔作为一个紧凑的图像代码。 IEEETransactions oncommunications，31（4）：532[5] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习。 arXiv 预印本 arXiv ： 1511.07289 ，2015。[6] AntonioCriminisi，PatrickP e'rez，和KentaroToyama. 基于样本的图像修补的区域填充和对象去除。 IEEETransactions on Image Processing，13（9）：1200[7] Emily L Denton，Soumith Chintala，Rob Fergus，et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统的进展，第1486-1494页，2015年[8] Manjusha Deshmukh和Udhav Bhosale。图像融合及融合图像质量评价。 International Journal of ImageProcessing（IJIP），4（5）：484，2010.[9] Iddo Drori，Daniel Cohen-Or，和Hezy Yeshurun.基于片段的图像完成。在ACM图形学报（TOG），第22.3卷，第303ACM，2003年。[10] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在第28届计算机图形和交互技术年会的会议记录中，第341-346页ACM，2001年。[11] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。在第七届IEEE计算机视觉国际会议的会议中，第2卷，第1033-1038页IEEE，1999年。[12] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年[13] 何开明和孙健。图像完成的补丁偏移量统计。在欧洲计算机视觉会议上，第16-29页。Springer，2012.[14] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年[15] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（ToG），36（4）：107，2017。[16] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[17] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第4681-4690页[18] Liang Liao ， Ruimin Hu ， Jing Xiao ， and ZhongyuanWang. Edge-aware context encoder for image inpainting.2018 年 IEEE 声学、语音和信号处理国际会议（ICASSP），第3156IEEE，2018年。[19] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。在欧洲计算机视觉会议（ECCV）的会议记录中，第85-100页[20] Aaron van den Oord 、 Nal Kalchbrenner 和 KorayKavukcuoglu。像素递归神经网络。arXiv预印本arXiv：1601.06759，2016。[21] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 2536[22] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展，第2234-2242页，2016年[23] Mohsen Sharifi，Mahmood Fathy，and Maryam TayefehMahmoudi.边缘检测算法的分类与比较研究。在诉讼中。信息技术国际会议：编码和计算，第117-120页。IEEE，2002年。[24] Yuhang Song，Chao Yang，Zhe Lin，Xiaofeng Liu，QinHuang，Hao Li，and C-C Jay Kuo.基于上下文的图像修复：推断、匹配和翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第3-19页[25] Radu Jiangfte ， Soybean Gu ， Jiqing Wu ， Luc VanGool ， Lei Zhang ， Ming-Hsuan Yang ， MuhammadHaris，et al. Ntire 2018挑战单幅图像超分辨率：方法和结果。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2018年6月。[26] 亚历山大·托特采用低通金字塔比率法进行图像融合Pattern Recognition Letters，9（4）：245[27] Zhou Wang，Eero P Simoncelli，and Alan C Bovik.多尺度结构相似性图像质量评价。在 The Thrity-SeventhAsilomar Conference on Signals ， Systems Computers ，2003，第2卷，第1398IEEE，2003年。[28] 李文福，谢元廷。使用patchmatch算法完成图像。https://github.com/YuanTingHsieh/Image_www.example.com访问时间：2019-10-26。7518[29] Marta Wilczkowiak，Gabriel J Brostow，Ben Tornut，and Roberto Cipolla. 通过照片蒙太奇填补漏洞。在BMVC 2005-Proceedings of the British Machine VisionConference 2005中，2005。[30] Wei Xiong，Jiahui Yu，Zhe Lin，Jimei Yang，Xin Lu，Connelly Barnes，and Jiebo Luo.前景感知图像绘画。在IEEE计算机视觉和模式识别会议论文集，第5840-5848页，2019年。[31] 徐宗本、孙坚。利用斑块稀疏性的图像修补方法。IEEE transactions on image processing，19（5）：1153[32] 燕昭仪、李晓明、慕丽、左王梦、石光山。Shift-n

下载后可阅读完整内容，剩余1页未读，立即下载