基于学习金字塔上下文编码器网络的高质量图像修复

56 浏览量更新于2023-10-19 收藏 1014KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1486基于学习金字塔上下文编码器网络的高质量图像修复曾艳红1、2岁，付建龙3、赵红阳1、2岁，郭柏宁3岁1中山大学数据与计算机科学学院，广州，中国中国2中山大学机器智能与高级计算教育部重点实验室中国3中国北京微软研究院中国zengyh7@mail2.sysu.edu.cn，{jianf，bainguo} @ microsoft.com，isschhy@mail.sysu.edu.cn图1：由所提出的P金字塔上下文EN编码器网络（PEN-Net）生成的高质量图像修复结果。在每一对中，左边是被白色掩盖的受损图像，右边是图像修复的结果。PEN-Net在各种图像上表现出色，包括立面，自然场景，面部和纹理。[最佳颜色]摘要高质量的图像修复需要用合理的内容填充受损图像中的缺失区域。现有的工作要么通过复制图像块来填充区域，要么从区域上下文生成语义连贯的块在本文中，我们提出了一个金字塔上下文编码器网络（PEN-Net）的图像修复的深度生成模型。PEN-Net建立在U-Net结构上，其可以通过对来自全分辨率输入的上下文语义进行编码并将学习到的语义特征解码回图像来恢复具体来说，我们提出了一个新的上下文编码器，它通过注意力从这项工作是在第一作者作为研究实习生访问微软研究院时完成的高级语义特征图，并将学习到的注意力转移到先前的低级特征图。由于缺失的内容可以通过注意力从深到浅的金字塔式转移来填补，因此可以保证图像修复的视觉和语义一致性。我们进一步提出了一个多尺度解码器，具有深度监督金字塔损失和对抗损失。这种设计不仅使训练收敛速度快，而且使测试结果更符合实际在各种数据集上的实验表明了该网络的优越性能。1. 介绍图像修复的目的是在给定相应的掩模的情况下填充损坏图像中的丢失像素[2]。几十年来，这项任务引起了人们的极大关注，并成为一个有价值的和活跃的研究课题[5，12，17]，因为高质量的1487图像修补可以有益于广泛的应用，类别方法语义详细信息例如旧照片恢复、对象移除等。高质量的图像修复通常需要合成，thesizing不仅在视觉上逼真，但语义上合理的内容丢失的地区[3，5，28，29，31]。现有的方法可以大致分为两种映像级特征级PatchMatch[1]，C区域填充[5]GL[9]，PConv[13]，CGntIpt[31]组如表1所示，第一组受纹理合成技术的启发，尝试在图像级填充区域[1，5，22]。具体而言，这种方法通常从源图像中采样并粘贴全图像分辨率补丁到缺失区域中，这允许合成具有细节的结果。然而，由于缺乏对图像的高层次理解，这种方法往往无法生成语义合理的结果。为了解决这个问题，第二组方法提出通过深度神经网络将图像的语义上下文编码到潜在特征空间中，然后通过生成模型生成语义一致的补丁[13，17，31]。然而，从紧凑的潜在特征生成视觉上逼真的结果仍然具有挑战性，因为通常可以通过堆叠卷积和池化来平滑完整的图像分辨率细节为了确保视觉和语义的一致性都可以得到满足，我们建议在图像和特征级别填充区域。首先，我们采用U-Net [19]结构作为我们的骨干，它可以将上下文从低级别的像素编码回到一个图像。具体来说，我们提出了一个金字塔上下文EN编码器网络（PEN-Net），它具有三个定制的关键组件，即，上下文编码器、多尺度解码器和对抗性训练损失，以提高U-Net在图像修复中的能力。第二，一旦紧凑的潜在特征已经从图像中编码，则上下文编码器在解码之前在金字塔路径为此，我们提出了一个注意力转移网络（ATN）来学习区域中缺失区域内部/外部面片之间的亲和力一个高级特征图，然后传送（即，通过亲和性加权复制）相关特征从外部进入具有更高分辨率的先前特征图的内部区域第三，所提出的多尺度解码器作为输入的重构功能从ATNs通过跳过连接和潜在的功能，最终解码。 PEN-Net通过最小化深度监督金字塔L1损失和对抗损失来优化。据我们所知，所提出的PEN-Net是第一个能够在图像级和特征级填充图像修复缺失区域的工作。我们强调我们的贡献如下：• 跨层注意力转移。我们提出了一种新的网络，ATN，从高级特征图（例如，紧凑的潜在特征，编码器）。所得到的亲和图可以引导特征我们的C C表1：两组典型的图像内嵌方法 . PatchMatch [1]和Region filling [5]确保具有更多细节的补丁可以用于填充，而GL [9]，Pconv [13]和GntIpt [31]可以生成语义一致的结果。与其他方法相比，该方法能够同时满足语义和视觉的要求.在编码器中的相邻低级别层中的传输• 金字塔填充。我们的模型可以通过重复多次填充孔（取决于编码器的深度使用ATN从深到浅，这可以重新存储具有更细粒度细节的图像。2. 相关工作基于块的图像修复方法。基于块的方法首先被提出用于纹理合成[6，7]。然后将它们应用于图像修复，在图像级别填充缺失区域[24]。他们通常从数据库或未损坏的环境中采样并粘贴相似的补丁到基于补丁之间的距离度量的缺失区域（例如，欧几里德距离、SIFT距离[15]等）。Bertalmio等人提出将基于块的纹理合成技术与图像分解下的基于扩散的传播相结合[3]。许多方法试图通过提供更好的填充顺序或最佳补丁来提高性能[5，22，27]。补丁匹配是为了快速找到图像补丁之间的相似匹配而提出的[1]。基于块的图像修复方法能够生成与上下文相似的清晰结果。然而，基于深度生成模型的图像修复。用于图像修复的深度生成模型通常将图像编码为潜在特征，填充缺失区域，特征级别，并将特征解码回图像。最近，深度生成模型已经取得了可喜的成果。基于深度特征学习和对抗性训练，上下文编码器是第一个深度生成模型之一，能够为语义漏洞填充提供合理的结果[17]。引入引导损失以使解码器中生成的特征图尽可能接近编码器中生成的地面实况的特征图[28]。[30]《易经》云：“君子之道，焉可诬也？”1488(a)金字塔上下文编码器高级语义L(b)多尺度解码器公司简介布里尔公司简介布里尔1ATN深skip连接公司简介RGB金字塔L1损失ATN浅1D对抗性损失低阶像素布里尔高级特征图将面片提取(c)注意力转移网络（ATN）扩张Conv匹配(d)鉴别器（D）真是假真是假率=1注意力分数l1填充lrate=2填充特征低层特征图率=4经重构特征地面实况输出率=8输入ONVDec3x33x33x33x3图2：提出了P金字塔上下文编码器网络（PEN-Net），以提高U-Net在图像修复中的能力，具有三个定制组件，即，上下文编码器（a）、多尺度解码器（b）和对抗训练器（c）。损失（d）。首先，一旦紧凑的潜在特征已经被编码，则上下文编码器通过经由所提出的注意力转移网络（ATN）（c）从高级特征图向低级特征图（具有更丰富的细节）填充区域来进一步提高其次，多尺度解码器将通过跳过连接从ATN重构的特征和用于解码的潜在特征最后，解码器将特征解码回图像。整个网络通过最小化金字塔L1损失和对抗损失来优化[最好是彩色的]Iizuka等人的完井网络中的有效场。[9]的文件。PConv[13]和ShCNN [18]等特殊卷积运算提出了上下文注意层[31]和补丁交换层[21]，受图像风格化的启发，MNPS提出在推理期间使用预先训练的分类网络来优化纹理细节[29]。 Isola等人尝试通过一个通用的图像翻译框架来解决图像修复问题[10]。利用高级语义特征学习，深度生成模型能够为缺失区域生成语义一致的结果然而，从紧凑的潜在特征生成视觉上逼真的结果仍然具有挑战性。3. 金字塔上下文编码器网络金字塔上下文编码器网络（PEN-Net）包括三个部分（如图2所示），即，金字塔上下文编码器（a）、多尺度解码器（b）和判别器（d）。PEN-Net是建立在一个U-Net结构，它可以编码一个损坏的图像与掩模从全输入分辨率像素到一个紧凑的潜在特征和解码的功能回到一个图像。由于紧凑潜在特征对上下文的语义进行编码，因此上下文编码器可以通过将紧凑潜在特征的缺失区域填充到低级特征（具有更高的分辨率和更丰富的细节）来进一步提高编码效率。它通过重复使用所提出的张力转移来网络（ATN）（c）多次（根据深度编码器的）解码之前。具体来说，ATN从高级语义特征学习缺失区域内部/外部的小片之间的区域亲和性，并且将学习到的注意力转移到填充区域（即，通过亲和性从上下文加权复制）在其先前的特征图中以更高的分辨率。在ATN中，通过四组不同速率的膨胀卷积进一步聚合多尺度信息，以细化填充特征最后，多尺度解码器将通过跳过连接从ATN重构的特征和用于解码的潜在特征作为输入除了对抗性损失之外，金字塔L1损失用于逐步改进解码器在所有尺度下的预测输出。我们在3.1节中描述了上下文编码器和ATN的细节。在第3.2节中介绍了多尺度解码器和金字塔L1损失，随后是第3.3节中描述的对抗训练损失。1489我Ji、jLL我Lpp3.1. 金字塔上下文编码器填充由注意力分数加权的上下文：金字塔上下文编码器为了提高编码效率，提出了金字塔上下文编码器，用于在解码前填充缺失区域。一旦−1pj= ΣNi=1lj，ip−1，（4）学习了紧凑的潜在特征，其中pl−1是从φl−1外部我编码器填充从高级语义特征到低级语义特征的区域l−1通过以金字塔的方式重复使用所提出的ATN，来获得更高级别的特征（具有更高的分辨率）在具有相似语义的像素应该具有相似细节的假设下，在每一层应用ATN以从高级语义特征学习区域亲和度，因此学习的区域亲和度可以进一步引导具有更高分辨率的相邻层中的缺失区域内部/外部的特征转移给定L层的上下文编码器，我们将从深到浅的特征映射表示为φL，φL-1，.，φ1，如图2（a）所示。构造的特征从深到浅的每层中的ATN表示为：φL−1=f（φL−1，φL），<$L−2=f（φL−2，<$L−1），（1）···掩蔽区域，并且pj是要填充的第j个缺失的区域在计算完所有的补丁之后，我们可以通过注意力转移来最终获得一个填充特征<$l-1。特别是，所有这些操作都可以公式化为端到端训练的卷积操作[31]。我们建议进一步细化ATN中的填充特征，如图2的（c）所示。具体地说，多尺度上下文信息可以通过四组具有不同速率的扩张卷积来聚合这样的设计保证了最终重构特征的结构与上下文的一致性，提高了测试中的修复效果。3.2. 多尺度解码器多尺度解码器所提出的多尺度解码器将通过跳过连接从ATN重构的特征和来自编码器的潜在特征作为输入1 121 2L−1L我们表示由多尺度生成的特征图f = f（φ，φ）= f（φ，f（φ，. f（φ ，φ），其中我们将ATN的操作表示为f。通过这种跨层注意力转移和金字塔填充机制，可以确保缺失区域的视觉和语义一致性f的细节（即，ATN）的介绍如下。注意力转移网络我们遵循最先进的方法，通过使用注意力来填充缺失区域[21，28，31]。注意力通常是通过缺失区域内/外的小块（通常为3×3）之间的区域亲和力来获得的，因此可以将外部的相关特征转移（即，通过亲和性从上下文加权复制）到内部区域中。如图2的（c）中所示，ATN首先从高级特征图学习区域亲和度，它从Rankl中提取补丁，并计算缺失区域内外补丁之间的余弦相似度：解码器为L-1，L-2，...，从深到浅，其获得如下：<$L−1=g（<$L−1<$g（φL）），L−1），（5）···1=g（其中，g表示转置卷积运算，k表示特征级联，并且k1是来自编码器的第l层中的ATN的重构一方面，由ATN生成的重构特征对缺失区域编码更多的低级信息。这样的设计使得解码器能够生成具有细粒度细节的视觉上真实的结果。另一方面，通过卷积从紧凑的潜在特征中获得的特征能够在未命中的情况下合成新的对象sl=pipl，（2）即使在外面找不到物体，缺失的区域结合这两种特征，i，jülülüri2j2其中p1是从掩模外部的p1提取的第i个补片，p1是从掩模内部的p1提取的第j个然后softmax应用于相似性，以获得每个补丁的注意力得分：解码器能够合成在语义和纹理方面与图像的上下文具有高度一致性的新颖对象。例如，建议的解码器是能够合成，thesize眼睛在人脸图像与两只眼睛掩盖。金字塔L1损失我们还提出了深度监督的金字塔L1损失，以逐步改进每个尺度上缺失区域的预测具体来说，每一个金字塔αl=Σ exp（sl）.（三）loss是一个归一化的L1距离，j，iNi=1 exp（sl）具体比例和相应的地面实况：α1490i、jL−1在从高级特征获得注意力分数之后，地图，其相邻的低级别特征地图中的孔可以Lpd=<$xl−h（l）<$l=1、（6）11491(a) 输入（b）PatchMatch（c）GL（d）CA（e）PConv（f）我们的图3：对具有不同特征的四个数据集与基线的定性比较。在每一行中，第一个图像是输入，在中心有一个大掩码（即，128×128），左边的图像从左到右分别是PatchMatch [1]，GL [9]，CA [31]，PConv [13]和我们的模型生成的结果。[最佳观看放大。]其中，h表示1×1卷积，其将RGB1解码为具有相同大小的RGB图像，并且xl是缩放到与RGB1相同大小的地面真值。包含金字塔L1损失和对抗性损失的总体目标函数为在下一节中描述。3.3. 对抗性训练损失我们首先将生成器的最终预测定义为：z=G（x<$（1−M），M）<$M+x<$（1−M），（7）其中x是地面真值，m是逐元素乘法，M是掩码，其中1标记缺失区域，0标记上下文。针对该节点的对抗性损失的铰链版本可以表示为：由于图像修复是一个不适定问题，对于丢失的区域有许多可能的结果，我们使用LD=Expdata[max（0，1−D（x））]+Ez<$pz[max（0， 1+D（z））]，（八）对抗训练来选择最真实的一个。对抗训练通常涉及生成器（G）和离散元。其中D（x）和D（z）是D的logit输出。发电机的对抗损失可以表示为：criminator（D），其目的是实现纳什均衡，使得生成器生成的假数据不能被发现。LG=−E zpz[D（z）]。（九）从真实数据中提取出来的。如图2的（d）所示，上下文编码器和多尺度解码器形成生成器，并且我们采用Patch-GAN [10]作为我们的解码器。频谱归一化用于训练中以稳定训练[16]。1492通过最小化第3.2节中定义的对抗损失和金字塔L1损失来优化整个PEN-Net。我们将总体目标函数定义为：L=λGLG+ λpdLpd.（十）14934. 实验我们从定量和定性两个方面评估了建议的网络基线。第4.1节介绍了实验设置的详细信息，第4.2节描述了实验结果，第4.3节分析了我们模型的有效性。4.1. 实验设置数据集我们对具有以下不同特征的四个数据集进行实验（详见表2）：– 立面[25]：来自世界各地不同城市的高度结构化立面的集合。– DTD [4]是一个不断发展的数据集，包含了在野外收集的47种可描述纹理。– CELEBA-HQ [11]，来自CELEBA [14]的人类面部数据集的高质量版本。– Places2是一个数据集，包含从自然世界收集的365个场景的图像。基线我们将其与以下基线进行比较，以了解其最先进的性能：– PatchMatch（PM）[1]：一种典型的基于补丁的方法，它从周围环境中复制相似的补丁。– GL [9]：一种生成模型，它利用全局和局部判别器进行图像补全。– CA [31]：两阶段修复模型，其在高级特征处调节上下文注意力。– PConv [13]：一种生成模型，它提出了一个用于填充不规则孔的特殊卷积层。实现细节我们使用随机块进行训练，遵循基地使用的实验设置-表3：位置2与L1丢失、MS-SSIM、IS和FID的定量比较 * 越低越好。更高更好。L1损失可以粗略地反映模型重构原始图像内容的能力。MS-SSIM算法在多尺度下提取和评价图像结构信息的相似性，提供了一种与人类视觉感知很好的近似。然而，对于缺失区域，存在大量与原始内容不同的解决方案，而L1损失和MS-SSIM仅限于与原始图像内容进行比较。假设受损场景图像在图像修复后应保持相同的属性，修复结果应被预先训练的分类网络确信地识别为特定类别为此，我们还使用初始分数作为评估指标之一：[9]第31话公平竞争所有图像的大小调整为256×256用于训练和测试。拔孔I= exp（Ezpz[（D）KL（p（y|（z））（p（y））]），（11）对于每一层中的非空洞区域，我们采用最近邻法下采样来演化孔洞。我们的完整模型运行在0.19对于大小为256×256的图像，在GPU TITAN V上每帧每秒。所有报告的结果都直接从训练模型输出，而不使用任何后处理。该代码将公开提供。14.2. 结果定量比较由于Places 2包含自然世界的图像，被认为是最具挑战性的数据集 [9 ， 31] （与Facade/DTD/CELEBA- HQ相比），我们对Places 2进行定量比较。所有图像均随机使用128×128正方形进行掩蔽以进行测试。我们使用L1损失，多尺度结构相似性（ MS-SSIM ） [26] ， InceptionScore （ IS ） [20] 和Fre'chetInception Distance（FID）[8]作为评估指标。再-表3中列出的结果显示了所提出的方法相对于基线的可比性能。1https://github.com/researchmm/PEN-Net-for-Inpainting其中z是第3.2节中定义的修复结果，y是预训练分类模型预测的标签。我们使用Zhou等人发布的预训练分类网络。[32 ]第32段。此外，FID已经引起越来越多的关注，并成为图像生成领域中常用的数值度量。我们还包括FID，使用预训练的Inception-V3模型测量真实图像和假图像之间的Wasserstein-2距离[23]。定性比较为了同时考虑视觉和语义的连贯性，我们对四个不同的数据集的测试集进行了定性比较特征，其具有高度结构化的细粒纹理。我们用中心128× 128的正方形屏蔽了测试图像，我们的模型显示出优于最先进技术的性能。如图3所示，典型的基于块的方法PatchMatch能够生成清晰的纹理，但是具有与周围区域不一致的扭曲结构，而包括GL、CA和PConv的深度生成模型倾向于在最终结果中在跨层的帮助下，数据集#火车测试次数总数酒店[25]506100606DTD [4]4,5121,1285,560CELEBA-总部[11]28,0002,00030,000地点2 [32]1,803,46036,5001,839,960表2：四个数据集的训练和测试分割。方法L1损失†MS-SSIM¶IS¶FID†PatchMatch [1]12.9060.00%43.0320.36[8]第八届9.2773.40%42.0519.18PConv [12]8.9274.67%47.0018.39加拿大[29]9.9173.02%44.8118.34PEN-Net（我们的）9.9478.09%50.5115.191494(a) 输入（b）PatchMatch（c）GL（d）CA（e）PConv（f）我们的图4：Facade上使用不规则遮罩进行图像修复的定性比较[最佳观看放大。](a)（c）我们的投入图5：Places2上的拟议网络生成的示例结果。[Best放大查看]。注意力转移和金字塔填充机制，我们的模型能够生成语义合理和视觉逼真的结果，具有清晰的纹理和与上下文一致的我们还验证了所提出的网络的能力，以填补不规则的面具缺失的地区。具体地说，我们使用了刘等人发布的立面和面具的图像。[13]为测试。如图4所示，基线往往会产生颜色差异和扭曲的结构，而我们的模型在颜色和结构一致的情况下优于最先进的模型我们的模型在自然场景和人脸图像上生成的更多示例结果可以在图5和图6中找到。用户研究除了定量和定性的比较，我们还进行了两个设置的用户研究，即，配对图像和单个图像用户研究。卷-所有的摄影师都是具有图像处理背景的图像专家。他们没有被告知口罩信息。（a）原始（b）投入（c）我们的图6：CELEBA-HQ拟议网络产生的结果示例。[Best放大查看]。在第一个场景中，超过20名志愿者被邀请来评估模型在Facade上的表现。每一次，志愿者都会看到一对由不同模型生成的图像志愿者被要求从这两个图像中选择一个更自然的。我们共收集到613张有效选票，结果统计如表4所示。统计数据显示，我们的模型在大多数时间（82.10%）比其他模型排名更好。我们还发现，人们更喜欢PatchMatch（PM），CA和我们的在第二种情况下，我们将DTD的验证集随机三组图像分别用32×32、64×64或128×128的正方形进行掩蔽，最后一组不掩蔽。超过25名志愿者被邀请来评估所生成通过我们的模型与不同的面具大小。每次，从真实数据或我们的修复结果中采样的图像都会显示为1495方法下午GLCAPConv我们百分比40.15%34.25%70.30%23.70%82.10%表4：配对图像用户研究的统计。该值指示被评为更好的百分比。表5：单个图像用户研究的统计。该值表示被视为真实的百分比。方法L1损失†ms-ssim¶IS¶FID†补丁交换[21]12.1364.00%29.2636.85单一自动柜员机（我们的）9.8571.61%37.0226.38PEN-Net（我们的）9.9478.09%50.5115.19表6：Places2上跨层注意力转移网络（ATN）和金字塔填充机制的消融比较* 越低越好。更高更好。志愿者猜测图像是否是来自数据集的真实图像。我们共收集到1，425张有效选票，统计数据见表5。我们发现，在82.23%的时间内，使用32×32面具的修复结果可以被认为是真实的。即使在具有挑战性的128×128病例中，我们也收到了32例。70%的选票4.3. 分析我们通过可视化学习的特征图或消融研究来分析所提出的网络的不同组件的有效性，如下所示。金字塔L1损失的有效性金字塔L1损失被提议在每个尺度上逐步改进预测。我们对人类的图像进行实验，面和可视化的图像解码在每个规模。如图7所示，金字塔损失有助于将紧凑的潜在特征逐层解码为图像。ATN的有效性为了验证注意力转移网络（ATN）的有效性，我们在具有不同注意力机制的同一U-Net骨干上可视化了学习的特征图。如图8所示，vanilla U-Net编码器（不使用attention）缺失区域内的信息很少，并且它无法产生合理的结果。没有指导（即，注意力图），CA [31]（常用的注意力方法）未能填充浅层缺失区域内的相干斑块。通过提出的跨层ATN，我们的模型能够用相干补丁填充区域。除了与图8中的CA进行比较之外，我们还在表6中与相同U-Net骨干上的补丁交换层[21]（最新的注意力方法）进行了比较。我们可以观察到，跨层注意力转移网络-(a)（b）（c）（d）（e）图7：解码器在每个尺度下生成的图像(a) 是输入。(b)是我们的模型生成的最终预测。(c)（d）和（e）是解码器在多个尺度上的预测输出（为了可视化，所有尺寸都调整为256×256）。[Best放大查看]。(a) 输入（b）输出（c）不同层的学习特征图图8：编码器学习的特征图的可视化。(a)是输入。(b)是由模型生成的最终预测。(c)是来自不同层的可视化特征图。[Best放大查看]。工作和金字塔填充机制带来了U-Net骨干网性能的提高。5. 结论在本文中，我们提出了一个金字塔上下文编码器网络（PEN-Net）生成语义合理和视觉逼真的图像修复结果。具体地说，该网络通过使用上下文编码器和多尺度解码器来提高vanilla U-Net的编码和解码效率。我们强调了编码器中使用的注意力转移网络的两个关键差异，即跨层注意力转移和从高级语义特征到具有更多细节的低级特征的金字塔填充。作为未来的工作，我们计划改进所提出的网络，以获得更高分辨率的图像。致谢这项工作得到部分支持由中国NSF根据授权61672548，U1611461，61173081，以及中国广州科学技术计划，根据基金201510010165。我们CA掩模尺寸0（实数）3264128百分比92.66%82.23%52.63%32.70%香草U-Net1496引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，and Dan B Goldman. Patchmatch：一种用于结构图像编辑的随机对应算法。TOG，28（3）：24：1-24：11，2009. 二、五、六[2] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。在SIGGRAPH，第417-424页，2000中。1[3] Marcelo Bertalmio，Luminita Vese，Guillermo Sapiro，and Stanley Osher.同时结构和纹理图像在绘画.TIP，12（8）：882-889，2003. 2[4] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。在CVPR，第3606-3613页，2014年。6[5] 安东尼奥·克里米尼西，帕特里克·佩雷斯，还有K·塔洛·托山。基于样本的图像补绘的区域填充和目标去除TIP，13（9）：1200-1212，2004. 一、二[6] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在SIGGRAPH中，第341- 346页。ACM，2001年。2[7] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。见ICCV，第1033IEEE，1999年。2[8] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NeurIPS，第6626-6637页，2017年。6[9] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。TOG，36（4）：107，2017. 二三五六[10] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页，2017年。三、五[11] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。6[12] Anat Levin ， Assaf Zomet ， Shmuel Peleg ， and YairWeiss.梯度域中的无缝图像拼接。ECCV，第377-389页，2004年。1[13] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。参见ECCV，第85-100页，2018年。二三五六七[14] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在ICCV，第3730-3738页，2015中。6[15] 大卫·G·洛基于局部尺度不变特征的目标识别见ICCV，第1150-1157页。IEEE，1999年。2[16] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。在ICLR，2018年。5[17] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在CVPR，第2536-2544页，2016年。一、二1497[18] Jimmy SJ Ren ， Li Xu ， Qiong Yan ， and WenxiuSun.Shepard卷积神经网络 NeurIPS，第 901-909页，2015年。3[19] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的卷积网络在MICCAI，第234-241页，2015中。2[20] Tim Salimans、Ian Goodfellow、Wojciech Zaremba、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。在NeurIPS，第2234-2242页，2016年。6[21] 宋宇航，杨超，林哲，刘晓峰，秦煌，李昊，周杰伦。基于上下文的图像内绘：推断、匹配和翻译。在ECCV，第3-19页，2018年。三、四、八[22] 孙健，陆远，贾佳雅，沈香扬。用结构传播完成图像。在TOG，第24卷，第861-868页，2005中。2[23] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR，第2818-2826页，2016年。6[24] 亚历山德鲁·泰莱亚一种基于快速行进法的图像修复技术。图形工具杂志，9（1）：23-34，2004。2[25] RadimTyl eczelek和RadimSa'ra。Spatialpatter ntemp la te s用于识别具有规则结构的物体。载于GCPR，第364-374页，2013年。6[26] Zhou Wang，Eero P Simoncelli，and Alan C Bovik.多尺度结构相似性图像质量评价。ACSSC，第2卷，第1398-1402页。IEEE，2003年。6[27] Yonatan Wexler，Eli Shechtman和Michal Irani。视频的时空完成。TPAMI，（3）：463-476，2007年。2[28] 燕昭仪、李晓明、慕丽、左王梦、石光山。Shift-net：通过深度特征重排进行图像修复。在ECCV，第1-17页，2018年。二、四[29] Chao Yang，Xin Lu，Zer Lin，Eli Shechtman，OliverWang，and Hao Li.基于多尺度神经块合成的高分辨率图像修复。在CVPR中，第6721-6729页，2017年。二、三[30] Fisher Yu和Vladlen Koltun。通过扩张卷积的多尺度上下文ICLR，2016年。2[31] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.具有上下文注意的生成式图像修复。在CVPR中，第5505-5514页，2018年。二三四五六八[32] Bolei Zhou ， Agata Lapedriza ， Aditya Khosla ， AudeOliva，and Antonio Torralba.地点：一个用于场景识别的 1000 万图像数据库。 TPAMI ， 40 （ 6 ）： 1452-1464，2018。6

下载后可阅读完整内容，剩余1页未读，立即下载