图像修复：结构与纹理优化

159 浏览量更新于2023-10-15 收藏 2.05MB PDF 举报

图像修复

视觉质量

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

208更好的图像修复的关键：结构和纹理齐头并进Jitesh Jain1，2，3 *<$ Yuqian Zhou4*<$ Ning Yu5 Humphrey Shi1，31 SHI Lab @ University of Oregon2 IIT Roorkee3Picsart AI Research（PAIR）4Adobe Inc.5Salesforce研究https://praeclarumjj3.github.io/fcf-inpainting/几何结构和物体边界外观纹理和重复模式带孔LaMaOurs带孔CoModGAN我们的图1：高级图像修复算法最具挑战性的问题在于生成更好的结构和纹理。左：LaMa [26]适用于重复纹理，但当孔变大时会产生淡出边界和结构。右：CoModGAN [45]与基于StyleGAN [13]的生成器实现了令人印象深刻的几何结构，但它未能重用图像中的纹理来生成合理的重复模式。我们的模型生成良好的结构和纹理同时优于任何国家的最先进的。摘要随着图像生成和处理算法的最新进展，深度图像修复取得了令人印象深刻的进展。我们认为，修复算法的性能可以更好地判断所产生的结构和纹理。结构是指生成的物体边界或孔内的新颖几何结构，而纹理是指高频细节，特别是填充在结构区域内的人造重复图案。我们认为，更好的结构通常是从一个粗到细的基于GAN的生成器网络，而如今重复模式可以使用现有技术的高频快速傅立叶卷积层来更好地建模在本文中，我们提出了一种新的修复网络combining的两个设计的优点因此，我们的模型实现了卓越的视觉质量，以匹配使用单个网络的结构生成和重复纹理合成的最新性能大量的实验证明了该方法的有效性，我们的结论进一步强调了图像修复质量的两个关键因素，结构和纹理，作为未来修复网络的设计方向。*同等贡献。[2]这项工作始于Jitesh在俄勒冈大学SHI实验室实习时，Yuqian是一名博士。学生在IFP @ UIUC。2091. 介绍图像修复旨在填充不完整输入图像的缺失部分，使得观察者无法区分输出图像的修复区域和真实区域。它在工业中有许多应用，如物体去除，照片修饰和旧照片修复。传统上，修复是通过基于扩散的[4]或基于补丁的方法[3]。他们认为，孔区域内的缺失内容可以通过重用同一图像的纹理或颜色来合成。这些方法，特别是基于块的方法，合成了显著的纹理，但大多不能完成孔内的语义结构。基于GAN的方法[37，38]使语义结构生成成为可能。其中，DeepFill[37，38]首先考虑了结构和纹理合成。该模型遵循两阶段网络，其中第一阶段生成粗略的语义图，第二阶段利用全局上下文注意力复制相似的深层特征以进行纹理增强。然而，对于大多数以前的深度修复模型[15，34，44，52，29，17，9，40，39，53，46]，当洞变大时，结构估计变得具有挑战性。最近，LaMa[26]和CoModGAN [45]这两个里程碑激励我们进一步研究深度网络处理修复结构和纹理的能力。Zhao 等人。 [45]提出了协同调制生成对抗网络（CoModGAN），它使用映射的随机噪声向量增强编码表示，令人印象深刻的图像生成能力来自基于StyleGAN2的生成器[12，13]，它遵循从粗到精的方案。con-crete StyleGAN 2提供不完整图像然而，生成质量更多地依赖于训练数据域。由于CoModGAN不包括用于扩大感受野的注意力相关CoModGAN在新纹理和人造重复图案方面表现不佳。自LaMa [26]问世以来，图像修复的趋势有望改变。Suvorov等人 [26]在其基于ResNet的LaMa-Fourier模型中使用快速傅立叶卷积[6]来解释在孔区域中生成重复图案的接收场的缺乏。在此之前，研究人员一直在努力解决全局自我注意力[38]及其高计算成本，但仍然无法实现像LaMa一样好的重复人造结构的合理恢复。然而，当空穴变大并穿过物体边界时，LaMa产生淡出结构。最近，基于变换器的方法[47，28]对全局注意力进行建模，而结构只能在低分辨率内计算粗糙的图像。除此之外，无法合成好的重复纹理。最近的基于扩散的修复模型[24，25，19]推动了生成模型的极限，但推理时间对于实际使用来说可能太长。在本文中，我们重新审视了最先进的深度修复网络的核心设计思想。为了解决上述问题，我们提出了一种直观有效的修复架构，该架构利用FFC [6]的高接收能力增强了功能强大的共调制StyleGAN2 [13]生成器，以实现纹理和结构的同等良好性能，如图所示。1.具体来说，我们以基于StyleGAN的粗到细生成方案生成图像结构。同时，我们将生成的粗糙特征和编码器的跳过特征合并，并将它们通过快速傅立叶合成（FaF-Syn）模块，以更好地生成重复纹理。我们的想法简单而有效，用一个网络合成良好的结构和纹理。总之，我们发现可以在更深的基于GAN的粗到细生成器中获得更好的结构，并且重复纹理可以更好地用多尺度高感受野傅立叶卷积层合成。我们结合两者的优点，提出了一个傅立叶粗到细（FCF）通用图像修复发生器。我们的模型很好地处理纹理和结构，同时推广到自然和人造场景。大量的实验证明了我们提出的框架的有效性，它实现了一个新的国家的最先进的CelebA-HQ数据集和remarkable性能与国家的最先进的Places 2数据集具有更高的用户偏好率。2. 相关工作传统图像修复。传统上，图像在绘画任务是解决基于扩散或基于样本的方法。基于扩散的方法使用偏微分方程[4，27，31]或变分方法[2，32]等。到通过将图像像素从非空穴区域传播到缺失区域来填充空穴。由于平滑度约束用于正则化孔洞填充过程，该方法通常适用于连接较薄孔洞内的直线、曲线，而对于结构模糊的较大孔洞，这些方法容易产生模糊结果。在同一幅图像中复制粘贴相似的斑块被归类为基于范例的合成方法。逐像素复制[7，30]和基于块的合成[3，33，16]都受到昂贵的最近邻搜索的影响。这些方法产生良好的纹理，但混乱的结构。深度图像修复。基于GAN [8]的深度生成模型[15，34，44，52，29，17，9，40]最近被广泛应用于修复任务。Pathak等人。 [23]首先尝试使用GAN来解决使用seman填充漏洞的问题210EGGM⊙−带孔逆FFT 2d特征的输入图像最终修复结果图2：FFC层和InverFFT2d功能可视化。FFC使用全局分支中的光谱变换模块来考虑全局上下文，类似于LaMa [26]。学到的逆FFT 2d层功能解释了为什么LaMa在重复模式上工作得很好。它实际上生成全局重复模式，但不重建图像内容。将学习到的全局重复模式进一步合并到空穴区域内，以合成更复杂的重复模式。一致的内容。EdgeConnect [21]提出使用边缘检测结果作为修复的指导，以形成更好的结构。后来，部分卷积[18]和门控卷积[37，38]被提出来定制深度生成模型，用于不完整的图像特征提取和重用，使深度修复工作适用于自由形式的孔。ProFill [42]然后扩展了deepfillv2 [38]，以应用迭代填充和置信度估计来细化纹理。这些方法在大型不规则掩模和纹理图像上表现不佳，这是由于生成器的小感受野，缺乏随机性，或较大的内存和速度问题，如上下文注意力[37]。在基于GAN的方法取得成功之后，我们基于StyleGAN 2[13]架构制定了我们的inpainting框架。与StyleGAN2相关的随机性图像生成能力使得能够用真实结构填充大孔。大型面具修复。最近，CoModGAN [45]提出了一种共调制策略，使用随机噪声在侧条件StyleGAN 2 [13]，以提高大孔修复的图像尽管如此，CoModGAN在基于纹理的图像上测试时表现不佳为了处理图像中的重复模式，LaMa [26]提出在生成器结构中使用快速傅立叶卷积[6]。然而，LaMa对于大的连续遮罩产生平滑和褪色的效果。最近，CMGAN [48]使用FFC内部编码器和基于cas的全局空间调制解码器以及对象感知掩码的训练。然而，CMGAN [48]在良好的结构生成方面存在困难。在这项工作中，我们支持-姿势结合FFC和随机性的优点，使用共调制StyleGAN2 [13]粗到细生成器内部的噪声，以实现大型自由形式掩模的纹理和结构图像的稳健性能。在共调制StyleGAN2和FFC中的随机性的统一它需要精心设计的architec- ture，不崩溃和有效的行为大量的实验表明，我们的整合，防止FFC放大的粗层次的噪声。3. 方法在本节中，我们将介绍新提出的网络架构，如图所示。3.四通道输入将RGB掩蔽图像（I孔）和孔（M）连接，其中I孔=I有机（一）M）。输入被输入到编码器网络（）以获得编码的潜在向量zenc和多级特征图Xskip。我们的生成器网络（）共享StyleGAN 2 [13]架构的精神。与CoModGAN [45]类似，我们生成随机噪声特征向量z并将其通过映射网络（）以获得嵌入zw。zw与zenc级联并馈送到发生器中。其核心贡献是在傅立叶粗到细（FcF）发生器内部提出了快速傅立叶合成模块（FaF-Syn）。下面介绍更多的直觉和细节3.1. 傅立叶粗到精（FcF）发生器我们的目标是将LaMa的想法，快速傅立叶卷积残差块，集成到基于StyleGAN2的共调制粗到精生成器中。直观地，由粗到细的生成器从高级特征和噪声嵌入呈现全局结构和图像样式。在生成器中的上采样过程期间，可以通过快速傅立叶卷积层来提取非孔区域和生成的孔区域中的全局纹理特征，并将其适当地积分以细化随机生成的结构内的纹理该想法通过由快速傅立叶残差（FaF-Res）块组成的快速傅立叶合成（FaF-Syn）模块来实现。在每个FaF-Res块内，存在两个快速傅立叶卷积（FFC）层。我们将以自下而上的顺序介绍它们。快速傅立叶卷积残差块（FaF-Res）。图中的FaF残差块。3（c）由两个快速傅立叶卷积（FFC）层组成（图3）。2）的情况。FFC [6]层基于信道快速傅里叶变换（FFT）[5]。它将通道分为两个分支：a）局部分支使用常规卷积来捕获空间细节，以及b）全局分支使用谱变换模块来考虑全局结构并捕获长程上下文。最后，局部和全局分支的输出被堆叠在一起。频谱变换使用两个傅立叶单元（FU）来捕获全局和半全局信息。左211∈GEG××× × ××FaF合成模块解决FaF-Res模块FFC残留块resFaF-Res模块我们的修复框架自由形式掩码生成器映射网络编码器发生器鉴别器FaF合成模块图3：我们的模型架构。（a）图像修复框架。(b)我们的FaF合成（FaF-Syn）模块在生成器内部的分辨率架构[32，64，128，256]。FaF-Syn内部的卷积层使用潜在噪声向量的编码特征和样式映射进行共同调制。(c)我们的FaF-ResBlock的架构。傅立叶单元（FU）对全局上下文进行建模。另一方面，右侧的局部傅立叶单元（LFU）接收四分之一的通道，并专注于图像中的半全局信息。傅立叶单元主要使用实FFT 2D操作、频率域中的卷积操作将空间结构分解成图像频率，并且最后使用逆FFT 2D操作恢复结构LaMa首先在修复中应用了FFC层，但没有透露它成功合成重复图案的原因。我们分析了LaMa在FFC层中的中间特征，发现在傅立叶单元中的逆FFT2D层之后，学习的特征并不直接表示和重建复杂的图像内容，而是产生多个全局重复模式，如图所示。2.然后，将学习到的全局重复模式合并到孔区域内，以合成更复杂的重复内容。因此，为了更有效地使用FFC进行修复，最好将FFC层集成到生成过程中，而不是特征编码。它启发我们仔细设计一个多尺度FFC合成块，并将FFC层纳入StyleGAN 2的粗到细生成器部分。快速傅立叶合成（FaF-Syn）模块。我们的generator（）与CoModGAN [45]有着相似的想法，但主要区别在于我们设计了新提出的快速傅立叶合成（FaF-Syn）模块（图1）。3（b））在粗到细生成过程中。将其集成到基于StyleGAN2的生成器中微不足道有两个主要问题需要考虑：首先，全局重复纹理可以更好地从编码特征或生成的特征中通过跳过连接来建模。我们应该把FFC块嵌入到编码器还是生成器中？我们假设，它其次，假设我们将FFC块集成到生成器中，FFC层可能会放大非常粗糙的层次中的噪声生成结构，导致不稳定的训练并损害性能。哪一级功能更适合包含FFC层？我们根据经验以以下方式构建我们的网络：首先，我们在和之间使用跳过连接对应于相同分辨率尺度的层。其次，我们介绍了快速傅立叶合成（FaF-Syn）模块，如图3所示。FaF-Syn接受编码的跳过连接特征Xskip和从生成器中的前一级别上采样的特征Xskip FaF-Syn显式地集成了来自编码器（即现有图像纹理）和生成器（即从先前层生成的纹理）来合成全局重复纹理特征。它允许我们利用先前粗糙级别的重复纹理，并在更精细的级别上进一步细化它们FaF-Syn仅适用于3232、64 64、128 128和256 256的特征分辨率。我们的实验表明，将其应用于粗糙级别（如8 8和16 16）会损害性能（补充材料）。212E.Σ×MG一EG×EEA一NM∼M××E×××pΣΣL−L L LL×3.2. 其他模块编码器网络。我们的encoder（）遵循与StyleGAN 2[13]中使用的encoder类似的架构，但没有剩余的跳过连接。取I个孔，M个孔将其下采样到4 × 4的空间大小。我们还在和之间使用跳过连接。最后，我们通过压扁的4 4编码特征映射通过线性层以获得编码的潜在向量zenc。地图网络。在我们的框架中，我们使用映射网络（）来转换噪声特征向量（z（0，I））到一个潜在空间zw=（z）[13]。我们进一步对 zw 和 zenc 的级联执行仿射变换（），因为s=stack（zenc，zw）。中的样式系数用于缩放我们的生成器（）中卷积层的权重。的架构类似于StyleGAN2 [13]中使用的8层MLP映射网络。鉴别器。对于我们的模型，我们坚持StyleGAN 2 [13]中提出的残差模型。我们的判别器根据训练阶段接受孔掩模M和原始图像Iorg或完成的图像Icomp3.3. 损失函数我们利用非饱和逻辑损失[8]和R1-正则化[20]来处理我们的对抗损失。我们还使用重建损失以及高感受野感知损失[26]来监督训练期间图像中的结构。我们发现重构损失对于使用FFC和建议的FaF-Syn模块学习重复模式是重要的。对抗性损失。本着[13]的类似精神，我们使用非饱和交叉熵损失来进行修复框架的对抗训练。判别器的输入是M和真实Iorg或假Icomp的级联。高感受野知觉丧失。对于发生器的损失，类似于LaMa，我们使用高感受野感知损失（HRFPL）[26]，其计算在将这些图像映射到更高级别的特征之后，Icomp和Iorg之间的距离为1.02特征提取器基于扩展的ResNet-50 [35，36]，并针对ADE 20 K [50，51]语义分割进行预训练。模拟与[18]相似，损失可以表示为LHRFPL=我们根据经验设置λrec=10，λHRFPL=5，λreg=5，以平衡每个损失项的数量级。4. 实验4.1. 数据集和评估指标我们在Places 2和CelebA-HQ数据集上训练了不同的模型。Places2 [49]是一个常用的数据集，包含800万张训练图像。我们使用由36，500张图像组成的验证集测试了我们的模型。CelebA- HQ [11]是一个高质量的人脸图像数据集，包含30，000张图像。我们将数据集分为一个包含26，000张图像的训练集，一个包含2，000张图像的验证集和一个包含2，000张图像的测试集。我们遵循先前的工作，使用LPIPS [43]和FID [10]作为评估指标。我们还进行了一项用户研究，以更忠实的方式评估4.2. 实现细节网络详细信息。编码器将输入缩小到4 × 4的空间大小，在每个缩小的分辨率下将通道维度增加2，最多达到512个通道。我们将潜在噪声向量z的维度设置为512我们将编码器的输出平坦化到1024的dimen- sion以获得zenc。我们将不同分辨率下FFC残差块的分辨率（Lres）的值设置为：（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）（11）（12）（13）（培训设置。我们在Py- Torch中开发了我们的代码库[22]。我们在Places 2 [49]和CelebA-HQ [11]上以256256分辨率进行了图像完成。我们在Places 2和CelebA-HQ上为25 M图像训练了我们的框架和CoModGAN†在Places2上训练时，我们在训练期间从高分辨率图像中随机裁剪了256 256个补丁。我们将CelebA-HQ图像的大小调整为256 256，跟随LaMa [26]。我们在训练过程中按照Co-ModGAN [45]中使用的生成策略随机生成自由形式的掩码。我们使用Adam [14]优化器，学习率设置为0。001。我们使用的批量为128。基线。我们将我们的方法与各种基线进行了比较，包括里程碑式的LaMa-Fourier [26]和Co-ModGAN [45]，一种基于变换器的工作，称为TFill [47]，最近的论文涉及结构和纹理CTSDG [9]P−1 p−p ∥2*[41]和CR-Fill，以及一些较旧的作品DeepFill-v2 [38]P=0我比较NIorg得双曲余切值.p是特征图，[21]和其他表现良好的第p层给定输入I*，其中N是fea的数量真正的点在ORGANI组织。全损。我们还包括一个逐像素重建的方法，Icomp和Iorg之间的损失：rec=IcompIorg1在计算最终损失时，我们使用gra-罚款：Lreg=EIorg，MDθ（stack（M，Iorg）2. 最终损失为总损失=adv+λrec rec+λHRFPL。发生器和振荡器是对立训练的。[40]第四十话对于大多数型号，除了Co-在ModGAN中，我们使用了公开的代码库和预训练模型。为了公平比较，由于公共Co-ModGAN [45]检查点无法在256 256分辨率上进行测试，我们训练了我们自己的PyTorch [22]实现1的CoModGAN†，并使用重建损失进行评估。1对于我们的CoModGAN<$重新实现，我们建立在213×图4：与Places2上最先进方法的定性比较：TFill [47]，CTSDG [9]，LaMa [26]，CoModGAN [45]和我们的框架（我们的）。LaMa努力在产生淡出结构的同时产生清晰的对象边界。CoModGAN没有注意力计划或大的感受野。因此，它不能有效地使用图像内的自相似性，并生成看不见的和不一致的纹理。我们的模型在一个模型中很好地处理了结构和纹理。更多结果在补充材料中。评估设置。在Places2上进行评估时，我们将图像大小调整为256 256，并使用两种不同的掩码策略进行测试：[26]第26话在江湖上的地位基本上，中等掩模包含随机笔划和中等大小的矩形框，并且通过将分割掩模替换到图像的其他位置上来计算分割掩模。请参阅LaMa [26]了解更多详情。我们分别使用30k和4k样本用于中等和分割掩模。我们在CelebA-HQ上评估了总共2k个样本，采用中等和厚掩模生成策略[26]。4.3. 结果和比较定性结果。我们将提出的FcF模型与高度相关的基线进行了比较，包括LaMa [26]，CoModGAN [45]（我们的PyTorch实现），最后的StyleGAN2 [13] PyTorch代码库[link]作为旧版本TensorFlow [1]代码库的更高效替代品，该代码库经验证与TensorFlow [1]代码相当。est transformer based TFill [47]和最近的结构-纹理修复网络CTSDG [9]。Places 2和CelebA-HQ上的结果显示在图1B中。4和5.如图4.与CoModGAN模型相比，我们的模型保留了更好的重复纹理。Co-ModGAN没有任何与注意力相关的模块，因此，考虑到有限的感受野，高频特征不能被有效地重用。我们的模型使用快速傅立叶层扩大了接收场，并在新生成的随机结构上有效地渲染了源纹理。同时，我们在生成对象边界和结构方面也优于LaMa。很明显，当孔到达图像或对象边界时，LaMa会产生淡出伪影。LaMa无法在较长的像素范围内产生良好的结构信息，因为有大孔。然而，我们的算法利用了由粗到细生成器的优点总之，我们的模型综合了两个国家的最先进的和模拟的优势214×--×图5：与CelebA-HQ数据集上最先进方法的定性比较：TFill [47]，CTSDG [9]，LaMa [26]，CoModGAN [45]和我们的框架Ours。这些图像来自CelebA-HQ val（2k）数据集。LaMa主要是淡化头发，并在前额上生成模糊的边界。CoModGAN倾向于生成与原始面部不一致的看不见放大以检查眼睛和眉毛。我们的能产生细致的毛发，前额形状，同时通过生成一致的眼睛和注视方向来保持人的原始外观。更多结果在补充材料中。它产生了非凡的结构和纹理。更多的定性证据可以在图中找到。5、比较直观。在对人脸图像进行测试时，特别是当我们覆盖了一半的人脸时，LaMa会在额头上生成淡出的头发，而CoModGAN可能会使用其他人虽然它们在定量结果中都获得了较好的数值，但也反映出一些缺陷，使得两种模型都不够稳健。我们展示了一个声音合成的头发和前额形状和一致的眼睛和眉毛的外观像LaMa。我们可以继续得出结论，该模型的工作consitently以及图像结构和一致的纹理。定量结果。我们将我们的方法与表中的几个成熟的基线进行了比较。1.我们发现，LaMa和我们的模型始终是前两名，并且一致优于其他基线方法。其他基线并没有被证明在较大的掩模上一直工作得很好CoModGAN在重建方面效果不佳。对于Places2评估，LaMa仍然是在FID和基于重建的度量LPIPS中表现良好的强基线我们的模型与LaMa-Fourier模型相当，但明显优于CoModGAN†。FFC层和建议的FaF-Syn模块增加了更多的全局功能，以syn-thesize重复纹理，以获得更好的背景反射。对于CelebA-HQ数据集，提出的FcF模型与其他基线相比，设置了最新技术水平。出于生态友好的考虑，我们包括256 256分辨率综合来证明概念并得出科学结论。在实践中，我们还训练了一个模型，512 512关于地点的决议2 [49]。训练时，我们使用32的批量大小和L32：1，L64：1，L128：1，L256：1，L512：1设置我们实现了优于原始CoModGAN [45]的性能，并与LaMa [26]竞争，如表1所示二、更多的定性比较在215↓ ↓↓FaF-Syn（我们FFC，FaF-Res，W.O.FFC--××}{--Places2（256×256）CelebA-HQ（256×256）中掩模分段。面罩中等面罩厚面罩方法FID ↓ LPIPS ↓ FID ↓LPIPS ↓ FID ↓ LPIPS ↓FID↓LPIPS↓表1：对Places 2和CelebA-HQ的定量评价。我们报告LPIPS（）和FID（）度量。符号表示较低的值表示较好的性能。粗体文字表示最佳表现，其次是红色和蓝色字体，表示第二名和第三名。用户偏好表3：消融对FFC残留块数量的影响。我们发现L32：1，L64：1，L128：1，L256：1在FID和LPIPS指标上表现最好。模块FID↓LPIPS↓FaF-Syn（我们的）11.330.264带X跳跃的11.970.267带X跳跃的12.580.267W.O. FFC13.530.275表4：结构消融。我们的FaF-Syn方法FID↓LPIPS↓（基线/等同/我们的）在FID和LPIPS指标上最好。结果表明了所提出设计的有效性。表2：使用Places2 [49]上的512 512个图像进行分割掩码的定量比较。补充材料。因此，我们证明了我们的框架同样适用于更高的分辨率。用户研究。现有的度量LPIPS很难捕获Places2中给定复杂场景的增强纹理和变体结构当我们在Places2 [49]中的人造场景上实现与LaMa [26]同样好的性能时，FID既不是理想的指标。为了进一步验证我们的模型优势，我们通过Amazon Mechanical Turk进行了一项用户研究，其中包含512 512reso的150个真实用户案例。溶液。我们让用户选择如Tab.所示。2、我们的偏好率是最好的，这进一步证明了我们更好的视觉质量。4.4. 消融研究FFC残留块数量的消融。我们的FaF-Res块内的FFC残差块的数量是重要的可调超参数。我们实验了不同的设置为L32，L64，L128，L256在第二。4.4.我们根据经验观察到，设置L32：1、L64：1、L128：1、L256：1给出了最佳性能。FaF-Syn结构上的消融。我们举例说明了由不同的FaF-Syn模块连接选项生成的内画结果。我们在当前设计中合并了编码器和解码器功能，然后将其输入FaF-Syn残差块。或者，我们尝试了两种不同的方法：（1）将FFC层与从编码器跳过的跳过特征X直接连接（类似于在编码器内部使用FFC），或者（2）在合并到生成器特征X之前将跳过的特征与FaF-Syn残差块连接。定性结果图6：FaF-Syn模块替代品的消融研究。结果表明，在将X跳送入FaF-Syn残差块之前，合并X是必要的。图6和定量比较表。图4示出了在将其馈送到FaF-Syn残差块之前合并X和X跳过5. 结论这项工作解决了在孔洞区域合成公平结构和纹理的持续挑战。为此，我们提出了一个傅立叶粗到细（FCF）修复框架，该框架将快速傅立叶卷积的接收能力与共调制粗到细生成器结合起来，以捕获全局重复纹理，从而生成逼真的图像结构。具体来说，我们提出了一个简单而有效的FaF-Syn模块聚合的特征，从编码器和生成器上渲染纹理的生成结构逐步。我们的模型在CelebA-HQ数据集上实现了最先进的性能，在Places 2数据集上实现了最佳的感知质量。广泛的定性和定量分析表明，我们的框架是相对强大的大掩模，不产生淡出文物。L32L64L128L256FID↓LPIPS↓000013.530.275011112.140.266012211.920.263022212.770.268111111.330.264222215.330.280[41]第四十一话3 .第三章。660的情况。1293 .第三章。680的情况。044----TFill [47]二、520的情况。1203 .第三章。240的情况。042六、490的情况。090六、540的情况。102[21]第二十一话18[38]第三十八话050的情况。1310的情况。1293 .第三章。723 .第三章。600的情况。0470的情况。0447 .第一次会议。158. 100的情况。0980的情况。1048. 769 .第九条。740的情况。1220的情况。119[45]第45话二、320的情况。04521.33% / 17.33%/61.33%[26]第二十六话二、000的情况。04039.33%/12.00%/48.67%216引用[1] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， Ian Goodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz，Lukasz Kaiser，Manjunath Kudlu r，JoshLev enbe r g ， DanjayMa ne' ， RajatMon g a ， SherryMoore ，Derek Murray ，Chris Olah ， Mike Schuster ，Jonathe Shlens，Benoit Steiner，Ilya Sutskever，KunalTal war ， Paul Tucker ， Vincent Vanhoucke ， VijayVasudevan，费南达，奥里奥尔，沃登，马丁，魏克，余元，郑小强. 张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[2] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。矢量场和灰度级联合插值填充。IEEE TIP，2001年。[3] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，and Dan B.戈德曼Patchmatch：一种用于结构图像编辑的随机对应算法。ACM事务处理图表，2009年。[4] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。SIGGRAPH，2000年。[5] E. O. Brigham和R.E. 明天快速傅立叶变换IEEE Spectrum，1967年。[6] 陆驰，江博睿，木亚东。快速傅立叶卷积。在NIPS，2020年。[7] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。在第七届IEEE计算机视觉国际会议的会议中，第2卷，第1033-1038页IEEE，1999年。[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[9] 郭邪梵、杨红玉、帝煌。基于条件纹理和结构双重生成的图像修补。ICCV，2021。[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。arXiv，2017.[11] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。ICLR，2018年。[12] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。[13] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。在CVPR，2020年。[14] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[15] Avisek Lahiri、Arnav Kumar Jain 、Sanskar Agrawal、Pabitra Mitra和Prabir Kumar Biswas。基于先验引导gan的语义修复。在CVPR，2020年。[16] 林亮，刘策，徐英青，郭柏宁，沈香扬。基于块的实时纹理合成取样 . ACM Transactions on Graphics （ ToG ）， 20（3）：127[17] Liang Liao，Jing Xiao，Zheng Wang，Chia-wen Lin，and Shin'ichi Satoh.指导和评价：混合场景的语义感知图像修复。在ECCV，2020年。[18] Liu Guilin ， Fitsum A. 凯文 · 瑞达 Shih ， Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在ECCV，2018。[19] Andreas Lugmayr，Martin Danelljan，Andres Romero，Fisher Yu，Radu Timofte，and Luc Van Gool.修复：使用去噪扩散概率模型修复。在IEEE/CVF计算机视觉和模式识别会议论文集，第11461-11471页，2022年[20] Lars Mescheder ， Sebastian Nowozin ， and AndreasGeiger. gans的哪些训练方法实际上是趋同的？在2018年的国际机器学习会议（ICML）上。[21] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成式图像修补。在ICCV，2019年。[22] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个操作风格的高性能深度学习库。 In H.Wallach ， H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和 R. Garnett ，编辑， Advances in Neural InformationProcessing Systems 32 ，第 8024Curran Asso- ciates ，Inc.，2019年。[23] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。[24] Robin Rombach，Andreas Blattmann，Dominik Lorenz，PatrickEsse r，andBjoürnOmme r.基于潜在扩散模型的高分辨率图像在IEEE/CVF计算机视觉和模式识别会议论文集，第10684-10695页[25] Chitwan Saharia，William Chan，Huiwen Chang，ChrisA Lee，Jonathan Ho，Tim Salimans，David J Fleet和Mo- hammad Norouzi。图像到图像扩散模型。arXiv预印本arXiv：2111.05826，2021。[26] RomanSuvorov ， ElizavetaLogacheva ， AntonMashikhin ， Anastasia Remizova ， Arsenii Ashukha ，Aleksei Silvestrov ， Naejin Kong ， Harshith Goka ，Kiwoong Park，and Victor Lempitsky.分辨率稳健的大掩模修补与傅立叶卷积。在WACV，2022年。[27] 我看到了楚普和他。用保曲率偏微分方程对多值图像进行快速各向异性平滑Intern

下载后可阅读完整内容，剩余1页未读，立即下载