基于小波变换的图像修复网络WaveFill及其优势

184 浏览量更新于2023-10-13 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14114WaveFill：一种基于小波变换的图像修复于颖晨1、2方能展1石建路1*潘建雄2马飞鹰2谢轩松2苗春燕11南洋理工大学2阿里巴巴集团达摩yingchen001@e.ntu.edu.sg，{fnzhan，shijian.lu，ascymiao}@ ntu.edu.sg{jianxiong.pjx，feiying.mfy}@ alibaba-inc.com，xingtong. taobao.com摘要图像修复的目的是将图像中缺失或损坏的区域补齐，使其具有真实的内容。现有的方法通过使用生成对抗网络采用重建和感知质量然而，重建损失和对抗性损失集中于合成不同频率的内容，并且简单地将它们应用在一起通常会导致频率间冲突和受损的修复。本文介绍了WaveFill，一种基于小波的修复网络，它将图像分解为多个频带，并单独和明确地填充每个频带中的缺失区域。 WaveFill 利用离散小波变换（DWT）对图像进行分解，自然地保留了图像的空间信息.该算法对分解后的低频带应用L1重构损失，对高频带应用对抗性损失，从而在完成空间域图像的同时，有效地缓解了频间冲突。为了解决不同频段的修复不一致性和融合具有不同统计特性的特征，我们设计了一种新的归一化方案，有效地对齐和融合多频特征。在多个数据集上的大量实验表明，WaveFill在定性和定量上都实现了卓越的图像修复。1. 介绍作为一个不适定问题，图像修复不是为了重新覆盖原始图像的损坏区域，而是为了合成视觉上合理且语义上合理的替代内容。它已被广泛研究的各种图像编辑任务，如对象删除，旧照片恢复，电影恢复，等等。逼真和高保真的图像修复仍然是一项具有挑战性的任务，特别是当损坏的区域很大并且*通讯作者GMCNN GC WaveFill Ground真相图1.图像修复通常面临再现性和感知质量的困境：L1/L2损失侧重于全局低频结构的重构，而对抗性损失侧重于生成高频纹理细节。现有技术的方法通过两个目标的加权求和来隐含地解决这个问题（例如，在GMCNN [35]中）或采用粗到细策略（例如，在GC [40]中），但倾向于产生具有缺失细节或工件的不一致分布所提出的波形填充将图像分解为多个频带，并将相关损耗分别应用于不同的频带，这减轻了频率间的冲突，并产生更逼真的结构和细节。低频（LF）和高频（HF）中的地面实况直方图和预测直方图具有复杂的纹理和结构模式。最先进的图像修复方法大量利用生成对抗网络（GAN）[10]来生成逼真的高频细节[28]。但他们经常面临着感知质量和重建的两难境地，这是一个感知失真的权衡[4]。具体来说，GANs中的对抗性损失倾向于恢复高频纹理细节并提高感知质量[31，8]，而重建中的L1/L2损失更侧重于恢复低频全局结构[28]。在空间域中同时优化两个目标倾向于引入频率间冲突，如图1B所示1.一、EMD：EMD：EMD：EMD：EMD：EMD：LFHF修复14115GMCNN [35]通过加权和来平衡这两个目标门卷积（GC）[40]通过采用先预测全局低频结构然后细化高频纹理细节的粗到精策略[39，32，29，20，40]来缓解这个问题粗估计网络一般采用L1损失进行训练，而精估计网络仍然存在频间冲突。此外，由于缺乏多级特征的有效对齐和融合，两级网络通常在生成的结构和纹理细节中存在不一致性[21]。为了解决上述问题，我们设计了Wave- Fill，一个创新的图像修复框架，它采用小波变换来分别在多个频带上完成损坏的图像区域。具体而言，我们使用2D离散小波变换（DWT）[6]将图像转换到小波域，其中图像可以准确地分解为多个频带而不会丢失空间信息。解纠缠允许我们将对抗性（或L1）损失明确地且单独地应用于高频（或低频）分支，这极大地减轻了如通过同时优化空间空间中的纠缠特征上的两个不同目标而引入的内容冲突此外，我们设计一种新颖的频率区域注意力归一化（FRAN）方案，其将注意力从低频聚集到高频以对齐和融合多频特征。FRAN确保了多个频段的一致性，并有助于有效抑制伪影和保留然后，通过离散小波逆变换（IDWT）将不同频带中的单独完成的特征变换回空间域以产生最终完成。本文的贡献可以概括为三个方面。首先，我们提出了WaveFill，一种创新的图像修复技术，该技术在不同的频带显式地和单独地合成损坏的图像区域，有效地减轻了频率间的冲突，同时最大限度地减少了对抗和重建损失。其次，我们设计了一种新颖的归一化方案，该方案能够在有效抑制伪影和保留细节的情况下对多频率特征进行仔细的对齐和融合。第三，在多个数据集上的大量实验表明，所提出的WaveFill实现了与现有技术相比的超perior修复。2. 相关作品2.1. 图像修复图像修复已经研究了多年，早期的作品大量使用扩散和图像补丁具体-通常，扩散方法[3，1]将邻近信息传播到被破坏的区域，但通常不能用很少的全局信息来重新覆盖有意义的结构。基于补丁的方法[2，7]通过从背景中搜索和转移相似的补丁来他们的工作以及固定的纹理，但斗争，同时产生有意义的语义非固定数据。随着深度学习的最新进展，深度神经网络已被广泛用于图像生成和修复[45，43，44，37，38，41]。特别是，生成对抗网络[10]已经被开发用于完成具有忠实结构和合理外观的图像。例如，Pathak et al.[28]提出了一种基于GAN的方法来完成大型损坏区域。Nazeri等人[26]引入EdgeConnect来预测显著边缘而无需粗略估计。Wang等人。[35]使用具有不同感受野的多个分支进行修复。Zeng等人。[42]设计了一个金字塔上下文编码器网络，以跨多个尺度恢复丢失的区域。Liu等人。[21]通过用深和浅特征表示结构和纹理来恢复它们Liu et al. [20]引入了部分卷积与自由蒙版进行修复。在此基础上，Yu et al.[40]提出了用于修补的门控卷积。尽管上述方法以不同的方式解决图像完成，但是它们中的大多数在空间域中工作，其中不同频率的信息被混合并且经常在学习和优化中引入频率间冲突。我们的方法将图像分解到频率空间，并将不同的对象显式地单独应用于不同的频带，从而减轻了频率间的冲突，有效地提高了图像修复质量2.2. 基于小波的方法小波变换将信号分解成不同的频率分量，并且在各种图像处理任务中表现出很大的效果[25]。基于小波的内绘在深度学习流行之前就已经被研究过了。例如，Chan等人[5]设计了用于图像修复的具有总变差（TV）最小化的变分模型，并且在[ 48 ]中改进了非局部TV正则化。此外，Dobrosotskaya et al.[9]将扩散与小波的非局部性相结合，以在修复中获得更好的锐度。Zhang和Dai [46]分别使用扩散和基于样本的方法在小波域中分解图像以生成结构和纹理。上述方法利用手工制作的特征，其不能为大的损坏区域生成有意义的内容我们借用了基于小波的分解的思想，并结合CNN表示和对抗学习，有效地缓解了这个问题。最近，将小波纳入深度网络已经成为一种趋势。14116输入低频率L1离散小波变换离散小波逆变换：ResBlk with Gated Convolution预测DWTIDWTLv 2-高频高级_2高级ResBlkFRANResBlkFRANGCResBlk××n=1n=1n=1√√−√√关于我们FRAN ResBlk高频高频Lv 1-高频图2.所提出的WaveFill修复网络的架构：WaveFill生成器由三个分支组成，用于分别处理不同频率的信息。给定一幅输入图像，我们首先通过离散小波变换（DWT）将其分解成多个频带，然后将分解的频带组装成三个首先利用GC ResBlk在LowFreq中执行完成，然后将生成的特征对齐并传播到高频分支（经由新颖的归一化方案FRAN）以进一步完成。在低频分支中明确地应用L1损失三个分支中生成的特征最终通过IDWT（逆DWT）变换回空间域以产生最终预测。在各种计算机视觉任务中进行了探索，例如超分辨率[13，8]，风格转移[23]，质量增强[33]和图像演示[22]。与直接连接频带并将其传递到卷积层的方法不同，我们设计了单独的网络分支来显式地为每组频带生成内容，同时结合其他分支的特征以更好地完成。3. 该方法3.1. 概述我们提出的修补网络的概述如图所示。二、首先将输入图像分解并组装成3个频带LowFreq，Lv2HighFreq和Lv1HighFreq，然后将其馈送到三个网络分支以分别完成。我们将L1重建损失应用于LowFreq和对抗损失到Lv2HighFreq和Lv1HighFreq以减轻频率间冲突。此外，我们设计了一种新的规范化方案FRAN，对齐和融合的功能，从三个分支，以加强完成的一致性，在三个频带。三个分支中的生成结果最终被转换回空间域以完成修复，更多细节将在随后的小节中描述。3.2. 小波分解本文的主要创新点是将图像分解为多个频段，完成了多频段的图像融合。在小波域中，年龄分别在不同的波段。我们采用二维离散小波变换（DWT）首先将图像分解成多个具有不同频率内容的小波子带。对于分解的每次迭代，DWT沿着图像列和行交替地应用低通和高通小波滤波器（随后是下采样），这产生包括LL、LH、HL和HH的4个子带。分解在LLn−1上迭代地继续，以产生LLn、LHn、HLn和HHn，直到达到分解的目标水平Nw。因此，最终将产生总共3个N w+1个小波子带，包括LLNw、LH nNw、HL nNw和HH nNw .这里LLNw捕获Nw级的低频信息，LHn、HLn和HHn分别捕获n级的水平、垂直和对角高频信息。注意，第n级的子带的大小以因子1/2n下采样。本文采用Haar小波滤波器作为小波变换的基础，其中高通滤波器为hhigh=（1/2，1/2），低通滤波器为hlow=（1/2，1/2）。将小波分解的层数Nw经验性地设为2，将LL2视为低频，将通道维数上的LHN、HLn和HHN级联为n级高频。给定大小为H W的输入图像3，我们将获得3- 放入小波域中，即LowFreq，大小为H/4×W/4×3，Lv 2-HighFreq，尺寸为H/4×W/4×9Lv 1-HighFreq，大小为H/2×W/2×9。低频特性FRANReLU门控转换FRANReLU门控转换14117×∈×ΣHH空间位置的数量，即N=H W。为了对齐缺失区域中的内容，我们将-Ai=Wj，ih（xH）。（二）j=13.3. 频域注意归一化低频和高频特征的对齐和融合是在不同频段生成一致和真实内容的关键步骤。低频和高频特征的有效融合有两个主要挑战。首先，低频和高频的统计量有着明显的差异，由于高频信息的稀疏性，直接相加或拼接会大大抑制高频信息。第二，不同的分支用它们的显式损失项来训练，并且学习能力（No. CNN层和内核大小）也在分支之间变化。因此，当在没有分支间对准的情况下独立地修补不同分支时，网络分支可以生成在其自己的频带中合理但跨其他分支的频带（在对象形状或大小上）不一致的内容。这两个问题都可能导致完成结果中的各种模糊和伪影。我们设计了一种新的频域注意归一化（FRAN）技术，对齐和融合低频和高频特征，以实现更逼真的修复。针对统计差异的问题，提出将低频特征与目标高频特征对齐，有效融合低频特征，降低目标高频带生成的难度。受空间自适应归一化（SPADE）[27]的启发，我们通过注入实现了特征对齐。- 使用高频特征的可学习调制参数γH和βH，XN}到低-：元素智能产品：逐元素添加：点积20：孔区域高频低频特性图3. 所提出的频域属性归一化（FRAN）的结构：每个特征图中的不规则区域表示损坏的区域。在将高频信息投影到特征空间之后，FRAN通过聚合低频到高频的注意力分数来对齐低频和高频特征的损坏区域。然后对对齐的高频特征进行卷积以产生调制参数γH和βH，其被注入到归一化的低频特征中。频率特征XL={X1，…XN}，其中N是NL LΣi将低频特征的自我注意力分数门控到高频特征。由于注意力图描绘了低频特征块之间的相关性，因此可以通过共同聚合来自未损坏区域的特征来重建损坏区域的未对准的高频特征应用注意力聚合的另一个优点是通过建立远程依赖性来利用遥远区域的互补特征如图3、注意力得分W j，i是从低频特征X LR C× N（C是通道数）计算的，所述低频特征X L R C× N首先被变换到两个特征空间以用于关键字识别。由于高频特征是显著稀疏的，因此所得聚合的幅度相对较小。我们采用无参数的位置归一化[19]规范化，同时保存结构信息。在调制之前，相同的归一化也被应用于低频特征。最后，对聚集输出A进行卷积以产生调制参数γH和βH，从而调制归一化的低噪声。频率特性：和查询，即K=f（XL），Q=g（XL），f和g是11个卷积。为了提高效率，我们采用最大池化来获得N =1024的空间维度H=γHXL−µL+βσLH 、（3）（32×32）用于注意力计算和聚合。其中，H是调制特征，µL和σL是平均值exp（si，j）W=，其中s=f（Xi ）Tg（xj）的情况。（一）以及沿通道尺寸的标准偏差XLj，iNi=1 经验 i、j）i，j LL3.4. 网络架构然后通过V=h（XH）将高频特征XH映射到具有相同隐藏维度的特征空间，其中h是通过卷积的变换函数。XH在位置i处的聚集由下式定义：我们的网络由一个生成器和2个鉴别器组成二、第三代网络。发电网络由3个分支LowFreq、Lv 2-HighFreq和Lv 1-HighFreqW转换范数ConvConvSelf-Attention位置规范W注意力分数14118GT出来ΣL=−EGH出来出来L LL出来出来GTGTGTLF我n分别恢复损坏的区域。LowFreq分支由采用门控卷积[40]和残差连接[11]的完成模块GC ResBlk具体地，GCResBlk由具有高达16至116的增长的扩张速率的若干连续的残差块对抗性损失。对于高频分支的2个鉴别器，我们使用铰链损失对它们应用相同的对抗损失[15]。判别器Dn的对抗性损失被定义为：n使感受野起皱同时，它取代了所有的convo-LDn=EHn[ReLU（1−Dn（Hgt）]（五）通过门控卷积来动态处理丢失的区域。所生成的低频特征将被适当地-n个 [ReLU（1 +Dn（Hn）]的。涉及具有两个门控卷积的解码器，以预测低频子带的完成。除此之外，他们还将被转移到两个高频分支对于生成器，我们将每个鉴别器的对抗损失求和以获得最终损失L_G，如下所示：Nw来引导和配合他们的世代。高频分支Lv 2-HighFreq由新的残差块FRAN ResBlk组成，该新的残差块FRAN ResBlk由以下引入：n个n=1[Dn（Hn）]的。（六）FRAN如图所示。2（右）。由于所学习的调制参数已经编码了高频信息，因此我们直接将高频带馈送到FRAN，而无需额外的编码。在将高频信息注入低频特征之后，我们特征匹配损失。由于高频带的稀疏性，训练可能是不稳定的，因此我们在两个鉴别器上采用了pix2pixHD[ 34 ]之后的特征匹配损失来稳定训练过程。将所获取的高频特征传播到SEPA。NwΣΣL1我inΣ速率解码器，其也由两个门控卷积组成另一个高频分支Lv 1-HighFreq共享sim-与Lv 2-HighFreq类似的结构，除了它与LFM=En=1i=1N||Dn（Hout）−Dn（Hgt）||1、（七）从预对齐和标准化的要素中可见的两个分支并将它们上采样到当前空间维度。因此，生成网络预测所有3个频带的修复，并且最终经由逆离散小波变换（IDWT）将它们转换回空间域。由于DWT和IDWT都是可微的，因此可以端到端地训练网络。歧视网络。合成高频其中L是鉴别器的最后一层，Di和Ni分别是激活图及其在鉴别器的第i层中的元素的数量。感知损失。为了惩罚感知和语义差异，我们使用经过训练的VGG-19网络来使用感知损失[16]L pe rc=λi||Φi（Iou t）−Φi（Igt）||1信息，我们采用两个相同结构的判别器分别对Lv 2-HighFreq和Lv 1-HighFreq进行预测。受PatchGAN [15]和全球和本地的我+ λl||Φl（Iou t）−Φl（Igt）||二、（八）GAN [14]，我们在PatchGAN之上采用全局和局部子网，以确保生成的一致性。此外，我们在最后一个卷积层之后附加了一个自我注意层[47]，以评估全局结构并加强几何一致性。3.5. 损失函数我们用Iout表示最终完成的图像，用{LNw，H1，…H Nw}其中λi是平衡重。 Φi是VGG-19模型的第i层的动作，其对应于来自层relu 1 2、relu 2 2、relu 3 2、relu 4 2和relu 5 2的激活图。Φ1表示relu4_2层的激活图，并且我们选择该特定层以强调高级语义。全面目标。利用上述损耗的线性组合，通过以下目标优化网络（Nw是小波分解中的层数），地面实况图像及其小波变换θ=最小值最大值（λ 1 LF + λ 2 LF）G+λfFM+λpperc），（9）G D1、D2系数由{LNw，H1，…H Nw}。 Dn是区分-其中，我们根据经验设置λ=2，λ=5和λ=10英寸用于小波域中的第n级高频小波系数的量化器低频L1损耗。我们明确地在小波域中的低频子带上采用L1损失，其可以由下式定义：我们为平衡目标而进行的实验。4. 实验+EHΣpGTN14119出来4.1. 实验设置LLF= ||Lw−LW||1 .一、（四）数据集。我们在三个具有不同特征的公共数据集上进行实验：N14120×∗×(a) 输入(b) GMCNN(c) EC*（d）GC(e) 我们(f) GT图4. WaveFill与最新技术的定性比较：WaveFill生成更逼真的修复，具有更少的伪影（在数据集CelebA-HQ[17]上，具有中心正方形遮罩）。*表示该模型经过正式实施的培训– CelebA-HQ [17]：它是人脸数据集CelebA [24]的高质量版本，拥有30，000张对齐的人脸图像。我们遵循[40]中的分割，产生28，000个训练图像和2，000个验证图像。– Places2 [49]：它由365个不同场景的我们随机抽样来自评估中的验证集的10，000个图像。– Paris StreetView [28]：它是巴黎街景图像的集合，包含14，900张训练图像和100张验证图像。比较方法。我们将我们的方法与以下列出的一些最先进的方法进行比较：– GMCNN [35]：这是一个生成模型，在不同的分支中具有不同的感受野。– GC [40]：它也被称为DeepFill v2，这是一种利用门控卷积的两阶段方法。– EC [26]：这是一种两阶段方法，首先预测显著边缘以指导生成。– MEDFE [21]：它是一种相互编码器-解码器，将深层和浅层的特征视为输入图像的结构和纹理。评估指标。我们使用四种广泛采用的评估指标进行评估：1）Fre´ chetIncep-tion Score（FID）[12]，通过测量合成尺寸图像和真实图像之间的分布距离来评估感知质量; 2）平均误差为1; 3）峰值信噪比（PSNR）;以及4）结构相似性指数（SSIM）[36]，窗口大小为51。实施详情。所提出的方法在PyTorch中实现。该网络使用256 256张带有随机矩形掩码或不规则掩码的图像进行训练[20]。我们使用Adam优化器[18]，其中β1=0且表1. WaveFill与现有技术方法在具有正方形掩模的CelebA-HQ [17]验证图像（2，000）上的定量比较。表示我们基于官方实现训练了模型。β2=0。9，并分别将生成器和鉴别器的学习速率设置为1 e-4和4 e-4。实验在4个NVIDIA（R）Tesla（R）V100GPU上进行。推理在单个GPU中执行，我们的完整模型每256×256图像运行0.138秒。4.2. 定量评价我们对具有中心正方形掩模和不规则掩模的数据进行了广泛的定量评估[20]。对于使用中心正方形遮罩的内绘制，我们使用128 128，并在CelebA-HQ的验证图像上使用GMCNN[35]，EC [26]和GC [40]进行基准测试[17]。对于不规则蒙版的修复，我们进行了实验在 Places2 [49] 和 Paris StreetView [27] 上，并以 GC[40]，EC [26]和MEDFE [21]为基准。实验中的不规则掩模基于掩模区域与图像大小的比率进行分类。比较方法的性能通过运行公开可用的预训练获得。唯一的例外是EC[26] 它接受了关于GMCNN [35]欧洲共同体 *[26]GC [40]我们FID↓8.178.047.396.481（%）↓2.382.312.532.26PSNR↑25.8625.6425.3726.5314121(a) 输入(b) EC(c) GC（d）MEDFE(e) 我们(f) GT图5. WaveFill与最新技术的定性比较：与最先进的技术相比，WaveFill生成更逼真的修复，具有更少的伪影（在具有不规则掩模的数据集Places2 [49]上）。CelebA-HQ [17]随机矩形面具。表1示出了具有中心正方形掩模的数据集CelebA-HQ的实验结果。可以观察到，WaveFill在不同的评估指标下一致地优于所有现有的方法。此外，使用不规则掩模的实验表明，WaveFill在不同掩模比率下实现了卓越的修复，如表2所示。WaveFill的有效性很大程度上归功于基于小波的频率分解和所提出的归一化方案。具体而言，在小波域分解频率信息有助于有效缓解低频和高频内容生成的冲突，提高图像的PSNR和SSIM质量。利用所提出的归一化方案，低频和高频信息可以在不同频带中对齐以用于一致的世代。此外，它允许模型建立长程依赖关系，这有助于在FID中生成具有更好感知质量的语义上更合理的内容。由于篇幅限制，补充材料中提供了Paris StreetView [27]4.3. 定性评价图图4和图5分别示出了CelebA-HQ [17]和Places 2[49]的验证集的定性实验结果。如图所示4，GMCNN[35]和EC [26]的修复明显遭受边缘区域附近的不合理的语义和不一致性，而GC [40]的修复包含明显的伪影和不一致性。掩模EC [26]GC [40]MEDFE [21]我们FID↓10-20%2.555.182.811.9620-30%5.3610.067.514.0830-40%9.2815.6715.847.3340-50%15.1722.6928.9812.681（%）↓10-20%1.552.191.421.3920-30%2.713.732.622.3230-40%3.975.344.133.4240-50%5.427.055.974.73PSNR↑10-20%27.2324.9628.4828.7220-30%24.3022.0224.7625.8730-40%22.3120.0322.0523.7440-50%20.6718.5419.8721.99SSIM↑10-20%0.9420.9060.9540.95620-30%0.8900.8330.9020.91830-40%0.8300.7580.8330.86740-50%0.7580.6790.7490.803表2.在具有不规则掩模的Places2 [49]验证图像（10，000）上，WaveFill与最先进方法的定量比较[20]。由GC [40]和MEDFE [21]绘制的图像包含不期望的伪影和扭曲的结构，如图1和2所示。5b和5c。虽然EC [26]产生了更多的视觉上吸引人的内容，更少的工件，其生成的语义仍然缺乏合理性。由于频率解缠和FRAN，WaveFill实现了中央方形蒙版和不规则蒙版的出色修复4.4. 用户研究模糊的纹理。相比之下，波浪填充修复在语义上更合理，伪影更少，但纹理细节更多。对于数据集Places2[49]，我们对数据集Paris StreetView[28]，Places 2 [49]和CelebA-HQ[17]进行了用户研究。具体来说，我们从每个测试中1412223.40%9.00%6.20%巴黎街景0.750.6559.20%0.550.450.350.250.150.05地点20.750.6561.40%0.550.450.350.250.150.050.750.650.550.450.350.250.150.05CelebA-HQ69.80%(a) （c）DCT + Concat-0.05ECMEDFE我们-0.05ECGCMEDFE我们-0.05GMCNNECGC我们图6.通过用户研究进行修复评估：百分比表示通过所有比较方法修复的图像中被判断为最真实的图像的数量。模型FID↓1（%）↓PSNR↑SSIM↑空间+Concat33.952.4528.370.898DCT + Concat100.934.7123.560.765小波+Concat32.732.4628.460.899小波+SPADE32.142.3828.810.901小波+FRAN31.022.3428.940.904表3. 巴黎街景[27]验证集（100）上WaveFill的消融研究，使用不规则掩模[20]。最后一行中的模型是标准的WaveFill。数据集没有修复结果的想法，这导致调查中有75个选择题。我们招募了20名具有图像处理背景的志愿者，并要求每个受试者在每个问题中投票选出最逼真的修复。如图6所示，所提出的WaveFill以较大的裕度优于最先进的方法。4.5. 消融研究我们通过对巴黎街景的几项消融研究来[27] 如表3所示。在消融研究中，我们训练了四个网络模型，包括：1）空间+Concat（基线），其采用具有门控卷积的典型编码器 - 解码器网络 [40] 。与WaveFill不同，L1和对抗损失一起应用，多层次特征直接连接 ; 2 ）DCT + Concat，采用离散余弦变换（DCT）与小波变换进行比较。类似于WaveFill，我们将频带分成三组，并将它们馈送到三个生成分支;3）小波+ Concat，其通过多频率特征的级联来替换FRAN; 4）小波+ SPADE，其通过SPADE来替换FRAN[27]。如表3所示，由于缺乏空间信息，使用DCT大大降低小波变换保留了图像的空间信息，大大提高了图像的嵌入性.此外，使用小波比基线更好，特别是在FID中，这主要是因为(a) 小波+Concat（e）小波+SPADE（f）小波+FRAN（我们的）图7.消融研究建议WaveFill：我们的“小波”和“FRAN”设计都有助于抑制文物和合成合理的语义有效这项研究是在巴黎街景上进行的[28]，使用不规则的面具。红框用于突出不同方法之间的主要差异。基于小波的模型分解多频信息并分别恢复不同频带中的损坏区域。视觉评价与图1B中的定量实验很好地一致。7.第一次会议。我们可以看到，基于DCT的模型无法合成有意义的结构，如（c）所示基于空间的模型反而引入了不合理的语义和清晰的伪像，如（b）中所示。我们的基于小波的模型用更少的伪影填充缺失区域，如（d）所示。此外，为了更好的内容一致性，级联和SPADE不对齐不同频率的特征。FRAN有效地解决了这个问题，如表3和图7所示。补充材料中包含更多消融研究。5. 结论本文提出了一种新的图像修复框架WaveFill，它在小波域中分解低频和高频信息，并明确地单独填充损坏的为了确保修复的一致性，跨多个频带，我们提出了一种新的频率区域注意归一化（FRAN），有效地对齐和融合的多频功能，特别是那些在丢失的区域。广泛的实验表明，WaveFill实现了矩形和自由形式的面具优秀的图像在绘画。展望未来，我们将研究如何适应小波分解的思想，并在不同的频带单独处理其他图像恢复和生成任务。22.60%3.60%4.00%21.80%百分之十九14123引用[1] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。通过矢量场和灰度级的联合插值来填充 IEEE Transactions on ImageProcessing，10（8）：1200-1211，2001. 2[2] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM Trans-actions on Graphics（TOG），28（3）：24，2009. 2[3] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。在Proceedings of the27thannualconferenceonComputergraphicsandinteractive techniques，pages 417-424，2000中。2[4] 约柴·布劳和托莫·麦克利。感知失真的权衡。在IEEE计算机视觉和模式识别会议上，第6228-6237页，2018年。1[5] Tony F Chan，Jianhong Shen，and Hao-Min Zhou.全变分小波修复。 Journal of Mathematical Imaging andVision，25（1）：107-125，2006. 2[6] 弗格尔·科特复小波在深度卷积神经网络中的应用。博士论文，剑桥大学，2020年。2[7] Soheil Darabi，Eli Shechtman，Connelly Barnes，Dan BGoldman，and Pradeep Sen.图像融合：使用基于块的合成来组合不一致的图像。 ACM Trans-actions onGraphics（TOG），31（4）：1-10，2012. 2[8] Xin Deng，Ren Yang，Mai Xu，and Pier Luigi Dragotti.小波域风格转移的一个有效的感知失真权衡单图像超分辨率。国际计算机视觉会议，第3076-3085页，2019年第1、3条[9] Julia A Dobrosotskaya和Andrea L Bertozzi。一种用于图像去卷积和修复的小波-拉普拉斯变分技术。IEEETransactions on Image Processing，17（5）：657-663，2008。2[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年一、二[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第7705[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年。6[13] Huaibo Huang，Ran He，Zhenan Sun，and Tieniu Tan.Wavelet-srnet：一种基于小波的多尺度人脸超分辨神经网络。在IEEE计算机视觉和模式识别会议上，第1689-1697页3[14] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（TOG），36（4）：1-14，2017。5[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议上，第1125-1134页，2017年。5[16] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。5[17] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。2018年学习代表国际会议。六、七[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[19] Boyi Li，Felix Wu，Kilian Q Weinberger，and Serge Be-longie.位置标准化。在神经信息处理系统的进展，第1622-1634页，2019年。4[20] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在欧洲计算机视觉会议上，第85-100页，2018年。二、六、七、八[21] Hongyu Liu，Bin Jiang，Yibing Song，Wei Huang，andChao Yang.重新思考图像修复通过相互编码器-解码器与特征均衡。2020年欧洲计算机视觉会议。二六七[22] Lin Liu ， Jianzhuang Liu ， Shanxin Yuan ， GregorySlabaugh，Ales Leonardis，Wengang Zhou，and Qi Tian.基于小波变换的双分支网络图像演示2020年欧洲计算机视觉会议。3[23] 刘云帆，李琦，孙振安基于小波的生成对抗网络的属性感知人脸在IEEE计算机视觉和模式识别会议上，第11877-11886页，2019年。3[24] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang. 在野外深度学习人脸属性。在 InternationalConference on Computer Vision，第3730-3738页，2015年。6[25] 这是玛拉特。信号处理的小波之旅。Else-vier，1999. 2[26] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， Faisal ZQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成式图像修复。arXiv预印本arXiv：1901.00212，2019。二六七[27] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议上，第2337-2346页，2019年。四、六、七、八[28] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议上，第2536-2544页，2016年。一二六七八[29] Yurui Ren，Xiaoming Yu，Ruonan Zhang，Thomas HLi，Shan Liu，and Ge Li.结构回流：基于结构感知外观

下载后可阅读完整内容，剩余1页未读，立即下载