基于非均匀滤波的光谱提示网络用于图像补偿

85 浏览量更新于2023-10-16 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4591利用非均匀滤波的光谱提示完成图像Xingqian Xu1，3，Shant Navasardyan3，Vahram Tadevosyan3，AndranikSargsyan3，Yadong Mu2，and Humphrey Shi1，31SHI Lab @ UIUC UO，2北京大学，3Picsart AI Research（PAIR）图1：SH-GAN在各种修复案例上的结果SH-GAN可以以出色的一致性填充图像内容摘要对于计算机视觉界来说，大规模自由形式缺失区域的图像补齐虽然研究人员寻求更好的解决方案，但诸如图案不清晰、纹理模糊和结构失真等缺点仍然明显，因此留下了改进的空间为了克服这些挑战，我们提出了一种新的基于StyleGAN的图像补偿网络，光谱提示GAN（SH-GAN），其中引入了精心设计的光谱处理模块，光谱提示单元。我们还提出了两种新颖的2D频谱处理策略，异构滤波和高斯分裂，很好地适应现代深度学习模型，并可以进一步扩展到其他任务。从我们的包含性实验中，我们证明了我们的模型可以在基准数据集FFHQ和Places2上达到3.4134和7.0277的FID分数，因此优于先前的工作，达到了一个新的最先进的水平。我们还通过消融研究证明了我们设计的有效性，从中可以注意到上述挑战，即。可以显著地解决图案感知不清、纹理模糊和结构失真等问题。我们的代码将在：https://github.com/SHI-Labs/SH-GAN。1. 介绍光谱分析是一个成熟的研究课题，并且已经被深入研究了几十年[7，8，32，35]。其相应的下游技术在遥感、电信和医疗保健等方面对我们的现代生活产生了重大影响。早期的计算机视觉技术主要采用傅立叶变换[3，38]，小波变换[4，15，33，50]和曲波变换[47]等算法自从深度学习的快速发展以来，图像上的频谱分析已经从流行下降，这主要是因为2D频域的有趣特性使基于内容的任务的许多解决方案变得复杂。然而，随着深度学习研究的深入和广泛，研究人员开始重新关注图像光谱分析及其潜在应用。最近的工作，如[9，10，40，48，54，55，57，64]，已经表明具有光谱先验的网络结构在许多任务中是有利的，包括分类，分割，图像合成和超分辨率。这些工作无疑将指导未来计算机视觉在光谱分析方面的研究4592尽管光谱相关的深度学习方法发展迅速，但很少有作品[9，25，48]探索了利用光谱先验完成图像的潜力，其中[9，25]的主要目的是静态图像合成。在过去的几年中，图像完成严重依赖于使用CNN和基于相似性的块匹配技术的特征提取[36，56，58，59，61]。虽然这些策略已被证明在某些情况下是有用的，但由于其经常显示的结构失真和纹理伪影，它仍然是一种依赖于情况的方法。与此同时，StyleGAN系列[24，25，26，27]在生成任务上的成功为许多下游任务建立了一个强大的基线，例如样式转换[1，16，39]，GAN-inverse [37]，la-帐篷空间编辑[17，45，49]和修复[63]。其中，最近的图像完成工作CoModGAN [63]引入了共调制的概念，并将性能推向了一个新的水平。通过我们的研究，我们比较了几种图像填充工作，如DeepFill [58，59]，LaMa [48]，Co- ModGAN [63]等。我们注意到，这些方法在某些情况下产生了有希望的结果，但在其他情况下却很困难。例如，基于块的方法保持了良好的纹理一致性的不规则纹理与小特吨（如。草、木材、沥青等），但是产生大的结构失真，尤其是当未知掩模较大时。另一方面，LaMa利用谱变换模块，即FFC [10]，并且在具有强模式样信号的情况下脱颖而出然而，它在复杂场景中面临挑战，并且往往会创建概念上模糊的快速重复伪影。CoModGAN 生成更自然的图像内容。然而，CoModGAN较少受图像已知区域的限制;因此，它可能忽略全局模式并产生错误对象。受先前使用谱变换来处理低级模式和调制生成块来处理高级语义的工作的启发，我们引入了一种新的方法：光谱提示GAN（SH-GAN）以及新模块：光谱提示单元（SHU）。我们的目标是最小化总结的问题，即，模式不可知、模糊纹理和结构扭曲，并保持模式和语义一致性之间的自然平衡。此外，我们还提出了两种新的谱变换策略：异质滤波和高斯分裂。非均匀滤波旨在使用与其频率相关的可学习平滑变化函数来操纵2D频谱。同时，高斯分裂是一种光谱分裂算法，它将信息分配到不同的分辨率尺度上进行图像合成。因此，我们的FID性能在FFHQ [ 26 ]上为3.4134，在Places2 [65]上为7.0277，优于CoModGAN和其他先前的作品，并达到了新的最先进水平。我们还证明，我们的模型优于LaMa和其他作品的窄，宽面具使用LaMa风格的评价，方案。最后，我们在SH-GAN上进行了烧蚀研究，从中我们清楚地看到了使用SHU和所提出的谱变换策略，即。异质滤波与高斯分裂。总之，我们工作的主要贡献如下：• 我们提出了一种新的光谱感知的基于StyleGAN的图像完成网络，光谱提示GAN（SH-GAN），其中引入了一个新的模块，光谱提示单元（SHU）。• 我们还提出了两种新的光谱处理策略：异质滤波与高斯分裂。这些策略旨在增强2D光谱信号并将其分层融合到合成网络中。• SH-GAN的FID分数在两个流行的基准数据集上表现优于最先进的水平：FFHQ和Places 2。同时，我们进行了包容性研究，通过这些研究，我们证明了我们的新设计的有效性2. 相关作品2.1. 计算机视觉早期的图像光谱研究主要集中在低层次的视觉，如压缩[2，3]，恢复[50]和去噪[4，15，47，51]。1971年，Tsai和Huang提出了使用离散余弦变换的变换编码[3]，该变换后来被扩展到众所周知的JPEG格式[2]。Huang [50]还开创了使用多帧离散傅里叶变换（DFT）和逆DFT进行图像增强和恢复的开创性工作。图像去噪的流行方法利用快速傅立叶变换（FFT）[51]或小波变换[4，15]。在[47]中，Jeanet al.提出了两种新的频域工具：脊波变换和曲波变换，它们可以从噪声中恢复图像，比以前的工作有更高的感知质量。近年来，研究人员对谱神经网络表现出越来越大的热情。[43]是将频谱层与CNN相结合的第一批作品之一，其中它提出了用于降维的频谱池。另一项工作 [55]提出了SyncSpecCNN，其中一组3D特征被特征分解并通过CNN进行3D零件分割。对于超分辨率，[64]用小波基分解张量，并用全连接层对其进行变换。[40]探索了CNN对低频信号的诱导偏差在[9]中也有类似的最近，Chi等人提出了快速傅里叶卷积（FFC）[10]，其中张量使用FFT和逆FFT在空间和频域之间转换。Chi等人也表明FFC可以替代常规4593��（⋅）SpecTrans⊙∈- -Conv3×3��′SpecTrans(a)（b）第（1）款图2：该图显示了FFC [10]（左）和SHU（右）的结构。与FFC不同，我们的SHU不使用任何外部卷积层。在频谱变换中，SHU利用HeFilter在ReLU之后变换频谱张量，而FFC直接将ReLU输出连接到iFFT。为了使事情紧凑，我们在这个图中不包括高斯分裂。残差块[18]，并在分类中达到更好的性能。2.2. 图像补全图像补全的目标是为缺失的区域合成图像内容。传统方法执行灰度梯度扩展[5]，图像拼接[13]和基于块的方法[6，12，14]。尽管这些方法在简单和高纹理背景的情况下取得了成功，但它们未能重新覆盖缺失的语义和复杂的结构。由于深度学习的普及，[29，42，53]是第一批设计用于修复的深度网络架构的团队。Satoshi等人[21]利用了扩张卷积和对抗训练。[30]使用语义图作为指导来修复面部图像。为了解决香草卷积[31]引入部分卷积，其中输入张量中的未知元素被排除在计算之外。Yu等人进一步改进了上下文注意力[58]和门控卷积[59]的性能。Navasardyan Ohanyan [36]提出了洋葱卷积，其中可以使用卷积操作同时搜索和重新定位相邻块。与[6，58]分享类似的精神，HiFill [56]生成上下文残差以填充更高分辨率的纹理。另一项工作，CR-Fill [61]提出了CR损失，一种旨在加强上下文一致性的补丁相似性损失Zhu等[66]介绍了MADF模块和级联细化解码器。Zeng等人[60]介绍了AOT块，并利用软掩码引导的 PatchGAN [22]进行网络训练。Suvorov等人介绍了LaMa，其是具有FFC的U形结构[10]。Zhao等人[63]提出了CoModGAN以及StyleGAN之上的共调制思想 [24，26，27]。所有这些作品使用自由形式的面具在面部和自然图像上实现了合理的结果扩散模型[20，46]中的并发工作也可以扩展到修复任务，其中LDM [44]和DALL-E2 [41]在推理时间期间以更高的计算成本显示出有希望的结果。3. 方法在本节中，我们将说明我们工作的关键设计图像完成的定义是从掩蔽的彩色图像I=IrealM重新存储RGB图像Ifake，其中Ireal是地面实况图像并且M是掩模，其中已知像素具有值1并且未知像素用零表示。3.1. SHU谱变换频谱提示单元（SHU）使用整洁的FFT网络iFFT管道（见图1）转换张量。2）的情况。最近的工作FFC [10]也提出了一种类似的结构，其中作者将频谱变换混合在密集连接的卷积网络中。与FFC不同，SHU是轻量级的，因为它在谱变换之外没有额外的卷积。更精确地说，设xRN×H ×W是一个N通道张量，其高度和宽度分别等于H和W 然后SHU的输出是具有相同维数的张量x′，通过以下方式形成：x′=concat。x[0. N-K]，x[N-K. N]+f.x[N-K. [N]N-[N-[N]N-[N-[N-N-[N-[N-N-[N-N]]f=iFFTg=HeFilter ReLU Conv1×1我们的设计适合GAN培训，原因如下a) 像卷积这样的局部操作应该是很好的-IFFTReLUConv1×1FFTFFTConv1×1ReLUHeFilterIFFT4594×××公司简介2→R×20.520.510.500.490.481.00.80.60.40.20.00.70.60.50.40.30.20.14 442 2 24040402222220 0 02424244 4 4(a) Conv1×1(b) ReLU(c) HeFilter图3：使用不同类型的层操作光谱张量的图形解释。Conv11是在2D频域上同等对待复向量空间ReLU通过将负分量变为零来作为带通滤波器工作我们的HeFilter在频域上应用平滑变化的映射函数，并根据其频谱位置操纵复向量。��∈ ℝ��×��×��^∈2^∈8×3IFFT�� ∈ ℝ4×43FFT图4：Vanilla Split的图示我们的高斯分割是一个扩展版本，在每个分割级别上添加高斯掩码，由于空间有限，我们只在这里展示香草分割。由具有调制卷积的合成网络处理; b）GAN训练应该在光谱和空间变换之间保持微妙的平衡，并且它不应该用光谱信息压倒张量。与FFC [10]的谱变换类似，Conv 11在频率域中均匀地映射两个复向量空间之间。ReLU是一种非线性操作，可以过滤掉向量空间中的所有负分量。最后，HeFilter执行异构滤波，其中映射是2D光谱位置上的平滑变化函数我们将在下一小节中详细介绍HeFilter总之，SHU的频谱变换如下：异构过滤回想一下，FFC [10]用Conv1 1和ReLU变换谱张量，这也可以被视为齐次操作和带通滤波器。在许多情况下，ReLU是一个必要的步骤，但不是频谱变换的推荐结束操作，原因如下：a）它去激活频带而不恢复; b）由于不平滑而引入混叠效应;以及c）它根据幅度而不是位置响应（即，宽带）。因此，我们创建了HeFilter，在其中引入了异构滤波策略，通过频域上的平滑变化函数来变换复向量空间。更准确地说，HeFilter学习分散的几个权重矩阵，a) RK×H×Wb) CK×H×W→C2（FFT）K×H ×W在均匀间隔的2D频域上。在传播过程中，HeFilter对这些权重进行线性插值，2 →Cc) CK×H ×W2（HeFilterReLU转换器）K×H ×W（iFFT）将它们与相应的光谱向量叠加。图3解释Conv1×1、ReLU和HeFilter的特性3.2. 非均匀滤波和高斯分裂如前所述，这项工作的贡献之一是引入了两种新颖的频谱处理策略：异构滤波和高斯分裂，它们非常适合深度学习训练方案。��^∈��×12IFFT��1∈ ℝ��×��^∈4×2IFFT��2 ∈ ℝ2 2��×��分裂4595在光谱变换中我们在2D谱域上准备了总共3 2个沿每个维度的不对称性是因为RK× H × W的FFT是CK× H×W，并且跳过的一半是反射复共轭。我们不对学习这些权重施加约束，因此HeFilter可以是低通，带通或高通，这取决于4596F2的 NN联系我们444αf1（x）+βf2（x）←→αf1（ω）+βf2（ω）444损失x=iF−1我（xi），并且该性质对于FFT成立224Σ444[��=0L编码器映射Concat调制合成鉴别器：SHU：FFT：HeFilter转换ReLU转换Conv1×1：高斯分割：iFFT图5：该图显示了SH-GAN的整体结构，其中SHU在灰色区域中突出显示它学习的权重这也解释了这个名字因为它只保证了在不同的光谱位置上的变换一个简单的前-.x<$[i，j]（i，j）∈/（H. 3小时，0...W）0（i，j）∈（H. 3小时，0... W）（香草）（3）我们的HeFilter的张力是使用更大的网格尺寸，例如5×3或7×4。不过，我们注意到有足够的改善-4 4 4x2=x[H. 3小时，0... W]使用网格大小为3×2的模型性能。HeFilter4 4 4更大的网格尺寸，留待进一步研究。高斯分裂流行的生成模型[23，24，25，26，27]采用渐进结构，其中低分辨率特征逐渐详细说明为高分辨率特征。我们通过添加一个独特的高斯分裂，在iFFT操作之前将频谱张量分离为多分辨率子张量，傅立叶变换的基本性质是线性，其中函数f1和f2的加法的FT等于f1和f2的各个FT的加法（参见等式10）。①的人。f（x）←F→f<$（ω）我们的Gaussian Split是Vanilla Split的升级版本，其中我们使用高斯权重映射来平滑每个拆分，(see当量4）. 中心在（H，0）处，标准差σ与相应的分离度成正比。由于高斯函数的傅里叶变换是另一种高斯函数，因此在频域中应用高斯映射是这相当于我们通常在下采样之前在空间域上应用高斯模糊滤波器。还可以注意到，多级高斯分裂用作空间域中的众所周知的高斯差分（DoG）[34]。我们将在第4节中展示我们的异构过滤和高斯分裂的有效性。F（一）.x<$[i，j]（i，j）∈/（H. 3小时，0... W）x<$[i，j]×（1−N[i，j]）（i，j）∈（H. 3小时，0... W）利用上面提到的属性，我们可以拆分任何x2=x[H. 3小时，0... W] ×N[H. 3小时，0... W]谱信号x∈ F=F（x）分解为若干子信号x∈i，i∈4 4 44 4 4{1。 . . n}。只要xi=xi，我们希望没有信息i离散张量为了方便起见，我们使用相同的符号集合x，xi表示谱张量。分裂的图形解释在图4中突出显示，从中可以注意到，我们的分解，如小波变换，基于其频带自动分离信号。例如，两级Vanilla Split公式化为Eq.2和3，其中我们将所有低频值从大张量迁移到小张量。（高斯）（四）3.3. 网络架构与CoModGAN [63]类似，我们的模型是一个U形架构，包含一个编码器和一个合成网络。如图5所示，我们首先传递掩码的输入图像I输入到编码器中，在编码器中，I被编码为一组分辨率为i的特征映射x[i]和全局向量w0。然后，我们从x[i]（K=32，i=64）中分离K个通道，并且将其传递给SHU进行频谱变换。在禁闭室里，我们-生成一系列小波状特征图xi，i4，.，64使用高斯分裂，其中低频信息，x1[i，j]=x1[i，j]=12在低分辨率特征图中编码（例如，x4）45972 ←−→x∈CH×W分裂.x∈CH×W，x<$∈CH×W<$（2）4598·FFHQ 256地点2 256方法FID（↓）LPIPS（↓）峰值信噪比（↑）SSIM（↑）FID（↓）LPIPS（↓）峰值信噪比（↑）SSIM（↑）CoModGan（小型）5.01840.257916.310.58929.51590.399514.490.4914CoModGan（官方）4.77550.256816.240.59139.36210.399014.500.4923喇嘛32.70350.259017.580.627723.74090.367916.580.5448DeepFillV250.93230.320416.110.556946.20120.416614.970.4913CR-填充----40.96900.395715.280.4925Onion-Conv----42.46250.436015.030.5046MADF33.62070.280017.540.627966.26590.388916.610.5360AOT-GAN73.79620.427015.600.595690.61840.513914.870.4790(ours- 小）4.82250.255816.360.58918.30780.396914.500.4918(ours- 定期）4.34590.254216.370.59117.50360.394014.580.4958表1：该表比较了先前模型与我们的SH-GAN在分辨率为256的数据集FFHQ和Places 2上的性能FFHQ 512地点2 512方法FID（↓）LPIPS（↓）峰值信噪比（↑）SSIM（↑）FID（↓）LPIPS（↓）峰值信噪比（↑）SSIM（↑）CoModGan（小型）3.94200.249718.380.69118.83900.346415.960.5925CoModGan（官方）3.69960.246918.460.69567.97350.342016.000.5953喇嘛19.55770.287118.990.717812.67210.315817.120.6521DeepFillV232.86960.328318.290.688629.73450.380215.910.5953CR-填充----26.63980.359316.520.6038Onion-Conv----25.74800.399915.020.6061MADF17.19620.268819.620.719629.49280.329917.770.6239AOT-GAN36.13440.340318.140.713146.76400.397616.840.6029(ours- 小）3.74600.249118.360.68977.61220.345515.950.5926(ours- 定期）3.41340.244718.430.69367.02770.338616.030.5973表2：该表比较了先前模型与我们的SH-GAN在分辨率为512的数据集FFHQ和Places 2上的性能并且高频信息被编码在高分辨率特征图中（例如，x64）。然后将xi加回相应的x[i]。对于i >64，我们直接传递x[i]到合成块。回想一下，我们采用了StyleGAN2 [24]作为我们的合成网络。然后，我们使用w和w0的级联来调制合成网络，其中w是使用映射网络的潜在代码l的投影向量，并且通过加法将x[i]在训练过程中，我们使用StyleGAN 2区分-为我们的损失做担保我们还对wpl=2的生成元进行了路长正则化，对γ=10的生成元进行了R1正则化.其他培训详情见第4.2节。3.4. 蒙版生成我们使用与DeepFillV2 [59]和CoModGAN [63]相同的自由形式掩码生成算法。这些蒙版是使用多个画笔笔划和矩形绘制的。从U（12，48）中采样画笔笔划的宽度，并且从U（0，20）中随机选择笔划的数量，其中U（）表示离散均匀分布。同时，我们采样U（0，5）矩形到输入图像的全尺寸，和U（0，10）矩形到半尺寸。详情请参阅补充资料。4. 实验本节将详细介绍我们的数据集、指标、设置、实验和其他研究。我们通过分数和图像提供我们的SH-GAN和其他先前作品之间的全面比较。4.1. 数据集和指标我们使用三个数据集：[26][27][28][29] FFHQ包含70，000张高分辨率对齐良好的人脸图像，其中我们分离出60，000张图像用于训练，并使用剩余的10，000张图像进行验证。Places2在其训练集中包含8，026，628张图像，在其验证集中包含36，500张图像。Places2的内容是常规的场景和对象。我们为我们的实验保留了原始的训练验证分裂。DTD包含5，640个分类纹理图像，其中3，760个来自训练集和验证集，1，880个来自测试集。我们使用训练集和验证集训练模型，并使用测试集对其进行评估。我们使用Fre'chetInceptionDistance（FID）[19]作为我们的主要指标。FID是一种统计分数，4599输入AOT-GAN DeepFillV 2 MADF LaMa CoModGAN（我们的）图6：先前的方法和我们使用自由形式掩码的方法之间的定性比较关于其他类型的口罩，请参阅补充资料。真实和合成特征分布之间的距离此外，我们还采用学习感知图像块相似性（LPIPS）[62]，峰值信噪比（PSNR）和结构相似性指数（SSIM）[52]从不同角度衡量模型。我们将在第4.3节中显示所有指标分数。4.2. 培训详细信息这项工作的许多培训设置都密切遵循CoModGAN[63]和StyleGAN 2 [24]。我们使用亚当[28]优化器，β=（0，0. 99）对于我们的生成器和判别器。FFHQ/Places 2的学习率为0.001，0.02 对于DTD。此外，训练长度是2500万在FFHQ上有5000万张图片，在Places2上有5000万张图片，在DTD上有1000万张图片。我们在训练期间应用路径长度正则化和R1正则化，其中我们设置wpl=2和γ=10。对于所有数据集上的所有模型，批次大小为32。像StyleGAN 2一样，我们计算指数移动的av-动量为0.99993的发生器的平均值（即，在20，000个图像处的半衰减，批量大小为32）。如表1和表2所示，我们在分辨率256和512下评估了具有小和标准设置的SH-GANSH-GAN（小型）是SH-GAN的简化版本，基本通道从32，768减少到16，384（见补充资料）。这样的小型和标准设置在模型尺寸方面与CoModGAN的小型和正式版本相匹配。我们用4个GPU训练小模型，用8个GPU训练标准模型。此外，我们使用2080 Ti用于分辨率256和A100(a) 输入（b）地面实况（c）基线（d）no_HF（e）no_GS（f）our图7：该图显示了我们消融研究中各种设置的定性比较。随着SHU和光谱处理策略的使用，性能逐渐得到改善。第512号决议。4.3. 结果比较表1和表2比较了SH-GAN与FFHQ和Places 2上的其他先前工作[48，59，60，61，63，66]的性能。如第3.4节所述，我们采用源自CoModGAN论文的免费掩码。在这四个指标中，FID/LPIPS仪表感知质量和PSNR/SSIM仪表像素精度。请注意，这些指标以不同的方式显示图像质量，因此它们在数字上可能不一致。除了CoModGAN之外，我们已经下载了大多数之前的作品的官方代码和模型进行评估。我们重新实现了CoModGAN，4600联系我们[[（嘘）[[（嘘）=16图8：该图显示了三个示例，比较了使用SHU和不使用SHU的中间功能。橙色虚线框突出显示SHU添加的光谱提示。绿色和红色虚线框比较了由于光谱提示而在具有和不具有保真度的情况下生成特征的位置。Pytorch，并训练和测试了复制的版本。的型号SHU HF GS FID（↓）LPIPS（↓）复制的CoModGAN上的FID分数与原始论文中的FID分数相匹配。因此，SH-GAN在FFHQ和Places 2数据集上分别达到4.3459和7.5036。基线我们-无高频我们-无GS51.9289 0.36282019年12月31日2019年12月31日对于第256号决议，分别为3.5713和7.8482。SH-GAN在FID方面超越了所有其他方法，成为新的最先进的方法。除了自由形式的掩模实验，我们还尝试了其他类型的掩模，例如LaMa风格[48]窄行和宽掩模。这些详细的性能可以在我们的补充材料中找到。4.4. 扩展研究在本节中，我们进行了扩展实验来证明我们的新设计（即，SHU、异质滤波和高斯分割），克服了先前的挑战，如模式不可知、模糊纹理和结构失真。我们的第一个实验是使用DTD数据集进行消融研究，其中我们训练了几个模型，并分别排除了SHU，异质滤波器或高斯分裂。我们专注于DTD数据集，因为纹理图像是高度结构化的图像，可以进行明显的比较。在表3中，我们表明，我们的模型的完整版本执行FID 48.58，低于没有我们的✓✓48.58140.3519表3：分别移除SHU、异质滤波（HF）和高斯分裂（GS）的DTD [11]消融研究。在我们的第二个实验中，我们提取由编码器生成的跳过特征图 x[i] 和由合成块生成的中间特征图 y[i]i16，32，64.然后我们计算每个的2-范数，沿着通道轴的特征图。为了清楚地进行比较，我们的SHU仅在分辨率32上连接而不分裂。图8显示了SHU对这些特征的影响，读者可能会注意到，SHU向其下游合成块提供了关于图案的关键提示，以生成纹理。5. 结论我们介绍了SH-GAN，这是一种新的图像完成方法，它将光谱提示转换为深层特征，高斯分裂（即，我们的-没有GS）1.48，低于没有异质滤波的模型（即，我们的-没有HF）1.83，并且低于基线（即，CoModGAN [63]）3.35。LPIPS、PSNR和SSIM评分与FID评分一致。此外，我们在图7中清楚地表明，即使在掩模覆盖率很大的情况下，我们的模型也会生成清晰而稳健的图案。我们的HeFilter在复杂结构的情况下非常有用，我们的高斯分裂有助于消除混叠效应，使图案更清晰。调制的GAN框架。在本文中，我们揭示了我们新设计的模块的细节：SHU，并介绍我们新的光谱变换策略：非均匀滤波和高斯分裂。与包容性的实验，我们表明，我们所有的设计是非常有用的，在解决具有挑战性的修复情况下，大规模的自由形式的缺失区域。我们相信我们的SHU和光谱变换策略值得在其他计算机视觉任务中进一步探索4601引用[1] Rameen Abdal，Peihao Zhu，Niloy J Mitra，and PeterWonka.Styleflow：使用条件连续规范化流对stylegan生成的图像进行属性条件探索。ACM Transactions onGraphics（TOG），40（3）：1-21，2021。2[2] Nasir Ahmed，T Natarajan，and Kamisetty R Rao.离散余弦变换。IEEE Transactions on Computers，100（1）：90-93，1974. 2[3] G. Anderson和T.煌用于图像带宽压缩的分段傅里叶IEEE Transactions on Communication Technology ， 19（2）：133-140，1971. 一、二[4] S Arivazhagan ， S Deivalakshmi ， K Kannan ， BNGajbhiye ， C Muralidhar ， Sijo N Lukose 和 MPSubramanian。对不同小波分解层次的图像去噪系统进行性能分析。 International Journal of Imaging Scienceand Engineering，1（3）：104-107，2007. 一、二[5] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。通过矢量场和灰度级的联合插值来填充IEEE图像处理学报，10（8）：1200-1211，2001年。3[6] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM Trans.Graph. ，28（3）：24，2009. 3[7] 莱因哈德啤酒。傅里叶变换光谱法遥感，第170卷。约翰·威利父子公司1992年1[8] 奥兰·布里格姆快速傅里叶变换及其应用。普伦蒂斯-霍尔公司1988. 1[9] Yuanqi Chen，Ge Li，Cece Jin，Shan Liu，and ThomasLi. Ssd-gan：测量空间和光谱域的真实性。arXiv预印本arXiv：2012.05535，2020。一、二[10] 陆驰，江博睿，木亚东。快速傅立叶卷积。神经信息处理系统的进展，33：4479-4488，2020。一、二、三、四[11] M. Cimpoi，S.马吉岛Kokkinos，S. Mohamed，和A.维达尔迪描述野外的纹理。在IEEE Conf. 计算机视觉和模式识别（CVPR），2014年。六、八[12] 安东·克里米尼西，帕特里克·佩雷斯，和山健太郎。基于样本的图像修补的区域填充和对象去除。 IEEETransactions on Image Processing ， 13 （ 9 ）： 1200-1212，2004。3[13] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在Proceedings of the 28th annual conference onComputer graphics and interactive techniques ， pages3413[14] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。在第七届IEEE计算机视觉国际会议的会议中，第2卷，第1033-1038页IEEE，1999年。3[15] 伯翰·埃尔根小波变换在信号和图像去噪中的应用。InTech London，UK，2012. 一、二[16] Rinon Gal ， Or Patashnik ， Haggai Maron ， GalChechik，and Daniel Cohen-Or. Stylegan-nada：图像生成器的剪辑引导的主适应。 arXiv 预印本 arXiv ：2108.00946，2021。24602[17] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace ： Discovering interpretablegan control. 神经信息处理系统的进展， 33： 9841-9850，2020。2[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。3[19] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。6[20] Jonathan Ho，Ajay Jain，and Pieter Abbeel.去噪扩散概率模型。神经信息处理系统进展，33：6840-6851，2020。3[21] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（ToG），36（4）：1-14，2017。3[22] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。3[23] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。5[24] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式神经信息处理系统，33：12104-12114，2020。二三五六七[25] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无别名生成对抗网络。神经信息处理系统的进展，34，2021。二、五[26] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页二三五六[27] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页，2020年。二三五[28] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[29] RolfK ？hler ， ChristianSchuler ， BernhardSch ？lkopf，andStefan Harmeling.使用深层神经网络进行特定于掩码的修复。德国模式识别会议，第523-534页。Springer，2014. 3[30] Avisek Lahiri，Arnav Jain，Prabir Kumar Biswas，andPabitra Mitra.利用语义引导的生成对抗网络提高序列修复的一致性和正确性。 arXiv 预印本 arXiv ：1711.06106，2017。34603[31] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在欧洲计算机视觉会议（ECCV）的会议记录中，第85-100页3[32] Dimitris G Manolakis和Vinay K Ingle。应用数字信号处理：理论和实践剑桥大学出版

下载后可阅读完整内容，剩余1页未读，立即下载