基于嵌套可变形多头部注意力的人脸图像修复

196 浏览量更新于2023-10-16 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6078→ →→基于嵌套可变形多头部注意力的人脸图像修复Shruti S tke和Subrahmanyam MuralaCVPR实验室，印度理工学院Ropar，旁遮普，印度{2018eez0019，subbumurala} @ iitrpr.ac.in摘要提取足够的上下文信息是任何图像修复方法的重要方面。为了实现这一点，有足够的图像修复方法，旨在专注于大的感受野。深度学习领域的最新进展，引入了用于图像修复的变压器，为合理的结果铺平了道路。在单层中堆叠多个Transformer块会导致架构在计算上变得复杂。在此背景下，我们提出了一种新的轻量级架构，其中包含一个嵌套的可变形的基于注意力的Transformer层，用于特征融合。嵌套的注意力有助于网络关注编码器和解码器特征的长期依赖性。此外，本文还提出了一种由可变形卷积构成的多头注意，以深入研究不同的感受野.利用注意力嵌套和变形的优点，提出了一种轻量级的人脸图像修补体系结构。使用已知（NVIDIA）和未知（QD-IMD）掩模的Celeb HQ [25]数据集和使用NVIDIA掩模的Places 2 [57]数据集以及广泛的消融研究的结果比较证明了所提出的方法用于图像修复任务的优越性该代码可从以下网址获得：https://github.com/shrutiphutke/NDMA_ 面部_修复.1. 介绍图像修复是一项长期的任务，用最可能的内容填充漏洞，从而产生合理的结果。图像修复在三维图像生成、照片修复、物体去除、人像编辑等领域的广泛应用使得图像修复成为计算机视觉领域的一个热门课题。传统的修补方法[5，12，14]利用纹理或基于块的统计信息来修补图像。这些方法在生成高层次语义和结构上合理的结果方面存在不足.随着卷积神经网络（ CNN ）和生成对抗网络（GAN）的进步，提出了各种图像修复方法，这些方法可以生成忠实的结果[47，46，49，41，30，31，32]。主要图1.所提出的方法（我们的）与现有方法（SN [45]，GConv[48]，EC [27]，RFR [19]，HR [38]，CTSDG [9]，MAT [20]），在可训练参数的数量（x轴）、操作的数量（GMAC）（y轴）和以秒为单位的运行时间复杂度（气泡大小）方面。修复任务的一个方面是从各种感受域提取相关的上下文信息。pi-oneer与深度学习方法一起工作，通过利用各种现象（如循环特征处理[19]、超图[38]、上下文重建[52]等）实现上下文信息提取。在[36]中，作者提出了一种基于快速傅立叶卷积的全局感受野特征编码。对于图像修复任务，可以通过使用不同的掩码破坏干净的图像来获得足够的数据进行训练随着这一到来，提出了许多方法，并提供有前途的修复结果。尽管如此，由于结构扭曲和模糊不清，它们无法产生现实的结果。此外，提出了一些方法与先验知识，以产生一个忠实的结果。注意力机制（transformers）的演变[37]有助于注意力发挥关键作用的任务处理非局部建模。它将图像重建任务带入了一个不同的领域。在这种情况下，提出了基于变换的方法[56，50]用于图像修复。这些方法简单地重复使用常用的Transformer块（LN MSA LNFFN），这又增加了该方法的计算成本。6079··整体架构。此外，变换器的二次计算复杂度限制了这些方法仅对小尺度的深层特征图给予关注。因此，生成的图像缺乏详细信息。为了克服这一点，Li等人。[20]提出了一种香草变换器块以及多头上下文注意力。与现有方法相比，该方法提供了更好的结果，但缺乏语义上下文理解。此外，当Transformer块被考虑用于处理具有大尺寸的输入时，由于将输入量化为较小尺寸，可能存在信息丢失的机会。这种现象在[24]中通过考虑基于补丁的自动编码器来解决。一般来说，注意机制是图像修复任务的有效方法。因为它有助于网络从有效位置有效地提取特征，以修复漏洞。此外，为了填充大尺寸的孔，在提取特征时需要考虑变化的感受野。多头注意力促使用有效特征来权衡特征图考虑到这些点，在这项工作中，我们提出了一个嵌套的可变形的多头注意层（NDMAL），以转移的编码器的功能，有效地重建，同时考虑到不同的感受野。受序列建模任务的线性统一嵌套注意力[26]的启发，我们提出了一种用于图像修复任务的嵌套可变形与[26]不同，我们将编码器和解码器特征视为打包和未打包的输入。虽然，编码器和解码器的功能是输入到多头注意，我们提出的层具有线性复杂度。因为我们使用的是通道式注意力而不是空间注意力。提出的ND-MAL算法有助于网络有效地从有效区域（背景）中提取特征以填充空洞。此外，我们提出了可变形的多头注意力（DMHA）提取解码器的功能，然后从不同的字段合并与跳过功能的编码器。此外，门控前馈层用于再次传递加权特征以进行重建。类似于编码器跳过特征作为查询序列，打包注意力被计算，称为打包上下文。该打包上下文再次通过DMHA以查询序列作为解码器特征进行处理，并生成解包上下文。这些打包和解包的上下文都被合并，然后转发到下一层。这些打包和解包的上下文特征有助于有效地重建修补图像。我们工作的主要贡献是：提出了一种基于新型Transformer层的轻量级人脸图像修复体系结构。我们提出了一个嵌套的可变形的多头注意力Transformer层（NDMAL），有效地融合编码器和解码器的功能。使用NDMAL al-使网络能够有效地捕获长期依赖性，并从最大感受野中提取有效特征我们提出了可见和不可见类型的面具修复方法的分析烧蚀研究进行了验证建议NDMAL的效率。在CelebHQ数据集和Places2数据集上的对比分析证明了该方法的有效性。2. 相关工作图像修复是图像恢复中的一个永恒问题，它是将图像中的空洞用最相关的内容填充起来。早期的作品使用基于补丁[5]，exem- plar [17]和扩散[1]的方法来修补图像。这些方法主要是利用图像块或有效区域的纹理或结构统计信息对孔洞区域进行修补。Jin等人。 [14]提出了一种基于块稀疏性的方法，该方法具有推导的方向导数，用于图像内部绘制。Barnes等人。 [2]提出了一种基于补丁的方法，其中来自最近邻匹配的补丁用于修复图像。虽然这些传统的方法再现了修复后的图像，但它们在输出中缺乏结构用于图像修复的深度学习方法提出了视觉上合理的结果，并遇到了图像修复方法。对抗训练方法在图像到图像翻译任务中提供了合理的结果[8，29，16]。第一个基于对抗训练的方法是由Pathak等人提出的。[28]第28话后来，提出了各种方法，包括局部-全局判别法[12]，部分卷积[22]，门卷积[48]，上下文注意力[23，44，46，47]等。此外，一些基于先验信息的方法被提出用于图像修复，具有结构上合理的结果[27，33]。根据这一点，提出了渐进[18]和循环[19]的图像修复方法。在[41]中执行了多分辨率特征的并行处理，以生成鲁棒的语义和合理的纹理在[52]中，作者提出了一种用于无注意力生成器网络的补丁借用以类似的方式，Suin等人提出了自蒸馏方法。[35]用于图像修复。在[9]中，使用单独的网络分别生成用于图像修复的纹理和结构信息。利用变换的优势来合成特征，Yu et al.[49] Suvorov et al. [36]分别提出了基于小波特征和基于快速傅立叶卷积的方法对大掩模图像进行修补。···6080∈O§OOK图2.图像修复的建议架构我们提出了一个嵌套的可变形多头注意力Transformer层（NDMAL），专注于大的感受野与长期的依赖关系。所提出的层由单层组成，从而降低了网络的计算复杂度。凭借对长期关系建模的卓越能力，变压器在各种视觉应用中需求量很大[3，7，40]。最近，Wan等人 [39]提出了一种借助双向注意的多元图像补全。此外，Yu等人 [50]提出了基于自回归Transformer的多元图像修补。 [16]李宗盛等人提出了一种新的观点。讨论了基于变换器三级结构，通过变换器和FFT CNN重建来恢复结构和纹理。Zhao等人。 [54]提出了用于不同图像修复的交叉语义注意层。作者在[20]中提出了一种掩码感知的Transformer，其中注意力模块融合了来自部分有效令牌的信息。在这项工作中，我们提出了一个修改的注意层命名为嵌套变形多头注意层（NDMAL）处理的编码器和解码器的功能与嵌套atten- tion。这一层有助于从不同的人身上提取有效的注意力感受野来忠实地修补图像第§3节给出了所提出方法的详细说明。3. 该方法在本节中，我们首先介绍了Transformer [37]中使用的一般多头注意力，线性统一嵌套注意力[26]，然后我们介绍了用于图像修复任务的拟议嵌套可变形多头注意力层（ND-MAL）。3.1. 具有自关注功能的多头注意[37]映射A∈Rn×p×B∈Rm×p→Y∈Rn×p一般表示为：Aφq（Bφk）TY=Attn（A，B）=σ（ φd）Bφv（1）其中，A和B分别是长度为n和m的查询和上下文序列，σ是softmax激活，p是嵌入维数，φq、φk和φv是用于将输入投影到查询、键和值中的可训练参数，dk是键的维数在[37]中，对于多头注意A=B被考虑，称为自我注意。这种多头注意力的输出，即，自注意被馈送到位置方式的前馈层，随后是层归一化。Transformer（Y′）的最终输出如下：Y′=η（FFN（YA）+YA）（2）其中， η 是层归一化， YA=η （ Y+A ）。这些Transformer层在每个块中依次使用l次。前馈网络（FFN）独立应用于每个位置，层归一化控制梯度尺度[37]。SA通常具有二次复杂度。在小空间窗口上应用模拟退火算法，减少了模拟退火算法的计算量大小，ws=8×8[21，43]而不是全局注意力。3.2. 线性统一嵌套注意力线性统一嵌套注意力[26]（LUNA）通过生成两个输出引入固定长度的额外输入序列来处理transformers（（mn））（3.1）的二次内存和计算复杂性。这又给Transformer层带来了线性复杂性打包（YP）和拆包（YU）注意事项介绍如下：YP=Attn（C，B）;YU=Attn（A，YP）（3）其中，CRl×p是具有固定长度l的额外输入序列。注意力的压缩和非压缩具有（lm）和（ln）的复杂性。因此，LUNA通常接受三个输入（A，B和C），并产生打包和未打包的注意力作为输出。LUNA层将这些注意力通过FFN进行进一步处理，6081§§∈ΣL QKv层归一化为：YP，YU=LunaAttn （A，C，B）YA，CA=η（YP+A），η（YU+C）Y′，C′=η（FFN（YA）+YA），CA（四）有效的输入。然后将打包和解包的输出转发到层归一化和门控前馈层（GFFL）。所提出的ND-MAL的输出（Y′）被给出为：YE，YD=η（YP+Enl），η（YU+DeN−l）其中，Y′和C′是LUNA层的输出Y′=<η（GFFL（YD）+YD），YE（八）>3.3. 建议嵌套变形多头注意结合多头注意力（3.1）和LUNA注意力（3.2），我们提出了一种用于图像修复任务的嵌套LUNA注意力提供了一个额外的输入，实际输入具有线性复杂度。将自我注意力应用于图像修复任务可以提供来自编码特征或来自解码器特征的相对上下文信息。然而，在我们提出的方法中，我们提供解码器（De）和来自编码器（En）的跳过连接特征作为输入。考虑来自编码器和解码器的特征两者可以允许有效地钻研有效特征空间。此外，为了从解码器处理的特征中提取最大感受野，我们利用了可变形卷积层[4]不相似[37]和[26]。这里，我们认为编码器特征是提供给解码器用于有效重构的上下文信息因此，所提出的可变形多头注意力（DMHA）被公式化为：Y=DMHA（DeN−1，Enl）=在哪里<，>表示连接操作。GFFL是门控前馈层，用于抑制任何不需要的特征（如果存在）。GFFL表示为：GFFL（fin）=φ（fin）+G（φ（fin））（9）其中，G是GELU激活函数，φ和φ是可学习参数。3.4. 整体架构所提出的方法的整体架构在图2中可视化。我们遵循由粗到精的架构。从粗到精架构背后的目的是通过所提出的NDMAL将粗输出特征作为查询转发，以提供足够的上下文信息。这样网络就能有效地捕捉长期依赖关系。所提出的NDMAL在精细阶段中被利用，精细阶段从编码器层获取输入，并将其视为对相应的解码器特征键和值的查询。此外，NDMAL中的打包注意力是相对于编码器跳过输入计算的，然后将其与经处理的解打包注意力级联。两者的结合允许σ。En φ（Deφdf）TDeφdf（五）有效地保存有效内容编码器和解码器层的粗糙和其中，φdf表示应用于解码器特征以深入研究最大接收域的可变形卷积，l（1，4）是层数，N=5（参见图2中的DMHA）。在可变形卷积中，正常网格O={（−1，−1），（−1，0），.，（0，1），（1，1）}是增加偏移{Δp n|n = 1，......，P}，P =|.|. 因此，对于输出特征图φdf中的每个位置p0，φdf（p0）=w（pn）·x（p0+pn+Δpn）（6）pn∈O此外，我们引入了嵌套的变形注意力机制，以增加所需的感受野，并专注于长期的依赖性。此外，DMHA的嵌套是有意义的，它可以捕获足够的上下文信息。包装（YP）和未包装（YU）的精细级被设计为具有门控卷积层，随后是LeakyReLu激活。在粗阶段的瓶颈处的连续编码器层允许聚焦在产生近似输出的不同感受野然后将该粗略输出馈送到包括所提出的NDMAL的精细级。整个体系结构与NDMAL的有效使用产生的信心，充分修复的结果。当我们考虑可变形的多头注意时，它可以帮助网络从最大的感受野中提取信息。此外，应用于编码和解码特征的因此，与现有的Transformer架构不同，我们提出的NDMAL仅由一个ws=8 8的块组成。这有助于减少我们提出的绘画网络的计算成本。虽然两个输入到拟议的嵌套的可变形注意力被给出为：YP=DMHA（DeN−1，Enl）YU=DMHA（YP，DeN−1）N−lN−l6082（七）NDMAL的长度为n，m，它保持了线性复杂度。这是因为我们将注意力应用于通道而不是空间[51]。因此，注意力将通过计算由于我们考虑了编码器层的特征和输入序列，因此它将能够打包全局上下文跨通道的互协方差。这也减少了像[26]那样具有恒定长度（l）的额外输入6083×−Σ∈配置（参数）PSNR SSIML1LPIPS FIDSA on En Feat（3.61M）24.25 0.842SA on De Feat（3.61M）24.98 0.857+嵌套-可变形（3.62M）27.68 0.915 3.007 0.104- 嵌套+可变形（3.85M）26.28 0.897 3.856建议网络（4.12M）28.19 0.931 2.575图3.对所提出的方法的不同配置的分析（注：+表示包含特定块，-表示排除特定块，SA是自注意）。4. 拟议网络所提出的架构是训练与损坏的图像及其掩码作为输入，并生成一个修复图像作为输出。网络结构与[13]中的网络结构相同在训练时，图像值在范围[0：1]之间线性缩放。在具有Tesla V100的NVIDIA DGX站上更新网络的权重参数1个16 GB GPU，批量大小为1，用于200个epoch（38个GPU小时）。 ADAM优化器[15]的学习率为2 × 10−4，β1= 0。5和β2= 0。99使用4.1. 损失函数给定具有孔（IC）的损坏图像和在孔处具有1且在非孔区域处具有0的掩码（IM），需要生成类似于目标图像（IT）的修复图像（II）。L1损失用于优化网络以更好地重建。对于全局和局部一致的真实图像的生成，对抗性损失起着重要作用[8]，[13]。对抗性损失是发电机和发电机之间的最小-最大问题，分别为：LGAN=max minE[log（D（IC，IT））]表1.定量比较不同配置的建议网络图像修复0。010. CelebA-HQ数据集上的掩码比（注意：+表示包含特定块，-表示排除特定块，SA是自注意，En Feat和De Feat分别）。这里，λloss是为各个损失函数分配的权重每个权重的值（通过实验确定）为λ1=10、λ e=2、λ P=3和λGAN=0的情况。1（每个损失函数的影响分析见补充材料）。5. 实验在这里，我们提供了用于将所提出的方法与基线进行比较的数据集和指标的详细信息，对所提出的架构的不同配置的消融研究，比较和计算复杂性分析。5.1. 数据集、指标和基线本文主要研究人脸图像的修复。为此，我们使用了一个名为CelebA-HQ的公开名人面孔数据集[25]。该数据集包含28k张用于训练的图像和2k张用于测试的图像。自然图像数据集，即，Places2 [57]包含来自365个不同地方的图像也被使用。为了破坏面部图像，我们使用了两种不同类型的面具D G+E[log（1−D（IC，G（IC）]（十）数据集。NVIDIA遮罩数据集[22]和快速绘制不规则遮罩数据集（QD-IMD）[10]。自然的IM-其中，D是实数，G是生成元。为了指导网络获取纹理和结构信息，通过将地面实况和修复图像的深度特征图传递给预训练的VGG19模型[34]来计算感知损失：SLP=（φs（IT）-φs（II）φ1）（11）s=1其中，φs是VGG19模型的特征图（s（1，S））。边缘损失也被认为是集中在边缘增强，而训练。利用sobel算子S的边缘损失被公式化为：Le=S（IT）−S（II）1（12）因此，训练网络的总损失如下：L总计=λ1L 1+λGANLGAN+λeLe+λPLP（13）年龄是损坏使用NVIDIA面具。NVIDIA掩模数据集的测试集覆盖不同的孔到图像区域，即，掩模比率在（0.010 6]。总共有12k个可用的掩码，它们被分成六组，其中（0. 010 1]，（0. 1，0。2]，（0. 2，0。3]，（0.3，0。4]，（0. 四，零。5），以及（0。5，0。6]掩模比。此外，具有笔划的掩膜数据集由人手工绘制，称为快速绘制不规则面具数据集（QD-IMD）[10]用于评估所提出的架构。这两个掩模数据集彼此不同，其中NVIDIA掩模数据集基于两个连续帧之间的遮挡/去遮挡掩模估计，由于边界附近的粗糙裁剪而具有尖锐边缘，而QD-IMD由不规则绘制的笔划组成，没有尖锐边缘。两个数据集的样本掩码在补充材料。对于定量评估，我们考虑五种评估措施：（i）峰值信噪比（PSNR），（ii）结构相似性指数（SSIM），（iii）L1范数，（iv）感知6084§§§掩模度量SN [45][48]第四十八话：一个人的世界EC [27] RFR [19]HR [38][20]第二十话比ECCV-18ICCV-19CVPR-20 WACV-21ICCV-21 CVPR-22我们0.01-0.2PSNR↑SSIM↑L1↓LPIPS↓FID↓30.840.9612.8270.0604.13430.540.9572.8670.0577.53732.080.9672.6890.0434.04232.060.9602.6810.0394.30932.040.9733.1080.0384.04233.450.9731.8240.0452.51633.280.9761.9250.0412.25733.570.9791.3290.0292.10533.560.9771.1470.0272.03233.990.9821.0170.0221.7750.2-0.4PSNR↑SSIM↑L1↓LPIPS↓FID↓25.770.8964.2460.209110.64324.490.8944.1200.171128.17025.300.8913.6910.177214.37625.480.9044.1470.166811.01026.300.9013.1940.16307.33826.440.9173.0220.141411.76726.760.9353.2130.134110.33027.020.9362.4660.10207.51627.130.9312.4660.09446.62027.430.9482.3820.07405.8620.4-0.6PSNR↑SSIM↑L1↓LPIPS↓FID↓18.650.6578.8520.369061.16018.740.7446.74650.406050.98119.010.6797.01050.345149.12019.700.8405.69450.301734.94021.330.8095.8280.275533.01121.230.7556.3540.255130.65022.040.8315.34450.242928.49822.240.8454.4510.191014.37122.550.8474.40150.181113.12123.140.8584.3260.147912.897表2.在CelebA-HQ数据集上对所提出的方法（我们的）与NVIDIA [22]掩模上的最先进方法进行定量比较（↑-越高越好，↓-越低越好）。最好和第二好的结果是红色和蓝色。输入地面实况GMCNN [42] SN [45] PIC [55] GConv [48] EC [27] RFR [19] HR [38] CTSDG [9] MAT [20]我们的图4.所提出的方法（我们的）与现有方法在CelebA HQ数据集上针对NVIDIA [22]掩码的定性比较图像块相似性（LPIPS）[53]用于分析修复图像和地面实况图像之间的视觉相似性，以及（v）Fre'chet接收距离（FID）[11]用于量化修复图像和地面实况图像分布之间的距离为了检验效率，我们考虑我们提出的方法与现有的国家的比较，图像修复的艺术方法：Shift-net（SN）[45]，GMCNN：NIPS-18 [42]，多元图像完成（PIC）[55]，门控卷积（Gconv ）[48]，边缘连接（EC）[27]，循环特征推理（RFR）[19]，hypergrphs（HR）[38]，上下文纹理结构双重生成（CTSDG）[9]和掩模感知变换器（MAT）[20]。5.2. 消融研究为了提出图像修复任务的最佳架构，我们对我们的网络的不同组合进行了细致的实验。这些实验包括，（a）考虑应用于编码器特征并与解码器合并的自注意（特征（编码器特征上的SA），（b）应用于解码器特征并与编码器特征合并的自注意（3.4）（解码器特征上的SA），（c）应用不具有可变形层的嵌套注意（类似于LUNA 3.2）（+嵌套-可变形），（d）应用不具有嵌套注意层的可变形多头注意（-嵌套+Deformable），（e）最后，应用嵌套的可变形多头注意层（+Nested +Deformable即，拟议网络）（见表1）。在柔性材料中给出了烧蚀实验用块体的结构差异。本研究的目的是比较拟议的网络的不同配置之间的定量和我们检查是否自我注意应用于编码器或解码器功能的作品更好。现有的自我注意试图从输入特征映射中提取长期依赖关系。应用它的编码器或解码器的功能影响不同，而重建图像。表1中的第2行和第3行显示了应用自注意的配置的结果6085−- -§§输入地面实况EC [27] RFR [19] HR [38] CTSDG[9] MAT [20]我们的图5.针对未知掩码数据集QD-IMD，在CelebA HQ数据集上对所提出的方法（我们的）与现有方法进行定性比较[10]。来自输入特征图的上下文信息，导致了结构信息的更好收敛。因此，结合+Nested和+Deformable（见表1和图3中的Proposed Network），我们提出了我们提出的网络，用于图像修复的嵌套可变形多头这个建议的NDMAL给出了类似于地面实况的修复输出。5.3. 比较分析我们在CelebA-HQ图像数据集上训练我们的网络，该图像数据集被类似于基线的NVIDIA遮罩训练数据集损坏（5.1）。为了进行比较分析，我们考虑了5.1中提到的两种类型的面罩。对于这两个掩码数据集，我们考虑0。010的情况。2，0。204和0的情况。40的情况。6个面罩比例。定量比较亲，提出的方法与现有的基线在PSNR方面SSIM、L1范数、LPIPS和FID在表2中给出从表3.定量比较所提出的方法（我们的）与最先进的方法对QD-IMD [10]掩模在CelebA-HQ数据集上进行图像修复。编码器和解码器功能。从表1和图3可以清楚地看出，当应用编码器（表1的第2行）或解码器（表1的第3行）特征图作为输入时，自注意力在数字和视觉结果方面未能产生有效的结果受到LUNA关注的启发，我们应该在嵌入式架构中包含LUNA层，以验证其深入研究有效特性的能力。与自我关注相反，结果在数量上得到了改善，并且在视觉上也产生了更好的结构信息（参见表1中的第4行和图3中的第5列）。这背后的原因可能是，这里我们考虑来自编码器特征和解码器特征的信息，以便与考虑它们中的任何一个相比此外，我们认为，如果我们尝试考虑最大感受野，它将进一步帮助网络走向更好的结果。进行了一项研究，以确定添加变形卷积是否能很好地提取最大感受野。鉴于此，我们考虑了用于提取可变形的多头注意力（表1的第5行）。表2中，我们可以清楚地提到，所提出的方法有效地优于所有掩模比率的所有基线，并最终优于所有掩模比率的平均值除了数值上的优越性，我们还评估了所提出的方法与现有基线的视觉比较目视比较如图4所示。通过比较，我们得出了一些观察结果：我们提出的方法不产生重影结果、不产生拼接效果、不产生过锐利的结果等。此外，与基线相比，我们的输出更准确，因为它们与地面实况的相似性更大。除了对NVIDIA数据集掩码进行比较之外，我们还敦促使用其他掩码数据集来验证我们方法的可靠性。对于这个实验，我们考虑用 QD-IMD 数据集损坏CelebA-HQ图像。与现有的基线类似，我们的模型也没有针对这些类型的掩码进行训练。这意味着，我们正在将所有方法（包括我们的方法）与未知类型的面具进行比较。为了使它简单，我们比较我们的方法与最好的五个基线。定量和定性结果与现有的基线相比，我们提出的方法给出了定量改进的结果在图5中，我们可以看到，将我们的结果与现有的最佳方法进行比较，我们发现我们的方法更倾向于合理的遗传方向掩模比方法PSNR↑ SSIM↑L1↓LPIPS↓FID↓0.01-0.2欧洲共同体[27]33.190.9721.3400.04042.929RFR [19]33.450.9731.8240.02912.516HR [38]33.280.9741.1430.02592.051CTSDG[9]34.550.9810.9840.01861.913MAT [20]34.660.9820.9450.02011.627我们35.050.9890.8180.01721.5670.2-0.4欧洲共同体[27]25.850.9332.7190.13197.561RFR [19]26.920.9392.5130.11827.267HR [38]27.680.9482.4430.10826.652CTSDG[9]28.480.9562.0890.05406.262MAT [20]28.620.9571.9300.05356.016我们28.940.9611.8070.05335.1810.4-0.6欧洲共同体[27]22.430.8565.0070.213619.543RFR [19]22.930.8684.7540.180118.650HR [38]23.370.8714.0390.173417.685CTSDG[9]23.800.8803.7070.130816.111MAT [20]24.030.8873.6370.122915.921我们24.560.8953.5080.118615.493608615掩蔽比度量SN [45] GMCNN [42] PIC [55] Gconv [48] EC [27] RFR [19] HR [38] CTSDG [9] MAT [20]我们的0.01-0.2PSNR27.8828.2229.5229.5029.6930.6430.1230.6131.6832.51SSIM0.8760.8940.9170.9210.9150.9280.9360.9530.9540.968L13.3713.6372.7962.6982.5851.1811.6611.4901.1211.104LPIPS0.1340.1130.1360.1270.1320.1020.0980.0660.0440.062FID10.76310.5438.4477.7187.4996.1046.1484.4593.6963.6390.2-0.4PSNR22.6722.8223.4622.8023.7024.2224.1825.1025.7326.22SSIM0.8160.8580.8420.8720.8770.8500.8560.8770.8840.893L15.1735.5324.4104.3934.0813.8283.6383.3273.0672.661LPIPS0.2390.2230.2180.2050.2030.1930.1840.1830.1660.174FID29.12627.39825.79922.00721.01820.21819.32618.42714.83914.2540.4-0.6PSNR18.1918.1918.8219.4819.5220.7620.8321.0321.1821.89SSIM0.6210.6600.6920.7240.7190.7260.7450.7700.7260.776L19.337.49857.1116.65656.3616.4865.9995.76255.3335.037LPIPS0.4470.4000.3710.3570.3600.3430.3350.3290.2480.312FID74.15073.69673.40868.00554.34149.20455.46140.26635.81037.887表4.定量比较所提出的方法（我们的）与NVIDIA [22]掩模上的最先进方法，用于Places2数据集上的图像修复。输入地面实况GMCNN [42] SN [45] PIC [55] GConv [48] EC [27] RFR [19] HR [38] CTSDG [9] MAT [20]我们的图6.所提出的方法（我们的）与现有方法在Places2数据集上的NVIDIA [22]掩码的定性比较状态。我们把这种忠实的图像修复归功于提出的嵌套可变形多头注意力。因为，它能够容易地从编码特征和解码特征中提取上下文信息为了展示我们提出的方法的通用性，我们考虑了Places2自然图像数据集[57]。Places2数据集的定量和定性比较分别见表4和图6。这一比较表明，我们提出的方法表现良好的非人脸/自然图像修复。虽然我们提出的方法具有非常少的参数（4.1M），即，1日在基线[20]（60 M）中，它对面部表现良好，非人脸图像修复任务。5.4. 复杂性分析我们声称，与现有的基线相比，我们提出的方法具有较低的复杂性和良好的结果。我们提出的嵌套可变形多头注意力具有线性复杂性，因为我们类似于[51]那样跨通道应用注意力此外，现有的基于自注意的方法利用具有不同窗口大小的块的数量来捕获长期依赖性，这反过来增加了计算成本。在这里，在这种方法中，我们在NDMAL中提出了一个单独的块，因为它已经考虑了两个不同的特征图来找到相对的上下文信息。此外，嵌套的注意力有助于层更广泛地提取有效内容。此外，可变形附加地为其提供更大的感受野。这些点总共允许ws=8的单个块NDMAL提取用于图像修补的相关特征。根据可训练参数的数量、操作的数量（即，图1显示了千兆乘法累加运算（GMAC）和平均运行时间（秒/图像）。从图1和表2、3和4中可以清楚地看出，与现有基线相比，我们的方法具有较低的计算复杂度，具有良好的性能（图1的详细定量值在文档材料）。6. 结论本文提出了一种轻量级的基于Transformer层的人脸图像修复算法。为此，我们提出了一种嵌套的可变形多头注意层，该层能够从最大感受野中提取有效特征，并有效地捕获长期所提出的方法进行了定量和定性比较与现有的国家的最先进的方法的CelebA HQ和Places2数据集损坏使用NVIDIA掩模数据集的图像修复。为了验证可靠性，我们将所提出的方法与使用QD-IMD数据集的未知掩码损坏的CelebA HQ上的实验方法进行了比较。实验结果表明，该方法对人脸和非人脸图像的修复是有效的。6087引用[1] Coloma Ballester、Marcelo Bertalmio、Vicent Caselles、Guillermo Sapiro和Joan Verdera。通过矢量场和灰度级的联合插值来填充IEEE图像处理学报，10（8）：1200[2] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM事务处理图表，28（3）：24，2009.[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[4] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE ICCV会议记录中，第764[5] 丁丁，Sundaresh Ram和Jeffrey J Rodr 'ıguez。基于非局部纹理匹配和非线性滤波的图像修复 . IEEETransactions on Image Processing，28（4）：1705[6] 董巧乐，曹晨杰，傅彦伟。增量式Transformer结构增强了掩模位置编码的图像修复在IEEE CVPR会议录中，第11358-11368页[7] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在 IEEE CVPR 的Proceedings中，第12873-12883页[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。[9] 郭邪梵、杨红玉、帝煌。基于条件纹理和结构双重生成的图像修补。在IEEE ICCV会议录中，第14134-14143页[10] David Ha和Douglas Eck。草图的神经表征。arXiv预印本arXiv：1704.03477，2017。[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。[12] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（ToG），36（4）：1[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图

下载后可阅读完整内容，剩余1页未读，立即下载