OracleAttention：高保真人脸补全的U-Net结构

186 浏览量更新于2023-10-25 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7680学习Oracle Attention以实现高保真人脸补全周彤1丁长兴1林少文1王新潮2 陶大成31华南理工大学2史蒂文斯理工3UBTECH悉尼人工智能中心，计算机科学学院，工程学院，悉尼大学，达林顿，新南威尔士州2008年，澳大利亚201821011282@mail.scut.edu.cnchxding@scut.edu.cneeswlin@mail.scut.edu.cnxinchao. gmail.comdacheng. sydney.edu.au摘要由于涉及丰富而微妙的面部纹理，高保真面部完成是一项具有挑战性的任务。更复杂的是不同面部成分之间的相关性虽然最近的研究采用注意机制来学习面孔元素之间的上下文关系，但他们在很大程度上忽略了不准确的注意分数的灾难性影响;此外，他们没有对关键的面部部件给予足够的关注，而这些部件的完成结果在很大程度上决定了面部图像的真实性。因此，在本文中，我们设计了一个全面的框架，人脸完成的基础上的U-Net结构。具体而言，我们提出了一个双空间注意模块，以有效地学习多尺度下面部纹理之间的相关性;此外，我们还向注意力模块提供了一个oracle监督信号，以保证得到的注意力s核是合理的。此外，我们采取的面部组件的位置作为先验知识，并施加一个多尺度的这些地区，面部组件的保真度显着提高。在CelebA-HQ和Flickr-Faces-HQ两个高分辨率人脸数据集上的实验结果表明，该方法的识别性能明显优于现有方法。1. 介绍图像修复是指填充图像中丢失的像素，并期望恢复的图像在视觉上是真实的。这个过程不仅要求填充的纹理本身是有意义的，而且还寻求填充区域和上下文之间的语义一致性。图像修复广泛应用于照片修复、图像编辑、物体去除等领域.(a) PEN-Net（b）图1.使用中心蒙版（128×128）的图像（256×256）的面部完成结果。在每一行中从左到右：（a）The这一结果摘自PEN-Net的论文[34]。通过放大，我们可以观察到两只眼睛之间的颜色差异，以及鼻子和嘴巴区域的扭曲。(b)我们方法的结果。可以看出，我们的方法确实产生了高逼真度的人脸图像。人脸修复作为图像修复的一个分支，其核心是对人脸的缺失区域进行填充，是一项具有挑战性的工作。究其原因，主要有两个方面.首先，人脸包含丰富而微妙的纹理，这些纹理在人与人之间也有很大的差异，7681这意味着很难完美地恢复这些不同的面部纹理。其次，人脸各组成部分之间存在着密切的相关性，这使得图像的逼真度更容易受到人脸各组成部分之间语义一致性的影响。以最近的一项工作[34]为例，其生成的图像在面部结构上令人满意，但仍然存在面部成分和语义不一致的小伪影如图1所示，同一张脸上的两只眼睛颜色不同;此外，还可以观察到鼻子和嘴巴区域的小这些瑕疵对整体视觉效果的真实性有着实质性的影响最近，基于卷积神经网络（CNN）的方法已成为图像修复的主流方法[30，29，12，26，36]。为了生成视觉上真实的图像，现有方法通常采用非局部方案，该方案利用上下文关系来填充缺失的像素[32，21，39，24]。然而，由于缺乏对所获得的注意力核心的直接监督，所学习的关系不够可靠，这意味着这些方法可能生成失真的纹理。此外，网络已经提取了不同类型的结构信息，以作为辅助图像修复的先验知识;例如，分割图[25]，对象轮廓[28]，边缘[17]，面部标志[23]和面部解析[13]。虽然这些方法专注于结构信息的正确性，但它们也忽略了图像中关键区域上的纹理质量（例如，面部图像中的面部分量）。在本文中，我们提出了一个全面的框架来处理上述问题。受注意力模型[35，3]的最新进展的启发，我们提出了一种双空间注意力（DSA）模型，该模型包括前景自我注意力和前景-背景交叉注意力模块。为了捕获不同尺度的上下文信息，我们将其应用于网络中的多个层。与最近的著作[32，15]中介绍的注意力模型相比，DSA具有两个关键优势：第一，它效率更高，能捕捉到更全面的上下文信息;第二，我们施加一个预言监督信号，以确保DSA产生的注意力分数是合理的。在DSA的帮助下，我们的方法获得了语义一致的人脸补全结果，如图1所示。此外，我们还从地面实况图像中提取面部标志作为先验知识。我们不是施加约束来确保恢复的图像和地面实况图像之间的面部标志是一致的，而是使用面部标志来定位四个关键的面部组成部分：也就是说，两个眼睛，鼻子和嘴巴。随后，我们为每个恢复的面部成分训练四个鉴别器。通过在指定位置上进行对抗学习，我们的生成器更加关注每个关键面部组件的纹理因此，在本发明中，如图1所示，我们提出的方法可以生成视觉上更真实的纹理。由于所有的鉴别器在测试过程中被删除，我们的方法不会产生任何效率下降。我们在高分辨率人脸数据集上进行了大量实验定量和定性比较表明，我们提出的方法优于国家的最先进的方法大幅度。2. 相关工作2.1. 图像修复以前的图像修复方法可以分为两类：手工制作的方法和基于学习的方法。第一类中的方法尝试从未掩蔽区域复制类似的补丁以填充缺失区域[37，20，11，5]。Criminisi等人[2]建立了每个缺失补丁的优先级与周围结构的参考。当缺失的面片被更多的有效像素包围或更靠近边界区域时，该面片被赋予更高的优先级。这些方法可以恢复连续结构，因为它们优先考虑明确的结构区域;然而，在每个补丁上迭代以搜索最相似的补丁导致时间和存储成本的增加。因此，Barneset al. [1]提出了一种更快的方法，称为PatchMatch。该方法采用随机算法快速找到近似的最近邻匹配.然而，手工制作的方法无法处理复杂结构或大部分被遮挡的图像，因为只考虑低级特征。第二类方法[31，19，27]通常涉及在编码器-解码器结构中训练深度CNN以预测缺失区域的每个像素。Pathak等人[18]提出了将对抗学习应用于整个图像的上下文编码器。为了生成更逼真的细节，此外，Iizuka等人。[6]附加了一个额外的局部阴影，以改善遮罩区域的生成效果然而，这种方法依赖于后处理来减轻伪影。为了解决这个问题，Liuet al. [14]每次卷积仅使用有效像素，通过更新二进制掩码来指示生成的像素，以减轻伪影。由于复杂性和多样性，面部结构的类型，面部完成是其中一个更具有挑战性的图像修复任务。一般来说，这一领域的研究人员因此使用丰富的面部先验知识来帮助修复。例如，Li etal. [13]使用面部解析来提出语义解析损失。Song等人[23]训练了一个额外的网络来恢复面部标志和面部解析，然后将它们与掩蔽图像一起输入到训练面部完成网络。然而，这些方法的结果受到很大影响7682掩蔽图像···D1···真是假地面实况监督输出真是假D7跳过连接掩蔽图像的双重空间注意处理地面实况图像处理从地面实况特征学习的注意力地图基于掩蔽图像特征的注意力地图学习D1~D7多功能图2.我们模型的整体架构我们使用U-Net结构[14]作为骨干。该注意模块嵌入到第12、13和14层，分辨率分别为16×16、32×32和64×64我们将地面真实图像馈送到网络，这样我们就可以对DSA产生的注意力分数施加一个预言监督信号我们分别在掩蔽区域和四个面部组件中的每一个上部署鉴别器最好用彩色观看。先验知识提取网络的性能，可能会消耗大量的计算资源;此外，这些方法不能直接引导网络聚焦于关键面部成分的纹理。2.2. 注意机制为了保持上下文的一致性，Yuet al.[32]提出了一种由粗到细的网络，其中包含一个上下文注意力模块，该模块学习丢失和未掩蔽补丁之间的相关性。随后，一些方法直接使用具有上下文注意的由粗到细网络;例如，GConv [33]将PConv [14]提出的二进制掩码转换为可学习的软值作为门控机制，而Xiong等人。[28]使用对象轮廓作为先验知识来帮助恢复。另一方面，其他方法选择以不同的方式使用上下文注意。例如，Sagonget al. [21]设计了一种并行解码网络来代替由粗到细的结构，从而减少了参数的数量，而Zeng等.[34]提出了一种注意力转移网络，它利用从高层特征中学习到的注意力来重新描述低层特征。此外，CSA层[15]学习掩蔽区域内的补丁之间的相关性。综上所述，以前的基于注意力的方法学习长程相关性，以搜索相似的特征级补丁作为填充的参考。然而，学习的注意力是不够可靠的，因为注意力模块的参数缺乏直接的监督。3. 该算法所提出的方法的总体架构如图2所示。我们采用与[14]中相同的U-Net结构来构造基本生成器。在下文中，我们提供了我们提出的方法的细节。具体来说，我们介绍了建议DSA模块与Oracle监督信号，然后描述了部署的多个线程。最后，我们描述了用于指导训练过程的损失函数。3.1. 双重空间注意与监督我们将被遮蔽的区域作为前景，未被遮蔽的区域作为背景.当学习面部不同部位之间的关系时，我们考虑两个关键场景。首先，在恢复前景特征时，我们从背景中获得参考信息。例如，当左眼被掩蔽而右眼未被掩蔽时，我们从右眼获得特征以帮助恢复左眼。第二，当遮蔽区域较大时，我们考虑前景中不同部分之间的关系。例如，当两只眼睛都被遮盖时，我们确保恢复的眼睛具有相似的特征。受自我注意原理的启发[35，3]，我们提出了DSA模块，该模块包括前景自我注意和前景背景交叉注意模块，以解决上述两种情况。如图3所示，我们首先使用掩模将输入特征X分割为前景特征Xp和背景特征X p。7683E·IJ初始化为零的参数，并且表示矩阵乘法。对于前景自我注意模块，我们遵循与前景背景交叉注意模块相同的步骤，除了我们仅使用Xp 具体来说，我们使用′ ′三个卷积层以生成特征图V，K，′andQ.前景注意力矩阵可以用公式表示作为′ ′′exp Qi·KjEij= 0。Σ，（3）N′′n=1例′Qi·Kn日其中Eij表示i之间的相关度，前景自我注意模块′Q的特征向量′而jth′ ′K的特征向量，其中Q和K都是从Xp学习的。因此，输出可以是前景背景交叉注意模块图3.双空间注意（DSA）模块概述，包括两个并行分支。他们专注于学习前景-背景交叉注意和前景自我，如下配制’。′ TY=β Pad VE′TΣ+X，（4）注意，分别。最好用彩色观看其中β是初始化为零的训练参数，作为α。Fi-′最后，我们通过逐元素加法将Y和Y′Xb. Then we reshape Xp into N ×C and Xb into N′×C，然后采用卷积层来调整性能。并获得最终的细化特征图。其中N和N表示前景像素的数量s和X中的背景像素C表示通道的数量对于前景背景交叉注意模块，我们将Xp和Xb分别放入一维卷积层，生成两个新的特征映射Q和K.随后，我们在Q和K的转置之间进行矩阵乘法。然后我们应用softmax层来获得具有大小的注意力图′的N×N。我们写exp（Qi·Kj）监控信号注意力模块帮助网络选择参考特征，以提高填充质量.然而，如果学习到的注意力不够准确，网络可能会引用不合适的特征，导致填充质量较差。因此，确保学习注意力分数的准确性是提高填充质量的关键。然而，注意模块的参数与仅使用用于面部完成的监督信号的总面部完成网络一起被优化，这意味着注意模块的参数缺乏对面部完成的监督。Eij=N′n=1exp（Qi· Kn）、（1）直接限制。为了向公众发出直接的监督信号，其中E ij表示Q的第i个特征向量（从Xp学习）和K的第j个特征向量（从Xb学习）之间的相关度。同时，我们还将特征X b馈送到另一个1维卷积层中，以便生成一个新的特色五。接下来，我们执行一个矩阵乘法，注意力，我们提取从地面实况图像中学习到的注意力作为目标。更具体地说，除了将掩蔽图像作为输入之外，我们还在训练时将地面真实图像输入到网络中。通过使用相同的网络层，包括DSA，我们可以获得从在V的转置和atten的转置地面真值表示为Egt和E厄格特. 此外，al-矩阵，然后将其重塑回原始大小Xp（C×H×W）。以这种方式，原始前景特征最终被重建，同时考虑到与背景特征相关。最后，通过补零的方法将重建的特征扩展到原始特征图的大小，然后合并到原始特征图中通过softmax层接收1个注意力分数这意味着注意力图包括多个概率分布。因此，我们使用KL-发散距离来建立注意力的目标函数。KL发散损失公式如下：′特征图X经由逐元素求和运算，其可以被公式化如下：LKL=1N·NΣN ΣN′GT -是的IJΣlnEgt−lnEij.i =1 j=1（五）Y =α垫VTET+X，（2）1ΣN ΣN'gt.格图重塑N ×C注意力图转置重塑转置垫NY× C转置整形融合转置整形填充转置重塑转置N ×C注意力图.Σ7684其中，Pad表示零填充操作，α是训练+N·Ni=1j=1Eij·InEij −lnEij，7685iutgt其中，我们将平均KL-发散距离Egt 和E，以及E之间厄格特′和E.此外，从不同尺度层学到的注意力是相辅相成的。在高分辨率的特征图上，注意力反映了小尺度特征（如头发）之间的关系相反，低分辨率特征图上的注意力反映了大尺度特征之间的关系，例如面部结构的大范围方面。在考虑到计算效率和注意力学习之间的权衡之后，我们将 DSA模块嵌入到解码器的三层（即，层12、13和14）以辅助填充过程。需要注意的是，大规模的注意力代表了更大范围的结构信息，并且会影响后面的特征;因此，我们只在第12层上施加KL发散损失，以加强人脸结构的真实性，这也有利于后续的注意力学习。讨论与上下文注意力层[32]相比，我们的DSA使用矩阵乘法，而不是将背景块分割为卷积的内核，这显着提高了效率。此外，C-SA层[15]还学习前景补丁之间的关系。然而，它以迭代的方式计算两个前景块之间的相似性;这降低了填充速度，尤其是当遮蔽区域较大时。此外，无论是上下文注意还是CSA都不能确保学习注意分数的准确性，这导致了不令人满意的结果。3.2. 多媒体设计对抗性学习有助于通过训练生成器生成照片般真实的图像，并进行训练，直到达到纳什均衡。除了在整个图像上使用的全局搜索[18]之外，局部搜索还被设计为聚焦于掩蔽区域[6，13]的生成对于人脸补全任务，人脸组件的质量在很大程度上决定了整个人脸图像的真实性。然而，如果我们的目标是引导网络聚焦于小区域，则仅依靠全局和局部鉴别器是不够的为此，我们提出了用于增强面部细节，特别是面部组件的多分辨率，如图4所示。我们首先使用通过方法[10]提取的面部标志来标记左眼，右眼，鼻子和嘴巴的位置。我曾以四种不同的方式，图4.多功能扬声器概述G表示生成器。四个面部分量由地面实况图像的面部界标定位最好用彩色观看。局部剖分优化，它关注更详细的特征，也可以看作是局部剖分损失函数的加权优化。通过使用多重映射，生成器可以学习每个面部组件的更具体的特征，并进一步增强掩蔽区域内的细节。与利用先验知识的复杂方法不同，我们只使用面部标志来标记面部组件的位置，然后引导网络改进特定区域的细节。此外，由于鉴别器仅在训练过程中工作，因此添加多个鉴别器不会影响实现的效率。3.3. 损失函数为了有效地指导训练过程，设计损失函数以能够测量生成的图像与相应的地面实况之间的距离是至关重要的。因此，我们从不同方面采用多个损失函数，如下所述。给定原始地面真实图像Igt和随机生成的二进制掩码M1（对于孔为零），我们通过逐元素乘法产生训练图像Iin，并将输出Iout的生成区域表示为Igen。此外，为了裁剪面部组件，我们还产生左眼掩模、右眼掩模、鼻掩模和嘴掩模，它们由M2、. . .、M5。首先，我们使用输出和地面真值之间的L1距离作为重建损失LR来约束像素值。此外，我们建议增加对面部组件和掩蔽区域的惩罚。可以表示为用这些面具来裁剪四个面部组件。在训练过程中，我们将生成图像的每个面部成分和地面真实值输入到相应的判别器中，以判断它是真实的还是假的。此外，受¨¨¨Lr=？（1+¨Σ5i=1¨¨（1−M））（I−I）<$¨1、（6）全局和局部鉴别器的配置，我们进一步将掩蔽区域划分为四个相等的部分，没有重叠。这四个部分共享一个名为其中，n表示逐元素乘法，1表示所有值都设置为1的矩阵。给你，面部摄像头-分量和缺失区域比其他部分具有更大的权重左眼鉴别器右眼鉴别器作物G鼻子鉴别器口部鉴别器全局鉴别器局部鉴别器局部细分鉴别器7686我我我方法L1PSNRSSIMLPIPS [38]方法L1PSNRSSIMLPIPS [38][1]5.82%17.600.77860.2221PEN-Net [34]2.87%24.530.83690.1701美国[32]百分之一点八二24.580.89800.0977我们2.28%26.110.87180.1355PIC [39]1.81%25.310.90230.0897GConv [33]1.89%26.290.89960.0809我们百分之一点四六26.360.91070.0706表1.使用具有随机位置的掩模在相同测试集上的定量结果SSIM和PSNR值越高越好; L1误差和LPIPS越低越好。而面部组件的缺失部分被分配最大权重。其次，我们使用VGG-16 [22]引入感知损失Lp，该VGG-16由[38]预先训练以施加约束：Lp=（Iout）−（Igt）1+（Igen）−（Igt）1，（七）其中VGG是预训练的VGG-16的输出感知损失计算特征空间中Iout和Igen与地面真实值之间的L1距离。第三，我们采用PatchGAN [7]作为我们的网络结构，它将输入图像映射到一个矩阵，其中每个元素代表输入图像的一部分的真实性。这样，网络更加注重局部图像细节。此外，我们采用了一个改进的WGAN版本，带有梯度惩罚项[4]。每个节点的最终对抗损失函数如下：LDi=EIoutPg[Di（Ci（Iout））]表2.使用中心掩模对同一测试集进行定量比较SSIM和PSNR值越高越好; L1误差和LPIPS越低越好。4. 实验4.1. 实验设置数据集我们在两个高质量的人脸数据集上进行了大量的实验，包括CelebA-HQ [8]和Flickr-Faces-HQ [9];这些分别包含30，000和70，000张高质量人脸图像，大小为1024 ×一千零四我们从CelebA中随机挑选了2,000张图片HQ和来自Flickr-Faces-HQ的10，000人组成测试集我们将所有输入图像的大小调整为256×256。随机位置矩形掩模占13。原始图像的5%至25%;最大尺寸为128 × 128，最小尺寸为94 × 94。在训练过程中，我们使用RMSprop作为优化器，学习率为0.0001.在单个NVIDIA TITAN Xp（12 GB）上，我们在CelebA-HQ上训练模型四天，在Flickr-Faces- HQ上训练模型八天，批量大小为16。4.2. 与现有技术方法的比较我们进行定性和定量比较-使用多种方法，包括PatchMatch（PM）[1]，-EIgt数据[Di（Ci（Igt））]（八）上下文注意力（CA）[32]，PIC [39]，GConv [33]和+γEIP（D（C（I））2−1）2，PEN-Net [34].我们使用官方发布的CA、PIC和GConv接受了关于CelebA-HQ的培训，其中Di（i = 1，. - 是的- 是的，7）表示如图4所示的七个区分符之一。在此，Ci表示用于从对应区域获得对应区域图像，从采样的点对插值，实际数据分布Pdata和生成的分布Pg;γ表示计算梯度的操作，并且γ被设置为10。因此，发电机的对抗损失如下：Σ7LG= −EIout<$Pg[D i（C i（Iout））]。（九）i=1KL发散损失LKL如公式5所示，而细节在第3.1节中描述我们定义总损失函数如下，L=λrLr+λKLLKL+λpLp+λGLG，（10）其中我们根据经验设置四个权衡参数λr，λKL、λp和λG分别为10、2、1和1ˆI7687公平的比较我们在与[34]相同的CelebA-HQ测试集上与PEN-Net进行比较。由于PEN-Net只处理CelebA-HQ上的一个中心掩码，其大小为128×128，因此我们使用中心掩码单独与之进行比较。对于PIC，我们按照官方说明选择最好的多重结果。此外，我们分别为Flickr-Faces-HQ训练CA，PIC和GConv模型。Flickr-Faces-HQ上的结果见补充材料。为了集中评估不同模型的生成能力，我们将有效像素复制到所有模型的输出图像中进行比较。定量比较如表1和表2所示，我们使用不同的面膜对CelebA-HQ进行定量比较.我们选择常用的L1损失，峰值信噪比（PSNR）和结构相似性（SSIM）作为评价指标在像素空间。然而，如[32，16]中所述，这些经典度量对于图像修复任务不是最佳的;因此，我们进一步使用学习感知图像块相似性（LPIPS）[38]作为感知度量。根据这些指标，我们的方法7688(a) 投入（b）PM(c) CA(d) PIC(e) GConv(f) 我们的（g）GT图5.随机矩形掩模不同方法的视觉效果比较。比较了四种最先进的方法：[1]，[2]，[3]，[4]，[5]，[6]，[7]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]，[17]，[19]。最好放大观看，并注意面部组件的细节。补充材料中介绍了更多的定性结果。方法L1PSNRSSIMLPIPS时间成本美国[32]DSA百分之一点六四百分之一点四六25.5626.360.90570.91070.08990.070612.9ms6.4ms表3.CelebA-HQ的定量比较结果第一行是我们的模型的结果，该模型用CA模型代替DSA [32]。SSIM和PSNR值越高越好; L1误差和LPIPS越低我们比较了CA和DSA在U-Net的第14层上的每个图像的时间成本。(a) 输入(b) CA(c) DSA(d) GT不仅优于先前的最先进的图像内绘制方法，而且还实现了显著的改进。这是因为我们的方法侧重于学习面部结构的精确关系，提高面部组件的完成效果;相比之下，其他方法往往忽略面部结构的复杂性和多样性定性比较如图1和图5所示，我们在CelebA-HQ数据集上分别比较了使用中心掩码和随机掩码首先，手工制作的方法PM [1]无法恢复人脸的基本结构，因为它很难找到相似的背景补丁。其次， CA [32]， PIC[39]，GConv [33]和PEN-Net [34]采用注意力模块来学习用于修复的上下文信息。但是他们仍然会产生语义上不一致的结构或纹理，因为他们的学习注意力分数可能不合理。此外，这些方法可能在面部组件（诸如图5的第一行中的鼻子）上生成伪像或模糊效果。这是因为他们没有支付足够的-图6. CelebA-HQ的定性比较结果。在每一行中从左到右：（a）输入图像，（b）使用CA模块[32]替换DSA层的结果，（c）使用DSA模块的结果和（d）地面实况图像。最好放大观看。注意面部部件。最后，我们的方法产生了更清晰和更丰富的细节，特别是对于面部组件，这可以解释为多分辨率的效果。补充材料中介绍了更多的定性结果。4.3. 消融研究DSA模块的效果我们用上下文注意力（CA）模块[32]代替我们模型中的DSA模块进行比较。如表3和图6所示，使用DSA的这是因为DSA探索像素到像素的相关性，而不是块到块的相关性-7689（一）（b）第（1）款（c）第（1）款（d）其他事项（一）（b）第（1）款（c）第（1）款（d）其他事项输入全局+本地-D多维GT输入不包括每日生活津贴每日生活津贴GT监督监督图7. CelebA-HQ的定性比较结果。在每一行中从左到右：（a）输入图像，（b）使用全局和局部插值的结果，（c）使用多重插值的结果，以及（d）地面实况图像。最佳观看放大。方法PSNRSSIMLPIPS无监护26.230.90620.0726有监督的26.360.91070.0706表4.对CelebA-HQ的定量结果证明了DSA的监督效果。SSIM和PSNR值越高越好; LPIPS越低越好。在CA。因此，DSA可以采用小尺度特征作为修复的参考。此外，当DSA学习前景自我注意时，它保持前景区域中的上下文一致性。例如，由DSA生成的眼睛在结构和纹理上都是对称的，如图6所示。相比之下，由CA生成的眼睛可能彼此不一致。此外，D-SA也比CA更有效，因为后者采用更多的卷积运算[32]。CSA模块[15]也学习前景补丁之间的相关性，但其计算成本明显高于DSA。这是因为它采用了迭代处理策略，这意味着前景像素被逐个细化。在相同的GPU和实验设置下，DSA和CSA（我们的实现）在第14层上每个图像分别花费6.4 ms和31.3 ms如图7所示，视觉效果的比较表明，仅使用全局和局部纹理[13，6]不足以生成高保真的面部纹理。在局部细分算法和四个面部特征鉴别器的帮助下，生成的结果更加清晰，包含更丰富的纹理，尤其是面部特征。监督对注意力的影响如图8（b）所示，没有额外监督信号的DSA可能会在一些具有挑战性的情况下产生伪影。例如，在第一行中的女孩的脸颊上生成多余的头发。在第二行中，生成的眼睛接近于图8. CelebA-HQ的定性比较结果。在每一行中从左到右：（a）输入，（b）使用DSA模块但没有监督信号的结果，（c）使用DSA模块和监督信号的结果，以及（d）地面实况图像。黄色圆圈表示文物。最佳观看放大。由于蓝色背景的影响，此外，在头发和背景之间的边界上存在杂乱这些伪影是由不准确的注意力分数引起的，这会导致网络引用不适合修复的区域中的特征。如图8（c）所示，在施加oracle监督信号作为指导之后，注意力分数的准确性得到提高，并且相应地可以解决这些伪像或颜色差异。如表4所示，定量结果还证明网络受益于监督信号。5. 讨论与推广在本文中，我们提出了一个全面的模型，包括一个DSA模块与监督信号，和一个多层次的，并进一步验证了多个实验，以证明它优于传统的国家的最先进的方法。有监督的DSA模块帮助网络识别不同面部部分之间的相关性，而多个DSA模块迫使网络学习面部组件的特定特征。在补充材料中，我们进一步展示了结果-该方法适用于不规则模板和较高分辨率的人脸图像（1024 ×1024）。6. 确认丁长兴为通讯作者，获国家自然科学基金61702193和U1801262资助，广州市科技计划201804010272资助，广东省引进创新创业团队项目2017ZT07X183资助，中央高校基础研究基金2资助019JQ01。7690引用[1] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ToG，第28卷，第24页。ACM，2009年。[2] AntonioCriminisi，PatrickPe'rez，和KentaroToyama. 基于样本的图像补绘的区域填充和目标去除TIP，13（9）：1200[3] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR中，第3146-3154页[4] Ishaan Gulrajani ， Faruk Ahmed ， Martin Arjovsky ，Dumoulin，and Aaron C Courville.改进的瓦瑟斯坦甘斯训练。NeurIPS，第5767-5777页，2017年[5] 何开明和孙健。图像完成的补丁偏移量统计。在ECCV中，第16-29页。Springer，2012.[6] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics（ToG），36（4）：107，2017。[7] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AE-fros. 使用条件对抗网络的图像到图像翻译在CVPR中，第1125-1134页[8] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[9] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR中，第4401-4410页[10] 瓦希德·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒在CVPR，第1867-1874页[11] Jino Lee，Dong-Kyu Lee，and Rae-Hong Park.鲁棒的基于样本的修复算法，使用区域分割。TCE，58（2）：553[12] 李昂，齐建中，张瑞，和Ramamohanarao Ko- tagiri.增强的gan与语义解释的信息图像修复。InIJCNN，pages1IEEE，2019。[13] Yijun Li，Sifei Liu，Jimei Yang，and Ming-Hsuan Yang.创新型面部修复。在CVPR中，第3911-3919页[14] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。参见ECCV，第85-100页[15] Hongyu Liu，Bin Jiang，Yi Xiao，and Chao Yang.图像修复中的一致语义注意。在ICCV，2019年。[16] 伊万·莫洛代茨基赫米哈伊尔·埃罗费耶夫和德米特里·瓦托林一种基于感知动机的图像修复比较方法。arXiv预印本arXiv：1907.06296，2019。[17] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成式图像修补。arXiv预印本arX- iv：1901.00212，2019。[18] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在CVPR，第2536-2544页7691[19] Yurui Ren，Xiaoming Yu，Ruonan Zhang，Thomas HLi，Shan Liu，and Ge Li.结构回流：基于结构感知外观流的图像修复。在ICCV，第181-190页，2019年。[20] 蒂贾娜·鲁兹奇和亚历山德拉·皮兹·乌里卡。本文介绍了一种基于马尔可夫随机场模型的图像修补方法.TIP，24（1）：444[21] Min-cheol Sagong 、 Yong-goo Shin 、 Seung-wookKim、Seung Park和Sung-jea Ko。Pepsi：使用并行解码网络的快速图像修复。在CVPR中，第11360- 11368页[22] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。计算机科学，2014。[23] 宋林森，曹杰，宋林晓，胡一波，何冉。几何感知的面部完成和编辑。在AAAI，第2506-2513页[24] 宋宇航，杨超，林哲，刘晓峰，秦煌，李浩，C.- C.郭杰。基于上下文的图像修复：推断、匹配和翻译。在ECCV，2018年9月。[25] Yuhang Song，Chao Yang，Yeji Shen，Peng Wang，Qin Huang，and C-C Jay Kuo. SPG-net：Segmentationpredition and guidance network for image inpainting.在BMVC，第97页，2018年。[26] Yi Wang，Xin Tao，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.通过生成式多列卷积神经网络进行图像修复。在NeurIPS，第331-340页[27] Chaohao Xie ， Shaohui Liu ， Chao Li ， Ming-MingCheng，Wangmeng Zuo，Xiao Liu，Shilei Wen，andErrui Ding. 使用可学习的双向注意力地图进行图像修复在ICCV，第8858-8867页[28] 熊伟，余家辉，林哲，杨继梅，卢欣，康纳利·巴恩斯，罗杰波.前景感知图像修补。在CVPR中，第5840-5848页[29] 燕昭仪、李晓明、慕丽、左王梦、石光山。Shift-net：通过深度特征重排进行图像修复。在ECCV，第1-17页[30] Chao Yang，Xin Lu，Zer Lin，Eli Shechtman，OliverWang，and Hao Li.基于多尺度神经块合成的高分辨率图像修复。在CVPR中，第6721-6729页，2017年。[31] Raymond A Yeh ， Chen Chen ， Teck Yian Lim ，Alexander G Schwing，Mark Hasegawa-Johnson，andMinh N Do.语义图像修复与深生成模型。在CVPR中，第5485-5493页[32] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.具有上下文注意的生成式图像修复。在CVPR中，第5505-5514页[33] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S Huang.利用门控卷积进行自由形式图像修复。在CVPR，2019年。[34] Yanhong Zeng ， Jianlong Fu ， Hongyang Chao ， andBaining Guo.学习金字塔上下文编码器网络用于高质量图像修复。在CVPR中，第1486-1494页[35] Han Zhang，Ian Goodfellow，Dimitris Metaxas，andAugus- tus Odena.自我注意生成对抗网络。在ICML，第7354-7363页7692[36] Haoran Zhang ， Zhenzhen Hu ， Changzhi Luo ，Wangmeng Zuo，and Meng Wang.渐进式生成网络的语义图像修复。在ACM-MM中，第1939- 1947页。ACM，2018。[37] Hongying Zhang，Yuhong Jin，and Yadong Wu.通过快速和自适应的基于样本的图像修补来完成图像在ICCASM，第3卷，第V3-115页。IEEE，2010。[38] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在CVPR，第586-595页，2018年。[39] Chuxia Zheng，Tat-Jen Cham，and Jianfei Cai.多元形象的完成。在CVPR中，第1438-1447页

下载后可阅读完整内容，剩余1页未读，立即下载