没有合适的资源?快使用搜索试试~ 我知道了~
基于非退化键值对的高质量盲人脸恢复方案
17512RestoreFormer:基于非退化键值对的高质量盲人脸恢复王周霞1张嘉伟2陈润健1王文萍1罗萍1陈1香港大学,2商汤科技研究输入DFDNet [24]Wan等人[35]第三十五届[29]第二十九话PSFRGAN [5]美国[37]真实世界ECCV 20CVPR 20CVPR 20CVPR 21 CVPR 21我们的图1.比较国家的最先进的人脸恢复方法在一些退化的现实世界的图像。我们的RestoreFormer的恢复结果包含更多的纹理细节和完整的结构,使我们的结果更加自然和真实。摘要人脸盲恢复是指从未知的退化中恢复出高质量的人脸图像。由于人脸图像包含丰富的上下文信息,我们提出了一种方法,RestoreFormer,探索全空间注意力模型上下文信息,并超越现有的工作,使用本地运营商。与现有技术相比,RestoreFormer具有若干优点。首先,与以前的视觉转换器(ViTs)中的传统多头自注意不同,RestoreFormer包含多头交叉注意层,以学习损坏的查询和高质量的键值对之间的全空间交互。其次,ResotreFormer中的键值对是从面向重构的高质量字典中抽取的,该字典的元素富含专门针对人脸重构的高质量人脸特征,从而导致子* 本 研 究 获 香 港 大 学 基 金 资 助 , 基 金 编 号 为 27208720 及17212120。修复效果。第三,RestoreFormer在一个合成数据集和三个真实世界数据集上表现出先进的最先进的方法,并 产 生 具 有 更 好 视 觉 质 量 的 图 像 。 代 码 可 在https://github.com/wzhouxiff/RestoreFormer.git上获得。1. 介绍盲人脸恢复的目的是从一个受到降采样、模糊、噪声、压缩伪影等复杂多样的退化影响的退化人脸中恢复出高质量的人脸。由于退化在现实世界中是未知的,恢复是一项具有挑战性的任务。虽然有一些工作[3,18,39]倾向于仅基于退化人脸中的信息来恢复高质量人脸,但大多数现有工作都表明先验知识在盲人脸恢复中起着关键作用。这些先验包括几何先验[5,7,21,32,41,42,46],参考文献[10,24,26,27]和生成先验[14,29,35,37]。几何先验可以是地标[7,21],面部-17513图[5,32]或面部成分热图[41]。它们被认为有助于重建面部结构。然而,由于它们中的大多数是从损坏的脸估计,其性能受到损坏的输入的质量的限制。参考先验来自高质量样本[10,26,27]或面部成分词典[24]。然而,具有退化图像相同身份的高分辨率样本并不总是可访问的,并且现有的基于字典的方法仅考虑面部成分,例如,眼睛嘴巴和鼻子在盲人脸恢复中,也采用了封装在经过良好训练的高质量人脸生成器中的生成先验通过从生成器[14,29]的潜在空间中探索适当的潜在向量或将退化的人脸直接投影到潜在空间[35,37]中,它们的生成器可以生成具有真实性的高质量人脸。在这些基于先前的工作中,有两个信息来源:具有身份信息的退化面部和具有高质量面部细节的先验。融合这两种信息对于恢复真实、逼真的人脸具有重要意义大多数现有的技术只是通过级联将它们组合起来[10,26,27]。此外,存在工作[5,24,37]提出通过空间特征Transformer(SFT)[38]融合这两种信息。然而,SFT以像素方式融合信息,忽略了丰富的面部背景,并最终得到次优的恢复结果。因此,我们提出了一个RestoreFormer,其目的是探索全空间关注全局模型上下文信息,并最终根据其对应的高质量面部先验将来自退化面部的特征转换为另一个接近地面真实面部特征的与现有的ViTs作品[4,6,11,47]不同,这些作品倾向于实现具有多头自注意的全空间注意力,我们的RestoreFormer提出了多头交叉注意层。具体来说,它将损坏的面部特征作为查询,而它们的键值对来自高质量的面部先验。该方法通过全局和空间融合受损的人脸特征及其相应的高质量先验信息,可以同时恢复真实和逼真的人脸。此外,本文提出的高质量词典(HQ Dic- tionary)是一个面向重构的它是由矢量量化思想激励的高质量人脸生成网络从大量未降级人脸中学习的[30]。因此,它富含高质量的面部细节,可用于面部修复。与Li等人提出的以前的组件字典相比。[24],其元素是用离线方法从大量高质量人脸中生成的人脸组件的特征,我们的HQ字典有两个优点:(1)HQ Dictionary拥有丰富多样的细节,专门用于高质量的人脸重建,而使用离线面向人脸重建的模型(如VGG [33]) 生 成的 pri o r 可能不具备这种能力。(2)总部字典涉及面部的所有区域,而组件字典[24]仅提供眼睛、鼻子和嘴的先验,这限制了面部恢复的能力。最后,我们的主要贡献如下:我们提出了一个RestoreFormer来学习损坏的查询和高质量的键值对之间的全空间交互,它可以从退化的人脸中获得具有真实性和保真度的高质量人脸。我们在Restore- Former中学习一个新的HQ字典作为先验。其面向重构的特性在人脸恢复中起着至关重要的作用。大量的实验表明,我们的RestoreFormer在合成和真实世界数据集上的表现优于先进的最先进的方法,并且恢复具有更好视觉质量的人脸。2. 相关作品盲人脸恢复盲人脸恢复的目的是从复杂和未知的退化中恢复高质量的人脸。以前的工作已经表明,额外的先验在这项任务中起着关键作用,它们可以粗略地分为三种类型:几何先验[5,7,21,25,32,41,42,46],参考文献[10,24,26,27],和gen-迭代先验[14,29,35,37]。基于几何先验的方法倾向于使用地标热图[7,21]或面部分量热图[5,32]逐步恢复面部。由于这些几何先验主要是由低质量的人脸产生的,受损的人脸限制了恢复的性能。另一方面,基于引用的作品需要引用与降级的面孔具有相同的身份,这并不总是可访问的[10,26,27]。虽然Liet al. [24]通过收集由高质量面部组件特征组成的组件字典作为一般参考来消除这种约束,这些组件字典中的面部细节此外,一些工作倾向于利用封装在高质量的人脸生成模型中的生成先验来进行盲人脸恢复。他们通过使用昂贵的特定于目标的优化来探索潜在向量[29]或将退化的面部直接投影到潜在空间[35,37]来实现它。由于他们[29,35]在训练过程中没有考虑身份信息,他们的恢复缺乏保真度。虽然Wanget al. [37]通过空间特征Transformer层将它们的生成先验与退化人脸结合,局部结合方法忽略了人脸图像Vision TransformerTransformer是一种最初用于自然语言处理领域的深度神经网络[2,9,34]。由于其具有竞争力的表现能力,它开始被应用于计算机视觉任务,···17514∈∈∈NhC--联系我们例如识别[11]、检测[4,47]和分段[36]。低级视觉任务也从中受益[6,12,31,40,44,45]。Chen等人[6]利用了Transformer在大规模预训练中的优势,构建了一个覆盖多个图像处理任务的复杂模型,如去噪,去噪和超分辨率。Esser等人[12]应用Transformer通过预测它们的编码器的码本索引序列来生成高分辨率图像,这在可接受的计算资源内充分利用了Transformer的强代表能力。在[45]中,Zhuet al.采用Transformer,布吕德编号dQ K V多头注意力添加规范化前馈$#���′ƒ得到了人脸的整体结构,这有助于照片素描合成。3. 方法本节介绍了所提出的RestoreFormer,用于使用由面向重建的高质量先验组成的HQ字典从未知退化中恢复高质量面部。整个管道如图2(c)所示。首先部署编码器Ed以提取退化人脸Id的表示Zd,并且从HQ字典中获取其最近的高质量先验ZpD. 然后利用两个连续的变换器实现多头交叉注意(表示为MHCA)融合退化图像和先验的特征。最后,解码器Dd被应用于融合表示Zf′以恢复高质量的faceId。每个步骤的详细信息将在第第3.1条为了获得HQ字典D,我们结合了矢量量化的思想[30],并提出了一个高质量的人脸生成网络来从大量未降级的人脸中学习D。与以前的作品[24]相比,其组件字典是用离线识别模型VGG [33]提取的,D中的先验是面向重建的,可以为退化人脸的恢复提供丰富的面部细节面向重构的HQ字典的具体获取过程将在第二节中介绍. 3.2.3.1. RestoreFormer虽然人脸图像包含了丰富的全局上下文信息,如人脸图像的局部特征、人脸图像的局部特征、人脸图像的局部特征等.眼睛和牙齿,现有的技术[5,24,37]只适用于当地运营商的盲面修复。最近,提出了ViT(Vision Transformer)[34]来考虑图像中的上下文信息。然而,大多数基于ViT的方法[4,6,11,47]只考虑一个(a) MHSA(b)MHCA(c)RestoreFormer图2. RestoreFormer的框架。(a)MHSA是一种转换器,具有用于大多数先前ViT的多头自我注意力[4,6,11,47]。它的 查 询 、 键 和 值 来 自 降 级 的 信 息 Zd.(b)MHCA 是 一 种Transformer,在申报的RestoreFormer中使用多头交叉关注。该算法以Zd为查询,Zp为键值对,对退化信息Zd及其相应的高质量先验信息Zp进行空间融合. (c)是RestoreFormer的整个管道。首先部署编码器Ed以提取劣化面部Id的表示Zd,并且从HQ字典D获取其最近的高质量先验Zp。然后利用两个MHCA融合退化特征Zd和先验信息Zp。最后,解码器Dd被应用于融合表示Zf′以恢复高质量的faceId。 Resto r e Former的详细结构见补充材料。MHSA 如图2(a)所示,在大多数以前的ViT [4,6,11,47]中使用的MHSA倾向于全局参与来自Zd的内容RH′×W′×C(H′,W′为特征图的空间大小,C为通道数),它是由我们任务中的退化输入表示的。查询Q、键K和值V可以表示为:Q=ZdWq+bq,K=ZdWk+bk,V=ZdWv+bv,(一)其中Wq/k/vRC×C和bq/k/vRC是可学习的参数。为了获得更强大的表征,在Q,K和V上采用多头注意[34]。首先,Q,K和V被分成Nh块沿通道尺寸,以获得Q1,Q2,. - 是的- 是的 ,QNh,K1,K2,. -是的- 是的 ,KNh和V1,V2,. . .,VNh.对于每个块,它有Ch=通道。他们的注意力地图可以表示为:QiK信息来源,即退化的脸在我们的任务,通过多头自我注意(即MHSA),它可以-Zi= softmax(softmax)i)Vi,i = 1,2,. - 是的-是的,Nh(2)Ch不能直接应用于需要结合退化图像和原始图像信息而多头注意力的最终输出是concate,Zi的国家:或 因此,我们建议变压器与多头Zmh=浓度i=1,…Nh Z岛(三)交叉注意机制(MHCA),通过与MHSA的比较,详细介绍了基于MHCA的RestoreFormer。与[34]类似,Zmh被视为残差。在将总和发送到归一化层和前馈网络之前,将Zmh和Zd相加,顺序如下:Za= FFN(LN(Zmh+Zd)),(4)Q K V多头注意力添加规格化前馈…HQ字典编号编号(MHCMHC编号17515m=122||·||·L1其中LN是层归一化,FFN是由两个卷积层组成的前馈网络,并且Za是最终全局参与的特征图。MHCA。 与MHSA不同,MHCA的目标是将退化人脸及其先验信息进行局部融合,分别为人脸识别提供身份信息和高质量的人脸细节信息。因此,如图2(b)所示,我们的MHCA从退化的面部中获取特征Zd作为查询Q,而键K和值V来自其高质量的面部先验Zp∈RH′×W′×C:Q=ZdWq+bq,K=ZpWk+bk,V=ZpWv+bv,(五)根据Eq.2和Eq。3,MHCA中的Zmh为了生成具有更多面部细节的特征,在LN和FNN之前将Zmh加上Zp,以获得最终融合特征Zf:Zf= MHCA(Zd,Zp)= FFN(LN(Zmh+Zp)).(六)RestoreFormer。基于MHCA的拟议RestoreFormer的整个管道如图2(c)所示。首先,退化图像Id被发送到图像编码器Ed,其由12个残差块和5个平均池组成,以提取表示Zd。然后,我们从面向重构的HQ字典VGG…K-means…组件词典拉克EhDH拉克什矢量量化编号…HQ字典(a)组件词典(b)HQ字典图3. 比较一下以前的字典。(a)DFDNet [24]中提出的分量字典由VGG网络[33]离线生成,并使用K均值进行聚类。他们只考虑眼睛、鼻子和嘴巴。(b)本文中提出的HQ字典是通过结合矢量量化思想的高质量人脸生成网络学习的[30]。HQ字典中的高质量此外,HQ字典中的先验知识涉及所有面部区域。D={dm}M(dm∈ RC). D由M高质量组成面部先验和HQ字典的学习将在第二节中解释。3.2.通过从D中找到Zd中特征向量的最相似先验,我们得到先验Zp:此外,为了准确地匹配来自HQ字典的高质量先验,我们强制提取的特征Zd接近其选择的先验Zp。即:Z(i,j)=argmin<$Z(i,j)−d<$, (7)Lp=<$Zp− Zd<$。(十)pdm2dm∈D2严重的损失。 既然眼睛和嘴巴起着即时通讯的作用-其中,Z(i,j)和Z(i,j)指示在pdportant的作用在一个面的概述,我们也采取了一个不一样的,位置(i,j)分别为Zq和Zd。2是L2范数。给定Zp和Zd,应用两个连续的MHCA,我们可以得到细化的表示Zf′:Zf′=MHCA(Zd,MHCA(Zd,Zp)).(八)在眼和嘴的面部区域上的犯罪损失和特征风格损失,以进一步提高它们的恢复质量。在[37]之后,我们仅关注区域r∈ {左眼,右眼,嘴},并且损失函数被公式化为:Ldisc=[logDr(Rr(Ih))+logg(1−Dr(Rr(Id))],最后,y,Zf′被馈送到具有12个残差的解码器Dd中RL=千克(φ(R(I))−Gram(φ(R(I))<$2,块和5个最近邻上采样,以恢复高质量图像Id∈RH×W×3。花柱HRRD2(十一)学习为了训练RestoreFormer,我们的损失涉及几个方面,包括像素级,组件级和图像级。以下是详细讨论。像素级损失。 在像素级,我们采用两种广泛使用的损失进行人脸恢复:L1损失和感知损失[19,23]。它们表示为:其中,Rr()是ROI对齐[15],φ表示在区域R. Gram表示计算特征相关性以测量风格差异的Gram矩阵[13图像级损失。 该方法的目标是获得高真实度和保真度的人脸。因此,在图像级,我们采用对抗性损失来提高真实感,L=|我-我|; L=(I)−(I)2(九)175162D1D2[37]第37话:一个人的尊严,一个人的尊严。将其忠实度设置为:其中Ih是地面实况高质量图像; VGG是预训练的VGG-19 [33],并提取特征图Ladv =[logD(Ih)+log(1−D(Id))],(十二)从{conv1,. - 是的- 是的,conv5}。Lid=n(Ih)−η(Id)2,H每H17517m=02HQ字典D={d}m∈∈×(十八)∈关于我们2·2其中D是在人脸图像上训练的特征,η表示从经过良好训练的人脸识别ArcFace [8]模型中提取的身份特征。由于这两个损失使得Zp接近于从高质量的未退化图像Ih中提取的Zh,Zp包含了对人脸有益的人脸细节信息最后,利用上面提出的所有损失函数修复我们考虑D={dm}M,dm∈RC训练RestoreFormer的最终损失是:LRF=Ll1+λperLper+λpLp+λdiscLdisc+λstyleLstyle+λadvLadv+λidLid,(十三)在RestoreFormer除了字典的两个损失之外,L1损失、感知损失和对抗损失也被应用于最终重建结果Ih,以确保Zp具有足够的信息来恢复高质量图像Ih:其中λ是不同损失的加权因子。3.2. HQ字典在本小节中,我们介绍了L′l1=Ih−Ih1;L′per=(Ih)−(Ih)2L′adv=[logD(Ih)+log g(1−D(Ih))]。(十七)Mm=0前者,dm∈RC在还原中使用-注意到,由于Eq。14是不可微的,Zh的梯度简单地从Zp复制[30]。如图3所示,与[24]不同的是,从离线识别导向的特征提取器VGG [33]生成的字典,我们的目标是获得一个面向重建的高质量字典,可以为面部恢复提供更丰富的因此,我们部署了一个由矢量量化[30]激励的高质量人脸生成网络,以从大量未降级的人脸中学习高质量的字典D这个人脸生成网络的框架如图3(b)所示首先,使用编码器Eh来提取表示ZhRH′×W′×C来自高质量的降级图像IhRH×W×3。然后,我们不是直接用解码器Dh解码Z h,而是通过它们在D中的最近元素对Zh的特征向量进行反求,最终得到Zp∈RH′×W′×C:最终损失为:LDict=L′l1+λperL′per+λadvL′adv+λdL′d+λcL′c,其中λ′... 是加权因子。4. 实验和分析4.1. 数据集训练数据集。HQ字典是在FFHQ [20]数据集上训练的。它包含70000高品质的图像和所有的大小调整为512 512。由于所提出的RestoreFormer需要去噪图像和高质量图像对进行训练,因此我们通过[26,27,37]中提出的退化模型在FFHQ数据集上合成退化图像Z(i,j)=argmin<$Z(i,j)−dm<$2,(14)我 ={[(Ik)↓+n]} ↑.(十九)ph2dm∈Dd hσrδ JPEGqr其中Z(i,j)和Z(i,j)是p上的特征向量具体地,高质量图像Ih首先被模糊,ph高斯模糊核kσ,其sigma为σ。到时候位置(i,j)的Zp和Zh。 以Z_p为输入,解码器D_h可以重建出高质量的人脸I_p_hRH×W×3。注意到Eh和Dh的结构与Sec. 第3.1条学习D中的元素dm由均匀分布随机初始化。为了更新它们以捕获高质量的面部信息,我们采用字典学习算法,矢量量化(VQ)[30],将Zp向Zh移动:用比例因子r进行双线性下采样,并与具有sigmaδ的高斯白噪声nδ相加。最后,将采用具有质量因子q的JPEG压缩来生成最终的退化图像。并且将通过双线性上采样将其大小调整为与我们的网络的退化输入Id相同的Ih大小,类似于现有技术[26,27,37]。在本文中,σ,r,δ和q是从0随机抽样。分别为2:10、1:8、0:20和60:100。 测试数据集。我们在合成数据集上评估我们的方法:CelebA-Test和三个真实世界数据集:LFW-测试,CelebChild测试和WebPhoto-Test。CelebA测试L′d=sg[Zh] −Zp2(十五)由3000个图像组成,并且通过在CelebA的测试集上应用上述降级其中sg[ ]表示停止梯度操作。注意,由于Zp由D中的元素组成,根据等式14,D通过Zp更新。为了保持编码器Eh,字典D在相同的学习空间中,还采用了承诺损失[30]:L′c=<$Zh− sg[Zp]<$2。(十六)17518HQ图像[28]。对于LFW-Test,它由原始LFW [17]的验证分区中每个身份的第一个图像组成另外两个真实世界的数据集是由Wang等人收集的。[37]互联网具体来说,CelebChild-Test包含180张名人的儿童面孔,WebPhoto-Test包含407张现实生活中的面孔。17519××××方法LFW测试 CelebChild测试 WebPhoto-Test输入132.69 24.96 0.6624 0.4989 0.9308输入137.56144.42170.11DFDNet [24]52.92 24.10 0.6092 0.4478 0.7581PSFRGAN [5] 43.88 24.45 0.6308 0.4186 0.7163Wan等人[35]第三十五届70.21 23.00 0.6189 0.4778 0.8018[29]第二十九话67.75 21.61 0.6287 0.4657 1.2019GFP-GAN [37] 42.39 24.46 0.6684 0.3551 0.6034DFDNet [24]62.57111.55100.68PSFRGAN [5]53.92106.6184.98Wan等人[35]第三十五届73.19115.70100.40[29]第二十九话64.86102.7486.45GFP-GAN [37]49.96111.7887.35GT43.43∞100表1. CelebA测试的定量比较。我们的恢复-表2.三个真实世界数据集的FID定量比较。RestoreFormer是最好的。前者基于FID和IDD的性能更好,满足我们方法的实性和保同一性。在PSNR、SSIM和LPIPS上也得到了相当的结果。4.2. 实验设置和指标设置. 输入图像的大小为512 5123,Zd的大小为1616256. HQ字典包含M=1024个元素,每个元素的长度为256。批量大小为16,损失的加权因子表3. LFW-Test和WebPhoto-Test的用户研究结果。对于函数为λ每 =1时。0,λp=0。25,λ盘=1时。0,λstyle=我们的RestoreFormer被认为比法2000年,λadv= 0。8,λid= 1。5,λd= 1。0,且λc= 0。二十五在训练过程中,HQ Dictionary由Adam optimizer [22]训练,学习率在开始时设置为7e-5然后,在6e5次迭代之后,学习率衰减10。字典被训练直到8e5迭代。我们还使用Adam优化了RestoreFormer。由于Ed和RestoreFormer中的Dd由Eh和Dh初始化,用于字典学习,RestoreFormer的学习率设置为7e-6,并通过6e4迭代进行训练。指标. 我们的评价是基于真实性和恢复的面孔的逼真度。为了测量真实性,除了广泛使用的非参考指标FID [16]之外,我们还部署了用户研究,以从人类的角度进一步评估恢复结果的视觉性能。至于面部保真度,我们采用两个逐像素度量:PSNR和SSIM以及感知度量:LPIPS [43].由于身份识别是一种更直接和令人信服的方法来评估人脸的保真度,我们引入了一个身份距离(表示为IDD),它是通过测量从ArcFace [8]中提取的特征与角度的距离来实现的。4.3. 与最先进方法的为了验证我们提出的方法对盲人脸恢复的有效性,我们将其性能与几种最先进的人脸恢复方法进行了比较, 包括 DFDNet[24], PSFRGAN [5],Wan等人 。[35],PULSE [29],GFP-GAN [37]。这些方法涵盖了不同类型的先验,例如:参考(DFDNet)、几何先验(PS-FRGAN)和生成先验(Wan等人,PULSE和GFP-GAN)。合 成 数 据 集 。 我 们 首 先 将 我 们 的 RestoreFormer 与CelebA-Test上的其他方法进行比较。定量再-每种方法结果见表1。我们的Restore-Former在FID和IDD上有更好的性能,这表明它恢复的人脸更接近真实的人脸,同时与他们的地面真相有更相似的身份。它还具有关于逐像素和感知度量的可比结果:PSNR、SSIM和LPIPS,尽管它们已被证明与人类的主观评价不一致[1,23]。至于视觉结果,PULSE [29]可以生成图 4 中 的 视 觉 上 令 人 愉 快 的 结 果 。 然 而 , 与RestoreFormer相比,它不能保持人类的身份.尽管左眉毛和眼镜可以通过图4的第一行和第二行(蓝色框)中的DFD-Net [24]和GFP-GAN [37]检测到,但它们仅被部分重建。这可能是因为在融合退化信息和先验时仅考虑局部信息。在MHCA的帮助下,RestoreFormer可以 更 好 地 重 建 图 4 中 的 眉 毛 和 眼 镜 。 在 图 4 中 ,PSFGAN [5]也不能恢复眼镜。这是因为它的估计热图(PSFGAN [5]的右上角),从降级的输入,是不准确的。真实世界的数据集。我们还将RestoreFormer应用于三个真实世界的数据集:LFW-Test、CelebChild-Test和WebPhoto-Test用于评估所提出的方法的推广性。其定量结果见表。二、由于面向重构的HQ字典和强大的MHCA融合模块,我们的方法在所有三个基于FID的真实世界数据集上都表现得更好。图5中所示的三个真实世界数据集的视觉结果还表明,RestoreFormer还可以健壮地恢复具有更多细节、更少伪影的人脸,并保持方法FID↓PSNR↑SSIM↑LPIPS↓IDD↓方法RestoreFormerLFW测试WebPhoto-TestDFDNet [24] 15.41%/84.59%28.78%/71.22%PSFRGAN [5] 9.96%/90.04% 20.90%/79.10%GFP-GAN [37] 9.89%/90.11% 10.40%/89.60%17520输入DFDNet [24] PULSE [29],PSFRGAN [5]美国[37]图4. CelebA测试的定性比较。我们的RestoreFormer的结果具有更真实的概述,并包含更多眼睛,嘴巴和头发的细节。放大以获得更好的视图,并在补充材料。输入DFDNet [24] Wanet al.[29]第二十五话:一个人的世界美国[37]图5.三个真实世界数据集的定性比较:LFW-Test,CelebChild-Test和WebPhoto-Test(分别从上到下)。放大以获得更好的视图,并在补充材料。与现有艺术同时存在。与Wanet al的结果比较。[35]和PULSE [29],它们基于生成先验,而不考虑退化面部中的身份信息,来自Restore- Former的结果此外,由于RestoreFormer中的MHCA可以利用上下文信息,因此图5中第三行的眼睛看起来比[5,24,37]更令人愉快为了进一步评估视觉质量,我们招募了100名志愿者,对从LFW-Test和WebPhoto-Test中随机选择的200个样本进行用户研究(每个数据集提供100个样本)。我们在RestoreFormer和三种最新的最先进的方法之间进行成对比较:DFDNet [24],PSFRGAN [5]和GFP-GAN [37]。作为如表所示。3、我们的RestoreFormer比其他方法表现更好,百分比更高。4.4. 消融研究根据上述分析,RestoreFormer具有几个优点。首先,利用空间注意机制,利用人脸图像中丰富的上下文信息进行复原。此外,所提出的方法可以适当地利用身份信息从降级的脸和高质量的面部细节从先验。最后,RestoreFormer中使用的字典是面向重建的,而不是[24]中使用的面向重建的字典。上述因素将在以下小节中讨论,并且这些网络1通过与RestoreFormer完全相同的设置来训练。空间关注在这一小节中,不带和带注意力机制的Restore- Former的变体是相同的。表4中的exp1和exp2均仅使用降级1有关这些网络的详细结构,请参阅补充材料。17521(a) 输入(b)SFT(c)RestoreFormer(d)注意力图(e)注意力图(f)输入(g)降级+MHSA(h)先验+MHSA(i)RestoreFormer(j)GT图6.消融研究。(c)(a)是由RestoreFormer恢复的。(b)用SFT代替MHCA来验证面部上下文信息的有效性。(d)和(e)是RestoreFormer中左眼的两个注意力图。 (f)(j)是为了验证退化图像信息与先验信息融合的有效性。(g)和(h)使用自我注意力,即,MHSA,用于处理来自输入的降级信息或来自HQ字典的先验信息。而我们的RestoreFormer可以利用这两个信息源来恢复一个看起来比(g)更令人愉快的面部(i),并且比(h)更类似于地面真实(j)。更多详情请参见正文。网络中的图像。通过使用自注意和探索上下文信息,具有MHSA的exp2比直接使用从退化图像中提取的特征的exp1具有更低的FID和IDD当网络考虑来自表4中的exp 4和Restore- Former中的降级图像和字典先验两者的信息时,该结论也是有效的。 在exp4中,MHCA被RestoreFormer中的SFT取代,以本地融合信息。在不考虑全局上下文信息的情况下,左眼在图6(b)中看起来很奇怪。如图6(d)和(e)所示,左眼区域的多头注意力图这意味着具有MHCA的RestoreFormer利用来自双眼的信息来恢复左眼,并生成图6(c)中的视觉上更令人愉快的结果信息和Prior的信息。本小节分析了来自输入图像和来自HQ字典的先验的退化信息的影响。类似于使用自注意(MHSA)的现有ViT方法,所有查询、键和值都来自表4中的退化图像(exp2)或先验(exp3)的特征。实验结果表明,实验2在保持人脸身份方面具有更好的平均IDD得分,实验3在保持结果真实性方面具有更好的平均FID得分。通过利用RestoreFormer中的交叉注意(MHCA)融合这两个信息源,RestoreFormer在IDD和FID方面都优于exp2和exp3。至于视觉结果,图6( g ) 示 出 了 然 而 , 其 结 果 相 对 于 图 6 ( i ) 中 的RestoreFormer包含更少的尽管在图6(h)中“先验+MHSA”(exp3)中的细节通过融合退化图像和先验信息,RestoreFormer可以恢复具有更多真实细节的人脸,并保持图6(i)中所示的身份。根据图2(b)和Eq. 6,在RestoreFormer中的关注特征Zmh和先前Zp之间存在跳过连接。这是因为我们通过实验发现它比将Zmh与来自降级输入Zd的特征相加表现得更好,在表4中表示为exp5。重建导向vs. 以知识为导向。 到表4. CelebA测试消融研究的定量结果。‘degraded’“无”和“MHSA”意味着网络分别使用“降级”或“先验”信息,而不使用 或 使 用 自 注 意 机 制 。 ‘SFT’, ‘MHCA-D’ “MHCA-D” 和“MHCA-P”之间的区别与其他变体相比,与“MHCA-P”集成的拟议Restore- Former性能为了评估所提出的面向重建的HQ字典的有效性,我们用[24]中用于面部恢复的经过良好训练的VGG [33]替换编码器Ed和Eh,并在Restoreformer中得到面向重建的HQ字典当训练此Restoreformer时,编码器由VGG初始化并固定,类似于[24]。CelebA测试中的实验结果表明,该Restoreformer变体的平均FID和IDD为61.43和1.1401,比表4中的拟定变体差。这证明了面向重构的词典的有效性。5. 结论本文旨在使用Restore-Former进行盲人脸恢复,其探索了全空间注意力,特别地,高质量的键值对从面向重构的字典中采样,该字典的元素富含专门针对人脸重构的高质量人脸特征。在几个数据集上与最先进的方 法 进 行 了 广 泛 的 比 较 , 证 明 了 所 提 出 的RestoreFormer的优越性能。来源方法度量失效次数exp1exp2退化✓✓✓✓✓之前没有一✓MHSA✓SFTMHCA-DMHCA-PFID↓50.6847.39IDD↓0.64010.6284exp3exp4exp5我们✓✓✓✓✓✓✓✓45.8341.4742.00四十一点四十五0.76620.67020.5938零点五六五○17522引用[1] Yochai Blau 、 Roey Mechrez 、 Radu Timofte 、 TomerMichaeli和Lihi Zelnik-Manor。2018年PIRM感知图像超分辨率挑战赛在ECCVW,2018年。6[2] Tom B Brown,Benjamin Mann,Nick Ryder,MelanieSub biah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakan tan ,Pranav Shyam ,Girish Sastry ,AmandaAskell,et al.语言模型是很少机会的学习者。arXiv预印本arXiv:2005.14165,2020。2[3] Qingxing Cao,Liang Lin,Yukai Shi,Xiaodan Liang,and Guanbin Li.通过深度再强化学习的注意感知面孔幻觉。在CVPR,2017年。1[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。 二、三[5] Chaofeng Chen,Xiaoming Li,Lingbo Yang,XianhuiLin,Lei Zhang,and Kwan-Yee K Wong.渐进式语义感知风格变换的盲脸复原。在CVPR,2021年。一二三六七[6] Hanting Chen,Yunhe Wang,Tanyu Guo,Chang Xu,Yiping Deng,Zhenhua Liu,Siwei Ma,Chunjing Xu,Chao Xu , and Wen Gao. 预 训 练 的 图 像 处 理Transformer。在CVPR,2021年。二、三[7] Yu Chen,Ying Tai,Xiaoming Liu,Chunhua Shen,and Jian Yang. Fsrnet:端到端学习面部超分辨率与面部先验。在CVPR,2018年。一、二[8] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在CVPR,2019年。五、六[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。2[10] 伯克道根、古书航、拉杜·穆夫特。无面部标志点的示例引导的面部图像超分辨率在CVPRW,2019年。一、二[11] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。二、三[12] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。在CVPR,2021年。3[13] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR中,第2414-2423页,2016年。4[14] Jinjin Gu,Yujun Shen,and Bolei Zhou.图像处理采用多码gan先验.在CVPR,2020年。一、二[15] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。InICCV,2017. 4[16] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NIPS,2017年。6[17] Gary B Hua
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 批量文件重命名神器:HaoZipRename使用技巧
- 简洁注册登录界面设计与代码实现
- 掌握Python字符串处理与正则表达式技巧
- YOLOv5模块改进 - C3与RFAConv融合增强空间特征
- 基于EasyX的C语言打字小游戏开发教程
- 前端项目作业资源包:完整可复现的开发经验分享
- 三菱PLC与组态王实现加热炉温度智能控制
- 使用Go语言通过Consul实现Prometheus监控服务自动注册
- 深入解析Python进程与线程的并发机制
- 小波神经网络均衡算法:MATLAB仿真及信道模型对比
- PHP 8.3 中文版官方手册(CHM格式)
- SSM框架+Layuimini的酒店管理系统开发教程
- 基于SpringBoot和Vue的招聘平台完整设计与实现教程
- 移动商品推荐系统:APP设计与实现
- JAVA代码生成器:一站式后台系统快速搭建解决方案
- JSP驾校预约管理系统设计与SSM框架结合案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功