没有合适的资源?快使用搜索试试~ 我知道了~
4469基于单次样本的超分辨跨域人脸缩小培克克力1,2*,辛玉1,义阳11悉尼科技大学澳大利亚人工智能研究所2百度研究摘要传统的人脸超分辨率方法通常是对低分辨率图像进行预检测,与训练图像处于同一由于不同的照明条件和成像硬件,训练和测试图像之间的域间隙不可避免地发生在许多现实世界的场景。忽略这些域间隙将导致较差的面部超分辨率(FSR)性能。然而,如何将训练的FSR模型有效地转移到目标域尚未被研究。为了解决这个问题,我们开发了一个基于域感知金字塔的人脸超分辨率网络,命名为DAP-FSR网络。我们的DAP-FSR首次尝试通过仅利用一对高分辨率图像来从目标域源域培训在目标域上开发分辨率(HR)和LR范例。具体来说,我们的DAP-FSR首先使用其编码器提取输入LR脸的多尺度潜在表示。考虑到只有一个目标域的例子是可用的,我们建议增加目标域的数据,混合的潜在表示的目标域脸和源域的,然后饲料混合representations的解码器我们的DAP-FSR。解码器将生成类似于目标域图像风格的新的面部图像。生成的HR面反过来用于优化我们的解码器,以减少域间隙。通过迭代地更新潜在表示和我们的解码器,我们的DAP-FSR将适应于目标域,从而实现真实和高质量的上采样HR面部。在三个基准上的大量实验验证了我们的DAP-FSR的有效性和优越的性能相比,国家的最先进的方法。1. 介绍人脸超分辨率(Face Super-Resolution,FSR),又称 人 脸 Hallucination , 是 从 输 入 的 低 分 辨 率 ( LowResolution,LR)人脸图像中重建高分辨率(HighResolution,HR)人脸图像的一种方法。FSR为下游计算机视觉和机器学习任务提供关键信息,例如人脸检测[1],识别[31]和照片编辑[22,62,27]。由于生成对抗网络的进步[15],FSR近年来取得了巨大的成功[51,53,52,48,49]。*部分工作是在百度研究院图1. 传统的FSR方法取得了良好的性能在源数据集上,但由于域间隙,在目标数据集上容易失败我们所提出的方法有效地适应模型,利用只有一个镜头的例子。54、49、56、5、8、61]。以前的FSR方法通常假设训练和测试LR脸是从同一个域捕获的当测试LR脸类似于训练的,以前的作品实现真实的上采样HR脸。然而,在实际应用中,由于成像设备、照明条件等的不同,测试图像与训练图像之间不可避免地存在着域差。如图1的右上方所示,由于目标域(测试)和源域(训练)之间的大域间隙,先前的最先进的FSR方法不能真实地上采样HR。考虑到FSR模型将部署在不同的场景中,通过从相应的目标域收集大规模数据来重新训练每个部署的FSR模型是非常低效的。因此,仅使用几个样本,理想情况下是一个示例,来有效地更新FSR模型是非常可取的。在本文中,我们的目标是超分辨率LR面临的表现出明显的领域差距,只利用一杆样本从目标领域。我们将 此 任 务 命 名 为 One-Shot Domain Adaption for FaceSuper-Resolution ( OSDA-FSR ) 。 与 常 规 FSR 方 法[51,8,37]不同,自然会提出两个挑战:(i)如何设计本质上适合于高效自适应的FSR网络架构;以及(ii)如何探索一种FSR网络架构。OSDA-FSR(iii)迭代模型自适应未对齐LR图像HR图像一次性示例测试LR(i)随机抽样和风格混合(ii)增强的目标样式图像培训测试FSRDAP-FSR(Ours)以前的方法潜在先验下采样潜在先验4470这是因为简单地用一个示例微调FSR网络是无效的。为了解决这些挑战,我们提出了一种新的域感知金字塔的人脸超分辨率网络,即DAP-FSR网络。我们的DAP-FSR包含两个部分:域感知金字塔编码器和上采样解码器。我们的DAP-FSR编码器被设计成通过利用来自输入LR面部的多尺度特征来提取潜在表示考虑到LR面可能是未对齐的,我们提出了一个实例空间Transformer网络(ISTN)来对齐受[21]启发的LR面。以这种方式,我们通过将LR面对齐到规范视图中来促进潜在表示学习和受StyleGAN [23,24](图像生成网络)的强大架构的启发,我们构建了我们的上采样解码器。一旦我们获得潜在表示,我们就将这些表示馈送到我们的DAP-FSR解码器以产生高质量的HR面部图像。中解决超分辨率LR面的问题一个新的领域,而不需要大量的数据收集,我们提出了一个领域意识到潜在的混合和模型自适应算法(DAMMA)。简而言之,我们的DAMMA算法能够通过仅探索一次示例来使在源域上训练的模型适应目标域。如图1所示,当给出目标域示例时,DAP-FSR网络首先提取其潜在表示。然后,在给定的单次示例的监督下,我们学习一个软混合权重,将目标潜在表示与随机采样的源潜在表示混合。以这种方式,新生成的面部将类似于目标域面部,并且我们显著地增强了目标样式数据。通过用增强图像约束微调我们的解码器,我们的网络逐渐从源域适应到目标域。经过迭代更新软混合权重和适应我们的解码器,我们的DAP-FSR达到真实的目标域HR面临的。我们的主要贡献总结如下,• 我们提出了一种新的域感知的金字塔为基础的人脸超分辨率网络,命名为DAP-FSR网络,有效地上采样跨域LR人脸图像窥视在一次拍摄的目标领域的例子。• 我们提出了一个简单而有效的域感知的潜在混合和模型自适应算法(DAMMA),以适应我们的DAP-FSR的目标域。我们的DAMMA生成目标风格的脸,以适应DAP-FSR中的上采样解码器,充分利用一杆的例子。• 据我们所知,我们的方法是第一次尝试超分辨率跨域LR人脸图像,使我们的方法更实用。• 我们提出的DAP-FSR可以有效地适应目标区域,并且对未对齐的LR人脸也是鲁棒的。在三个构建的跨域人脸超分辨率基准上的实验验证了我们所提出的方法相比于最先进的方法的优越性能。2. 相关工作人脸超分辨率。人脸超分辨率(FSR),也称为人脸幻觉,旨在建立来自同一域的输入LR和输出HR人脸图像之间的强度关系传统的基于整体外观的方法首先利用参数化模型来表示人脸,然后构建LR和HR人脸之间的映射。一些代表性模型通过采用全局线性映射[45,29]或最优传输[25]来从LR中超分辨HR人脸然而,它们需要将输入LR图像与数据库中的规范姿势和HR面部对齐以共享相似的后来,基于局部的方法被提出来放松基于整体外观的方法的严格基于部分的面部半透明化算法[36,43,47]首先提取局部面部区域,然后分别对它们进行上采样。利用深度神经网络的强大特征表示,已经提出了基于深度学习的人脸超分辨率方法[65,51,52,50,59,65,18,8,37,60],并且取得了有希望的结果。几种方法利用先验知识,例如面部属性[49],解析图[8],面部标志[48,7,6]和身份[57,42],以提高上采样性能。然而,当LR面部从其他域(诸如不同的成像条件)捕获时,现有方法可能无法超分辨它们。此外,当新的域数据不是大量可用时,将难以用这样有限数量的样本重新训练FSR网络在本文中,我们首次尝试以数据高效的方式解决这一具有挑战性的情况。为了克服对大规模训练数据的需求并提高模型在新领域的适应能力,已经广泛提出了许多工作[13,30,38,4,3,44,33,10,12,11]。早期的基于一次/几次拍摄的分类任务[9]从跨类别的共享外观先验构建生成模型以用于分类。最近,一个新的工作流集中在使用元学习来快速适应新的任务模型[13,39,41]。然而,这些一次/几次拍摄方法主要应用于不同的分类任务,而不考虑图像对之间的域间隙。Pix2Pix [20]和CycleGAN [64]已经被提出作为图像到图像的翻译网络。然而,由于目标域中的样本的稀缺性,这些方法可能不适合于在样本较少的情况下从源域转移到目标域。为了缓解深度神经网络的数据饥饿问题,一些作品采用共享[30]或部分共享[26]潜在空间假设来进行图像到图像的翻译任务,例如风格转换[19,30]和面部生成[46]。由于这些方法仅解决域间隙而不学习LR和HR图像之间的映射,因此它们不适合于面部超幻觉。4471Const噪声AdainConv 3x3自适应潜伏期编码Adain4x4上采样Conv 3x3自适应潜伏编码AdainConv 3x3Adain8x8儿(b)解码器自适应潜伏期编码自适应潜伏期编码(c)实例空间Transformer网络(ISTN)尺度注意网格生成器采样器LR)}i--LR,我i=1HRResBlockResBlockResBlockResBlock(d)自适应潜在编码(ALE)图2.我们的DAP-FSR架构的图示。(a)编码器网络。来自不同空间分辨率的特征图被上采样并连接为多尺度金字塔上下文。每个自适应潜在编码(ALE)模块动态地参与多尺度上下文以生成潜在表示wi。(b)解码器网络,其中基于潜在表示生成HR图像。(c)实例空间Transformer网络(ISTN)学习样式不变的仿射变换矩阵以调整未对齐的LR图像。(d)详细的自适应潜在编码模块,其中学习通道方式的特征注意力以自适应地捕获输入图像的多尺度信息。3. 任务定义:基于单次的FSR场景 因此,我们的目的是只使用几个例子,传统的人脸超分辨率(FSR)方法的目标是例如, K个LR-HR对Dt={(I tt KHRi=1,以实现-为了学习面部超分辨率模型M,该模型M生成有效地调整预训练模型M。 不损失高分辨率超分辨人脸图像I∈RH×W一般性,我们专注于最具挑战性的情况下从低分辨率的ILR∈Rh×wSr,具体如下:K= 1. 换句话说,我们将利用一次性示例来最小化域间隙,然后使I SR=M(I LR)。(一)FSR任务的目标是使重构图像ISR最佳地恢复其对应的高分辨率版本IHR。在常规的面部超分辨率设置[29 ,36 ,51]中,FSR 模型M 在来自相同源域的(ILR,IHR)对上训练和然而,如图1所示,当LR图像来自另一个目标域时,预训练模型M可能不能很好地推广到新的域数据,并且超分辨率HR图像的质量将严重下降。受以前的域自适应工作[40]的启发,我们将我们的任务制定为面向超分辨率的单次域自适应(OSDA-FSR)。通常,OSDA- FSR可分为两个阶段,采购阶段和部署阶段。在采购阶段,在具有NsHR和LR图像对 的 大 规 模 源 数 据 集 上 训 练 FSR 模 型 , 表 示 为Ds={(Iss)i}Ns。在目标域LR面对。4. 该方法概况. OSDA-FSR任务的总体目标是通过充分利用给定的单次示例将模型从训练的源域转移到目标域。为了实现这一目标,我们的方法的关键思想是通过丰富目标样式样本而不仅仅是给定的一次性样本来使模型适应目标域我们提出了一种基于域感知金字塔的人脸超分辨率(DAP-FSR)网络,以将输入LR图像超分辨率为输出HR图像,如图2所示。我们的DAP-FSR首先获得的语义潜在表示从一个未对齐的LR人脸图像的编码器网络,然后生成高品质的HR图像从这些潜在表示的上采样解码器网络。给定目标域中的LR图像,我们的DAP-FSR网络首先提取潜在表示。然而,由于存在大的畴隙,潜在的代表-在这个阶段,将采用图像重建物镜优化模型参数。然而,在部署阶段,训练的模型可能在目标域中遇到未知的数据分布偏移在这种情况下,深度模型可能无法在不知道关于新域的任何信息的情况下超分辨目标域中的LR面虽然收集数据和重新训练网络可以解决这个问题,但当在许多不同的现实世界目标域LR图像的位置可能不位于人身上1倍的源域,从而导致较差的上采样结果。为了解决这个问题,我们建议将目标单次示例的潜在表示投影到源域中最接近的一个。然后,我们合成的随机图像共享类似的风格与目标域混合随机采样的源和提取的目标域的潜在表示。这些生成的样本将反过来用于优化我们的upsam-广播平均池conv 1x1Conv5Conv4上采样转换1x1上采样转换1x1C上采样Conv3conv 1x1多尺度上下文ISTNISTNConv2ISTNConv1FC平均池Conv 5x5乙状Conv 7x7实例规范FC平均池,我4472LR,我WZ∈∈ W←W··N← −LHR← −Lm{}∈ DD网络以这种方式,潜在表示流形将逐渐转移到目标域,并且即使只有一个样本,我们也可以超分辨目标域LR图像。4.1. 基于域感知金字塔的FSR解码器和潜在空间的选择。由于先进的网络架构,StyleGAN [23,24]获得了现象级的高分辨率和照片般逼真的图像。最近的工作[37]还证明了采用预先训练的StyleGAN的可能性,可以从给定的LR输入中找到HR面部。更重要的是,解耦编码器和解码器的训练将允许我们实现更大的放大因子,同时更少地受到GPU存储器的限制。因此,我们选择StyleGAN架构作为DAP-FSR中的上采样解码器。以前的工作[37]表明,StyleGAN中的多层离散潜空间+比归一化高斯分布空间更能代表图像。此外,StyleGAN中的逐层对应的AdaIN模块也可以方便地实现当我们将我们训练的上采样解码器适配到目标域时,告诉我们转移特定于域的特性。因此,为了充分利用StyleGAN的能力,我们采用wRl×dw作为我们的潜在表示来更好地编码LR图像,其中l是层数,dw是潜在表示维度。潜在表征学习。与PLUSE [37]不同,它优化了潜在表示w+通过最小化上采样HR图像的下采样版本与输入图像之间的逐像素重构损失,我们引入编码器来提取输入LR面部的这样做使我们能够解决未对齐的LR面,并通过微调我们的上-下方向来处理域间隙。采样解码器,而PLUSE不能像其解码器那样处理域间隙和面未对准(即,预训练的StyleGAN)是固定的,并且在迭代期间仅更新w回想一下,在StyleGAN中,每个潜在表示控制一定级别的图像细节。因此,我们的编码器的目标是从增强的多尺度上下文特征自适应地预测潜在表示为了实现这一目标,我们开发了一个自适应潜在编码(ALE)模块,能够在不同的尺度上自适应地生成上采样解码器的潜在表示在这里,我们使用ResNet50作为我们的编码器来提取conv3,conv4,conv5和平均池层的多尺度特征表示为C3、C4、C5、Cglobal,如图2所示。然后,每个ALE通过关注多尺度特征adap来生成用于解码器的多尺度潜在表示活泼地然后,将潜在表示馈送到我们的上采样解码器以用于面部超分辨率。对未对齐的LR面鲁棒。先前的面部半透明化方法[32,36,37]通常假设LR面部预先精确对准。然而,这样的假设在实际应用场景中几乎不成立。受工作[53,61]的启发,我们估计LR图像的变换并通过空间变换网络(STN)[21]将其扭曲到规范位置。因此,我们的网络算法一:领域感知的潜在混合和模型自适应输入:在源数据集s的初始化DAP-FSR模型M=(E,G),单次样本It tt,初始化潜在代码混合权重α0,G中的AdaIN参数φ,学习速率ξ,η输出:适应模型Mφ*1 while不收敛2通过流形保持投影生成wt,(2);3采样一批源潜码:ws=μw+σwε,ε(0,1);4初始化潜码混合权重:αα0;5,其中i= 1,2,3,…,n是否6通过等式更新混合权重(7):ααξα(α);7生成混合潜在代码w,通过当量(6);8通过等式更新模型参数(五):φ φ ηreturn();9端部10端部11 返回最终模型权重φ为φ*;对于具有平面内旋转、平移和缩放变化的未对齐LR面是鲁棒的空间变换层的详细架构在图2(c)中示出。更重要的是,与之前使用STNs的FSR模型[53,61]不同,我们在计算实例空间Transformer网络(ISTN)模块中这使我们能够获得风格不变的特征图。因此,即使当提供目标域LR面时,我们的Ijums层仍然能够将它们对齐到右上位置,潜在地促进了以下的主适应过程。因此,我们的解码器可以专注于超分辨高质量HR面部,同时保留潜在表示不受未对齐的输入LR面部的影响流形保持编码。 以前的工作[63]表明,可以将任意图像(即使不是人脸图像)反转为风格潜空间+。然而,这种推导出的潜在代码不与由G()事先学习的语义知识对齐,并且失去了通用的图像编辑能力。在我们的OSDA-FSR任务中,当源域和目标域之间存在域间隙时,情况会变得更糟。为了克服这些缺点,我们显式地将编码器E()的输出约束在G的特征空间中。特别是,而不是直接预测的风格潜码,我们预测的偏移规模w.r.t. G的潜在表示的均值μw和方差σw。具体来说,我们的DAP-FSR模型将LR图像的编码表示映射到解码器的潜在表示w,如下所示:4473L∈LLtm我我我M所生成的图像Im从It继承目标域风格。混合程序定义为:wm=(1−αi)wt+αiws,(6)图3.与基于风格转移的方法ASM [35](左)相比,仅给定一次目标域样本(ExtendedYaleB),我们的方法(右)有效地从源域(CelebA)生成真实的w=µw+E(ILR)σw,(2)其中μw和σw在编码器训练过程中是固定的。因此,使用Eq.因此,根据等式(2),我们可以明确地将由我们的编码器输出的潜在表示约束为位于我们的解码器G的潜在表示空间W+中。网络优化。 我们的编码器E使用两个损失来训练。我们采用逐像素重建损失mse来强制重建的HR图像接近其HR地面实况IHR。其中aRl是用于混合潜在表示的逐层软权重。以这种方式,我们有效地扩大了目标域的例子从给定的一杆样本的数量由G(wm)。在图3中,与基于样式转移的方法(即,ASM [35]),我们的方法能够生成更自然的风格一致的图像,同时保留身份。学习软混合权重。 当混合随机采样的ws和目标样本wt的潜在表示时,我们通过应用特征方面的强度一致性损失c来保留图像内容信息,并且通过采用风格相似性损失s来强制传递域信息。这里,我们学习一个软权重α来混合源域和目标域的潜在代码,而不是手动选择某个层,优化过程公式为,L(α)=Lc+Ls,(7)L mse=I HR− G(w))2。(三)SLc=F(G(w))−F(G(w))2,(8)t m此外,我们还引入了感知损失来强制执行Ls=µ(F(I)−µ(F(G(w)2+(九)特征方面的相似性,L感知=F(IHR)−F(G(w))2,(4)其中F表示感知特征提取器。在我们的实验中,我们以相等的权重从VGG-19中的relu 11、relu 21、relu 31、relu 41层在我们的最终目标中,我们还同等地对待图像强度相似性和特征相似性,并且目标被定义为,L(θ)=Lmse+L感知,(5)其中θ是我们网络的可训练参数。请注意,我们的上采样解码器和编码器是单独训练的,因此我们的解码器在训练编码器期间是固定的。4.2. 偷看一次成功的例子朝向目标域图像生成。利用DAP-FSR网络中的编码器设计,我们可以对给定的单次目标域HR图像进行编码,σ(F(I))− σ(F(G(w)其中μ和σ分别表示提取的特征的均值和方差,并且F是等式2中的相同感知提取器。(四)、约束自适应模型更新。在我们生成一批表现出相同目标域风格的随机图像之后,我们的下一步是使我们的模型适应目标域。最直接的方式是直接在我们生成的目标域相似样本上微调整个解码器G。然而,当训练样本的数量有限时,特别是在我们的情况下,对整个网络权重进行微调通常会导致过拟合,并且可能会潜在地破坏先前学习的知识。G.代替对整个解码器权重进行微调,我们将微调约束在解码器参数的子集上。具体来说,我们只调整AdaIN模块中的仿射变换通过限制可训练参数,我们的模型可以有效地适应目标域,同时保留语义知识,即,自然的面部结构。我们算法的整个流水线转化为潜在表示wtHR. 然而,仅使用一个-在算法1中示出。镜头样本不足以将我们的解码器转移到目标域,并且将导致过拟合问题。如[23]所述,StyleGAN的潜在代码控制不同风格层生成图像的粗、中、细属性。因此,我们也把潜在代码wt作为目标域面的可解释表示。而4474HR且,我们可以生成大量的特定于域的(即风格一致)的4.3. 训练和推理我们的培训过程包括两个主要阶段,采购阶段和开发阶段。在采购阶段,我们首先按照StyleGAN的协议训练我们的解码器G,然后仅通过等式(1)在源数据集上训练编码器模型E。(5)当固定G. 经过训练,我们的DAP-FSR能够超解析HRt.具体地,对于随机采样的潜在代码w,从LR面中提取面,放大因子高达×64。在从源域的潜在表示流形,我们以逐层方式将其与wt混合,使得在开发阶段,我们从目标域中窥视一次性样本,并使我们的模型适应目标我4475→×→→→表1.与最先进方法的比较。结果报告的三个基准作为源目标。‘Source only’ denotes ↑表示越高越好,↓表示越低越好。方法CelebA→ ExtendedYaleBLPIPS ↓FIQ ↑PSNR ↑SSIM↑LPIPSCelebA→↓FIQ↑MultiPIEPSNR ↑SSIM↑亩LPIPSltiPIE→↓FIQ↑扩展YaleBPSNR↑ SSIM↑源仅双三0的情况。520的情况。3119号。940的情况。460的情况。550的情况。27十七岁110的情况。390的情况。540的情况。31十七岁700的情况。43PUSLE [37][CVPR0的情况。400的情况。3820块180的情况。460的情况。460的情况。36十四岁630的情况。370的情况。420的情况。27十七岁020的情况。46[55][IJCV'20]0的情况。390的情况。32十七岁740的情况。450.380的情况。38十八岁000的情况。520的情况。470的情况。20十八岁670的情况。43CPGAN [61][CVPR0的情况。400的情况。28十七岁030的情况。470的情况。400的情况。31十八岁610的情况。520的情况。450的情况。24十八岁800的情况。44DAP-FSR(我们的)0.380.4120.390.490.380.4019.150.540.410.3419.280.46单触发PULSE+ASM [35][NeurIPS0的情况。440的情况。3220块470的情况。470的情况。490的情况。32十七岁870的情况。410的情况。440的情况。23十七岁890的情况。43MTDN+ASM0的情况。420的情况。2719号。010的情况。480的情况。440的情况。3319号。380的情况。530的情况。520的情况。2519号。110的情况。47CPGAN+ASM0的情况。490的情况。26十八岁420的情况。420的情况。490的情况。2919号。290的情况。550的情况。510的情况。2319号。190的情况。49DAP-FSR(我们的)0.360.4622.320.550.360.4421.000.610.390.4020.430.51域采用我们提出的算法1.在推理过程中,我们在整个目标数据集上测试了我们的自适应模型,并报告了超分辨率性能。请注意,我们只看到来自目标域的单次图像,并且在训练期间从未看到5. 实验在本节中,我们进行了大量的实验来评估我们的DAP-FSR框架。由于我们关注的是OSDA-FSR任务,因此我们主要与该场景中的最新技术进行比较。5.1. 数据集和评价方案基准。目前的FSR基准测试都是在同一个域中进行训练和测试,不支持跨域OSDA-FSR任务的设置因此,我们提出了三个基准来评估我们的DAP-FSR的性能,即,CelebA [34] Multi-PIE [16],CelebAExtendedYaleB [14]和Multi-PIE ExtendedYaleB。特别是,CelebA数据集包含大规模的野外人脸图像,Multi-PIE和ExtendedYaleB数据集包括在不同姿势和照明条件下捕获的室内人脸图像。我们选择10个不同的照明和姿态条件数据分裂的Multi-PIE和扩展-tendedYaleB,分别。在每个分割中用给定的样本评估自适应性能,然后在所有分割上对最终报告的性能进行平均。评估指标。我们报告了使用平均峰值信噪比(PSNR)、结构相似性评分(SSIM)的定量结果,遵循常见的FSR实践[53,61]。此外,我们还采用学习感知图像块相似性(LPIPS)[58]和面部图像质量(FIQ)[17]来评估超分辨率面部的质量和真实性。PSNR、SSIM、LPIPS度量在重建的HR图像I SR和地面实况HR图像I HR之间计算。 FIQ是用于面部质量评估的非参考度量,其仅在ISR上计算。5.2. 实现细节在我们的实验中,我们裁剪对齐的人脸并将其大小调整为128 × 128像素,以实现地面真实的HR图像。在现实世界的应用中,我们不假设输入LR面是完全对齐的。[55]后4476×我们将仿射变换(包括旋转、平移和缩放)应用于HR面部,然后将它们下采样为16 × 16像素作为我们的LR面部图像。我们使用作者提供的PULSE [37]、MTDN [55]和CP-GAN [61]代码为了比较公平,我们对所有方法采用相同的训练协议为了减轻感染-对于所选择的单次样本的存在,我们在每个任务中使用不同的随机选择的单次样本运行所提出的方法十次,并报告平均结果。5.3. 与最新技术水平的定性比较。我们首先在图4中的三个OSDA-FSR基准上与最先进的方法进行定性比较。CPGAN [61]和MTDN [55]可以很好地超分辨LR然而,这些方法没有考虑域间隙,并且缺乏有效的机制来解决来自新域的LR图像因此,他们的最终重建的HR图像从目标域LR面临遭受严重的文物。虽然收集大量目标域数据然后重新训练网络可以解决上述问题,但是这样做是耗时的,并且没有为OSDA-FSR提供数据高效的解决方案。PULSE [37]遍历高分辨率人脸图像流形,并搜索下采样版本接近给定LR图像的图像。虽然实现了逼真的图像,但是该方法需要输入LR图像被完美地预对准。当LR图像未对齐时,重建的HR图像被强制匹配LR面部的强度。这将导致面部身份的严重变化,如图4所示。此外,PULSE不考虑畴隙。由于源域和目标域之间的数据分布偏移,PULSE无法超分辨与目标域图像具有相同风格的HR面部。相比之下,如图4所示,我们的方法与其他竞争方法相比实现了卓越的性能虽然输入LR图像未对齐,但我们的DAP-FSR仍然产生接近其HR地面实况的视觉上吸引人的HR面部。值得注意的是,我们的上采样的脸也表现出风格的一致性,相对于给定的这证明了我们的方法的转移能力注意我们的方法是4477→ →→×图4.在OSDA-FSR设置下与CelebA ExtendedYaleB、CelebA MultiPIE和MultiPIE ExtendedYaleB基准测试的最新方法进行比较我们的方法实现了高质量,风格一致的HR面孔,也是强大的对未对齐的LR输入。实际上能够以高达64的放大因子超分辨LR面部,并且为了与现有技术的方法进行公平的比较,我们仅以与其他方法相同的分辨率示出HR面部据我们所知,我们的DAP-FSR网络是第一次尝试超分辨跨域LR图像只有一个目标域的例子,并取得了优异的超分辨率结果。为了进一步验证泛化能力,在图5中,我们示出了在真实世界无约束条件下野外[2]中的微小面部的FSR结果,其中地面真实HR不可用。这里,LR面部可能经历不同的姿势、模糊、噪声等。所有模型都是在CelebA源数据集上训练的,并且使用给定的一次性HR示例来适应目标区域。此外,在图6中,我们还对作为目标域的近红外(NIR)人脸图像[28]进行了跨域FSR实验。我们的DAP-FSR仍然优于其他竞争方法,证明了我们的方法的泛化能力定量比较。如表1所示,我们分别报告了三个OSDA-FSR基准测试的LPIPS、FIQ、PSNR和SSIM指标。我们提出的DAP-FSR显著优于现有的方法,特别是在感知驱动的度量上,即LPIPS和FIQ。这表明我们的超分辨目标主要HR面部不仅类似于他们的地面实况,而且是照片般逼真的。更重要的是,我们的DAP-FSR始终比其他方法在所有的基准测试中表现得更好。由于我们的专用网络设计,我们能够调整和上采样目标域Lr的脸,同时。特别是,DAP-FSR重建高质量的人脸图像,并优于第二代第二个最好的方法脉冲在未对齐的图像上的幅度为+43% ( 0.32→0 。 46 ) 在 FIQ 中 在 基 准CelebA→ExtendedYaleB上。为了解决域差距,一个简单的想法是用增强的FSR模型来微调源训练的FSR模型。4478×↑↓→图5.在真实世界无约束条件下,与野外[2]中最先进的微小面部方法进行比较图6.与近红外(NIR)传感器捕获的面部的最新方法的比较[28]。目标样本。因此,我们采用基于风格转移的方法ASM[35]来从一次性目标域样本中增加新的训练样本,然后微调FSR模型。 我们将这些组合命名为表1中的+ASM。如表1所示,应用风格转换不能完全建立源域和目标域之间的面部细节对应,从而导致性能下降。此外,得益于我们设计的一次性适应算法,我们将我们的网络有效地转移到目标域。因此,我们的定量结果优于MTDN+ASM和PULSE+ASM的结果。由于我们的编码器-解码器的设计,我们的方法也是更高效和有效的解码器相比,仅基于方法脉冲。经过训练后,我们的DAP-FSR以前馈方式对LR面部进行识别并运行150比PULSE更快,它提供了高的应用功率。在现实世界中是有可能的。5.4. 消融分析在 我 们 的 消 融 分 析 中 , 我 们 在 CelebAExtendedYaleB基准上进行所有实验。网络设计的有效性。我们在表2中分析了网络设计中每个组件的影响。与预测骨干末端的潜在表示的直接方法相比,我们的网络自适应地探索了丰富的多尺度特征(图A)。CNN对旋转敏感是一个长期存在的缺点。我们的多ISTN设计有效地处理了这个问题(配置B),因此对未对齐的LR图像是鲁棒的。我们还说明,这是至关重要的明确约束的预测的潜在表示的流形(配置C)。单次域适应的有效性。表2指示算法1中的每个组件对OSDA-FSR性能的影响。在我们的方法中,我们通过混合源和目标域面(配置D)之间的潜在表示来有效地丰富训练样本与不探索表2.在网络架构的不同配置(A、B、C)和自适应算法的不同配置(D、E、F)上的烧蚀。表示越高越好,表示越低越好。配置CelebA→ ExtendedYaleBLPIPS ↓FIQ ↑PSNR ↑SSIM↑基线网络0的情况。480的情况。28十七岁640的情况。44A +多尺度特征0的情况。460的情况。30十七岁820的情况。44B +多STN模块0的情况。430的情况。34十八岁410的情况。45C +预测偏移比例0的情况。380的情况。4120块390的情况。49D +风格混合示例0的情况。380的情况。4121岁970的情况。52E + 软拌重量0的情况。380的情况。42二十二岁100的情况。54F + 约束适应0的情况。360的情况。46二十二岁320的情况。55表3.一次性适应性增强策略的比较↑表示越高越好,↓表示越低越好。方法LPIPSCelebA→↓FIQ↑扩展YaleBPSNR↑SSIM↑直接微调0的情况。440的情况。3020块110的情况。45风格转换[19]0的情况。420的情况。3720块160的情况。46ASM [35]0的情况。400的情况。3820块710的情况。50DAP-FSR(我们的)0的情况。360的情况。46二十二岁320的情况。55对于单次样本(配置C),我们观察到配置D实现了更好的超分辨率性能。这意味着我们的方法充分利用了一次性目标样本来弥合域差距。通过引入软混合权重(Config E),进一步提高了超分辨率性能。这表明我们的软混合策略比在配置D中简单地替换源域图像和目标域图像之间的潜在表示的最后三个由于微调整个解码器网络可能导致过拟合并破坏学习的面部先验,因此我们约束优化空间并仅修改AdaIN参数以提高性能(配置F)。我们还比较了其他目标域增强方法,包括风格转移和ASM。具体而言,这些被用来扩大目标域的例子,然后我们约束微调我们的模型使用增强的数据。如表3所示,我们的方法显著地促进了模型适应目标域,从而实现更好的超分辨率性能。6. 结论在本文中,我们解决了一个更具挑战性和实用性的人脸超分辨率任务,其中训练和测试数据之间存在域差距。 为了解决这个问题,我们提出了一种新的基于域感知金字塔的人脸超分辨率网络(DAP-FSR),该网络能够通过仅利用一个目标域样本来有效地超分辨率来自目标域的未对齐的低分辨率人脸。我们的方法通过充分利用目标领域的给定样本以及我们设计的软4479混合策略来弥合领域差距,该策略显着增加了训练样本的数量。大量的实验表明,我们的方法是能够超分辨率的跨域LR面,并优于国家的最先进的方法显着。我们希望,我们的工作也将激励未来的低拍摄FSR任务的研究。致谢本工作部分由ARC支持DP200100938。4480引用[1] Yancheng Bai , Yongqiang Zhang , Mingli Ding , andBernard Ghanem.用生成式对抗网络在野外寻找微小的面孔 。在 IEEE计算 机视 觉和模 式识 别会议 论文 集(CVPR),2018年6月。1[2] Yancheng Bai , Yongqiang Zhang , Mingli Ding , andBernard Ghanem.用生成式对抗网络在野外寻找微小的面孔。在IEEE计算机视觉和模式识别会议论文集,第21七、八[3] Sagie Benaim和Lior Wolf。一次性无监督跨域翻译。神经信息处理系统,第2104-2114页,2018年。2[4] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第3722-3731页,2017年。2[5] Adrian Bulat和Georgios Tzimiropoulos超级粉丝:集成的面部标志定位和具有gans的任意姿势的真实世界低分辨率面部的超分辨率在IEEE计算机视觉和模式识别会议(CVPR)论文集,第109-117页1[6] Adrian Bulat和Georgios Tzimiropoulos超级粉丝:集成的面部标志定位和具有gans的任意姿势的真实世界低分辨率面部的超分辨率在IEEE计算机视觉和模式识别会议论文集,2018年6月。2[7] Adrian Bulat,Jing Yang,and Georgios Tzimiropoulos.要学习图像超分辨率,请首先使用gan学习如何进行图像降级。在欧洲计算机视觉会议(ECCV)的会议记录中,第185-200页,2018年。2[8] Yu Chen,Ying Tai,Xiaoming Liu,Chunhua Shen,and Jian Yang. Fsrnet:端到端学习面部超分辨率与面部先验。在IEEE计算机视觉和模式识别会议(CVPR)中,第2492-2501页一、二[9] 李飞飞,罗伯·费格斯,皮埃特罗·裴罗纳。对象类别的一 次 性 IEEE Transactions on Pattern Analysis andMachine Intelligence,28(4):594-611,2006。2[10] 风千羽,康国良,樊赫赫,杨毅。吸引或分散注意力:利用开集的边缘。在IEEE/CVF计算机视觉国际会议论文集,第7990-7999页,2019年。2[11] 风千羽、吴宇、樊赫赫、严成刚、徐明亮、杨毅。用于新颖对象字幕的级联修订网络IEEE Transactions onCircuits and Systems for Video Technology,30(10):3413-3421,2020。2[12] Qianyu Feng,Zongxin Yang,Peike Li,Yunchao Wei,and Yi Yan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功