没有合适的资源?快使用搜索试试~ 我知道了~
独立因素解离的跨光谱人脸幻觉
79300通过解离独立因素进行跨光谱人脸幻觉0段博研究员 1 � 付超友博士 1 , 2 � 李毅博士 1 , 2 宋兴光博士 3 何然博士 1 , 2 †01 中国科学院自动化研究所国家实验室、中国科学院大学、华为技术有限公司中央媒体技术研究所0dby96@163.com, {chaoyou.fu, rhe}@nlpr.ia.ac.cn, yi.li@cripac.ia.ac.cn, songxingguang@huawei.com0摘要0跨传感器间的差距是异构人脸识别(HFR)中引起许多研究兴趣的挑战之一。尽管最近的方法尝试使用深度生成网络填补差距,但大多数方法都受到不同人脸模态之间不可避免的不对齐的困扰。不同于成像传感器,不对齐主要是由于与光谱无关的面部几何变化。本文提出了一种姿态对齐的跨光谱幻觉(PACH)方法,以解离独立因素并在各个阶段处理它们。在第一阶段,设计了一个无监督人脸对齐(UFA)模块,以生成方式对齐近红外(NIR)图像的面部形状与可见光(VIS)图像的面部形状,其中有效地利用了UV图作为形状指导。因此,第二阶段的任务变为具有对齐配对数据的光谱转换。我们开发了一个纹理先验合成(TPS)模块,以实现肤色控制,并比现有方法生成更逼真的可见光图像。在三个具有挑战性的近红外-可见光数据集上的实验证实了我们的方法在生成视觉吸引力图像和在HFR中实现最先进性能方面的有效性。01. 引言0在现实世界的系统中,相机中有多个成像传感器。例如,近红外(NIR)传感器在低光条件下工作良好,广泛应用于夜视设备和监控摄像头。然而,可见光(VIS)图像更容易捕捉,因此成为最常见的类型。不同的传感器导致人脸外观的变化,这给在不同光照条件下精确匹配人脸图像带来了巨大挑战。0� 相等贡献 † 通讯作者0图1.PACH的合成结果(第2行,256×256分辨率)。近红外图像(第1行)和可见光图像(第3行)之间存在明显的面部形状偏差。PACH解离了跨光谱幻觉中的独立因素,并从近红外输入生成逼真的可见光图像。0光谱。在计算机视觉中,使用近红外图像进行人脸识别是一项重要任务[22]。然而,在大多数人脸识别场景中,唯一可用的是可见光图像。与可见光人脸数据集相比,缺乏大规模的近红外人脸数据集以进行有效的模型学习。因此,有效利用近红外和可见光图像来提升高频率人脸识别具有重要意义。在过去的几十年中,已经付出了许多努力来进行高频率人脸识别。这些方法可以分为三类[30]。第一类旨在学习不同领域中人脸的域不变特征[20]。第二类将近红外和可见光图像投影到一个公共子空间中[31]。人脸合成(或幻觉)已经成为另一个流行趋势[26],尤其是近年来。它通常将近红外图像转换为可见光图像,同时保持人脸的身份,然后在合成的可见光图像上评估识别模型以减小领域差距。然而,基于图像合成的方法仍然存在挑战。一个主要挑战来自于不对齐。配对的近红外和可见光图像(com-79310图2. PACH的示意图。我们的方法有两个阶段,每个阶段都有各自的任务。第一阶段(无监督人脸对齐,UFA)学习将I N的面部形状与配对的I V 的面部形状对齐,以UV图的指导为基础。第二阶段(纹理先验合成,TPS)根据纹理先验T将对齐的I ′′ N转换为可见光图像。0在训练集中,同一身份的NIR和VIS图像(来自同一身份)通常不完全对齐。原因是NIR和VIS图像通常在不同的场景中捕获,涉及成像距离或环境。我们在图1中展示了一些NIR-VIS配对样本,以及我们合成的VIS结果。然而,大多数现有的图像合成方法需要对齐的配对数据来训练一个合适的模型。当面对不对齐的数据(这在现实中更常见)时,它们往往会产生令人不满意的结果。此外,合成图像的分辨率通常不超过128×128。尽管[32]提出通过学习从扭曲图像中的注意力来引导生成来解决不对齐问题,但他们的结果具有相似的肤色,违反了现实中的变化并且缺乏逼真的纹理。此外,他们的网络也非常复杂,数据预处理也很复杂。0在本文中,我们提出了一种简单而有效的解决方案来解决交叉光谱人脸幻觉中的不对齐问题,即姿态对齐的交叉光谱幻觉(PACH)。示意图如图2所示。在幻觉过程中,包含人脸对齐和光谱转换的步骤是相互独立的。PACH将这些因素分离开来,并在各自的阶段中解决每个因素。在第一阶段,我们设计了一个无监督的人脸对齐(UFA)模块,用于调整输入NIR图像的面部形状。UFA遵循重建输入图像的无监督原则进行训练。受[12]的启发,UFA能够自然地分离NIR图像的身份和面部形状。在第二阶段,UFA已经训练良好并保持不变。输入NIR图像的UV映射被替换为配对的VIS图像的UV映射。通过这种方式,UFA合成了一个与配对的VIS图像对齐的新的NIR图像。UFA生成的对齐配对数据简化了交叉光谱幻觉的任务。0幻觉。为了解决面部纹理问题,我们开发了一个纹理先验合成(TPS)模块,能够控制肤色并产生逼真的结果。我们在CASIA NIR-VIS2.0数据集[19]上训练我们的模型,并在包括CASIA NIR-VIS2.0、Oulu-CASIA NIR-VIS [1]和BUAA-VisNir[9]在内的三个数据集上进行评估。广泛的实验结果表明,我们的方法不仅生成高质量的图像,还提高了HFR的性能。总之,我们的主要贡献如下:01.本文提出了一种新颖的解决方案来处理交叉光谱人脸幻觉中的数据不对齐问题,即姿态对齐的交叉光谱幻觉(PACH)。由于面部形状和光谱是两个独立的因素,我们建议将这些因素分离并在不同的阶段中使用相对较简单的网络解决。02.PACH有两个阶段,每个阶段都专注于特定的因素。在第一阶段,我们引入了一个无监督的人脸对齐(UFA)模块,根据UV映射的指导调整面部形状,从而产生对齐的配对近红外-可见光数据。第二阶段包含一个纹理先验合成(TPS)模块,实现肤色控制并为HFR生成逼真的可见光图像。03. 在CASIA NIR-VIS 2.0、Oulu-CASIANIR-VIS和BUAA-VisNir数据集上进行的广泛实验表明,我们的方法在可视化和识别方面均达到了最先进的性能。跨数据集实验证明了我们方法的泛化能力。02. 相关工作0近年来,异构人脸识别(HFR)得到了广泛研究。现有方法可以分为两类:�+ β.(1)79320将数据分为三个类别:域不变特征表示、公共子空间学习和图像合成。特征表示方法试图学习在近红外和可见光领域中具有鲁棒性和不变性的人脸特征。传统方法基于手工制作的局部特征。[20]应用高斯差分(DoG)滤波和多尺度块局部二值模式(MB-LBP)来获取特征表示。[3]使用局部Radon二值模式(LRBP)作为在两种不同模态下具有鲁棒性的特征来处理素描-可见光识别任务。[4]将人脸图像编码为共同的编码模型,并使用判别匹配方法来匹配不同领域的图像。子空间学习方法学习将近红外和可见光图像投影到一个共同的子空间中。来自两个领域的同一主体的投影在子空间中是相似的。[31]应用规范相关分析(CCA)学习在线性判别分析(LDA)子空间中。[25]使用偏最小二乘(PLS)将来自不同模态的异构人脸映射到一个共同的子空间中。[11]提出了正则化判别光谱回归来在子空间中匹配异构人脸图像。[16]使用多视角判别分析(MvDA)方法来学习一个判别的共同子空间。图像合成方法旨在通过合成的方式减少域间差距,例如将近红外图像转换为可见光图像。[27]使用图像合成方法来解决素描-照片识别问题。[15]使用基于字典的方法学习近红外和可见光领域之间的映射函数。近年来,随着深度学习的兴起,有很多研究将深度学习应用于图像合成过程中。[18]使用卷积神经网络从图像块中合成可见光图像,然后应用低秩嵌入进一步改善结果。生成对抗网络(GAN)[5]在这个领域也被广泛使用。[26]提出使用基于Cycle-GAN[34]的框架进行人脸幻觉。[2]提出了一种从噪声中生成大量配对的近红外-可见光图像的双重生成方法,以减少HFR的域间差距。03. 方法0我们的方法的目标是将NIR图像转换为VIS图像,以便提高HFR的性能。然而,一方面,异构人脸数据集(如CASIA NIR-VIS2.0)中的配对NIR和VIS图像是不对齐的。如图3所示,配对的NIR和VIS图像之间的面部形状存在不可避免的差异。面部形状的不对齐使得从配对的NIR图像合成满意的VIS图像变得困难。另一方面,VIS图像的多样性使得NIR-VIS转换成为一个“一对多”的问题,即一个NIR对应多个VIS肤色,给逼真的图像合成带来挑战。为了解决上述问题,我们明确将跨光谱人脸增强分为两个独立的阶段:无监督人脸对齐(UFA)阶段和纹理先验合成(TPS)阶段。第一阶段旨在将NIR图像的面部形状与配对的VIS图像对齐,如图3所示。然后,我们可以获得对齐的配对NIR和VIS图像进行像素级监督训练。第二阶段采用纹理先验来促进逼真的图像合成。在下面的子节中,分别描述了上述两个阶段的详细信息。0NIRVIS对齐的NIR0图3. CASIA NIR-VIS2.0数据集上的人脸对齐示例。配对的NIR图像(第一行)和VIS图像(第三行)之间的面部形状存在较大差异。对齐后的NIR图像(第二行)与VIS图像具有相同的面部形状。0到多个VIS肤色,给逼真的人脸合成带来挑战。为了解决上述问题,我们明确将跨光谱人脸增强分为两个独立的阶段:无监督人脸对齐(UFA)阶段和纹理先验合成(TPS)阶段。第一阶段旨在将NIR图像的面部形状与配对的VIS图像对齐,如图3所示。然后,我们可以获得对齐的配对NIR和VIS图像进行像素级监督训练。第二阶段采用纹理先验来促进逼真的图像合成。在下面的子节中,分别描述了上述两个阶段的详细信息。03.1.无监督人脸对齐(UFA)0受最近提出的使用自适应实例归一化(AdaIN)[10]控制图像风格的工作[12,17,21,33]的启发,我们提出了一种使用AdaIN的无监督人脸对齐方法,以解耦面部形状和身份。AdaIN定义如下:0AdaIN(z, γ, β) = γ � z - u(z)0σ(z)0在先前的方法[12]中,z表示“内容”图像的特征。u(z)和σ(z)分别表示z的逐通道均值和标准差。γ和β是由网络学习得到的仿射参数。可以通过改变γ和β来切换图像的“风格”。在我们的方法中,我们将“内容”替换为面部形状,“风格”替换为身份。如图2所示,UFA中的生成器由形状编码器Encs、身份编码器Enci和多个79330AdaIN残差块AdaRes和解码器Dec。Enci用于提取输入NIR图像IN的与面部形状无关的身份特征。方程(1)中的仿射参数γ和β通过Enci(IN)获得。Encs是面部形状提取器。Encs的输入是IN的UV映射MN。如图2所示,IN的面部形状,如姿势和表情,可以通过MN很好地表示出来。AdaRes是使用AdaIN的残差块,用于解耦身份特征Enci(IN)和形状特征Encs(MN)。Dec将解耦特征AdaRes(Enci(IN),Encs(MN))解码到图像空间,输出NIR图像I'N。该阶段的损失函数如下所示。03.1.1 重构损失。0我们采用无监督的方式训练生成器,这体现在我们只对输入图像进行重构而没有其他监督。输出图像I'N =Dec(AdaRes(Enci(IN),Encs(MN)))需要与输入图像IN保持一致,这通过像素级的L1损失来实现:0Lrec = EI'N,IN[||I'N - IN||1]. (2)03.1.2 保持身份的损失。0受[8]的启发,重建的近红外图像I'N不仅在图像空间上应与真实图像IN保持一致,还应在潜在语义特征空间上保持一致。具体而言,引入了一个身份保持网络Dip,它是在MS-Celeb-1M数据集[6]上预训练的LightCNN[29],分别提取I'N和IN的身份特征。通过对Dip(I'N)和Dip(IN)之间的特征距离施加L2损失来约束:0L ip = E I ′ N,I N [ || D ip ( I ′ N ) - D ip ( I N ) || 2 ] . (3)03.1.3 对抗损失。0为了提高重建的近红外图像I'N的视觉质量,我们采用鉴别器D进行对抗学习[5],包括Enci,Encc,AdaRes和Dec:0L adv = E IN [log D ( IN )] + E I'N [log(1 - D ( I'N ))] . (4)03.1.4 总体损失。0第一阶段的总损失是重建损失Lrec、保持身份损失Lip和对抗损失Ladv的加权和:0L UFA = L rec + λ 1 L ip + λ 2 L adv . (5)0其中λ1和λ2是权衡参数。生成器包括Enci、Encs、AdaRes和Dec,鉴别器D交替训练,进行极小极大博弈[5]。03.2. 纹理先验合成(TPS)0在UFA的训练之后,通过改变UV映射,将输入的近红外图像IN的面部形状与目标可见光图像IV对齐。即用IV的UV映射MV替换IN的UV映射MN。通过这种方式,我们得到对齐的配对近红外-可见光训练图像I''N =Dec(AdaRes(Enci(IN),Encs(MV)))和IV。对应的过程如图2所示。对齐的近红外和可见光图像示例如图3所示。到目前为止,我们已经得到了对齐的配对训练数据I''N和IV,但是还面临其他难题。CASIA NIR-VIS2.0数据集中近红外图像的肤色是统一的,而可见光图像的肤色是多样的。多样的肤色使得跨光谱幻觉成为一个“一对多”的问题,这给传统的图像到图像翻译方法[13,34]带来了挑战,这些方法通常适用于“一对一”的问题。如图4所示,先前翻译方法的合成图像往往具有略微偏黄的平均肤色。显然,平均肤色使得合成图像不真实,可能进一步降低识别性能。与先前的图像翻译方法不同,我们引入了纹理先验来促进跨光谱幻觉。具体而言,从目标可见光图像IV中裁剪出表示肤色信息的纹理先验T。将纹理先验与对齐的近红外图像I''N连接起来,输入生成器G。通过这种方式,T为翻译提供了具体的指导,将其转化为一个更容易的“一对一”任务。本阶段的相应损失如下所示。03.2.1 像素损失。0借助对齐的配对近红外-可见光图像I''N和IV,可以通过像素级监督来训练翻译网络G。像素损失定义了合成图像I'V =G(I''N,T)与目标IV之间的差异,表示为:0L pix = E I ′′ N,T,I V [ | G ( I ′′ N,T ) - I V | ] . (6)03.2.2 总变差正则化。0为了减少训练过程中产生的伪影,采用了总变差正则化损失[14]。Ltv =C�c=1W,H�w,h=1|G(I′′N, T)w+1,h,c − G(I′′N, T)w,h,c|LTPS = Lpix + α1Ltv + α2Lip + α3Ladv.(8)LightCNN [29]96.8499.1094.68Pixel2Pixel [13]22.1339.2214.45CycleGAN [34]87.2393.9279.41PCFH [32]98.5099.5897.32PACH99.0099.6198.51VGG [24]62.1 ± 1.8871.0 ± 1.2539.7 ± 2.85TRIVET [23]95.7 ± 0.5298.1 ± 0.3191.0 ± 1.26LightCNN [29]96.7 ± 0.2398.5 ± 0.6494.8 ± 0.43IDR [7]97.3 ± 0.4398.9 ± 0.2995.7 ± 0.73ADFL [26]98.2 ± 0.3499.1 ± 0.1597.2 ± 0.48PCFH [32]98.8 ± 0.2699.6 ± 0.0897.7 ± 0.26PACH98.9 ± 0.1999.6 ± 0.1098.3 ± 0.2179340输入我们的PCFHCycleGANPixel2PixelADFL0图4. 在CASIA NIR-VIS2.0数据集上与其他最先进方法的可视化比较。比较方法的结果来自[32]。0放在合成图像上:0+ | G ( I ′′ N , T ) w,h +1 ,c − G ( I ′′ N , T ) w,h,c | . (7)其中 W 和 H分别表示图像的宽度和高度。此外,我们还在这个阶段采用了一个保持身份的损失和一个对抗性损失。这两个损失的形式与方程(3)和方程(4)相同,只是将 I N /I ′ N 替换为 I V /I ′V。03.2.3 总体损失0第二阶段的总损失是上述损失的加权和:0其中 α 1 , α 2 和 α 3 是权衡参数。0方法 Rank-1 VR@FAR=1% VR@FAR=0.1%0表1. 在CASIA NIR-VIS2.0数据集的第1折上与其他最先进方法的比较。0方法 Rank-1 VR@FAR=1% VR@FAR=0.1%0表2. 在CASIA NIR-VIS2.0数据集的第10折上与其他最先进方法的比较。04. 实验0在本节中,我们在三个广泛使用的NIR-VIS人脸数据集上评估了我们提出的方法与最先进的方法的性能,包括CASIANIR-VIS 2.0 [19]、Oulu-CASIA NIR-VIS[1]和BUAA-VisNir[9]数据集。我们首先介绍这三个数据集以及训练和测试协议。然后,描述实验细节。最后,报告定性和定量实验结果,以证明我们方法的有效性。04.1. 数据集和协议0CASIA NIR-VIS 2.0[19]是一个具有最多图像的挑战性NIR-VIS异构人脸数据集,包含725个主题的图像。每个主题的VIS图像数量从1到22不等,每个主题的NIR图像数量从5到50不等。该数据集中的人脸图像包含各种变化,如不同的表情、姿势、背景和光照条件。由于面部形状的差异,每个主题的配对NIR和VIS图像没有对齐。我们遵循[30]的协议将训练集和测试集分开,共有10个实验设置。对于每个设置,使用约360个主题的2500个VIS图像和6100个NIR图像作为训练集。探测集包含来自358个主题的6000多个NIR图像。画廊集包含来自相同主题的358个VIS图像。注意,我们还遵循[32]的生成协议。也就是说,定性和定量结果都是从第一折得到的。报告了Rank-1准确率、验证率(VR)@误接受率(FAR)=1%和VR@FAR=0.1%进行比较。KDSR [11]66.956.131.9TRIVET [23]92.267.933.6IDR [7]94.373.446.2ADFL [26]95.583.060.7LightCNN [29]96.792.465.1PCFH [32]10097.786.6KDSR [11]83.086.869.5TRIVET [23]93.993.080.9IDR [7]94.393.484.7ADFL [26]95.295.388.0LightCNN [29]96.595.486.7PCFH [32]98.497.992.479350方法 Rank-1 VR@FAR=1% VR@FAR=0.1%0PACH 100 97.9 88.20表3. 与Oulu-CASIA NIR-VIS数据集上其他最先进方法的比较。0方法 Rank-1 VR@FAR=1% VR@FAR=0.1%0PACH 98.6 98.0 93.50表4. 与BUAA-VisNir数据集上其他最先进方法的比较。0Oulu-CASIA NIR-VIS [ 1]是一个流行的异构人脸数据集,由80个身份和6个不同表情组成。在所有身份中,有30个身份来自CASIA,其余来自Oulu大学。按照[ 30]的协议,选择20个身份作为训练集,另外选择20个身份作为测试集。每个身份包含48个NIR图像和48个VIS图像。对于测试集,所有NIR图像用作探针,所有VIS图像用作库。按照[ 32 ]的方法,在CASIA NIR-VIS2.0数据集上训练模型,并在Oulu-CASIANIR-VIS数据集上进行测试。报告Rank-1准确率,VR@FAR = 1%和VR@FAR = 0.1%。BUAA-VisNir [ 9]是一个广泛使用的异构人脸识别数据集。它包含150个主题的9个NIR图像和9个VIS图像。选择50个主题作为训练集,共900个图像,剩余100个主题作为测试集,共1800个图像。根据[ 32 ]的方法,在CASIA NIR-VIS2.0数据集的第一折上训练模型,并在BUAA-VisNir数据集上进行测试。报告Rank-1准确率,VR@FAR =1%和VR@FAR = 0.1%。04.2. 实验细节0异构人脸数据集中的所有图像都对齐到144×144,并进行中心裁剪到128×128。此外,我们还对CASIA NIR-VIS2.0数据集上的256×256分辨率图像进行对齐和裁剪,以探索高分辨率人脸合成。在第一阶段,我们从VIS图像的面颊上裁剪一个15×15的补丁,然后将其调整大小为128×128作为纹理先验。根据此计算UV映射。0(a) Oulu-CASIA NIR-VIS0输入输出0(b) BUAA-VisNir0输入输出0(c) CUFS0输入输出0图5. 跨数据集实验的可视化结果。模型在CASIA NIR-VIS2.0数据集上训练。(a)在Oulu-CASIANIR-VIS数据集上的测试结果。(b)在BUAA-VisNir数据集上的测试结果。(c)在CUHK FaceSketch(CUFS)数据集上的测试结果[ 28 ]。0[ 35 ].使用Adam作为优化器,学习率固定为2e-4。批量大小设置为64。方程(5)中的两个权衡参数λ1和λ2设置为1。方程(8)中的权衡参数α1,α2和α3分别设置为1e-4,1和1。UFA中的网络架构基于[ 12],TPS中的生成器和鉴别器的网络架构基于[ 8]。请参考图2,相应地修改网络的输入和输出。04.3. 比较04.3.1 CASIA NIR-VIS 2.0数据集上的结果。0我们将我们的方法与其他基于GAN的方法进行了定性结果比较,包括Pixel2Pixel [ 13 ],CycleGAN [ 34 ],ADFL [ 26]和PCFH [ 32 ],在CASIA NIR-VIS2.0数据集的第1折上。其中,Pixel2Pixel和CycleGAN是众所周知的监督和无监督的图像到图像转换方法。ADFL和PCFH是两种最先进的跨光谱幻觉方法。可视化比较结果如图4所示。所有比较方法的结果都在图中呈现。79360图6.更改纹理先验的结果。左上角是输入的NIR图像。其余的VIS图像是在不同的纹理先验下合成的。对于每个合成的VIS图像,右下角是相应的纹理先验。0Pixel2Pixel和CycleGAN的结果来自[32]。在Pixel2Pixel和CycleGAN的合成结果中存在明显的伪影。此外,生成的VIS图像的面部形状与输入的NIR图像不完全一致。例如,CycleGAN的第二个合成的VIS图像的嘴巴形状与输入的NIR图像不同。Pixel2Pixel的第三个合成的VIS图像的面部大小小于输入的NIR图像。这些现象可能是由于不对齐的配对训练数据引起的。ADFL主要基于CycleGAN,导致与CycleGAN类似的视觉问题。PCFH提出了一种复杂的注意力变形来缓解不对齐问题,因此比Pixel2Pixel、CycleGAN和ADFL获得更好的结果。然而,合成图像与真实图像之间仍然存在巨大差距,主要体现在肤色上。黄色的肤色使结果不真实。显然,我们的方法优于所有其他方法。合成的VIS图像不仅保持了输入NIR图像的面部形状,还具有更逼真的纹理。我们将面部形状的一致性归功于第一阶段提出的面部对齐,将逼真的纹理归功于第二阶段引入的纹理先验。在表1中,我们报告了在CASIA NIR-VIS2.0数据集的1折上与Pixel2Piexl、CycleGAN、PCFH和基准方法LightCNN的定量比较结果。我们可以看到,我们的方法比在原始NIR图像上评估的基准方法LightCNN表现更好。Rank-1准确率、VR@FAR=1%和VR@FAR=0.1%分别提高了2.16%、0.51%和3.83%。与基准方法相比,我们的方法真正可以提升识别性能,通过将NIR图像转换为VIS图像的方式。相反,与基准方法LightCNN相比,其他基于GAN的方法,即Pixel2Pixel和CycleGAN,导致了更差的识别性能。0方法 Rank-1 VR@FAR=1% VR@FAR=0.1%0w/o UFA 35.76 43.53 21.36 w/o TPS 86.56 90.6481.670PACH 99.00 99.61 98.510表5. 在CASIA NIR-VIS2.0数据集的1折上进行的消融研究的定量结果。0降级可能是由于合成图像的质量较差,如图4所示。此外,我们还在CASIA NIR-VIS2.0数据集的更多折上进行了实验,结果列在表2中。除了LightCNN,比较的方法还包括VGG [24],TRIVET[23],IDR [7],ADFL [26]和PCFH[32]。我们的方法在所有识别指标上都取得了最好的结果。特别是,VR@FAR=0.1%从最先进的97.7%[32]提高到98.3%。04.3.2 Oulu-CASIA NIR-VIS数据集上的结果。0如第4.1节所述,我们的模型是在CAISA NIR-VIS2.0数据集的1折上进行训练,并在Oulu-CASIANIR-VIS数据集上进行测试。定性的跨数据集实验结果如图5(a)所示。输入的NIR图像是从Oulu-CASIANIR-VIS中随机选择的。我们可以观察到我们的方法在这样一个具有挑战性的跨数据集情况下仍然表现良好。与KDSR[11],TRIVET,IDR,ADFL,LighCNN和PCFH的定量比较结果列在表3中。显然,我们的方法在很大程度上优于其他方法。例如,与基准方法LightCNN相比,VR@FAR=0.1%从65.1%提高到88.2%。与最先进的方法PCFH相比,VR@FAR=0.1%提高了1.6%。由于PCFH在Rank-1准确率和VR@FAR=1%方面表现良好,因此在PCFH上取得改进是令人印象深刻的。04.3.3 BUAA-VisNir数据集上的结果。0在BUAA-VisNir数据集上进行的跨数据集实验结果如图5(b)所示。我们的方法获得了逼真的合成VIS图像,尽管该模型是在CAISA NIR-VIS2.0数据集上训练的。我们进一步将我们的方法与LightCNN、KDSR、TRIVET、IDR、ADFL和PCFH进行了定量比较。所有方法的结果都在表4中显示。与基线方法LightCNN相比,我们的方法在Rank-1准确率、VR@FAR=1%和VR@FAR=0.1%上分别提高了2.1%、2.6%和6.8%。此外,与PCFH相比,我们的方法在VA@FAR=0.1%上提高了1.1%,揭示了逼真纹理的重要性。79370输入 无UFA 无TPS 我们的方法0图7. 我们方法及其两个变体在CASIA NIR-VIS2.0数据集上的合成结果。第一列是输入的NIR图像,其余列分别是没有UFA的结果、没有TPS的结果和我们方法的结果。0对于Rank-1和VR@FAR=1%的改进较小,因为这些指标已经饱和。04.4. 实验分析0我们首先研究了我们提出的UFA和TPS的作用,为了更好地进行比较,报告了定性和定量结果。图7展示了我们方法与其两个变体之间的可视化比较。显然,我们的方法获得了最好的结果。没有UFA,合成的图像模糊,特别是面部边缘。例如,第一个合成的VIS图像的脸颊与输入的NIR图像不一致。这可能是由于未对齐的配对数据引起的。没有TPS,合成的图像看起来不真实。CASIA NIR-VIS2.0数据集中VIS图像的多样肤色给图像转换带来了巨大挑战。我们的纹理先验在训练过程中提供了肤色模拟机制,有助于合成逼真的面部纹理。此外,图6显示了在不同纹理先验下的合成结果。合成结果的肤色随着纹理先验的变化而变化,这证明了肤色的可控性。表5列出了我们方法及其变体的定量识别结果。我们可以看到,如果任何组件被删除,识别性能将大幅下降。0未使用,表明我们方法的每个组件都是有用的。特别是,当删除UFA时,识别性能显著下降。具体而言,当删除UFA时,Rank-1准确率、VR@FAR=1%和VR@FAR=0.1%分别降至35.76%、43.53%和21.36%。表5中的定量结果进一步证明了我们的UFA和TPS在有效的跨光谱人脸幻觉中的关键作用。此外,我们还进行了参数分析,考虑到存在几个权衡参数。正如第3节所述,我们方法的每个损失都是合理的,这也得到了我们的实验证实。具体而言,当λ1、λ2、α1、α2和α3分别设置为0时,CASIA NIR-VIS2.0数据集上的Rank-1准确率相应下降了14%、0.6%、0.5%、11%和3%。同时,我们的方法对这些权衡参数在较大范围内不敏感。对于最具影响力的身份保持损失,当将λ1从1设置为10时,Rank-1准确率仅变化了0.8%。鉴于我们的方法在跨数据集实验中表现良好,我们进一步在素描数据集CUHK Face Sketch (CUFS)[28]上测试了我们的方法。如图5(c)所示,尽管该模型仅在CASIA NIR-VIS2.0数据集上进行了训练,但我们观察到在这样一个素描数据集上取得了令人满意的结果。合成的细节,包括头发和面部纹理,都是照片般逼真的,这证明了我们方法的泛化能力。我们将继续在未来的工作中探索更多的应用。05. 结论0为了解决交叉光谱人脸幻觉中的不对齐问题,本文提出了将面部形状和光谱信息分离并分别处理的方法。第一阶段专注于面部形状。我们设计了一个无监督的面部对齐(UFA)模块,将近红外图像的面部形状与配对的可见光图像对齐。然后我们使用获得的对齐配对数据训练一个生成器,将近红外图像转换为可见光图像。第二阶段负责交叉光谱转换。为了提高合成结果的真实性,我们开发了一个纹理先验合成(TPS)模块,并生成具有不同肤色情况的可见光图像,已被证明有助于交叉光谱转换的性能。我们在三个具有挑战性的NIR-VIS数据集上进行了大量实验,并在视觉效果和定量比较方面取得了最先进的结果。0致谢0这项工作由北京自然科学基金(编号JQ18017)资助。[20] Shengcai Liao, Dong Yi, Zhen Lei, Rui Qin, and Stan Z.Li. Heterogeneous face recognition from local structures ofnormalized appearance. In ICB, 2009.[21] Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, TimoAila, Jaakko Lehtinen, and Jan Kautz. Few-shot unsuper-vised image-to-image translation. In ICCV, 2019.[22] Sifei Liu, Dong Yi, Zhen Lei, and Stan Z Li.Heteroge-neous face image matching using multi-scale features. InICB, 2012.[23] Xiaoxiang Liu, Lingxiao Song, Xiang Wu, and Tieniu Tan.Transferring deep representation for nir-vis heterogeneousface recognition. In ICB, 2016.[24] Omkar M Parkhi, Andrea Vedaldi, and Andrew Zisserman.Deep face recognition. In BMVC, 2015.[25] Abhishek Sharma and David W Jacobs. Bypassing synthesis:Pls for face recognition with pose, low-resolution and sketch.In ICCV, 2011.[26] Lingxiao Song, Man Zhang, Xiang Wu, and Ran He. Ad-versarial discriminative heterogeneous face recognition. InAAAI, 2018.[27] Xiaoou Tang and Xiaogang Wang. Face sketch synthesis andrecognition. In ICCV, 2003.[28] Xiaogang Wang and Xiaoou Tang. Face photo-sketch syn-thesis and recognition. TPAMI, 2008.[29] Xiang Wu, Ran He, Zhenan Sun, and Tieniu Tan. A light cnnfor deep face representation with noisy labels. TIFS, 2018.[30] Xiang Wu, Huaibo Huang, Vishal M Patel, Ran He, andZhenan Sun. Disentangled variational representation for het-erogeneous face recognition. In AAAI, 2019.[31] Dong Yi, Rong Liu, RuFeng Chu, Zhen Lei, and Stan Z Li.Face matching between near infrared and visible light im-ages. In ICB, 2007.[32] Junchi Yu, Jie Cao, Yi Li, Xiaofei Jia, and Ran He. Pose-preserving cross-spectral face hallucination. In IJCAI, 2019.[33] Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, andVictor Lempitsky. Few-shot adversarial learning of realis-tic neural talking head models. In ICCV, 2019.[34] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei AEfros.Unpaired image-to-image translation using cycle-consistent adversarial networks. In ICCV, 2017.[35] Xiangyu Zhu, Zhen Lei, Xiaoming Liu, Hailin Shi, andStan Z Li. Face alignment across large poses: A 3d solu-tion. In CVPR, 2016.79380参考文献0[1] Jie Chen, Dong Yi, Jimei Yang, Guoying Zhao, Stan Z Li,and Matti Pietikainen.从近红外到可见光图像的人脸合成的映射学习.在CVPR,2009年。[2] Chaoyou Fu,Xiang Wu,YiboHu,Huaibo Huang和RanHe。用于低样本异构人脸识别的双变分生成。在NeurIPS,2019年。[3] Hamed Kiani Galoogahi和TerenceSim。通过局部Radon二进制模式进行人脸素描识别:LRBP。在ICIP,2012年。[4] Dihong
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 掌握数学建模:层次分析法详细案例解析
- JSP项目实战:广告分类系统v2.0完整教程
- 如何在没有蓝牙的PC上启用并使用手机蓝牙
- SpringBoot与微信小程序打造游戏助手完整教程
- 高效管理短期借款的Excel明细表模板
- 兄弟1608/1618/1619系列复印机维修手册
- 深度学习模型Sora开源,革新随机噪声处理
- 控制率算法实现案例集:LQR、H无穷与神经网络.zip
- Java开发的HTML浏览器源码发布
- Android闹钟程序源码分析与实践指南
- H3C S12500R升级指南:兼容性、空间及版本过渡注意事项
- Android仿微信导航页开门效果实现教程
- 深度研究文本相似度:BERT、SentenceBERT、SimCSE模型分析
- Java开发的zip压缩包查看程序源码解析
- H3C S12500S系列升级指南及注意事项
- 全球海陆掩膜数据解析与应用
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功