没有合适的资源?快使用搜索试试~ 我知道了~
10043M2FPA:一个用于人脸姿态分析的李培培1、2、吴翔1、胡一波1、何冉1、2x、孙振安1、21 CRIPAC &NLPR&CEBSIT,CASIA2中国科学院大学邮箱:{peipei.li,yibo.hu}@cripac.ia.ac.cnalfredxiangwu@gmail.com,{rhe,znsun}@ nlpr.ia.ac.cn摘要在监控或移动场景中的人脸图像在俯仰角和偏航角方面具有较大的视点变化。这些共同发生的角度变化使得人脸识别具有挑战性。目前的公共人脸数据库主要考虑偏航变化的情况。本文提出了一种新的用于人脸姿态分析(M2 FPA)的大规模Multi-yaw Multi-pitch高质量数据库,包括人脸正面化、人脸旋转、人脸姿态估计和姿态不变人脸识别。它包含229个主题的397,544张图像,包括偏航、俯仰、属性、照明和附件。M2FPA是目前用于人脸姿态分析的最全面的多视角人脸数据库.此外,我们使用几种最先进的方法,包括DR-GAN[24] , TP-GAN[10] 和 CAPG-GAN[8] , 为M2FPA上的人脸正面化和姿态不变人脸识别提供了有效的基准我们相信,新的数据库和基准可以显着推进人脸姿态分析在现实世界中的应用。此外,一个简单而有效的解析引导的判别器被引入到捕获的局部一致性在GAN优化。在M2FPA和Multi-PIE上的大量定量和定性结果表明了该方法的优越性。人脸合成和人脸识别的基线结果从国家的最先进的方法证明了这个新的数据库所提供的挑战。1. 介绍随着深度学习的发展,人脸识别系统在一些流行的数据库上已经达到了99%的准确率[19,3,25][9,14]。然而,在一些现实世界的监控或移动场景中,所捕获的面部图像通常包含极端的视点变化,使得无法识别。通讯作者面部识别性能受到显著影响。近年来,人脸合成技术的巨大进步[8,10,30]推动了生成识别技术的发展。TP-GAN [10]和CAPG-GAN [8]执行面部正面化以提高大姿态下的识别准确性。DA-GAN [30]被提出来模拟轮廓人脸图像,促进姿势不变的人脸识别。然而,它们的性能往往取决于训练数据库中姿态变化的多样性.现有的具有姿态变化的人脸数据库可以分为两类。其中,LFW [9]、IJB-A [15]和VGGFace 2 [3]是从互联网上收集的,其姿态变化遵循长尾分布。此外,很明显,对于这些数据库,获得准确的姿态标签是困难的其他包括C-MU PIE [21]、CAS-PEAL-R1 [5]和CMUMulti-PIE [7],是在约束环境下跨精确姿态捕获的。这些数据库通常关注偏航角而不考虑俯仰角。然而,在监控或移动场景中捕获的面部图像通常同时具有大的偏航和俯仰变化。这种跨偏航角和俯仰角的人脸识别需要被广泛地评估,以确保识别系统的鲁棒性。因此,为研究人员提供一个多方位、多俯仰的高质量人脸数据库,用于人脸姿态分析,包括人脸额化、人脸旋转、人脸姿态估计和姿态不变人脸识别。针对这一问题,提出了一种多偏航多俯仰高质量的姿态分析数据库(M2与现有面部姿态分析数据库的比较总结在表1中。主要优势在于以下几个方面:(1)规模大。M2焦平面包括229个子焦平面、62个姿态、4个属性和7个光照,共397,544幅图像. (2)准确而多样的姿势。我们设计了一个采集系统,可以同时采集62个姿态,其中包括13个10044偏航角(范围从'90°到'90°)、5个俯仰角(范围从'30°到'45°)和44个偏航-俯仰角。(3) 高分辨率。所有图像均由SHL-200 WS(200万像素CMOS相机)拍摄,到高质量分辨率(1920?1080)。(4) 配饰我们使用五种类型的眼镜作为配件,以进一步增加我们的数据库与闭塞的多样性。据我们所知, M2FPA是最全面的多视角人脸数据库,它涵盖了偏航、俯仰、属性、照明和附件的变化。M2FPA将为研究人员提供人脸姿态分析新算法的开发和评估,包括人脸额化、人脸旋转、人脸姿态估计和姿态不变人脸识别。此外,为了在M2 FPA上为人脸额化和姿态不变人脸识别提供有效的基准,我们实现并评估了几种最先进的方法,包括DR-GAN[24],TP-GAN[10]和CAPG-GAN[8]。此外,我们提出了一个简单而有效的解析引导鉴别器,它引入了解析映射[17]作为灵活的注意力,以捕获GAN优化过程中的局部一致性。首先,预先训练的面部解析器捕获三个局部面具,包括发型、皮肤和面部特征(眼睛、鼻子和嘴)。其次,我们把这些解析面具作为软注意,促进合成大小的正面图像和地面真相。然后,这些局部特征被馈送到鉴别器(称为解析引导鉴别器)中,以确保合成尺寸的正面图像的局部一致性通过这种方式,我们可以在M2 FPA和Multi-PIE数据库上合成具有极端偏航和俯仰变化的照片级逼真的正面图像。本文的主要贡献如下:• 本文介绍了一种用于人脸姿态分析的多偏转多俯仰高质量数据库(M2FPA)。它包含229个主题的397,544张图像,包括偏航、俯仰、属性、照明和附件。• 我们在M2 FPA上提供了几种最先进的人脸正面化和姿态不变人脸• 我们提出了一个简单而有效的解析引导的判别器,它引入了解析映射作为一个软注意力,以捕捉局部一致性在GAN优化。这样,我们就可以在M2 FPA和Multi-PIE上合成真实感的正面图像.2. 相关工作2.1. 数据库现有的具有姿态变化的人脸数据库可以分为两类。其中包括LFW [9],IJB-A [15],VGGFace 2 [3],CelebA [17]和CelebA-HQ[12],经常从互联网上收集。因此,这些数据库中的姿态变化遵循长尾分布,即存在大量的近正面人脸,但很少有侧面人脸。此外,获取这些人脸图像的珍贵姿态标签是昂贵的,这导致人脸正面化、人脸旋转和人脸姿态估计的困难。其他的,如CMU PIE [21],CMU Multi-PIE [7]和CAS-PEAL-R1 [5],在受限环境下捕获,精确控制角度。CUM PIE和CMU Multi-PIE的偏航角范围仅为'90°至90°。CAS-PEAL-R1包含14个偏航-俯仰角,但这些俯仰变化是通过要求受试者向上/向下看来捕获的,这导致姿势标签不准确此外,在CAS-PEAL-R1中,只有正面面部图像包含附件变化。与这些现有数据库不同的是,M2FPA包含属性、照明、附件等变量,这些变量跨越珍贵的偏航角和俯仰角。2.2. 脸部旋转人脸旋转是计算机视觉中极具挑战性的不适定问题 。 近 年 来 , 得 益 于 GAN ( Generative AdversarialNetwork)[6],人脸旋转技术取得了长足的进步。目前,最先进的人脸旋转算法可以分为两个方面,包括2D [24,10,8,28,20,23]和3D [27,30,4,29,2,18]基于方法。对于基于2D的方法,Tran et.al [24]建议DR-GAN从面部图像中分离姿态变化。TP-GAN [10]采用双路径模型,包括全局和局部生成器,以合成照片般逼真的正面人脸。Hu et.等人[8]结合地标热图作为几何指导来合成具有任意姿态的面部图像。PIM [28]使用双路径生成器以相互增强的方式执行人脸正面化。FaceID-GAN [20]将传统的两人GAN扩展到三人,通过解开真实和合成面孔的身份与生成器竞争考虑到基于3D的方法,FF-GAN [27]将3D-MM纳入GAN中,以提供先前的形状和外观。DA-GAN [30]采用双重架构来细化3D模拟剖面面。UV-GAN [4]将面旋转视为UV贴图完成任务。3D-PIM [29]将模拟器与3D MorphableModel相结合,以获得面部额化的形状和外观先验此外,深度网络[18]推断从一个面部姿势到另一个面部姿势的合理3D变换,以实现面部正面化。3. M2FPA数据库在本节中,我们将概述M2 FPA数据库,包括它是如何收集、清理、注释的,以及它的统计数据。据我们所知,M2FPA是第一个公开可用的数据库,包含精确和10045表1.现有的面部姿势分析数据库的比较图像大小是数据库中所有图像的平均大小在Multi-PIE中,部分正面图像的大小为3072×2048,但大多数是640×480分辨率。 图像在IJB-A中有很多背景。Ś图1.在我们的M2FPA数据库中偏航和俯仰变化的例子从上到下,6个摄像头层的俯仰角分别为`45°、`30°、`15°、0°、` 15°和`30°每个图像的偏航姿态显示在绿色框中。多个偏航和俯仰变化。在本节的其余部分然后我们描述了清洗和注释过程。最后给出了M2焦平面的统计特性,包括偏航和俯仰变化、属性类型和光照位置。3.1. 数据采集我们设计了一个灵活的多摄像头采集系统,以捕捉多个偏航角和俯仰角的人脸。图2显示了采集系统的概览。它由许多可移动的支架建造,形成一个直径3米的近似半球形。如图3所示,采集系统包含7个水平层,其中前六个(Layer1、Layer6)是相机层,最后一个是平衡层。两个广告层之间的间隔为15μ m。第4层与半球中心(图3中的红色圆圈因此,我们将Layer4的俯仰角设置为0°。因此,从上到下,其余5个摄像机层与Layer4之间的间隔分别为‘45’、‘30’、‘15’、‘15’和‘30’总共62个SHL-200 WS(200万像素CMOS摄像头,12毫米定焦镜头)位于这6个摄像头层上。如图3中所示,存在5、9、13、13、13个层1、层2、层3、层4、层5、层6上分别有9个摄像头。对于每一层,相机均匀地位于'90°到'90°之间。每个摄像机的详细偏航角和俯仰角见图1和表2。所有62台摄像机通过USB接口连接到6台计算机,主计算机同步地控制这些计算机。我们开发了一个软件,可以同时控制62个摄像头,并在一次拍摄中收集所有62个图像,以便图2.采集系统概述。它总共包含7个水平层。底部是平衡层,其余是相机层。图3.摄像机位置图。左侧和右侧分别是前视图和侧视图的剖视图。确保一致性。此外,如图4所示,我们的采集系统上配备了7个不同方向的光源,包括上、前、前上、前下、后、左、右。为了保持背景的一致性,我们在采集系统后面构造了一些括号和白色画布,如图2左上角所示。共有300名志愿者被选中创建M2FPA,所有参与者都签署了许可证。在收集过程中,我们固定了一把椅子,并提供了一个头枕,以确保脸的位置是在半球的中心。每个参与者有4个属性,包括中立,戴眼镜,微笑和惊喜。图5示出了根据本发明的实施例的一些示例。数据库偏航间距偏航-俯仰属性照明科目图像图像尺寸可控大小[GB]配对年PIE [21]9224216841,000+640ˆ486JŚ40J2003LFW [9]没有标签没有标签没有标签没有标签没有标签5,74913,233250ˆ2500.172007CAS-PEAL-R1 [5]72125151,04030,863640ˆ480J26.6J2008多PIE [7]1302619337755,370640ˆ 480‹J305J2009IJB-A [15]没有标签没有标签没有标签没有标签没有标签50025,8091026 698`ŚŚ14.5ŚŚ2015[17]第十七话没有标签没有标签没有标签没有标签没有标签10,177202,599505ˆ606Ś9.49Ś201610046图4.照明位置示意图左侧和右侧分别是前视图和侧视图的剖视图。图5. M2 FPA中的四个属性示例属性。因此,我们总共捕获了300×62×7×43.2. 数据清理和注释在收集之后,我们手动地检查所有面部图像并且移除其整个头部未被一个或多个相机捕获的那些参与者最后,我们剔除了71个信息缺失的参与者,剩下的229个参与者构成了我们最终的M2FPA数据库.人脸标志点检测是人脸姿态分析中必不可少的预处理,如人脸旋转和姿态不变人脸识别。然而,当前的方法[1,22]通常无法准确地检测具有极端偏航角和俯仰角的面部标志。为了方便我们的数据库的利用,我们手动标记的五个面部标志的每一个图像的M2FPA。3.3. M2FPA的统计特性表2.M2焦平面阵列的位姿、属性和照明现有的面部姿态分析数据库,如表1中所总结的,M2FPA的主要优点在于四个方面:• 大规模的。M2FPA包含229个被试的397,544张人脸图像,包括62个姿态、4个属性和7种光照.建立多摄像机采集系统,采集到如此多的图像,花费了近一年的时间。• 准确而多样的姿势。我们的采集系统一次可以同时捕获62个姿态,包括13个偏航角(范围从90°到90°),5个俯仰角(范围从30°到45°)和44个偏航-俯仰角。据我们所知,M2 FPA是第一个包含精确和多个偏航角和俯仰角的公开数据库。• 高分辨率。所有图像均由SHL-200 WS(200万像素CMOS相机)拍摄,分辨率高(1920-1080)。• 配饰 为了进一步扩大多样性, 在M2FPA的基础上,增加了五种眼镜作为配镜,包括深色太阳镜、粉色太阳镜、圆形眼镜、图书馆员眼镜和无框眼镜。4. 方法在本节中,我们提出了一种解析引导的本地判别器到GAN训练中,如图6所示。我们引入解析图[17]作为灵活的注意力,以捕获真实和合成的正面图像的局部一致性通过这种方式,我们的方法可以有效地正面化一个新的M2 FPA数据库上的偏航俯仰变化和附件闭塞的脸4.1. 网络架构给定侧面面部图像X和其对应的正面面部Y,我们可以获得合成正面图像Y被生成元GθG、YGpX q(1)属性照明快乐,正常,戴眼镜,惊喜上、前、前-上、后-前-下、左、右其中θG是GθG的参数。生成器的体系结构详见补充材料。如图6所示,我们在GAN优化过程中引入了两个鉴别器,包括一个全局鉴别器。DθD1和解析引导的局部解析DθD2。特别地,鉴别器DθD1旨在将真实图像Y和合成的正面图像Yθ与全局图像Y θ区分开。风景 考虑到照片逼真的可视化,特别是-经过人工清理后,我们保留了229名受试者的397,544张面部图像,涵盖62个姿势,4个属性和7个光照。表2给出了我们的M2FPA数据库的姿态、属性和照度.较对于具有极端偏航-俯仰角或附属物的面部,确保合成的正面图像和地面实况之间的局部一致性是至关重要的。首先,我们使用预训练的面部解析器fP[16]来捕获三个局部特征。构成螺距=`45o偏航='90o,' 45o,0o,'45o,'90o螺距=`30o偏航='90o,' 67。5度45度22度5时0,22。50,450,67。五度,九十度螺距=`15o偏航='90o,' 75o,'60o,' 45o,'30o,'15o0度, 15度, 30度, 45度, 60度, 75度,90度螺距=0o偏航='90o,' 75o,'60o,' 45o,'30o,'15o0度, 15度, 30度, 45度, 60度, 75度,90度螺距=“15o偏航='90o,' 75o,'60o,' 45o,'30o,'15o0度, 15度, 30度, 45度, 60度, 75度,90度10047ˇˇˆ全局-局部对抗性损失。我们采用全局-局部对抗损失,旨在合成照片级真实感的正面人脸图像。具体来说,全局鉴别器DθD1将合成的face图像Yθ与真实图像Yθ区分开。Ladv1θG θD1(六)`EYnPpYqrlogp1′DθD1pY qqs解析引导的局部f_DθD2旨在使合成的局部f_D细节Y_h、Y_s和Y_f接近真实的Y_h、Y_s和Y_f,Ladv2θGθD 2图6.我们方法的整体框架。`EY,Y,YPpY,Y,Yqrlogp1´DθD2pYh,Ys,YfqqsHSFHSF(七)- 掩模,包括来自真实正面图像Y的发型掩模Mh、皮肤掩模Ms和面部特征掩模Mf,Mh,Ms,Mf其中三个掩码的值的范围从0到1。秒-身份保护损失。采用保恒等损失来约束Y_n与Y_n之间的恒等一致性。 我们利用预训练的LightCNN-29 [25]从Y和Y中提取身份特征。身份保护损失情况如下:第二,我们把这些面具当作软注意力,方便合成的正面图像Y和地面实况Y为述盖“的||布拉夫pYq′fpY2Q||2(八)2`||pY q ´如下所示:YhYh其中d表示Hadamard乘积。 Yh、Ys和Yf表示来自Y的发型、皮肤和面部特征信息,而Yh、Ys和Yf来自Ys 。那么这些当地的特征被馈送到解析引导的局部判别中。ppq||F其中,Lff和Lffp分别表示预训练的LightCNN的全连接层和最后一个池化层。}¨}2和}¨}F分别表示向量2-范数和矩阵F-范数全变分正则化。我们引入了一个全变分正则化项[11]来去除不利的torDθD2 . 如图6所示,三个子网用于CW,HLˇ ˇ ˇˆˇˇˆbˆˇ分别对发型、皮肤和面部特征的输出特征图进行最后,我们将三个编码的特征图连接起来,并向其提供二进制交叉熵损失,以区分局部特征的输入是真实的还是虚假的。解析引导的局部鉴别器可以有效地确保合成的正面图像的局部一致性是否与地面真实相似。4.2. 培训损失多尺度像素损失。在[8]之后,我们采用多尺度像素损失来增强合成Y图像和地面真实值Y之间的内容一致性。tvYw`1,h,c′Yw,h,c`Yw,h`1,c′Yw,h,cc(九)其中C、W和H分别是合成图像Y整体损失。最后,总监督损失是上述损失的加权和。生成器和两个鉴别器,包括一个全局鉴别器和一个解析引导的局部递归,被交替地训练以处理最小-最大问题。总损失写为:LL1Wi,zzyHi,Ci其中λ1、λ2、λ3、λ4和λ5是折衷参数。ˇ像素3iWiHiCw,h,cˇYi,w,h,c´Yi,w,h,cˇ(5)5. 实验其中C是通道号,i是第i个图像比例,iPt1,2,3μ。Wi和Hi分别表示第i个图像比例的宽度和高度我们评估我们的方法定性和定量建议M2FPA数据库。对于定性评价,我们显示了几个人脸额化的结果310048偏航和俯仰面。对于定量评估,我们perfor- m姿态不变的人脸识别的基础上的原始和合成的人脸图像。我们还提供了M2 FPA上的三个人脸正面化基准,包括DR-GAN [24],TP-GAN [10]和CAPG-GAN [8]。为了进一步证明所提出的方法的有效性并评估M2 FPA的难度,我们还在Multi-PIE [7]数据库上进行了实验,该数据库广泛用于面部姿态分析。在下面的小节中,我们首先介绍数据库和设置,特别是M2 FPA的训练和测试协议。给出了M2FPA和Multi-PIE的定性和定量识别结果最后,我们进行烧蚀研究,以证明我们的方法中的每个部分的效果。5.1. 数据库和设置数据库。M2FPA数据库包含229个被摄体在62种姿态、4种属性和7种光照下的397,544幅图像在62个姿态中,除了45°俯仰角外,我们选择了57个我们随机选择162名受试者作为训练集,即,1625747“258,552张其余67名受试者形成测试集。对于测试,一个画廊图像与正面视图,中性属性和以上照明被用于67个主题中的每一个。其余的偏航和俯仰面图像被视为探针。探测图像和图库图像的数量分别为105、056和67。我们将发布原始的M2 FPA数据库以及注释的五个面部标志和训练和测试协议。Multi-PIE数据库[7]是用于评估跨偏航角的面部合成和识别的流行数据库。在[8]之后,我们在实验中使用设置2协议。在训练集、探测集和图库集中分别有161,460、72,000、137幅图像。实施详情。按照前面的方法[24,10,8],我们在M2 FPA和Multi-PIE上裁剪和对齐128×128张此外,我们还对M2焦平面上的256×256张人脸图像进行了实验,以实现在多种偏航和俯仰变化下的高分辨率人脸正面化选择预训练的LightCNN-29 [25]用于计算身份p保留损失,并且在训练期间是固定我们的模型是用Pytorch实现的我们选择Adam优化器,β1为0.5,β2为0.99。学习率初始化为2e′ 4,并在每个时期之后线性衰减2e′ 5在一个12G内存的NVIDIA TITAN XpGPU上,128×128分辨率的批量大小为16,256×256分辨率的批量大小为在所有实验中,我们根据经验将权衡参数λ1、λ2、λ3、λ4和λ5分别设置为20、1、1、0.08和1e′ 45.2. M2焦平面阵列的性能评价5.2.1面部正面化所收集的M2FPA数据库提供了在各种偏航角和俯仰角下进行人脸额化的可能性。受益于全局-局部的对手,我们的方法可以正面化具有大的偏航和俯仰角的面部图像。本文报道了60°、90°和100 °α角的合成结果,图7中显示了“30°”“30°”俯仰角。Weob-不仅服务于整体面部结构,局部纹理细节以同一性一致的方式被恢复。令人惊讶的是,极端姿势下的太阳镜也能保存完好。此外,目前用于大姿态人脸正面化的数据库仅限于偏航角和低分辨率,即。128磅128磅。 采集的M2焦平面具有更高的质量,支持256×256分辨率的人脸正面化,具有多个偏航角和俯仰角。我们的方法在M2 FPA上的正面化的256256更多的正面化结果在补充材料中列出。此外,我们还提供了几个M2 FPA上的基准人脸正面化结果,包括DR-GAN[24]、TP-GAN [10]和CAPG-GAN[8]。本文在原有文献的基础上重新实现了CAPG-GAN和TP-GAN。 对于DR-GAN,我们提供了两个结果:一个是重新实施的版本1,另一个是在线演示2。图8显示了比较结果。我们观察到我们的方法,CAPG-GAN和TP-GAN实现了良好的可视化,而DR-GAN由于其无监督学习过程而未能保留属性和面部结构。然而,在大多数的方法中,也有一些合成的细节,如头发,脸的形状不令人满意。这些证明了从极端的偏航角和俯仰角合成逼真的正面脸的困难。因此,我们期望收集的M2FPA推进多个偏航和俯仰面综合的进步5.2.2姿态不变人脸识别人脸识别准确率是衡量不同正面化方法身份保持能力的常用指标。识别精度越高,在合成过程中保留的身份信息越多。因此,我们定量评估了我们的方法,并将其与M2FPA上的几种最先进的前端化方法进行了比较 , 包 括 DR-GAN[24] , TP-GAN[10] 和 CAPG-GAN[8]。 我们雇佣了两个开源的预先训练的1https://github.com/zhangjunh/DR-GAN-by-pytorch2http://cvlab.cse.msu.edu/cvl-demo/DR-GAN-DEMO/index.html10049图7.在M2焦平面上,对不同姿态下的128 × 128个结果进行了分析从上到下,偏航角是90度,75年和60年。对于每个受试者,第一列是生成的正面图像,第二列是输入轮廓,最后一列是列是地面实况正面图像。图8.不同方法在M2焦平面极端姿态下的正面化结果 对于每个受试者,第一行显示了我们方法的可视化(256 256)。从左至右:我们的正面化结果,输入轮廓和地面实况。第二行显示不同基准方法的额化结果(128 × 128)。从左至右:CAPG-GAN [8],TP-GAN [10],DR-GAN [24](96 96)和在线演示。表3. M2FPA上0俯仰角下的各视图的1级识别率(%和30螺距角。当保持偏航角一致时,我们观察到俯仰角和-原始10010099.898.686.951.7[24]第二十四话98.997.995.789.570.335.5TP-GAN[10]99.999.899.497.387.662.1CAPG-GAN[8]99.999.799.496.487.263.9我们10010099.998.490.667.6IR-50原始99.799.799.297.287.235.3[24]第二十四话97.897.695.689.970.626.5TP-GAN[10]99.799.298.296.386.648.0CAPG-GAN[8]98.898.597.093.481.950.1我们99.599.599.097.389.655.8识别模型LightCNN-29 v23和IR-504作为特征提取器,并将距离度量定义为原始图像对和生成图像对之间的平均距离表3、表4和表5给出了不同方法对M2焦平面阵列在0° C、15° C下的3https://github.com/AlfredXiangWu/LightCNN4https://github.com/ZhaoJ9014/face.evoLVe。PyTorch在大姿态下,TP-GAN、CAPG-GAN和我们的方法都取得了比原始数据更好的识别性能。我们进一步观察到,DR-GAN的准确性低于原始数据。原因可能是DR-GAN是以无监督的方式训练的,并且M2FPA中有太多5.3. 多PIE在本节中,我们对流行的Multi-PIE [7]数据库进行了定量和定性评价。图9显示了我们的方法的正面图像。我们观察到,我们的方法可以实现照片级逼真的可视化,而不是其他最先进的方法,包括CAPG-GAN[8],TP-GAN [10]和FF-GAN [27]。Ta-表6进一步列出了在多PIE的设置2下不同方法的秩1性能。很明显,我们的方法优于其竞争对手,包括方法150万30度到45度LightCNN-29 v260度75o90o角度越大,获得的准确度越低,这表明在音高变化方面的此外,通过10050表4.在M2焦平面上,俯仰角为150°时,所有视图的1级识别率(%方法间距200年150万 30度45度60度75o90oLightCNN-29 v2原始十五度十五岁10099.910010010099.899.899.797.597.376.581.834.345.9[24]第二十四话十五度十五岁99.198.198.898.298.096.594.893.385.683.161.162.720.831.0TP-GAN[10]十五度十五岁99.899.999.899.999.799.699.599.295.795.981.684.150.956.9CAPG-GAN[8]十五度十五岁99.899.899.999.999.899.798.998.795.095.181.485.554.465.6我们十五度十五岁99.999.999.999.999.899.899.799.797.597.486.288.156.266.5IR-50原始十五度十五岁99.898.799.999.499.699.298.798.195.795.777.178.823.427.9[24]第二十四话十五度十五岁98.595.898.297.297.896.294.093.384.884.860.960.317.020.8TP-GAN[10]十五度十五岁99.098.299.698.999.198.198.597.294.794.879.180.940.643.5CAPG-GAN[8]十五度十五岁98.998.599.098.598.597.995.895.391.590.375.776.040.747.8我们十五度十五岁99.798.699.699.199.498.798.798.896.196.584.583.943.649.7表5. M2 FPA上俯仰角为30时,各视图的1级识别率(%方法间距200年22岁。5时45度67岁。5时90oLightCNN-29 v2原始三十度三十度99.798.699.298.296.593.671.669.924.522.1[24]第二十四话三十度三十度93.891.791.590.683.479.152.046.616.916.6TP-GAN[10]三十度三十度99.798.298.897.695.893.477.275.743.438.9CAPG-GAN[8]三十度三十度98.898.998.498.394.193.879.575.348.049.3我们三十度三十度99.798.999.198.797.795.881.982.248.249.3IR-50原始三十度三十度99.297.198.197.394.793.073.567.217.69.0[24]第二十四话三十度三十度92.993.092.392.083.882.156.450.313.97.5TP-GAN[10]三十度三十度98.195.797.396.194.492.276.871.634.527.5CAPG-GAN[8]三十度三十度97.195.896.295.490.589.273.167.634.533.0我们三十度三十度98.697.297.897.496.095.179.676.736.433.1FIP+LDA[31],MVP+LDA[32],CPF[26],DR-GAN[24],[27],[28],[29],[29]。5.4. 消融研究我们报告了我们的方法及其四种变体的定量识别结果和定性可视化结果,作为消融研究的综合比较。10051图9.不同方法的比较Multi-PIE上为75(前两行)和90表6.在Multi-PIE的设置2下,各视图的1级识别率(%)。方法15o30o45o60o75o90oFIP+LDA[31] 90.7 80.7 64.1 45.9--MVP+LDA[32] 92.8 83.7 72.9 60.1--中央公积金[26] 95.0 88.5 79.9 61.9--[24] 2016年10月24日--FF-GAN[27] 94.6 92.5 89.7 85.2 77.2 61.2TP-GAN[10] 98.68 98.06 95.38 87.72 77.43 64.64CAPG-GAN[8] 99.82 99.56 97.33 90.63 83.05 66.05我们的99.96 99.78 99.53 96.18 88.74 75.33我们在补充材料中给出了详细信息6. 结论本文介绍了一种新的用于人脸姿态分析的大规模多方位多俯仰高质量数据库( M2FPA),包括人脸正面化、人脸旋转、人脸姿态估计和姿态不变人脸识别。据我们所知,M2 FPA是最具代表性的多视角人脸数据库,涵盖了偏航,俯仰,属性,照明,附件的变化我们也为人脸正面化和姿态不变人脸识别提供了一个有效的基准.几个国家的最先进的方法,如DR-GAN,TP-GAN和CAPG-GAN,实现和评估。此外,我们提出了一个简单而有效的解析引导本地的一致性捕获GAN优化过程中的本地一致性。通过这种方法,我们可以在Multi-PIE和M2FPA上合成具有极端偏航和俯仰变化的我们相信,新的数据库和基准可以显着推动人脸姿态分析在社区的进步7. 确认国 家 自 然 科 学 基 金 部 分 资 助 项 目 ( 批 准 号 :61622310,U1836217,61427811)和北京市自然科学基金(批准号:JQ18017)。10052引用[1] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。InICCV,2017.[2] Jie Cao , Yibo Hu , Hongwen Zhang , Ran He , andZhenan Sun.学习一个高保真的姿态不变模型用于高分辨率的人脸正面化。NeurIPS,2018。[3] 曹琼,李申,谢伟迪,Omkar M.帕克希,还有安德鲁·齐瑟曼。Vggface2:一个用于识别跨姿势和年龄的人脸的数据集。在FG,2018年。[4] Jiankang Deng,Shiyang Cheng,Niannan Xue,YuxiangZhou,and Stefanos Zafeiriou. UV-gan:对抗面部uv图完成用于姿势不变人脸识别。在CVPR,2018年。[5] Wen Gao , Bo Cao , Shiguang Shan , Xilin Chen ,Delong Zhou,Xiaohua Zhang,and Debin Zhao. cas-peal大规模中国人脸数据库及基线评价。IEEE Transactionson Systems,Man,and Cybernetics-Part A:Systems andHumans,38(1):149[6] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。NeurIPS,2014。[7] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade 和 Simon Baker 。 多 派 Image and VisionComputing,28(5):807[8] 胡一波,吴翔,冰玉,何冉,孙振安。姿势引导的真实感人脸旋转。在CVPR,2018年。[9] Gary B Huang,Marwan Mattar,Tamara Berg,and EricLearned-Miller.在野外贴上标签的脸:研究无约束环境中人脸识别的数据库。在“现实生活”图像中的面孔研讨会:检测、对准和识别,2008年。[10] 睿煌、张舒、李天宇、冉河。超越面旋转:全局和局部感知甘为真实感和身份保持正面视图合成。InICCV,2017.[11] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。[12] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。[13] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。arXiv预印本arXiv:1812.04948,2018。[14] 放大图片作者:Steven M. Seitz,Daniel Miller,andEvan Brossard.megaface基准:大规模识别100万张面孔.在CVPR,2016年。[15] 布伦丹·F·凯布尔、本·克莱因、艾玛·塔博斯基、奥斯汀·布兰顿、乔丹·切尼、克里斯汀·艾伦、帕特里克·格罗瑟、艾伦·马和阿尼尔·K·贾恩。 推动无约束人脸检测和识别的前沿:Iarpa janus基准a CVPR,2015。[16] Sifei Liu,Jimei Yang,Chang Huang,and Ming-HsuanYang.用于人脸标记的多目标卷积学习CVPR,2015。[17] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在ICCV,2015年。[18] Joel Ruben Antony Moniz、Christopher Beckham、SimonRajotte、Sina Honari和Chris Pal。无监督深度估计、三维人脸旋转与替换。NeurIPS,2018。[19] 奥 姆 卡 湾 Parkhi , Andrea Vedaldi , and AndrewZisserman.深度人脸识别。在BMVC,2015年。[20] Yujun Shen,Ping Luo,Junjie Yan,Xiaogang Wang,and X-iaoou Tang. Faceid-gan :学习对称的三人游戏gan,用于保持身份的面部合成。在CVPR,2018年。[21] Terence Sim,Simon Baker,and Maan Bsat. cmu的姿态、光照和表情数据库。InFG,2002.[22] Yi Sun,Xiaogang Wang,and Xiaoou Tang.用于人脸点检测的深度卷积网络级联。CVPR,2013。[23] Yu Tian,Xi Peng,Long Zhao,Shaoting Zhang,andDim- itr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功