没有合适的资源?快使用搜索试试~ 我知道了~
Yonghyun Kim1Wonpyo Park2Myung-Cheol Roh1Jongju Shin1Robert Downey Jr.!"#$%&'()*+156210GroupFace:学习潜在群体并构建基于群体的人脸识别表示01 Kakao Enterprise,2 Kakao Corp.0摘要0在人脸识别领域,模型学习使用较少维度的嵌入特征来区分数百万张人脸图像,而这样庞大的信息可能无法在传统的单一分支模型中得到正确编码。我们提出了一种新颖的面向人脸识别的架构,称为GroupFace,它同时利用多个群体感知表示来提高嵌入特征的质量。所提出的方法提供了自我分布的标签,平衡了属于每个群体的样本数量,而无需额外的人工注释,并学习了可以缩小目标身份搜索空间的群体感知表示。我们通过展示广泛的消融研究和可视化来证明所提出方法的有效性。所提出方法的所有组件都可以以端到端的方式进行训练,而计算复杂度仅有轻微增加。最后,所提出的方法在以下公共数据集上取得了最先进的结果,在1:1人脸验证和1:N人脸识别任务中取得了显著的改进:LFW、YTF、CALFW、CPLFW、CFP、AgeDB-30、MegaFace、IJB-B和IJB-C。01. 引言0人脸识别是计算机视觉中的一项主要技术,用于对真实世界进行建模和理解。许多方法和大量数据集[3, 10, 16, 25, 32,41]已经被引入,最近,使用深度学习的方法[7, 9, 14, 19, 34, 35,44]极大地提高了人脸识别的准确性,但仍然不尽人意。为了减少这一不足,最近的人脸识别研究大多集中在改进损失函数上。CenterLoss [35]、CosFace[34]、ArcFace [7]和RegularFace[44]等方法都试图最小化类内变异并最大化类间变异。这些方法是有效的,并通过详细说明学习目标来逐渐提高准确性。尽管有了损失函数的发展,但是普遍的目的网络,而不是专门为人脸识别设计的网络,可能在使网络能够识别大量人物身份方面存在困难。与常见的分类等问题不同,在评估阶段,人脸识别模型会遇到训练集中未包含的新身份。因此,模型必须在训练集中嵌入近10万个身份[10],并考虑到大量未知身份。然而,大多数现有方法只是在广泛使用的骨干网络(如VGG[25]和ResNet[12])之后附加几个全连接层,而没有针对人脸识别特点进行任何设计。分组是一种有效灵活地嵌入大量人员并简要描述未知人员的关键思想。每个人的脸上都有自己的特点。同时,他们在一组人中有共同的特点。在现实世界中,基于群体的描述(深邃黑眼睛和红胡子的人)涉及到群体中的共同特点,可以有助于缩小候选人集合,尽管无法确定具体的人。不幸的是,明确的分组需要对大量数据进行手动分类,并且可能受到人类知识描述范围的限制。然而,通过采用分组的概念,识别0基于实例的表示0群体感知表示0潜在群体0丰富的表示0图1.提出方法的概念框架。提出的方法通过支持基于实例的表示来增强嵌入特征的质量,考虑到布朗胡子人群,使用群体感知表示来对Robert Downey Jr.进行建模。0目的网络,而不是专门为人脸识别设计的网络,可能在使网络能够识别大量人物身份方面存在困难。与常见的分类等问题不同,在评估阶段,人脸识别模型会遇到训练集中未包含的新身份。因此,模型必须在训练集中嵌入近10万个身份[10],并考虑到大量未知身份。然而,大多数现有方法只是在广泛使用的骨干网络(如VGG [25]和ResNet[12])之后附加几个全连接层,而没有针对人脸识别特点进行任何设计。分组是一种有效灵活地嵌入大量人员并简要描述未知人员的关键思想。每个人的脸上都有自己的特点。同时,他们在一组人中有共同的特点。在现实世界中,基于群体的描述(深邃黑眼睛和红胡子的人)涉及到群体中的共同特点,可以有助于缩小候选人集合,尽管无法确定具体的人。不幸的是,明确的分组需要对大量数据进行手动分类,并且可能受到人类知识描述范围的限制。然而,通过采用分组的概念,识别56220传统的人脸识别方法通常使用嵌入特征来减少搜索空间并灵活地嵌入大量身份信息。我们提出了一种新颖的人脸识别架构,称为GroupFace,它学习多个潜在群组并构建群组感知的表示,以有效地采用分组的概念(图1)。我们定义了潜在群组,它们是通过全面考虑面部因素(如发型、姿势、胡须)和非面部因素(如噪声、背景、光照)来内部确定的潜在变量。为了学习潜在群组,我们引入了一种自分布分组方法,通过考虑潜在群组的整体分布来确定群组标签。所提出的GroupFace将多个群组感知的表示结构性地集成到原始的实例化表示中,用于人脸识别。我们总结了以下贡献:0•GroupFace是一种专门用于人脸识别的新颖架构,它将群组感知的表示集成到嵌入特征中,并提供了良好分布的群组标签,以改善特征表示的质量。GroupFace还提出了一种新的相似度度量方法,额外考虑了群组信息。0•我们通过大量实验证明了GroupFace的有效性,并对GroupFace的行为进行了消融研究。0•GroupFace可以应用于许多现有的人脸识别方法,以在资源增加的同时获得显著的改善。特别是,GroupFace的一种硬集成版本可以通过仅使用少量额外的卷积来实现高识别准确率。02. 相关工作0人脸识别已经研究了几十年。许多研究者提出了使用特征工程的机器学习技术[1, 5, 6, 28, 17, 23, 31, 38,42]。最近,深度学习方法通过公共人脸识别数据集[3, 10,16, 25, 32,41]克服了传统人脸识别方法的局限性。DeepFace[30]使用3D人脸正视化实现了深度学习方法在人脸识别中的突破。FaceNet[26]提出了三元损失函数,最大化锚点与其负样本之间的距离,最小化锚点与其正样本之间的距离。CenterLoss[35]提出了中心损失函数,最小化样本与其类别中心之间的距离。MarginalLoss[8]采用了边界的概念,最小化类内变异,保持类间距离与边界的距离。RangeLoss [43]在训练过程中使用长尾数据。0RingLoss[47]约束了特征的幅度为一个确定的数值。NormFace[33]提出了对特征和全连接层权重进行归一化的方法;归一化后,验证准确率有所提高。SphereFace[19]提出了角度softmax(A-Softmax)损失函数,通过乘法角度边界增加了角度间的差异。基于A-Softmax,CosFace [34]提出了加法余弦边界,ArcFace[7]则应用了加法角度边界。RegularFace[44]和UniformFace [9]的作者认为使用角度边界的方法[7,19,34]仅关注类内紧密性,然后提出了新的损失函数来增加类间差异。总的来说,这些先前的方法主要关注如何改进损失函数以提高传统特征表示下的人脸识别准确率。通常情况下,仅仅添加几层或增加通道数并不能明显改善准确率。然而,GroupFace通过在并行中添加几层来改善特征表示的质量,并取得了显著的改善。0分组或聚类方法(如k-means)通过考虑余弦相似度或欧氏距离等相对度量来内部对样本进行分类,而不使用显式的类标签。一般来说,这些聚类方法试图通过防止大多数图像分配到一个或几个簇中来构建明显区分的类别。最近,一些使用深度学习的方法[4, 24,40]被引入。这些方法是有效的,但它们像之前的方法一样使用全批次而不是深度学习中的小批次。因此,这些方法不能很容易地在应用框架中深入和端到端地应用。为了高效地学习潜在群组,我们的方法引入了一种自分布分组方法,以深度方式考虑期望归一化概率。03. 提出的方法0我们的GroupFace使用自分布分组方法学习潜在群组,构建多个基于群组的表示,并将它们集成到标准的基于实例的表示中,以丰富人脸识别的特征表示。03.1. GroupFace0我们讨论了潜在群组方案如何有效地集成到GroupFace的嵌入特征中。0基于实例的表示。我们将传统人脸识别方案[7, 34, 35,44]中的特征向量称为本文中的基于实例的表示(图2)。基于实例的表示通常通过使用基于softmax的损失(例如CosFace [34]和ArcFace [7])训练为嵌入特征,并用于!(#$|&)!(#(|&)!(#)*(|&)+&,-+&,.+&,/0.=4096+&+&, = 45∈)7 #5|& +&,8512512512512512512512…9+&:+&&vGx =�k∈Kp(Gk|x)vGkx .(3)vGx = arg maxp(Gk|x)vGkx .(4)S∗(xi, xj) = S(¯vxi, ¯vxj) − βD(ˆvxi, ˆvxj)γ,(5)56230W0�0基于实例的表示0基于群组的表示0群组概率0主干网络0FcFcFcFc0共享特征0最终表示0身份数量0MLP0Softmax0群组决策网络0加权求和0自分布标签(训练期间)2560图2.GroupFace生成一个4096维的共享特征,并为给定样本x的基于实例的表示vx部署一个全连接层,为每个对应的群组部署K个全连接层以获得基于群组的表示vGx。由自分布标签监督的群组决策网络从基于实例的表示中输出一组群组概率{p(G0|x), p(G1|x), ...,p(GK-1|x)}。512维的最终表示是基于实例的表示和基于群组的表示vGx的加权求和与群组概率的聚合。W是函数g的权重。0预测身份为:0p(yi|x) = softmax k (g(vx)),(1)0其中y i是身份标签,v x是给定样本x的基于实例的表示,g是将512维嵌入特征投影到M维空间的函数。M是人物身份的数量。0基于群组的表示。GroupFace使用一种新颖的基于群组的表示以及基于实例的表示来丰富嵌入特征。每个基于群组的表示向量通过为每个对应的群组部署全连接层来提取(图2)。GroupFace的嵌入特征(¯vx,图2中的最终表示)通过聚合基于实例的表示vx和加权求和的基于群组的表示vGx获得。GroupFace通过使用丰富的最终表示¯vxi来预测身份:p(yi|x) = softmax k (g(¯vx)),0= softmax k ( g ( v x + v G x )),(2)0其中vGx是多个基于群组的表示与群组概率的集成。0结构。GroupFace同时计算和使用基于实例的表示和基于群组的表示。基于实例的表示通过与传统人脸识别方法相同的过程获得[7, 34, 35,44],而K个基于群组的表示则通过部署一个全连接层类似地获得。然后,通过部署由三个全连接层和一个softmax层组成的群组决策网络(GDN),从基于实例的表示向量计算群组概率。使用0群组概率,多个基于群组的表示以软方式(S-GroupFace)或硬方式(H-GroupFace)进行子集成。01.S-GroupFace使用相应群组概率作为权重,聚合多个群组感知表示,并定义为:02.H-GroupFace选择具有最高值的群组概率对应的群组感知表示,并定义为:0S-GroupFace在几乎不需要额外资源的情况下显著提高了识别准确性,而H-GroupFace比S-GroupFace更适用于实际应用,但需要一些额外的卷积。最终表示 ¯ v x通过聚合基于实例的表示和子集成的群组感知表示来丰富。群组感知相似度。我们引入了一种群组感知相似度,它是一种考虑了GDN中间特征和标准嵌入特征的新相似度,在推理阶段进行惩罚。群组感知相似度 S �是根据两个给定实例的中间特征之间的距离进行惩罚的,因为中间特征不是在余弦空间上训练的,只描述给定样本的群组身份,而不是明确的身份。第 i 张图像 I i 和第 j 张图像 I j之间的群组感知相似度 S � 定义为:p(Gk|x) = softmaxk(f(x)),(6)G∗(x) = arg maxkp(Gk|x),(7)˜p(Gk|x) = 1K {p(Gk|x) − Ex∼data [p(Gk|x)]} + 1K , (8)Ex∼data [˜p(Gk|x)] ,= 1K {Ex∼data [p(Gk|x)] − Ex∼data [p(Gk|x)]} + 1K ,G∗(x) = arg maxk˜p(Gk|x).(10)!"!#!$!%&"0.100.200.400.30.200.250.200.35&$0.200.200.100.50&%0.200.300.100.40&'0.100.500.300.100.160.290.220.33!"!#!$!%&"0.190.160.430.22.290.210.230.27&$0.290.160.130.42&%0.290.260.130.32&'0.190.460.330.02. ((!*|&)0.250.250.250.25. (-(!*|&)̸(12)56240其中 S 是余弦相似度度量,D 是距离度量,ˆ v x表示GDN的中间特征,β 和 γ是常数参数。这些参数经验性地确定为 β = 0.1 和 γ =1/3。03.2. 自分布分组0在这项工作中,我们将群组定义为共享任何用于人脸识别的视觉或非视觉特征的样本集合。这样的群组由部署的GDN确定。我们的GDN通过自分组方式逐渐训练,考虑了潜在群组的分布,而无需任何明确的真实信息来提供群组标签。简单标签。确定群组标签的一种简单方法是选择具有softmax输出最大激活的索引。我们构建了一个GDNf,通过部署MLP并附加softmax函数来确定给定样本 x的所属群组 G �:0其中 G k是第k个群组。不考虑群组分布会导致简单的解决方案将大多数样本分配给一个或少数几个群组。自分布标签。我们引入了一种有效的标签方法,该方法利用由先验概率调节的修正概率以深度方式生成均匀分布的群组标签。我们定义了一种期望的归一化概率 ˜ p 来平衡 K 个群组之间的样本数量:0其中第一个 1/K限制了归一化概率在0和1之间。然后,计算期望的归一化概率:0最优的自分布标签可通过以下方式获得:0经过训练的GDN估计了一组表示样本属于潜在群组程度的概率。随着样本数量趋近于无穷大,所提出的方法稳定地输出均匀分布的标签(图3)。0概率((! * |&)期望归一化概率(-(! * |&)0更均匀分布的标签0图3.自分布标签的概念方案。当通过GDN获得4组上的5个样本的群组概率时,通过从群组概率中减去相应的群组概率的期望值来计算期望归一化概率。选择具有最大概率的群组标识作为给定样本的标签,并考虑期望使标签的分布更加均匀。03.3. 学习0GroupFace的网络同时通过标准分类损失(用于区分身份的基于softmax的损失)和自我分组损失(用于训练潜在群组的softmax损失)进行训练。0损失函数。使用基于softmax的损失L1(ArcFace[7]在这项工作中主要使用)来训练身份的特征表示,定义如下:0L1 = -10N0i = 1 log es(cos(θyi + m))0es(cos(θyi + m)) + � n j = 1,j ≠ yi0(11)其中N是一个小批量样本的数量,θ是特征与相应权重之间的角度,s是一个缩放因子,m是一个边际因子。为了构建最优的群组空间,定义了一个自我分组损失,它减小了预测与自动生成的标签之间的差异:0L2 = -10N0i = 1 CrossEntropy(softmax(f(xi)),G*(xi))。0训练。整个网络使用两个损失的聚合进行训练:0L = L1 + λL2,(13)0其中参数λ平衡不同损失的权重,经验上设置为0.1。因此,GDN可以学习到更均匀分布的标签。56250对于人脸识别来说,这是一个有益的属性。04. 实验0我们描述了实现细节,并进行了大量的实验和消融研究,以展示GroupFace的有效性。04.1. 实现细节0数据集。对于训练,我们使用了包含约100,000个身份的约10M张图像的MSCeleb-1M[10]。由于MSCeleb-1M原始数据集的噪声标签,我们使用了经过改进的版本[7],其中包含85k个身份的3.8M张图像。对于测试,我们使用了以下九个常用数据集进行实验:0• LFW[13]包含来自5,749个身份的13,233张图像,并提供其中的6000对。CALFW [46]和CPLFW[45]是从LFW重新组织的数据集,包括更高的姿势和年龄变化。0• YTF [37]由1,595个身份的3,425个视频组成。0• MegaFace[16]由690K个身份的超过100万张图像组成,用于挑战1(MF1)。0• CFP-FP[27]包含500个主题,每个主题有10张正面和4张侧面图像。0• AgeDB-30 [22]包含440个身份的12,240张图像。0• IJB-B[36]包含67,000张人脸图像,7,000个人脸视频和10,000张非人脸图像。0• IJB-C[21]包含138,000张人脸图像,11,000个人脸视频和10,000张非人脸图像。0度量。我们在LFW [13]、YTF [37]、CALFW [46]、CPLFW[45]、CFP-FP [27]、AgeDB-30 [22]和MegaFace[16]的验证任务上比较了身份对的验证准确率。MegaFace[16]的识别任务通过与100万个干扰者的rank-1识别准确率进行评估。我们在IJB-B [36]和IJB-C[21]上比较了在特定虚警接受率(TAR@FAR)从1e-4到1e-6的真实接受率。0实验设置。我们通过使用两只眼睛、鼻子和嘴角的五个面部点从一个面部区域扭曲来构建一个归一化的人脸图像[7,19,34](112×112)。我们采用ResNet-100[12]作为骨干网络,类似于最近的工作[7,14]。我们通过一个BN-FC块将激活和降维后的激活向量化为4096(图2中的共享特征)。我们的GroupFace0TAR0FAR=1e-6 FAR=1e-50基线[7] 0.3828 0.8933 - 4组 0.4395 0.8962 -16组 0.4435 0.8993 - 32组 0.4678 0.91150(a)组数0TAR@FAR=1e-60基线[7] 0.3828 - 无损失 0.4468 - NaiveLabeling 0.4535 - 自分布标签 0.46780(b)GDN的学习0TAR@FAR=1e-6 GFLOPS0基线[7] 0.3828 24.2G - H-GroupFace 0.443924.4G - S-GroupFace 0.4678 24.5G0(c)硬集成 vs. 软集成0TAR0FAR=1e-6 FAR=1e-50基线[7] 0.3828 0.8933 - 连接 0.4745 0.8999 -聚合 0.4678 0.91150(d)聚合 vs. 连接0TAR@FAR=1e-60基线[7] 0.3828 - GroupFace 0.4678 -GroupFace† 0.52120(e)组感知相似度0TAR0FAR=1e-6 FAR=1e-5 FAR=1e-40ResNet-100[7] 0.3828 0.8933 0.9425ResNet-34[7] 0.3962 0.8669 0.9308 +GroupFace 0.4361 0.8820 0.9316 +GroupFace† 0.4823 0.8842 0.93540(f)轻量级模型0表1.在IJB-B数据集上对提出的GroupFace进行消融研究。基线是由ArcFace[7]训练的识别模型,†表示使用组感知相似度(Eq.5)的评估过程。0在ResNet-100中,res5c之后附加了一个维度为512×7×7的激活层。GDN中的MLP由两个BN-FC块和一个用于组分类的FC组成。我们遵循[7,34]设置损失函数的超参数。56260学习。我们使用8个同步的GPU和每个GPU上涉及128个图像的小批量进行模型训练。为了稳定组概率,GroupFace的网络是从仅使用softmax损失[7,34]训练的预训练网络开始训练的。我们使用学习率0.005进行前50k次迭代,使用学习率0.0005进行接下来的20k次迭代,使用学习率0.00005进行最后的10k次迭代,使用权重衰减0.0005和动量0.9进行随机梯度下降(SGD)优化。我们通过计算128×8个样本在所有GPU上的组概率来计算组概率的期望,并在最近的B个批次上对期望进行平均,以准确估计群体中组概率的期望;B在32和128之间经验上显示出类似的性能。04.2.消融研究0为了展示所提方法的有效性,我们对其行为进行了消融研究。对于所有实验,我们还使用了与前面提到的超参数相同的网络结构。为了清楚地展示每个消融研究的效果,将模型的TAR@FAR在IJB-B数据集[36]上进行比较;所有消融研究中的模型在LFW上都显示出约99.85%的性能。0组数。我们根据组数比较识别性能(表1a)。随着组数的增加,性能稳步提高。特别是,少数初始组可以获得很大的好处,通过部署更多的组,可以显著提高性能。0GDN的学习。我们比较了GDN的学习方法(表1b):(1)无损失(仅采用组感知网络结构),(2)朴素标签,以及(3)自分布标签。仅通过应用我们的新颖网络结构,识别性能就得到了极大的提高。特别是,通过调整提出的自分布标签方法,性能进一步提高。0硬 vs.软。S-GroupFace在性能上有很大的提升,因为它全面使用了所有组感知表示,并且只需合理的额外资源(表1c)。由于H-GroupFace仅使用一个最强的组感知表示,即使部署了许多组,增加组数的负担也只是轻微的额外资源。因此,H-GroupFace可以立即应用于实际应用中以获得高性能增益。0聚合 vs.连接。我们比较了如何将基于实例的表示和组感知表示组合成一个嵌入特征(表1d):(1)聚合和(2)连接。基于连接的GroupFace在TAR@FAR=1e-6上比基于聚合的GroupFace提高了0.67个百分点,然而,基于聚合的GroupFace在TAR@FAR=1e-5上比基于连接的GroupFace提高了1.16个百分点。我们选择了基于聚合的GroupFace,因为它通常具有更好的性能和更少的特征维度。0方法 #图像 LFW YTF0DeepID [ 29 ] 0.2M 99.47 93.2 DeepFace[ 30 ] 4.4M 97.35 91.4 VGGFace [ 25 ]2.6M 98.95 97.3 FaceNet [ 26 ] 200M99.64 95.1 CenterLoss [ 35 ] 0.7M 99.2894.9 RangeLoss [ 43 ] 5M 99.52 93.7MarginalLoss [ 8 ] 3.8M 99.48 95.9SphereFace [ 19 ] 0.5M 99.42 95.0常规人脸 [ 44 ] 3.1M 99.61 96.7 余弦人脸 [34 ] 5M 99.81 97.6 均匀人脸 [ 9 ] 6.1M99.80 97.7 AFRN [ 14 ] 3.1M 99.85 97.1弧面人脸 [ 7 ] 5.8M 99.83 97.7 组人脸5.8M 99.85 97.80表2. LFW和YTF的验证准确率(%)。0我们选择了基于聚合的GroupFace,因为它通常具有更好的性能和更少的特征维度,在TAR@FAR=1e-5上比基于连接的GroupFace提高了1.16个百分点。0组感知相似度。通过评估组感知相似度,再次显著提高了识别性能(表1e)。尽管组感知相似度增加了用于计算相似度的特征维度,但提取所需特征很容易,因为特征是识别网络的中间输出。特别是,这个实验表明,基于组的信息与传统的基于身份的信息有足够的差异,足以提高实际应用中的性能。我们在表5中展示了更详细的实验结果。0轻量级模型。GroupFace对于ResNet-34 [ 12]等轻量级模型也非常有效,该模型只需要8.9GFLOPS,比ResNet-100 [ 12 ]少24.2GFLOPS。基于ResNet-34的GroupFace在性能上与基于ResNet-100的ArcFace [ 7]相似,并且在最困难的标准(FAR=1e-6)上远远超过了ResNet-100。此外,组感知相似度显著超过了ResNet-34模型的基本性能(表1f)。04.3. 评估0LFW、YTF、CALFW、CPLFW、CFP-FP和AgeDB-30。我们使用无限制的带标签外部数据协议比较了LFW [ 13]和YTF [ 37]上的验证准确率(表2)。在YTF上,我们评估了所有图像,而不排除图像序列中的噪声图像。尽管这两个数据集都是高饱和的,我们的GroupFace超过了其他最近的方法。我们还报告了LFW的变体(CALFW [ 46 ]、CPLFW [ 45])、CFP-FP [ 27 ]和AgeDB-30上的验证准确率。125614151718282930310.000.050.100.15!56270方法 CALFW CPLFW CFP-FP AgeDB-300CenterLoss [ 35 ] 85.48 77.48 - - SphereFace [ 19 ]90.30 81.40 - - VGGFace2 [ 3 ] 90.57 84.00 - -余弦人脸 [ 34 ] 95.76 92.28 98.12 98.11 弧面人脸 [ 7 ]95.45 92.08 98.27 98.28 组人脸 96.20 93.17 98.6398.280表3.CALFW、CPLFW、CFP-FP和AgeDB-30的验证准确率(%)。0方法 协议 标识 验证0常规人脸 [ 44 ] 大 75.61 91.13 均匀人脸 [ 9 ]大 79.98 95.36 余弦人脸 [ 34 ] 大 80.56 96.56弧面人脸 [ 7 ] 大 81.03 96.98 组人脸 大 81.3197.350弧面人脸 [ 19 ] 大 / R 97.91 97.91 自适应人脸 [18 ] 大 / R 95.02 95.61 余弦人脸 [ 34 ] 大 / R97.91 97.91 弧面人脸 [ 7 ] 大 / R 98.35 98.49组人脸 大 / R 98.74 98.790表4.MegaFace上的识别和验证评估。Ident表示排名1的识别准确率(%),Verif表示TAR@FAR=1e-6(%)。R表示对重构版本[ 7]的MegaFace数据集的评估。0[ 22](表3)。我们的GroupFace在上述所有数据集上都显示出更好的准确性。MegaFace。我们在MegaFace [ 16]上使用大训练集协议评估我们的GroupFace(表4)。GroupFace是最近发表的最先进的人脸识别模型。在重构的MegaFace [ 7]上,我们的GroupFace也优于其他模型。IJB-B和IJB-C。我们在IJB-B [ 36 ]和IJB-C [ 21]数据集上将所提出的方法与其他方法进行比较(表5)。最近基于角度边界的softmax方法[ 7 , 34]在这些数据集上表现出很好的性能。我们报告了GroupFace在基于CosFace [ 34 ]和ArcFace [ 7]的验证准确率上的改进,而没有进行任何测试时增强,如水平翻转。我们的GroupFace在所有FAR标准上的改进都显著,相对于IJB-B上的ArcFace [ 7],在FAR=1e-6上提高了8.5个百分点,在FAR=1e-5上提高了1.8个百分点,在FAR=1e-4上提高了0.2个百分点;相对于IJB-C上的ArcFace [ 7],在FAR=1e-6上提高了4.3个百分点,在FAR=1e-5上提高了1.2个百分点,在FAR=1e-4上提高了0.4个百分点。识别性能再次显著提高,通过应用组感知相似度(Eq. 5),特别是在最困难的准则(TAR@FAR=1e-0(a) 基线 (b) v x (c) ¯ v x0图4. 基线网络(Ar- cFace [ 7 ]),表示GroupFace的实例化表示vx 和表示GroupFace的最终表示¯ v x 在重构的MSCeleb-1M [ 10]数据集上的2D空间中的定量比较。八个有颜色的圆代表八个身份。0图5. 重构的MSCeleb-1M [ 10]数据集上32个组的平均概率。12个组可以主要激活,其余组R则轻微影响。0在IJB-B上提高了5.3个百分点。04.4. 可视化0为了展示所提出方法的有效性,我们可视化了特征表示,组的平均激活以及组的视觉解释。02D表示的投影。图4显示了基线网络(ArcFace [ 7])的最终表示,GroupFace的基于实例的表示以及GroupFace的最终表示在2D空间上的定量比较。我们选择了重构的MSCeleb-1M数据集[ 10 ]中的前八个身份,并使用t-SNE [20]将提取的特征映射到角度空间上。定量比较表明,所提出的模型生成了比基线模型更具有区分性的特征表示,并且所提出的模型增强了基于实例的表示。0组的激活分布。所提出的自组织试图使样本均匀分布在所有组中,并且同时,基于softmax的损失也同时将梯度传播到GDN,以使识别效果最佳。因此,概率分布并不完全均匀(图5)。一些组的概率较低,而其他组的概率较高(例如,第1、2、5、6、14、15、17、18、28、29、30、31个组)。整体上FAR=1e-4VGGFace2 [3]-0.6710.800-0.7470.840CenterFace [35]----0.7810.853ComparatorNet [39]--0.849--0.885PRN [15]-0.7210.845---AFRN [14]-0.7710.885-0.8840.931CosFace [34]0.36490.88110.94800.88010.93700.9615ArcFace [7]0.38280.89330.94250.86250.93150.9565GroupFace−0.41660.89830.94530.88580.93990.9606GroupFace0.46780.91150.94450.90530.94370.9602GroupFace†0.52120.91240.94930.89280.94530.962656280方法在IJB-B上的TAR 方法在IJB-C上的TAR0表5. 在IJB-B和IJB-C上根据不同的FAR进行验证评估。GroupFace是通过ArcFace [ 7 ]进行训练的。-表示模型是通过CosFace [ 34]进行训练的,†表示模型是通过使用组感知相似度进行评估的。0分布并不像我们预期的那样均匀,但我们看到在高激活的组中没有主导性的组。0组的解释。训练得到的潜在组并不总是在视觉上可区分的,因为它们是通过使用潜在特征的GDN的非线性函数进行分类的,而不是通过面部属性(例如头发、眼镜和胡子)进行分类。然而,有两种情况的组(图6中的第5组和第20组)我们可以清楚地看到它们的视觉特性;在第5组中,随机选择的100张图像中有95张是男性,在第20组中,随机选择的100张图像中有94张是秃头男性。其他组没有被描述为一个视觉属性,但它们似乎被描述为多个视觉属性,例如微笑的女性、右侧轮廓的人和害怕的人在第1组中。05. 结论0我们引入了一种新的面向人脸识别的专用架构,它由一个组感知网络结构和一个自分布分组方法组成,以有效地操作多个潜在的组感知表示。通过广泛进行消融研究和实验,我们证明了我们的GroupFace的有效性。可视化结果还显示,GroupFace在根本上增强了特征表示,而不是现有方法,并且潜在组具有一些有意义的视觉描述。我们的GroupFace在识别性能上提供了显著的改进,并且可以实际应用于现有的识别系统。GroupFace的有效性背后的原理可以总结为两个主要方面:(1)众所周知,来自不同目标的额外监督可以通过共享特征提取网络来改善给定任务的准确性,例如,分割头可以提高目标检测的准确性[ 2 , 11]。同样,学习组可以是训练更广义的人脸识别特征提取器的有用线索。(2)GroupFace提出了一种融合基于实例的表示和基于组的表示的新结构,其有效性经过了实证验证。0第5组0第20组0第1组0第29组0图6. 属于每个组的示例图像。由于大规模数据集(80k �)的大量身份无法映射到少数几个组(32),每个组包含具有多个特征的身份。一些组具有一个共同的视觉描述(第5组:一些男性,第20组:秃头男性),但存在一些变化,而其他组具有多模式的视觉描述。0基于实例的表示和基于组的表示的融合结构在实证上证明了其有效性。0致谢0我们感谢Kakao Enterprise的AI团队,特别是WonjaeKim和Yoonho Lee对我们的帮助和反馈。[1] Timo Ahonen, Abdenour Hadid, and Matti Pietik¨ainen. Facerecognition with local binary patterns. In Tom´as Pajdla andJiˇr´ı Matas, editors, European Conference on Computer Vi-sion Workshops, 2004. 2[2] Sean Bell, C Lawrence Zitnick, Kavita Bala, and Ross Gir-shick. Inside-outside net: Detecting objects in context withskip pooling and recurrent neural networks. In IEEE Con-ference on Computer Vision and Pattern Recognition, 2016.8[3] Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman.Vggface2: A dataset for recognising faces across pose andage.In International Conference on Automatic Face andGesture Recognition, 2018. 1, 2, 7, 856290参考文献0[4] Mathilde Caron, Piotr Bojanowski, Armand Joulin, andMatthijs Douze. Deep clustering for unsupervised learningof visual features. In European Conference on ComputerVision , 2018. 20[5] D. Chen, X. Cao, F. Wen, and J. Sun.维度的福音:高维特征及其用于人脸验证的高效压缩。在IEEE计算机视觉和模式识别会议上,2013年。20[6] D. Chen, X. Cao, D. Wipf, F. Wen, and J. Sun.用于贝叶斯人脸验证的高效联合公式。IEEE模式分析与机器智能交易,2017年。20[7] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou. Arcface:用于深度人脸识别的加性角度边缘损失。在IEEE计算机视觉和模式识别会议上,2019年。1,2,3,4,5,6,7,80[8] Jiankang Deng, Yuxiang Zhou, and Stefanos Zafeiriou.用于深度人脸识别的边缘损失。在IEEE计算机视觉和模式识别会议研讨会上,2017年。2,60[9] Yueqi Duan, Jiwen Lu, and Jie Zhou. Uniformface:学习用于人脸识别的均匀分布表示。在IEEE计算
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功