没有合适的资源?快使用搜索试试~ 我知道了~
9906P2SGrad:用于优化深层人脸模型的张晓1赵瑞2严俊杰2高梦雅2乔宇3王晓刚1李洪生11香港中文大学-商汤科技联合实验室2商汤科技研究院3中国科学院深圳先进技术研究院SIAT-商汤科技联合实验室zhangx9411@gmail.comhsli@ee.cuhk.edu.hk摘要基于余弦的softmax损失[20,29,27,3]显著提高了深度人脸识别网络的性能。然而,这些损失通常包含敏感的超参数,这些超参数会使训练过程不稳定,并且为特定数据集设置合适的超参数非常棘手。本文通过以自适应的方式直接设计训练梯度来解决这一挑战。我们首先从梯度的角度研究并统一了以前的余弦softmax损失。这种统一的观点启发我们提出了一种新的梯度称为P2SGrad(概率到相似性梯度),它利用余弦相似性而不是分类概率来控制更新神经网络参数的梯度P2SGrad具有自适应性和超参数自由性,这使得训练过程更高效,更快速。我们在三个人脸识别基准上评估了我们的P2 SGrad,LFW [7],MegaFace [8]和IJB-C [16]。实验结果表明,P2SGrad训练稳定,对噪声具有鲁棒性,在所有三个基准测试中均达到了最先进的性能。1. 介绍在过去的几年里,深度卷积神经网络显著提高了人脸识别的准确性。最先进的方法基于深度神经网络,并采用以下管道:用不同类型的softmax损失训练分类模型,并使用训练的模型作为特征提取器来测试未看到的样本。然后利用测试人脸特征之间的余弦相似度来判断这些特征是否属于同一个身份。与其他视觉任务不同,例如对象检测,其中训练和测试具有相同的目标和评估程序,传统的人脸识别系统使用软最大损失进行训练,但使用余弦相似度进行测试。换句话说,在训练中的softmax概率和测试中的内积相似性之间存在差距。这个问题在经典的soft-max交叉熵损失函数(简称在剩余部分中),其主要考虑训练类的概率分布而忽略测试设置。为了弥合这一差距,余弦softmax损失[28,13,14]及其基于角度裕度的变量[29,27,3]直接使用余弦距离而不是内积作为输入原始分类分数,即logits。特别地,基于角度余量的变体旨在学习具有不同类之间的余量的决策边界。这些方法提高了在具有挑战性的设置中的人脸识别性能。尽管他们取得了成功,但基于余弦的softmax损失只是一种权衡:用于训练的监督信号仍然是考虑到两张测试人脸图像之间的相似性只与它们自身有关,而分类概率与所有的身份有关,余弦softmax损失不是人脸识别中理想的训练方法。本文旨在从不同的角度解决这些问题深度神经网络通常使用随机梯度下降(SGD)算法进行训练,其中梯度在此过程中起着至关重要的作用。除了损失函数之外,我们还关注cosine softmax损失函数的梯度。这种新的视角不仅使我们能够分析以前方法的关系和问题,而且还启发我们开发一种新的自适应梯度形式,P2 SGrad,它减轻了训练-测试失配的问题,并进一步提高了实际人脸识别性能。更具体地说,P2SGrad通过精心设计的梯度来优化深度模型与基于余弦的softmax损失中的传统梯度相比,P2SGrad使用余弦距离来代替原始梯度中的概率P2SGrad从超参数和类的数量中提取梯度,并匹配测试目标。本文主要在以下几个方面做出了贡献:1. 我们从梯度的角度分析了最近的cosine softmax损失及其基于角度边缘的变体,并提出了统一不同cosine softmax交叉熵损失的一般公式;2. 有了这个统一的模型, 我们提出了一种自适应9907图1.当前人脸识别系统的流水线。在这个通用管道中,在分类任务上训练的深度人脸模型被视为特征提取器。最好用彩色观看。hyperparameter-free gradient method -P2 SGrad用于训练深度人脸识别网络。该方法保留了余弦距离训练的优点,但在后向传播中用余弦相似度代替分类概率3. 我们在大规模人脸数据集上进行了大量的实验。实验结果表明,P2SGrad在相同的设置上表现出最先进的方法,并明显提高了训练过程的稳定性。2. 相关作品人脸识别的准确性提高[9,6,18,25]享受大规模的训练数据,以及神经网络结构的改进。现代人脸数据集 包含大 量的身 份,如 LFW [7],PubFig [10],CASIA-WebFace [32],MS 1 M [4]和MegaFace [17,8],它们可以有效地训练非常深的神经网络。最近的一些研究表明,精心设计的网络架构可以带来更好的性能,例如DeepFace [26],DeepID2,3 [22,23]和FaceNet [21]。在人脸识别中,特征表示规范化是一种提高模型最终性能的常用操作,COCO loss [13,14]和NormFace[28]通过数学分析研究了归一化的效果,并通过重新定义软最大损失和度量学习提出了两种策略。 巧合的是,L2-softmax[20]也提出了类似的方法。这些方法从不同的情况距离损失[33]被提出来通过最小化目标类内的距离来减少类内变化[1]。简单地使用欧几里得距离或欧几里得边缘不足以最大化分类性能。为了克服这个困难,提出了基于角度裕度角度约束被添加到传统的softmax损失函数中,以提 高 L-softmax [12] 和 A-softmax [11] 的 特 征 CosFace[29]、AM-softmax [27]和ArcFace [3]也采用了角裕度的思想,并采用了比上述方法更简单、在这些方法中,归一化被应用于特征和权重。3. cosine softmax损耗在本节中,我们将讨论由人脸识别模型的训练和测试之间的不匹配引起的限制。我们首先简要回顾一下cosine softmax损失的工作流程。然后分别从前向计算和后向计算的角度揭示现有损失函数在人脸识别中的局限性。3.1. cosine softmax损耗在人脸识别任务中,余弦softmax交叉熵损失具有优雅的两部分公式,softmax函数和交叉熵损失。我们首先讨论softmax函数。假设向量→xi表示面部图像的特征表示,softmax函数的输入是logitfi,j,即,意见.→xi,W→jf=s·=s·x,Wθ=s·cosθ、(1)优化辅助度量损失函数也是一个很好的方法。i、j→xi、j提升性能的理想选择。在早期,大多数人脸识别方法都使用度量损失函数,例如三重损失[30]和对比损失[2],它们使用欧几里德边缘来测量特征之间的距离利用这些工作,中心损失[31]和i2j2其中s是超参数,并且fi,j是分配给类别j的分类得分(logit),并且Wj是类别j的权重向量。 xi和Wθi,j是两个点之间的夹角培训更新要素类。概率One-hot地面实况训练面部图像深层人脸模型1Softmax2301交叉熵与0CQC0特征对特征提取器公司简介同一人余弦不同的人测试面对<���ℎ��������� ℎ���������测试相似性LCE……9908CEii,j ii,jJ特征xi和类权重Wj。然后将logitfi,j输入softmax函数以获得概率efi,j阿吉岛Pi,j=Softmax(fi,j)=Ck=1f,其中C是数字ei,k可以将输出Pi,j解释为概率。→xi的能力被分配给某个类j。 如果j=yi,则Pi,yi是→xi被分配给其对应类yi的类概率。然后,我们讨论与softmax函数相关的交叉熵损失,该函数测量预测概率Pi,yi和地面真值分布之间的偏差efi,yiLCE(→xi)=−logPi,yi=−log<$Ck=1、(二)efi,k其中LC E(→xi)是输入特征的损失→xi。 概率Pi,yi越大,损失LCE(→xi)越小。吉吉������图2. θi,j的梯度方向。注意这个梯度是为了减少损失LCE(→xi),模型需要来放大Pi,yi,从而放大fi,yi。然后θi,yi变小。总之,cosine softmax损失函数将θi,yi映射到概率Pi,yi,并计算交叉熵W→j更新方向W→j。红色的点线表明W→j的梯度垂直于W→j本身,并且在由→xi和W→j。这可以被看作是upd最快的方向失去了监督训练。在反向传播过程中,分类概率-W→yi接近于→xi,并且为了更新W→j,j从xi。最好的颜色。我会很远能力Pi,j对优化起关键作用梯度关于x和W 在余弦softmax中,损耗计算为然而,f的梯度保证金(cosθi,yi)对于j=yi去I jL(→x) βC=θi,j(P −n(y=j)<$f(cosθ)·,取决于裕度参数m的位置。例 如 ,在CosFace [29]中,f(cosθi,yi)=s·(cosθi,yi− m),因此,在ArcFace [3]中,f(cos θi,yi)= sx→xij=1x→xis·cos(θi,yi+m),因此,i,yi)=s·sin(θi,yi+m). 在sinθi,yiLCE(→xi)=(PW→i、j-(yi=j)f(cosθi、j)·θi,j,W→一般来说,梯度f(cosθi,j)总是一个标量,参数s,m和cosθi,j。J J(三)其中,当j=yi时,指示器函数f(j= y i)返回1。否则为0。可以计算出Δωsθi,j和Δωsθi,j基于上述讨论,我们重新考虑类权重W→由方程式(三)、第一次,W→jpart(Pi,j−n(yi=j)·nf(cosθi,j)是一个标量,它分别为:x→xiW→jcides梯度的长度,而第二部分θi,jW→θi,j=1(W)-cosθ·X),J是决定梯度方向的矢量以来各种余弦softmax损耗的梯度方向x→xiθi,jn→xin2j1i,jiˆ(四)保持不变,这些余弦softmax损失的本质区别是梯度的不同长度,W→j=W→j-2(xi−cosθi,j·Wj),显著影响模型的优化以下为─在第二节中,我们将讨论次优梯度长度其中Wj和Wxi分别是W→j和W→xi的单位向量。在图10中,可将θi,j可视化为红色θ w。二、这W→j梯度向量是类权重W→j的更新方向。直观地,我们期望W → j的更新使W→yi接近于→xi,并且使W→j(j=yi)从→xi 开 始。梯度分别由前向和后向过程引起3.2. 概率计算的局限性在本节中,我们讨论了深度面部网络中余弦softmax损失的前向计算的局限性,并重点讨论了在向前的计算。θi,jW→j垂直于W→j,指向W→xi。因此我们首先回顾Pi,j和θi,j之间的关系。 的更新W→j的最快最优方向。然后我们考虑梯度f(cos θi,j)。在传统的cosine softmax 损 失 [20 , 28 , 13] 中 , 分 类 得 分f(cosθi,j)=s·cosθi,j,因此,f(cosθi,j)=s。在基于角度裕度的余弦softmax损失[27,29,3]中,Pasticospastici,yi我的天啊吉吉9909分类概率Pi,j在等式(3)是梯度长度的一部分。因此,Pi,j显著地影响梯度的长度。概率Pi,j与logitfi,j呈正相关。对于所有余弦softmax损失,logits fi , j测量特征 →xi和类权重W→j 之间的θi,j。Alargerθi,jpro-9910I221 .一、00的情况。80的情况。60的情况。4迭代图3.在WebFace数据集上训练时每个小批次的平均θi,j的变化。(红色)非对应类的每个小批次中的平均角度,θi,j,其中j=/伊岛对应类别的每个小批次中的(Brown)平均角度,θi,yi。0的情况。20的情况。0图4.概率Pi,yiθi,y ∈(0,π)相对湿度曲线角θi,yi不同的θi,j越小,分类概率Pi,j越大。 这意味着θi,j通过其相应的概率Pi,j影响梯度长度。 该方程建立了θi,j与Pi,j之间的映射关系,使θi,j影响优化。上述分析也是余弦softmax损失在人脸识别任务中有效的原因由于θi,yi是广义化的直接度量,但它只能通过相应的输入超参数设置。π27π163π85π16π43π16π8π16Num. 迭代平均θi,yi平均Pi,yi1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0对于Pi,yi,在θi,yi和Pi,yi之间建立合理的映射关系至关重要。然而,当前cosine softmax损失存在两个棘手的问题:(1)分类图5.概率Pi,yi和角度θi,yi随迭代次数的变化随着超参数设置s = 35和m=0而增加。二、最好用彩色观看。概率Pi,yi对超参数设置敏感;(2)Pi,yi的计算依赖于类数,损失[3],logitfi,yi=s·cos(θ i,yi+m)。图4显示,与面部识别任务无关我们将在下面讨论这些问题s和m的不同设置会显著影响θi,yi和Pi,yi之间的关系。很明显,绿色的Pi,yi是对超参数敏感最曲线和紫色曲线是不合理的例子,lations. 前者是如此宽松,即使是一个非常大的θ常见的超参数在传统的cosine softmax损失[20,28,13]和裕度变量[3]是比例参数S和角度裕度参数M。我们将分析概率Pi,yi对超参数s和m的敏感性。为了更精确地分析,我们首先看θi,j的实际范围。 图图3展示了平均θi,j在训练中的变化。在数学上,θi,j可以是[0,π]中的任何值。然而,实际上,最大θi,j在π附近。蓝色曲线表明,θi,jforj yi在训练过程中没有显著变化。 布朗曲线表明θi,yi逐渐减小。因此,我们可以合理地假设θi,j<$π,对于jyi和范围i,yi可以产生高的Pi,yi,1。后者是如此严格,即使是很小的θi,yi也只能产生一个低的Pi,yi。简而言之,对于θi,yi的特定程度,不同设置下的概率Pi,yi的差异非常大。这一观察表明概率Pi,yi对参数s和m敏感。为了进一步证实这一结论,我们以实际训练中Pi,yi和θi,yi之间的对应关系为图5,红色曲线表示训练过程中Pi,yi的变化,蓝色曲线表示θi,yi的变化如上所述,Pi,yi,i,i,i,i可以产生关于θ2是[0,π]。则P很短的梯度,因此对更新的影响很小。i,yi2i,y,i可以重写为这个设置并不理想,因为Pi,yi快速增加到1efi,yiefi,yi但θi,yi仍然很大。分类概率Pi,yi=Cefi,k=efi,yi+s·cosθi,kypi,yi在很大程度上取决于超参数的设置。k=1efi,yi我 efi,yiPi,yi 包含类编号。在闭集分类中≈Σ=问题,概率Pi,j随着增长而变小efi,yi+启义 es·cosπ/2efi,yi+(C−1)(五)因为每个类都被分配了或多或少的概率(但不是0)。这在分类上是合理的。其中fi,yi是logit,→xi赋给对应的类yi,C是类数。从理论上讲,我们可以给出不同超参数设置下概率Pi,yi与角度θi,yi的对应关系在最先进的基于角度裕度的π27π163π85π16平均θi,yiπ平均θi,j,j/=yi4s = 64,m =0。2s= 64,m = 0s = 30,m =0。5s= 8,m = 0s = 8,m = 0。0π16π83π16π45π163π87π16π2θi,j概率Pi,yiθi,jProbabilityPi,yiΣKe9911任务。然而,这并不适用于人脸识别,这是一个开集问题。由于θi,yi是→xi的泛化i的直接度量,Pi,yi是泛化i的间接度量,我们期望它们具有一致的语义。 但Pi,yi与类核C有关,99121 .一、00的情况。80的情况。60的情况。43.4. 总结在上面的讨论中,我们首先揭示了各种余弦softmax损失具有相同的更新方向。因此,变体之间的主要区别在于它们的梯度长度。 对于梯度的长度,有两个决定其值的标量:前向过程中的概率Pi,yi和梯度ψf(cosθi,j)。对于Pi,yi,我们发现,随着超参数设置和类数的不同,0的情况。20的情况。0贝尔 对于φf(cos θf(cosθi,yi).i、j),其值取决于定义θi,y ∈(0,π)综上所述,从梯度的角度来看我使用余弦softmax损失[20,28,13]和它们的角度图6. Pi,yi具有不同的类号。超参数设置固定为s=15和m=0。五是公平比较。最好用彩色观看。边缘变量[3]不能产生具有良好解释的几何意义的最佳梯度θi,yi而这并不意味着他们之间的不匹配。4. P2SGrad:将概率更改为梯度中的相似性如图6、我们可以总结一下,数C是Pi,yi的重要因子。从上面的讨论中,我们发现余弦softmax损耗的正向计算存在局限性超参数和类别数都与人脸识别任务无关,它们可以确定概率Pi,yi,从而影响等式中的梯度长度(三)、3.3. 余弦softmax损耗在本节中,我们讨论了余弦softmax函数向后计算的局限性,特别是基于角度裕度的softmax损失[3]。我们重新考虑方程中的梯度f(cosθi , j)。(三)、除了在 本 节 中 , 我 们 提 出 了 一 种 新 的 方 法 , 即P2SGrad,它在训练人脸识别模型时仅通过θi,j形式上,由P2SGrad产生的梯度长度是无超参数的,并且与类C的数量无关,也不与logitfi,yi的特别定义相关。P2SGrad不需要指定的损失函数公式,因为梯度设计得很好,可以优化深度模型。由于现有技术的余弦软最大损耗的主要差异是梯度长度,因此改造合理的梯度长度是直观的想法。为了解耦梯度的长度因子和方向因子,我们重写Eq. (3)作为ΣCpi,yi,函数f(cosθi,j)的部分也影响梯度的长度更大的WMF(cosθi,j)产生更长的梯度LCE(→xi)=j=1L(Pi,j,f(cosθi,j))·D(W→j,→xi),(六)而较小的梯度产生较短的梯度。因此我们预计L(W→ )=L(P,f(cosθD(→x,W→),θi,yi并且,ΔTf(cosθi,j)的值是正相关的:CEji、ji,j i j小θi,yi对于小的ωf(cosθi,j),大θi,yi对于大的ω f(cos θ i,j),f(cosθi,j)。logitfi,yi在不同的cosine softmax损耗中是不同的,因此,logitf(cosθi,j)的具体形式是dif-其中,方向因子D(W→j,→xi)和D(→xi,W→j)被定义为:D(W→,→x)= 1(W<$−cosθ·<$x),费伦特 一般来说,我们专注于简单的余弦softmax损耗[20,28,13]和最先进的基于角度裕度的ji→xi2j→1i,j iˆ(七)损失[3]。它们的Δ ψf(cosθi,j)在图1中可见7的D(→xi,Wj)=W→j-2 (xi−cosθi,j·Wj),表明,在因子为f(cosθi,j)的情况下,传统softmax余弦损失中的梯度[20,28,13]其中Wj和,是W→j的单位向量和→xi,尊重iv el y。是恒定的。然而,在基于角度裕度的损失[3]中,梯度的长度和θi,yi是负相关的,这与我们的预期完全相反。此外,基于角边缘的损失[3]中梯度长度与θi,yi之间的对应关系变得棘手:当cosθi,j是特征→xi和类之间的余弦距离权重W→j。直接影响因素将不会改变,因为它们是变化最快的方向,这是之前指定的。 长度因子|L(Pi,j,f(cosθi,j))|被定义为θi,yi逐渐减少,Pi,yi倾向于缩短草的长度,.(1−Pi,y)|f(cosθi,y)|j=yi,但是,φf(cosθi,j)趋于拉长长度。在那里-因此,梯度长度的几何意义变为无法解释的角度余量为基础的余弦softmax损失。类别编号C= 10类别编号C= 100类别编号C= 1,000类别编号C=10,000类别编号C= 100,000cosθi,yi0π16π83π16π45π163π87π16π2概率Pi,yi29913|=ii|=iiPi,j·|f(cosθi,j)|ji=yi.(八)9914∇∇2我阿吉岛阿吉岛拉吉拉吉i,yii,yi简单余弦Softmax损失基于角度边际的损失图7. 如何影响梯度的长度。(左)θi,yi和φf(cos θi,j)之间的对应关系。 红色曲线意味着在传统的余弦softmax损耗[20,28,13]中,Δf(cosθi,j)是恒定的,而蓝色曲线意味着小的a θi,yi可以产生非常大的Δf(cosθi,j)。(右)每个点指的是一个特征→xi,垂直向量是权重W→yi。 θi,yi是每个→xi和W→yi之间的角度。 颜色从亮到暗对应于f(cosθi,j)从小到大. 因此,对于f(cosθi,j),暗点比亮点产生更长的梯度。最好用彩色观看长度因子|L(Pi,j,f(cosθi,j))|依赖于概率Pi,j和φf(cos θi,j),是我们要改革的.由于我们期望新的长度是无超参数的,所以余弦logitf(cosθi,j)将不具有超参数,改写为GP2SGrad(→xi)=ΣCj=1(cosθ−φ(j=y))·φcosθi,j,i,ji→xi像s或m这样的字母。因此,一个常数f(cosθi,j)应该是理想的选择。对于概率Pi,j,因为很难设定一个实际值,GP2SGrad(W→j)=(cosθi、j-φ(j=y))·φcosθi,j,W→(十一)θi,j与Pi,j之间的一个合理的映射函数,我们可以直接用cosθi,j作为Pi,j在梯度长度项上的一个很好的替代。首先,它们具有相同的理论值域[0,1],其中θi,j∈ [0,π]。其次,与Pi,j受超参数和类数的不利影响不同,cos θi,j不包含任何这些。 这意味着我们不需要为θi,yi和Pi,yi之间的理想对应选择指定的参数设置。此外,与Pi,j相比,cos θi,j是一种更自然的监督,因为余弦相似度用于开集人脸识别系统的测试阶段,而概率仅适用于闭集分类任务。因此,我们的重新-形成的梯度长度因子L(cosθi,j)可以定义为:L(cosθi,j)=cosθi,j−(j=yi),(9)其中L(cosθi,j)是cosθi,j 的 函 数。然后,可以将经改造的梯度GP2SGrad定义为:ΣC虽然分析过程稍显复杂,但P2SGrad的公式不仅简洁而且合理。当j=yi时,建议梯度长度与θi,j呈正相关,当j/= yi 时,它们呈负相关。 更重要的是,P2SGrad中的梯度长度仅取决于θi,j,因此适合人脸识别系统的测试度量。5. 实验在本节中,我们进行了一系列实验来评估所提出的P2SGrad。我们首先通过在LFW上测试模型的性能来验证P2SGrad在一些探索性实验中的优势然后,我们使用相同的训练配置在MegaFace [8] Challenge和IJBC1:1验证[16]上评估P2SGrad。5.1. 探索性实验预处理和训练设置。我们使用CASIA-WebFace [32]作为训练数据,ResNet-50作为神经网络架构。在这里,WebFace [32]数据集经过清理,包含大约450k张面部图像。[15]《明史》卷15GP2SGrad(→xi)=j=1 L∈(cosθi,j)·D(W→j,→xi),(十)应用于图像以提取面部区域,然后将人脸相似性变换所有图像的大小调整为GP2SGrad(W→j)=L(cosθi、j)·D(→xi,W→j),144×144。 此外,我们进行像素值归一化减去127。5除以128对于所有探索性实验,小批量的大小为512in其中,f是指示函数。 完整的公式可以在每次迭代中使用.J9915π27π163π85π16Av g. θi,yiofP2SG rad.毕业。P2SGrad的长度π43π16π8π16π27π163π85π16π4Av g. θi,yiofC os Face.毕业。CosFace的长度3π16π8π16毕业。长度毕业。长度Avg. θi,yiAvg. θi,yi1 .一、21. 21 .一、0个1. 00的情况。八点零分80的情况。6060的情况。4040的情况。2020的情况。00。00k30k60k90k迭代。0k30k60k90k迭代。1 .一、21. 21 .一、0个1. 00的情况。八点零分80的情况。6060的情况。4040的情况。2020k030k0 260k9004k0的情况。00k0 630K0 860k90k0的情况。01迭代。迭代。图8. θi、yi和梯度长度w.r.t. 迭代 现有的基于余弦的softmax损失中的梯度长度(左上、右上、左下)迅速减小到接近0,而由P2SGrad产生的梯度长度(右下)可以匹配xi与其地面真值类yi之间的θ i、yi。最好用彩色观看。Init. LR方法标准面CosFaceArcFaceP2SGrad−110√×√√×√×√×√×√−210√10−310−4√√表1.初始学习率的敏感性。下表显示了我们的P2SGrad和这些基于余弦的softmax损失在不同的初始学习率下是否可训练。梯度长度和θ i,y i的变化随时间的变化规律为:θ i,yi随梯度长度的变化规律为:迭代。 由于P2 SGrad旨在建立一个合理的地图-ping fromθi,yi梯度的长度,这是必要的to visualize可视化such这样mapping映射. 为了证明广告-vNavisphere的P2SGrad,我们绘制映射曲线的几个余弦为基础的softmax 损失8.该图清楚地表明,P2SGrad根据θ i,yi的变化产生更优的梯度长度。初始学习率的鲁棒性。基于保证金的损失的一个重要问题是,他们很难以高学习率训练。L-softmax [12]和A-softmax [11]的实现使用额外的超参数来调整裕度,以便模型可训练。因此,小的初始学习率对于正确训练基于角度裕度的softmax损失很重要。与此相反,根据表。1,我们提出的P2SGrad是稳定的,具有较大的学习率。收敛速度收敛速度是评价优化方法的重要指标。我们评估了训练模型在几个基于余弦的softmax损失的Labeled Faces in the Wild(LFW)数据集上的性能,以及我们在不同训练阶段的P2SGrad方法。LFW数据集是一个用于无限制人脸验证的学术测试集。它的测试协议包含大约13000张图片,大约1680个身份。有3000个正匹配0k30k60k90kNum. 迭代图9. 平均θi,yi的变化随时间的推移而变化。迭代次数 θi,yi表示xi与其地面真值类yi的权重向量之间的角度。示出了所提出的P2 SGrad、l2-softmax loss [20]、CosFace [29]和ArcFace [3]的曲线。方法Num. 迭代30K60K90Kl2-softmax [20]81.5091.27九十七92[29]第二十九话83岁63九十三58九十九。05ArcFace [3]八十五3294 77九十九。47P2SGrad91.2597.3899.82表2.P2SGrad的收敛速度和比较损失。在迭代次数相同的情况下,P2SGrad可以获得最佳性能。和相同数量的阴性匹配表. 图2显示了相同训练配置的 结 果 , 而 图 2 显 示 了 相 同 训 练 配 置 图 9 显 示P2SGrad中平均θi,yi的下降比其他损失更快。这些结π27π163π85π16π4Av g. θi,yiofl2-s oftm a x.毕业。 l2-softmax的长度。3π16π8π16π27π163π85π16Av g. θi,yiofA rcFace.毕业。弧面的长度π43π16π8π16Avg. θi,yiπ2θ关于l2-softmax7π16i,yiCosFace的θi,yiθi , ArcFace 的yiθi , P2SGrad的yi3π85π16π43π16π8π16Avg. θi,yiAvg. θi,yi毕业。长度毕业。长度9916果表明,我们提出的P2SGrad可以更快地优化神经网络9917方法MegaFace牵引器10101031041010l2-softmax [20]九十九。百分之七十三九十九。百分之四十九九十九。03%九十七百分之八十五九十五百分之五十六92.05%[29]第二十九话九十九。百分之八十二九十九。百分之六十八九十九。百分之四十六九十八百分之五十七九十七百分之五十八九十五百分之五十ArcFace [3]九十九。百分之七十八九十九。百分之六十五九十九。百分之四十八九十八百分之八十七九十八03%九十六。百分之八十八P2SGrad99.86%百分之九十九点七百分之九十九点五二98.92%98.35%百分之九十七点二五表3. MegaFace的识别精度。Inception-ResNet [24]模型使用不同的softmax损失和相同的清理WebFace [32]和MS 1 M [4]训练数据进行训练。方法真接受率@假接受率1010−210−310−410−510−610VggFace [18][19]第十九话九十五百分之六十四九十九。06%87岁百分之十三九十七百分之六十六74岁百分之七十九九十五百分之六十三五十九百分之七十五92. 百分之二十九四十三百分之六十九87岁百分之三十五三十二百分之二十81. 百分之十五-七十一百分之三十七l2-softmax [20]九十八百分之四十九十六。百分之四十五92. 百分之七十八86岁。百分之三十三七十七。百分之二十五62. 百分之六十一二十六岁百分之六十七[29]第二十九话九十九。01%九十七百分之五十五九十五百分之三十七91. 百分之八十二86岁。百分之九十四七十六。百分之二十五61岁百分之七十二ArcFace [3]百分之九十九点零七九十七百分之七十五九十五百分之五十五92. 百分之十三87岁百分之二十八82岁百分之十五七十二百分之二十八P2SGrad九十九。03%97.79%95.58%百分之九十二点二五87.84%82.44%73.16%表4.在IJB-C 1:1验证任务中,通过不同的比较softmax损失的TAR使用相同的训练数据(WebFace [32]和[18][19]5.2. 关于MegaFace预处理和训练设置。除了上面提到的WebFace [32]数据集之外,我们还添加了另一个公共训练数据集MS1M [4],其中包含大约2个。35M清洁和对齐的图像。在这里,我们使用Inception-ResNet [5,24]进行训练,批量大小为512评价结果。MegaFace 100万挑战[8]是一个公共识别基准,用于测试性能,面部识别算法的重要性。 MegaFace中的干扰器包含大约1,000,000个图像。在这里,我们遵循[3]中的清洁测试方案。结果P2SGrad在MegaFace数据集上的分布如表3所示。P2SGrad在MegaFace 100万次挑战中超过了其他基于余弦的损失,无论干扰物的大小如何5.3. IJBC 1:1验证评价预处理和训练设置。就像5.2。评价结果。IJB-C数据集[16]包含大约3500个身份,总共31334个静态面部图像和117542个无约束视频帧。整个IJB-C测试协议旨在测试检测,人脸的识别、验证和聚类。在1:1验证协议中,有19,557个阳性匹配和15,638,932个阴性匹配。因此,我们在非常严格的错误接受率下测试真实接受率。表. 4表明P2SGrad超过所有其他基于余弦的损失。6. 结论本文全面讨论了前向和后向过程在人脸识别深度模型训练中的局限性。针对这些局限性,我们提出了一种简单有效的梯度法P2SGrad,它不含超参数,优化效果更好。与以前专注于损失函数的方法不同,我们通过使用9918精心设计的梯度。大量的实验验证了该方法的鲁棒性和快 速收敛性。此 外,实验结果 表明,P2SGrad在几个具有挑战性的人脸识别基准测试中取得了优于最先进方法的性能。鸣谢。这项工作得到商汤科技集团有限公司的部分支持,部分由香港研究资助局的一般研究基金 资 助 ( 拨 款 编 号 : CUHK14202217 、CUHK14203118、CUHK14205615、CUHK14207814、CUHK14213616、CUHK14208417、CUHK14239816),部分由香港中文大学国家自然科学基金(61472410)和香港中国科学院联合实验室资助。引用[1] 彼得·N Belhumeu r,J oalovioPHespanha,andD avidJ. 克里格曼。特征脸对。fisherfaces:使用类别特 定 线 性 投 影 的 识 别 。 IEEE Transactions onPattern Analysis and Machine Intelligence , 19(7):711[2] S Chopra,R Hadsell和Y Lecun。学习相似性度量有区别地,与应用到人脸验证。计算机视觉与模式识别,2005年。CVPR 2005。IEEE计算机学会会议,第539- 546卷。1,2005年。[3] Jiankang Deng , Jia Guo , and Stefanos Zafeiriou.Arcface:用于深度人脸识别的附加角度余量损失arXiv预印本arXiv:1801.07698,2018。[4] Yandong Guo,Lei Zhang,Yuxiao Hu,JongdongHe,and Jianfeng Gao. Ms-celeb-1m:大规模人脸识别的数据集和基准。欧洲计算机视觉会议,第87-102页。施普林格,2016年。[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,andJian Sun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 在Proceedings of the IEEE conference on computervision and pattern recognition,第770-778页[6] 杰虎,李申,孙刚。挤压-激发网络。arXiv预印本arXiv:1709.01507,2017。9919[7] Gary B Huang,Manu Ramesh,Tamara Berg,and ErikLearned-Miller.在野外贴上标签的脸:研究无约束环境下人脸识别的数据库。技术报告,技术报告07-49,马萨诸塞大学,阿默斯特,2007年。[8] Ira Kemelmacher-Shlizerman , Steven M Seitz , DanielMiller,and Evan Brossard. megeface基准:100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议集,第4873-4882页[9] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[10] Neeraj Kumar,Alexander C Berg,Peter N Belhumeur,and Shree K Nayar.用于人脸验证的属性和特征分类器计算机视觉,2009年IEEE第12届国际会议,第365-372页。IEEE,2009年。[11] 刘未央,温延东,余智定,李明,拉吉比丘,宋乐Sphereface:用于人脸识别的深度超球面在IEEE计算机视觉和模式识别会议(CVPR),第1卷,2017年。[12] Weiyang Liu ,Yandong Wen,Zhiding Yu,and MengYang.卷积神经网络的大余量softmax损失。在ICML,第507-516页[13] Yu Liu,Hongyang Li,and Xiaogang Wang.通过同慷慨余弦损 失学习深度特 征用于人识 别。arXiv预印本arXiv:1702.06890,2017。[14] Yu Liu,Hongyang Li,and Xiaogang Wang.重新思考大规 模 识 别 的 特 征 鉴 别 和 聚 合 arXiv 预 印 本 arXiv :1710.00870,2017年。[15] Yu Liu , Hongyang Li , Junjie Yan , Fangyin Wei ,Xiaogan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功