角度softmax：开集人脸识别中的角度判别特征学习

151 浏览量更新于2023-10-15 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

212SphereFace：用于人脸识别的刘伟阳1温延东2余智定2李明3拉吉2宋乐11乔治亚理工学院2卡内基梅隆大学3中山大学wyliu@gatech.edu，{yandongw，yzhiding}@andrew.cmu.edu，lsong@cc.gatech.edu摘要本文研究了开集协议下的深度人脸识别（FR）问题，其中理想的人脸特征在适当选择的度量空间下具有小于最小类间距离的最大类内距离.然而，很少有现有的算法可以有效地实现这一标准。为此，我们提出了角度softmax（A-Softmax）损失，使卷积神经网络（CNN ）能够学习角度判别特征。在几何上， A-Softmax损失可以被视为对超球面流形施加歧视性约束，其本质上匹配面部也位于流形上的此外，角裕度的大小可以通过参数m定量地调整。我们进一步推导出具体的m来近似理想的特征标准。在Labeled Face inthe Wild（LFW）、Youtube Faces（YTF）和MegaFaceChallenge 1上的大量分析和实验表明了A-Softmax损失在FR任务中的优越性。1. 介绍近年来，卷积神经网络在人脸识别中取得了巨大的成功。由于先进的网络架构[13，23，29，4]和区别性学习方法[25，22，34]，深度CNN将FR性能提升到了前所未有的水平。通常，人脸识别可以分为人脸识别和人脸验证[8，11]。前者将一张脸分类为特定的身份，而后者确定一对脸是否属于同一身份。在测试协议方面，人脸识别可以在闭集或开集设置下进行评估，如图所示。1.一、对于闭集协议，所有测试身份都在训练集中预先定义。将测试人脸图像分类到给定的身份是很自然的。在这种情况下，人脸验证相当于分别对一对人脸进行识别（见图1左侧）。①的人。因此，闭集FR可以作为一个分类问题很好地解决对于开集协议，测试恒等式通常是不相交的闭集人脸识别开集人脸识别图1：开集和闭集人脸识别的比较。这使得FR更具挑战性，但更接近实践。由于不可能将人脸分类到训练集中的已知身份，我们需要将人脸映射到一个有区别的特征空间。在这种情况下，面部识别可以被视为在探头面部和图库中的每个身份之间执行面部验证（参见图11的右侧）。①的人。开集FR本质上是一个度量学习问题，其中的关键是学习有区别的大间隔特征。开放集FR期望的特征满足的标准，最大类内距离小于最小类间距离在一定的度量空间。如果我们想要使用最近邻来达到完美的精度，这个准则是必要的。然而，使用此标准学习特征通常是困难的，因为面部表现出本质上的大类内变化和高类间相似性[21]。很少有基于CNN的方法能够在损失函数中有效地计算上述标准π-.........标识出现在训练集中标识不出现在训练集中训练集.特征IDI比较距离培训设置...... 测试.... ......这是什么？画廊特征ID岛特征比较标签比较距离IDj.特征... 培训设置分类问题度量学习问题学习可分离特征学习大利润特征特征提取器标签预测器特征提取器标签预测器等效任务面部验证人脸识别训练集测试集213角平分线W1W23URjHcWiRQ到Sphere上- -≥302520151050-20-15-10-505101510.90.80.70.60.50.40.30.20.10-0.6-0.4-0.200.20.40.66050403020100-40-30-20-100102030401.21010.880.660.440.202-0.20-1-0.5 0 0.5 1-10-8-6-4-202410.90.80.70.60.50.40.30.20.10角平分线W2W13URjHcWiRQ到Sphere上-0.8-0.6-0.4-0.200.20.4(a) 原始Softmax损失（b）原始Softmax损失（c）修改的Softmax损失(d)修正Softmax损失（e）A-Softmax损失（f）A-Softmax损失图2：softmax损耗、修改后的softmax损耗和A-Softmax损耗之间的比较在这个玩具实验中，我们构建了一个CNN来学习CASIA人脸数据集子集上的二维特征具体来说，我们将FC1层的输出维度设置为2，并将学习到的特征可视化。黄点代表第一类面部特征，而紫点代表第二类面部特征。可以看到，通过原始softmax loss学习的特征不能简单地通过角度进行分类，而修改后的softmax loss可以。我们的A-Softmax损失可以进一步增加学习特征的角度裕度。oneering工作[30，26]通过softmax loss1学习面部特征，但softmax loss只学习可分离的特征，这些特征不够有区别。为了解决这个问题，一些方法将softmax损失与对比损失[25，28]或中心损失[34]相结合，以提高特征的识别能力[22] 采用三元组损失来监督嵌入学习，从而获得最先进的人脸识别结果。然而，中心损失只明确地鼓励类内紧凑性。对比损失[3]和三重损失[22]都不能约束每个单独的样本，因此需要精心设计的对/三重挖掘过程，这既耗时又对性能敏感。将Eu-clidean边缘强加给学习特征似乎是一个被广泛认可的选择，但问题出现了：欧几里德边缘总是适合于学习判别性人脸特征吗？为了回答这个问题，我们首先研究如何将基于欧几里德保证金的损失应用于FR。最新的方法[25，28，34]将基于欧几里得边际的损失与softmax损失相结合，以构建联合监督。然而，从图中可以看出。2，通过softmax loss学习的特征具有内在的角分布（也由[34]验证）。从某种意义上说，基于欧氏保证金的损失与softmax损失不兼容，因此将这两种类型的损失结合起来并没有很好的动机。在本文中，我们建议纳入角边缘，而不是。我们从一个二进制类案例开始分析 softmax 的损失。softmax loss中的决策边界是（W1W2）x+b1b2=0，其中Wi和b i是权重。s和偏置2的softmax损耗。如果我们定义x作为一个特征向量，并约束<$W1<$$>=<$W2<$$>=1和b1= b2= 0，决策边界变为<$x<$（cos（θ1）-cos（θ2））= 0，其中θ i是Wi和x之间的角度。新的决策边界仅取决于θ1和θ2。Modifiedsoftmax loss能够直接优化角度，使CNN能够学习角度分布特征（图1）。2）的情况。与原始softmax loss相比，通过修改后的softmax loss学习的特征是有角度分布的，但不一定更具区分性。最后，我们将修改后的softmax损失推广为角度softmax（A-Softmax）1在[16]之后，我们将softmax损失定义为最后一个全连接层，softmax函数和交叉熵损失的组合。2如果没有指定，论文中的权重和偏置对应于softmax loss中的全连接层。损失具体来说，我们引入一个整数m（m1）来定量控制决策边界。在二进制类的情况下，类1和类2的决策边界变为1× 2（cos（mθ1）-cos（θ2））=0和1×2（cos（θ 1）-cos（θ 2））= 0。cos（mθ2））=0。 m定量控制角边缘的大小此外，A-Softmax损失可以是很容易推广到多个类别，类似于softmax loss。通过优化A-Softmax损失，决策区域变得更加分离，同时扩大类间边界和压缩类内角分布。A-Softmax损失具有明确的几何解释。在A-Softmax损失的支持下，学习到的特征构造了一个判别性的角距离度量，该度量等价于超球面流形上的测地线距离。A-Softmax损失可以被解释为将学习的特征约束为在超球面流形上是有区别的，其内在地匹配面部图像位于流形上的先验[14，5，31]。A-Softmax损失和超球面流形之间的密切联系使得学习的特征对于人脸识别更有效。出于这个原因，我们将学习到的特征称为SphereFace。此外，A-Softmax损耗可以通过参数m定量地调整角裕度，使我们能够进行定量分析。鉴于此，我们推导出参数m的下界，以近似所需的开集FR标准，即最大类内距离应小于最小类间距离。我们的主要贡献可归纳如下：(1) 我们提出了CNN的A-Softmax损失，以学习具有清晰和新颖的几何解释的区分人脸特征。学习的特征有区别地跨越超球面流形，其本质上匹配面部也位于流形上的先验。(2) 我们推导出m的下界，使得A-Softmax损失可以近似最小类间距离大于最大类内距离的学习任务。(3) 我们是第一个在FR中显示角度裕度在公开可用的CASIA数据集[37]上训练，SphereFace在多个基准测试中取得了有竞争力的结果，包括Labeled Face in theWild （LFW ）， Youtube Faces （YTF）和 MegaFaceChallenge 1。原始空间角平分线W1W2B 1BProjectiRQ2到Sphere上原始空间原始空间214ǁ −ǁǁǁ∈Jyiǁ ǁ∀我e我我e伊伊ΣJ2. 相关工作度量学习度量学习旨在学习一个简单的-I类，分别。如果p1>p2，预测的标签将被分配给类1，如果p1xi<$cos（θj，i）+bjJA-Softmax损耗中的角度裕度被明确地施加并且可以被定量地控制（例如，下限近似所需的特征标准），而[16]只能定性分析。3. 深超球嵌入其中θj，i（0≤θj，i≤π）是向量Wj和xi之间的夹角。如上所述，我们首先在每次迭代中将Wj= 1，j归一化，并将偏差归零。然后我们有修改后的softmax损失：1Σ。e<$xi<$cos（θyi，i）<$L修改=N-日志我xi J(5)3.1. 重新审视Softmax损失我们通过研究softmax损失的决策标准来重新审视softmax损失。在二进制类情况下，通过softmax损失获得的后验概率为exp（WTx+b1）虽然我们可以通过修改后的softmax loss来学习具有角度边界的特征，但这些特征仍然不一定具有区分性。由于我们使用角度作为距离度量，因此很自然地将角度裕度并入学习的特征以增强辨别能力。到p1=1exp（WTx+b1）+ exp（WTx+b2）（一）为此，我们提出了一种新的方法来合并角裕度。1 2exp（WTx+b2）p2=2exp（WTx+b1）+ exp（WTx+b2）（二）3.2. 将角度裕度引入Softmax损失1 2其中x是学习的特征向量。Wi和Bi是重量-s和最后一个完全连接层的偏置，而不是设计一种新型的损失函数和控制器，构造具有softmax损失的加权组合（类似于我ee215≥MM≥我我我MMkπ（k+1）π损失函数决策边界Softmax损失（W1−W2）x+b1−b2=0修正Softmax损失xA-Softmax损失对于类别1，x（cosmθ1−cosθ2）=0对于类别2，x（cosθ1−cosmθ2）=0表1：二元情况下的决策边界的比较注意，θi为W i和x之间的夹角。对比损失），我们提出了一种更自然的学习角度边缘的方法从前面对softmax损失的分析中，我们了解到决策边界可以极大地影响特征分布，因此我们的基本思想是操纵决策边界以产生角度裕度。我们首先给出一个动态二进制类的例子来解释我们的想法是如何假设给定来自类别1的学习特征x，并且θiW2W1欧几里德边际损失修正Softmax损失A-Softmax损耗（m2）是x和Wi之间的角度，已知修改后的softmax loss需要cos（θ1）>cos（θ2）才能正确分类X. 但是如果我们要求cos（mθ1）>cos（θ2），m2是一个整数，以便正确分类x？它本质上使决策比以前更严格，因为我们要求cos（θ1）的下界3大于cos（θ2）。类别1的判定边界是cos（mθ1）=cos（θ2）。类似地，如果我们要求cos（mθ2）>cos（θ1）来正确地对类别2中的特征进行分类，则类别2的决策边界为cos（mθ2）=cos（θ1）。假设所有的训练样本都被正确分类，这样的决策边界将产生m−1θ1的角裕度，其中θ1是角度图3：欧几里德边际损失的几何解释（例如对比损耗、三重态损耗、中心损耗等），修改后的softmax损失和A-Softmax损失。第一行是二维特征约束，第二行是三维特征约束。橙色区域指示类别1的判别约束，而绿色区域指示类别2。比原始的更严格），从而产生角裕度。决策边界的比较见表1。从原始softmax损耗到修正softmax损耗，从优化内积到优化角度。从修正的softmax 损失到A-Softmax损失，它使决策边界更加严格和分离。角裕度随着m的增大而增大，并且如果m=1，则角裕度为零。中国+12 2在W1和W2之间。从角度来看，正确从恒等式1分类x需要θ1<θ2，而从恒等式2正确分类x需要θ2<θ1。两者分别比原来的θ1<θ2和θ2<θ1更困难通过直接将这个想法公式化到修改后的softmax损失方程中。（5）我们有在A-Softmax损失的监督下，CNN学习具有几何可解释的角度边缘的面部因为A-Softmax损失要求Wi=1，bi=0，它使得预测仅取决于样本x和Wi之间的角度。所以x可以归类为具有最小角度的恒等式。添加参数m是为了学习角度1Σ。exicos（mθyi，i）不同身份之间的长=-日志xix我为了便于梯度计算和反向传播，你我i+j/=yiej，i (6)我们将cos（θj，i）和cos（mθ哎我，我）的表达式其中θy，i必须在[0，π]的范围内。为了只包含W和xi，这很容易通过定义来实现，余弦和多角公式的改进（也是摆脱这种限制，使其在CNN中可优化，本文将cos（θyi，i）的定义范围推广到一个单调递减的角函数θyi ，i，它应等于[0，π ]中的cos（θ yi，i），从而扩大了cos（θ yi，i）的定义范围。所以我们的我们需要m是一个整数）。没有θ，我们可以计算关于x和W的导数，类似于softmax loss。我是3.3岁。A-Softmax损失的超球面解释建议的A-Softmax损失公式为：1Σ。e <$x i<$$>（θyi，i）<$A-Softmax损失对正确的长=N-日志我e（θyi，i）+θ伊伊xi(7)当m2时，生成角分类，不同类别的学习特征之间的差距其中我们定义<$（θy，i）=（−1）kcos（mθy，i）−2k，[001 pdf 1st-31files] θ y，i∈ [，]且k∈[0，m−1]。 m≥1是整数，A-Softmax损失不仅通过角度裕度向学习的特征施加区分能力，而且还呈现良好的和新颖的超球面解释。如图3、控制角边距大小的ger当m=1时，成为修改后的softmax损失。A-Softmax损失的判断也可以从决策边界的角度进行W2W11X2 2W11W2O二维超球面流形W1W2OW1W 2O1 2XW11W2O 2三维超球面歧管J216MA-Softmax损失对不同类别采用不同的决策边界（每个边界3当θ 1 ∈ [ 0，π ]，m ≥ 2时，不等式cos（θ1）>cos（mθ1）成立。A-Softmax损失等价于学习超球面流形上的判别特征，而欧几里得边缘损失学习欧几里得空间中的特征。为了简化，我们采用二元的情况来分析超球解释.考虑来自类别1的样本x和两个列权重W1，W2，217J∀≥≥v+1√≥√m−1m+1A-Softmax损失为cos（mθ1）>cos（θ2），相当于mθ1<θ2。请注意，θ1，θ2等于它们对应的弧在解决了这两个不等式之后，我们可以有mmin2+ 3，这是二进制情况下的下界。单位h超球面{vj ，vj}上的长度ω 1，ω 2 4|jv2=1，v≥0}. 因为W1=W2= 1，所以决定取决于弧长ω1和ω2。决策边界相当于mω1=ω2，将x正确分类到类1的约束区域为mω1<ω2。从几何上讲，这是一个位于超球面流形上的超圆形区域例如，它是单位球面上的一个圆形区域，性质3（多类情况下m min的下界）。在假定Wi，Wi在欧氏空间中均匀分布的情况下，我们有mmin≥3.证据我们考虑二维k类（k≥3）情形下的下界. 因为Wi，i是均匀分布的在二维欧氏空间中，我们有θi+1=2π，其中θi+1是iki3D的情况下，如图所示。3.第三章。注意，较大的m导致更小的超圆形区域，这是一个显式的歧视性约束的流形。为了更好地...Wi和Wi+1之间的夹角。由于Wi，Wi是对称的，我们只需要分析其中一对于第i类（Wi），我们需要限制理解，菲格。3提供2D和3D可视化。一θi+1θi. （m−1）θi+1（m−1）θi<$I+i−1≤min我，i−1（十）可以看出，A-Softmax损耗对M+1M+1M+1M+1二维情况下的单位圆和联系我们最大类内角度联系我们最小类间角三维情况下的单位球。分析表明，优化具有A-Softmax损失的角度本质上使学习的特征在超球体上更具区分性。3.4. A-Softmax损失物业1. A-Softmax损失定义了一个具有可调整难度的大角度边缘学习任务。随着m的增大，角裕度变大，流形上的约束区域变小，相应的学习任务也变得更加困难。我们知道m越大，角裕度A-Softmax损耗约束越大。存在一个最小的m约束最大类内角距离小于最小类间角距离，这也可以在我们的实验中观察到。定义1（期望特征分布的最小m）。m_min是最小值，使得当m > m_min时，A-Softmax损失定义了学习任务，其中最大类内角特征距离被约束为小于最小类间角特征距离。性质2（在bin a ry类情况下m min的下界）。在二进制类的情况下，我们有mmin≥ 2 + 3。证据我们考虑W1和W2所跨越的空间。由于m2，很容易得到类1所跨越的最大角度是θ12+θ12，其中θ12是W1和W2之间的角度。为了要求最大类内特征角距离小于最小类间特征角距离，我们需要约束在解决这个不等式后，我们得到mmin3，这是多类情况下的下界。基于此，我们使用m=4来近似期望的特征分布标准。由于下界不一定是紧的，所以在一定条件下给出一个紧的下界和一个上界也是可能的，我们留给未来的工作。实验还表明，较大的m始终工作得更好，m=4通常会满足要求。3.5. 讨论为什么是角边。首先，也是最重要的是，角度边缘直接与流形上的判别性相关联其次，将角度裕度与softmax损失结合实际上是一个更自然的选择。如图2所示，通过原始softmax loss学习的特征具有内在的角分布。因此，直接将欧氏裕度约束与softmax损失相结合是不合理的。与现有损失比较。在深度FR任务中，最受欢迎和性能良好的损失函数包括对比损失、三重损失和中心损失。首先，他们只对学习到的特征施加欧几里德边缘（w/o normalization），而我们的方法则直接考虑自然动机的角度第二，对比损失和三重损失都遭受数据膨胀时，从训练集构成的对/三重，而我们不需要样本挖掘，并施加歧视性的约束，整个小批量（对比和三重损失，只影响了几个代表性的对/三重）。θ12θ12（m−1）θ12+≤，θm−1≤π（8）m−1m+1M+112米4. 实验联系我们最大类内角度联系我们最小类间角2π−θ12θ12+≤（m−1）θ12，θ12> m−1（九）4.1. 实验设置M+1vM+1}M m˛¸}预处理。我们只使用标准的预处理。的最大类内角度最小类间角所有图像中的面部标志都由MTCNN检测[39]。4ωi是单位超球面上Wi与样本x的投影点之间的最短弧长（测地距离），而相应的θi是Wi与x之间的夹角。裁剪后的人脸通过相似性变换得到。RGB图像中的每个像素（[0，255]）通过减去127.5然后除以128来归一化。218∼层4层CNN10层CNN20层CNN36层CNN64层CNNConv1.x[3× 3，64]×1，S2[3× 3，64]×1，S2[3× 3，64]×3 ×3，64×13 ×3，64[3× 3，64]×3 ×3，64×23 ×3，64[3× 3，64]×3 ×3，64×33 ×3，64Conv2.x[3× 3，128]×1，S2[3× 3，128]×3 ×3，128×13 ×3，128[3× 3，128]×3 ×3，128×23 ×3，128[3× 3，128]×3 ×3，128×43 ×3，128[3× 3，128]×3 ×3，128×83 ×3，128Conv3.x[3× 3，256]×1，S2[3× 3，256]×3 ×3，256×23 ×3，256[3× 3，256]×3 ×3，256×43 ×3，256[3× 3，256]×3 ×3，256×83 ×3，256[3× 3，256]×3 ×3，256 ×163 ×3，256Conv4.x[3× 3，512]×1，S2[3× 3，512]×1，S2[3× 3，512]×3 ×3，512×13 ×3，512[3× 3，512]×3 ×3，512×23 ×3，512[3× 3，512]×3 ×3，512×33 ×3，512FC1512512512512512表2：我们具有不同卷积层的CNN架构。Conv1.x、Conv2.x和Conv3.x表示可以包含多个卷积层的卷积单元，并且残差单元在双列括号中示出例如，在一个示例中，[3×3，64]×4表示4个级联卷积层，64个滤波器大小为3×3，S2表示步幅2。FC1是全连接层。CNN 设置。 Caffe [10] 用于实现 A-Softmax 损失和CNN。训练和提取SphereFace特征的一般框架如图所示。4.第一章我们在CNN架构中使用残差单元[4]为了公平起见，所有比较的方法都使用与SphereFace相同的CNN架构（包括残差单元）。使用不同深度（4，10，20，36，64）的CNN来更好地评估我们的我们使用的不同CNN的具体设置见表2。根据3.4节的分析，除非特别说明，否则我们通常将A-Softmax损失中的m设置为4。这些模型在四个GPU上以128的批量大小进行训练。学习率从0.1开始，在16K、24K迭代时除以10。训练在28K迭代中完成。培训培训面临测试余弦相似性深度特征测试面A-Softmax损失FC1层Conv层角度度量标签图4：训练和提取SphereFace特征。培训数据。我们使用公开的网络收集的训练数据集CASIA-WebFace [37]（在排除测试集中出现的身份图像之后）来训练我们的CNN模型。CASIA-WebFace拥有494，414张人脸图像，属于10，575个不同的个人。这些面部图像被水平地压缩以用于数据增强。请注意，我们的训练数据规模（0.49 M）相对较小，特别是与DeepFace中使用的其他私有数据集相比[30]（4M），VGGFace [20]（2M）和FaceNet [22]（200M）。试验.我们从FC1层的输出中提取深度特征（SphereFace）对于所有实验，最终通过连接测试面部的原始面部特征和其水平叠加的特征来获得测试面部的表示分数（度量）由两个特征的余弦距离计算最近邻分类器及阈值分别用于面部识别及验证4.2. 探索性实验M的影响。为了表明更大的m导致更大的角边缘（即，流形上更具区别性的特征分布），我们执行具有不同m的玩具示例。我们用6个在CASIA-WebFace中拥有最多样本我们将输出特征维度（FC1）设置为3，并在图1中可视化训练样本。五、可以观察到，如所预期的，较大的m导致球体上的更有区别的分布以及更大的我们还使用类1（蓝色）和类2（深绿色）来构建正对和负对，以评估来自同一类和不同类的特征的角度分布。正负对的角度分布（图2的第二行）。5）定量地表明，随着m的增加，角裕度变大，各类之间也变得更加明显。除了视觉比较外，我们还对LFW和YTF进行了人脸识别，以评估m的效果。为了公平比较，我们使用64层CNN（表2）来处理所有损失。结果在表3中给出。可以观察到，当m变得更大时，A-Softmax损失的准确度也变得更好，这表明更大的角度裕度可以带来更强的辨别能力。数据集原始m=1m=2M=3M=4LFWYTF97.8893.197.9093.298.4093.899.2594.499.4295.0表3：LFW和YTF数据集上不同mCNN架构的影响。我们用不同数量的卷积层训练A-Softmax损失（m=4）和原始softmax损失。具体的CNN架构可以在表2中找到。从图6中可以观察到，A-Softmax 损失始终优于具有 softmax 损失的CNN（1.54% 1.91%），这表明A-Softmax损失更适合于开集FR。此外，困难的学习任务21935九十九点四二97.8897.596.6397.7597.1298.26九十九。99.0399.2A-Softmax准确度（%）x1046x10410x10415x1041542000.511.522.53第3.5节8642000.511.522.53第3.5节105000.511.522.53第3.5节105000.511.522.53第3.5节角度角度角度角度A-Softmax（m=1）A-Softmax（m=2）A-Softmax（m=3）A-Softmax（m=4）图5：使用不同m学习的特性的可视化。第一行显示投影在单位球体上的3D特征。投影点是特征向量和单位球体的交点第二行示出了正对和负对两者的角度分布（我们从子集中选择类别1和类别2来构造正对和负对）。橙色区域表示阳性对，而蓝色区域表示阴性对。所有角度都以弧度表示。请注意，此可视化实验使用CASIA-WebFace数据集的6类子集。由A-Softmax定义的损失充分利用了更深层架构的卓越学习能力。A-Softmax损失极大地提高了LFW的验证准确度，从98.20%提高到99.42%，YTF从93.4%提高到95.0%。相反，更深的标准CNN的改进是不令人满意的，并且也容易饱和（在LFW上从96.60%到97.75%，在 YTF上从91.1%到93.1%）。100 9695999498 93929791964 10203664# Conv Layers904 10203664# Conv Layers表4：LFW和YTF数据集的准确度（%）* 表示外部数据图6：不同卷积层数下LFW和YTF的准确度（%）左侧为LFW，右侧为YTF。4.3. LFW和YTF的实验LFW数据集[9]包括来自5749个不同身份的13，233张人脸图像，YTF数据集[35]包括来自1，595个不同个体的3，424个视频。这两个数据集都包含在姿势、表情和光照方面变化很大的人脸。我们在两个数据集上都遵循无限制的带标签外部数据协议[8]。在来自LFW的6，000个面部对和来自YTF的5，000个视频对上评估了SphereFace的性能结果在表4中给出。对于对比损失和中心损失，我们遵循FR约定，形成具有softmax损失的加权组合。权重通过训练集上的交叉验证来选择对于L-Softmax [16]，我们也使用m=4。所有的比较是私有的（不公开）。为了公平比较，我们实现的所有损失函数（包括我们的）都使用表2中的64层CNN架构。损失函数共享相同的64层CNN架构。大多数现有的人脸验证系统都是通过大量的训练数据或模型集来实现高性能的。当使用在公开可用的数据集（CAISA-WebFace，相对较小且具有噪声标签）上训练的单个模型时，SphereFace在LFW和YTF数据集上实现了99.42%和95.0%的它是目前在WebFace上训练的最佳与在高质量私有数据集上训练的模型相比，SphereFace仍然非常有竞争力，表现优于表4中的大多数现有结果。应该注意到，我们的单个模型性能只比Google FaceNet差，后者使用超过2亿个数据进行训练。负对正对最大角度（位置对）：1.71最小角度（负对）：0.30角边缘：-1.41负对正对最大角度（位置对）：0.94最小角度（负对）：0.82角边缘：-0.12负对正对最大角度（位置对）：0.54最小角度（负对）：1.07角边缘：0.53负对正对最大角度（位置对）：0.48最小角度（负对）：1.14角边缘：0.6695.0.792.991.192.092.693.193.49394.194.3A-Softmax准确度（%）数量数量数量数量方法模型数据LFWYTFDeepFace [30]34M*97.3591.4[22]第二十二话1200M*99.6595.1[20]第二十话12.6M98.9597.3[27]第二十七话1300K*98.70N/A[27]第二十七话25300K*99.4793.2百度[15]1130万 *99.13N/A中心面[34]10.7M*99.2894.9Yi等人[37]第三十七届1WebFace97.7392.2Ding等人[二]《中国日报》1WebFace98.43N/ALiu等人[16个]1WebFace98.71N/ASoftmax损失1WebFace97.8893.1[26]第二十六话1WebFace98.7893.5[22]第二十二话1WebFace98.7093.4[16]第十六话1WebFace99.1094.0[34]第34话1WebFace99.0594.4SphereFace1WebFace99.4295.0220SphereFace（3个贴片）SphereFace（单个）Deepsense_smallSIAT_MMLABNTechLAB_小型Barebones_FR3DiVi-tdvm 6JointBayesLBP随机识别率（%）100 100 1 180 8060 600.80.60.80.640 400.40.420 200.20.20 0 0 010610410210010410210010- 610- 410- 210- 610- 410- 2#distractor#distractor假阳性率假阳性率1M标度CMC曲线10K标度CMC曲线10K标度ROC曲线1M标度ROC曲线10K标度图7：在小训练集方案下不同方法的CMC和ROC曲线方法议定书等级1 Acc.Ver.NTechLAB - facenx large大73.30085.081Vocord-DeepVo1大75.12767.318Deepsense -大型大74.79987.764上海理工大学大74.04986.369谷歌- FaceNet v8大70.49686.473北京FaceAll_Norm_1600大64.80467.118北京FaceAll_1600大63.97763.960Deepsense -小型小70.98382.851SIAT_MMLAB小65.23376.720Barebones FR -cnn小59.36359.036NTechLAB -facenx_small小58.21866.3663DiVi公司-tdvm 6小33.70536.927Softmax损失小54.85565.925[26]第二十六话小65.21978.865[22]第二十二话小64.79778.322[16]第十六话小67.12880.423[34]第34话小65.49480.146SphereFace（单个模型）小72.72985.561SphereFace（3-patchensemble）小75.76689.142表5：MegaFace挑战的性能（%）表示在1M干扰项下的1级识别准确度，而“Ver.”表示10−6FAR的验证TAR。TAR和FAR分别表示真接受率和假接受率。为了公平比较，我们实现的所有损失函数（包括我们的）都使用相同的深度CNN架构。为了公平比较，我们还实现了softmax损失，对比损失，中心损失，三重损失，L-Softmax损失[16]，并使用与A-Softmax损失相同的64层CNN架构对其进行训练。从表4中可以看出，SphereFace始终优于通过所有这些比较损失学习的特征，显示出其在FR任务中的优越性。4.4. MegaFace挑战MegaFace数据集[18]是最近发布的测试基准，具有非常具有挑战性的任务，以评估在百万级干扰项下人脸识别方法的性能MegaFace数据集包含图库集和探针集。图库集包含来自69万个不同个人的超过100万张图像。探针集由两个现有数据集组成：[19]和FGNet。MegaFace有几个测试场景，包括两种协议（大或小训练集）下的识别，验证和姿势不变性如果训练集小于0.5M，则将其视为小的。我们在小训练集下评估SphereFace议定书我们采用两种测试方案：人脸识别和验证。结果见图7和Tabel5. 请注意，我们使用简单的3-patch特征拼接集成作为SphereFace的最终性能。图 7 和表 5 显示，在小训练数据集协议下，SphereFace（3个补丁）在MegaFace基准测试中以较大幅度（rank-1识别率为4

下载后可阅读完整内容，剩余1页未读，立即下载