深度人脸识别的自适应课程学习损失

96 浏览量更新于2023-10-25 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1CurricularFace：深度人脸识别的自适应课程学习损失黄宇歌<$YuhanWang<$ Ying Tai <$$>刘晓明<$Pengcheng Shen<$Shaoxin Li <$$>JilinLi<$Feiyue Huang<$†优图实验室、腾讯§浙江大学<$密歇根州立大学†{yugehuang，yingtai，quantshen，darwinli，jerolinli，garyhuang}@ tencent.com§liuxm@cse.msu.eduwang_yuhan@zju.edu.cn，https://github.com/HuangYG123/CurricularFace摘要作为人脸识别领域的一个新兴课题，设计基于边缘的损失函数可以增加不同类别之间的特征边缘，从而提高人脸的区分度。最近，基于挖掘的策略的想法被采用，以强调错误分类的样本，取得了可喜的结果。然而，在整个训练过程中，现有的方法要么没有明确强调样本的重要性，使硬样本没有得到充分利用;或者甚至在可能导致收敛问题的早期训练阶段明确地强调半硬/硬样本的效果。在这项工作中，我们提出了一种新的自适应课程学习损失（Cur- ricularFace），它将课程学习的思想嵌入到损失函数中，以实现一种新的深度人脸识别训练策略具体来说，我们的CurricularFace在不同的训练阶段自适应地调整简单和困难样本的相对重要性。在每个阶段中，根据不同的样本对应的难度，赋予不同的重要性。在流行的基准测试上进行的大量实验结果表明，我们的CurricularFace优于最先进的竞争对手。1. 介绍卷积神经网络（CNN）在人脸识别方面的成功主要归功于：庞大的训练数据、网络架构和损失函数。最近，设计有效的损失函数，提高区分能力是训练深面CNN的关键。目前的SOTA人脸识别方法主要采用基于softmax的分类损失法。由于原始softmax的学习功能并不充分，表示Ying Tai和Shaoxin Li为通讯作者。图1. 不同的训练策略，用于调制硬样本的负余弦相似性（即，在 ArcFace [8] 、 MV-Arc-Softmax [31] 和我们的Curriculary-Face中，左：不同方法中硬样本的n个余弦相似度的调制系数I（t，cos θj），其中t是自适应估计的参数，θj表示硬样本与非地面真实j类中心之间的角度右：对应硬样本调制后的关系N（t，cosθj）=I（t，cosθj）cosθj+c，其中c表示常数。一方面，在早期训练阶段（例如，，t接近于0），硬样本因此，容易的样品相对受到重视;在稍后的训练阶段（例如，，t接近于1）时，硬样本另一方面，在同一训练阶段，我们对硬样本的负余弦相似度进行调制其中cosθj。具体地说，角度θj越小，调制系数应该越大。对于实际的人脸识别问题[14]，这意味着测试身份通常与训练集不相交，因此已经提出了几种基于边缘的变体来增强特征的区分能力。例如，显式余量，即、Cos- Face [30]、Sphereface [14]、ArcFace [8]和隐式标记，即. Adacos [38]补充了原始的softmax函数，以增强类内紧凑性和类间差异，从而产生更多的区别特征。然而，这些基于边际的损失函数并没有明确地强调每个样本根据其IM。5901后期早期难硬难硬5902重要性如[5，10]所示，硬样本挖掘也是进一步提高最终精度的关键步骤。作为一种常用的硬样本挖掘方法，OHM [26]侧重于一个小批量中的大损失样本，其中硬样本的百分比是凭经验确定的，容易的样本被完全丢弃。焦点损失[16]是一种软挖掘变体，它将损失函数校正为精心设计的形式，其中两个超参数应该通过大量努力来调整以确定每个样本的权重，并且通过减少简单样本的权重来强调硬样本。最近，Triplet loss [23]和MV-Arc-Softmax [31]的动机是将保证金和采矿整合到一个框架中。三重态丢失采用半硬挖掘策略获得半硬三重态，扩大了三重态样本之间的间隔。MV-Arc-Softmax [31]明确将硬样本定义为错误分类的样本，并通过使用预设常数增加其负余弦相似性的权重来强调它们。简而言之，基于采矿的损失函数明确强调半硬或硬样品的影响[23]。然而，在基于保证金和基于挖掘的损失函数的训练策略中存在缺点。总基于softmax的损失函数可以用公式表示如下：esT（cosθyi）识别的自适应方式，这不同于传统的CL在两个方面。第一，课程结构的适应性。在传统的合作学习中，样本是按照相应的难度排序的，通常是由先验定义的，然后固定来建立课程。CurricularFace在每个小批量中随机抽取样本，通过在线挖掘硬样本自适应地建立课程，体现了不同重要性样本的多样性第二，硬样本的重要性是自适应的。一方面，难样本和易样本的相对重要性是动态的，可以在不同的训练阶段进行调整。另一方面，在当前的小批量中，每个硬样本的重要性取决于其自身的难度。具体地说，该方法将小批量误分类样本作为硬样本，通过调整样本与非地面真值类中心向量的余弦相似度的调制系数I（t，cosθj），即. e. ，n例如在iv e余弦相似度cosθj 处。为了实现为了在整个训练过程中实现自适应课程学习的目标，我们设计了一个由两个因素决定的非线性系数函数I（·）：1）利用正余弦相似的移动平均值自适应估计参数t样本与相应的地面实况分类中心之间的联系，以减轻手动调整的负担;和L= −logΣesT（cosθyi）+nj=l，ji=yiesN（t，cosθj）、（一）2）定义硬样品困难度的角度θj以实现自适应分配。总而言之，贡献-这项工作的部分是：其中T（cosθyi）和N（t，cosθj）=I（t，cosθj）cosθj+c是分别定义正余弦相似性和负余弦相似性的函数。I（t，cosθj）表示负余弦相似度的调制系数，c为常数。对于基于边际的方法，挖掘策略是ig-NORED，因此没有利用每个样本的难度，这可能导致当在小主链上使用大余量时的收敛问题，例如，[6].如图所示。1，调制系数I（·），负余弦相似性在Ar中固定为常数1在整个训练过程中对所有样本进行cFace为基于挖掘的方法，在早期训练阶段过度强调硬样本可能会阻碍模型收敛。MV-Arc-Softmax通过将n ∈ iv ∈余弦相似度调制为N（t，cosθj）=tcosθj+t−1来强调硬样本，I. e. ，I（t，cosθj）=t，其中t是手动定义的连续函数。stant. 正如MV-Arc-Softmax声称的那样，t在模型收敛特性和稍大的值（例如，、>1个。4）可能导致模型难以收敛。因此t需要仔细调整在这项工作中，我们提出了一种新的自适应课程学习损失，称为CurricularFace，以实现深度人脸识别的新训练策略。基于人类学习的本质，即先学简单的案例，然后再学困难的案例[2]，我们的CurricularFace将课程学习（CL）的思想融入到Face中。• 我们提出了一个自适应的课程学习损失的人脸识别，自动强调容易首先是样品，然后是硬样品据我们所知，这是第一个工作，介绍了人脸识别的自适应课程学习的想法。• 设计了一个非线性调制系数函数I（·），实现了训练过程中的自适应课程学习。同时不需要手动调整任何额外的超参数。• 我们对流行的面部基准进行了广泛的实验，这证明了我们的CurricularFace优于SOTA竞争对手。2. 相关工作边际损失函数。损失设计是大规模人脸识别的关键。当前SOTA深度人脸识别方法大多采用基于softmax的分类损失[28]。由于具有原始softmax损失的学习特征不能保证对于实际人脸识别问题具有足够的区分力[14]，因此提出了基于边缘的损失[18，14，8]。虽然基于保证金的损失函数被验证为获得良好的性能，5903e+e+J+j=1，j/=ye不考虑每个样本的难度，而我们的CurricularFace强调先易后难，更加合理有效。基于挖掘的损失函数。虽然一些基于挖掘的损失函数，如焦点损失[16]，在线硬样本挖掘（OHEM）[26]在目标检测领域很流行OHEM FO-其中xi∈Rd表示属于yi类的第i个样本的深度特征，Wj∈ Rd表示权值W∈Rd×n的第j列，bj是双a s项. 类数和嵌入特征大小为n，d，尊重我vely.在实践中，偏置通常被设置为bj=0，并且个体权重被设置为||WJ||=1通过l2归一化。深度特征也被归一化和重新缩放对鼠伤寒沙门氏因此，原始softmax可以修改如下：es（cosθyi）对一个小批量中的大损失样品进行了计算，其中硬样品的百分比是经验确定的。L=−logs（cosθyi）<$nj=1，j.（三）es（cosθj）我开采的和容易的样品被完全丢弃。焦点损失通过减少简单样本的权重来强调硬样本，其中两个超参数应该手动调整。最近的工作，MV-Arc-Softmax [31]融合了保证金和采矿的动机深度人脸识别的框架。他们很难定义由于具有原始softmax损失的学习特征对于实际人脸识别问题可能不够有鉴别力，因此提出了几种变体，并且可以用一般形式表示：esT（cosθyi）样本作为误分类样本，并使用预设常数放大硬样本的权重。我们的方法不同L=−G（p（xi））logsT（cosθyi）<$nj=1，jesT（cosθyi）esN（t，cosθj），我（四）从MV-Arc-Softmax在三个方面：1）我们不al-方法强调硬样本，特别是在早期训练中，其中p（xi）=esT（cosθyi）<$n我sN（t，cosθ）是的阶段。（2）对硬样本，根据其对应的难易程度赋予不同的权重。3）我们自适应地估计额外的超参数t，而无需手动调整。课程学习。学习更容易先样本后硬样本是当前学习（CL）中的常见策略[2，42]。CL中的关键问题是定义每个样本的难度。例如，[1]将到边界的负距离作为分类容易性的指标。然而，CL中的ad-hoc课程设计在不同的问题中很难实现。为了缓解这个问题，[12]设计了一个新的公式，称为自步调学习（SPL），其中具有较低损失的示例被认为更容易，预测地面真相概率和 G（p（xi））是一个指标功能T（cosθyi）和N（t，cosθj ）=I（t，cosθj）cosθj+c分别是正余弦相似度和负余弦相似度的调制函数，其中c是常数，I（t，cosθj）表示负余弦相似度的调制系数。在基于边际的损失函数中， e. G. ，弧 F ace ， G （ p （ xi ）） =1 ， T（cosθyi）=cos（θyi+m），N（t，cosθj）=cosθj.它只修改每个样本的正余弦相似性，以增强特征鉴别。如图1时，每个样本的n个余弦相似性的调制系数I（·）被固定为1。最近的工作MV-Arc-Softmax通过增加硬样本的I（t，cosθj）来强调硬样本。也就是说，G（p（xi））=1，N（t，cosθj）的公式如下：.在训练中强调之间的主要区别N（t，cos ）=的cosθj，T（cosθyi）−cosθj≥0我们的课程与SPL是：1）我们的方法专注于早期训练阶段的简单样本，并强调θjtcosθj +t−1，T（cosθyi）−cosθj<0的情况。（五）后期的硬样品。2）我们提出了一种n个余弦相似度的n阶函数N（·），它不仅实现了在同一训练阶段对不同样本的调制系数I（·）的自适应分配，而且实现了在不同训练阶段的自适应课程学习策略。阶段3. 建议的课程3.1. 对损失函数的初步认识原始softmax损耗公式如下：eWyixi+byi如果一个样本被定义为容易，其负余弦sim-相似度保持与原始相似度相同，cosθj;如果作为硬样本，其负余弦相似度变为tcosθj+t−1。也就是说，如图所示。 I（·）是常数，由预设的超参数t确定。同时，由于t总是大于1，因此tcosθj+t−1>cosθj总是成立，这意味着模型总是关注硬样本，即使在早期训练阶段。 However, theparameter t is sensitive that a large pre-defined value(e.g. 、>1个。（4）可能导致收敛问题。3.2. 适应性课程学习损失yy5904接下来，我们提出了我们提出的自适应L=−lognj=1 eWjxi+bj，（2）课程学习损失，这是第一次尝试介绍-5905Wx（k）ff1998年，L算法1：CurricularFace输入：第i个样本xi的深度特征及其标签yi、最后一个全连接层参数W、两个向量的余弦相似度cosθj、嵌入网络参数Θ、学习率λ和裕度m迭代次数k <$0，参数t <$0，m <$0。5个;而不收敛若cos（θyi+m）≥cosθj，则N（t，cosθj）=cosθj;其他端N（t，cosθj）=（t（k）+cosθj）cosθj;端T（cosθyi）=cos（θyi+m）;计算损失L的公式为：10人;通过等式计算xi和Wj的梯度。 8.通过以下公式更新参数W和Θ：W（k+1）=W（k）−λ（k）<$L，Θ（k+1）=Θ（k）−λ（k）<$Lxi ;我的天k←k+1;通过等式更新参数t。9;图2. 训练中的自适应参数t（红线）和梯度调制系数M（绿色区域）和MV-Arc- Softmax（蓝线）。由于挖掘的硬样本的数量随着训练的进行而减少，因此绿色区域，即M值的变化范围，前期较为平缓，后期表现出波动性。输出：W，Θ。将适应性课程学习引入深度人脸识别。我们的损失函数的公式也包含在一般形式中，其中G（p（xi））=1，正和负余弦相似性函数定义如下：T（cosθyi）=cos（θyi+m），（6）气味假设xi表示第i个sam的深度特征Ple属于yi类，所提出的函数的输入是logitfj，其中j表示第j类。在转发过程中，当j = yi 时，它与Arc Face，i相同。 e. ， fj=sT （ cosθyi ）， T （ cosθyi ） =cos（θyi+m）. 当j i= yi时，它有两种情况，如果xi是一个简单的样本，它与原始softmax，i相同。e. ，fj=scosθj. 否则，它将被调制为fj=sN（t，cosθj），其中N（t，cosθj）=（t+cosθj）cosθj。在后墙N（t，cos.）=的 cosθj，T（cosθyi）−cosθj≥0传播过程中，梯度w.r.t. Xi而Wj也可以θjcosθ（t+cosθ），T（cosθ）−cosθ<0的情况。分为三种情况，计算如下：jjyiJ(7)应当注意，正余弦相似性可以∂L(ssin(θyi+m))W、j=y采用任何基于保证金的损失函数，这里我们采用∂L∂fyi辛厄伊以ArcFace为例。如图1、模-在ive余弦近似下，硬样本neg的系数I（t，θj）xi=LsWj，j/=yi，easyJLs（2cosθj+t）Wjj/=yi，hardJ（八）相似性取决于t和θj 的值。在早期训练阶段，从简单样本中学习有利于公司简介∂fyiLsin（θyi+m）sinθyi）xi，j= yi模型收敛因此，t应该接近于零，I （ ·）=t+cosθj小于1。因此，减少了硬样品的重量，而相对强调了易样品。随着训练的进行，模型逐渐着重于硬样品，即，，t值将增大，I（·）小于1。因此，用较大的权重强调硬样本此外，在相同的训练阶段内，I（·）随θj单调减小，使得可以为更难的样本分配更大的系数根据其难易程度。参数t的值在我们的CurricularFace中自动估计，否则可能需要大量的手动调整。优化. 接下来，我们展示了我们的CurricularFace可以很容易地通过传统的随机梯度去优化，早期后期5906fWj=Ls（2cosθj+t）xij/=yi，hardJ由上述公式可知，硬样品的梯度调制系数由M（·）=2cosθj+t决定，它由两部分组成，其中n∈ g-1= 2cos θ j + t在iv e余弦相似度cosθj和t的值。正如所示图2、一方面，系数随着t的自适应估计（在下一小节中描述）以强调硬样本。另一方面，这些系数根据其对应的困难度（cosθj）被赋予不同的重要性。因此，图2中的M 值被绘制为每次训练迭代的范围。然而，在ArcFace和MV-Arc-Softmax中，系数分别固定为1和常数t5907早期J表1.流行损失函数的决策边界。损失决策边界Softmaxcosθyi= cosθjSphereFacecos（mθyi）= cosθjCosFacecosθyi−m= cosθjArcFacecos（θyi+m）= cosθjMV-Arc-Softmaxcos（θyi+m）=cosθj（easy）cos（θyi+m）=tcosθj+t−1（硬）CurricularFace（我们的）cos（θyi+m）=cosθj（easy）cos（θyi+m）=（t+cosθj）cosθj（硬）图3.不同训练阶段的（损失与ArcFace之间的比率，最大cosθj）插图。 To p：早期训练阶段。下图：后期训练阶段。后期t的自适应估计在不同的训练阶段确定合适的t值是关键。理想地t的值可以指示模型训练阶段。我们实证发现正余弦相似度的平均值是一个很好的指标。然而，基于小批量统计的方法通常面临一个问题：当在一个小批量中采样许多极端数据时，统计数据可能会有很大的噪声，并且估计将是不稳定的指数移动平均线（EMA）是解决这一问题的常见解决方案[13]。具体地，设r（k）为正的平均值，第k批的余弦相似性，并被公式化为图 4. 蓝线、红线、绿线和紫线分别表示 Softmax 、ArcFace、MV-Arc-Softmax和我们的决策边界。m表示由Ar-cFace添加的角裕度。 d表示MV-Arc-Softmax和我们的附加余量。在M V-Ar c-Softmax中，d=（t− 1）cosθj+t−1。在我们的世界里，d=（t+cosθj− 1）cosθj。3.3. 关于SOTA损失函数的比较ArcFace和MV-Arc-Softmax。我们首先讨论我们的CurricularFace和r（k）=icosθyi，我们有：t（k）=αr（k）+（1−α）t（k−1），（9）两个竞争对手，ArcFace和MV-Arc-Softmax，来自选项卡中决策边界的透视图。1.一、Arc-Face从正余弦相似度的角度引入了一个均值函数T（cosθyi）=cos（θyi+m）其中t0=0，α是动量参数，并设置为0的情况。九十九。利用EMA，避免了超参数调整，使硬样本负余弦相似度I（·）的调制系数自适应于当前训练阶段.综上所述，我们CurricularFace的损失函数为公式如下：escos（θyi+m）如图4、其决策条件由cosθyi=cosθj（i. e. ，蓝线）到cos（θyi+m）=cosθj（红线）。MV-Arc-Softmax从硬样本的负余弦相似性的角度引入了额外的余量，并且决策边界为cos（θyi+m）=tcosθj+t−1（绿线）。因此，我们自适应地调整硬样本的权重，不同的训练阶段。决策条件变为L= −log escos（θyi+m）Σn+j=1，j伊伊sN（t（k），cosθ），（10）cos（θyi+m）=（t+cosθj）cosθj（紫色线）。期间其中，N（t（k），cosθj）在等式（1）中定义7 .第一次会议。整个训练过程总结在算法1中。图3说明了在训练过程中损失如何从ArcFace变化到我们的CurricularFace。以下是一些观察结果：1）正如我们所预料的那样，硬样本（B和C）在早期训练阶段被抑制，但后来被强调。2）该比值随cosθj 单调增加，因为cosθj越大，样品越硬。3）感知良好图像的余弦相似性通常很大。然而，在早期训练阶段期间，感知良好图像（A）的负余弦相似性也可能很大，使得它可以被分类为硬图像。（86%，0.43）（80%，0.33）（77%，0.28）一BC（120%，0.30）（108%，0.28）（100%，0.24）CB一5908训练时，硬样本的决策边界发生变化从一条紫色线（早期阶段）到另一条紫色线（后期阶段），其首先强调容易的样品，然后强调硬样品与Focal Loss比较焦点损失公式化为：G（p（x））=α（1−p（x i））β，其中α和β是需要手动调整的调制因子。硬的定义Focal loss中的样本是模糊的，因为它通过在整个训练过程中减少较容易的样本的权重来关注相对较难的样本相比之下，我们的CurricularFace中对硬样本的定义更加明确，即：，错误分类的样本。同时，在不同的训练阶段自适应地确定硬样本的权重5909表2.不同t值的验证性能（%）。方法（%）LFWCFP-FPt=0九十九。32九十五90t = 0。3九十九。37九十六。47t = 0。7九十九。42九十六。66t=1九十九。45九十三94适应性t九十九。47九十六。96表3. 设定t的不同策略的验证性能（%）。方法（%）LFWCFP-FPMode（cosθyi）九十九。42九十六。49平均值n（pxi）平均值（cosθyi）九十九。42九十九。47九十五39九十六。964. 实验4.1. 实现细节数据集。我们分别采用CASIA-WebFace [36]和改进的MS1 MV2 [8]作为我们的训练数据，与其他方法进行公平比较。CASIA-WebFace包含约0. 5 M的10个个体，MS 1 MV 2含有约5. 85K个人的8M图像。我们在几个流行的基准测试中广泛测试了我们的方法，包括LFW[9] ， CFP-FP [24] ， CPLFW [41] ， CALDB [20] ，CALFW [40]，[33 ][34][ 35][36][37][38][39培训设置。我们遵循[8]，用五个地标[37，27]裁剪112×112 的对于嵌入网络，我们采用 ResNet50 和ResNet100，如[8]所示。我们的框架在Pytorch中实现[21]。我们在4个NVIDIA TeslaP40 GPU上训练模型，批量大小为512.模型的训练采用SGD算法，0的情况。9和重量衰减5e−4。On CASIA-WebFace, thelearning rate starts from 0. 1，并在28、38、46个时期除以10。训练过程在50个epoch时完成。在MS1 MV2上，我们将学习速率划分为10，18，22个epoch，并在24个epoch完成。我们遵循[ 8 ]中的常见设置，设置scales=64，margin m=0。五、4.2. 消融研究对固定与自适应参数t。我们首先研究了自适应估计t的效果。我们选择0到1之间的四个固定值进行比较。具体称为y，0意味着每个硬样本的负余弦相似性的调制系数I（·）在它的困难。相反，1表示始终强调硬样本。0的情况。3和0。7例在两种情况之间。选项卡. 2表明，基于我们自适应估计的参数t，先从较容易的样本中学习，然后从硬样本中学习更有效。5910图5.我们的CurricularFace和ArcFace的损失曲线与小骨干MobileFaceNet的插图不同统计量对估计t的影响。我们现在研究其他几个统计量的影响，即。小批量中的正余弦相似性的模式，或者用于估计我们的损失中的t的预测地面真实概率作为Tab。3表明：1）正余弦相似性的均值优于众数;2）正余弦相似度比预测的地面真实概率更准确地指示训练阶段。稳健性对培训收敛作为在[15]中声称，ArcFace在使用像MobileFaceNet这样的小骨干时表现出发散问题。因此，softmax损失必须纳入预训练。为了说明我们的损失函数在小骨干收敛问题上的鲁棒性，我们使用MobileFaceNet作为网络架构，并在CASIA-WebFace上对其进行训练。如图5，当裕度m被设置为0时。5、用我们的损失训练的模型达到99.LFW的准确率为25%，而使用ArcFace训练的模型不会收敛，并且在第2400步时损失为NAN 当余量m被设置为0时。45，两种损失都可以收敛，但我们的损失实现了更好的性能（99。20% vs. 99. 10%）。比较黄色和红色曲线，由于硬样本的损失在早期训练阶段减少，我们的损失在开始时收敛得更快，导致损失比ArcFace更低。之后，我们的损失值略大于ArcFace，因为我们在后期强调硬样本。结果表明，先从易样本学习，后从难样本学习，有利于模型的收敛。4.3. 与SOTA方法的比较LFW、CFP-FP、CPLFW、CALDB和CALFW的结果。接下来，我们使用ResNet100在数据集MS1 MV2上训练我们的CurricularFace，并在各种基准上与SOTA竞争对手进行比较，包括用于无约束人脸验证的LFW，用于大姿势变化的CFP-FP和CPLFW，用于年龄变化的CARDB和CALFW如表1所 4、我们的CurricularFace达到了可比的结果（即，，99。80%）与LFW上的竞争对手相比，5911表4. LFW上SOTA方法的验证比较，两个姿势基准：CFP-FP和CPLFW，以及两个年龄基准：CARDB和CALFW。*表示我们使用主干ResNet100重新实现的结果[8]。方法（%）LFWCFP-FPCPLFWAgeDBCALFW中心损失（ECCV九十八75−七十七。48−八十五48SphereFace（CVPR九十九。27−81. 40−九十30DRGAN（CVPR−九十三41−−−Peng等人（ICCV ' 17）−九十三76−−−VGGFace2（FG九十九。43−84. 00−九十57梦想（CVPR−九十三98−−−Deng等人（CVPR ' 18）九十九。6094 05−−−ArcFace（CVPR九十九。77九十八2792. 08九十八15九十五45MV-Arc-Softmax（AAAI九十九。78--−−MV-Arc-Softmax九十九。80九十八2892. 83九十七95九十六。10CurricularFace（我们的）九十九。80九十八37九十三13九十八32九十六。20表 5. IJB-B 和 IJB-C 数据集上的 1 ： 1 验证 TAR（@FAR=1e−4）。*表示我们使用主干ResNet100重新实现的结果[8]。方法（%）IJB-BIJB-CResNet50+SENet50（FG八十084. 1多柱（BMVC83岁186岁。2DCN（ECCV84. 988岁5ArcFace-VGG2-R50（CVPR89岁。892. 1ArcFace-MS1MV2-R100（CVPR94 2九十五6Cubercos（CVPR−92. 4P2SGrad（CVPR−92. 3PFE（ICCV−九十三3MV-Arc-Softmax系列（AAAI九十三6九十五2Ours-MS1MV2-R10094 8九十六。1(a) IJB-B的ROC（b）IJB-C的ROC图6. IJB-B和IJB-C的1：1验证方案的ROC。性能接近饱和。而对于CFP-FP和CPLFW，我们的方法显示出优于基线，包括一般方法，例如。，[32]，[4]，和交叉姿态方法，例如. ，[29]，[22]，[3]和[7]。MV-Arc-Softmax作为一种新的人脸识别方法，其识别性能优于ArcFace，但仍不如Our Curriculary- Face。最后，对于CALDB和CALFW，作为Tab.4显示，我们的CurricularFace再次实现了比所有其他SOTA方法更好的性能IJB-B和IJB-C的结果。IJB-B数据集包含1，845名受试者，其中21. 8K静态图像和来自7011个视频的55K帧。在1：1验证中，有10，270个正匹配和8M个负匹配。IJB-C数据集是IJB-B的进一步扩展，它包含大约3500个身份，总共31334个图像，117，542个无约束视频帧。在1：1的验证中-结果，有19，557个阳性匹配和15，638，932个阳性匹配。5912表6.使用FaceScrub作为探针集，在MegaFace挑战1上与SOTA方法进行验证比较Id是指在1M干扰项下的1级人脸识别准确度，Ver是指在1e−6FAR下的人脸验证TAR。R列是指探针组和1Mdistractor上的数据细化。 * 表示我们使用主干ResNet100重新实现的结果[8]。方法（%）议定书RIDVer三重峰（CVPR小六十四7978岁32中心损失（ECCV小六十五49八十14SphereFace（CVPR小七十二73八十五56CosFace（CVRP小七十七。1189岁。88AM-Softmax（SPL小七十二4784. 44ArcFace-R50（CVPRArcFace-R50小小J七十七。5091. 7592. 34九十三69Ours-R50小七十七。6592. 91Ours-R50小J92. 4894 55CosFace-R100大大大型大型JJJJJJ八十56九十七9181. 03九十八3578岁95九十七41九十七25九十七14八十59九十七76九十六。56九十七91九十六。98九十八4892. 51−−九十七57九十六。22九十七80CosFace-R100ArcFace-R100ArcFace-R100PFE（ICCVAdacos（CVPRP2SGrad（CVPRMV-Arc-Softmax（AAAIMV-Arc-Softmax*MV-Arc-Softmax*Ours-R100大81. 26九十七26Ours-R100大J九十八71九十八64AdaptiveFace-R50（CVPR19）大J九十五02九十五61Ours-R50大J九十八25九十八44阴性匹配在IJB-B和IJB-C数据集上，我们使用MS1MV2和ResNet100与最近的方法进行了公平的比较。我们遵循Ar-cFace中的测试协议，并将图像特征的平均值作为相应的模板表示，没有铃铛和whistles。请注意，我们的方法不是针对基于集合的人脸识别任务提出的在这两个数据集上的实验证明了我们的损失可以获得比Arc Face等基线更有鉴别力的特征，这也是人脸识别的通用方法。选项卡. 5展示了不同方法的性能，例如，，Multicolumn [35]，DCN [34]，Adacos[38]，P2 SGrad [39]，PFE [25]和MV-Arc-Softmax [31]在IJB-B和IJB-C1：1验证上，我们的方法再次达到最佳性能。图6显示了CurricularFace和ArcFace在IJB-B/C上的ROC曲线，该方法具有更好的性能。MegaFace上的结果最后，我们评估了MegaFace挑战赛的表现。MegaFace的图库集包括690K主题的1M图像，并且探针集包括来自FaceScrub的530个独特个体的100K照片。我们报告了在两个协议（大或小训练集）下的两个测试结果。在这里，我们使用CASIA-WebFace和MS1 MV2下的小协议和大协议，分别。在选项卡中。6、我们的方法5913图7. 简单和困难的例子，从两个科目分类由我们的CurricularFace在早期和后期的培训阶段。绿框表示简单样本。红框表示硬样品。蓝框表示样本在早期被分类为难，但在后期被重新标记为易，这表明样本图8. 在MegaFace挑战1，其中1M干扰项和由ArcFace改进的探针集在两种协议下实现了最佳的单模型识别和验证性能，超越了最近的强大竞争对手，例如、 CosFace 、ArcFace 、Adacos 、P2SGrad 和PFE。我们还报告了ArcFace测试协议的结果，该协议细化了探针集和图库集。 As shown in Fig. 8, our method still clearlyoutperformsthecompetitorsandachievesthebestperformance on identification.与ArcFace相比，我们的损失在识别和验证场景下都表现出更好的性能，如图所示。9.第九条。Adapitve- Face [17]是另一个最近用于人脸识别的基于边缘的损失函数。我们使用与AdaptiveFace相同的训练数据MS1MV2和相同的骨干ResNet50 [8]来训练我们的模型，以进行公平的比较。Tab中的结果。6证明了该方法的优越性。时间复杂度。该方法对训练复杂度的负担很小，但在推理过程中与骨干模型的具体而言，COM-与传统的基于边际的损失函数，我们的损失只额外调整硬样本的负余弦相似性。在相同的环境和批量大小下，ArcFace[8]的成本为0。在NVIDIA P40 GPU上，每次迭代的成本为370美元，而我们的成本为0美元。378秒。(a) TOP1（b）ROC图9. Megaface上不同干扰项和ROC的前1位插图。结果在改进的MegaFace数据集上进行评估。ArcFace的结果来自官方的ResNet100，使用MS1 M进行了预训练。训练中的简单和困难样本的讨论。最后图7显示了在不同训练阶段通过我们的方法分类的容易和困难样本。正如我们所看到的，正面和清晰的人脸通常被认为是早期训练阶段的简单样本，我们的模型主要从这些样本中学习随着模型继续训练，稍微更硬的样本（即，，蓝框）逐渐集中和纠正为容易的。5. 结论在本文中，我们提出了一种新的自适应课程学习损失，它将自适应课程学习的思想嵌入到深度人脸识别中。我们的主要思想是在早期训练阶段处理简单的样本，在后期处理困难的样本。我们的方法易于实现和强大的收敛。在流行的人脸基准上进行的大量实验表明，与SOTA竞争对手相比，我们的方法是有效的。根据这项工作的主要思想，未来的研究可以扩展到从多个方面，包括设计一个更好的函数N（·）对于共享类似自适应的负余弦相似性在训练过程中的特性，并调查可能被优化为硬样本的噪声5914引用[1] Sumit Basu和Janara Christensen。教人类分类的界限。InAAAI，2013. 3[2] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。InICML，2009. 二、三[3] Kaidi Cao ， Yu Rong， Cheng Li ， Xiaoou Tang ， andChen Change Loy.基于深度残差等变映射的姿态鲁棒人脸识别。在CVPR，2018年。7[4] 曹琼，李申，谢伟迪，Omkar M.帕克希，还有安德鲁·齐瑟曼。Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在FG，2018年。7[5] Beidi Chen ， Weiyang Liu ， Animesh Garg ， ZhidingYu，An-shumali Shrivastava，and Anima Anandkumar.角视硬度。ICML深层现象研讨会，2019年。2[6] 盛晨、杨柳、向高、甄寒。移动-面板：在移动设备上进行精确实时人脸验证的高效cnn。在CCBR，2018年。2[7] Jiankang Deng，Shiyang Cheng，Niannan Xue，YuxiangZhou，and Stefanos Zafeiriou. UV-gan：对抗面部uv图完成用于姿势不变人脸识别。在CVPR，2018年。7[8] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.ArcFace：用于深度人脸识别的附加角余量损失。在CVPR，2019年。一二六七八[9] 加里湾Huang，Manu Ramesh，Tamara Berg，and ErikLearned-M

下载后可阅读完整内容，剩余1页未读，立即下载