ArcFace：高判别力的深度人脸识别方法

147 浏览量更新于2023-10-19 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1ArcFace：用于深度人脸识别的加性角余量损失邓健康*1，2，3郭佳*2薛念南1Stefanos Zafeiriou1，31伦敦帝国理工学院2InsightFace3 FaceSoft{j.deng16，n.xue15，s.zafeiriou}@ imperial.ac.uk，guojia@gmail.com摘要使用深度卷积神经网络（DCNN）进行大规模人脸识别的特征学习的主要挑战之一是设计适当的损失函数，以增强区分能力。中心损失惩罚深度特征与其在欧几里得空间中的对应类中心之间的距离，以实现类内紧致性。SphereFace假设最后一个完全连接层中的线性变换矩阵可以用作角空间中的类中心的表示，因此以乘法方式惩罚深度特征及其对应权重之间的角度最近，一个流行的研究路线是将利润纳入良好建立的损失函数，以最大限度地提高人脸可分离性。在本文中，我们提出了一个附加的角度余量损失（ArcFace），以获得高判别力的人脸识别功能。由于它与超球面上的测地线距离精确对应，因此具有清晰的几何解释。我们提出了可以说是最广泛的实验评估对所有最近的国家的最先进的人脸识别方法的10个人脸识别基准，其中包括一个新的大型图像数据库与数万亿对和大规模的视频数据集。我们表明，ArcFace始终优于最先进的技术，可以很容易地实现，可以忽略不计的为方便日后的研究，有关守则载于：https://github.com/deepinsight/insightface1. 介绍使用深度卷积神经网络（DCNN）嵌入的面部表示是面部识别的首选方法[30，31，27，22]。DCNN将面部图像（通常在姿势归一化步骤[42]之后）映射到*平等捐款。InsightFace是一个用于2D和3D人脸分析的非营利Github项目图1.基于中心[15]和特征[35]归一化，所有恒等式都分布在超球面上。为了提高类内紧致性和类间差异性，我们考虑了四种测地线距离（GDis）约束。(A)边际损失：插入一个测地距离之间的样本和centres。(B)内部损失：减小样本和相应中心之间的测地距离。(C)内部损耗：增加不同中心之间的测地距离。(D)三重损失：在三个样本之间插入测地线距离余量。本文提出了一种与（A）中的测地线距离（Arc）边缘惩罚完全对应的大量的实验结果表明，（A）的策略是最有效的。特征应该具有小的类内距离和大的类间距离。有两条主要的研究路线来训练DCNN进行人脸识别。一些人训练多类分类器，该分类器可以在训练集中分离不同的身份，例如通过使用softmax分类器[31，22，3]，而其他人则直接学习嵌入，例如三重丢失[27]。基于大规模训练数据和精心设计的DCNN架构，基于softmax-loss的方法[3]和基于triplet-loss的方法[27]都可以在人脸识别上获得优异然而，softmax损耗和三重态损耗都具有一些缺点。对于软最大损失：（1）线性变换矩阵的大小W ∈Rd×n随恒等式数n;（2）所学习的特征对于闭集分类问题，但没有足够的区别开集人脸识别问题。对于三重态损失：（1）46904691eyjijJ特别是对于大规模数据集，人脸三元组的数量存在组合爆炸，导致迭代步骤的数量显著增加;（2）半硬样本挖掘对于有效的模型训练是一个相当困难的问题。已经提出了几个变体[36，6，43，15，35，33，4，32，25]来增强softmax损失的区分能力。Wen等人[36]开创了中心损失，每个特征向量与其类中心之间的欧几里得距离然而，在训练期间更新实际的中心是极其困难的，因为最近可用于训练的面部类的数量急剧增加。通过观察到来自在软最大损失上训练的分类DCNN的最后一个完全连接层的权重与每个人脸类的中心具有概念相似性，[15，16]中的作品提出了一种乘法角度边缘惩罚，以同时实施额外的类内紧凑性和类间差异，从而使训练模型具有更好的区分能力分析特征和权重之间的角度统计。有效ArcFace在10个人脸识别基准测试中实现了最先进的性能，包括大规模图像和视频数据集。容易. ArcFace只需要算法1中给出的几行代码，并且非常容易在基于计算图的深度学习框架中实现，例如。MxNet [5]，Pytorch [23]和Tensorflow [2]。此外，与[15，16]中的工作相反，ArcFace不需要与其他损失函数结合以具有稳定的性能，并且可以轻松地收敛于任何训练数据集。高效. ArcFace在训练过程中只增加了微不足道的计算复杂性。当前的GPU可以轻松支持数百万个身份进行训练和模型并行策略可以很容易地支持更多的身份。2. 该方法2.1. ArcFace最广泛使用的分类损失函数soft-max loss如下所示：即使球面[15]引入了重要的想法，1ΣNWTxi+by我的角度裕度，他们的损失函数需要一系列的ap-为了计算近似，这导致了一个L1=−Ni=1原木j=1e WTx+b，（1）网络训练不稳定。为了稳定列车-因此，他们提出了一个混合损失函数，其中包括标准的softmax损失。从经验上讲，softmax损失主导了训练过程，因为基于整数的乘法角裕度使目标logit曲线非常陡峭，从而阻碍了收敛。CosFace [35，33]直接向目标logit添加余弦裕度惩罚，与SphereFace相比，它获得了更好的性能，但更容易实现，并减轻了对softmax损失的联合监督的需求。在本文中，我们提出了一个加性角余量损失（ArcFace），以进一步提高人脸识别模型的区分如图2所示，DCNN特征和最后一个完全连接层之间的点积等于特征和权重归一化后的余弦距离。我们利用反余弦函数来计算当前特征和目标权重之间的角度。然后，我们在目标角度上加上一个附加的角度裕量，通过余弦函数再次得到目标logit。然后，我们通过固定的特征范数重新缩放所有对数建议的ArcFace的优点可以总结如下：开始了。ArcFace直接优化测地线分布，其中xi∈Rd表示第i个样本的深度特征，属于第yi 个类。在本文[36，43，15，35]中，嵌入特征尺寸d设置为512Wj∈Rd表示权重W∈Rd×n的第j列bj∈Rn是偏置项。批量大小和类数分别为N和n。传统softmax损耗被广泛用于深度人脸识别[22，3]。然而，softmax损失函数并没有明确地优化特征嵌入以强制类内样本的更高相似性和类间样本的多样性，这导致在大的类内外观变化（例如，姿势变化[28，44]和年龄差距[19，45]）和大规模测试场景（例如百万[12，37，18]或万亿对[1]）。对于简单的y，我们固定偏差bj=0，如[15]所示。然后，我们将 logit[24] 转换为 W Txi=<$Wj<$$>xi<$cosθj，其中θj是权重Wj和fea之间的角度图尔岛在[15，35，34]之后，我们通过l2归一化来固定个体权重Wj=1在[26，35，34，33]之后，我们还通过l2归一化来固定嵌入特征xi，并将其重新缩放为s。特征的标准化步骤，权重使得预测仅取决于特征和权重之间的角度因此，学习的嵌入特征分布在半径为s的超球面上。由于以下两者之间的精确对应，标准化超球面中的角度和弧我们在-L2=−1ΣNescosθyi原木.（二）图中通过以下方式说明了512-D空间中发生的情况Ni=1escosθyi+j= l，ji=yiescosθj我4692J我图2.训练DCNN用于由ArcFace损失监督的面部识别基于特征xi和权重W归一化，我们得到每个类的cosθj（logit）为W Txi。我们计算了arccosθy 得到地物xi与地面的夹角h重量Wyi. 事实上，Wj为每个类提供了一种中心。然后，我们在目标（地面实况）角度θyi上添加角度裕度惩罚m。之后，我们计算cos（θyi+m），并将所有logit乘以特征尺度s。然后，logit通过softmax函数，并对交叉熵损失做出贡献。算法1MxNet上的ArcFace伪代码输入：特征尺度s，等式中的边缘参数m。3，类别编号n，地面真实IDgt。1. x = mx.symbol.L2Normalization（x，mode =2. W = mx.symbol.L2Normalization（W，mode =3. fc7 = mx.sym.FullyConnected（data = x，weight = W，no bias = True，num hidden = n）4. 原始目标logit = mx.sym.pick（fc 7，gt，axis = 1）5. θ = mx.sym.arccos（原始目标logit）6. 边际目标logit = mx sym cos（θ + m）7. one hot = mx.sym.one hot（gt，depth = n，on value = 1.0，off value = 0.0）8. fc7 = fc7 + mx.sym.broadcast mul（one hot，mx.sym.expand dims（marginal target logit-original target logit，1））9. fc7 = fc7 * s输出：类相关性分数fc7。由于嵌入特征分布在超球面上的每个特征中心周围，我们在xi和Wyi之间添加了一个附加的角边缘惩罚m，以同时增强类内紧致性和类间差异性。由于所提出的附加角边缘惩罚等于标准化超球面中的测地线距离边缘惩罚，因此我们将我们的方法命名为ArcFace。(a)Softmax（b）ArcFace1ΣNes（cos（θyi+m））图3.在softmax和ArcFace下的玩具示例在8个具有2D特征的身份上丢失。点表示样本，线表示L3=−Ni=1日志 es（cos（θyi+m））Σn+j=1，j伊伊.scosθj（三）指向每个身份的中心方向。基于特征归一化，所有面部特征被推到弧空间，我们从8个不同的身份中选择包含足够样本（大约1，500张图像/类）的人脸图像，分别用softmax和Ar-cFace损失来训练2- D特征嵌入网络。如图3所示，softmax损失提供了大致可分离的特征嵌入，但在决策边界中产生了明显的模糊性，而建议的ArcFace损失显然可以在最近的类之间产生更明显的差距。2.2. 与SphereFace和CosFace的比较固定半径。最近类随着附加的角裕度损失的引入而变得明显。杜松子酒M3分别。从数值分析的角度来看，不同的边际惩罚，无论是在角度[15]还是余弦空间[35]上增加，都通过惩罚目标logit来加强类内紧致性和类间多样性[24]。在图4（b）中，我们绘制了在最佳边距设置下的SphereFace，ArcFace和CosFace的目标logit曲线我们只显示这些tar得到的logitcur v在[20，100]之内，数值相似性在SphereFace [15，16]，ArcFace，因为Wyi之间的夹角和xi从大约90度开始和CosFace [35，33]，提出了三种不同的保证金惩罚，例如，乘法角裕度m1、加法角裕度m2和加法余弦裕度m3。（随机初始化），并在弧面训练期间在大约30° C处结束，如图4（a）所示。直觉上，在目标logit曲线中有三个因素影响性能，4693+yi我我曼斯岛起点、终点和斜率。(a) θj分布（b）Tar得到Logits曲线图4. 进行logit分析。（a）在ArcFace训练期间从开始到结束的θj分布(2)softmax、SphereFace、ArcFace、CosFace的目标logit曲线和组合边缘惩罚与原始的SphereFace相比，没有任何收敛困难。2.3. 与其他损失的比较可以基于特征和权重向量的角度表示例如，我们可以设计一个损失来加强超球面上的类内紧凑性和类间差异。如图1所示，我们与本文中的其他三种损失进行了比较。Intra-Loss旨在通过减小样本与地面真实中心之间的角度/弧度来提高类内紧凑性。（cos（m1θ+m2）−m3）。通过结合所有的边缘惩罚，我们在一个统一的框架中实现了SphereFace，ArcFace和CosFaceL =L+152πNΣNi=1θy岛（五）其中m1，m2和m3作为超参数。Inter-Loss的目标是通过增加不同中心之间的角度/弧度来增强类间差异。1ΣNes（cos（m1θyi+m2）−m3）L4=−日志s（cos（m θ+m）−m） n.scosθN nNei=11yi23ej= l，ji=yiJ（四）L6=L2−1ΣπN（n−1）Σarccos（W T W j）.（六）如图4（b）所示，通过结合上述所有内容通过计算logit（cos（m1θ+m2）−m3），我们可以很容易地得到一些其他的目标logit曲线，这些曲线也具有很高的精度。几何差异尽管ArcFace和以前的作品之间的数值相似性，所提出的附加的角边缘具有更好的几何属性，因为角边缘与测地距离具有精确的对应关系。如图5所示，我们比较了二元分类情况下的决策边界所提出的弧面在整个区间内具有恒定的线性角相比之下，SphereFace和CosFace仅具有非线性角度裕度。图5.二元分类下不同损失函数的决策裕度。虚线表示决策边界，灰色区域是决策余量。边缘设计中的微小差异可能对模型训练产生例如，原始的SphereFace [15]采用退火优化策略。为了避免在训练开始时出现分歧，在SphereFace中使用了softmax的联合监督来削弱乘法间隔惩罚。我们实现了一个新的版本的球面没有整数的要求的利润，采用反余弦函数，而不是使用复杂的倍角公式。在我们的实现中，我们发现m=1。35可以获得类似的性能i=1j=1，j yi这里的内部损耗是最小超球能量（MHE）方法的特殊情况[14]。在[14]中，隐藏层和输出层都由MHE正则化。在MHE论文中，还提出了一种特殊情况的损失函数，将球面损失与网络最后一层的MHE损失相三重态损失旨在扩大三重态样品之间的角度/弧容限。在FaceNet [27]中，将欧几里得边缘应用于归一化特征。在这里，我们通过我们的特征的角度表示为arccos（x pos x i）+m≤ arccos（x neg x i）来使用三重态损失。3. 实验3.1. 实现细节数据集。如表1所示，我们分别采用CA-SIA [41]，VGGFace 2 [3]，MS 1 MV 2和DeepGlint-Face（包括MS 1 M-DeepGlint和Asian-DeepGlint）[1]作为我们的训练数据，以便与其他方法进行公平的比较。请注意，拟议的MS1MV2是MS-Celeb-1 M数据集的半自动改进版本[7]。据我们所知，我们是第一个使用种族特定的注释器进行大规模人脸图像注释的人，因为边界情况（例如，硬样本和噪声样本）在注释者不熟悉标识的情况下非常难以区分。在训练过程中，我们探索有效的人脸验证数据集（例如，LFW [10]、CFP-FP[28]、FDDB-30 [19]），以检查不同设置的改善情况。除了最广泛使用的LFW [10]和YTF [38]数据集外，我们还报告了最近大姿态和大年龄数据集（例如，4694数据集#身份#图片/视频[第41话]10K0.5MVGGFace2 [3]9.1K3.3MMS1MV285K5.8MMS1M-DeepGlint [1]87K3.9M亚洲-DeepGlint [1]94K2.83MLFW [10]5,74913,233[28]第二十八话5007,000[19]第十九话56816,488CPLFW [44]5,74911,652CALFW [45]5,74912,174YTF [38]1,5953,425MegaFace [12]530（P）1个月（G）IJB-B [37]1,84576.8KIJB-C [18]3,531148.8K万亿对[1]5 749（P）1.58百万（G）[第17话]4,934172,835表1.用于训练和测试的人脸数据集。“(P)” and “(G)” refer tothe probe and gallery set,[ 44 ][45][46]][47][48] 我们还广泛地测试了建议的ArcFace上的大规模图像数据集（例如。MegaFace[12]、IJB-B [37]、IJB-C [18]和Trillion-Pairs[1]）和视频数据集（iQIYI-VID [17]）。实验设置。对于数据预处理，我们遵循最近的论文[15，35]，通过利用五个面部点来生成归一化的面部裁剪（112×112）。对于嵌入网络，我们采用广泛使用的CNN ar-架构，ResNet50和ResNet100 [9，8]。在最后一个卷积层之后，我们探索BN [11]-Dropout [29]- FC-BN结构以获得最终的512-D嵌入特征。在本文中，我们使用（[训练数据集，网络结构，损失]）来帮助理解实验设置。我们按照[35]将特征比例s设置为64，并将ArcFace的角度余量m选择为0。五、本文的所有实验都是在MXNet [5]上实现的我们将批量大小设置为512，并在四个NVIDIA Tesla P40（24GB）GPU上训练模型。在CASIA上，学习率从0开始。在20K、28K迭代时除以10。训练过程在32K迭代时完成。在MS1MV2上，我们划分了100K，160K迭代的学习速率，并在180K迭代时完成。我们将动量设置为0。9和重量衰减到5e-4。在测试过程中，我们只保留功能嵌入-没有完全连接层的网络（160 MB用于ResNet 50和250 MB的ResNet 100），并提取512-D功能（8。ResNet 50和15为9 ms/face。对于ResNet 100为4ms/face）。要获取模板的嵌入特征（例如.IJB-B和IJB-C）或视频（例如，YTF和iQIYI-VID），我们简单地计算来自模板的所有图像或来自视频的所有帧的特征中心。请注意，训练集和测试集之间的重叠标识被删除以进行严格评估，并且我们只对所有测试使用单个裁剪。3.2. 损耗的烧蚀研究在表2中，我们首先使用ResNet50在CASIA数据集上探索ArcFace在我们的实验中观察到的最佳边缘是0。五、使用Eq. 1中提出的4，更容易设置SphereFace和CosFace的边缘，我们发现当设置为1时具有最佳性能。35和0。35个，分别。我们的实现都SphereFace和CosFace可以导致卓越的性能，而不会出现任何收敛困难。建议的ArcFace在所有三个测试集上实现了最高的验证精度。此外，我们在图4（b）中的目标logit曲线指导下，对组合边缘框架进行了广泛的实验（观察到CM1（1，0.3，0.2）和CM2（0.9，0.4，0.15）的一些最佳性能）。组合的利润框架导致更好的性能比单独的SphereFace和CosFace，但上限的ArcFace的性能。除了与基于边缘的方法的比较之外，我们还在ArcFace和其他旨在加强类内紧凑性的损失之间进行了进一步的比较（等式10）。5）和类间差异（方程。（六）。作为基线，我们选择了softmax损失，并且在权重和特征标准化后，我们观察到CFP-FP和CFDB-30的性能下降。通过将softmax与类内损失相结合，CFP-FP 和 CFDB-30 的性能得到了改善。然而，将softmax与类间损失相结合只能略微提高准确性。Triplet损失优于Norm-Softmax损失的事实表明了裕度在提高性能方面的重要性。然而，采用三重样本内的边距惩罚不如在ArcFace中的样本和中心之间插入边距有效最后，我们将Intra-loss，Inter-loss和Triplet-loss合并到ArcFace中，但没有观察到改进，这使我们相信Ar-cFace已经在执行类内紧凑性，类间差异和分类边缘。为了更好地理解ArcFace3. 我们发现（1）Wj与ArcFace的嵌入特征中心几乎同步（14. 29日），但有一个明显的偏差（44。26日）之间的Wj和嵌入式功能中心的Norm-Softmax。因此Wj之间的夹角不能绝对代表训练数据的类间差异或者，由训练的网络计算的嵌入特征中心更具代表性。（2）Intra-Loss能有效地压缩类内差异，但也带来较小的类间夹角。（3）Inter-Loss可以略微增加W（直接）和嵌入网络（间接）上的类间差异，但也会增加类内角度。（4）Ar-cFace已经具有很好的类内紧性，4695表2.不同损失函数（[CA- SIA，ResNet 50，loss*]）的验证结果（%NSArcFaceIntraLInterL三联体LW-EC44.2614.298.8346.85-W-Inter69.6671.6131.3475.66-Intra150.5038.4517.5052.7441.19Inter159.2365.8324.0762.4050.23Intra233.9728.0512.9435.3827.42Inter265.6066.5526.2867.9055.94表 3. 不同损失下的角度统计（ [CASIA ， ResNet50 ，loss*]）。每一列表示一种特定的损失。“W- “W-间”是指W之间的最小角度的平均值。“Intra1”和“Intra2”分别是指x i与CASIA和LFW上的嵌入特征中心之间的角度的平均值。“Inter1” and “Inter2”refer to the mean of minimum angles between embedding featurecentres on CASIA and LFW,类间差异。(5)Triplet-Loss具有与ArcFace相似的类内紧凑性，但类间差异性较差。此外，ArcFace在测试集上具有比三重损失更明显的裕度，如图6所示。3.3. 评价结果关于LFW、YTF、CALFW和CPLFW的结果 LFW[10]而YTF [38]数据集是最广泛使用的基准用于图像和视频上的无约束人脸验证在本文中，我们遵循的无限制与标记的外部数据协议报告的性能。如表4所示，使用ResNet100在MS1MV2上训练的ArcFace击败了基线（例如，SphereFace [15]和CosFace [35]）在LFW和YTF上的显著优势，这表明(a) ArcFace（b）三重损失图6. 所有正对和随机负对的角分布（θ0。5M）。红色区域表示正对，而蓝色区域表示负对。所有的角都用度数表示。（[CASIA，ResNet50，loss*]）.方法#图片LFWYTFDeepID [30]0.2M99.4793.20[31]第三十一话4.4M97.3591.4VGG Face [22]2.6M98.9597.30[27]第二十七话200M99.6395.10百度[13]1.3M99.13-[36]第三十六话0.7M99.2894.9[43]第四十三话5M99.5293.70边际损失[6]3.8M99.4895.98[第15话]0.5M99.4295.0[第14话]0.5M99.47-CosFace [35]5M99.7397.6MS1MV2、R100、ArcFace5.8M99.8398.02表4.不同方法在LFW和YTF上的验证性能（%附加的角边缘惩罚可以显著增强深度学习特征的区分能力，证明了ArcFace的有效性。除了在LFW和YTF数据集上，我们还报告了ArcFace在最近引入的数据集上的性能（例如，CPLFW [44]和CALFW [45]），其显示出与LFW相同的身份的更高姿势和年龄变化。在所有开源的人脸识别模型中，ArcFace模型被评估为排名最高的人脸识别模型，如表5所示，明显优于其他模型。在图7中，我们展示了LFW 、 CFP-FP 、 CARDB-30 、 YTF 、 CPLFW 和CALFW上的正对和负对的角度分布（由使用ResNet100在MS 1 MV 2上训练的ArcFace模型我们可以清楚地发现，由于姿势和年龄差距的内部方差显着增加了积极对之间的角度，从而使人脸验证的最佳阈值增加，并在直方图上产生更多的混淆区域。MegaFace上的结果MegaFace数据集[12]包括690K不同个体的1M图像作为图库集，以及来自FaceScrub的530个独特个体的100K照片”[21]《易经》云：“以德为本。在MegaFace上，有两个测试场景（识别和验证）下的两个原型（大或小的训练集）。如果训练集做对公正损失函数LFWCFP-FPAgeDB-30ArcFace（0.4）99.5395.4194.98ArcFace（0.45）99.4695.4794.93ArcFace（0.5）99.5395.5695.15ArcFace（0.55）99.4195.3295.05[第15话]99.42--简体中文（中国）99.1194.3891.70CosFace [35]99.33--CosFace（0.35）99.5195.4494.56CM1（1、0.3、0.2）99.4895.1294.38CM2（0.9、0.4、0.15）99.5095.2494.86Softmax99.0894.3992.33Norm-Softmax（NS）98.5689.7988.72NS+内98.7593.8190.92NS+国际98.6890.6789.50NS+帧内+帧间98.7394.0091.41三重（0.35）98.9891.9089.98ArcFace+Intra99.4595.3794.73ArcFace+Inter99.4395.2594.554696方法LFWCALFWCPLFW人类-个体97.2782.3281.21人文融合99.8586.5085.24[36]第三十六话98.7585.4877.48[第15话]99.2790.3081.40VGGFace2 [3]99.4390.5784.00MS1MV2、R100、ArcFace99.8295.4592.08表5.开源人脸识别模型在LFW、CALFW和CPLFW上的验证性能（%）(a)第 99章. （b）CFP-FP（98. 37%）(c)第98章. 15%）(d)第 98章. （e）CPLFW（92. 08%）(f)95. biggestbiggest 45%）图7.LFW、CFP-FP、CARDB-30、YTF、CPLFW和CALFW上正负对的角度分布红色区域表示正对，而蓝色表示负对。所有的角都用度数表示（[MS1MV2，ResNet100，ArcFace]）通过比较，我们分别在CAISA和MS1MV2上在小协议和大协议下训练了ArcFace。在表6中，在CASIA上训练的ArcFace实现了最佳的单模型识别和验证性能，不仅超过了强基线（例如，SphereFace[15] 和 CosFace [35]），但也优于其他公布的方法[36，14]。由于我们观察到识别和验证之间存在明显的性能差距，我们在整个MegaFace数据集中进行了彻底的手动检查，发现许多带有错误标签的人脸图像，这会显著影响性能。因此，我们手动优化了整个MegaFace数据集，并在 MegaFace 上报告了 ArcFace 在改进的MegaFace上，ArcFace仍然明显优于CosFace，并在验证和识别方面实现在大型协议下，ArcFace明显优于FaceNet [27]，并且与CosFace [35]相比，在识别方面获得了相当的结果，在验证方面获得了更好的结果。由于CosFace采用了私有训练数据，因此我们使用ResNet100在MS1MV2数据集上重新训练CosFace。在公平比较下，ArcFace显示出优于CosFace的优势，并在识别和验证场景下形成了CosFace的上包络，如图8所示。IJB-B和IJB-C的结果。I J B - B 数据集[37]表6.使用FaceScrub作为探针集，对MegaFace Challenge 1上的不同方法进行人脸识别和验证评估“Id” refers to the rank-1face identification accuracy with 1M distractors, and “Ver” refersto the face verification TAR at “R” refers to data refinement onboth probe set and 1M ArcFace在小型和大型协议下都获得了最先进的性能。(a) CMC（b）ROC图8.MegaFace上不同模型的CMC和ROC曲线结果在原始和改进的MegaFace数据集上进行评估。包含1，845名受试者，其中21名受试者。8K静态图像和来自7011个视频的55K帧。总共有12115个模板，10270个真正的匹配和8M个冒名顶替者匹配。IJB-C数据集[37]是IJB-B的进一步扩展，有3，531名受试者，其中31名受试者。3K静态图像和117. 5K帧，来自11779个视频。总共有23，124个模板，19，557个真正的匹配和15，639个K冒名顶替者匹配。在IJB-B和IJB-C数据集上，我们使用VGG 2数据集作为训练数据，使用ResNet 50作为嵌入式网络来训练ArcFace，以便与最新方法进行公平比较[3，40，39]。在表7中，我们将ArcFace的TAR（@FAR= 1 e-4）与之前的最新模型进行了比较[3，40，39]。ArcFace显然可以提高在IJB-B和IJB-C上的性能（约3.5%，这是误差的显著降低）。图纸供应商从更多的训练数据（MS1MV2）和更深的神经网络（ResNet100）中，ArcFace可以进一步提高方法Id（%）验证（%）Softmax [15]54.8565.92对比损失[15，30]65.2178.86[15，27]64.7978.32[36]第三十六话65.4980.14[第15话]72.72985.561CosFace [35]77.1189.88AM-Softmax [33]72.4784.44[第14话]73.03-CASIA、R50、ArcFace77.5092.34CASIA，R50，ArcFace，R91.7593.69[27]第二十七话70.4986.47CosFace [35]82.7296.65MS1MV2、R100、ArcFace81.0396.98MS1MV2、R100、CosFace80.5696.56MS1MV2，R100，ArcFace，R98.3598.484697方法Id（@FPR=1e-3）Ver（@FPR=1e-9）Casia26.64321.452MS1MV280.96878.600DeepGlint-Face80.33178.586MS1MV2+亚洲人84.840（第一次）80.540CIGIT IRSEC84.234（第二次）81.558（第1次）表8.Trivalue-Pairs数据集上的识别和验证结果（%）（[Dataset*，ResNet100，ArcFace]）表7.IJB-B和IJB- C数据集上的1：1验证TAR（@FAR= 1 e-4）TAR（@FAR= 1 e-4）至94。2%，95。IJB-B和IJB-C，分别。在图9中，我们显示了完整的ROC曲线在 IJB-B 和 IJB-C 上的建议 ArcFace ， ArcFace 即使在FAR= 1 e-6设置新的基线时也实现了令人印象深刻的性能(a)IJB-B的ROC（b）IJB-C的ROC图9.IJB-B和IJB-C数据集上1：1验证方案的ROC曲线Trillion-Pairs上的结果Trillion-Pairs数据集[1]提供来自Flickr的1.58 M图像作为图库集，以及来自5.7k LFW[10]身份的274 K图像作为探针集。使用图库和探针集之间的每一对用于评估（总共0.4万亿对）。在表8中，我们比较了在不同数据集上训练的ArcFace的性能。与CASIA相比，建议的MS 1 MV 2数据集明显提高了性能，甚至略优于DeepGlint-Face数据集，后者具有双重身份号。当结合来自MS 1 MV 2的所有身份和来自DeepGlint的亚洲名人时，Arc- Face实现了最佳识别性能84。840%（@FPR= 1 e-3），验证性能与来自领先板的最新提交（CIGIT IRSEC）相当。关于iQIYI-VID iQIYI-VID挑战[17]包含565，372个视频片段（训练集219，677，有效期为2016年）。测试集172，860和测试集172，835）的4934个身份，这些身份来自爱奇艺综艺节目、电影和电视剧。每个视频的长度从1秒到30秒不等。该数据集提供多模态线索，包括面部，衣服，声音，步态和字幕，用于角色识别。的https://github.com/deepinsight/insightface/tree/master/Evaluation/IJB表9.我们的方法在iQIYI-VID测试集上的MAP。“MLP” refersto a three-layer fully connected network trained on the iQIYI-VID trainingiQIYI-VID数据集采用MAP@100作为评价指标。MAP（Mean Average Precision）是指总体平均准确率，其是针对训练集中的每个人ID（作为查询）在测试集中检索到如表9所示，使用ResNet100对MS1MV2和亚洲数据集进行组合训练的ArcFace设置了高基线（MAP=（79.80%）。基于每个训练视频的嵌入特征，我们训练了一个额外的三层全连接网络，具有分类损失，以获得iQIYI-VID数据集上的自定义特征描述符。在iQIYI-VID训练集上学习的MLP将MAP显著提高了6。百分之六十从现成的对象和场景分类器[20]的模型集成和上下文特征中获得支持，我们的最终结果以明显的优势（0. 99%）。4. 结论在本文中，我们提出了一个加性角边际损失函数，它可以有效地提高识别能力的特征嵌入学习DCNN的人脸识别。通过最全面的实验，我们证明了我们的方法一致优于现有技术。发布了具有详细说明的代码，以便于本文报告的结果的可重复性。鸣谢。邓建康感谢帝国总统博士奖学金的财政支持和英伟达的 GPU 捐赠。 Stefanos Zafeiriou 感谢 EPSRCFellowship DEFORM （ EP/S 010203/1 ）、 FACER 2VM（EP/N 007743/1）和Google Faculty Fellowship.方法IJB-BIJB-CResNet50 [3]0.7840.825SENet50 [3]0.8000.840ResNet50+SENet50 [3]0.8000.841[40]第四十话0.8180.852MN-vc [40]0.8310.862[39]第39届中国国际音乐节0.8500.867美国（公告牌成人另类歌曲榜）[39]0.8410.880SENet50+DCN（Kpts）[39]0.8460.874美国（公告牌百强单曲榜）[39]0.8490.885方法平均动脉压（%）MS1MV2+亚洲，R100，ArcFace79.80+ MLP86.40+包围88.264698引用[1] http://trillionpairs.deepglint.com/overview 的网站。二、四、五、八[2] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， et al.

下载后可阅读完整内容，剩余1页未读，立即下载