深度人脸识别知识蒸馏评估方法

153 浏览量更新于2023-10-25 收藏 13.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

187400面向评估的深度人脸识别知识蒸馏0黄宇歌 � 吴佳翔 * 徐兴坤丁守红 ‡0腾讯优图实验室0{ yugehuang, willjxwu, xingkunxu, ericshding } @tencent.com0https://github.com/Tencent/TFace/tree/master/recognition/tasks/ekd0摘要0知识蒸馏（KD）是一种广泛使用的技术，利用大型网络来提高紧凑模型的性能。以往的KD方法通常旨在引导学生在表示空间中完全模仿教师的行为。然而，这种一对一的对应约束可能导致从教师到学生的知识传递不灵活，特别是对于低模型容量的情况。受KD方法的最终目标启发，我们提出了一种新颖的面向评估的KD方法（EKD）用于深度人脸识别，以在训练过程中直接减小教师模型和学生模型之间的性能差距。具体而言，我们采用人脸识别中常用的评估指标，即假阳性率（FPR）和真阳性率（TPR），作为性能指标。根据评估协议，选择导致教师模型和学生模型之间TPR和FPR差异的关键对关系。然后，通过一种新颖的基于排名的损失函数，约束学生中的关键关系以逼近教师中的相应关系，为低容量的学生提供更大的灵活性。在流行的基准测试上进行了大量实验，结果表明我们的EKD优于现有竞争对手。01. 引言0随着大量的识别系统部署在移动和边缘设备上，紧凑而具有区分性的模型需求越来越高。尽管近年来提出了一些针对移动设备的优化神经网络架构[4,25]，但这些紧凑网络与资源密集型网络之间仍存在巨大的性能差距，后者具有数百万个参数。为了缩小这一差距，知识蒸馏（KD）是一种广泛使用的技术，利用大型网络的知识来提高性能。0* 相等贡献。 ‡ 通讯作者。0输入0卷积神经网络0输出 � 1 s 10正样本对负样本对0� 10� 2 � 3 s 10s 20� 30� � � �0� 2 s 2 � 3 s 3 � 4 s 4 � 5 s 50� 10� 40� 50阈值 = 0.550� 10� 40� 5 0.450阈值 = 0.420图1.样本的关键关系示意图。不同的颜色表示不同的模型（教师模型T为蓝色，学生模型S为绿色）。不同的形状表示不同主题的样本。数字表示样本的余弦相似度。第1个样本和第3个样本的关系是唯一一个在教师和学生模型中相似度落在阈值不同侧的关系（即，在教师模型中为0.6 > 0.55，在学生模型中为0.5 <0.55），因此导致了TPR差异。因此，为了追求与教师相同的TPR，具有有限模型能力的学生应该更加关注第1个样本和第3个样本的关系（红色）。同样，对于负样本对，第1个样本和第5个样本的关系导致了FPR差异，应该更加关注。0性能的紧凑模型提出了一种方法。开创性的工作[2,10]引入了KD的原始思想，目标是减少教师网络和学生网络输出层每个实例概率之间的Kullback-Leibler（KL）散度。在过去的十年中，工作[13, 24,33]通过将这种实例级约束扩展到隐藏层的激活上，继续优化KD方法。例如，注意力传递[33]旨在引发特征图中的类似响应模式。FitNets[24]通过使用回归直接约束中间表示。然而，这种基于实例的方法实质上要求教师和学生共享相同的表示空间，这是不现实的。187410与之前提到的所有知识蒸馏方法不同，我们提出了一种新颖的面向评估的知识蒸馏（EKD）方法，用于深度人脸识别，它从知识蒸馏的最终目标中汲取灵感，即减少教师模型和学生模型之间的性能差距。具体而言，我们采用了人脸识别中常用的评估指标，即假阳性率（FPR）和真阳性率（TPR），作为人脸识别模型的性能指标。通过在学生模型训练过程中执行这两个评估指标，我们可以直接获得导致教师模型和学生模型之间TPR和FPR差异的关键配对关系。自然地，这些关键配对关系应该在知识转移过程中得到重点关注。因此，我们采用一种新颖的基于排名的损失函数来约束学生模型中的关键关系，以逼近教师模型的相应关系。图1给出了一个动机示例，并说明了关键关系如何导致教师模型和学生模型之间的TPR和FPR差异。通常，人脸识别模型的阈值是根据整个负样本对的相似度确定的，并且对于不同的模型通常是不同的，即使对应于相同的FPR。为了清晰起见，我们直接给出了0.55和0.42，它们大致对应于FPR=1e-5和FPR=10与我们的EKD方法相比，之前的所有基于关系的知识蒸馏方法都要求学生模型模仿教师模型和学生模型之间对应配对的绝对相似度，而我们的EKD方法通过一种新颖的基于排名的损失函数放宽了这种约束，该损失函数只要求教师模型和学生模型中阈值相同一侧的对应配对的相似度。本文的贡献总结如下：0尽管所提出的EKD方法和基于关系的知识蒸馏方法都优化了样本之间的关系，但它们在两个方面存在差异。首先，之前的基于关系的知识蒸馏方法要求学生模型模仿教师模型的所有关系，间接减少教师模型和学生模型之间的性能差距，而我们的EKD方法将常用的评估协议，即TPR和FPR，引入训练过程，并优化导致学生模型中TPR和FPR差异的关键关系，以减少这两个指标的差距。其次，之前的基于关系的知识蒸馏方法通常约束了模型容量较低的学生网络。因此，这些基于实例的方法对学生模型的性能改进有限。最近，提出了基于关系的知识蒸馏方法[20, 23,31]。与传统的基于实例的方法不同，基于关系的方法利用实例之间的相关性作为知识。这些方法中的学生模型不需要模仿教师模型的表示空间，而是在自己的表示空间中保留样本之间的关系。因此，与基于实例的方法相比，它们可以取得相对更好的性能。然而，使用这些方法训练的模型性能仍然远离完美，因为它们对知识转移有着过于严格的约束。特别是，它们要求学生模型模仿一个小批量样本之间的所有关系，这严重限制了从教师模型到学生模型的灵活性和效率。0•我们提出了一种新颖的基于排名的损失函数，用于优化学生模型中导致教师模型和学生模型之间TPR和FPR差异的关键关系。通过只约束教师模型和学生模型中对应配对的相似度在阈值相同一侧，给予学生更大的灵活性，从而缓解学生的低容量问题。0•我们提出了一种新颖的面向评估的知识蒸馏方法，用于深度人脸识别。据我们所知，EKD是第一种在训练过程中直接减少教师模型和学生模型之间评估指标差异的知识蒸馏方法。0•我们提出了一种新颖的基于排名的损失函数，用于优化学生模型中导致教师模型和学生模型之间TPR和FPR差异的关键关系。通过只约束教师模型和学生模型中对应配对的相似度在阈值相同一侧，给予学生更大的灵活性，从而缓解学生的低容量问题。0•我们在流行的人脸基准数据集上进行了大量实验，证明了所提出的EKD方法优于SOTA竞争对手。02. 相关工作0人脸识别的损失函数。设计合适的损失函数在深度人脸识别中起着至关重要的作用。常用的损失函数可以分为两类：度量损失和分类损失。度量损失如对比损失[28]和三元组损失[21,26]旨在增加欧氏距离空间中的间隔。当前SOTA的深度人脸识别方法主要采用基于softmax的分类损失[6, 12, 16,30]。尽管这种配备大型神经网络的基于间隔的损失函数被证明可以获得令人满意的性能[6]，但它们在移动神经网络上的表现并不总是很好[7]。大型模型和紧凑模型之间的性能差距促使我们探索知识蒸馏方法。0知识蒸馏。知识蒸馏在许多计算机视觉任务中得到了积极的研究和广泛的应用。Hinton等人提出的基本思想[10]是最小化教师和学生之间的软化类概率的KL散度。后来，提出了几种变体的蒸馏策略，以更好地利用教师网络的信息。它们主要分为两类，即基于实例的方法和基于关系的方法。…………………………187420输入批次0T0S0嵌入批次0负相似性0排序0t 1 (T)0�oss0排序0阈值估计0t(T)0t(S)0t 2 (T) t 3 (T) t 4 (T) t 5 (T) t 6 (T)0t 1 (S) t 2 (S) t 3 (S) t 4 (S) t 5 (S) t 6 (S)0p 1 p 20图2. EKD的示意图。T和S分别表示教师和学生网络，p 1和p2分别表示两个正对关系。损失函数选择和约束了导致教师和学生模型之间TPR和FPR差异的关键成对关系。0方法。基于实例的方法将教师模型的个别输出逐点传递给学生模型。例如，FitNets[24]使用教师网络的中间表示来引导学生网络的特征激活。特别是针对人脸识别提出的KD方法也主要属于这一类别。Shrink-TeaNet[8]最小化教师和学生嵌入向量之间每个人脸样本的角度。TripletDistillation[9]通过利用教师网络中不同身份之间的相似性结构改进三元组损失。MarginDistillation[29]使用教师网络的类中心来训练学生网络。与基于实例的方法不同，基于关系的方法[5, 20, 23,31]传递批次中样本的关系。RKD[20]利用两个具体的关系，即示例的成对关系和三元关系。SP [31]和CCKD [20]采用输出的成对相似性。Darkrank[5]传递数据示例之间的相似性排名。尽管使用这两种类型的KD方法训练的模型性能优于直接训练，但由于这些方法对知识传递有过于严格的约束，因此仍然远未达到完美。特别是，基于实例的方法要求教师和学生共享相同的表示空间，而基于关系的方法要求学生模仿小批次中样本之间的所有关系。0我们的方法与基于关系的方法有关，但存在几个关键差异。与RKD [20]和SP[31]相比，我们的方法在两个方面有所改进：1）EKD专注于导致教师和学生模型之间TPR和FPR差异的关键关系，而RKD和SP则平等对待所有可能的关系。2）EKD通过一种新颖的基于排名的损失函数约束关键关系，以给予学生更大的灵活性。0低容量，而RKD和SP则直接通过L2损失约束相应的相似性。我们的EKD和DarkRank[5]在两个方面不同：1）EKD采用了某个相似性与小批次中总负样本估计的阈值之间的排名，而DarkRank使用了候选样本与查询样本之间的相似性得分进行排名。2）EKD通过一个指示函数计算排名，可以简单地近似为一个sigmoid函数，而DarkRank使用了经典的列表学习排名方法[3]引入的方式。因此，我们的方法实现起来要简单得多。此外，我们方法的关键关系选择与先前方法[9,17]中常见的困难样本挖掘策略不同。如图2所示，正样本对p1在先前的困难样本挖掘方法中更有可能被挖掘出来。相反，我们的方法中挖掘正样本对p2，因为它导致了教师模型和学生模型之间的TPR差异。03.提出的方法0图2展示了所提出的EKD的框架。给定一个教师模型T和一个学生模型S，我们分别将f T和fS定义为教师和学生的函数。我们遵循RKD[20]中的批次构建方法，在一个小批次中每个类别采样q个正样本图像。因此，由T和S提取的特征可以用于构建正样本对和负样本对。然后，根据人脸识别中常用的TPR和FPR评估协议，选择导致教师模型和学生模型之间两个指标差异的关键成对关系（见第3.1节）。最后，我们通过一种新颖的基于排名的损失函数（见第3.2节）来约束关键关系，为学生提供更大的灵活性。si,j = ⟨f(xi), f(xj)⟩ , i ̸= j(1)FPR(t) = 11(vi > t)(2)TPR(t) = 11(ui > t)(3)Critical Relation Selection.According to the above eval-uation process, once the thresholds are chosen according tothe target FPR ranges, the positive pair relations that causethe TPR difference between the teacher and student modelcan be obtained. Though the FPR has been fixed when es-timating the corresponding threshold, the difference of thenegative pairs in teacher and student models that cause thefalse positive cases is also instructive during the knowledgetransfer. Thus, the critical relations that cause the differencebetween the teacher and student models can be defined asfollows:̸187430学生并缓解学生的低容量问题。03.1. 关键关系选择0正样本对和负样本对。首先，我们介绍在训练过程中如何构建一个小批次中的正样本对和负样本对的详细信息。一个平衡的小批次由p个类别组成，每个类别有q个图像。因此，每个小批次中有B = p * q个样本。总对数为B * (B - 1) /2，其中p * q * (q - 1) / 2是正样本对的数量，p * q * (p -1) * q /2是负样本对的数量。遵循先前的人脸识别方法[6,12]，我们采用余弦相似度来表示成对关系：0其中f(xi)表示样本的表示。0FPR和TPR计算。我们方法的动机是直接将减小教师模型和学生模型之间的性能差距作为训练约束。因此，关键问题是选择一个合适的评估指标作为模型的性能指标。在人脸识别中，TPR和FPR是最常用的评估指标。因此，在这项工作中，我们采用这两个评估指标作为模型的性能指标。我们首先简要描述这两个指标的评估协议。给定一个包含所有负样本对的相似性向量v，FPR被计算为大于阈值t的比例。0N/A0N/A0其中t是选择的阈值，1(x)是离散的指示函数，vi表示第i个关系的相似性。类似地，给定一个包含所有正样本对的N个真实分数u，TPR被计算为大于阈值t的比例，如下所示。0N/A0在实践中，评估两个人脸识别模型的典型方法是固定它们的FPR并比较它们的TPR。具体而言，与每个FPR对应的阈值是由所有负对相似性的分位数确定的，而TPR可以根据所获得的阈值基于正对相似性来计算。TPR越高，模型越好。关注的FPR范围取决于人脸识别系统的部署场景。例如，在人脸访问控制系统中，FPR通常设置为1e-5或1e-6，以平衡安全性和用户体验。在流行的公共人脸基准测试中，FPR通常从1e-1到1e-6 [14, 18,32]。因此，我们选择[1e-1，1e-6]作为目标FPR范围。相应地，可以获得与FPR范围均匀间隔的对数尺度的6个阈值的向量。由于一个训练小批量中的负对数量不够大，对应于较小FPR值（例如1e-6）的阈值可能具有较大的方差。我们遵循[15]使用指数移动平均（EMA）来解决这个问题。设enk为特定FPR的第k个阈值的估计值，因此我们有：0关键关系选择。根据上述评估过程，一旦根据目标FPR范围选择了阈值，就可以获得导致教师和学生模型之间TPR差异的正对关系。尽管在估计相应阈值时FPR已经固定，但导致假阳性情况的教师和学生模型中的负对差异也对知识传递具有指导意义。因此，可以定义导致教师和学生模型之间差异的关键关系如下：0tk = αtk + (1 -α)enk，其中tk是第k个阈值，初始化为0；α是动量参数，设为0.99。01 (si,j(T) > tk(T)) ≠ 1 (si,j(S) > tk(S)) (5)0其中si,j(T)和si,j(S)表示第i和j个样本之间的相似性，tk(T)和tk(S)分别是教师和学生模型中的第k个阈值。第i和j个样本之间的关系可以是正对和负对。03.2. 以评估为导向的知识蒸馏0设si,j(T)和si,j(S)分别表示教师和学生中第i和j个样本之间的相似性。为简洁起见，省略了i和j的索引。为了约束学生中的关键关系以逼近教师模型中的关键关系，可以定义一个公共损失：0Lk = ∥s(T) - tk(T) - (s(S) - tk(S))∥ (6)0其中tk(T)和tk(S)分别是教师和学生模型的第k个阈值。假设有K个阈值和N个关键关系，损失函数可以表示如下：0L hard = 10N0N0n = 10k = 1 ∥sn(T) - tk(T) - (sn(S) - tk(S))∥ (7)0这个公式可以被视为之前的方法（如RKD [20]和SP[31]）中使用的一般损失形式。如果教师和学生的阈值设置为相等，损失可以简化为常见的L2损失。0L = 10N0n = 1 ∥ sn(T) - sn(S) ∥ (8)Obtain the features by T and S;Construct all the possible positive and negative pairsby Eq. 1;Sort the negative pair similarities and obtain thethresholds corresponding to predefined FPR range inthe current mini-batch;Update thresholds t(T) and t(S) by Eq. 4;Compute our EKD loss L by Eq. 11 for positive andnegative pairs, respectively;Compute the total loss by Eq. 12;Compute the gradients of S;Update the parameters S;i ← i + 1;endOutput: SHowever, the formulation of Eq. 7 may still be inflexi-ble due to the absolute distance constraint of each criticalrelation between the teacher and student models. Given apositive or negative similarity and a chosen threshold, thecomparative relations influence the TPR or FPR rather thanthe absolute distance. That is, if a relation meets the condi-tion that 1(s(T) − tk(T)) = 1(s(S) − tk(S)), it will notcause the metric difference between the teacher and studentmodels. Thus, we can directly adopt this condition to op-timize the student model. Since the Indicator function is astep function whose value is 0 or 1 and the thresholds aremonotonic, the loss can be formulated as follows.L = 1NN�n=1��(K�k=11(sn(T) − tk(T)) −K�k=11(sn(S) − tk(S)))��(9)The above formulation can be considered as a constraintfor the rank between a certain similarity and the thresholds.However, the Indicator function cannot be optimized withgradient-based methods. Inspired by [1], a sigmoid functionG(·; τ) is used to approximate the Indicator function:G(xnk, τ) =11 + e−xnkτ(10)where τ refers to the temperature adjusting the sharpness,and xnk = sn − tk refers to the distance between the n-th(a)(b)(c)Figure 3. (Top) The Indicator function and sigmoid functions withdifferent temperature τ as different approximations. (Bottom) Thecorresponding derivatives of each function. (a) Indicator function(b) sigmoid function with τ = 0.01 (c) sigmoid function withτ = 0.1.similarity and the k-th threshold. Substituting G(·; τ) intoEq. 9, the loss can be approximated as:Lekd = 1NN�n=1��(K�k=1G(xnk(T), τ) −K�k=1G(xnk(S), τ))��(11)where xnk(T) = sn(T) − tk(T) and xnk(S) = sn(S) −t(S). In addition, as described in Sec. 3.1, since the num-ber of negative pairs is much larger than the one of pos-itive pairs, we handle the two relations separately and re-duce the number of negative pairs via hard negative min-ing. In summary, the entire formulation of our EKD is:LEKD = λ1Lpos+λ2Lneg, where λ1 and λ2 are the weightparameters.Furthermore, to maintain the class discrim-inability, we incorporate the loss function of Arcface [6],and thus the final loss becomes:L(Θ) = LEKD + LArcface,(12)where Θ denotes the parameter set. The entire training pro-cess is summarized in Algorithm 1.Indicator Function Approximation.The derivative ofthe Indicator function is defined as Dirac delta functionδ(x), which is either flat everywhere, with zero gradient, ordiscontinuous, and hence cannot be optimized with gradientbased method [1]. The derivative of the sigmoid functionG(x, τ) is as follows:∂G187440算法1：以评估为导向的知识蒸馏0输入：平衡的输入小批量X，预训练的教师网络T，具有随机初始化参数的学生网络S，FPR范围[FPR L，FPRU]，阈值数量k，学习率λ。教师阈值t(T) =[t1(T)，t2(T)，...，tk(T)] ← [0，0，...，0]；学生阈值t(S)= [t1(S)，t2(S)，...，tk(S)] ← [0，0，...，0]；迭代次数i← 0；当未收敛时执行0∂x = G(x, τ)(1 - G(x,0τ (13)0如图3所示，温度控制着近似紧密度和提供梯度的操作区域。1874504. 实验04.1. 数据集0训练集。我们使用精细的MS1MV2[6]作为训练数据，以便与其他方法进行公平比较。MS1MV2包含约85K个个体的约5.8M张图像。0测试集。我们在几个流行的人脸基准数据集上广泛测试我们的方法，包括LFW [11]，CFP-FP [27]，CPLFW[36]，AgeDB [19]，CALFW [35]，IJB-B [32]，IJB-C[18]和MegaFace[14]。LFW是最常用的人脸验证测试数据集，包含来自5749个不同身份的13233张网络采集图像。其他四个数据集是具有两个变化的标准基准数据集，即CFP和CPLFW的姿势，以及AgeDB和CALFW的年龄。MegaFace旨在评估百万规模干扰因素下的人脸识别性能。MegaFace的画廊集包括690K个主体的1M张图像，探测集包括来自FaceScrub的530个唯一主体的100K张照片。IJB-B和IJB-C是两个具有挑战性的公共基于模板的人脸识别基准数据集。IJB-B数据集包含1845个主体，其中包括21800张静态图像和7011个视频中的55000帧。IJB-C数据集是IJB-B的进一步扩展，包含大约3500个身份，总共31334张图像和117542个不受限制的视频帧。04.2. 实验设置0数据处理。我们按照[6]的方法，使用MTCNN[34]检测到的五个关键点裁剪112×112的人脸。RGB图像首先通过减去127.5并除以128进行归一化，然后输入嵌入网络。0教师。我们使用Resnet 50作为教师模型，该模型是由ArcFace[6]训练得到的。在本文的所有实验中，教师模型都是预训练并冻结的。0学生。为了展示我们方法的普适性，我们使用两种神经网络结构，例如MobileFaceNet [4]和Resnet 18[6]作为学生模型。0训练。我们在16个NVIDIA Tesla V100 GPU上使用Pytorch[22]框架进行所有实验。所有学生模型都是使用SGD算法从头开始训练的，训练周期为28个周期。学习率从0.1开始，在第10、18、24个周期时除以10。动量为0.9，权重衰减为5e-4。权重λ1和λ2分别设置为0.02和0.01。对于ArcFace，我们遵循[6]中的常见设置，将尺度s设置为64，边际m设置为0.5。ArcFace的批量大小设置为512。平衡批量大小也设置为512，每个类别随机采样4张图像。为了增加负对的数量，我们在构建负对时合并两个输入。所有训练图像都以0.5的概率进行水平翻转，作为唯一的数据增强策略。0测试。我们按照评估协议[11]报告在LFW、CFP-FP、CPLFW、AgeDB和CALFW上的性能。在Megaface上，报告人脸识别和验证性能。在IJB-B和IJB-C上，我们按照ArcFace[6]中的1:1验证协议，将图像特征的平均值作为相应的模板表示，没有其他花哨的技巧。04.3. 消融研究0学生网络结构的影响。我们研究了我们方法在不同学生网络结构上的泛化能力。表1（学生结构）显示了两种结构（IR18和MobileFaceNet）的结果。尽管两种网络结构的性能改进不同，但我们的方法通常比直接从头训练学生网络更好。我们的方法对于容量较低的学生（MobileFaceNet）可以带来更多的改进。0温度τ的影响。如3.2节所述，温度τ控制了用于近似指示函数的Sigmoid函数的平滑程度。表1（温度τ）显示，0.01的值可以获得最佳性能，这与[1]的结论相似。如图3所示，0.01的值比0.1更好地近似了指示函数，并对应于一个提供梯度的小操作区域。尽管0.001的值给出了更紧密的近似，但它不能提供足够大的区域与梯度。0困难负样本挖掘的影响。如3.2节所述，我们采用困难负样本挖掘策略来减少负样本对相似性的数量。首先，为了研究负样本对数量的影响，我们使用相应的策略训练模型（选择了1000、2000、5000个具有最大相似性的负样本对）。一个小批次中的正样本对数量约为800。因此，我们尝试这些值以保持正样本对和负样本对数量可比。比较结果在表1（困难负样本挖掘）中报告。我们有两个观察结果：1）所有策略的性能都优于直接训练学生（MobileFaceNet行），证明了我们方法的有效性。2）1000和2000的性能相似，而5000不及其他两个。原因可能是随着负样本对数量的增加，正样本对的相对权重减小。我们选择2000作为默认值，因为它获得了最佳的平均性能。其次，我们还通过将其替换为随机负样本选择来研究困难负样本挖掘策略的效果。在表1中比较了“随机负样本选择”和“困难负样本挖掘”的结果，我们的困难负样本挖掘版本通常优于随机选择版本。187460表1.对MS1Mv2进行了大量消融实验。我们报告了五个小型测试数据集和一个大规模测试数据集（IJB-C）的结果。默认的学生网络是MobileFaceNet。N表示选择的负样本对的数量。K表示阈值数量。报告了在IJB-C上TPR@FPR=1e-4和TPR@FPR=1e-5的结果。0消融类型方法（%）LFW CFP-FP CPLFW AgeDB CALFW IJB-C IJB-C0ResNet50 (Teacher) 99.80 97.63 92.50 97.92 96.05 95.16 92.660学生结构0MobileFaceNet 99.52 91.66 87.93 95.82 95.12 89.13 81.650MobileFaceNet + 我们的方法 99.60 94.33 89.35 96.48 95.37 90.48 84.000IR 18 99.67 94.60 89.97 97.33 95.70 91.96 86.010IR 18 + 我们的方法 99.68 95.31 90.82 97.48 95.85 92.74 88.840温度 τ0τ = 0.1 99.62 93.33 88.55 96.20 95.20 89.51 82.040τ = 0.01 99.60 94.33 89.35 96.48 95.37 90.48 84.000τ = 0.001 99.65 93.29 89.07 96.17 95.28 88.63 79.070困难负样本挖掘0N = 1000 99.57 93.66 89.28 95.94 95.33 90.29 84.560N = 2000 99.60 94.33 89.35 96.48 95.37 90.48 84.000N = 5000 99.58 93.74 88.93 96.35 95.30 89.85 82.930随机负样本选择0N = 1000 99.53 94.04 89.00 96.36 95.10 89.71 83.090N = 2000 99.55 94.19 89.00 96.27 95.33 89.41 82.350N = 5000 99.53 94.17 89.38 96.15 95.51 89.73 83.020阈值数量0K = 3 99.53 93.57 88.93 96.05 95.47 89.71 83.220K = 6 99.60 94.33 89.35 96.48 95.37 90.48 84.000损失函数等式7 99 . 53 91 . 99 88 . 23 96 . 17 94 . 88 89 . 35 81 . 680等式11 99 . 60 94 . 33 89 . 35 96 . 48 95 . 37 90 . 48 84 . 000图4.基线和我们的方法在训练过程中关键关系数与总关系数之间的比例变化。0阈值数量的影响。给定一个关注的FPR范围[FPR L，FPRU]，阈值的数量取决于FPR的间隔方式。通常选择与FPR在对数尺度上均匀间隔的阈值向量。对于FPR范围[1e-1，1e-6]，典型的阈值数量为6。在这里，我们比较两个值，即3和6。3个阈值分别设置为1e-1，1e-3和1e-6。如表1所示，6个阈值的结果优于3个，因为更多的阈值可以更精细地描述相似性之间的关系。0损失函数的影响。为了研究我们的放松损失函数的效果，我们分别使用等式7和等式11训练模型。通过比较表1中的结果（损失函数），使用等式11训练的模型优于使用等式7的版本，这表明给予学生更大的灵活性是有益的。0关键关系数与总关系数之间的比例。图4显示了关键关系数与总关系数之间的比例，这些比例是通过计算得出的。0基线和我们的方法在训练过程中关键关系数与总关系数之间的比例变化。由于学生网络是从头开始训练的，所以在训练的早期阶段，关键关系数的比例会剧烈波动，因此我们删除了开始的训练步骤，以使图形更清晰。我们的方法训练的关键关系数比基线要小，表明我们的方法确实减小了教师和学生模型在训练过程中的性能差距。04.4. 与SOTA方法的比较0我们与各种SOTA知识蒸馏方法进行比较，包括针对其他任务提出的方法（FitNet [24]，KD [10]，DarkRank [5]，SP[31]，CCKD [20]和RKD[20]）以及专门设计的人脸识别方法（ShrinkTeaNet[8]，Triplet Distillation [9]和MarginDistillation[29]）。由于前六种方法在人脸识别上没有进行完整的实验，我们根据它们的原始论文重新实现了它们。我们从[29]中引用了后三种方法的结果。0在LFW、CFP-FP、CPLFW、AgeDB和CALFW上的结果。表2显示了与SOTA竞争对手在五个常见的小型基准测试上的结果比较。从表2可以看出，大多数知识蒸馏方法都优于直接从头开始训练学生网络（即MobileFaceNet），但性能提升有限。在所有竞争对手中，基于关系的方法似乎比基于实例的方法表现更好，但不及MarginDistillation。尽管我们不能在每个测试集上击败竞争对手，但我们在这些测试集上取得了最好的平均性能。ResNet5099.8097.6392.5097.9296.05MobileFaceNet99.5291.6687.9395.8295.12ResNet50MobileFaceNet89.1381.6587.0774.63ShrinkTeaNet (arxiv’19)87.8079.7885.3175.23TripletDistillation (ICIP’20)84.5776.6581.8870.51MarginDistillation (arxiv’20)85.7175.0082.9766.25（a）ROC for IJB-B（b）ROC for IJB-CResNet5098.1498.3480.6296.83MobileFaceNet90.9192.7175.5290.80ShrinkTeaNet (arxiv’19)90.7392.3275.5590.56Triplet Distillation (ICIP’20)86.5288.7571.9391.35MarginDistillation (arxiv’20)91.7092.9676.3491.31187470表2.在LFW、两个姿态基准测试：CFP-FP和CPLFW，以及两个年龄基准测试：AgeDB和CALFW上与SOTA方法的验证比较。0方法（%） LFW CFP-FP CPLFW AgeDB CALFW0FitNet (arxiv' 14 ) 99 . 47 91 . 30 88 . 30 96 . 18 95 . 12 KD (NIPSW' 14 ) 99

下载后可阅读完整内容，剩余1页未读，立即下载