人脸识别CNN的高效稳健训练方法——部分FC

68 浏览量更新于2023-10-26 收藏 13.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

40420一石二鸟：通过部分FC高效稳健地训练人脸识别CNN0Xiang An 1,3 Jiankang Deng * 2,3 Jia Guo 30Ziyong Feng 1 XuHan Zhu 4 Jing Yang 3 Tongliang Liu 501 DeepGlint 2 Huawei 3 InsightFace 4 PengCheng Laboratory 5 University of Sydney0{ xiangan,ziyongfeng } @deepglint.com, tongliang.liu@sydney.edu.au0{ jiankangdeng,guojia,zhuxuhan.research,y.jing2016 } @gmail.com0摘要0通过使用百万级野外数据集和基于边际的softmax损失来学习有区分性的深度特征嵌入是目前人脸识别的最先进方法。然而，全连接（FC）层的内存和计算成本与训练集中的身份数量成线性比例增加。此外，大规模训练数据不可避免地遭受类间冲突和长尾分布的困扰。在本文中，我们提出了FC层的一种稀疏更新变体，称为部分FC（PFC）。在每次迭代中，选择正类中心和一部分负类中心来计算基于边际的softmax损失。所有类中心在整个训练过程中仍然保持不变，但每次迭代中只选择和更新一部分。因此，大大减少了计算需求、类间冲突的概率以及对尾部类中心的被动更新频率。在不同的训练数据和骨干网络（如CNN和ViT）上进行了大量实验证实了所提出的PFC的有效性、稳健性和高效性。源代码可在https://github.com/deepinsight/insightface/tree/master/recognition 上找到。01. 引言0人脸识别在现代生活中扮演着越来越重要的角色，并广泛应用于许多实际应用中，如移动设备上的人脸认证。最近，随着大规模训练数据集的收集[ 3 , 50]和网络架构的演进，人脸识别取得了巨大的进展。0* 通讯作者。InsightFace是一个非营利性的Github项目，用于2D和3D人脸分析。0图1.PFC通过使用标签选择正类中心，并随机选择显著减少数量的负类中心来计算部分图像到类别的相似性。PFC一石二鸟（效率和稳健性）一石（部分采样）。0[ 13 , 30 ]，以及基于边际和基于挖掘的损失函数的设计[ 8, 17 , 25 , 30 , 35 , 36 , 38 , 41 ]。尽管softmax损失[ 3]及其基于边际[ 8 , 25 , 35 , 36 ]或基于挖掘[ 17 , 38 , 41]的变体在深度人脸识别上取得了最先进的性能，但随着训练数据中身份数量的增长，训练难度也随之累积，因为全连接（FC）层的内存和计算消耗与训练集中的身份数量成线性比例增加。当训练数据集中存在大规模身份时，最终线性矩阵的存储和计算成本很容易超过当前GPU的能力，导致训练时间巨大或甚至训练失败。为了突破计算资源限制，最直接的解决方案是减少训练过程中使用的类别数量。张等人[ 42]提出使用哈希森林将类别权重空间划分为小的单元格，但遍历森林以找到最接近的单元格的复杂度为O(logN)。李等人[22]将训练身份随机分成组，并且每个组的身份共享一个锚点，用于构建虚拟全连接层。尽管虚拟FC减少了40430与传统的FC解决方案相比，虽然PFC将FC参数减少了100多倍，但性能明显下降。SST [ 11 ]和DCQ [ 21]直接放弃了FC层，并使用动量更新的网络生成类别权重。然而，负类数量受到过去几百步的限制，并且需要在GPU中维护两个网络。此外，从互联网上收集并通过自动方法进行清理的名人图像[ 45 , 50 ]表现出长尾分布[ 24 , 48]以及标签噪声[ 34]。一些知名的名人在搜索引擎上有大量图像（头部类），而大多数名人在网络上只有很少的图像（尾部类）。为了保留难训练样本，在[ 50]中用于类内和类间清理步骤的阈值相对较宽松，导致WebFace42M数据集中存在标签翻转噪声。王等人[ 34]指出，与异常值相比，标签翻转对模型的性能影响更大，因为基于边际的softmax损失在训练过程中很难处理类间冲突。为了缓解上述问题，我们提出了一种稀疏更新的全连接层，称为部分FC（PFC），用于训练大规模人脸识别。在提出的PFC中，传统的FC层在整个训练过程中仍然保持不变，但更新频率显著降低，因为每次迭代中只采样部分负类中心。如图1所示，选择正类中心并随机选择一部分负类中心来计算基于边际的softmax损失。由于每次迭代只选择一部分类间进行计算，大大减少了计算需求、尾部类中心的被动更新频率以及类间冲突的概率。在不同的训练数据集和骨干网络（如CNN [ 13 ]和ViT [ 10]）上进行了大量实验证实了所提出的PFC在大范围的采样比率下的有效性、稳健性和高效性。所提出的PFC的优点可以总结如下：0•高效。在高性能模式下，将PFC-0.1（采样比例）应用于ResNet100可以在单个服务器上以每秒约2.5K个样本的速度高效训练1000万个身份，比模型并行解决方案快五倍。在超快模式下，PFC的采样比例可以降低到极低的状态（约为0.01），不选择额外的负类。对于在WebFace42M上训练的ResNet100的PFC-0.008而言，FC层的计算成本几乎可以忽略不计，而在IJB-C上的验证准确率达到97.51%。0•鲁棒。PFC在类间冲突、标签翻转噪声和现实世界的长尾分布下表现出惊人的鲁棒性。在简单的在线异常类间过滤的辅助下，PFC可以进一步提高鲁棒性。0在严重的类间冲突下的鲁棒性。0•准确。提出的PFC在不同的基准测试上取得了最先进的性能，在IJB-C上达到了98.00%，在MFR-all上达到了97.85%。02. 相关工作0基于边界的深度人脸识别。开创性的基于边界的人脸识别网络[30]在欧氏空间中使用三元组损失。然而，由于三元组数量的组合爆炸，训练过程非常具有挑战性。相比之下，基于边界的softmax方法[8, 25, 35,36]专注于将边界惩罚融入到更可行的框架softmax损失中，并取得了令人印象深刻的性能。为了进一步改进基于边界的softmax损失，最近的研究集中于探索自适应参数[24, 43,44]、类间正则化[12, 47]、挖掘[17, 38,41]、分组[19]等。为了加速基于边界的softmax损失，[22]提出了一个虚拟全连接层，将FC参数减少了100多倍。此外，DCQ[21]直接放弃了FC层，采用动量更新的网络生成类别权重。0噪声和长尾分布下的鲁棒人脸识别训练。大多数人脸识别数据集[3,50]是通过在预定义的名人列表中搜索从互联网下载的，原始标签很可能是模糊和不准确的[34]。由于准确的手动注释成本较高[34]，因此最近在人脸识别中引起了对大量噪声数据学习的关注[7, 15, 37, 40, 46,48]。为了提高在噪声下的鲁棒性，最近的方法尝试设计耐噪声的损失函数（例如，为样本计算时变权重[15]，根据模型的预测设计分段损失函数[48]，放松类内紧凑性的约束[7]），探索双网络的一致预测[37]，并采用元监督进行自适应标签噪声清理[46]。除了标签噪声，网络数据通常呈长尾分布。为了缓解长尾分布，最近的方法尝试改进尾部类别的边界值[24]或从样本到样本的比较中召回好处[9, 11, 21, 49]。03. 方法0本节首先对传统全连接层的局限性进行分析，然后提出了一种更高效、更稳健的训练方法，称为部分全连接（PFC）。通过对干净和噪声训练数据进行学习动态分析，我们最终对类间交互作用的作用有了更深入的理解。L = − 1BB�i=1logeW TyixieW Tyixi +Cj=1,j̸=yi eW Tj xi ,(1)∂L∂xi= −((1 − p+)W + −C�j=1,j̸=yip−j W −j ).(2)W tj = W t−1j+ η(�i∈B+(1 − p+i )x+i −�i∈B−p−i x−i ),(3)40440(a) 类间冲突0(b) 长尾分布0图2. WebFace42M的类间冲突和长尾分布[50]。03.1. 重新审视全连接层0在本小节中，我们首先讨论了全连接层的优化过程。然后，我们根据梯度分析讨论了全连接层的三个缺点。用于人脸识别的最常用的分类损失函数，即softmax损失，如下所示：0其中Wj ∈ R D表示类别中心的第j列，xi ∈ RD表示属于第yi类的第i个样本的特征，D是特征维度，C是类别数，B是批次大小。从特征的角度来看，网络将朝着一个特征接近真实中心并远离所有其他中心的方向进行更新。为了更直观地说明特征的梯度，我们将真实中心的概率和中心表示为p +和W +，而将其他负概率和中心表示为p − j和W− j：0从中心的角度来看，属于第j类的中心Wj将朝着一个靠近第j类样本特征并远离其他类样本特征的方向进行更新：0其中 η 是学习率，t 是迭代次数，B +0表示属于第j类的所有样本，B −表示其他类别的所有样本，|B + | + | B −|等于批次大小B。即使softmax损失及其基于边界或基于挖掘的变体在深度人脸识别上取得了最先进的性能，但softmax损失中的全连接层在应用于大规模网络数据[50]时存在以下三个缺点。0(a) 内存消耗0(b) 训练速度0图3. 模型并行和PFC之间的内存消耗和训练速度比较。0第一个限制是在类间冲突下的梯度混淆。如图2a所示，来自WebFace42M[50]的许多类对显示出高余弦相似性（例如>0.4），表明在这个自动清理的网络数据中仍然存在类间冲突。这里，类间冲突指的是一个人的图像被错误地分配到不同的类别中。如果存在大量冲突的类别，网络优化将在特征和中心上遭受梯度混淆，因为方程2中的负类中心Wj和方程3中的负特征x −i可能来自正类。第二个限制是尾部类别的中心经历了太多被动更新。如图2b所示，WebFace42M[50]的身份是长尾分布的，44.57％的身份包含少于10张图像。在百万级身份和千级批次大小的训练场景下，方程3中的B+在大多数迭代中对于特定类别j为空，特别是对于尾部类别。当来自其他类别的训练样本存在类间惩罚时，Wj被推离这些负样本的特征，逐渐偏离其所代表的类别的方向[11]。因此，嵌入网络预测的类别特征中心与SGD更新的相应中心之间可能存在差异。第三个限制是FC层的存储和计算很容易超过当前GPU的能力。在ArcFace [8]中，中心矩阵W ∈ R D×C被均匀地分割到K个GPU上。在前向步骤中，每个GPU首先从所有GPU中收集所有嵌入特征（即X ∈ R D ×B）。然后，在每个GPU上独立计算样本到类别的相似性及其指数映射。为了计算方程1中的分母以归一化所有相似性值，计算每个GPU上的局部和，然后通过跨GPU通信计算全局和。最后，归一化的概率在方程2和方程3中用于计算特征的梯度和中心的梯度。即使模型并行化可以完全解决W的存储问题，通过增加更多的GPU进行可忽略的通信̸where S is a subset of all negative classes and one positiveclass, |S| = C ∗ r, and r is the sampling ratio. By com-paring Eq. 2 and Eq. 4, we can easily find that PFC directlydecreases the possibility of inter-class conflict by r. In addi-tion, only positive centers and part of negative centers willbe updated by Eq. 3 in each iteration. Therefore, the fre-quency of gradient update on Wj also decreases from 1.0 tor, thus avoiding excessive passive update on tail class cen-ters. In Fig. 3a and Fig. 3b, PFC saves a large amount ofGPU memory used by softmax logits, thus the model train-ing can benefit from stacking more GPUs to increase thethroughput on large-scale data.40450图4.所提出的PFC的分布式实现。首先从每个GPU收集人脸特征。同时，从每个CPU复制部分中心到GPU。通过标签选择正类中心，而随机选择部分负类中心（灰色）填充缓冲区。在每个GPU上，通过收集到的特征和部分中心的内积，我们得到部分逻辑。PFC在FC层上节省内存并提高效率，因为它减少了GPU内存消耗和FC层上的计算成本。PFC在训练过程中也能够在类间冲突下保持稳健性，因为它减少了类间交互。在具有极其严重类间冲突的数据集上，PFC可以通过在PFC中使用固定阈值（即0.4）来进一步增强稳健性，过滤异常的类间高相似度。0由于预测的逻辑存储无法通过增加GPU数量来轻松解决，因此预测的逻辑存储无法通过增加GPU数量来轻松解决。如图3a所示，当身份数C从1M增加到8M时，我们相应地将GPU数量K从8增加到64以保持C/K一致。然而，即使与K同步增加的批量大小，逻辑存储的内存消耗（C/K×B）仍然显著增加，甚至超过了骨干网络的内存使用量。除了FC层的内存消耗外，前向和后向步骤中的计算成本也是巨大的。如图3b所示，随着增加的GPU用于计算扩大的FC层，吞吐量无法提高。因此，简单地堆叠更多的GPU无法有效解决大规模人脸识别训练的问题。03.2. 部分全连接层0为了缓解FC层的缺点，我们提出了PFC，一种用于训练大规模人脸识别模型的稀疏更新变体的全连接层。如图4所示，我们在训练过程中保留所有的类中心，但是随机采样一小部分负类中心来计算基于边界的softmax损失，而不是在每次迭代中使用所有的负类中心。具体而言，首先从每个GPU收集人脸特征嵌入和标签，然后将组合的特征和标签分发到所有的GPU。为了使每个GPU的内存使用和计算成本相等，我们为每个GPU设置一个内存缓冲区。内存缓冲区的大小由总类数和负类中心的采样率决定。在每个GPU上，首先通过标签选择正类中心并放入缓冲区，然后随机选择一小部分负类中心填充缓冲区的剩余部分，以确保负载均衡。在每个GPU上，通过收集到的特征和部分中心矩阵的内积，我们同时获得所有部分相似度矩阵以计算基于边界的softmax损失。在PFC中，网络将朝着使特征xi接近正类中心W+的方向进行更新。0(a) 正余弦0(b) 中心之间的最大余弦0图5.在WebFace12M数据集上不同采样比率下的类内紧密度和类间差异比较。0∂L/∂xi = -((1-p+)W+ - �0远离负类中心的一部分W-j。0在S中，j ≠yip-jW-j)，(4)̸̸40460(a) IJB-C（TAR@FAR=1e-5）0(b) MFR-All（TAR@FAR=1e-6）0图6. 在不同采样比率下的IJB-C和MFR-All的验证准确率。0(a) 最大负余弦0(b) 中心之间的最大余弦0图7.在WebFace12M和WebFace12M-Conflict数据集上不同采样比率下的类间统计比较。0(a) FC的最大负余弦0(b) PFC的最大负余弦0图8.在WebFace12M-Conflict数据集上不同采样比率下的硬负类和冲突负类分析。03.3. 重新思考类间交互0在方程4中，采样比率显著降低了特征和中心之间的类间交互。为了了解类间采样的影响，我们定义了三个指标来评估实时的类内紧凑性、实时的类间差异性和最终的类间分布。具体而言，我们定义了特征xi和正类中心Wyixi之间的平均正余弦相似度（APCS）为APCS = 1 / B ∑Bi=1WTyi xi /(∥Wyi∥∥xi∥)，其中B是批次大小，APCS是训练数据上类内优化状态的实时指标。我们还定义了特征xi和最近的负类中心Wj之间的平均最大负余弦相似度（AMNCS）为AMNCS= 1 / B ∑Bi=1maxj�=iWTj xi / (∥Wj∥∥xi∥)，0是训练数据上类间优化状态的实时指标。为了评估最终的类间差异性，我们将最大类间余弦相似度（MICS）定义为MICSi = maxj�=iWTiWj / (∥Wi∥∥Wj∥)。0在图5中，我们比较了不同采样比率下的类内和类间状态。我们使用基于边界的softmax损失函数[8,36]在WebFace12M数据集[50]上训练了一系列ResNet50模型。最小采样比率是批次大小除以身份数量，即1024 /600K ≈0.0017，这意味着只有批次内的负类中心用于构建基于边界的softmax损失。如图5b所示，当采样比率从1.0降低到0.0017时，类间相似性明显增加。当Wj在方程3中的更新频率降低时，网络训练减弱了类间优化，更加关注类内优化。因此，PFC在训练过程中实现了更高的类内相似性，如图5a所示。0即使在采样比率下降时，训练数据上的类间差异性恶化，当采样比率大于0.1时，IJB-C[27]和MFR-All[6]的验证准确率仍然可以保持，如图6所示。当采样比率降至0.0017时，验证准确率明显下降，表明训练过程中的类间交互不足。为了改善类间差异性，我们通过将批次大小增加到2K、4K、8K来训练三个额外的模型，以体现更多的批次内负类，采样比率也相应增加。如图6所示，当批次大小增加时，性能显著提高。请注意，当PFC不在批次外添加额外的负类时，与在骨干网络上的时间成本相比，FC层上的训练时间可以忽略不计。除了增加批次大小外，我们还尝试了类间正则化[47]。通过将MICS作为正则化损失，性能也可以明显提高，如图6所示。然而，类间正则化在大规模训练数据上需要非可忽略的计算成本。0除了对干净数据进行分析外，我们还通过将20万个身份随机分成另外60万个身份，从而将WebFace12M数据集合成了一个WebFace12M-Conflict数据集，因此WebFace12M-Conflict包含了100万个伪类，具有很高的类间冲突比例。如图7a所示，FC（r =1.0）在类间优化过程中面临波动，但最终过拟合了冲突数据集（图7b）。相比之下，PFC（r =0.1）放松了类间优化，因此冲突类别在图7b中表现出更高的相似性。由于WebFace12M-Conflict是合成的，我们可以使用真实标签分别计算硬负类和冲突负类（即类间噪声）的AMNCS。如图8b所示，PFC（r =0.1）可以像在干净数据集上一样惩罚硬负类，而冲突负类在训练过程中仍然可以实现相似性的增加。在图8a中，FC（r =1.0）在减小特征和冲突类中心之间的相似性方面遇到困难，导致http://iccv21-mfr.com/WF4M+FC-1.086.2583.3591.1188.1465.7972.05WF4M+PFC-0.0474.11 (- 12.14)71.4381.7976.2552.2454.21WF4M+PFC-0.185.76 (- 0.49)83.8291.0087.9066.0471.13WF4M+PFC-0.286.36 (+ 0.11)84.4791.3988.4566.6171.88WF4M+PFC-0.386.85 (+ 0.60)84.8691.5788.5767.5272.28WF4M+PFC-0.486.81 (+ 0.56)84.7591.4488.4167.1771.99WF12M+FC-1.091.7090.7294.9493.4475.1080.47WF12M+PFC-0.01387.85 (- 3.85)87.0792.3290.7068.2872.98WF12M+PFC-0.191.24 (- 0.46)90.8094.6793.1874.9779.73WF12M+PFC-0.291.78 (+ 0.08)91.0995.0093.5375.9079.92WF12M+PFC-0.391.82 (+ 0.12)91.1495.0093.6175.5580.08WF12M+PFC-0.491.81 (+ 0.11)90.9795.0393.4075.5580.61WF42M+FC-1.093.8693.3396.2095.2479.4683.90WF42M+PFC-0.00891.27 (- 2.59)90.3495.1693.0476.9381.24WF42M+PFC-0.193.95 (+ 0.09)93.4896.3795.5180.0383.79WF42M+PFC-0.294.04 (+ 0.18)93.6796.3895.4980.0784.32WF42M+PFC-0.394.03 (+ 0.17)93.6896.3895.5279.7684.46WF42M+PFC-0.493.95 (+ 0.09)93.3896.3595.4679.5784.4240470由于在图8b中PFC可以清楚地区分困难的负类和冲突的负类，因此我们可以进一步在PFC中设置一个在线的跨类过滤阈值（即0.4）来抑制冲突的跨类。在本文中，我们将具有异常跨类过滤的PFC表示为PFC*。04. 实验和结果04.1. 实现细节0数据集。在本文中，我们使用公开可用的数据集WebFace [50]来训练人脸识别模型。清洗后的WebFace42M包含2M个身份，而子集WebFace12M和WebFace4M分别包含600K和200K个身份。我们从WebFace合成WebFace12M-Conflict（Tab. 3），WebFace12M-Flip（Tab.4），WebFace10M-Longtail（Tab.5）来模拟跨类别冲突、标签翻转和长尾分布的情况。对于测试，我们在流行的基准测试集上广泛评估所提出的PFC，包括LFW [ 16 ]，CFP-FP [ 31 ]，AgeDB [ 29 ]，IJB-B [39 ]和IJB-C [ 27]。由于这些名人基准测试集的性能往往饱和，我们在MFR [6]上进行消融研究，该数据集包含242K个身份（非名人）的1.6M张图像，涵盖四个人口统计学群体：非洲人、白人、南亚人和东亚人。在MFR上，我们报告了不同种族的真接受率（TARs）@假阳性率（FAR）=1e-6，这些结果是在在线测试服务器上提交模型后得到的。此外，我们还报告了MFR的蒙面人脸识别轨迹上的TARs@FAR =1e-4。实验设置。本文中的所有实验均使用Pytorch实现，并采用混合精度[ 28]来节省GPU内存并加速训练。我们遵循[ 8 , 36]的做法来设置基于边界的softmax损失的超参数，并采用翻转数据增强。我们使用定制的ResNet [ 8 , 13 ]和ViT [ 10]作为主干网络。在不同的数据集上，CNN模型训练20个epochs，而ViT模型训练40个epochs。对于CNN模型的训练，每个GPU的默认批量大小设置为128，除非另有说明。我们采用带有多项式衰减（power=2）的SGD优化器，学习率设置为0.1，用于单节点训练（8个Tesla V100 32GBGPU）。为了加速WebFace42M的训练，我们使用了4个节点，每个节点有8×4个GPU，并在前2个epochs内线性地将学习率从0提高到0.4。之后，使用多项式衰减（power=2）进行另外18个epochs，如图9a所示。对于ViT模型的训练，每个GPU的默认批量大小设置为384。我们使用AdamW [26]优化器，基础学习率为0.001，权重衰减为0.1。为了实现快速训练，我们使用了8个节点，每个节点有8×8个GPU，并在训练开始时线性地将学习率从0提高到0.4。0数据集 MFR0所有 Afr Cau S-Asian E-Asian Mask0表1. 在不同训练数据集上的不同采样比例下的性能比较。这里使用的是ResNet50模型。0网络 GFlops IJB-C MFR01e-5 所有非洲、高加索、南亚和东亚人 Mask0R18 2.62 93.36 79.13 75.50 86.10 80.55 57.77 63.87 R50 6.33 95.94 94.03 93.6896.38 95.52 79.76 84.31 R100 12.12 96.45 96.69 96.68 98.09 97.72 86.14 89.64R200 23.47 96.93 97.70 97.79 98.70 98.54 89.52 91.870ViT-T 1.51 95.97 92.30 91.72 95.20 93.63 77.41 78.46 ViT-S 5.74 96.57 95.8795.74 97.47 96.85 84.87 85.82 ViT-B 11.42 97.04 97.42 97.62 98.53 98.20 88.7789.48 ViT-L 25.31 97.23 97.85 98.07 98.81 98.66 89.97 90.880表2.使用不同网络结构（即CNN和ViT）进行PFC（r=0.3）性能分析。这里使用WebFace42M作为训练数据，并使用梯度检查点[5]来节省内存。0数据集 MFR0所有非洲、高加索、南亚和东亚人0WF12M+FC-1.0 91.70 90.72 94.94 93.44 75.10 WF12M-Conflict+FC-1.0 79.93 79.0987.56 84.49 55.83 WF12M-Conflict+FC*-1.0 91.18 90.28 94.52 92.74 74.370WF12M-Conflict+PFC-0.1 91.20（+11.27） 90.65 94.65 93.40 74.99WF12M-Conflict+PFC*-0.1 91.58（+11.65） 91.01 94.81 93.42 75.420WF12M-Conflict+PFC-0.2 90.55（+10.62） 90.43 94.33 93.13 73.53WF12M-Conflict+PFC*-0.2 91.68（+11.75） 91.19 95.04 93.64 75.520WF12M-Conflict+PFC-0.3 89.59（+9.66） 89.24 93.67 92.35 71.85WF12M-Conflict+PFC*-0.3 91.68（+11.75） 91.03 94.85 93.60 75.510WF12M-Conflict+PFC-0.4 87.78（+7.85） 87.51 92.63 91.04 68.59WF12M-Conflict+PFC*-0.4 91.54（+11.61） 91.07 94.63 93.57 75.480表3.在合成类间冲突下的PFC性能分析。WebFace12M-Conflict数据集包含从WebFace12M数据集中分割出的100万个类别。这里使用的是ResNet50模型。“+PFC*”表示额外的类间过滤，以忽略余弦相似度大于0.4的异常负类中心。0在前4个epoch内，将学习率从0逐渐增加到0.001。然后，使用多项式衰减（幂=2）进行另外36个epoch。04.2. 割舍研究0在不同数据集和采样比例下的PFC性能比较。在表1中，我们在三个不同的数据集上使用ResNet50模型，采用不同的采样比例。与FC的性能相比，PFC-0.1不仅加速了训练，而且在具有从200K到2M个身份的不同数据集上取得了可比较的结果。当采样比例增加到0.2和0.3时，PFC表现出...JB-C40480数据集 MFR0所有非洲、高加索、南亚和东亚人0WF12M+FC-1.0 91.70 90.72 94.94 93.44 75.10 WF12M+PFC-0.1 91.24（-0.46） 90.8094.67 93.18 74.97 WF12M+PFC*-0.1 91.53（-0.17） 90.99 94.87 93.34 75.260WF12M-翻转（10％）+FC-1.0 88.77 87.12 92.81 90.58 70.74WF12M-翻转（10％）+PFC-0.1 89.60（+0.83） 89.60 94.02 92.19 72.23WF12M-翻转（10％）+PFC*-0.1 90.03（+1.26） 89.80 94.12 92.25 73.270WF12M-翻转（20％）+FC-1.0 85.42 83.98 90.92 87.95 65.54WF12M-翻转（20％）+PFC-0.1 87.62（+2.20） 87.53 92.82 90.87 69.27WF12M-翻转（20％）+PFC*-0.1 88.17（+2.75） 87.96 93.20 91.15 70.050WF12M-翻转（40％）+FC-1.0 43.87 41.61 52.80 48.03 28.60WF12M-翻转（40％）+PFC-0.1 78.53（+34.66） 79.33 87.52 83.86 57.54WF12M-翻转（40％）+PFC*-0.1 80.20（+36.33） 80.57 88.66 85.03 59.940表4.在不同合成标签翻转噪声比例（例如10％、20％和40％）下的PFC性能分析。这里使用的是ResNet50模型。“+PFC*”表示额外的异常类间过滤，如表3所示。0数据集 MFR0所有非洲、高加索、南亚和东亚人0WF10M-长尾-FC-1.0 87.44 85.79 91.86 89.30 69.39 WF10M-长尾-DCQ 89.3787.24 92.16 91.94 71.35 WF10M-长尾-PFC-0.1 91.92（+4.48） 90.73 94.80 92.7776.18 WF10M-长尾-PFC-0.2 91.96（+4.52） 91.14 95.05 93.54 76.53WF10M-长尾-PFC-0.3 91.64（+4.20） 90.58 94.75 93.28 76.02WF10M-长尾-PFC-0.4 91.03（+3.59） 90.11 94.57 93.07 75.980表5.在WebFace10M-Longtail数据集上训练的PFC模型的性能分析。这里使用的是ResNet50模型。0方法 ID GPU BS 内存速度 MFR-All0模型并行 2M 8 128 18.9 2463 95.35 HF-Softmax 2M 8 12810.7 1034 93.21 D-Softmax 2M 8 128 13.8 1840 91.69 PFC-0.12M 8 128 11.8 3552 96.190模型并行 10M 8 16 32.0 502 - PFC-0.1 10M 8 64 14.1 2497 -0模型并行 2M 64 240 30.5 15357 95.46 PFC-0.1 2M 64 240 17.223396 96.080模型并行 10M 64 72 27.2 4840 - PFC-0.1 10M 64 72 9.417819 -0表6.在WebFace42M和合成的1000万身份上进行大规模训练的比较。这里使用的是ResNet100和V100GPU。BS代表批量大小。内存是以GB为单位的GPU存储，速度是以样本/秒为单位的吞吐量。0与基准相比，PFC表现出更好的性能，表明在大规模数据集上的随机采样对于训练速度和模型的鲁棒性都是有益的。当采样比例过小（例如约为0.01）时，MFR-All的性能明显下降，因为（1）在训练过程中，低采样比例下的类间交互不足，（2）在测试过程中，进行万亿级的负样本对比非常具有挑战性。PFC在不同的网络结构上的性能。在表2中，我们使用CNN或ViT作为主干，在WebFace42M数据集上训练PFC（r=0.3）。可以看到，PFC在不同的网络复杂度上都取得了令人印象深刻的性能，而基于ViT的网络在类似的计算成本下可以获得比基于CNN的网络更好的性能。具体而言，ViTlarge（ViT-L）模型在IJB-C上获得了97.23%的TAR@FAR=1e-5，在MFR-All上获得了97.85%的TAR@FAR=1e-6。在类间冲突下的鲁棒性。在表3中，0(a) 损失和学习率0(b) 在MFR-All上的验证结果0图9.模型并行和PFC在WebFace42M上的训练状态比较。这里使用的是ResNet100模型。批量大小为128×8×4。0方法验证准确率 IJB0CosFace [ 36 ]（CVPR18）99.81 98.12 98.11 94.80 96.37 ArcFace [ 8]（CVPR19）99.83 98.27 98.28 94.25 96.03 AFRN [ 18 ]（ICCV19）99.8595.56 95.35 88.50 93.00 MV-Softmax [ 38 ]（AAAI20）99.80 98.28 97.9593.60 95.20 GroupFace [ 19 ]（CVPR20）99.85 98.63 98.28 94.93 96.26CircleLoss [ 33 ]（CVPR20）99.73 96.02 - - 93.95 DUL [ 4 ]（CVPR20）99.8398.78 - - 94.61 CurricularFace [ 17 ]（CVPR20）99.80 98.37 98.32 94.8 96.10URFace [ 32 ]（CVPR20）99.78 98.64 - - 96.60 DB [ 2 ]（CVPR20）99.78 -97.90 - - Sub-center [ 7 ]（ECCV20）99.80 98.80 98.31 94.94 96.28BroadFace [ 20 ]（ECCV20）99.85 98.63 98.38 94.97 96.38 BioMetricNet [ 1]（ECCV20）99.80 99.35 96.12 - - SST [ 11 ]（ECCV20）99.75 95.10 97.20 - -VPL [ 9 ]（CVPR21）99.83 99.11 98.60 95.56 96.76 VirFace [ 23]（CVPR21）99.56 97.15 - 88.90 90.54 DCQ [ 21 ]（CVPR21）99.80 98.4498.23 - - Virtual FC [ 22 ]（CVPR21）99.38 95.55 - 67.44 71.47 WebFace12M[ 50 ]（CVPR21）99.83 99.38 98.33 - 97.51 WebFace42M [ 50]（CVPR21）99.83 99.38 98.53 - 97.76 MC-mini-AMC [ 46 ]（ICCV21）-96.53 97.25 93.13 95.270WF4M，R100，PFC-0.04 99.83 99.06 97.52 94.91 96.80WF4M，R100，PFC-0.3 99.85 99.23 98.01 95.64 97.22WF12M，R100，PFC-0.013 99.83 99.21 97.93 95.84 97.39WF12M，R100，PFC-0.3 99.83 99.40 98.53 96.31 97.58WF42M，R100，PFC-0.008 99.83 99.32 98.27 96.02 97.51WF42M，R100，PFC-0.3 99.85 99.40 98.60 96.47 97.82WF42M，R200，PFC-

下载后可阅读完整内容，剩余1页未读，立即下载