深度人脸识别中的长尾噪声数据的非均匀训练方法

174 浏览量更新于2023-10-18 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于长尾噪声数据的深度人脸识别的非均匀训练钟耀耀，邓晓波，王梅，胡佳妮北京邮电大学{zhongyaoyao，whdeng，wangmei1，jnhu}@ bupt.edu.cn彭建腾，陶训强，黄耀海佳能信息技术（北京）有限公司，公司{pengjianteng，taoxunqiang，huangyaohai}@ canon-ib.com.cn摘要大规模的人脸数据集通常具有类别数多、分布长尾、标签噪声严重等特点，这无疑增加了训练的难度。在本文中，我们提出了一种训练策略，以不平等的方式对待头部数据和尾部数据，伴随着噪声鲁棒损失函数，以充分利用各自的特点。具体地，不均等训练框架提供两个训练数据流：第一流应用头部数据来学习由噪声阻抗损失监督的区分面部表示;第二流应用尾数据以通过从混乱的尾类中逐渐挖掘稳定的区分信息来学习辅助信息。因此，两个训练流都为深度特征学习提供了补充信息。大量的实验证明了新的不等训练框架和损失函数的有效性。更好的是，我们的方法可以节省大量的GPU内存。使用我们的方法，我们在MegaFace Challenge 2（MF2）上获得了最佳结果，给出了大规模的噪声训练数据集。1. 介绍深度卷积神经元网络（DCNN）在计算机视觉领域取得了巨大成功[11，12，18，19，29]，显著提高了人脸识别的技术水平[6，7，21，28，36，37，39]。除了不断发展的架构之外，大规模训练数据集在深度人脸识别中发挥着至关重要的作用值得指出的是，现实世界的人脸数据集通常是大规模的，并表现出长尾分布，这对模型训练提出了三个挑战。第一，中国存在着极不平衡的身份认同，*通讯作者这样一个大的数据集，其中一些身份有足够的样本，而对于其他数十万个身份，只有很少的样本可用。第二，长尾人脸数据集中固有的显著噪声。如[35]所述，标签噪声百分比随着数据规模的增长而急剧增加，百万级数据集通常甚至具有高于30%的噪声比第三，在大量身份的情况下，与softmax损失相关的全连接层将变得非常大，因此GPU内存将拥塞，批量大小将降低，这将使训练损失难以收敛[34]。三大挑战，即。极不平衡的数据，百万级的身份，固有的噪音，无疑增加了训练的难度。Zhanget al. [44]表明，在整个长尾数据集上训练的模型将比在整个数据集的特定比例上训练的模型表现更差（在他们的工作中削减50%的尾部）。这一现象表明，在不考虑数据特征的情况下对整个人脸数据集进行训练是次优的。尾恒等式在训练样本有限的情况下不能提供准确的描述，因此尾恒等式的特征空间会被头恒等式挤压。此外，过度拟合噪声会进一步恶化模型[35]。遗憾的是，现有的训练方法不能稳定地充分利用长尾噪声数据集中的判别信息.由于这种复杂的情况长尾噪声人脸数据集，传统的方法，例如，重新采样[3]和成本敏感加权[17]不再可行。最近提出的一些解决方案试图通过补偿尾部数据来缓解长尾问题[41，43，44]。这些方法虽然能够对首尾数据进行同等处理，但容易受到标签噪声的影响。因此，我们致力于解决人脸识别中的长尾问题，提高训练模型对噪声的抵抗能力，探索有效的78127813图1. 基于长尾数据集和相应的损失函数的非均匀训练框架为模型提供了两个训练数据流：第一个训练数据流基于头部数据，用于在抗噪损失的监督下训练相对判别人脸表示，该抗噪损失包含特征空间中的假设训练人脸表示;第二流基于尾数据，用于通过挖掘硬恒等式、以迭代的方式逐渐添加硬恒等式以及通过分散硬恒等式来增强特征空间来学习稳定的类间鉴别信息。方法尽可能地利用准确的信息来加强模型。本文提出了一种非均匀训练方法，对头数据和尾数据进行区别处理，可以稳定地充分利用判别信息。具有丰富样本的头部恒等式适合于描述类内变异，而大量的尾部恒等式可以提供丰富的类间信息。具体来说，基于长尾数据集和相应损失函数的不平等训练策略为模型提供了两个训练数据流：（1）基于头部数据的第一流用于训练由抗噪损失监督的相对区分性面部表示;（2）第二个流是基于尾数据的，通过硬恒等式挖掘来学习稳定的类间鉴别信息。该挖掘过程以第一个流的初始模型为基础，通过迭代挖掘最有价值的类间信息，逐步稳定地增强模型。本文的主要贡献可以概括如下：1. 我们深入研究了长尾噪声数据集，并提出了一个两个流的不平等的训练框架，处理头部数据和尾部数据的不同。据我们所知，这是深度人脸识别文献中首次此外，我们的框架还节省了很大比例的GPU内存相比，经典的交叉熵软最大损失。2. 分析了长尾人脸数据集中标签噪声的特点，提出了相应的损失函数，对头尾数据中的噪声进行重新处理，分别为。对于有噪声的尾数据，我们提出了一种迭代的方法来逐步训练尾数据，其中硬身份挖掘确保了最稳定的信息可以被保留。3.在CASIS-Webface [42]，MegaFace Challenge 2（ MF 2 ） [24] ， LFW [15] ， Cross-Pose LFW（CPLFW）[45]和[40]数据集上的广泛实验证明了我们的不平等训练框架和新损失函数的有效性。特别是，我们的方法在MegaFace Challenge 2（MF2）[24]上实现了最先进的结果，给出了大规模的噪声训练数据集。2. 相关工作近年来，深度学习为人脸识别带来了巨大的成功，人脸识别的主要焦点已经成为通过使用有效损失来监督网络来学习有区别的特征空间。对比损失[6]，三重损失[28]和五重损失[13]使用成对样本学习特征表示。这种类型的损失函数摆脱了对softmax损失的监督，从而可以节省GPU内存大规模的培训。然而，他们可能会遭受耗时的挖掘困难的例子，这种情况往往发生在训练数据急剧膨胀。另一种欧几里德度量学习方法是基于分类的，例如Centerloss[39]，Rangeloss [44]和Marginal loss [8]。它们通常作为softmax损失的辅助损失，旨在学习更具区分性的特征空间。一种更强大的损失函数是大幅度softmax损失，主要包括SphereFace [21]（ L-Softmax [22]），CosFace [36]和Ar-cFace [7]，它们显着提高了人脸识别。7814然而，基于分类的欧几里德度量学习和Large marginsoftmax都喜欢更均匀和足够的训练数据。此外，当将训练标识扩大到百万级时，GPU内存变得拥塞，并且批量大小降低。人脸识别中的长尾问题是经典机器学习[ 2，10 ]中广泛研究的传统类不平衡问题的一个分支，但它与传统类不平衡问题有两个显著的区别：第一，人脸识别中的长尾数据是大规模的，具有数百万个身份;第二，长尾数据固有地具有噪声。因此，传统的方法，如数据重新采样[3]和成本敏感加权[17]在这里不再可行。目前只有少数研究对人脸识别中的长尾效应进行了初步的研究五重损失[13]减少了局部数据邻域中固有的类别不平衡，强制执行聚类间和类别间的边缘。Rangeloss [44]在一个小批量中减少了整体的个人内部差异并扩大了个人之间的差异，通过局部细化促进了尾部数据。中心不变损失[41]通过对齐每个身份的中心来平衡不同训练身份的特征Xi等人提出的特征转移方法[43]。还通过从头部数据转移类内方差来生成特征级样本，促进尾部平衡训练数据。已有的工作发现尾恒等式的特征空间更糟糕的是，不好的特征空间分裂导致不好的泛化能力。研究人员绞尽脑汁试图推广尾部数据，以便所有数据都得到平等对待。这些方法虽然能够对首尾数据进行同等处理，但容易受到标签噪声的影响。此外，在相同噪声水平下，尾部身份的噪声训练样本与头部身份的噪声训练样本相比，具有更高的风险相容性，这反映出尾部身份和头部身份受噪声影响的程度因此，我们认为，我们是否应该期望，所有的数据同样有助于特征空间。为什么不根据不同样本的特征分别利用它们的身份呢？Wang等人[38]提出利用头尾来建立可靠的模型，然后以无监督的方式使用来自尾的信息来提高原始模型的鲁棒性，这与我们的工作类似不同的是，我们的方法更多地集中在两部分数据的差异上，而他们专注于利用它们的一般知识。3. 的方法我们首先提供一个不平等培训框架的概述，如图1所示。我们的方法包括三个步骤：(1) 分割训练数据集-给定一个长尾人脸训练数据集，我们根据分布将数据集分割为头部数据和尾部数据。头部数据被定义为大多数身份的最大部分，我们可以在其上使用基于softmax的损失来训练模型，比其他部分甚至整个长尾数据集更好。相应地，长尾数据集的其余部分被定义为尾部数据。头部数据和尾部数据将为模型提供两个训练数据流。(2) 构建抗噪模型-使用整个长尾数据进行训练将不可避免地使模型恶化。利用头部数据学习相对区分的人脸表征是身份的丰富性和平衡性之间的一个合理的折衷，它可以表征类内的变化。相对有区别的脸表示学习的头部数据监督的噪声阻力损失，其中包括一个假设的训练脸表示在特征空间。(3) 使用尾部数据进行联合训练-最后，我们使用两个流数据重新训练模型：基于头部数据的第一流用于稳定由抗噪声损失监督的面部表示;基于尾部数据的第二流用于通过学习稳定的类间鉴别信息来增强模型。我们挖掘硬身份，逐步增加他们在迭代的方式和增强的特征空间，通过分散他们。3.1. 构建噪声阻抗模型在本节中，我们介绍了使用头部数据学习相对区分性人脸表示的详细过程。头部数据相对丰富和平衡，因此人们会自然地认为可以采用基于softmax的损失，包括经典softmax和大余量softmax，来训练基础模型。基于softmax的损失是有效的，但根据最近的研究[35]，它可能会因使用受污染的数据集进行训练而严重恶化。考虑到头部数据中存在大量均匀分布的噪声，我们必须增强基于软最大值的损失对噪声的鲁棒性。首先，我们分析了训练集中噪声的类型，以及噪声训练数据和正确标记数据之间的差异，以便区分噪声数据和干净数据。在人脸训练数据集中，主要有三种类型的噪声，如图2所示。(1)标签翻转，图像被错误地标记为训练数据集的另一个标识(2)离群值，其中图像被错误地标记为训练数据集的身份i。该图像实际上不属于训练数据集的任何身份，但它与训练数据集的另一身份j看起来高度相似，使得在训练过程中，它被模型预测为身份j。(3)非常脏的数据，其中图像已被错误地标记7815J作为训练数据集的标识。但图像实际上不属于训练数据集的任何身份作为第二类噪声。它甚至不属于人脸识别中的任何身份。完全脏数据和第二类离群值之间的区别在于，完全脏数据在训练过程中不能被分类为训练数据集的任何标识。第一和第二类型噪声的过程、模型预测可能最终与源标签高度不一致虽然这些模型预测值得更多的信任，因为基础模型随着时间的推移而改进。综合考虑，我们试图通过动态调整学习准则来减轻三种类型的数据噪声的损害。首先，完全脏的训练数据的影响，我们之前称之为第三类噪声，通过阻塞它们的梯度来彻底消除。同时，如果训练数据不完全是脏的，我们通过加入一个假设的训练标签（特征空间中的假设W）来I.E.假设训练标签是概率为ρ的原始标签和概率为1-ρ的当前预测类的凸组合。形式上，噪声电阻（NR）损耗定义为：1ΣN ..ΣΣLNASB=−Ni=1 α（Pyip）log（Pyi）+β（Pyi）logPYIP、（一）其中N是一个批次中训练样本的数量，Pyi是“真”类的预测概率α（P）=.ρ，P >t0，P≤t，β（P）=.1 −ρ，P >t0，P≤t.（二）图2.人脸训练数据集中的三种噪声训练数据的预测类概率P第一和第二类噪声标签可能NR loss中的超参数ρ和t在训练过程中分段设置也就是说，在训练开始时，ρ被设置为1并且t被设置为0，并且当模型被相对充分地训练以使得它可以区分噪声本身时，ρ被稍微减小并且t被设置为小值。当NR损失与不同的损失函数组合时，Pyi和Pyip具体而言，在噪声电阻Softmax损耗（NRS）中最终与模型预测高度不一致，WTx+bWTxi+byeyiiy ieyi pip模型训练得相对充分，这些预测结果Pyi=nWTx+b，P yip =ΣnWTx+b、（3）服务更多信任j=1eji jj=1eji j我们使用一些在头部数据上训练的模型进行噪声分析，如图2所示。我们得到两个见解。首先，当模型被训练得相对较好时，训练数据的预测类概率P可以用于筛选第三类噪声，即其中，xi∈Rd表示第i个样本的深度特征，yi是eWTxi+bjyip= argmaxWTx+b.（四）因为第三类噪声的P在模型已经被充分训练，而这种特性不会出现在其他类型的噪声或干净的训练数据中。其次，虽然我们不能仅仅通过预测概率P来区分第一和第二类噪声与正确标记的训练数据，但我们找到了另一种方法来减轻它们。受[27]的启发，我们发现在训练yjk=1ekIk特征尺寸d设置为512，遵循[7，21，36，39，44]。Wj∈Rd表示最后一个全连通层中权值W∈Rd×n的第j列，n是头数据中的恒等式数，b∈Rd是偏置项.在噪声电阻大裕度Softmax损失，例如。噪声7816i、jResistance CosFace [36]（NRC），算法1第二阶段的联合训练过程输入：Pyi=es（cosθyi−mC）Σ头部数据Dh、的尾巴数据 Dt 基础模型es（cosθyi−mC）+nj= l，ji=yiescosθj（五）（θResNet，Wfc）。输出量：Pyi=escosθyipΣ模型（θResNet，W fc）。pes（cosθyi−mC）+nj=1，jescosθj我全局参数：抗噪性（NR）损失ρ，t中的超参数。和抗噪弧面[7]（NRA），es（cos（θyi+mA））小批量（NR）1。中心分散（CD）重量损失η。数量Pyi=es（cos（θyi+mA））+Σnj= l，ji=yi、escosθj（六）小批量（CD）m中的身份，在候选包中(CD)M. 身份的样本。所以小批量(CD)s2=m×n，候选袋尺寸（CD）s=M×n。Pyi=escosθyipΣ，在一个时代的开端pes（cos（θyi+mA））+nj= l，ji=yiescosθj//为NR构造队列Q1，为CD构造队列Q2Q1=Q2={}。其中，将x，i，i重新缩放到超球半径s，mA，mC是加性角裕度。我们使用m A= 0。五、m C= 0。35，和s=64以下的设置[7，36]。3.2. 尾数据由于已经在头部数据上学习了相对有区别的模型，因此我们进一步考虑通过探索尾部中的互补信息来增强对尾部数据的挖掘主要面临三个方面的挑战：（1）尾数据中存在大量的恒等式。(2)每个尾部标识仅包含很少的样本。(3)更不幸的是，它们中相当一部分是嘈杂的。考虑到这些挑战，我们避免尾部中相应的不良影响的主要动机是提取尾部的最可信信息，以增强从头部数据中学习到的面部表示。因此，我们设计了一个简单而有效的中心分散损失来处理尾部：尾部特征提取对于Dh中的xi，如果P yip >然后1.append（xi）.结束if结束for对于D中的IDit do随机选择IDi的n个样本{x1，...，xn}。Q2.append（{x1，···，xn}）.端洗牌Q1和Q2。一个时代的优化当Q1不为空时，B1←在Q1中取出一个带有s1个样本的小批次。L NASB（1），LNASB← B1.（θResNet，Wfc）←NSLNASBend while当Q2不为空时，C1←取出一个候选人包，里面有M个身份，Seq2，使用θ ResNet提取它们的特征。使用由强大的listID={ID1，···，IDM}←计算并排序Sk（八）头部数据;然后在迭代中逐渐添加尾部数据在特征空间中分散这些身份，以便我们可以充分利用它们的适度但不可或缺的信息。更具体地，中心分散（CD）损失可以公式化为：在C1。B2←用列表ID中的前m个标识构造一个mini-batch。// Hard IdentitiesminingLCD（7），HardIdentities mining LCD←B2.θResNet←ηLCD.end whileLCD1= minm（m−1）m（m−1）Sk=1i、j二、（七）标准化特征的中心，其可以是相对旋转的。Si，j是小批量中身份i和j之间的相似度，其中从候选数据包中挖掘最难的m个身份以构建小批量以y7817CC提高效率。中等噪音：1ΣnCi=Xt ，n≤ni，（9）.ΣTΣI jnt=1xtSi，j=C iC j.（八）其中xt是从尾标识i中随机选择的第t个样本的特征，总成本是相似性的平均值。 Ci和Cj表示身份i和j。一个恒等式被公式化为从头部数据中，身份i具有ni个样本，并且我们随机选择固定数目n个样本以形成小批量。7818为了避免特征空间被尾部数据肆意破坏，头部数据应该始终履行其稳定模型的职责。因此，第二阶段需要多任务风格的联合训练，如图1所示。这两个任务的CNN架构完全相同，并且权重是共享的。我们总结了算法1中第二个训练阶段的过程，以精确描述尾数据的联合训练和硬身份挖掘。4. 实验4.1. 实验设置培训数据。我们通过在两个训练数据集上进行实验来评估我们的方法：（1）CASIA-WebFace [42]及其两类长尾变体;（2）MegaFace Challenge 2（MF2）[24].网络. 在下面的实验中使用了两种主干架构。我们采用了Arcface [7]中使用的网络设置ResNet50，以获得更好的收敛速度和稳定性。该网络的块设置为了公平比较，我们还使用了另一个类似于[21]的网络，它有64个卷积层，基于残差单元[11]。模型采用SGD算法训练，动量固定为0.9，权重衰减为0.0005。在我们的实验中，头部数据和尾部数据的批量大小都设置为360。在第一个训练阶段，学习率从0.1开始，当性能稳定时除以10。而在第二阶段，学习率固定为第一阶段的最后一个值，CD损失的权重从1开始逐渐增加。在CASIA-WebFace的变体上，候选包中的身份数被设置为600个训练，在MF 2 [24]重新训练上设置为3600个。超参数ρ被设置为0.9，t分别在CASIA-WebFace的变体上被设置为0训练，在MF 2上被设置为0.007所有的网络，数据迭代器和丢失层都在MxNet上实现[5]。数据预处理。在[7，21，36，39，44]之后，我们使用MTCNN检测面部区域和五个地标。然后采用五个特征点进行相似性变换，对人脸图像进行归一化处理。之后，我们获得了大小为112× 112的裁剪面。RGB图像中的每个像素（在[0，255]中）通过减去127.5然后除以128来归一化。对于数据扩充，使用使用50%的概率和以20%的概率转换到单色增强。试验. 为了测试，原始图像和翻转图像的特征被连接在一起以组成最终的面部表示，如[7，36]所做的。相似性得分是特征的余弦距离。图 3. 我们使用的不平衡训练数据集的分布“WebFace”“WebFace+”arevariantsofCASIA-WebFace[ WebFace+和MF2都表现出长尾分布。4.2. CASIA WebFace及其长尾变体的实验CASIA-WebFace [42] 是从 IMDb 网站收集的数据集。原始的CASIA-WebFace数据集包含来自10，575位名人的0.49万张照片。根据[35]中的研究，CASIA-WebFace 包含 9.3-13.0% 的噪声。实际上， CASIA-WebFace 是一个不平衡的数据库，呈梭形分布。CASIA-WebFace的身份分布如图3所示。据统计，如果我们把拥有10个以上图像的身份作为头部身份，那么有99.72%的身份具有相对充足的图像用于训练。为了获得长尾训练数据集作为测试床，除了CASIA的头部身份之外，我们使用来自MS-Celeb-1M [9]的图像添加了一些尾部身份。我们在两个实验设置下进行实验，低杆身份作为尾巴，一杆身份作为尾巴。相应地，获得两个数据集，表示为WebFace+（低镜头）和WebFace+（单镜头）的头部和尾部身份的比例为10K：60K。它们之间的唯一区别是，WebFace+（低镜头）的尾部身份每个都有 3 个图像，而WebFace+（一个镜头）只有1个图像WebFace+的身份分布（低镜头/单镜头）如图3所示。最终，WebFace+（低拍）和WebFace+（一拍）都有70 K的身份，其中WebFace+（低拍）包含0.67 M图像，Web-Face+（一拍）分别包含0.55 M图像另外，我们保持了CASIA-WebFace的两个变体中的噪声水平为了比较，我们在原始 CASIA- WebFace ，WebFace+（低镜头）和WebFace+（一次拍摄）上训练模型，并在softmax Loss，CosFace（LMCL）[36]和ArcFace [7]的监督下进行。然后我们将它们与我们的方法在三个数据集上进行比较。详细地说，所有的模型都是使用前面提到的ResNet50训练的。softmax Loss的超参数遵循SphereFace [21]，而其他参数则遵循原始论文的设置。7819训练数据→WebFaceWebFace+tail（一次性）WebFace+tail（低拍）方法↓LFWCPLFWYTFLFWCPLFWYTFLFWCPLFWYTFSoftmax损失我们的（NRS+CD）99.2599.2883.7283.7594.7495.0099.3799.4083.3284.7595.1095.7899.1599.4083.1084.9794.9495.58[36]第三十六话我们的（NRC+CD）99.5599.4387.6787.9295.5295.6499.4799.4887.8588.1896.1296.1299.5099.4787.2588.0095.6095.98ArcFace [7]我们的（NRA+CD）99.5299.5587.2087.5395.6095.5099.5599.5386.3288.0393.8296.0499.4099.5588.1588.2294.9695.76表1.通过不同的训练数据集和训练方法进行对照实验的结果方法网层数据LFWYTF[33]第三十三话364M97.3591.4[第28话]114200M99.6395.1VGG Face [26]1162.6M98.9597.3[32]第三十二话25-0.3M99.4793.2百度[20]1101.3M99.13-中心面[39]170.7M99.2894.9[4]第四话18网站地图99.1894.88[44]第四十四话1281.5M99.5293.7[23]第二十三话1191.5M98.06-中心不变损失[41]122WebFace99.1293.88特色转移[43]1-4.8M99.37-Softmax损失164WebFace97.8893.1[31]第31话164WebFace98.7893.5[28]第二十八话164WebFace98.7093.4[22]第二十二话164WebFace99.1094.0[39]第39话最后一句话164WebFace99.0594.4[21]第二十一话164WebFace99.4295.0[36]第三十六话164WebFace99.3396.1我们的（NRC+CD）1500.55M99.4896.12我们的（NRA+CD）1500.55M99.5396.04表2.所提出的不均匀训练方法与人脸识别领域最先进的方法的比较。我们在三个流行的人脸数据集上测试模型，LFW[15]，交叉姿势 LFW （CPLFW ） [45]和YTF [40]。LFW [15]数据集包含来自5749个不同身份的13233张人脸图像。CPLFW [45]数据集是LFW的衍生数据集，解决了人脸识别中的交叉姿势挑战。YTF是一个从YouTube上收集的人脸视频数据库，其中包括1，595个不同人的3，425个视频我们在所有测试数据集上遵循无限制的外部结果和讨论。结果示于表1中。我们可以看到，长尾噪声训练数据集可能会或多或少地损害softmax，CosFace（LMCL）[36]和ArcFace [7它们在长尾噪声环境中表现不佳的原因可能是长尾分布导致的决策边界不平衡和标签噪声导致的决策边界不准确。相比之下，我们的方法仍然可以在长尾噪声训练数据集上获益，主要有三个原因：（1）非均匀训练框架为两个离散表示空间分别提供头数据和尾数据，避免了判决边界不平衡的问题。（2）NR损失中的噪声样本的假设面部表示（参见图1）减轻了噪声样本到深度模型的优化（3）提出的CD损失中的归一化特征的中心是尾部数据中最可信的信息，对噪声相对鲁棒。此外，除了在 200 M 数据上训练的FaceNet [28]外，我们的方法优于表2中列出的所有以前的方法。4.3. MegaFace Challenge 2（MF2）我们的最终目标是在真实世界的长尾噪声数据集MegaFace Chal- lenge 2（MF 2）上获得最先进的性能：在672 K身份上进行训练[24]，这要求所有算法都在672 K身份和470万张照片的相同数据上进行训练，并在百万级进行测试。MF2中的训练数据集来自Flickr发布的大量CreativeCommons照片，其中大多数照片都是普通人。MF 2是一个极不平衡的训练集，每个身份最多包含2,469幅图像，最少包含3幅图像，平均每个身份包含7幅图像，88.42%的身份包含少于10幅图像。身份分布如图3所示。此外，根据[35]中的研究，MF 2包含高达33.7-38.3%的噪声。这表明，真实世界收集的数据集更倾向于长尾分布，只有有限的身份经常出现，而其他数以千计的身份只有很少的样本，整个数据集中固有的显着噪声。除了训练数据集之外，MF2还包含图库集和探针集。图库集是Flickr照片的子集。探针集有两个现有数据库：[25]和FGNet [1]。根据[24]，图库集和训练集之间或图库集和探针集之间没有重叠。我们使用FaceScrub和FGNet作为探针集来评估我们的方法的性能。评估我们的方法。为了找到合适的头部数据百分比，参考训练数据集的分布，我们在不同的数据上训练模型，每个身份分别有超过8，9，10张图像。使用上述ResNet50训练模型。结果如表3所示，我们选择MF 2（>9个图像/id，2.3M图像和100 K身份）作为下一个实验中的头部数据，表示为MF 2-h9。与此相对应，7820−6−6训练数据面部磨砂1级acc.FGNet1级acc.LFWMF 2（>10张图片/id，2.1M图片和86 K身份）76.2455.5199.57MF 2（>9张图片/id，230万张图片和10万个身份）78.9758.2699.58MF 2（>8张图片/id，2.4M图片和121 K身份）78.3257.1499.57表3.我们选择MF 2（>9个图像/id，2.3M个图像和100 K个身份）作为头部数据，表示为MF 2-h9。其余数据是尾部数据，表示为MF 2-t9。“1级acc.”是指MF 2上1 M干扰项下的rank-1人脸识别准确率。训练数据和方法面部磨砂1级acc.面部磨砂ver.FGNet1级acc.FGNetver.LFWSoftmax（滚动，MF 2-h9+ MF 2-t9）42.8752.7517.9610.2198.03Softmax（MF2-h9）54.7266.4127.7125.0198.85NRS（MF2-h9）55.3865.3326.9020.1498.95NRS（MF2-h9）+CD（MF2-t9）57.5066.0831.9631.5699.05弧面（滚动，MF 2-h9+ MF 2-t9）75.2585.2952.6754.6799.28弧面（MF 2-h9）78.9788.0758.2659.2499.58NRA（MF2-h9）79.5288.5559.8960.0999.45NRA（MF2-h9）+CD（MF2-t9）80.0289.9360.3960.9999.52表4. MF2（ResNet50）上的人脸识别和验证评估。“1级acc.”是指在1M干扰项和在10 FAR（假接受率）下的面部验证TAR（真接受方法议定书等级1 Acc.Ver.[21]第二十一话大71.1784.22[36]第三十六话大74.1186.77[44]第四十四话大69.5482.67LMLE [13]大74.7687.78CLMLE [14]大76.2689.41我们的（ResNet64）大78.1288.03表 5. 与 64 层 ResNet 结果的比较。 “1 级 acc.” 是指在 1 Mdistractor和“ver.”下的rank-1人脸识别精度指的是10−6FAR（假接受率）下的人脸验证TAR（真接受方法议定书等级1 Acc.Ver.3DiVi大57.0566.46NEC大62.1266.85GRCCV大75.7774.84阳孙大75.7984.03[36]第三十六话大74.1186.77我们的（ResNet50）大80.0289.93表6.与MF2排行榜上的顶级结果进行比较。“1级acc.”是指在1M干扰项和在10FAR（假接受率）下的面部验证在MF 2中包含少于9个图像的标识被指定为尾部数据，其被表示为MF 2-t9。我们通过在MF 2- h9上训练的基础模型进行微调，执行由NRS（A）和CD损失监督的不平等训练框架为了进行比较，我们在MF2的所有训练数据上训练旋转softmax和Arcface模型，这些数据被平均分成8个子集，大约有80K个身份。这种训练方法受到[24]中模型C的启发，但我们通过平等地训练所有数据并添加训练历元来增强这些方法。模型训练的结果使用ResNet50的结果见表4。在头部数据上训练的模型优于在所有长尾数据上训练的模型，这与[44]中的实证研究一致。虽然我们的方法在长尾数据集中挖掘了更多正确的信息，但在经典softmax和大边际softmax上训练的模型上都有额外的改进与现有方法的比较。为了与解决长尾问题的现有最先进方法进行比较，我们使用ResNet64架构模拟训练MF2[21]最大的。我们采用批量归一化[16]，因为在大规模数据集中使用强约束损失很难保证收敛稳定性。结果如表5所示，此外，在MF 2 Leader- board上的一些竞争结果也在表6中列出。实验结果证明了该方法在真实世界长尾噪声人脸数据集上训练的优越性。特别是，我们的方法在MegaFace挑战2（MF2）上获得了最佳性能：在672K身份上进行训练[24]。5. 结论在本文中，为了解决长尾噪声数据集上的训练问题，我们提出了一个不平等的训练框架和新的监督损失函数，噪声抵抗（NR）损失和中心分散（CD）损失。通过对头部数据和尾部数据按分布分别进行处理，充分利用了它们各自的特点。我们的方法在现有的人脸基准上实现了新的最先进的性能。6. 致谢本工作得到佳能信息技术（北京）有限公司的支持，Ltd.根据批准号OLA18001。7821引用[1] 光纤网老化数据库。http://www.fgnet.rsunit的网站。com/.[2] Paula Branco，Lu 'ıs Torgo，and Rita P.里贝罗不平衡域预测建模研究综述ACM计算监视器，49（2）：31：1-31：50，Aug. 2016年。[3] 放大图片作者：Kevin W.作者：Lawrence O. Hall和W.菲利普·凯格尔迈耶Smote：合成少数过采样技术。人工智能研究杂志，16（1）：321[4] Binghui Chen，Wehong Deng，and Junping Du.噪声软-最大值：通过推迟softmax的早期饱和来提高dcnn的泛化能力。在CVPR，2017年。[5] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang. Mxnet：一个面向异构分布式系统的灵活高效的机器学习库arXiv：1512.01274，2015年。[6] 陈玉衡，陈玉衡，王晓刚，唐晓鸥.通过联合识别-验证的深度学习人脸表示。在NIPS，2014。[7] Jiankang Deng，Jia Guo，and Stefanos Zafeiriou. 弧面：用于深度人脸识别的附加角边缘损失 arXiv ：1801.07698，2018.[8] Jiankang Deng，Yuxiang Zhou，and Stefanos Zafeiriou.深度人脸识别的边际损失。在CVPR工作-商店，2017。[9] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. MS-Celeb-1M：大规模人脸识别的数据集和基准。在ECCV，2016年。[10] 郭海翔、李怡静、尚雯婕、顾明云、黄远月、宫冰。从类不平衡数据中学习：方法和应用回顾。Ex- pertSystems with Applications，73：220[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[12] 杰虎，李申，孙刚。挤压 - 激发网络。 arXiv ：1709.01507，2017。[13] Chen Huang，Yining Li，Change Loy Chen，and XiaoouTang.学习不平衡分类的深度表示。在CVPR，2016年。[14] Chen Huang，Yining Li，Change Loy Chen，and XiaoouTang.用于人脸识别和属性预测的深度不平衡学习。arXiv：1806.00194，2018。[15] 加里湾Huang，Manu Ramesh，Tamara Berg，and ErikLearned-Miller. 在野外贴上标签的脸：数据库用于研究无约束环境中的人脸识别。技术报告07-49，马萨诸塞大学，阿默斯特，2007年10月。[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv：1502.03167，2015。[17] 明庭凯。代价敏感的提升算法的比较研究ICML，2000年。[18] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。[19] Shan Li和WeiongDeng。深度面部表情识别：一个调查。arXiv：1804.08348，2018年。[20] 刘静拓，邓亚峰，白涛，黄昌。焦油- geting最终精度：基于深度嵌入的人脸识别。arXiv：1506.07310，2015年。[21] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在CVPR，2017年。[22] Weiyang Liu，Yandong Wen，Zhiding Yu，and MengYang.卷积神经网络的大余量softmax损失。InICML，2016.[23] IacopoMasi，Anh Tuan Tran，Jatuporn Toy Leksut，TalHas-sne r，andG e'rardG. 梅迪奥尼我们真的需要收集数百万张人脸来进行有效的人脸识别吗在ECCV，2016年。[24] Aaron Nech和Ira Kemelmacher-Shlizerman。百万级人脸识别的公平竞争环境。在CVPR，2017年。[25] Hong Wei Ng和St

下载后可阅读完整内容，剩余1页未读，立即下载