深度人脸识别中的标签噪声挖掘方法及其效果

25 浏览量更新于2023-10-12 收藏 875KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9358Co-Mining：带噪声标签的深度人脸识别Xiaobo WangXiao，Shuo WangXiao，Jun Wang，HailinShi，Tao Mei JD AI Research，北京，中国{wangxiaobo 8，wangjun492，shihailin，tmei}@ jd.com，cudaconvnet@gmail.com摘要随着收集的数据集规模的不断扩大，人脸识别已经取得了重大进展虽然最近已经设计了各种CNN架构和损失函数，但我们对如何使用现有人脸识别数据集中固有的标签噪声来训练CNN模型的了解仍然有限。为了解决这个问题，本文提出了一种新的联合挖掘策略，以有效地训练数据集与噪声标签。具体地说，我们同时使用损失值作为线索来检测噪声标签，交换高置信度的干净面孔以减轻样本选择偏差引起的错误累积问题，并重新加权预测的干净面孔，使其以小批量方式主导判别模型训练。通过在三个流行的数据集上进行训练进行了广泛的实验（即，CASIA-WebFace、MS-Celeb-1 M和VggFace 2）以及在多个基准测试（包括LFW、CALFW、CPLFW、CARDB、CFP、RFW和MegaFace）上的测试，证明了我们的新方法优于最先进的替代方法的有效性我们的代码可在http：www.cbsr.ia.ac.cn/users/xiaobowang/。1. 介绍数据集对于人脸识别的发展至关重要从早期的CASIA-WebFace [45] 到最近的 VggFace [27] ， MS-Celeb-1 M [11]，VggFace 2 [5]和IMDb [36]，人脸识别数据集在推动新技术的发展方面发挥了主要作用。不仅人脸识别数据集变得更加多样化，而且数据规模也在急剧增长。例如，MS- Celeb-1 M [11]包含约100 K身份的10 M图像，远远超过CASIA-WebFace [45]，后者仅包含来自10，575个人的0.5M图像。近年来，大规模数据集以及深度卷积神经网络技术的出现导致了人脸识别的巨大成功然而，这些大型公共...[2]这些作者对这项工作的贡献是相等的。图1.MS-Celeb-1 M中带有噪声标签的深度人脸识别的说明[11]。 ”Outlier” means that faces do not belong to any of theclasses un- der consideration, but mistakenly have one of their比例数据集可能包含有噪声的人脸，因为它们中的大多数图1给出了MS-Celeb-1 M [11]中的噪声人脸示例。详细地，我们将其身份被错误标记/不正确地注释为噪声面部的样本，并将其标签表示为噪声标签。这种噪声标签可以分为两种类型，“标签翻转（闭集）”和“离群值（开集）”。更具体地说，标签翻转（近集）噪声标签发生在噪声面部拥有包含在训练数据中的已知类别的集合内的真实类别（例如，图1中蓝色框中的面）相比之下，当噪声面部拥有不包含在训练数据中的已知类的集合内的真实类时，出现离群值（开集）噪声标签（例如，图1中红色框中的面）。众所周知，噪声标签不可避免地会降低学习模型的鲁棒性，特别是对于深度CNN。Wu等人。 [43]采用语义自举规则通过预测一致性来选择干净样本。Deng等人。 [8]利用特征不相似性来丢弃嘈杂的面孔，并进一步手动检查不可靠的面孔。万亿对联盟[1]已经发布了一个相对干净的MS-Celeb-1 M版本这些方法试图清洁濃濩濨濠濝濙濦濧澻瀂瀃濸瀁激瀆濸瀇澼濡.澤澨濠濛濥濪澬激濕濖濙濠澺濠濝濤濧澻濶濿瀂瀆濸濷激瀆濸瀇澼9359一个嘈杂的人脸数据集转化为一个注释良好的数据集。然而，这一过程过于昂贵和耗时。以CASIA-WebFace [45]为例，到目前为止，数据清理处理仍在日程上[2]。这促使研究人员将注意力转向廉价但不完美的替代品。Miyato等人。 [22]添加了显式和隐式正则化来克服噪声标签问题，但永久正则化偏差使学习的分类器几乎无法达到最佳性能。Patrini等人。 [29]试图估计标签转移矩阵，但当类别数量很大时很难准确估计。Wang等人。 [42]使用局部离群因子（LOF）算法[4]来检测噪声样本。但在大规模数据集上，这个过程是缓慢的。Jiang等人 [16]设计了一种自定进度的学习策略，类似于共同训练，因此可能会受到错误累积的影响。Malachet al. [21]同时训练两个网络，但它没有显式地解决嘈杂的标签。最近，Han等人。 [12]和Yu等人。 [46]开发了一种共同教学策略，直接处理训练模型的噪声标签。虽然上述方法在噪声标签问题上取得了令人满意的结果，但它们主要有三个缺点：1）许多工作[42，22，29]不能有效准确地检测噪声标签，特别是对于大规模的人脸识别问题。2)大多数文献[16，21，42]没有注意到由样本选择偏差引起的误差积累。3)现有的工作[12，46]只是试图区分干净的样本和噪声样本，而没有考虑干净样本对学习判别特征的重要性。为了克服上述缺点，本文提出了一种新的协同挖掘策略，该策略将训练样本分为三部分：噪声人脸、高置信度干净人脸和干净人脸。具体地说，它使用损失值作为线索来有效和准确地检测噪声人脸，交换高置信度的干净人脸以减轻错误累积问题，并重新加权干净人脸以使它们在训练区分CNN模型时更重要。综上所述，本文的主要贡献可以概括如下：• 我们将含噪人脸识别数据集中的样本分为三部分，即：吵闹的脸，自信的干净的脸和干净的脸。• 我们提出了一种新的联合挖掘框架，它使用两个对等网络来检测噪声人脸，交换高置信度的干净面，并以小批量方式重新加权干净面。• 我们强调了人脸识别的开集评价，并在两个合成器上进行了广泛的实验我们的新方法已经验证了它的有效性，超过了最先进的替代方案。2. 相关工作2.1. 深度人脸识别现有的深度人脸识别主要来自三个方面：、大规模数据集、有效的体系结构和损失函数。对于大规模数据集，从早期的CASIA-WebFace [45]到最近的MS-Celeb-1 M [11]和VggFace 2 [5]，人脸识别数据集的多样性和规模逐渐增加，并在推动新技术的发展方面发挥了主要作用有了这些数据集，有效和代表性的架构，如VGGNet [31]，GoogleNet [34]，ResNet [13]，AttentionNet [38]和MobileFaceNet [7]已经被引入或设计用于深度人脸识别。对于损失函数，像对比损失[33，44]和三重损失[34]这样的度量学习但它们通常具有计算量大、收敛速度慢等缺点。最近，研究人员开始将注意力转移到经典的softmax损失，并且已经利用了几种基于边际的softmax损失[20，37，41，8，40]。其中，Arc- Softmax损失[8]可能是现阶段最普遍的一种。它的成功依赖于良好的数据集清理。然而，大规模的数据集不可避免地包含噪声标签，特别是当它们是从互联网上自动收集的。因此，虽然有各种各样的架构和损失函数，但我们对现有人脸识别数据集中固有的标签噪声的来源和后果的理解仍然有限。2.2. 标签噪声训练最近在深度学习中，带噪声标签的学习引起了很多关注，因为它是一种数据驱动的方法，并且准确的标签注释非常昂贵。Mnih和Hinton [23]提出了两种用于噪声激光航空图像的鲁棒损失函数。然而，它只适用于二进制分类。Sukhbaatar等人。 [32]考虑多类分类用于建模类相关噪声分布。Wu等人。 [43]提出了一种语义引导策略，该策略通过预测重新标记样本，然后进行反向传播。Wang等人。 [42]通过使用区分特征来检测噪声标签，并设计了一个迭代学习框架，用于使用开集噪声标签进行训练 Jiang at al. [16]采用额外的预训练教师网络来过滤学生网络的噪声实例。Malach等人 [21]提出了一种仅使用来自两个分类器的具有不同预测的样本来更新参数的方法。Han等人。 [12]开发了一种协同教学策略来鲁棒地训练深度神经网络。虽然这些策略已经被研究用于噪声标签问题，但它们中的大多数不是针对具有大量类别的深度人脸识别而设计的在人脸识别中，大规模噪声标签仍然是一个悬而未决的问题。9360濵濴濶濾濵瀂瀁濸激濄濵濴濶濾濵瀂瀁濸激濅瀀濼瀁濼激濵濴瀇濶濻濶濿濸濴瀁濹濴濶濸瀆瀅濸激瀊濸濼濺濻瀇濼瀁濺瀁瀂濼瀆瀌濿濴濵濸濿瀆濷濸瀇濸濶瀇濼瀂瀁瀁瀂濼瀆瀌濿濴濵濸濿瀆濷濸瀇濸濶瀇濼瀂瀁图2.拟议的联合采矿战略的框架。对于每个对等网络，它使用损失值作为线索来检测噪声标签。因此，根据损失值的排序，小批量样本可以被识别为三个部分，噪声面（红点），高置信度干净面（蓝点）和干净面（绿点）。对于噪声面，它们将被丢弃，因为它们可能会严重降低性能对于高置信度的干净面孔，我们交换它们，以减轻潜在的样本选择偏差造成的累积误差对于干净的人脸，我们重新强调它们来学习用于人脸识别的区分性CNN特征。3. 提出方法我们的目标是从带有噪声标签的数据集中学习有区别的CNN特征，其中噪声类型和噪声率通常事先未知。为了实现这一目标，我们提出了一种新的协同挖掘策略，同时消除噪声标签的不良影响，减轻积累错误的问题，并强调干净的实例的收益如图2所示，我们的框架由三个主要模块组成：1）使用损失值作为线索来检测噪声标签; 2）交换高置信度的干净面孔，以防止潜在的错误累积; 3）重新加权干净的脸，使它们在学习有区别的CNN特征时占主导地位。3.1. 噪声标签检测为了检测噪声标签，目前的方法诉诸于估计噪声转移矩阵或使用基于密度的离群点检测算法。例如，在softmax层的顶部，Goldberger et al. [10]添加一个额外的softmax层来模拟噪声转换矩阵。 Patrini等人[29]杠杆化两步解决方案以直观地估计噪声转移矩阵。Wang等人。 [42]采用基于密度的离群值检测LOF算法[4]来迭代地检测噪声标签。然而，无论是噪音转换我们的分类器在每个小批量数据中只使用小损失的实例，它应该抵抗噪声标签。假设我们已经估计了人脸识别数据集的噪声率rM是小批量。与文献[21，14，49]类似，我们的方法也同时维护两个网络.也就是说，在每个小批数据中，每个对等网络都将其小损失实例视为“知”是“知”，“知”是“知”。分为两个部分，这两个对等网络的可重构面和非可重构面。对于无表情的脸，由于两个对等网络预测它们是干净的脸，我们有理由相信它们足够干净，可以进行深度人脸识别。对于那些不爱面子的人来说，他们有很高的信心做一张干净的脸。但是它们也可能是有噪声的面部，特别是当噪声率r被不准确地估计为1时。综上所述，我们已经将每个小批次中的人脸识别为三个部分，即噪声脸、高自信脸和干净脸。对于损失函数，近年来已经提出了几种基于边际的softmax损失函数[20，41，37，8]不失一般性，我们采用了Arc-Softmax损失[8]作为基线。具体而言，对于每个标准化特征，x，Arc-Softmax损失定义如下：escos（θwy，x+m）矩阵和基于密度的离群值检测都难以填充。准确地说出有噪声的标签，特别是当类别的数量很大时。幸运的是，最近的研究[12，46]LArc=−logescos（θwy， x+m）ΣK+k=/scos（θywk， x），（1）深度神经网络的记忆效果表明，它们首先会记住干净标签的训练数据，然后是有噪声标签的训练数据。这促使我们使用损失值作为线索来检测噪声标签。直观地说，当标签正确时，小损失实例更有可能是被正确标记的实例。如果我们训练其中wk，k ∈ {1，. . . ，K}是第k个归一化分类器。y是对应的标签。 m是保证金参数，学习区别性特征，且S是预设比例参数。更多详情请参阅[8]。1即使数据集的噪声率r可以准确估计，在每个小批量中，噪声率rt也很难预测。濛濼濺濻激濶瀂瀁濹濼濷濸瀁濶濸濶濿濸濴瀁濹濴濶濸瀆濸瀋濶濻濴瀁濺濼瀁濺e936112 121 1212k/=y电弧nnn电弧nnn23.2. 高置信度清洁面孔交换根据上述讨论，我们捐赠了sam-每个对等网络的实例分别为S1和S2，算法一：联合挖掘算法输入：训练集S、模型参数Θ1和Θ2、学习率λ、固定噪声率r、历元T、k和T，n n活泼地由于不同的网络可以产生不同的决策边界，从而具有不同的学习能力。因此，当在噪声标签上训练时，它们具有不同的过滤噪声标签的能力。换句话说就是每个对等网络S1和S2的采样实例是在每个epoch中迭代N次对于t = 1，2，. . . ，T do对训练集S进行对于n = 1，2，. . . ，N do1. 从训练集S获取mini-batchSn;2. 样本（1-rt）%的小损失面：n n不同.因此，我们可以进一步将sam-11Sn=ar g minS′：|S′|≥r|S|LArc（Sn）和pled实例到面S1- S2和nnt n′n n22′ ′ L（S）;分别为S1\（S1<$S2）和S2\（S1<$S2）。Sn= argminSn：|Sn| ≥rt|Sn|电弧nn nnn n n3. 交换高自信干净的面孔，在这一部分中，我们讨论了每个对等体网络我们将这些面部识别为高置信度的干净面部，因为它们也可能是由于每个小批次中的不准确估计的噪声率而引起的如果我们在第二小批数据中直接反馈给它自己，呃-计算损失L（S\（S S）），（1）（S）（S）（（1）;4. 通过等式计算清洁面损失LOur（Sn<$Sn）（5）;5. 更新参数：Θ 1：=Θ1−λ[L12 1 2 1 2错误应该越来越多地积累起来。缓解这一问题，我们希望交换它们。也就是说，要更新页面-Arc（Sn\（Sn <$Sn））+LOur（Sn<$Sn）]和Θ2：=Θ2−λ[L21 1 2 1 2Θ 1的参数（分别为 Θ2）使用高置信度清洁面S2\（S1<$S2）（分别 S1\（S1-S2）），其选自端Arc（Sn\（Sn<$Sn））+LOur（Sn<$Sn）];不n n nn n n更新rt=min{};其对等网络Θ2（分别Θ1）。这个过程是由从共同训练[6]，这两个网络将自适应地纠正其对等网络的训练错误。以Tk端输出：模型参数Θ1和Θ2。其中x ∈S1<$S2。 g（μ）≥1是重加权函数，因为他们对答案有个人偏见。运气-n n当然，他们也可以请同龄的同学来评阅他们的论文。这样，就更容易发现潜在的缺陷。综上所述，由于来自一个网络的错误不会直接传递回网络本身，因此我们可以预期，与自进化网络相比，交换高置信度干净面孔可以处理错误3.3. Clean Faces Re权重由于两个对等网络，其定义如下：g （ μ ） =esμ （ cos （ θwk ， x ） +1 ），（4）其中μ是非负值。显然，当μ=0（即：，g（μ）=1），则我们的重新加权概率（3）变为与基线Arc-Softmax（2）相同。因为交叉熵损失−log（p）是一个单调递减函数，降低了基线概率（即，，p我们的≤p）将增加清洁样品的重要性。在这n n弧作品同意他们是干净的面孔，我们有理由他们相信他们是正确的标记因此，在训练模型时，应重点关注它们实际上，在带有噪声标签的人脸识别中，中心任务是找到那些方法，对于干净的面，它们的损失函数将变为：escos（θwy，x+m）干净的脸，主要用它们来学习区分特征。在本文中，我们采用了两个对等网络，LOur=−logescos（θwy，x+m）+Kg（µ）e.scos（θwk，x）（五）人工地找到干净面部并自适应地对其重新加权因此，我们称之为联合挖矿策略。为了强调干净人脸的贡献，我们引入了一个新的重新加权模块。具体来说，我们降低基线概率：escos（θwy，x+m）同时，根据记忆机制[3]，深度模型通常倾向于首先记住简单的实例，并在训练时期变大时逐渐适应困难的实例。为了最终纠正噪声标签上的过拟合问题，我们保留了更多的实例p弧=escos（θwy，x+m）ΣK+k=/′9362不（二）scos（θwk，x）y在训练开始时的小批量然后我们逐渐增加下降率，以便我们能够保持清洁到我们的重新加权一：scos（θw，x+m）并在网络记住它们之前删除那些嘈杂的实例。具体来说，我们自适应地设置噪声p我们的=scos（θey+m）、scos（θ）率rt=min{tr，r}，其中TkK是预定义的。为了克莱尔-ewy，x+k/=y g（µ）ewk，x（三）我们的框架的整个方案总结在算法1.e93634. 实验4.1. 数据集培训数据。本文涉及三个流行的训练数据集，包括CASIA-WebFace [45]，MS-Celeb-1 M[11][5] VggFace2。这三个数据集的原始数据集由具有不同未知噪声率的噪声标签对于合成噪声实验，我们使用了一个干净的版本的CASIA-WebFace，即。，CASIA-WebFace-Clean [2]，使用不同的合成噪声进行训练。测试数据。我们使用了七个基准，包括LFW [15]，CALFW [51]，CPLFW [50]，CFDB [24]，CFP [30]，[17][19][ LFW包含来自5，749个不同身份的13，233张网络收集的图像，姿势，表情和光照变化很大。CALFW [51]是通过众包努力收集的，CPLFW [50]与CALFW相似，但从姿态差异的角度来看[24]包含精确到年份的无噪声标签注释的图像CFP [30]由收集的名人正面和侧面图像组成。RFW [39]是衡量种族偏见的基准，由四个测试子集组成，即高加索人，亚洲人，印度人和非洲人。MegaFace [17]旨在评估百万级干扰项下的面部识别性能，包括图库集和探针集。在这项研究中，我们使用Facescrub [26]作为探针集。数据集重叠删除。在人脸识别中，进行开集评价是非常重要的。训练集和测试集之间不应该有重叠的身份。为此，我们需要小心地去除所采用的训练数据集之间的重叠身份（即，，CASIA-WebFace [45]，MS-Celeb-1 M [11]和Vg-gFace 2 [5]）和测试数据集（包括LFW [15]，CALFW [51]，CPLFW [50]，CFDB [24]，CFP [30]，RFW[39]”[17]《易经》云：“君子之道，焉可诬也对于重叠身份删除工具，我们使用[37]提供的公开可用脚本来检查两个名字是否属于同一个人。因此，我们从训练集CASIA-WebFace中删除了696个身份，从MS-Celeb-1M中删除了14，718个身份，为了清楚起见，我们分别将细化的训练数据集作为CASIA-R，CASIA-Clean-R，MsCeleb-R和VggFace 2-R。数据集的重要统计数据总结见表1。严格来说，本文中的所有实验都是基于细化的训练数据集。为了鼓励更多的研究人员遵守开放集协议，重叠列表和改进的数据集是公开的。4.2. 实验设置数据处理.我们通过采用Face-Boxes检测器[48]来检测人脸，并定位五个地标（两只眼睛，数据集身份图像CASIA-R [45]9,8790.43M培训CASIA-Clean-R [2][11]第十一话9,87985,1730.38M7.03MVggFace2-R [5]7,6172.71MLFW [15]5,74913,233CALFW [51]5,74912,174CPLFW [50]5,74911,652测试[24]第二十四话56816,488CFP [30]5007,000RFW [39]11,43040,607MegaFace [17]530（P）1个月（G）表1.用于训练和测试的人脸数据集。”(P)” and ”(G)” refer tothe probe and gallery set,鼻尖和两个嘴角）通过一个简单的6层CNN [9]。检测到的人脸被裁剪并调整为120×120，RGB图像中的每个像素（范围在[0，255]之间）通过减去127.5并除以128.对于所有训练面，它们以概率0.5水平翻转以进行数据增强。CNN架构损失函数。在人脸识别中，有许多种网络架构[20，7，36]和几种损失函数[20，37，8]。为了公平起见，CNN架构和所采用的损失函数应该相同，以测试带有噪声标签的不同方法。在不失一般性的情况下，我们使用MobileFaceNet [7]和Arc-Softmax损失[8]作为基线。对于边缘m和尺度s，我们分别设置0.5和32。训练所有的CNN模型都是用随机梯度下降（SGD）训练的，从头开始训练，在4个P40 GPU上的批量大小为128，总批量大小为128。512.本文的所有实验都是由Py-Torch [28]实现的。权重衰减设置为0.0005，动量为0.9。学习率最初为0.1，在第6、12、17个epoch时除以10，我们在第20个epoch时完成训练过程。根据经验，将Tk设置为10。Test.在测试阶段，只使用原始图像特征（512维）。我们使用两个对等网络的骨干-1来提取人脸特征。对于评估度量，利用余弦相似性。我们遵循不受限制的带标记外部数据协议[15]，以报告LFW [15]、CALFW[51]、CPLFW [50]、CARDB [24]、CFP [30]和RFW[39] 的性能。此外，我们还报告了 LFW [15] 上的BLUFR协议[18]。在Megaface [17]挑战中，通过对分数进行排序和阈值化来进行人脸识别和验证。具体地，对于人脸识别，采用累积匹配特征（CMC）曲线来评估Rank-1准确度。对于人脸验证，采用了受试者工作特征曲线（ROC）。9364战略LFWLFW@1e-3LFW@1e-4CALFWCPLFWAgeDBCFP平均民盟HCCFECFRCASIA-R98.7196.9691.7988.2179.1891.4691.1091.05CASIA-Clean-R98.8097.5993.0588.8580.3192.2191.3091.73CASIA-Clean-RC98.0197.9896.6996.8092.4892.6787.4888.0679.4379.5091.1591.4891.0891.3290.9091.11（对称=0.1）CC98.3397.3392.8788.2879.6091.7091.6891.39CCC98.9197.9194.4289.4880.0392.6891.7592.16CASIA-Clean-RC88.5696.9066.3078.3127.1437.4376.6584.8168.5672.5880.5387.5580.2281.7569.7077.04（对称=0.2）CC97.7881.8438.4585.3574.1188.3384.2578.58CCC98.2392.8561.4187.7676.8590.9579.6183.95CASIA-Clean-RC81.8995.530.0550.840.0411.2150.7683.3553.3169.0371.0585.4172.6475.3458.8167.24（对称=0.3）CC96.6666.7427.4083.7671.0886.6178.2072.92CCC97.6687.6755.6886.6373.5088.5879.5481.32表2.不同策略的验证结果（%）NLD指的是Noisy Labels Detection。HCCFE是高置信度的清洁面孔交换。CFR是Clean Faces Re-weighting的缩写。子框中每列的粗体数字表示最佳结果。(a) CASIA-Clean-R（b）图3. 从左到右：分别来自CASIA-Clean-R和CASIA-R的所有阳性对的余弦相似性分布。红色框中的人脸对可能带有噪声标签。4.3. 合成数据实验首先，我们使用MobileFaceNet [7]和Arc- Softamxloss [8]作为基线，分别在嘈杂的CASIA-R [45]及其干净版本CASIA-Clean- R [2]上进行训练。从表2的前两行中，我们可以观察到在CASIA-Clean-R上训练的模型比在CASIA-R上训练的模型表现更好，即使CASIA-Clean-R的训练图像尺寸较小因此可以得出结论，嘈杂的面孔对训练模型是有害的。此外，我们使用在MS 1M- deepglint [1]上预训练的SEResNet 100-IR模型[8]来显示来自这两个数据集的所有正面人脸对图3显示了直方图，我们可以验证CASIA-R确实包含嘈杂的面孔。接下来，我们使用不同的合成噪声的CASIA-Clean- R来展示我们的方法的鲁棒性Noisy Labels Detection（NLD）的详细介绍我们在不同的合成噪声率下进行了有/无噪声标签检测的实验。我们使用对称翻转-ping [35]来模拟嘈杂的标签，其中标签器可能只在非常相似的类中出错。从表2中每个子框的前两行，我们可以观察到，在噪声标签检测（NLD）的情况下，在0.1噪声率下，LFW、CALFW、CPLFW、 CARDB、CFP的平均性能从90.90提高到91.11在0.2噪声率下为69.70 ~ 77.04，在0.3噪声率下为58.81~ 67.24。最后，实验验证了我们的噪声标签检测的有效性。高可信度清洁面孔交换（HCCFE）的有效性。我们进一步加入HCCFE策略，以验证它是否可以减轻样本选择偏差引起的误差累积。从表2中每个子框的第三行，我们可以看到HCCFE可以进一步提高性能，在0.1 噪声率，0.2噪声率下改善1.5%，0.3噪声率下改善5%。这些平均准确度的改善，与那些没有这种策略，可以解释为HCCFE模块的贡献。特别是在噪声率较大的情况下，平均精度显著提高，表明该模块能够有效缓解误差积累问题。Clean Faces Re-weighting（CFR）的作用。最后，我们在干净的面孔上添加重新加权策略，使它们在训练模型时占主导地位。从表2中每个子框的最后一行可以看出，在不同的噪声率下，CFR策略有助于提高性能。因此，我们可以得出结论，当用噪声人脸进行训练时，干净的人脸更重要，特别是在大噪声率的情况下，例如。在对称性=0.3的情况下，干净面孔的重要性就更加明显了。在使用多个值（即，，从0到0.4，步长值为0.1），我们在CASIA-Clean-R上设置µ=0。1在后续实验中。9365(a) MsCeleb-R（b）VggFace2-R图4. 从左到右：分别来自MsCeleb-R和VggFace 2-R的所有阳性对的余弦相似性分布。4.4. 真实世界数据的实验与CASIA-R类似，我们在图4中显示了来自MsCeleb-R [11]和VggFace 2-R [5]的所有正面对的余弦相似性分布。从子图中，我们注意到MsCeleb-R比VggFace 2有更多的噪音。R.其余的实验是基于这两个真实世界的训练数据集进行的。根据图4中的统计数据，我们根据经验使用阈值0.3 来指示噪声标签。因此，我们将 MsCeleb-R 和VggFace 2-R的噪声率对于特定数据集的噪声率r，也可以通过使用验证集来推断它，就像以前的工作[47，19]一样。4.4.1比较方法我们将我们的方法与最近提出的六种最先进的竞争对手进行了比较，包括：MentorNet（MN）[16].一个辅助教师网络是预先训练好的，用于为学生网络去除嘈杂的面孔。然后，学生网络用于人脸识别。解耦合（DC）[21]。该方法只利用两个分类器预测值不同的样本来DualNet（DN）[14].两个并行的神经网络协调学习互补的特征。采用迭代训练策略，使两个网络相互协作。相互学习（ML）[49]。网络的集合在相互学习策略中协作学习，并在整个训练过程中相互教授。共同教学（CT）[12]。该方法同时训练两个神经网络，并让它们在每个小批中相互学习每个网络反向传播所选择的数据，而不受其对等网络的区分，并更新自身。共同教学+（CT+）[46]。该方法类似于共同教学[12]，但仅使用两个预测的不一致来更新参数。对于所有这些竞争对手，骨干架构是MobileFaceNet[7]，并配备了Arc-Softmax损耗[8]。表3.MsCeleb-R不同方法训练的结果（%）方法CALFWCPLFWAgeDBCFPAve.基线90.1186.3092.8195.5091.18[16]第十六话90.1485.4192.7095.2090.86华盛顿特区[21]90.2386.1493.9095.8591.53[第14话]90.2685.0193.3395.0590.91[第四十九话]90.0886.0093.3595.5191.23CT[12]89.9085.0592.0595.0590.62CT+[46]89.4385.2392.5095.4190.64我们91.0687.3194.0595.8792.07表4.VggFace 2-R上不同方法训练的结果（%）4.4.2CALFW、CPLFW、CARDB和CFP的结果我们使用两个训练集MsCeleb-R和VggFace 2-R来分别训练深度CNN模型。表3-4分别提供了测试集CALFW[51]、CPLFW [50]、CPLDB [24]和CFP [30]上基线、竞争对手和我们的方法的定量结果。从数字中，我们观察到大多数竞争对手在MsCeleb-R数据集上训练时都优于基线。这是因为MsCeleb-R非常嘈杂。大多数竞争者都能有效地过滤掉噪声标签，从而提高性能。对于我们的方法，我们不仅有效地检测噪声标签，但也避免了错误积累的问题，并吸收了干净的脸的增益。因此，我们的方法可以达到更高的性能比基线和竞争对手。具体来说，我们实现了比基线平均提高约2%，比最佳竞争对手的协同教学算法平均提高1%[12]。在VggFace 2- R数据集上训练时，竞争对手略低于基线。可能的原因是VggFace 2- R的噪声率小。在训练过程中，他们可能会丢掉一些必要的干净面孔相比之下，我们的方法也可能会丢弃一些重要的干净人脸，但我们已经重新加权了大部分剩余的干净样本，因此我们也可以保持产生更多的判别特征，并实现更有希望的性能。具体而言，我们仍然实现了比基线平均提高约1%，比最佳竞争对手解耦算法平均提高0.5%[21]。方法CALFWCPLFWAgeDBCFPAve.基线91.9581.1392.7689.7488.89[16]第十六话92.9483.4994.6692.5890.91华盛顿特区[21]90.2884.0193.8092.8190.22[第14话]89.7976.3892.2684.9085.83[第四十九话]91.8982.4493.7091.5489.89CT[12]92.0884.8394.3692.3590.909366方法RFWAve.高加索印度亚洲非洲基线93.8381.8386.8383.1686.14[16]第十六话95.4687.5087.1683.8388.48华盛顿特区[21]95.6684.5088.3384.8388.33[第14话]89.8379.8380.3378.1682.06[第四十九话]91.9984.3387.3383.8386.87CT[12]94.0086.1687.6684.6688.12数据方法MegaFace等级1@1e6MegaFaceTPR@FAR=1e-6基线84.5687.72[16]第十六话86.1089.07华盛顿特区[21]86.5288.90MsCeleb-R[第14话][第四十九话]78.4283.2581.2386.46CT[12]86.4588.53表5.MsCeleb-R不同方法训练的结果（%）方法RFWAve.高加索印度亚洲非洲基线93.1685.3385.8380.8386.28[16]第十六话90.8386.0086.8383.1686.70华盛顿特区[21]93.3385.0088.0083.8387.50[第14话]90.3386.3382.8383.8385.83[第四十九话]93.6686.4990.0083.0088.28CT[12]92.6686.1686.3383.5087.16CT+[46]92.3386.4986.0079.3386.03我们94.8387.8388.0085.3388.99表6.VggFace 2-R上不同方法训练的结果（%）4.4.3关于RFW表5-6显示了RFW测试集上所有方法的性能比较。根据这些值，我们可以得出结论，结果显示出与先前测试数据集相同的趋势。具体来说，在MsCeleb-R数据集上训练时，大多数竞争者都优于基线，因为它们可以有效地过滤掉噪声标签，从而减少它们的影响。在VggFace 2-R数据集上训练时，结果没有太大不同。对于我们的方法，它同时检测噪声标签，交换高置信度的干净面孔并重新加权干净的面孔，显示出其优于基线和最先进的替代方案。具体来说，我们的方法在MsCeleb-R数据集上训练时达到90.24的平均准确率，在VggFace 2-R数据集上训练时达到88.99的平均准确率，比第二好的方法平均提高了至少1%。4.4.4关于MegaFace Challenge表7-8显示了MegaFace数据集上的识别和验证结果特别是，与基线相比，竞争对手表现出了很强的过滤噪声标签的能力，通常会获得更好的性能。对于我们的方法，我们在Rank-1@1e6识别率和验证TPR@FAR= 1 e-6率上都比基线提高了约2%。较表7.MegaFace Challenge上不同方法的结果（%）数据方法MegaFace等级1@1e6MegaFaceTPR@FAR=1e-6基线78.0483.06[16]第十六话76.7981.91华盛顿特区[21]78.9582.45VggFace2-R[第14话][第四十九话]74.3878.9079.6382.48CT[12]75.4380.79CT+[46]73.1978.15我们81.5186.07表8.MegaFace Challenge上不同方法的结果（%）与竞争对手相比，我们的方法改进不是很大，但仍然优于他们。具体而言，当在MsCeleb-R上训练时，我们的方法在Rank-1识别率和0.7%验证率方面击败竞争对手 MentorNet [16] 约 1.0% ，当在 VggFace 2-R 上训练时，在Rank-1识别率和3.5%验证率方面比竞争对手Decoupling [21]高出约2.5%。综上所述，我们的联合挖掘策略，有效地检测噪声标签，交换高置信度的面孔，并自适应地集中在干净的面孔上，本质上优于最先进的技术。5. 结论在本文中，我们提出了一种新的联合挖掘策略，用于在带有噪声标签的大规模人脸识别数据集具体来说，我们将小批量样本分为三部分，噪声标签，高置信度的干净面孔和干净面孔。接下来，针对每个部分，我们制定了不同的策略。对于噪声较大的标签，我们将其丢弃，以防止其引起的模型退化对于高置信度的干净面孔，我们交换它们以减轻累积的错误。对于干净的脸，我们重新加权，使它们占主导地位，以学习区分性特征。在合成和真实世界的基准上的广泛实验已经证明了我们的新方法比最先进的替代品的优势9367引用[1] http://trillionpairs.deepglint.com/概述。[2] https://github.com/ZhaoJ9014/face的网站。evoLVe.PyTorch.[3] Devansh Arpit ， Stanismartaw Jastrzebski ， NicolasBallas，David Krueger，Emmanuel Bengio，Maxinder SKanwal ， TeganMaharaj ， Asja Fischer ， AaronCourville，Yoelman Bengio，et al.深入研究深度网络中的记忆ICML，2017。[4] MarkusM Breunig ， Hans-Peter Kriegel ， Raymond TNg，and J？r gSan

下载后可阅读完整内容，剩余1页未读，立即下载