基于元监督的自适应标签噪声清除算法在深度人脸识别中应用

156 浏览量更新于2023-10-13 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15065基于元监督的自适应标签噪声清除算法在深度人脸识别中的应用张耀斌，邓伟宏*，钟耀耀，胡佳妮北京邮电大学{zhangyaobin，whdeng，zhongyaoyao，jnhu} @ bupt.edu.cn李贤，赵东岳，文东超佳能创新解决方案（北京）有限公司公司{李贤，赵东岳，文东超}@ canon-is.com.cn摘要深度人脸识别系统的训练通常面临训练数据中标签噪声的干扰。然而，很难获得高精度的清洁模型来去除这些噪声。本文针对人脸识别数据集提出了一种基于Meta学习的自适应标签噪声清洗算法，该算法可以学习待清洗数据的分布，并根据类别差异进行自动调整。该算法首先从标记好的噪声数据中学习可靠的清洗知识，然后通过Meta监督逐步将其传递到目标数据中，以提高性能。还提出了一个阈值适配器模块，以解决迁移学习方法中的漂移问题。大量的实验清洁两个嘈杂的在野外人脸识别数据集，并显示有效性，实信号/噪声分布学习信号/噪声分布图上的信号/噪声顶点阈值适配器在IJB-C人脸识别基准测试中，该方法达到最先进性能的有效性1. 介绍深度人脸识别在很大程度上依赖于训练数据[57，58，59]。由于数据采集和预处理的不足，数据集中通常存在标签噪声。对于人脸数据集，它指的是一个班级里不同人的一张到多张面孔。近年来，增加人脸识别数据集的数据规模被证明对于训练深度模型至关重要[6，20，24，56，60]，但标签噪声率也不可避免改善[47]。一些研究[4，9，47，48]揭示了训练集中标签噪声对人脸识别准确率的严重危害。这导致了数据大小和清洁度之间的矛盾，从而产生了数据清洁任务。它的目标是保留一个人的面部图像（记为许多数据清洗解决方案[1，6，47]被提出来，图1：AMC用于人脸数据清洗的主要思想。（a）（b）利用元学习指导，学习的信号-噪声分布更接近真实分布。（c）在信噪比图流形上学习消除标签噪声。例如，FaceGraph [56]将全局-局部图卷积网络（GCN）[21，27]部署为二元分类器，以对k-NN图上的信号和噪声进行分类。这类方法的最大矛盾在于待清洗的目标数据一般是未标记的，因此清洗模型通常是在附加的标记数据上训练的。假设附加的标记数据是源域，未标记的目标数据是目标域，由于域间隙，训练的模型难以适应目标数据的分布。在图1（a）中，红色三角形和矩形表示目标域的真实信噪比分布。当部署在源域上训练的清理模型来清理它们时，信号和噪声可能无法像蓝色三角形和矩形那样很好地分离。为了解决这个问题，许多迁移学习方法[18，31，32，39，44]都是信号(a)无元学习指导噪声(b)元学习指导 (c)具有自适应阈值15066建议消除域间隙[49]。在本文中，我们提出了自适应Meta清洁器（AMC）框架，这是一种基于元学习的人脸数据清洁的新型传输方法[23，45]。AMC将源域视为元训练集，并且将目标域视为元测试集。由于目标域是未标记的，因此提出了一种基于图的无监督方法来伪标记受一些相关工作启发的目标数据[35，50，55]。注意，伪标签的信噪比分布也是有偏的，其仅用于传递清洁知识而不是直接用于训练清洁模型。通过这种方式，模型从源领域学习可靠的知识，并逐渐将其转移到目标领域。这种基于元学习的迁移方法将提出一个新的问题，即，决策界的漂移。优化目标仅测量数据分布的上限，旨在预测尽可能接近1的信号和尽可能接近0的噪声然后，通常的做法是采用经验边界阈值，例如0。5[7]。具有预测大于阈值的值被判断为正，并且小于阈值的则判断为否定。然而，在迁移学习任务中，模型试图学习适合源集和目标集的决策边界分布，但它只期望在目标集上表现良好在这种情况下，经验阈值可能在不同域之间经历漂移并且不能完全描述目标域的边界。为了解决这个问题，在AMC中提出了自适应阈值学习方法以及元学习过程，以动态地调整不同类别的边界阈值。为了在真实数据上验证AMC，我们清理了两个野外噪声人脸数据集CASIA-WebFace [54]和Million- Celebs[56]，由具有高质量信噪比标签的MS-Celeb-1 M [20]数据集指导。根据在清洁数据集上训练的Arcface [10]的比较识别性能来评估有效性结果表明，与之前的面部验证测试和IJB-C基准测试中的清洗方法相比，AMC有效地提高了面部识别性能[33]。随后的讨论还具体分析了所提出的方法的性能改进的原因。其主要贡献可归纳如下：• 我们从域间隙的新视角探讨了数据清洗任务，并为深度人脸识别数据集的信号和噪声分布传递提供了一种可能的解决方案，可以激发更多相关的讨论。• 我们设计了基于元学习的AMC框架来清除人脸识别数据集中的标签噪声。• 清理并比较多个数据集以测试其性能限制。2. 相关工作标签噪音清洁。标签噪声清除[3，13，14，52]算法被广泛用于解决标签噪声问题[17]。在人脸识别领域，通过挖掘数据的内在相关性，提出了许多自监督清洗方法。CASIA-WebFace [54]通过其“主照片”来清理每个主题。MegaFace2 [25]根据图像的成对距离对图像进行聚类。VG-GFace [38]和VGGFace 2 [7]将SVM训练为更清洁的。Celeb500k [6]和MCSM [53]训练基于CNN的标签预测器以自举方式选择样本。其他工作则采取加强监督的方式，以提高清洗的准确性。一些人引入人工劳动[1，7，38，47]，而另一些人则试图从外部数据中引入清洁知识。FaceGraph [56]部署了在模拟集上训练的GCN模型，WebFace260M [61]部署了MS1M预训练模型作为指导自我训练的第一个老师本文引入外部数据配合目标数据开发出高质量的标签噪声清除器。Meta学习。元学习[23，28，45，46]是模型学习学习能力的有效方法，并广泛用于跨域传输知识。 [15]和它的方差[16，37，40]学习一个良好的权重初始化快速适应一个新的任务，为少数拍摄学习问题。MTL[43]在用于转移的元学习过程中学习缩放和移位函数。MLNT [29]和MW-Net [42]通过元学习指导噪声标记数据。一些工作[5，8，30，62]将元学习应用于基于图的任务。MFR [19]将元学习引入人脸识别社区，以提高不同领域的泛化能力。在本文中，元学习的思想是用来转移的清洗知识学习的源域到目标域。3. 方法在本文中，我们提出了一种自动学习方法AMC，以清除标签噪声的人脸识别数据集。考虑一个未标记的人脸数据集，例如，通过在网络搜索引擎上搜索名人的名字返回的名人图像。这些图像自然地被搜索结果分成不同的类别，但是在一个类别中可能不仅存在目标名人，而且还存在与该名人相关的这导致一个类中的多个身份，使数据集有噪声。清理任务旨在为每个类选择属于其中一个身份的图像，以建立无噪声数据集用于下游任务。我们假设原始数据集的不同类别是独立的，以便我们可以应用所提出的方法来分别为每个类别清除标签噪声。最大的困难是通常没有对信号和噪声的地面实况标签监督，并且15067我我我联系我们{|{···}{|{···}∈pG我我我12nY = y1，y2，···，ynE∈R1 2N手工标记是耗时且不准确的。令T表示待清理的未标记目标人脸数据集，其中在一个类（x t）中有n个人脸样本我一二，n. 清洁任务预测了拉贝尔（yt）我一二，n对于所有n个实例，其中y=0，1，1表示信号，0表示噪声。此外，引入了一个全标记数据集S来帮助清洗T。在S的一个类中有m个人脸样本{（xs，ys）|i∈{1，2，...，m}}，其中ys∈{0，1}。作为如图2所示，AMC建议使用三个主要模块来解决标签噪声问题：伪标签生成（第3.1节）、元优化（第3.2节）和自适应阈值调整（第3.3节）。3.1. 无监督伪标签生成这一步的目的是为所有数据生成特征嵌入，然后对目标数据进行伪标签。首先，具有参数ν的基于CNN的人脸识别模型E是目标数据目标伪标号伪标号发生器门限适配器使用S中的所有ys=1标记数据进行训练，以获得最佳ν*。然后将E部署为特征提取器以提取d。- 针对S和T中的所有图像的维度特征嵌入，其被作为所有后续步骤的输入。因此，图像可以表示为d维l2归一化特征，并且T中的一个类表示为矩阵X tΣE。xt; ν*Σ，E. xt; ν*Σ，···，E. xt;ν*ΣΣT∈Rn×d图2：AMC概述。(a)用源数据S作为特征提取器预训练人脸识别模型E，并用无监督标签生成器G对目标数据T进行伪标签。(b)元学习：使用源数据作为Meta训练集和伪标记的目标数据作为元测试集来训练GCN清洁器C。(c)阈值适配器T帮助清理目标数据以解决边界漂移的问题。一个类X sRm×d在S中也是如此。基于特征嵌入，提出了一种无监督模式yt=.1，若i∈ VG（p*），p*=argmax VG（p）（六）规则G被设计为伪标记目标数据。G为每个类构建一个图G=（VG，EG）作为输入，其中顶点VG={1，2，...，n}（2）表示该类的n个图像样本，并且边缘EG={（i，j）|其中λ是阈值超参数，S= Xt X tT是特征矩阵Xt的n×n成对余弦相似度。然后，模G将G划分成多个连通子图{G（ 1 ），G（ 2 ），···，G（K）}，其满足VG(p)∩VG(q)=∅,∀p,q∈{1,2,···,K}andp̸=qKi0，否则其中VG（p）表示图G（p）中的顶点数。3.2. 元优化为了解决全监督训练的模型对未标记目标数据效果不佳的问题，充分利用源数据的知识对目标数据进行清洗，本文提出通过元学习来训练清洗模型，以弥合源数据和目标数据分布的差异.表示为C的清洁器是基于GCN的多层二进制顶点分类网络，其将类别的特征矩阵X和由X构建的k-NN图X作为输入。根据最近的基于GCN的清洁方法[56]，我们使用相同的正向[=1]VG（p）=VG（四）传播函数来实现清洁器C。请回复-详细网络结构参见补充资料。象征性的，清洁工可以表示为子图中包含最多ver-样本被伪标记为信号，而其他样本被伪标记为噪声。所以一个类的伪标签表示为tΣt t tΣTn×1P=σ（C（X，GX;θ））（7）其中，θ是C的参数，并且σ是S形激活函数，其针对(a)伪标签生成(b)Meta优化(c)自适应阈值��′普�� t（s，（t，t）��1 −��源数据源标签E特征提取器GCN基清洗剂�� t生成提取嵌入伊W，p ssE培训伊什伊什伊什ℒ��ℒ��普雷伊什普雷特�� t（一）（五）其中每个元素pi∈（0，1）。15068类别的所有 η 个样本输出预测得分 P=[p ，p，· · ·，p]T∈RnX 115069我我B我.1，如果p> tn∈联系我们G∈. .ΣΣnL列车= −1Σ[ys·logps+（1 −ys）·log（1−ps）]··BθB联系我们1 2NMb=1b=1i=1B元列车在元训练阶段，标记数据集S用于在完全监督下训练C。对于一类m个样本，元序列损失函数被公式化为所有样本的二进制交叉熵损失的平均值：mi ii i i=1我（八）图3：使用adap的前向传播框架-其中ps是第i个样本的网络输出得分，介于0和1之间，ys0、1是我的标签th样本。在反向传播中，随机梯度De-scent（SGD）用于更新网络参数θ。对于批量大小为B的图形最小批量，更新原理被公式化为：θ′=θ−α1ΣL列（θ）（9）b=1阈值C将从一个类构建的图作为输入，并预测所有样本的得分。T将C的不可能输出作为输入并输出阈值t。3.3. 自适应阈值如第1节所示，在清洁器中仍然存在边界漂移问题。事实上，作为一个歧视模型，清洁器学习后验概率p（Yt|Xt，t）其中α是元学习率。元测试。在元测试阶段中，具有更新的参数θ’的清洁器C的性能在伪标记数据T上测试，其中元测试损失函数在对于类Xt，并且预测标签Yt被确定为Yt=Σyt，yt，···，ytΣT∈Rn×1（13）与元列车丢失的形式相同。对于具有n个样本的类，元测试二进制交叉熵损失为yt=不我0，否则（十四）Ltest=−1ΣΣyt·logpt+。1−ytΣ·log. 1−ptΣΣ其中t（0，1）是决策边界分布。而不是将t固定为0。5在许多二进制分类任务中，我们提出了一种自适应阈值学习方法来执行ni iii=1我（十）明确学习不同类的决策边界其中pt是第i个样本的网络输出得分如图3中所示，具有it参数与清洁器C一起设计。在在0和1之间，并且y（i0，1）是第i个样本。特别是为了避免模型过拟合对于偏置的伪标签，以概率p随机丢弃每个样本的伪标签。元更新。结合元训练和元测试损失，最终的元学习损失函数被设计为LMeta=γLtrain （ θ ） + （ 1-γ ） Ltest （ θ′ ）（11）其中γ平衡元训练和元测试。因此，在一个步骤中，参数θ被更新为前向传播，T将目标域中的图的清理器的非概率化输出C（Xt，Xt;θ）Rn×1作为输入，并输出由S形函数归一化的阈值tt=T CXt，GXt;θ;（15）为了有效地更新参数，设计了阈值感知损失函数。对于具有n个顶点的图，自适应阈值损失被公式化为1Σ Σ。 ΣΣ ΣB火车B测试′日不不θ←θ−γ·αΣLb（θ）−（1−γ）·αΣLb（θ）L=−nyi·log1−1−pi−[1−t−mfn]++（1−γ）·α2<$B2Ltrain（θ）ΣBL检验（θ′）+。1−yttt·日志 .1−Σpt−[t−m]ΣΣΣB2b=1∂θ2b=1∂θ′（十二）i ifp++（十六）元学习方法等效于元训练集和元测试集上的梯度下降，并且应用高阶规则来校正这两个域。通过这种方式，该模型试图同时优化源数据和目标数据，以便在这两个域上表现良好。详细推导请参见补充资料输入图层层 +1评分预测h10.2h 10h20.6h 20h30.8h 31……0.7BB∂θB∂θ′+15070其中[ ]+表示max（，0），m_fn和m_fp是正样本和负样本的裕度。与均方误差（MSE）损失相比，这种形式的交叉熵提供更有效的在反向传播中，梯度通过t传播到。 T的实现是首先对输入求平均，然后通过一个完全15071····--·--•L···×算法1自适应Meta清理器。要求：标记数据S=（Xs，Ys），未标记数据T=（Xt），特征提取器Eν，GCN清洁器Cθ，阈值适配器T，无监督伪标签生成器G，迭代次数I，批量大小B，超参数λ，p，γ，mfp，mfn确保：最优参数ν、θ、、预测标签Yt。初始化ν、θ和。在数据S上找到优化参数ν*。通过等式5和等式6生成T的伪标签Yt，其中G。对于i=1，，如果imod 2，则我做从集合S中随机选择B个样本以获得输入元训练小批量Bs。从集合T中随机选择B个样本以获得输入元测试小批量Bt。• 元列车：通过等式9计算θ′e元更新：通过等式12更新θ从集合T中随机选择B个样本以获得输入小批量Bt。通过自适应阈值损失th更新阈值。结束if结束for·通过等式13和等式14预测标签Yt连接层由sigmoid函数激活，以获得0和1之间的预测阈值。3.4. 总结AMC的整个训练过程总结在算法1中。在S上训练面部特征提取器E，并且由G伪标记T。然后依次执行元优化步骤和自适应阈值学习步骤，直至收敛。最后，使用优化的清洁器C和阈值适配器T来预测T的标签。4. 实验4.1. 实验装置评估指标数据清洗性能通过使用清洗后的数据集训练深度人脸识别模型来评估。验证集CFP-CP [41]用于测试交叉姿势识别准确度，AgeDB [34]用于测试交叉年龄识别准确度。IJB-B [51]和IJB-C [33]基准用于通过在给定的假阳性率（FPR）和Rank-1检索准确度下测量真阳性率（TPR）来评估模板式人脸识别性能。MegaFace Challenge 1 [25]测试了1M干扰物下的大规模人脸识别性能。数据集#照片受试者数量无噪声MS-Retina [11]5.2M93K✓MS-Celeb-1M [20][54]第五十四话美国[56]7.5M0.5M87.0M100K10K1M×××表1：实验中使用的面部识别数据集。实施细节表1示出了实验中使用的面部训练集。我们从每个数据集中随机选择1,000个类来训练清理器。为了保证表示的可靠性，特征提取器E被实现为输出d =512维特征嵌入的ResNet-100 [22] Arcface [10]模型。3-NN图的构建与自循环的所有节点作为输入图。清洁器C被设计为具有256维隐藏特征的5层GCN Adam[26]被用作学习率为0的元优化器。001，重量衰减0。0005和图表-批量B=50。超参数λ=0。6，p=0。9，γ=0。6，并且余量m_fn和m_fp分别被设置为0.3和0.0。由于类的数量的差异可以显着影响识别精度，为了公平的比较，我们对待的伪标签作为输出标签，如果没有信号输出的清洁。对于人脸识别训练，SGD用作初始学习率为0的优化器。1，权重衰减0。0005和批量512。当损失值不减小时，学习率被三次除以0.1输入图像被对齐，调整大小为112 112，并且通过减去127.5并除以128来归一化4.2. CASIA-WebFace实验在本节中，我们清理了广泛使用的CASIA-WebFace[54]数据集，并比较了在不同清理数据上训练的ResNet-34 [22] ArcFace [10]模型的人脸识别准确性。CASIA-WebFace的噪声率估计为9.3-13.0% [47]。表2中的第1至5行显示了不同清洁方法的基线性能。比较方法包括原始数据集、手动清理版本[2]、将1-vs-nSVM训练为分类器的VGG [7]清理方法、根据平均成对距离选择图中信号的MF 2 [35]清理方法消融研究用四种设置进行：在源数据上训练（源）、在源数据上预训练并在目标数据上微调（微调）、具有阈值0的元学习方法。5（Meta），以及具有阈值适配器T（AMC）的元学习方法我们以带噪声的WebFace数据集作为目标域，并选择一个标记集作为源域。比较了两种源数据，一种是模拟的，另一种是真实的。首先，基于MS-Retina [11]数据集构建模拟集，该数据集是MS-Celeb-1 M [20]的清理版本：假设它是无噪声集，我们·15072域方法#IJB-B （%）IJB-C （%）CFP-FP（%）年龄DB（%）1e-51e-41e-3Rank11e-51e-41e-3Rank1-158.8875.9686.4186.6868.0480.7189.3488.2194.7393.83手册[2]259.9075.3686.0186.7969.0080.7989.0888.1794.1193.63WebFace [54]MF2 [35]364.0977.2187.0587.5770.9181.4090.0389.3894.3394.00VGG [7]457.5476.0886.4986.8267.3280.5089.5488.2994.6694.03[第56话]561.9377.5887.9588.4072.7482.7190.7490.1995.2094.23仿真源微调6763.2764.6477.1477.5986.8187.1787.5587.8371.6372.4981.7082.1590.1290.1588.9989.5194.5994.7293.9094.07网页↓脸MetaAMC8964.2865.9877.9978.7487.4987.7688.2788.5571.9373.5982.7782.9490.3690.4089.9590.0694.8895.0394.0993.85MS1M源微调101162.8464.2777.5977.6687.5387.2688.2288.2771.6372.6981.9582.4090.1090.3089.4789.5994.7794.7194.0894.27网页↓脸MetaAMC121364.8265.8878.3079.0487.7388.0788.2589.0572.4273.7882.7683.0290.5690.8789.7690.5294.7394.7794.4094.42表2：通过Arcface [10]使用清洁的CASIA-WebFace [54]数据集训练ResNet-34 [22]深度人脸识别模型选择其类的一半作为基本集合，然后逐渐用随机选择的另一半的图像作为噪声来替换其图像，直到噪声率达到与真实集合MS-Celeb-1 M相同的水平表2中的第6至9行显示，使用模拟集清理WebFace [54]达到了100075050025000.2 0.0 0.2 0.4余弦相似度0.60.8 1.0100075050025000.2 0.0 0.2 0.4 0.6 0.81.0余弦相似度人脸识别的准确率明显高于基线结果。例如，在IJB-C基准测试[33]中，AMC清理的数据集比原始Web Face[54]高出5.55%，比之前最先进的Face-Graph [56]高出0.85%，在1 e-5 FPR时达到73.59% TPR。从烧蚀实验来看，在源数据上训练或在目标数据上微调的清洁器所提出的元学习（#8）和自适应阈值（#9）算法进一步提高了识别精度，这证明基于元学习的转移方法可以有效地处理噪声标签问题，并且所提出的适配器是边界漂移问题的有效解决方案。注意到联合国系统1000750500250010007505002500(a) CASIA-WebFace0.2 0.0 0.2 0.4 0.6 0.81.0余弦相似度(c) 仿真0.2 0.0 0.2 0.4 0.6 0.81.0余弦相似度(e) MS1M10007505002500（b）伪0.2 0.0 0.2 0.4 0.6 0.81.0余弦相似度(f) MS1M→ WebFace模拟集，我们还建议部署一个真正的野生集作为训练的源域。使用MS-Celeb-1 M [20]是因为它包含有关各种噪声条件的丰富信息，并且网络上有很多清理版本[1，10，11，12]。选择MS-Retina清洁版本来标记信号和噪声：对于MS-Celeb-1 M中的任何图像，如果它也包含在MS-Retina中，则将其标记为信号，否则将其标记为噪声。表2中的第10至13行示出了清洁性能。据观察，在用AMC训练清洁器时，真实集显著优于仿真集，特别是在 IJB-C 基准上。在 1 e-5 FPR 时达到73.78%TPR，优于模拟设定0.19%。这说明真实集的信噪比分布可以提供更多的清洗知识，并且所提出的AMC方法成功地将其转移到目标数据。图4：成对类内相似性的直方图。4.3. MillionCelebs的实验先前的实验表明，良好标记的数据具有良好的潜力，通过所提出的AMC方法将清洗知识转移到在本节中，我们继续使用MS-Celeb-1 M [20]作为源数据来清理更具挑战性的数据集MillionCelebs [56]，它更大，更脏。由于它的规模很大，我们随机选择了100，000个类，并去除明显的噪音，以建立一个名为MC-mini的子集，用于快速比较。注意到MillionCelebs [56]总结了MS 1 M [20]中的身份，为了公平比较，选择构建MC-mini的身份被排除在MS 1 M之外。该数据集将频率（k）1000(d)模拟→WebFace75050025000.2 0.0 0.2 0.4 0.6 0.81.0余弦相似度频率（k）频率（k）频率（k）频率（k）频率（k）15073域方法#IJB-B （%）IJB-C （%）CFP-FP（%）年龄DB（%）1e-51e-41e-3Rank11e-51e-41e-3Rank1-184.0692.0395.5194.2490.5794.3196.8595.7596.2796.77MC-mini [56]MF2 [35]VGG [7]2387.2386.3492.9392.6695.9595.8894.3794.4792.2791.8694.9694.9397.0897.0695.9896.0296.2096.6497.0896.90[第56话]487.0492.7895.8294.4391.9295.0497.0596.0096.3496.97MS1M源微调5687.4387.2092.8792.7195.8495.9194.4794.4292.3391.9595.1094.9497.0497.0496.0695.9696.2396.4097.0897.20MC-↓miniMetaAMC7887.4387.4793.0493.1395.8395.9694.4094.6392.1492.3694.9895.2796.9597.1395.8796.1696.3996.5396.7597.25表3：通过Arcface [10]使用清洁的MC-mini [54]数据集训练ResNet-50 [22]深度人脸识别模型表4：MegaFace挑战1 [25]上的验证TPR（@FPR= 1 e-6）和识别等级-1。“MC-mini -cleaned比CASIA-WebFace [54]具有更多的类，并且也更嘈杂，这可以测试所提出的方法在大规模清理中的鲁棒性。表3比较了在原始数据集和清理数据集上训练的ResNet-50 [22] ArcFace [10]模型的人脸识别性能。与清理WebFace一样，所提出的方法在较大规模的MC-mini上实现了显著的识别性能改进。使用MS 1 M [20]作为源数据， AMC 完全超越了之前最先进的FaceGraph和所有其他比较方法，在IJB-C基准测试中，1 e-5和1 e-4 FPR达到92.36%和95.27% TPR以及96.16% Rank-1性能。表4示出了ResNet-50 [22] ArcFace[10]模型在MegaFace挑战1 [25]上采用Face-Scrub [36]作为探针集并使用由DeepInsight [10]提供的清洗列表的1 e-6 FPR验证和Rank-1识别性能的TPR。由AMC清理的CASIA-WebFace和MC-mini数据集达到了最高的准确性，大大优于其他方法。当清理MC-mini数据集时，AMC比之前最先进的FaceGraph [56]高0.39%，达到98.15%的验证准确度。它的表现也优于许多公共数据集，如VGGFace 2 [7]和MS 1 M-IBUG [12]，这充分证明了所提出的AMC方法在大规模识别上的有效性。Sian RichardsHalle Berry其他图5：CASIA-WebFace数据集的类“1075644”中有两个主要组。Cleaner在真实集合管理器上训练以选择一个，但是在模拟集合上训练的一个失败。4.4. 讨论与基于GCN的最先进的清洁方法FaceGraph [56]相比，AMC有三个主要发展：1）将真实噪声集而不是模拟噪声集部署为源数据。2)元学习用于传递清洁知识。3)提出了一种阈值适配器来处理边界漂移问题。这三个方面将在下文中进行详细分析和讨论。源数据。图4比较了CASIA-WebFace的类内成对余弦相似度直方图[54]。在清洗前有两个主峰（4a），其相似度为0.0和0.6。前者显然是由标签噪声引起的。伪标签（4b）可以精确地拒绝噪声，然而，许多信号也被删除。比较模拟集和真实集清洁版本，观察到模拟清洁数据集在相似度0.0附近仍然具有小的噪声峰，但是真实集清洁版本几乎消除了所有噪声条件以保留一个主信号峰，同时保持召回。我们跟踪了一些类，发现“多模态”现象是导致清洗失败的主要原因：在一个噪声类中，可能存在多个主人脸组。如图5所示，这些图像属于CASIA-WebFace中的一个类“1075644”[54]。在模拟集上训练的清洁器选择具有绿色和蓝色矩形的图像作为信号，但它们实际上属于两个身份。产生这种误差的原因是模拟集中的噪声数据方法ID.（%）Ver.（%）[54]第五十四话89.8491.59VGGFace2 [7]88.6992.72MS1M-IBUG [12]95.5696.33MC-mini [35]95.9597.19[56]第五十六话90.0492.50[56]第五十六话96.1697.76WebFace -AMC90.3492.83MC-mini -AMC96.2298.1515074频率（k）频率（k）25 25 2520 20 2015 15 1510 10 101.00.80.6500.20.00.20.40.60.81.0500.20.00.20.40.60.81.0500.20.00.20.40.60.81.00.40.2图6：具有参数γ的类内相似性直方图。0.010 5 0 5 10 15 2025平均输入随机添加，使得不包含用于训练的多模态知识，并且清洁者倾向于接受所有的主要模态。相反，在真实噪声数据上训练的清理模型设法挑选绿色矩形作为信号。这表明，真实噪声集包含更多的噪声信息，而这些信息无法从模拟噪声集中学习到。平衡项γ。γ用于平衡训练过程中的元训练和元测试损失。图6示出了经清洁的MC-mini的类内相似性直方图随γ的变化。在图6a中，γ=0意味着清理器的元更新仅依赖于来自伪标记目标集合的梯度，这导致直方图中接近0.1和0.7的两个峰值这说明伪标签无法正确指导清洁工的培训。该模型对有偏的伪分布过拟合，从而降低了清洗精度。在图6c中，γ=1相当于用元训练集预训练清洁器，并且不使用元信息。据观察，清洗精度大幅提升，再次证明了真实源数据的真实性和可靠性然而，直方图的峰值显著下降，这意味着大量信号样本也被删除，导致更低的清理召回。在比较实验之后，我们将γ设置为0。6清洁MC-mini，如图6 b所示一方面，清洗结果保持与直接使用源数据进行训练相同的精度。另一方面，在伪标记目标数据的指导下，召回更多的信号。因此，利用γ-调和Meta学习方法，清洁器在通过高精确度和召回率保持优异清洁性能的同时完成转移阈值适配器。在所提出的方法中，在AMC中部署阈值适配器T来判断给定类的阈值边界。为了探索适配器如何优于手工设计的阈值，图7用曲线可视化了其输入值的平均值与其输出阈值之间的映射。曲线周围的散点记录了从目标域中随机选择的类的平均值与使类达到最小误分率的理想阈值之间的映射。红色和绿色表示表2中的实验#9和#13，并且蓝色表示表2中的实验#9和#13。图7：适配器输入的平均值及其对应的输出阈值的映射方法相关性方差（×1e−2）与T无T模拟→WebFaceMS1M→WebFaceMS1M→MC-mini0.420.600.773.6352.3152.6094.4584.0286.204表5：平均输入和理想阈值之间的Pearson相关系数，以及理想和输出阈值之间的差异的方差。表3中的第8项。从分散点观察到，平均输入值和理想阈值正相关，并且适配器设法以S形的形式将例如，MC-mini的平均输入由于其大噪声而大多低于WebFace的平均输入，并且其分布更集中，因此适配器在值和范围上都学习到更小的表5比较了平均输入和理想阈值之间的Pearson相关系数，以及理想和输出预测阈值之间的差异的方差。用真实集训练显著提高了相关系数。相关性越强，适配器减小方差的效果越明显，这意味着模型更好地拟合目标域的信噪界的分布以处理漂移问题。5. 结论本文提出了一种新的基于元学习的标签噪声清洗方法AMC，该方法能够有效地从源数据中学习有用的清洗知识，并将其转移到目标数据中。在实验中，AMC被部署到清洁两个嘈杂的人脸识别数据集，以表明训练的人脸识别模型与AMC清洁的数据集可以达到更好的识别性能在许多基准比现有的清洁方法。致谢本工作得到佳能创新解决方案（北京）有限公司的支持Ltd.根据批准号OLA21011。频率（k）输出SIM水溶液ebFaceMS1MS1M WebFM MC-mAceini余弦相似度余弦相似度余弦相似度(a)γ= 0(b) γ= 0。6(c)γ= 115075引用[1] 挑战三：人脸特征测试/万亿对。trillionpairs.deepglint.com网站。[2] Github：happynear/facevidence. http：//github.com/happynear/FaceVerification/.[3] Anelia Angelova ， Yaser Abu-Mostafam ， and PietroPerona.修剪用于学习对象类别的训练集。在2005年IEEE 计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[4] Ankan Bansal、Carlos Castillo、Rajeev Ranjan和RamaChellappa。基于cnn的人脸验证的注意事项。在IEEE计算机视觉国际会议论文集，第2545-2554页[5] Avishek Joey Bose、Ankit Jain、Piero Molino和WilliamL Hamilton。元图：通过元学习进行少量镜头链接预测。arXiv预印本arXiv：1912.09867，2019。[6] Jiajiong Cao，Yingming Li，Zhongfei Zhang.名人-500k：用于人脸识别的大型训练数据集。2018年第25届IEEE图像处理国际会议（ICIP），第2406-2410页。IEEE，2018年。[7] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在自动人脸和手势识别（FG 2018），2018年第13届IEEE国际会议上，第67-74页。IEEE，2018年。[8] Mingyang Chen ， Wen Zhang ， Wei Zhang ， QiangChen，and Huajun Chen. 知识图中用于少镜头链接预测的Meta关系学习。arXiv预印本arXiv：1909.01515，2019。[9] Jiankang Deng ， Jia Guo ， Tongliang Liu ， MingmingGong，and Stefanos Zafeiriou.副中心弧面：通过大规模噪声网络人脸增强人脸识别。[10] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集，第4690- 4699页[11] Jiankang Deng，Jia Guo，Yuxiang Zhou ，Jinke Yu，Irene Kotsia，and Stefanos Zafeiriou. Retinaface：在野外的单阶段密集面部定位。 arXiv 预印本 arXiv ：1905.00641，2019。[12] Jiankang Deng，Yuxiang Zhou，and Stefanos Zafeiriou.深度人脸识别的边际损失。法律程序中IEEE计算机视觉和模式识别研讨会会议，第60-68页，2017年。[13] 杜薇薇和浦滨贵一。图上带模式过滤器的纠错半监督学习。2009年IEEE第12届计算机视觉研讨会国际会议，ICCV研讨会，第2095-2100页。IEEE，2009年。[14] 杜薇薇和浦滨贵一。图上模式滤波器纠错半监督模式识别。2010年第二届感知计算国际研讨会，第6-11页IEEE，2010。[15] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。arXiv预印本arXiv：1703.03400，2017。[16] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知元学习。神经信息处理系统进展，第9516-9527页，20

下载后可阅读完整内容，剩余1页未读，立即下载