细粒度噪声人脸中的鲁棒表示学习

39 浏览量更新于2023-12-01 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文细粒度噪声人脸下的鲁棒表示学习再思考马丙奇1人，宋光禄1人，刘伯孝1人，2人，刘玉1人。1商汤研究2中国科学院计算技术研究所{mabingqi，songguanglu} @ sensetime.com，liuboxiao@ict.ac.cn，liuyuisanai@gmail.com抽象的。从大规模噪声人脸中学习鲁棒的特征表示是高性能人脸识别的关键挑战之一。最近，人们试图通过缓解阶级内冲突和阶级间冲突来应对这一挑战。然而，每个冲突中的无约束噪声类型仍然使得这些算法难以很好地执行。为了更好地理解这一点，我们以更细粒度的方式重新计算每个类的噪声类型，N-恒等式|KC-簇。通过调整N、K和C的值，可以生成不同类型的噪声脸。基于这种统一的公式，我们发现噪声鲁棒表示学习背后的主要障碍是算法在不同N，K和C下的灵活性。针对这个潜在的问题，我们提出了一种新的方法，命名为进化子中心学习（ESL），找到最佳的超平面，以准确地描述潜在的空间，大量的噪音的脸。更具体地说，我们为每个类初始化M个子中心，ESL鼓励它自动与N个身份对齐|KC-团簇通过产生、合并和丢弃操作而形成. 图像属于同一个噪声人脸中的身份可以有效地收敛到相同的子中心，并且具有不同身份的样本将被推开。我们通过对不同N、K和C的合成噪声数据集的详细消融研究来检验其有效性。在没有任何花哨的情况下，ESL可以在大规模嘈杂的人脸上实现比最先进的方法显着的性能提升。关键词：细粒度噪声人脸，演化子中心学习1介绍由于计算机视觉技术的快速发展[24，23，22]，人脸识别[26，4，16，30，15]取得了显著的进步，并在工业环境中得到了广泛的应用。这一进展的大部分是由大规模网络面孔的收集以及用于表示学习的强大学习策略[4，26]引发的。例如，MS-Celeb-1 M（MS 1 MV 0）[8]平等的贡献。[2]通讯作者。arXiv：2208.04352v1 [cs.CV] 2022年8月+v：mala2255获取更多论文不同身份的面孔（ID）潜在空间不同注释类（Class）潜在空间分中心（）在不同的班级（）的方式2B. Ma等人生产Fig. 1. 细粒度嘈杂的面孔和ESL的插图（最佳彩色视图）。对于Class1中的ID2和ID3，每个ID只有一个图像，它们将被删除，下降操作。ID1同时出现在Class1和Class2中，因此合并操作会将Class2中具有ID1的图像合并到Class1中。在Class3中，有3个ID，但只有2个子中心，所以生产操作将产生另一个有效的子中心。我们提出的ESL可以灵活地适应NKC的不同组合，并且对无约束的真实世界噪声更具鲁棒性提供超过1000万张带有粗略注释的人脸图像。训练数据集规模的不断增长不可避免地引入了无约束的噪声人脸，很容易削弱最先进方法的性能。从大规模的噪声人脸中学习鲁棒的特征表示已成为高性能人脸识别的重要挑战。传统的噪声数据学习，如递归聚类、清洗和训练过程，具有高计算复杂度和累积误差。针对这个问题，提出了子中心ArcFace[2]和SKH[13]，通过为每个类设计多个子中心来解决类内冲突或类间冲突。这些算法在特定的人工噪声中表现出了显著的性能。然而，它们仍然容易受到现实世界中不受约束的嘈杂面孔的影响。自然界中，我们发现仅仅将人脸识别中的标签噪声粗略地分为类内噪声和类间噪声是远远不够的。这极大地限制了我们对各种噪声类型的理解和对噪声鲁棒表示学习策略的探索。为了更好地理解这一点，我们以更细粒度的方式将噪声数据重新表示为N-恒等式|K C-为每个类聚类面。共享身份（ID）的面孔意味着这些图像来自同一个人。用相同标签标注的面构成一个类，类中可能存在标注错误如果有不少于两个面孔的身份，这些图像建立一个有意义的集群[7]。请参阅SEC。附录中的第1节对术语和符号进行了全面描述。在Fig.1中选择Class1。1为例，有3个ID标记为ID1、ID2和ID3，因此Class1中的N为3。但是，只有ID1包含2个以上的图像，因此Class1中的K为1。此外，ID 1同时出现在Class1和Class2中，这表示一个类间冲突，因此Class1中的C如表1所示，我们提出的N-恒等式|KC-聚类公式可以清楚地表示不同的细粒度噪声数据。W，W，W，02 - 02张晓波（）K=2（）C=1（）W，W，N=1（）01 - 02 - 2010张W，W，W，03 -03张）K=3（）03 -03张，）K=3（）C=001 - 02 - 2013张国荣（）01 - 02 -2010张国荣（）C=001 - 02 - 03 - 2001（）C=1（）+v：mala2255获取更多论文△重新思考细粒度噪声面孔下的鲁棒表示学习3表1. 不同氮、钾、碳组合下的噪声类型。表示类中存在多个簇的 □表示类内冲突，其中类中存在离群面孔。类间冲突是指多个类在不同的类中具有相同的标识符。N=K= 1N=K > 1N > K >1 N > K= 1N > K=0C =0-△△□□□C>0♢△♢△ □♢□ ♢-然而，如果N和K大于子中心ArcFace[2]和SKH [13]中预定义的子中心数量，则没有对应子中心的图像将导致类内冲突。如果C超过SKH[13]中的子中心数，则额外的冲突簇将带来类间冲突。类内冲突和类间冲突都会导致错误的梯度，从而严重影响表征学习过程。在本文中，我们建设性地提出了一种灵活的方法，命名为进化子中心学习（ESL），以解决这个问题所造成的无约束的N，K和C。更具体地说，我们首先为每个类初始化M个子中心属于相同身份的图像将被推近对应的正子中心并远离所有其他负子中心。由于实验室设计的生产，丢弃和合并操作，ESL鼓励子中心的数量自动对齐N-身份|K C-团簇面。如图1所示，我们提出的ESL可以灵活地适应NKC的不同组合，并且对无约束的真实世界噪声更具鲁棒性我们通过对不同N-恒等式的详细消融研究来检验它的有效性|K C-团簇面。在没有任何花哨的情况下，ESL可以在大规模嘈杂的人脸中实现综上所述，本文的主要贡献如下：- 我们将每个类别中的人脸的噪声类型重新表达为更细粒度的N-身份|KC-簇。在此基础上，我们揭示了在真实世界噪声下鲁棒的表示学习策略的关键是算法对N，K和C变化的灵活性。- 我们介绍了一种通用的灵活的方法，命名为进化子中心学习（ESL），以提高噪声训练数据的特征表示的鲁棒性所提出的ESL可以扩展到N、K和C的不同组合，这对无约束的真实世界噪声更鲁棒。- 在不依赖任何注释后处理或迭代训练的情况下，ESL可以轻松地在大规模噪声人脸上实现比最先进方法显著的性能提升2相关工作人脸识别的损失函数深度人脸识别模型严重依赖损失函数来学习区分特征表示。先前+v：mala2255获取更多论文4 B号文件。 Ma等人作品[4，25，26，12，20，14，28，6，31]通常利用边缘惩罚来优化类内距离和类间距离。Facenet[20]使用Triplet来强制不同类别中的人脸具有比同一类别中的人脸更大的欧几里得距离然而，在每次迭代中，Triplet损失只能优化所有类的子集，这将导致欠拟合现象。随着训练数据数量的增加，枚举正对和负对仍然是一个具有挑战性的任务。与样本到样本优化策略相比，Liu et al.[14]提出了角度softmax损失，使卷积神经网络能够学习角度区分特征。Wang等人[26]将Softmax基损失重新表示为余弦损失，并引入余弦余量项以进一步最大化角空间中的决策余量。Deng等人[4]直接引入固定的边缘，保持边缘在角空间中的连续性Liu等人[16]采用硬示例挖掘策略在Softmax-base损失函数中重新加权温度，以实现更有效的表示学习。人脸识别数据集。大规模训练数据可以显著提高人脸识别模型的性能。MS1MV0[8]是最常用的人脸识别数据集，其中大约有10万个身份和100万张人脸。MS1MV3是MS1MV0的一个清理版本，采用半自动方法[5]。An等人。[1]清理并合并现有的公共人脸识别数据集，然后获得具有17M人脸和360K ID的Glint 360K。最近，Zhu等人[35]提出了一个大规模的人脸识别数据集WebFace260M和一个自动清洗管道。通过迭代训练和清洗，他们提出了42M图像和2M ID的良好清洗子集噪声数据下的人脸识别迭代训练和清洗是一种有效的数据清洗方法。然而，随着面数的增加，其效率极低。最近的工作[27，10，32，4，13，33，34]专注于有效的噪声数据清理方法。Zhong等人。[32]将长尾分布的头部数据和尾部数据进行合并，并设计一个噪声鲁棒损失函数来学习样本到中心和样本到样本的特征表示。Deng等人[2]为每个类别设计了多个中心，将干净的面孔和嘈杂的面孔分成不同的中心来处理类间噪声。Liu等人[13]利用具有贪婪切换机制的多个超平面来减轻类间噪声和类内噪声。然而，这些方法对超参数敏感，不能处理复杂的噪声数据分布。3所提出的方法在本节中，我们致力于通过一种灵活且可扩展的学习方式来消除不受约束的真实世界噪声，这种学习方式称为进化子中心学习，可以很容易地插入任何损失函数。ESL的流水线如图2所示。我们将首先介绍我们提出的ESL，然后进行深入的分析，以更好地了解其在细粒度噪声人脸下的有效性和灵活性。最后，我们对ESL和当前最先进的抗噪声学习策略进行了详细的比较+v：mala2255获取更多论文L −efΣyiJ∈∈∈重新思考细粒度噪声面孔下的鲁棒表示学习批次样品图二. 不断发展的分中心学习的管道。我们为每个类初始化M个子中心，它们将自适应地进化以对齐数据分布。它将属于某个身份的图像推到靠近特定子中心的位置，并远离所有其他负面子中心。与当前样本具有混淆相似性的子中心将在潜在空间中被忽略。这可以有效地处理由细粒度的嘈杂的脸引起3.1不断发展的分中心学习在人脸识别任务中，统一损失函数可以公式化为：efi，yi（xi）=log我，我 +Sj=1，j=yiefi，j、（1）其中i是人脸图像的索引，yi表示图像i的标签ID，S表示训练数据中的总类别数设xi和Wj表示人脸图像Ii和第j个类中心的特征表示，logitfi，yi和fi，j可以由y来计算：f∈i，yi=s·[m1·cos（θi，yi+m2）−m3]，（2）fi，j=s·cos（θi，j），（3）其中s是重新缩放参数，θi，j是以L2方式归一化的xi和Wj之间的角度对于m1= 1和m3= 0的ArcFace，我们可以计算θi，yiby：WTxθi，yi =arccos（yii）.（四）||2 ||Xi||2||2如图所示，[13]。（1）在N>1的情况下容易出现错误损失，N >1表示当前标记为同一身份的图像中至少存在两个不同的身份在本文中，我们通过提出为每个类使用特定于类的子中心的想法来解决这个问题，这可以直接被任何损失函数采用，并将显着提高其鲁棒性。如图2所示，我们初始化第j类的M j个子中心，其中每个中心由可学习向量W j，m，m j[1，M j]支配。原类权值WjR1×D可由所有子中心Wj代替R1×Mj×D. 基于此，Eq。（1）可以改写为：潜在空间推拉忽略副中心W，生产合并下降+v：mala2255获取更多论文Σi∈几个样本生产不良紧性下降合并不同分中心不同分中心的样本不同身份的第6 B. Ma等人图三. 副中心产生、下降和合并示意图。黑色实例表示子中心。属于每个子中心的实例由相同的形状表示，不同的颜色表示不同的标识。L（xi）=−logefi，yi，m+j∈[1，C]，mj∈[1，Mj]（j，mj）n =（yi，m）efi，yi，m（1−1{ cos（θi，j，mj）>Dj，mj}）efi，j，mj、（五）其中，当cos（θi，j，mj）>Dj，m j时，指示函数1{cos（θi，j，mj）>Dj，m j }返回1，否则返回0。我们计算子中心Wj，mj和样本之间的余弦函数的平均值μj，mj和标准差σj到它。Dj，mj可以由y生成Dj，mj=μj，mj+λ1σj，mj（6）fi，yi，m和fi，j，mj由y计算f∈i，yi，m=s·[m1·cos（θi，yi，m+m2）-m3]，（7）fi，j，mj=s·cos（θi，j，mj），（8）其中θi，j，mj是第i幅人脸图像的特征表示xi与第j类中的第mj个子中心Wj，mj之间我们通过最近距离优先方式确定样本Ii的mm=argmaxcos（θi，yi，my）. myi [1，Myi]（9）我是我给定每个类的初始Mj，等式（5）能够捕捉到具有潜在标签噪声的整个训练数据它将属于同一身份的图像推近特定的子中心，并远离所有其他负子中心。同时，将与当前样本具有混淆相似性的子中心忽略，以处理标签冲突。为了使其在N、K和C的不受约束的变化中更加灵活，我们进一步+v：mala2255获取更多论文NT{−} T≥不重新思考细粒度噪声面孔下的鲁棒表示学习介绍如图3所示的产生、合并和丢弃操作。分中心生产。基于上述设计，当Mj> N > 1时，可以有效缓解标签噪声引起的冲突。然而，不受约束的N使得难以为每个类选择适当的Mj。为了提高算法的灵活性，我们引入了子中心生成操作，自动对齐子中心和每个类中的实际标识号。给定具有标签y的N个图像，并利用等式m分配给子中心m。9，新的子中心Wy，My+m可以由下式生成：Wy，My+m=1<$1{cos（θi，y，m）<µy，m-λ2σy，m }x i，如果T> 0，（10）Ti=1哪里为Ni=11cos（θi，y，m）<µy，mλ2σy，m. 如果=0，则不会形成新的副中心。在此之后，我们可以逐步产生新的子中心，以容纳Mj之外的其他身份。它有效地提高了类内的紧凑性，减少了由于N和K不受约束而引起的冲突。分中心下降。如[2，13]所示，许多现有技术的方法容易受到离群面的影响（属于同一个标识的图像数量小于2，N > K 1）。这些离群的图像很难被推送靠近任何相应的正次中心。在生成过程中，每个子中心的离群图像将生成一个新的子中心。丢弃操作应该从离群图像中移除子中心，但保留具有有效标识的子中心。考虑到标准差不能反映分布的密度，我们只是利用µi，mi作为度量。下落的条件可以表述为：J（W i，mi）= 1{μ i，mi ≤ λ3}.（十一）如果μi，mi小于λ3，我们将在训练过程中忽略这些图像，然后删除特定的子中心。分中心合并。对每个类使用子中心可以显着提高噪声下的鲁棒性。然而，不同次中心之间的共同身份所导致的阶级冲突必然会对阶级差异产生影响。SKH[13]为每个类设置相同的固定数量的子中心，这不能处理无约束C的复杂类间冲突。同时，子中心策略破坏了类内紧致性，因为干净类中的样本也收敛到不同的子中心。为了解决这一问题，我们采用子中心合并操作来聚合不同的W，W。合并的条件可以表述为：J（Wi，mi，Wj，mj）=1{Wi，miWj，mj≥max（μj，mj+λ4σj，mj，μi，mi+λ4σi，mi）}，（十二）其中Wi，mi和Wj，mj以L2方式归一化。根据等式在公式（12）中，我们将满足J（k，k）=1的多个子中心合并成一个组，并组合+v：mala2255获取更多论文| |XY←不不JX YXJ第8 B段。 Ma等人将它们合并为一个分中心，具体如下：新的，新的1=|G| （p，m<$p）∈GWp，mp、（十三）其中G和G表示合并组及其子中心编号。此外，属于G的图像将被分配给新的标签（我们直接选择G中的最小标签ID作为目标）。3.2渐进式培训框架在训练阶段，我们逐步执行子中心的产生、丢弃和合并操作，以有效地缓解由不受约束的N、K和C引起的标签冲突。培训框架概述见Alg。1.一、算法1：进化的子中心学习输入：训练数据集，标签集，总训练时期E，ESL的开始时期ε。初始化：标签编号C，每个类别的子中心编号M和W，e0;而e E做采样数据X，Y来自，;计算损失函数L（X，Y），公式如下：（5）更新模型，生成各子中心的μm和σm如果e > ε，则对于i=1到C，对于j=1到Mi，//通过Eq.（10）;如果 >0，则通过等式（1）计算Wi、Mi+j。（10）;//Dropping生成J（Wi，j）经由等式（11）;如果（Wi，j），则下降子中心Wi，j;生成Xi作为具有标签i的图像;对于i中的每个图像X，通过等式（1）计算m。（9）如果j = m，则丢弃图像X;//合并生成顶点集V，其中每个子中心W在Wi，Wj中;如果（W i，W j）= 1，则通过等式（1）生成具有（W i，W j）的边集E。（十二）;生成图G=（V，E）;对于G中的每个连通分量g，通过等式2生成新的子中心。（13）重新标记属于g中的子中心的图像;e←e+1;+v：mala2255获取更多论文重新思考细粒度噪声面孔下的鲁棒表示学习9通过这种方式，ESL能够捕获具有不受约束的标签噪声的整个训练数据的复杂分布。它倾向于自动调整子中心，以对齐给定数据集中N，K和C的分布。这使得它能够灵活地解决现实世界的噪声，同时防止网络破坏干净面孔上的类间差异。3.3细粒度噪声面的鲁棒性分析当应用于实际的N-恒等式时，|K C-集群面临的主要挑战是处理N、K和C的不同组合。在Tab。1.分析了N、K、C不同组合下的噪声类型。现在我们研究ESL对细粒度噪声人脸的鲁棒性。为了简化分析，我们首先只考虑C=0时的情况。(1)N=K=1，C=0。这种现象表明训练数据集是绝对干净的。以这种方式，大多数特征学习策略可以执行出色的准确性。然而，为每个类引入子中心会破坏类内紧性，降低性能。子中心合并允许ESL通过等式逐步聚合子中心。（12）保持类内的紧性。(2)N=K>1，C=0。这意味着在一个特定的类中存在多个身份N=K表示每个身份的图像足以在潜在空间中形成有效聚类，并且没有离群图像。在这种方式下，通过适当的超参数，最先进的方法Sub-center ArcFace[2]和SKH[13]可以有效地处理这种标签冲突。然而，无约束的N和K仍然使它们无效，即使有一些性能增益。在ESL中，通过Eq.（10）如果存在比类中的身份更少的子中心，则自适应地产生新的子中心以容纳超过初始化的子中心数目的外部身份。当子中心个数大于同一个数时，该合并策略将具有相同同一个数的簇合并，以保持类内紧致性。(3)N>K>1，C=0。在潜在空间中，除了冲突簇外，多个恒等式不能收敛到有效簇我们发现这是由每个身份中的少数拍摄样本引起的。它缺乏类内多样性，这阻碍了网络的有效优化，并导致特征维数的崩溃。为了处理这些不可消除的离群点，我们设计了子中心丢弃操作，以丢弃这些样本较少或松弛类内紧性的子中心。11在ESL这是基于我们的观察，即这些次中心不受任何一个身份的支配。多个离群值试图竞争优势，导致不良的紧凑性。（4）N>K=1，C=0。这表明该类中存在一个有效身份和多个离群图像。ESL将启用丢弃策略来去除噪声图像并保留有效的面部。(5)N>K=0，C=0。它表示类中的每个身份只拥有少量样本。我们提出的dropping操作将丢弃该类中的所有子中心对于C>0，存在具有相同标识但不同标签的多个聚类。这就引发了阶级冲突。最先进的方法+v：mala2255获取更多论文10 B. Ma等人表2. 在不同类型噪声下与其他噪声鲁棒学习策略的比较。+ 表明该方法可以解决特定设置下的噪声问题。+表明该方法可以解决噪声问题。-表示该方法不能解决问题方法CN=K= 1N=K > 1N > K >1 N >1 ≥KArcFace[4]C=0+++---C>0----新台币[10]C=0+++-++C>0----未报告[32]C=0+++-++C>0----副中心[2]C=0++++C>0----[第13话]C=0++++C>0++++ESLC=0++++++++++++C>0++++++++++++SKH[13]在无约束的C.对于这种潜在的冲突，Eq.ESL中的公式（12）也可以通过动态调整属于合并的子中心的图像的标签来准确地缓解这一点3.4与其他噪声鲁棒学习策略的比较所提出的ESL与其他方法[2，13，10，32，4]之间的主要区别在于ESL受来自真实世界噪声的无约束N，K和C的影响较小在保持算法简单性的同时，增加了三个子中心的运算，使得在不同类型噪声下的人脸识别更加灵活。为了更好地证明这一点，我们在细粒度噪声面下与其他方法进行了详细的比较，如Tab. 2. 该方法的优越性主要是由于灵活的子中心演化策略，可以同时处理不同的类内噪声和类间噪声4实验4.1实验设置数据集。 MS1MV0 [8]和MS1MV3 [5]是流行的学术人脸识别数据集。MS1MV0[8]是基于姓名列表从搜索引擎收集的原始数据，其中有大约50%的噪声。MS1MV3[5]是MS1MV0[8]通过半自动流水线清洗的版本。为了进一步探索我们提出的ESL的有效性，我们还精心构建了合成的噪声数据集。我们建立了类内冲突、类间冲突和混合冲突噪声数据集，这些数据集将在补充材料中详细介绍。至于性能评估，我们以一种+v：mala2255获取更多论文×细粒度噪声人脸下的鲁棒表示学习再思考11表3. 在MS1MV0和合成混合噪声数据集上进行不同设置的实验，并与最先进的方法进行比较。方法数据集1e−3IJB-B1e−41e−5 1e−3IJB-C1e−41e−5ArcFace[4]MS1MV093.27 87.87 74.74 94.59 90.27 81.11副中心ArcFace M=3[2]MS1MV094.88 91.70 85.62 95.98 93.72 90.59[27]第二十七话MS1MV094.99 91.80 85.57 95.95 93.82 90.71新台币[10]MS1MV094.79 91.57 85.56 95.86 93.65 90.48未报告[32]MS1MV094.77 91.58 85.53 95.88 93.60 90.41SKH + ArcFace M=3[3]MS1MV095.89 93.50 89.34 96.85 95.25 93.00ESL + ArcFaceMS1MV0九十六。6194.6091. 15九十七5896.2394. 24ArcFace[4]混合噪声93.17 87.54 74.02 94.99 90.03 82.40副中心ArcFace M=3[2]混合噪声92.83 86.80 73.11 94.20 89.32 81.43SKH + ArcFace M=4[3]混合噪声95.76 93.62 89.18 96.89 95.16 92.71ESL + ArcFace混合噪声九十六。4894.5190. 95九十七62 96. 2293.60具体的错误接受率（FAR）作为度量。我们主要考虑IJB-B[29]数据集和IJB-C[17]数据集上的此外，我们还报告了LFW [11]，CFP-FP [21]和CFDB-30 [18]的结果。实施细节。在ArcFace [4]之后，我们使用RetinaFace [3]生成对齐的面，并将图像大小调整为（112 112）。我们使用ResNet-50[9]作为骨干网络来提取512-D特征嵌入。对于本文中的实验，我们将学习率初始化为0。1，并在100K、160K和220K迭代时将其除以10总训练迭代次数设置为240K。我们采用SGD优化器，然后将动量设置为0。9，重量衰减为5e -4。该模型在8个NVIDIA A100 GPU上进行训练，总批次大小为512. 实验是用Pytorch[19]框架实现对于ESL的实验，我们将每个类的子中心的初始数量设置为3。 λ1、λ2、λ3和λ4分别设置为2、2、0。25和3。4.2与最新技术水平的我们进行了大量的实验来研究我们提出的进化子中心学习。在表中。3，我们将ESL与最先进的方法在真实的噪声数据集MS1MV0[8]和噪声数据集的合成混合物上进行比较。在没有特殊说明的情况下，噪声比为50%。在噪声数据上训练时，ArcFace的性能明显下降。结果表明，噪声样本会对优化过程造成极大的危害ESL可以很容易地以明显的优势超过当前的方法。具体来说，ESL可以超过Sub-center ArcFace [2]2。51%和SKH [13] 0。在IJB-C数据集上为98%。在合成的混合噪声数据集上，我们在Sub-center ArcFace [2]和SKH [13]中对子中心编号进行网格搜索。子中心ArcFace[2]在M=3时实现最佳性能，SKH[13]在M=4时实现最佳性能 ESL可以轻松地超过Sub-center ArcFace [2] 6。9%和SKH [13]的1。IJB-C数据集上的06%。我们提出的+v：mala2255获取更多论文12 B. Ma等人表4. 烧蚀实验来探索超参数。λ 1（等式（五）λ 2（等式（10））λ 3（等式（十一）λ 4（等式（12））Mj（等式（五）TAR@FAR=-4220.2533九十六。22120.253395.73320.253395.88210.253396.11230.253395.89220.23396.05220.33396.18220.251395.07220.252395.82220.253196.03220.253296.14220.253496.20220.253596.19表5.烧蚀实验，以验证所提出的操作的有效性。ArcFace 类别特异副中心合并生产下降数据集IJB-C1e−31e−4 1e−5✓✗✗✗✗混合噪声94.99 90.03 82.40✓✓✗✗✗混合噪声95.35 93.76✓✓✓✗✗混合噪声96.02 94.51 92.14✓✓✓✓✗混合噪声97.23 95.54 92.98✓✓✓✓✓混合噪声97.62 96.2293.60ESL可以处理细粒度的类内冲突和类间冲突，在不受约束的N，K和C，这带来了显着的性能改善。4.3消融研究超参数的探索我们提出的ESL中的超参数包含每个类的初始子中心数和每个建议操作中的λ。在Tab。4、我们研究了每个超参数的影响拟议业务的有效性为了证明我们提出的ESL的有效性，我们解耦每个操作，以在Tab中的混合噪声数据集上消除每个操作。五、我们轮流将每个组件添加到原始ArcFace[4]基线上.由于大量细粒度类内噪声和类间噪声的梯度冲突，ArcFace[4]只能实现有限的性能。子中心丢失为每个身份引入子中心来处理类内冲突。同时，忽略策略可以缓解类间噪声带来的部分冲突。副中心亏损带来3. 73%的性能提升。合并操作旨在合并共享相同身份但属于不同子中心的图像。合并操作将性能提升0。百分之七十五产生式操作可以自动对齐每个类中的子中心和实际身份数，有效地提高了类内紧致性。它进一步带来了1。03%的性能提升。下降操作趋于下降+v：mala2255获取更多论文细粒度噪声人脸下的鲁棒表示学习再思考13表6. 比较ESL与后部清洁方法的消融实验。GPU小时是在NVIDIA A100 GPU上测量的。M= n↓ 1表示Sub-center Arcface [2]中提出的后验数据清理策略。方法数据集后部清洁GPU小时数IJB-C1 e−3 1e−41e−5副中心ArcFace M=3 ↓1 SKH+ ArcFace M=3 ↓1ESL + ArcFaceMS1MV0MS1MV0✓✓✗1281288097.40 95.92 94.0396.55 96.26 94.18九十七58 96.23 94.24ArcFaceMS1MV3✗6497.64 96.44 94.66副中心ArcFace M=3 ↓1 SKH+ ArcFace M=4 ↓1ESL + ArcFace噪声的混合混合噪声✓✓✗1281288097.13 95.89 92.6797.46 92.87九十七62 96.2293. 60没有特定正子中心的离群面这些面很难优化，并且会损害优化过程。它可以获得一个显着的性能增益0。在细粒度噪声数据集下为68%。ESL的效率Deng等人[2]和Liu等人[13]采用后验数据清理策略，以离线方式过滤掉噪声样本。Deng等人。[2]搜索类内边缘以丢弃每个域中心的离群值样本。Liu等人[13]进一步引入类间间隔来合并属于不同中心的样本。对于每个边缘设置，他们应该训练20个epoch来验证其有效性，这非常耗时和计算资源消耗。在表中。6，我们比较ESL与这些后部清洁策略。ESL还可以在MS1MV0[8]和合成混合噪声数据集上实现更好的性能。与此同时，ESL和ArcFace[4]在清洁的MS1MV3上的训练之间只有轻微的差距。不同噪声比下的鲁棒性为了进一步研究我们提出的ESL的有效性，我们在各种噪声比下进行了充分的实验。如图4所示，我们可视化了噪声比和评估结果之间的关系。ESL在不同的噪声比下都能保持鲁棒性，并大大优于次中心ArcFace[2]和SKH[13]。见图4。不同噪声比下的ArcFace、次中心ArcFace、SKH和ESL实验。我们将IJB-C数据集上的TAR@FAR=-4作为评估指标。在表中。7，我们还比较了我们提出的ESL与其他方法的清洁MS1MV3数据集。干净类中的样本将收敛到不同的+v：mala2255获取更多论文14 B. Ma等人表7. 在清洁的MS1MV3数据集上进行实验。对于IJB-B和IJB-C数据集，我们采用TPR@FPR=−4作为评估指标。方法数据集IJB-B IJB-C LFW CFP-FPDB-30ArcFaceMS1MV3 95.04 96.44九十九8398.5798.12副中心ArcFace M=3MS1MV3 94.84 96.35 99.7598.5098.14副中心ArcFace M=3 ↓1SKH + ArcFace M=3MS1MV3MS1MV394.87 96.4395.2599.7899.7898.5298.5998.1998.23SKH + ArcFace M=3 ↓1ESL + ArcFaceMS1MV3MS1MV394.98 96.48九十五。12965099.7799.8098.70九十八。7298.25九十八。43表8. CosFace损失函数实验方法数据集IJB-B1e−31e−4 1e−5IJB-C1e−31e−4 1e−5CosFace混合噪声93.44 86.87 74.20 95.15 90.56 83.01副中心CosFace M=3混合噪声91.85 84.40 69.8894.25 89.19SKH + CosFace M=4混合噪声95.07 93.15 87.1396.28 94.46 91.87ESL + CosFace混合噪声九十六。52 94.6488. 93九十七50 96.1093。51子中心，因此子中心ArcFace[2]的性能略有下降。SKH[13]在直接对清理后的数据集进行训练时会导致显着的性能下降。SKH[13]的约束迫使每个超平面包含清理数据集中所有ID的子集，这对类间表示学习造成了很大的伤害与Sub-center ArcFace[2]和SKH[13]相比，我们提出的ESL可以进一步提高清洁数据集的性能，这进一步验证了ESL的泛化能力。其他损失函数的推广我们还在CosFace [26]上验证了所提出的ESL的泛化能力，这是深度人脸识别的另一种流行损失函数。在塔伯尔。8，我们可以观察到ESL可以大幅超越Sub-center [2]和SKH[13]。5结论在本文中，我们将每个类别中人脸的噪声类型重新表示为更细粒度的N-恒等式|KC-簇。真实世界噪声下鲁棒表示学习策略的关键是算法对N、K和C变化的灵活性。此外，我们引入了一个通用的灵活的方法，命名为进化子中心学习（ESL），以提高鲁棒性的特征表示噪声训练数据。所提出的ESL可以扩展到N、K和C的不同组合，这对无约束的真实世界噪声更鲁棒大量的实验证明了ESL的有效性，它提供了一个新的国家的最先进的噪声鲁棒性表示学习的大规模噪声人脸。鸣谢本研究得到国家重点研发项目2021ZD0201300的资助+v：mala2255获取更多论文重新思考细粒度噪声面孔下的鲁棒表示学习15引用1. 安，X.，Zhu，X.，高，Y.，肖，Y.，赵玉，冯，Z.，吴，L.，Qin，B.，张先生，M.，Zhang，D.，等：Partial fc：在一台机器上训练1000万个身份。IEEE/CVF计算机视觉国际会议论文集。pp. 14452. 邓，J.，郭杰，Liu，T.，龚，M.，Zafeiriou，S.：Sub-center arcface：通过大规模嘈杂的网络人脸来提升人脸识别。欧洲计算机视觉会议。pp. 741-757.施普林格（2020）3. 邓，J.，郭杰，Ververas，E.，科恰岛，Zafeiriou，S.：Retinaface：在野外进行单次拍摄多层次面部定位。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp.52034. 邓，J.，郭杰，Xue，N.，Zafeiriou，S.：Arcface：用于深度人脸识别的附加角度边缘损失。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 46905. 邓，J.，郭杰，Zhang，D.，邓，Y.，卢，X.，Shi，S.：轻量级面部识别挑战。在：IEEE/CVF计算机视觉研讨会国际会议论文集。pp. 06. 邓，J.，Zhou，Y.，（1996年），中国科学院，Zafeiriou，S.：深度人脸识别的边际损失。在：IEEE计算机视觉和模式识别工作室会议上的会议。pp. 607. 杜，H.，施，H.，Liu，Y.，王杰，Lei，Z.，Zeng，D.，Mei，T.：浅面学习的半连体训练欧洲计算机视觉会议pp. 36比53施普林格（2020）8. Guo，Y.，中国科学院，张，L.，Hu，Y.，他，X.，Gao，J.：Ms-celeb-1 m：大规模人脸识别的数据集和基准。在：欧洲计算机视觉会议。pp. 87-102. Springer（2016）9. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：IEEE计算机视觉和模式识别会议论文集。pp. 77010. 胡伟，黄，Y.，张福，Li，R.：人脸识别cnns训练的噪声容忍范例。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1188711. Huang，G.B.，Mattar，M.，Berg，T.，Learned-Miller，E.：Labeled Faces intheWild ： ADatabaseforStudyingFaceRecognitioninUnconstrainedEnvironments.在：在“现实生活”图像中的面孔12. 黄，Y.，王玉，Tai，Y.，刘，X.，Shen，P.，Li，S.，李杰，Huang，F.：Curriculum- face：深度人脸识别的自适应课程学习损失IEEE/CVF计算机视觉与模式识别会议论文集pp. 590113. 刘，B.，宋，G.，张，M.，你H Liu，Y.：用于噪声鲁棒表示学习的可切换k类超平面。在：IEEE/CVF国际计算机视觉会议pp. 301914. 刘伟，Wen，Y.，Yu，Z.，Li，M.，Raj，B.，Song，L.：Sphereface：用于人脸识别的深度超球面嵌入。在：IEEE计算机视觉和模式识别会议论文集。pp. 21215. Liu，Y.，宋，G.，Shao，J.，Jin，X.， Wang，X.：用于半监督大规模识别的Transductive质心投影。在：欧洲计算机视觉会议（ECCV）的会议记录。pp. 70+v：mala2255获取更多论文16 B. Ma等人16. Liu，Y.，等：面向触发器约束的人脸识别。在：IEEE/CVF计算机视觉研讨会国际会议论文集。pp. 0-0（2019）17. Maze，B.，Adams，J.，邓肯，J.A.，Kalka，N.，Miller，T.，奥托角，Jain，A.K.， Niggel，W. T.，Anderson，J.，C

下载后可阅读完整内容，剩余1页未读，立即下载