没有合适的资源?快使用搜索试试~ 我知道了~
407212在深度人脸识别中跨各种数据偏见学习张柳1,2*翔宇2蔡义轩2马苏德·法拉基2拉明·莫斯莱米2Manmohan Chandraker2,3YunFu11东北大学2NEC Labs America3加州大学圣地亚哥{liu.chang6,yunfu}@ ece.neu.edu,{xiangyu,ytsai,mfaraki,rmoslemi,manu}@ nec-labs.com摘要卷积神经网络在人脸识别中取得了显著的成功,部分原因是数据的丰富可用性。然而,用于训练CNN的数据通常是不平衡的。先前的工作主要集中在每个身份的数据量中的人脸数据集的长尾性质,或者集中在单一偏差变化上。在本文中,我们展示了许多偏差变化,如种族,头部姿势,遮挡和模糊,可以共同影响准确性显着。我们提出了一个样本级加权方法称为多变异余弦余量(MvCoM),同时考虑多个变异因素,正交增强人脸识别损失,纳入训练样本的重要性此外,我们利用学习学习的方法,指导下举行了Meta学习集,并使用添加剂建模来预测MvCoM。在具有挑战性的人脸识别基准上进行的大量实验证明了我们的方法在联合处理由于多个变化引起的不平衡方面的优势1. 介绍深度人脸识别已经取得了显著的进展[4,6,27,39,42,50,56],在公共基准上取得了很好的成绩[19,57]。然而,现实世界的数据分布通常是长尾的,因此在不平衡的训练数据上使用均匀采样训练的方法会导致准确性下降。由于收集充分涵盖各种不平衡因素的数据是不切实际的,因此迫切需要开发能够沿着多个变异因素对数据集偏差进行调整的训练方法在目前的文献中,长尾或不平衡的数据分布通常根据每类数据量或单一偏倚因素(如种族[10,11,44,52]或头部姿势[29,35,60,64])进行分析以前的方法区分长尾类(样本中的少数)和头类*这项工作是在NEC Labs America进行的暑期实习的一部分头部类 尾类长尾ID 1每类数据量头部姿势ID 3ID 2CAAA EA族裔图1.虽然传统方法仅考虑每个类别的数据量或长尾效应的单个偏倚因素,但多个偏倚因素(如头部姿势和种族)在MS-Celeb-1 M中共同表现为长尾效应[14]。此外,来自同一身份的样本可以显示不同的变化-例如,来自ID 1的图像显示了正面和侧面的姿势-表明说明身份或类别水平的变化是不够的。因此,我们的MvCoM的目的是明确建模的样本级的多个长尾变化联合人脸识别。(样本中的大多数)以减轻偏倚。然而,我们观察到,通常存在一个以上的偏差变化因素。如图1所示,几个偏倚因素共同影响总体数据分布。我们假设,处理这样的多个因素的不平衡的结果在一个特征空间,允许更好的测试时间的泛化。此外,最近的方法集中在类水平的不平衡,其中同一类内的样本具有相同的重要性[2,21,37]。这在实践中是有限的,因为来自同一个人的不同图像可能在其重要性上不同(例如,正面和侧面视图)。其他一些方法[20,54]用样品硬度补偿损失,这是通用的因此,我们假设考虑样本水平的变化,而不是类水平,并明确建模到损失设计的每个变化因素为了处理数据不平衡,经典方法[2,16,41]通过分配更高的4073损失长尾类的权重,降低头类的权重Cao等人[2]提到,“标签分布感知”重新加权方法在计算效率方面具有优势。然而,分配的权重通常是基于先前的统计数据固定的,或者通过复杂的设计选择获得[5]。我们寻求一种更具自适应性的重新加权方法,该方法可以计算关于多个变异因子的每个样本元学习[9]是一种自适应微分机制,用于迭代学习样本级别的重要性,并进一步有助于识别模型更新。它允许一个插件机制,许多识别损失,如余弦损失[50]。具体来说,我们提出的框架将头部姿势、种族、模糊和遮挡作为导致数据不平衡的多个变化因素,以及每类数据量。首先,我们证明了在重新加权方法中常用的加权识别损失[21,37],相当于内置于余弦损失中的可学习余量(第二节)。第3.1节)。因此,我们通过相应的可学习余量来表示每个不平衡因素。其次,我们提出了一个附加的框架,以表明一个样本3.2)。通过精心设计的样本级裕度,我们正交地为其配备余弦损失或其变体,称为多变差余弦裕度(MvCoM)。在训练期间,所提出的MvCoM通过考虑所有不平衡因素来分配其专用裕度来控制损失函数中每个实例的贡献。为了实现用于MvCoM更新的元学习通过在保留的元学习集上进行硬样本挖掘(与训练集没有身份重叠,并且其身份数据不用于更新识别模型)以选择与当前训练批次差异最大的样本,我们元学习MvCoM并反馈到识别损失更新(第二节)。3.2.2)。图2总结了我们的方法。在实验中,我们的方法在五个具有挑战性的数据集上取得了明显更好的性能,突出了所有的长尾变化,如遮挡,头部姿势,模糊和种族。此外,我们发现所提 出 的 MvCoM 可 以 配 备 许 多 骨 干 , 如 CosFace 和URFace(见表3),这表明了对人脸识别平台的广泛适用性。我们还将学习到的采样重要性与图中的所有长尾变化一起3并验证我们的Mv-CoM确实为那些导致整体损失较小的长尾因素分配了显著权重我们的技术贡献总结如下:• 据我们所知,我们是在加法公式中对多个长尾变异因素(如种族、姿势和遮挡)进行解释性在一个单一的框架内进行人脸识别。• 我们超越类级的不平衡,提出了一种新的样本级多变差余弦余量(MvCoM),更好地补偿来自多个因素的分布不平衡• 我们提出了一种基于元学习的可微机制来自适应地学习所提出的MvCoM,从而实现端到端的统一识别训练方案。• 在受控和具有挑战性的基准测试上进行的大量实验表明,我们的方法可以更好地缓解分布不平衡,从而优于先前的方法。2. 相关工作虽然其他人脸识别工作也是相关的,但我们只关注那些应用CNN的工作,因为它们最近取得了令人印象深刻的进展。像DeepFace、DeepID [45,47]这样的种子作品是第一批超过人类水平准确性的作品。最近的一系列工作[6,8,27,42,49,50,56,65,66,68]设计了更有效的学习损失,以进一步推进最先进的技术。具体来说,他们专注于设计相对于角度或余弦空间或两者组合的为了更完整的比较,我们建议读者参考一项调查[51]。我们注意到,这些方法要么假设训练数据集具有平衡分布,要么简单地从训练集中删除尾类。为了更好地利用长尾数据,我们提出了一个全面的多变异余弦余量(MvCoM),以解决数据不平衡,考虑多个致病因素,如种族,姿势,遮挡和模糊。不平衡数据分类虽然不平衡数据分类是一个广泛的方向,但我们专注于人脸识别的特定方法。早期的方法直接改变采样频率[16,41]。然而,重新平衡主要应用基于先验统计的经验规则为了自适应地学习采样,最近的方法利用硬否定挖掘[7,24],度量学习[18,26,34,35,59,61,62]和Meta学习[15,21,37,55]。Liu等人。[28]使用具有关联记忆的动态元嵌入来增强表示。AdaptiveFace [25]分析了富人和穷人之间的差异,提出了一个自适应的边缘。尽管在解决长尾问题方面取得了上述进展,但这些方法仅将每类数据量视为不平衡的原因最近的工作曹等人。[1]探讨了包括种族在内的其他长尾因素。但他们只考虑与身份相关的因素,排除了其他重要因素,如姿势,遮挡或模糊。相比之下,我们提出了一个统一的框架来处理一组通用的多个因素,这些因素可以与身份相关或不相关。虽然Wu等人。[58]分享了对训练进行采样的高级想法,但他们考虑了度量空间采样,并对4074培训批次(B)身份主管培训批次(B)身份Mt尾元骨干Ωt主链Ωt+1样本挖掘(ID不相交)Ωt+1m ←Ωt-ηL不MvCoM不(m)Ωt+1mt+1<$Ωt-ηLMvCoM(mt+1)Meta批次(V)种族姿势模糊闭塞头Mt+1m m- τLt+1 t变量(Ωt+1m)的方式不尾Meta-BackboneΩt+1(m)不--LLyJJyk=/y图2.所提出的方法是一个流程图。节中3.1,我们首先证明了传统的重新加权方法等价于边际调制余弦损失。为了共同解决导致长尾分布的多个变化,我们提出了多变化余弦裕度(MvCoM)(Sec. 3.2)。然后,通过学习到学习方案学习MvCoM,该方案被指定为三个步骤(第3.2.2):(1)识别模型伪更新。(2)使用伪识别模型进行MvCoM元更新。(3)识别模型实际更新与更新的MvCoM。我们的方法对训练数据分布没有任何先验假设。相反,我们利用元学习来自适应地生成平衡的训练数据分布。Meta Learning元学习的目的是训练一个在一组学习任务上优化的元学习者。每个任务通常与一个数据集相关联。一般来说,这些方法分为三类。(1)基于模型的方法使用存储器来记录中间学习的模型,并将最近的模型更新与认知模型训练(Sec. 3.2.2)。3.1. 将边际解释为抽样重要性传统方法[21,37]试图通过引入采样重要性权重σyi来加权每个样本损失项以补偿每个样本的不平衡水平来解决N#21435;,以防止被遗忘[31,32,38]。(二)min1ΣσL(f(x; Ω),y), (1)基于度量的方法学习输入数据的嵌入向量显式地使用它们来设计适当的核函数,预测通常是所有核函数的加权和[43,46,48]。(3)基于优化的方法旨在调整优化算法,以便模型可以在有限的条件下学习,例如很少的训练样本,有偏差的数据或看不见的域数据[9,13,33,36,63]。我们的方法属于第三类。我们设置了多个任务,对应于导致长尾不平衡的变化。假设训练数据中存在偏差,我们寻求一种优化方法来更新边缘,使得我们的人脸识别训练的主要任务是更少的偏差。请注意,我们的重点是处理数据偏差,而[13]强调模型泛化到未知领域。3. 我们的方法图2展示了我们的总体框架。我们从前-ΩNyjjjj=1其中N是类别的数量,是一般损失函数,(xj ,yj )N表示以xj为样本、yj为类别标签的训练集。f(x;Ω)是通常用于深度人脸识别的卷积神经网络(CNN)主干生成的特征,其中Ω代表网络参数。类水平权重σyj被设计为补偿类不平衡。如果一个类只有很少的样本,这是长尾的,权重应该很大,使得它对总体目标的贡献可以适当地惩罚模型以考虑这种长尾条件。在不失去一般性的情况下,我们认为余弦损失[50]是方程中的。1,最近在人脸识别方面取得了重大成功:es·cosθyj−m解释传统的重新加权方法,并显示其等价于优化基于保证金的识别损失(第二节)。第3.1节)。由于导致长尾分布的因素有Lcos=−loges·cosθy−m<$+ΔCes·cosθy.(二)通常是多样的,我们提出了一个样本级的多变量余弦余量(MvCoM)作为加性建模组合在等式中 2,cosθyj 是特征向量f(xj;Ω)和第j类模板wyj之间的内积,即,所有的长尾变异因子,以提高一个典型的cosθyj =wTf(xj;Ω)。marr ginmè设置为一个识别目标,即, 余弦损失[50](第二节) 3.2)。此外,我们引入了一个三阶段的元学习方法来动态更新MvCoM,并使用MvCoM进行识别。常数,以挤压内积cosθyj,使得分离的超平面被推得更远,并且s是便于训练收敛的比例因子。结合Meta更新伪更新真实更新JK40752米| |yJNyj=1e+(根据经验,我们将所有λk设为1)。总体目标是:JJJJJJJLyjj·等式2、Eqn。1,我们得到:Nes·cosθy−m<$σyjΩ其中,Vol。eth、pose、blur和occ。 代表每类数据量、种族、头部姿势、模糊水平和遮挡变化。注意,其他变化可以类似地被考虑-1min−logJ−mCσyj(三)如果有必要的话λk是每个变量的加权因子当接近收敛时,方程中的分母。3接近es·cosθyj−myj,j当θ y <$0,θ y <$π时,[es−m<$+C−1]σyj为常数。然后,KLMvCoM=−loges·cosθyj −myj,j+Ces·cosθyk决定性成分通常是分子,yk=/yj(六)进一步重新安排如下:es·cosθy−m该方法的有效性在很大程度上取决于Mv-CoM估计。理想情况下,动态更新在训练期间,突出显示具有变化的样本,=es'·cosθyj−myj(4)将公式中的损失分子3、Eqn。4,可以证明Eqn. 3相当于修改后的余弦损失其中s′=σyjs和myj=σyjm分别定义为新标量和新余量。相比之下在《易经》中,有“损”的意思。2.在新公式中,尺度和边际都与类水平抽样权σyj成正比。重要性抽样在训练分布中较少出现剩余部分是估计MvCoM的每个分量:类-量余量mcls和变化感知余量残差rk。3.2.1估计类量差额在[2]之后,我们使用类统计量作为类体积边际的先验:mcls=α问题可以解释为学习每类的边际yj1/4(七)MYJ,并且s′可以被导出为s′=myjs。纽约时报3.2. 多变量余弦裕度损失余弦损失假设一个恒定的余量,对所有数据赋予同等的重要性,这不可避免地促使模型更多地关注头类,并导致有偏估计。同时,类的重要性不能解释类内的变化。先前的工作考虑子从识别损失中得到的单个权重,重要性[20]。 然而,这样的重量并不其中j是样本索引,α是超参数(0. 45在实验中使用),并且nyj是yj类电压。3.2.2元学习变分感知边际残差为了估计等式11中的MvCoM的残差项 5,我们通过考虑每个样本在训练批次{(xj,yj,μk)}内的长尾因子变化来杠杆化学习到学习的框架[9,21] |B|,其中yj是类标签,μk是将偏差与其他因素(如标签噪声或离群值)区分开来。相比之下,我们搜索与分布偏差的一些已知和重要原因相对应的明确锚点,即类体积,种族,头部姿势,模糊和遮挡。因此,我们为每个变量训练一个分类器,以量化与之对应的偏差。因 此 , 我 们 提 出 了 样 本 级 多 变 化 余 弦 裕 度(MvCoM)来灵活地捕获样本级变化。首先,我们通过将类-卷余量mcls和一组表示重要性的保证金残差项rk变量k 实现这一点通过引入变异分类器来预测每个样本的长尾因子。此外,我们引入了一个元学习人脸数据集,这是一个典型的利用从该元学习集合中在线挖掘的与当前训练批次呈现最大变化差异的样本,我们元更新所提出的MvCoM,并进一步利用它来更新人脸识别模型。为了定量地指示训练样本如何与每个各变化JK. 附加假设源于对于预先定义的变异,我们引入变异分类器来预测变异水平。鉴于我们的选择每一个变化都同等地和独立地贡献于样品的重要性。通过实验验证,我们发现类体积因子可以用统计先验稳定估计[2]。因此,从先验开始,我们累积其他因素在上述四种变化中,我们设置了四个独立的分类器g(;v k),如图2所示,其中v k表示分类器参数。例如,我们将种族我们的训练集MS-Celeb-1 M的信息分为非洲裔美国人,高加索人,东亚人和南亚人类别my,j=mcls+nλkrk(五)进行四向分类1. 其他变体jj jjKyJyk=/yjes·cosθyk4076k∈ {vol.,eth.,姿势,模糊,occ。}1我们忽略了其他过于有限的数据量种族,如拉丁美洲人,训练集,以保证分类器4077KvarJJLyJǁ −ǁΣ·更新Ω←Ω−ηL(m)ΩMvCoM···L···← −LΣ←varJKJceJKJ补偿前一步数据偏差,以实现较低的变化分类误差。还承认,L(f(x;Ωt),y;mJKCLSJ设置mt←∂ΣKK← −L在SEC中解释。4交叉熵损失用于更新变异分类器:L(x,Ω,v,μ)=<$L(g(f(x;Ω);v),μ)(8)J将元学习批次与伪更新的Ωt+1一起发送到变化分类器,以减少分类器预测误差,从而元学习裕度mj,t+1。这个mj,t+1其中Lk是变异任务k的交叉熵损失,是mj,t的函数,我们将mj,t+1元更新为:μ k是样本j的变异标记。 变奏类-在与人脸识别相同的训练数据上训练飞行员不同的是我们重新平衡了原始的不平衡数据克瓦尔(xj,Ω<$ t+1(mj,t),vk,μk)根据变量标签,即,通过增加出现次数,的长尾数据,在算法1中表示为Tk。这mj,t+1:mj,tτk,j∈VJ.J.T(十一)数据再平衡不能直接应用于人脸识别训练,因为联合多个变量的再平衡是不真实的。请注意,重新平衡的Tk是基于每个单变量k通过这种方式,我们最大限度地保证了变异分类器的训练是平衡的。因此,我们要确保在后期的元学习阶段,不平衡是来自训练批次,而不是来自变异分类器。在线元学习批量构造我们假设共享相似长尾变化的样本会导致相似的分类器logitsg(f(xj; Ω))。为了重塑训练集分布以使其更加平衡,我们搜索与当前训练分布互补的分布这是通过选择样本从由于类级余量先验mcls从mj,t到mj,t+1不变,通过等式11,有效地将martgin残差从rj,t元更新到rj,t+1。 五、因此,更新后的margin mj,t+1应该比之前的更新mj,t更好,因为它通过平衡多个变化因素的长尾训练分布,在元学习集上产生更小的变化级分类错误。3)真实识别模型更新。我们应用获得的新重要性裕度mj,t+1来进行实际识别模型的更新:与当前训练批次具有最大logit距离的元学习集合V。因此,搜索此类样本的目的比较logit距离:xm:argmaxg(f(xm; Ω);vk)g(f(xj;Ω);vk)2(9)xm∈VΩt+1:Ωt−η∂k,j∈TLMvCoM(f(xj;Ωt),yj;mj,t+1))∂Ω(十二)其中xj来自训练批次B,并且xm来自Meta学习批次V。g(;vk)是变量k的通过挖掘元学习批次,将原始训练批次MvCoM的元学习优化1) 伪识别模型更新。 在每次迭代t时,我们从训练数据中均匀地采样一批B,并将其馈送到更新识别模型参数Ω,其中裕度为mj,t:ΣMvCoMJJj,t算法1多变量余弦裕度元学习要求:训练集T,元学习集V要求:学习率η和τ,迭代步骤t1和t2对于t= 1,2,t1,从训练集T中采样一个小批量B计算损失MvCoM与Eqn 6CLSY端对于t=t1+ 1,,t1+t2,do从训练集T中采样一个小批量B设rk<$0<$,<$j∈B,记rk:={rk, j∈B}Ω t+1(mj,t ):Ωtηk,j∈T∂Ω(十)更新Ωω(mt)ΩηΩMvCoM(mt),10对于k =1:4,用等式10从V得到d 4个变化因子样本Bv。9.第九条。其中样本Xj来自训练集T。从这个过程中,我们看到,通过调整边际m,j,t,我们调整了整体端损耗LMvCoM 它会反向传播来更新模型设置mt+1更新rk+mclsK与Eqn。 12参数Ωt+1。因此,Ω t+1是mj,t的函数,而Ωt和m,j,t是独立的。端MvCoM(mt+1)ˆ2) 保证金残差元更新。 我们利用Eqn描述的在线样本挖掘。9准备来自V的Meta学习批。鉴于当前的mj,t由于原始的有偏训练数据而是次优的,我们寻求−−y∂)KR+my4078更新g(f(. );vk)(Eqn. 8)具有变化重新平衡T k整个过程总结在算法1中。尽管我们的元学习共享了4079J−∗∗如[21]所述,我们考虑r k的多个分支来估计残差,而不是单个权重。此外,[1,21]仅考虑类级别的重要性权重,而我们的方法考虑更精细的样本级别的重要性。与[ 21 ]的另一个区别是,我们利用了一个独立的元学习集,它与训练集没有先验分布相关性,而他们使用的是一个与训练集共享相同分布的保留集。4. 实现细节我们使用MS-Celeb-1 M [14]和来自Ar- cFace [6]的干净 列 表 来 训 练 数 据 。 对 于 元 训 练 集 , 我 们 采 用VGGFace2 [3]并排除重复的身份,以防止训练的额外好处。基线模型使用CosFace损失[50]训练30个时期,经验固定的边际m=0。三十五在预训练之后,我们丢弃了分类器,并使用所提出的框架对模型进行了18个时期的微调,以确保收敛。我们使用机械土耳其语来标记训练集中的种族,包括非洲裔美国人,高加索人,东亚人和南亚人。对于头部姿势,根据MultiPIE [ 12 ]中的姿态角设置,我们将每30度分组为一个类,从而获得从90度到90度的7个类。对于模糊,我们应用具有四种不同核大小(3,7,11,15)的高斯核来增强训练图像。 对于遮挡,我们采用五种不同的块大小(5,11,17,23,29),以随机黑掉具有特定大小的训练复杂性我们使用修改后的100层ResNet [17]作为主干。所有变分分类器都是线性分类器。与CosFace基线相比,我们的框架新引入了四个变化分类器。但它几乎不会增加网络的复杂性,因为每个变量分类器都小于10路。由于一个额外的前馈和一个元学习步骤,我们训练的时间复杂度几乎是基线训练的两倍由于测试仅使用识别模型,因此推理的运行时与CosFace相同。5. 实验在本节中,我们将实验组织为:(1)对五个变异因素进行广泛的消融研究,并与基线CosFace进行比较[50]。(2)对具有挑战性的基准进行评估,这些基准是变化的原型,即,RFW [53]用于种族,CFP [40]和CP-LFW [67]用于头部姿势,IJB-A [23]用于视频模糊,OC-LFW用于遮挡。(3)对一般人脸识别基准LFW [19]和MegaFace [22]的评估(4)样本图像的可视化,其中预测的边缘残差以及所有变化因子。(5)关于边际加权验证损失、嵌入分布和边际残差的大小的进一步见解。方法OC-LFW CFP-FPRFWCAAFEA在平均↑偏差↓CosFace94.4198.16 99.01 97.62 97.20 97.96 97.94 0.67我们的(单人)94.5298.35 99.06 97.90 97.83 98.23 98.25 0.49我们的(所有)94.8398.41 99.16 98.06 97.78 98.28 98.32 0.51表1.变异特异性基准的消融研究,OC-LFW用于闭塞,CFP-FP用于头部姿势,RFW用于种族,其中CA、AA、EA和IN分别缩写为高加索人、非洲裔美国人、东亚人和印度人。:自我实现的CosFace作为基线。“Ours(single)”意味着“Ours(occlusion)"、“Ours(pose)"、“Ours(ethnicity)”对每个变异特定数据集重新排序。“Ours (all)”:adding all the proposed variations for方法IJB-A(Vrf)FAR@0。01%FAR@0。001%CosFace97.1393.22Ours(种族)97.2494.91Ours(pose)97.2795.12我们的(模糊)97.4295.58我们的(闭塞)97.2595.21我们的(种族+姿势)97.2095.12我们的(种族+姿势+模糊)97.4595.65我们的(所有)97.4695.69表2.对具有多种变异的野生IJB-A数据集的消融研究:自我实现的CosFace作为我们所有消融方法的基线,以进行公平比较。5.1. 变异特异性基准研究虽然提出的MvCoM补充了各种识别损失,但在此评估中,我们使用CosFace作为基线。所有消融均建立在该基线之上,以便进行公平比较。为了突出每个组件的功能,我们对具有挑战性的数据集进行评估,这些数据集是特定变化的原型。我们使用RFW [53]用于种族,CFP-FP [40]用于头部姿势,OC-LFW用于遮挡变化。我们还将IJB-A作为一个野外数据集进行评估,该数据集包含我们所有消融方法的多种变化。基准协议。LFW验证方案用于RFW、CFP-FP、IJB-A和OC-LFW。对于CFP,我们专注于额叶轮廓(FP)协议。MvCoM对闭塞具有鲁棒性。在表1中,OC-LFW是LFW [19]的闭塞评价方案,包含来自5749个身份的13,000多个图像。对于每个验证对,我们在其中一个图像上随机设置遮挡掩模,并执行与LFW相同的验证协议虽然LFW的性能是饱和的,所有的方法都只能达到95%以下的准确率OC-LFW。我们观察到,我们的方法与单一的变化已经超过基线。通过添加所有变化,准确性进一步提高,因为更多的变化因子为表示学习提供了更完整的正则化。MvCoM处理大型姿势。CFP-FP [40]由具有大姿态变化的一个图像的面部图像对组成,并且大多数图像对具有高分辨率。在表1中,单边缘消融明显优于基线。而“我们的(所有)”通常比“我们的(单一)”更好。我们观察到与OC-LFW相同的趋势,即-4080†方法OC-LFWCP-LFWCFP-FPIJB-a (Vrf)RFWFAR=0.001%FAR=0.01%CAAAEA在平均↑偏差↓ArcFace [6]†(CVPR'19)94.5692.0898.3793.794.298.8097.4896.8097.3897.610.84[42]第42话94.6092.3198.3095.096.398.3596.7696.1096.6396.960.96[20]第二十话-93.1398.37--------[30]第三十话-92.8798.46--------[10]第十届中国国际汽车工业展览会-----95.9593.6794.3394.7894.680.83RL-RBN [52](CVPR-----97.0894.8795.5795.6395.790.93CIFP [59](CVPR-----97.0894.8795.5795.6395.790.93GAC [11](CVPR-----97.6097.0395.6596.8296.780.82DAM [26](ICCV-----96.3094.5194.3195.2095.080.78[50]第50话:我的世界94.4192.0698.1693.297.199.0197.6297.2097.9697.940.67CB-CosFace [37]第18届ICML大会94.4492.0498.2494.697.299.0398.2397.3697.8398.100.61LDAM-CosFace [2](NeuIPS94.5492.0598.3194.597.298.9397.8097.2397.5097.860.65[21]第21届中国国际汽车工业展览会94.4892.0698.2894.197.299.1397.8697.7398.1198.200.55MvCoM-URFace(我们的)94.9292.8698.4796.097.698.8597.1897.1596.9897.540.76MvCoM-CosFace(我们的)94.8392.7598.3795.797.599.1698.0697.7898.2898.320.51表3.变异特异性人脸识别基准比较。“-":作者未报告相应方案的性能。“*":自我实现的方法。““表示使用相应作者发布的模型的测试性能。在RFW(BUPT-BalancedFace)中,CA,AA,EA和IN分别是高加索人,非洲裔美国人,东亚人和印度人的缩写包含这样的长尾变化,我们的方法确实解决了这个问题。此外,我们注意到“Ours(模糊)”比其他单变量消融好0。2%,而“Ours(ethnicity+pose+blur)”比“Ours(ethnicity+pose)”好0. 2%,这与IJB-A是具有大模糊退化的低质量监控视频设置的观察结果一致。5.2. 评估基准MvCoM很好地捕捉了长尾变化 我们在具有挑战性的变分特异性数据集上与一般最先进的方法和长尾重加权特异性方法进行了比较,表4.一般人脸识别基准比较。MegaFace验证率在FAR= 0时计算。0001%“*":自我实现的方法。 请注意,MegaFace1基于未清理的协议,其数量低于清理的协议。明显表明,通过添加所提出的MvCoM,准确性得到了显着提高。MvCoM在种族 方面的偏见 较少。RFW 由来自MS-Celeb-1 M的四个种族(高加索人、东亚人、非洲裔美国人、印度人)数据组成,以研究面部识别中的种族我们已经从RFW中排除了在MS-Celeb-1 M中重复在表1RFW列中,我们发现虽然CosFace基线和我们的方法都达到了很高的准确性,但我们的略高。更重要的是,在[11]之后,我们强调了偏倚,其定义为四个种族子集准确性的标准差。对于我们的方法来说,CA,AA,EA和IN之间的偏差要小得多,这表明我们学习的边缘的有效性,这导致了不同种族之间更平衡的MvCoM在各种变化中都是准确的 IJB-A(Vrf)是一个具有多个长尾变异的野外数据集。在表2中,我们观察到所有单因素消融均优于CosFace基线,表明IJB-A在表3中的前三组行中。一般来说,我们的方法表现出比其他方法更好的性能,例如,0的情况。比第二好的OC-LFW高3%1 .一、比第二好的IJB-A FAR = 0高0%。001%。虽然第三组中的基于重新加权的方法示出了特别是在RFW上,我们的方法实现了明显更低的偏差0。51,定义为四个种族子集报告的准确度标准差[11]。除了与重新加权方法相比的性能优势之外,我们对多个变差因子的联合考虑更好地代表了长尾分布。MvCoM是人脸识别主干的补充有趣的是,我们观察到MvCoM可以与不同的识别架构组合,例如表3中的CosFace和UR-Face。当将MvCoM-CosFace和MvCoM-URFace与其基线进行比较时,我们看到了明显的改进,这表明我们的MvCoM可以补充各种识别框架。5.3. 通用基准MvCoM在更平衡的测试数据上保持准确性我们比较了一般人脸识别基准的最新技术,变化有限,即LFW[19]和MegaFace [22]。我们自我实现CosFace并将其用作方法LFWMF1Rank1真的[56]第五十六话99.2865.2376.52[27]第二十七话99.4275.7789.14ArcFace [6]99.8381.0396.98URFace [42]99.7579.1094.92[20]第二十话99.8081.2697.26DomainBlancing [1]99.78--MagFace [30]99.83--美国[50]99.7380.0395.54美国[37]99.8180.1895.75LDAM-CosFace [2]99.7580.7396.78美国[21]99.7880.3296.22MvCoM-URFace(我们的)99.7880.6396.28MvCoM-CosFace(我们的)99.8081.3097.224081CosFaceLDAM-CosFaceMvCoM埃本构成模糊 发生 率埃本构成模糊发生 率埃本构成模糊 发生率埃本构成模糊 发生率r = 7.09e-5r = 0.028r = 0.038r = 0.034r = 1.59e-4r = 0.024r = 0.057r = 0.036r = 1.69e-4r = 0.033r = 0.082r = 0.028r = 1.35e-4r = 0.025r = 0.047r = 0.034CAU= 0.15= 0.16= 0.17= 0.17r = 0.001r = 0.036r = 0.058r = 0.042r = 0.007r = 0.034r = 0.058r = 0.058r = 2.39e-3r = 0.049r = 0.074r = 0.058r = 7.42e-3r = 0.034r = 0.058r = 0.078AA= 0.18= 0.15= 0.23= 0.16r = 0.002r = 0.048r = 0.064r = 0.0556r = 1.19e-3r = 0.006r = 0.038r= 0.034r = 5.63e-3r = 0.057r = 0.043r = 0.086r = 7.86e-3r = 0.016r = 0.056r = 0.025EA= 0.24图3.所有因素的样本水平边际可视化较大的边缘对应于更多的尾类。尾类标识头Eth。模糊发生率构成图4.左:验证损失幅度与尾部到头部类的曲线。我们的MvCoM(绿色)显示损失显著降低。右:长尾变化上学习的残差幅度的直方图。尾类骨干进一步实现类平衡Cos- Face(CB-CosFace)[37],标签分布感知边际损失(LDAM-CosFace)[2]和Meta条件权重(MetaCW)[21]。该评估的主要目的是表明,我们的方法始终是名列前茅,而较少的不平衡测试数据不会降低我们的性能。在表4中,请注意,虽然我们的方法使用了一个额外的元学习集进行训练,但它仅用于反馈重要性权重,并且没有来自该辅助集的身份信息用于训练识别模型。5.4. 进一步的见解MvCoM学习有意义的每个样本的利润。 我们在图3中随机显示了来自MS-Celeb-1 M的身份(更多信息见补充)。提供了同一标识(每行)内不同变异(每列)的图像。我们始终观察到,头部类的边际残差较小,而尾部类的边际残差相对较大,这表明学习的MvCoM如预期的那样强调尾部类样本。裕度调制的可视化 我们验证了学习的MvCoM是否可以补偿分布不平衡,以及学习的保证金的损失是否下降得更明显。在MS-Celeb-1 M上,我们计算类体积以将恒等式分组并形成图4“左”的xy轴是等式(1)中的MvCoM 损 失 。 六 、 正 如 预 期 的 那 样 , 与 LDAM-CosFace [2]相比,我们的方法实现了显著更低的损失图4个图5.左:原始的头部和尾部嵌入分布。右:MvCoM调制的头部和尾部嵌入分布。我们比较了所有变量中头类和尾类之间的学习残差。在所有变化中,尾类的残差始终高于头类此外,我们随机选择一组头部和尾部类,并在图中可视化特征分布五、与原始分布(左)相比,具有我们的MvCoM调制的特征空间(右)有效地扩大了尾类6. 讨论和结论我们的模型是在公共数据集上训练的。同意由数据集提供者获得。我们将删除任何主题图像的隐私问题是没有得到妥善解决.虽然人脸识别可能被用于非法监视或歧视,但我们的工作具有积极的好处,可以缓解人脸识别偏见的关键伦理问题,这些偏见已被观察到对许多社会结果产生我们工作的局限性在于训练效率,但我们为了更好的模型效率而牺牲了训练效率。在这项工作中,我们明确地处理人脸识别中的多个偏见因素这与主要关注单个偏置因子的先前工作形成对比。提出了一种学习的学习方案,以一种新的样本级多变差余弦裕度(MvCoM)的形式提供训练批有偏分布反馈,该反馈可以正交地配备许多识别损失,如余弦损失。实证结果表明,我们的方法未来工作的途径包括将拟议的MvCoM应用于更广泛的数据偏差问题。= 0.15= 0.18= 0.22头尾头尾损失幅度头尾学习残差4082引用[1] Dong Cao , Xiangyu Zhu , Xingyu Huang , JianzhuGuo,and Zhen Lei.域平衡:长尾域上的人脸识别在IEEE/CVF计算机视觉和模式识别集,第5671二六七[2] Kaidi Cao , Colin Wei , Adrien Gaidon , NikosArechiga,and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。神经信息处理系统,第1567-1578页,2019年。一、二、四、七、八[3] 曹琼,李申,谢伟迪,奥姆卡·M·帕克希,安德鲁·齐瑟曼. Vggface2:一个用于识别跨姿势和年龄的人脸的数据集。在IEEE FG,2018年。6[4] Aruni Roy Chowdhury,Xiang Yu,Kihyuk Sohn,ErikLearned-Miller和Manmohan Chandraker。通过在野外对未标记的人脸进行聚类来提高深度人脸识别在ECCV,2020年。1[5] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge Belongie. 基 于 有 效 样 本 数 的 类 平 衡 损 耗 。 在CVPR,2019年。2[6] Jiankang Deng , Jia Guo , and Stefanos Zafeiriou.A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功