自适应边界的人脸识别中的图像质量关键性

191 浏览量更新于2023-10-26 收藏 15.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Image QualityRecognizability187500AdaFace：用于人脸识别的质量自适应边界0Minchul Kim，Anil K. Jain，XiaomingLiu密歇根州立大学计算机科学与工程系，东兰辛，MI，488240{kimminc2，jain，liuxm}@cse.msu.edu0摘要0由于面部属性被遮蔽和退化，低质量人脸数据集中的识别是具有挑战性的。基于边界的损失函数的进展提高了嵌入空间中人脸的可辨识性。此外，先前的研究已经研究了将更多重要性分配给被错误分类（困难）示例的自适应损失的效果。在这项工作中，我们引入了损失函数中另一个自适应性方面，即图像质量。我们认为，强调被错误分类样本的策略应根据其图像质量进行调整。具体而言，易样本或难样本的相对重要性应基于样本的图像质量。我们提出了一种新的损失函数，根据样本的图像质量强调不同难度的样本。我们的方法通过使用特征范数来近似图像质量，以自适应边界函数的形式实现这一目标。广泛的实验证明，我们的方法AdaFace在四个数据集（IJB-B，IJB-C，IJB-S和TinyFace）上改善了人脸识别性能。代码和模型已在Supp中发布。01. 引言0图像质量是指图像如何忠实地捕捉原始场景的一组属性[28]。影响图像质量的因素包括亮度、对比度、锐度、噪声、色彩恒定性、分辨率、色调再现等。本文的重点是人脸图像，它可以在各种光照、姿势和面部表情设置下捕获，并且有时还会出现极端的视觉变化，如主体的年龄或化妆。这些参数设置使得学习人脸识别（FR）模型的任务变得困难。然而，从某种意义上说，人类或模型通常可以在这些困难的设置下识别人脸。然而，当人脸图像质量较低时，根据程度的不同，识别任务变得不可行。图1显示了高质量和低质量人脸图像的示例。无法识别图1中最后一列中的主体。0易于0识别0难于0识别0不可能0识别0高质量0低质量0: 图像包含足够的线索来识别主体0：图像没有足够的线索来识别主体0图1.具有不同质量和可识别性的人脸图像示例。高质量和低质量图像都包含姿势、遮挡和分辨率的变化，有时会使识别任务变得困难，但是可实现。根据退化程度的不同，有些图像可能变得无法识别。通过研究这些图像在训练中的不同影响，本文旨在设计一种新的损失函数，该函数根据样本的可识别性和图像质量来自适应地调整。0低质量的图像，如图1的底部一行，越来越成为人脸识别数据集的重要组成部分，因为它们在监控视频和无人机画面中经常遇到。鉴于SoTA人脸识别方法[4, 5, 13,17]在高质量数据集（如LFW或CFP-FP）中能够获得超过98％的验证准确性[11,27]，最近的人脸识别挑战已经转向低质量数据集，如IJB-B，IJB-C和IJB-S[14, 22,37]。尽管挑战在于在低质量数据集上获得高准确性，但最受欢迎的训练数据集仍然由高质量图像组成[4,8]。由于训练数据中只有一小部分是低质量的，因此在训练过程中正确利用它非常重要。低质量人脸图像的一个问题是它们往往是无法识别的。当图像退化过大时，相关的身份信息从图像中消失，导致图像无法识别。这些无法识别的图像对训练过程有害，因为模型将尝试利用其他视觉特征（如服装颜色或图像分辨率）来降低训练损失。如果这些图像在低质量图像的分布中占主导地位，模型在测试过程中在低质量数据集上的性能可能较差。𝐶×1"𝒛𝒊𝑓512×1𝐶×1̸̸̸̸187510特征 � ! 目标预测0输入 � !0损失损失0（a）基于边界的Softmax（b）提出的方法（AdaFace）0边界函数例如：CosFace，ArcFace0图像质量0指示器0自适应0边界函数0骨干网络骨干网络0输入 � !0图2.传统基于边界的softmax损失与我们的AdaFace的比较。（a）使用基于边界的softmax损失的人脸识别训练流程。损失函数采用边界函数来减小类内变化。一些例子包括SphereFace，CosFace和ArcFace[4，20，35]。（b）根据图像质量指标调整的自适应边界函数（AdaFace）。如果图像质量指示为低，则损失函数强调易样本（从而避免无法识别的图像）。否则，损失函数强调难样本。0受到无法识别的人脸图像的影响，我们希望设计一种损失函数，根据图像质量为不同难度的样本分配不同的重要性。我们的目标是在高质量图像上强调难样本，在低质量图像上强调易样本。通常，根据样本的不同难度分配不同的重要性是通过观察训练过程（课程学习）[1，13]来完成的。然而，我们表明，样本重要性应该根据难度和图像质量进行调整。之所以应根据图像质量不同设置不同的重要性，是因为简单地强调难样本总是会过分强调无法识别的图像。这是因为对于无法识别的图像，只能随机猜测，因此它们总是属于难样本组。将图像质量引入目标中存在挑战。这是因为图像质量是一个难以量化的术语，根据难度对样本进行缩放通常会引入启发式的临时程序。在这项工作中，我们提出了一种无缝实现上述目标的损失函数。我们发现1）特征范数可以作为图像质量的良好代理，2）各种边界函数可以为不同难度的样本分配不同的重要性。这两个发现被结合在一个统一的损失函数AdaFace中，该函数根据图像质量自适应地改变边界函数，为不同难度的样本分配不同的重要性（见图2）。总之，本文的贡献包括：0•我们提出了一种损失函数AdaFace，根据图像质量为不同难度的样本分配不同的重要性。通过结合图像质量，我们避免了强调无法识别的图像，而专注于难以识别但可辨认的样本0•我们表明角度边界可以根据训练样本的难度来调整学习信号（梯度）。这一观察结果激发了我们根据图像质量自适应地改变边界函数，如果图像质量较高，则强调难样本，并忽略非常难的样本（无法识别的样本）。0如果图像质量较低，则会删除图像。0•我们证明特征范数可以作为图像质量的代理。这样就不需要额外的模块来估计图像质量。因此，可以在不增加复杂性的0•我们通过对多个数据集（LFW，CFP-FP，CPLFW，AgeDB，CALFW，IJB-B，IJB-C，IJB-S和TinyFace）进行广泛评估，验证了所提出方法的有效性。我们表明，在保持高质量数据集性能的同时，可以大幅提高低质量数据集上的识别性能。02. 相关工作0基于边界的损失函数。基于边界的softmax损失函数广泛用于训练人脸识别（FR）模型[4, 13, 20,35]。在softmax损失中添加边界是因为没有边界，学到的特征不具有足够的区分性。SphereFace [20]，CosFace[35]和ArcFace[4]引入了不同形式的边界函数。具体而言，可以写成0L = - log e0exp(f(θyi, m)) + � nj � = yi exp(s cos θj)，(1)0其中θj是特征向量与第j个分类器权重向量之间的角度0分类器权重向量，yi是真实标签的索引，m是边界，是一个标量超参数。f是一个边界函数，其中0f(θj, m) SphereFace =0� s cos(mθj) j = yi s cos θj j �= yi，(2)0f(θj, m) CosFace =0� s (cos θj − m) j = yi s cos θj j �= yi，(3)0f(θj, m) ArcFace =0� s cos(θj + m) j = yi s cos θj j �= yi. (4)0有时，ArcFace被称为角度边界，CosFace被称为加法边界。这里，s是一个缩放的̸LCE(xi) = − logexp(Wyizi + byi)�Cj=1 exp(Wjzj + bj),(7)where zi ∈ Rd is the xi’s feature embedding, and xi be-longs to the yith class. Wj refers to the jth column of thelast FC layer weight matrix, W ∈ Rd×C, and bj refers to thecorresponding bias term. C refers to the number of classes.During test time, for an arbitrary pair of images, xp andLCE(xi) = − logexp(s · cos θyi)Cj=1 exp(s cos θj),(8)187520缩放的超参数。P2SGrad[42]指出m和s是敏感的超参数，并提议直接修改梯度以使其不受m和s的影响。我们的方法旨在将图像质量作为边界m的函数进行建模，因为f(θyi,m)对于哪些样本在训练过程中贡献更多的梯度（即学习信号）具有影响。0自适应损失函数。许多研究在训练目标中引入了自适应性的元素，用于困难样本挖掘[18,36]，训练过程中调整困难度[13,31]，或找到最佳超参数[41]。例如，CurricularFace[13]将课程学习的思想引入到损失函数中。在训练的初始阶段，cosθj（负余弦相似度）的边界被设置得很小，以便可以学习到简单的样本，而在后期阶段，边界增加，以便学习到困难的样本。具体而言，可以写成0f(θj, m) Curricular =0� s cos(θj + m) j = yi N(t, cos θj) j � = yi，(5)0其中0N(t, cos θj) =0� cos(θj) s cos(θyi + m) ≥ cos θj cos(θj)(t + cos θj) s cos(θyi +m) < cos θj，(6)0t是随着训练进展而增加的参数。因此，在CurricularFace中，边界的自适应性基于训练进展（课程）。相反，我们认为边界的自适应性应该基于图像质量。我们相信，在高质量图像中，如果一个样本对于模型来说很难，网络应该学会利用图像中的信息，但在低质量图像中，如果一个样本很难，它更有可能缺乏正确的身份线索，网络不应该努力适应它。MagFace[23]探索了根据可识别性应用不同边界的思想。它对高范数特征应用大的角边界，因为高范数特征容易识别。大的边界将高范数特征推向类中心。然而，它未强调困难的训练样本，这对于学习有区分性的特征很重要。与MagFace的详细对比可以在补充材料B.1中找到。还值得一提的是，DDL[12]使用蒸馏损失来减小简单和困难样本特征之间的差距。0使用低质量图像进行人脸识别。最近的人脸识别模型在面部属性可辨识的数据集上取得了高性能，例如LFW[11]，CFP-FP [27]，CPLFW [43]，AgeDB [25]和CALFW[44]。当人脸识别模型学习到对光照、年龄或姿势变化不变的有区分性的特征时，可以在这些数据集上取得良好的性能。然而，在监控或低质量视频等无约束场景中进行人脸识别[38]会带来更多问题。数据集的示例0在这种情况下，IJB-B [ 37 ]，IJB-C [ 22 ]和IJB-S [ 14]是最常用的数据集，其中大部分图像质量较低，有些甚至不包含足够的身份信息，即使对于人类审查员也是如此。良好性能的关键在于：1）学习低质量图像的判别特征；2）学习丢弃包含少量身份线索的图像。后者有时被称为质量感知融合。为了进行质量感知融合，已经提出了概率方法来预测FR表示中的不确定性。假设特征是分布，其中方差可以用于计算预测的确定性。然而，由于训练目标的不稳定性，概率方法会分别学习均值和方差，这在训练过程中并不简单，并且在方差与固定均值一起优化时是次优的。然而，我们的工作是对传统softmax损失的修改，使框架易于使用。此外，我们使用特征范数作为质量感知融合期间预测质量的代理。可以使用合成数据或数据增强来模拟低质量数据。[ 30]采用3D人脸重建[ 7]来旋转人脸，并训练面部属性标签生成器生成训练数据的伪标签。这些辅助步骤使训练过程复杂化，并且难以推广到其他数据集或领域。我们的方法只涉及简单的裁剪、模糊和光度增强，这也适用于其他数据集和领域。03. 提出的方法0样本 x i 的交叉熵softmax损失可以表示如下，0∥ z p ∥∥ z q∥用于找到最接近的匹配身份。为了使训练目标直接优化余弦距离，[ 20 , 34]使用归一化softmax，其中偏置项设为零，特征 z i在训练期间进行归一化和重新缩放，缩放因子为 s。这种修改结果为0其中 θ j 对应于 z i 和 W j 之间的角度。后续工作[ 4 ,35]采用这个公式并引入了一个边界来减少类内变化。一般来说，可以写成等式 1 ，其中边界函数分别定义在等式 2 ， 3 和 4 中。𝑚 = 0.5𝑾!!𝑚 = 0.4𝑾!!𝑾"𝑚 = 0.5𝑚 = −0.5𝑾!!𝑾!!𝑾"𝑾"𝑾"(CosFace)𝑾!!𝑾!!𝑾"𝑾"(AdaFace)𝑾!!𝑾"(MagFace)𝑚 = 0.5P (i)j=exp(f(cos θyi))exp(f(cos θyi)) + �nj̸=yi exp(s cos θj),(9)∂LCE∂Wj=�P (i)j− 1(yi = j)� ∂f(cos θj)∂ cos θj∂ cos θj∂Wj,(10)∂LCE∂xi=Ck=1P (i)k −1(yi = k) ∂f(cos θk)∂ cos θk∂ cos θk∂xi. (11)affected by parameter m through f(cos θyi). As the direc-g :=�P (i)j− 1(yi = j)� ∂f(cos θj)∂ cos θj.(12)̸gsoftmax = (P (i)yi − 1)s,(13)gCosFace = (P (i)yi − 1)s,(14)gArcFace = (P (i)j− 1)s�cos(m)+ cos θyi sin(m)1− cos2 θyi�. (15)187530� 0 =没有边界 � 1 =有边界更难的样本，高范数更容易的样0更难的样本，低范数更容易的样本，低范数0| � |，梯度缩放项：等式120小大0加性边界0角度边界0(如果 � > 0 则为ArcFace)0后期早期0角度边界 + 课程0(CurricularFace， � = 0.5 )0自适应边界函数0自适应角度边界0图3. 不同边界函数及其特征空间中的梯度缩放项的示意图。B 0 和 B 1 分别显示了没有边界和有边界 m 的决策边界。黄色箭头表示由于边界m 的移动而导致的边界的偏移。在弧线中，分类正确的样本将接近（在角度上）真实类别权重向量 W y i。分类错误的样本将接近负类别权重向量 W j 。弧线内的颜色表示梯度缩放项 g 的大小（等式 12）。深红色区域中的样本对学习的贡献更大。请注意，加性边界将边界向 W y i方向移动，而不改变梯度缩放项。然而，正角度边界不仅移动边界，还使梯度在边界附近高，在边界外低。这种行为减弱了非常困难的样本，MagFace也具有类似的行为。另一方面，负角度边界引发相反的行为。CurricularFace根据训练阶段调整边界。我们的方法根据范数自适应地改变边界函数。对于高范数，我们强调远离边界的样本，对于低范数，我们强调靠近边界的样本。弧线中的圆圈和三角形显示了最右边的图中的示例场景（AdaFace）。03.1. 边界形式和梯度0以往关于基于边界的softmax的研究主要集中在边界如何移动和它们的几何解释是什么方面[4,35]。在本节中，我们将展示在反向传播过程中，由于边界的变化而导致的梯度变化会对样本的重要性进行缩放。换句话说，角度边界可以引入一个额外的项到梯度方程中，根据样本的难度来缩放信号。为了展示这一点，我们将研究梯度方程在边界函数 f ( θ y i , m ) 下的变化。设 P ( i ) j是经过softmax操作后类别 j 的概率输出。通过对 L CE 对W j 和 x i 的梯度方程进行推导，我们得到以下结果，0在方程10和11中，前两项，� P ( i ) j − 1 ( y i = j ) �0和 ∂f (cos θ j )0∂ W j 不受 m的影响，我们可以将前两个标量项看作梯度缩放项(GST)并表示为0为了进行GST分析，我们将考虑类索引 j = yi，因为所有负类索引 j ≠ y i在方程2、3和4中都没有边界。归一化softmax损失的GST为0∂ cos θ yi = s . CosFace [35]的GST也是0∂ cos θ yi = s。然而，ArcFace [4]的GST结果是0推导过程可以在补充材料中找到。由于GST是 θ y i 和 m的函数，如方程15所示，可以用它来控制基于难度的样本的重视程度，即在训练过程中的 θ y i。为了理解GST的效果，我们将GST与特征可视化。图3显示了特征空间中的GST颜色。请注意，对于角度边界，GST在决策边界处达到峰值，但随着移动到 W j和更难的样本，逐渐减小。如果我们改变角度边界的符号，我们会看到相反的效果。请注意，在第6列中，MagFace[23]是ArcFace（正角度边界）的扩展，具有更大的边界分配给高范数特征。ArcFace和MagFace都未能高度强调困难样本（靠近 W j的绿色区域）。我们将所有边界函数（正角度边界、负角度边界和加法边界）结合起来，以在必要时强调困难样本。�1−1,(16)where µz and σzandard deviation of all∥zi∥ within a batch. And ⌊·⌉ refers to clipping the valuebetween −1 and 1 and stopping the gradient from flowing.Since ∥zi∥−µzσz/hmakes the batch distribution of �∥zi∥ as ap-proximately unit Gaussian, we clip the value to be within−1 and 1 for better handling. It is known that approximately68% of the unit Gaussian distribution falls between −1 and1, so we introduce the term h to control the concentration.µz = αµ(k)z+ (1 − α)µ(k−1)z,(17)f(θj, m)AdaFace =�s cos(θj+gangle)−gaddj =yis cos θjj ̸=yi, (18)187540请注意，这种适应性也不同于使用训练阶段来改变样本不同难度的相对重要性的方法[13]。图3显示了CurricularFace，其中决策边界和GST g根据训练阶段而改变。03.2. 范数和图像质量0图像质量是一个综合性的术语，涵盖了亮度、对比度和清晰度等特征。图像质量评估（IQA）在计算机视觉领域得到了广泛研究[39]。SER-FIQ[32]是一种用于人脸IQA的无监督深度学习方法。BRISQUE[24]是一种用于盲/无参考IQA的流行算法。然而，这些方法在训练过程中计算量较大。在这项工作中，我们不引入额外的模块来计算图像质量。相反，我们使用特征范数作为图像质量的代理。我们观察到，在使用基于边界的softmax损失训练的模型中，特征范数呈现出与图像质量相关的趋势。在图4(a)中，我们展示了特征范数与图像质量（IQ）得分之间的相关性绘图，使用（1-BRISQUE）作为绿色曲线。我们从训练数据集（MS1MV2[4]，使用第4.1节中描述的数据增强）中随机抽取了1,534张图像，并使用预训练模型计算特征范数。在最后一个周期，特征范数与IQ得分之间的相关性得分达到0.5235（在-1和1之间）。图4(b)显示了相应的散点图。特征范数与IQ得分之间的高相关性支持我们使用特征范数作为图像质量的代理。在图4(a)中，我们还展示了概率输出Pyi与IQ得分之间的相关性绘图，注意到特征范数的相关性始终高于Pyi。此外，特征范数与IQ得分之间的相关性从训练的早期阶段就可见。这是使用特征范数作为图像质量代理的一个有用特性，因为我们可以在训练的早期阶段依赖于代理。此外，在图4(c)中，我们展示了Pyi与IQ得分之间的散点图。注意到Pyi与图像质量之间存在非线性关系。描述样本难度的一种方式是使用1-Pyi，图中显示了基于图像质量的样本难度分布不同。因此，在调整样本重要性时考虑图像质量是有意义的。03.3. AdaFace: 基于范数的自适应边界0为了解决由于无法识别的图像引起的问题，我们提出基于特征范数调整边界函数的方法。在第3.1节中，我们已经证明使用不同的边界函数可以强调样本的不同难度。此外，在第3.2节中，我们观察到特征范数可以很好地找到低质量的图像。我们0a) 所有周期的相关性 b) 特征范数 vs 图像质量 c) 概率输出 vs 图像质量0图4. (a)训练周期内与图像质量评分（1-BRISQUE）的皮尔逊相关性的绘图。绿色和橙色曲线分别对应于使用特征范数∥zi∥和地面真值索引Pyi的概率输出的相关性绘图。(b)和(c)对应于最后一个周期的散点图。散点图上的蓝线和相应的方程显示了拟合数据点的最小二乘线。0将合并这两个发现，并提出一种新的人脸识别损失函数。0图像质量指标。作为特征范数，∥zi∥是一个与模型相关的量，我们使用批次统计µz和σz对其进行归一化。具体来说，我们让0� ∥zi∥ = � ∥zi∥ - µz0σz/h 落在-1和1之间。要实现这一点的一个好的值是h =0.33。在第4.2节中，我们对此进行了验证和验证。我们在反向传播过程中停止梯度的流动，因为我们不希望特征被优化为具有低范数。如果批次大小较小，则批次统计µz和σz可能不稳定。因此，我们使用指数移动平均（EMA）来稳定多个步骤中的µz和σz的批次统计。具体来说，设µ(k)和σ(k)为∥zi∥的第k步批次统计。然后0其中α是设置为0.99的动量。σ z也是如此。0自适应边界函数。我们设计了一个边界函数，使得1）如果图像质量高，我们强调困难样本，2）如果图像质量低，我们减弱困难样本的影响。我们通过两个自适应项g angle和gadd来实现这一目标，分别指代角度边界和加法边界。具体来说，我们定义如下：9)187550(a) 高质量 (b) 混合质量 (c) 低质量0图5. 我们研究中三类测试数据集的示例。0其中g angle和g add是� ∥ z i ∥的函数。我们定义如下：0请注意，当� ∥ z i ∥ =-1时，所提出的函数变成ArcFace。当� ∥ z i ∥ =0时，它变成CosFace。当� ∥ z i ∥ =1时，它变成具有偏移的负角度边界。图3展示了自适应函数对梯度的影响。高范数特征将获得更高的梯度尺度，远离决策边界，而低范数特征将在决策边界附近获得更高的梯度尺度。对于低范数特征，远离边界的困难样本被减弱。04. 实验04.1. 数据集和实现细节0数据集。我们使用MS1MV2 [4]、MS1MV3[6]和Web-Face4M[45]作为我们的训练数据集。每个数据集分别包含580万、510万和420万张人脸图像。我们在9个不同质量的数据集上进行测试。根据视觉质量的协议（示例见图5），我们将测试数据集分为3类。• 高质量：LFW [11]、CFP-FP[27]、CPLFW [43]、AgeDB [25]和CALFW[44]是在良好控制环境中进行人脸识别的流行基准。尽管这些图像在光照、姿态或年龄上有所变化，但它们的质量足够好以进行人脸识别。0• 混合质量：IJB-B和IJB-C [22,37]是为了在验证协议中引入低质量图像而收集的数据集。它们包含名人的高质量图像和低质量视频。0• 低质量：IJB-S [14]和TinyFace[3]是具有低质量图像和/或视频的数据集。IJB-S是一个监控视频数据集，具有监控到单个、监控到预订和监控到监控等测试协议。协议中的第一个/第二个词指的是探测/库图像的来源。监控指的是监控视频，单个指的是高质量注册图像，预订指的是来自不同视角的多个注册图像。TinyFace仅包含低质量图像。0训练设置。我们通过裁剪和对齐面部的五个关键点对数据集进行预处理，如[4,40]所示，得到112×112的图像。对于主干网络，我们采用[4]中修改的ResNet [9]。我们使用相同的优化器。0并且采用[13]中的学习率调度和训练24个epoch。模型使用初始学习率为0.1的SGD进行训练，并在第10、18和22个epoch进行步骤调度。如果数据集包含数据增强，我们会增加2个epoch以实现收敛。对于尺度参数s，我们将其设置为64，遵循[4, 35]的建议。0数据增强。由于我们提出的方法是为了在训练数据中存在无法识别的图像的情况下训练得更好，我们引入了三种常用的图像分类任务中广泛使用的即时数据增强方法，即裁剪、重新缩放和光度抖动。这些增强方法会创建更多的数据，但也会引入更多的无法识别的图像。这是一个需要平衡的权衡。在人脸识别中，这些增强方法通常不会对性能产生好处（如第4.2节所示）。我们展示了我们的损失函数能够适应忽略无法识别的图像的好处。裁剪定义了一个随机的矩形区域（补丁），并将区域外的区域设置为0。我们不会裁剪和调整图像的大小，因为面部的对齐很重要。光度增强随机缩放色调、饱和度和亮度。重新缩放将图像调整为较小的尺度，然后再调整回来，导致模糊。这些操作以0.2的概率随机应用。04.2.消融和分析0对于超参数m和h的消融，我们采用ResNet18骨干网络，并使用随机采样的MS1MV2的1/6。我们使用两个性能指标。对于高质量数据集（HQ），我们使用LFW、CFP-FP、CPLFW、AgeDB和CALFW的1:1验证准确率的平均值。对于低质量数据集（LQ），我们使用IJB-S的3个协议的闭集排名1检索和开集TPIR@FIPR=1%的平均值。除非另有说明，我们按照第4.1节中描述的方式增强数据。0图像质量指标浓度h的影响。在第3.3节中，我们声称h =0.33是一个好的值。为了验证这一点，我们在表1中展示了在变化h时的性能。当h = 0.33时，模型表现最好。当h =0.22或h =0.66时，性能仍然高于CurricularFace。只要设置h使得∥zi∥有一定的变化，h并不是非常敏感。我们设置h = 0.33。0超参数m的影响。边界m对应于角度边界的最大范围和加性边界的大小。表1显示，当m =0.4时，HQ数据集的性能最佳，当m =0.75时，LQ数据集的性能最佳。较大的m会导致基于图像质量的角度边界变化较大，从而导致更多的适应性。在后续实验中，我们选择m =0.4，因为它在不牺牲HQ数据集性能的情况下实现了LQ数据集的良好性能。187560方法h m代理HQ数据集LQ数据集0CurricularFace [13] - 0.5093.4332.920aaa AdaFace aaa 0.22 0.40 规范93.6734.92 AdaFace 0.3393.7435.40 AdaFace0.6693.7035.290aaa00.33 0.40 规范93.7435.40 AdaFace 0.5093.5635.23 AdaFace0.7593.3735.690aaa Ada00.33 0.40 规范93.7435.40-1-BRISQUE93.4334.55-P yi93.4635.170表1.我们的边界函数参数h和m以及图像质量代理选择在ResNet18骨干网络上的消融。性能指标如第4.2节所述。0方法p HQ数据集LQ数据集0CurricularFace [13] 0.096.8541.00 CurricularFace [13]0.296.7540.84 CurricularFace [13] 0.396.5940.580AdaFace 0.096 0.7240.95 AdaFace 0.20.9680.8141.82 AdaFace 0.3 0.9670.7841.930表2.在ResNet50骨干网络上对增强概率p进行消融。指标与表1相同。0代理选择的影响。在表1中，为了展示使用特征规范作为图像质量的代理的有效性，我们将特征规范与其他量（如（1-BRISQUE）或Pyi）进行了切换。使用特征规范的性能优于使用其他方法。BRISQUE分数是预先计算的训练数据集，因此在使用增强训练时对捕捉图像质量的效果不如特征规范。我们包括Pyi以显示特征规范的适应性与困难的适应性不同。0增强的影响。我们在训练数据中引入即时增强。我们提出的损失可以有效处理在增强过程中偶尔生成的不可识别的图像。我们在完整的MS1MV2数据集上使用更大的模型ResNet50进行实验。表2显示，增强确实为AdaFace带来了性能提升。在HQ数据集上的性能保持不变，而LQ数据集则获得了显著的性能提升。请注意，增强会降低CurricularFace的性能，这与我们的假设一致，即增强是从获取更多数据的积极效果和不可识别图像的负面效果之间的权衡。基于边界的softmax的先前工作不包括即时增强，因为性能可能更差。AdaFace避免了对不可识别图像的过拟合，因此可以更好地利用增强。0分析。为了展示特征范数∥zi∥和训练样本的难度在训练过程中的变化，我们在图6中绘制了样本轨迹。总共从训练数据中随机抽取了1,536个样本。热图中的每一列代表一个样本，x轴根据最后一个Epoch的范数进行排序。样本#600是0训练Epoch0样本根据最后一个Epoch的范数排序0特征范数0GT的概率0对应0图像0图6.训练样本的特征范数∥zi∥和地面真值索引Py的概率输出的轨迹图。我们从带有增强的训练数据中随机选择了1,536个样本，并从中均匀抽样了8个图像进行展示。低范数特征的概率轨迹与其他特征不同，并且对应的图像很难识别。0大约是从低到高范数样本的中间点。底部图显示，许多低范数样本的概率轨迹直到最后都没有变得很高。这与我们的观点一致，即低范数特征更有可能是无法识别的图像。这证明了我们减少对这些情况的重视的动机，尽管它们是“困难”情况。与高范数特征相比，低范数特征的样本增强比例更高。对于样本编号#0到#600，约有62.0%的样本至少有一种类型的增强。对于编号为#600或更高的样本，这个比例约为38.5%。0时间复杂度。与经典的基于边界的损失函数相比，我们的方法在训练中增加了可忽略的计算量。在相同的设置下，ArcFace [ 4]每次迭代需要0.3193秒，而AdaFace需要0.3229秒（+1%）。04.3. 与SoTA方法的比较0为了与SoTA方法进行比较，我们在第4.1节列出的9个数据集上评估了使用AdaFace损失训练的ResNet100。对于高质量数据集，表3（a）显示AdaFace与BroadFace [ 16]、SCF-ArcFace [ 17 ]和VPL-ArcFace [ 5]等竞争方法表现相当。这种在高质量数据集上的强大性能是由于在训练过程中对高质量样本进行了困难样本强调。需要注意的是，一些高质量数据集的性能已经饱和，使得增益不太明显。因此，仅仅根据数字选择一个模型而不是另一个模型有些困难。与SCF-ArcFace不同，我们的方法不使用额外的可学习层，也不需要2阶段训练。它是对损失函数的改进，使得将我们的方法应用于新任务或骨干网络更容易。对于混合质量数据集，表3（a）清楚地显示了AdaFace的改进。在IJB-B和IJB-C上，AdaFace将第二好的错误率相对减少了11%和9%。这表明使用特征范数作为图像质量代理来不同对待样本的有效性。对于低质量数据集，表3（b）显示AdaFace明显优于所有基线方法。与第二好的方法相比，我们在4个Rank-[22]CosFace (m = 0.35) [35]CVPR18MS1MV299.8198.1292.2898.1195.7696.8294.8096.37ArcFace (m = 0.50) [4]CVPR19MS1MV299.8398.2792.0898.2895.4596.7894.2596.03AFRN [15]ICCV19MS1MV299.8595.5693.4895.3596.3096.1188.5093.00MV-Softmax [36]AAAI20MS1MV299.8098.2892.8397.9596.1096.9993.6095.20CurricularFace [13]CVPR20MS1MV299.8098.3793.1398.3296.2097.1694.8096.10URL [30]CVPR20MS1MV299.7898.64-----96.60187570方法场地训练数据高质量混合质量0BroadFace [16] ECCV20 MS1MV2 99.85 98.63 93.17 98.38 96.20 97.25 94.97 96.38 MagFace [23] CVPR21 MS1MV2 99.83 98.46 92.87 98.17 96.15 97.10 94.51 95.97SCF-ArcFace [17] CVPR21 MS1MV2 99.82 98.40 93.16 98.30 96.12 97.16 94.74 96.09 DAM-CurricularFace [19] ICCV21 MS1MV2 - - - - - - 95.12 96.200AdaFace ( m = 0.4 ) CVPR22 MS1MV2 99.82 98.49 93.53 98.05 96.08 97.19 95.67 96.890VPL-ArcFace [5] CVPR21 MS1MV3 99.83 99.11 93.45 98.60 96.12 97.42 95.56 96.760AdaFace ( m = 0.4 ) CVPR22 MS1MV3 99.83 99.03 93.93 98.17 96.02 97.40 95.84 97.090ArcFace* [4] CVPR19 WebFace4M 99.83 99.19 94.35 97.95 96.00 97.46 95.75 97.160AdaFace ( m = 0.4 ) CVPR22 WebFace4M 99.80 99.17 94.63 97.90 96.05 97.51 96.03 97.390(a) 近期方法在高质量和混合质量数据集上的性能比较。0a0方法训练数据低质量（IJB-S [14]和TinyFace [3]）0Surveillance-to-Single [14] Surveillance-to-Booking [14] Surveillance-to-Surveillance [14] TinyFace [3] Rank-1 Rank-5 1%Rank-1 Rank-5 1% Rank-1 Rank-5 1% Rank-1 Rank-50PFE [29] aaa MS1MV2 [4] 50.16 58.33 31.88 53.60 61.75 35.99 9.20 20.82 0.84 - - ArcFace [4] MS1MV2 [4] 57.35 64.42 41.85 57.36 64.95 41.23 - - - - - URL [30] MS1MV2[4] 59.79 65.78 41.06 61.98 67.12 42.73 - - - 63.89 68.670CurricularFace* [13] MS1MV2 [4] 62.43 68.68 47.68 63.81 69.74 47.57 19.54 32.80 2.53 63.68 67.650AdaFace ( m = 0.4 ) MS1MV2 [4] 65.26 70.53 51.66 6

下载后可阅读完整内容，剩余1页未读，立即下载