基于余弦的自适应缩放Logits：深度人脸表示学习

188 浏览量更新于2023-10-18 收藏 1.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10823AdaCos：自适应缩放余弦Logits以有效学习深度人脸表示张晓1赵瑞2于乔3王晓刚1李洪生11香港中文大学-商汤科技联合实验室2商汤科技研究院3中国科学院深圳先进技术研究院SIAT-商汤科技联合实验室zhangx9411@gmail.comzhaorui@sensetime.comyu. siat.ac.cn{xgwang，hsli}@ee.cuhk.edu.hk摘要基于余弦的softmax损失[21，28，39，8]及其变体[40，38，7]在基于深度学习的人脸识别中取得了巨大成功。然而，这些损失中的超参数设置对优化路径以及最终的识别性能具有显著影响。人工调整这些超参数在很大程度上依赖于用户体验，需要许多训练技巧。在本文中，我们深入研究了基于余弦的softmax损失的两个重要超参数的影响，尺度参数和角度边缘参数，通过分析它们如何调节预测的分类概率。基于这些分析，我们提出了一种新的基于余弦的softmax损失，AdaCos，它是超参数自由的，并利用自适应尺度参数来自动加强训练过程中的训练监督。我们将提出的AdaCos损失应用于大规模人脸验证和识别数据集，包括LFW [13]，MegaFace [16]和IJB-C [23] 1：1验证。我们的研究结果表明，使用AdaCos损失训练深度神经网络是稳定的，并且能够实现高的人脸识别准确率。我们的方法在所有三个数据集上都优于最先进的softmax损失[28，40，7]。1. 介绍近年来，深度卷积神经网络（CNN）[17，12，25，35]在显著提高一对一（1：1）人脸验证和一对多（1：N）人脸识别任务的性能方面取得了突破。深面CNN的成功主要归功于三个因素：巨大的训练数据[9]，深度神经网络架构[10，33]和ef-有效损失函数[28，21，7]。现代人脸数据集，例如LFW [13]，CASIA-WebFace [43]，MS 1 M [9]和MegaFace [24，16]，包含大量的身份，可以训练深度网络。一些事实证明，适当设计的网络架构也会提高性能。除了大规模训练数据和深层结构外，训练损失在学习准确的人脸识别模型中也起着关键作用[41，6，11]。与图像分类任务不同，人脸识别本质上是一个开集识别问题，其中测试类别（身份）通常与训练中使用的类别不同。为了应对这一挑战，大多数基于深度学习的人脸识别方法[31，32，36]利用CNN从人脸图像中提取特征表示，并采用度量（通常是余弦距离）来估计推理过程中人脸对之间然而，在使用softmax交叉熵损失函数1的方法中没有很好地考虑这种推理评估度量，这些方法使用softmax损失训练网络，但使用余弦相似性进行推理。为了缩小训练和测试之间的差距，最近的作品[21，28，39，8]直接优化了基于余弦的softmax损失。此外，基于角度裕度的项[19，18，40，38，7]通常被集成到基于余弦的损耗中，以最大化不同身份之间的角度裕度。这些方法提高了开集环境下的人脸识别性能。尽管它们取得了成功，但基于余弦的损失（及其引入利润率的变体）的训练过程通常是棘手和不稳定的。收敛性和性能高度依赖于损失的超参数设置，这是通过大量的试验经验确定的。此外，这些超参数的细微变化可能会使整个训练过程失败。在本文中，我们研究了最先进的基于余弦的softmax损失[28，40，7]，特别是那些旨在最大化角度裕度的损失，以了解它们如何为训练深度神经网络提供监督。每个函数通常包括几个超级参数，它们对最终性能有很大影响，并且通常很难调整。一个人必须重复训练，最近的研究，如DeepFace [36]，DeepID2 [31]，DeepID 3 [32]，VGGFace [25]和FaceNet[29]，demon-1我们在其余部分中将其简称为“softmax loss”。10824J·⟨ ⟩ ǁ ǁǁǁ不同的设置多次，以实现最佳性能。我们的分析表明，这些基于余弦的损失中的不同超参数实际上对控制样本的预测类概率具有类似的影响不恰当的超参数设置导致损失函数对优化网络的监督不足.基于上述观察，我们提出了一个自适应的基于余弦的损失函数AdaCos，它可以在训练过程中自动调整超参数并生成更有效的监督。提出的AdaCos动态缩放训练样本与对应的类中心向量（softmax之前的全连接向量）之间的余弦相似度，使其预测的类概率满足这些余弦相似度的语义意义。此外，AdaCos可以使用来自主流深度学习库的内置函数轻松实现[26，1，5，15]。建议的AdaCos损失导致更快，更稳定的收敛训练，而不会引入额外的计算开销。为了证明所提出的Ada-Cos损失函数的有效性，我们在几个面部基准上对其进行了评估，包括LFW面部验证[13]，MegaFace一百万识别[24]和IJB-C [23]。我们的方法在所有这些基准上都优于最先进的基于余弦的损失2. 相关作品余弦相似性推理。为了学习深度人脸表示，通常采用特征归一化损失来提高识别准确率。Coco loss[20，21]和NormFace [39]研究了归一化的效果，并通过重新定义softmax loss和度量学习提出了两种策略。类似地，Ranjanet al.在[28]本文还对这一问题进行了讨论，并应用归一化提到的方法。自动超参数调整。算法的性能高度依赖于超参数设置。网格和随机搜索[3]是最广泛使用的策略。对于更多的自动调整，基于顺序模型的全局优化[14]是主流选择。典型地，它使用多个超参数设置执行推理，并根据推理结果选择下一轮测试的设置。贝叶斯优化[30]和树结构parzen估计方法[4]是两种著名的基于序列模型的方法。然而，这些算法基本上运行多个试验来预测优化的超参数设置。3. 基于余弦的softmax损失中的超参数研究近年来，最先进的基于余弦的softmax损失，包括L2-softmax [28]，CosFace [40]，Arc- Face [7]，显着提高了深度人脸识别的性能。然而，这些损失的最终性能受到其超参数设置的极大影响，这些超参数设置通常难以调整，并且在实践中需要多次试验。我们分析了两个最重要的超参数，缩放参数s和边际参数m，在基于余弦的损失。特别地，我们深入研究了它们对soft-max后的预测概率的影响，soft-max作为整个神经网络更新的监督信号令^表示具有大小N的当前小批量的第i个面部图像的深度表示（特征），并且yi是对应的标签。小批量中所有N个样本的预测分类概率Pi，j可以通过softmax函数估计为efi，j在学习的特征向量上限制它们躺在超球体上。然而，与这些硬归一化相比Pi，j=Ck=1、（1）efi，kRing Loss [45]提出了一种具有凸公式的软特征归一化基于边际的softmax损失。早些时候，大多数人脸识别方法都利用度量目标损失函数，其中fi，j是用作softmax输入的logit，Pi，j表示将→xi分配给类j的softmax归一化概率，C是类的数量。与当前小批量相关联的交叉熵损失为：例如三重态[41]和对比损失[6]，它们利用1ΣN1ΣNefi，yi欧氏距离来衡量fea之间的相似性真的。利用这些工作，提出了中心损失[42]和范围损失[44]来减少类内LCE=−Ni=1logPi，yi=−Ni=1测井曲线k=1.efi，k（二）通过最小化每个类内的距离变化[2]。在此之后，研究人员发现，在欧几里得空间中约束边界不足以实现最佳泛化。然后提出了基于角裕度的损失函数来解决这个问题。角度约束被集成到softmax损失函数中，以通过L-softmax [19]和A-softmax [18]改进学习的面部表示。CosFace [40]、AM-softmax [38]和ArcFace[7]直接最大化角裕度，采用更简单、更直观的损失函数，传统的softmax损耗和最先进的余弦-基于softmax的损失[28，40，7]以不同的方式计算logit fi，j。在传统的softmax损失中，logit fi，j被获得为特征→xi和第j类权重W→j之间的内积，如fi，j=W→T→xi。在基于余弦的softmax损失[28，40，7]中，余弦相似度通过cosθi，j=-xi，W-j/-xiW-j。 logitfi，j被计算为fi，j=scosθi，j，其中s是尺度h超参数r。要在制图表达上强制角边距，ArcFace[7]将损失修改为10825/222π21es1+（C−1）·es≤Pi，j≤es+（C−1），（5）其中，当fi，j=s·0=0时达到下边界和fi，k=s·1 = s，对于等式中的所有k/= j，（一）. 类似地，当fi，j=s和fi，k=0时，k j. P的范围i、j当s→ ∞时，即，Num. 迭代Lim.ess−Σ1s=1，（6）图1：在WebFace上训练时，每个小批次（红色）非对应类的每个小批次中的平均角度，θi，j，其中j=yi。（蓝色）对应类别的每个小批次中的中值角，θi，yi。（Brown）对应类别的每个小批次中的平均角θi，yi。fi，j=s·cos（θi，j+θ i{j=yi}·m），（3）而CosFace [40]使用fi，j=s·（cosθi，j−ε{j=yi}·m），（4）其中m是裕度。指示器函数{j=y}s→+∞e+（C−1）1+（C−1）·e这意味着可以用大的s来满足范围跨越[0，1]的要求。但这并不意味着尺度参数越大，选择性就越好。事实上，概率范围可以很容易地接近一个高值，例如0。当类数C=10和标度参数s=5时，0的情况。但是，过大的尺度会导致概率分布不佳，这将在以下段落中讨论。我们研究了参数s的影响，取Pi，yi作为s和角度θi，yi的函数，其中yi表示→xi的标号. 从一开始，我们就我当j=yi时返回1，否则返回0。所有保证金Pi，y=efi，yies·cosθi，yi=、（7）变量减少Fi，yi与正确的类关联，iefi，yi+Bes·cosθi，yi+Bi减去余量m。相比之下，margin，基于margin的变量要求fi，yi大于其中B是Σ=k/=yi efi，k=k/=yi es·cosθi，k是对数比其他的fi，j，对于jyi，乘以指定的m。直观地说，一方面，参数s扩大了余弦距离的狭窄范围，使logits更具鉴别力。另一方面，参数m扩大了不同类别之间的差距，以提高分类能力。这些超参数最终影响Pi，yi。其所有不对应的要素类的总和→xi. 我们观察到，在训练过程中，B i的值几乎没有变化。这是因为非对应类k yi的角度θi，k在训练过程中总是保持在π附近（见图中的红色曲线①的人。因此，我们可以假设Bi是常数，即，Bi从经验上讲，理想的超参数设置应该有所帮助k/=yi es·cos（π/2）=C−1。然后，我们绘制曲线的概率，P i，j满足以下两个性质：（1）每个类（恒等式）的预测概率Pi，yi应跨越[0，1]的范围：Pi，yi的下边界应接近0，上边界应接近1;（2）Pi，yi的变化曲线应在θi，yi附近有较大的绝对梯度，以使训练有效。3.1. 尺度参数s尺度参数s可以显著地影响Pi，y。在-能力Pi，yiw. r. t. θi，yi在不同的参数设置下如图2（a）所示。很明显，当S太小时（例如，s=10（对于类/恒等式数C=2，000和C=20，000），Pi，yi的最大值不能达到1.一、这是不可取的，因为即使网络对样本x→i的相应类别标签非常自信是的，例如。 θi，yi=0时，损失函数仍将惩罚分类结果并更新网络。另一方面，当S太大时（例如， s=64），我随着温度的升高，tu，Pi，yi应该从0逐渐增加到1。概率曲线Pi，yiw.r.t. θi，yi也是有问题的角度θi，yi从0，i。例如，→xi与其对应的类权重W→yi之间的夹角越小，则概率应该越大。不适当的概率范围和概率曲线都是错误的。r. t. θi，yi 将直接影响训练过程，从而影响识别性能。我们首先研究了分类概率Pi，j的取值范围。给定尺度参数s，所有基于余弦的softmax损失的概率范围为2在数学上，θ可以是[0，π]中的任何值。然而，我们根据经验发现，最大θ总是在π附近。见图中的红色曲线。1为例。当θi，yi为接近π/2，这意味着具有大s的损失函数可能无法惩罚错误分类的样本，并且不能有效地更新网络以纠正错误。总之，缩放参数s对概率Pi、yi的范围以及曲线具有实质性影响，这对于有效训练深度网络至关重要3.2. 保证金参数m在本节中，我们研究了基于余弦的softmax损失中的裕度参数m的影响（等式2）。（3）（4）），π27π163π85π16平均θi，y我中值θi，yiπ平均θi，j，j/=yi4θi，j的次数我108261 .一、0m = 0。2m = 0。4m = 0。6m = 0。8m = 1。0固定AdaCos1 .一、080的情况。80的情况。80的情况。660的情况。60的情况。440的情况。40的情况。220的情况。20的情况。00。00的情况。0ππ π3 π5π3π7ππ0的情况。 20的16820i，yi2i，yi21 .一、02k路分类1 .一、020k路分类02k路分类20k路分类0的情况。八点零分80的情况。6060的情况。40的情况。2S= 10S= 32S= 40S= 48S= 64固定AdaCo0的情况。40的情况。20的情况。00 0π16π3π8160.2π45π3π16870π。4160的情况。0π2θ∈（0，π）01616816θ∈（0，π）(a) Pi，yiw. r. t. θi，yi。（b）Pi，yiw. r. t. θi，yi。图2：P1，y1，w的曲线。r. t. 通过选择不同的尺度和尺寸参数，（左）C=2000。（右）C=20000。图2（a）是为了选择不同的尺度参数和图。图2（b）用于固定s= 30并选择不同的裕度参数。以及它们对特征→xi的预测类概率Pi，yi的影响为了简单起见，我们在这里研究ArcFace的边缘参数m（等式2）。3）;而类似的结论也适用于CosFace中的参数m（等式3）。（四））。我们首先重写分类概率Pi，yi，如下等式：(7)作为对θi，yi的正确性敏感。对于martgin参数m，太小的余量不足以正则化最终的角度余量，而过大的余量使得训练难以收敛。(2)尺度s和裕度m的影响可以被统一以调制从余弦距离cosθi，yi到Pi，yi=efi，yifi，yes·cos（θi，yi+m）=s·cos（θi，y+m）.（八）预测概率Pi，yi。如图2（a）和图2（b），小规模和大幅度都有类似的-ei+Biei+Bi对θi，yi加强监管，同时为了研究参数m对概率Pi，yi的影响，我们假设s和Bi都是固定的。根据 3.1 节中的讨论，我们设置Bi<$C−1，并固定s=三十概率曲线为Pi，yiw。r. t. θi，yiunderdifferentm显示在图中。第2段（b）分段。根据图2（b），增加边际参数使概率Pi，yi曲线向左移动。因此，在相同的 θi 、 yi 的情况下，更大的MARGIN参数导致更低的概率Pi、yi，并且因此即使在小角度θ i、yi的情况下也导致更大的损耗。换句话说，特征之间的角度θi，yi→xi及其相应类对于正确分类的样本I来说非常小这是基于边际的损失比传统的基于余弦的损失对相同的θi，yi提供更强的监督的原因。在[40，7]中，适当的边缘设置已显示出提高虽然较大的裕度m提供更强的监督，但它也不应该太大。当m过大时（例如，m=1。0）时，概率Pi，yi变得不可靠。它将输出0附近的概率evenθi，yi非常小。这导致几乎所有样本都有很大的损失，即使样本到类的角度非常小，大尺度和小边缘都削弱了监督，Ssions。因此，使用单个超参数s或m来控制概率Pi，yi是可行的并且有希望的。考虑到s与需要跨越[0，1]的Pi，yi的范围更相关的事实，在本文的剩余部分中，我们将专注于自动调整尺度参数s4. 具有自适应缩放的基于余弦的softmax损失基于我们之前对基于余弦的softmax损失函数的超参数的研究训练与建议的损失不仅有利于收敛，但也导致更高的识别精度。我们以前的研究无花果。1表明，在训练过程中，对于ki=yi，→xi和它的非对应权重W→ki=yi几乎是al-很接近π，换句话说，训练难以衔接。在以前的方法中，BiΣ2k/=yie s·cos（π/2） =C −1在等式中（七）、显然边缘参数选择是一个特别的过程，大多数情况下没有理论指导。3.3. 超参数研究根据我们的分析，我们可以得出以下结论：(1) 超参数scales和marginm可以显著影响特征→xi的预测概率Pi，yi与地面真实身份/类别yi。对于尺度参数s，太小的s将限制Pi，yi的最大值。另一方面，太大的s将使大多数预测概率Pi，yi为1，这使得训练损失为-特征xi属于其对应类yi的概率Pi，yi对网络训练的监督影响最大因此，我们专注于设计用于控制概率我，我。从P i的曲线，yiw。r. t. θi，yi（图（2（a）），我们观察到尺度参数s不仅简单地影响Pi，yi的判断正确/错误的边界，而且还挤压/拉伸Pi，yi曲率，与尺度s相反，边缘参数m仅使曲线相移。因此，我们建议自动调整尺度参数s，并从损失函数中消除裕度参数m。S= 10S= 32S= 40S= 48S= 64固定AdaCo0的情π3 ππ0的情况。85π3π7π1π。0168 421616816Sm = 0。2m = 0。4m = 0。6m = 0。8m = 1。0固定AdaCos0的情π3 ππ0的情况。85π3π7π1π。168 421616816S概率Pi，yi概率Pi，yi0的情况。1082722∂θmedi，yi2∈medB=我s~≈−N44DDi，k0med这使得我们提出的AdaCos损失不同于4.2.动态自适应尺度参数最先进的softmax损失变量与角度余量。使用softmax函数，可以将预测概率如图图1示出了角θi，yi在特征之间→xi和处以罚款esθ·cosθi，j它们的地面实况类权重W→yi逐渐减小，训练迭代次数增加;而角度之间Pi，j=Ck=1、（9）esθi，k特征→xi和非对应类W→ji=yi变为稳定在π附近，如图所示。1.一、其中，s是自动调整的尺度参数，下面讨论当θi，yi时，在[0，π]上变化，它不让我们首先重新考虑P i，yi（等式（7））作为θ i的函数， yi. 注意，θi ， yi表示sample→xi与其地面真值categoryyi的权重向量之间的角度。对于网络训练，我们希望在损失函数LCE的监督下使θi，yi最小化。我们的目标是选择一个合适的尺度s，使预测概率Pi，yi相对于θi，yi显著变化。在数学上，当Pi，yi在θ0的ive处的二阶阶导数iv等于0，i时，我们找到绝对梯度值ψPi ， yi（θ）ψ达到其最大值的点。例如，考虑到θi，yi在r -1期间逐渐减小的事实ing训练。由于较小的θi，yi获得较高的概率Pi，yi，因此随着训练的进行，逐渐接受较弱的监督，因此我们提出了一个动态自适应的ive尺度参数sd，以逐渐对θ0的位置施加更严格的要求，这可以在整个训练过程中逐步增强监督。形式上，我们引入了一个调制指示变量θ（t），它是第t个迭代中大小为N的小批中所有相应类的角度θ（t）的中值P（θ）第θ（t）大致表示当前网络的i，yi0=0，（10）∂θ02其中θ0[0，π]。组合方程（7）和（10），我们得到了尺度参数s与点的关系med最优化的一部分。当中间角大，表明网络参数远未达到最优，应采用不太严格的监督以使训练收敛更稳定;当中位数（θ0，P（θ0））作为s0= logBicosθ0 、（11）θ（t）角小，表明网络接近最优，应加强监督，Σ其中 B我可以被以及近似作为 Bi=es·cosθi，k≈C−1，因为角度θdis-在训练过程中，在π/2附近的贡献（参见等式(7)和图①的人。类内角度θi，yi变成evensmalle r。基于在此观测中，我们设中心角θθ（t）=θ（t）。我们还引入B（t）作为B（t）的平均值，这样，自动确定θ的任务就简化为在[0，π/2]中选择一个合理的中心角θθ。4.1. 自动选择固定比例参数由于π位于[0，π]的中心，因此很自然地认为（吨）avgavg1ΣNi∈N（t）B（t）=1N我时间（t−1）edi∈N（t）k yi·cosθi，k，（十三）4 2π/4为点，即设θ0=π/4，从角度θi，yi到概率Pi，yi的有效映射。然后由Pi，yi确定的监督将被反向传播以更新θi，yi并进一步更新网络其中（t）表示在第t次迭代时的小批量中的面部标识索引。与针对固定的自适应尺度参数s f近似B iC 1不同，这里我们估计B（t）使用前一次迭代的尺度参数s（t-1）参数根据等式 (11)，我们可以估计出对应的尺度参数sf为这为我们提供了一个更精确的近似值再-注意B（t）还包括动态标度s（t）。 WeΣIdes·cosθi，ksi=logBi=k=/yi（十二）可以通过求解由下式fcosπ√cosπ关于方程。在实践中，我们注意到，s（t）变化很大，一点一点地重复。因此，我们只需使用s（t−1）来计算2·log（C−1）（吨）D（吨）其中B是近似为C-1。我是Eq。（七）、然后，我们可以获得动态标度S直接与Eq。（十一）、因此，我们有：对于这种自动选择的固定比例参数sf（见图如图2（a）和2（b）所示，它取决于训练集中的类 C 的数量，并且还为现有的基于余弦距离的softmax损失提供了选择其尺度参数的良好相比之下，缩放页面-（吨）s（t）=k/=yi10828medDlogB（t）平均值，（14）cosθ（t）现有方法中的参数是根据人的经验手动设置的它是一个很好的基线方法，其中Bavg与动态尺度参数相关。我们使用前一个的尺度参数s（t−1）估计它在下一部分中动态调整的缩放参数s_xrd。迭代10829medmed4DD×DDP=在培训过程开始时，中位和-角θ（t）可能太大而无法强制执行足够的训练监督因此，我们迫使中心角θ（t）小于π。我们的动态规模第t次迭代的参数可以公式化为2·log（C−1）t=0，（吨）logB（t）斯韦尔德 =科什科什 .avgmin（π，θ（t））≥1，（15）表1：ResNet-50训练的LFW识别准确率不同的损失比较。所有的方法都是在的4med其中s（0）被初始化为我们的固定尺度参数s清理了WebFace [43]训练数据，并在LFW上测试了三个以获得平均精度。Df当t=0将sθ i（t）代入fi，j=sθ i（t）·cosθi，j，则相应的梯度可以计算如下L（→xi）= （P（t）−<$（y=j）·s<$（t）<$cosθi，j，x→xij=1i、jd→xi（十六）n（W→j）（吨）（t）ωsθi，jW→j=（Pi，j−（yi=j））·sd、W→j图3：固定自适应缩放参数sf的变化以及当在所述训练器上训练时，动态适应尺度参数S_t（t）。其中，λ是指示函数，D（吨）已清理的Web Face数据集。动态尺度参数s级（吨）i、jesθ（t）·cosθi，jCsk=1edi，k.（十七）自动减小以加强对特征角θi，yi的训练监督，这验证了我们提出的AdaCos损失中自适应尺度参数的假设。最好当量(17)显示了动态自适应缩放参数，用彩色看。Eters（t）不同程度地影响分类概率图像像素值减去平均值127。5和并且也有效地影响梯度（等式。(16))用于更新网络参数。动态AdaCos的好处是它可以通过感知当前迭代中模型的训练收敛性来产生合理的尺度参数5. 实验我们研究了建议的AdaCos损失函数在几个公共人脸识别基准测试，并将其与最先进的基于余弦的softmax损失进行比较。补偿损失包括 l2-softmax [28] 、CosFace [40]和ArcFace [7]。我们介绍了LFW [13]，MegaFace 100万挑战[24]和IJB-C [23]数据的评估结果。我们还提出了一些探索性的实验结果，以显示收敛速度和对低分辨率图像的鲁棒性预处理。我们使用两个公共训练数据集，CASIA-WebFace [43]和MS 1 M [9]，用我们提出的损失函数训练CNN模型。我们仔细地从数据集中清除噪声和低质量的图像。清洁的WebFace [43]和MS1M [9]包含约0。45米，2。35M面部图像，分别。所有模型都基于这些训练数据进行训练，并直接在三个数据集的测试分割上进行测试。RSA [22]应用于图像以提取面部区域。然后，根据检测到的人脸特征点，通过相似变换将人脸对齐，并将大小调整为144×144。所有除以1285.1. LFW上的结果LFW [13]数据集从互联网收集了数千个身份信息。它的测试协议包含大约13000张图片，大约1680个身份，总共有6000个地面真实匹配。一半的匹配是正的，而另一半是负的。LFW的主要困难在于人脸姿态变化、颜色抖动、照明变化和人的老化。注意，可以通过RSA [22]面部特征点检测和对准算法消除部分姿态变化，但是仍然存在一些非正面面部图像，其不能通过RSA [22]对准，然后手动对准。5.1.1LFW的比较对于LFW [13]上的所有实验，我们在清理的WebFace[43]数据集上训练ResNet-50模型[10]，批量大小为512人脸图像的输入尺寸为144 × 144，输入到损失函数的特征维数为512。不同的损失函数与我们提出的AdaCos损失进行了比较。表1中的结果显示了使用不同softmax损失函数训练的模型的识别精度。我们提出的AdaCos损失与固定和动态规模参数（表示为固定AdaCos和动态。AdaCos）十四岁0十三岁5十三岁012个。510个。0动态AdaCos固定AdaCosNum. 迭代的s我DC方法月1月23日平均Acc.Softmax九十三0592.92九十三27九十三08[28]第二十八话九十八22九十八27九十八08九十八19[40]第四十话九十九。37九十九。35九十九。42九十九。3810830DD2DD我方法Num. 迭代25K50K75K100KSoftmax七十15八十五3389岁。50九十三05[28]第二十八话79岁。0888岁52九十三38九十八22[40]第四十话78岁17九十87九十八52九十九。37ArcFace [7]82岁4392. 37九十八78九十九。55固定AdaCos八十五1094 38九十九。05九十九。63戴娜AdaCos88.5295.7899.3099.730 k 20 k 40 k 60 k 80 k 100 kNum. 迭代图4：在清洗后的Web-F ace数据集上训练时θ i，y i的变化。θi，yi表示第i个样本的特征向量与其地面真值类别yi的权重向量之间的角度。示出了通过提出的动态AdaCos损失、l2-softmax损失[28]、CosFace [40]和ArcFace [7]计算的曲线。最好用彩色观看。在相同的训练配置下，超过了现有技术的基于余弦的softmax损失对于比较损失的超参数设置，l2-softmax[28]、CosFace [40]和Arc- Face [7]的缩放参数设置为30;裕量参数被设置为0。25和0。5.《易经》中的“五行”和“五行”，都是五行。由于LFW是一个相对容易的评估集，我们对所有损失进行了三次训练和测试。我们提出的动态AdaCos的平均精度为0。比最先进的Arc-Face高26%[7]和1. 比l2-softmax高52% [28]。5.1.2探索性实验训练过程中尺度参数和特征角度的变化。在这一部分中，我们将展示在训练过程中尺度参数s（t）和特征角θi，j我们提议的AdaCos损失尺度参数s_（t）随着模型当前识别性能的变化而变化，不断加强监督（t）通过逐渐减小θi，y从而缩小sθ。图图3示出了尺度参数s随我们提出的固定AdaCos和动态AdaCos损失的变化。为在动态AdaCos损失下，尺度参数ε（t）随着训练迭代次数的增加而自适应地减小，这表明损失函数对最新的网络参数提供了更严格的监督。图图4示出了通过我们提出的动态AdaCos和l2-softmax来改变θ i，j。θi，yi的平均值（橙色曲线ve）和中值（绿色曲线ve）表示样本与其地面真值类别之间的角度，逐渐减小，而θi，j的平均值（栗色曲线ve），其中jyi保持接近π。与l2-softmax损失相比，我们提出的损失可以实现更小的样本特征对地面真实类的分类角度，并导致更高的识别精度。收敛率。收敛速度是一个重要的π27π16l2-softmax的θi，yiθi，yArcFace的θi，yiθi，yi 动态AdaCos动态AdaCos的θi，j，ji=y i关于CosFace3π85π16π43π16π8π16θi，j的平均次数108311009998979695l2-softmaxs = 4594CosFace s = 45，m = 0。15ArcFaces = 45，m = 0。393固定AdaCos动态AdaCos92101 102 103 104105106牵引器尺寸表2：不同softmax损失的收敛率。在相同的迭代中，使用我们提出的动态AdaCos损失进行训练可以获得最佳的识别精度。图5：Inception-ResNet [34]模型在MegaFace数据集上的识别准确率曲线，这些模型使用不同的softmax损失和相同的清洁WebFace [43]和MS 1 M [9]训练数据进行训练。最好用彩色观看。损失函数的效率指标。我们研究了几个基于余弦的损失在不同的训练迭代的收敛速度培训配置与表1相同。表2中的结果表明，使用AdaCos损失进行训练时的收敛速度要高得多。5.2. 关于MegaFace然后，我们在MegaFace Challenge [16]上评估了所提出的AdaCos的性能，MegaFace Challenge[16]是一个公开可用的识别基准，广泛用于测试面部识别算法的性能。MegaFace的图库集包含来自Flickr照片收集的690K身份的超过100万张图像我们遵循Ar-cFace [7]我们使用CASIA-WebFace[43]和MS 1 M训练相同的Inception- ResNet [33]模型[9]训练数据，其中重叠的主题被删除。表3和图5总结了在WebFace和MS1M数据集上训练的模型的结果，并在清理后的MegaFace数据集上进行了测试。提出的 AdaCos和最先进的softmax损失进行了比较，其中动态AdaCos损失优于MegaFace上的所有比较损失。5.3. IJB C 1：1验证方案IJB-C数据集[23]包含大约3500个身份总共有31，334个静止面部图像和117，542个非约束视频帧。在1：1验证中，准确度（%）10832方法MegaFace牵引器101102103104105106l2-softmax九十九。百分之七十三九十九。百分之四十九九十九。03%九十七百分之八十五九十五百分之五十六92.05%CosFace九十九。百分之八十二九十九。百分之六十八九十九。百分之四十六九十八百分之五十七九十七百分之五十八九十五百分之五十ArcFace九十九。百分之七十八九十九。百分之六十五九十九。百分之四十八九十八百分之八十七九十八03%九十六。百分之八十八固定AdaCos九十九。百分之八十五九十九。百分之七十九十九。百分之四十七九十八百分之八十九十七百分之九十二九十六。百分之八十五动态AdaCos99.88%99.72%百分之九十九点五一百分之九十九点零二百分之九十八点五四97.41%表3：Inception-ResNet [34]模型在MegaFace上的识别准确性，这些模型使用不同的softmax损失和相同的清洁WebFace [43]和MS 1 M [9]训练数据进行训练。方法真接受率@假接受率101010−310−410−51010[29]第二十九话92. 百分之四十五81. 百分之七十一66岁。百分之四十五四十八百分之六十九三十三岁。百分之三十20块百分之九十五-VGGFace [25]九十五百分之六十四87岁百分之十三74岁百分之七十九五十九百分之七十五四十三百分之六十九三十二百分之二十-[27]第二十七话九十九。06%九十七百分之六十六九十五百分之六十三92. 百分之二十九87岁百分之三十五81. 百分之十五七十一百分之三十七l2-softmax九十八百分之四十九十六。百分之四十五92. 百分之七十八86岁。百分之三十三七十七。百分之二十五62. 百分之六十一二十六岁百分之六十七[40]第四十话九十九。01%九十七百分之五十五九十五百分之三十七91. 百分之八十二86岁。百分之九十四七十六。百分之二十五61岁百分之七十二ArcFace [7]百分之九十九点零七百分之九十七点七五九十五百分之五十五92. 百分之十三87岁百分之二十八82岁百分之十五七十二百分之二十八固定AdaCos动态AdaCos九十九。05%九十九。06%九十七百分之七十九十七百分之七十二九十五百分之四十八百分之九十五点六五92. 百分之三十五92.40%87岁百分之八十七88.03%82岁百分之三十八83.28%七十二百分之六十六74.07%表4：在IJB-C 1：1验证任务中，不同比较softmax损失的真实接受率。使用相同的训练数据（WebFace [43]和MS 1 M [9]）和Inception-ResNet [33]网络[29]1008060402001010−210−310−4FaceNetVggFace晶体损耗l 2-softmaxs = 45CosFaces = 45，m = 0。15弧面s = 45，m = 0。3固定AdaCos动态AdaCos真实接受率（%）10833D10−510−610−7识别概率Pi，yi，这限制了最终的识别性能。为了解决这个问题，我们首先从概率的角度深入分析了超参数在基于余弦的软最大损失中的作用基于这些分析，我们提出了AdaCos，自动化，cally调整自适应参数S_i（t），以便重新形成余弦距离和分类概率之间的映射我们提出的AdaCos损失是简单而有效的。我们通过探索性实验证明了它的有效性和效率，并在几个公共基准上报告了它的最新性能。错误接受率图6：IJB- C 1：1验证任务中不同softmax损耗的TAR比较.使用相同的训练数据（WebFace [43][29]，VGGFace [25]的结果在Crystal Loss [27]中报告。19，557个正匹配和15，638，932个负匹配，这允许我们在各种FAR处评估TAR（例如，10−7）。我们比较了softmax损失函数，包括提出的AdaCos，l2-softmax [28]，CosFace [40]和Ar-cFace [7]，具有相同的训练数据（WebFace [43]和MS 1 M [9]）和网络架构（Inception-ResNet [33]）。我们还报告了FaceNet[29]，VGGFace[36][27]第27话失去的东西表4和图在IJB-C 1：1验证中， 6 个显示了它们的性能。我们所提出的动态AdaCos取得了最好的性能.6. 结论在这项工作中，我们认为，现有的基于余弦的softmax损失的瓶颈可能主要来自余弦距离cosθi，yi和类之间的不匹配鸣谢。这项工作得到了部分支持SenseTime Group Limited，部分由General Research透过香港研究资助局拨款资助香港中文大学14202217、香港中文大学14203118、香港中文大学14205615、香港中文大学14207814、香港中文大学1421

下载后可阅读完整内容，剩余1页未读，立即下载