人脸识别中基于边缘的Softmax损失的统一

62 浏览量更新于2023-10-15 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3548人脸识别中基于边缘的Softmax损失的统一Yang ZhangZhang，Simao Herdade，Kapil Thadani，Eric Dodds，Jack Culpepper和Yueh-Ning Ku Yahoo Research摘要在这项工作中，我们开发了一个理论和实验框架来研究边缘惩罚对角度softmax损失的影响，这导致了人脸识别中最先进的性能。我们还引入了一个新的乘性的边缘，它执行不情愿地提出的加性的边缘时，模型的训练收敛。一个政权的保证金参数可能会导致退化的最小值，但这些可以通过使用我们提出的两个正则化技术可靠地避免。我们的理论预测了样本嵌入与训练过程中学习到的正确和错误类原型向量之间的最小角距离，并提出了一种新的方法来确定最佳的边缘参数，而无需昂贵的调整。最后，我们在我们提出的框架中进行了彻底的消融研究的边缘参数，我们的特点的敏感性，一般化每个参数的理论和通过实验标准的人脸识别基准。1. 介绍使用margin softmax损失训练的深度学习模型在标准度量学习基准上实现了最先进的性能，例如人脸验证和识别[8，10，15，27，3，31]和细粒度分类[20]。然而，现有的文献未能解释为什么不同的建议的保证金处罚的结果更好的推广。有人声称减少类内距离有助于泛化[27]，或者在角度空间中执行类分离比在余弦空间中更有效[3]，但这些说法尚未得到证明或经验验证。此外，报告竞争性能的作品使用不同的模型架构、训练时间表、学习率时间表、批量大小和/或数据增强范例，以及不同的测试时间增强策略和测试集预处理。这些这些作者对这项工作做出了同样的这些差异掩盖了这些作品的主要贡献对基准性能衡量的模型质量的影响。事实上，已经表明，新的度量学习损失函数相对于以前的工作的改进通常小于当保持固定这些混淆因素时所述的改进[20]。这项工作作为第一次尝试来表征不同的边际惩罚如何影响训练优化以及由此产生的模型泛化。通过对人脸识别基准的全面公平比较，我们证明了softmax损失的所有主要边缘参数-包括CosFace [27]，ArcFace [3]和以前未研究过的自然新乘法边缘-基本上是相似的，尽管它们在优化难度上有所不同。我们认为，目前对保证金有效性的解释是不够的，并开发了一个新的理论框架，以更好地理解保证金softmax损失成功背后的机制。我们工作的具体贡献包括：• 原型和样本的数学模型，使我们能够研究训练动态和优化停止点作为边际值的函数这使我们能够近似的影响，保证金设置的类内和类间的距离。• 在某些裕度参数区域中发生的崩溃模式的形式特征。我们提出了两种有效的正则化技术，以避免这些退化的最小值，而不损害性能。• 一个自然的新保证金参数，以完善基于保证金的softmax损失家族。我们的实验表明，当模型被训练到收敛时，所有的保证金公式都会产生类似的• 一个新的观察，不同的利润率的最佳值产生的损失函数，似乎在一个特定的角度，可以分析得出的任何数据集一致。这导致了一个猜想，如何选择最佳的裕度参数，而无需计算昂贵的调整实验。35492我PJk k k kP2✓Pjy◆2. 相关工作人脸识别是计算机视觉中最古老的问题之一，随着大型数据库和深度特征学习的出现，人脸识别已经显着成熟。Facenet [22]是利用这些策略获得杠杆作用的早期示例，它利用了基于配对中国其中我们将每个列W j称为类j的“原型”。以点积作为我们的相似性度量，N个示例的softmax交叉熵损失可以写为每个示例损失的平均值L1。. L N使得eWy>xi相似和不同的图像。出现以来两两度量和基于代理的度量之间的等价性Li=-logCj=1eW>xi（1）学习[19，24]，人脸验证的进步主要利用多类分类损失进行训练[21，26，15，34，27，3，12，31，10，8，6，1]，其具有更高的存储器要求，但不太依赖于复杂和计算昂贵的硬（负）示例挖掘。基于代理的度量学习已经集中在使用修改的softmax损失，其中每个logit是特征向量和权重矩阵列之间的角度的余弦其中y i是第i个示例的类。对于任何给定的例子i，我们也有W j>x i=W jxicosj，其中j是列W j与特征vec t或xi之间的角度。通过将Wj和xi归一化为单位向量并结合全局缩放参数s，对于所有logits [15，26]，等式（1）中的损失变为因为我表征“温度”的全局比例因子softmax的稀疏性然后乘以余弦作为Li=-logCj=1 埃斯科什基（二）通过交叉验证优化的固定超参数或作为可学习的模型参数[26，31]。引入乘以角度[15]、加到角度[3]或加到角度的余弦[27]的边缘参数已经被示出为改善泛化，并且同时减少类内角度和增加类间角度。当训练数据中的重尾类分布通过具有更大余量的每类余量来解决时，建模其中0✓j所有角度均为j。先前的工作在正确的-[15][16][17][18][19][1在[3]之后，合并这些保证金可以概括为重置成本i 在角度softmax损失（2）中，由zyi =cos（m1yi+m2）-m3，因此损失变为四一我样本难度的可变性，可以制定L=-logeszyi+Pj6=yi 东方日报作为特征向量大小的函数[17]。虽然已经注意到它们的个别影响，但我们不知道对它们的全面分析=log东方日报1+I四一（三）这些对softmax损失的修改影响训练的方式。几项研究已经描述了修改后的softmax损失中归一化的效果。D-Softmax [6]识别了类内和类间优化的纠缠CircleLoss[24]揭示了整个训练过程中梯度的次优幅度同样，我们在这项工作中从理论和经验两方面研究了类内和类间优化过程3. 超球面上的边缘3.1.统一角保证金Softmax损失人脸识别的标准度量学习方法是学习嵌入函数，使得示例输入i的嵌入xiRd（即，面部图像）与来自其它类的示例相比更接近于相同类（身份）的其它示例，而无需预先知道类。在先前的工作之后，我们通过优化训练集上的修改后的分类目标来学习这个函数，该训练集具有由可学习的ma表示的C个已知类其中错误类的e指数zj=cos（ωj）不具有ve边缘。每个保证金可以在训练过程中使用，勇气类的正确角度比普通的软类小最大损失。边缘通常是固定的超参数，但也可以学习[12]。以前介绍的利润率m1，m2，m3调制re-rehabilitation的周期，相位，和垂直移动的功能 cos 的（pkaryi）。我们用一个新的裕度参数m0来完成角域的框架工作，通过将zyi重新定义为zyi=m0cos（m1yi+m2）-m3，（4）并将名称AmpFace用于由等式（4）定义的模型族，其中0Rj时，梯度@Li/@Rj变为0，避免将xi和Wj驱动到相反的极点。图2表明，没有边际设置的结果是零损失的例子，这是远离原型。据我们所知，这是对softmax损失和边际惩罚的这种常见故障模式的第一个考虑因素来自ArcFace [3]的原始实现的 ad-hoc easy-margin 技巧没有扩展到乘法margin，因为在正确类logit上移除分数乘法因子（当相应的余弦为负时）会使其值更小，并且更难正确分类。Regss已经在通过超球面一致性进行推广的背景下进行了深入的研究[13]。UniformFace [4]最初不是作为正则化方法提出的，但与Regss具有相同的高级直觉。两者都鼓励原型Wj的对称分布，尽管Regss的计算更简单和更有效。在第4.4节中，我们根据经验对我们提出的两种策略与UniformFace进行了比较，并表明Regss或WC-ReLU都允许显著更大的超参数搜索空间，其中正则训练通常会由于极崩溃而失败。3552-2}{-C！1D-1（八）22p图2：示例i的损耗，其到所有原型的角距离为λ，作为每个裕度参数的函数。随着损失接近于零，对这样的示例的进一步训练不能使wxi更接近其原型W yi。这种情况可能发生在即使很小的乘法余量（m0和m1），但不能由增加m3引起。最好用彩色观看。3.3. 超球面流形在这一节中，我们利用高维空间的性质对例子i的平均最小错误类角Mwrong=Ei[minj<$j]和平均正确类角Mcorrect=Ei<$yi进行理论预测。在附录A中，我们提供了实验设置的数值模拟，以验证在大C和d的极限下获得的这些表达式。类原型W j表示d维h型r-球面上的点1.一、由于我们将W的条目初始化为i.i.d.样本从正态分布（归一化前），初始原型是近似uni-正规化后的表面上的超球的形式分布。理论上，我们将优化和泛化建模为不同保证金参数的函数，假设整个训练过程中原型的球形均匀分布。我们假设原型均匀分布在超球面上，预测了大d时从原型到最近原型的角度的近似值[2，3]。命题1设W iRd，其中i=1，. ..，C是i.i.d. 单位球面上的均匀分布则从向量Wi到其最近邻的期望角度，在一定的角度值。这个值取决于边界和预期的错误类角，如[6]中所讨论的和3.4节中所研究的虽然在优化之后正确类距离可以小于该角度值，但是由于高维超球面中的测量集中现象，它们将以很高的概率非常接近该值。2号提案<修正案1并定义最大值0<✓ < /2：@Lxi=cos（πj），8j是的，这是一艘长级的货船，✓（W）= min arccos（W>W），收敛于第i个例子。那么对于足够大的C和d，最小值ijjiij（e s2/d/C/2001）你好。min我-.Σ！ -1X2yi （d-1）FE[1]2个d（W）]-！Cd-1FDp.ΣD-1esz（C-1）es2/（2d）（十）对于较大的d和C，该表达式也近似于在一个随机向量之间的角度（它不需要是亲，totype）和最接近的原型。如果我们假设每个特征向量具有随机方向（在初始化时很可能是这样）或者只是更接近正确的原型，对于较大的维数d，单位向量xi和随机单位向量近似为从N （0，1/d）取样。因此，eszj近似为log。正态分布，平均e s/（2d）。根据大数定律，假设C足够大，和收敛于期望，我们有F3553等式（8）给出了M错了Xeszj！（C-1）βE[eszj]β（C-1）es2/（2d）（11）为了预测平均正确类距离Mcorrect，我们注意，对于一个前-关于正确原型的样本几乎消失j6=yi近似证明见附录A。3554-|-|-我我@jiang2⇥图3：当改变每个martgin参数r时，损失Li相对于正确类角度θyi的梯度。修改角度（m1和m2）的标记引入了用于大几何量i的负梯度，这进一步将特征与它们的原型分离，并且可以导致崩溃模式。最好用彩色观看其他梯度和损失图见附录C3.4. 教师和培训动态来自等式（3）的每个示例损失的梯度llogP（y ixi）相对于到正确类的距离为4. 实验4.1. 实现细节我们的特征嵌入网络的架构与ArcFace [3]网络相同：它是他们的ResNet-@Li@我 =-（1-P（y |x））·s·@zyi我=（1-P（y i|xi））·s·m0·m1·sin（m1yi+m2）（十二）100 [5]骨干作用于分辨率为112 × 112的输入图像，并输出维度为512的特征向量训练特征嵌入网络是在[3]的作者提供的MS-Celeb-1 M（C-MS 1 M）的清洁版本上训练的。这个数据库包含使用方程（10）中错误类logit的近似，图3显示了梯度@Li/@Ryi 作为一个函数，并且示出了当单独调节每个MARGIN参数时其如何变化。 @Li/@kyi的大小对于一些有争议的，取决于1P（y ixi）不等于余量，但也有一个因子，该因子随引入的余量m0线性增长，与 m 1 近似成平方，因为 m1 等于 yi/2sin（m1yi）当我一个人5，822，653张图像，85，742个身份，每张图像都已对齐并裁剪为112个112人跟随-使用标准程序[3，27，15]。我们使用同步随机梯度下降（SGD）和动量0.9从8个NVIDIA V100 GPU的随机初始化训练我们的模型。我们使用批量大小512和重量衰减5e4。我们的训练计划从学习率0开始。1、跑步100 K步，然后以0. 01最后m1yi2[0，n]，并且与m2非线性。的依赖以0. 001测试我们根据以下基准进行评估：1边缘上的梯度幅度意味着当训练超参数保持固定时，具有不同边缘的模型将以不同的速率收敛。因此，有两个公平的训练计划来比较模型。第一个是足够长的时间，以确保模型接近收敛，并可能产生最好的性能，但可能是昂贵的或耗时的。第二种是具有有限计算预算的较短时间表。受[26，6]的启发，我们感兴趣的是当@Li/@Lyi在训练期间随着Lyi的减少而变为零时，因为th i s是类内优化的终止点。这个角度也是我们对平均正确类距离Mcorrect的理论估计，它定义了原型Wyi周围的球冠边缘，其中e个例子xi如命题2所示累积。图3显示，该角度随m2线性减小，而随其他边缘非线性减小。在第4.3节中，我们将这些估计值Mcorrect与在不同裕度下的emptycorrect-class角进行了• LFW [7]包含5，749个分区的13，233个图像。我们遵循• CFP-FP [23]包含500个身份的10个正面图像和4个侧面图像。• DBDB-30由568个独特主题的16，488张图像组成。• CALFW [33]和CPLFW [32]，从LFW重建，具有额外的年龄和姿势变化。• YTF [29]包含来自1,595个身份的3,425个视频。我们计算所有视频帧的嵌入特征的平均值，然后通过其特征中心对它们进行评估。1所有数据集都是公开的，仅用于对我们的与文献中先前的工作进行公平比较的模型我们的工作仅用于非商业研究目的。3555⇤Ni=1Ni=1我方法验证结果IJBMegaFaceLFW CALFW CPLFW CFP-FP YTFIJB-B IJB-CId版本[第10话]CurricularFace [8]99.85 96.20 93.17 98.2899.80 96.20 93.13 98.3294.93 96.2694.8 96.198.74 98.7998.71 98.64AmpFace（m0 = 0.375）球面（m1 = 1. 35）ArcFace（m2 = 0. 第五章）CosFace（m3 = 0. 35）99.76 ±0.02 95.53 ±0.09 90.93 ±0.20 97.82 ±0.17 97.72±0.2097.71±0.2099.74 ±0.05 95.49 ±0.03 90.72 ±0.14 97.68 ±0.10 98.19±0.1097.83±0.1999.80 ±0.02 95.75 ±0.04 91.42 ±0.27 98.09 ±0.10 98.45±0.1697.88±0.0299.79 ±0.01 95.75 ±0.05 91.60 ±0.09 98.06 ±0.13 98.31±0.1397.85±0.0993.02±0.49 94.54±0.4794.14±0.1094.10±0.07 95.63±0.1494.22±0.28 95.75±0.1297.93±0.05 98.06±0.0796.51±0.09 96.89±0.1398.38±0.13 98.53±0.1598.16±0.10 98.39±0.06AmpFace（m0 = 0.375）ArcFace（m2 = 0. 5）CosFace（m3 = 0. 5）99.77 ±0.03 95.70 ±0.07 92.00 ±0.28 98.08 ±0.14 98.40±0.0697.86±0.1799.82 ±0.01 95.82 ±0.04 92.05 ±0.11 98.21 ±0.14 98.67±0.0697.88±0.1399.76 ±0.05 95.72 ±0.08 92.07 ±0.11 98.19 ±0.05 98.52±0.1697.85±0.1794.44±0.23 95.91±0.1894.91±0.06 96.18±0.0294.51±0.33 95.93±0.1998.83±0.06 98.93±0.0598.80±0.07 98.98±0.0498.91±0.06 99.02±0.04表1：常见人脸识别和验证基准结果（%）。对于IJB，报告TAR@FAR= 1 e-4。对于MegaFace，“Id”是指针对1 M干扰项的等级1识别准确度，“Ver”是指报告TAR@FPR= 1 e-6的面部验证任务。为了进行公平的比较，第一组仅包含在MS-Celeb-1 M [3]的清理版本上训练的最新模型。第二组和第三组包含三次相同运行的平均结果。所有运行均遵循第4.1节中描述的方案，步长为180K，批量为512，但所示运行除外，其使用300K步长和批量1536训练收敛。AmpFace模型使用Regss进行训练。• MegaFace [9]包括690,572个唯一身份的1，027，060张图像。• IJB-B [28]包含1，845个主题，21，798张图像，以及来自7，011个视频的55，025帧。• IJB-C [16]包括3，531名受试者的31，334张图像和11，779段视频，与IJB-B相比，受试者的遮挡和多样性更大。4.2. 模型基线尽管最近的文献旨在与其他工作进行公平的比较，但我们无法找到一致的报告基线。例如，在RefinedMegaFace Identification任务（R-MegaFace-Id）[3]中：ArcFace [3]报告98. 35%，在CASIA-WebFace上训练的模型[30]。CosFace [27]使用了一个私人数据集，并报告了82。72%，不排除噪音。[10]第98话. 74%，尽管网络架构被签署，非常不同;他们使用预训练，在训练时间表的每个分支中的步数（300 K），以便更接近收敛;这些模型实现了更好的性能。在表1的第三组中，AmpFace具有与先前最先进的边缘ArcFace和CosFace相同的性能。这三款车的性能都可以与第一组中最先进的车型相媲美。4.3. 保证金比较我们努力清楚地了解不同的利润率如何影响相应的训练模型优化和一般化。在图 4 中，我们在 R-MegaFace-Id （底部行）上显示了 AmpFace ，SphereFace，ArcFace和CosFace在一定范围的边缘值下的最终训练模型。根据最近的一些工作[31，6，24]，我们还通过以下方式测量（顶行）相应的经验类内和类间角距离平均值：• M内部=1PN内部1024和不同的学习速率时间表。课程-Face [8]采用了24个epoch的训练时间表，• Minter=1PN最小j日当批大小为512时，相当于270K步，报告98。百分之七十一[24]第98话. 50%，其中排除C-MS 1 M的尾部鉴别。为了建立更一致的基线，我们在第4.1节所述的相同训练配置下仔细评估了表1中的SphereFace、CosFace和ArcFace（bs=512， 180K步）。我们包括使用第3.1节中提出的新的乘法余量m01训练的模型，我们将其命名为AmpFace。<如第3.4节中所指出的，裕度参数影响@Li/@Lyi的大小，因此可能需要对训练超参数进行一些调整以使模型完全收敛。出于比较的目的，我们还训练了具有增加的批量大小（1536）和数量的模型。我3556最后，我们将其与理论上的反-在第3.3节（中间一行）中根据球形等分布原型的假设推导出的零件将这些预测的角度距离与M_intra和M_inter的经验值进行比较，我们可以观察到：1. 类间距离似乎并不强烈依赖于边缘超参数的值。2. 测试集的类间距离低于相应的训练集的类间距离，这是由测试集的更大尺寸和命题1所预测的。3. 我们的理论类内角度曲线的斜率近似地反映了经验结果，其中3557图4：对训练集和测试集上观察到的类间和类内角度的边际值的依赖性（顶行），我们对3.3节中这些量的预测（中间行），以及MegaFace Id基准测试的性能（底行）。预测是可能的。对于ArcFace，类内距离和边距之间的预测线性关系似乎一直保持，直到模型达到峰值性能。文献中对在正确的类logit上引入裕度的价值的普遍解释是，这样做鼓励训练集上相应的训练模型具有较小的类内距离。这种解释似乎意味着，进一步增加裕度应该始终提高模型性能，并且改进的训练集类内距离意味着改进的测试集类内距离。然而，我们观察到，图中的SphereFace和AmpFace图四是要驳斥这一观点。当我们增加SphereFace的裕度超过最佳模型性能值m 1 = 1时。35时，类内角度保持减小，但模型精度显著下降。更引人注目的是，decreas- ing AmpFace的最佳值m0=0。35极大地改善了模型性能，而最终类内距离没有显著变化。这表明，虽然这些乘法利润率或多或少与内部相关类距离，它们至少部分地由于不同的原因而有助于泛化。图5中，我们展示了在第3.4节中理论推导的损失曲线，作为正确类角的函数，对于m0，m2和m3的每个经验验证的最佳边缘值（详见附录B）。我们还将类间期望角度绘制为蓝色虚线由命题1给出（Minter=78。64○），并且作为红色虚线，对应的半角M_inter/2=39。32○。请注意，这个半角与定义我们的Mintra的优化终止点非常接近。的对于用最佳裕度设置m0=0训练的模型检查点，在观察到的训练类内和类间距离之间近似保持相同的半角关系。35，m2=0。6，m3=0. 5通过谨慎的线性边缘扫描以步长0 识别。 05. 我们的假设也表明最佳值m1=1。85，这超出了我们的球面训练收敛的参数范围。然而，最近的工作[14]通过在m 1> m时平坦化损失函数，使模型能够收敛于较大的m1值。这表明Sphere Face可以达到与ArcFace相匹配的最大性能3558-保证金平原WC-ReLURegssSoftmax-88.5888.9588.54SphereFacem 1 = 1。3596.5396.8996.45ArcFacem 2 = 0。5098.2498.3098.30CosFacem 3 = 0。3598.1198.1098.06图5：预测损失，作为正确类角度的函数，用于实现最佳模型性能的边缘红色垂直虚线标记预测的类间距离的一半（M_inter/2=78. 64○/2=39。32○）对于C=85，742在（5121）-单位球面，非常接近到优化终止点和预测的帧内-AmpFace，ArcFace，CosFace的类距离，以及最近的SphereFace正则化公式[14]。和CosFace对于m1= 1。9（[14]的表8），这与这里预测的值几乎相同。因此，我们推测，最佳的利润率值可靠地产生一个损失函数的优化termi- nation点在一半的平均类间角。这个角度可以理解为两个原型之间的决策边界，在此之后，更高的裕度将导致列车分类错误。然而，即使对于较大的角度，两个高维度的球冠也具有较小的相交面积[11]。一个清晰的解释，因此，挑战我们目前的理解，但如果真的在一般情况下，我们的猜想是有价值的两个原因。首先，它预测每个保证金参数的最佳值，避免了在多个基准上进行费力且昂贵的网格搜索的需要。其次，它可能揭示的原因，利润率是有助于优化和推广。4.4. Reg ss与WC-ReLU在这里，我们在MegaFaceId基准测试中使用100万个干扰项对我们提出的两种正则化策略与UniformFace[4]进行了经验比较。表2显示，在没有这些额外正则化器的情况下表现良好的模型在添加任何一种策略后仍然表现同样好当m0被用作裕度时，6表明这两种策略都能有效避免崩溃，而Uni- formFace的效果要差得多。对于极端的m0值，WC-ReLU仍然表现良好，而Regss失败。如果原型在低维中以更复杂的对称方式而不是朝着一个单一的点坍塌，那么Regss可能会失败，尽管研究更一般的退化解空间不在本文的范围之内我们认为，在实践中，任何一种策略，特别是WC-ReLU，都允许更大的搜索空间用于最优边缘超参数，并且有利于系统研究。表2：两种建议的正则化策略的MegaFace Id比较。当原始训练效果良好时，添加任何一个都不会损害性能。图6：比较3.2节中提出的两种正则化策略，以避免训练过程中的崩溃WC-ReLU在极端保证金值方面优于Regss，而UniformFace [4]的有效性低于两者。5. 结论我们的分析揭示了几个新的重要见解：针对特定裕度范围的训练失败模式和两种正则化策略来解决它;当适当地正则化时具有竞争结果的新的乘法余量;类内和类间距离的预测;以及对通常持有的较小类内距离的假设的澄清，导致更好的泛化。我们的工作进一步表明，有一个固定的类间角度，优化应该停止，它通知AmpFace，ArcFace和CosFace的利润率的最佳值。也就是说，这个角度似乎是由类内距离等于类间距离一半的点给出的这在实践和我们的理论预测中似乎都是正确的，并代表了未来研究的潜在方向。虽然需要进一步的工作来充分理解度量学习应用中的一般化，但这里提出的理论框架是更清楚地了解softmax损失中的边际及其在优化过程中对球面流形的影响我们还希望这里介绍的评估设置将帮助研究人员快速、公平地对先前的工作进行基准测试。鸣谢：作者感谢Arun Isaac就他的球形圆锥体均匀采样算法进行了有用的对话，并公开了代码。3559引用[1] Xiang An ，Xuhan Zhu ，Yang Xiao ， Lan Wu ， MingZhang，Yuan Gao，Bin Qin，Debing Zhang，and YingFu. Partial fc：在一台机器上训练1000万个身份。arXiv预印本arXiv：2010.05222，2020。[2] Johann S Brauchart，Alexander B Reznikov，Edward BSaff ， Ian H Sloan ， Yu Guang Wang ， and Robert SWomersley.球洞半径上的随机点集，覆盖和分离。实验数学，27（1）：62[3] 邓健康，贾国，薛念南，Stefanos Zafeiriou。ArcFace：用于深度人脸识别的附加角余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页[4] 段跃奇，陆继文，周杰。统一面：学习深度等分布表示用于人脸识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第3415-3424页[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on Computer Vision and PatternRecognition，第770-778页[6] 何岚清，王中道，李雅丽，王胜金。Softmax夹层：对嵌入式学习的类内和类间目标的理解。在AAAI人工智能会议论文集，第34卷，第10957-10964页[7] Gary B Huang，Marwan Mattar，Tamara Berg，and EricLearned-Miller.在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。在“现实生活”图像中的面孔研讨会：检测、对准和识别，2008年。[8] Yuge Huang，Yuhan Wang，Ying Tai，Xiaoming Liu，Pengcheng Shen ， Shaoxin Li ， Jilin Li ， and FeiyueHuang.课程表：深度人脸识别的自适应课程学习损失。在IEEE/CVF计算机视觉和模式识别（CVPR）会议录中，第5901-5910页[9] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard. MegaFace基准测试：100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议论文集，第4873-4882页[10] Yonghyun Kim，Wonpyo Park，Myung-Cheol Roh，andJongju Shin. GroupFace：学习潜在群体并构建用于人脸识别的基于群体的表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第5621-5630页[11] 李永载和金宇昌两个超球冠相交表面积的简明公式KAIST技术报告，2014年。[12] Hao Liu，Xiangyu Zhu，Zhen Lei，and Stan Z Li.自适应-面部：人脸识别的自适应间隔和采样。在IEEE/CVF计算机视觉和模式识别集，第11947[13] Weiyang Liu ， Rongmei Lin ， Zhen Liu ， Li Xiong ，Bernhard Scho？l k opf，andAdrianWelle r. 超球面一致性学习在AISTATS，2021年。[14] Weiyang Liu ， Yandong Wen ， Bhiksha Raj ， RitaSingh，and Adrian Weller.SphereFace revived：Unifyinghypersphere face recognition.IEEE Transactions on PatternAnalysis and Machine Intelligence，2022。[15] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐。Sphereface：用于人脸识别的深度超球面嵌入。在IEEE计算机视觉和模式识别会议论文集，第212-220页[16] Brianna Maze ， Jocelyn Adams ， James A Duncan ，Nathan Kalka，Tim Miller，Charles Otto，Anil K Jain，W Tyler Niggel，Janet Anderson，Jordan Cheney，et al.IARPA Janus Benchmark-C：面部数据集和协议。2018年国际生物识别会议（ICB），第158-165页。IEEE，2018年。[17] Qiang Meng ， Shichao Zhao ，Zhida Huang， and FengZhou. MagFace：人脸识别和质量评估的通用表示。在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第14220-14229页[18] Stylianos Moschoglou，Athanasios Papaioannou，Chris-tos Sagonas，Jiankang Deng，Irene Kotsia，and StefanosZafeiriou. Agedb：第一个手动收集的野生年龄数据库。在IEEE计算机视觉和模式识别研讨会会议集，第51-59页[19] 放大图片创作者：Thomas K. Le- ung，Sergey Ioffe，and Saurabh Singh.没有大惊小怪的距离- ric学习使用代理。在IEEE国际计算机视觉会议（ICCV）的会议记录中，2017年10月[20] Kevin Musgrave，Serge Belongie，and Ser-Nam Lim.一个计量学习的现实检查。在欧洲计算机视觉上，第681-699页。Springer，2020年。[21] 作者：Rajeev Ranjan，Carlos D卡斯蒂略和拉玛·切拉帕L2约束的softmax损失用于区分性人脸验证，2017年。[22] FlorianSchroffDmitryKalenichenkoJamesPhilbinFaceNet：用于人脸识别和聚类的统一嵌入在IEEE计算机视觉和模式识别会议论文集，第815-823页[23] SoumyadipSengupta ， Jun-ChengChen ， CarlosCastillo，Vishal M Patel，Rama Chellappa，and DavidW Jacobs.野外正面到侧面人脸验证。2016年IEEE计算机视觉应用冬季会议（WACV），第1-9页。IEEE，2016.[24] Yifan Sun ， Changmao Cheng ， Yuhan Zhang ， ChiZhang，Liang Zheng，

下载后可阅读完整内容，剩余1页未读，立即下载