自适应间隔和采样的人脸识别方法

159 浏览量更新于2023-10-18 收藏 1.5MB PDF 举报

人脸识别

不平衡数据

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11947AdaptiveFace：基于自适应间隔和采样的人脸识别刘昊1，2朱翔宇1，2甄磊1，2张斯坦Z。Li1、2、31CBSR NLPR，中国科学院自动化研究所，北京，中国。2中国科学院大学，中国北京。3中国澳门特别行政区澳门科技大学信息技术学院{hao.liu2016，xiangyu. zhu，zlei，szli}@ nlpr.ia.ac.cn摘要训练大规模不平衡数据是人脸识别的中心在过去的两年中，由于引入了基于边缘的Softmax损失，人脸识别取得了显着的进步然而，这些方法有一个隐含的假设，即所有类都有足够的样本来描述其分布，因此手动设置的裕度足以平等地挤压每个类内变化。然而，真实的人脸数据集是高度不平衡的，这意味着类具有非常不同的样本数量。在本文中，我们认为，利润率应适应不同的类。我们提出了自适应边缘Softmax来自适应地除了不平衡的挑战外，人脸数据通常由大规模的类和样本组成。智能地选择有价值的类和样本参与训练，使训练更加有效和高效。为此，我们还从两个方面使采样过程自适应：首先，我们提出了硬原型挖掘，自适应地选择少量的硬类参与分类。其次，在数据采样方面，我们引入了自适应数据采样，自适应地寻找有价值的样本进行训练。我们将这三个部分结合在一起作为 AdaptiveFace。在LFW 、LFW BLUFR 和MegaFace上的大量分析和实验表明，在相同的网络结构和训练数据集下，该方法的性能优于现有的方法。代码可从https：//github.com/haoliu1994/AdaptiveFace网站。1. 介绍人脸识别作为最常见的计算机视觉任务之一，近年来取得了巨大的进步[8，3，24，36，44，33，23，18，45，40，19，5，2]。是值得注意的是，在过去的几年里，大多数方法*通讯作者重点是损失函数，旨在减少类内变化和扩大类间变化。作为里程碑式的贡献之一，基于边缘的Softmax[17，16，34，32，4]明确地向每个身份添加边缘以提高特征区分度。例如，L-Softmax [17]和SphereFace [16]添加乘法角余量以挤压每个类。CosFace [34，32]和ArcFace [4]通过分别添加附加余弦裕度和角度裕度来实现最先进的性能，以实现更简单的优化。尽管如此，这些方法有一个隐含的假设，即所有类别都有足够的样本来描述它们的分布，因此恒定的边际足以平等地挤压每个类内变化。然而，公共人脸数据集是高度不平衡的，这表明它们总是具有如图1所示的巨大不同对于那些样本量足够大的丰富类，现有训练样本所覆盖的空间可以代表真实的分布。然而，对于那些样本稀少的差类，现有训练样本所跨越的空间可能只是真实分布的一小部分因此，均匀的边界对于约束具有不同样本分布的类是不完善的我们倾向于使用更大的间隔来强烈挤压那些代表性不足的类的类内变化，以提高泛化能力。在本文中，我们提出了一种新的损失函数，自适应边际Softmax损失（AdaM-Softmax），自适应地找到适当的利润率为不同种类的。具体来说，我们使每个类的边缘m是特定的和可学习的，并直接训练CNN来找到自适应边缘。形式上，我们定义每个类的边际mi，使得决策边界给定cosθ1−m1=cosθ2，其中θi是类别i的特征和权重之间的角度。在实验中，我们发现AdaM-Softmax优于基线方法。此外，大规模的人脸数据通常包含成千上万的类和数百万的样本，其中只有一小部分可以用于区分性训练。如何选择有价值的类和样本进行训练是另一个重要的课题，11948图1.CASIA-WebFace、MS-Celeb-1 M和MegaFace数据集中每个身份的照片分布我们可以看到，这三个数据集的分布极不平衡。对Softmax损失的关注很少。在本文中，我们还使采样过程自适应。采样是指Softmax层的原型选择和数据层的数据采样。首先，在深度度量学习中，硬样本挖掘是提高模型训练效率和性能的重要部分Zhu等[47]验证损失和分类损失遵循相同的配对匹配和加权框架。唯一的区别在于配对候选项（特征内与特征与原型）和加权方法（硬权重与软重量）。因此，本文尝试将硬示例挖掘策略应用于Softmax损失中。具体来说，我们提出了硬原型挖掘（HPM），以自适应地选择少量的硬类partic-ipate在分类，使优化集中在硬类。请注意，我们把每个类的权重向量作为它的原型。其次，从大规模数据中学习是当前人脸识别任务的关键，因此由于时间和计算设备的限制，训练效率变得越来越重要受小批量级硬样本挖掘的启发，本文提出了自适应数据采样（ADS）算法，该算法通过从分类层到数据层的反馈通道，为网络训练寻找有价值的样本。基于这三个组件，我们将所提出的人脸识别框架称为AdaptiveFace，如图2所示总之，我们的目标是使人脸识别框架更灵活地处理大规模和不平衡的我们的主要贡献如下：(1) 我们引入了自适应边缘，使模型学习每个类的特殊边缘，以自适应地挤压其类内变化。(2) 我们提出了硬原型挖掘，通过在分类训练过程中自适应地挖掘少量的硬原型，(3) 我们建立了一个从分类层到数据层的反馈通道，为网络训练寻找有价值的样本。在LFW、LFW BLUFR和MegaFace上的实验表明，该方法有效地提高了识别精度，达到了最佳性能。2. 相关作品在本节中，我们将回顾基于深度学习的人脸识别，并讨论两个相关问题：（1）损失函数;（2）硬样本挖掘。损失函数。损失函数在人脸识别中起着重要的作用。我们将从两个方面介绍损失函数。第一个是验证损失函数。对比损失[3，6，27]优化了成对的欧几里得分布-特征空间中的距离。三重损失[24，9，35]组成三重，将正对与负对分开一定的距离。二是分类损失函数。在这个方案中最流行的损失是软最大损失[28，30，31]。在此基础上，中心损失[36]提出学习特定于类的特征中心，以使特征在嵌入空间中更加紧凑。L2-softmax [23]在特征上添加了一个L2约束，以提升代表性不足的类。NormFace [33]规范化特征和原型，使训练和测试阶段更接近。近年来，人们发现，增强不同类别之间的余弦和大间隔Softmax [17]和A-Softmax [16]向每个身份添加乘法角间隔，以提高特征区分度。CosFace [34]和AM-Softmax [32]添加了附加余弦裕度，以实现更好的优化。ArcFace [4]将附加余弦余量移动到角度空间中，以获得清晰的几何解释和一系列人脸识别基准测试的更好性能采矿的硬例子。硬样本挖掘是深度度量学习的重要组成部分，可以提高模型的训练效率和性能。的方式寻找困难的例子通常是使用在线困难的例子挖掘（OHEM）[10，39]。然而，在实践中，由于大规模数据中的噪声量，最好使用在线半硬示例挖掘[24，21，22]，其中示例对是从“足够硬”的对中随机选择的11949图2.我们的AdaptiveFace概览它由ADS，HPM和AdaM-Softmax组成小批量此外，不仅硬对包含有用的信息[46]，利用不同水平的“硬度”也被证明是有益的[37，41，7]。所有这些方法都改进了硬样本挖掘，还有其他方法用于挖掘硬类。N-pair loss [26]使用“硬类挖掘”来找到类对以生成小批量。Dop-pelganger Mining [25]维护一个列表，其中包含每个身份的最相似身份，以生成更好的小批量。3. 所提出的方法在本节中，我们将详细介绍我们的方法。在第3.1节中，我们讨论了为什么相同的保证金不能很好地适用于具有不同数量样本的类，并介绍了我们的自适应保证金Softmax，以端到端的方式为每个类找到特殊和适当的保证金在第3.2节中，我们提出了硬原型挖掘来智能地选择Softmax损失中的硬类。最后，我们引入了一个反馈通道，以找到有价值的样本，数据采样在3.3节。3.1. 自适应余量Softmax3.1.1直觉与动机最近关于基于保证金的Softmax损失[17，16，34，32，4]的工作已经取得了显着的改进，其中手动调整m为所有类别设置，以挤压类内变化。在这些方法中有一个隐含的假设，即所有类的样本分布是相同的，因此手动设置的保证金足以约束所有类。然而，如图1所示，现有的人脸训练数据对于那些样本丰富且类内变化较大的类，现有训练样本所跨越的空间可以代表其所有样本的真实分布，但对于那些样本稀少且类内变化较小的差类，现有样本所跨越的空间可能只是该类真实分布的一小部分。注意，具有小轨道的连续帧的那些类仍然被认为是差类，因为这些帧提供很少的类内信息。当对所有类设置均匀边界时，由于差类的实际生成空间可能大于观测空间，差类的特征分布可能不如富类的紧凑，从而导致泛化能力差.我们通过二元分类任务进一步可视化该现象，如图3（a）所示。蓝色区域表示样本稀少且类内变化较小的差类C1半透明的蓝色区域表示C1的底层真实特征空间，由于样本稀少而无法观察到。红色区域表示具有丰富样本和大类内变化的类C2由于C2中有丰富的样本，我们认为观察到的特征空间与底层的真实特征空间几乎相同，因此半透明的红色区域与红色区域相同。可以看出，CosFace损失不能很好地压缩C1的特征，因为它不能看到真实的边界样本。作为因此，C1为了解决这个问题，我们提出了自适应余量Softmax损失（AdaM-Softmax），它将固定余量m改进为可学习的和类相关的参数。3.1.2自适应容限Softmax损耗让我们从最广泛使用的Softmax损失开始。Softmax损失通过最大化地面真实类的后验概率来分离不同类的特征。给定输入特征向量Xj及其对应的la，11950我e（jJe（j）（j）其中，my（j）是对应于类别y（j）的质量。直觉上，我们更喜欢较大的m以减少类内变化。在这项工作中，我们限制数据库视图中的边距1ΣNLm=−Ni=1中国（5）图3.从特征角度对AdaM-Softmax进行几何解释。蓝色区域表示特征空间，半透明的蓝色区域是底层的真实特征空间，贫类C1，红色区域表示富类的特征空间C 2。（a）CosFace为两个类别分配相同的保证金从而由于没有观察到真实的边界样本，所以不能很好地压缩较差的类。(b)AdaM-Softmax分配更大的余量来进一步压缩穷人类，这隐含地优化了底层的真实空间。在没有偏差的情况下，Softmax损失可以公式化为：这是所有类别的平均利润率。结合这两部分是我们的自适应边际Softmax损失（AdaM-Softmax）：LAdaM=Lad+λ<$Lm（6）λ控制裕度约束Lm的强度，这在实验中讨论。注意，如果没有Lm，则存在mi=0的平凡解。所提出的自适应裕度可以应用于任何基于裕度的Softmax损失，例如ArcFace，只需将余弦裕度更改为角度裕度。3.1.3与其他损失函数的比较1ΣM1ΣMWTX.e y（j）为了更好地理解我们的方法L软=−Mj=1logpij=−Mj=1日志 ΣNi=1WTx我 J（一）和其他基于边际的Softmax损失，我们在表1中给出了二进制分类情况下其中pij表示xj被正确分类到类y（j）中的后验概率I. 对Wi和Xj应用L2归一化以优化球面上的特征，特征距离可以用公式表示作为特征角如下：WTxj=<$Wi<$$>xj<$cosθij=cosθij（2）其中θij是Wi和xj 之间的角度。基于这个公式，一些方法引入了余量来提高类内紧性，例如A-Softmax[16]，Cos-[34][32]和ArcFace [4]。以CosFace为例：和图4。这些方法之间的主要区别是我们的差距是可学习的，也是与阶级相关的。从图4中可以看出，尽管CosFace和ArcFace在两个类之间给出了明显的边缘，但对于差的类C1，其真实分布可能大于观察到的分布，因此真实边缘越来越小，导致泛化能力差。相应地，对于AdaM-Softmax，它可以通过网络训练期间的参数更新来学习C1的更大的m1，使得C1的观测特征更紧凑，并且隐含地将C1的真实边界推离C2。此外，为了直观地可视化AdaM-Softmax的效果，我们设计了一个玩具实验来演示不同损失函数训练的特征分布。我们从MS-Celeb-1 M中的8个身份中选择人脸图像1ΣMes（cos（θy（j）j）−m）训练几个10层的ResNet模型，输出3-Llmc=−Mj=1logs（cos（θ）−m）yJΣN+i=1，iy（j）escos（θij）（三）尺寸特征其中，0类（红色）包含的样本最多（超过400个），1类、2类（橙色、金色）其中s是比例因子。CosFace中的边缘m通常是手动设置的，并在训练过程中保持恒定。为了解决3.1.1节中描述的问题，我们的目标是将裕度改进为一个可学习的和类相关的参数。Equ 3可以修改为：含有丰富的（约200个）样品，3类107（5个冷柱，ORS）包含差的（约50个）样本（该比率大致相似，计算MS-Celeb-1 M的样本数分布）。我们将获得的三维特征归一化，并将其绘制在球体上。参与的损失是Softmax 损失、 CosFace 和具有不同 λ 的建议 AdaM-Softmax。如图5所示，我们可以观察到软-1ΣMes（cos（θy（j）j）−my（j））max loss优先选择富类（如类0），并分配Lad=−Mj=1logs（cos（θ）−m）yjyΣN+i=1，iy（j）escos（θij）e11951（四）为他们提供了很大的空间，导致了糟糕的决策边界。CosFace减少了类内变化，11952空间为每个类，而不考虑其样本分布。例如，浅蓝色点和红色点几乎占据相同的空间区域。AdaM-Softmax专注于优化较差的类（冷色），使其更加紧凑。通过比较CosFace和AdaM-Softmax（λ=5），我们可以看到，富类0（红点）所占的面积几乎相同，而对于穷类（蓝点、亮点Qi。当每次迭代开始时，我们选择与小批量中的样本相对应的主导队列中的原型来构造该迭代的权重矩阵W第前向传播后，我们更新的优势队列的分数计算的内积在分类层。首先，对于一个特征xj，如果它的高-est激活类cp是其对应的类y（j），其中蓝色和紫色），我们的方法的特点是更COM-不需要更新。其次，如果cpy（j），我们发现所有约定此外，通过增加λ，差类样本的特征几乎聚集在一个点上。损失函数决策边界Softmax[16]第十六话F-NormSphereFaceCosFace [32，34]ArcFace [4]AdaM-Softmax（CosFace）AdaM-Softmax（ArcFace）（W1−W 2）x+b 1−b 2=0xs（cos（θ1+m 1）−cosθ2）= 0表1. 二元分类情况下第1类的决策边界。注意，θi是Wi和x之间的角度，s是比例因子，m是恒定裕度，并且m1是类别C 1的裕度。图4.两类不同损失函数的决策裕度比较。C1是一个贫穷的阶级，C2是一个富有的阶级。黑色虚线表示在数据库中观察到的样本中，蓝色虚线表示C1的所有可能样本的潜在真实决策边界，灰色区域是决策裕度。3.2. 硬原型挖掘在验证损失（对比[27]，三元组[24]）中，已经对采样进行了广泛的研究硬样本挖掘的目的是挖掘最有价值的对或三胞胎。为了将硬样本挖掘的思想应用于Softmax损失挖掘中，提高效率和性能，提出了硬原型挖掘（HPM）方法，在每一次挖掘中选择与小批量样本最相似的类。HPM是对[47]中原型选择策略的改进。具体来说，我们认为Wi作为其原型。我们为所有类的原型构建一个ANN图，并找到最相似的类，并将它们放入各自的我们称这些队列为支配队列，对得分大于cos（θy（j）j）的类进行排序更新队列。最后，与文献[47]不同的是，我们设置了一个超参数h来控制每个类的支配队列的大小对于队列中的每个类，如果它与队列所有者的相似性大于h，则它将保留在排队，否则会弹出。利用h可以控制所选原型的相似度，并通过调整h来逐步增加训练的难度。整个HPM只增加很少的计算量。3.3. 自适应数据采样当网络大致收敛时，数据集中的大多数样本已经被很好地分类，很难对网络训练做出贡献。为了提高训练的有效性和效率，我们建立了一个从分类层到数据层的反馈通道，以自适应地发现有价值的样本，形成小批量，我们称之为自适应数据采样（ADS）。具体来说，我们为每个样本分配抽样概率。在训练过程中，当样本在本次迭代中被正确分类时，我们将信号传递到数据层并降低其采样概率。否则，我们增加其采样概率，使得频繁正确分类的样本将随着训练的进行而逐渐被忽略我们还设置了最小采样概率smin，以防这些简单样本从未被采样。此外，由于大规模的人脸数据不可避免地含有大量的噪声数据[42]，随着训练的进行，噪声样本将不断被错误分类，并且具有很大的采样概率。为了减轻噪声数据的影响，我们增加了对噪声样本的反馈。对于小批量中的每个样本，如果其特征与其对应的原型之间的得分低于阈值，则将消息传递给数据层以大幅降低该样本的采样概率。4. 实验4.1. 实验设置预处理我们通过FaceBox [43]检测器检测人脸，并通过一个简单的6层CNN定位5个地标（两只眼睛，鼻尖和两个嘴角）。所有的人脸通过相似性变换进行归一化，并裁剪为120×120RGB图像。CNN架构PyTorch [1]用于实现11953图5.几种损失函数的特征分布可视化。为了更好地观察，我们显示了同一球体的两个透视图。第一行关注样本丰富的类（红色、橙色和金色），第二行突出显示样本中缺少的类（冷色）。我们提出的方法。实验中的所有CNN模型都遵循本文中相同的架构，这是一个50层残差网络[8]，与[4]中的LResNet 50 A-IR相同。它有四个残差块，最后通过平均池化得到一个512维的特征。网络在TITANX GPU上训练，批量大小设置为填充所有GPU内存。训练数据对于本文中的所有模型，我们在MS-Celeb-1 M数据集上训练它们[5]，这是包含98，685位名人和1000万张图像的最大的野生数据集之一。由于存在大量噪声，因此数据由[38]的列表进行清理。剩下79077个身份和500万张图片。这些面部图像被水平翻转以用于数据增强。评估设置对于每个图像，我们只从原始图像中提取特征作为最终表示。我们该分数由两个特征的余弦距离测量。最后，人脸验证和识别进行阈值和排名的分数。我们在LFW [12]，LFW BLUFR [14]和MegaFace[13]上评估我们的模型。4.2. 总体基准比较4.2.1MegaFace上的实验MegaFace [13]是大规模人脸识别和验证的最具挑战性的测试基准之一MegaFace的图库集是Flickr照片的子集，由超过一百万张人脸图像组成。探测集是两个现有的数据库：[20]第20章：你是我的女人Face-Scrub数据集包含530个名人的106，863张人脸图像。FGNet数据集主要用于测试年龄-变体人脸识别，来自82人的1002张人脸图像。在这项研究中，我们使用FaceScrub数据集作为探针集来评估我们的方法在MegaFace Challenge 1上的性能。然而，FaceScrub和MegaFace中有一些噪声图像，因此我们使用ArcFace [4]提出的噪声列表来清理它。为了公平比较，我们使用相同的50层CNN实现了Softmax，A-Softmax，Cos- Face，ArcFace和我们的AdaptiveFace。表2显示了我们在MegaFace large协议上训练的模型的结果。与Softmax、SphereFace、CosFace和ArcFace等相关基准方法相比，本文提出的自适应人脸在识别和验证任务与CosFace相比，AdaptiveFace将MF 1的Rank1从93.942%提高到95.023%，将MF 1的验证性能从94.115%提高到95.608%，证明了该方法的有效性。4.2.2LFW和LFW BLUFR的实验LFW [12]是无约束条件下常见的人脸验证测试数据集。它包括从网站收集的5749个身份的13，233张人脸图像，其中姿势，表情和照明变化很大。我们遵循不受限制的标准协议，使用标记的外部数据[11]来评估我们的模型，并报告来自LFW的6，000对测试图像的结果。如表 3 所示， AdaptiveFace 将 LFW 的性能从99.53%提高到99.62%。考虑到LFW已经很好地解决了，我们进一步评估了我们在更有挑战性的LFWBLUFR协议[14]上的方法，该协议侧重于低FAR。我们在表4中报告了结果。可以看出，我们的方法优于所有当前最先进的方法。11954方法议定书MF1等级1MF1验证北京飞全标准1600大64.8067.11[24]第24话大70.4986.47NTechLAB - facenx large大73.3085.08SIATMMLAB企业愿景大74.2087.27DeepSense V2大81.2995.99优图实验室大83.2991.34Vocord-deepVo V3大91.7694.96CosFace[34]大82.7296.65Softmax大71.36673.048[第16话]大92.24193.423CosFace[34]大93.94294.115ArcFace[4]大94.63794.850自适应脸大95.02395.608表2. MF1上的人脸识别和验证评估。“Rank 1” refers to rank-1face identification accuracy and 指 10−6FAR 下的面部验证TAR。方法训练数据型号数量LFW[30]4M397.35[24]第二十四话200M199.63[22]第二十二话2.6M198.95[29]第二十九话300K2599.47中心面[36]0.7M199.28百度[15]1.3M199.13[第16话]0.49M199.42CosFace[34]5M*199.73Softmax5M198.83[第16话]5M199.57CosFace[34]5M199.53ArcFace[4]5M199.57自适应脸5M199.62表3. LFW数据集上的人脸验证（%）。“#Models” indicates方法VR@FAR=0.001%VR@FAR=0.01%FAR=1%Softmax83.4193.5580.16[第16话]97.1899.1296.72CosFace[34]98.2799.3597.76ArcFace[4]98.4899.4798.02自适应脸98.8999.5398.19表4.LFW BLUFR协议的性能（%）4.3. 消融研究为了证明我们的框架中的三个组件的有效性，我们运行了一些消融来分析AdaM-Softmax，硬原型挖掘和自适应数据采样的改进，分别。基线是CosFace，当它们都没有被采用时。从表 5 中可以看出， AdaM-Softmax的改进最为明显（从94.115%到MF 1 Veri中的95.032%ADS和HPM还可以在与AdaM-Softmax 从 94.373% 降至 95.023% （ MF 1 Rank1）。当这三个部分相结合时，AdaptiveFace在所有评估中都比CosFace有显著的改进图6.不同λ的边际分布。λ越大，分布的平均值越大。图7.不同m和不同λ下对应类的平均样本数。裕度越大，相应类别的样本数量越少。4.4. 探索性实验自适应裕度Softmax损失中λ的影响。自适应保证金Softmax损失由分类损失Lad和保证金平均损失Lm两部分组成.第二部分起着重要的作用，防止mi在训练中变得越来越小。在这一部分中，我们通过实验来探讨其影响。通过将λ从0变化到150，我们使用MS-Celeb-1 M来训练我们的模型，并在 LFW ， LFW BLUFR 和MegaFace上对其进行验证。的初始值11955广告HPMAdM-SoftBLUFRVR@FAR=0.01%BLUFRVR@FAR=0.001%MF1秩1MF1真的---99.3598.2793.94294.115C--99.3998.4494.06894.539-C-99.3998.4794.04994.789--C99.4798.5394.37395.032CCC99.5398.8995.02395.608表5. LFW BLUFR和MegaFace的消融研究。ADS表示自适应数据采样。HPM表示硬原型挖掘。AdM-Soft表示Adaptive MarginSoftmax。H数量原型LFWBLUFRVR@FAR=0.01%BLUFRVR@FAR=0.001%079,07799.5399.3598.270.120,00099.5799.3898.330.1510,00099.6299.4298.370.25,00099.5299.3998.470.232,00099.5099.1997.72表6.在LFW、BLUFR和MegaFace上具有不同λ的所有类别的m为0.4。如表6所示，我们可以看到LFW和MegaFace Rank1的性能随着λ的增加而提高，并且在λ=100时达到饱和。而对于BLUFR和MegaFace的验证，性能首先增加，在λ=50或70时达到最高，然后略有下降。为了进一步研究不同λs下每个类别的边际，我们在图6中绘制了λ=20、50和100时m的分布。可以看出，不同λs下的m的分布具有近似的高斯分布，具有相似的标准差，除了分布的平均值随着较大的λ而增加。在图7中，我们显示了与学习的裕度m相对应的类的平均样本数。可以发现，随着样本数量的减少，m的值在增加，这验证了我们的AdaM-Softmax可以自适应地将大的间隔分配给差类，将小的间隔分配给富类。很明显，网络可以根据样本分布自适应地学习每类的间隔，以处理不平衡数据。阈值h在硬原型开采中的作用为了探索我们的Hard Pro中相似性阈值h的影响基于HPM方法，我们用不同的h从小到大训练模型，并比较它们在LFW和LFW BLUFR协议上的性能。我们在这个实验中使用的损失函数是CosFace。表7显示了使用不同h选择的原型的结果和数量，其中h=0表示我们不使用HPM，即直接使用CosFace进行训练。我们可以看到，阈值h可以减少每次迭代中选择的原型数量，并提高最终性能。当h=0时，23、所选原型不足，表7.不同阈值h的HPM性能（%）和不同h选择的原型数量。困难，导致性能下降。5. 结论本文提出了一种新的人脸识别方法--自适应人脸识别方法. 第一种是AdaM-Softmax，它为每个类引入自适应裕度以自适应地最小化类内方差。二是硬原型挖掘，旨在通过自适应地选择少量的硬原型，使模型集中在硬类。最后一个是自适应数据采样，它通过从分类层到数据层的反馈通道自适应地发现有价值的样本我们的方法在实验部分描述的几个人脸基准测试中得到了显着的改进我们相信，我们的方法可能是非常有帮助的大规模不平衡的数据训练在实践中。6. 确认本工作得到了国家自然科学基金项目#61876178、#61806196、#61806196的部分资助。#61872367，#61572501 和科学和澳门科技发展基金（批准号：0025/2018/A1和152/2017/A）。引用[1] Pytorch https://pytorch.org/网站。[2] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。第67-74页[3] Sumit Chopra Raia Hadsell和Yann LeCun。有区别地学习相似性度量，并应用于人脸识别λLFWBLUFRVR@FAR=0.001%MF1秩1MF1真的CosFace[34]99.5398.2793.94294.115099.4598.2993.13893.3482099.4898.4094.07493.9215099.5398.5394.37395.0327099.5398.6194.59094.68710099.5898.4794.62994.64115099.4898.5594.61394.25011956验证计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机学会会议，第1卷，第539-546页。IEEE，2005年。[4] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.Arcface：用于深度人脸识别的附加角度余量损失arXiv预印本arXiv：1801.07698，2018。[5] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。欧洲计算机视觉会议，第87-102页。施普林格，2016年。[6] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。[7] BenHarwood ， BG Kumar ， Gustavo Carneiro ， IanReid，Tom Drummond，et al.深度度量学习的智能挖掘。第2821-2829页[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。计算机视觉和模式识别，第770-778页[9] Elad Hoffer和Nir Ailon使用三重网络的深度度量学习在基于相似性的模式识别国际研讨会上，第84-92页。施普林格，2015年。[10] 陈煌，陈昌来，唐晓鸥。局部相似性感知深度特征嵌入。神经信息处理系统的进展，第1262-1270页，2016年。[11] Gary B Huang和Erik Learned-Miller标签的脸在野外：更新和新的报告程序。部 Comput. 科学， Univ.Massachusetts Amherst ， Amherst ， MA ， USA ，Tech.Rep，第14-003页，2014年。[12] Gary B Huang，Marwan Mattar，Tamara Berg，and EricLearned-Miller.在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。在“现实生活”图像中的面孔研讨会：检测、对准和识别，2008年。[13] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard. megeface基准：100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议集，第4873-4882页[14] 廖胜才，甄磊，董毅，S.李泽楷。大规模无约束人脸识别的基准研究。IEEEInternational Joint Conference onBiometrics，第1-8页[15] 刘敬拓，邓亚峰，白涛，魏正平，黄昌。以终极精度为目标：通过深度嵌入进行人脸识别。arXiv预印本arXiv：1506.07310，2015。[16] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在IEEE计算机视觉和模式识别会议论文集，2017年。[17] Weiyang Liu ，Yandong Wen，Zhiding Yu，and MengYang.卷积神经网络的大余量softmax损失。在ICML，第507-516页[18] Yu Liu，Hongyang Li，and Xiaogang Wang.重新思考大规模识别的特征鉴别和聚合 arXiv 预印本 arXiv ：1710.00870，2017年。[19] Aaron Nech和Ira Kemelmacher-Shlizerman。百万级人脸识别的公平竞争环境。2017年IEEE计算机视觉和模式识别会议（CVPR），第3406-3415页。IEEE，2017年。[20] Hong-Wei Ng和Stefan Winkler。一种数据驱动的清理大型人脸数据集的方法。在图像处理（ICIP）中，2014IEEE国际会议，第343-347页。IEEE，2014。[21] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。在IEEE计算机视觉和模式识别会议论文集，第4004-4012页[22] Omkar M Parkhi，Andrea Vedaldi，Andrew Zisserman等人。在BMVC，第1卷，第6页，2015中。[23] Rajeev Ranjan，Carlos D Castillo，and Rama Chellappa.L2约束的softmax损失用于区分性人脸验证。arXiv预印本arXiv：1703.09507，2017。[24] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入在IEEE计算机视觉和模式识别会议论文集，第815-823页[25] EvgenySmirnov ， AleksandrMelnikov ， SergeyNovoselov，Eugene Luckyanets，and Galina Lavrentyeva.用于人脸表征学习的二重挖掘。2017年计算机视觉国际会议[26] 孙奇赫改进的具有多类n对损失目标的深度度量学习。神经信息处理系统进展，第1857-1865页，2016年[27] Yi Sun， Yuheng Chen ， Xiaogang Wang ， and XiaoouTang.通过联合识别-验证的深度学习人脸表示。神经信息处理系统的进展，第1988-1996页，2014年[28] Yi Sun，Xiaogang Wang，and Xiaoou Tang.通过预测10，000个类来深度学习人脸表示。在IEEE计算机视觉和模式识别会议的Proceedings，第1891-1898页[29] Yi Sun，Xiaogang Wang，and Xiaoou Tang.深度学习的人脸表示是稀疏的，有选择性的和鲁棒的。在IEEE计算机视觉和模式识别会议的论文集，第2892-2900页[30] Yaniv Taigman、Ming Yang、MarcDeepface：缩小与人脸验证中在 IEEE Conference on Computer Vision andPattern Recognition，第1701-1708页[31] Yaniv Taigman、Ming Yang、Marc网络规模的人脸识别培训第2746[32] Feng Wang，Weiyang Liu，Haijun Liu和Jian Cheng。额外的边缘softmax的脸验证。Signal Processing Letters，IEEE，25：926[33] 王锋，香香，简成，艾伦·洛登·尤伊尔。Normface：用于人脸验证的l2超球面嵌入.第1041-1049页11957[34] 王昊、王一彤、郑周、邢冀、刘伟。Cosface：用于深度人脸识别的大幅度余弦损失在计算机视觉和模式识别（CVPR），2018年IEEE会议上。IEEE，2018年。[35] Jiang Wang ， Yang Song ， Thomas Leung ， ChuckRosenberg，Jingbin Wang，James Philbin，Bo Chen，and Ying Wu.通过深度排名学习细粒度图像相似性。在IEEE计算机视觉和模式识别会议的论文集，第1386-1393页[36] Yandong W

下载后可阅读完整内容，剩余1页未读，立即下载