均匀损失：学习人脸识别的均匀分布表示

76 浏览量更新于2023-10-18 收藏 1.69MB PDF 举报

深度学习

人脸识别技术

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1UniformFace：学习用于人脸识别的深度等分布表示清华大学自动化系，清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心duanyq14@mails.tsinghua.edu.cnlujiwen@tsinghua.edu.cn;网址：jzhou@tsinghua.edu.cn摘要在本文中，我们提出了一个新的监督目标命名为均匀损失学习深度均匀分布表示的人脸识别。大多数现有的方法旨在学习有区别的面部特征，鼓励大的类间距离和小的类内变化。然而，它们忽略了人脸在整体特征空间中的分布，这可能导致严重的局部性和不平衡性。在人脸位于超球面流形上的前提下，通过将类中心均匀分布在流形上来施加等分布的约束，使得类中心之间的最小距离可以通过完全利用特征空间来最大化.为此，我们将类中心看作是类间排斥的超球面上的类电荷，并将总电势能最小化为均匀损失。在MegaFace Challenge I 、 IARPA Janus Benchmark A（IJB-A）、Youtube Faces（YTF）和Labeled Faces inthe Wild（LFW）数据集上的大量实验结果表明了所提出的均匀损失的有效性。1. 介绍人脸识别在过去的三十年里引起了人们的广泛关注，并且在文献中已经提出了各种各样的人脸识别方法[2，1，20，25，10，9]。一般来说，在实际的人脸识别系统中有四个主要过程：人脸检测、人脸识别、人脸表示和人脸匹配。由于在野生条件下的人脸通常遭受大的变化，这降低了类间的可分性和类内的紧凑性，人脸表示通过提取区分性特征来将人脸从不同的人中分离出来，起到了关键作用[25]。随着深度学习的快速发展，近年来，这几年来，我们见证了通信技术的重大改进，* 通讯作者基于卷积神经网络（CNN）的人脸表示[37，34，33，35，32，30，42，24，45，23，46，41]。那里是决定学习的CNN特征的区分能力的三个关键属性：训练数据、网络结构和损失函数。使用的数据量在很大程度上影响了CNN的训练过程，近年来已经出现了大规模的人脸数据集，如VGGFace [30]，VGGFace 2[3]，MS-Celeb-1 M [11]，IJB-A [18]和MegaFace [17，28]。此外，还开发了数据增强方法来提高性能并避免过拟合[27]。深度学习的功能也受益于网络架构的发展，其中代表性的CNN模型包括AlexNet [19]，VGG[30]和GoogLeNet [36]。面对训练数据的数量和复杂性的巨大增加，设计了更深层次的结构，如ResNet [13]和DenseNet [14]，以加强学习能力。最后一个属性是设计高效的损失函数，它为学习区分CNN特征提供了有效的梯度[12，34，33，32，42，24，8，45，23，7]。在本文中，我们主要关注的第三个方面，如何设计一个更有效的损失函数。Softmax损失被广泛用于训练CNN特征[37，34]，其被定义为最后一个全连接层，softmax函数和交叉熵损失的组合[24]。然而，我们只能通过softmax损失学习可分离特征，具有有限的鉴别能力。为了解决这一限制，已经提出了各种监督目标来增强学习特征的区分性，例如对比损失[33]、三重损失[32]、中心损失[42]、大边缘softmax（L-Softmax）损失[24]和范围损失[45]。虽然大多数现有的损失函数都施加了欧几里得边缘的约束，但SphereFace [23]通过将面映射到具有角softmax（A-Softmax）损失的超球面流形上来显示角边缘的有效性。然而，所有这些方法的目的都是增强学习特征的区分能力34153416(a) 球形面-2D（b）均匀面-2D（c）球形面-3D（d）均匀面-3D图1. LFW数据集上的SphereFace和UniformFace的比较，其中不同颜色的点表示从不同类别中学习的深度特征，图中的数字位于类别中心。我们通过将最后一个隐藏层的维度分别修改为2和3来应用LeNet-5，这样我们就可以直接在2D和3D超球面流形上可视化学习到的深度特征在玩具示例中，为了清楚地说明，我们只使用了LFW数据集中的三个身份。虽然SphereFace和UniformFace在2D和3D情况下都实现了高精度，但我们观察到UniformFace的类中心比SphereFace更均匀分布，以完全利用整体特征空间。(Best以颜色查看）。其没有考虑面部在整体特征空间中的分布在本文中，我们认为，分布的特征应被视为一个本质属性。一方面，学习的特征可能位于流形上的非常局部的位置另一方面，每个类的最小平均类间距离，即，一个类与其最近的相邻类之间的距离由于不平衡的分布而可能具有大的方差，其中某些类尤其面临被错误分类的风险。图1（a）和（c）显示了LFW数据集[15]上的SphereFace的可视化结果，其中类中心分布不均匀。即使面可以是多模态的，高度不均匀的分布（例如，来自相同模态的不同身份被聚集在一起）仍然导致较少的区分性，因为不同模态之间的大间隙是特征空间的“浪费”。为此，我们提出了一个新的目标函数命名为均匀损失学习均匀分布的人脸识别表示，这是一个理想的目标，充分利用的特征空间。受球表面同类电荷均匀分布时势能最小这一事实的启发，我们把类中心看作是有斥力的同类电荷，把势能最小化的目标通过A-Softmax损失和均匀损失的联合监督，将学习特征的类中心均匀分布在超球面流形上，使最小平均类间距离最大化且均匀分布，将学习特征称为UniformFace。我们观察到，类在图1中的超球面流形上是更均匀分布的。1（b）和（d），具有均匀损失的附加监督信号。 MegaFace Challenge I [17] ， IJB-A[18]，YTF [43]和LFW [15]数据集上的实验结果验证了所提出的均匀损失有效地提高了人脸识别的性能。2. 相关工作人脸识别是一个长期存在的计算机视觉问题，其中的方法主要可以分为两类：手工制作的表示和基于学习的表示。手工制作的方法需要强大的先验知识，研究人员手工设计特征提取器。例如，Gabor小波[21]和LBP [1]首先计算局部区域的纹理信息或梯度，然后生成用于人脸表示的整体特征。虽然手工制作的方法是启发式的和数据独立的，但基于学习的方法以数据驱动的方式学习面部表示。例如，Cao等人。 [4]通过以无监督的方式学习编码器，提出了一种基于学习的描述符（LE）Lei等人。 [20]使用LDA标准学习了一种名为区分性面部描述符（DFD）的 Duan等人 [10]提出了一种上下文感知局部二进制特征学习（CA-LBFL）方法，以获得用于人脸识别的按位交互二进制代码。近年来，深度人脸表征学习方法取得了一系列突破[37，34，33，35，32、30、42、24、45、23、46、41]。开创性的作品包括DeepFace [37]和DeepID [34]，它们使用softmax loss来训练深度学习的特征。Parkhi等人。 [30]提出了一个虽然softmax损失仅保证特征的可分性，但已提出了几个新的监督目标来增强区分能力[33，32，42，24，8，23，7]。例如，Sun等人 [33]提出了一种联合识别-验证信号。Schroff等人 [32]证明了三重态丢失的有效性。Wen等人。 [42]提出了一种中心损失来提高类内紧性。Zhang等人。 [45]提出了一种范围损失来解决火车的长尾分布3417y∈我ǁǁ我我MM我eing 数据。 Liu 等人。 [24] 通过大幅度 softmax （ L-Softmax）损失扩大了特征的角度可分性。他们还提出了一种角度softmax（A-Softmax）损失，将学习到的特征约束在超球面流形上[23]。然而，这些损失函数旨在提高学习特征的区分能力，忽略了特征在整体特征空间上的分布，这可能导致特征分布的高度局部性和不平衡。3. 该方法在本节中，我们首先回顾A-Softmax损失[23]，它将面映射到超球面流形上。然后，我们详细介绍了所提出的均匀损失，并介绍了深度均匀分布表示UniformFace。最后，我们强调了统一损失与两个相关目标的区别，并论证了同时监管的必要性3.1. 关于A Softmax Losssoftmax损耗已广泛应用于各种虚拟仪器中，图2.通过势能最小化学习超球面流形上的均匀分布表示的示例，其中不同的颜色表示不同的类。我们定义类之间的排斥F，它与距离的平方成反比在图中，线宽表示排斥力的大小。通过势能的极小化，类的分布变得均匀，每类从最近邻类得到的最大斥力为了便于说明，示出了2D超球面流形的情况。在（3）中，将n（θy，i）定义为（−1）kcos（mθy，i）−2k，θy，i∈[kπ，（k+1）π]，k∈[0，m−1]而不是cos（mθy，i）为了解决θy，i被限制在[0，π]中的限制。以下是：im1ΣNWTxi+by我而A-Softmax损失的目的是扩大角位移，类之间的距离，并从Ls=−Ni=1对数周期j=1WTx +b.（一）ejij同一类到一个较小的超球面区域，它没有考虑在整体超球面人的特征分布-在（1）中，WjRd是第j类的最后一个完全连接层中的权重，d是特征维度。bj∈R是偏置项，为了下面的简洁起见，将其省略xi∈Rd是样本i的学习深度特征，yi是基础真值类标签。 N和M是样本数和类别数。通过softmax loss学习的特征具有内在的角度分布，这表明余弦距离而不是欧几里得距离[23]。为此，通过将Wi约束为1，修改的softmax损耗公式化如下ifold。如图1、A-Softmax未能完全利用整体特征空间，导致分布不均衡。3.2. UniformFace由于不同类的面应该是分开的，我们认为类中心是等量的类似电荷，每个中心排斥其他中心。为了学习超球面流形上均匀分布的类中心，我们将均匀损失定义为所有中心的势能，并且类中心将是均匀分布的。1ΣNexicos（θyi，i）通过势能最小化图2示出Lm= −Ni=1对数周期j=1 e<$xi<$cos（θj，i），（2）对拟议的统一损失的说明。受库仑定律的启发其中决策边界取决于角度。给定一个查询点，我们将角度与每个类的权重进行比较，并选择最小的一个作为结果，距离cj1和cj2与距离的平方成反比：1这些特征是在超球面流形上计算的SphereFace [23]操纵决策边界，以支持F=λd（c ，cj2）2、（4）通过A-Softmax损耗减少角度裕度，其中d（cj，cj）是中心cj样本点和目标类之间的角度为mul-1 2 1由边缘参数m表示：和cj2。在本文中，我们遵守传统的库仑La−s=−1ΣNlogex（θe（θyi，i））+excos（θ.（三））距离此外，我们为每个距离添加一个，以防止从太大的排斥，即， d（cj1，cj2）=||cj1−cj2||二加一。一般识别任务，其公式表示为我J13418Ni=1我，我我ji=yij，i根据（4）的定义，我们得到势能3419联系我们···算法1：UniformFace输入：训练集xi，训练标签yi，类的数量M，CNN的参数Θ，超参数λ和迭代次数T。输出：参数Θ。1：初始化Θ和类中心c，j。第二章：对于iter= 1，2，，T，3：从训练集中采样一个小批。4：对于j=1，2，···，M，5：用（7）更新类中心cj6：结束7：用（8）更新参数Θ第八章：端第九章：返回Θ。3.3. 讨论在这一小节中，我们首先比较了所提出的均匀m损失与两个相关的监管目标：A-Softmax损失和中心损失，然后讨论了同时监管的必要性与A-Softmax Loss和Center的比较损失：近年来，已经提出了几种监督信号来学习更具鉴别力的深度人脸表示，其中最相关的目标是A-Softmax损失[23]和中心损失[42]。A-Softmax旨在学习超球面流形上的判别特征然而，它未能明确地约束在整体特征空间上的分布，其中面可能位于局部和不平衡。中心损失只是最小化类内面与相应类中心之间的距离，中心CJ1受CJ2影响：第三，忽略了类中心的类间关系。建议的统一损失考虑类间排斥，∫∞E=d（cj1、cj2）1λx2 dx=λ1d（cj1，cj2）、（五）该方法将类中心均匀分布在超球面流形上，使特征空间得到充分利用，类中心之间的最小距离最大化。其中cj2的势能与cj1相同。在为了学习等分布表示，我们最小化所有类中心的总势能作为我们的均匀损失。由于势能是标量，我们用所有成对能量的平均值来计算均匀损失，其表示如下：同时监督的必要性：在Uniform- Face中，我们同时使用A-Softmax损失和均匀损失作为训练目标。一方面，如果我们只通过A-Softmax损失来监督CNN，那么面孔将受到影响，超球面流形上的非均匀分布。另一方面，如果我们简单地利用均匀损失，则类内变化将仅是不受约束的λMLu=M（M−1）Σ1d（c，c.（六））以保证班级中心的均匀分布因此，有必要使用苏姆坦-j1=1j 2j 1j1j2用于有区别的和均匀分布的深度表示的监督。由于类中心cj在整个过程中不断变化，在训练过程中，我们需要在每次迭代中利用整个训练集来更新cj，这在实际中是不适用的因此，我们采用了一种改进的方法，通过更新每个小批量的中心[42]：nδ（y=j）·（c−x）i=1i ji4. 实验在本节中，我们对四个广泛使用的人脸识别数据集进行了广泛的实验，以证明所提出的UniformFace的有效性，其中包括 MegaFace Challenge I [17] ， IJB-A[18]，YT-cj=Σni=1 δ（yi、（7）=j）[15][16][17][18][19][19][19]其中n是小批量中的样本数，δ（·）=1如果条件为真，则δ（·）=0。我们采用A-Softmax损失和均匀损失的同时监督来学习区分和均衡特征，如下所示：L=La−s+Lu，（8）其中Lu中的参数λ平衡不同项的权重，并且球面可以被视为λ= 0的特殊情况。我们通过标准SGD优化CNN。Algorith-m1详细介绍了所提出的UniformFace。4.1. 实现细节CNN的详细设置：我们在实验中使用了MXNetpack-age [6]，并采用ResNet [13]作为所有数据集的CNN架构。图3详细介绍了CNN的架构在整个实验中，我们如[23]中所建议的那样，将La−s的m我们通过对YTF和LFW数据集的交叉验证将参数λ固定为1该模型在四个GTX 1080Ti GPU上以128的批量进行训练以加速。我们将学习率初始化为0.1，在16K，24K迭代时除以10预处理：我们进行了标准的预处理1个以上3420×图3. UniformFace采用的CNN架构。CNN的参数由A-Softmax损失和均匀损失的联合信号监督。全连接层的维数为512。(Best以颜色查看）。在脸上。我们使用MTCNN [44]通过五个标志（两只眼睛，两个嘴角和鼻子）从训练集和测试集中检测并对齐每个人脸，并将图像裁剪为112 112。我们还通过减去127.5然后除以128来归一化RGB图像训练：我们在改进的MS- Celeb-1 M [11]和VGGFace2 [3]数据集上训练了我们的模型。MS-Celeb-1 M最初包含来自100 K identi- ties的约10 M图像。我们去除了远离类中心的图像以提高训练数据的质量，并清除了少于3张图像的身份以缓解长尾分布[8，7]。改进的MS-Celeb-1 M数据集包含85 K身份和3.84 M图像。VG-GFace 2由9，131名受试者组成，331万张图像。我们使用训练分割来优化我们的Uni- formFace，包含8，631个类，221万张脸。测试：我们从全连接层的输出中提取了UniformFace，并将原始面部和水平翻转面部的特征连接起来作为最终表示.因此，每个面的最终代表尺寸为1，024。我们采用最近邻分类器与余弦距离的人脸识别和验证。4.2. 数据集我们在四个广泛使用的人脸识别基准数据集上进行了实验，其中我们遵循标准评估协议来评估UniformFace的有效性MegaFace数据集：MegaFace [17]是一个测试基准数据集，旨在评估百万级人脸识别算法的性能。MegaFace数据集由图库集和探针组图库集是来自Yahoo的Flickr照片的子集，其中包括来自69万个人的超过100万张照片探测数据集包含两个现有的数据集：FaceScrub [29]和FGNet。FaceScrub是一个公开可用的数据集，包含来自530个独特个体的100K照片，其中55，742张图像是男性，52，076张图像是女性。FGNet是一个人脸老化数据集，包含82个身份的1，002张图像。每个身份都有多个年龄范围（从1岁到69岁）的面部图像。IJB-A数据集：IJB-A [18]是一个越来越受关注的公共数据集，它通过不受约束的图像设置对人脸检测和人脸识别领域提出了挑战。IJB-A数据集包含5，397张图像和20，412个视频帧，这些图像和视频帧从500个具有极端姿势、照明和表情条件的个体的2，042个视频中分离出来我们采用10个不同的文件夹，随机收集333名受试者进行训练，167名受试者进行测试。面部验证（1：1）和识别（1：N）均为IJB-A挑战的评价方案。验证协议由每个文件夹中的约1，756个阳性对和9，992个阴性对组成，识别协议包含约112个图库模板和约1，763个探针模板，其中55个随机选择的受试者因困难而从图库中删除。人脸验证测试真实接受率（TAR）在不同的错误接受率（FAR）。人脸识别性能通过累积匹配特征（CMC）曲线来衡量，该曲线推断了在前K个检索候选中的识别率。YTF数据集：YTF [43]包含从YouTube下载的1,595个不同人物的3,425个视频，具有不同的姿势，照明和表情，这是一个流行的无约束人脸识别数据集。在YTF中，每个人大约有2.15个视频，每个视频剪辑平均有181.3帧。LFW数据集：LFW [15]是一个著名的用于人脸识别的网络收集图像数据集，其中包含来自5,749个不同身份的13,233张图像。这些图像是在野外条件下从网上捕捉到的，姿势、照明、表情、年龄和背景各不相同，3421表1.在MegaFace数据集上，使用1M干扰项和10−6表2.有无均匀损耗时最小平均级间距离的比较。方法是说方差至少1000SphereFace*1.130.100.45UniformFace1.450.060.55表4.Rank-1准确度（%）与更多基线（包括SphereFace（SF）、ArcFace（AF）和CosFace（CF））的比较SF我们的（SF）AF我们的（AF）CF我们的（CF）76.6579.98 79.1481.46 81.5983.53#21453;大的类内差异。4.3. MegaFace上的实验我们评估了 MegaFace 挑战 1 的 FaceScrub 上的UniformFace，包括人脸识别和人脸验证任务。我们遵循大训练集的协议，因为训练数据集包含超过0.5M的图像，其中出现在Face-Scrub中的身份被从训练集中删除。我们采用MegaFace的原始测试集进行公平比较。与最先进技术的比较：表1显示了MegaFace数据集与现有基于深度学习的方法相比的实验结果。面对在识别任务中，计算探针面与每个图库面之间的相似度，其中图库集中存在1M个干扰项以使任务更具挑战性。为了满足实际需要，我们在表中给出了秩1识别精度在人脸验证任务中，我们需要判断一对人脸是否具有相同的身份。TAR报告为10−6FAR。我们观察到，所提出的UniformFace实现了与最先进的基于深度学习的方法的结果相当。在表1中，SphereFace* 仅使用A-Softmax损失训练网络，固定相同的网络结构和训练数据以进行公平比较。我们可以看到，UniformFace优于SphereFace*，因为类中心分布更均匀。在一致损失的监督下，超球面流形被完全利用，类中心之间的最小距离可以最大化。通过MegaFace数据集上的最终识别率，比较显示了所提出的均匀损失的图4显示了MegaFace数据集上不同方法的CMC和ROC曲线均匀度评价：其中最重要的UniformFace的属性是均匀分布的类cen-特斯在之前的实验中，我们表明，均匀损失Lu的利用成功地提高了人脸识别率。然而，需要更直接的评估来显示特征分布的改善为了更好地评估学习表示的均匀性，我们进行了一个实验，比较有或没有均匀损失的监督类中心的分布对于每个类中心，我们计算它到其他类中心的最近距离，这可以被认为是所选中心的最小平均类间距离。最小平均类间距离表示所选类别与最危险类别的相似性。对于所有M个类的M个最小距离，我们比较了它们的均值、方差和SphereFace* 和UniformFace之间最少1,000个类间距离的均值。表2说明了均匀损失导致大且均匀的最小平均类间距离，因为类中心更均匀分布，其中平均值增加了28%（从1.13到1.45），方差减少了40%（从0.10到0.06）。此外，虽然非均匀分布受到局部性的影响，其中一些类聚集在局部空间中，但我们的UniformFace通过至少1，000个类间距离来缓解这种局部性。适应更多基线：近年来，越来越多的方法在角空间中被提出，并取得了优异的性能，如SphereFace [23]，ArcFace [7]和CosFace [41]。从技术上讲，所提出的均匀损耗可以普遍应用于这些方法，因为它是基于角空间而不是特定的SphereFace设计的。表4表明，所提出的均匀损失成功地提高了所有基线的性能，这表现出其良好的泛化能力。方法议定书@一阶@FAR=10−6优图实验室大83.2991.34NTechLAB-facenx大73.3085.08Vocord-DeepVo3大91.7694.96DeepSense V2大81.3095.99上海理工大学大74.0586.37Google-FaceNet大70.5086.47北京FaceAll-N大64.8067.12北京FaceAll大63.9863.96CosFace [41]大82.7296.65GRCCV小77.6874.89DeepSense小70.9882.85SIAT -MMLAB小65.2376.72[42]第四十二话小65.2376.52L-Softmax [24]小67.1380.42[23]第二十三话小72.7385.56CosFace [41]小77.1189.88[23]第二十三话大76.6592.32UniformFace大79.9895.363422(a) CMC-干扰项（b）CMC-等级（c）ROC-1 M（d）ROC-10 K图4.比较（a）在不同数量的牵引器下具有Rank-1准确度的CMC曲线，（b）在不同Rank-K下具有1 M牵引器的CMC曲线，（c）具有1 M牵引器的ROC曲线，以及（d）具有10 K牵引器的ROC曲线。表3.在IJB-A数据集上验证10−2和10−3FAR（%）下的TAR以及Rank-1和Rank-5识别准确度（%）83岁8± 4。2903 ±1。2七十三。3± 1。 8552± 3。2771 ±1。6七十二9 ±3。5九十六。5 ±0。4五十三9±4。382岁2 ±2。3九十八2 ±0。4九十六。9± 0。892。3± 1。7979 ±0。54.4. IJB A我们评估了我们的UniformFace在验证和表5. UniformFace的验证率（%）与YTF和LFW数据集上的最新方法相比。方法数据模型识别任务，我们报告TAR为10- 2，验证任务的FAR为10−3，识别任务的精度为Rank-1和Rank-5。表3显示了UniformFace和现有方法的实验结果，IJB-A数据集。在比较的方法中，PAM [26]、3DMM[38] DR-GAN [39]和PRN [16]是最近的姿态感知人脸识别方法，其有效地解决了人脸的极端姿态变化。然而，作为一种通用的人脸识别方法，Uniform-Face的识别效果与这些方法相比具有很大的竞争虽然PAM，3DMM，DR-GAN和PRN利用姿势的强先验信息，但UniformFace通过鼓励等分布表示来增强鲁棒性。如前所述，最小平均类间距离最大化，具有均匀分布，这导致更强的鲁棒性。此外，均匀损失成功地提高了IJB-A数据集上的性能，这证明了其对具有大姿态变化的人脸的有效性。4.5. YTF和LFW试验在本小节中，我们在广泛使用的YTF和LFW数据集上评估了我们的UniformFace对于YTF数据集，我们遵循的协议是不受限制的带标签的外部数据，其中包含5,000个视频对。对于LFW数据集，我们还遵循了不受限制的外部标记数据协议，我们在6,000个人脸对上进行了测试。方法@FAR=10−2@FAR=10−3@一阶@五品DCNN [5]DCNN（融合）[5][31]第三十一话[26]第二十六话3DMM [38]LSFS [40]DR-GAN [39]PRN [16]78岁7 ±4。379岁。0 ±3。0六十岁。0±5。6七十七。4±2。7--五十九0 ±5。0-51岁0 ±6。191. 9 ±1。3八十五2±1。888岁0 ±1。5七十六。2±1。8八十五5±1。5九十三7±1。0九十六。5±0。8九十五0±0。788岁7 ±0。989岁。7±1。0九十三1±1。494 7 ±1。1九十九。2±0。2[37]第三十七话4M391.497.4FaceNet [32]200M195.199.7VGG [30]2.6M197.399.0DeepID2+[35]300K1-98.7DeepID2+[35]300K2593.299.5[42]第四十二话0.7M194.999.3[45]第四十五话1.5M193.799.5百度[22]1.3M1-99.1L-Softmax [24]0.5M1-98.7[23]第二十三话0.5M195.099.4[46]第四十六话3.5M1-99.5CosFace [41]5M197.699.7PRN [16]2.8M195.899.7[23]第二十三话6.1M196.199.5UniformFace6.1M197.799.83423A-S（m=1）A-S（m=2）A-S（m=3）A-S（m=4）UniformFace平均距离±√−±±· · ·±· ··15 1.25 9 0.91.2八点八五101.15七点八6 0.751.15五○七1.054 0.650050100150200250300350400时代(a) YTF-损失1050100150200250300350400时代(b) YTF-距离30 100 200 300 400 500600时代(c) LFW-损失0.60 100 200 300 400 500600时代(d) LFW-距离图5. YTF和LFW数据集上的损失（La−s表5显示了UniformFace与YTF和LFW数据集上最先进方法的实验结果，其中包括DeepFace [37]，FaceNet[32] ， DeepID2+ [35] ， Range Loss [45] ， SphereFace[23]，Ring Loss [46]，CosFace [41]和PRN [16]。从表中，我们观察到，使用均匀损失在YTF上提高了1.7%的性能，在LFW上提高了0.3%的性能，这分别使错误率降低了41%（从3.9%到2.3%）和60%（从0.5%到0.2%）。主要原因是均匀损失导致等分布的表示，这完全利用了整体特征空间。虽然Deep-Face和DeepID2+采用多个模型，FaceNet使用超过2亿的数据进行训练，但UniformFace在YTF和LFW数据集上仍然4.6. 消融研究在本小节中，我们进行了消融研究，以进一步证明UniformFace的有效性除了在基准数据集上的定量实验结果外，我们首先设计了训练曲线和最小平均类间距离的平均值与com-A-Softmax（在不同的m下）和我们的UniformFace的苹果对苹果的比较我们使用AlexNet和一个额外的全连接层初始化网络，将维度降低到128，并使用来自YTF和LFW的相同训练数据进行微调。图5显示了A-Softmax损失（La−s）和最小平均类间距离的平均值的曲线。更大的mencour- ages更大的类间角裕度，这导致更多的区分度和学习困难。然而，它没有显式地减少最小平均类间距离的变化，而UniformFace具有较小的标准差（0.02 vs. YTF为0.04，LFW上为0.13）以及A-Softmax中m = 4的较大平均值。然后，我们测试了均匀损失（Lu）在学习高维等分布表示中的有效性。虽然理论上很难保证均匀分布，但我们进行了一个实验来测试高维超球上的均匀性。给定从标准正态分布采样的N个噪声向量z，我们的目标是学习一个映射f（z）到超球空间，具有一个4层全连接网络（前三层为ReLU），由均匀损失监督。我们将维度设置为128，N设置为256，以便于设计真实一致的示例[0，，1，，0]（只有一个元素为1或1，其他元素为0）。我们比较了最小距离的平均值和标准差，均匀分布的最小距离为2 0，1。200 02用于学习的映射，以及0. 四四零。04用于随机映射。我们观察到一个类似的均匀现象与2D和3D的情况下，高维度。5. 结论在本文中，我们提出了一个均匀损失学习均匀分布的人脸识别表示。与现有的监督信号忽略类的分布和遭受高局部性不同，所提出的均匀损失将类中心视为具有类内排斥的类似电荷，使得它们将通过势能最小化在超球流形上均匀分布。在A-Softmax损失和均匀损失的联合监督下，我们最大化所有类的最小平均类间距离，并完全利用整体特征空间。在MegaFace、IJB-A、YTF和LFW上的大量实验结果证明了所提出的UniformFace的有效性。当我们为每个类中心设置相同的电荷量时，在这种情况下，类间阻力仅与距离有关这是一个有趣的未来的工作，学习数据依赖的电荷量为不同的类，以获得细粒度的分布表示。确认这项工作部分得到了中国国家重点研究与发展计划（2017YFA0700802）的支持，部分得到了中国国家自然科学基金（ 61822603 、 U1813218 、 U1713214 、61672306、61572271）的支持。作者感谢先生。程马先生及陈先生。孙浩淼进行了宝贵的讨论。A-S（m=1）A-S（m=2）A-S（m=3）A-S（m=4）UniformFaceA-S（m=1）A-S（m=2）A-S（m=3）A-S（m=4）UniformFaceA-S（m=1）A-S（m=2）A-S（m=3）A-S（m=4）UniformFace损失平均距离损失3424引用[1] 蒂莫·阿霍宁，阿卜迪努尔·哈迪德，马蒂·皮蒂凯宁。局部二进制模式的人脸描述：应用于人脸识别。TPAMI，28（12）：2037-2041，2006. 一、二[2] 彼得·N Belhumeu r，J oalovioPHespanha，andD a vidJ.克里格曼。特征脸对。fisherfaces：使用类别特定线性投影的识别。TPAMI，19（7）：711-720，1997. 1[3] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼.VGGFace2：用于识别姿势和年龄的人脸数据集arXiv预印本arXiv：1710.08092，2017。一、五[4] Zhimin Cao，Qi Yin，Xiaoou Tang，and Jian Sun.基于学习描述子的人脸识别见CVPR，第27072[5] Jun-Cheng Chen，Vishal M Patel，and Rama Chellappa.使用深度CNN特征的无约束人脸验证。在WACV，第1-9页，2016中。7[6] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang. MXNet：一个面向异构分布式系统的灵活高效的机器学习库。在NIPSW，2015年。4[7] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.ArcFace：用于深度人脸识别的附加角余量损失arXiv预印本arXiv：1801.07698，2018。一、二、五、六[8] Jiankang Deng，Yuxiang Zhou，and Stefanos Zafeiriou.深度人脸识别的边际损失。在CVPRW，2017年。一、二、五[9] 段跃奇，陆继文，冯建江，周杰。学习旋转不变局部二进制描述符。TIP，26（8）：3636-3651，2017。1[10] 段跃奇，陆继文，冯建江，周杰。用于人脸识别的上下文感知局部二值特征学习。TPAMI，40（5）：1139-1153，2018。一、二[11] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. MS-Celeb-1M：大规模人脸识别的数据集和基准。在ECCV，第87-102页，2016年。一、五[12] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.在CVPR，第1735-1742页，2006中。1[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。1、4[14] Gao Huang ， Zhuang Liu ， Kilian Q Weinberger ， andLaurens van der Maaten.密集连接的卷积网络。在CVPR中，第4700-4708页，2017年。1[15] Gary B Huang，Manu Ramesh，Tamara Berg，and ErikLearned-Miller.在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。技术报告，技术报告07-49，马萨诸塞大学，阿默斯特，2007年二、四、五[16] Bong-Nam Kang，Yonghyun Kim，and Daijin Kim.用于人脸识别的成对关系网络。在ECCV中，第628-645页，2018年。七、八[17] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard. MegaFace基准测试：1数百万张面孔进行大规模识别在CVPR中，第4873一、二、四、五[18] 布伦丹·F·凯布尔、本·克莱因、艾玛·塔博斯基、奥斯汀·布兰顿、乔丹·切尼、克里斯汀·艾伦、帕特里克·格罗瑟、艾伦·马和阿尼尔·K·贾恩。推动无约束人脸检测和识别的前沿：IARPA Janus基准A。在CVPR，第1931-1939页，2015年。一、二、四、五[19] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS，第1097-1105页，2012中。1[20] ZhenLei，MattiPietik aíinen，andStanZLi. 一个非常有区别的面部描述符。TPAMI，36（2）：289-302，2014.一、二[21] Chengjun Liu和Harry Wechsler。基于Gabor特征的人脸分类和改进的Fisher线性判别TIP，11（4）：4

下载后可阅读完整内容，剩余1页未读，立即下载