面向深度人脸识别的通用表示学习方法（URFace）及其在多个数据集上的性能分析

100 浏览量更新于2023-10-25 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1面向深度人脸识别Yichun Shi1，2刘翔 Yu2 Kihyuk Sohn2 Manmohan Chandraker2， 3 Anil K.Jain11密歇根州立大学2NEC Labs America3加州大学圣地亚哥分校摘要在野外识别人脸是非常困难的，因为它们看起来有各种各样的变化。传统的方法要么使用包含变化的特定注释的目标域数据进行训练，要么引入未标记的目标域数据以适应训练域。相反，我们提出了一个通用的表示学习人脸识别框架URFace，它可以处理给定训练数据中看不到的较大变化，而无需利用目标领域的知识我们首先合成训练数据，对应于几个语义上有意义的变化，如低分辨率，遮挡和头部姿势。然而，直接使用增强的数据阻碍了训练收敛，因为增强的样本通常是困难的例子。我们建议将特征嵌入分为多个子嵌入，并为每个子嵌入关联不同的置信度值，以平滑训练过程。通过正则化变化上的分类损失和它们的不同分区上的对抗损失，子嵌入进一步去相关实验表明，我们的方法在LFW和MegaFace等通用人脸识别数据集上实现了最先进的性能，同时在TinyFace和IJB-S等极端基准测试中表现得更好1. 介绍深度人脸识别试图将输入图像映射到具有小的身份内距离和大的身份间距离的特征空间，这已经通过先前的工作通过损失设计和具有丰富的类内变化的数据集来实现[29，41，17，39，4]。然而，即使是非常大的公共数据集也会表现出强烈的偏见，例如种族[33，34]或头部姿势[20，24，45]。这种变化的缺乏导致具有挑战性的测试数据集的性能显著下降，例如，现有技术[31]在IJB-S或TinyFace [11，3]上报告的准确性比IJB-A [14]或LFW [10]低约30%最近的工作试图缩小域差距造成的这项工作是在NEC美国实验室进行的暑期实习的一部分传统模型1（1）需要目标领域数据！大姿态模型2Model 3适应低分辨率（2）大型模型低分辨率闭塞合奏我们的方法闭塞闭塞单个模型可信识别普遍特征高质量的培训数据模糊变化构成变分去相关增强…无约束测试数据图1：传统的识别模型需要目标域数据从高质量的训练数据中适应，以进行无约束/低质量的人脸识别。模型集成还需要一个通用的表示的目的，显着增加模型的复杂性。相比之下，我们的方法只适用于原始训练数据，没有任何目标领域的数据信息，并可以处理无约束的测试场景。这种通过域自适应的数据偏置，即，识别特定的变化因素并增强训练数据集[24]，或者进一步利用未标记的数据以及这些可命名的因素[33]。虽然可命名的变体很难彻底识别，但先前的工作已经试图对齐源域和目标域之间的特征空间[28，34]。或者，可以在各种数据集和集合上训练单个模型，以在每个数据集上获得良好的性能[19]。所有这些方法要么只处理特定的变化，要么需要访问测试数据分布，或者增加额外的运行时复杂性来处理更广泛的变化。相比之下，我们建议学习一个单一的本文介绍了几个新的贡献在第3节学习这样一个普遍的表示。首先，我们注意到，具有非正面姿势、低分辨率和严重遮挡的输入是对“野外”应用提出挑战的关键可命名因素但是，直接将硬增强示例添加到训练中会导致更困难68176818优化问题我们通过提出一种识别损失来减轻这一点，该识别损失考虑了每个样本的置信度来学习概率特征嵌入。其次，我们通过将其分解为子嵌入来寻求最大化嵌入的表示能力，每个子嵌入在训练期间具有独立的置信度值第三，通过在子嵌入的不同分区上的两个互补正则化，鼓励所有变化上的分类损失和不同分区上的对抗损失第四，我们通过挖掘合成增强不平凡的其他变化来实现进一步的去相关。最后，我们通过一个概率聚合，占其不确定性的子嵌入不同的歧视权力在第5节中，我们在公共数据集上广泛评估了所提出的与我们的基线模型相比，所提出的方法在LFW和YTF等通用人脸识别基准上保持了高准确率，同时显著提高了在IJB-C，IJB-S等具有挑战性的数据集上的性能，其中实现了新的最先进的性能。详细的消融研究显示了上述每种贡献对实现这些强大性能的影响综上所述，本文的主要贡献在于：• 一种通过将特征与不同的变化相关联来学习通用人脸表示的方法，从而提高了对不同测试数据集的泛化能力。• 在训练期间利用样本置信度来利用硬样本的置信度感知识别损失• 一种特征去相关正则化，对变量应用分类损失，对变量应用对抗损失。特征子嵌入的不同分区，从而提高性能。• 一种训练策略，用于有效地组合合成数据，以训练适用于原始训练分布之外的图像的人脸表示。• 在几个具有挑战性的基准测试中获得最先进的结果，例如IJB-A，IJB-C，TinyFace和IJB-S。2. 相关工作深度人脸识别：深度神经网络在当前的人脸识别研究中被广泛采用[36，35，29，20，17，8，25，38，4，45]。Taigman等人[36]提出一种用于人脸识别的早期深度卷积神经网络随后的工作探索了不同的损失函数，以提高特征表示的区分能力。Wen等人[41]提出中心损失以减少类内变化。一系列的工作也提出了使用度量学习进行人脸识别[29，32]。最近的工作试图用一个单一的识别损失函数来实现有区别的嵌入，(a) 模糊（b）遮挡(c)姿势（d）随机组合图2：在不同变化情况下进行扩增的样本向量用于表示嵌入空间中的每个类[17，38，39，25，4]。通用表示：通用表示是指可以应用于各种视觉领域（通常是不同的任务）的单个模型，例如。对象，字符，路标，同时保持使用一组特定领域模型的性能[1，26，27，40，34]。这样一个单一的模型学习的功能被认为是比特定领域的模型更加单一。不同于领域泛化[13，22，15，16，37]，它通过从各种可见领域学习来实现对未知领域的适应性，通用表示学习不涉及对未知领域的重新训练。有几种方法专注于通过使用条件BatchNorm [1]和残差适配器[26，27]等基于SE模块[9]，Wanget al.[40]提出了一个通用对象检测网络的中间（隐藏）特征的域关注模块我们的工作在两个方面与这些方法不同：（1）它是一种用于相似性度量学习的方法，而不是检测或分类任务;（2）它是模型不可知的。然后，通过计算未见过类的样本之间的成对相似性，可以将我们模型学习的特征直接应用于不同的领域。3. 该方法在本节中，我们首先介绍三个可增强的变量，即模糊，遮挡和头部姿势，以增强训练数据。增强数据的可视化示例如图2所示，详细信息可在第4节中找到。然后在第3.1节中，我们引入了一个置信度感知的识别损失来从困难的例子中学习，在第3.2节中通过将特征向量分割成具有独立置信度的子嵌入来进一步扩展。在第3.3节中，我们应用引入的可扩展变化来进一步去相关特征嵌入。提出了一种用于发现进一步的不可增强变化的方法，最后，提出了一个不确定性引导的成对度量推理。6819我2σ2我Jyiσ2ǁ f−wT我J子嵌入模糊信心指数中文（简体）marg in中文（简体）意识不知道输入变化增强Backbone网络信心的力量置信度感知识别丢失简体中文（zh _cn）变分去相关损失图3：所提出方法的概述。首先根据预定义的变化来增强高质量的输入图像，即，模糊、遮挡和姿势。然后将特征表示拆分为与样本特定置信度相关联的子嵌入。置信度感知的识别损失和变化去相关损失被开发用于学习子嵌入。3.1. 置信度感知识别损失本文研究了被分类为恒等式j ∈ {1，2，. - 是的- 是的，N}，给定输入样本Xi. 将样本i的特征嵌入表示为fi，第j个身份原型向量为wj，其为身份模板特征。一个概率嵌入网络θrep-低质量样本原型高质量样品低质量样本原型高质量样品将每个样本xi表示为高斯分布N（fi，σ2I）(a) 无信心(b) 有信心在特征空间。xi是类别j的样本的可能性由下式给出：p（x|y=j）p（w|x）图4：在质量不同的数据上进行置信度感知嵌入学习的图示。在置信度指导下，学习得到的原型更接近于高质量样本，iθj我1=Dexp（−（2πσ2）fi−wj2σ2），（1）身份更好。相反，如果我们设置样本特定的置信度si，其中i2i其中D是特征尺寸。进一步假设将样本分配给任何恒等式的先验是相等的，则属于第j个类的x的后验推导为：高质量的样本显示出更高的置信度，这将推动原型Wj更类似于高质量的样本，以便最大化后验。同时，在嵌入fi的更新期间，它为i低质量饲料更接近原型。p（y=j|x）= p（x，i）|y = j）p（y = j）在指数logit上添加损失边际[39]，iNc=1 p（xi|y = c）p（y = c）f−w被证明是有效的缩小内身份分布。我们也将其纳入我们的损失：exp（−ij ）的方式=02、（二）exp（swTf −m）Nfi−w c伊伊伊c=1exp（−2σ2）Lidt=−logexp（siwTfi−m）+Σji=yi、exp（siwTfi）为了简单起见，让我们定义一个置信度值si =1时。反我（四）将fi和wj两者都应变在λ2归一化的单位球面上，2我们有ij =s（1-w f），其中yi是xi的地面真值标签。我们的置信度感知识别损失（C-Softmax）不同于共同识别损失，2σ2ij i正弦损失[39]如下：（1）每个图像都有独立的p y=j|xi）=Σexp（siwTfi）闭塞构成我6820.（三）和动态si，而不是常数共享标量，以及（2）（exp（swTf）容限参数m不乘以si。该inde-c=1我Cisi的悬垂允许其选通wj等式3中的置信度感知后验的效果如图4所示。当在各种质量的样本中进行训练时，如果我们假设所有样本都具有相同的置信度，则学习到的原型将位于所有样本的中心。这是不理想的，因为低质量的样本传达了更模糊的身份信息。在和fi，因为训练样本的置信度（变化程度）可能具有很大的差异。虽然样本是特定的，但我们的目标是学习一个同质的特征空间，以便不同身份之间的度量是一致的。因此，允许si补偿样本的置信度差异，我们N6821我我我我我我我(a) 变分相关特征（b）变分去相关特征(a)大小为8的子嵌入（b）大小为32的图5：通过将特征向量拆分为不同大小的子嵌入的相关矩阵。相关性是根据到类中心的距离计算的。期望m在所有身份之间一致地共享。3.2. 置信度感知子嵌入虽然通过样本特定的门控学习的嵌入fi可以处理样本级别的变化，但我们认为fi本身的条目之间的相关性仍然很为了最大化表示能力并实现紧凑的特征尺寸，需要对嵌入的条目进行这鼓励我们进一步将整个嵌入fi分解为分区的子嵌入，每个子嵌入进一步分配一个标量置信度值。如图3所示，我们将整个特征嵌入fi划分为K个等长子嵌入，如等式5所示。因此，原型向量w，j和置信度标量s，i也被划分为相同大小的K个组。w j=[w（1）T，w（2）T，. - 是的- 是的，w（K）T]，图6：变化去相关损失通过将不同的子嵌入与不同的变化相关联来解开它们。在该示例中，前两个子嵌入被强制为对遮挡不变，而后两个子嵌入被强制为对模糊不变。通过为每个变化推送更强的不变性，减少了两个变化之间的相关性/重叠。3.3. 子嵌入解相关单独设置多个子嵌入不能保证不同组中的特征学习完整的信息。如图5所示，我们发现子嵌入仍然高度相关，即，将f1分成相等的16组，所有子嵌入之间的平均相关性为0。五十七如果我们用不同的正则化惩罚子嵌入，它们之间的相关性可以降低。通过将不同的子嵌入与不同的变化相关联，我们在所有子嵌入的子集上进行变化分类损失，同时在其他变化类型方面进行变化对抗损失。给定多个变化，这样的两个正则化项被强加在不同的子集上，导致更好的子嵌入去相关。对于每个可扩充变分t ∈ {1，2，. - 是的- 是的，M}，我们生成二进制掩码V，其选择随机K子集jj jt2fi=[f（1）T，f（2）T，. - 是的- 是的，f（K）T]，（五）所有子嵌入的一半，同时将另一半设置为零。我我我si=[s（1），s（2），. . .，s（K）]，每一组子嵌入f（k）分别被归一化到单位球面上因此，最后的识别损失是：exp（ai，yi−m）掩码在训练开始时生成，并在训练期间保持固定。我们保证，对于不同的变化，面具是不同的。我们期望Vt（fi）反映第t次变化而对其他变化不变。因此，我们通过学习预测每个掩码子集的所有变化Lidt=−logΣexp（ai，yi−m）+jyexp（ai，j）、（6）ΣM最小LC=−Cl ogpC（ui=ui|Vt（fi）ai，j= 1ΣKs（k）w（k）Tf（k）.（七）t=1ΣM ΣM（九）iji′ ′K=−logpC（u（t）=u（t）|Vt（fi）k=1神经网络的一个常见问题是它们往往我们添加一个额外的我我t=1t′=1其中ui=[u（1），u（2），. - 是的- 是的，u（M）]是二进制标签（0/1）我我我l2正则化以约束置信度增长任意大：已知变量和不确定性是真实的标签。例如，如果t=1对应于分辨率，则u∈（1）将是Lreg= 1ΣKKk=1s（k）2.（八）1和0分别用于高/低分辨率图像。注意公式9仅用于训练CMAC。相应的分类和对抗损失的吉吉模糊吉吉模糊闭塞闭塞6822我D嵌入网络则由下式给出：ΣMLcls=−logpC（u（t）=u（t）|Vt（fi））（10）t=13.5. 不确定性引导的概率聚集考虑到用于推断的度量，简单地取所学习的子嵌入的平均值是次优的。 This is because different sub-embeddings show different discrimina- tive power fordifferent variations.其重要性应ΣMLadv= −Σ1（logp C（u（t）= 0|V t（fi））+根据给定的图像对而变化受启发[31]，我们考虑应用与每个相关的不确定性，t =1 t′t21′（十一）用于成对相似性得分的嵌入：¨ ¨2logp C（u（t）= 1 |V t（fi）））K <$f（k）−f（k）<$2score（x，x）=−1ij分类损失L鼓励V是一种变化--i j 2σ（k）2+σ（k）2CLS Tk=1ij（十四）具体而Ladv是一个对抗性的损失，以鼓励在-与其他变量的差异只要没有两个面具DK−log（σ（k）2+σ（k）2）是相同的，它保证所选择的子集Vt是2Kijk=1功能上不同于其他Vt′。从而实现了Vt与Vt′之间的解码关系。每个样本的总体损失函数minL = Lidt + λreg Lreg + λclsLcls + λadv Ladv.（十二）θ在优化期间，在小批量中的样本上对等式（123.4. 挖掘更多变化有限数量（在我们的方法中为三个）的可增强的变化导致有限的效果去相关的数量- ber的Vt太小。为了进一步增强去相关性，以及引入更多变体以获得更好的泛化能力，我们的目标是探索更多具有语义意义的变体。请注意，并非所有的变化都容易进行数据扩充，例如。微笑与否很难增加。对于这种变化，我们试图从原始训练数据中挖掘出变化标签特别是，我们利用现成的属性数据集CelebA [18]来训练具有身份对抗损失的属性分类模型θA虽然使用公式8进行正则化，但我们根据经验发现，在识别损失的情况下学习的置信度仍然倾向于过度自信，因此不能直接用于公式14，因此我们微调原始置信度分支以预测σ，同时固定其他部分。我们建议读者参考[31]以了解微调的训练细节。4. 实现细节训练细节和基线所有模型都是用Pytorch v1.1实现的。我们使用来自Arc- Face [4]的MS-Celeb-1 M [7]的干净列表作为训练数据。在清理与测试集重叠的主题后，我们有76.5K类的4.8M图像我们使用[46]中的方法进行人脸对齐，并将所有图像裁剪为110×110的大小。在训练和测试期间分别应用随机和中心裁剪，以将图像转换为100×100。我们使用[4]中修改的100层ResNet作为我们的架构。所有模型的嵌入大小为512，并且对于多嵌入方法，特征被分成16组。模型C是一个线性分类器。中的基线模型minLθA= − log p（lA|xA）−θA1美元NClogp（y A=c|xA）实验使用CosFace损失函数进行训练[39，38]，该函数在一般人脸识别任务上实现了最先进的性能没有区域扩张的模型minLDA=−logp（yA=yxA|（13）一其中，lA是属性标签，yA是标识标签。xA是输入面部图像，NA是CelebA数据集中的身份的数量第一项惩罚特征以分类面部属性，并且第二项惩罚特征对身份不变。然后，将属性分类器应用于识别训练集以生成T个新的软变化标签，例如，笑不笑，年轻还是年老。这些额外的变体二进制标签与原始的可扩充变体合并标记为： ui=[u（ 1 ）， . - 是的- 是的， u（ M ）， u（M+1），. - 是的- 是的，u（M+T）]和被训练18个时期，并且具有域扩充的模型被训练27个时期以确保收敛。我们根据经验将λreg、λcls和λadv分别设置为0.001、2.0和2.0。裕度m根据经验被设置为30。对于不可增强的变化，我们选择T=3个属性，即微笑，年轻和性别。对于低分辨率，我们使用核大小在3到11之间的高斯模糊。对于遮挡，我们将图像分成7×7块，并随机使用黑色蒙版替换一些块（3）对于姿势增强，我们使用PRNet [5]来拟合数据集中近正面人脸的3D模型，并将它们旋转成我我我然后被合并到第3.3节中的去相关学习框架中。偏航角在40度和60度之间。所有的增强都是随机组合的，每个概率为30%。′一6823(a) I类（b）II类（c）III图7：三种类型数据集的示例。图像被(a) 基线(b) 提出[10][11][12][14][15][16][17][18][19图9：2D空间中特征的t-SNE可视化颜色测试数据原始B O P9075604530(a) 基线测试数据原始B O P9075604530(b) 提出表明身份。原始训练样本和增强训练样本分别以圆形和三角形示出。90888684828078图8：IJB-A基准不同变化的合成数据的测试结果不同行对应于训练期间的不同增强策略。列是不同的合成测试数据。“B”、“O”、“P”分别表示“模糊”、“遮挡”和“姿态”。所提出的方法的性能得到改善，在一个单调的方式与更多的增强被添加。5. 实验在本节中，我们首先介绍反映不同变化水平的不同类型的数据集。不同的变化水平指示不同的图像质量，从而导致不同的性能。然后，我们进行了详细的消融研究所提出的置信度感知损失和所有提出的模块。此外，我们对这些不同类型的测试数据集进行了评估，并与最先进的方法进行了比较5.1. 数据集我们在八个人脸识别基准上评估我们的模型根据变化程度，数据集大致分为三种类型：类型I：有限变化LFW[10]，CFP[30]、YTF[42]和MegaFace [12]是四个广泛应用的通用人脸识别基准我们认为这些数据集的变化是有限的，因为只有一个或几个变量被呈现。特别地，YTF是具有相对较低分辨率的视频样本; CFP [30]是具有大姿态变化但具有高分辨率的人脸图像; MegaFace包括从互联网上抓取的100万个干扰项，而其标记的图像都是来自FaceScrub数据集的高质量正面人脸[23]。对于LFW和YTF，我们使用无限制验证协议。对于CFP，我们专注于额面轮廓（FP）协议。我们对两种验证进行测试76电话：+86-0512 - 88888888传真：+86-0512 - 88888888# Sub-embeddings (K)图10：关于K的不同选择的性能变化。和识别协议类型II：混合质量IJB-A [14]和IJB-C [21]包括从野外拍摄的高质量名人照片和照明、遮挡、头部姿势等变化较大的低质量视频帧我们测试的验证和识别协议的两个基准。第三类：低质量我们在TinyFace [3]和IJB上进行测试，S [11]，两个极具挑战性的基准测试，主要由低质量的人脸图像组成。特别地，TinyFace仅由在野外捕获的低分辨率面部图像组成，其还包括其他变化，例如遮挡和姿势。IJB-S是一个视频人脸识别数据集，其中所有图像都是由监控摄像头捕获的视频帧，除了每个人的一些高质量注册照片。三种类型的数据集的示例图像如图7所示。5.2. 消融研究5.2.1自信意识学习我们通过逐渐添加可命名的变量来训练一组模型。“基线”模型是一个18层的ResNet，在随机选择的MS-Celeb-1 M（0.6M图像）子集上训练。“作为对照实验，我们在IJB-A数据集上应用相同类型的增强来合成相应变化的在图8中，85.4139.2452.08七十点四十七分86.4884.0745.98七十一点二八73.7768.3955.86四十四点六二80.824.9535.64五十四点零五分86.1983.2545.56七十点五一86.7283.5381.47七十五点四十四分原始增强原始增强FAR=0.001%增强B+O+PBB+O没有一增强B+OB+O+P没有一B真实接受率（TAR）6824模型方法LFWCFP-FPIJB-A（TAR@FAR）小脸IJB-SVACI我DEPA精度精度FAR=0.001%FAR=0.01%Rank1Rank5Rank1秩5基线99.7598.1682.2093.0546.7551.7937.1446.75一C99.7098.3582.4293.8655.2659.0451.2758.94BCC99.7898.3094.7096.0257.1163.0959.8766.90CCCCCCCC99.7799.7898.5098.6694.7596.1096.2797.2957.3055.0463.7360.9759.6659.7166.3066.32DCCCCCCC99.6599.6897.7798.0080.0694.3792.1496.4234.7635.0539.8640.1329.8750.0040.6956.27E（所有）CCCCCCCCC99.7599.7898.3098.6495.0096.0096.2797.3361.3263.8966.3468.6760.7461.9866.5967.12表1：整个框架的消融研究（第3.5节）。E（all）使用所有建议的模块。方法LFWYTFCFP-FPMF1Rank1真的[29]第二十九话99.6395.1---[41]第四十一话99.2894.9-65.2376.52[第17话]99.4295.0-75.7789.14ArcFace [4]99.8398.0298.3781.0396.98[39]第三十九话99.7397.6-77.1189.88我们的（基线）99.7597.1698.1680.0395.54我们的（基线+VA）99.7097.1098.3678.1094.31我们的（所有）99.7597.6898.3079.1094.92Ours（all）+PA99.7897.9298.6478.6095.04表2：我们的方法与I 型数据集上最先进的方法进行了比较。MegaFace验证率在FAR=0时计算。0001% “-” indicates that the authordid not report the performance on the corre- sponding新的变化，如从顶行到底行的网格。相比之下，所提出的方法在从上到下添加新变化时显示出改进的性能，这突出了我们的置信度感知表示学习的效果，并且它进一步允许将更多变化添加到框架训练中。我们还将t-SNE投影到2D嵌入空间上的特征图9示出了对于“基线”模型，具有不同的变化增强，特征实际上是混合的，因此对于识别是错误的。而对于“Proposed”模型，不同的变异扩增生成的样本仍然聚集在一起，这表明同一性得到了很好的保留。在与上面相同的设置下，我们还在图10中显示了使用不同数量的组的效果。在开始时，将嵌入空间分成更多的组可以提高两个TAR的性能。当每个子嵌入的大小变得太小时，由于每个子嵌入的容量有限，性能开始下降5.2.2所有模块我们通过查看表1中的消融模型来研究每个模块从基线开始，模型A使用变异增强进行训练。在模型A的基础上，增加了置信度感知的识别损失，得到模型B.模型C通过设置多个子嵌入来进一步训练。在模型E中，我们进一步增加了去相关损失。我们还比较了模型D的所有模块，除了变化增强。模型C，D和E，其中有多个嵌入，测试w/和w/o的概率聚集（PA）。该方法在两种类型上进行了测试I型数据集（LFW和CFP-FP），一个II型数据集（IJB-A）和一个III型数据集（TinyFace）。如表1所示，与基线相比，添加变异增强提高了CFP-FP、TinyFace和IJBA的性能这些数据集准确地呈现了由数据增强引入的变化，即，姿态变化和低分辨率。然而，LFW的性能相对于基线波动相比之下，模型B和C能够减少由数据增强引入的硬示例的负面影响同时，我们观察到单独拆分为多个子嵌入并没有显著改善（将B与C第一行进行比较），这可以通过子嵌入之间的强相关置信度来解释（参见图5）。然而，由于去相关损失和概率聚合，不同的子嵌入能够学习和组合互补特征以进一步提高性能，即，模型E的第二排的性能始终优于其第一排。5.3. 一般数据集的评价我们将我们的方法与一般人脸识别数据集上的最新方法进行那些具有有限变化和高质量的I型数据集。由于测试图像大多具有良好的质量，因此我们的方法的优势有限尽管如此，如表2所示，我们的方法仍然优于大多数方法，但略差于ArcFace。请注意，我们的基线模型已经在所有测试集上实现了良好的性能它实际上验证了I型测试集与训练集之间没有显着的域间隙，即使没有变化增强或嵌入去相关，6825方法IJB-a （Vrf）IJB-A（Idt）IJB-C （Vrf）IJB-C（Idt）IJB-S（S2B）FAR=0.001% FAR=0.01%Rank1Rank5FAR=0.001% FAR=0.01% Rank1Rank5Rank1 Rank5 FPIR=1%NAN [44]*-88.1±1.195.8±0.598.0±0.5-------[25]第二十五话90.9±0.794.3±0.597.3±0.598.8±0.3-------[47]第四十七话94.6±0.197.3±0.599.0±0.299.5±0.3-------Cao等人[二]《中国日报》-92.1±1.498.2±0.499.3±0.276.886.291.495.1---多列[43]-92.0±1.3--77.186.2-----PFE [31]-95.3±0.3--89.693.3--50.1658.3331.88Arc Face [4]+93.7±1.094.2±0.897.0±0.697.9±0.493.595.895.8797.2757.3664.9541.23我们的（基线）82.6±8.393.3±3.095.5±0.796.9±0.643.986.789.8590.8637.1446.7524.75我们的（基线+VA）82.4±8.193.9±3.595.8±0.697.2±0.547.690.690.1691.2051.2758.9431.19我们的（所有）95.0±0.996.3±0.697.5±0.498.4±0.491.693.794.3996.0860.7466.5937.11Ours（all）+PA96.0±0.897.3±0.497.5±0.398.4±0.395.096.696.0097.0661.9867.1242.73表3：我们的模型与IJB-A、IJB-C和IJB-S上的最新方法进行了比较。“-” indicates that the author did not report the performance on the corresponding高质量模糊闭塞大姿态图11：来自IJB-C数据集的不同类型图像的子嵌入不确定性的热图可视化，显示在每个面部图像的右侧。16个值排列在4×4网格中（无空间意义）。颜色越亮表示不确定性越高。直的训练可以导致好的表现。5.4. 混合/低质量数据集的评价当对更具挑战性的数据集进行评估时，这些最先进的通用方法会遇到性能下降，因为具有挑战性的数据集存在较大的变化，因此与高质量的训练数据集存在较大的域差距。表3显示了在三个具有挑战性的基准上的性能：IJB-A、IJB-C和IJB-S。所提出的模型实现了一贯更好的结果比国家的最先进的。特别是，简单地添加变化增强（“我们的（基线+ VA）”）实际上会导致IJB-A和IJB-C的性能更差。当变化增强与我们提出的模块（“我们的”）相结合时进一步添加PA与注意，IJB-A是一个交叉验证协议。许多作品在评估之前对训练分割进行微调（以“*”显示）。即使如此，我们的方法在没有微调的情况下仍然优于最先进的方法，在IJB-A验证协议上具有显著的裕度，这表明我们的方法确实学习了处理不可见变化的表示。表3最后一列显示了对IJB-S的评估，这是迄今为止针对图像质量严重差的真实监视场景的最具挑战性的基准。我们显示IJB的监视到预订（S2 B）协议S.其他方案结果见补充资料。由于IJB-S最近发布，因此很少有研究对该数据集进行评估。为了全面评估我们的模型，我们使用ArcFace [4]公开发布的模型进行比较。我们的方法在Rank-1和Rank-5识别协议中实现了一致的更好的性能对于TinyFace，如表1所示，我们实现了63。89%，68. 67% rank-1和rank-5准确度，其中[3]报告44。百分之八十，六十。40%，ArcFace达到47。39%，52. 百分之二十八结合表2，我们的方法在一般识别数据集上实现了顶级准确性，在具有挑战性的数据集上实现了更高的准确性，这表明了在处理极端或不可见变化方面的优势不确定性可视化图11显示了16个子嵌入重塑为4×4网格的显示了高质量和低质量的子嵌入分别为深色和浅色。不确定性图针对不同的变化呈现不同的模式。6. 结论在这项工作中，我们提出了一个通用的人脸表示学习框架，URFace，识别各种变化下的人脸。我们首先通过数据增强将三个可命名的变量引入MS-Celeb-1 M训练集传统的方法在直接将扩充后的硬样本送入训练时会遇到收敛问题。我们提出了一种置信度感知的表示学习，通过将嵌入划分为多个子嵌入，并将置信度放松为样本和子嵌入特定的。此外，分类和对抗性损失的变化提出去相关的子嵌入。通过用不确定性模型来制定推理，子嵌入被适当地聚合。实验结果表明，该方法在LFW和MegaFace等通用基准测试中取得了最佳性能，在IJB-A、IJB-C和IJB-S等具有挑战性的基准测试中取得了显著的准确性。6826引用[1] Hakan Bilen和Andrea Vedaldi。通用表示法：面孔、文字、浮游生物和猫品种之间缺失的一环。 arXiv：1701.07275，2017年。2[2] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在IEEE FG，2018年。8[3] Zhiyi Cheng，Xiatian Zhu，and Shaogang Gong.低分辨率人脸识别。在ACCV，2018年。一、六、八[4] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.Arcface ：用于深度人脸识别的附加角度余量损失CVPR，2019年。一、二、五、七、八[5] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在ECCV，2018。5[6] Chuan Guo，Geoff Pleiss，Yu Sun，and Kilian Q.温伯格现代神经网络的校准ICML，2017。4[7] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。在ECCV，2016年。5[8] AbulHasnat，JulienBohne'，JonathanMilgram，Ste'phaneGentric，and Liming Chen.Deepvisage：使人脸识别简单但具有强大的泛化能力。ICCV，2017年。2[9] 杰虎，李申，孙刚。压缩-激励网络。在CVPR，2018年。2[10] 加里湾Huang，Manu Ramesh，Tamara Berg，and ErikLearned-Miller.在野外贴上标签的脸：用于研究无约束环境中人脸识别的数据库。技术报告07-49，马萨诸塞大学阿默斯特，2007年10月。1、6[11] 内森 ·D 放大图片作者： James A. Duncan ， Kevin J.OConnor，Stephen Elliott，Kaleb Hebert，Julia Bryan，and Anil K.贾恩。IJB-S：IARPA Janus监视视频基准。在BTAS，2018年。1、6[12] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard.megeface基准：100万张人脸用于大规模识别。在CVPR，2016年。6[13] Aditya Khosla ， Tinghui Zhou ， Tomasz Malisiewicz ，Alexei A Efros，and Antonio Torralba.消除数据集偏差的损害ECCV，2012年。2[14] 布伦丹·F·凯布尔、本·克莱因、艾玛·塔博斯基、奥斯汀·布兰顿、乔丹·切尼、克里斯汀·艾伦、帕特里克·格罗瑟、艾伦·马和阿尼尔·K·贾恩。推动无约束人脸检测和识别的前沿：IARPA Janus基准A. CVPR，2015。1、6[15] DalLi，Yongxin Yang ，Yi-Zhe Song，and Timothy MHospedales.更深、更广、更艺术的领域概括。在IEEE计算机视觉国际会议论文集，第5542-5550页，2017年。2[16] DalLi，Yongxin Yang ，Yi-Zhe Song，and Timothy MHospedales.学习概括：元学习的主要推广。在AAAI，2018。2[17] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在CVPR，2017年。一、二、七[18] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性。在ICCV，2015年。56827[19] IacopoMasi ， StephenRawls ， Ge'rardMedioni ，andPremNatarajan.野外姿态感知人脸识别在CVPR，2016年。1[20] IacopoMasi，Anh Tun Trn，Tal Hassner，Jatuporn ToyLeksut和G e'rardMedioni。我们真的需要收集数百万张人脸来进行有效的人脸识别吗在ECCV，2016年。一、二[21] Brianna Maze ， Jocelyn Adams ， James A Duncan ，Nathan Kalka，Tim Miller，Charles Otto，Anil K Jain，W Tyler Niggel，Janet Anderson，Jordan Cheney，et al.IARPA Janus基准测试- C：面部数据集和协议。在ICB，2018年。6[22] KrikMuande t，D a vidBalduzzi，andB e rnhardSchoülkopf. 通过不变特征

下载后可阅读完整内容，剩余1页未读，立即下载