没有合适的资源?快使用搜索试试~ 我知道了~
strate models and human attend to different image areas invisual understanding [11]. Without design to harness in-terpretability, even when filters are observed to actively re-spond to certain local structure across several images, thereis nothing preventing them to simultaneously capture a dif-ferent structure; and the same structure may activate otherfilters too. One potential solution to address this issue isto provide annotations to learn locally activated filters andconstruct a structured representation from bottom-up. How-ever, in practice, this is rarely feasible. Manual annotationsare expensive to collect, difficult to define in certain tasks,and sub-optimal compared with end-to-end learned filters.A desirable solution would keep the end-to-end train-ing pipeline intact and encourage the interpretability with amodel-agnostic design. However, in the recent interpretableCNNs [68], where filters are trained to represent object partsto make the network representation interpretable, they ob-serve degraded recognition accuracy after introducing in-terpretability. While the work is seminal and inspiring, thisdrawback largely limits its practical applicability.In this paper, we study face recognition and strive tolearn an interpretable face representation (Fig. 1). We defineinterpretability in this way that when each dimension of therepresentation is able to represent a face structure or a facepart, the face representation is of higher interpretability. Al-though the concept of part-based representations has been193480朝着可解释的人脸识别0Bangjie Yin 1 � Luan Tran 1 � Haoxiang Li 2 † Xiaohui Shen 3 † Xiaoming Liu 101 密歇根州立大学 2 Wormpex AI研究 3 字节跳动AI实验室0摘要0深度CNN在过去几年中推动了视觉识别的前沿。除了识别准确性外,研究界对深度CNN的理解需求推动了开发工具来解剖预训练模型,以可视化其进行预测的方式。最近的研究进一步推动了网络学习阶段的可解释性,以学习更有意义的表示。在这项工作中,我们专注于视觉识别的一个特定领域,报告了我们在可解释人脸识别方面的努力。我们提出了一种空间激活多样性损失,以学习更有结构的人脸表示。通过利用这种结构,我们进一步设计了一种特征激活多样性损失,以推动可解释表示具有区分度和对遮挡具有鲁棒性。我们在三个人脸识别基准上展示了我们提出的方法能够以易于解释的人脸表示实现最先进的人脸识别准确性。01. 引言0在深度学习时代,研究界的一个主要关注点是设计网络架构和目标函数,以实现有区分度的特征学习[19, 20, 29, 34,54, 59]。与此同时,鉴于其超越人类的识别准确性[18,36],研究人员和普通观众都强烈要求解释其成功和失败[15,41],以理解、改进和信任其决策。对CNN进行可视化的兴趣增加,导致了一系列有用的工具,用于解剖其预测路径以识别重要的视觉线索[41]。尽管观察经过预训练模型进行预测的视觉证据很有趣,但更有趣的是引导学习以实现更好的可解释性。针对有区分度的分类进行训练的CNN可能会学习到具有广泛分散注意力的滤波器,这通常对人类来说很难解释。先前的工作甚至在经验上证明了这一点。0� 表示作者贡献相等。†李博士和沈博士在Adobe公司任职期间对此工作有贡献。项目页面位于http://cvlab.cse.msu.edu/project-interpret-FR0图1.可解释人脸识别系统行为示例:最左列是同一身份的三张人脸,右侧六列是六个滤波器的响应;每个滤波器捕捉到一个清晰且一致的语义人脸部分,例如眼睛、鼻子和下巴;严重的遮挡,如眼镜或围巾,会导致相应的滤波器的响应发生变化,使得响应更加分散,如红色边界框所示。93490然而,现有的方法在深度CNNs中并不容易应用。特别是在人脸识别中,据我们所知,这个问题在文献中很少被提到。在我们的方法中,滤波器是从数据中端到端地学习的,并且受到所提出的空间激活多样性损失的局部激活约束。我们进一步引入了特征激活多样性损失,以更好地对齐面部的滤波器响应,并鼓励滤波器捕捉更具有区分性的视觉线索,特别是对遮挡的人脸识别。与Zhang等人的可解释CNNs[68]相比,我们最终的人脸表示不会损害识别准确性,相反,它在识别准确性上取得了改进的性能,并增强了对遮挡的鲁棒性。我们在三个人脸识别基准上进行了实证评估,并对所提出的目标函数进行了详细的消融研究。总之,本文的贡献有三个方面:1)我们提出了一种空间激活多样性损失,以鼓励学习可解释的人脸表示;2)我们引入了一种特征激活多样性损失,以增强对遮挡的区分性和鲁棒性,从而提高了可解释性的实用价值;3)与基础CNN架构相比,我们在三个人脸识别基准上实现了更好或类似的人脸识别性能,同时展示了更优越的可解释性。02. 相关工作0可解释的表示学习对视觉识别的理解在计算机视觉领域有着悠久的历史[22,37, 43, 48,49]。在早期,当大多数模型使用手工特征时,许多研究都集中在如何解释预测上。当时的视觉线索包括图像块[22]、物体颜色[50]、身体部位[62]、面部部位[26]或中层表示[48],这取决于任务。例如,Vondrick等人[57]开发了HOGgles来可视化目标检测中的HOG描述符。由于诸如SIFT[35]、LBP[1]等特征是从图像块中提取出来并作为识别流程中的构建块,因此从块的层面描述过程是直观的。随着更复杂的CNNs的出现,需要新的工具来解剖其预测。早期的工作包括直接可视化滤波器[66],从不同层次重构输入的解卷积网络[67],基于梯度的方法生成最大化某些神经元的新输入[39]等等。最近的工作包括利用全局最大池化来可视化表示的维度的CAM[71],以及通过一个通用框架放宽网络上的约束来可视化任何卷积滤波器的Grad-CAM[44]。虽然我们的方法与CNNs的可视化有关,并且我们利用工具来可视化我们学到的滤波器,但这不是本文的重点。CNNs的可视化是解释网络的好方法。0但是,仅靠自身并不能使网络更具可解释性。注意力模型[61]已经在图像字幕生成中使用过。通过注意机制,他们的模型可以将特征图分别推送到每个预测的字幕单词上,这似乎与我们的想法相似,但需要大量标记数据进行训练。关于学习更有意义的表示的最近工作是可解释CNNs[68],其中两个损失函数规范了后期卷积滤波器的训练:一个是鼓励每个滤波器编码一个独特的对象部分,另一个是将其推动到仅响应一个局部区域。AnchorNet[40]采用了类似的思想,以鼓励滤波器和滤波器响应的正交性,以保持每个滤波器由一个局部和一致的结构激活。我们的方法通常扩展了AnchorNet的思想,针对人脸识别在设计我们的空间激活多样性损失方面进行了改进。另一条研究学习可解释表示的线路也被称为特征分解,例如图像合成/编辑[9,46]、人脸建模[51-53]和识别[30,69]。它们旨在将潜在表示分解为描述不同方面的输入的因素,其方向与我们本文的目标大相径庭。0人脸识别中的部分和遮挡 作为一个广泛研究的主题[8, 25,42],早期的人脸识别工作主要旨在构建有意义的表示以提高识别准确性。一些表示是由人脸部分组成的。基于部分的模型可以通过无监督学习[27]或手动注释的标记点[6]来学习。除了局部部分,人脸属性也是构建表示的有趣元素。Kumar等人[24]使用属性分类器的分数对人脸图像进行编码,并在深度学习时代之前展示了改进的性能。在本文中,我们提出使用深度CNN学习有意义的基于部分的人脸表示,通过精心设计的损失函数。我们演示了如何利用可解释的表示来实现鲁棒的遮挡人脸识别。之前处理人脸姿态变化的方法[6, 7,27, 31, 32, 55, 64,65]可能与此相关,因为姿态变化可能导致自遮挡。然而,本工作对手、太阳镜和其他物体遮挡的明确情况更感兴趣。有趣的是,这个具体的方面在CNN中很少被研究。Cheng等人[10]提出使用深度自编码器恢复遮挡的人脸以提高识别准确性。Zhou等人[72]认为,通过在训练数据中具有足够覆盖范围的高容量网络进行简单训练可以实现更高的准确性。在我们的实验中,我们确实观察到在合成遮挡人脸的训练增强后,对遮挡人脸的识别准确性得到了改善。然而,通过所提出的方法,我们可以在不增加网络容量的情况下进一步提高对遮挡的鲁棒性,这突显了可解释表示的优点。0使用CNN处理遮挡的方法不同LfilterSAD(F) =�i̸=j������p⟨Fpi , Fpj⟩∥Fpi ∥F ∥Fpj∥F����� ,(1)LresponseSAD(I; Φ, F) =�i̸=j����⟨ψi, ψj⟩∥ψi∥F ∥ψj∥F����2.(2)93500F0L SAD0Sec 3.10F0Pool0Pool0Diff Diff 0-10Sec 3.20FC0FC0L i0L id0L SAD0L FAD0遮挡0图2. 所提出框架的整体网络架构。空间激活多样性(SAD)损失促进结构化特征响应,特征激活多样性(FAD)损失使其对局部变化(遮挡)不敏感。0提出了使用CNN处理遮挡以实现鲁棒的目标检测和识别。Wang等人[58]通过为每个对象生成遮挡掩码来学习目标检测器,从而为对抗网络生成更难的样本。在[47]中,利用遮挡掩码强制网络关注对象的不同部分。Ge等人[14]通过提出一个带有遮挡的人脸数据集并将其应用于他们提出的LLE-CNNs来检测带有严重遮挡的人脸。相比之下,我们的方法强制对特征激活的扩展性施加约束,并引导网络从不同的人脸部位提取特征。03. 提出的方法0我们在训练中的网络架构如图2所示。从高层次的角度来看,我们构建了一个具有两个共享权重的分支的连体网络,从两个人脸中学习人脸表示:一个带有合成遮挡,一个没有。我们希望学习一组多样化的滤波器F,它应用于由多个语义级别的特征组成的超列描述符Φ。所提出的空间激活多样性(SAD)损失鼓励人脸表示具有一致的语义含义。Softmax损失有助于编码身份信息。较低网络分支的输入是上述输入的合成遮挡版本。所提出的特征激活多样性(FAD)损失要求滤波器对遮挡部分不敏感,因此对遮挡更具鲁棒性。同时,我们屏蔽对遮挡敏感的人脸表示的部分,并训练仅基于剩余元素来识别输入人脸。结果是,对非遮挡部分有响应的滤波器被训练以捕捉更具辨别力的识别线索。03.1. 空间激活多样性损失0Novotny等人[40]提出了一种用于语义匹配的多样性损失,通过惩罚滤波器权重之间的相关性来实现0和它们的响应。虽然他们的想法足够一般,可以扩展到面部表示学习,但在实践中,由于人脸识别中身份(类别)数量过多,他们的设计不直接适用。他们的方法也会导致识别准确性下降。我们首先介绍他们的多样性损失,然后描述我们针对人脸识别提出的修改。空间激活多样性损失对于训练集中的每个 K类,Novotny等人[40]提出学习一组具有区分能力的多样性滤波器,用于区分该类别的对象和背景图像。滤波器 F应用于超列描述符 Φ( I ),该描述符通过连接不同卷积层上图像 I的滤波器响应而创建[17]。这有助于 F在不同语义层次上聚合特征。这个操作的响应图表示为 ψ ( I) = F � Φ( I ) 。多样性约束通过两个多样性损失 L �lterSAD 和 L response SAD实现,分别鼓励滤波器及其响应的正交性。L �lter SAD通过惩罚它们的相关性使滤波器正交:0其中 F p i 是空间位置 p 处的滤波器 F i的列。注意,正交滤波器可能对不同的图像结构有响应,但这不一定是真的。因此,引入第二项 L response SAD来直接去相关滤波器的响应图 ψ i ( I ) :0这个术语通过使用平滑的响应图 ψ ′ ( I ) = g σ � ( ψ ( I )) 代替 L response SAD损失计算中的 ψ ( I ) 进一步正则化。这里的通道-wise 高斯核 g σLid = − log(Pc(f(I))).(3)LFAD(I,ˆI) =�i���τi(I,ˆI)�fi(I) − fi(ˆI)���� ,(4)93510应用于扩大它们的激活,以使滤波器的响应进一步分散。我们的提出的修改 Novotny等人[40]学习 K组滤波器,每个类别一个。通过 K个二进制分类损失(对每个类别与背景图像)来维持特征的区分性。鉴别损失旨在增强(或抑制)正(或负)类的响应图 ψ i 中的最大值。在[40]中,通过在 ψ上进行全局最大池化操作来获得最终特征表示 f。这种设计对于人脸分类CNN不适用,因为身份数量 K通常非常大(通常在数万个或更多)。在这里,为了使特征具有区分性,我们只学习一组滤波器,并将表示 f ( I )直接连接到 K -way softmax 分类:0这里我们最小化特征 f ( I ) 被正确分类为其真实身份 c的负对数似然。此外,全局最大池化可能导致不令人满意的识别性能,如[40]所示,与没有多样性损失的模型相比,它观察到了轻微的性能下降。这种性能下降的一个经验解释是,最大池化具有ReLU激活的类似效果,使响应分布偏向非负范围 [0 , + ∞ )。因此,它显著限制了可行的学习空间。最近的大多数工作选择使用全局平均池化[55,63]。然而,当应用平均池化来引入可解释性时,它并不促进所需的空间尖峰分布。经验上,我们发现平均池化的学习特征响应图在小的局部区域内没有强烈的激活。在这里,我们的目标是设计一种池化操作,满足两个目标:i)促进尖峰分布,以便与空间激活多样性损失良好合作;ii)保持特征响应的统计信息,以实现良好的识别性能的全局平均池化。基于这些考虑,我们提出了称为大幅度滤波(LMF)的操作,如下所示:对于特征响应图中的每个通道,我们将具有最小幅度的 d % 的元素赋值为 0。输出的大小保持不变。我们将 L response SAD损失应用于修改后的响应图 ψ ′ ( I ) = g σ � ( LMF ( ψ ( I))) ,而不是在公式 2 中的 ψ ( I )。然后,将传统的全局平均池化应用于 LMF ( ψ ( I )),以获得最终的表示 f ( I ) 。通过从 ψ i中去除小幅度值,全局平均池化后 f不会受到太大影响,这有利于区分性特征学习。另一方面,响应图的峰值仍然得到很好的保持,这导致多样性损失的计算更可靠。03.2. 特征激活多样性损失0评估多样性损失效果的一种方法是计算图像集中第k个响应图ψ′i(I)中峰值的平均位置。如果K个滤波器的平均位置在脸部空间上分布广泛,则多样性损失的功能良好,并且可以将每个滤波器与特定的脸部区域关联起来。通过SAD损失,我们观察到与没有SAD损失训练的基础CNN模型相比,分布性得到了改善。由于我们认为更广泛的分布性表示更高的可解释性,我们希望进一步提高滤波器的平均峰值位置在滤波器的元素中的分布性。受到学习基于部分的人脸表示目标的启发,我们希望鼓励任何局部脸部区域只影响滤波器响应的一个小子集。为了实现这一愿望,我们提出在人脸图像的局部区域上创建合成遮挡,并限制其特征响应与未遮挡原始图像的差异。我们提出了特征激活多样性(FAD)损失,以鼓励网络学习对遮挡具有鲁棒性的滤波器。也就是说,局部区域的遮挡只应影响表示中的一小部分元素。具体而言,利用人脸图像对I,ˆI的成对,其中ˆI是具有合成遮挡区域的I的版本,我们强制要求两个特征表示f(I)和f(ˆI)的大部分相似:0其中特征选择掩码τ(I,ˆI)定义为0阈值 t : τ i ( I , ˆ I ) = 1 if ��� f i ( I ) − f i (ˆ I ) ��� < t ,0τ i ( I , ˆ I ) = 0 .对于阈值有多种设计选择:基于元素数量或基于值。我们在实验中评估和讨论了这些选择。我们还希望仅使用特征元素的子集正确分类遮挡图像,这对遮挡不敏感。因此,遮挡分支中的softmax身份损失应用于掩码特征:0L 遮挡 id = − log( P c ( τ ( I , ˆ I ) ⊙ f ( ˆ I ))) . (5)0通过共享分类器的权重,该分类器学习对遮挡更具鲁棒性。这也导致更好的表示,因为对非遮挡部分响应的滤波器需要更具有区分性。03.3. 实现细节0我们提出的方法是模型无关的。为了证明这一点,我们将SAD和FAD损失应用于两个流行的conv21conv123 × 3/248 × 48 × 64conv22conv213 × 3/148 × 48 × 64conv23conv223 × 3/148 × 48 × 128conv31conv233 × 3/224 × 24 × 128conv32conv323 × 3/124 × 24 × 96conv33conv323 × 3/124 × 24 × 192conv41conv333 × 3/212 × 12 × 192conv42conv413 × 3/112 × 12 × 128conv43conv423 × 3/112 × 12 × 256conv51conv433 × 3/26 × 6 × 256conv52conv513 × 3/16 × 6 × 160conv53conv523 × 3/16 × 6 × K(a)(b)(c)Different Thresholds We study the affect of the thresholdof FAD loss. Here we use number-of-element-based thresh-olding. With an abuse of notation, t denotes the numberof elements that the FAD loss encourages their similarity.We train different models with t = 130, 260, 320. The firstthree rows in Tab. 2 show the comparison of all three vari-ants on IJB-A. When forcing all elements of f(I) and f(ˆI) tobe the same (t = K = 320), the performance significantlydrops on all three sets. In this case, the feature representa-tion of the non-occluded face is negatively affected as beingcompletely pushed toward a representation of the occludedone. While models with t = 130 and 260 perform similarly,we use t = 260 for the rest of the paper, given the observa-93520表1. 我们网络架构的结构.0层 输入 滤波器/步幅 输出尺寸0conv11 图像 3 × 3 / 1 96 × 96 × 32 conv12conv11 3 × 3 / 1 96 × 96 × 640conv43-U conv43 上采样 24 × 24 × 256 conv44conv43-U 1 × 1 / 1 24 × 24 × 192 conv53-Uconv53 上采样 24 × 24 × 320 conv54 conv53-U 1× 1 / 1 24 × 24 × 1920Φ(HC)conv33,44,54 3×3/1 24×24×576 Ψ Φ 3×3/124×24×K AvgPool Ψ 24×24/1 1×1×K0两种不同的网络架构:一种是受广泛使用的CASIA-Net [56,63]的启发,另一种是基于ResNet50[19]的。表1显示了前者的结构。我们为SAD损失学习添加了与HC描述符相关的块。通过conv上采样层,使用conv33、conv44和conv54层构建HC描述符。我们设置特征维度K =320。对于ResNet50,我们采用[12]中的修改版本,其中K =512。我们还使用不同分辨率的3个层构建HC描述符。为了加快训练速度,我们重用了[56]和[12]共享的预训练特征提取网络。所有新的权重都是使用标准差为0.02的截断正态分布随机初始化的。网络通过SGD进行训练,初始学习率为10^-3,动量为0.9。当训练损失稳定时,学习率被除以10两次。我们将LMF率(d%)设置为95.83% = 1 - 24024×24,即在24×24的特征响应图中保留24个元素。gσ是一个标准差为1.5的高斯核函数。对于FAD,可以通过多个共享语义等效遮罩的图像对I和ˆI计算特征遮罩τ。即,如果10N个图像对I和ˆI的差异小于阈值t时,f_i(I_n)0为了遮盖批处理中面部的语义等效局部区域,我们首先通过68个标记点定义一个正面人脸模板,其中包含142个三角形。然后,在人脸上随机选择一个32×12的矩形作为归一化的遮罩。矩形的四个顶点可以通过相对于包围该顶点的三角形的重心坐标来表示。对于批处理中的每个图像,可以通过相同的重心坐标找到一个四边形的相应四个顶点。这个四边形表示该图像的变形遮罩的位置(图3)。0图3.使用重心坐标,我们将模板人脸遮罩的顶点变形到64个图像的小批量中。0图4. (a) IJB-A,(b) IJB-C和(c) AR数据库的示例。04. 实验结果0数据库 我们使用CASIA-WebFace[63]训练CASIA-Net,使用MS-Celeb-1M[16]训练ResNet50,并在IJB-A [23]、IJB-C [3]和AR face[38]上进行测试(图4)。CASIA-WebFace包含10,575个主体的493,456张图像。MS-Celeb-1M包含100,000个主体的1,000,000张图像。由于其中包含许多标签噪声,我们使用MS-Celeb-1M的清理版本[16]。在我们的实验中,我们在三种情况下评估IJB-A:原始人脸、合成遮挡和自然遮挡人脸。对于合成遮挡,我们为每个测试图像随机生成一个变形的遮挡区域,与训练时相同。IJB-C是IJB-A的扩展,也是一个基于视频的人脸数据库,包含3,134张图像和117,542个视频帧,共3,531个主体。IJB-C的一个独特特性是其对细粒度遮挡区域的标注。因此,我们使用IJB-C来评估抗遮挡人脸识别,使用至少一个遮挡区域的测试图像。ARface是另一个自然遮挡人脸数据库,包含约4,000张来自126个主体的人脸。我们只使用带有自然遮挡的AR人脸,包括戴眼镜和围巾。按照[12]中的设置,所有训练和测试图像都经过处理和调整大小为112×112。注意,所有消融和定性评估都使用CASIA-Net,而定量评估使用两个模型。04.1. 消融实验LMF (d%)075.0087.5095.83std (pos./neg.) 25.7/25.7 14.7/14.4 13.5/14.0 12.9/13.493530表2. IJB-A数据库上的消融研究。'BlaS':具有静态尺寸的黑色遮罩,'GauD':具有动态尺寸的高斯噪声。0方法 IJB-A 手动遮挡 自然遮挡0度量(%)@FAR=0.01 @Rank-1 @FAR=0.01 @Rank-1 @FAR=0.01 @Rank-10BlaS(t = 130) 79.0 ± 1.6 89.5 ± 0.8 76.1 ± 1.7 88.0 ± 1.4 66.2 ± 4.0 73.0 ± 3.3 BlaS(t = 260)79.2 ± 1.8 89.4 ± 0.8 76.1 ± 1.4 88.0 ± 1.2 66.5 ± 6.4 72.3 ± 2.8 BlaS(t = 320) 74.6 ± 2.4 88.9± 1.3 71.8 ± 3.1 87.5 ± 1.6 61.0 ± 6.5 71.6 ± 3.2 GauD(t = 260) 79.3 ± 2.0 89.9 ± 1.0 76.2 ±2.4 88.6 ± 1.1 66.8 ± 3.5 73.2 ± 3.3 仅SAD 78.1 ± 1.8 88.1 ± 1.1 66.6 ± 5.6 81.2 ± 1.9 64.2 ±6.9 71.0 ± 3.3 仅FAD 76.7 ± 2.0 88.1 ± 1.1 75.2 ± 2.4 85.1 ± 1.2 66.5 ± 6.4 72.3 ± 2.80它减少了遮挡对滤波器的影响,将其他滤波器的响应从任何局部遮挡中推开,并随后增强了响应位置的分散性。不同的遮挡和动态窗口尺寸在FAD损失中,我们使用变形的黑色窗口作为合成遮挡。引入另一种类型的遮挡以观察其对人脸识别的影响是很重要的。因此,我们使用高斯噪声替换窗口中的黑色颜色。此外,我们使用动态窗口尺寸,随机生成[12,32]之间的值作为窗口的高度和宽度。在IJB-A上的人脸识别结果如表2所示,其中'BlaS'表示具有静态尺寸的黑色窗口,而'GauD'表示具有动态尺寸的高斯噪声窗口。有趣的是发现'GauD'的性能稍微更好。与黑色窗口相比,高斯噪声包含更多多样化的对抗线索。空间与特征多样性损失由于我们提出了两种不同的多样性损失,因此评估它们对人脸识别的各自影响是很重要的。如表2所示,我们使用任一损失或两种损失之一来训练我们的模型。我们观察到,虽然SAD损失在一般的IJB-A上表现得相当好,但在具有遮挡的数据上,无论是合成的还是自然的,都会遇到困难。相反,仅使用FAD损失可以提高两个遮挡数据集上的性能。最后,使用两种损失,'BlaS(t =260)'行在只有一个损失的模型上进行了改进。04.2. 定性评估0给定输入人脸,我们的模型计算LMF(ψ(I)),大小为24×24的320个特征图,其中一个特征图的平均池化是最终320维特征表示的一个元素。每个特征图包含正响应和负响应值,它们分布在人脸的不同空间区域。我们选择正响应的最高值和负响应的最低值的位置作为峰值响应位置。为了说明峰值位置的空间分布,我们随机选择了1000个测试图像,并计算每个滤波器的加权平均位置,有三点需要注意:1)有两种类型的位置,分别用于最高(正)和最低(负)响应。2)由于滤波器对语义面部组件具有响应性,它们的二维空间位置可能随着姿势的变化而变化。为了补偿这一点,我们将任意视角人脸上的峰值位置变形为规范化0图5.三个模型的320个滤波器峰值响应的平均位置(上:正响应,下:负响应):(a)基础CNN(¯d = 6.9),(b)我们的模型(仅SAD,¯d =17.1),(c)我们的模型(¯d =18.7),其中¯d表示平均位置的分散程度。每个位置上的颜色表示峰值位置的标准差。人脸图像尺寸为96×96。0表3. 不同 d 值下峰值标准差的比较。0正面视图的面部,通过其相对于包围它的三角形的重心坐标来表示。与图3类似,我们使用68个估计的地标[21,33]和图像边界上的控制点来定义三角网格。3)每个图像的权重由其峰值响应的大小确定。通过这样,所有特征图的平均位置如图5所示。为了比较我们的模型和CNN基础模型之间的可视化结果,我们计算 ¯ d = 1 K � K i ��� c i − 10K � K i c i ��� 用于量化平均位置。0位置分散性,其中 c i 表示第 i个平均位置的(x,y)坐标。对于正峰和负峰响应,我们取其平均值 ¯ d。如图5所示,我们的SAD损失模型扩大了平均位置的分散性。此外,我们的两个损失函数继续将滤波器响应彼此分离。这表明我们的模型确实能够使滤波器附着在不同的面部区域,而基础模型中的所有滤波器都不附着在特定的面部部位,导致平均位置接近图像中心(图5(a))。此外,我们计算了每个滤波器峰值位置的标准差。我们的模型具有更小的标准差,可以更好地集中在局部部位上,而基础模型则不然。在上述分析中,我们将LMF率 d设置为95.83%。值得注意的是,我们还需要分析率 d的影响。我们训练了 d = 0%、75%、87.5%或95.83%的模型。由于在平均池化之前,特征图的大小为24×24,最后3个选择分别表示我们删除了24×18、24×21和24×23个响应,0%表示基础模型。表3比较了320个滤波器峰值位置标准差的平均值。请注意最佳模型的值(12.9/13.4)等于图5(c)的平均颜色。使用较大的LMF率时,模型倾向于更集中于局部面部部位。因此,我们将 d 设置为95.83%。93540图6. 两个遮挡部位(眼睛和鼻子)上特征差异的均值。0图7.特征差异幅度与遮挡位置的对应关系。最好在电子设备上查看。0平均特征差异比较我们的两个损失函数都促进了基于部分的特征学习,从而实现了遮挡鲁棒性。特别是在FAD中,我们直接最小化了有遮挡和无遮挡的人脸表示的差异。现在我们研究我们的损失对有遮挡人脸的影响。首先,我们随机选择了1000个不同姿势的测试人脸,并生成了合成遮挡。然后,对于每个滤波器,我们计算原始人脸和遮挡人脸之间的特征差异的均值(10N � N n =1 | f i ( I n ) − f i (ˆ I n ) | ) for i = 1 , 2 , . . . ,K .图6(a)和(b)分别说明了两个不同遮挡部位(眼睛和鼻子)上三个模型的特征差异排序。与基础CNN(使用L id训练)相比,我们的两个损失函数的差异幅度更小。SAD损失的多样性特性可以帮助减少遮挡对特征的改变,即使没有直接最小化这种差异。FDA损失通过只让遮挡修改表示的一小部分来进一步增强鲁棒性,使其余元素对遮挡部分保持不变。特征差异向量的可视化见图5。0表明我们的每个滤波器在空间上对应于一个面部位置。在这里,我们进一步研究了这些平均位置与输入图像的语义含义之间的关系。在图7中,我们可视化了由五种不同遮挡引起的每个特征差异的幅度。我们观察到具有较大特征差异的点的位置在遮挡的面部区域附近,这意味着我们学到的滤波器确实对各种面部区域敏感。此外,特征差异的幅度可以随不同遮挡而变化。在眼睛或嘴巴遮挡时,最大特征差异可以高达0.6,而在较不关键的区域(例如额头)仅为0.15。滤波器响应可视化图8可视化了不同主体面部上一些滤波器的特征响应。从热图中,我们可以看到每个滤波器如何附着在面部的特定语义位置上,与身份或姿势无关。这对于0图8.不同滤波器对来自不同主体(前3行)和相同主体(底部3行)的人脸的“热图”滤波器响应的可视化。正响应和负响应在每个图像中以两种颜色显示。请注意,响应位置在主体和姿势之间具有很高的一致性。0尽管在训练中没有使用姿势先验,但我们的滤波器始终可以对语义上等效的局部部分做出响应。04.3. 基准测试的定量评估0我们的主要目标是展示如何在保持识别性能的同时提高人脸识别的可解释性。因此,主要比较是我们提出的方法与基于传统softmax损失的基本CNN模型之间的比较。此外,为了显示我们的方法是模型无关的,我们使用了两种不同的基本CNN模型,CASIA-Net和ResNet50。我们提出的方法和相应的基本模型之间只有损失函数的差异。例如,我们基于CASIA-Net的模型和基本CASIA-Net模型在网络架构上使用相同的网络架构,如表1所示。此外,我们进行数据增强,将训练我们的模型的相同合成人脸用于基本CASIA-Net模型的训练。我们测试了两种类型的数据集:通用的野外人脸和遮挡人脸。通用的野外人脸如表5、6所示,与基本CASIA-Net模型相比,我们基于CASIA-Net的模型使用两种损失函数实现了更好的性能。对于使用数据增强的CASIA-Net模型,也显示出了同样的优势,这表明增益是由于新的损失函数设计引起的。对于更深的ResNet50结构,我们提出的模型与基本模型的性能相似,两者都优于以CASIA-Net为基础的模型。即使与最先进的方法相比,我们基于ResNet50的模型的性能仍然具有竞争力。值得注意的是,这是第一次一个合理可解释的表示能够在广泛使用的基准测试中展示出具有竞争力的最先进的识别性能,例如IJB-A。遮挡人脸我们在多个遮挡人脸数据集上测试了我们的模型和基本模型。合成遮挡93550表4. 带有遮挡的三个数据库的比较。0数据集 IJB-A合成遮挡 IJB-A自然遮挡 IJB-C自然遮挡0方法 ↓ 验证 识别 验证 识别 验证 识别0指标(%)→@FAR= . 01 @FAR= . 001 @Rank- 1 @Rank- 5 @FAR= . 01 @FAR= . 001 @Rank- 1 @Rank- 5 @FAR= . 01 @FAR= . 001 @Rank- 1 @Rank- 50DR-GAN [ 56 ] 61 . 9 ± 4 . 7 35 . 8 ± 4 . 3 80 . 0 ± 1 . 1 91 . 4 ± 0 . 8 64 . 7 ± 4 . 1 41 . 8 ± 6 . 4 70 . 8 ± 3 . 6 81 . 7 ± 2 . 9 82 . 4 66 . 1 70 . 8 82 . 8 CASIA-Net 61 . 8 ±5 . 5 39 . 1 ± 7 . 8 79 . 6 ± 2 . 1 91 . 4 ± 1 . 2 64 . 4 ± 6 . 1 40 . 7 ± 6 . 8 71 . 3 ± 3 . 5 81 . 6 ± 2 . 5 83 . 3 67 . 0 72 . 1 83 . 3 我们的(CASIA-Net) 76 . 2 ± 2 . 4 55 . 5 ±5 . 7 88 . 6 ± 1 . 1 95 .
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功