基于差分连体网络的遮挡鲁棒人脸识别

188 浏览量更新于2023-10-12 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

773基于成对差分连体网络的面具学习的遮挡鲁棒人脸识别宋凌雪12、龚迪宏1、李志峰1、刘昌松2、刘伟1、腾讯人工智能实验室2、清华大学songlx15@mails.tsinghua.edu.cnwl2223@columbia.edulcs@tsinghua.edu.cnmichaelzfli@tencent.comgongdihong@gmail.com摘要在过去的几年里，深度卷积神经网络（CNN）一直然而，现有的通用CNN人脸模型对于可变面部区域上的遮挡概括较差。受人类视觉系统明确忽略遮挡而只关注未遮挡的面部区域的事实的启发，我们提出了一种掩模学习策略来发现和丢弃识别中的损坏特征元素。首先利用被遮挡和未被遮挡人脸对的最高卷积特征之间的差异，利用创新设计的成对差分连体网络（PDSN）建立掩码字典该字典中的每一项都捕捉到了被遮挡的人脸区域与被破坏的特征元素之间的对应关系，称为特征丢弃掩码（FDM）。在处理有随机部分遮挡的人脸图像时，通过合并相关字典项生成FDM，然后将其与原始特征相乘，以消除识别中被破坏的特征元素。在合成的和真实的遮挡人脸数据集上的综合实验表明，该算法的性能明显优于现有的系统。1. 介绍深度卷积神经网络（CNN）最近在无约束人脸识别问题上取得了显着的进步。研究人员正在竞相使用先进的网络架构[25，3，27，6，32]或设计新的损失函数来提高性能，cilitate判别特征学习[24，33，13，31，2，42，30]。其中一些甚至在某些基准数据库上超过了人类的识别能力[7]。*通讯作者尽管深度学习模型在一般人脸识别场景下取得了巨大的成功，但深度特征仍然对姿势、面部表情、光照和遮挡等不可控变化表现出不完全的不变性。在所有这些因素中，闭塞被认为是一个高度挑战性的因素。在现实生活中的图像或视频中，经常可以观察到面部遮挡，例如。面部装饰品，包括太阳镜、围巾、面具或其他随机物品，如书籍和杯子。如[17]所示，如果没有专门用大量被遮挡的人脸图像进行训练，基于CNN的深度模型确实无法很好地工作，因为遮挡导致的类内变化和类间相似性更大。在部分遮挡下提高CNN模型性能的一种可能方法是用遮挡的人脸训练Daniel等人[28]提出了以策略的方式用合成的遮挡人脸来增加训练数据，并观察到改进的性能。然而，它本质上并没有解决这个问题，因为它只确保特征更局部和平等地提取，如[21]中所分析的。遮挡情况不同的人脸特征之间的不一致性仍然存在。例如，无遮挡人脸的特征在眼睛区域中比戴着一副太阳镜的人脸的特征承载更多的信息，除非网络被训练成根本不利用眼睛区域，这是不合理的。受人类视觉系统对非遮挡面部区域进行识别（并忽略遮挡区域）的启发一个核心问题是：给定一幅具有随机局部遮挡的人脸图像，如何定位那些被遮挡的特征元素？对于LBP、HOG或SIFT等传统的低级特征来说，这不是什么大问题，因为图像像素和最终特征元素之间存在明显的对应关系，但深度CNN特征呢？因此，本文的核心工作是找出随机部分遮挡下的受损特征元素，并消除这些特征元素的响应774图1.拟议框架概述。基于一个主干CNN模型训练的人脸识别，我们提出了成对差分连体网络（PDSN）结构学习遮挡的人脸块和损坏的特征元素之间的对应关系然后，建立相应的掩模字典，用于合成具有随机部分遮挡的测试人脸的特征丢弃掩模（FDM）最后，我们乘以FDM与原始人脸特征，以消除损坏的特征元素从识别。识别过程中的元素。值得说明的是，人脸遮挡检测问题并不是本文的重点，因此我们直接采用与[23]类似的方法在图像空间中检测遮挡位置。为了学习被遮挡的面部区域和损坏的特征元素之间的对应关系干净的面部和对应的被遮挡的面部的转换特征之间的差分信号被馈送到掩模生成器模块中。它作为一个注意机制的作用，鼓励模型关注那些已经偏离其真实值的特征元素，由于部分遮挡。此外，我们建议通过最小化两个损失的组合来学习掩码生成器：成对对比损失，其惩罚干净和被遮挡面部的掩蔽Conv特征之间的大差异，以及分类损失，其确保那些损害识别的特征元素被掩蔽掉。有了这两个损失，我们的掩码生成器将识别出那些对识别有害的特征元素，以及远离其真实值的被破坏的特征元素。为了处理随机的部分遮挡，我们首先将对齐的面部分成几个预定义的块，并且只学习这些块的PDSN，因为严重的性能下降通常只发生在关键面部组件丢失时。然后，我们构建了一个掩码字典从这些训练的PDSN战略二值化。每个项目在该字典中是一个二进制掩码，称为特征丢弃掩码（FDM），其指示当一个面部块被遮挡时应该被设置为零的特征元素。在测试阶段，通过对相关字典项进行逐元素逻辑“与”运算，得到随机局部遮挡人脸的FDM，然后将FDM与原始人脸特征相乘，从识别中剔除那些被破坏的特征元素。图1概述了拟议框架。本文的主要贡献有两个方面：（1）我们提出了一种新的PDSN框架，用于显式地找到深度CNN模型中被遮挡的面部块和损坏的特征元素之间的对应关系，这是创新和鼓舞人心的;（2）基于PDSN，我们开发了一个对遮挡具有鲁棒性的人脸识别系统。我们的系统表现出优异的性能与现实和合成的遮挡和一般的脸识别任务非常好的脸数据集。2. 先前工作部分遮挡是人脸识别的主要挑战之一，在手工特征时代受到了广泛关注。在深度CNN出现之前，通常使用两种类型的算法来处理部分遮挡下的面部识别，即，（i）仅从非遮挡面部区域提取局部面部描述符的方法，或（ii）从遮挡面部区域恢复干净面部的方法第一种类型通常是显式的学习面具发电机...PDSNPDSNPDSN建立掩码字典...：二进制化b我MiBJMJ特征丢弃掩码12345678910111213141516171819202122232425孔弗斯孔弗斯孔弗斯孔弗斯CNN中继fc面特征（a）（b）掩码字典......775j=1图2.不同受试者具有相同部分遮挡的两张人脸图像之间的神经反应差异左：顶部转换层的神经激活差异。右：顶部fc层的神经激活差异。我们随机抽取64个神经元作为说明。将人脸图像划分为若干局部区域。训练支持向量机（SVM）以识别哪些局部区域被遮挡，然后将其从识别中丢弃[20，18，22]，并使用可选的子空间方法[10，12]在分类阶段之前降低特征维数。然而，鉴于使用像局部Ga- bor二进制模式（LGBP）[20]的浅层特征，这种方法的辨别能力在第二类方法中，基于稀疏表示的分类（SRC）[36]被认为是遮挡鲁棒人脸识别的开创性工作。该模型使用来自训练集的图像的线性组合以及考虑遮挡的稀疏约束项来重建无遮挡的人脸。受此模型的启发，研究者通过重新思考稀疏约束项的分布[39，5，4]或表征其结构信息[44，9]对其进行了扩展。这些方法不能很好地通用，因为它们要求测试样本具有与训练样本相同的主题。多年来，深度学习在人脸识别领域占据主导地位。早在2014年，Sunet al. [26]已经发现DeepID2+学习的特征在人脸验证任务中结合从25个人脸块中提取的DeepID2+特征进一步提高了鲁棒性。Cheng等人[43]提出了一种LSTM自动编码器来恢复野外被遮挡的人脸区域，并对恢复后的人脸图像进行了识别。但是不能保证恢复的部分确实与要识别的个体的身份相匹配，特别是在开集场景下。Daniel等人[28]通过用合成的被遮挡的面部来增强训练数据来解决遮挡以这种方式，特征被更平等地和局部地提取。Wan等人[29]建议将MaskNet分支添加到CNN模型的中间层，预计将较低的权重分配给被遮挡的面部区域激活的隐藏单元。但是中间的conv层没有足够的区分力，MaskNet分支缺乏额外的监督信息来确保功能。总之，传统的基于低级特征的方法的区分能力是有限的，并且现有的少数基于深度学习的方法缺乏对部分遮挡如何真正影响CNN模型的认识。不同遮挡情况下的两个人脸特征之间的不一致性尚未得到仔细考虑。所提出的方法补充了拼图中缺失的部分，并且能够显式地定位训练CNN模型的损坏特征元素，并将其从识别中丢弃，以确保公平的比较。因此，我们的方法是一个内在的方法，具有良好的推广能力相比，上述研究。3. 该方法所提出的方法的总体流程如图1所示，它将随机部分遮挡下的人脸识别问题分解为三个阶段。第一阶段：使用提出的成对差分连体网络（PDSN）学习掩码生成器，以捕获被遮挡的面部块和损坏的特征元素之间的对应关系。阶段II：从学习的掩码生成器建立掩码字典。第三阶段：在测试阶段，将该字典中随机部分遮挡的特征丢弃掩码（FDM）与原始特征相乘，消除部分遮挡对识别的影响。3.1. 第一阶段：学习掩码生成器3.1.1问题分析输入到CNN模型的人脸图像大多是由检测到的人脸关键点对齐的，我们将对齐的人脸分成不重叠的N×N块，表示为{bj}NN，旨在学习每个bj的掩码生成器当该块被OC时，找到损坏的特征元素包括在内。在我们的实现中，我们根据输入图像的大小设置N=5，使得像眼睛、鼻尖和嘴这样的面部组件与块适当地相关联。图1中的面（a）给出了划分示例。然后，我们将第一阶段的核心问题定义为：给定块bj被遮挡的face图像的特征，表示为f（xj），如何学习掩码生成器Mθ，其输出与f（xj）相乘，以掩盖那些损坏的元素令纯化特征记为fθ（x j），则fθ（xj ）=Mθ（·）f（xj）. 在进入学习过程之前，有两个选择需要决定F的选择对于基于CNN的人脸识别模型，人脸特征通常是指分类层之前的最终全连接（fc）层的输出然而，fc层中的每个神经元都集成了来自前一层的所有输出元素的信息，因此oc-776J图3.三种不同的遮盖状态下，顶转换层神经元激活值的中位数相对变化率（MED）。我们在这里选择八个通道进行说明。在最终的FC特征中，被遮挡的区域可能与未被遮挡的区域混合从另一个角度来看，最上层fc层的神经元对身份具有高度选择性[26]。因此，即使不同的对象被相同的遮挡污染，由该遮挡改变的特征元素的位置也将高度依赖于面部身份，如图2中最右列所示。相比之下，我们可以从图2的左列中看到，对于顶部conv层，由于不同个体的相同遮挡而改变的特征元素的位置是相当一致的，并且它仍然保留了局部信息，因此我们选择顶部conv特征作为我们的f。Mθ的输出维数。 [29]他们知道，用于3D卷积特征映射的2D掩码M∈RW×H在三种类型的遮挡下的顶部Conv特征图的8个通道显然，对于不同的通道，特征值以不同的方式改变，一些通道的元素变化很小，而一些通道的元素在相同的空间位置中急剧变化这是有趣的，因为考虑到感受野，不同卷积通道的相同空间位置从输入图像的相同区域收集信息，但它们实际上对遮挡的反应完全不同。所以我们我认为Mθ的输出维数应该与顶卷积特征图相同，即C×W×H。3.1.2成对差分连体网络根据第二节的分析3.1.1，我们提出了成对差分连体网络（PDSN）结构来学习被遮挡的面部块和损坏的特征元素之间如图4所示，它由主干CNN和掩码生成器分支组成，形成了连体架构。主干CNN负责提取基本面部表示，其由干净和被遮挡的面部对共享并且可以是任何CNN架构。我们的PDSN中的核心掩码生成器模块Mθ被期望输出其元素是[0，1]中的实值的掩码，并与输入的污染特征相乘以dimin。使其损坏的元素：f（xi）=M（·）f（xi），其中C×W ×HjθjU∈R. 也就是说，所有C的特征元素f（·）是顶面特征，xi表示遮挡面图像相同空间位置的通道共享相同权重从他们学到的面具。换句话说，他们假设所有conv特征通道的特征元素对遮挡的响应相同。关于他们假设的合理性问题，我们第i对的。输入对内的两个面属于相同的恒等式y i，唯一的区别是其中一个在f块bj 上具有部分遮挡。学习掩码生成器的关键要求是，掩码后特征f（xi）转换成顶部转换特征对部分OC-J的真实反应结论我们使用一个名为中位数相对变化率（MED）的标准来捕获的程度，每个特征元素是远离其真实值下的部分闭塞。给定一对干净的人脸图像xclean及其对应的被遮挡的人脸图像xocc，我们首先计算尽可能类似于其相应清洁特征f（x同时保证成功识别。为此，我们建议通过最小化两种损失的组合来学习MθΣLθ=λcls（θ;f（xi），yi）+λdiff（θ;f（xi），f（xi））（2）J J神经元激活值的相对变化率在top conv layer中：fi（xclean）−fi（xocc）成本的第一部分是会计核算，每个特征元素对于识别的重要性，以及r i=|fi（x清洁|(1)）第二部分是特征差异，它评估被遮挡人脸的特征与其真实值的距离。我们将扩大其中，ri表示第i个fea的相对变化率顶部conv层的真实元素值。我们从CASIA-WebFace [40]中随机选择N个图像，并在面部上添加遮挡，然后计算每个面部对的ris。通过计算这些ris的中值来获得度量MED to，该度量MED to近似地表示在遮挡下的第i个如果当输入面部的区域被遮挡时特征元素的MED高，则其将可能将不合理的噪声带入最终特征中。在图3中，我们显示了要素元素的MED值这个公式在下面的部分。分类损失为零。为了找到损坏的特征元素，直观的想法是，这些特征元素对识别输入面部贡献很小，并且可能反而导致更高的分类损失。因此最直接的监督信号就是身份信息，也就是遮挡后的人脸应该被屏蔽后的主干CNN的分类器正确分类，这就给了我们第一个损失项（例如softmax损失）：<$cls（θ;f<$（xi），yi）=−log（pyi（F（f<$（xi）（3）J J777JJJJJJ图4.提出的成对差分连体网络的说明f（xi）是遮蔽后被遮挡面部的顶部conv特征，F是顶部conv层旁边的主干CNN模型的fc层，它也可以是[13]等模型中的平均池化层。差分信号和成对损耗是不同的。图3中所示的结果启发我们，被遮挡面部的顶部转换激活值与其对应的干净面部的顶部转换激活值之间的差分信号可以很好地指示哪些特征元素是潜在的受损元素。换句话说，差分输入信号充当注意机制的角色，其鼓励掩码生成器关注由于部分遮挡而偏离其真实值的那些特征元素因此，我们为我们的面具生成器模块提供无遮挡人脸和其遮挡人脸的特征之间为了进一步利用这个主题和无遮挡面：我们将Mθ实现为具有多个conv块的模块，并学习不同面部块上的遮挡的不同θ不同的θ值说明了不同面部成分的不同特征。例如，眼睛比脸颊区域更重要，因此掩码生成器的输入分布相应地变化。当学习掩码生成器j时，除了只有目标块bj被遮挡的情况之外，我们还用也被遮挡的其他块来增强样本，这些块是目标块bj的4-邻居，以捕获相邻块的依赖性，如图4所示。3.2. 第二阶段：建立掩码字典在测试阶段，我们没有探针脸的配对图像，并且其遮挡位置是随机的。因此，训练后的PDSN不能直接用于输出探头面的特征丢弃掩码（FDM）在阶段II中，我们希望从每个训练的掩码生成器Mθ中提取固定掩码，并相应地构建字典。.阿夫迪夫（θ;f（xi），f（xi））Mj[k]=0如果m<$j[k]∈{m<$j[1]，. . . ，mj[τK]}，1其他。（六）=<$Mθ（·）f（xi）−Mθ（·）f（xi）<$1（4）对于掩码生成器M我们先喂给训练过的网其中M（）=M（|f（xi）−f（xi）|），以及θj是L1θ θj1工作与大量的脸对，其中之一是oc-标准显然，这种对比性的损失将惩罚那些恐惧-被遮挡的面部的真实元素，它们在很大程度上是不同的-包括在第j个面部块上，并获得该生成器的输出掩码，形成一个大的集合m1，m2，. . . ，m P，从其无闭塞的一个。与经典--阳离子损失，我们的掩码生成器将识别那些对识别有害的特征元素，以及远离其真实值的损坏元素。因此，在Eq. (2)在我们的实现中使用的是：其中P（在我们的实验中约为200k）是脸对的数量在Min-Max标准化每个m i之后，我们计算这些mis的元素平均值并得到平均掩码m<$j。可以当第j个块被遮挡时的FDM（被称为软权重模式）。但这将保留特色元素ΣL=−log（p（F（M（·）f（xi）具有非常低的掩码值，这是不合适的，因为θyiθj我（五）这个街区里的面部器官已经完全消失了+λ<$Mθ（·）f（xi）−Mθ（·）f（xi）<$1在我们的实验中，λ因此，我们认为将这些特征元素设置为零完全去除噪声是至关重要的。我们4.2.通过设置特征位置，推导出用于该掩模生成器的二值化FDMMj∈RC×W×H778j=12图5.从我们的掩码字典中组合的两种遮挡类型的特征丢弃掩码的示例。最小顶部τK均值为零的情况：.0如果m<$j[k]∈{m<$j[1]，. . . ，mj[τK]}，图6.我们的FCN-8 s分割网络在遮挡Facesrub和AR测试图像上的遮挡检测结果网络结构。我们采用最近发布的ArcFace [2]中提出的改进的ResNet50模型作为我们的主干CNN模型。掩码生成器非常简单-Mj[k]=（七）1其他。将其转换为CONV-PReLU-BN结构，并使用sigmoid函数将输出映射到[0，1]。其中k=1，2，. . .，K，K=C×W×H，k表示特征指数x，{m∈j[1]，. . . ，m<$j[τ <$K]}是m <$j的排序后的最小τ<$K值。 τ是丢弃阈值，稍后将在第2节中讨论。四点二。这样一来我们构造了一个掩码字典，其中每个项都是一个二进制掩码，它指示当对准的人脸的某个块被遮挡时是否丢弃每个特征元素。3.3. 第三阶段：遮挡鲁棒识别利用该掩码字典，可以通过组合相关字典项来导出任意部分遮挡的人脸的FDM。通过相关，我们的意思是，如果探测面部中的遮挡区域具有至少0.5IoU，其中来自字典的预定义面部块，则我们将该块计数为该面部的遮挡块。例如用于图1中戴着太阳镜的面部（a），其遮挡区域c覆盖块{bj}14，因此其FDM由M = M12<$M13<$M14计算，其中，M表示逐元素逻辑“与”，并且结果M仍然是二进制掩码。图-图5示出了分别针对太阳镜和围巾遮挡从4. 实验4.1. 实现细节预处理。标准MTCNN [41]用于检测所有图像的5个面部标志。在进行相应的相似度变换后，我们得到对齐的人脸图像，并将其大小调整为112×96像素。闭塞检测。我们训练一个FCN-8 s片段-站网络来检测遮挡位置。火车-测试数据包括合成的被遮挡的CASIA-WebFace数据集和来自AR数据集的26个受试者（测试受试者之外）的图像vgg16主干首先使用足够的面部图像进行训练，以提供良好的初始化。最后，我们的遮挡检测模型在我们的合成遮挡面部擦洗数据集上的平均IU为98.51[19]。图6示出了一些检测结果。训练培训过程包括三个阶段。阶段1：在CASIA-WebFace上训练主干CNN [40][31]这是一个有着巨大损失的数据集[31]。阶段2：固定主干CNN的模型参数，并使用如图4所示的专门设计的面部对训练面罩生成器模块我们发现，面部外围区块的遮挡几乎不会影响识别精度（下降不到0.1%），因此我们将所需的掩码生成器数量从25个减少到9，对应于覆盖主要面部组件的中央3×3第三阶段：建立后我们的面具字典，我们产生了各种随机的部分闭塞的人脸样本然后使用这些（face，mask）对以较小的学习率微调主干CNN。该阶段被设计用于缓解掩码生成器输出的实值掩码与最终二进制化版本之间的不一致性，因此几个时期就足够了。试验. 在测试阶段，相似性得分是由两个人脸的fc特征的余弦距离计算的。最近邻分类器和阈值分别用于人脸识别和验证认为-事实上，当识别被遮挡的人脸时，我们已经丢失了来自该人脸的被遮挡部分的信息因此，还需要将该部分从与其进行比较的其他面部中排除，以确保基于等效信息来计算相似性分数。基线模型。两个基线模型被认为是。第一个是在CASIA-WebFace数据集上训练的最先进的人脸识别模型。我们将参考CNN的Trunk。第二个具有与第一个相同的配置，但与合成遮挡CASIA-WebFace数据集（平均遮挡面积为面部图像的25%）进行了微调，这将被称为基线。4.2. 消融研究τ的影响。我们进行了探索性的实验来研究τ在二值化中的作用。通过将τ从0变化到0.45，我们在AR数据集上评估我们的方法。779掩码类型二进制软权重软+二进制太阳镜98.1996.6798.19围巾98.3397.2299.03图7. 通过我们的完整PDSN和仅通过分类损失学习的平均掩码的图示。 m<$i对应于左侧眼块上的遮挡，m<$j对应于鼻块上的遮挡。τ00.050.150.250.350.45Acc.95.8497.2997.3698.2697.9897.92表1. AR数据集上不同τ与太阳镜和围巾遮挡的秩1识别准确度（%）比较。探头集包含戴太阳镜和围巾的面孔，图库集包含每个受试者的1张干净面孔。秩-1识别精度见表1。随着τ的增大，精度先上升后下降，τ接近0.45时，精度下降在τ= 0时达到最佳精度。25并且性能对该阈值不高度敏感。遮罩类型。为了进一步探索二进制化的重要性，我们进行了额外的实验，结果如表2所示。首先，通过比较“二进制”和“软权重”，我们看到“软权重”明显降低性能。我们推测这是由于具有非常低的掩码值的特征的过度参与。然后，我们执行了另一个实验此版本的性能与二进制版本相当。显然，二值化的重要性在于通过将具有非常低的掩码值的特征元素设置为零来完全消除噪声。同时，二进制掩码在计算和存储方面都是高效的。差异化监督。研究了差分输入和成对损耗的重要性。我们在等式中的损失函数中设置λ。(5)设置为零，并且仅从被遮挡的面部特征学习掩模生成器。用相同的数据和阈值τ建立掩模字典。性能比较如表3所示。使用成对监督训练的模型始终优于仅使用分类损失训练的模型在图7中，我们分别在这两种条件下可视化左眼和鼻子块使用我们的完整PDSN，表2.AR数据集Pro- tocol 2中的秩1识别准确度（%）方案1中的结果具有类似的结论。微分AR太阳镜AR围巾MF1 occ没有95.9797.9254.80是的98.1998.3356.34表3.秩1识别精度（%），我们的方法有和没有差异的监督信息。“MF1occ” refers to the occluded Facescrub probe set we低得多的权重（图7中突出显示的部分）可以在某种程度上反映图像空间中的遮挡位置，这是合理的，因为顶部Conv层仍然保留空间信息。而分类损失产生的平均掩模是混沌的。如上所述，差分输入和对比损失帮助模型集中在已经被部分遮挡改变了很多的特征元素上，而单独的分类损失也可能减少受与遮挡无关的一些其他因素影响的特征元素。4.3. 基于LFW基准的性能LFW [7]是无约束条件下的标准人脸验证基准数据集。我们严格按照不受标记外部数据限制的标准协议评估我们的模型，并报告6，000个测试图像对的平均精度。如表4所示，基线模型实际上将原始主干CNN的准确性降低了0。52%，当它被训练以获得更强的鲁棒性，以部分遮挡，因为大多数的人脸图像在LFW数据集中没有被遮挡。这种现象与[21]一致，当他们测试时，一个模型，功能良好的闭塞对象上的非闭塞对象。而我们的方法可以保持主干CNN的性能，因为我们的设计原则只是在部分遮挡条件下从比较中丢弃那些损坏的特征元素，而不是强制主干CNN专门适应部分遮挡。4.4. 游戏名称：MegaFace Challenge 1MegaFace Challenge [8]是一个测试基准，用于评估人脸识别算法在百万级干扰项下的性能。它包含一个包含超过100万张人脸图像的图库。探测集由两个数据集组成：[19]和FGNet。在这项研究中，我们使用Facescrub数据集作为我们的探针集。如果训练集小于0.5M，则将其视为小的我们评估的780方法训练数据型号数量Acc.[24]第二十四话200M199.63DeepID2+[26]2.6M398.95[33]第三十三话0.7M199.28百度[11]1.3M199.13[13]第十三话0.49M199.42CosFace [31]5M199.73ArcFace [2]0.49M199.53CNN中继0.49M199.20基线0.49M198.68我们的了0.49M199.20方法议定书MF1MF1occSIAT MMLAB小65.23-[33]第三十三话小65.49-DeepSense小70.98-[13]第十三话小72.73-CosFace [31]小77.11-ArcFace [2]小77.50-福丹-CS SDS小77.98-CNN中继小74.4051.86基线小68.8153.03我们的了小74.4056.34表4.LFW基准的人脸验证（%）基本主干CNN，基线模型和我们在挑战1的小训练集协议下的方法结果在表5的“MF1”列中给出为了在部分遮挡下测试我们的方法，我们合成了被遮挡的Facescrub数据集。遮挡物包括太阳镜、面具、手、眼罩、围巾、书、电话、杯子、帽子、水果、麦克风、头发等，所有这些都是现实生活中可能出现在面部上的常见对象，并且每种类型的遮挡对象具有与训练阶段中使用的图像不同的几个图6中左侧的四个图像显示了一些示例。在表5的“MF1occ”列中给出了关于该合成的遮挡Facescrub数据集的结果。毫不奇怪，对于基线模型，观察到原始Facescrub探针组的类似性能下降。与基线模型相比，我们的方法是优越的闭塞的探头集，而不损害性能的原始探头集。4.5. AR数据集上的性能我们进一步评估我们的方法，通过人脸识别实验的AR人脸数据库[15]与现实生活中的闭塞。AR数据库包含来自126名受试者的4，000张具有不同面部表情、照明条件和遮挡的面部图像。现有文献中主要有两种测试方案方案1是指每个主题使用多于1个图像来形成图库集（或训练集）。方案2涉及每个受试者仅使用1张图像来形成图库集。太阳镜和围巾遮挡的图像用于测试。我们在两种方案下评估我们的方法，并且结果在表6中给出值得注意的是，遮罩字典和模型根本没有与任何AR人脸数据进行微调，而其他算法通常使用该数据集进行训练。表6显示，我们的方法可以显着提高躯干CNN模型在现实生活中太阳镜和围巾遮挡的面部上的性能我们的方法优于基线模型的性能表明，表5. MegaFace Challenge1. “MF1occ” refers to the occluded Facescrub probe方法议定书太阳镜围巾SRC[36]187.0059.50核磁共振[37]196.9073.50MLERPM[34]198.0097.00SCF-PKR[38]195.6598.00RPSM[35]196.0097.66MaskNet [29]190.9096.70CNN中继198.1999.72基线199.5899.86我们的了199.72100.0RPSM[35]284.8490.16拉丝面[1]282.0092.00[第16话]296.3093.70CNN中继295.1496.53基线296.6796.39我们的了298.1998.33表6.具有自然遮挡的AR数据集上的Rank-1人脸识别准确率（%）简单地缩小受遮挡影响的范围肯定是不够的，必须从比较中消除被破坏的部分，因为它带来信息的不一致性。我们的掩码字典捕获了主干CNN模型的内在特征结构，它可以很好地推广到其他人脸样本。5. 结论本文提出了一种基于成对差分连体网络（PDSN）的遮挡鲁棒人脸在合成人脸和真实人脸数据集上的实验结果表明了该方法的优越性，特别是在一般人脸识别任务上具有很强的泛化能力781引用[1] Weiping Chen and Yongsheng Gao.使用基于字符串的匹配从每个类的单个样本中识别部分遮挡的人脸。在European Conference on Computer Vi-sion，第496-509页[2] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议上，第4690-4699页[3] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第770-778页[4] Ran He，Wei-Shi Zheng，and Bao-Gang Hu.鲁棒人脸识别的最大相关熵准则。IEEE Transactions on PatternAnalysis and Machine Intelligence，33（8）：1561[5] Ran He，Wei-Shi Zheng，Bao-Gang Hu，and Xiang-WeiKong. 鲁棒模式识别的正则化相关熵框架。 Neuralcomputation，23（8）：2074-2100，2011.[6] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议上，第7132-7141页[7] 加里湾Huang，Marwan Mattar，Tamara Berg，and EricLearned-Miller.《荒野中的脸》（Faces in the Wild）：用于研究无约束环境中人脸识别的数据库。在“现实生活”图像中的面孔研讨会上：检测、校准和识别，2008年。[8] 放大图片作者：Steven M. Seitz，Daniel Miller，andEvan Brossard. megeface基准：100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议上，第4873-4882页[9] Xiao-Xin Li ， Dao-Qing Dai ， Xiao-Fei Zhang ， andChuan- Xian Ren.结构化稀疏误差编码用于有遮挡的人脸识别。 IEEE transactions on image processing ， 22（5）：1889[10] Zhifeng Li，Wei Liu，Dahua Lin，and Xiaoou Tang.人脸识别的非参数子空间分析。在IEEE计算机视觉和模式识别会议上，第961-966页[11] 刘敬拓，邓亚峰，白涛，魏正平，黄昌。以终极精度为目标：通过深度嵌入进行人脸识别。arXiv预印本arXiv：1506.07310，2015。[12] Wei Liu，Zhifeng Li，and Xiaoou Tang.基于时空嵌入的视频统计人脸识别。在2006年的欧洲计算机视觉会议上，第374[13] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐。Sphereface：用于人脸识别的深度超球面嵌入。在IEEE计算机视觉和模式识别会议上，第212-220页[14] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议上，第3431-3440页[15] 阿莱克斯·M·马丁内斯AR人脸数据库。CVC技术报告24，1998年。[16] 尼尔·麦克劳克林，纪明，丹尼·克鲁克斯。最大匹配区域用于光照和遮挡鲁棒的人脸识别。IEEE transactionson cybernetics，47（3）：796[17] Mostafa Mehdipour Ghazi和Hazim Kemal Ekenel。全面分析基于深度学习的人脸识别表示。在IEEE计算机视觉和模式识别研讨会上，第34-41页，2016年。[18] Rui Min，Abdenour Hadid，Jean-Luc Dugelay。提高对被面部配件遮挡的面部的识别。在Face and Gesture2011中，第442-447页[19] Hong-Wei Ng和Stefan Winkler。一种数据驱动的清理大型人脸数据集的方法。在IEEE International Conferenceon Image Processing（ICIP），第343[20] Hyun Jun Oh，Kyoung Mu Lee，and Sang Uk Lee.基于选择性局部非负矩阵分解基图像的遮挡不变人脸识别。图像与视觉计算，26（11）：1515[21] 埃拉德·奥舍罗夫和迈克尔·林登鲍姆通过减少过滤器支持来增加cnn对阻塞的鲁棒性。在IEEE国际计算机视觉会议（ICCV），第550-561页[22] Sohee Park ， Hansung Lee ， Jang Hee Yoo ， GeonwooKim和Soonja Kim。基于相似性度量的部分遮挡人脸图像检索。工程中的数学问题，2015（1）：1[23] 齐藤俊介，李田野，李浩。从rgb输入的实时面部分割和性能捕获。在欧洲计算机视觉会议上，第244-261页，2016年。[24] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet ：用于人脸识别和聚类的统一嵌入在 IEEEConference on Computer Vision and Pattern Recognition，第815-823页[25] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[26] Yi Sun，Xiaogang Wang，and Xiaoou Tang.深度学习的人脸表示是稀疏的，有选择性的和鲁棒的。在IEEE计算机视觉和模式识别会议上，第2892-2900页[27] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dragomir Anguelov ， DumitruErhan，Vincent Vanhoucke，and Andrew Rabinovich.更深的回旋。在IEEE计算机视觉和模式识别会议上，第1-9页[28] 丹尼尔·萨伊兹·特里格罗斯，李萌，马·加雷特·哈特尼特。增强卷积神经网络的人脸识别与闭塞地图和批量三重损失。图像和视觉计算，79：99[29] Wan Weitao Wan和Jiansheng Chen。基于面具学习的遮挡鲁棒人脸识别。 IEEEInternational Conference onImage Processing（ICIP），第3795-3799页，2017年。782[30] 王浩，龚地宏，李志峰，刘伟。Decorrelated对抗学习用于年龄不变的人脸识别。在IEEE计算机视觉和模式识别会议上，第3527-3536页[31] 王昊、王一通、周征、纪兴、龚地宏、周景超、李志峰、刘伟。Cosface：用于深度人脸识别的大幅度余弦损失。在IEEE计算机视觉和模式识别会议上，第5265-5274页[32] Yitong Wang，Dihong Gong，Zheng Zhou，Xing Ji，Hao Wang，Zhifeng Li，Wei Liu，and Tong Zhang.用于年龄不变人脸识别的正交深度特征分解。欧洲计算机视觉会议，第738-753页[33] Yandong Wen ， Kaipeng Zhang ， Zhifeng Li ， and YuQiao.一种用于深度人脸识别的判别式特征学习方法欧洲计算机视觉会议，第499-515页[34] 翁仁良，陆继文，胡俊林，高阳，谭亚鹏.鲁棒特征集匹配的局部人脸识别。在IEEE International Conferenceon Computer Vision（ICCV），第601-608页[35] Renliang Weng，Jiwen Lu，and Yap-Peng Tan.鲁棒点集匹配局部人脸识别。 IEEE Transactions on ImageProcessing，25（3）：1163[36] John Wright、Allen Y Yang、Arvind Ganesh、S

下载后可阅读完整内容，剩余1页未读，立即下载