没有合适的资源?快使用搜索试试~ 我知道了~
3486基于遮挡自适应深度网络的Meilu Zhu,Daming ShiZhang,Mingjie Zheng,Muhammad Sadiq深圳大学计算机科学与软件工程学院{zhumeilu2016,zhengmingjie}@ email.szu.edu.cn; dshi@szu.edu.cn; sadiqpaec@yahoo.com摘要在本文中,我们提出了一个简单而有效的框架,称为遮挡自适应深度网络(ODN),旨在解决面部标志点检测的遮挡问题在该模型中,高层次特征中每个位置的遮挡概率由一个蒸馏模块来推断,该蒸馏模块可以在估计面部外观和面部形状之间的关系的过程中自动学习遮挡概率作为高层特征的自适应权值,降低遮挡对特征表达的影响,获得清晰的特征表示。然而,干净的特征表示不能代表整体的脸,由于缺少语义特征。为了获得详尽和完整的特征表示,我们必须利用低秩学习模块来恢复丢失的特征。考虑到人脸的几何特征有利于低秩模块重新发现丢失的特征,本文提出了一种几何感知模块来挖掘人脸不同组成部分之间的几何关系根据三个模块的协同效应,与具有挑战性的基准数据集上的最先进的方法相比,所提出的网络实现了更好的1. 介绍对于许多面部分析任务,人脸识别[7]、人脸正面化[19]和人脸3D建模[26]中,人脸标志点检测是关键步骤之一,其目的是定位人脸组件上的一些预定义关键点。不幸的是,这一重要任务在现实中仍然受到许多挑战,遮挡、极端姿势、照明等。遮挡问题是人脸特征点准确定位的主要障碍。许多现有的方法[55,40,38,61,53,25,15]对于近正面和未污染的人脸图像表现良好,而如果人脸受到严重遮挡,则其性能会严重下降解决遮挡问题的一个关键核心是如何*通讯作者。模型遮挡然而,由于咬合是不规则的、随机的和复杂的,从面部外观显式地建模咬合是非常困难的。最近,一些相关的工作已经提出来解决这个挑战。鲁棒级联姿态回归(RCPR)[5]将人脸划分为不同的块,并使用固定的遮挡先验知识显式预测相应标志的遮挡可能性。然而,RCPR模型的训练依赖于训练集中所有标志的注释闭塞状态。对于大规模的数据集,标注每个界标的遮挡状态是非常耗时的,例如300W[39]、AFLW [34]等。Wu等[50]利用监督回归方法,该方法通过利用外观、当前形状信息和遮挡一致性来逐渐更新界标视觉。为了定位咬合下的面部标志,Xing等。[52]在人脸外观字典中引入遮挡字典,从部分遮挡的人脸外观中重新覆盖人脸形状,并对各种局部人脸遮挡进行建模。此外,Liu等人 [32]利用形状索引外观来估计每个标志的遮挡水平,其充当形状索引特征上的自适应权重,以减少形状索引特征上的噪声。近年来,卷积神经网络(CNN)在面部标志点检测方面取得了显着的性能改进[59,33,12,13,14,49]。这是由于在CNN中使用端到端的方式同时训练特征提取过程和回归过程的事实,可以直接推断面部外观和面部形状之间的潜在关系。然而,遮挡敏感性对于CNN来说也是一个具有挑战性的问题[56]。遮挡可能会误导CNN进行特征表示学习。如果人脸被部分遮挡,则定位精度会显著下降。在这项工作中,我们提出了遮挡自适应深度网络(ODN),以克服鲁棒的面部标志检测的遮挡问题,它由三个模块组成首先,为了对遮挡进行建模,使用蒸馏模块来基于3487Z在高层特征上的自适应权值映射,减少遮挡对特征的影响,获得清晰的特征表示。显然,由于缺少语义特征,干净的特征表示不能表示完整的脸。为了获得完整的人脸特征表示,低秩学习模块通过学习一个共享的结构矩阵来恢复丢失的特征。为了帮助低秩学习模块恢复丢失的特征,我们利用几何感知模块来挖掘面部几何特征(例如,对称性、邻近性、位置关系等)从而低等级模块可以利用几何信息来更好地恢复丢失的特征。依靠三个模块的协同作用,我们提出的ODN可以有效地处理遮挡问题。在这项工作中的主要贡献总结如下:(1)我们提出了新的相干遮挡自适应深度网络来处理面部标志检测的遮挡问题;(2)我们提出了一个蒸馏器来隐式地对高级特征进行遮挡建模,并获得干净的面部特征表示;(3)利用一种新的模型来提取人脸的几何特征:(4)将低秩学习嵌入到CNN中,以恢复丢失的特征并消除冗余特征;(5)在三个具有挑战性的基准数据集上的实验结果表明,我们提出的ODN获得了更好的性能比现有的方法。2. 相关工作一般来说,现有的方法可以分为三组:模板方法、坐标回归方法和热图回归方法。模板方法。模板模型从标记数据集学习参数形状模型,并利用主成分分析(PCA)来模拟人脸形状代表性工作包括主动轮廓模型(称为Snakes)[24]、 主动 形状 模型 ( ASM )[9]、 主动 外观 模型(AAM)[8]、约束局部模型[10]和高斯-牛顿可变形零件模型[45]。然而,对于这类算法,重建误差在遮挡下扩散到整个面部[57]。这导致在复杂的环境中,模型不能准确地定位人脸的特征点。坐标回归方法。这类方法直接学习从面部图像到地标坐标向量的映射。最早工作[53,40,55,5,61]采用手工特征来提取面部纹理信息,并利用SVM,MLP,随机森林/蕨类等作为回归量。例如,SIFT描述符用于提取SDM中每个地标的局部特征Ren等人[38]提出局部二值特征来捕捉面部表情的局部变化这些算法通常级联多个阶段,迭代地估计和更新形状直到收敛。然而,这些早期工作中的预测方法是间接的和次优的,因为特征提取过程和回归过程是独立的。相反,在最近的方法[44,51,28,12,13,35,59]中,特征提取过程和回归过程以端到端的方式同时学习。MDM [44]利用端到端循环卷积网络以粗到细的方式预测面部标志。Zhang等人[59]采用多任务学习的方法,对人脸标志点的坐标进行回归,同时对辅助属性进行预测。热图回归方法。热图回归方法可以细分为两种类型。第一类通常引入地标热图信息,以方便和指导网络的学习在深度对齐网络(DAN)[27]中,地标热图和人脸图像一起充当级联架构中中间阶段的输入,前者可以提供有关地标位置的视觉信息。在Look atBoundary(LAB)[48]中,Wuet al.首先估计面部边界热图,并使用它们来帮助回归地标。另一种类型的热图回归方法直接将地标堆图作为地面实况。Bulat等人[3]提出了一种两阶段卷积部分热图回归模型来解决3D人脸标志点检测。后来,为了提高低分辨率面部图像的质量并在这种低分辨率图像上准确定位面部标志,他们提出了Super-FAN [4]模型,该模型通过将用于面部标志定位的基于热图回归的子网络集成到超分辨率网络中来同时解决面部超分辨率和对齐问题。3. 遮挡自适应深度网络在 本 文 中 , 我 们 提 出 了 遮 挡 自 适 应 深 度 网 络(ODN)的人脸标志检测。具体来说如示于图1、遮挡自适应框架主要由三个紧密结合的模块组成:几何感知模块、学习模块和低秩学习模块。首先,将来自先前残余学习块的特征图馈送到几何感知模块和蒸馏模块中,以分别捕获几何信息并获得干净的特征表示。然后,这两个模块的输出被组装作为低秩学习模块的输入,该低秩学习模块可以通过对人脸的特征间相关性进行建模来恢复丢失的特征。下面详细描述了各个模块以及三个模块之间的结构关系.3488×⊗×××图1.阻塞自适应深度网络(ODN)的架构。我们提出的ODN主要包括三个模块:几何感知模块、蒸馏模块和低秩学习模块。3.1. 几何感知模块众所周知,卷积运算只能对局部邻域中的关系进行建模[47],如图所示。第2段(a)分段。虽然可以通过重复应用操作来捕获长范围依赖性,但这在计算上是然而,在人脸特征点检测中,人脸各部分之间的几何关系属于长距离依赖关系,也是定位特征点的有效信息。最近,Linet al. [31]提出利用两个CNN流的输出的外积来获得特征通道之间的成对相关性。受他们工作的启发,在本文中,我们提出了一个几何感知模块,利用矩阵外积来捕获不同组件之间的面部几何关系。如图1,我们提出的几何感知模块由两个路径子网络组成:途径-A(PA)和途径-B(PB)。这两条路径都配备有11conv。层,其目的是在不影响conv的感受野的情况下增加decision函数的非线性层[41]。为了获得多尺度特征,通路A的中间采用3 3卷积。层,路径B使用5 5conv.层.途径A和途径B的输出特征具有相同的尺寸以兼容。 为了对不同面部组件之间的几何关系进行编码,将两个通道的输出特征相乘,以通过相应通道的矩阵外积形成高维几何特征图,如图11所示。第2段(b)分段。最后,将地理特征图输入到11卷积器中。图层以获取最终的几何表示,该几何表示提供可用的(a) 局部感受野(b) 我们的几何感知模型图2.局部感受野和我们提出的几何感知模块在捕捉面部几何关系方面的比较。表示矩阵外积。低秩学习模块的几何信息。一般而言,元素加法和元素乘法是聚合多个子网络的输出特征的常用方法。元素加法经常出现在残差网络族[20,43]中,而元素乘法用于估计特征映射的多项式核表示[46,6]。这两种在这项工作中,特征映射的外积类似于二次核扩展,这实际上是一种非局部操作,用于对局部成对特征相互作用进行建模,以捕获长程依赖性。它可以计算一个位置的响应,作为输入特征图的相应行和列的所有位置几何感知模块PAPB残余变平C块PC低秩学习模块.PDN蒸馏模块逐元素加法N 通过Sigmoid进行.按元素相乘基质外积C 串联操作Conv. 1小时1Conv. 3小时3分Conv. 1小时1Conv. 1小时1Conv. 3小时3分Conv. 1小时1的fc 层池化Conv. 3小时3分Conv. 1小时1Conv. 5小时5分池化Conv. 1小时1Conv. 1小时1Conv. 1小时1Conv. 1小时13489Mi=1M一P×P˜~AMFCMM XX联系我们我F{IS}∑S − S RM3.2. 蒸馏模块遮挡物容易干扰未受污染的人脸区域的学习,导致CNN在训练阶段收敛失败。为了降低算法对遮挡的敏感性,提出了一种自适应提取模块,利用自注意机制自适应地过滤遮挡区域的特征,甚至过滤掉背景中的无关信息。与几何感知模块类似,所提出的蒸馏模块也由两个路径组成:路径- C(PC)和路径-D(PD),如图1B所示。1. Pathway-C利用残差块来避免输入信号的衰减,从而确保了可靠的特征表示。路径-D用作遮挡感知结构以自适应地测量每个位置的遮挡概率,其采用与路径-A中相同的“1-3-1”架构。Pathway-A和Pathway-D之间的区别在于卷积核的数量。这是由于Pathway-D只需要较少的通道就能够自动识别遮挡区域的特征,而不依赖于任何特定的假设。最后一11转换层输出一个单通道特征图,该特征图通过以下Sigmoid激活函数进行归一化,以生成概率图。我们通过逐元素乘法将此概率图集成到Pathway-C的输出特征图中,旨在为遮挡区域和背景区域分配较小因此,我们最终获得干净的特征表示(加权特征图)的整体面部。重要的是,我们利用L1正则化技术的优点,使其在优化过程中变得稀疏. 表示 作为路径C的输出特征图,显然,它由理想的干净特征表示A和噪声A(包括背景噪声)组成。形成和封堵器)。理想的概率图可能只有0和1元素,这可以将理想的干净数据A从原始特征图中分离出来因此,该模型最终只使用有效的备用特征,并且对具有遮挡物的面部几乎不变。最后,利用几何感知模块和特征提取模块,将几何特征图和整体人脸的干净特征表示串联成一个高维特征图,生成人脸外观的混合特征表示。混合特征图被下采样并展平为特征向量,作为低秩学习模块的输入。3.3. 低级学习模块虽然混合特征可以提高性能,但由于提取模块滤除了遮挡区域的特征,混合特征并不是完整的人脸整体特征表示面部的一些特征的缺失不一定指示面部不具有该特征,这可能被模型不正确地解释由于大量来自人脸的特征/属性通常是相关的和共现的,一些特征的存在意味着其他密切相关的特征的存在,这有助于重新覆盖缺失的特征。值得注意的是,我们提出的几何感知模块可以提供几何约束,也有利于恢复丢失的功能。另一方面,一些特征可能是冗余信息,需要被消除。受[22,42]的启发,我们使用低秩学习来学习一个共享的结构矩阵,该矩阵显式地编码特征/属性间的相关性,以便可以恢复丢失的特征,去除冗余特征给定训练集(i,i)N,可以学习共享结构矩阵以经由秩最小化来显式地编码特征/属性间相关性N最小值12+β ank(),(1)Ni=1其中,面部的地面实况表示为S=s1,s2,.,s L,相应的预测是(=WTT)。这里,表示混合特征向量(几何感知模块和蒸馏模块的输出),Wfc是全连接层的参数(回归系数矩阵)。 β是控制秩的正则化参数(较大的β导致较低的秩)。此外,s表示由水平和垂直坐标确定的单个点,L是面部的界标的数量通过有监督学习,可以以数据驱动的方式学习结构矩阵,以有效地恢复丢失的特征,通过不同的面部组件之间的有用的几何信息3.4. 三个模块之间的结构关系在我们提出的遮挡自适应框架中,三个模块之间存在非常紧密的关系,即,几何感知模块、蒸馏模块和低秩学习模块。早期的研究[18]表明,人类大脑中的视觉处理涉及两个流:腹侧流和背侧流。前者负责目标的识别和识别,后者负责处理目标的空间位置信息。类似于该机制,我们提出的ODN涉及两个主要信息:遮挡感知和几何关系。具体地说,不同面部组成部分之间存在强大的不变几何关系,例如,对称性、邻近性、位置关系等,其可以由所提出的几何感知模块捕获。另一方面,遮挡区域和背景中的无关信息可以通过所提出的提取模块过滤掉。从一个分量中丢失的部分信息可以通过其他分量根据几何特征推测出来3490| |=(5)==.M −−MMWWMP不我∥M∥我FUU不抽搐由此,来自几何感知模块的几何特征有助于低秩学习模块基于来自提取模块的干净特征表示来恢复丢失的特征。此外,提取模块与低秩学习模块之间的对立互补关系由此可见,三个模块之间的结构关系增强了我们提出的ODN处理遮挡问题的能力。4. 端到端优化在本节中,我们将介绍如何以端到端的方式训练我们提出的ODN。在数学上,我们提出的ODN可以用公式表示为以下最小化问题:N函数f在其域内的每一点上都不是可微的,我们可以找到一个次梯度中国人民解放军(|Σ|)tr(|Σ|)tr(|Σ| −1M我们知道=UVT和=UVT+UVT+UVT。 因此,UVT=UVTUVT。我们可以通过分别乘以(5)左侧的UT和右侧的V得到以下等式∂Σ =UT∂MV−UT∂UΣ−Σ∂VTV,(6)其中U是酉矩阵,即,UTU=I. I是一个单位矩阵。所以,(UTU)=I=UTU+UTU= 0。在这个等式的帮助下,我们可以计算(6)的第二项的秩1∑ˆ2 2最小值 − S+βRank(M)+γRank(M)T T T TNi=12+ αW + λW ∥ +ηP,(二)不=−tr(UU)=−tr(UU),(七)cFfc Fi F其中,S=FODN(I;Wc;Wfc;M)。FODN(·)表示我们提出的ODN,其中c和fc分别是卷积层和全连接层的参数集。M是低秩的参数集,这表明tr(UT<$U<$)= 0。类似地,我们也有tr(VTV)= 0。因此,从(6),我们可以得到tr(UT <$V)=tr(UT <$V)。把它代入(5),我们可以得到module. Frobenius范数控制三个参数集的收缩,其相关参数为{α,γ,λ},re-∂∥M∥∗=Mtv(|Σ| −1Mtv(|Σ|V)M分别为。单通道特征图从DIS-A通过L1正则化项施加灌溉模块,tr(V |Σ| −1U T=(V |Σ|Σ−1UT)T(八)参数η要进行端到端培训,所有术语的梯度=U−1M|V|V ,在(2)中,应该在目标函数中导出。然而,由于秩函数的非连续性和非凸性,这是一个NP难问题[60]。nu-clear norm通常,它等级学习问题,它提供了最紧密的低在所有凸下界的秩函数。因此,目标函数(2)可以重写为:作为结果,我们得到了目标函数中秩函数的梯度。因为(2)中的第一、第三、第四和第五二次项的梯度很容易计算。此外,最后一个L1项也是不可微的,但是,我们可以通过以下方式计算其次微分:NP1Fn=1,pk>01∑ˆ2 2={−1},pk0<(九)minN i=1Si− Si(三)pk<$[+1,−1],pk= 0+ α<$Wc<$2+ λ<$Wfc<$2+η<$Pi<$1。其中p 是P中的第k个元素。F F F利用核范数的定义[36]和迹的圆性定理,我们可以得到:K根据上述梯度计算,方程,我们提出的ODN是一个有向非循环图,参数可以通过后端以端到端的方式学习∥M∥∗ =tr(MTM)=tr((UVT)T(UVT))21=Ftr(UU)=3491=tr(V2VT)=tr(VVT2)(2)A = A(|Σ|)的情况下,(四)传播回归损失的梯度(例如,L2损失)。5. 实验数据集。我们在三个方面评估我们提出的方法其中,U、V和V是通过奇异值de获得的。组合物(SVD)[17]的M.虽然绝对值具有挑战性的数据集,包括300 W [39],COFW [5],劳联[34]。3492×××−5−6方法年套共同全套DRMF [1]20136.659.22[58]第五十八话20145.50-CFSS [61]20154.735.99DR [40]20164.516.31[29]第二十九话20164.195.02RDR [51]20175.055.80[第23话]20175.436.30[33]第三十三话20174.364.99Seq-MT [21]20184.204.90方法年一套[第55话]201319.54CPR-RPP [54]201511.57DR [40]201613.80LBF [38]201611.98RDR [51]20178.95[49]第四十九话20177.62[33]第三十三话20177.56DSRN [35]20189.68SBR [13]20187.58SAN [12]20186.60表1. 300 W Common set和Fullset的NRMSE(10−2300W:300W数据集是一个著名的面部特征点检测的竞争数据集。每张脸都被68个地标密集地注释。它是来自现有数据集的3,837张面孔的集合:LFPW[2],AFW [37],HE- LEN [30],IBUG. 我们使用3,148张图像作为训练样本,689张图像作为测试样本。具体地,这些测试图像被分成三个子集:(i)摄影集(来自IBUG的135幅图像);(ii)公共集(554幅图像,包括来自LFPW测试集的224幅图像和来自HELEN测试集的330幅图像);(iii)全集(689张图像,包含所有测试图像)。COFW:COFW数据集由1,345张用于训练的图像和507张用于测试的图像组成。所有训练样本均无遮挡,而所有测试样本均部分遮挡。每一张脸最初都有29个人工标注的标志。对于测试集,有一个新版本,已经用68个标志重新注释[16],以便与以前的方法进行比较。在实验中,我们只使用了68个标志点的测试集来验证我们的方法处理遮挡的有效性。AFLW:AFLW数据集提供了一个大规模的人脸图像集合,每个人脸有21个标志,表现出各种各样的外观以及一般的图像和环境条件。 根据[62]中报告的设置,我们不使用两只耳朵的标志,并将该数据集分为两种类型:AFLW-完全和AFLW-正面。AFLW-Full包含 20,000 个 训 练 样 本 和 4,386 个 测 试 样 本 。 AFLW-Frontal包含与AFLW-Full相同的训练样本,但使用1,165个正面测试样本。评估指标。为了评估我们提出的方法,我们采用两个评估标准:归一化均方根误差(NRMSE)和累积误差分布(CED)曲线。NRMSE定义如下:N表2. 300 W Chal-1000上的NRMSE(10−210.80.60.40.200.03 0.06 0.09 0.12 0.15NRMSE图3. CED曲线的比较。其中L、L分别表示面部上的界标的数量和眼间距离。特别是,AFL表示AFLW数据集边界框的宽度。实施详情。所有训练图像都被裁剪并调整大小为224 224。我们利用旋转,缩放,平移和翻转操作进行训练集的数据在我们的实验中,所有模型都在ImageNet数据集上进行了预训练[11]。在(2)中,α、γ和λ设置为1×10,η和β设置为1×10。5.1. 正常情况首先,我们评估我们的方法在正常情况下的人脸在这一小节中的有效性。我们选择了两个300W的子集(普通集和全集)作为测试数据集。原因是这些数据集中的大多数人脸图像在姿态、光照和遮挡下变化较小。表1示出了与现有基准比较的实验结果。从表1中,我们可以看到,我们的方法优于最先进的方法,特别是在已经很难提高的Fullset上获得了良好的性能增益。 这些结果表明-1NRMSE=∑<$Si−S<$i<$2,(10)我们的模型可以准确地定位人脸的标志点Ni=1吕氏在正常情况下RCPRR-DSSDCFANSDMCFSSODN数据比例34938.728.027.466.316.176.466.035.30×−××10.008.006.0010.80.64.000.42.000.20.00(a) NRMSE(×10−2)准则00 0.02 0.04 0.06 0.08 0.1NRMSE(b) CED曲线判据图4. COFW数据集上不同方法的比较结果。5.2. 抗堵塞耐用性评价据我们所知,大多数最先进的方法很容易预测正常人脸的标志然而,如果这些方法试图处理遮挡问题,它们将陷入困境。因此,在本小节中,为了测试我们的方法在遮挡人脸上的性能,我们在两个困难的数据集上进行了实验:COFW和300W的遮挡集。如表2和图3所示。3.通过两种评价标准,将本文提出的表2中的结果表明,我们的模型提高了NRMSE值6.67(×10- 2),与其它方法相比具有一定的竞争力。请注意,DSRN的NRMSE为9.68(10−2),这也将低秩学习嵌入到CNN中。这表明我们的几何感知模块和提取模块在提高处理遮挡问题的能力方面起着此外,图中的累积误差分布(CED)曲线。3还描述了我们的模型与其他方法相比具有更好的性能。图4展示了COFW数据集上的跨数据集实验结果,该数据集由[16]重新注释,具有68个地标。具体来说,所有模型都在300W数据集上训练,但在COFW上进行评估,以研究不同地标检测算法的鲁棒性。参见图4(a),我们提出的ODN的性能大大超过其他方法。特别地,ODN的NRMSE值低于特定于遮挡问题的那些方法,ACRM、ERCLM、DRDA和HPM。从另一个评价标准来看,图。4(b)表明,我们提出的ODN有92%的测试样本的NRMSE值小于0.08,而其他方法的最高比例仅为81%左右。换句话说,即使所提出的模型是在完全不同的数据集上训练的,我们的方法也可以有效地检测COFW数据集中几乎所有测试样本的地标因此,从实验结果来看,图5.AFLW-Full上CED曲线的比较通过对集合和COFW的比较,我们可以得出结论,我们提出的遮挡自适应模型对遮挡具有鲁棒性5.3. 针对各种姿势的耐用性评价除了遮挡,极端姿态也是面部标志点检测的一大挑战。为了进一步验证我们提出的方法的推广,我们进行了实验,在AFLW数据集上,包括许多具有从90°到90°的任意姿态度的人脸。表3和图4给出了不同方法的两种性能评价5所示。在表3中,我们的建议ODN在AFLW-full和AFLW-Frontal上分别获得了1.63(10−2)和1.38(10−2)的最佳分数。我们推测,这主要归功于我们提出的几何感知模块和低秩学习模块。人脸的许多几何特征是不变性的,即使是在任意姿态下,也可以提供几何约束。几何感知模块能够准确地捕捉人脸各部分之间的几何关系,低秩学习模块能够利用这些几何关系来恢复丢失的特征。此外,在图5.我们提出的方法几乎优于其他方法。 值得男人-HPMSAPMRCPRTCDCNCFSSODNNRMSE数据比例3494×P模型NRMSEBRNet7.21BRNet+GM+DM7.04BRNet+DM+LM6.88BRNet+GM+LM6.90BRNet+GM+LM+DM(无L1)6.81BRNet+GM+LM+DM6.670.5210.5490.5670.5650.5560.5230.5000.5210.5490.5670.5650.5560.5230.5000.5700.6090.6090.5720.6530.703零点六九二0.6490.5640.6100.5080.5190.5250.5180.5010.5700.6530.7030.6920.6490.5640.5080.7450.7660.7130.822零点八一四0.8640.8730.8280.8530.7460.6090.7450.8220.8140.7460.6100.5190.8060.6470.6090.7660.8640.8730.8060.6470.5250.7890.6350.5720.7130.8280.8530.7890.6350.5180.5290.6160.7100.7440.6890.5760.5290.6160.7100.7440.6890.5760.5010.501零点五三三0.5690.5840.5610.5160.4990.5010.5330.5690.5840.5610.516方法[53]第五十三话[25]第二十五话CCL [62]DAC-OSR [15]SBR [13]SAN [12]DSRN [35]ODN年2013201420162017201820182018AFLW-Full4.054.352.722.272.141.911.861.63AFLW-正面2.942.752.171.81-1.85-1.38表3. AFLW数据集上不同方法的NRMSE(×10−2)表4. NRMSE(10−2)比较我们提出的模型与不同的模块在集合上。指出TSR致力于通过使用两阶段重新初始化来将面部调整为直立来解决极端面部姿势问题。但我们的方法没有采用任何额外的措施来调整面部姿态,但仍然获得了比TSR更好的性能。这些实验结果可以证明,我们提出的ODN具有很大的泛化能力,以预测任意姿态的人脸的地标。5.4. 消融研究我们提出的遮挡自适应网络由三个关键模块组成:几何感知模块(GM)、蒸馏模块(DM)和低秩学习模块(LM)。在这一小节中,我们进行了消融研究,以验证他们的有效性,对治疗集。基于基线ResNet-18(BRNet),我们分析了每个拟议模块存在的必要性。表4报告了NRMSE的比较结果。从表4中,我们可以发现,每个提出的模块在提高性能方面发挥了重要作用。但是,可以明显地观察到,最好的性能-该模块来自BRNet,同时配备了三个模块。此外,在我们提出的框架中,L1正则化施加到单通道特征映射,并使其稀疏蒸馏模块。在表4中,我们可以看到,这种正则化操作也获得了很小的性能增益此外,我们在图中显示了来自蒸馏模块的一些可视化示例。6.蒸馏模块与自我注意机制有关,该机制可以将可用处理资源的分配偏向最大化图6. COFW数据集6. 结论在这项工作中,我们提出了一个遮挡自适应深度网络来解决面部界标检测的遮挡问题,该网络由三个主要模块组成:几何感知模块,蒸馏模块和低秩学习模块。几何感知模块和提取模块分别能够捕捉人脸不同部位之间的几何关系,获得清晰的特征表示。这两个模块的输出被连接作为低秩学习模块的输入,以通过几何信息来恢复丢失的特征。我们在基准数据集上进行实验,以评估我们提出的框架在正常情况下,部分遮挡和极端姿态下的性能实验结果表明,该方法优于现有的方法,并实现了对遮挡和各种姿态的鲁棒性输入信号的信息分量。在图6中,第一列示出了面部图像,其概率图和后蒸馏结果分别在接下来的两列中示出我们可以看到,提取模块可以更加关注面部的本征区域,并且减少遮挡和背景的影响。致谢本工作得到国家自然科学基金重大项目(No.61827814)、深圳市科技局-科 技 创 新 委 员 会 ( SZSTI ) 项 目 ( No.JCYJ20170302153752613)和大数据系统计算技术国家工程实验室。0.4990.5320.5620.5600.5430.515零点五0.4990.5320.5620.5600.5430.5150.5000.5140.5800.6370.6330.5960.5410.5620.5090.5150.5140.5800.6370.6330.5960.5410.5090.5390.5690.639零点七一三 零点七零一0.6420.5390.6390.7130.7010.6420.5620.5150.7080.7890.7730.6970.5930.5240.5330.5260.5690.7080.7890.7730.6970.5930.5240.6030.6020.7840.7840.8650.8670.8490.8490.7670.7630.6300.6200.6030.7840.8650.8490.7670.6300.5330.6020.7840.8670.8490.7630.6200.5260.5590.6860.7580.7380.6600.5580.5040.5590.6860.7580.7380.6600.5580.5040.8400.8680.8960.8750.8820.8630.5060.5300.549零点五七一0.6010.5750.5280.5060.5300.5490.5710.6010.5750.5280.5350.6030.6690.7190.7610.6950.779 0.7840.810 0.7970.777 0.7600.6870.7740.7830.6710.5870.5350.6030.6690.7190.7610.6950.5870.5640.5650.5430.6740.6840.6470.6290.6230.5640.6740.7790.8400.8680.7840.6290.5650.6840.8100.8820.8960.7970.6230.5900.5430.6470.7770.8630.8750.7600.5900.5180.5840.5460.5180.5840.6870.7740.7830.6710.5460.5020.5300.5760.621零点六二三0.5610.5070.5020.5300.5760.6210.6230.5610.5073495引用[1] Akshay Asthana,Stefanos Zafeiriou,Shiyang Cheng,and Maja Pantic.具有约束局部模型的鲁棒判别响应图拟合在IEEE计算机视觉和模式识别上,第3444-3451页[2] P. N. Belhumeur,D. W. Jacobs,D. J.克里格曼和N.库马尔。使用一致的例子定位面部的部分。在IEEE计算机视觉和模式识别会议上,第545-552页[3] Adrian Bulat和Georgios Tzimiropoulos第一个3D人脸野外对齐(3DFAN)挑战的两阶段卷积部分热图回归在欧洲计算机视觉会议上,第616-624页[4] Adrian Bulat和Georgios Tzimiropoulos Super-FAN:集成的面部标志定位和超分辨率的真实世界的低分辨率面部在任意姿势与GAN。在IEEE计算机视觉和模式识别会议上,2018年。[5] Xavier P. Burgos-Artizzu和Pietro Perona。遮挡情况下鲁棒的人脸特征点估计。在International Conference onComputer Vision,第1513-1520页[6] S.蔡,W. zuo和L.张某用于细粒度视觉分类的分层卷积激 活 IEEEInternational Conference on Computer Vision(ICCV),第511-520页[7] Dong Chen,Xudong Cao,Fang Wen,and Jian Sun. 降维:用于人脸验证的高维特征及其在IEEE计算机视觉和模式识别会议上,第3025- 3032页[8] 蒂莫西·F作者:Gareth J. Cootes Edwards和Christopher J.Taylor. 活 动 外 观 模 型 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,23(6):681-685,2001。[9] 蒂莫西·F作者声明:Christopher J.作者:David H. 库珀和吉姆·格雷厄姆主动形状模型的训练与应用。计算机视觉与图像理解,61(1):38[10] 大卫·克里斯蒂娜和蒂姆·库茨。用受约束的局部模型进行自动特征Pattern Recognition,41(10):3054[11] J. Deng,W.东河,巴西-地索赫尔湖李凯李飞飞。Imagenet:一个大规模的分层图像数据库。 在IEEE计算机视觉和模式识别会议上,第248-255页[12] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。在IEEE计算机视觉和模式识别会议上,2018。[13] Xuanyi Dong,Shouou-I Yu,Xinshuo Weng,Shih-EnWei,Yi Yang,and Yaser Sheikh.配准监督:一种提高面部标志检测器精度的无监督方法。在IEEE计算机视觉和模式识别会议上,2018。[14] Zhen-Hua Feng , Josef Kittler , Muhammad Awais ,Patrik Hu- ber,and Xiao-Jun Wu.用卷积神经网络进行鲁棒面部标志定位的翼损失。在IEEE计算机视觉和模式识别会议,2018年6月。[15] Zhen-Hua Feng , Josef Kittler , William Christmas ,Patrik Hu- ber,and Xiao-Jun Wu.动态注意力控制铸造形状回归利用训练数据扩充和模糊集样本加权。在IEEE计算机视觉和模式识别会议上,第3681- 3690页[16] Golnaz Ghiasi和Charless C.福克斯闭塞一致性:用分层可变形零件模型定位遮挡面。在IEEE计算机视觉和模式识别会议上,第1899-1906页[17] G. H. Golub和C. Reinsch奇异值分解和最小二乘解。Numerische Mathematik,14(5):403[18] 梅尔文·古德尔和大卫·米尔纳感知和行动的视觉路径分开Trends in Neurosciences,15(1):20[19] Tal Hassner、Shai Harel、Eran Paz和Roee Enbar。无约束图像中的有效人脸正面化。在IEEE计算机视觉和模式识别会议上,第4295-4304页[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition,第770-778页[21] Sina Honari、Pavlo Molchanov、Stephen Tyree、PascalVin- cent、Christopher Pal和Jan Kautz。用半监督学习改进地标定位。在IEEE Confer-ence on Computer Visionand Pattern Recognition,2018。[22] C. Huang,X.丁角,澳-地Fang和D.文基于自适应低秩逼近和联合核回归的鲁棒图像恢复。IEEE Transactionson Image Processing,23(12):5284[23] Amin Jourabloo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功