没有合适的资源?快使用搜索试试~ 我知道了~
1基于局部关系学习的人脸动作单元检测牛雪松1、3,胡汉1、2,杨松帆5、6,黄燕6,石光山1、2、3、41中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,北京1001902鹏程实验室,深圳,中国3中国科学院大学,北京1000494中科院脑科学与智能技术卓越中心,中国上海5四川大学电子信息工程学院四川成都6TAL教育集团,北京,中国xuesong@vipl.ict.ac.cn,{hanhu,sgshan}@ict.ac.cn,{yangsongfan,galehuang}@ 100tal.com摘要通过由面部动作编码系统(FACS)编码的动作单元(AU)对个体面部表情进行编码已被发现是解决不同表情之间的歧义问题的有效方法。虽然已经提出了许多用于AU检测的方法,但是由于个体受试者之间的基线AU强度不同以及AU的外观信号的弱点,在野外的稳健AU检测仍然是一个具有挑战性的问题为了解决这些问题,在这项工作中,我们提出了一种新的AU检测方法,利用局部信息和个人的局部人脸区域的关系。通过这样的局部关系学习,我们期望利用丰富的局部信息来提高AU检测对个体局部区域的潜在感知不一致的鲁棒性此外,考虑到个体受试者的基线AU强度的多样性,我们通过个人特定的面部形状信息进一步正则化局部关系学习,即,减少了人的特定形状信息的影响,获得了更多的AU区分特征。所提出的方法优于两个广泛使用的AU检测数据集在公共领域(BP4D和DISFA)的最先进的方法。1. 介绍面部表情是人类交流的一种自然而有力的手段因此,面部表情分析在诊断心理健康[32],改善在线学习体验,图1:在FACS中为AU定义的每个单个局部面部区域(红色圆圈)可能是模糊的,因为面部在姿势、照明等方面存在变化;因此,考虑多个相关面部区域(黄色圆圈)的关系可以提供比单独使用单个局部区域更强的鲁棒性。同时,人特定的面部形状信息也影响AU检测性能,即,AU 4(眉毛较低者)的检测受到眼睛-眉毛距离的高度影响,所述眼睛-眉毛距离可在不同的子区域之间显著变化因此,我们期望减少这种特定于人的形状信息对AU检测任务的影响,即,通过特征学习过程中的正则化。[12]第30话,一个谎言,一个谎言。然而,由于几种表情之间的模糊性,在野外直接进行面部表情识别可能具有解决模糊性问题的有效方法之一是使用面部动作编码系统(FACS)[10]来表示个体表情,其中每个表情被识别为多个基本面部的特定配置11917AU6(CheekRaiser)AU6(CheekRaiser)AU4(下眉)AU4(下眉)11918cial AU.因此,一个鲁棒的人脸AU检测系统对于准确分析人脸表情是非常重要的。由于不同的AU对应于面部的不同肌肉面部AU检测的早期工作使用传统的手工制作的特征表示不同的局部面部区域,这对于捕获面部形态来说可能没有足够的区分力[46,48]。最近,深度学习已被广泛应用于面部表示学习,包括使用深度表示进行更有效的AU检测[5,8,24,35,47]。然而,除了学习更多的AU判别特征之外,各个面部区域的关系对于AU检测可能是非常重要的。如图1、由于姿势、照明等的面部变化,在FACS中定义的每个单个局部面部区域对于AU检测可能是模糊的;因此,考虑多个面部区域的关系可以提供比使用单个局部区域更强的鲁棒性。例如,面部的脸颊区域和嘴角通常在称为Duchenne微笑的常见面部行为中同时活动,导致AU 6(脸颊抬起者)和AU 12(嘴角拉起者)之间的高度相关性。一些方法试图通过使用多标签学习来使用这种局部关系信息[24,46,47],但只使用了整体特征表示。一个细致的建模方法,需要有效地利用不同的局部面部区域的关系,以执行强大的AU检测。AU的另一个重要特征是,由于不同主体的形态特征和表达情感的方式不同,同一AU的出现在不同主体之间可能会有所不同(见图10)。①的人。这就是为什么设计个人特定AU检测器可以提高AU检测精度的原因。然而,现有的人特异性AU检测方法需要重新训练新受试者的模型[7,43],或者需要新受试者的额外数据用于模型生成[1,33]或标准化[2]。这些约束限制了现有AU检测方法的应用范围在本文中,我们提出了一个端到端的可训练网络,用于AU检测,使用局部关系学习和特定于Person-specific形状正则化(即LP-Net)。LP-Net由主干网络、局部关系学习模块(L-Net)和个人特定形状正则化模块(P-Net)组成。干网络主要包含用于局部区域特征提取的卷积层然后将提取的局部特征馈送到局部关系学习模块,用于关系学习和预测AU发生概率。同时,P-Net的目标是学习与L-Net的特征无关的特征,因此可以作为正则化项以减少人特定形状信息的影响。因此,L-Net学习的最终特征对于AU检测更具区分性和可推广性这项工作的贡献有三个方面:(i)提出了一种新的端到端可训练的AU检测框架,该框架不仅能够利用局部信息,而且能够利用各个区域之间的关系来提高AU检测的鲁棒性;(ii)我们通过个人特定的面部形状信息来正则化局部关系学习,以获得与AU检测相关的更具鉴别力和可推广性的特征;(iii)所提出的方法在两种广泛使用的AU检测上优于最先进的方法。数据集BP4D和DISFA。2. 相关工作自动面部动作单元检测已经研究了几十年,并且已经提出了一些工作。不同的特征[4,20,25,26]和分类器[7,38,44,46]已被应用于在现实情况下构建鲁棒的面部动作单元检测系统最近,CNN在许多计算机视觉任务中表现出强大的能力,如人脸验证[37],目标检测[13]和图像识别[17],并已成功应用于自动面部动作单元检测[5,15]。读者可以参考最近的调查和挑战[9,27,39]以获得更多信息。在下面的段落中,我们将回顾与我们相关的工作。由于面部AU被定义为不同面部肌肉运动的模式,因此它们执行面部表情的方式相对地基于局部面部表观。一些工作是基于这个字符,并使用本地信息的人脸AU检测。 Zhong等[48]将人脸区域划分为多个均匀的面片,用普通面片和特殊面片来描述不同的表情。Taheri等人[36]为不同的AU定义了固定的区域,并使用稀疏编码来恢复面部表情,使用AU的组合规则。Zhao等人[46]执行了基于面部标志和组稀疏学习的块选择方法这些方法都是用传统的特征来表示人脸的局部信息,这些特征表达能力不够。除了传统的特征之外,CNN的强大建模能力也已成功地用于面部动作单元检测。在[47]中,Zhaoet al.提出了一个区域层,以诱导CNN专注于重要的面部区域,以便更好地进行特征学习。在[23]中,Liet al.使用人脸的不同部分训练不同的CNN,并使用完全连接的层以早期融合的方式合并来自不同区域的特征。在[24]中,Liet al.提出了一种基于增强和裁剪人脸区域的局部特征学习方法在[35]中,Shaoet al.提出了一个端到端的深度学习框架,用于联合AU检测和人脸对齐,该框架使用对齐特征来计算11919个性化形状规则化正则化项面部图像二维人脸形状形状特征全局AU功能…正交特征空间���� ������AUprobab ility��局部特征Stem网络局部关系学习图2:我们的AU检测方法概述,包括一个干网络,一个局部关系学习模块(L-Net)和一个特定于个人的形状正则化模块(P-Net)。通过使用P-Net对特定于人的形状信息进行建模,并强制特定于人的形状特征与L-Net学习的特征无关,我们期望用于AU检测的最终特征可以更具区分性和可推广性。自适应注意力地图,用于更好的局部特征学习。这些方法通过深度学习的强大建模能力大大提高了面部AU检测的性能。然而,这些方法都只针对不同的区域,没有考虑到不同的局部区域之间的关系。同时,由于面部解剖结构的不同,不同面部局部区域的外观通常同时变化,并且不同局部区域之间的这种关系也将有利于AU的检测除了直接使用局部特征来预测AU之外,另一种建模AU之间关系的方法是使用不同AU之间的相关性。Walecki 等 人 [40] 提 出 了 一 种 通 过 将 条 件 随 机 场(CRF)与深度学习相结合来同时对AU关系和特征表示进行建模的方法。在[41]中,Wanget al.提出了一个限制玻尔兹曼机捕捉高阶AU相互作用。在[8]中,Corneanuet al.应用图形模型推理方法在不同AU标签之间传递AU概率。所有这些方法都考虑了不同AU之间的概率相关性,并使用相关性来改进预测结果。然而,这些方法中的大多数使用从整个面部区域生成的特征来计算AU概率。局部信息被忽略了,这对于面部AU检测非常重要。同时,AU到AU的关系主要是使用面部解剖学和基于姿势表达的FACS [10]生成的,并且它们对自发表达的泛化能力尚不清楚。AU的另一个关键特征是,相同AU的外观在不同受试者之间可能会有所不同。这就是为什么已经提出了许多针对个人的AU分析模型的原因Chu等人[7]提出了一种选择性反式-fer机器通过重新加权源分布以匹配目标分布来个性化AU检测器Zeng等人[43]应用了类似的重新加权策略,并使用由置信分类器提供的合成标签来学习特定于个人的分类器。这种特定于个人的AU检测器需要为每个受试者重新训练模型,这可能很耗时。除了重新加权源分布,Sangineto等人。[33]提出了一种传输过程,以学习与每个源主题相关联的数据分布和相应参数之间的区别性映射。Almaev等人[1]提出了一种多任务学习结构,利用单个AU学习任务间的潜在关系,并将潜在关系传递给其他AU。在[2]中,Baltrus Pastaitiset al.提出了一种简单但有效的方法,用于使用视频中所有特征的中值进行个人特定尽管所有这些方法都不需要为新的主题重新训练模型,但它们仍然需要额外的数据来生成新的AU预测器,这限制了实际场景中的与这些现有方法相比,我们采用端到端深度框架LP-Net来预测AU。在人脸AU预测中,我们不仅同时,还利用个人特定的形状正则化来减少不同受试者之间的不同基线AU强度的影响。3. 该方法图2示出了用于面部AU检测的LP-网络的总体框架,其由干网络、局部关系学习模块(L-Net)和个人特定形状正则化模块(P-Net)组成。我们将在以下章节中详细介绍11920J3.1. LP网络�������������特征表示是构建鲁棒AU检测系统的关键组成部分,其中CNN已经显示出其强大的功能,并在许多计算机视觉任务中取得了巨大成功[13,17,37]。传统的CNN通常将卷积层的输出馈送到全局池化层,以获得鲁棒的全局特征。然而,这样的操作将无法捕获针对像面部的结构化对象的局部信息,并且因此忽略一些局部信息。1512d77512d277...512d77而是与AU检测相关的重要信息。为了克服这些限制,如图所示。2、我们去除了CNN中的全局池化层,直接使用卷积层的输出特征图作为局部特征的表示。像ResNet [17]这样的CNN网络已经被证明具有很强的局部特征生成能力因此,在这里,我们选择ResNet-34 [17]作为我们的干网络进行局部特征学习。ResNet-34的最后一个卷积层的输出包含512个大小为7 × 7的特征图,被视为局部特征集并用于进一步处理。因此,我们从主干网络中总共获得了512维的49个局部特征。在我们获得从干网络生成的局部特征之后,引入了基于长短期记忆(LSTM)[18](L-Net)的局部关系学习模块,以自动探索特征空间中各个局部面部区域的下划线关系我们的L-Net共同考虑局部区域的特征及其关系,并输出单个AU的概率如第1节所述,另一个挑战是不同受试者的基线AU强度可能因脸型差异而不同。一个特定的人图3:由stem网络生成的特征图的每个元素(总共49个元素)被视为局部区域的表示,并用作我们基于LSTM的L-Net的输入。L-Net探索各个局部区域的下划线关系,并输出概率。主干网络(ResNet-34的k= 49每个局部特征fi将用于AU预测,并输出AU发生概率。LSTM结构用于学习关系并输出不同局部特征的概率。由于不同的AU具有不同的肌肉激活,并且用于预测概率的各个局部特征的贡献应该不同。因此,我们分别预测每个AU的发生概率,即,使用CLSTM结构来预测所有CAU的概率。同时,我们相信每个局部特征都有助于检测单个AU,因此所有k个局部特征都被馈送到每个LSTM结构。每个AU的检测的最终决策通过组合所有预测结果获得,并且通过L-Net的最终预测的AU发生概率可以写为形状正则化模块(P-Net)用于基于2D面部形状来对这样的个人特定信息进行建模。P-Net编码的特征预计是独立的,01-021Σkki=1LSTMj(fi))(一)t与由L-Net编码的特征进行比较,并进一步用于计算正则化项,以细化L-Net预测的AU概率。因此,P-Net作为正则化模块来执行L-Net以学习用于AU检测的更多与主题无关的特征,并且通过P-Net改进的AU概率被用作我们的LP-Net的最终预测3.2. 基于L网的局部关系学习图3给出了我们用于局部关系学习的L-Net的详细结构。由于干网络生成的特征图来自ResNet-34的最后一个卷积层,因此特征图中的每个元素(1 × 1 × 512)都因此,我们使用特征图上的每个元素作为局部人脸区域的表示,并使用它来执行局部关系学习。j= 1,2,···,C其中σ是sigmoid函数。3.3. 基于P网的人体形状正则化P-Net的目标是减少特定于人的形状信息的影响,并获得更多的区分和一般特征的AU检测。 如图4、我们使用2D面部标志作为面部形状的表示[14,21]。 具体来说,我们使用一个强大的面部标志检测器(卷积专家约束局部模型[3,42])来检测68个面部标志P1,P2,···,P68,然后基于两个眼睛中心的所有人脸图像后对准面部图像,使用P-P中心具体地,我们从以下得到k个局部特征f1,f2,· · ·,fkP范数=(二)D11921512d干网络全局AU功能136d地标检测器C d256d512d其中,pj表示第j个AU发生的真实概率,1表示发生AU,0表示未发生。pj是预测概率,我们的LP-Net。权重wc是一个平衡参数,使用选择性学习策略在每个批次中计算的参数[16]。所提出的LP网络的总损失函数可以写为:正则化项L全部 =Lau +λLr(六)正则项预测网络图4:我们的个人特定形状正则化网络(P-Net)的详细结构。将68个面部标志作为面部形状的表示,并用于正则化项的计算。应用正则化损失L_r以引导P-Net输出用于CAU的AU独立的个人特定面部形状正则化ter_m_j,其进一步用于细化由L-Net预测的其 中 P 中 心 是 两 只 眼 睛 的 中 心 点 , d 是 瞳 孔 间 距(IPD)。标准化的地标被用作我们的P-Net的输入,以预测个人特定的形状规则化项(见图1)。4). 我们期望P-Net只学习与AU无关的个人特定人脸形状信息,因此我们提出了正则化损失Lr,旨在正交化P-Net学习的特征和L-Net用于AU检测的特征损失公式为:Lr=|fau·fs|(三)其中·表示两个向量的内积,fau是从干网络生成的k个局部特征的平均值,fs是用于正则化项预测的P-Net的最后一层特征。 对于每个输入图像,我们计算所有CAU的正则化项m1,m2,· · ·,mc,并使用它们通过L-Net来细化预测对于所有CAU,LP网络的最终预测概率p1,p2,···,pc可以写为1Σk其中λ是平衡两种损失的影响的超参数4. 实验结果在本节中,我们提供了几个公共领域AU检测数据库的实验评估,并给出详细的分析实验结果。4.1. 实验设置4.1.1数据库我们在两个自发数据库BP4D [45]和DISFA [28]上评估了我们的LP网络,这两个数据库已被广泛用于面部AU检测。BP4D是一个自发的面部表情数据库,包含41名参与者(23名女性和18名男性)的328个视频。每个受试者参与8次会议,他们自发的面部动作被捕获的2D和3D视频。针对328个视频编码12个AU,并且存在大约140,000个具有发生或不存在的AU标签的帧。DISFA由12名女性和15名男性的27个视频组成。要求每个受试者观看4分钟的视频以引出面部AU。对于每个视频,12个AU标记有从0到5的AU强度。在最终的实验中使用了大约130,000帧。根据[8,23,24,35]的实验设置,我们在BP4D上进行受试者排除的3倍交叉验证,并进一步微调在BP4D上训练的最佳模型,以在受试者排除的3倍验证方案下在DISFA上进行AU检测。对于DISFA数据库,12个AU中的8个用于评估,AU强度等于或大于2的帧被选为阳性样本,其余被选为阴性样本。pj=σ(ki=1LSTMj(fi)+mj)(四)4.1.2图像预处理j= 1, 2,···,CAU预测是一个多标签二进制分类问题,对于大多数AU预测基准,AU的出现是高度不平衡的[9,27,39]。为了更好地处理这样的多标签和不平衡问题,我们选择使用选择性学习的二进制交叉熵损失Lau[16]作为我们的损失函数1摄氏度对于每个输入图像,使用CE-CLM面部标志检测器来估计68个面部标志(参见图11)。4).然后,根据Baltrus Escheraitiset al. [2],所有的脸都是对齐的,并使用基于检测到的地标的相似性变换来掩盖,以减少姿态和尺度的变化。所有对齐的人脸图像都被调整为240 × 240,然后随机裁剪为224 × 224进行训练。从对齐面居中裁剪的图像用于测试。我们还使用随机水平翻转,Lau=−Cj=1 wc[pjlogp<$j+(1−pj)log(1−p<$j)](5)随机旋转以进行数据扩充。119224.1.3培训我们递增地训练LP网络的每个部分。首先,我们在人脸识别数据库VGGFace 2上预训练我们的干网络[6]。然后我们在AU数据库上训练干网络。初始学习率为0.001的Adam优化器用于优化干网络。在此基础上,增加了L-Net模块,对主干网络和L-Net进行联合对于干网络,初始学习率设置为0.0005,对于L-Net,初始学习率设置为0.001接下来,我们将P-Net添加到网络中,并联合训练整个网络,其中干网络和L-Net的初始学习率为0.0005,P-Net的初始学习率为0.001。所有训练步骤的最大迭代设置为30个epochs,批次大小设置为100。正则化损失Lr的平衡参数λ被设置为1。所有的实现都基于PyTorch [31]。4.1.4评估指标我们使用F1帧评分评估所有方法的性能[19]。F1-framescore是基于帧的AU检测的查准率和查全率的调和平均值,在AU检测中得到了广泛的应用。对于每种方法,计算所有AU的F1帧,然后取平均值(作为Avg. )进行评估。4.2. 结果4.2.1与最新技术水平的比较我们首先在相同的受试者专用三重交叉验证协议下将我们的LP-Net与最先进的方法进行比较。传统方法LSVM [11],JPM-L [46],APL [48]和CPM [43],以及深度学习方法-DRML [47],EAC-Net [24],ROI [23],DSIN [8]和JAA-[35]这是一个比较。由于我们在这项工作中专注于基于图像的AU检测,因此不使用基于视频的方法(如ROI-LSTM [23同时,我们注意到一些方法,如DSIN[8]使用每个AU的阈值翻转,而大多数其他基线方法没有使用每个AU的阈值翻转。因此,为了公平比较,我们报告了每个AU没有阈值调整的各个方法的性能。对于基线方法LSVM [11],JPML [46],APL [48]和CPM[43],我们直接使用他们在[24,35,47]中报道的结果。表1显示了不同方法在BP4D数据库上的结果。可以看出,我们的LP-Net在这个具有挑战性的自发面部表情数据库上优于所有基线方法。将LP-Net与基于深度学习的局部特征(如ROI [23],DRML [47],JAA-Net[35]和DSIN [8])的最先进方法进行比较,我们的LP-Net可以为BP 4D中注释的12个AU中的大多数实现最佳或我们还在av方面实现了最佳性能erage F1-帧分数。同时还研究与讨论我们的LP-Net也大大优于个人特定AU检测模型,如CPM [43],这表明我们的P-Net在处理不同受试者之间不同基线AU强度的挑战方面非常有效当与最先进的方法[35,8]相比时,我们还发现当AU的面部区域较小时,例如AU 1和AU 2,我们的LP-Net的性能会下降。原因在于局部特征是从Stem-Net的最后一层生成的,其在语义上是高级的,并且在表示小区域时可能不敏感然而,尽管直接使用Stem-Net进行局部特征生成时性能下降,但计算复杂性显著降低,因为我们的LP-Net不需要额外的骨干网络[8]用于局部特征生成或额外的分支来增强局部特征[35]。DISFA数据库上的实验结果报告于表2中。可以观察到,我们的LP网络再次优于所有最先进的方法。我们在大多数AU上实现了最佳性能,以及所有AU的平均F1帧分数这些结果表明,我们的LP网络具有良好的泛化能力。4.2.2消融研究我们提供消融研究,以调查我们的LP-Net每个部分的有效性。表3显示了每个AU的F1帧评分以及BP4D上单个消融实验的平均F1帧评分。选择主干网络:在我们的LP-Net中,干网络用于局部特征生成。我们选择ResNet作为主干网络,并考虑了三种常用的网络(RestNet-18,ResNet-34和Rest-Net50)。结果示于表3中。从结果中可以看出,ResNet-34 的 性 能 优 于 ResNet-18 , 平 均 F1 帧 从 52.9 提 高 到53.7,表明更深的网络可以为AU检测提供更丰富的特征然而,当网络进一步深入到ResNet-50时,性能下降到52.5。可能的原因是AU数据库的主题有限,并且非常深的网络可能会受到过度拟合的影响。我们在下面的实验中使用ResNet-34。选择性学习的数据平衡:由于对于大型人脸数据库收集和注释AU是复杂的,因此大多数AU数据库是高度不平衡的。在我们将选择性学习策略[16]应用于数据平衡之后,BP4D上的平均F1帧从53.7提高到55.2,这表明选择性学习[16]在我们的LP网络中使用的有效性。数据增强和模型预训练:由于AU数据收集的困难,AU数据库中的主题通常有限。数据扩充和模型11923表1:拟议LP-Net和BP 4D数据库上最先进方法报告的12个AU的F1帧评分(%)。最好的和第二的分别用括号和粗体表示,以及单独用括号表示。方法AU1AU2AU4AU6AU7AU10 AU12AU14AU15AU17AU23AU24Avg.LSVM [11]23.222.823.127.247.177.263.7【六十四点三】18.433.019.420.735.3JPML [46]32.625.637.442.350.572.274.1【65.7】38.140.030.4【42.3】45.9DRML [47]36.4【四十一点八】43.055.067.066.365.854.133.248.031.730.048.3CPM [43]43.440.743.359.261.362.168.552.536.754.339.537.850.0EAC-Net [24]39.035.248.676.172.981.986.258.837.559.135.935.855.9[23]第二十三话36.231.643.4【七十七点一】73.7【85.0】【87.0】62.6[45.7]58.038.337.456.4[35]第三十五话【四十七点二】【44.0】[54.9]【七十七点五】【七十四点六】【84.0】86.961.943.660.3【四十二点七】41.9【60.0】[8][51.7]40.4 【56.0】76.173.579.985.462.737.3【62.9】38.841.658.9LP-Net43.438.054.2【七十七点一】【76.7】83.8【八十七点二】63.3【四十五点三】[60.5][48.1][54.2]【61.0】表2:拟议的LP-Net和DISFA数据库上最先进的方法报告的8个AU的F1帧评分(%)。最好的和第二的分别用括号和粗体表示,以及单独用括号表示。方法AU1AU2AU4AU6AU9AU12AU25AU26Avg.LSVM [11]10.810.021.815.711.570.412.022.121.8DRML [47]17.317.737.429.010.737.738.520.126.7APL [48]11.412.030.112.410.165.921.426.923.8[24]第二十四话41.526.466.4【50.7】8.589.388.915.648.5[35]第三十五话【43.7】【四十六点二】56.041.444.769.688.3【五十八点四】【56.0】[8][42.4]【39.0】【六十八点四】28.6【四十六点八】【70.8】【90.4】42.253.6LP-Net29.924.7【72.7】【四十六点八】[49.6]【七十二点九】【九十三点八】【65.0】【56.9】预训练是降低建模过拟合的风险的常用策略通过数据增强,BP4D上的平均F1帧已从55.2提高到56.5,并在VGGFace2上预训练模型时进一步提高到58.0 [6]。结果表明,数据扩充和模型预训练是提高AU检测性能的有效途径地方关系学习的有效性:为了说明局部信息和局部关系学习的有效性,我们首先通过从每个局部特征预测AU11924概率并将所有结果与均值池融合来进行实验。这种基线方法被称为Stem-Net+LF,它实现了比Stem-Net更好的平均F1帧58.8(见表3)。结果表明,局部特征对AU检测更具代表性。然而,直接融合所有的AU概率预测的局部特征与均值池忽略了不同的局部区域的局部关系。我们进一步将局部关系学习模块添加到Stem-Net(在表3中称为Stem-Net+L-Net)。平均F1框架从58.0提高到60.2,表明不同局部区域的关系对于AU预测是有用的,并且我们的L-Net对于建模这种信息是有效图5显示了AU 4和AU 23的一些示例类激活图[34],我们可以看到,通过使用拟议的L-Net,模型可以更多地关注相关区域有关的AU。我们进一步使用FAC-S中定义的不同AU的激活区域中该网络在表3中作为Stem-Net+FACS捐赠。从结果中,我们可以看到,通过关系学习,Stem-Net +FACS优 于 仅 使 用 局 部 特 征 进 行 AU 预 测 的 网 络 ( Stem-Net+LF),并实现了59.0的平均F1帧得分。这再次表明局部关系对于提高AU检测性能是有用的。同时,当我们考虑到所有的局部信息时,我们可以得到更好的结果。这表明使用所有的局部特征有助于AU检测。可能的原因是局部特征是从深层Stem-Net生成的,其包含用于AU检测的丰富信息。个人特定形状的有效性 正规化: 为了说明个人特定的形状正则化模块(P-Net)的有效性,我们进行了有和没有使用正则化损失Lr的实验。当不使用正则化损失时,平均F1帧可以从58.0提高到58.7,因为人脸形状信息被添加用于AU检测。如果我们添加正则化损失来分解AU特征和面部形状特征,则平均F1帧将被改善为11925表3:BP4D数据库上12个AU消融实验的F1帧评分(%)最好的和第二的分别用括号和粗体表示,以及单独用括号表示方法AU1AU2AU4AU6AU7 AU10 AU12 AU14 AU15 AU17 AU23 AU24Avg.ResNet-1842.330.337.174.172.481.983.657.134.254.537.031.152.9ResNet-3438.331.744.073.571.780.284.858.632.554.635.839.053.7ResNet-5038.231.140.373.669.780.582.955.129.156.237.136.052.5ResNet-34+SL38.634.046.972.073.079.884.560.738.760.033.041.555.2ResNet-34+SL/DA41.731.047.975.276.980.085.560.335.958.537.647.856.5ResNet-34+SL/DA/P41.337.749.8【七十七点一】75.681.886.461.741.158.142.443.558.0股骨柄-净股骨柄+LF40.536.248.076.277.482.686.062.842.860.3【46.0】46.758.8干细胞-净细胞+流式细胞仪41.0【三十九点九分】52.074.775.181.585.4【63.1】44.758.741.750.359.0Stem-Net+L-Net41.2【三十九点七】50.8【七十六点三】77.981.786.261.7【四十六点二】【62.1】45.553.2[60.2]Stem-Net缝线 +P-Net缝线,不带Lr42.336.150.375.8【七十八点三】82.4【八十六点八】61.5【四十六点六】60.742.541.558.7Stem-Net+P-Net【43.5】35.8[53.1]73.8【七十八点五】【83.1】85.658.543.0[62.4]43.7【56.3】59.8LP-Net【四十三点四】38.0[54.2] 【七十七点一】76.7【八十三点八】【八十七点二】【63.3】45.360.5[48.1] [54.2] 【61.0】SL:选择性学习平衡;DA:数据扩充;P:VGGFace 2上的预训练模型;LF:具有所有局部特征的AU检测;FACS:在由FACS限定的区域中具有局部特征的AU检测Stem-Net表示ResNet-34 + SL/DA/P。Stem-NetL-NetP-NetLP-Net5. 结论AU4(BrowLowerer)AU23(Lip(添加剂)图5:类激活图[34]显示了AU4和AU23的区分区域。Stem-Net、L-Net、P-Net和LP-Net的类激活图从左到右列出。前两行是AU4的激活图,底部两行是AU23的激活图。59.8,表明P-Net预测的正则化项在反映不同的基线AU强度方面是有用的。使用P-Net的类激活图[34]也如图所示。五、从激活图中,我们可以看到网络更有可能专注于P-Net的信息区域。当局部关系学习模块和个人特定形状正则化模块都包含在Stem-Net(LP-Net)中时,网络可以关注相关AU区域和相关面部区域(见图2)。5),因此能够实现更好的性能(平均F1帧为61.0)。11926由于个体受试者的表情强度的多样性以及由于姿势、照明等引起的面部外观的变化,在野外的鲁棒面部动作单元(AU)检测仍然是一个具有挑战性的问题。虽然人脸动作编码系统(FACS)已被证明是解决AU检测中模糊性的有效方法,但局部人脸区域的信息及其关系仍未被充分利用以实现鲁棒的AU检测。我们提出了一个新的端到端的可训练框架(LP-Net)AU检测,它由三个模块(Stem-Net,L-Net和P-Net)组成,分别用于共享特征学习,局部关系建模和个人特定形状正则化。所提出的方法在公共领域中两个广泛使用的AU检测数据集上优于最先进的方法。在我们未来的工作中,我们希望探索不同的方法来建模本地关系,例如,通过条件随机场[22],图卷积网络[29]等。此外,还将考虑覆盖不同尺度的学习特征。确认本研究得到了国家自然科学基金(61732004和61672496 ) 、 中 国 科 学 院 对 外 合 作 项 目 ( GJHZ1843)和中国科学院青年创新促进会(2018135)的部分资助。11927引用[1] Timur Almaev,Brais Martinez,and Michel Valstar.学习迁移:转移潜在的任务结构及其应用,以个人特定的面部动作单元检测。在procIEEE ICCV,第3774-3782页,2015年。二、三[2] 塔达斯·巴尔特鲁斯·艾提斯、马尔瓦·马哈茂德和彼得·罗宾逊。用于自动动作单元检测的跨数据集学习和特定于个人的标准化在Proc. IEEE FG,第1-6页,2015年。二三五[3] Tadas Baltrusaitis ,Peter Robinson ,and Louis-PhilippeMorency.约束局部神经场用于野外鲁棒的面部标志检测。在Proc. IEEE ICCV Work-shops,第354-361页,2013中。4[4] Marian Stewart Bartlett , Gwen Littlewort , Mark GFrank , Claudia Lainscsek , Ian R Fasel , Javier RMovellan,et al.自发性实验中面部动作的自动识别。JMultimed。,1(6):22-35,2006. 2[5] 卡洛斯·法比安·贝尼特斯-基罗斯,王燕,阿莱克斯·M·马蒂内兹。在具有深网和新的全局-局部损失的野生环境中识别行动单位。在Proc. IEEE ICCV,第3990-3999页,2017年。2[6] 曹琼,李申,谢伟迪,奥姆卡·M·帕克希,安德鲁·齐瑟曼.VGGFace2:用于识别姿势和年龄的人脸数据集在Proc. IEEE FG,第67-74页,2018年。六、七[7] Wen-Sheng Chu, Fernando De la Torre, and Jeffery FCohn.用于个性化面部动作单元检测的选择性转印机在Proc. IEEE CVPR,第3515-3522页,2013中。二、三[8] Ciprian Corneanu、Meysam Madadi和Sergio Escalera。用于面部动作单元识别的深层结构推理网络在Proc.ECCV,第298-313页,2018年。二三五六七[9] Abhinav Dhall , Amanjot Kaur , Roland Goecke , andTom Gedeon. 2018年12月:视听,学生参与和群体水平的影响预测。 在proc ICMI,第653- 656页,2018年。二、五[10] 保罗·埃克曼和埃里卡·L·罗森伯格。脸上流露出什么:使用面部动作编码系统(FACS)的自发表达的基础和应用研究。牛津大学出版社,1997年。第1、3条[11] 范 荣 恩 、 张 凯 威 、 谢 卓 瑞 、 王 祥 瑞 、 林 志 仁 。Liblinear:用于大型线性分类的库. J.马赫学习. Res. ,9(Aug):1871-1874,2008. 六、七[12] Robert S Feldman,Larry Jenkins,and Oladeji Popoola.通过面部表情检测成人和儿童的欺骗行为。儿童发展,第350-355页,1979年。1[13] 罗斯·格希克。快速R-CNN。在Proc. IEEE ICCV,第1440-1448页,2015中。二、四[14] Hu Han , Brendan F Kampton , Kathryn Bonnen , andAnil K Jain.将合成草图与人脸照片匹配:基于组件的方法。IEEE Trans. Inf. Forensics Se-curity,8(1):191-204,2013. 4[15] 韩世忠、孟子博、艾哈迈德-谢哈布汗、阎彤。用于面部动作单元识别的增量提升卷积神经网络。在Proc.NeurIPS,第109-117页,2016年。2[16] Emily M Hand,Carlos D Castillo和Rama Chellappa。尽我们所能做到最好:用于属性预测的多标签平衡与选择性学习。在procAAAI,2018年。 五、六[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功