联合人脸动作单元检测和人脸对齐

68 浏览量更新于2023-10-13 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

联合人脸动作单元检测和人脸对齐Zhiwen Shao1，ZhileiLiu2（）， Jianfei Cai3，and LizhuangMa4，1（）1上海交通大学计算机科学与工程系，中国2天津大学计算机科学与技术学院3新加坡南洋理工大学计算机科学与工程学院新加坡4华东师范大学计算机科学与软件工程学院上海shaozhiwen@sjtu.edu.cn，zhileiliu@tju.edu.cn，asjfcai@ntu.edu.sg，ma-lz@cs.sjtu.edu.cn抽象。面部动作单元（AU）检测和面部对准是两个高度相关的任务，因为面部界标可以提供精确的AU位置以便于提取用于AU检测的有意义的局部特征大多数现有的AU检测工作通常将人脸对齐作为预处理，并独立地处理这两个任务在本文中，我们提出了一种新的端到端深度学习框架，用于联合AU检测和人脸对齐，这在以前还没有被探索过特别地，首先学习多尺度共享特征，并且将面部对准的高级特征馈送到AU检测中。此外，为了提取精确的局部特征，我们提出了一个自适应注意力学习模块，以自适应地细化每个AU的注意力图最后，将组合的局部特征与人脸对齐特征和全局特征相结合进行AU检测。BP4D和DISFA基准测试的实验表明，我们的框架显着优于国家的最先进的AU检测方法。关键词：联合学习·人脸AU检测·人脸对齐·自适应注意学习1介绍面部动作单元（AU）检测和面部对齐是计算机视觉和情感计算领域中的两个重要的面部分析任务[13]。在大多数与人脸相关的任务中，人脸对齐通常用于定位cer。保持独特的面部位置，即标志，以定义面部形状或表情外观。面部动作单元（AU）是指面部动作编码系统（FACS）[5]定义的在某些面部位置处的一组独特的基本面部肌肉动作，其是用于描述面部表情的最全面和最客观的系统之一。考虑到人脸AU检测和人脸对齐是相互关联的，它们应该对每个人都有利2Zhiwen Shao，Zhilei Liu，Jianfei Cai，and LizhuangMa另一种是将它们放在一个联合框架中。然而，在文献中，很少看到这样的联合研究的两个任务。虽然大多数关于面部AU检测的先前研究[31，3]仅使用面部检测，但在最近的工作中已经采用了面部地标，因为它们可以提供更精确的AU位置并导致更好的AU检测性能。例如，Li et al.[10]提出了一种名为EAC-Net的基于深度学习的方法，通过增强和裁剪具有面部地标信息的感兴趣区域（ROI）来进行面部AU检测然而，他们只是将人脸对齐视为一种预处理，以确定具有固定大小和固定注意力分布的每个AU的感兴趣区域Wu等人。[23]试图利用级联回归框架同时利用人脸对齐和人脸AU检测，这是两项任务联合研究的开创性工作然而，这种级联回归方法仅使用手工特征，并且不基于流行的深度学习技术，这限制了其性能。在本文中，我们提出了一种新的基于深度学习的联合AU检测和人脸对齐框架，称为JAA-Net，以利用这两个任务的强特别地，首先学习两个任务的多尺度共享特征，并且提取面部对准的高级特征并将其馈送到AU检测中。此外，为了提取精确的局部特征，我们提出了一个自适应注意力学习模块来自适应地细化每个AU的注意力图，该注意力图最初由预测的面部地标指定最后，将组合的局部特征与人脸对齐特征和全局人脸特征相结合进行AU检测。整个框架是端到端的，没有任何后处理操作，并且所有模块都是联合优化的。本文的贡献有三个方面。首先，我们提出了一个端到端的多任务深度学习框架，用于联合面部AU检测和面部对齐。据我们所知，用深度神经网络联合建模这两个任务以前还没有做其次，在人脸对齐结果的帮助下，学习自适应注意力网络以确定每个AU的ROI的第三，我们在两个基准数据集上进行了广泛的实验，其中我们提出的联合框架显着优于最先进的，特别是在AU检测上。2相关工作我们提出的框架是密切相关的现有的地标辅助面部AU检测方法，以及面部对齐与多任务学习方法，因为我们结合了AU检测模型和面部对齐模型。地标辅助面部AU检测：大多数先前的面部AU识别工作的第一步是在面部检测或面部对准方法的帮助下检测面部[13，10，1]。特别地，考虑到测量基于地标的几何形状变化是鲁棒的，Benitez-Quiroz等人。[1]提出了一种融合几何和局部纹理信息的方法联合人脸动作单元检测与人脸对齐3AU检测，其中通过测量归一化的面部特征点距离和由特征点形成的Delaunay掩模的角度来获得几何信息。Valstar等人[21]分析了20个面部标志附近的Gabor小波特征，然后选择这些特征并通过Adaboost和SVM分类器进行分类，用于AU检测。Zhao等人[29，30]提出了一种联合补丁和多标签学习（JPML）方法，通过考虑补丁学习和多标签学习，用于面部AU检测，其中AU的局部区域被定义为以使用IntraFace [20]获得的面部地标为中心的补丁。最近，Li et al.[10]提出了用于面部AU检测的EAC-Net，通过使用粗略提取的面部地标信息增强和裁剪ROI。所有这些研究都证明了利用面部标志进行AU检测任务的特征提取的有效性。但是，它们都将人脸对齐作为一个单一的、独立的任务来处理，并利用现有的设计良好的人脸标志点检测器。人脸对齐与多任务学习：面部表情识别和面部对准的相关性已经在几个面部对准工作中被利用。例如，最近，Wu et al.[22]使用级联回归框架组合了面部对准、头部姿势估计和表情相关面部变形分析的任务Zhang等人[27，28]提出了一种任务约束深度卷积网络（TCDCN），以优化面部对齐和其他异构但微妙相关的任务之间的共享特征图，例如：头部姿态估计和包括表情的面部属性的推断。Ranjan等人[17]提出了一个名为HyperFace的深度多任务学习框架，用于同时进行人脸检测，人脸对齐，姿势估计和性别识别。所有这些工作表明，相关的任务，如面部表情识别有利于人脸对齐。然而，在TCDCN和HyperFace中，人脸对齐和其他任务只是简单地集成在一起，前几个层是共享的。相比之下，除了共享特征层，我们提出的JAA-Net还将面部对齐的高级表示馈送到AU检测中，并利用估计的地标来初始化自适应注意力学习。联合面部AU检测和面部对准：虽然面部AU识别和面部对准是相关的任务，但是它们的交互通常是上述方法中的一种方式，即，使用面部标志来提取用于AU识别的特征。Li等人[11]提出了一种具有动态贝叶斯网络的分层框架，以捕获面部地标跟踪和面部AU识别之间的联合局部关系。然而，该框架需要离线面部活动模型构建和在线面部运动测量和推断，并且仅考虑面部标志和AU之间的局部依赖性。受[11]启发，Wu et al.[23]试图利用全局AU关系，全局面部形状模式和全局之间的依赖关系4Zhiwen Shao，Zhilei Liu，Jianfei Cai，and LizhuangMa层转捩1×1×2n对齐监督损失结果演示全连接单元面部对准E对齐1×1×d全局特征学习地标预测分层多尺度区域学习初始注意力地图l×l×3AU注意ERAU预测精细化的注意力地图AU 1AU 41×1×2n金×局部AU特征学习CAU 10E欧AU 171×1×dAU和地标的级联回归框架，这是一个开创性的工作，为联合进程的两个任务。与使用手工制作的局部外观特征的这些传统方法相比，我们采用端到端深度框架来联合学习面部AU检测和面部对齐。此外，我们开发了一种深度自适应注意力学习方法，以探索由预测的面部标志指定的不同ROI中不同AU的特征分布。3基于JAA-Net的人脸AU检测和人脸对齐我们提出的JAA-Net的框架如图所示。1，它由四个模块组成（颜色不同）：分层和多尺度区域学习、面部对齐、全局特征学习和自适应注意力学习。首先，设计了分层多尺度区域学习算法作为JAA-Net的基础，提取不同尺度下局部区域的特征。其次，人脸对齐模块被设计用于估计人脸标志点的位置全局特征学习模块主要是获取整个人脸的结构和纹理特征。最后，自适应注意力学习被设计为AU检测的核心部分，使用多分支网络，自适应地学习每个AU的注意力图，以捕获不同位置处的局部AU特征人脸对齐、全局特征学习和自适应注意力学习三个模块共同优化，共享分层和多尺度区域学习的层。了图1.一、所采用的JAA-Netframework，其中“C”和“×”分别表示不连续运算和如示于图1，通过以l×l×3的彩色人脸作为输入，JAA-Net旨在同时实现AU检测和人脸对齐，并细化联合人脸动作单元检测与人脸对齐5l1×l 2×4c 1l 1×l 2×4c 1注意力地图的AU自适应。我们将JAA-Net的总体损失定义为E=Eau+λ1Ealign+λ2Er，（1）其中Eau和Ealign分别表示AU检测和面部对准的损失，Er测量注意力细化之前和之后的差异，这是保持一致性的约束，并且λ1和λ2是权衡参数。3.1分层多尺度区域学习考虑到人脸不同局部区域中的不同AU具有不同的结构和纹理信息，每个局部区域应该使用独立的滤波器进行处理。DRML [31]提出的区域层的滤波器权重仅在每个局部面部补丁内共享，而不是采用具有在整个空间域中共享的权重的普通卷积层，并且不同的局部补丁使用不同的滤波器权重，如图所示第2段（b）分段。然而，所有的本地补丁具有相同的大小，这是无法适应多尺度AU。为了解决这个问题，我们提出了分层和多尺度区域层来学习具有不同尺度的每个局部区域的特征，如图所示。第2段（a）分段。令Rhm（ll，l2，cl）、R（ll，l2，cl）和P（ll，l2，cl）分别表示我们提出的分层和多尺度区域层、区域层[31]和普通堆叠卷积层的块，其中l1×l2×cl的表达式表示层的高度、宽度和通道分别为l1、l2和cl图2中的表达式3× 3/ 1/1表示每个卷积层的过滤器的高度，宽度，步幅和填充分别为3，3，1和1（b）区域层的块[3](a) 分层和多尺度区域层的块（c）普通堆叠卷积层的块了图二、用于区域排序的差分块的一个实例，其中“C”和“+”如图图2（a）中，我们提出的分层和多尺度区域层的一个块包含一个卷积层和另外三个分层卷积层3×3/1/1层过渡l1×l 2×c1l1×l 2×4c1l1×l 2×c1C+的l1×l 2×2c1l1×l 2×4c 1l 1×l 2×4c 1+6Zhiwen Shao，Zhilei Liu，Jianfei Cai，and LizhuangMaO卷积层具有不同大小的权重共享区域。具体地，第二、第三和第四卷积层的均匀划分的8× 8、4× 4和2× 2块通过连接第二、第三和第四卷积层的输出，我们提取了具有与第一卷积层相同数量的通道的分层和多尺度特征。此外，还利用残差结构来将分层和多尺度映射与第一卷积层的那些逐元素地求和，以用于学习过完备特征并避免消失梯度问题。与DRML的区域层不同，我们提出的分层和多尺度区域层使用多尺度分区，这有利于以较少的参数覆盖不同大小的ROI中的各种在JAA-Net中，分层和多尺度区域学习的模块由Rhm（l，l，c）和Rhm（l/2，l/ 2，2c）组成，其中的每一个之后是最大池化层。这个模块的输出被命名为在JAA-Net中，每个最大池化层的过滤器大小为2×2/ 2/ 0，每个卷积层使用批量归一化（ BN）[7]和整流线性单元（ReLU）[16]操作。3.2面部对准面部对准模块包括P（1/4，1/ 4，3c ）、P（1/8，1/ 8，4c）和P（1/16，1/ 16，5c）的三个连续卷积层，每个卷积层与最大池化层连接如图1，该模块的输出被馈送到具有两个完全连接的层的特征点预测网络中，所述两个完全连接的层分别具有维度d和2nalign，其中nalign是面部特征点的数量。我们将面部对齐损失定义为E对齐=12d2nΣalignj=1[（y2j−1−y（2j−1）2+（y2j−y（2j）2]，（2）其中，y2j−1和y2j表示图像和标记的真实x坐标和y坐标，y2j−1和y2j表示在ding预处理的图像上的校正，do是用于归一化的真实眼间距离[18]。3.3自适应注意学习图3示出了所提出的自适应注意力学习的架构。它包括两个步骤：AU注意力细化和局部AU特征学习，其中第一步是分别用分支细化某个AU的注意力图，第二步是学习和提取局部AU特征。AU注意力细化步骤的输入和输出分别是注意力图的初始化和细化结果。每个AU具有与大小为1/4×1/ 4× 1的整个面部相对应的注意力图，其中预定义ROI和剩余区域的注意力分布都被细化。的联合人脸动作单元检测与人脸对齐7卷积层最大池化层层转换模块输出注意力生成l/4×l/4×1（l/4+6）×（l/4+8）×（l/4+8）×1（l/4+2）×l/8× l/8×12 c l/16× l/16×16 cl/32×l/32×20 cl/4×l/4×1l/4×l/4×12cS（C（S（.）×new_pool2地标和AU中心（l/4+4）×l/8×l/8×16c l/16×l/16×20cl/4×l/4×8c×+的C（S（.））l/4×l/4×8c池2AU 1AU 2AU 4AU 6AU 7AU 10AU AU第12、14、15页AU AU AU23，24×分层多尺度区域学习AU注意力优化局部AU特征学习了图3.第三章。所述预处理和预处理的历史过程。由于对称性，每个AU的预定义ROI具有两个AU中心，每个AU中心是子区域的中心点。特别地，使用由[10]提出的规则，通过估计的面部标志来预定义对于第i个AU，如果注意力图的第k个点在预定义ROI的子区域中，则其注意力权重被初始化为dikξv=max{ 1-， 0}，i=1，···，n、（3）ik（l/4）ζau其中，dik是该点到子区域的AU中心的曼哈顿距离，n是子区域的宽度与注意力图之间的比率，n≥0是系数，nau是AU的数量。当量(3)实质上表明，当ROI点远离AU中心移动时，注意力权重正在衰减。在Eq.(3)是确保vik∈[0， 1]。如果一个点属于两个子区域的重叠，则将其设置为所有其相关联的初始注意力权重的最大值。注意，当ξ= 0时，子区域中的点的关注权重变为1。子区域之外的任何点的注意力权重被初始化为0。考虑到在分层和多尺度区域学习模块的每个卷积层中使用填充，输出“pool2”可能对局部AU特征学习造成损害。为了消除填充的影响，我们提出了一个填充去除过程C（S（M，α），β），其中S（M，α）是使用双线性插值[2]以缩放系数α缩放特征图M的函数，并且C（M，β）是以比率β围绕其中心裁剪特征图M以保持其原始宽度的函数。填充移除过程首先缩放α>1的特征图，然后裁剪它。具体地，初始注意力图和“pool2”由C（S（·，（1/4+6）/（1/4）），（1/4）/（1/4+6））形成，其中“pool2”的结果输出被命名为“新的pool2”，如图1所示。3.第三章。避免8Zhiwen Shao，Zhilei Liu，Jianfei Cai，and LizhuangMak=1在AU注意力细化序列中卷积层的填充的影响下，对于具有S（·，（1/4+8）/（1/4））的区域，初始化映射是有效的。在滤波器大小为3 × 3/1/0的三个卷积层之后，第四个卷积层输出细化的AU注意力图。请注意，除了注意力细化步骤中的卷积层之外，JAA-Net中所有卷积层的过滤器都设置为3 ×3/1/1。为了避免细化的注意力图偏离初始注意力图，我们引入以下约束用于AU注意力细化：naunEr=−i=1k=1[viklogvik+（1−vik）log（1−vik）]，（4）其中，rev ik是针对A U的k-t个点的精确位置，并且nam= l/4×l/4是每个注意力图中的点的数量。当量（4）本质上测量细化的注意力图和初始注意力图之间的S形交叉熵AU注意力细化步骤的参数经由来自Er以及AU检测损失Eau的反向传播梯度来学习，其中后者起关键作用。为了增强来自AU检测的监督，我们提出了一种反向传播增强方法，其公式为Eau←λV中国（5）V当Vi={vik}nam，且λ3≥1时，则为非线性系数。通过根据Eau的梯度，注意力图被执行更强的自适应细化。最后，在将“new pool2”与每个注意力图相乘以提取局部AU特征之后相对于每个AU的ROI的局部特征被学习，并且所有AU的输出特征图被逐元素地求和，其中组装的局部特征表示然后将有助于最终的AU检测。3.4面部AU检测如示于图1中，将人脸对齐、全局特征学习和自适应注意力学习三个模块的输出特征图联系在一起，并分别馈送到维度为d和2n au的两个全连接层的网络中。以这种方式，地标相关特征、全局面部特征和局部AU特征被集成在一起以用于面部AU检测。最后，利用softmax层来预测每个AU的出现概率。注意，全局特征学习模块具有与面部对准模块相同的结构。3联合人脸动作单元检测与人脸对齐9nau（1/ri）面部AU检测可以被视为具有以下加权多标签softmax损失的多标签二元分类问题：1Esoftmax= −nΣnauwi[pilogpi+（1−pi）log（1−pi）]，（6）aui=1其中，pi表示第i个AU的真实发生概率，其中，i i是真实发生概率，并且i不是真实发生概率。在Eq.(6)解决数据不平衡问题。对于大多数面部AU检测基准，AU的发生率是不平衡的[13，12]。由于AU不是相互独立的，不平衡的训练数据对这种多标签有不良影响学习任务特别地，我们设置wi=（1/ri）naui=1，其中r为是发生训练集中第i个AU的速率在某些情况下，一些AU很少出现在训练样本中，softmax损失通常使网络预测强烈偏向于不存在。为了克服这种限制，我们进一步引入加权多标签Dice系数损失[15]：E骰子=1新欧Σnauw（1−2pipi+），（7）ip2+p2+i=1其中是平滑项。骰子系数也称为F1分数：F1 = 2 pr/（p + r），用于面部AU检测的最流行的度量，其中p和r分别表示精确度和召回率。在加权Dice系数损失的帮助下，我们还考虑了学习过程和评估度量之间的一致性。最后，AU检测损失被定义为Eau = Esoftmax + Edice。（八）4实验4.1数据集和设置数据集：我们的JAA-Net在两个广泛使用的面部AU检测数据集上进行评估，即[14]和BP 4D [26]，其中提供了AU标签和面部标志。- BP4D包含41名参与者，其中23名女性和18名男性，每个参与者都参与了8个2D和3D视频拍摄的会话大约有140，000帧带有发生或不存在的AU标签。每个帧还用SDM [24]检测到的49个标志进行注释与[31，10]的设置类似，使用具有相同受试者划分规则的受试者排除3折交叉验证来评估12个AU，其中两个折用于训练，剩余一个用于测试。- DISFA由12名女性和15名男性录制的27个视频组成，每个视频有4， 845帧。每个帧都用从0到0的AU强度进行注释10Zhiwen Shao，Zhilei Liu，Jianfei Cai，and LizhuangMaAAM检测到5和66个标志[4]。为了与BP4D一致，我们使用49个地标，66个地标的子集。在[31，10]的设置之后，我们的网络使用来自BP4D的经过良好训练的模型进行初始化，并使用DISFA上的主题专用3倍交叉验证进一步微调到8个AU。强度等于或大于2的帧被认为是正的，而其他帧被视为负的。实现细节：对于每个人脸图像，我们执行相似性变换，包括旋转，均匀缩放和平移，以获得200 ×200 × 3彩色人脸。这种变换是保形的，不会改变表达式。为了增强训练数据的多样性，变换后的人脸被随机裁剪为176×176并水平翻转。我们的JAA-Net使用Caffe [8]和随机梯度下降（SGD）进行训练，小批量大小为9，动量为0。9，权重衰减为0。0005，且= 1。学习率乘以因子0。每2个时期3个JAA-Net的结构参数为l = 176，c = 8，d = 512，nalign= 49，BP 4D的nau为12，DISFA的nau为8。 ζ = 0。14，且n = 0。56在Eq.（3）用于为AU的预定义ROI的子区域生成通过交叉验证获得超参数λ1、λ2和λ3在我们的实验中，我们设置λ2= 10−7和λ3= 2。JAA-Net首先使用8个epoch优化的所有模块进行训练，初始学习率为0。01用于BP4D和0. 001，λ1= 0。5. 接下来，我们固定分层和多尺度区域学习、全局AU特征学习和自适应注意力学习三个模块的参数，并训练λ1= 1的人脸对齐模块最后，在固定其他模块参数的情况下，仅训练全局AU特征学习和自适应注意学习模块最后两个步骤的时期数和初始学习率都被设置为2和0。001，分别。虽然面部AU检测和面部对准这两个任务是逐步优化的，但是这两个任务的损失的梯度在每个步骤中相互反向传播。评估指标：两个任务的评估度量选择如下。- 面部AU检测：类似于先前的方法[31，10，9]，报告了基于帧的F1分数（F1帧，%）。为了进行更全面的比较，我们还评估了EAC-Net[10]使用的准确度（%）的性能。此外，我们计算所有AU的平均结果（Avg）。在下面的部分中，为了简单起见，我们在所有结果中省略了%。- 面对齐：我们报告了由眼间距离归一化的平均误差，并将大于10%的平均误差视为失败。换句话说，我们在两个流行的指标上评估不同的方法[28，19]：平均误差（%）和失败率（%），其中%也在结果中省略。4.2与最新方法的我们将我们的方法JAA-Net与最先进的基于单图像的AU检测在相同的3倍交叉验证设置下进行这些冰毒联合人脸动作单元检测与人脸对齐11ods包括传统方法，LSVM [6]，JPML [30]，APL [32]和CPM [25]，以及深度学习方法，DRML [31]，EAC-Net [10]和ROI [9]。注意，由于其输入图像序列而不是单个图像，因此不比较ROI [9]的LSTM扩展版本。为了进行公平的比较，我们使用[31，3，10]中报道的LSVM，JPML，APL和CPM的结果。表1. F1-BP 4D上12 AU的帧和精度。由于CPM和ROI不报告精度结果，因此我们仅显示其F1帧结果AUF1-框架精度LSVM JPML DRML CPM EAC网络ROIJAA-Net LSVM JPML DRML EAC网络 JAA-Net123.2 32.6 36.4 43.439.036.247.220.7 40.7 55.768.974.7222.8 25.6 41.8 40.735.231.644.017.7 42.1 54.573.980.8423.1 37.4 43.0 43.348.643.454.922.9 46.2 58.878.180.4627.2 42.3 55.0 59.276.177.177.520.3 40.0 56.678.578.9747.1 50.5 67.0 61.372.973.774.644.8 50.0 61.069.071.01077.2 72.2 66.3 62.181.9 85.084.073.4 75.2 53.677.680.21263.7 74.1 65.8 68.586.2 87.086.955.3 60.5 60.884.685.41464.3 65.7 54.1 52.558.862.661.946.8 53.6 57.060.664.81518.4 38.1 33.2 36.737.5 45.743.618.3 50.1 56.278.183.11733.0 40.0 48.0 54.359.158.060.336.4 42.5 50.070.673.52319.4 30.4 31.7 39.535.938.342.719.2 51.9 53.981.082.32420.7 42.3 30.0 37.835.837.441.911.7 53.2 53.982.485.4Avg 35.3 45.9 48.3 50.055.956.460.032.2 50.5 56.075.278.4表1报告了BP4D上不同方法的F1帧和准确度结果可以看出，我们的JAA-Net在具有挑战性的BP 4D数据集上的表现优于所有这些先前的工作JAA-Net优于所有传统方法，这证明了基于深度学习的方法的优势与最先进的ROI和EAC-Net方法相比，JAA-Net带来了6的显著相对增量。38%，7。平均F1帧分别为33%此外，我们的方法在不牺牲F1帧的情况下获得了高精度，这归因于softmax损失和Dice系数损失的集成DISFA数据集上的实验结果如表2所示，从中可以看出，我们的JAA-Net优于所有最先进的作品，甚至有更显着的改进。具体而言，JAA-Net将平均F1帧和准确性相对提高了15。46%和15。01%，分别超过由于在DISFA中存在严重的数据不平衡问题，在大多数以前的方法中，不同AU的性能例如，AU12的精度远远高于LSVM和APL的其他AU虽然EAC-Net明确地处理了不平衡问题，但其对AU 26的检测相比之下，我们的方法加权每个AU的损失，这有助于每个AU的平衡和高检测12Zhiwen Shao，Zhilei Liu，Jianfei Cai，and LizhuangMa表2. F1-DISFAAUF1-框架精度LSVM APL DRML EAC网络 JAA-Net LSVMAPLDRML EAC网络 JAA-Net110.8 11.4 17.341.543.721.6 32.7 53.385.693.4210.0 12.0 17.726.446.215.8 27.8 53.284.996.1421.8 30.1 37.466.456.017.2 37.9 60.079.186.9615.7 12.4 29.050.741.48.713.6 54.969.191.4911.5 10.1 10.780.544.715.0 64.4 51.588.195.81270.4 65.9 37.789.369.693.8 94.2 54.690.091.22512.0 21.4 38.588.988.33.450.4 45.680.593.42622.1 26.9 20.115.658.420.1 47.1 45.364.893.2Avg 21.8 23.8 26.748.556.027.5 46.0 52.380.692.74.3消融研究为了研究我们的框架中的每个组件的有效性，表3呈现了BP 4D基准上的JAA-Net的不同变体的平均F1帧，其中“w /o”是“w it hou t”的抽象。每个变量由我们框架的不同组件组成表3.BP 4D上JAA-Net的不同变体的平均F1帧R：区域层[31]。HMR：分层和多尺度区域层。S：多标签softmax丢失。D：多标签Dice系数损失。W：加权每个AU的损失FA：面部对准模块。GF：全局特征学习模块。LF：LocalAU feature learning。AR：AU注意力细化。BE：反向传播增强。GA：近似高斯注意力分布的子区域的预定义的ROI。UA：ξ= 0的预定义ROI的子区域的均匀方法R HMR S D W FA GF LF AR 被 GA UA AvgR-net√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√54.9HMR-Net55.8HMR-Net+D56.6HMR-Net+DWHMR-Net+DWA JAA-NetJAA-Net w/oAR JAA-Netw/o BEJAA-Net，不带GA√√√√√√√√√√√√√√√√√√√57.458.060.057.459.157.3分层和多尺度区域学习：比较HMR-Net与R-Net的结果，我们可以观察到我们提出的分层和多尺度区域层提高了AU检测的性能，因为它可以适应多尺度AU并获得比区域层更大的感受野[31]。除了更强的特征学习能力之外，分层和多尺度区域层使用更少的参数。具体来说，除了共同的第一联合人脸动作单元检测与人脸对齐311AU 1 AU 2 AU 4 AU 6 AU 7 AU 10 AU 12 AU 14 AU 15 AU 17 AU 23 AU 241.00.80.60.40.20.0卷积层R（ l1， l2， c1）的参数为（3×3×4c1+ 1）×4c1×8×8= 9216c2+256c1，而Rm（l1，l2，c1）的参数为（3 × 3 × 4c1+ 1）× 2c1× 8 ×8+（3 × 3 × 2c1+ 1）× c1× 4 × 4+（3 × 3 × c1+ 1）× c1× 2 × 2 =4932c2+ 148c1其中加1对应于卷积滤波器的偏置Softmax损失和骰子系数损失的集成：通过将softmax损失与Dice系数损失相结合，HMR-Net+D实现了比HMR-Net更高的F1帧结果。这得益于Dice系数损失，其从F1得分的角度优化网络Softmax损失对于分类是非常有效的，但面部AU检测是一个关注精确度和召回率的二元分类问题。损失权重：在对每个AU的损失进行加权之后，HMR-Net+DW比HMR-Net+D获得更高的平均F1帧。受益于加权，以解决数据不平衡的问题，我们的方法获得更显着和平衡的性能。人脸对齐对 AU 检测的贡献：与 HMR-Net +DW 相比， HMR-Net+DWA直接加入人脸对齐任务，取得了更好的效果。当通过与自适应注意力学习模块相结合来更深入地集成这两个任务时，我们的JAA-Net以更大的差距提高了性能。这表明与面部对齐的联合学习有助于AU检测。图4.第一章JAA-Net的注意力地图可视化第一行和第三行示出了预定义的注意力图，并且第二行和第四行示出了细化的注意力图。注意力权重以不同的颜色可视化，如颜色条所示自适应注意力学习：在表3中，JAA-Net w/o AR、JAA-Net w/o BE和JAA-Net w/o GA是JAA-Net的自适应注意力学习的变体。可以观察到，与其他三个变体相比，JAA-Net实现了最佳性能每个AU的预定义注意力图针对预定义ROI的子区域使用固定的大小和注意力分布，并且完全忽略ROI之外的区域，这使得JAA-Net w/o AR无法适应具有不同尺度的AU并利用不同面部部分之间的相关性JAA-Netw/o GA提供了具有统一初始化的预定义ROI，14Zhiwen Shao，Zhilei Liu，Jianfei Cai，and LizhuangMa使得Er的约束更难以与来自Eau的反向传播梯度进行权衡。此外，JAA-Net w/o BE的性能可以进一步提高与反向传播增强。JAA-Net的自适应细化之前和之后的注意力图在图中可视化。4.每个AU的细化的注意力图自适应地调整ROI的大小和注意力分布，其中学习的ROI具有不规则的形状并且与周围区域平滑地集成。此外，在其他面部区域中的低关注度有助于利用不同面部部分之间的相关性。利用自适应定位的ROI，可以很好地捕获关于AU的局部特征。虽然不同的人有不同的面部形状和表情，我们的JAA-Net可以检测每个AU的ROI准确和自适应。表4. BP4D上不同方法的平均误差和失败率结果的比较方法JAA-Net不含AUHMR-Net+ DWAJAA-Net不含ARJAA-Net不含BEJAA-Net不含GAJAA-Net平均误差故障率12.2366.8511.8665.8412.3253.489.2134.4614.1476.046.383.27AU检测对人脸对齐的贡献：表4显示了JAA-Net和其他变体在BP4D基准测试中的平均误差和失败率的结果。JAA-Net w/o AU表示去除AU检测的单个人脸对齐任务可以看出，JAA-Net实现了最小的平均误差和故障率。可以得出结论，AU检测任务也有利于人脸对齐。注意，面部对准模块可以被替换为更强大的模块，这可以进一步提高面部对准和AU检测的性能。5结论在本文中，我们开发了一种新型的端到端深度学习框架，用于联合AU检测和人脸对齐。这两个任务的联合学习通过共享特征和使用面部对齐结果初始化注意力图来相互促进此外，我们提出了自适应注意学习模块，以本地化感兴趣区域的AU自适应，以提取更好的局部特征。大量的实验已经证明了我们的方法的有效性AU检测和人脸对齐。该框架也有望应用于其他人脸分析任务和其他多任务问题。致谢。本工作得到国家自然科学基金项目（ No. 61503277 号61472245）、上海市科学技术委员会项目（编号：16511101300），以及数据科学人工智能研究中心@NTU（DSAIR）和新加坡电信-NTU认知人工智能联合实验室（SCALE@NTU）。联合人脸动作单元检测与人脸对齐5引用1. 贝尼特斯-基罗斯，C.F.，斯里尼瓦桑河马丁内斯上午等：Emotionet：一种精确、实时的算法，可以自动标注野外一百万个面部表情。IEEE计算机视觉与模式识别会议。pp. 5562-5570 IEEE（2016）2. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。IEEETransactions on Pattern Analysis and MachineIntelligence40（4），8343. Chu，W. S.，De la Torre，F.，科恩，J.F.：学习空间和时间线索用于多标签面部动作单元检测。在： IEEE 国际会议上 Au-tom-maticFace&GestureRecognition。pp. 25-32 IEEE（2017）4. 库茨TF爱德华兹，G.J.，泰勒，C.J.：活动外观模型。IEEE Trans-actionso nPater nA nalysis andMac hi neIntellige nce23（6），6815. 埃克曼，P.，Rosenberg，E.L.：脸上流露出什么：使用面部动作编码系统（FACS）的自发表达的基础和应用研究。牛津大学出版社，美国（1997）6. Fan ， R.E. ， Chang ， K.W. ， Hsieh ， C.J. ， Wang ， X.R. ， Lin ， C.J. ：Liblinear ：一个用于自动分类的库。 JournalofMachineLearningResearch9（Aug），18717. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ International Conference on MachineLearning）pp. 4488. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J格尔希克河瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构。在：一个CMI mter natinenatinat pp. 675-678 ACM（2014）9. 李伟，Abtahi，F.，Zhu，Z.：结合区域自适应、多标记学习和最佳时间融合的动作单元检测。在：IEEE计算机Visin和Pater nRec gnitin会议上。pp.6766-6775 IEEE（2017）10. 李伟，Abtahi，F.，Zhu，Z.，Yin，L.：Eac-net：一种基于区域的深度增强和裁剪方法，用于面部动作单元检测。 In ： IEEE International Confer-enceonAutomaticFace&GetureRecognition. pp. 103-110 IEEE（2017）11. 李，Y.，王，S.，赵玉，Ji，Q.：同时进行面部特征跟踪和面部特征还原。IEEETransacti onsonImageProcessing22（7），255912. 刘志，宋，

下载后可阅读完整内容，剩余1页未读，立即下载