面部动作单位检测的混合网络与注意力机制的研究

37 浏览量更新于2023-10-16 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6019×FAN-Trans：用于面部动作单元检测的景阳1号gmail.com沈杰2imperial.ac.uk林一鸣2yl1915@ic.ac.uk约尔丹·赫里斯托夫yshristov@gmail.comMaja Pantic2maja. gmail.com1英国诺丁汉大学2英国伦敦帝国理工学院摘要由于面部动作单位检测在面部行为分析中的重要性，其研究受到了越来越多的关注。利用在线知识提取框架，我们提出了我们的模型包括卷积和Transformer块的混合网络，用于学习每个AU的特征并对AU同现进行建模。该模型使用预先训练的人脸对齐网络作为特征提取器。在通过一个小的可学习的附加卷积子网进行进一步变换之后，每个AU的特征被馈送到Transformer块中以增强它们的表示。由于多个AU经常一起出现，我们在Transformer块中提出了一种可学习的注意力下降机制，以学习不同AU的特征之间的相关性。我们还设计了一个分类器，通过考虑所有AU最后，我们尝试在训练阶段采用在线知识提取在BP4D和DISFA数据集上的实验证明了该方法的有效性。1. 介绍在面对面的交流中，面部行为是一种自然而有效的传达情绪、情感和精神状态的方式。由于其在人机交互、数字营销、心理学和行为学研究等方面的巨大潜力，人脸行为自动分析已经引起了学术界和工业界越来越多的关注。在各种表征中，面部动作单位（AU）提供了最全面、最具表现力和最客观的面部行为描述符。它们是根据人脸的解剖结构在肌肉运动上定义的。因此，稳健的AU检测†通讯作者。图1.通过Score-CAM可视化FAN-Trans的注意力地图结果是通过将目标层放置在分辨率4 4上来实现的。从上到下，每一行表示一个输入图像，它的空间注意力和激活的动作单元。FAN-Trans在面部组件处显示出潜在的高浓度，这表明其能够在不使用显式注意力模块[8]或手动区域分配[22，11]的情况下例如，AU1和AU2强调眉毛，AU7在眼睛周围，而AU24突出嘴巴。方法在面部行为理解中是重要的。在面部动作编码系统（FACS）中，AU是通过外观变化（即，几何形状、纹理）。这些变化是微妙的、局部的和相互关联的。例如，由于潜在的面部解剖结构，AU1和AU2通常一起出现，因为它们由相同的肌肉控制为了与该区域对齐，期望网络设计捕获局部AU特征并考虑AU同现的性质。人脸标志，代表人脸上的语义关键点，被识别为AU活动位置。它们通常用于裁剪 AU 的感兴趣区域（ROI）[35，33，3]，以减少不相关面部区域的干扰然而，即使在将面部对准到公共参考帧之后，由于头部姿势和视图变化，精确的AU定位仍然是一个挑战因此，我们建议从预训练的面部地标检测器中提取中间表示用于AU特征学习。由于性质6020在人脸对齐任务中，这些特征是人脸特定的和地标性的。为了考虑AU同现，之前的作品使用独立模块来显式地对不同AU之间的标签或特征相关性进行建模[27，25，11]。最近，受Transformer网络在学习图像分类任务中的远距离块之间的相关性方面的有效性的激励基于这个想法，我们进一步引入了一个可学习的二进制注意模块的Transformer块，以提高其能力。这导致更具区分性的AU特征。种子工程[35，3，17，18，11，22，8]致力于解决上述问题的架构或损失设计，但据我们所知，没有人试图使用在线知识蒸馏（OKD）来改善学习过程对于AU检测，没有高容量模型是现成的，因为增加参数的数量不一定会导致更高的准确度，这是由于训练数据量有限导致的过度拟合问题为了解决这个问题，我们建议在我们的方法中使用OKD [30，31，10，12]。与两阶段知识蒸馏[7]相比，OKD可以提高模型的准确性，而不需要预先训练的教师。它在诸如对象分类[10，2]、人体姿态估计[12]等任务中取得了令人印象深刻的结果，但尚未在面部AU检测的背景下进行探索。为此，我们将AU检测任务制定为在线知识蒸馏框架内的多标签分类问题。使用预先训练的面部对齐网络作为特征提取器，我们只添加一个小的子网来学习每个AU的特征，因为面部对齐网络产生的中间特征图已经提供了丰富的形状和上下文信息。为了对AU同现进行建模，我们在Transformer块中的自注意模块上提出了一种可学习的注意力下降机制，并通过降低AU特征之间的同质性来显着提高模型的性能。此外，我们分析了两个分类器，一个预测每个AU最后但并非最不重要的是，我们在训练阶段应用具有不同分类器的OKD框架，以进一步提高模型我们的方法，创造了FAN-Trans，在公共基准上实现了新的最先进的性能。FAN-Trans学习的注意力地图的可视化如图1所在没有为不同AU明确分配ROI的情况下[8，22，11]，FAN-Trans可以仅基于来自AU标签的监督来学习关注哪里本文的主要贡献如下。1. 据我们所知，我们是第一个采用OKD与不同的同行设计的AU检测，提高其性能通过集成学习。2. FAN-Trans不是手动将预定义的区域分配给不同的AU，而是建立在预先训练的多尺度面部对齐特征的基础上，以自动学习AU与底层面部部位之间的空间对应关系。3. 我们建议同时利用特征和标签识别来解决AU检测任务。在特征方面，我们设计了一个Transformer模块，该模块使用可学习的二进制掩码来学习AU的子连接;对于标签，我们设计了一个分类器来预测单个AU对所有AU特征的激活。4. 通过大量的实验，我们证明了我们提出的方法在两个广泛使用的基准数据集上的有效性：BP4D[32]和DISFA [14]。2. 相关作品区域特征表示由于AU在FACS [6]中被定义为面部上的肌肉激活，因此AU检测任务可以被公式化为在面部标志周围提取的早期的作品使用手工制作的特点。[33]中的典型流程是首先对齐裁剪面，然后在地标周围的预定义补丁中提取手工特征，最后通过融合纹理特征与地标坐标形成的几何特征来最近，深度模型已被广泛用于捕获AU检测的局部外观变化例如，Zhaoet al.[35]设计了一个区域层来诱导特定的面部区域来识别不同的AU。Shao等人[18]开发了一个端到端的多任务框架来联合进行AU检测和人脸对齐，并使用热图来预先定义ROI，并在模型优化中进一步细化上述工作将AU检测与ROI特征相关联，这已经被证明对于AU检测是非常基于这一见解，我们建议从预先训练的人脸对齐模型中提取信息丰富的人脸形状和上下文先验，并让网络在优化过程中自动分配AU特征。AU共现建模由于潜在的面部解剖结构，不同AU的激活通常是相关的。因此，代替独立地检测每个AU，学习AU的同现可以被并入到网络设计中，或者作为独立的细化步骤。一些作品[27，25]通过在概率图模型的初始预测上附加一个显式模块来实现它例如，早期的尝试[27]利用受限的玻尔兹曼机来学习AU关系。类似地，[25]在全连接层输出的顶部附加了条件随机场，以强制AU de-6021LL图2.FAN-Trans概述在训练阶段，首先，将人脸图像馈送到预训练的人脸对准模型中以提取特征图Fa。其次，将Fa通过卷积模块以学习紧凑特征表示Fc。然后，将Fc重新整形并转置为一个向量序列，并通过线性变换将其投影为一组AU特征Fau。Fau被馈送到具有不同分类器Co2 o和Co2 m的两个Transformer分支以得到预测Po和Pm。总体目标Pt是Po和Pm的加权（W1，W2）组合。最后，所有可学习的参数优化的三个分类损失cls和两个知识蒸馏损失kd。请注意，只有一个单一的路径仍然在推理时间。虚线所示的所有辅助模块在培训后都将被丢弃。通过这样做，区域特征学习，AU发生建模，有效的训练技术集成到一个端到端的可训练管道。悬垂性其他人[11，8]专注于学习AU之间的语义相关性。例如，SRERL [11]以离线方式将AU特征馈送到建立在定义的知识图最近，TransAU [8]将Transformer [5]引入到面部AU检测任务中，因为它在捕获远距离斑块之间的依赖性方面具有特定功效。我们的方法使用了Transformer，但我们更进一步，通过在自我注意力模块中使用可学习的下降注意力来区分AU特征。此外，我们的Transformer网络是用自动学习的AU特征来训练的，而不是从预定义的ROI中裁剪的特征。与使用预先训练的高容量教师网络来指导低容量学生学习的vanilla KD [7]不同，OKD中没有显式的教师网络。OKD的一个类别是用共享类似网络配置的学生的总体输出进行训练。例如，ONE [10]是构建单个多分支网络的先驱，让每个分支在分类任务中从集合分布中学习。这个想法在相同或异构的设置中得到了扩展因此，我们的模型是在AU识别的特定背景下OKD的实例。我们通过增加对等点的分歧来进一步最大化OKD的容量3. FAN-Trans所提出的FAN-Trans的架构如图2所示本节将详细描述每个组件及其背后的原理。3.1. 地标注意特征提取面部标志表示人脸的语义显著区域。鉴于AU存在于面部标志周围的局部区域中，先前的方法[35，11]使用标志来识别AU的ROI在这种分配中可以观察到三个缺点：额外的时间成本、对地标精度的敏感性以及难以接受未注册的AU。为了避免这些，我们从预先训练的面部地标模型中获取中间特征，并在其上学习AU嵌入。具体地说，我们利用基于堆叠沙漏的FAN [15，1]模型来实现此目的，该模型已被探索为面部识别[28]和面部情感识别[23]的特征提取器。FAN被训练用于使用热图（在关键点处达到峰值的高斯圆）的地标定位，作为对覆盖全方位姿势的大型面部数据语料库的监督与在ImageNet上训练的模型不同，分类任务是通用的（即，不特定于面部）和粗糙的FAN特征（1）捕获面部的更细粒度的方面-面部对齐任务的直接结果;（2）对外观变化具有鲁棒火车测试在输出包络权重生成器W1CFCConv重塑）不W2Ll（L$%256T22布勒姆T1Ll（10%$（#整形转置地标注意力特征源HM在......LFH1H2$10%&出来Transformer模块Transformer模块Conv风扇卷积模块中国$321ConvBlockConvBlockConvBlockConvBlock1x1Conv2566022∈∈∈∈∈∈∈∈××∈∈×√∈∈从姿势，照明，颜色作为模型的动作是在各种各样的面部姿势上预先训练的;（3）与AU检测紧密对齐-具有AU区域的良好定位与更高的AU准确度相关。如图2所示，我们通过组合来自预训练FAN的中间特征（LF，H1，H2）和热图（HM）来获得AU特征的源。特别地，我们首先将热图聚合到单个平面，然后将其与倒数第二层的输出（H1，H2）相乘我们使用“a”作为子脚本来表示来自FAN的特征。F、D、H、W描述了特征张量，以及它的通道、高度、宽度的关系. 为了简洁起见，我们去掉了批量大小的符号3.2. 卷积与变换模块的混合网络基于AU定义，一个成功的AU检测器应该学习AU活动区域周围的特征，并考虑AU同现的性质。我们使用混合卷积+Transformer结构来学习AU特征，其中卷积是从Fa获得抽象的面部表示，而Transformer [29，13]是学习特征空间中的AU同现。如图2所示，卷积模块由几个卷积层组成：一个1 ×1卷积层，以将沟道尺寸从Da减小到0。25Da;四个卷积层，然后是最大池化，以将空间大小减少4倍。的优点模块从两个方面进行了改进：一是使功能再现，图3. Transformer模块中的编码块（transblock）。我们假设Nau=4。对于一个4x4的注意图A，我们探索了A上不同的注意力下降机制，以找到面部AU检测任务的最佳选择A。投影（MLP）（见图3）。为了利用它，我们对FauRDc×Nau进行转置运算，得到FauR∈Nau×Dc作为Transformer，在这里对AU特征之间的联系进行建模。对于MHSA模块，在Fau上应用线性层以获得查询QRNau×Dq、键KRNau×Dk和值VRNau×Dv（D q==Dk），然后通过以下计算注意力图A：A= softmax（QK），（2）D其中A[i，：]表示Q[i，：]与K的相关性，A [：，i ]表示Q与K [ i，：]的相关性我们进一步提出了一种可学习的atten-tion drop机制，通过将A乘以学习的二进制掩码MRNau×1来丢弃一些AU与其他AU的连接。通过扩大感受野，A=M A。（三）（分辨率从64 × 64降低到4 × 4 ）; 其次，由于Transformer中的自注意通过绘制成对交互来跨顺序令牌操作，因此通过降低特征维度来降低计算复杂度。给定一个输入张量 Fa ，卷积模块的输出为FcRDc×Hc×Wc。此外，我们使用线性变换隐式地分配每个AU我们首先在空间维度上将 3DFc 平坦化为 2D 张量FcRDc×HcWc，然后应用第二维上的线性层，以将H W变换为其中Ai，j=MjAi，j。这是为了增加AU特征之间的差异：3.3. 基于多分类器的在线知识提取主结构是一个双分支体系结构，如图2所示。我们将Fau馈送到两个不同的对等体（T1和T2）。我们表示T1和T2的输出分别为F1∈RNau×Dt和F2∈RNau×Dt我们AU数cc设计不同的分类器如下：不。其公式如下：一对一分类器（CO2O ）：我们通过F1通过全Fau=Fc×Wau，（1）其中WauRHcWc×Nau，FauRDc×Nau。通过这样做，每AU特征与具有由任务损失优化的可学习参数的F c相关联。每个向量Dc1被认为是一个AU这里利用Transformer模块对AU同现进行建模。一个可学习的位置嵌入应用于Fc。 Transformer的主要组成部分[5]模块是由多头自注意（MHSA）和多层Q6023∈∈∈连接层WoRDt×1，预测计算为Po=F1×Wo，（4）其中PoRNau×1，第i个元素F1[i]预测第i个AU一对多分类器（Co2m）：我们将F2与变换矩阵Wm相乘RDt×Nau，预测计算为Pm= TopK（F2×Wm），（5）6024Σ∈∈∈∈ ×∈其中PmR1×Nau. F2Wm的输出是Pm<$RNau×Nau，TopK是一个选择函数. F2[i，：]的第i个切片预测所有AU的存在性。表示来自所有AU特征的第i个AU的证据。 TopK操作总结了Pm[：，i]中的最高k置信度，以获得第i个AU的最终预测：Ki第i个AU（1表示AU出现，0表示AU不存在）。wi是基于AU的出现来平衡训练的每个AU的类权重最终的网络通过最小化以下成本函数以端到端的方式进行训练：Ltotal=Lcls+λLkd，（10）Pm[i]Pm[：，j]，（6）其中Ki表示每第i列的前k个索引。Pm的计算方法如图4所示图4.计算Pm的步骤。为了说明的目的，我们假设Nau=4。F2[i，：]和Wm[：，i]分别表示第i个AU的特征和第i个AU的原型。因此，第i个AU的特征（F2 [ i，：]）与所有AU（P m[ i，：]）的对数一致，并且所有AU的特征与第j个AU（P m [：，j ]）的对数一致。为了避免噪声累积，Pm[i]从Pm [i，i ]中的最高k（k=2）个值聚合（求和）。在线知识蒸馏基于两分支公式，我们有两个Transformer模块，具有相同的transblock数量，但具有不同的AU分类器。这两个分支共享卷积模块，用于紧凑特征提取和每个AU特征分配。受以前工作的启发[10，12]，将系综权重生成器放置在Fc上。其结构如图2所示（整体权重生成器）。具体而言，它包含两个分割以捕获不同感受野的特征，串联操作以丰富表示，以及全连接层以产生权重WeR2×Nau.然后，使用Softmax对权重进行归一化。最后，将总体权重We分为W1R1×Nau和W2R1×Nau，并通过逐元素求和计算总体目标：Pt=W1<$Po+W2<$P<$m。（7）OKD公式为Kullback-Leibler（KL）潜水员-推理时间4. 实验为了验证FAN-Trans的有效性，我们在两个广泛使用的AU检测数据集上进行了实验：[32] BP 4D [33]和DISFA [14]。4.1. 实现细节数据集BP4D [32]包含41名参与者，其中23名女性和18名男性参与8次自发表达会话。总共记录了具有140，000帧的328个视频，然后用12个AU（AU1、AU2、AU4、AU6、AU7、AU10、AU12、AU14、AU15、AU17、AU18、AU19、AUAU23和AU24）。我们根据现有的工作[17，18，11，8]，使用主题排除性3折交叉验证协议评估模型，其中两折用于训练，而剩余的一折用于测试。DISFA [14]涉及27名参与者，其中12名女性和15名男性。每个人都被记录在一个视频中。整个数据集由超过100，000帧组成，强度标注范围从0到5，12AU。根据[17，18，11，8]中的方案，我们选择8个AU（AU1、AU2、AU4、AU6、AU9、AU12、AU25和AU26）进行受试者排除3倍交叉验证，并使用强度2作为区分阳性和阴性样本的阈值评价标准我们用F1-score[9]它考虑了每个AU在这里，我们计算了BP4D的12个AU和DISFA的8个AU的F1分数。每个AUPt之间的能量损失{Po，Pm}）：和学生个体AU上的平均F1分数在所有AU中显示一个模型训练细节所有图像都是根据检测结果进行裁剪的LKD= KL（Pλ，Pt）.（八）多标签分类损失被公式化为具有地面真实标签的加权二进制交叉熵损失：Nau由RetinaFace提供的对话框[4]。我们不使用面部标志来预处理面部，因此我们对网络的输入是未对齐的由于我们使用FAN [1]来提取特征，因此我们的网络输入是256x256 RGB人脸图像。ˆL=−w[ylogp+（1−y）log（1−p））]，（9）与JAANet [18]类似，我们使用随机旋转（+/-15CLS我我我度）、水平翻转、缩放（0.75 - 1.25）和中心移动（-10-10）进行数据扩充。[1]前，其中pi表示第i个AUyi是地面实况标签，训练和固定，而其他可学习的参数使用AdamW优化，LLj=0其中λ是平衡CLS和Kd超参数。应该注意的是，只有Co2m分支部署在6025超参数β1=0。9和6026表1.BP4D的消融研究我们比较各种关键组件的变体：有或没有Transformer模块，不同的分类器，在线知识蒸馏，以及不同的注意力下降机制。β2=0。第999章没有重量该网络每次训练12个epoch，起始学习率为0.0001，每4个epoch衰减30%我们使用timm库1来实现我们的Transformer及其参数设置如MLP比率4和头数= dim//64（dim表示特征尺寸）。.对于DISFA，在[18，11]之后，我们使用在BP4D上训练的权重作为初始化，然后在DISFA上进行微调。为了计算F1分数，我们将阈值为0.5的Sigmoid预测二进制化。在网格搜索之后，权重平衡参数λ被设置为0.2。所有的实现都基于PyTorch [16]。4.2. 消融研究我们对BP4D进行了消融研究，以估计对所提出的框架的有效性有贡献的特别地，分析了Transformer模块、一对多分类器、OKD实例、Transformer中的张力下降机制的贡献。为了公平比较，所有变体都使用相同的设置进行训练，包括数据增强和训练时间表。Transformer的有效性为了验证Transformer模块的有效性，我们通过在卷积模块产生的特征图上直接执行多标签分类来移除所提出的框架的Transformer模块（参见图2中的FcAU检测是通过第一次平均汇集4-D维张量，然后将生成的1-D向量馈送到一个完全连接的分类器。我们称这个变量为Baseline。我们通过将卷积模块的输出馈送到具有单独分类器C o 2 o、C o 2 m的相同Transformer模块进行比较来实现另外两个变体我们分别称之为C TCo2o和C TCo2m。在这一点上，没有由Transformer模块学习的代表性特征。此外，简单的Baseline单独使用超过了JAANet[17]，DSIN [3]，具有更复杂的特征提取器，这表明FAN特征具有强大的表示能力。有效性的分类器C TCo2m在平均F1-得分上优于C TCo2o我们认为C TCo2m优于Co2o，因为前者在特征学习和分类阶段都考虑了AU同现，而后者只在Transformer模块内的特征学习中捕捉到这一特性。这一论点由图5证明，图5分别显示了来自注释、Co2o预测和Co2m预测的成对AU之间的相关系数。例如，AU14与图5（a）中的AU6、AU7、AU10、AU12相关联。这种模式被C TCo2m捕获，但在C TCo2o中被忽略.我们假设Co2m足以检测AU的下部，因为AU 14促进了内部连接。此外，我们计算相关矩阵之间的元素欧几里德距离，以进行更直接的比较。标签和来自Co2o的预测之间的距离是0.012，而Co2m则下降到0.008，进一步说明了证实了Co2m从标签统计中学习AU关联的能力。OKD训练的改进我们首先测试一个变体C T1 C o2oT1C o2m，它共享特征提取（C T1），但被馈送到两个分类器C o2o和C o2m。从表中可以看出，这种变体的表现优于单独的学生（即。C TCo2o和C TCo2m）。这种改善促使我们探索与OKD相关的关键因素：在哪里放置分裂点以及如何增加对等点的多样性。我们设置了三个不同的-包括知识提取部分结果在表1中与基线相比蚂蚁：（一）CT1C（III）C T1O2OT2C O2O、（二）CT1C氧2MT2C O2m，C TCo2o和C TCo2m在专业上的F1得分较高，AUs在AU2、AU6、AU17、AU23上有明显改善总体而言，就平均F1评分而言，C TCo2o和C TCo2m分别超过基线1.3%和1.8%。我们相信进步来自于1https://github.com/rwightman/pytorch-image-modelsCO2OT2CO2M。（III）的架构是图2，其中两个分支的断点在卷积模块之后。(I)用Co2o代替（III）的T2分支中的Co2m，而（II）用C o 2 o代替（III）的T1分支中的Co2o，(III)Co2m。从表1中，所有变体获得平均F1分数增益，其中（III）排名第一。（I）和(II) 比C T1Co2o T1Co2m高0.3%和0.4%，方法AU1AU2AU4AU6AU7AU10AU12AU14AU15AU17AU23AU24AVG基线51.639.060.072.879.079.187.262.049.358.148.951.161.5C TCo2o55.844.956.977.875.682.887.561.348.761.948.252.562.8C TCo2m52.747.056.875.075.382.288.063.151.964.349.553.763.3C T1Co2o T1Co2m55.742.560.976.476.783.686.662.447.465.849.557.963.8C T1Co2o T2Co2o55.146.858.877.574.783.487.263.448.965.950.256.964.1C T1Co2m T2Co2m58.046.859.976.576.083.687.360.349.966.149.956.664.2C T1Co2o T2Co2m55.446.059.878.777.782.788.664.751.465.750.956.064.8C T1Co2o T2Co2m F49.446.061.277.477.683.088.465.950.363.650.352.263.8C T1Co2o T2Co2m R51.844.858.777.677.482.587.664.751.766.049.756.264.1C T1Co2o T2Co2m C54.043.160.377.278.184.386.763.251.665.048.556.964.16027(a) 地面实况标签（b）C TCo2o的预测（c）C TCo2m的预测图5.（a）地面实况标签、（b）C T Co2 o的预测和（c）C T Co2 m的预测的相关图，其中每个条目（i，j）被计算为第i个AU和第j个AU之间的相关系数。这是因为相同的特征描述符会损害多样性。这一发现得到了[12，2]中提出的分支多样性分析的支持。从结果，我们观察的（一）使C T1Co2o由62.8%提高到64.1%;使C T1Co2m由63.3%提高到64.2%。两者都可与SOTA性能进行比较（见表5）。值得一提的是，这是OKD首次应用于人脸AU检测任务，并取得了显著的效果性能增益。(III) 达到最佳性能。其中，（Ⅲ）的Co2o产量占F1平均值的64.7% ，（ Ⅲ ）的 Co2m产量占 F1 平均值的64.8%，（Ⅲ）的Pt产量占F1平均值的64.8%。优越的性能表明，设计具有不同分类器的两个分支可以提高节点多样性，这在OKD中是有效的[2]。我们将默认分支设置为2，因为我们利用了两个不同的分类器。我们尝试将分支增加到三个，再获得0.1%的收益。Transformer中注意力下降的有效性在下面的实验中，我们深入研究注意力地图如何影响AU特征。我们考虑四种变体：（a）C T1Co2o T2Co2m F，（b）C T1Co2o T2Co2m R，（c）C T1Co2o T2Co2m C和（d）C T1Co2o T2Co2m。描述见图3。在（a）中，使用了一个完整的注意力图，这意味着A中的所有元素都将与V相乘以产生新的AU特征。(b)使A的每一行中的较低相似性无效。(c)停用A的每列中的较低相似性。(d)学习二进制掩码。如表1所示，（a）、（b）和（c）使C TCo2m的平均F1评分分别从63.3%提高到63.8%、61.4%和64.1%。它表明，所有的注意力机制有利于OKD框架。(b)以及（c）胜过（a）可能是由于减轻了全注意力图中的过度拟合。可学习的注意力下降通过将C TCo2m的F1分数从63.3%增加到64.8%而突出。图6示出了Fau之间的成对余弦距离的分布。通过比较，平均相似度从0.738（a）下降到0.566（d）。这表明注意力下降会增加不同AU代表之间的多样性图6.对于变体（a）和（d），AU特征之间的成对余弦相似性分布Fau在Co2 m之前。MSBLBL-FAN+R18BL-LFBL-HMF1得分61.559.559.260.8表2.FAN特征对BP4D的影响（F1评分，%）。编码编号13579F1得分63.864.464.864.964.1表3.影响不。BP 4D上的TransBlock（F1-分数，%）。λ0.050.10.20.51F1得分64.164.364.863.963.8表4.BP 4D上FAN-Trans对λ的敏感性（F1评分，%）。FAN特征的影响我们比较了表2中的四种变体：BL是基线方法 ; BL-FAN+R18 用在 ImageNet 上预训练的ResNet 18（第二层后）中相同分辨率（64 x64）的特征图替换BL中的FAN; BL-LF是没有LF的BL; BL-HW是没有热图乘积的BL。根据结果，我们得出结论，在对齐任务上预训练的特征优于分类模型中的通用特征此外，虽然HM是劣于LF的整体贡献，它补充LF给予更多的关注周围的地标被认为是AU活跃地区。Transformer 模块中的编码数我们在主实验中将Transformer模块中的编码数设置为5，以保持与卷积运算的平衡。表 3 显示了 BP4D 上 Transformer 模块中transBlock编号对性能的影响。我们分别测试了编码数为1，3，5，7，9的5个案例。从这个表中，我们可以看到，如果使用很少的编码，性能将迅速下降。这是由于Transformer模块中的学习能力有限造成的是-6028表5.BP4D分类结果（F1分数，%）与其他方法的比较粗体数字表示最佳性能;括号内的数字表示第二好。方法AU1AU2AU4AU6AU9AU12AU25AU26AVGDRML [35]17.317.737.429.010.737.738.520.126.7JANet [17]43.746.256.041.444.769.688.358.456.0[18]第十八话62.460.767.141.145.173.590.967.463.5[3]42.439.068.428.646.870.890.442.253.6SRERL [11]45.747.859.647.145.673.584.343.655.9UGN-B [19]43.348.163.449.548.271.990.859.060.0澳大利亚旅游[8]46.148.672.856.7【50.0】72.190.855.461.5莫内[21]55.8[60.4]68.1【四十九点八】48.0【73.7】【九十二点三】【63.1】63.9FAN-Trans【56.4】50.2【六十八点六】49.257.675.693.658.8【63.8】表6.与DISFA上其他方法的分类结果（F1评分，%）比较。粗体数字表示最佳性能;括号内的数字表示第二好。另一方面，当编码数量增加到9时，由于两个分支内的灵活性太大，性能也会下降。尽管编码7比编码5获得的F1分数稍好，但考虑到增加的模型复杂度，我们仍然在最终模型中使用编码对超参数λ的敏感性基本上，我们测试了λ的5个权重：0.05，0.1，0.2，0.5和1。表4示出了超参数λ在所提出的框架中的影响。从这些结果中，我们可以看出，我们的方法受到权重的影响，以平衡蒸馏损失和分类损失。太小或太大的值将降低性能增益。因此，网格搜索技术有助于最佳模型。最后，当λ为0.2时，最佳配置CT1Co2oT2Co2m为FAN-Trans。4.3. 与最新技术方法的我们比较了FAN-Trans与已发表的AU检测技术，包括专注于注意力或区域特征的方法，即。JPML [34]，DRML [35]，JAANet [17]，JAANet[18]，考虑到A-U关系的方法，即DSIN [3]，SRERL [11]，UGN-B [19]和最近提出的作品TransAU [8]和MONET [21]。其他方法的结果取自论文[8，22]。表5显示了BP4D的性能比较[32]。所提出的方法性能优于SOTA方法的平均F1评分为64.8%。表6比较了我们提出的FAN-Trans与SOTA方法在DISFA上的性能可以看出，我们的方法获得了63.8%的平均F1分数。它比在模型设计中也部署了Transformer的TransAU [8]好2%5. 结论与讨论结论本文提出了FAN-Trans用于面部AU检测，它可以在OKD框架下学习具有代表性的AU特征以及AU特征和AU标签之间的相关性。FAN-Trans利用多尺度人脸对齐特征图，从具有热图关注的AU活动区域学习AU特征。它使用Transformer来对AU同现进行建模，并使用可学习的二进制掩码来丢弃自我注意力，以便区分不同的AU特征。它使用为AU检测设计的各种分类器定制OKD实验表明，该方法优于SOTA方法。讨论FAN-Trans是建立在一个预先训练的人脸对齐模型上的，用于提取AU特征。因此，人脸对齐的性能将影响模型的性能.此外，如图1所示，虽然面部对准特征提供了强的表示，并且注意区域大致在关键点周围，但是在没有人工监督的情况下仍然难以探索如何学习与地标相关的个体AU注意力是一个很有前途的方向。方法AU1AU2AU4AU6AU7AU10AU12AU14AU15AU17AU23AU24AVGJPML [34]32.625.637.442.350.572.274.165.738.140.030.442.345.9DRML [35]36.441.843.055.067.066.365.854.133.248.031.730.048.3JANet [17]47.244.054.977.574.6【84.0】86.961.943.660.342.741.960.0[18]第十八话53.847.858.2【七十八点五】75.882.788.263.743.361.845.649.962.4[3]51.740.456.076.173.579.985.462.737.362.938.841.658.9SRERL [11]46.945.355.677.1【七十八点四】83.5【八十七点六】63.9[52.2]【63.9】47.153.362.16029引用[1] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。InICCV，2017.[2] 陈德芳，梅建平，王灿，闫峰，陈春。与不同的同行进行在线知识蒸馏。在AAAI，2020年。[3] Ciprian Corneanu、Meysam Madadi和Sergio Escalera。用于面部动作单元识别的深层结构推理网络在ECCV，2018。[4] Jiankang Deng ， Jia Guo ， Evangelos Ververas ， IreneKotsia，and Stefanos Zafeiriou. Retinaface：在野外进行单次拍摄多层次面部定位。在CVPR，2020年。[5] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器.在ICLR，2020年。[6] 保罗·埃克曼和埃里卡·L·罗森伯格。脸上流露出什么：使用面部动作编码系统（FACS）的自发表达的基础和应用研究。牛津大学出版社，1997年。[7] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv，2015.[8] Geethu Miriam Jacob和Bjorn Stenger。面部动作单位检测与变压器。在CVPR，2021年。[9] La'szl o'AJeni ，Je f fr e yFCohn ， andFernandoDeLaTorre.面对不平衡的2013年人类协会[10] 徐澜，朱夏天，龚少刚。通过即时本地集成进行知识蒸馏。NeurIPS，2018。[11] Guanbin Li，Xin Zhu，Yirui Zeng，Qing Wang，andLiang Lin.语义关系引导的表征学习在面部动作单元识别中的应用。在AAAI，2019年。[12] 李政，叶景文，宋明丽，黄英，潘志庚.在线知识蒸馏用于有效的姿态估计。ICCV，2021。[13] Kevin Lin，Lijuan Wang，and Zicheng Liu.端到端的人类姿势和网格重建与变压器。在CVPR，2021年。[14] S Mohammad Mavadati、Mohammad H Mahoor、KevinBartlett、Philip Trinh和Jeffrey F Cohn。Disfa：自发面部动作强度数据库。战术行动中心，2013年。[15] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。[16] Adam Paszke、Sam Gross、

下载后可阅读完整内容，剩余1页未读，立即下载