面部动作单位的自动检测方法研究及其挑战的解决方案PIAP-DF

79 浏览量更新于2023-10-15 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12899PIAP-DF：基于离散反馈学习的杨唐1曾旺丁1赵达飞2张红刚1北京邮电大学2渥太华大学2{ty，zengwd，zhhg} @ bupt.edu.cndafei. uottawa.ca摘要面部动作单位在交际中具有重要意义。自动AU检测可以提高对心理状况和情绪状态的理解。最近，已经提出了几种深度学习方法来自动检测AU。然而，仍有一些挑战有待解决，例如细粒度和鲁棒的局部AU信息的提取不佳，对个人特定特征的模型过拟合，以及具有错误标签的本文提出了一种联合学习策略PIAP-DF来解决这些问题，它包括：1）对每个AU采用多阶段的像素级关注学习方法; 2）反个人特定方法，旨在尽可能地消除与任何个人相关联的特征; 3）具有离散反馈的半监督学习方法，旨在有效地利用未标记的数据并减轻错误标记的负面影响。在两个流行的AU检测数据集BP 4D和DISFA上的实验结果证明，PIAP-DF可以成为新的最先进的方法。与目前最好的方法相比，PIAP-DF在BP 4D上提高了3.2%的平均F1分数，在DISFA上提高了0.5%。PIAP-DF的所有模块可以在训练后轻松移除，以获得用于实际应用的轻量级模型。1. 介绍面部表情是人们日常生活中的一种自然交流方式，也是分析情绪识别任务时人类情感、心理状态和意识的直观反映。有一些流行的面部表情主题被归类为微表情。微表情通过快速和无意识的自发面部运动来反映，研究表明微表情无法隐藏[8]。这些特征使得微表达的检测在一些特定情况下是必要的，例如在一些特定的环境中。抑郁症患者的诊断[9]和罪犯的谈话。此外，微表情检测在许多其他情感识别任务中也具有潜在价值[15，32，35，43]。在以前的研究中，面部动作编码系统（FACS）[13]方法通常用于编码微表情。在FACS中，每个表达被认为是多个作用单位（AU）的组合。通过检测AU，FACS可以有效地消除微表达注释中的歧义因此，一个可靠的AU检测系统是非常重要的面部微表情的在FACS中，不同的AU与特定的面部肌肉相关联，其进而对应于面部的不同区域的特征。有时一个AU也可对应于一个以上区域。因此，本地信息是必不可少的AU检测。传统的[3，7，10，19，26，42]方法使用手动方法来表示不同的局部区域。近年来，用于面部表情检测的深度学习方法越来越流行，并且已经取得了一些成果。早期的工作使用简单的CNN进行学习。后来，更深层次的神经网络被用来提高性能。由于IM-图1. a）AU6上的贴片和PI方法的比较，分别标记为红色边界和蓝色边界。b）AU2和AU6上的PI图。预定义的PI图是用界标信息生成的。在PI的第二阶段之后，我们改进了PIMap，显示为二进制和热图视图。112900图2.概述PIAP和离散反馈的半监督学习由于局部特征对于面部AU检测的重要性，先前的工作通常使用面部界标来定位这些区域或将面部划分成块。然而，在实践中，AU注释者有时无法给出AU的确切区域。换句话说，人工定义的AU区域相关性实际上不是鲁棒的先验知识。此外，巨斑并不适合AU相关区域。如图1所示，这些区域并不总是矩形，例如AU6，也不总是固定的，这是由于头部姿势和其他因素的不确定性。此外，如前所述，一些AU同时与多粒度和细粒度区域相关联。因此，使用简单的基于地标的补丁的想法不是很有效。此外，AU检测应独立于任何特定个体。由于当前AU数据集中的参与者数量有限，训练模型的泛化能力较差因此，有必要消除对模型的特定于人的影响。最近，自监督和半监督学习取得了巨大的飞跃。对比学习通常使模型能够输出相同样本的不同视图的近似编码，并区分不同样本的编码，而基于伪的方法期望模型输出以前从未见过的样本的低熵预测。实验结果表明，自监督和半监督学习可以有效地提高模型的泛化能力。在本文中，我们提出了PIAP-DF，AU检测网络的一组综合政策。PIAP整合了两种学习策略，像素兴趣（PI）学习和反个人特定（AP）学习。PI致力于为每个AU提供像素级的关注，而AP试图删除个人特定的功能。除了PIAP之外，我们还提出了基于半监督学习的离散反馈（DF）技术，旨在减少错误标记的影响我们使用EfficientNet-B1 [39]作为我们的AU编码器。在我们的架构中，PI，AP和DF可以在训练后删除，以获得轻量级的真实世界场景的网络。本文的主要贡献：1）我们建议一个像素感兴趣的学习方法，以提高AU检测的性能。PI保证了AU的不规则局部信息和像素级相关性在前向传播过程中可以保留在深层，从而为AU检测提供有效的监督（2）提出了一种反个人特定学习方法。我们消除了特定于个人的功能，从网络的隐藏层的帮助下，同一个编码器训练的fac- cial识别数据集。AP允许模型在有限的参与者数据集上更多地关注AU本身的特征，从而提高网络的通用性3）根据数据集和任务的特点，提出了一种带离散反馈的半监督学习策略。通过利用适量的额外数据和随机停用的标签，DF可以减少错误标记对训练的影响，并提高网络的鲁棒性。2. 相关作品人脸动作单元检测的研究已经有几十年的历史，提出了许多有代表性的方法。在早期的研究中，从图像中提取像方向梯度直方图（HOG）这样的特征，并在提取的特征上训练AU分类器[11，40，49]。例如，Baltrusaitiset al. [1] 提出了一种基于支持向量机（SVM）分类器的AU检测方法，该分类器对主成分分析后的图像HOG特征进行训练。由于AU被定义为与面部肌肉的运动相关联，因此许多方法也基于位置来检测AU的发生。Zhao等人提出了JPML [49]使用补丁从局部区域提取特征，并使用多标签分类器进行AU检测。传统的方法过度依赖于特征提取，并且对于复杂的面部表示具有局限性。最近，卷积神经网络（CNN）表现良好，在许多通信和网络上达到了最先进的水平12901L计算机视觉任务，例如对象检测[33，34]、分类[18，21]、面部识别[6，36]和地标检测[46]等。该技术也已被引入到面部AU检测。 DRML由Zhao等人提出。[50]采用区域学习的方法构建亮点区域，达到突出局部特征的目的。然而，AU由所有面部肌肉的运动组成，并且过度强调局部特征可能导致全局关联丢失。由于这种限制，已经提出了许多基于全局特征的方法。Li等[22]从面部的不同部分提取输入，并将它们合并到用于AU检测的全局特征中。他们后来的工作[23]进一步提出裁剪层以获得更好的局部补丁。Corneanu等人提出了DSIN[4]。DSIN首先通过CNN提取特征以初始化每个独立AU的预测，然后通过考虑AU之间的相关性来提高由于face任务的多样性和强相关性，Shaoetal. [37，38]提出了用于AU检测和多任务学习的联合人脸对齐的JAA和JA？A人脸是个人特有的。然而，对于AU检测，应该消除这种人特定的特征，因为检测器应该在不同的面部上具有相似的性能。Niu等人[29]认为面部界标包含人特定的特征，其可以通过使AU特征正交于标准化界标向量来消除。然而，我们的实验证明事实正好相反。由地标检测任务提取的特征因此，我们提出了一种更鲁棒的方法来消除特定于人的特征，通过使AU特征与从在面部识别任务上训练的相同编码器提取的特征正交实验表明，这是一种有效的解决方案。最近，半监督和自监督方法[2，14，16，17]引起了广泛的关注。 Pham 等人 [31] 使用半监督方法在ImageNet [5]上实现了最新的技术水平。对于AU检测任务，Liet al.提出了TCAE [24]，这是一种交换源和目标的AU特征的孪生网络方法。TCAE在未标记的数据上进行训练，可以实现与监督学习相当的性能。因此，我们进一步探索基于我们的PIAP的半监督学习方法在同时应用我们所有的策略后，我们达到了一个新的艺术状态。3. 该方法在本节中，我们详细描述了我们的方法，包括像素感兴趣的学习，反个人特定的学习和半监督学习与离散反馈的阶段图3.预定义PI图。红点是索引从0到67的面部标志。3.1. 像素兴趣学习面部AU检测是一项与特征位置密切相关的任务，并且一些先前的工作已经尝试将特征位置与模型相关联以用于更好的AU预测。这些方法中的大多数[22，23，49，50]手动指定每个AU的固定区域，并使用基于块的方法向每个AU分类器提供输入。然而，这些方法具有以下问题：1）面片总是矩形，这导致特征提取不精确。AU的区域通常不是简单的矩形，而是不规则和不连续的。如图1（a）所示，AU6涉及眼轮匝肌和笑肌的肌肉，其对应于两个不规则面部区域。2)定义的区域是固定的（不可训练），这使得它们很难摆脱错误标记的问题。在实践中，AU注释器不能给出AU的精确区域，使得这种预定义的AU区域不能成为鲁棒的先验知识。为了解决这些问题，我们提出了一个多阶段的像素感兴趣（PI）学习，如图4所示。PI包括以下三个阶段。在第一阶段中，基于我们对AU的理解，我们基于68点面部标志手动定义每个AU的区域，命名为预定义的像素PI贴图充当二值化遮罩以阻挡区域外部的特征图3给出了基于界标的每个AU的预定义PI图的定义为了生成没有标志信息的预定义PI图，我们在AFEW-VA数据集上训练了修改后的UNet [20]。我们称为DW-UNet的这种修改的UNet用深度可分离卷积替换原始卷积层，并采用二进制交叉熵损失（BCELoss）作为损失函数PI（1）。这里，H和W表示PI-Map的高度和宽度;Y表示地面实况，并且Y表示预测值，以下相同DW-UNet将参数和计算的数量减少了90%。经过训练的DW-UNet将在第二阶段充当PI生成器0，在那里我们使用它来生成PI。12902××HWLLL××AUCCCCC1Σ图4.Pixel-Interested学习的三个阶段概述从原始图像中选择12个预定义PI图（12 256 256h=1w =1最后一个平均池化层，同时固定PI生成器的参数。解码器由DWConv层和上采样层组成。它接受LPi =-1Y·logYhw（一）1280×7×7，并经过训练以输出与生成的PI Map预测（地面实况，12×256×256）一样接近的PI Map预测H来自PI发生器1的W。损耗用LPI来衡量。在这+（1−Yhw）·log（1−Yhw）在第二阶段中，对于每个图像输入，我们首先将RGB格式样本（3256256）到PI Genera-或0以获得12个预定义PI图。然后，我们对预定义的PI图（在One-Hot编码之前）和灰度格式样本执行Hadamard乘积以生成12通道特征，其应该具有突出显示的关键区域。该特征图将被用作编码器的输入。在这个阶段，我们使用的编码器是在 ImageNet 上预训练的EfficientNet-B1，输入通道的数量改为12以适应特征。它作为实际的AU分类器来执行，以在最后输出AU预测。我们在AU预测上训练由AU（2）监督的整个模型，其中C表示AU类别的总数在该过程中，随着编码器收敛，PI生成器的参数也被更新，从而便于生成器更好地找到感兴趣的像素。因此，AU和像素级区域信息之间建立了更鲁棒的关联，并且我们可以在训练后得到新的PI生成器1PI发生器1生成的PI图是像素级的，优于预定义的PI图（图1）。注意，PI图在训练后进行调整。作为快速参考，该阶段的模型性能（F1分数，%）达到60.5。我们c=1L=−Y·logY+（1−Y）·log（1−Y）（2）C这样，整个模型由AU和PI监督，我们添加一个超参数α来调整它们的权重，如（3）所示。那么这样做有什么好处呢前层中的特征可以被丢弃或扩散到深层中，使得其不包含或包含稀疏的位置相关信息。然而，AU检测是强位置相关的如果我们能通过解码器从特征图中提取出相似的PI图，它必须包含一定程度的位置信息。至于我们用作地面实况的位置信息，它反映了PI生成器在阶段2中学习的内容，并且可以被视为鲁棒的先验知识。该信息进而为AU检测提供额外的监督。该模型在此阶段达到63.9%的F1评分性能。L=α·LAU+（1−α）·LPI（3）总之，我们首先使用预定义的PI映射来训练PI生成器。然后，AU的监督使得PI生成器学习更精细的像素兴趣信息。最后，新的PI发生器被用来维持像素的兴趣信息在网络的深层，提供额外的和有效的监督AU检测。在后面的章节中，我们将看到如何将像素感兴趣的学习与其他策略联合使用，以进一步提高性能。3.2. 反个人特定学习由于昂贵的注释成本和隐私限制，因此，AU检测数据集总是包含大量的视频帧，但参与者很少考试-在第三阶段，我们仍然使用在ImageNet上预训练的EfficientNet-B1模型作为AU编码器。此阶段的不同之例如，BP4D数据集有超过140，000个标记帧，但只有41个参与者。相对于AU特征的复杂分布，该模型更容易学习HW12903LLLLLn=1APvP·vAU2不同参与者的特定于人的特征，并基于特定的人来预测AU。这解释了为什么大多数模型在训练集上可以达到高F1核心，但在验证集和测试集上表现不佳。为了解决这个问题，LP-Net [29]将归一化的面部标志作为个人特定的特征，并试图通过使全局AU特征或正交于它来消除它们的影响。然而，面部标志实际上是图案化和结构化的，而不是人特定的信息。换句话说，面部标志检测模型之所以有效，是因为它知道瑞秋、罗斯和乔伊都有眼睛和鼻子，而不是因为它知道瑞秋就是瑞秋。因此，使用面部标志作为正则化条件将导致网络删除AU检测所需的结构化、我们在这里给一个玩具的情况下，以证明人脸地标检测任务也不是特定于人的。我们首先在AFEW-VA数据集[20]上训练Resnet 50 [18]然后，我们使用最后一个全连接层之前的1000维向量作为特征向量，以一般方式[6]在LFW数据集[27]上进行验证。结果表明，58%的低准确度，这证实了我们的想法。我们还尝试在实验中应用该策略，不出所料，地标正则化降低了基线性能。由于篇幅所限，我们在此仅作简要描述，此玩具箱可方便地复制。我们的解决方案是反个人特定学习（AP），如图2所示。我们添加具有与编码器AU相同的模型结构的编码器P，使得两个编码器具有相同的参数空间。首先，我们在CASIA-WebFace数据集[45]上训练用于人脸识别任务的编码器P，并且在训练之后，它在另一个数据集LFW [27]上实现了96.2%的准确性。在此之后，我们可以使用由编码器P输出的向量vP作为人特定的特征。要使AU要素独立于3.3. 离散反馈半监督学习由于任务域的特点，现有的AU数据集还不完善。首先，BP4D数据集包含许多不正确的标签。通常，数据集中不正确标签的噪声会明显影响模型的性能。其次，两个数据集都面临参与者不足的问题，如第3.2节所述。这一问题在国防安全系统中尤其明显在以前的工作中，DISFA数据集通常不用于完整的训练，由于其有限的参与者数量。至于BP4D，其具有超过200，000个未标记帧，这也限制了有效利用。为了缓解上述两个问题对模型的影响，我们希望：1）充分利用DISFA的样本和BP4D的未标记样本，通过半监督学习提高模型的泛化能力; 2）从BP 4D数据集中随机选取标记数据作为未标记样本，以迭代地鼓励半收敛模型在正确的方向上收敛，以对抗不正确的标记。后者实际上是另一种正则化策略。受MPL [31]反馈策略的启发，我们提出了离散反馈策略来提高半监督学习的性能。如图2所示，良好预训练的PI和AP联合作为f. 然后将f复制到f θ和f ξ，其中f θ是教师，f ξ是学生。设它们的参数为θ和ξ。我们使用xu和xl分别表示未标记和标记的样本。设Y为标签，Yp为教师生成的伪标签。我们使用Gl=（M，P，Y）和Gp=（M，P，Yp）来指代这些地面真值对，其中M是地面实况PI图，P是个人特定特征。We表示（m，p，y）作为对的预测i，并且设Y（θ，l）为fθ（xl）的值。P1AP被定义为（6），其中α、β和γ用于调整每个的权重件.针对人特定的特征，我们使用（4）中定义的AP来使vAU和vP正交，从而使fAU和fP正交函数。这里vAU指的是AU特性. LPIAP=α·LAU+β·LPI+γ·LAP（六）编码器AU的向量输出。最终，在（5）中定义的监督下，由编码器AU提取的特征可以尽可能多地过滤掉个人特征。这里，我们使用β来调整AU和AP之间的权重。将AP应用于基线后的平均F1分数达到每一步ti，未标记样本Xu用于更新θ。Xu含有BP4D的未标记样品和少量标记样品以及无标记的DISF A样品。Yθ，u指到基于未标记数据的fθ预测。g是指梯度。61.9（%）。gθ，u=θLPIAP （Yθ，u，Gp）（七）1L=−Σlog（1 −|∠v P，vAU∠|N2）（4）gξ，u=ξLPIAP（Yξ，u，Gp）′L=β·LAU+（1−β）·LAP（5）在每个步骤ti+1中，标记样本xl用于计算反馈fb. 则θ由σ更新，fbD是crete，gθ，u和gθ，l. 在训练过程中，我们发现反馈fb可能α+β+γ=1Nξ =ξ−ηgξ，u（8）12904L.h（z）=联系我们=·由于SGD此外，有些反馈很可能是错误的，因为错误的标签。因此，我们提出了离散反馈学习.我们将反馈作为离散格式，并随机禁用它的机会σ（10），以削弱负面影响。当Student给出正反馈时，σ被设置为1，或者对于正反馈为-0.1，并且对于正反馈为0其中σ是随机因子，具有5%的可能性为0，否则为1。在我们的任务中，这种策略比MPL执行得更好。3.4. PIAP-DF总结为了组合我们的所有方法，我们首先执行第3.1节的第一和第二阶段，以获得经训练的PI生成器1作为图2中的PI生成器。然后，我们将编码器P训练为3.2，并且我们采用PIAP来计算损失。之后，我们制作2个PIAP副本，其中PI生成器和编码器P固定，编码器AU初始化，作为教师和学生。然后，教师和学生在标记和未标记的数据上进行训练，如3.3所示。这标志着PIAP-DF的完成。Student的AU编码器是我们进行AU检测所需的最终模型。gθ，l=θLPIAP（Yθ，l，Gl）gθ′，l=θ′LPIAP（Yθ′，l，Gl）fb=g′，l·g，ufbD为e=σ·h（fb）1，z> 0-0。1，z0（九）（十）4. 实验在本节中，我们展示了两个广泛使用的AU检测数据集上的PIAP的实验评估，并给出了BP4D上的消融实验结果，以研究PI、PA和DF的有效性。我们还给出了PI映射的结果产生的像素感兴趣的学习一些AU4.1. 实验设置θ′=θ−η·（fbDiscrete·gθ，u+gθ，l）（11）4.1.1数据集AU数据集比其他图像任务的限制要多得多θ+=ar gminEx，G[LPIAP（Y+，Gl）]数据集，由于其严格的要求和限制-θl lξ，u（十二）任务本身。在本文中，我们使用两个广泛使用的ξ+=argminExξ[LPIAP（Yξ，u，Gp）]AU检测数据集、BP4D和DISFA。BP4D [48]包含23名女性和18名男性参与者。as对于每一步，根据[12，25]，可以扣除Exu，GpLPIAP（Yξ′，l，Gl）θ∂θ=LPIAP（Y（ξ′，l，Gl）Exu，Gp[ξ′]∂ξ′∂θEx，G[up在41名参与者身上测试了8种不同的任务，并将他们的自发表情记录在几个视频中。在所记录的328个视频中，12个AU由0或1编码而没有强度信息。我们在BP4D中使用的2D视频中有140，000个标记帧和240，000个未标记帧DISFA [28]涉及27名参与者，12名女性和15名男性。每个参与者都被要求观看一段视频，并在此过程中记录他们的面部特征DISFA包含超过100，000个视频帧，具有12个AU标签=gξ′，l·∂θ（十三）范围为[0，5]，其中8个AU标签用于实验。基本的比较我们用2作为阈值来区分可以进一步计算如下[44]：阳性和阴性样本之间的差异。4.1.2培训θ=η·gξ′，l·LPIAP（Yξ，u，Gp）∂ξ对数（P（Gp））∂θ我们在两个数据集上训练我们的模型，两者略有不同。在BP4D数据集上，我们使用3倍的=η·gξ′，l·gξ，u·gθ，u反馈：fb（十四）交叉验证，验证该方法的有效性和普适性数据集的划分基于粒子在DISFA数据集上，由于我们没有AD-Wee可以在（14）中找到反馈fb。详细说明见附录。这个过程达到了教师可能犯错的效果，因此学生对标记数据的表现给出的反馈可以纠正其错误。请注意，随机禁用反馈以适应不正确标签的存在。·−u12905另外，对于未标记的数据，我们不进行半监督学习。由于经过良好训练的PIAP-DF是基于DISFA数据集的，因此我们也可以对在BP 4D上训练的PIAP模型进行微调以评估性能。我们提取原始全连接层之前的1280维向量，并将其重新连接到一个8维12906方法AU1AU2AU4AU6AU7AU10AU12AU14AU15AU17AU23AU24Avg.LSVM [11]JPML [49]23.232.622.825.623.137.427.242.347.150.577.272.263.774.164.365.718.438.133.040.019.430.420.742.335.345.9[第47话]TCAE [24]39.043.132.032.239.744.472.975.170.670.578.280.883.785.557.861.837.343.753.658.532.337.245.148.753.556.1DRML [50]36.441.843.055.067.066.365.854.133.248.031.730.048.3[22]第二十二话36.231.643.477.173.785.087.062.645.758.038.337.456.4DSIN [4]51.740.456.076.173.579.985.462.737.362.938.841.658.9EAC-Net [23]39.035.248.676.172.981.986.258.837.559.135.935.855.9LP-Net [29]43.438.054.277.176.783.887.263.345.360.548.1[54.2]61.0[37]第三十七话47.244.054.977.574.684.086.961.943.660.342.741.960.0[38]第三十八话53.847.8【58.2】78.575.882.788.263.743.361.845.649.962.4PIAPPIAP-DF54.2【55.0】47.1[50.3]54.051.279.0【80.0】78.2【七十九点七】【86.3】84.789.5[90.1][66.1]65.649.7[51.4]63.2【63.8】49.9[50.5]52.050.964.1【六十四点四】表1. BP4D数据集上F1评分（%）的比较。带括号和粗体的数字表示最佳性能;粗体数字表示第二好的。方法AU1AU2AU4AU6AU9AU12AU25AU26Avg.LSVM [11]10.810.021.815.711.570.412.022.121.8[第47话]13.110.635.740.230.257.577.440.338.1TCAE [24]15.115.250.548.723.372.182.152.945.0DRML [50]17.317.737.429.010.737.738.520.126.7[22]第二十二话41.526.466.4【50.7】8.5【八十九点三】88.915.648.5[37]第三十七话43.746.256.041.444.769.688.358.456.0DSIN [4]42.439.068.428.646.870.890.442.253.6LP-Net [29][38]第三十八话29.9[62.4]24.7[60.7]【72.7】67.146.841.149.645.172.973.593.890.965.0【67.4】56.963.5PIAP50.251.871.950.6[54.5]79.7【九十四点一】57.2【63.8】表2. DISFA数据集上F1评分（%）的比较。带括号和粗体的数字表示最佳性能;粗体数字表示第二好的。输出向量以获得新的AU预测。在这项工作中，所有的实现都基于PyTorch [30]。4.1.3度量AU检测是一个多标签二进制分类任务，其中F1-score可以是一个很好的度量。在以前的作品中，F1分数也是一个常见的评价标准[10，41]。我们计算了BP4D中12个AU和8个AU的F1评分在DISFA。F1分数可以直接比较，作为每个AU上不同算法的性能指标。4.2. 比较为了获得严格合理的实验结果，我们使用3折交叉验证将PIAP与当前基于图像的AU检测方法进行了比较，包括传统方法LSVM [11]，JPML [49]和监督方法DRML[50]，ROI [22]，DSIN [4]，EAC-net [23]，LP-Net [29]，JAANet [37]，JAANet [38]，andtw o12907半监督方法TCAE [24]和SplitBrain [47]。表1示出了PIAP与其他AU检测方法对BP4D的性能比较总体而言，PIAP在这个广泛使用的AU检测数据集上显示出优异的性能。与现有的最好的方法相比，JAMAnet，具有离散反馈学习的PIAP（PIAP-DF）实现了F1分数的平均性能提高3.2%表2示出了PIAP在DISFA数据集上的实验结果。与最佳方法相比，PIAP平均将F1评分提高了0.5%。对于DIFSA，我们不会从头开始训练模型，而是对在BP4D上训练的模型进行微调。由于这个原因，我们的策略不能直接应用于DISFA，导致每个AU的改进比BP4D弱，但它仍然优于现有的自动AU检测方法。这也表明我们的模型的推广能力得到了提高在直接受益的BP4D上，大多数个体AU上的模型性能都能达到最好。12908方法AU1AU2AU4AU6AU7AU10AU12AU14AU15AU17AU23AU24Avg.基线44.342.851.971.568.680.780.857.949.454.943.545.857.7Pi-244.721.848.375.278.781.982.765.467.261.947.750.160.5Pi-354.644.1【56.2】77.877.885.588.965.950.763.550.151.063.9AP54.149.248.875.779.683.789.363.245.361.848.742.961.9DF46.843.351.277.871.482.187.061.245.159.941.944.859.4PIAP54.247.154.079.078.2【86.3】89.5[66.1]49.763.249.9[五十二]64.1PIAP-DF【55.0】[50.3]51.2[80个]【七十九点七】84.7[90.1]65.6[51.4]【63.8】[50.5]50.9【六十四点四】表3. BP4D数据集上消融实验的F1评分（%）。带括号的粗体数字表示最佳性能，粗体数字表示次佳性能。PI-2：PI 2期的基线;PI-3：PI 3期的基线;AP：基线和AP;DF：基线DF;PIAP：PI的3期基线和AP;PIAP-DF：PIAP和DF基线。从结果来看，PIAP-DF算法得益于三种策略的联合使用，表现出了优异的性能。在实际部署中，训练模块PI、AP和DF都可以很容易地移除，从而得到一个轻量级的推理模型。注意，这个轻量级模型不需要任何额外的信息，如面部标志。这些优点使得PIAP-DF明显优于其他方法。4.3. 消融研究在本节中，我们展示了PIAP-DF的消融研究，以调查像素兴趣学习（PI），反个人特定学习（AP）和离散反馈半监督学习（DF）的有效性。表3示出了通过对BP4D的单独消融实验的F1分数。所有结果均基于3倍交叉验证实验。我们使用EfficientNet-B1作为基线。在我们将PI的前2个阶段（PI-2）应用于基线（PI的第一阶段不输出AU预测）之后，平均F1分数达到60.5%，从基线提高了4.9%。PI的阶段-3（PI-3或PI）进一步在PI-2的基础上提高5.6%至63.9%。如果我们在基线上应用PI和AP，则对于DF，它可以在基线上单独使用以获得59.3%的分数并获得2.8%的增加，或者将其与PIAP结合在一起，形成完整的PIAP-DF，以获得64.4%的最佳F1分数。这也是我们所知道的目前最先进的方法。消融研究证明了我们设计的个体策略进一步提高了性能。4.4. Pixel-Interested Learning在本节中，我们将展示PI-2中PI发生器生成的AU 2和AU 6的PI图，并将其与图1中预定义的PI图进行比较。我们使用半透明掩模来指代在传统方法中使用的预定义PI图和在PI-2方法中使用的二进制PI图，其中红色像素为1并且蓝色像素为0。我们也在PI-2中显示热图格式的PI贴图，其中红色像素的值大于蓝色和绿色像素的值。通过比较，我们可以看到PIGenerator生成更精细的PI Map，不像补丁或预定义的PI Map必须具有直边和规则形状。在我们的消融研究中，这些更精细的PI标测图也被证明更有效通过介绍这些PI图，我们希望像素级和多区域PI图可以给AU注释者和研究人员一些有用的启示。5. 结论自动人脸AU检测是一项具有挑战性的任务。在本文中，我们提出了一种整合的战略方法，包括：用于像素级兴趣学习的策略PI、用于个人特定信息去除的策略AP以及具有离散反馈的半监督学习方法。这些方法可以联合用于在具有不正确标签的有限数据集上训练用于AU检测任务的通过对两个通用AU数据集的评估，PIAP-DF使最终模型优于所有现有模型。最后，PIAP-DF作为一种灵活的训练策略，任何使用它训练的模型都可以很容易地导出为轻量级AU编码器用于推理目的。这些编码器可以更好地适应生产环境，例如移动或物联网设备。6. 确认这项工作得到了中国国家自然科学基金（NSFC）的部分支持，联合基金62076034和61806184。引用[1] 塔达斯·巴尔特鲁斯·艾提斯、马尔瓦·马哈茂德和彼得·罗宾逊。用于自动动作单元检测的跨数据集学习和特定于个人的标准化在2015年第11届IEEE国际会议和自动面部和手势识别（FG）研讨会上，第6卷，第1-6页。IEEE，2015年。12909[2] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。2020年。[3] Wen-Sheng Chu， Fernando De la Torre， and Jeffery FCohn.用于个性化面部动作单元检测的选择性转印机在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第3515-3522页，2013年。[4] Ciprian Corneanu、Meysam Madadi和Sergio Escalera。用于面部动作单元识别的深层结构推理网络在欧洲计算机视觉会议（ECCV）的会议记录中，第298-313页[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[6] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页[7] Xiaoyu Ding，Wen-Sheng Chu，Fernando De la Torre，Jefery F Cohn，and Qiao Wang.通过任务级联的面部动作单元事件检测。在 Proceedings of the IEEEInternational Conference on Computer Vision（ICCV），第2400-2407页[8] 保罗·艾克曼达尔文，欺骗，和面部表情。Annals of theNew York Academy of Sciences，1000（1）：205[9] Paul Ekman和Wallace V Friesen。非语言泄漏和欺骗的线索。Psychiatry，32（1）：88[10] Stefanos Eleftheriadis Ognjen Rudovic和Maja Pantic。多条件潜变量模型用于联合面部动作单元检测。在IEEE计算机视觉国际会议（ICCV）的会议录中，第3792-3800页[11] 范荣恩、张凯威、谢卓瑞、王祥瑞、林志仁。Liblinear：一个用于大型线性分类的库。Journal ofMachine Learning Research，9（Aug）：1871[12] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议，第1126-1135页。PMLR，2017年。[13] E Friesen和Paul Ekman。面部动作编码系统：测量面部运动的技术。Palo Alto，3（2）：5，1978.[14] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。[15] 约翰·莫迪凯·戈特曼和罗伯特·韦恩·利文森。一个预测夫妻何时离婚的双因素模型：使用14年纵向数据的探索性分析。Family process，41（1）：83[16] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap your own latent：一自我监督学习的新方法。 arXiv 预印本 arXiv ：2006.07733，2020。[17] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。[19] Sander Koelstra Maja Pantic和Ioannis Patras。基于动态纹理的人脸动作识别方法及其时间模型。 IEEETransactionsonpatternanalysisandmachineintelligence，32（11）：1940[20] JeanKossaifi ， GeorgiosTzimiropoulos ， SinisaTodorovic， and Maja Pantic. 野外效价和唤醒估计的Afew-va数据库Image and Vision Computing，65：23[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网

下载后可阅读完整内容，剩余1页未读，立即下载