知识驱动的自监督表示学习：AU识别和数据效率

91 浏览量更新于2023-10-25 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20417知识驱动的自监督表示学习人脸动作单元识别张亚南，王尚飞*中国科学技术大学，安徽合肥网址：cyn123@mail.ustc.edu.cn，sfwang@ustc.edu.cn摘要人脸动作单元（AU）识别是一个有监督的学习问题.然而，复杂的标记过程使得为大量面部图像提供AU注释具有挑战性。为了弥补这一点，我们利用面部动作编码系统（FACS）定义的AU标记规则来设计一个新的知识驱动的自监督表示学习框架，用于AU识别。表示编码器使用大量没有AU注释的面部图像进行训练。从FACS中总结出所有的标记规则该方法利用骨干网络提取局部面部区域表示，并利用投影头将表示映射到低维潜在空间。在潜在空间中，对比学习组件利用区域间差异来学习AU相关的局部表示，同时保持区域内实例区分。还探索了从AU标记规则总结的面部区域之间的相关性，以使用预测学习组件来进一步学习表示。两个基准数据库的评估表明，学习表示是强大的和数据效率的AU识别。1. 介绍由面部动作编码系统[4]定义的面部AU描述了特定面部肌肉集的活动几乎所有的面部行为都可以通过一个或多个AU来表示。人脸AU自动识别因其潜在的广泛应用前景而备受关注.目前大多数关于面部AU识别的工作都是有监督的，需要完全AU标记的图像进行训练。一般来说，有两种不同的方法监督非盟的认可。第一个是要把自己的认知，*这是相应的作者。图1.（a）显示了AU12的判断区域。（b）左：根据AU相关的外观变化将面部区域分为八个部分。右：面部区域之间的关系。对应的AU被标记在边缘上。作为多标签分类问题，通过直接构建端到端深度网络来解决[2，5]。然而，AU通常与部分面部区域相关。这些作品只利用全局面部信息进行AU识别，限制了它们的性能。最近的工作[14，15，17，30]选择了第二种方法，该方法试图学习更多的AU特定模式以增强AU识别。例如，这些工作基于面部标志和肌肉来定位AU。特定AU的附近区域用于预测它们的标签。利用更多的AU特异性模式可以有效地提高AU识别。然而，AU标签必须由有经验的专家注释，这是时间和劳动密集型的。现有的AU标记的数据库太有限，无法利用这些监督方法。最近，一些作品已经解决了AU注释的问题。一些作品[25，27]尝试执行半监督AU识别。这些工作总结了来自地面真实AU标签的标签分布，并使用学习的分布来改进AU识别。然而，由于有限的地面实况AU标签，汇总的模式可能与真实分布不一致Li等[16]已经创建了自监督学习方法，其中使用大量未标记的图像来学习表示。它们利用两个广告帧之间的转换作为监督信号来学习AU相关20418全局面部表示，忽略AU的局部属性。还有几种自监督方法[1，6]通过对比学习学习强大的视觉表示用于图像分类然而，Liet al.[16]对比学习工作使用随机增强或时间信息设计自我监督任务。他们没有充分利用与任务相关的领域知识。为了解决这些障碍，我们提出了一种新的知识驱动的自监督表示学习框架，用于AU识别，以减轻对AU标签的需求。具体来说，我们首先总结AU标签规则从FACS领域知识。FACS根据不同的面部外观变化确定AU。例如，如图1a所示，AU12的一些关键的面部外观变化包括唇角抬高、眶下三角抬高等，总结了与AU12相关的外观变化，并根据外观变化的位置将面部区域分为八个部分，如图1b的左图所示。局部区域之间也存在相关性，如图1b的右图所示。最后利用这些知识设计了一个自监督表示学习框架。骨干网络提取每个面部部分的局部表示，并且项目头将局部特征映射到低维潜在空间中。在潜在空间中，对比学习组件和预测学习组件训练特征编码器。对比学习的挑战在于设计合理的数据对。正电子对拉得更近，负电子对推开。在我们的对比学习组件中，根据AU标记规则，将来自相同和相似区域的嵌入视为正对。所有其他的都被认为是负对。此外，对于每个区域，来自相同输入图像的嵌入被视为正对以保持区域内实例区分。我们提出了一个预测学习组件，以利用总结的区域间关系来增强表征学习。一组预测器用于学习潜在空间中不同区域的嵌入之间的区域间的最后，提出的表示学习框架在一个大型的可用的未标记数据库上进行训练。AU分类器在两个基准数据库上进一步训练，以评估学习的表示用于AU识别的有效性。本文的贡献可以概括如下。我们提出了一种新的知识驱动的自监督表示学习框架的AU识别，它可以学习AU相关的局部表示，从大量的可用的未标记的图像。与以前的自监督学习方法忽略任务相关的领域知识不同，我们利用局部面部区域之间的差异和相关性作为监督，在AU标记规则的指导下，在两个基准数据库上的评估表明，与最先进的自监督、半监督和监督方法相比，学习的局部特征对于AU识别是强大的和数据高效的2. 相关工作2.1. AU识别关于面部AU识别的全面调查可以在[18]中找到。在本节中，我们简要回顾了面部AU识别的进展。大多数最近的工作AU识别是基于监督的方法。一些作品[2，5]将AU识别视为多标签识别问题，并且已经取得了比手工制作的特征提取器更好的性能。然而，AU通常仅与部分面部区域相关。这些作品忽略了属性，这限制了它们的表现。最近的工作更喜欢通过学习AU特定的模式来增强AU识别。例如，Zhaoet al.[30]尝试联合解决区域和Li等[15]将感兴趣区域（ROI）适应与基于最佳LSTM的时间融合相结合。Shao等人[22]使用自适应注意力模块在其联合AU检测和face对齐框架中提取精确的局部特征（JAMA-Net）。 Li等[14]整合AU之间的语义相关性，为AU识别创建深度区域学习框架。Jacob等人[11]利用Transformer编码器执行AU识别。基于感兴趣区域提取AU特定的表示。Tang等人[26]通过像素感兴趣学习方法学习像素级注意力以增强AU识别。Song等人[23，24]利用图形神经网络利用AU相关性来增强AU识别。这些作品受益于利用更多与AU相关的模式。然而，监督作品需要完全AU标记的数据进行训练。缺乏可用的AU标记的数据库限制了它们的推广。一些作品试图缓解对AU注释的需求。几个执行半监督AU识别总结标签分布从地面真理AU标签。例如，Songet al. [25]边缘化潜在值，以解决贝叶斯群稀疏压缩感知（BGCS）方法推理期间丢失的标签。Wu等[27]介绍了一种半监督AU识别方法（DAU-R），其中AU分布由受限玻尔兹曼机（RBM）捕获。Niu等人[20]通过利用未标记的Web人脸图像提出半监督AU识别方法然而，从有限的地面实况AU标签学习的标签分布可能与它们的真实分布不一致。Li等[16]提出了用于AU识别的自监督表示学习。两个面部20419·我i=1表1.外观变化和判断区域为AU。AUAU名称外观变化裁判区域1内眉提升器额中有皱纹，内眉隆起。一、二、三2外眉提升器侧眉上挑，侧眼盖褶皱向上拉伸前额外侧有皱纹一、二、三4下眉器眉毛下垂，眉毛之间有皱纹或肌肉隆起二、三、四6丰颊器有鱼尾二三五六7一种盖体增湿器眼睛的缝隙变窄;下眼睑被拉伸和抬起。二、三9鼻皱器眼眶三角向上提起，鼻根有皱纹四五六10上唇提升器眶下三角内角有眼袋，上唇中心上提。五、六、七12唇部拉角器嘴角斜拉，鼻唇沟加深;眶下三角区向上隆起，眶下沟加深。五、六、七14迪普勒嘴角紧绷，嘴角有皱纹和凸起715丰唇器唇角下移;唇形向下拉伸;嘴角下方有凸起。七、八17钦·雷泽下唇向上翘，下巴上有皱纹七、八23润唇膏双唇紧闭。724唇膏有嘴唇贴在一起的痕迹725嘴唇部分有嘴唇分开和牙齿暴露的证据。七、八26下巴下降下颌骨松弛下垂，上下牙间隙七、八图像被用作监督信号以学习AU相关表示。大量未标记的视频可以用来训练框架。然而，Liet al.[16]与任务相关的领域知识不充分这些因素限制了它的性能。信号以经由预测学习组件进一步增强所学习的表示。3. 问题陈述令D={x}T表示没有AU的训练样本在本文中，我们提出了一个知识驱动的自监督表示学习框架，AU识别，可以学习强大的AU相关的局部表示从未标记的面部图像。2.2.自我监督学习近年来，自监督学习取得了很大的进展，它采用数据本身的监督信号最具竞争力的自监督表示学习方法是对比学习[1，6，9，12，21]，它利用对比损失来迫使低维数据嵌入将正数据对拉在一起，并将负数据对推开。对比学习的关键问题是如何设计合理的数据对。He'na f fetal. [9]通过将图像划分为重叠的小块，平均对比度Ive预测Ive编码He等人[6] Chenet al.[1]通过在随机数据增强下生成不同的图像视图来执行对比自监督Khosla等人[12]提出了考虑标签信息的监督对比学习。这些作品通常利用数据对之间的差异，使用随机扩增或补丁分割。然而，他们没有充分利用任务相关的领域知识.在本文中，我们利用领域知识来指导设计的自我监督学习框架。对于对比学习组件，根据AU标记规则设计数据对，利用区域间差异来监督表示学习。面部区域之间的对应被用作监督注释，其中xi表示面部图像，并且T是所有训练样本的数量目标是从D学习函数f（），以提取每个输入图像的AU相关局部表示。4. 方法从FACS总结AU标记规则。利用该知识来设计用于AU识别的自监督表示学习框架。4.1. AU标记规则AU描述面部肌肉活动。流式细胞仪详细介绍了如何识别AU和标记AU强度通过fa-cial外观变化。例如，AU1代表内眉提升器。AU1的重要外观变化包括内眉升高和前额中心出现皱纹。AU激活标志着面部不同区域的外观变化。表1列出了15种常见AU的主要外观变化我们根据出现的表观变化和面部标志的位置将全局面部区域划分为八个独立的判断区域，如图1b的左侧所示每个面部区域都是一个矩形框，由几个标有红色标记的特殊地标定位。表1总结了每个AU的判定面积例如，与AU 1相关的判断区域包括区域1、2和3。每个AU可以通过共同观察来判断几个不同判断区域的外观变化当不同的AU被激活时，面部区域将改变外观。不同的面部区域之间也存在相关性20420··i=1小批量，h1，h2，…H8. 然后一个项目我我我N2N图2显示了表示学习框架，一个低维的潜在空间v1，v2，…v8i=1，…2N.图2.框架。在骨干网络中，一幅输入的人脸图像首先通过不同的增强变换成两个不同的视图。然后利用基于CNN和ROI Align层的f（）为每个视图提取八个局部表示。投影头通过g（）将局部面部特征映射到低维潜在空间。在潜在空间中，引入对比学习和预测学习组件，以自监督的方式训练框架。一方面，外观变化与不对称区域相对应。例如，AU12和AU10都将在判断区域5、6和7中引起外观变化。当AU10被激活时，在区域7中上唇的内侧部分升高和在区域5和6中鼻唇沟的上部加深由于AU 12的激活，在区域7中的唇延长和在拐角处倾斜成角度将与区域5和6中的这表明，由于不同AU的激活，区域5、6和7中的外观变化是高度对应的另一方面，根据[3]，由于面部肌肉机制决定的对称性，在有意和情绪化的面部动作中，左右两侧的面部外观变化例如，当AU1被激活时，区域2和3中呈现的外观变化通常是相似的，尽管内眉抬起的幅度可能不同。区域间关系图总结在图1b的右图中，其中每个顶点表示一个判断区域。相关AU图1b是在图1b的左侧图像中定义的单独面部区域的表示为了利用AU标记规则以自我监督的方式训练特征编码器，项目负责人将局部面部表示映射到低维潜在空间，如在其他作品中[1，12]。最后，在归纳知识的指导下，在潜空间中设计了对比学习组件和预测学习组件，对表示学习框架进行训练。4.2.1对比学习组件根据总结的标注规则，可以将面部区域划分为八个部分。每个区域的表示方法都不相同。对比学习部分根据总结的知识区分面部区域的表征。首先，一小批从D中随机采样N个图像{x i}。再-用于训练的lated minibatch包括2N个样本，{xi}- 是的标记在连接相关顶点的边上。x2i x2i−1 是x的增广i=1 i（i=1... N）。通过后4.2. 提出的表征学习框架-工作通过f（·），.获得16N个本地代表，我我我i=1，…2N头部g（·）被应用于映射L。局部表示转换为包括骨干网、项目负责人、对比学习组件和预测学习组件。首先，通过不同的增强方法将输入的人脸图像变换为两个视图。然后，两个反式-来自相同或对称判断的嵌入区域被视为潜在空间中的正对;否则，它们被视为负对。v和u之间的余弦相似性可以表示为csim（v，u）=将所形成的视图分别代入f（·）中，vτuv.我们引入以下损失函数：20421i，p--pq我联系我们我L=J2N8p（三）是一个函数，如果p与q相关，则其值为1。vi表示K第i个图像x的第p个区域的预测嵌入我p我p=−我（i）ΣΣIjΣΣ我2N82N 8La=1000i=1p =1（一）表征学习在潜在空间中应用一组预测器来学习相关面部区域之间的关系。图2显示了局部嵌入之间的预测图。该组预测器表示为φqp，其中φqp表示从相关区域q的嵌入预测区域p的嵌入的预测器。每个箭头有总共采用a=1·1·n（v，v）（2）i，pNi，pj=1q=1[i=jpq][q∈Φ（p）]i j来学习局部面部区域之间的相关性预-公式7中示出了指令关系，其中vq表示小批量中第i个图像x的第q个潜在特征p q exp（csim（vp，vq）/τ）K表示区域p的相关区域的数量。1[q]（v，v）=−logpΣΣ1[i̸=k∨p̸=r]·exp(csim(vi,vr)/τ)其中Ni，p是与嵌入vp相关的正对的总数。1[·]0 ， 1是一个函数，如果条件为真，则计算结果为1。Φ（p）表示面积集，包括p及其对称面积（如果对称面积存在）。τ是温度参数。上述损失小批量对于区域p，来自同一图像的其他相关区域的多个预测表示被平均作为最终预测结果。8vp=11·φ（vq）（7）函数将正数据对拉得更近，将负数据对推开。然而，它往往会减少区域内表示的多样性。区域内对比学习被用来抵消这一点。对于每个局部人脸区域，处理来自同一输入人脸图像作为阳性对;否则，它们被视为阴性IKq=12N8.Lpre=i=1p=1[qp]qpivp·vpΣ（八）对.损失函数定义如下：8B bMm=1（四）预测嵌入和目标嵌入之间的距离由一个余弦损失闭合该函数如等式8所示。损失函数迫使预测嵌入接近目标嵌入。不同领域的表征之间的相关性被用来监督表征学习框架的训练。b2NMi=1exp（csim（vm，vm2N）/τ）1[ki]·exp（csim（vm，vm）/τ）4.2.3整体学习k=1Ik整体学习损失定义为等式9，其中α其中，k（i）是来自相同输入面部图像的另一增强图像的索引。整体对比学习损失定义为等式6，其中λ是平衡的权重评估区域内实例多样性的程度总的来说，对比学习组件利用区域间差异作为监督信号，同时保持区域内表示多样化。Lcon=La+λLb（6）4.2.2预测学习组件由于AU的激活，局部面部区域之间存在对应关系由于外观变化的区域间共现关系，一个判断区域的表示应该从其相关区域预测。在本节中，我们将介绍一个预测学习组件，它利用这些关系来增强和β是加权系数以平衡对比分量和预测分量。L=αLcon+βLpre（9）对比学习组件试图利用区域间差异来训练特征编码器，同时保持区域内实例多样性。预测学习组件利用不同区域之间的相关性来进一步增强所学习的表示。通过联合训练对比学习和预测学习成分，我们的方法可以区分不同区域的表示面部区域之间的差异和对应性都被用作监督信号，以改善对与AU相关的局部表示的学习。AU标记规则指导自监督表示学习框架的设计。k=1r=11− viℓ日志（五）20422····5. 实验5.1. 实验条件该框架是在BP4D+数据库上训练的[29]。训练后，通过在两个数据库上训练AU分类器来评估学习的表示：BP4D数据库[28]和丹佛自发性行为强度数据库（DISFA）[19]。BP4D+数据库是一个由140名受试者组成的多模态自发情感语料库每个参与者完成10个任务。总共有大约140万帧。使用所有可用的2D图像样本。子样本被随机划分，70%用于训练，30%用于验证。BP4D数据库包括来自41名受试者的8项任务的自发面部视频。这些受试者与BP4D+数据库记录的受试者不同。有 328个用12个AU编码的二维视频（即，AU1 、 AU2 、 AU4 、 AU6 、 AU7 、 AU10 、 AU12 、AU14、AU15、AU17、AU23和AU24）。我们使用所有可用的AU标签和大约140，000个有效图像样本。DISFA数据库由27名受试者的自发视频组成。AU用范围为0至5的强度标记。大约有130，000个有效图像样本。八个 AU （即， AU1 、 AU2 、 AU4 、 AU6 、AU9、AU12、AU25、和AU 26），并且强度大于或等于2的每个AU被视为活性的。应用Dlib工具包[13]为每个图像检测68个面部标志。增强方法是具有不同亮度、饱和度、色度和色调的随机颜色失真。f（）包括CNN和RoI对齐层[7]。CNN基于ResNet-50网络[8]。从conv4 x的最终卷积层提取的特征被用作全局特征，这是其他作品中的常见做法[7，10]。f（）将224 x 224 RGB图像作为输入，并输出每个面部区域的4096维局部表示。g（）是一个多层感知器（MLP），隐藏层大小为2048;它输出大小为128的向量。在潜在空间中，应用一组预测器来学习向量对应关系。每个预测器是一个MLP与一个单一的隐藏层的大小为1024。表示学习框架通过最小化等式9中的损失函数进行端到端训练。λ、τ、α和β分别设置为0.1、0.07、0.01和1。该框架由PyTorch实现，并由Adamoptimizer训练，初始学习率为0.0001，批量大小为128。为了评估学习的表示，AU根据表1中的相关判断区域分为几组。AU通常通过联合观察几个相关的判断区域来判断。表2显示了预测的AU组及其相关的面部判断区域。基于MLP的AU分类器表2.面部区域和预测AU之间的对应关系。面部区域预测AU一、二、三、四AU1、AU2、AU4二三五六AU6、AU7四、五、六、七AU9、AU10、AU127AU14、AU23、AU24七、八AU15、AU17、AU25、AU26（一）（b）第（1）款图3. (a)BP4D和DISFA数据库上不同λ的F1评分。(b)在BP4D和DISFA数据库中使用不同α的F1评分。大小为1024和128的隐藏层经由交叉熵损失（固定f（）的参数）针对每个组进行训练。对BP4D和DISFA数据库使用了独立于受试者的3重交叉验证。采用F1评分来评价AU识别的性能。5.2. 实验结果及分析5.2.1对比学习组件如等式6所示，区域间对比学习损失La试图区分来自不同面部区域的嵌入，但倾向于减少区域内表示的多样性。Lb试图保持区域内实例的多样性，但也在一定程度上减少了区域间的差异。λ是用于平衡区域内实例多样性的程度的权重。当λ为0时，丢弃区域内损失Lb并且不考虑区域内实例多样性。随着λ的增加，Lb的权重20423也增加。我们用不同的λon训练表示学习框架，20424表3. BP4D数据库上的自监督AU识别的F1得分。方法SimCLRMocoTCAE我们AU111.37.643.150.1AU26.02.932.245.4AU419.713.744.453.6AU667.579.275.179.2AU772.279.870.578.4AU1081.185.080.885.2AU1275.887.785.587.4AU1452.661.661.865.4AU1516.033.734.751.5AU1722.356.858.556.1AU234.516.337.244.6AU249.428.848.742.0Avg.36.546.156.161.6BP4D+数据库，并通过在BP4D和DISFA数据库上训练AU分类器来评估学习到的表示。两个数据库中不同λ的F1评分见图3a。当λ为0.1时，这是最佳结果，与λ为0.1时相比，BP4D和DISFA数据库上的F1评分分别增加了7.6%和8.6%0.实验结果表明，在保持区域内实例区分度的同时，利用区域间差异进行表征学习是有效的.当λ增加超过0.1时，F1分数趋于降低。对比学习部分擅长平衡区域间嵌入的差异和区域内嵌入的多样性。5.2.2对比性和预测性学习成分在本节中，我们通过在等式9中设置不同的α来评估对比和预测学习组件，而β等于1。当α为0时，丢弃对比学习分量。在此设置下，特征编码器仅由预测学习组件训练。随着α的增加，对比学习组件的权重增加。图3b显示了BP4D和DISFA数据库的评估结果从图3b中可以看出，当α为0.01时，与α为0时相比，性能显著提高。它表明，利用地区间差异是重要的。当α超过0.01时，由于预测学习分量的权重较小，结果趋于下降。这一结果表明，对比学习和预测学习成分可以相互补充。平衡两个分量有利于表示学习。5.3. 与自我监督方法的我们将我们的方法与几种自监督方法进行了比较，包括Simplified [1]，MoCo [6]和TCAE [16]。Simplified和MoCo模型在BP4D+数据库上重新训练。这两种模型都基于ResNet-50表4.DISFA数据库上自我监督AU识别的F1得分方法SimCLRMocoTCAE我们AU123.88.915.154.6AU220.316.515.253.6AU442.955.950.558.1AU635.148.448.752.5AU916.420.223.345.5AU1261.372.172.177.6AU2570.384.982.186.9AU2632.313.552.953.2Avg.37.840.045.060.2（一）（b）第（1）款图4. (a)BP4D数据库上半监督AU识别的F1得分。(b)DISFA数据库上半监督AU识别的F1得分。架构TCAE提供对BP4D和DISFA数据库的评估。他们的实验结果被用作直接比较。表3和表4显示了BP4D和DISFA数据库上的自我监督结果。该方法在BP4D和DISFA数据库上分别比Simplified提高了25.1%和22.4%。在这些数据库上，我们的方法也比MoCo好15.5%和20.2%。与两种对比学习方法相比，该方法充分利用领域知识指导自监督任务的设计，提高了任务相关表征学习能力。我们的方法也优于TCAE，在BP4D和DISFA数据库上获得的F1分数分别高出5.5%和15.2%。TCAE忽略了AU的局部属性和领域知识我们的方法利用AU标记规则来设计一个自监督框架-20425··表5.在BP4D数据库上的监督AU识别的F1得分方法AU1AU2AU4AU6AU7AU10AU12AU14AU15AU17AU23AU24Avg.DRML36.441.843.055.067.066.365.854.133.248.031.730.048.3ROI36.231.643.477.173.785.087.062.645.758.038.337.456.4JA A-Net53.847.858.278.575.882.788.263.743.361.845.649.962.4SRERL46.945.355.677.178.483.587.663.952.263.947.153.362.9UGN-B54.246.456.876.276.782.486.164.751.263.148.553.663.3HMP-PS53.146.156.076.576.982.186.464.851.563.049.954.563.4脂肪51.749.361.077.879.582.986.367.651.963.043.756.364.2PIAP54.247.154.079.078.286.389.566.149.763.249.952.064.1我们53.347.456.279.480.785.189.067.455.961.948.549.064.5表6.DISFA数据库上的监督AU识别的F1得分方法AU1AU2AU4AU6AU9AU12AU25AU26Avg.DRML17.317.737.429.010.737.738.520.126.7ROI41.526.466.450.78.589.388.915.648.5SRERL45.747.859.647.145.673.584.343.655.9JA A-Net62.460.767.141.145.173.590.967.463.5UGN-B43.348.163.449.548.272.990.859.060.0HMP-PS38.045.965.250.950.876.093.367.661.0脂肪46.148.672.856.750.072.190.855.461.5PIAP50.251.871.950.654.579.794.157.263.8我们60.459.267.552.751.576.191.357.764.5工作，可以学习AU相关的本地表示，显着提高性能。通过我们的方法学习的局部特征比以前的自监督方法学习的局部特征更强大5.4. 与半监督方法的本节评估学习的表示是否能够实现数据高效的AU识别。在这两个数据库中，一定比例的样本（即，10%、20%、30%、40%或50%）在训练AU分类器时丢失（固定f（）的参数）。我们的方法与DAU-R [27]和BGCS [25]进行了BGCS被重新训练，因为它没有提供两个数据库上的实验结果，而DAU-R在BP 4D数据库上的结果被直接引用。图4显示了两个数据库上的结果。首先，随着缺失率的增加，方法的性能表现出下降的趋势。更多的超分辨率信息改善了AU分类器训练。其次，在不同的缺失率下，我们的结果比DAU-R和BGCS都有很大的改进。DAU-R和BGCS都总结了来自有限的地面实况AU标签的标签分布，以约束未标记的数据。我们的方法的更好的性能表明，它可以从许多未标记的图像中学习强大的模式，比以前的半监督方法更有效地识别AU。5.5. 与监督方法的我们还将我们的方法与最先进的监督方法进行了比较，包括 DRML [30] ， ROI [15] ， SR-ERL[14] ，JAWARTA-Net[22]，UGN-B[23]，HMP-PS[24]，[26][27][28][29]表5和6显示了结果。在本节中，我们进一步微调f（）的参数。我们的结果优于最近的监督方法，两个数据库。我们的F1得分分别为16.2%、8.1%、2.1%、1.6%，比 DRML 、 ROI 、 JAEQUA-Net 、 SRERL 、 UGN-B 、HMP-PS 、 FAT和 PIAP 分别高 1.2% 、 1.1% 、 0.3% 和0.4%，BP4D数据库在DISFA数据库上，我们的方法的结果也高于监督方法。虽然这些工作试图分割人脸来提取与AU相关的特征，但它们需要完全AU标记的图像进行训练。我们的知识驱动的方法能够从大量的未标记的面部图像中学习局部这些结果表明，学习的无监督表示是强大的和良好的推广。6. 结论在本文中，我们提出了一种新的知识驱动的自监督表示学习框架AU识别。总结并借鉴了所有的标注规则，以指导框架的设计具体而言，根据AU标记规则，将正面区域划分为八个单独的部分。引入了基于面部区域差异的对比学习组件来训练特征编码器。通过预测学习组件来探索面部区域之间的对应关系，以增强表征学习。该框架是在一个大型未标记数据库上训练的。两个基准数据库的评估表明，学习的特征优于其他自监督方法，具有更好的泛化能力和数据效率的AU识别。致谢本研究得到了国家重点研发计划（ 2018YFB1307102 ）和国家自然科学基金（92048203）的资助。20426引用[1] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。二、三、四、七[2] Wen-Sheng Chu， Fernando De la Torre， and Jeffrey FCohn.学习空间和时间线索的多标签面部动作单元检测。在2017年第12届IEEE国际自动人脸手势识别会议（FG 2017）上，第25-32页IEEE，2017年。一、二[3] Paul Ekman，Joseph C Hager，and Wallace V Friesen.情感和刻意面部动作的对称性。精神生理学，18（2）：101-106，1981. 4[4] E Friesen和Paul Ekman。面部动作编码系统：一种测量面部运动的技术。帕洛阿尔托，1978年3月。1[5] Shizhong Han，Zibo Meng，Zhiyuan Li，James优化卷积神经网络中用于面部动作单元识别的滤波器大小在IEEE计算机视觉和模式识别会议论文集，第5070-5078页，2018年。一、二[6] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页二、三、七[7] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具 R-CNN 。在 IEEE 计算机视觉国际会议（ICCV）的会议记录中，2017年10月。6[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。6[9] Oli vierJHe´ naf f，Ara vindSriniv as，Jef fre yDeFauw，AliRazavi，Carl Doersch，SM Eslami，and Aaron vanden Oord.使用对比预测编码的数据高效图像识别。arXiv预印本arXiv：1905.09272，2019。3[10] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu，Anoop Korattikara，Alireza Fathi，Ian Fischer，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，et al.Speed/accuracy trade-offs for modern convolutional objectdetectors.在IEEE计算机视觉和模式识别会议的论文集，第7310-7311页6[11] Geethu Miriam Jacob和Bjorn Stenger。面部动作单位检测与变压器。在IEEE/CVF计算机视觉和模式识别会议论文集，第7680-7689页，2021年。二、八[12] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna ， YonglongTian ， PhillipIsola ， AaronMaschinot，Ce Liu，and Dilip Krishnan.监督对比学习。arXiv预印本arXiv：2004.11362，2020。三、四[13] 戴维斯·E·金 Dlib-ml：一个机器学习工具包。机器学习研究杂志，10：17556[14] Guanbin Li，Xin Zhu，Yirui Zeng，Qing Wang，andLiang Lin.语义关系引导的表征学习-进行面部动作单元识别 arXiv 预印本 arXiv ：1904.09939，2019。一、二、八[15] Wei Li，Farnaz Abtahi，and Zhigang Zhu.基于区域自适应、多标记学习和最佳时间融合的动作单元检测。在IEEE计算机视觉和模式识别会议论文集，第1841-1850页一、二、八[16] Yong Li，Jiabei Zeng，Shiguang Shan，and Xilin Chen.用于面部动作单元检测的视频自监督表示学习。在IEEE计算机视觉和模式识别会议论文集，第10924一、二、三、七[17] 陈马，李晨，君海庸。Au r-cnn：将专家先验知识编码到r-cnn中，用于动作单元检测。神经计算，355：35-47，2019。1[18] Brais Martinez ， Michel F Valstar ， Bihan Jiang ， andMaja Pantic. 面部动作的自动分析：调查。 IEEEtransactions on affective computing，2017。2[19] S Mohammad Mavadati、Mohammad H Mahoor、KevinBartlett、Philip Trinh和Jeffrey F Cohn。Disfa：自发面部动作强度数据库。 IEEE Transactions on AffectiveComputing，4（2）：151-160，2013. 6[20] 牛雪松，韩虎，Shiguang Shan，陈西林。半监督人脸动作单元识别的多标记共正则化。NIPS，2019年。2[21] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比预测编码的表示学习。 arXiv 预印本 arXiv ：1807.03748，2018. 3[22] Zhiwen Shao，Zhilei Liu，Jianfei Cai，and Lizhuang Ma.通过自适应注意力联合面部动作单元检测和面部对齐。国际计算机视觉杂志，129（2）：321-340，2021。二、八[23] 宋腾飞，陈丽莎，郑文明，季强。用于面部动作单元检测的不确定图神经网络在AAAI人工智能会议论文集，第1卷，2021年。二、八[24] 宋腾飞，崔子君，郑文明，季强。用于面部动作单元检测的具有性能驱动结构的混合消息传递在IEEE/CVF计算机视觉和模式识别会议论文集，第6267-6276页二、八[25] Yale Song ， Daniel McDuff ， Deepak Vasisht ， andAshish Kapoor.利用稀疏性与共现结构进行动作单元辨识。2015年第11届IEEE国际会议和自动人脸和手势识别研讨会（FG），第1卷，第1-8页。IEEE，2015年。一、二、八[26] Yang Tang ， Wangding Zeng ， Dafei Zhao ， andHonggang Zhang. Piap-df：具有离散反馈学习的像素感兴趣和反个人特定的面部动作单元检测网络IEEE/CVF计算机视觉国际会议论文集，第12899-12908页，2021年。二、八[27] Shan Wu，Shangfei Wang，Bowen Pan，Qiang Ji.从部分标记的数据中进行深度面部动作单元识别。在IEEE计算机视觉国际会议论文集，第3951-3959页，2017年。一、二、八[28] Xing Zhang，Lijun Yin，Jeffrey F Cohn，Shaun Cana-van，Michael Reale，Andy Horowitz，and Peng Liu. 一20427高分辨率自发三维动态面部表情数据库。2013年第10届IEEE国际会议和自动人脸和手势识别研讨会（FG），第1-6页。IEEE，2013。6[29] Zheng Zhang，Jeff M Girard，Yue Wu，Xing Zhang，Peng Liu ， Umur Ciftci ， Shaun Canavan ， MichaelReale ， Andy Horowitz ， Huiyuan Yang ， et al.Multimodalspontan

下载后可阅读完整内容，剩余1页未读，立即下载