基于上下文感知特征和标签融合的部分标签人脸动作单元强度估计

123 浏览量更新于2023-10-13 收藏 901KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

733基于上下文感知特征和标签融合的部分标签人脸动作单元强度估计张勇1人，姜海勇2人 *，吴宝源1人，范艳波1人，季强3人1腾讯人工智能实验室、2新加坡南洋理工大学、3伦斯勒理工学院{zhangyong201303，haiyong.jiang1990，wubaoyuan1987，fanyanbo0124}@ gmail.com，qji@ecse.rpi.edu摘要面部动作单位强度估计是面部行为分析的一项基本任务.大多数以前的方法使用整个面部图像作为强度预测的输入。考虑到AU是根据其对应的局部外观来定义的，一些基于块的方法利用局部块的图像特征然而，局部特征的融合总是通过简单的特征级联或求和来执行。此外，这些方法需要完全注释的数据库来进行模型学习，这是昂贵的。在本文中，我们提出了一种新的基于弱监督块的深度模型的基础上的两种类型的注意力机制的联合强度估计的多个AU。该模型由特征融合模块和标签融合模块组成。我们用一个可学习的任务相关上下文来增强这两个模块的注意机制，因为一个补丁在分析不同的AU时可能扮演不同的角色，并且每个AU都有自己的时间演化规则。上下文感知特征融合模块用于捕获局部块之间的空间关系，而上下文感知标签融合模块用于捕获AU的时间动态。后者使模型能够在部分注释的数据库上进行训练。在两个基准表达数据库上的实验结果表明了该方法的优越性能。1. 介绍面部动作编码系统（FACS）[5]定义了一组AU来描述面部肌肉的运动。每个AU与一个或一组肌肉相关联。 AU可以被视为编码几乎所有解剖学上可能的人类表达的基本元素[22]。AU强度用于描述肌肉运动的程度，它提供了面部行为的详细信息。它是量化的*作者平均贡献†通讯作者图1.所提出的方法的训练和推理阶段。在训练过程中，我们使用序列作为输入，并使用序列级别标签（峰和谷帧的强度注释）来提供监督。特征融合和标签融合是增强注意机制的两个重要组成部分。在推断期间，我们使用单个帧作为输入以及学习的任务相关上下文来执行上下文感知AU强度估计。在流式细胞仪中分为六个等级自动AU强度估计对于面部行为分析是有价值的，但它比AU检测更具挑战性，因为区分相邻强度之间的细微变化比识别AU的存在更困难。AU检测[56，54，57，19，53]和AU强度估计[47，50]中的大多数先前方法专注于从整个面部图像中提取特征。一些基于区域或块的方法[61，12]从局部区域提取特征，因为AU是根据包含信息块的局部区域的面部外观定义的。大多数深度学习方法，如[43，48]直接将整个图像输入深度模型，而只有几种方法[62，20，17，25]考虑从局部补丁中提取深度特征。这些方法简单地通过级联，求和或多层感知器（MLP）融合特征[17]（见图2）。注意，这些基于块的方法在特征融合期间平等地对待每个块，而不考虑块之间的连接或块与给定AU的相关性。然而，当注释AU的强度时，我们专注于AU相关区域而忽略不相关区域。因此，应治疗734(a) 级联（b）求和（c）MLP标签融合上下文感知的特征融合用于捕获局部块之间的空间关系，而上下文感知的标签融合用于捕获AU的时间动态。后者是使模型能够使用部分标记数据学习增强的注意力机制允许模型预测特征注意力，AUsAUs………根据给定的AU自适应地标记注意力我们的贡献有两个方面：• 我们提出了一种新的基于弱监督块的深度模型，该模型由特征融合模块和(d)用于动力学建模的图2.现有的多斑块特征融合和序列动力学建模策略。根据他们与给定AU的关联不同。尽管流式细胞仪提供了面部特征的描述-在每个强度的单位，这是相当费力和前，对大规模数据库进行注释的思考[4]。一些方法利用部分注释的数据库来学习用于强度估计的模型，包括浅模型[63，35，60，59]和深模型[58]。这些方法结合了知识，以提供额外的监督，以弥补缺乏强度注释。然而，浅层模型只能将预提取的特征作为输入而不是原始图像，并且它们具有有限的表示能力。端到端深度模型[58]仅考虑从视频片段随机采样的四个帧之间的时间关系。它不能准确地反映连续段中AU的时间演化。此外，这些方法为每个AU训练模型，并且不能执行多个AU的联合强度估计。为了减轻标记AU强度的负担并利用信息丰富的局部面部外观，我们提出了一种基于两种类型的注意力机制的弱监督的基于块的深度模型，以同时估计多个AU的强度。整个管道如图所示。1.一、我们只在视频中的峰和谷帧（关键帧）上使用强度注释，而不是在标记每个帧上花费精力。然后将关键帧的注释作为序列级标签。该模型由特征融合模块和标签融合模块组成，这两个模块的设计基于以下两个观察。首先，对于每个AU，其强度标签仅由其相关区域的局部外观确定。不相关的区域应该被忽略。在分析不同的AU时，每个补丁应该做出不同的贡献。其次，每个AU都有自己的时间序列演化规则。在对AU的动态建模时，每个AU应该被不同地对待补丁的重要性和时间动态都应该根据给定的AU建模为此，我们增加了两个注意力机制与可学习的任务相关（AU相关）的背景下的功能和标签融合模块。该模型可以在部分注释的数据库上训练，这大大节省了标记AU强度的工作。• 我们引入了一种新的策略，通过将一个可学习的任务相关的控制，以更好地特征和标签融合注意力分为两种机制。增强的注意力机制允许学习任务相关的特征并捕获AU的任务相关的时间演变。2. 先前工作监督学习方法。最现有 AU强度估计的方法是监督学习方法，其需要大量完全注释的样本以实现良好的性能，包括基于帧和基于序列的方法。基于框架的方法[12，14，13，26，26，52，28，27]学习估计器以从单个图像预测AU强度，包括相关向量机[12，14]，潜在树[13]，多核SVM [26]和copula序数回归[47]。基于序列的方法[31，38，32，1，33，18]通过考虑多个帧之间的关系对动态进行建模。概率图形模型是捕获AU强度的空间和时间依赖性的有效工具，包括隐藏条件有序随机场（H-CORF）[31]、内核CORF [32]、上下文敏感CORF[33]和动态贝叶斯网络[18]。最近，提出了几种深度学习方法[7，48，43，64，15，37，49]用于AU强度估计，包括 CNN [7] ， CCNN [48] ， 2DC [43] 和 HBN[49]。这些监督学习方法要求数据库应该被完全注释，即，每帧序列都有AU强度的标注，从而可以获得良好的性能然而，即使对于受过训练的AU编码器，注释AU的强度也比注释AU的存在更困难。对大规模数据库进行注释是一项昂贵且费力的工作。弱监督和半监督学习方法。一些弱监督或半监督方法使用部分帧的序列级标签或标签进行模型学习。多实例学习（MIL）[65]是一种常用的使用序列级标签的策略，已应用于面部事件检测[36，41]和关键帧检测[42，40]。LSTMLSTMt1t2735vvv，n，n}vN还有一组深度MIL方法[51]，结合了MIL和深度学习的思想。然而，这些方法集中在二进制分类问题，这不能推广到AU强度估计，因为AU强度有六个有序尺度。提出了几种基于注意力的MIL方法[46，29，11只有两种MIL方法被提出用于帧级AU强度估计，即，[34]和[60]。MI-DORF使用峰值帧的强度进行训练，并需要一个序列作为推理的输入。BORMIR仅使用峰和谷帧的注释，并利用不同类型的领域知识来提供弱监督。除了MIL，还有几种方法使用部分注释进行学习。Fernando等人 [3]通过计算一个帧和峰值的特征之间的相似性，将峰值帧的AU标签传播到未标记的帧。 Zhao等人 [63]结合有序回归和SVM，利用关键帧的标注训练线性模型。Zhang等人。 [58]使用关键帧的注释和元组中四个帧之间的关系来学习深度模型。然而，仅四帧不足以捕捉序列中的详细动态。类似地，我们的方法使用关键帧来学习AU强度估计器[3，60，63，58]。相应地，我们根据给定的任务，通过将与任务相关的上下文整合到注意机制中，自适应地对时间动态进行建模。长短期记忆（LSTM）网络用于捕获帧之间的时间关系，旨在预测每个帧的标签注意力（见图2）。4），而不是AU标签[16，2]（见图。第2d段）。增强注意力机制，因为对于不同的AU，每个补丁应该被不同地对待。我们还考虑了局部和全局特征的融合。3. 该方法在这项工作中，我们提出了一种新的基于弱监督块的深度模型的基础上，两个注意力机制的AU强度估计。该框架如图所示。1.一、我们首先介绍了问题状态，然后在第二节中介绍了特征和标签融合模块。第3.1节和第3.2分别。目标函数定义见第2节。第3.3节问题陈述。给定一组仅具有峰和谷帧（关键帧）的AU强度注释的表达序列，我们的目标是学习多个AU的帧级强度估计器。关键帧识别如下[63，58，23]。给定AU的关键帧在每个片段中，AU强度单调增加、减少或保持不变。我们反转具有降低AU强度的片段的帧顺序。然后，每个片段从谷帧演变到峰帧。由于关键帧的位置对于每个AU是不同的，因此序列对于每个AU被单独地分割。设独热向量v∈RK指定AU的范畴例如，v=[1，0，...，0]表示第一个AU。K是AU的数量设Xv={X1，.，表示具有AUv的T个帧的段。Xt是第t帧的原始图像设yv∈R表示谷标架X1的强度，yp∈R表示峰标架XT的强度.它们是Xv的序列水平标记。给予基于补丁的方法。基于补丁的方法提取fea-部分标记数据库D={Xv，n，yvpv，nn=1，从信息丰富的局部区域提取纹理，以减少不相关区域的副作用。斑块的特征通过连接、求和或MLP融合。Zhao等人 [61]从界标周围的区域提取特征，以通过连接形成最终的特征向量。他们进一步提出了一种用于检测多个AU的深度区域多标签学习（DRML）方法[62]通过卷积融合图像块的特征图。 Li等人 [17]将预定义的注意力图与VGG的特征图相乘，并通过MLP融合裁剪的局部特征图。裁剪特征图的融合也用于[16]和[21]，以及LSTM来捕获时间动态。李等人[20]使用相同的策略，[61]以提取地标周围的特征。它们使用注意力机制（即，预测权重图的附加分支）来提取每个块的特征，然后经由MLP融合局部特征没有考虑斑块之间的关系与这些方法不同的是，我们的方法使用增强的注意力机制来捕获补丁之间的空间关系进行特征融合，而不是特征提取。我们引入了一个可学习的任务相关上下文，我们学习用于多个AU的帧级强度估计器其中N是训练段的数量。3.1. 上下文感知特征融合以前的基于补丁的方法简单地通过级联，求和或MLP融合局部特征（见图1）。2）的情况。它们对每个斑块都一视同仁，而不考虑它们之间的空间关系，即斑块的重要性.我们通过设计一个注意模块来实现空间关系来改进这一点。然而，AU强度的标注应根据AU相关的局部斑块而不考虑无关的局部斑块，且不同AU的相关斑块是不同的。为此，我们结合了一个可学习的任务相关的上下文，以增强注意力机制，捕捉局部补丁之间的空间关系。特征融合模块的框架如图所示。3.第三章。输入的人脸图像被分解成M块，其中包含AU的局部外观该方法首先提取图像块的特征，然后利用增强的注意机制将其与任务相关的上下文信息进行融合。我们的方法，y736m=1t=1JC HJ12不图3.上下文感知特征融合模块通过对不同的空间块放置不同的重要性来捕获空间关系然后，将融合的特征与通过将整个面部图像馈送到专用CNN中而提取的全局特征连接。让X={P1，P2，...，PM}表示框架X的局部片并且P0表示X的经调整大小的图像。的提取局部和全局特征可以表示为hm= gm（Pm; Θg ，m），m ∈ {0，1，2.，M}，（一）其中g，m是第m个CNN，Θg，m是其参数。以前的方法，如[46]假设袋状层特征是以下特征的加权总和图4.上下文感知标签融合模块注意力的计算涉及所有补丁，任务和上下文。当任务v变化时，每个补丁的注意力也会相应变化。这种设计与AU强度的注释过程一致，其中同一块在不同AU的强度估计中扮演不同的角色。上述融合特征是局部的，但全局特征也很重要。因此，我们通过级联来组合局部和全局特征，因为它们是在两个不同的尺度下提取的，即，f=[h，h0].（三）3.2. 上下文感知标签融合所有实例的特征，即，h=Mm=1 Amhm在哪里面部肌肉相互配合，{am}N是一组需要学习的变量。的变量有意义的表达。每个非盟都有自己的发展规律不依赖于图像表示。其次，方法例如[55]直接使用潜在特征来预测注意力暂时的例如，一些AU的外观在一段时间内快速变化，而另一些AU的外观在一段时间内快速变化。重量为h=Mm=1 a（Pm;X）hm. 补丁atten-缓慢而平稳地变化。时间动态a（Pm;X）只取决于图像。注意，这些方法预测的不同的UE是相同的，任务然而，每个补丁扮演不同的角色，分析不同的AU。在预测不同的AU时，斑块的注意力值应该不同。这些方法的注意机制没有正确地模拟任务相关的空间关系之间的局部补丁。应该根据给定的AU建模，而不是对所有AU使用相同的方式。因此，我们将可学习的任务相关的上下文中的注意力机制标签融合学习任务相关的动态AU。上下文感知标签融合的框架如图所示4.第一章给定AUv的一个片段和其峰帧和谷帧，即， {Xv，yv，yp，v}，fea-V V为了缓解这个问题，我们改善了注意力机制-通过结合可学习的任务相关的上下文。让C∈RK×dc表示与任务相关的上下文，它是一个变量，首先使用特征融合模块为输入片段的每个帧提取特征（见图11）。（3）第三章。我们-将所有帧的输出特征标注为F={f，f，.，f}，v 1 2T能够学习。每行是一个AU的上下文向量，dc是上下文的维度。AUv的上下文是c=Cv。局部特征的融合可以表示为ΣMh=a（Pm;X，C，v）hm，（2）m=1其中a（Pm;X，C，v）是计算空间其中ft∈Rdf，df是融合特征的维数。特征Fv然后被馈送到单层长短期内存（LSTM）网络以及上下文Cv。对于每个时间戳，LSTM将ft和Cv的级联作为输入，输出是一组两个元素对，{r_t，s_t}T =g_lst_m（F，C，v;Θ_lst_m），⑷注意Pm，考虑X中的所有面片，任务v和任务相关上下文C。我们的语境增强注意力机制的功能是其中，Θlstm表示LSTM的参数，=r<$（ft;F，C，v），且s<$t=s（ft;F，C，v）.我们通过一个softmax函数对输出进行标准化，即。例如，Rt=exp{wTtanh（WcCv+Whhm）}exp{rt}/jexp{rj}和st=exp{st}/jexp{sj}。Rta（Pm;X，C，v）=exp{wTtanh（W Cv+Wh）}，是时间戳t处相对于峰值标签的时间标签注意力，737其中w、Wc和Wh是可学习的参数。请注意，斑块之间的空间关系反映在尊重山谷的标签。注意T的每一段帧只有序列级738vvvvvv不v，n，n}v v vv标签（即，峰帧和谷帧的注释）。其他帧未标记。受[29]和[60]的启发，我们假设序列级标签是弱监督学习的帧级标签的线性组合。序列水平标记的估计被定义为其中A∈RT−1×T是一个矩阵，其中Ai，i= 1，Ai，i+1=-1，其他元素为0在表达序列中，面部外观变化因此相邻帧具有相似的面部外观。我们用平滑规则约束标签注意力，y= ΣTt=1r（ft;F，C，v）yt，（5）L2=1（rT2Lr+ sT Ls），（9）ΣTyv=s（ft;F，C，v）yt，（6）其中L = B-C是拉普拉斯矩阵。C是相邻的矩阵Ci，j=1，如果|i−j|=1时。其它要素是t=10。 B是一个矩阵，其中Bi，i=j Ci，j具有其他元素其中yt是第t个月AUv的估计强度为0目标函数定义为帧由yt=fTWov. Wo∈RK× df是一个输出矩阵，L= L0+ λ1L1+ λ2L2。（十）将要素映射到多个AU。 wv=Wov是对应于AUv.标签注意r（ft;F，C，v）和s（ft;F，C，v）依赖于所有框架的特征和任务相关的约束。短信了这里，上下文感知注意力机制起到与特征融合部分类似的作用，即，允许相应地相对于给定任务对AU的时间动态进行建模。注意，我们使用LSTM通过预测时间标签注意力而不是预测AU标签来以一种新的方式捕获时间动态[16]。这使得弱监督学习部分标记的数据。以前的作品[29，60]通过优化权重来捕获时间然而，这些权重不依赖于其对应的图像，并且不显式地编码多个帧之间的时间关系。与它们不同的是，我们的标签注意函数不仅涉及图像和帧之间的关系，而且还结合了任务相关的上下文来根据给定的任务建模动态。3.3. 目标函数所提出的方法只需要关键帧的强度给定部分标记的数据库D=3.4. 训练和推理如图1，在训练期间，我们使用片段作为基于补丁的深度模型的输入。关键帧的注释用作序列级标签以提供监督。我们通过基于LSTM的上下文感知注意力机制捕获AU的时间动态它在标记的关键帧和未标记的帧之间建立联系，并使模型能够用部分标记的数据进行训练。在测试过程中，网络将单个帧作为输入，并输出给定AU的强度。给定任务（AU）v，学习到的任务相关上下文（c=Cv）和输入帧X被馈送到特征融合模块中。融合的特征向量f通过学习的输出矩阵W0被映射到对应的AU强度，即，yv= f TWov.4. 实验4.1. 实验装置数据集。FERA 2015 [44]和DISFA [24]是目前AU最大的两个自发表达数据库{Xv，n，yvpv，nvNn=1，我们定义序列的丢失-强度估计 FERA 2015包含约14万个通过计算L2损失，估计的序列级标签和地面实况，即，L0=（yp−yp）2+（yv−yv）2。（七）由于AU强度在每个训练序列中从谷帧演变到峰帧，因此更接近峰帧的帧应该具有更大的标签注意力值，关于峰的标签因此，预测的标签注意力应该满足r1≤r2.≤rT 且 s1≥s2. ≥sT.令 r=[r1 ， r2 ， ... ， rT] 和 s=[s1 ，s2，...，sT]。损失定义为ΣL1=[max{Ar，0}+ max{-As，0}]j，（8）J，y739图片来自41个主题强度注释为5 AU。按照[44]的方案，我们使用21名受试者进行培训，其他20名受试者进行测试。DISFA包含来自27个主题的约130，000张图像。注释了12 AU的强度。我们进行3重主题独立交叉验证，即，18名受试者接受培训，9名受试者接受测试。AU强度在两个数据库中都有6个顺序量表。两个数据库的分布如图所示。六、FERA 2015中关键帧的百分比约为2%，DISFA中约为1%。仅使用关键帧的注释进行学习将大大节省强度注释的工作。请注意，FERA 2017 [45]是另一个表达数据库，用于不同姿势下的这里不使用，因为我们740(a) CFLF（ours）（b）CFLF-S（c）CFLF-NC（d）CFLF-NL（e）CFLF-DF图5.比较我们的方法（CFLF）及其变体。“G”表示整个图像，并且“Pn”表示第n块。“v”表示任务索引，“C”表示上下文。“FF”是特征融合模块，“LF”是标签融合模块。‘DF’ represents 请注意，CFLF-NL是一种监督学习方法，它使用一个帧作为训练的输入。其他是弱监督学习方法，其使用T帧序列作为训练的输入。表1.消融研究。该表列出了拟议方法及其变体之间的比较数据库Fera 2015DISFAAU610121417Avg124569121517202526AvgCFLF-S.697.637.808.421.501.614.132.152.361.199.501.314.641.105.269.189.690.390.329CFLF-NL.607.492.682.282.356.484.176.161.277.173.390.186.532.069.191.162.615.406.278ICCCFLF-NC.759.719.816.364.487.629.186.176.367.342.448.326.657.194.329.229.753.446.371CFLF-DF.740.701.790.439.537.641.241.217.403.211.456.315.646.223.338.241.672.480.370CFLF.766.703.827.411.600.661.263.194.459.354.516.356.707.183.340.206.811.510.408CFLF-S.835.906.6661.036.702.829.462.329.702.134.388.316.471.227.347.197.734.488.400CFLF-NL.8721.049.8951.100.789.941.527.493.825.295.519.399.690.359.456.358.879.552.529MaeCFLF-NC.701.781.6211.032.621.751.347.286.655.130.346.258.438.198.304.188.610.444.350CFLF-DF.691.791.7201.151.608.792.442.355.811.178.416.319.499.245.356.248.699.471.420CFLF.624.830.6241.000.626.741.326.280.605.126.350.275.425.180.290.164.530.398.32910415105强度分布1041210864强度分布训练段的长度为T = 10。我们将超参数设置为λ1=0。1且λ2=0。01. batchsize是128，学习率是0。01，衰减率为0。九十五评价类内相关性[39]（ICC（3，1））和平均绝对误差（MAE）是两种常用的评估方法。061012141720124569 12 15 17 20 25 26AU强度估计的评估指标[43，48，58]。我们使用这两个指标来评估亲的性能，(a)FERA 2015（b）DISFA图6. AU强度分布重点关注弱监督AU强度估计。Emo- tionNet [6]是一个大型数据库，包含AU发生的注释，未提供序列的强度标签。其不适用于AU强度估计。训练序列根据关键帧被分割成片段。给定一个片段，我们对一组子片段进行采样以构建训练片段。每个训练段包含T帧，包括峰帧和谷帧。通过使用提供的面部标志，我们在面部组件周围裁剪M个局部区域，而不是在标志周围裁剪小区域[17]，因为每个组件涉及密切相关的多个AU。补片的详细位置见补充材料。每个区域的大小调整为32x32。整张脸被裁剪出来，并调整为32x32的大小在特征融合模块中，我们使用单独的ResNet18 [9]来提取每个区域和整个面部的特征。在标签融合模块中，我们使用一层LSTM网络[10]来预测标签注意力。两个融合模块都是从头开始联合训练的。补丁的数量是M=8。的方法和竞争性方法。4.2. 消融研究我们首先进行了消融研究，以验证特征融合模块，标签融合模块和任务相关的上下文的有效性。图5显示了我们的方法及其四种变体的组成。我们的方法（CFLF）包含融合模块和上下文。CFLF-S没有特征融合模块，只使用整个人脸。CFLF-NC删除与任务相关的上下文。它使用标准的注意力机制进行特征融合，这可以被视为特征的加权求和（见图1）。第2b段）。CFLF-NL丢弃标签融合模块。它成为一种有监督的学习方法，不能使用未标记的框架。CFLF-DF用简单的特征级联代替了特征融合模块（见图1）。2a）。结果示于表1中。我们的方法在两个数据库上实现了最佳的平均性能。我们分析结果如下。首先，我们的方法优于CFLF-S，它只使用整个人脸图像。这表明，从低-012345012345#帧#帧741表2.与现有的弱监督和半监督方法的比较。最佳结果以粗体和括号显示。第二好的结果仅以粗体显示。（*）表示从参考中获得的结果。数据库Fera 2015DISFAAU610121417Avg124569121517202526Avg楼梯[30].670.619.793.073.444.520-.012.058.040.027.463.089.596-.015.011.000.575.369.183NBA [8].706.642.812.230.502.578.080.085.363.041.379.150[0.738].075.242.084[0.830].459.294ICC[63]*[60]第六十话.646.725.577.675.780[0.861].269.368.449.469.544.620.208.198.038[0.248].248.302.151.173.229.385.152.181.313.583.115.157.066.225.094.088.618.707.093.148.194.283KBSS [58].760[0.725].840[0.445].454.645.136.116[0.480].169.433.353.710.154.248.085.778[0.536].350CFLF（我们的）[0.766].703.827.411[0.600][0.661][0.263].194.459[0.354][0.516][0.356].707[.183][.340] [.206] .811.510[0.408]楼梯[30].685.838.5991.195.640.791.647.3431.259.114[0.283].327.354.187.304.148.755[0.390].426NBA [8].636.802[0.560]1.097[0.616].742.357[0.258].786[0.078].313[0.169][0.292][.138].311[.106] [0.384].422[.301]Mae[63]*[60]第六十话1.024.8481.126.895.953.6781.3541.046.928.7911.077.8521.648.8751.873.7832.9431.2401.378.5891.556.7691.690.7771.636.7571.101.5641.614.7161.371.6281.329.8981.789.8751.661.789KBSS [58].738[0.773].694[0.990].895.818.532.489.818.237.389.375.434.321.497.355.613.440.458CFLF（我们的）[0.624].830.6241.000.626[0.741][0.326].280[0.605].126.350.275.425.180[0.290].164.530.398.329CAL补丁包含全局特征未覆盖的有用信息。其次，CFLF-NL的性能最差。它不包含标签融合，只能使用带注释的关键帧来执行监督学习。它过度拟合了有限数量的训练样本。标签融合是实现部分标记数据弱监督学习的关键。第三，我们的方法取得了更好的性能比CFLF-NC，不使用任务相关的上下文。CFLF-NC使用标准注意力机制进行特征融合，并使用无上下文的LSTM进行标签注意力预测。因此，它无法捕捉不同任务中的空间和时间关系，并且每个AU都被平等对待。这说明了任务相关语境的重要性。第四，我们的方法优于CFLF-DF，它取代了基于注意力的特征融合与简单的特征拼接。CFLF-DF平等地对待局部补丁，而我们的方法根据给定的任务不同地对待补丁我们的方法与我们注释AU强度的方式更一致，因为我们专注于AU相关的局部区域而忽略不相关的区域。实验结果验证了特征融合模块、标签融合模块和任务相关上下文的有效性。4.3. 与最新技术与弱监督和半监督学习方法的比较。我们将所提出的方法与几种最先进的弱监督学习方法（OSVR[63]，BORMIR [60]和KBSS [58]）和半监督学习方法进行了比较。监督学习方法（Ladder [30]和LBA [8]）。Ladder通过设计去噪损失来使用未标记的样本。LBA基于具有类似标签的样本具有类似潜在特征的假设将标记样本的标签传播到未标记样本。OSVR将序数回归与SVM组合用于表达强度估计。BORMIR采用多实例回归的思想，利用领域知识提供弱监督。KBSS使用基于四元素元组的知识损失来训练深度模型。请注意，OSVR、BORMIR和KBSS为每个AU训练一个模型。与他们不同的是，我们训练一个模型来联合预测多个AU。我们的方法和竞争的方法只需要训练的关键帧的强度注释。结果示于表2中。我们分析结果如下。首先，在FERA 2015上，我们的方法在两个指标下都实现了在DISFA上，我们的方法在ICC下实现了最好的平均性能，在MAE下实现了第二好的平均性能。请注意，ICC和MAE应联合考虑以评价一种方法。虽然Ladder和LBA可以得到很好的MAE，但它们的ICC比KBSS和我们的方法差得多。因为它们没有考虑帧之间的时间关系进行正则化，并且过拟合训练集的标记样本。由于两个数据库的强度分布是不平衡的，并且多数强度为0，因此它们总是预测测试帧的多数强度。这导致它们具有良好的MAE，但ICC较低。其次，我们的方法在两个数据库上都优于KBSS。在训练阶段，我们的方法使用一个由T帧组成的片段作为输入，而KBSS使用从训练片段中采样的四元素元组然而，四帧不足以捕捉片段中的时间动态，特别是当面部外观快速变化时。由于考虑了更多的帧，我们的方法可以比KBSS更好地捕捉动态。此外，我们的方法使用两种类型的上下文增强注意力机制来捕获补丁之间的空间关系和AU的时间动态我们的方法优于KBSS的另一个优点是，我们训练一个模型用于多个AU的联合强度估计，而KBSS 为每个 AU 训练一个模型第三，与 OSVR 和BORMIR 相比，我们的方法性能更好，特别是在DISFA上。它们是两个使用手工特征的线性模型，而我们的模型是一个深度模型，可以模拟更复杂的数据分布。这些结果表明，优越的性能，所提出的方法比竞争弱和半监督学习方法。与基于补丁的方法的比较。我们将我们的方法与两种最先进的基于补丁的面部行为分析方法进行比较，即，[ 17 ][18][19][19][19][19] EAC提取面部标志周围的裁剪特征图，并通过MLP将其融合（见图2）。第2c段）。DRML二-742表3.在两种情况下与最先进的基于补丁的方法进行比较数据库Fera 2015DISFAAU610121417Avg124569121517202526Avg使用所有帧的强度注释进行训练ICC东加勒比共同体[17].705.643.844.328.452.594.088.077.302.144.462.150.705.090.273.141.820.367.301DRML [62].731.676.813.366.476.612.093.057.415.157.408.266.718.175.189.113.805.547.329Mae东加勒比共同体[17].762.866.6121.067 .723.806.483.464.858.099.406.416.445.246.370.238.508.517.421DRML [62].731.863.6751.279 .717.853.446.380.808.079.357.299.360.165.281.142.535.382.353仅使用关键帧的强度注释进行训练东加勒比共同体[17].496.597.754.030.018.379.000-.004.000-.002.524-.002.438.000.000.001.497-.001.121ICCDRML [62].606.521.620.089.243.416-.055-.073.335.044.427.179.531.001.124.001.757.413.224CFLF（我们的）.766.703.827.411.600.661.263.194.459.354.516.356.707.183.340.206.811.510.408东加勒比共同体[17].898.890.7351.156 .822.900.493.380.782.200.400.337.624.249.466.248.798.622.467MaeDRML [62].8741.040 .9021.037 .864.944.546.598.858.189.356.490.454.229.278.306.552.507.447CFLF（我们的）.624.830.6241.000 .626.741.326.280.605.126.350.275.425.180.290.164.530.398.329将特征映射可视化为面片，并在每个面片上应用建议的区域层。然后通过卷积层融合得到的补丁特征图。请注意，这两种方法都是为了AU识别而提出的，而不是AU强度估计。我们通过用回归损失代替分类损失来我们在两种情况下评估EAC和DRML，即，使用所有帧的强度注释进行训练，以及仅使用关键帧的强度注释。结果示于表3中。当只使用关键帧的注释时，我们的方法在两个数据库上都取得了比EAC和DRML更好的结果。即使EAC和DRML使用所有帧的注释，我们的方法仍然优于它们。原因是他们过度拟合训练数据，甚至使用所有帧。它们的训练精度比我们的方法高，但测试精度较低。这两个数据库的训练集只有不到90，000张图像，而它们的模型有数百万个参数要训练。这导致了过度拟合。一旦使用更少的注释，它们的性能就会急剧下降。不同的是，我们进行弱监督学习，并在目标中使用两个正则化项，这在一定程度上避免了过拟合。与监督学习方法的比较。我们比较了AU强度估计的几种最先进的监督学习方法，包括CNN [7]，ResNet18 [9]，2DC [43]，CCNN-IT [48]，HBN [49]和Heatmap [37]. CNN [7]使用四层CNN进行强度估计。HBN使用混合贝叶斯网络。 ResNet18是一个标准的Resnet，有18层，呃。2DC结合了高斯过程和变分自动编码器。 CCNN-IT 结合了 Copula 函数， CRF 和CNN。热图联合预测AU的位置及其强度。这些监督方法需要注释序列中每帧的AU强度，而我们只需要关键帧的注释。关键帧在FERA 2015中仅占2%，在DISFA中仅占1%结果示于表4中。我们的方法在MAE下在两个数据库上都取得了更好的性能。在FERA 2015上，我们的ICC优于CNN和CCNN-IT，与HBN，Heatmap和2DC相当在DISFA上，我们的表4.与最先进的监督方法进行比较注意，竞争方法使用训练集中的每个注释帧，而我们的方法使用占据非常小部分的部分帧的强度注释（*）表示从参考中获得的结果。数据库Fera 2015DISFA方法ICCMaeICCMae[49]第四十九话.700---热门搜索[37].680---2DC [43]*.660-.494-[48]第四十八话.6301.260.377.663美国有线电视新闻网[7].596.817.328.423ResNet18 [9].580.882.270.483CFLF（我们的）.661.741.408.329ICC比CNN，ResNet 18和CCNN-IT更好。请注意，我们只使用序列中关键帧的强度注释，而其他方法使用所有帧的强度注释。CNN和ResNet18与EAC和DRML有相同的过拟合问题。结果表明，我们的方法仍然可以实现可比的，甚至更好的性能比竞争的监督学习方法，虽然我们使用更少的注释。5. 结论本文提出了一种新的基于弱监督块的深度模型的基础上的两种类型的注意力机制的联合强度估计的多个AU。我们利用特征融合模块探索局部补丁之间的空间关系，同时将AU的时间这两个模块的注意力机制进一步增强了可学习的任务相关的上下文，这有利于多个AU的联合分析和提高性能。在两个公共基准数据库上的测试结果表明了特征融合模块和标签融合模块的有效性。致谢：本研

下载后可阅读完整内容，剩余1页未读，立即下载