基于深层结构推理网络的人脸动作单元识别

136 浏览量更新于2023-10-14 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深层结构推理网络的人脸动作单元识别Ciprian Corneanu1，2，Meysam Madadi2，and Sergio Escalera1，21巴塞罗那大学，西班牙2计算机视觉中心，巴塞罗那，西班牙{cipriancorneanu，meysam.madadi，sergio.escalera.guerrero}@ gmail.com抽象。面部表情是被称为动作单元（AU）的基本组成部分的组合。识别AU是一般面部表情分析的关键。最近，在自动AU识别的努力一直致力于学习组合的本地功能，并利用AU之间的相关性。我们提出了一种深度神经架构，通过在初始阶段结合学习的局部和全局特征，并在后期阶段复制类之间的消息传递算法，类似于图形模型推理方法，来解决这两个问题。我们表明，通过增加监督的端到端训练模型，我们在BP4D和DISFA数据集上分别将最先进的性能提高了5.3%和8.2%。关键词：计算机视觉，机器学习，深度学习，面部表情分析，面部动作单元，结构推理1介绍面部表情（FE）是识别非语言行为的重要线索自动挖掘人类意图、态度或经验的能力具有许多应用，如构建社会感知系统[18，4]、改善电子学习[9]、根据玩家的情绪调整游戏状态面部动作单元系统（FACS）[5]是FEs的描述性编码方案，专注于面部可以做什么而不假设任何认知或情感价值。它的基本组成部分被称为动作单元（AU），它们结合起来形成一个完整的FE表示AU是肌肉激活的模式，并且它们改变面部形态的方式是局部的（图1）。1a）。而初始AU识别方法（如JPML[25]和APL [28]）使用浅层预定义表示，最近的方法（如DRML [26]，ROI [12]和GL [7]）应用深度学习来学习捕获面部形态的更丰富的局部特征因此，人们可以从根据面部几何形状选择的信息面部区域预测特定AU例如，与像DRML [26]和APL[28]的非自适应方法相反，ROI[12] 和JPML [25]提取面部标志周围的特征，这些特征相对于非刚性形状变化更鲁棒补丁学习具有挑战性，因为2Ciprian Corneanu、Meysam Madadi和Sergio EscaleraAU04中性AU04中性AU15中性AU15中性AU01AU02AU04AU25AU01AU02AU05AU01AU02AU05AU25+AU26AU12(a)（b）第（1）款图1：补丁和结构学习是AU识别中的关键问题。(a)通过遮蔽一个区域，表情脸变得与中性脸难以区分（b）多个相关AU可同时活动人脸是高度清晰，且不同的块可以贡献于特定的AU或AU组。学习最佳补丁组合以及从每个补丁学习特定特征可能有利于AU识别。AU识别也是多标记的。几个AU可以同时处于活动状态，某些AU组合比其他组合更有可能（图2）。（见第1b段）。AU预测性能可以通过考虑概率依赖性来改进。在深度学习方法中，相关性可以在完全连接的层（例如[26]，GL [7]和ROI [12]）。然而，结构不是明确学习的，推理和稀疏性是隐含的设计。JPML [25]通过将关于AU相关性的预先学习的先验信息包括到其学习中来处理该问题。学习结构化输出也已经通过使用图形模型进行了研究[25，19，6]。然而，这些模型不是端到端可训练的。在这项工作中，我们声称补丁和结构学习是处理AU识别的关键我们提出了一个深度神经网络，通过增量和端到端的可训练方法以综合的方式解决这些问题首先，该模型从面部补丁中详尽地学习局部和整体表示。然后通过预测特定AU来捕获补丁之间的结构。最后，AU相关性被结构推理网络捕获，该结构推理网络以连接主义的方式复制消息传递推理算法选项卡. 1将所提出的方法的一些最重要的特征与最先进的方法（特别是 JPML [25] ， APL [28] ，DRML[26]，GL[7]和ROI[12]）进行了比较。我们表明，通过分别处理网络不同部分的问题并能够联合优化它们，我们在BP4D和DISFA数据集上的性能分别提高了5.3%和8.2%。总之，我们的两个主要贡献是：1）我们提出了一个模型，学习表示，补丁和输出结构端到端，和2）提出了一种结构化推理拓扑结构，该结构化推理拓扑结构利用递归神经网络复制概率图模型中的推理深层结构推理网络3方法LRL AP PL SL EE方法LRL AP PL SL EEAPL [28]××C××简体中文[CN]××C×CJPML [25]×CC×× 投资回报率[12]CCC×CDRML [26]CC× ×CDSIN（我们的）CCC CC表1：我们的模型和相关工作的特征。LRL：局部表示学习，AP：自适应补丁，PL：补丁学习，SL：结构化学习，EE：端到端。本文的结构如下。秒2介绍相关工作。秒3详细介绍了所提出的模型和SEC。四是结果。秒五是总结论文。2相关工作讨论了与补丁学习或结构学习相关的工作补丁学习。受局部连接卷积层[17]的启发，Zhao等人[26]提出了一个区域连接卷积层，它从输入的子区域学习特定的卷积滤波器。在[12]中，不同的CNN在面部的不同部分上进行训练，以早期融合的方式与完全连接的层合并特征。Zhao等人[25]使用浅层表示进行补丁选择和结构学习，其中通过组稀疏学习选择每个AU的补丁Jaiswal等[8]使用领域知识和面部几何形状为特定AU预先选择相关图像区域，将其传递给卷积和双向长短期记忆（LSTM）神经网络。Zhong等人[28]提出了一种多任务稀疏学习框架，用于学习不同表达式的常见和特定区分补丁。贴片位置是预定义的，没有考虑面部几何形状。结构学习。 Zhang等人[23]提出了一种多任务方法学习描述AU相关性的公共内核表示。Elefteri-adis等人[6]采用潜在变量条件随机场（CRF）从预先设计的特征中联合检测多个AU。虽然现有的方法捕获本地成对AU依赖性，Wang et al.[20]提出了一个限制玻尔兹曼机，捕捉高阶AU相互作用。与补丁学习一起，Zhao et al.[25]使用AU之间的正竞争和负竞争Walecki等人[19]将CRF放置在CNN学习的深度表示之上。迭代地训练两个分量以估计AU强度。Wu等人[21]使用了一种受限玻尔兹曼机，该机器捕获面部标志位置和AU之间的联合概率最近，Benitez et al.[7]提出了一个损失相结合的孤立和组AU的识别。3方法令 D ={X ， Y} 是输入图像对的集合 X ={X1 ， …xM} 和输出 AU 标签 Y={y1，...，yM}，具有M个实例。每个图像xi4Ciprian Corneanu、Meysam Madadi和Sergio Escalera由P个补片{I1，…并且输出标签yi是N个AU{y1，…yN}，取二进制值{0，1}。作为多标签问题，多个AU类可以对一个观测活动。预测这样的产出是具有挑战性的因为与标准单标签/多类问题相反，softmax函数不能应用于输出集。此外，在像交叉熵的损失中使用独立的AU激活函数，忽略了AU相关性。因此，在模型设计中包括学习结构的能力是相关的。在AU识别中解决多标签学习的两种主要方法是通过全连接层捕获相关性[26，7，12]或通过概率图形模型（PGM）推断结构[25，19，6]。虽然前者可以捕获类之间的相关性，但这并没有显式地完成另一方面，PGM提供了一个明确的解决方案，他们的优化研究。不幸的是，将经典PGM置于神经网络预测之上明显降低了模型学习高阶关系的能力，因为它不是端到端可训练的。一种解决方案是以连接主义的方式复制图形模型推理，这将使联合优化成为可能先前已经在不同的问题中研究了联合训练CNN和CRF [27，2，3]。遵循这一趋势，在这项工作中，我们通过图形模型制定AU识别，并通过神经网络实现它，更具体地说，这样，从局部区域沿着AU相关性的AU预测被端到端地学习。设G=（V，E）表示一个图，其中顶点V=y表示AU，边E V × V表示AU之间的关系。给定吉布斯分布，我们计算条件概率P（y|x，Θ）为：P（y|x，Θ）= 1Z（y，x，Θ）e−E（y|x，Θ），（1）其中Θ是模型参数，Z是归一化函数，E是能量函数。可以通过引入潜在变量p来更新模型：ΣP（y|x，Θ）=P（y，p|X，Θ），⑵p其中 p 作为 CNN 的输出给出。图 G 中的顶点和边可以更新为 V=y<$p 和E=Ey<$Epy <$Ep。虽然边Ey可以通过从给定数据集获取的先验知识来定义，但我们使用完全连接的图独立于数据集，并分配一个相互门控策略来控制通过边缘的信息（更多细节请参见3.3）。我们将Epy定义为p和y之间的边，并使用选择性策略来定义该集合中的边。最后，边缘Ep是空集，因为在我们的模型中，在每个图像块Ij上训练独立的CNN，并且我们不分配p中的任何边缘。给定该假设，概率分布P（y，p|x，Θ）由下式给出：YP（y，p|x，Θ）= P（y|p，x，Θ）KP（pk|x，Θ）。（三）深层结构推理网络5p1p2pP2002年yNi=1i=1I1CNNI2CNNIPCNN12Nt=0f1F2fNt= 1t=T1ΠΦΩ斑块预测融合结构推理图2：深度结构推理网络（DSIN）从全局和局部学习特征中学习独立的AU预测。它通过考虑与其他AU的相关性来每个输入图像被裁剪成一组面片{Ii}P用于训练独立的CNN产生概率对于N个AU，向量pi（等式中的4）. 从sj（特定AU的补丁预测），我们学习用于产生单个AU预测fj的组合（等式110中的简化的Ruppy）。4）.通过迭代消息传递推断AU之间的结构来计算最终预测yj，该迭代消息传递类似于概率图模型中的推断（等式2中的4）.如在CRF中，能量函数E（. ）通过一元和成对项计算为：E（y， p，x，Θ）=Σp（pk，x，π）+KΣ（i，k）∈Epyψpy（yi，pk，φ）+Σ（i，j）∈Eyψy（ yi， yi，ω），⑷其中（. ）是一元项，ψ*（. ）是成对项，且Θ=π∪φ∪ω。图2介绍了我们的深度结构推理网络（DSIN）。它包括三每个组件都被设计为求解方程中的项。4.我们将初始部分称为斑块预测（PP），其目的是从面部斑块详尽地学习深度局部表示并产生局部预测。其次，Fusion(F)模块执行每个AU的补丁学习最后一个阶段，结构推断（SI），通过捕获AU之间的关系来细化AU预测。DSIN是端到端可训练的，CNN特征可以基于以多任务学习方式从结构推理反向传播的梯度进行训练。3.1斑块预测给定图像块x，一元项p（p，x，π）为每个块提供AU置信度，其被定义为对数概率：p（p，x，π）= log P（p|x，π）。（5）概率P（p|x，π）由独立的块预测函数建模{Π i（I i;π i）} P6Ciprian Corneanu、Meysam Madadi和Sergio Escalera其中，Ii是输入图像块，并且πi是函数参数。深层结构推理网络7j=1图3：（a）补丁预测CNN的拓扑结构。每个卷积块具有步幅2和批量归一化。过滤器的数量，然后是内核的大小被标记。最后一层是标记有神经元数量的全连接（FC）层。所有神经元都使用ReLU激活。(b)每个融合单元是2个FC层的堆叠。（c）第（1）款结构推理单元。为了更好的可视化，我们只显示了单元的接口，而没有内部拓扑结构。详见第二节。三点三每个Πi是通过最后一层的S形函数计算N在该阶段提供P个独立预测，每个预测是AU预测的虽然图像补丁可能会重叠，但我们假设独立性，让每个网络在预测局部区域上的AU方面都是专家。通过学习独立的全局表示和局部表示，我们可以更好地捕获面部形态并解决AU局部性。在图3（a）中，我们详细描述了用于学习补丁预测函数的CNN的拓扑结构。近年来，已经提出了许多复杂的拓扑结构，寻找最好的拓扑结构已经超出了本工作的范围。选择的拓扑结构是一个浅层网络，遵循众所周知的模型（如VGG [16]）背后的直觉3.2融合边缘化Epy中的成对关系的计算复杂度很高。在我们的公式中，我们简化了边，使得Epy从p中的节点指向y中的节点。这意味着我们忽略了p和y之间的相互关系。因此，y中的节点以p中的节点为条件。然而，我们希望y中的每个AU节点以来自不同补丁的p中的相同AU节点为条件。这意味着不同的补丁可以提供互补的信息独立于其他AU预测目标AU。最后定义ψpy（y，p，φ）作为P （ y ）的对数概率|p，φ），其由一组独立的函数，即所谓的融合函数{Φj（sj;φj）}N，其中sjp对应到来自所有补丁的第j个AU预测的集合，并且φj是函数参数。我们简单地用具有64个隐藏单元的2个全连接层对每个函数Φ j进行建模，每个层后面跟着一个S形层，如图所示。3（b）款。我们发现64个隐藏单元在实践中工作得很好，而更高的维度不会带来任何额外的性能，并很快开始过拟合。每个Φj的输出是第j个AU的预测概率fj8Ciprian Corneanu、Meysam Madadi和Sergio Escaleraj=1JJJJJJ3.3结构推理到目前为止，我们在前馈神经网络中计算了单个AU概率，而没有明确考虑AU关系。目标是对成对项ψy进行建模，使得整个过程可以以紧凑的方式进行端到端训练。信念传播和节点之间的消息传递是用于PGM推理的众所周知的算法之一受[3]的启发，提出了一种用于动作识别的连接主义实现，我们在DSIN的最后部分构建了一个结构推理（SI）模块SI通过考虑来自其他AU的计数信息以迭代方式更新每个AU预测这背后的直觉是，通过以显式方式在预测之间传递信息，我们可以捕获AU相关性并改进预测。结构推断模块是互连的递归结构干扰单元（SIU）的集合（参见图1B）。3（c））。每个AU都有一个专用的SIU。我们将SIU完成的计算表示为afunctionΩ。Let{Ωj}N是sΩj上的SIU函数的集合：RN+2→R2，其中：yt，mt=Ωj（fj，mt−1，mt−1，...， mt−1，y（t−1;ωj）.（六）j j1 2Nj在每次迭代t，Ωj将其类的初始预测fj作为输入，即一组传入消息{mt−1}N从对应于其它类的SIUj j=1并且它现在是previoupredictionyt−1。EachfunctionΩjhastwoinineunits：producingj-thAUpredictionyt和消息mt下一个时间点。在这通过这种方式，通过从其他节点接收信息来迭代地改进预测。在计算上，我们在SIU的集合中复制这种迭代消息传递机制，并使用一个循环神经网络，该网络在所有时间步长中共享函数参数Ωj我们在图中示出了SIU单元3（c）款。消息单元基本上对应于AU节点的分布。来自SIU的消息单元是相同SIU的先前消息、初始融合预测和先前预测t.mΣt−1t−1t−1ΣmΣmj=σ ωjµ（m1、...、MN ），fj，y（j+βj、（7）其中σ（. ）是sigmoid函数，µ（. ）是均值函数，ωm∈R3且βm∈R是消息函数参数。在每个时间步处的两个节点之间的消息具有可以由选通策略控制的相互关系因此，一组校正因子被计算为：t.g Σttt −1Σg Σχj=σωj µ（m1，.，mN），fj，y（j+βj、（8）其中ωg∈R3和βg∈R是门函数参数。然后，一条信息J Jti→j从AU节点i传递到j的信息将由互因子更新在节点i和j之间的门为：mt=µ（χt，χt）mt.（九）j i j i→ j最后，更新的消息连同初始估计一起到达第j个节点。fjareusedtoproduceoutputtprdictiontas：t.yΣttΣyΣyj=σωj µ（m1，.，m（N）M深层结构推理网络9，f（j）+βj、（10）10Ciprian Corneanu、Meysam Madadi和Sergio Escalera右眼两眼鼻子右脸颊嘴图4：每个输入图像被对齐并裁剪成5个补丁。其中ωy∈R2和βy∈R是预测函数参数。通过这样做J J我们能够将函数Π中的表示学习、补丁学习在单个端到端可训练模型中，函数Φ中的结构推理和Ω中的结构推理。我们将在第二节介绍我们的培训策略4.1.4实验分析在下文中，我们描述了实验设置和结果。4.1实验环境数据我们使用BP4D [24]和DISFA [13]数据集。BP4D包含41个年轻人的2D和3D视频。它有328个视频（41个参与者的8个视频），有12个编码的AU，产生大约140k个有效的人脸图像[24]。该系统有27名成年人（12名妇女和15名男子），年龄在18至50岁之间，种族相对多样。数据语料库总共由大约130k帧组成AU强度在0（不存在）到5（最大强度）顺序标度上针对每一视频帧译码。出于我们的目的，我们认为强度大于3的所有标签都是活跃的，其余的是非活跃的。这两个数据集被广泛用于最近的AU识别工作。预处理。对于每个图像，使用[10]估计面部几何形状。从所有中性面部中，我们计算3个参考锚作为眼睛和嘴巴地标的平均值。将面的大小调整为224× 224× 3，并应用刚性我们在检测到的标志点定义的点周围裁剪5个大小为56× 56× 3的斑块（见图1）。4）. 为了减少冗余，我们忽略相应的，对称的斑块，如左眼和脸颊。训练在端到端模型训练之前，我们递增地训练DSIN的每个部分。在训练期间，我们使用对补丁预测p、融合f和输出输出y的监督。在p上使用由LΠ（p，y）表示的L2 l 〇 s。权重与训练中每个AU类的观察总数中的阳性比率成反比。加权赋予每个训练批次中的少数类更多的重要性，这确保了跨类的更平等的梯度更新和整体更好的性能。在融合和结构推断输出上，我们应用二进制交叉熵l〇s（de not edyLΦ（f，y）and dLΩ（y（，y））。为确保安全，深层结构推理网络11i=1i=1i=1i=1算法1：DSIN的训练过程训练数据：{{I}P，y}模型参数：斑块预测：{πi}P，融合{φi}N，结构推论{ωi}N步骤0：0附近的随机初始化：π，φ，ω← N（0，σ2）步骤1：训练补丁预测：π i ←min π（L Π（Π i（I i;π i）），y），i∈{1，…步骤2：冻结块预测;列车融合：步骤3：联合训练块预测和融合：π，φ←minπ，φ（LΠ（Π（I;π）），y）+LΦ（Φ（Π;φ），y））步骤4：冻结斑块预测和融合;列车结构推断：ω←minωL Ω（Ω（Φ;ω），y）步骤5. 所有列车：π，φ，ω←minπ，φ，ω（w1LΠ（Π（I;π）），y）+w2LΦ（Φ（Π;φ），y）+w3LΩ（Ω（Φ;ω），y））输出：优化参数：πopt、φopt、ωopt对校正因子的正则化（在等式2中由X表示）; 8、Eq.九、以强制消息传递中的稀疏性。训练程序的细节在Alg.1.一、我们使用Adam优化器，学习率为0.001，小批量大小为64，提前停止。实验上，我们发现个人的损失贡献w1=0。25，w2= 0。25且w3= 0。5、做好培训工作。对于这两个数据集，我们进行了主题专用的3倍交叉验证。与[12]类似，在DISFA上，我们采用在BP4D上训练用于补丁预测的最佳CNN，并为新的输出集重新训练全连接层。我们在剩下的训练中修复卷积滤波器方法和指标。我们比较CPM [22]，APL [28]，JPML [25]，DRML [26]和ROI [12]最先进的替代方案。我们评估F1-帧得分为F1 =2PR，其中P=tp，R=tp，tp是真阳性，P+ RTP+FPTP+fnFN假阴性和FP假阳性。所有指标均按AU计算，并且然后取平均值。目标AU如图所示。六、4.2结果在下文中，我们探讨了DSIN中包含的影响设计决策，然后与第12节中的最新替代方案进行比较。4.2节中的定性示例。四点二。消融研究。我们在下面分析DSIN设计决策。阶级平衡。在这两个数据集中，类是强烈不平衡的。这在训练过程中可能有害。为了缓解这一点，我们在补丁预测CNN上使用加权损失。选项卡. 2显示了有和没有类平衡的结果。这总体上提高了性能，特别是在表示不好的类上。在BP4D上，总样本中阳性率低于30%的类别这些是改进最多的类。AU如AU07或AU12具有高于50%的总配给的正。平衡会降低这些类的性能10Ciprian Corneanu、Meysam Madadi和Sergio EscaleraP方法AU01 AU02 AU04 AU06 AU07 AU10 AU12 AU14 AU15 AU17 AU23 AU24 avgVGG（面）英尺 35.231.225.473.1 72.180.159.235.132.152.326.1 36.2 46.5PP（面）ncb35.138.1 53.9 77.270.7 83.1 86.2 56.1 39.8 54.5 37.231.4 55.3PP（右眼）ind 46.8 40.445.368.369.2--------PP（口）ind-----78.682.054.238.654.7【三十九点三】43.3-PP（右眼）38.0【37.7】48.369.571.072.477.450.715.038.913.815.345.7PP（眼间）41.734.845.964.965.572.173.954.919.733.913.97.044.0PPP（口）12.47.322.475.570.578.981.3 66.235.859.637.6【四十二点八】49.3PP（右颊）30.518.441.875.273.279.181.9 [61.9] 35.755.135.535.752.0PP（鼻）41.628.446.471.170.578.878.057.121.343.734.020.349.3PP（面）43.837.5 [54.9] 77.4 【71.2】【七十九点二】84.056.6【三十九点七】【59.7】39.239.5 【56.9】PP+F【四十四点八】35.8 57.1 【76.7】74.3 79.6 【83.7】56.6 41.1 61.8 42.240.1 57.8DSINncf246.734.1 62.076.5 74.1 【83.1】84.960.936.057.1 43.336.157.9NDSIN247.736.555.676.3【73.7】80.185.064.0【三十九点二】60.6【43.1】39.958.2SIDSIN5[49.7] 36.357.3 76.873.481.684.5 [64.7] 38.5【63.0】39.037.358.5DDSIN1051.7 [40.4] 56.076.173.579.9【85.4】62.737.362.938.6 [41.6] 【58.9】DSINtt1051.7 41.6 【58.1】【七十六点六】74.1 85.5 87.4 72.6 40.4 66.538.6 46.9 61.7表2：对BP4D的识别结果。PP（[patch]）表示对所指示的补丁的补丁预测。F代表融合，DSIN是最终模型。我们指出了当使用[方法] ind对单个AU进行训练时的结果，通过DSIN tt对决策阈值的验证数据集进行微调，通过DSIN T进行结构推断的迭代次数以及在没有校正因子的情况下进行训练作为DSINncf。VGG（面）英尺是一个预先训练的VGG-16 [14]在BP 4D上微调。PP（face）ncb是没有类别平衡的补丁预测。所有结果均通过对BP4D的3重交叉验证获得预测拓扑的选择。在选项卡中。2.我们将所提出的用于补丁预测（PP（face））的CNN与VGG-16进行比较。使用的VGG-16模型经过人脸识别训练[14]，并根据我们的数据进行微调以进行AU识别。我们的模型表现出优越的性能。瞄准AU的子集。我们探讨了所考虑的目标集对整体预测性能的影响。在选项卡中。2我们展示了右眼和嘴巴的预测结果，无论是在完整的目标集（[方法]）还是在单个目标（[方法]ind）上训练。当在个体AU上训练时，分类器的决策更简单。另一方面，可以由FC层捕获的类之间的任何相关信息被忽略。在某些情况下，个体预测优于穷举预测。在右眼贴片的情况下，这对于AU01尤其如此。但这是个例外。平均而言，在AU组上或在所有AU上的跨补丁训练是有益的，因为类之间的相关性信息由网络在全连接层中采用。此外，使用独立网络深层结构推理网络11单独预测AU将快速增加参数的数量，对训练速度和最终模型性能产生相当大的影响选项卡. 图2和图3示出了在补丁上训练的两个数据集上的AU识别结果这证明了局部性假设。当训练嘴部时，上面部AU的性能受到很大影响。类似地，对眼睛的训练影响下面部AU的表现。这是预期的，因为块预测只能从块中可见的AU推断其他AU10Ciprian Corneanu、Meysam Madadi和Sergio Escalera1.00r= 01.00r= 10−21.00r= 5 x 10−21.00r= 10−10.750.750.750.750.500.500.500.500.250.250.250.250.000 20 4060迭代x1020.000 20 4060迭代s× 1020.000 20 4060迭代s× 1020.000 20 40 60迭代s× 102图5：训练期间校正因子的平均值µ（x）（白线）和标准差σ（x）（包络）的不同正则化水平。小的正则化值迫使校正因子更快地发散。增加正则化会消除影响消息传递的校正因子。方法AU01 AU02 AU04 AU06 AU09 AU12 AU25 AU26avgPP（右眼）27.215.458.88.018.253.673.39.133.0PP（眼间）34.613.259.715.421.150.972.98.534.5PP（口）7.56.444.628.523.972.187.5 【27.3】37.2PP（右颊）24.612.246.131.245.271.584.522.433.8PP（鼻）21.919.152.032.0 50.966.576.68.941.0PP（面）29.8[31.4] 64.626.821.370.187.020.343.9PP+F[40.1] 18.670.825.442.1【七十一点八】【八十八点八】26.4【48.0】DSIN42.439.0 【六十八点四】【28.6】【四十六点八】70.890.4 42.2 53.6表3：DISFA上的DSIN结果。PP（[patch]）表示对所指示的补丁的补丁预测。F代表融合。DSIN是最终模型。对于DISFA，我们仅示出了T=10的DSIN，其在BP4D上表现最好。学习地方代表。平均而言，与块预测相比，面部预测在整个输出集上执行得更好。然而，当考虑单个AU时，情况不再如此。对于BP4D，当从口腔贴片预测时，AU15和AU24的性能显著高于从面部预测时（见表1）2）的情况。在DISFA上，整个面部的预测仅在3个AU上是最好的（见表1）。（3）第三章。鼻贴更适合预测AU06和AU09，口贴更适合预测AU12、AU25和AU26，而眼间贴更适合预测AU01。补丁学习。选项卡.图2和图3示出了BP4D和DISFA（PP+F）的逐AU融合的结果。在两者上，通过融合的补丁学习是有益的，但在DISFA上的益处更高。这可能是由于预测结果在DISFA上，各补丁之间的平衡程度要高得多。总体而言，与面部预测相比，在BP4D上，融合改善了几乎所有AU上的结果这表明，即使其他补丁在某些类上的性能较差，但仍有结构可以从它们的预测中学习，这有助于提高性能。然而，融合不能复制AU14上的口预测的结果在DISFA上，几乎在每种情况下，融合都接近或高于最佳补丁预测。在这两种情况下，在输入预测已经非常嘈杂的情况下，融合在改进单个补丁方面存在更大的问题。结构学习。选项卡.图2和图3示出了最终DSIN模型的结果。对于BP4D，我们还执行了针对结构可靠性考虑的迭代次数T的研究。在具有ωj特征的完全连通图中，存储器关系有利于捕获具有ω j特征的完全连通图中的AU关系。μ（χ），σ（χ）μ（ χ），μ（ χ），μ（ χ），12Ciprian Corneanu、Meysam Madadi和Sergio Escalera908070AU01 AU02 AU04 AU06AU076050AU09 AU10 AU12 AU14 AU1540300.10.20.30.40.50.60.70.80.9AU17AU23AU24AU25AU26AU01AU02AU04AU06τAU07AU10AU12AU14AU15AU17AU23AU24图6：本作品中的面部动作单元。图7：BP4D验证集上的τ与AU性能。黑色圆圈表示最佳得分。大量的节点（在我们的例子中是12个）。我们还在没有校正因子的情况下训练DSIN（等式2）。9在这种情况下不适用与具有校正因子的相同模型相比，结果较差在DISFA的情况下，我们只应用结构推断与最好的先前发现的T= 10步骤。结构推理在这两种情况下都是有益的在BP4D上，其显著改善AU2和AU14。对DISFA来说，结果甚至更具决定性。加入结构推理带来了超过5%的改善融合。校正因子正则化。图5示出了应用于校正因子X的增加的正则化的效果。总的来说，正则化χ不会带来显著的好处。当比较r= 10−2且没有正则化时，差异极小。该网络具有学习稀疏消息传递的能力，无需正则化。尽管如此，小的r值导致χ的更快发散和网络的更快收敛。性能差异不显著。另一方面，r >5× 10−2的值会对性能产生负面影响，因为大多数χ接近0，不再传递消息由于这些原因，我们保持r= 5× 10−3。阈值调整。每个AU的预测值取0到1之间的值。在所有结果中，我们通过相对于阈值τ = 0对输出进行二进制化来计算性能。5.虽然类平衡作为一种加权损失是有益的，但它并不能完全解决数据不平衡问题。图图7示出了针对以下的τ方面的性能BP4D的验证集。如图所示，阈值τ = 0。5不是理想值。对于大多数类τ ∈ [0.1，0。[3]是最好的。例外是AU04。表2和表3示出了在调整每个类别的τ（DSINtt）之后所提出的模型的性能。这边2. 8%和3. 在BP4D和DISFA上分别获得了1%的性能与最新技术水平的比较。表4和5分别显示了我们的模型与BP4D和DISFA的最新相关方法的比较。DSIN和ROI在两个数据集中表现最好。这两种方法都可以端到端地学习深度局部表示和补丁组合。表现最差的方法，BP4D上的JPML和DISFA上的APL，使用预定义的特征，并且不是端到端训练的。比较DSIN和ROIF1深层结构推理网络13方法AU01 AU02 AU04 AU06 AU07 AU10 AU12 AU14 AU15 AU17 AU23 AU24 AVGJPML [25]32.625.637.442.350.572.274.1 【65.7】38.140.030.4 【42.3】45.9DRML [26] 36.4 41.843.055.067.066.365.854.133.248.031.730.048.3CPM [22] 【四十三点四】40.743.359.261.362.168.552.536.754.3 39.537.850.0投资回报率[12]36.231.643.4 77.1 【73.7】【85.0】【87.0】62.6 45.758.038.337.456.4DSIN51.740.4【56.0】76.173.579.985.462.737.3 【62.9】【三十八点八】41.6 【58.9】DSINtt51.7 [41.6] 58.1【七十六点六】74.1 85.5 87.4 72.6 [40.4] 66.538.6 46.9 61.7表4：对BP4D的AU识别结果。最佳结果以粗体显示。第二好的结果显示在括号中。对于所提出的模型，我们显示了一组额外的结果（DSINTT）时，得到的决策阈值调整每AU。方法AU01 AU02 AU04 AU06 AU09 AU12 AU25 AU26avgAPL[28]11.412.030.112.410.165.921.426.023.8DRML [26] 17.317.737.429.010.737.738.520.126.7投资回报率[12]41.526.466.450.78.589.388.915.648.5DSIN[42.4] 【39.0】【六十八点四】28.6【四十六点八】70.8 【90.4】【四十二点二】【53.6】DSINtt46.9 42.5 68.8 【32.0】51.8【七十三点一】91.9 46.6 56.7表5：DISFA上的AU识别结果。最佳结果以粗体显示第二好的结果显示在括号中。DRML在学习独立的局部表示方面具有明显的优势。ROI和我们的模型都学习独立的局部表示，而DRML只在其网络的一层中进行表示学习。有趣的是，也有一个例外。在BP4D上，CPM的表现略好于DRML，尽管它不是一种深度学习方法。当将我们提出的模型与BP4D上的ROI进行比较时，我们的CNN只在没有类平衡的情况下训练面部，结果较差当我们包括类平衡和补丁学习时，我们的拓扑结构提高了性能，并通过结构推理和端到端的最终训练进一步增强。在DISFA的情况下，在具有类别平衡的整个面部上训练的单个CNN具有43.9的性能，为4。6%，低于ROI。当我们添加补丁预测融合（PP+F）时，我们仅得到0。比ROI低5%，而结构推断和阈值调整的添加提高了ROI性能。最后，DSIN在两个数据集上都显示了最佳结果对于BP4D，从12个AU目标来看，它在5个AU目标上表现最好，在另外5个AU目标上表现第二好。在DISFA的情况下，对ROI的改善更大，DSIN在除了一个AU之外的所有AU中表现最好。总体而言，我们获得5.3%的绝对和9.4%的相对性能提高BP4D和8.2%的绝对和16.9%的相对性能提高DISFA，分别。14Ciprian Corneanu、Meysam Madadi和Sergio Escalera定性结果。图8（a）示出了结构推断如何倾向于在AU相关性之后校正预测我们在图1中示出了BP4D上的AU相关性的大小。8（b）.在前3列示例中，AU06和AU07未被融合模型正确分类（中间行）。这两个AU都与已经检测到的AU（如AU10、AU12和AU14）高度相关这种相关性可以由SI（底行）捕获最右边的示例显示了如何纠正AU17（假阳性）如图第8（b）段，非盟第17届会议深层结构推理网络15(b)(a)（c）第（1）款图8：（a）AU预测的示例：地面实况（顶部）、融合模块（中间）和结构推断（底部）预测（·：真阳性，·：假阳性）。(b)BP4D中的AUs相关性（·：正，·：负）。线的厚度与相关幅度成正比。(c)AU24的类别激活图，其显示简单斑块预测（左）和DSIN（右）的区分区域。最好看的颜色与已经检测到的AU4呈负相关。在图8（c）中，我们示出了斑块预测（左）与AU24的类激活图[15]。（右）。与非常局部化的块预测相反，右侧的注意力扩展到面部的可能存在相关AU的更大区域。5结论我们提出了深度结构化推理网络，旨在处理AU识别的补丁和结构学习DSIN首先学习独立的局部和全局表示以及相应的预测。然后，它通过堆叠的全连接层学习每个AU的预测最后，受图形模型中推理算法的启发，DSIN以连接主义的方式复制了消息传递机制这增加了捕获输出空间中的相关性的能力该模型是端到端可训练的，在BP4D和DISFA数据集上的性能分别提高了5.3%和8.2%。未来的工作包括学习补丁结构的特征级和结构推理模块的容量增加。确认这项工作得到了西班牙项目TIN 2016 -74946-P（MINECO/FEDER，UE）和CERCA计划/加泰罗尼亚政府的部分支持我们衷心感谢NVIDIA公司的支持，并捐赠了用于本研究的GPUAU07AU06AU07AU06AU07AU01AU04AU10AU12AU10AU12AU14 AU10AU14AU12AU17AU24AU17AU07AU04AU06AU07AU10AU

下载后可阅读完整内容，剩余1页未读，立即下载