微表情识别中基于光学光流图像的单主干多尺度网络

45 浏览量更新于2023-12-09 收藏 1.04MB PDF 举报

视觉计算

微表情识别

身份认证购VIP最低享 7 折!

30元优惠券

图形和视觉计算4（2021）2000262021年CAD图形专题用于微表情识别的单主干多尺度网络王杰a，潘晓b，李新宇a，魏广顺a，周元丰a，李晓a山东大学，中国b山东财经大学，山东济南250101Ar ticlei n f o ab st ract文章历史记录：收到2021年2021年4月27日修订2021年5月1日接受2021年5月13日网上发售保留字：微表情光学微表情多尺度识别微表情是人类心理活动的外在表现。因此，微表情识别在公共服务、刑事侦查、临床诊断等领域具有重要的研究和应用价值。然而，特定特征（例如，短持续时间和细微变化）给微表情识别带来了很大的挑战。本文探讨了人们在做出不同表情时面部肌肉运动方向的差异，以识别微表情。我们首先使用光学显微镜来捕捉微表情发生时面部运动的细微变化。接下来，我们提取面部运动信息的各向异性加权的光学光流图像的基础上各向异性加权的水平，光通量的垂直分量和总分量。最后，我们将各向异性加权的光学光流图像输入到所提出的单主干多尺度网络中进行微表情识别。特别地，在网络中设计的多尺度特征捕捉器可以捕捉具有不同强度的微表情特征。我们在四个自发微表情数据集上进行了大量的实验，实验结果表明，我们提出的方法是有竞争力的和有效的。© 2021作者（S）。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）1. 介绍微表情是一种自发的、快速变化的面部表情，具有持续时间短和变化细微两个显著特点。标准微表情的持续时间仅为1/25至1/3秒[1]。与宏观表情不同，微表情是人类无意识流露出来的外在表现，可以作为判断人类主观感受的重要依据[2]。作为一种心理应激反应，微表情既不能隐藏，也不能抑制。因此，微表情识别在公共服务、刑事侦查、临床诊断等领域有着广泛的应用。微表情的快速和微妙变化使其难以观察。因此，即使对于专业人员来说，准确地识别微表情也是极具挑战性的。在早期的工作中，已经提出了一些辅助工具来减少人工识别的难度，例如面部动作编码系统（FACS）[3]，微表情训练工具（METT）[4]。怎么--∗通讯作者。电子邮件地址：chiehwang@mail.sdu.edu.cn （ J. Wang ），xppanxiao@163.com（ X.Pan ）， xinyuli@mail.sdu.edu.cn （ X.Li ）， guangshunwei@gmail.com（G.Wei），yfzhou@sdu.edu.cn（Y.Zhou）。然而，由于人工识别成本高、准确率低，这些方法离实用还很远。最近，已经建立了一些自发的微表达数据集[5基于这些数据集，已经提出了大量的方法来自动识别微表情，例如，三个正交平面上的局部二进制模式（LBP-TOP）[9]、空间时间上的完全局部量化模式（STCLQP）[10]。然而，微表情仅出现在面部的局部区域，并且变化非常微妙。这些手工制作的描述符很难准确捕捉微表情的微妙变化。深度学习在计算机视觉领域发挥了巨大的优势，如面部表情分类、人脸检测和图像识别。最近，许多深度学习方法已经被开发用于微表情识别。然而，由于训练数据的不充分性，通过原始图像序列对深度卷积神经网络实现令人满意的识别结果是非常困难的[11]。因此，一些方法（例如，[12，13]）提出利用光学小波提取图像的动态特征，然后基于光学小波图像建立深度卷积神经网络。作为一种捕捉视频中运动信息的技术，光学小波比原始图像序列更有效地用于微表情识别。光学流特征包含染料-https://doi.org/10.1016/j.gvc.2021.2000262666-6294/© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表图形与视觉计算期刊首页：www.elsevier.com/locate/gvcJ. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000262微表情的动态特征细节。然后，它们被输入到卷积神经网络中，卷积神经网络可以通过监督学习构建和选择更重要的运动特征进行分类。然而，如何有效地提取识别所需的关键特征仍然是当前基于光学卷积神经网络的一个具有挑战性的问题。本文提出了一种简单有效的基于深度学习的微表情识别框架。由于光学小波在微表情识别中的有效性，我们的网络输入也是基于光学小波的，我们进一步探索光学小波中包含的动态信息，以获得各向异性加权的光学小波图像作为输入。特别地，面部肌肉的运动方向在各种微表情类别之间显著不同，并且该运动信息可以由光学流捕获。基于这一点，我们设计了一种基于各向异性加权的光学光流图像，对光流的水平分量和垂直分量进行各向异性加权，以提取人脸的主要运动信息。基于各向异性加权的光学图像，我们设计了一个单主干多尺度网络（STM-Net）来识别微表情。具体来说，我们使用浅卷积块进行初步特征提取，然后使用多尺度特征捕捉器来捕捉具有不同幅度的时空特征。最后，我们采用全连接层来预测提取的特征的微表情。本文的主要贡献可概括如下：• 我们设计了一个各向异性加权的光学小波图像作为我们的网络的输入，它可以突出的主要面部运动信息，同时抑制噪声信息。此外，我们在烧蚀实验中验证了所提出的各向异性加权光学光流图像的有效性。• 本文提出了一种基于非等权光学光流图像的单主干多尺度网络（STM-Net）用于微表情识别。特别地，为了捕获具有不同强度的微表情的局部特征，我们在STM网络中设计了具有膨胀卷积层的多尺度特征捕获器。• 我们在四个基准数据集上进行了大量的实验，以验证我们的方法的有效性。实验结果表明，该方法具有较好的性能.2. 相关工作自发微表情数据集的建立[5-已经提出了大量的方法来解决微表情识别问题[14]。根据特征提取的过程，这些方法可以分为两类：基于手工特征提取的方法和基于深度学习的方法。在本节中，我们简要回顾了微表情识别方法密切相关的这项工作在适当的背景下。大量的算法已经提出了基于手工制作的功能。例如，基于纹理的特征提取是微表情识别的早期尝试之一[15LBP-TOP[15]从三个正交平面中提取LBP特征[18]一些方法[19-光学显微镜可以捕捉面部肌肉在微表情发生时的运动信息。因此，Liu等人从原始图像序列中提取了主方向平均光通量（MDMO）特征[22]。为了保持特征空间中固有的底层流形结构，进一步提出稀疏MDMO[23]。与文献[22]不同的是，FDM[24]将每个序列划分为若干个时空长方体，并计算每个长方体的主方向来表示微表情的动态信息。为了提高特征计算的效率，Li-ong等人。[25]仅使用起始帧（即，微挤压发生的时刻当微表情处于其最大幅度时的时刻）来提取微表情特征，并提出了双加权定向光流（Bi-WOOF），该双加权定向光流（Bi-WOOF）使用光学光流幅值来加权直方图箱和光学应变幅值来加权面部块。然后，为了提高Bi-WOOF的性能，Liong等人[26]基于Bi-WOOF特征添加了由起始帧和顶点帧的差异图像生成的结构信息。基于定向光流直方图的工作[27]需要硬角度阈值，这限制了特征的有效性。为了解决这个问题，Happy等人。[28]使用模糊直方图技术[29]并提出了光流方向的模糊直方图作为面部运动的表示。手工特征提取方法具有高度的可解释性，对大数据集的依赖性较低，但为这些方法建立适用的特征也很困难和复杂。在微表情识别的深度学习方法不充分的数据集和不平衡的类是性能改进的主要挑战。为了解决这些问题，[30，31]使用数据增强技术来扩大训练集中的样本数量。例如，Xia et al.[30]从欧拉放大序列中随机选择数据以扩展训练集。迁移学习[32]是微表情识别[12，33，34]中少数学习问题的另一种常用方法。迁移学习方法首先在其他数据集上训练模型（例如，宏表情数据集，人脸数据集）以获得预训练模型，然后在微表情数据集上对模型进行细化。与[33，34]不同，[12]的工作还使用面部运动的光学流作为预训练模型的输入，以突出关键特征。这些方法取得了较好的性能，但深层网络结构和大量的参数无疑给网络训练带来了很大的负担，特别是当微表情数据集不足时。最近，已经提出了以光波作为输入的浅网络[35- 37]。与深度网络相比，浅网络可以在没有附加辅助方法的情况下实现更好的性能（例如，数据增强、迁移学习），并且训练的模型是轻量级的。因此，一些研究人员更喜欢设计浅用于微表情识别的网络结构。在本文中，我们提出了一个单干线多尺度网络，它包含具有不同接收场的膨胀卷积层，以捕获微表情的多尺度特征。此外，我们还设计了一个各向异性加权的光学小波图像作为网络的输入。各向异性加权的光学光流图像可以提取微表情的关键动态信息，从而减少后续网络的特征提取负担3. 该方法在本节中，我们将重点放在拟议框架的细节上。我们框架的流水线如图1所示。为了便于微表情特征的提取和减少非面部区域的干扰，我们首先对原始图像进行预处理。然后，通过对光学码流的水平分量和垂直分量进行各向异性加权，得到各向异性加权的光学码流图像，从而提取出图像序列中的关键动态信息。最后，将各向异性加权的光学光流图像馈送到我们新设计的网络STM-Net（Sin-1）中。J. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000263- -..XiyiDtDt我，我，我我，我我我我.我|Xi|图1.一、我们框架的管道。（a）预处理的两个步骤：归一化和裁剪。（b）基于各向异性地加权光学光流的水平分量和垂直分量来生成各向异性加权光学光流图像(c)提出的单主干多尺度网络（STM-Net）用于特征提取和微表情分类。整个网络包括三个模块：浅卷积块，多尺度特征捕捉器和全连接层。多尺度网络）来完成微表情识别。下面，我们首先介绍3.1节中的预处理细节。然后，我们在第3.2节中介绍了我们的各向异性加权光学光流图像的计算。最后，我们在第3.3中说明了STM网络的设计。3.1. 预处理已经证明，使用顶点框架和起始点微表情视频序列的帧来编码微表情视频序列。表情特征对于识别是足够的 [25、38]。动机面部肌肉在不同的微表情之间有着显著的不同。为了提取关键的动态信息，我们设计了各向异性加权的光学光流图像，通过各向异性加权的光学光流的水平和垂直分量突出的主要面部运动方向。光学光流矢量（fxi，fyi）可以描述瞬时的运动物体的像素i在二维平面上的速度，表示为：[f，f]=dxi，dyi（ 2）通过这种方法，我们使用起始帧和顶点帧作为每个微表情序列的表示，以提高计算效率并减少特征提取的冗余我们对起始帧fi、起始帧和顶点帧进行归一化和裁剪fi，每个样品i的顶点。首先，选择中性表情图像G作为模型人脸，然后将模型人脸的人脸特征点φ（G）和fi，通过主动形状模型检测发作[39]。接下来，我们使用局部加权均值（LWM）[40]将φ（fi，onset）归一化为φ（G），变换矩阵为：M i= LW M （ φ （ G ），φ （ fi ， onset））， i = 1 ， . ， n.（一）然后我们就可以得到fr= f<$M，其中fr代表着其中fxi和fyi表示水平分量和垂直分量的光学光流矢量。（dxi，dyi）表示像素i在水平和垂直方向上的位移变化而dt表示时间变化。本文选用具有良好噪声鲁棒性的TV-L1[41]方法计算起始帧和顶点帧之间的光学相干流[U，V其中，通道U={fxi}i，并且V=fyii.为了正确地计算光学亮度值，图像的亮度应该是恒定的。然而，它几乎是IM-可以避免在数据收集过程中的光变化。因此，与[37]类似，我们将光学反射率的值归一化为[0， 255]，以补偿照明引起的杂散变化。归一化的光通量表示为[Ur，Vr]。面部表情是由面部肌肉运动引起的的第i个样本的归一化帧s（起始或顶点）。最后，我们重新-参考[9]中提到的裁剪方案来裁剪起始帧和顶点帧。具体来说，我们首先检测坐标两个眼睛：（x，y），（xr，yr）。然后我们设定起始点Sp面部肌肉的运动幅度在两个方向上变化（即，水平和垂直）用于不同的微表情。例如，“惊喜”样本的面部运动ll下巴下沉或抬起眼睛上方的区域（延伸到眼睛上方）。=（xl − 0. 6（x r− xl），yl +0。4（yl-yr）），作物的高度和宽度分别为2.2δ和1.8δ（δ是两眼之间的距离），分别3.2.不等权光学小波图像微表情的主要特征之一是面部动作非常微妙。由于不充分的数量-前额），这些运动变化主要集中在垂直方向。因此，更多地关注垂直运动有利于“惊喜”识别。根据这一观察，我们设计了一个各向异性加权的光学光流图像，通过各向异性加权的光学光流方向，强调面部肌肉的微表情的关键运动方向。具体地，各向异性加权光学光流图像中的像素i的强度值di表示为：数据集中的样本数量，很难直接从从原始图像中提取有效特征进行识别。di=xfrxi 公司简介我的朋友在[12，36，37]中建议，使用光学曲率值作为网络的输入可以获得良好的分类性能比原始数据。由于面部肌肉的变化是轻微的Fx=.i（|fx|+|fy|）（三）当微表情出现时，捕捉这种微妙的变化。因此，在本文中，我们还使用y=我|FY I|i（|f x|+|fy|）J. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000264光学光流提取从起始帧到顶点帧的动态信息。此外，哪里 frxi∈Ur， fryi∈Vr表示水平和垂直第i个像素的归一化光学光流的分量，分别为：J. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000265CiCiCi图二. CASME II中各向异性加权光学光流图像示例。两个不同人物的“压抑”与“惊讶”的微观(a)及（b）分别。我们分别在顶行和中间行中示出了微表情视频序列的起始帧和顶点帧。最下面一行显示的是不等权的光学回波图像很好Wax和Wy表示这两个组件的权重。我们在图2中显示了我们获得的各向异性加权光学光流图像的一些示例。从图2中可以看出，不等权的光学小波图像既能保留微表情的运动信息，又能抑制微表情的噪声非运动区他们强调了不同之间的区别-表1浅卷积块的参数详细信息。类型滤波器步幅输出输入--227×227×1Conv_1 9×9 1 221×221×96平均合并2×2 2 110×110×96Conv_2 5×5 1 106×106×96平均合并2×2 2 53×53×96Conv_3 5×5 1 53×53×64图三. 多尺度特征捕捉器的详细信息。我们使用三种卷积核，其膨胀率（r）分别为1，2，3，以捕获多尺度特征。我们使用ReLU作为浅层卷积块的激活函数，这使得每个卷积层的输出应用非线性变换来增加表示的特征。模型的能力详细地说，我们定义Ls={ls}c为C俄.西输入微表情，并且还确保不同人的相同微表情具有相似的图像特征。此外，各向异性加权的光学图像流输入到所提出的网络进行微表情识别。卷积层s的输出。来自层s的输出中的第c个通道的第i个像素的激活特征l_c_i可以是例如，按下：lrs=max（ls）=max（ls，0）（4）3.3.单干线多尺度网络在本节中，我们将介绍所提出的网络STM-Net的细节。如图1所示，STM网络由三部分组成：浅卷积块、多尺度特征捕捉器和全连接层。利用浅卷积块对各向异性加权光学光流图像进行特征初步提取，利用多尺度特征捕捉器对不同强度的图像进行时空特征提取。然后，我们在网络的末端使用三个完全连接的层来将扩展特征映射到微表情的分类标签。STM-Net的各个部分的细节将介绍如下。3.3.1.浅卷积块我们使用包含主要运动信息的人工加权光学光流图像作为网络的输入。为了初步提取各向异性加权的光学光流图像的特征，我们设计了一个只有三个可学习层的浅卷积块。为了与网络的输入相匹配，首先将各向异性加权的光学流图像的大小调整为227×227的分辨率。表1示出了浅卷积块的详细设置，其通过交替的卷积和池化操作对调整大小的各向异性加权的光学光流图像执行特征提取。其中λ是激活函数（即，ReLU）。ReLU函数可以通过单侧抑制来选择特征的激活，以实现特征稀疏，这使得模型在小数据集上训练时更好地拟合数据。为了增强模型的泛化能力，我们在每个激活层之后使用归一化层[42]3.3.2.多尺度特征捕捉器多尺度特征捕捉器被设计为学习具有不同强度的微表情特征。面部肌肉运动的幅度因人的不同和微表情的不同而不同，因此需要进行多尺度的特征提取。在浅卷积块中，卷积核的滤波器大小是固定的，因此使接收场不变。因此，很难准确地提取不同大小的微表情特征.为了解决这个问题，我们在浅层卷积块之后引入了多尺度特征捕捉器。多尺度特征捕捉器采用扩张卷积实现多尺度的感受场，增强了捕捉器对多尺度微表情特征提取的适应性。我们的多尺度特征捕捉器的结构如图所示。3.第三章。在多尺度特征捕捉器中，具有扩张率r的卷积核W对通道中具有C的输入特征图进行卷积运算，则第c个通道中的第i个结果yci（r）J. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000266.我..c=1--−=.N+ii.N+ii..--输出通道表示为：C在准确性度量（ACC）是指正确预测的样本在样本总数中所占的比例，因此可以计算如下：yci（r）=j=0▲j（r）ACC=N正确（九）K−1K−1▲ji（r）=Rji ，（ r×kw ， r×kh ） <$Wj ，（ kw ， kh ）（5）kw=0kh= 0其中，▲ji（r）是对第j个输入通道中的区域Rji进行卷积的结果。K表示W的滤波器大小，并表示卷积运算。每个刻度的输出可以是表示为Y（r）=yc（r）Cout，其中Cout是输出通道的数量。不同尺度的特征以按深度级联的方式合并以得到特征图Z：Z=concat[Y（1），Y（ 2），Y（ 3）]（6）N个总其中，Ncorrect表示具有正确预测的样本的数量，Ntotal表示样本的总数。在数据集中存在类别不平衡的情况下，准确度不能衡量模型在每个类别中的分类性能。因此，我们还使用F1-score度量来评估模型的性能，这是精确度和召回率的调和平均值。假设tp、fp和fn分别表示真阳性、假阳性和假阴性。F1分数可以计算如下：F1得分2×精确度×召回率查准率+查全率然后，我们将Z送入1×1卷积层，以融合来自recall=.Nt pi不同的尺度。i=1（tpfn）i=1（十）precision=.Nt pi3.3.3.全连接层我们使用三个完全连接的层将学习到的特征映射到标签空间，并输出每个微表情类的预测概率。具体地说，我们对多尺度特征捕捉器的输出进行细化，然后依次连接三个全连接层，以增加模型的非线性表达。最后一个全连接层输出输入图像序列所属的每个微表情类的概率值。此外，在前两个全连接层中使用了dropout技术[43]，接下来，我们将第二个全连接层的输出yewj y+bji=1（tp（f p）i=1其中查全率表示所有阳性样本中正确预测样本的比例，而精确度表示所有预测阳性样本中真正阳性样本的比例。在本文中，我们使用准确率和F1分数作为网络性能的评价指标，在下面的实验。在我们的实验中，为了避免分类过程中的人员依赖问题，我们采用了留一个主题（LOSO）交叉验证。具体而言，在验证过程中这个过程重复n次（n是数据集中的受试者数量），直到每个受试者都被用作测试子集一次。F1-评分分别达到78.31%和79.45%，pj=nk=1 ewky+bk（七）- 是的其中pj表示当前样本被预测为第j类的概率，n表示总类的数目。我们使用交叉熵损失函数来训练我们的模型，可以表示为：nLoss（p，p）=−pjlogpj（8）j=1其中，分别实现了可重复性和可重复性的可靠性和可重复性。在测试阶段，具有最大概率值的类别是我们识别的最终结果4. 实验在本节中，我们将详细描述我们的实验实现。为了充分验证我们的方法的有效性，我们对四个自发微表达数据集（SMIC[5]，CASME [6]，CASME II [7]，SAMM [8]）进行了比较实验。本文首先介绍了两种结果评价标准的定义，RIA（即，准确度和F1评分），见第4.1节。然后，我们在第4.2节中报告了我们的方法与最先进的方法在四个数据集上的比较结果。最后，我们进行了烧蚀实验，以验证4.3节中所提出的方法的每个部分的有效性。4.1. 评价标准与大多数分类任务实验类似，我们首先利用准确性来衡量我们提出的模型的性能的4.2.与最先进方法的在本节中，我们将我们的方法与四个数据集上的最新方法进行比较。在每个数据集上的实验结果的细节介绍如下。对SMIC的评价。SMIC数据集由来自16个受试者的164个自发微表情组成，并且所有微表情视频都是由100 fps高速相机收集的。SMIC中的数据分为三类：51个阳性样本，70个阴性样本和43个意外样本。考虑到没有提供中芯国际的顶点帧索引。因此对于对于SMIC中的n帧微表情序列，我们估计每一帧与起始帧之间的光学相干性，帧ft（ft ∈1，2，…，n），并计算Mt中所有元素的平均值mt。最后，我们选择具有最大平均光学相干流幅度的帧ft作为当前序列的顶点帧。我们将我们的方法与最先进的方法进行比较，结果如表2所示。从实验结果可以看出，我们的方法在SMIC数据集上获得了最好的结果。在LOSO交叉验证下，与目前最有效的方法[30]相比，所提出的方法的准确性和F1得分分别提高了6.10%和10.23%，这说明了我们方法的有效性。对CASME的评价 CASME数据集提供了193个带有标签的自发微表情视频片段。所有视频数据由60 fps摄像机从20个受试者收集。与[22]一致，我们在实验中使用了四类微表情：厌恶（41个样本）、压抑（39个样本）、惊讶（19个样本）和紧张（67个样本）。比较结果见J. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000267表2提出的STM-Net和最先进的方法在四个数据集上的微表情识别结果。SMIC CASME CASME II SAMM62.00% N\A N\A61.25% 59.75% 59.10%双WOOF+相[26]68.29% 67.30% N\ A N\ A 62.55% 65.00% N\ A N\ A[24]第二十四话MDMO[22]54.88%百分之五十八点九七53.80% 56.14% 49.12% 45.93% 40.53% N\ A N\ A58.45% 56.29% 55.51% 51.69% 49.66%不适用不适用[23]第二十三话70.51%70.41% 74.83% 74.98% 66.95% 69.11% N\ A N\ ADSSN[37]63.41%64.62%不适用不适用70.78% 72.97% 57.35% 46.44%STRCN[30]72.56%69.50% N\ A N\ A N\ AVGG-16[44]72.56%75.09% 75.30% 77.36% 80.32% 78.87% 72.95% 61.73%AlexNet[45]74.39%76.15% 77.71% 78.05% 83.20% 83.19% 73.58% 62.43%STM-Net78.66%79.73% 78.31% 79.45% 84.84% 84.80% 81.13%N\ A表示未报告表 2. 从结果中，我们可以观察到我们的方法优于稀疏MDMO[23]，稀疏MDMO [23]在四个分类的情况值得注意的是，对CASME II的评价。CASME II是广泛用于微表达分析领域的数据集。该数据集共包含255个自发微表达样本，所有这些样本均由200 fps高速相机从26名受试者中收集。微表情分为7类：快乐（32个样本）、压抑（27个样本）、厌恶（63个样本）、惊喜（28个样本）、其他（99个样本）、恐惧（2个样本）和悲伤（4个样本）。我也是这样，我也是这样，我也是这样。在我们的实验中有五个班级。我们在表2中列出了我们的方法与最先进方法的比较结果。结果表明，该方法获得了最好的准确率为84.84%，最高的F1得分为84.80%，与所有五个类CASME II。具体而言，与在五种分类情况下性能最佳的示例方法[37]此外，与也仅使用起始帧和顶点帧来表示微表情的面部运动模式的Bi-WOOF[25]相比，我们的方法的准确度和F1分数分别提高了26.95%和23.55%对SAMM的评价 SAMM数据集包含159个 spon-由200 fps高速摄像机拍摄的即时微表情视频片段，所有微表情均来自来自13个种族的32名参与者。SAMM数据集由八类微表情组成：快乐（26个样本）、惊讶（15个样本）、愤怒（57个样本）、蔑视（12个样本）、厌恶（9个样本）、恐惧（8个样本）、悲伤（6个样本）和其他（26个样本）。为了进行公平的比较，我们按照[30]将八种标签重新分为四类：积极（幸福），消极（厌恶，悲伤，恐惧，蔑视，愤怒），惊讶和其他。表2所示的结果表明，所提出的方法在SAMM数据集上实现了有竞争力的结果。虽然SAMM的规模是四个自发微表达数据集中最小的，但该方法的准确率和F1得分分别为81.13%和74.36%。在四个自发微表情数据集上与其他方法的比较结果验证了该方法的有效性和鲁棒性。此外，我们使用各向异性加权光学光流图像训练VGG-16和AlexNet，结果如表2所示。我们可以观察到，在小数据集上，浅层网络（AlexNet，STM-Net）的性能优于深层网络（VGG-16）的性能。此外，为了可视化我们的方法的性能，我们为每个数据集建立了混淆矩阵，它反映了识别率。每一类的准确性。如图4所示，很明显，我们的方法可以在所有四个数据集上实现均衡的分类。此外，我们注意到SAMM中“其他”类的准确率仅为42%。其原因是SAMM中“Other”类样本数量4.3.消融研究在本节中，我们定量地评估了我们的框架的每个组成部分的有效性。具体来说，我们进行了消融实验，以观察各向异性加权光学光流图像，多尺度特征捕捉器和全连接层的数量对模型性能的影响。为了消除消融研究中的随机性，我们对所有四个基准数据集进行了实验。各向异性加权光学回波图像。我们通过为STM-Net设置不同的输入，验证了所提出的各向异性加权光学小波图像（Aniso-WOFI）的有效性。具体来说，我们分别使用[37]中的三种输入作为网络的输入。如文献[37]所述，光学光流幅值矩阵F（其可由U和V的平方和计算）、光学应变幅值矩阵S（其可由U和V的导数计算）和顶点帧的灰度值G 可以被使用作为的额外渠道的归一化光学流[Ur，Vr]以形成输入数据：（1）[Ur，Vr，F];（2）[Ur，Vr，S];（3）[Ur，Vr，G].此外，我们还直接使用[Ur，Vr]作为输入，以验证光学光流分量的各向异性特性对于微表情识别的重要性。实验结果如表3所示，可以看出我们的方法可以使模型达到最佳的识别效果。此外，我们的实验还证明，使用更多的信息作为网络的输入并不能显著提高识别性能，有时甚至会降低识别性能，这可能是因为不充分的训练数据集使网络不能有效地从冗余信息中提取有效信息。实验结果也证实了所提出的各向异性加权的光学光流图像可以有效地提取有效的动态信息用于微表情识别。图5示出了使用[Ur，Vr]作为STM-Net的输入。比较图5和图4，我们可以观察到四个数据集上每个类的准确度变化。这种变化可以证明我们提出的不等权光学光流图像对每种微表情的有效性。没有多尺度特征捕捉器。我们去除了STM-Net中的多尺度特征捕捉器（MFC），以研究其对方法ACCF1得分ACCF1得分ACCF1得分ACCF1得分[15]第十五话43.38%34.21%37.43%32.33%46.46%42.41%39.68%35.89%LBP-SIP[16]44.51%44.92%36.84%33.27%46.56%44.80%41.51%40.20%[19]第十九话[25]第二十五话63.41%62.20%不适用64.33%不适用64.78%57.89%不适用不适用不适用J. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000268见图4。利用各向异性加权光学光流图像作为STM-Net输入的混淆矩阵。图五、使用[U r，V r]作为ST M -N et 的输入的混淆矩阵。表3STM-Net在四个数据集上的不同输入方面的性能SMIC CASME CASME II SAMM输入ACCF1得分ACCF1得分ACCF1得分ACCF1得分[美国、俄罗斯、法国][37]70.73%71.80%67.47%百分之六十八点三五74.18%73.74%百分之六十八点五五46.70%[2005 - 06 - 01][37]第二届全国政协副主席73.78%76.10%72.29%74.95%76.64%76.44%67.92%54.19%[2004年1月27日][37]74.39%75.03%74.10%75.65%百分之七十七点八七77.74%百分之六十八点五五52.26%[Ur，Vr]74.39%75.19%72.29%74.57%79.10%百分之八十点二五77.36%68.16%Aniso-WOFI78.66%79.73%78.31%79.45%84.84%84.80%81.13%74.36%表4在四个数据集上比较有和没有MFC的STM-Net的性能SMIC CASME CASME II SAMM模型ACCF1得分ACCF1得分ACCF1得分ACCF1得分不含MFC74.39%74.98%73.49%76.75%79.09%78.23%71.69%61.61%STM-Net78.66%79.73%78.31%79.45%84.84%84.80%81.13%74.36%微表情分类性能。具体来说，我们只使用浅卷积块进行特征提取，并将其直接连接到全连接层进行微表情识别。表4显示了使用和不使用MFC的结果，我们可以看到，在所有四个数据集上，当采用多尺度特征捕捉器时，模型的有效性可以得到显著改善。完全连接的层数。随着全连通层（FC）层数的加深，理论上可以提高模型的学习能力。然而，由于数据集中训练样本的数量有限，FC的深化很容易导致过拟合问题。为了选择合适的FC数量，我们探讨了FC数量对网络性能的影响。具体来说，我们将FC的数量分别设置为1、2、3和4来训练模型。在在我们的实验中，最后一个FC中的单元数与微表达式类的数量，激活函数是Softmax。其他层中的单元数量为256，激活函数为ReLU。特别是，当我们将FC的数量设置为1时，这意味着MFC的输出直接连接到具有Softmax激活功能的FC。根据图 6，当我们将F C 的数量设置为3时，见图6。不同数据集中全连接层的数量对准确度（a）和F1分数（b）的影响。该模型实现了最佳性能。此外，在SMIC和SAMM数据集上，当FC的数量设置为4时，模型的性能显著下降。造成这种现象的原因是在训练数据不充分的情况下，训练参数的增加导致模J. Wang，X.平移X。Li等人图形和视觉计算4（2021）2000269型的过拟合问题。J. Wang，X.平移X。Li等人图形和视觉计算4（2021）200026105. 结论微表情的快速而微妙的变化使得识别变得非常重要，而不充分和不平衡的数据集使得这个问题更加困难。在本文中，我们提出了一个简单而有效的微表情识别框架。我们观察到，在水平和垂直方向上，面部肌肉的运动方向对于不同的微表情是不同的。在此基础上，我们设计了一种基于各向异性加权的水平分量和垂直分量的光学湍流图像。各向异性加权的光学光流图像可以突出面部运动在主运动方向上的特征。基于各向异性加权的光学小波图像，提出了一种单主干多尺度网络（STM-Net）来识别微表情。特别地，我们使用了一个浅卷积块来初步捕获微表情的特征，并设计了一个多尺度特征捕获器来跟随浅卷积块捕获不同强度的时空特征。在4个微表情数据集上的实验结果有力地证实了该方法的有效性虽然我们的网络是浅薄和有效的，建议的铝-由于耗时的光学光流计算，租M仍然不能保证系统应用中的实时性能。我们正在设计一个端到端的微表情识别框架，以提高操作效率。此外，微表情检测是微表情分析领域的另一个重要问题。它是在长视频中自动检测微表情，是微表情识别任务的基础。在未来的工作中，我们将尝试将微表情的检测和识别结合起来，形成一个完整的微表情分析系统。竞争利益声明作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢本课题得到了国家自然科学基金项目（编号：U1909210）、浙江省信息化与工业化融合发展联合基金项目（编号：U1909210）、浙江省信息化与工业化融合发展联合基金项目（编号：U1909210）和浙江省信息化与工业化融合发展联合基金项目（编号：U1909210）的资助。61772312），山东省重点研究发展项目，批准号：2019GGX101021。引用[1] 严伟，吴强，梁军，陈勇，付晓。泄露的面部表情有多快：微表情的持续时间。J Nonverbal Behav 2013a;37（4）：217[2] Ekman P， Friesen WV. 非语言泄漏和线索欺骗..精神病学MMC1969;32（1）：88-106。[3] 埃克曼河面部揭示了什么：使用面部动作编码系统（FACS）进行的自发表达的基础和应用研究。牛津大学出版社，纽约，纽约，美国; 1997年。[4] 埃克曼山口Mett：微表情训练工具。CD-ROM2003;奥克兰。[5] Li X，P Fister T，Huang X，Zhao G，Pietikäinen M.自发性微表达数据库：诱导、收集和基线。 In ： Proceedings of the internationalconference onautomatic face &gesture recognition; 2013. p. 1比6[6] 严伟，吴强，刘毅，王S，付晓. CASME数据库：从中性面孔收集的自发微表情数据集。在：自动面部姿态识别国际会议的会议记录。IEEE ComputerSociety; 2013 b. p. 一比七[7] Yan W，Li X，Wang S，Zhao G，Liu Y，Chen Y，et al. Casme ii：an improvedspontaneous micro-expression database and the baseline evaluation. PLOS One2014;9（1）.[8] Davison AK，Lansley C，Costen N，Tan K，Yap MH. Samm：一个自发的微面部运动数据集。IEEE Trans Affect Comput 2018;9（1）：116[9] PFISTER T，Li X，Zhao G，Pietikäinen M.识别自发的面部微表情。In：Proceedings of the International Conference on Computer Vision; 2011. p. 1449-56年[10] Huang X，Zhao G，Hong X，Zheng W，Pietikäinen M.基于时空完备局部量化模式的自发面部微表情分析。神经计算2016 a;175：564-78.[11] Kim DH，Baddar WJ，Ro YM.具有表达状态约束的时空特征表示的微表情识别。In：Hanjalic A，Snoek C，Worring M，Bulterman DCA，Huet B，KelliherA，et al.，编辑。2016年ACM多媒体国际会议的主办方。p. 382-6[12] Khor H，See J，Ph

下载后可阅读完整内容，剩余1页未读，立即下载