视频序列中微表情定位与识别研究综述

10 浏览量更新于2024-01-24 收藏 791KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：潘航，谢伦，王志良，刘斌，杨明浩，陶建华。视频序列中的微表情定位与识别研究综述。虚拟现实智能硬件，2021，3（1）：1-17DOI：10.1016/j.vrih.2020.10.003虚拟现实智能硬件2021年12月13日第1·回顾·视频序列中微表情的发现与识别研究进展黄培安1，陆希鄂1*，王志良1，李斌2，杨明2，姜虎涛21. 北京科技大学计算机与通信工程学院，北京1000832. 中国科学院自动化研究所模式识别国家重点实验室，北京100190*通讯作者，xielun@ustb.edu.cn投稿时间：2020年7月11日修订日期：2020年9月18日接受日期：2020年10月15日国家重点&研发计划（2017 YFB 1002804）;国家自然科学基金（61672093）;北京市自然科学基金（L192005）。摘要面部微表情是一种短暂而不易察觉的表情，它会不由自主地揭示一个人可能试图压抑、隐藏、伪装或隐藏的真实情绪。这种表情可以反映一个人的真实情绪，在公共安全和临床诊断中有广泛的应用。通过计算机视觉分析视频序列中的面部微表情仍然是相对较新的。本文对微表达分析数据库和方法中的点样识别技术进行了综述，并对该领域的先进技术进行了总结。此外，我们还讨论了在微表情分析领域有待完成的未来工作中仍然未解决的挑战。面部表情;微表情定位;微表情识别;数据库;综述1介绍随着人工智能、机器学习、计算机视觉等新技术的进步，智能人机交互逐渐成为用户日常生活的一部分，包括智能音箱、无人驾驶、随行机器人等。未来社会将是智能化的，智能人机交互将应用于人类的日常生活。智能人机交互不仅要求机器通过不同的交互方式完成任务，还要求机器具有类似于人类交互的情感识别、表达和反馈能力。心理学家认为，人类情感表达的7%是通过语言传达的，38%是通过言语传达的，剩下的55%是通过面部表情传达的[1]。虽然面部表情可以反映一个人的精神状态，但人们往往会在特定情况下伪装或故意表达某种面部表情。在这种情况下，有必要根据面部微表情来判断个人的真实情绪状态。面部微表情是短暂的、不易察觉的表情，它们会不自觉地揭示真实2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2021年12月13日第1一个人试图压抑、隐藏、伪装或隐瞒的情绪。它们很难通过意志来修改，并且可以反映一个人的实际情绪状态。1966年，Haggard和Isaacs在研究心理治疗时首次提出了微表情的概念，并发现了短暂的、难以察觉的面部表情的存在[2]。1969年，Ekman等人观察了一段心理学家与抑郁症患者之间的对话视频，发现患者在试图通过微笑来说服医生她不再有自杀倾向时，偶尔会有几个非常痛苦的表情[3]。研究人员将这些人在经历强烈情绪时产生的快速、无意识的自发面部运动称为微表情。与人类有意识地做出的面部表情相比，微表情更能反映真实的情感。由于微表情包含潜在的真实情感信息，它们在高风险场景中非常重要[4- 9]。微表情的应用场景如图1所示。图1微表情的应用场景：测谎、刑侦、临床医疗。微表情是一种持续时间短、强度低的面部表情，通常出现在人们有意或无意地试图隐藏自己真实情绪的时候。因此，识别这种真实的情感信息并不容易。在这些困难中，一个主要的问题是微表情的持续时间极短，持续时间在0.04秒到0.2秒[11]，有研究表明微表情的持续时间小于0.33秒，最多不超过0.5秒[12]。这种快速的出现和消失给微表情的定位和识别带来了巨大的挑战。微表情也具有低强度，并且仅与面部表情动作单元的一部分相关[13]。因此，微表情很容易被人眼忽略。没有专业训练，大多数受试者无法快速识别微表情。为了帮助人类学习感知和理解微表情，Ekman等人设计了微表情训练工具（METT）[14]，让受试者识别微表情。通过使用METT进行广泛和重复的训练，普通人可以学会识别七种基本的微表情。然而，Frank等人发现，接受METT训练的人对微表情的整体识别率仅达到约40%[15]。随着视觉传感器的快速发展，计算机视觉和视频处理技术已成为研究人员将面部微表情识别应用于临床治疗或高危环境的新方向。针对不同研究背景和应用场景的自发面部表情识别是一个热门的研究课题[16- 21]。与此同时，面部微表情大挑战（MEGC）促进了微表情的发展[22- 25]。然而，使用视频的微表情定位和识别是一个具有额外挑战的新课题。首先，通过自发诱导收集微表达数据集是困难的，并且当前的数据样本数量很少。从视频序列中准确地确定微表情发生的时间也是困难的。由于微表情是微妙和快速的，在较长的视频序列中找到微表情并不容易。最后，由于微表情的变化只与少数几个面部动作单元有关，而且变化的强度很低，这给微表情的识别带来了困难近年来，计算机2HANETAL：在虚拟化设备中恢复微膨胀率和恢复率技术.与其他微表情评论不同，本文将微表情分析分为三个部分：微表情数据集、微表情定位和视频序列识别。本文的组织结构如下。第2节介绍微表情数据集。第三部分介绍了长视频序列中的微表情定位方法。第四部分介绍了微表情识别方法.最后，第五节总结并讨论了微表情分析面临的挑战和未来值得研究的领域.2微表情数据集微表情分析的前提是有足够的带有情感标签的数据。然而，基于计算机视觉的微表情定位和识别研究才刚刚开始引起人们的关注，迄今为止很少有自发的微表情数据集发表。表1总结了所有可用的微表达数据集，包括两种类型，姿势和自发，用于微表达的定位和识别。表1摆位和自发微表达数据集[27][28][29][30][31][32][33][34][35][36]CASME[31][34]第二届中国国际化学品工业展览会[35][35]第三十五话数据集-子HSVISNIRE-HSE-VIS电子近红外光谱A节B主题11-961688168871235223232样本4210018771647171157717196101247357159502FACS否否指纹传感器fps20029.72510010025251002525606020030200200第六423333333775472分辨率640 × 4801280 × 720320 × 240640 × 480640 × 480640 × 480640 × 480640 × 480640 × 480640 × 4801280 × 720640 × 480640 × 480640 × 4802040 × 10882040 × 1088框架注释-------起始，偏移----起始，偏移，顶点起始，偏移，顶点类型PosedPosed自发的自发的对于摆姿势的微表情，受试者模仿面部微表情，其不能对抗受试者的当前情绪状态。因此，它无助于识别真正的微妙情绪。自发的微表情是不受控制的，与真实的情绪一致[36]。在自发微表情数据集的收集过程中，受试者观看诱导视频片段以刺激真实的情绪状态。与此同时，他们必须压抑自己的真实情绪，否则将面临惩罚。埃克曼等人认为，微表情是无意识的和非自愿的。因此，摆姿势的微表情通常不会表现出自发的微表情特征[3，4]。2.1姿势微表情数据集本节回顾了早期的研究，这些研究依赖于摆姿势的微表情数据集。2.1.1Polikovsky数据集2009年，Polikovsky et al.创建了第一个微表情数据集[26]。该数据集包括42个视频3虚拟现实智能硬件2021年12月13日第1在实验室环境中，通过像素分辨率为640×480的相机以200 fps捕获的11名大学生的序列。受试者的种族分布合理，包括5名亚洲人、4名白人和1名印度人。参与者被要求用低强度的面部肌肉运动产生六种基本表情，并迅速恢复到中性的面部表情。因此，这样的图像不被认为是真实世界情况的代表。此外，该数据集尚未公开以供进一步研究。2.1.2USD-HD数据集USF-HD[27]数据集类似于Polikovsky数据集，因为它通过受试者玩耍的方式收集微表情数据。在数据收集的过程中，受试者被展示了各种微表情图像，然后被要求流畅地模仿每一个。该数据集以29.7fps的速度收集了100个微表情样本，包括四类：微笑，惊讶，愤怒和悲伤。然而，该数据集尚未公开。2.1.3YorkDDT数据集约克欺骗检测测试（York Deception Detection Test，简称YorkDDT）是一种用于心理学研究的测试。Warren等人使用像素分辨率为320 × 240的摄像机以25 fps记录了9名受试者的20个视频序列[28]。参与者使用真实或欺骗性的情况来描述两种类型的情感或非情感电影片段。情感片段是紧张和不愉快的场景。非情感片段是中性的，令人愉快的场景。参与者被要求观察情感片段，然后将其描述为非情感片段，而观看非情感片段则需要将其描述为情感片段。Warren等人认为，在这两种情况下都会出现微表情，但它们不是公开的。该数据集主要用于自动欺骗识别。2.2自发微表达数据集因为微表情很难伪造，所以当我们收集自发的微表情视频片段时，受试者必须隐藏自己真实的情绪状态。因此，很难收集自发的微表达数据集。到目前为止，自发微表达数据集包括SMIC-sub[29]、SMIC[30]、SMIC-E CASME[31]、CASME II[32]、CAS（ME）2[33]、SAMM[34]和SAMM Long Videos[35]。2.2.1自发微表达语料库（SMIC）系列数据集微表情是分析欺骗和侦查的重要线索。2011年，Pfister等人创建了第一个自发微表情数据集SMIC-sub，以识别欺骗检测中的微表情[29]。SMIC数据集通过让受试者观看具有情感刺激的视频片段并要求受试者在观看片段时隐藏他们的真实感受来诱导自发的微表情。如果受试者无法隐藏自己真实的情绪状态，作为惩罚，他们被要求填写一份冗长而无聊的问卷。作者认为，这种设置将为说谎创造一个高风险的环境，并更好地诱导微表情。SMIC-sub使用100 fps高速摄像机记录了6名受试者（3男3女）的77个他们在2013年发布了SMIC数据集的完整版本。SMIC记录了20名受试者的328个视频序列，发现了16名受试者的164个自发微表情样本。受试者独自观看刺激的情感视频，参与者的面部视频数据从另一个房间远程观察。所有视频数据的像素分辨率为640 × 480，使用高速（HS）相机以100 fps的速度捕获。在最后10名受试者的记录中，还使用了25 fps的视觉相机（VIS）和近红外相机（NIR）因此，SMIC数据库包含三个子数据集，即SMIC-4HANETAL：在虚拟化设备中恢复微膨胀率和恢复率HS、SMIC-VIS和SMIC-NIR，通过多源数据进行微表达分析;但由于SMIC-VIS和SMIC-NIR的数据不完整，在微表达分析中并不常用。SMIC数据库包含三个情感类别：表2SMIC情感类别分布表2显示了阳性、阴性和惊讶的样本类别分布作者随后发布了SMIC的扩展版本（SMIC-E），其中包括一个完整的长视频序列，该序列分别包含标记微表情的开始位置和结束位置之前和之后的非微表情视频帧。SMIC-E与SMIC类似，有三个子数据库，即SMIC-E-HS、SMIC-E-VIS和SMIC-E-NIR。SMIC-E-VIS和SMIC-E-NIR数据库包含71个视频片段，SMIC-E-HS数据集包含157个视频片段，平均长度为5.9秒。与原有的SMIC相比，SMIC-E可以根据微表情的起始和结束位置进行微表情定位。2.2.2中国科学院微表情（CASME）系列数据集2013年，在SMIC完整版发布的同一时期，Yan等人创建了一个更全面的数据集CASME[31]。共有35名受试者（13名女性和22名男性）参加了这项实验。该数据集包含使用60 fps相机捕获的195个微表情样本视频序列。图2显示了来自该CASME数据集的示例。根据环境设置和相机，这些剪辑分为两类。A部分包含96个样本。使用BenQ M31相机以60 fps记录所有样品。自然光被用于记录。B部分包含101个样本。GRAS-03 K2 C相机以60 fps的速度记录了这些样本，分辨率为640 × 480。图2公共微表情数据集中显示的数据，其中绿色为起始帧，红色为顶点蓝色是偏移帧。SMIC数据集中未提供心尖瓣架索引[30，32，34]。虽然CASME包含了相对全面的微表情样本，但有些视频非常短，时长不到0.2s，这给微表情分析带来了困难。因此，Yan等人改进了CASME数据集，并发布了新的数据集CASME II[32]。该数据集收集了247个视频序列。这些样品是使用200-fps相机收集的，5数据集积极负惊喜总HS517043164VIS28232071NIR28232071虚拟现实智能硬件2021年12月13日第1分辨率为640 × 480。该数据集包含5类微表情：快乐（32个样本），惊讶（25个样本），厌恶（64个样本），压抑（27个样本）和其他（99个样本）。为了更确定微表情情感标签的准确性，所有样本都具有基于FACS标记的动作单元（AU）[37]，并且是从近3000个面部运动中选择的。为了促进微表情定位在欺骗检测中的应用，Qu等人提出了一种新的CAS（ME）2数据集，用于长视频序列中微表情的定位和识别[33]。该数据集收集了涉及22名受试者的98个视频序列，分辨率为640 × 480，30fps，包括57个微表情样本，并标记了微表情的开始，顶点和偏移时间索引。CASME系列数据集的样本类别分布如表3所示。可以观察到，由于归纳方法和个性化等因素的影响，数据集的类别分布呈现出不平衡性，使用数据驱动学习算法进行微表情分析时，识别的准确率会受到影响。这也是微表情识别中的一个重要挑战。表3CASME系列数据集数据集积极幸福负惊喜别人总鄙视厌恶恐惧镇压伤心张力CASME914423866920189CASME II32-632277-2599255CAS（ME）2821919572.2.3自发行为和微运动（SAMM）系列数据集2016年，Davison等人发布了第一个高速，200 fps，高分辨率，2040 × 1088 SAMM数据集[34]。通过刺激受试者产生微表情，受试者被告知在开始之前最大程度地掩盖他们的情绪。共有32名受试者引发情绪，并收集了159个视频序列。这些样本的情绪类别和FACS标签由训练有素的专家确定。SAMM的样本类别分布见表4。表4SAMM数据集的情感类别分布数据集幸福惊喜生气厌恶伤心伤心鄙视别人总SAMM2615579681226159在SAMM数据库的数据收集过程中，实验结束后将不会收集受试者的情绪自我报告。在实验开始前，每个受试者都需要完成一份问卷，为他们量身定制不同类型的视频刺激，增加情绪唤起的机会，并选择一段特定的视频展示给受试者，以获得最佳的诱导潜力。为了引入高风险情况并增加诱导微表情的概率，如果显示微表情，则给予受试者50英镑的奖金。2019年，他们发布了SAMM长视频的更新数据库版本[35]。在SAMM长视频数据集中，有32个主题和147个视频，其中包括343个宏表情和159个微表情。数据集给出微表达开始、顶点和偏移时间索引标签。一般来说，SMIC、CASME II、CAS（ME）2、SAMM和SAMM长视频被认为是微表达定位和识别的最先进数据集，应广泛用于研究目的。图2显示了当前三个公共微表情系列数据集的样本数据：SMIC，CAMSE和SAMM。其中，SMIC、CASME II和SAMM用于微表达识别，SMIC-E、CAS（ME）2和SAMM Long Videos用于微表达点样。6HANETAL：在虚拟化设备中恢复微膨胀率和恢复率3微表达点样自动微表情分析通常包括两个任务：定位和识别。微表情定位是从视频序列中检测到微表情的时间间隔。微表情识别用于对视频序列中出现的微表情进行分类。其中，视频序列中微表情的发现是高级面部识别的先决条件。自动微表情定位用于检测视频序列中微表情的起始、顶点、偏移帧和中性相位。Valstar等人认为，起始帧阶段是面部肌肉运动开始增加的时刻，顶点帧阶段是面部表情发展到最明显的时刻，偏移帧阶段是面部肌肉恢复到中性外观的时刻[38]。关于微表达点样的已发表研究很少[39]，这些方法可分为基于外观的方法、动态方法和一般方法。3.1微表达点样方法人脸微表情定位用于自动检测视频序列中的微表情发生的时间点，其指的是定位微表情的运动或时间间隔。表5总结了用于发现面部微表情的现有技术。表5面部疾病研究综述微量表达点样法工作特征辨识方法数据集Polikovsky等人，2009年[26]3D-HOGK均值波利科夫斯基Polikovsky等人，2013年[40]3D-HOGK均值波利科夫斯基Moilanen等人，2014年[41]LBP阈值技术CASME戴维森等人，2015年[42]生猪阈值技术SAMMPatel等人，2015年[43]光流阈值技术中芯国际Xia等人，2016年[44]几何运动随机游走模型CASMELi等人，2017年[45]蹄，LBP阈值技术CASME IIWang等人，2017年[46]MDMD阈值技术CAS（ME）2戴维森等人，2018年[47]3DHOG，LBP，OF阈值技术SAMMLi等人，2019年[48]LBP-χ2阈值技术SAMM在微表情定位中，可以通过滑动时间窗口来定位微表情的持续时间，并且从起始帧到偏移帧识别持续时间。Moilanen等人使用局部二进制模式（LBP）来提取视频序列的每帧之间的特征差异（FD）以分析面部运动的变化，并计算特征卡方（χ2）以生成特征差异的大小[41]。通过计算特征差异向量，从视频序列中识别出顶点帧的索引，并将其与顶点帧索引的基础真值进行比较。如果两者都落在开始之前和结束之后的滑动帧的帧间隔的一半内，则它们被认为是真阳性。在CASME-A、CASME-B和SMIC-VIS-E上进行试验，其真阳性率分别为52%、66%和71%。Davison等人通过定向梯度直方图发现了微表达[42，47]。他们将在不到100帧中检测到的所有序列表示为真阳性，包括眨眼和注视。检测到但未编码的运动序列被分类为误报。使用SAMM数据库，该方法的召回率，准确率和F1测量分别为0.84，0.70和0.76。Patel等人提出了一种方法来计算小的局部区域上的光流矢量，并将其整合到时空区域中以识别开始和偏移时间[43]。Xia等人应用随机游走模型7虚拟现实智能硬件2021年12月13日第1通过考虑时间窗口中帧之间的几何变形相关性来计算包含微表情的帧的概率[44]。Tran等人构建了一个基于滑动窗口的多尺度评估基准，以公平和更好地评估微表达点样方法[49]。Li等人提出了一种微表情分析系统（MESR），其可以发现和识别视频序列中的微表情[45]。结果表明，LBP始终优于方向光流直方图（HOOF），在四个数据库CASME II，SMIC-E-HS，SMIC-E-VIS和SMIC-E-NIR中的真阳性分别超过27.99%，13.91%，9.63%和7.37%。Wang等人使用相同的方法在CAS（ME）2中发现微表达[46]。他们还提出了一种基于主方向光流（MDMD）的微表达点样方法。CAS（ME）2数据集的召回率、精确度和F1分数分别为0.32、0.35和0.33。在后来的研究中，Davison等人利用3D-HOG特征来识别局部FACS区域中面部肌肉的变化[50]。他们只关注包含特定AU的面部区域。然后，3D-HOG被用来提取三个正交平面的特征，以提取运动的变化。由于该方法忽略了整体面部情绪的影响，强调了局部面部肌肉的变化，从而降低了计算复杂度，提高了检测精度。在第二届面部微表情大挑战赛（MEGC 2019）[24]中，首次在两个CAS（ME）2和SAMM数据库中进行了长视频序列中的微表情定位挑战任务。 Lietal。使用双线性极化模型（LTP-ML）[51]进行微尺度极化，其实验结果优于LBP-χ2-距离（LBP-χ2）[41]方法[48]。这些数据集和挑战为微表达定位奠定了基础。3.2性能度量如果满足以下条件，则将点样间隔W点样视为真阳性（TP）：W发现的WGW地面真相W发现的WGW地面真相其中，k被设置为0.5，WgroundTruth表示微表情区间（起始-偏移）的基础真值。如果k> 0.5，则点样间隔被视为假阳性（FP）。假设在视频中存在m个地面实况间隔，并且发现n个间隔，其中FP=n-a且FN=m-a。一个视频中的定位性能可以使用以下指标进行评估回忆= a，精度=a，（2）MF1-评分 =22TPn=2a.（三）4微表情识别公司简介M+n微表情识别是用于对微表情视频进行分类的任务。与面部表情类似，微表情包含人类情感，识别这些情感是最常见的任务。识别具有已知微表情的人脸序列中表达的情感被称为微表情识别。4.1微表情识别方法在以往的研究中，微表情分析主要用于对微表情样本进行分类，8≥k（HANETAL：在虚拟化设备中恢复微膨胀率和恢复率进行微表情识别。当前主流的微表情识别主要分为三个方面：通过局部二值模式-三个正交平面（LBP-TOP）算子及其改进的纹理特征、光流（OF）特征进行微表情识别，以及基于深度学习的微表情样本直接识别。4.1.1LBP-TOP方法LBP-TOP是局部二进制模式的扩展[52]，并使用二进制代码来描述沿圆形区域的纹理局部变化，然后将其编码为直方图。LBP-TOP已被广泛用于许多不同的研究。Pfister等人提出了一种微表情识别框架，并使用时间插值模型（TIM）[54]来对齐短视频样本的长度[29]。然后通过LBP-TOP提取动态纹理特征，并使用支持向量机（SVM）进行分类。他们后来将完整的局部二进制模式（CLBP）扩展到三个正交平面（CLBP-TOP），以区分自发和姿势的面部微表情[54]。随后，一些微表情识别是基于这个框架，并提出了几个变种的LBP-TOP。Huang等人提出了基于完整时空完成的时空互补局部量化模式（STCLQP），其使用包括角度、幅度和方向分量的信息来实现更紧凑的特征提取，从而解决LBP特征的稀疏性问题[55]。此外，Wang等人提出了一种局部二进制模式-六个拦截点（LBP-SIP），以减少LBP-TOP的冗余信息[56]。Wang等人后来基于三个平均图像的LBP特征构建了一个更紧凑的LBP-MOP[57]。LBP-MOP的性能与LBP-SIP相当，但其计算时间大大减少。Huang等人提出了一种具有积分投影的时空局部二进制模式（STLBP-IP），以通过积分投影增强LBP-TOP的特征[58]。Wang等人还探索了颜色特征空间对微表情识别的影响，并提出了一种张量独立颜色空间（TICS），其中提取LBP-TOP特征用于微表情识别[59]。实验结果表明，在TICS颜色空间中的性能优于RGB颜色空间。Le等人利用稀疏促进动态模式分解（DMDSP）消除LBP-TOP的冗余特征，并使用SVM和线性判别分析（LDA）进行分类[60]。此外，Huang等人提出了二进制模式时空局部Radon二进制模式（STRBP）的新变体，以提取鲁棒的形状特征[61]。此外，Ben等人提出了三个正交平面上的热轮图案（HWP-TOP），以编码宏观表情和微观表情图像的区别特征[62]。最后，Niu等人提出了一种新的局部二阶梯度模式（LTOGP）来描述微表情的细微变化[63，64]。表6总结了基于LBP-TOP系列的微表情识别方法。LBP-TOP是微表情识别的最早尝试，是传统面部表情识别对微表情识别的一种适应。许多后来开发的工具都致力于使用LBP-TOP来提高特征级别的识别性能，例如稀疏性和冗余性。虽然对微表情的时空纹理变化进行了挖掘，并取得了一定的描述能力，但计算性能并不理想，识别精度有待进一步提升。4.1.2方法到目前为止，许多研究发现，视频序列的时间动态对微表情的识别因此，基于OF[65]的微表情技术9虚拟现实智能硬件2021年12月13日第1表6基于LBP-TOP系列的微表情识别LBP-TOP系列精度F1得分中芯国际CASME II中芯国际CASME IILBP-TOP[29]CLBP-TOP[54]STCLQP[55]LBP-SIP[56]LBP-MOP[57]STLBP-IP[58]TICS[59]DMDSP[60]STRBP[61]HWP-TOP[62]LTOGP[64]引起了争议。48.7878.264.0244.5150.6157.93-58.0060.98---58.3946.5644.1359.5161.4749.0064.3764.8066.00--0.63810.4492-0.5800-0.6000-----0.58360.4480-0.5700-0.5100---Xu等人提出了一种获得面部动态图（FDM）的方法，认为只提取OF的主要方向映射特征可以消除由噪声或光照变化引起的异常OF向量[66]。除了FDM的工作（仅使用每个面部区域中的OF的单个主导方向）之外，Allaert等人提出了一种用于从单个面部区域确定多方向光流特征的方法，以在相邻面部区域的特征中构建相同方向的OF映射[67]。Liong等人受到光学应变（OS）微表情定位的启发，他们使用该微表情定位来识别微表情，并通过计算OF的法向和切向张量来推导OS，这可以捕获微表情的微妙之处[68]。品种首先，将所有OS图像临时合并为一个OS地图，然后将生成的地图调整为固定分辨率以表示视频的特征向量。为了强调微表情活动区域的重要性，他们使用时间加权的OS特征图和局部LBP-TOP特征进行加权融合[69]，使活动区域的特征向量更具代表性，从而增加了情绪类别之间的区分度。随后，Liong等人提出了一种双加权定向光流（BI-WOOF）特征描述符，其使用两种方案来应用全局和局部HOOF特征的加权平均值[70]。在局部特征提取中，通过使用幅度分量对每个ROI进行加权，然后乘以每个ROI的平均光变化幅度。然后对整体HOOF特征进行加权以获得最终的直方图特征。他们认为，像素移位或更大的变形可以帮助生成更具鉴别力的直方图特征。Zhang等人提出了一种通过遍历区域以提取HOOF和LBP-TOP特征来生成局部统计特征的方法[71]。他们发现，在每个感兴趣区域中合并的局部特征比全局特征信息更详细，更具代表性。Happy等人提出了一种用于微表情识别的光流方向模糊直方图（FHOFO），其中直方图只是方向的集合，而不是加权光流大小[72]。他们认为微表情是如此微妙，以至于感知幅度可以忽略不计。同时，他们在以前的模糊隶属函数的基础上引入了一个模糊隶属函数，以考虑方向角对其周围环境的影响，创建一个平滑的运动矢量直方图。Liu等人提出了一种主要方向平均光流（MDMO）特征，该特征考虑了每个ROI中OF向量的平均局部统计及其空间位置[73]。作为该方法的优点，从36个ROI中提取了72个特征。10HANETAL：在虚拟化设备中恢复微膨胀率和恢复率表7总结了基于光流序列的微表情识别方法。光流特征可以从运动的角度描述微表情特征，在保证识别性能的前提下，具有良好的可解释性。然而，密集光流特征的提取是耗时的。虽然改进的光流特征可以达到80%的识别准确率，但仍然需要大量的预处理来对齐微表情视频序列中的人脸，以消除头部移动和旋转的影响。表7基于光流序列的微表情识别光流系列精度F1得分中芯国际CASME II中芯国际CASME IIFDM[66][68]第68话：我的世界[71]第72届中国国际纺织品博览会[73]54.88--50.61-51.8380.0045.9365.35-44.1362.5056.6467.370.5380-0.5300--0.5243-0.4053-0.5600--0.5248-4.1.3深度学习方法虽然基于手工特征的识别方法可以取得很好的识别效果，但手工特征往往会忽略原始图像数据中的其他信息。卷积神经网络（CNN）近年来逐渐兴起，并引起了人们的极大关注。这种网络的使用是一种非常有效的模式分类方法，它是由Hubel和Wiberg在20世纪60年代研究猫大脑皮层中相关神经元的功能时提出的。该方法主要应用于图像处理领域。CNN可以有效地识别和分类图像。著名的CNN网络结构包括LeNet[74]，AlexNet[75]，VGGNet[76]，GoogLeNet[77]和ResNet[78]。Kim等人使用CNN结构对不同起始、顶点和偏移帧的空间信息进行编码[79]。这项工作是最早在微表达分析中使用CNN的工作之一。该方法将CNN特征输入到长短期记忆（LSTM）中实现微表情识别。Gan等人引入了深度学习，并提出了来自Apex框架（OFF-Apex）方法的光流特征[80]。该方法利用微表情顶点帧的光流特征图作为CNN的输入，增强光流特征。应当注意，与上述方法不同，这些方法仅利用顶点和起始帧而不是完整的视频序列。由于标准的CNN受到整体关系表示的弱点的限制，Quang等人使用胶囊网络（CapsuleNet）进行微表情识别。实验结果表明，在微表情识别中，CapsuleNet方法可以获得比CNN模型更好的结果[81]。Zhou等人提出了一种新的网络结构，称为双始网络（DINet）[82]。该模型从起始帧和中间帧的水平光流和垂直光流中学习高维特征表示，用于微表情识别。观察到极深的CNN架构在有限的微表达数据下无法表现良好，Liong等人提出了一种浅三流三维CNN（STSTNet），使用三个并行流特征映射输入到网络中以抑制欠拟合问题[83]。Liu等人提出了一种基于部分的深度神经网络（PB-DNN），通过放大和缩小微表达样本来增强[84]。受领域对抗网络[85]的启发，在CK +数据集中使用宏表达样本，在SMIC、CASME II和SAMM中使用微表达样本，以最小化组合损失函数。11TP+FNTP+FP虚拟现实智能硬件2021年12月13日第1表8总结了基于深度学习系列的微表情识别方法。尽管深度学习在微表情识别方面取得了令人惊讶的成果，但仍然存在一些挑战。例如，与CASME II相比，SMIC和SAMM更具挑战性，这可能是因为SMIC和SAMM数据库在年龄和种族方面分布更广，这对识别效果产生了影响。同时，由于微表情的快速和低强度特性，深度学习方法很难捕捉微表情的细微变化。还需要考虑引入更好的方法来解决微表情识别中的这些问题。表8基于光流序列的微表情识别深度学习未加权F1评分（UF1）未加权平均召回率（UAR）中芯国际CASME IISAMM中芯国际CASME IISAMM关闭顶点[80]0.68170.87640.54090.66950.86810.5392CapsuleNet[81]0.58200.70680.62090.58770.70180.5989DINet[82]0.66450.86210.58680.67260.85600.5663STSTNet[83]0.68010.83820.65880.70130.86860.6810PB-DNN[84]0.74610.82930.77540.75300.82090.71524.2性能度量在基于差分模型的微表情分类中，采用LOSO交叉验证方法得到最终的识别结果。在评价微表情识别时，为了解决类别分布不均衡的问题，我们还使用了准确率和F1分数来进行性能评价。具体而言，F1分数表示如下：为和5结论精度×召回精度+召回查全率=TP精度=TP（四）（五）（六）、本文综述了微表情点样和识别方法的相关数据集.首先，我们总结了现有的姿势和自发图像的微表情数据集，并分析了它们之间的优势。总结了视频序列中微表情识别的方法和评价方法.最后，我们介绍了利用LBP-TOP、OF和深度学习进行微表情识别的方法。但仍有一些问题有待解决。5.1微表情预处理技术使用现有数据集的一个优点是，新算法可以直接应用于预处理的图像，减少预处理阶段的压力。然而，微表情样本的预处理是一个重要的步骤，这超出了正常的面部表情或其他面部信息识别。在现有数据集的记录期间，对象的位置相对于12F1_评分= 2 ×HANETAL：在虚拟化设备中恢复微膨胀率和恢复率稳定，并且在进一步对准处理之后，更简单地获得高质量图像。然而，这在实际应用中是很难实现的，因此精细化的微表情预处理值得进一步研究。此外，未来的研究预处理的微表情图像序列，如人脸检测和对齐的方法应考虑。5.2微表达样本分布然而，由于所使用的采集设备、实验环境和/或受试者的个体化，自发微表达数据集的样本分布可能是不平衡的。样本不平衡体现在两个方面。样本视频剪辑中的帧的数量和数据集中的样本类别分布可能是不平衡的。为了减少微表情识别中样本帧数量不平衡的影响，研究人员通常使用时间插值模型（TIM）来对齐样本帧的数量。对于微表情识别中一个类别分布的不平衡，也需要进一步考虑策略平衡方法。5.3身份信息干扰问题心理学家认为，当微表情发生时，面部肌肉运动与性别、年龄、种族等个体属性没有直接关系。然而，当对在各种成像条件下获取的面部图像应用微表情识别时，微表情图像是个人身份属性和面部肌肉运动的叠加。因此，个体属性将干扰微表达分析。微表情只发生在面部局部的肌肉运动中，这些运动非常细微，微表情识别更关注面部局部特征。这些特征使得微表情图像中的身份信息极其重要。因此，减少身份信息的干扰是微表情分析的挑战之一。5.4微表情细粒度图像分类问题利用成像装置获取的面部表情图像进行微表情定位识别时，微表情面部肌肉运动仅发生在面部局部区域，存在强度低的问题，导致微表情面部图像与自然面部图像差异较小。这些问题对微表情分析提出了重大挑战。微表情仅与面部图像的局部相关并且具有低强度，这导致面部图像和自然面部图像之间的小类间变化。这将导致微表情定位和识别中的细粒度图像分类问题。竞合利益我们声明我们没有利益冲突。引用1梅赫拉比安河没有言语的交流。Psychological Today，1968，2（6）：532放大图片作者：Haggard E A，Isaacs K S.心理治疗中作为自我机制指标的微瞬间面部表情。在：心理治疗的研究方法。Boston，MA，Springer US，1966，154DOI：10.1007/978-1-4684-6045-2_1413虚拟现实智能硬件2021年12月13日第13Ekman P，Friesen W V. Nonverbal leakage and clues to decision.精神病学1969，32（1）：88-106 DOI：10.1080/00332747.1969.110235754Ekman P.谎言捕捉和微表情。欺骗的哲学，2009，1（2）：55Frank M，Macario C，Govindaraju V.在恐怖主义时代保护航空乘客。ABC-CLIO，圣巴巴拉，2009年6O'Sullivan M，Frank M G，Hurley C M，Tiwana J. Police lie detection accuracy：the effect of lie scenario.法律与人类行为，2009，33（6）：5307作者：Matsumoto D，Hwang H S.训练阅读情绪微表情能力的证据。动机与情感，2011，35（2）：1818特纳J H。情感的进化：人类社会组织的非语言基础。劳伦斯·埃尔鲍姆事务所，新泽西州马瓦9Frank M，Herbasz M，Sinuk K，Keller A，Nolan C.我明白你的感受：训练外行和专业人士识别转瞬即逝的情绪。在：国际通信协会年会纽约喜来登酒店纽约市，2009年，110Ekman P. Telling Lies：Clues to Deceive in the Marketplace，Politics，and Marriage（修订版）. WW诺顿公司，20

下载后可阅读完整内容，剩余1页未读，立即下载