没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报人脸表情识别技术综述I.Michael Revina,W.R.萨姆·伊曼纽尔注册号12417,N.M.印度泰米尔纳德邦Tirunelveli 627012 Abishekapatti Manonmaniam Sunadaranar大学Marthandam附属基督教学院计算机科学系,新墨西哥州印度泰米尔纳德邦Tirunelveli 627012 Abishekapatti Manonmaniam Sunadaranar大学Marthandam附属基督教学院阿提奇莱因福奥文章历史记录:2018年4月13日收到2018年8月24日修订2018年9月3日接受2018年9月5日在线提供保留字:分类人脸表情识别(FER)特征提取预处理A B S T R A C T人脸表情识别是社会通信领域中最具挑战性的研究课题之一。一般来说,面部表情是人类表达情感和意图的自然而直接的手段。面部表情是非言语交际的重要特征本文介绍了人脸表情识别技术的发展概况,包括预处理、特征提取和分类三个主要阶段这篇综述解释了各种类型的FER技术及其主要贡献。各种FER技术的性能是基于所识别的表达式的数量和算法的复杂度来比较的。在这次调查中,像JAFFE,CK,和一些其他种类的面部表情数据库的数据库进行了讨论近年来有关量词的研究成果使研究者对量词的特性有了更有力、更可靠的认识。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言. 6192.面部表情识别系统6202.1.预处理6202.2.特征提取6212.3.分类6222.4.数据库描述6233.性能比较6244.结论627参考文献6271. 介绍人类的面部表情在社会交流中是极其重要的通常交流包括语言和非语言。非语言交流是通过*通讯作者。电 子 邮 件 地 址 : michaelrevina09@gmail.com ( I.Revina ) , sam_nmcc.ac.in(W.R.S. Emmanuel)。沙特国王大学负责同行审查制作和主办:Elsevier面部表情面部表情是更广泛交流的微妙信号非言语交际是指人与动物之间通过眼神、手势、面部表情、肢体语言和语言等进行的交流眼神交流是交流的重要阶段,它提供了思想的混合。眼神交流控制着贡献、讨论,并创造了与他人的联系面部表情包括微笑、悲伤、愤怒、厌恶、惊讶和恐惧。人脸上的微笑表示他们的幸福,它用弯曲的形状表达眼睛悲伤的表情是一种放松的感觉,通常表现为上升的眉毛和皱眉。人脸上的愤怒与令人不快和生气的情况有关愤怒的表情是用紧皱的眉毛、细长的眼睑来表达的.厌恶的表情表现为眉毛向下拉,鼻子皱的惊喜https://doi.org/10.1016/j.jksuci.2018.09.0021319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com620I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University或者是当一些不可预知的事情发生时,表现出的震惊的表情这是表示与眼睛扩大和嘴巴张得大大的,这种表达是一个很容易识别的。恐惧的表情与惊讶的表情相关,表现为眉毛的歪斜。错误率识别的重要阶段是特征提取和分类。特征提取包括基于几何特征和基于外观特征两类分类也是对上述表情如微笑、悲伤、愤怒、厌恶、惊讶和恐惧进行分类的重要过程之一。基于几何的特征提取包括眼睛、嘴巴、鼻子、眉毛和其他面部组成部分,基于外观的特征提取包括面部的精确部分(Zhao和Zhang,2016)。通常,面部提供三种不同类型的信号,例如静态、慢速和快速信号。静态信号是肤色,其包括面部皮肤色素、油脂沉积、面部形状、骨骼构成、骨骼和形状的几个持续方面,面部特征如眉、眼、鼻、嘴的位置和大小慢信号是永久性皱纹,包括面部外观的变化,如肌肉张力和皮肤纹理的变化,随着时间的推移缓慢发生。快速的信号是眉毛抬起,包括面部肌肉的运动,面部外观的临时变化,临时皱纹和面部特征的位置和形状的变化。脸上的闪光会持续几秒钟。这三种信号都可以单独选择改变,而静态和慢速信号很难改变。此外,面部是一个多信息系统,而不仅仅是一个多信号系统。信息是通过一张脸传递的,这张脸包括情感、感觉位置、年龄、质量、智力、吸引力,几乎可以肯定还有其他物质(Ekman和Friesen,2003)。本文主要研究了各种FER技术,包括预处理、特征提取和分类三个主要步骤。文中还介绍了不同FER技术的优点,并对不同FER技术进行了性能分析本文仅选择基于图像的FER技术作为文献综述,而没有选择基于视频的FER技术。大多数FER系统满足光照变化、姿态变化、光照变化、肤色变化的问题。本文还对未来的FER研究提出了基本的研究思路本文件其余部分的结构如下。第二详细描述了人脸表情识别系统。第3节通过不同的表格和图表对FER技术的性能进行了评估第四节在总结调查结论的同时提出了建议。2. 人脸表情识别系统FER系统的概述如图1所示。人脸识别系统包括人脸图像预处理、特征提取和分类等主要阶段。2.1. 预处理预处理是可用于改进FER系统的性能的过程,并且其可在特征提取过程之前执行(Poursaberi等人,2012年)。图像预处理包括不同类型的 处 理 , 例 如 图 像 清 晰 度 和 缩 放 、 对 比 度 调 整 和 附 加 增 强 处 理(Bashyal等人,2008)以改进表达框架(Taylor等人, 2014年)。在面部图像上执行裁剪和缩放过程,其中面部的鼻子被视为中点,并且物理上包括其他重要的面部组件(Zhang等人,2011年)。贝塞尔下采样用于面部图像大小减小,但其保护原始图像的方面以及感知价值(Owusu等人,2014年)。高斯滤波器用于对输入图像进行滤波,从而为图像提供平滑度(Biswas,2015)。归一化是一种预处理方法,可以设计用于使用中值滤波器减少面部图像的光照和变化(Ji和Idrissi,2012),并实现改进的面部图像。归一化方法还用于眼睛位置的提取,这使得FER系统对个人差异更鲁棒,并且它为输入图像提供了更清晰的图像。定位是一种预处理方法,它使用Viola-Jones算法(Noh等人,2007; Demir,2014;Zhang等人,2014; Cossetin等人,2016; Salmam等人,2016)以从输入图像中检测面部图像。使用Adaboost学习算法和类haar特征检测面部图像的大小和位置(Happy等人,2015年; Mahersia和Hamrouni,2015年)。定位主要用于从图像中找出人脸的大小和位置。人脸对齐也是可以通过使用SIFT(尺度不变特征变换)流算法来执行的预处理方法为此,首先计算每个面部表情的参考图像。之后,所有图像通过相关参考图像对齐(Dahmane和Meunier,2014)。ROI(感兴趣区域)分割是预处理方法的重要类型之一,其包括三个重要功能,诸如通过划分面部图像的颜色分量来调节面部尺寸、眼睛或前额和嘴区域分割(Hernana-matamoros等人,2015年)。在联邦、共和国Fig. 1. 人脸表情识别系统的体系结构。I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University621由于方便地从面部图像中分割面部器官,所以分割是最流行的。直方图均衡方法用于克服照明变化(Demir,2014; Happy等人,2015; Cossetin等人,2016年)。该方法主要用于增强人脸图像的对比度,并用于精确照明,还用于改善强度之间的区别。在人脸识别中,使用了较多的预处理方法,但ROI分割方法更适合于人脸器官的准确检测,主要用于表情识别。其次,直方图均衡化也是FER的另一种重要的预处理技术,因为它提高了图像的区分度。2.2. 特征提取特征提取过程是FER系统的下一阶段。特征提取是在图像中发现并描绘出关注的积极特征,以供进一步处理。在计算机视觉图像处理中,特征提取是一个重要的阶段,它指出了从图形到隐式数据描述的转变。然后,这些数据描述可以用作分类的输入。特征提取方法分为基于纹理特征的方法、基于边缘的方法、基于全局和局部特征的方法、基于几何特征的方法和基于块的方法。下面描述基于纹理特征的方法提取特征的描述符Gabor滤波器是一种用于特征提取的纹理描述器,它包含了幅值和相位信息。基于幅值特征的Gabor滤波器限制了人脸图像的组织信息 相位特征限定了关于幅度特征的完整描述的信息(Bashyal等人,2008;Owusu等人, 2014; Zhang 等人 , 2014 年 ; Hernandel-matamoros 等人 ,2015; Hegde等人, 2016年)。局部二值模式(LBP)也是一种纹理描述符,可用于特征提取。一般地,LBP特征是用二进制代码产生的,并且它可以通过使用中心像素与其局部像素之间的阈值来获得(Happy等人,2015; Cossetin等人,2016年)。此外,LBP与三个 正 交 平 面 ( TOP ) 的 功 能 提 取 多 分 辨 率 的 方 法 和 ( 赵 和Pietikäinen,2009年)。它用于基于静态人脸图像的特征提取非动态外观(Ji和Idrissi,2012)。人脸纹理特征提取使用高斯拉盖尔(GL)函数,授予一个转向金字塔结构,提取纹理特征和面部相关的发生信息。 与Gabor函数相比,GL使用单个滤波器而不是多个滤波器(Poursaberi等人,2012年)。此外,使用的另一个描述符,即垂直时间向后(VTB),它也提取人脸图像的纹理特征。矩描述子提取人脸重要部位的形状相关特征VTB和矩描述符在时空平面上都是有效的(Ji和Idrissi,2012)。韦伯局部描述符(Weber LocalDescriptor,WLD)是一种特征提取技术,其从分割的面部图像中提取高判别纹理特征(Cossetin等人,2016年)。使用监督下降法(SDM)分三个阶段进行特征提取。首先,提取人脸的主要位置。接下来,选择相关的位置。最后,它估计面部的各个组成部分之间的 距 离 ( Salmam 等 人 , 2016 年 ) 。 基 于 加 权 投 影 的 LBP(WPLBP)也是一种特征提取,但基于提取LBP特征的指导区域。之后,基于指导性区域的重要性,对这些特征进行加权(Kumar等人,2016年)。离散轮廓波变换(DCT)提取纹理可以通过具有两个关键阶段的分解来执行的特征。这些阶段是拉普拉斯金字塔(LP)和方向滤波器组(DFB),用于变换域。在线性预测阶段,将图像分为低通、带通两部分,并对不连续点的位置进行限制。DFB级处理带通,并通过关联不连续位置形成线性组合(Biswas,2015)。基于 基于边缘 的方法提 取特征的 描述符 描述如下 。线边缘 图(LEM)描述符是一种面部表情描述符,其通过使用动态两条算法(Dyn2S)来改进几何结构特征(Gao等人,2003年)。基于运动分析,提取两种类型的面部特征,诸如非区别性面部特征和区别性面部特征 ( Noh 等 人 , 2007 年 ) 。 基 于 图 形 处 理 单 元 的 主 动 形 状 模 型(GASM)是一种特征提取方法,可以进行边缘检测,增强,色调映射和局部外观模型匹配。之后,从所表达的面部图像中提取图像比率特征( Song 等 人 , 2010 年 ) 。 HOG ( Histogram of OrientedConcentrants)是一种使用梯度滤波器的窗口支持特征描述器。提取的特征是基于注册的人脸图像的边缘信息。它提取视觉特征,例如微笑表情意味着曲线形状的眼睛(Dahmane和Meunier,2014)。基于全局和局部基于特征的方法提取特征的描述符描述如下。主成分分析(PCA)方法用于特征提取。它提取了全局和低维特征。独立分量分析(ICA)也是一种特征提取方法,其使用多通道观测来提取局部特征( Taylor 等 人 , 2014 年 ) 。 逐 步 线 性 判 别 分 析(SWLDA)是一种特征提取技术,它利用向后和向前回归模型提取局部特征。根据类别标签,对两个回归模型估计F检验值(Siddiqi等人, 2015年)。基于基于几何特征的方法提取特征的描述符描述如下。局部曲线变换(LCT)是一种提取依赖于包络机制的几何特征的特征描述符。提取的几何特征是均值、熵和标准差(Demir,2014)。除了这些几何特征能量之外,还通过使用三阶段可控金字塔表示来提取峰度(Mahersia和Hamrouni,2015)。基于基于补丁的方法提取特征的描述符描述如下。人脸运动特征提取为依赖于距离characteris- tics补丁。这些是通过使用两个过程,如提取补丁和补丁匹配。通过将提取的块转换成距离特征来执行块匹配(Zhang等人, 2011年)。基于纹理特征的描述子是一种更为有用的特征提取方法,它提取了与外观相关的纹理特征,为FER提供了重要的特征向量。还有局部方向数(LDN)模式(Rahul和Cherian,2016)、局部方向三元模式(LDTP)(Ryu等人,2017)、KL变换扩展LBP(K-ELBP)(Guo等人,2016)和离散小波变换(DWT)(Nigam等人,2018)纹理特征描述符作为特征描述符,近年来FER。几个提取的特征具有高维向量。一般来说,这些特征向量通过使用各种降维算法(如PCA、线性判别分析、白化主成分分析)来降低,并且重要特征也通过不同算法(如Adaboost和相似性得分)来选择。622I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University2.3. 分类分类是表情识别系统的最后一个阶段,分类器对表情进行分类,如微笑、悲伤、惊讶、愤怒、恐惧、厌恶和中性。有向线段Hausdorff距离(dLHD)方法用于表情的识别(Gao等人,2003年)。欧几里德距离度量也用于分类目的,其使用归一化得分和相似性得分矩阵来估计欧几里德距离(Hegde等人,2016年)。最小距离分类器(MDC)也是用于分类的基于距离的分类器之一,其估计每个子图像的特征向量之间的距离(Islam等人,2018年)。KNN(k-最近邻)算法是一种分类方法,其中在训练阶段估计评估模型和其它模型之间的关系(Poursaberi等人, 2012年)。支持向量机是一种融合了两种分类方法的分类技术。他们是一个对一个,一个对所有的方法。一对所有分类意味着它为每个类别构建一个样本(Zhao和Pietikäinen,2009; Zhang等人,2011; Zhang等人,2014;Biswas,2015)。一对一分类意味着它为每对类构建一个类(Happy等人,2015; Kumar等人,2016; Hegde等人,2016)和SVM是高级维度问题的最强分类方法之一(Dahmane和Meunier,2014)。SVM是有监督的机器学习技术,并且它使用四种类型的内核以获得更好的性能(Hernanal-matamoros等人,2015年)。它们是线性的,多项式的,径向基函数(RBF)和sigmoid。线性核映射高维数据,并且它是线性可分的(Zhang等人,2014; Kumar等人,2016年)。RBF核使用将单个特征映射到高维数据的函数(Song等人,2010; Wang等人, 2010; Dahmane和Meunier,2014; Happy等人,2015; Hegde等人,2016年)。多项式内核学习非线性模型,并解决它们的相似性(Zhao和Pietikäinen,2009; Zhang等人,2011; Ji和Idrissi,2012; Biswas,2015)。隐马尔可夫模型(HMM)分类器是将表达分类为不同类型的统计模型(Taylor等人, 2014年)。隐藏条件随机场(HCRF)表示用于分类。它使用全协方差高斯分布以获得优异的分类性能(Siddiqi等人,2015年)。在线顺序极端学习机(OSELM)是一种使用RBF进行分类的方法。OSELM主要包括两个阶段。它们是初始化和顺序学习阶段。训练阶段包括训练样本(Demir,2014)。成对分类器也用于表达分类。它使用一对一的分类方法,因此使用了严格的分离(Cossetin等人, 2016年)。ID3决策树(DT)分类器是一种基于规则的分类器,它提取预定义的规则以产生合格的规则。从决策树中生成预定义的规则,决策树由信息 增 益 度 量 构 造 . 使 用 最 小 布 尔 评 估 来 执 行 分 类 ( Noh 等 人 ,2007;Rashid,2016)。分类和回归树(CART)是一种用于分类的机器学习算法。对度量似然决策树和基尼不纯度进行了估计。CART分类器通过使用距离向量来表示(Salmam等人, 2016年)。学 习 矢 量 量 化 ( LVQ ) 是 无 监 督 聚 类 算 法 ( Bashyal 等 人 ,2008),其具有两个层,即竞争层和输出层。竞争层有称为子类的神经元。在竞争层中匹配最好的神经元在输出层中被列为精确神经元。多层感知器(MLP)也用于分类,它包含三个层例如输入层、输出层和存在神经元的处理层(Rashid,2016)。多层前馈神经网络(MFFNN)分类器采用输入层、隐层和输出层三层结构和反向传播算法进行分类。在训练阶段,权重被初始化并且激活单元被估计(Owusu等人,2014年)。贝叶斯神经网络分类器是一种分类方法,也包括输入层、隐层和输出层。经典的反向传播算法与贝叶斯分类器一起使用,以获得更好的准确性(Mahersia和Hamrouni,2015)。卷积神经网络(CNN)由卷积层和子采样层两层组成,其中二维图像作为输入。在卷积层中,通过将卷积核与二维图像复杂化来产生特征图,其中如在子采样层中一样,执行池化和重新部署(Shan等人,2017年)。CNN还包含两个重要的概念,可能是共享权重和稀疏连接(Rashid,2016)。在FER中,CNN分类器用作不同人脸区域的多个分类器如果CNN针对整个面部图像被框定,则首先针对嘴部区域框定CNN,接下来针对眼睛区域框定CNN,可能针对每个其他区域框定CNN(Cui等人, 2016年)。深度神经网络(DNN)包含各种隐藏层,与其他神经网络相比,更困难的函数可以有效地训练(Li和Lam,2015)。深度信念网络(DBN)包含各种数量的受限玻尔兹曼机(RBM)的隐藏变量,这些RBM是无向生成模式(Lv,2015)。DBN包含反向传播(BP)层,其使用分类对高级特征进行分类(Yang等人,2016年)。DBN通常包括两个阶段,例如预学习和微调(Wu和Qiu,2017),其中RBM在第一步中单独开发,而BP在最后阶段学习输入和输出数据通过对几种分类器的比较,SVM分类器具有较好的识别精度,分类效果较好基于神经网络的分类器CNN比其他基于神经网络的分类器具有更好的准确性。在表情识别中,支持向量机分类器比其他分类器更适合于表情识别。表1分析了各种FER技术及其算法,其中包括用于预处理、特征提取和分类等三个重要要求的算法。本表中使用的各种预处理方法包括人脸检测、图像增强、归一化、Gabor滤波器、定位、人脸采集、下采样、直方图均衡化、人脸区域检测、人脸对齐、ROI分割和消隐。本表中使用的不同特征提取方法是LEM、基于动作的模型、Gabor滤波器、LBP-TOP、GASM、基于补丁的、GL小波、LBP、VTB、矩、PCA、ICA、LCT、HOG、可操纵金字塔、DCT、SWLDA、WLD、SDM、WPLBP、haar like特征、LDN、LDTP、DWT、K-ELBP、2DPCA和特征脸。该表中使用的分类器是ID3决策树、LVQ、SVM、KNN、HMM 、 MFFNN 、 OSLEM 、 贝 叶 斯 神 经 网 络 、 HCRF 、 成 对 、CART、欧几里得距离、CNN、MDC、卡方检验和Fisher判别字典。在近年来的文献中,对于预处理大多采用直方图均衡化方法。在特征提取方面,采用了Gabor滤波器、WPLBP、SDM、WLD、HOG等方法。在特征提取方面,主要是基于纹理描述符的方法,如基于LBP的方法,其效果有所改善。近年来,分类使用的分类器有SVM、欧氏距离、CART、基于神经网络的分类器和成对分类器。支持向量机分类器是FER中使用最多的分类器,它采用一对一、一对多的分类方法.此外,最有可能使用具有RBF核的SVM,其与其他分类器相比具有最高的分类性能。在三维人脸识别中,人脸图像的预处理是通过使用各种方法,如平滑,裁剪,人脸对齐,I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University623××表1二维FER技术的算法分析作者,年份预处理方法特征提取方法分类方法通过提取用于面部表情的有效识别的主曲率和形状指数来定位界标眼睛和鼻子区域(Vezzetti等人, 2017年)。通过使用几何描述符容易地提取基于嘴唇的特征(Moos等人,2014)和平均值、中值、直方图(Vezzetti等人,2016年)特点Gao等人05 The Dog(2003)还提取了3D FER。描述符也由两个Noh等人2007年:Face detectionActionbased模型ID3决策树面部成分如基本面部形状成分(BFSC)和表情形状成分(ESC)(Gong等人, 2009年)。的Bashyal等人(二零零八年)图像增强Gabor滤波器(GF)LVQ在3D FER中使用不同类型的赵和02 The Dog(2009)未报告LBP分类器可能是多SVM(Hariri等人, 2017),HMM(Yi Sun,2008)、神经网络(Hamit Mackel,2007)、深度融合- CNN(Li等人, 2017),朴素贝叶斯分类器(NBC)(Arman Savran,Song等人04 The Famous(2010)Wang等人(2010)未报告未报告SVMZhang et al. 04 The Famous Women(2011)2017年)。在3D FER实验中,主要是宾厄姆顿大学3D面部表情(BU-3DFE)数据库和博斯普鲁斯数据-Poursaberi等人(2012年)本地化、规范化GL小波KNN基地使用。Ji和Idrissi(2012)脸采集LBP,VTB,时刻SVM2.4. 数据库描述Taylor等(2014)EnhancementPCA ICAHMMOwusu et al.(2014)Down samplingGFMFFNN利用各种数据库对FER进行了实验03TheDog(2014)Zhang等人04 The Fantasy(2014)检测LCT OSLEMGF SVM日本女性面部表情(JAFFE,2017),Cohn-KanadeDahmane和Meunier(2014)人脸对齐HOG SVM面部表情图像数据库(TFEID,2017),耶鲁大学(耶鲁大学,2017),AR人脸数据库(AR,2018),实时数据库(赵Mahersia和03 TheFamous(2015)标准化可控金字塔贝叶斯神经网络和Pietikäinen,2009年),自有数据库(Siddiqi等人,KarolinskaDirected Emotional Faces(KDEF,2018)。埃尔南德斯-马塔莫罗斯等(2015年)ROI分割Gabor函数SVM在大多数实验中,JAFFE数据库被使用。JAFFE持有10位日本女性JAFFE数据库中的每个图像都包含Happy等人(2015)直方图均衡Biswas(2015)直方图均衡化LBP SVMDCT支持向量机256 256像素分辨率。JAFFE数据库的一些示例图像如图所示。 二、CK数据库也有7个表达式,但它包含132个子表达式,Siddiqi等人(2015)未指明SWLDAHCRF摆出自然和微笑的姿势共486个Cossetin等人(2016年)直方图均衡LBP,WLD成对分类器图像序列具有640 - 490像素分辨率的灰度图像。CK数据库的一些样本图像如图所示。3.第三章。Salmam等人(2016年)人脸检测SDM CARTKumar等人(2016)未报告WPLBPSVMHegde等人04 The Famous Famous(2016)距离,支持向量机Rashid(2016)平衡数据Luxand脸软件开发工具包,EDDT,MLP,CNNCui等人(2016)人脸检测,正常化CNN未报道Jain等人( 2016)人脸检测LBPED,SVM,神经网络02 The Dog(2016)人脸区域裁剪LDN卡方检验Guo等人(2016)归一化K-ELBPSVMSharma和Rameshan,2017年人脸归一化猪,LBP,本征面Fisher判别词典Shan等人(2017)直方图均衡Haar样特征CNN图二. 来自JAFFE数据库的示例图像。Nazir 等 人 ( 2017 )人 脸 检 测HOG , DCTKNNChang(2017)人 脸检测D C T ,GFSVMZhangetal.(2017年)CNN Ryu et al. (2017)未 报告LDTPSVMNigam等人(2018)种植,正常化离散小波变换,HOG SVMClawson等人(2018年)直方图均衡CNN未报道Islam等人(2018)人脸检测2DPCAMDC我是说。使用头部手势从视频中识别面部表情(Anisetti等人,2005年)。使用类似于3D表面描述符的各种描述符从3D人脸中提取诸如几何特征和外观特征的特征(Yi Sun,624I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University2008)、纹理过滤器(Gaeta和Gerardo Iovane,2013)和协方差区域描述符(Hariri等人, 2017年)。面部图三. CK数据库中的示例图像。I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University625表2FER数据库说明。数据库名称起源采集表达式图像数量决议日本女性面部表情(JAFFE)日本照片均摄自九州大学微笑、悲伤、惊讶、愤怒、恐惧、厌恶、中性213256 ×256耶鲁加州图片来自U.C.圣地亚哥计算机视觉实验室快乐,正常,悲伤,困倦,惊讶,眨眼。165168 ×192韩国(CK)美国图片由Panasonic WV3230相机喜悦,惊讶,愤怒,恐惧,厌恶,悲伤486640 ×490扩展Cohn Kanade(CK+)美国照片由Panasonic AG-7500相机中性、悲伤、惊讶、快乐、恐惧、愤怒、蔑视和厌恶593640 ×490多媒体理解小组高加索拍摄高分辨率无遮挡照片中性、悲伤、惊讶、快乐、恐惧、愤怒和厌恶1462896 ×896AR人脸数据库MMI西班牙荷兰照片由Sony 3CCD相机拍摄照片由JVC GR-D23 E Mini-DV中性,微笑,愤怒,尖叫厌恶,快乐,惊讶,中性,4000250768 ×576720 ×576台湾人脸部表情图像数据库(TFEID)台湾相机用两台CCD摄像机以不同角度(0°,45 °)惊讶,悲伤,恐惧中性、愤怒、蔑视、厌恶、恐惧、快乐、悲伤、惊讶7200600 ×480Karolinska导演:EmotionalFaces(KDEF)瑞典照片由宾得LX相机拍摄愤怒,恐惧,不安,悲伤,快乐,惊讶,中立490762 ×562表2显示了FER数据库的来源、采集、表达类型、图像数量、分辨率详情。实时数据集也用于FER,其中包含近2250张图像另一个数据集包含687个分辨率为640× 480的图像对。3. 性能比较本调查的性能比较是基于复杂度、在不同数据库上的识别准确率、预处理和特征提取方法的可用性、表达式计数分析、各种FER技术的主要贡献和优点。各种FER技术的复杂度如图所示。 四、X轴指示各种FER的复杂度值技术,y轴指示FER方法的名称每种方法的复杂度值都是根据自己的论文计算的,分为三个级别:低,中,高。 图 4,较低复杂度表示为1,中等复杂度表示为2,高复杂度表示为3。与其他方法相比,Gabor函数、DCT、LBP和WLD的复杂度较低。各种FER技术的准确率绘制在图5中,其中x轴表示FER方法的名称,y轴表示FER技术中获得的准确率的百分比。每种方法的准确性分析,从自己的论文和差异数据库中使用的每一篇论文,所以准确率的平均值进行计算。Gabor函数和DCT结合SVM分类器等方法具有较好的准确性。LBP和WLD描述符与成对分类器给出了更好的准确率。图四、各种FER技术的复杂度626I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University预处理和特征提取的有效性如图所示。 六、X轴表示各种FER技术的作者姓名y轴表示调查论文中预处理和特征提取方法的可用性预处理和特征提取计算的有效性是基于FER论文中预处理和特征提取的存在如果预处理是纸中的存在,则表示为1,否则表示为0,并且表示为0.1表示可见。同样,计算FER论文中特征提取的可用性的过程也是相同的FER技术的表达计数分析描述于图1中。 7这里x轴表示FER方法的名称y轴表示使用FER方法识别的表达式的数量从自己的论文中分析表达式计数,大多数论文中最多可识别7个表达式各种FER技术的性能分析如表3所示。包括作者姓名、年份、FER方法名称、数据库名称、复杂度、识别准确率、识别的表达式数、FER技术的主要贡献和优势表中的作者姓名和年份字段表示各种FER论文的作者,年份表示FER论文的出版年份。表的FER方法名称字段描述用于识别的方法图五、各种FER技术的准确率见图6。预处理和特征提取的可用性。I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University627见图7。 表达式计数分析。表3FER技术的性能分析。作者姓名,年份FER方法名称数据库名称复杂性识别准确率(%)已识别的表达式数目重大贡献优势Gao等人(2003年)LEM、dLHDAR少86.63定向结构适合于实时Noh等人(二零零七年)基于行动谢斐少756提取特征五官应用在速度和Bashyal等人ID3决策树GF,LVQ谢斐少88.86未报告非歧视的LVQ表现更好精度更准确的恐惧(二零零八年)赵和GASM、SVMCK高93.856恐惧表情识别Adaboost学习表达式灵活的特征选择02 The Dog(2009)Song等人(二零一零年)LBP-TOP,SVMJAFFE,CK实时少86.857多分辨率特征检测面部更坚固的照明Wang等人SVM谢斐少87.5未报告特征点运动图像比率特征DKFER情感变化更有效的情感(二零一零年)Zhang等人基于补丁杰夫,CK少82.56检测捕捉面部检测有效的承认(2011年)Poursaberi等人SVMGL小波,JAFFE、CK、MMI介质91.96基于距离特征的运动特征纹理提取性能丰富的能力,(2012年)纪和伊德里西KNNLBP,VTB,CK、MMI介质95.846和几何信息空间提取纹理分析基于有效图像(2012年)Taylor等矩,SVMPCA,ICA,HMM自己少986时间特征多层方案,识别拥有高精度(2014年)Owusu等人GF,MFFNN耶鲁·贾菲高94.167克服相似性问题特征选择数据集最低计算成本(2014年)03 The Dog(2014)LCT、OSLEM杰夫,CK高94.417的Adaboost统计提取可靠算法特征均值,熵识别Zhang等人GF,SVM杰夫,CK少82.57S.D模板匹配高鲁棒性快速(2014年)Dahmane和HOG、SVM谢斐高857寻找相似的特征SIFT流算法处理速度抗旋转,03 TheDog(2014)Mahersia和斯特雷杰夫,CK少95.737面部对准统计特征是遮蔽杂波强大的功能实现哈姆鲁尼金字塔,提取良好的效果(2015年)埃尔南德斯-贝叶斯神经网络伽柏函数,KDEF少99未报告可转向人脸表示分割高性能与低628I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University马塔莫罗斯等人(2015年)SVM成两个区域成本I. 瑞维娜,W.R.S.Emmanuel/ Journal of King Saud University629表3(续)作者姓名,年份FER方法名称数据库名称复杂性识别准确率(%)已识别的表达式数目重大贡献优势Happy等人(2015年)Biswas(2015)LBP,SVMDCT,SVMJAFFE,CK+杰夫,CK少少93.398.6366检测面部标志唇角和眉角每个图像低的计算复杂度非常快的高精度分解到四层Siddiqi等人(2015年)Cossetin等人SWLDA、HCRFLBP,WLD,JAFFE、CK+、MMI、耶鲁JAFFE、CK、TFEID高少96.3798.9167表达式分为3大类每对聪明的高精度高精度少(2016年)Salmam等人成对分类器SDM、CART杰夫,CK少89.96分类器使用特定子集决策树计算能力改进的识别(2016年)培训精度Kumar等人(2016年)Hegde等人WPLBP,SVMGF、ED、SVMJAFFE、CK+、MMI耶鲁·贾菲介质少98.1588.5876从人脸信息区域中提取鉴别特征投影特征向量分类错误率较低提高了识别(2016年)低维空间效率面部表情。FER论文中使用的数据库是JAFFE、CK、CK+、MMI、MUG、TFEID、AR、Yale、KDEF(Karolinska Direc.TED情绪面孔),实时和自己的数据集。各种FER技术的复杂度被表示为低、中、高,并且其也在图4中示出。不同技术的识别准确率从75%到99%,并举例说明了这一点在图5中。外汇储备调查文件中认可的表达数量为7个。LEM方法只能识别3个表达式,而大多数纸张只能识别6或7个表达式。该表的主要内容字段描述了FER论文中涉及的主要工作,优势字段表示FER技术的优势。从该表中可以清楚地了解到,结合预处理方法ROI分割、特征提取方法GF和分类方法SVM,可以得到更好的FER准确率99%,并且复杂度更低,通过使用KDEF数据库进行分析。与其他FER方法相比,支持向量机分类器是最常用的分类器,它最多可以对7个表达式进行分类。从这个表JAFFE,CK数据库在许多论文中经常使用,实时数据集与SVM分类器一起使用,准确率为86.85%。4. 结论从最近的论文中描述的重要的未来增强是使用面部子区域的主观信息的侧视人脸的FER,并使用不同的参数来表示实时应用的人脸的姿态FER用于实时应用,如驾驶员状态监视,医疗,机器人交互,法医部分,检测欺骗。这份调查报告对于软件开发人员根据其准确性和复杂性开发算法非常有用。同时,对于硬件实现来说,根据需要以低成本实现也是有帮助的本综述比较了基于预处理、特征提取、分类和主要贡献的算法基于数据库、复杂度、识别准确率和主要贡献进行了性能分析。本综述讨论了预处理和特征提取的可用性以及表达式计数等属性为了达到本文的研究目的,对算法的性能、优点进行了详细的讨论.采用ROI分割方法进行预处理,最高的准确率为99%。 根据特征提取,GF具有较低的复杂度,其准确率始终在82.5%和99%之间。SVM分类器的识别准确率最高可达99%,对厌恶、悲伤、微笑、惊讶、愤怒、恐惧、中性等表情都有较好的识别效果。在二维F
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功