众包和深度学习用于野外的可靠表情识别方法

50 浏览量更新于2023-10-16 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1可靠的众包和深度局部保持学习用于野外李山，邓晓，杜军平北京邮电大学{ls1995，whDeng，junpingd}@ bupt.edu.cn摘要以往的面部表情研究所使用的数据集相对有限，这使得目前的方法是否适用于现实世界还不清楚。在这篇文章中，我们提出了一个新的数据库，RAF-DB，它包含了大约30000张人脸图像从成千上万的人。每幅图像被单独标记约40次，然后使用EM算法过滤掉不可靠的标记，s. 众包研究表明，真实世界中的人脸往往表达复合情绪，甚至是混合情绪。据我们所知，RAF-DB是第一个包含复合表达式的数据库。我们的跨数据库研究表明，RAF-DB中的基本情绪的行动单位比实验室控制的行动单位更加多样化，甚至偏离为了解决这个问题，我们提出了一种新的 DLP-CNN （ Deep Locality-Preserving CNN）方法，该方法旨在通过保持局部接近度同时最大化类间散布来增强深度特征的区分能力。在7类基本表达式和11类复合表达式上的基准实验，以及在SFEW和CK+数据库上的额外实验表明，所提出的DLP-CNN优于最先进的手工特征和基于深度学习的方法，用于野外的表达式识别。1. 介绍每天有数百万张来自不同活动和社交聚会的图片被用户上传设计能够理解人类情感属性和情感表现的系统越来越有兴趣。为了从互联网上自动学习人脸图像的情感状态，需要大型的注释数据库然而，情感类别标注的复杂性阻碍了大型标注数据库的收集。另一方面，流行的AU编码[12]摘要由于文化差异对面部表情的感知方式[13]，心理学家很难为每种面部表情定义因此，除了少数专家的专业知识外，从大量普通人群的判断中研究社会形象的情感也是值得的在本文中，我们提出了一个可靠的众包方法来研究共同的表达感知。具体来说，我们训练有素的注释器被要求用七个基本类别之一标记人脸图像[11]，并且每个人脸都被独立注释足够的次数，即在我们的实验中大约40次。然后，通过基于EM的可靠性评估算法过滤噪声标签，通过该算法，每个图像可以可靠地表示为7维情感概率向量。通过分析从互联网下载的29672个非常多样化的面部图像的120万个标签，这些真实世界情感面部（RAF）1自然分为两种类型：具有单峰分布的基本表达式和具有双峰分布的复合情感，观察结果支持了最近在实验室控制条件下的突破性发现[10]。据我们所知，真实世界的表情数据库RAF-DB是第一个在无约束环境中提供共同表情感知和复合情感标签的大规模数据库。跨数据库实验和对RAF-DB的AU分析表明，真实世界的表情的AU比心理学家指导的实验室控制的表情的AU更多样化，甚至偏离。为了解决这种不受约束的情感的模糊性，我们进一步提出了一种新的深度局部保持CNN（DLP-CNN）。受[17]的启发，我们开发了一种实用的反向传播算法，该算法创建了局部保持损失（LP损失），旨在将同一类的局部相邻面拉到一起。与经典的softmax loss联合训练，迫使不同的类保持分离，局部p保留损失驱动每个类的类内局部聚类。需要特定的专业知识，需要几个月的学习和因此，需要完善的替代解决方案。和到期1http://whdeng.cn/RAF/model1.html28522853惊讶恐惧不安快乐悲伤愤怒中立惊讶恐惧快乐伤心生气惊讶恐惧不安快乐悲伤愤怒中立(a) 无LP损失的(b) DLP-CNN(c) 来自子图（b）的放大的彩色面部图像图1.深度学习特征在（a）“无LP损失的DCNN”和（b）“DLP-CNN”中的分布可以看出，局部性消除损失层有助于网络学习具有更多区分力的特征。此外，可以清楚地看到，具有明显强度变化的非中性表情，如快乐、悲伤、恐惧、惊讶和愤怒，其强度从低到高、从中心到边缘连续而平滑地变化。而带有厌恶标签的图像，这是最令人困惑的表达，被组装在中间。利用DLP-CNN的邻域保持特性，深度特征似乎能够在很大程度上捕获内在的表达流形结构。最好用彩色观看。类变得紧凑，并且因此可以高度增强深度学习的特征的辨别能力。此外，通过使用DLP-CNN，局部相邻面部倾向于共享相似的图1（b）显示了从我们的DLP-CNN模型中学习到的二维深度特征，其中我们在不同的表情类中附加了具有不同强度的示例人脸图像在RAF-DB和其他相关数据库上的大量实验表明，所提出的DLP-CNN优于其他最先进的方法。此外，在RAF-DB上训练的激活特征可以重新用于具有小样本训练数据的新数据库，这表明DLP-CNN是处理情绪感知（POE）跨文化问题的强大工具2. 相关工作2.1. 表情图像数据集人脸表情识别在很大程度上依赖于定义良好的数据库，然而，存在一些限制.许多可用的数据库是在严格控制的环境中产生的，没有主题和条件的多样性他们教受试者以统一的方式表演表情。目前的数据库大多只包括六个基本类别或更少。然而，在现实生活场景中捕捉的图像往往呈现复杂、复合甚至模糊的情感，而不是简单和原型的情感[3]。另外，这些数据库中的然后，我们重点讨论的图像数据库与自发表达。SFEW 2.0[7]包含从电影中提取的700张图像，图像被标记为两个独立的标签。该数据库涵盖了不受约束的面部表情，不同的头部姿势，大年龄范围，遮挡，不同的焦点，不同的面部分辨率。FER- 2013[16]包含使用Google图像搜索API收集和标记的35887张图像图片是亲-vided在48×48像素并转换为灰度。BP 4D-自发性[47]包含大量来自41个子通过八个任务，揭示了一系列自发的表达。然而，数据库组织由实验室控制。AM-FED[30]是在真实世界中收集的，样本量充足，但没有特定的情绪标签，更适合于研究AU。E-motioNet[1]是一个大型数据库，由自动AU检测算法创建，包含100万张野生面部与这些数据库不同，RAF-DB同时满足多个要求：足够的数据、不同的环境、对面部表情的群体感知和具有最小噪声的数据标签。2.2. 表情识别的框架面部表情分析一般可以分为三个主要部分[14]：面部获取，面部特征提取和面部表情分类。在人脸获取阶段，使用自动人脸检测器对复杂场景中的人脸进行定位。特征点，然后使用裁剪和对齐面到一个统一的模板，通过几何变换。对于面部特征提取，先前的方法通常可以分为两组：基于外观的方法[29]和基于AU的方法[42]。前者使用常见的特征提取方法，如LBP [38]，Haar [44]。后者通过检测AU来识别表达特征分类在最后阶段进行。常用的方法包括SVM、最近邻、LDA、DBN和这些分类器上的决策级融合[46]。所提取面部2854J−1j j jj=1J表情信息被分类为一组面部动作或特定的基本情绪[34]。大多数人关注后者，并以埃克曼的六种基本情绪理论为基础[12]。事实上，如果不对如何确定哪些动作单位构成表达式作出额外的假设，表达式范畴就不可能有确切的定义因此，基本的情感表达并不普遍，不足以概括人类脸上的表情[37]。2.3. 用于表情识别的深度学习近年来，深度学习算法被应用于视觉对象识别、人脸验证与检测、图像分类等诸多问题，取得了令人瞩目的成果。到目前为止，由于缺乏足够的训练样本，已经有一些深度神经网络用于面部表情在ICM- L 2013竞赛[16]中，获胜者[41]是基于深度卷积神经网络（DCNN）加SVM的。在2013年的竞争[6]中，获胜者[19]组合了特定模态的深度神经网络模型。在2015年8月，更多的竞争对手尝试了深度学习方法：文献[32]中采用迁移学习解决了小数据库问题，文献[20]中提出的多列DCNN分层委员会在SFEW数据库上取得了最好的效果，文献[22]中提出了LBP特征与DCNN结构相结合的方法。在 [24] 中，提出了 AU-aware DeepNetworks（AUDN）来学习面部AUs的解释特征在[31]中，提出了具有初始层的DCNN以获得可比结果。3. 真实世界的表情数据库：RAF-DB3.1. 创建RAF DB数据收集。最初，从Flickr收集的图像的URL被输入到一个自动的开源下载器中，以批量下载图像。考虑到Flickr的图像搜索API返回的结果是结构良好的XML格式，可以很容易地解析URL，我们使用了一组关键字（例如：微笑、咯咯笑、哭泣、愤怒、害怕、害怕、惊恐、震惊、惊讶、厌恶、面无表情），以挑选出与这六个相关的图像图2. RAF-DB的构建和注释概述心理学知识的情感在线面部表情注释任务，在那里他们被要求分类的图像到最明显的一个从七类。我们为RAF-DB注释开发了一个网站，它显示每个图像的专有属性选项。图像被随机平均分配给每个标签，以确保由一个人标记的图像每个图像都被保证由大约40个独立的标记器标记。之后，针对每个图像获得多标签注释结果，即，七维向量，每个维度指示相关情感的投票。元数据. 该数据提供了面部区域的精确位置和大小，以及面部上手动定位的五个标志点（两只眼睛的中心，鼻子的尖端和两个嘴角）此外，还包括无手动标签的自动地标注释模式：从Face++ API提供的注释结果中挑选出37个地标[18]。我们还手动注释了所有RAF面孔的基本属性（性别、年龄（5个范围）和种族）。总之，我们数据库中的受试者其中52%为女性，43%为男性，5%不确定。在种族分布方面，有77%的白人，8%的非洲裔美国人和15%的亚洲人。每个图像的姿态，包括俯仰，偏航和滚动参数，从五个面部标志的手动标记的位置计算。可靠性估计。由于标注者的主观性和专业知识的多样性，以及图像标注水平的广泛性为了摆脱噪声标签，受[45]的启发，使用期望最大化（EM）框架来评估每个标签基本情绪加上中性情绪最后，一个-在我们29672个真实世界的面部图像中，令D={（xj，yj，t1，t2，.，tR）}n表示n个la的集合。数据库图2显示了数据收集的管道。数据库注释。注释近30000张表情图像是一项极其困难和耗时的工作。beled输入，其中yj是黄金标准标签（隐藏i变量）是由第i个注释器给出的对应标签。核心-ti的正确概率被公式化为S形函数：任务考虑到现实世界ij的复合性，表达，图像的表达状态的多个视图应该从不同的标注器收集。因此，我们雇用了315名注释员（来自大学的学生和工作人员），他们接受了一小时的p（tj=yj|αi，βj）=（1+exp（−αiβj）），其中1/βj为第j个图像的难度，αi是第i个图像的可靠性注释者。我们的目标是优化给定的2855惊讶1619人恐惧355人厌恶877人快乐5957（38.84%）伤心2460人生气867人非常惊讶56人（14.1人%）厌恶地惊讶1人（3.7%）高兴地惊讶697人（17.5%）令人惊讶的是86人（2.17%）愤怒地惊讶176人（4.44%）可怕的悲哀129人非常厌恶8人（0.20%）快乐的dispersed266人（6.71%）令人痛心地厌恶愤怒地厌恶84人（21.2非常愤怒150人（3.7%）伤心地生气16人图3.RAF-DB中六类基本情绪和十二类复合情绪的例子RAF-DB的详细数据分布已附于每个表达式类。标签：Σ Σ Σ算法1标签可靠性估计算法。输入：训练集D={（x，t1，t2，...，tR）}nmaxl（α，β）=β>0lnp（t|α，β）= lnp（t，y|α、β）jjjj∗j=1j jy输出：每个注释器的可靠性α iΣ Σ= lnjyQj（y）p（t，y|α，β）Qj（y）初始化：i=1，.，n，使用多数表决初始化真标签y，jΣRp（t，y|α、β）βj：=−p（ti）lnp（ti），αi：= 1，≥Qj（y）lnJ Ji=1jyQj（y）其中Qj（y）是隐变量y的某个分布，p（tj，yj|α，β）p（tj，yj|α、β）Q（y）===p（y|t，α，β）β j的初始值是图像j的熵。熵越高，图像越不确定。重复：E-步骤：jj p（t，y|α、β）J Jp（tj|α、β）yJjQj（yj）：=p（yj|tj，αi，βj）我修订后保留了285个注释者所有标签的Cronbach子集分区。设Gj={g1，g2，...，表示第j个图像的7维地面真值，其中M步：Σ Σαi：= arg maxQj（yj）lnp（tj，yj|αi，βj）Q（y）gk=ΣRαi1ti=k（αi表示第i个注释器的可靠性，αij yjj ji=1j泰1A是一个指标函数，布尔表达式A为真，和标号k∈ {1，2，3，4，5，6，7}分别表示惊讶、恐惧、厌恶、快乐、悲伤、愤怒和中性然后，我们根据7维地面真值将RAF-DB划分为不同的子集对于单标签子集，我们首先Σ7计算平均分布值gmean=gk/7k=1对于每个图像，然后挑选出标签k w.r.t. gk> g平均值作为有效标签。具有单个有效标签的图像被分类为单标签子集。对于Two-tab Subset，分区规则类似。唯一不同的是，我们在分区之前取出了带有中性标签的图像。图3给出了6类基本情绪和12类复合情绪的具体样本。3.2. CK+和RAF跨数据库研究然后，我们进行了CK+[26]和RAF跨数据库研究，以探索表达-Y2856我们还在M步期间优化βj和αi。然而，我们的目标是获得每个贴标机的可靠性，所以我们没有将其包括在这一步.为了优化，我们对下式求导βj和αi。直到收敛真实世界的情感面孔和心理学指导下的实验室控制的姿态面孔。在这里，“跨数据库”意味着我们使用一个数据库中的所有图像进行训练，并使用另一个数据库中的图像进行测试。为了消除训练规模不同带来的偏差，对RAF-DB的单标签子集进行了二次抽样实验，以平衡两个数据库的规模。为了确保分类器的泛化能力，我们应用支持向量机进行分类，并尝试HOG描述符[5]进行表示。具体来说，原始图像首先被对齐到100×100的大小。然后，我们得到一个4000维的HOG特征向量，对齐图像。最后，实现了基于RBF核的SVM2857SurFeaDisHapSurFeaDisHap悲伤的昂SurFEADisHap伤心Ang悲伤的昂SurFEADisHap伤心AngCK+RAF(a) RAF−→ CK+(b) CK+−→ RAF图5.比较CK+和RAF的六种基本情绪。很图4.跨数据库实验的混淆矩阵，HOG特色真实标签（训练数据）在纵轴上，预测标签（测试数据）在横轴上。LibSVM[4]用于分类。使用网格搜索优化参数。然后，我们进行了一个跨数据库实验，CK+。表1. RAF-DB中每个表达式的AU出现概率（%） AU1 AU2 AU4Au5AU6 AU7AU10 AU12 AU15 AU 17 AU20 AU25 AU 26 AU27Sur9797 849853∗FEA7842747950 30∗61∗43∗Dis513489822655∗Hap98 85 9723评价方法和评价标准。图4示出了该实验的结果。分析这两个矩阵的对角线，我们可以看到惊讶，快乐和厌恶是这两种情况下识别率最高的前三个。这一结果与许多基于CK+的单数据库测试一致，如[26]，[35]和[38]。在计算对角线的平均值后，Matrix I的检测准确率为62%，而Matrix II仅为39%，这表明从真实世界收集的数据比实验室控制的数据更多样和有效。这一点在表达悲伤、快乐和惊讶时尤为明显。此外，愤怒和厌恶通常在这两种情况下相互混淆，这与[2]中的调查一致。为了解释上述现象，必须进行更详细的研究，以找出这两个数据库中每个表达式的具体差异。因此，采用了面部动作编码系统（FACS）分析。在[12]中首次提出了FACS，其中面部行为的变化由一组动作单元（AU）描述。RAF-DB中的子采样图像的AU首先由我们的FACS编码器标记。然后，我们定量分析了CK+和RAF中CK+和RAF的一些示例如图5所示。此外，来自RAF-DB中的子采样图像的每个表达的AU的出现概率已经在表1中示出。4. 深度局部保持特征学习除了空数据表示概率小于10%星号（*）表示AU的概率与CK+的概率有很大差异（至少40%的s地址。首先，如我们的跨数据库研究所示，真实世界的表情可能与各种AU组合相关联，这些AU组合需要分类算法来对特征空间中每个情感的多模态分布进行建模。其次，正如我们的众包结果所表明的那样，大量真实世界的情感面孔表达了复合甚至多重情感。因此，传统的手工设计的表示，在实验室控制的数据库中表现良好，不再适合在野外的表情识别任务。如今，DCNN已被证明在大规模视觉识别任务上优于然而，传统的DCNN仅使用softmax损失层来监督训练过程。softmax层有助于保持不同类的深度学习特征可分离，但是，仍然存在严重的类内变化。与此相反，在真实世界中，由于不同的遮挡、光照、分辨率和头部位置，面部表情表现出显著的类内差异此外，个体差异也会导致同一类别表情的差异，如笑与不笑笑因此，我们提出了一种新的DLP-CNN来解决现实世界面部表情的模糊性和多模态性，S.在DLP-CNN中，我们在表2所示的基本架构上添加了一个新的监督层，即局部保持损失（LP损失），以提高深度特征的区分能力。其基本思想是保持每个样本xi，并使每个类内的局部邻域为98.20.00.31.00.3 0.136.516.424.3 6.33.9 12.50.30.076.46.84.4 12.10.00.00.299.70.1 0.07.40.8 30.2 0.061.2 0.411.8 5.261.6 0.61.619.273.74.53.30.38.0 10.120.514.911.8 22.0 30.510.1 4.256.0 0.56.5 22.75.84.6 20.662.7 0.44.6 11.5 28.1 2.818.9 34.11.70.042.87.0AU1，2AU1，2AU 1，2AU5AU25，AU27惊喜AU1，2Au5AU 1，2Au5AU25AU25，AU26AU6AU12AU25喜悦AU6AU12AU6AU12AU26AU6AU12AU25AU 1，4AU7AU20恐惧AU4Au5AU20、AU 1，4AU7AU26AU27AU 1，4AU26AU6AU12AU26AU1AU5AU26AU27AU25AU4AU7AU24AU17愤怒Au5AU10AU25AU26AU4AU24AU17AU7AU9AU10AU25AU4AU7AU26AU27AU4AU7AU9AU17AU 1，4AU4厌恶Au5Au5AU10AU10AU4AU7AU9AU17AU1，4AU7AU20、AU25AU15AU17悲伤AU15AU15AU17AU7AU25AU10AU17AU25六类表情。多类支持向量机伤心888421∗5449∗（mSVM）和混淆矩阵作为分类器。Ang9672∗94368779∗ 72∗28582i=1- µS我我我我2八、二表2.基本架构（baseDCNN）中的配置参数层123456789101112131415161718类型ConvReLUMBoolConvReLUMBoolConvReLUConvReLUMBoolConvReLUConvReLUFCReLUFC内核3-23-23-3-23-3--输出64--96--128-128--256-256-2000-7步幅1121121111211111垫1001001010010100尽可能紧凑制定我们的目标：目标函数制定如下：L =minWΣi、jSIj||xi−xj||第二章（一）LS+λLlp，其中LS表示softmax损失，Llp表示局部保持损失。超参数λ用于平衡两个损失函数。算法2sum-其中W是网络参数，并且矩阵S是相似性矩阵。深度特征x∈Rd表示深度描述了深度局部保持CNN的学习过程。卷积激活特征（DeCaf）[9]取自最后的隐藏层，即，就在产生类预测的softmax层定义S的可能方式如下。x1，xj是xi的k个最近邻居之算法2DLP-CNN的优化算法输入：训练数据{xi}n，n是mini-batch的大小输出：网络层参数W初始化：t= 0Sij=0或者xi是xj0，否则（二）网络学习率µ，超参数λ，网络层参数W，softmax损耗参数θ，相邻节点k。其中xi和xj属于同一个表达式类，k定义局部邻域的大小。这个公式有效地描述了类内重复：1：t=t+12：计算xi的k-最近邻的中心：Ct=1nxtSt局部散射注意x应该更新为itera-ikj=1伊季i3：更新softmax损失参数：CNN的优化计算以下各项的总和我们需要把整个训练集θt+1 =θttLtθt4：更新反向传播错误：在每次迭代中，这是实现效率低的。使…tLtLtL 为s+λlp为了克服这个困难，我们通过搜索xtxtxt每个样本xi的k个最近邻，以及5：计算网络层参数：不Wt+1=Wt−µt Lt =Wt−µtnLt保持xi的损失函数定义如下：Wti=1 xtWtLlp= 1Σn1||xi−ΣX||2（三）直到收敛2i=1K x∈N{x}K我其中Nk{xi}表示具有相同类别的样本xi的k个最近邻的集合Llp相对于xi的梯度计算为：5. 基线系统为了便于将研究从实验室设备转化为现实世界，我们进行了两项具有挑战性的LLPxi1=xi−kΣx∈Nk{xi}x（4）RAF-DB上的基准实验：7类基本表达式分类和11类复合表达式分类，并给出了相应的基线算法和通过这种方式，我们可以执行基于小批量的更新注意，最近提出的中心损失[43]可以被认为是局部保持损失的特殊情况，如果k=nc-1（nc是训练样本的数量在xi所属的C类虽然中心损失只是将样本拉到单个质心，所提出的局部保持损失更灵活，特别是当类条件分布是多峰时。然后，我们采用softmax损失的联合监督，其特征在于全局分散和局部保留损失，其特征在于类内的局部分散，来训练用于区分性特征学习的CNN。表演我们还对两个小而流行的数据集CK+和JAFFE进行了比较实验[28]。我们在跨数据库实验中跟进了实验设置，并尝试了LBP[33]，HOG[5]和Gabor[23]特征。LBP描述符应用59-binLBPu2运算符，然后将直方图从10×10像素单元，生成5,900维特征向量。HOG特征使用这种基于形状的分割，将图像划分为四个5×5像素单元的10×10像素块通过为每个histogram设置10个bin，我们为每个图像提取4000维HOG特征向2859量。对于Gabor小波，我们使用一组2860表3. CK+、JAFFE和RAF的基本表达类性能比较以及RAF的复合表达性能，基于LBP 、HOG和Gabor描述符，以及SVM、LDA+kNN分类。度量是混淆矩阵的平均对角值。基本化合物CK+谢斐RAFRAFmSVMLBP88.9278.8155.9828.84生猪90.5084.7658.4533.65Gabor91.9888.9565.1235.76LDALBP85.8477.7450.9722.89生猪91.7780.1251.3624.01Gabor92.3383.4556.9323.81在五个空间尺度和八个方向上的40个Gabor滤波器-S.下采样图像为了客观地衡量追随者条目的性能，我们采用五重交叉验证的思想将数据集分为训练集和测试集，这意味着训练集的大小是测试集的五倍考虑到野生型中的表达具有不平衡的分布，对偏差特别敏感并且对不平衡数据不再有效的准确度度量[15]不再用于RAF中。相反，我们使用混淆矩阵的平均对角值作为最后度量。基本的情感。在这个实验中，七个基本的情感类检测使用整个15339图像从单标签子集。最好的分类准确率（ SVM 输出）为 LBP 的 72.71% ， HOG 的74.35%，Gabor的77.28%。当以混淆矩阵的平均对角值作为度量时，结果分别下降到55.98%、58.45%和65.12%。为了评估基本情绪标签的可靠性，我们还为每个样本分配了一个统一的随机标签，我们称之为朴素情绪检测器。而使用Gabor特征时，朴素分类器的最佳结果为16.07%，远低于前者。为了比较，我们采用相同的方法对CK+与个人无关的5折交叉验证和JAFFE与留一个主题的策略。表3中所示的结果证明，现实世界中的表达式目前常用的识别方法虽然在现有的数据库中表现良好，但在现实世界中的表情识别问题却很难解决。为了评估不同分类器的有效性，我们还使用最近邻（NN）分类训练了LDA我们发现LDA+NN的性能明显不如mSVM在英国皇家空军训练时，一个非常大的数据库。然而，它在小规模数据集（CK+和JAFFE）上训练时表现更好，在某些情况下甚至优于mSVM。具体结果见表3。复杂的情绪。对于复合情绪的分类，我们去掉了数量太少的厌恶情绪，只剩下11类，共3954种复合情绪。最好的分类准确率（SVM输出）为LBP的45.51%，HOG的51.89%，Gabor的53.54%。当以混淆矩阵的平均对角值作为度量时，结果分别下降到28.84%、33.65%和35.76%。同样，为了证明复合情感标签的可靠性，我们计算了朴素情感检测器的基线，当使用Gabor特征时，该基线下降到5.79%。正如预期的那样，当涉及更多的表达式用于分类时，整体性能显著下降。与基本情绪相比，复合情绪的结果显着较低，表明复合情绪更难检测，应该发明新的方法来解决这个问题。除了多模态之外，缺乏来自真实世界的复合表达式训练样本是另一个巨大的技术挑战。6. 深度学习系统如今，深度学习已被应用于大规模的视觉识别任务，并在大量训练数据的情况下表现出色。然而，由于用于模型学习的训练样本不足，全监督深度模型在面部表情识别任务中容易过拟合。因此，用于面部表情识别的大多数深度学习框架[22，32，36]都是基于预先训练的模型。这些预训练模型，如VGG网络[40]和AlexNet[21]，最初是为人脸识别设计的，缺乏表情特征的区分能力。因此，在本文中，我们直接在足够大的自收集数据库RAF上从头开始训练我们的深度学习系统，而不使用其他数据库。在进行实验时，我们遵循与基线系统相同的数据集划分标准，图像处理方法和分类方法。相关研究[9，39]已经证明，经过良好训练的深度卷积网络可以作为具有泛化能力的特征提取工具用于分类任务。根据这个想法，我们首先训练每个DCNN用于基本的情感识别任务，然后直接使用已经训练好的DCNN模型来提取基本和复合表情的深度特征。从原始数据中学习的2000维深度特征从DCNN的倒数第二全连接层中提取，然后通过SVM分类。2861表4.不同DCNN在RAF上的表达识别性能度量是混淆矩阵的平均对角值碱性化合物愤怒厌恶恐惧幸福悲伤惊喜中性平均平均mSVMVGG68.5227.5035.1385.3264.8566.3259.8858.2231.63AlexNet58.6421.8739.1986.1660.8862.3160.1555.6028.22baseDCNN70.9952.5050.0092.9177.8279.6483.0972.4240.17中心损失68.5253.1354.0593.0878.4579.6383.2472.8739.97DLP-CNN71.6052.1562.1692.8380.1381.1680.2974.2044.55LDAVGG66.0525.0037.8473.0851.4653.4947.2150.5916.27AlexNet43.8327.5037.8475.7839.3361.7048.5347.7915.56baseDCNN66.0547.5051.3589.4574.2776.9077.5069.0028.23中心损失64.8149.3854.0592.4174.9076.2977.2169.8627.33DLP-CNN77.5155.4152.5090.2173.6474.0773.5370.9832.29根据表4中的结果，我们得到以下观察结果。首先，DCNN实现了相当合理的重新计算，表5. DLP-CNN和其他先进深度学习方法在CK+和SFEW 2.0上的比较结果。对于大规模图像识别设置，例如VGG网络和AlexNet，结果对于面部表情识别不是有效的其次，在RAF-DB上学习的所有深度特征都明显优于基线系统中使用的未学习特征，这表明深度学习架构更鲁棒，适用于基本和复合表达。最后，我们的新地方-AUDN FP+SAE[25][27]SFEW最佳[三十一][20个]DLP-CNN（无微调）保ty损失模型的性能优于基于保ty损失模型和中心损失模型。需要注意的是，中心损失，有效地收敛单峰类，可以帮助提高基本情感的网络性能，但它不能对复合情感。这表明了局部保持损失在多模态人脸表情识别中的优势，包括基本表情和复合表情。为了查看我们经过良好训练的DLP-CNN模型在其他数据库上的泛化能力，我们使用它直接提取CK+和SFEW 2.0的固定长度特征，而无需微调。对于实验室控制的数据库CK+，我们遵循基线系统中的实验原理。对于现实世界的数据库SFEW 2.0，我们遵循了2015年的规则[8]，而“SFEW最佳”是2015年请注意，在[20]中，作者使用来自SFEW的额外数据训练了他们的模型。从表5中的比较结果可以看出，我们的网络也可以实现与其他最先进的方法相当甚至更好的性能，不仅适用于RAF，而且适用于其他数据库。这表明我们提出的网络可以用作面部表情数据库的高效和有效的特征提取工具，而无需在传统DCNN中执行大量时间。7. 结论和未来工作本文的主要贡献是提出了一种新的优化算法的众包和一个新的本地化，用于深度学习的ty保留损失层，基于真实世界公开可用的面部表情数据库RAF-DB。优化的算法有助于保持最好的注释结果从标签。新的DCNN可以为表情识别任务学习更多的判别特征。RAF-DB 包含：1）29672个标记为不同表情、年龄范围、性别和姿势特征的真实世界图像，2）每个图像的7维表情分布向量，3）两个不同子集：单标签子集，包括七类基本情绪;两标签子集，包括十二类复合情绪，4）五个手动精确检测界标点的位置，5）基本情绪和复合情绪的基线分类器输出。我们希望该数据库的发布将鼓励更多关于真实世界表情分布或检测效果的研究，并成为研究人员在挑战条件下比较其面部表情分析算法有效性的有用基准资源8. 致谢这项工作部分得到了国家自然科学基金项目6157306861471048、61375031、61532006Nova计划，批准号：Z161100004916088，中央高校基础研究经费，批准号：2014 ZD 03 -01，新世纪优秀人才计划（NCET-13-0683）。CK+93.7091.11 九十三点二–95.78SFEW 2.0 30.14–52.551.052862引用[1] C. F.贝尼特斯基罗斯河Srinivasan和A. M. 马丁内斯E-motionet：一种精确的实时算法，可以自动注释野外一百万个面部表情。在IEEE计算机视觉模式识别国际会议（CVPR 16）上，拉斯维加斯，内华达州，美国，2016年。[2] 贝达普拉人脸表情识别与分析：最先进的技术arXiv预印本arXiv：1203.6722，2012年。[3] J. C.博罗德情绪的神经心理学。牛津大学出版社，纽约，2000年。[4] C.- C. Chang和C J. Lin LIBSVM：支持向量机的库.ACM Transactions on Intelligen-系统与技术，2：27：1-27：27，2011。软件可在http://www.csie.ntu.edu.tw/上获得请访问cjlin/libsvm。[5] N. Dalal和B. Triggs用于人体检测的定向梯度直方图计算机视觉与模式识别，2005年。CVPR 2005。 IEEE计算机协会会议，第1卷，第886-893页。IEEE，2005年。[6] A.多尔河作者声明：J. Wagner和T.吉迪恩2013年野外挑战赛中的情感识别。在第15届ACM国际多模态交互会议的会议纪要中，第509-516页。ACM，2013年。[7] A.多尔河Goecke，S. Lucey和T.吉迪恩恶劣条件下的静态面部表情分析：数据、评价方案和基准。在计算机视觉研讨会（ICCV研讨会），2011年IEEE国际会议上，第2106-2112页IEEE，2011年。[8] A. Dhall，O. 拉马纳默蒂河 Goecke，J. Joshi，和T. 吉迪恩基于视频和图像的情感识别挑战在野外：2015年7月在2015年ACM关于多模相互作用国际会议的会议记录中，第423-426页ACM，2015.[9] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。Decaf：用于通用视觉识别的深度卷积激活功能在ICML，第647[10] S. 杜， Y.Tao 和 A.M. 马丁内斯复杂的面部表情。Proceedings of the National Academy of Sciences ， 111（15）：E1454[11] P. Ekman 面部表情和情感。美国心理学杂志， 48（4）：384，1993.[12] Ekman和W.弗瑞森面部动作编码系统。1977.[13] P. 艾克曼 W. 诉弗里森 M. 奥沙利文 A. 陈先生I. Diacoyanni-Tarlatzis ， K. 海德河 Krause ， W. A.LeCompte，T.皮特凯恩山口E. Ricci-Bitti等人，《情绪面部表情判断的普遍性和文化差异》。 Journal ofPersonality and Social Psychology，53（4）：712，1987.[14] B. Fasel 和 J. 卢廷自动面部表情分析综述。 PatternRecognition，36（1）：259[15] C. Ferri，J. Hern a'nano-Orallo和R. 莫德罗尤分类性能指标的实验比较。Pattern Recognition Letters，30（1）：27[16] I. J. Goodfellow，D. Erhan，P. L. Carrier，A. 库维尔M. 米尔扎湾，澳-地Hamner，W.Cukierski，Y.Tang，D.Thaler，D.H. Lee等人表征学习的挑战：关于三个机器学习竞赛的神经信息处理，第117-124页。Springer，2013.[17] X. 他和P。新木局部保持投影。在NIPS，第16卷，2003年。[18] M. Inc. Face++ 研究工具包。www.faceplusplus.com ，Dec. 2013年。[19] S. E.卡胡角X-ray，X. Bouthillier，P.弗鲁门蒂居尔茨赫雷河 Memis e vic，P. Vincent，A. 库尔维尔Y 本吉奥河C.Ferrari等人结合特定于模态的深度神经网络用于视频中的情感识别。在第15届ACM国际多模态交互会议的会议纪要中，第543-550页。ACM，2013年。[20] B.- K. Kim，J. Roh，S.- Y. Dong和S.- Y.李你用于鲁棒面部表情识别的深度卷积神经网络分层委员会。Journal on Multimodal User Interfaces，第1-17页[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097[22] G. Levi和T.哈斯纳通过卷积神经网络和映射的二进制模式在野外进行情感识别S.在2015年ACM关于多模态交互的国际会议上，第503-510页。ACM，2015.[23] C. Liu和H.韦克斯勒基于Gabor特征的人脸分类器和改进的fisher线性鉴别模型。图像处理，IEEE Transactionson，11（4）：467[24] M. Liu，S. Li，S. Shan和X.尘用于面部表情识别的AU感知深度网络。在 A

下载后可阅读完整内容，剩余1页未读，立即下载