没有合适的资源?快使用搜索试试~ 我知道了~
深度多任务学习识别心理状态胡国胜1、 2、刘立3、杨元1、余泽浩4、杨华2、张志红4、沈福民5、邵凌3、蒂莫西·霍斯佩德莱斯6、尼尔·罗伯逊2、 1、杨永新6、 7英国贝尔法斯特皇后大道1huguosheng100@gmail.comAnyvision2英国贝尔法斯特皇后大学ECIT3Inception Institute of Artificial Intelligence,阿布扎比,阿联酋4厦门大学软件系,厦门,中国5电子科技大学,中国6英国爱丁堡大学信息学院7年来,英国伦敦的会计师事务所一直在进行会计工作抽象。 人脸表情识别是一个热门的研究课题。然而,很少有研究探讨微妙的表情识别,这是重要的心理活动分析,欺骗检测等。我们通过开发多任务学习(MTL)方法,有效地利用一个副任务:面部标志检测,通过卷积神经网络(CNN)来处理微妙的表情识别。现有的MTL方法遵循共享的底部CNN层和任务特定的顶层的设计模式然而,共享体系结构通常是随机选择的,因为很难决定应该共享哪些层我们的方法由(1)一种新的MTL框架组成,该框架通过在tensor迹范数正则化下的优化自动学习共享哪些层,以及(2)一种不变表示学习方法,该方法允许CNN利用在不相交数据集上定义的任务,而不会遭受数据集分布偏移。为了推进微妙的表情识别,我们贡献了野生数据库中的大规模微妙情绪和精神状态(LSEMSW)。LSEMSW包括各种认知状态以及基本情绪。它包含176K张图像,手动注释了13种情绪,因此提供了第一个足够大的微妙表情数据集来训练深度CNN。LSEMSW和300-W(地标)数据库上的评估表明所提出的方法的有效性。此外,我们研究了从LSEMSW数据库中学到的知识转移到传统的(非微妙的)表情识别。我们通过迁移学习在Oulu-CasiaNIR Vis和CK+数据库上实现了非常有竞争力的1介绍面部表情传达了关于一个人的情绪和精神状态的重要信息面部表情理解有着广泛的应用,并且以情感识别的形式得到了最广泛的研究经典问题2G. Hu等人愤怒恐惧快乐悲伤 惊奇厌恶生气害怕快乐悲伤惊讶无奈无关紧要的提问焦虑傲慢犹豫怀疑思维图1:传统的情绪识别(第1行)与我们的LSEMSW(第2行和第3行)。我们的数据集包含更丰富的心理状态- 包 括 各 种 认 知 状 态 , 通 过 微 妙 的 表 达传 达 , 并 在 野 外 展 示 。是识别六种基本情绪[39](图)。1,顶部)基于面部表情[21]。 这个问题现在被认为解决了在实验室条件下提出的,夸张的表达(图。1,顶部);但对于现实的微妙表现的表情仍然是一个悬而未决的问题,例如,即使是嘴唇的轻微收紧也可能是某人生气的迹象。微妙的表达(图。1,第2行和第&3行)对于心理活动分析和欺骗检测很重要[55]。在本文中,我们显着超越现有的工作在两个方面的情绪识别,以解决:识别微妙的表达,而不是夸张的情绪;和识别更广泛的心理状态超出了基本的六种情绪,包括第一次认知状态。为了实现这些目标,我们从两个方向着手:提供(1)改进的深度学习算法,以及(2)涵盖微妙情绪和认知状态的大数据集具体来说,首先,我们引入了一种新的深度学习方法来进行微妙的表情识别,该方法基于一种新的多任务学习架构来利用一个副任务:地标检测。 其次,为了对新提出的任务进行基准测试,并训练我们的深度学习模型,我们还贡献了一个新的大规模数据集:大规模微妙的情绪和精神状态在野外(LSEMSW)。与现有的姿势和夸张的基准相比,该数据库的表达更加真实微妙(图1)。该数据集也比大多数现有的基准1排2 3)由2位心理学家定义。用于细微表情识别的3深度MTL算法我们建立在深度CNN的基础上,它在许多视觉任务中取得了巨大的成功。根据使用地标位置[54]和距离[50];我们观察到当情绪/精神状态通过微妙的表情传达时,显著的提示通常是面部标志的轻微移动(例如,眼睛变宽)。为了在我们的深度网络设计中提供这种先验知识作为归纳偏差,我们的目标是通过多任务学习(MTL)同时检测经典的MTL方法专注于通过线性模型[2]或基于内核的非线性模型[10]中的共享任务表示通过跨任务知识转移来提高性能最近,对神经网络MTL的兴趣越来越受欢迎(再次[5]),以结合深度网络和知识共享的力量[61,24,27]。传统的深度MTL将前几个CNN层预先定义为由多个任务共享,然后针对具有不同损耗的不同任务分叉到不同的层然而,这种方法是启发式的,并且在没有关于如何选择共享结构的理论指导的情况下,它对于“广泛的确定”是很困难的。 这与日益深入的CNN架构不同。例如,ResNet[17]有156层,导致156种可能的架构,假设恰好有一个分叉,或者(B·T)156种架构(其中T是任务的数量,B·是贝尔数,即,集合的分区的数量)。为了解决这个问题,我们开发了一种新的张量迹范数方法,该方法可以自动确定每个层应该共享多少,并且不需要假设单个分叉点。此外,我们解决的问题,MTL通常需要在一个单一的数据集上标注的所有任务是有效的。如果任务与不同的数据集相关联,则仍可以应用MTL,但由于以下原因,MTL无效跨数据集分布变化的负面影响超过了基于MTL的知识共享的好处。通过集成分布对齐策略[13],我们可以使用不相交的训练集(在不同数据集上定义的任务),从而使MTL更加灵活和广泛适用。在情感识别的背景下,这使我们能够利用现有的数据集来提供辅助任务,例如300-W数据集中的面部标志定位[45]。微妙表情数据库大多数现有的表情数据库[8,20,11,37]仅包含具有强烈夸张情绪表达的图像,并且很少研究微妙表情分析为了解决这个差距,我们贡献了LSEMSW,第一个用于微妙表达分析的大型数据库LSEMSW只包含具有真实微妙表情的图像。此外,现有的数据库有一些局限性:它们要么只包含情绪而不包含其他精神状态[8,11],要么由 于 自 动 注 释 而 有 噪 声 [11] , 或 者 对 于 深 度 学 习 来 说 太 我 们 的LSEMSW包含其他(非情绪)认知心理状态,与现有的专注于六种基本情绪的数据集相比[8]。LSEMSW包含176K图像,使其比一些替代方案(例如,AFEW中的1500个图像[8]),并且所有图像都是手动标记的,而不是通过算法自动注释的[11]。最后,我们对比了微表情识别,即识别一种情绪4G. Hu等人这是一个人试图隐藏的[25]。这与处理微妙的线索有关,但不同之处在于它通常在视频而不是图像上执行(i)与标准启发式设计的深度MTL不同,我们提出了一种端到端软共享策略,该策略通过优化迹范数正则化参数来灵活地学习在哪里共享、共享什么以及共享多少我们进一步嵌入了一个分布对齐方法,以便在每个任务的训练集不相交时保持良好的性能(ii)我们贡献了我们的LSEMSW数据集,由176K图像组成,手动标注了13种情绪和认知状态。这是第一个用于细微表情分析的数据库,第一个用于从面部表情中识别认知状态的数据库我们将发布这个数据库,以推进深度学习时代的精神状态识别。此外,源代码和经过训练的模型将公开提供。(iii)我们表明,LSEMSW可以通过使用迁移学习在Oulu-Casia NIR Vis [62]和CK+ [29]数据库上实现非常有竞争力的TNER性能,从而使传统(非微妙)表达识别(TNER)受益。2方法2.1预赛基于矩阵的多任务学习基于矩阵的多任务学习通常建立在线性模型上,即, 每个任务由D维权重向量w来参数化,并且该模型是y=xTw,其中x是表示实例的D维权重向量。基于矩阵的MTL的目标函数ΣTΣN(i)(一)(一)(一)可以写成i=1j=1(yj ,xj·w)+λΩ(W)。Hee(y,y)isaloss实现了一个可持续发展的目标。这是一个很大的问题对于第i个任务,存在N(i)个训练实例。 假设每个t的维数为k的fe at u e,则模型的w(i)为am的大小。 w(i)的集合形成D × T矩阵W,其中第i列是第i个任务的线性模型。 利用正则化器Ω(W)来鼓励W成为低秩矩阵。 一些选择包括2,1范数[2]和迹范数[19]。基于张量的多任务学习在标准MTL中,每个任务都由单个因子索引。但在一些现实问题中,任务是由多个因素索引的所有任务的线性模型的集合则是大小为D × T1× T2的3向张量W,其中T1和T2是两个任务指数。在这种情况下,使用了张量范数正则化器[51]。例如,所有矩阵化的迹范数之和[44]和缩放的潜在迹范数[56]。然而,这样的先前的基于张量范数的正则化器已经被限制到浅模型。 我们开发了允许在深度网络中端到端应用张量范数的方法。深度多任务学习随着深度学习的成功,许多研究已经研究了深度MTL[28,61,41,36,58]。例如,在一个示例中,使用CNN找到面部标志以及识别面部属性[61,41]。标准方法[28,61,41]是共享深度网络的 底 层 , 并 为 底 层 使 用 特 定 于 询 问 的 参数。 我 们 称这种类型的“predefined d的硬盘”硬盘为硬盘。这些数据库已成为2000年代的数据库用于细微表情识别的5[3]的文件。然而,在具有许多层的现代CNN架构中尝试每一种硬共享可能性是不可能的。最近关于自动化深度MTL [58,36]的有限工作需要在每一层指定离散等级这每层引入了额外的共享强度超参数,并且在仅处理两个任务时严重地防止了知识共享,因为它增加而不是减少了参数的数量。我们的方法学习软共享在所有层由一个单一的共享强度超参数控制2.2基于迹范数的深度MTL在这项工作中,我们专注于深度MTL,特别是基于CNN的MTL。一个CNN包含多个卷积层,每个卷积层由多个卷积核组成。卷积层由大小为H×W×C×M的4路张量参数化,其中H、W、C、M分别是高度、宽度、通道数、滤波器数。由于卷积层被构造为张量,我们利用基于张量的理论,特别是张量迹范数,实现知识的提取。不像硬盘的存储那样,我们提供子一个灵活的共享策略,它可以自动学习在哪里共享,共享什么以及共享多少。通过优化张量迹范数正则化参数。为了学习参数共享策略,我们提出以下框架:对于T个任务,每个任务都由相同架构的神经网络建模。T个网络以逐层方式水平堆叠,i。e.我们将差分的面积计算为k’netw或k’areth_same,使得我们可以收集相同级别(层)中的参数,然后将它们堆叠以形成一阶更高的对于卷积层,4D→5D。对每一层重复该过程。通过将参数堆叠成高阶张量,我们可以将张量迹范数正则化器应用于每个张量,以实现知识共享。一个示意性的例子与2任务学习是illustrated在图。2.利用张量迹范数正则化来学习CNN意味着这些张量的秩在可能的情况下被最小化,并且因此在可能的情况下共享知识。由于迹范数是对所有层的堆叠参数执行的,因此我们可以使用正则化强度的单个超参数来控制所有层的参数共享。张量范数由于张量迹范数是我们方法的核心,我们回顾Σthistopic。 matrixtracenorm是一个matrixsin gul ar值的总和。||X||*=i=1σ i。它是矩阵秩的最紧凸关系[42]。因此,当直接限制矩阵的秩是具有挑战性的,迹范数作为一个很好的代理。张量的迹范数可以表示为矩阵的迹范数之和。然而,与矩阵不同,张量的迹范数不是唯一的,因为张量可以以许多方式分解,例如,Tucker [53]和Tensor-Train[38]分解我们在这里提出了三个张量迹规范,对应于所提出的方法的三个变体。对于大小为D1×D2×···×DN的N向张量W.我们定义LastAxisFlattenig(LAF)||W||*=γ||W(N)||*(1)6G. Hu等人1 thusf′(·)=1(·)−,sowehave,221∗1其中W(i):= reshape(permute(W,[i,1,. . . ,i-1,i+1。. . ,N]),[Di,Qj¬iDj])是模式i张量展平。这是最简单的定义。鉴于在我们的框架,张量的最后一个轴索引任务,即,DN=T,这是适应基于矩阵的MTL的最直接的方式D1×D2×···×T张量转化为D1D2···×T矩阵.进一步,我们定义了与Tucker秩(由Tucker分解得到)和TT秩(由TensorTrain分解得到)密切相关的两类张量迹范数。塔克||* =||∗= ΣNi=1γi||W(i)||*(2)TT||* =||∗=NΣ−1i=1γ i|| W[i]||*(3)这里W[i]是展开张量的又一种方式,其通过W[i]= reshape(W,[D1D2. . .Di,Di+1,Di+2。. . D N])。注意,与LAF不同,Tucker和TT还鼓励任务内参数共享,例如,在神经网络上下文中跨过滤器共享对于等式1中定义的正则化器,在(1)-(3)中,我们看到张量迹范数被公式化为矩阵迹范数的和。基于梯度的方法通常不用于优化矩阵迹范数。然而,为了在CNN中端到端地应用基于迹范数的正则化,我们希望使用单个基于梯度的优化器(如Tensorflow [1])来优化迹范数和标准CNN损失。因此,我们推导出一个(子)梯度下降法迹范数最小化。我们从迹范数的一个等价定义开始,而不是从和开始的奇异值,W=Trace((W TW)1)=Trace((W T W)1)其中re(·)1∗2 2 2是矩阵的平方根。给定迹函数的微分的性质,Trace(f(A))=f′(AT):A,其中冒号:表示双点(也称为双点)。Frobenius)乘积,即,A:B=痕量(ABT)。在这种情况下,A=WT W,f(·)=(·)222Trace((WT1W)2)=1(WTW)22:(WTW)=W(WTW)12 :W因此我们有W*= W(W TW)−1。在WT W不反相的情况W因此,我们可以类似地推导出W* =(WWT)−1W以避免检查WWT W是否可逆,更重要的是,为了避免矩阵平方根的显式计算,这通常在数值上是不安全的,我们使用以下过程。首先,我们假设W是一个N×P矩阵(N > P),并令W的(全)SVD为W=UΣVT。Σ是一个N×P矩阵,其形式为Σ=[Σ*;0(N-P)×P]。然后我们有W(WT W)−1=UΣVT(VΣ2VT)−1=UΣVTVΣ−1VT2 2∗ ∗=UΣΣ−1VT=U[IP; 0(N−P)?P]VT−−用于细微表情识别的7∗不这表明我们只需要计算截断的SVD,即,W=U Σ V T和W(W T W)−1 =U VT。对于当N P时的情况,我们有∗∗∗2∗∗结果与,(WWT)−1W=(UΣ2UT)−1UΣVT=UΣ−1UT UΣVT2 2∗ ∗=UΣ−1ΣVT=U[IN,0(P−N)×N]VT现在我们有了一个一致同意的公式:W=U VT,我们可以用它来表示梯度∂W∗∗血统. 虽然精确奇异值分解的代价很高,但我们发现一个快速的随机奇异值分解[16]在实践中效果很好。2.3对抗性结构域比对(ADA)在我们的应用中,最小k的数据集(LS_E_M_S_W)与辅助k的数据集(300-W)相关联[ 45]。 这会导致对这两个任务的限制,从而降低MTL的性能。受[14]和[13]的启发,我们建议混淆数据集身份来处理这个问题。我们使用ADA来解决这个问题:一个分类器旨在区分每个任务的特征来自哪个分布(数据集)。如果特征是可区分的,则域移位明显大于如果它们是不可区分的。助理检察官训练他们无法区分。我们假设T≥2个任务(索引为t),每个任务都有自己的数据集{Xt,yt}。任务t由参数化的CNN建模b y Θt={θ(1),θ(2),. . . ,θ(L)},其中L是layers的集合,并且t t t在第L层分成两组通常我们选择l=L−1,即,最后一个当θt={θ(1),θ(2),. . . ,θ(L-1)}。t t t t t t t然后,我们构建了一个多类分类问题,该问题使用由Φ参数化的神经网络来从fΘ*(Xt)(倒数第二层表示)预测数据库身份。令Z为所有任务的堆叠特征,即,Z=[f Θ*(X1)。. . f Θ*(X T)],我们优化t tmaxmin(g Φ([f Θ*(X1). . . f θ(X,T)]),y)(4)Θ...Θ*Φ1T1T其中y是用于指示特征来自哪个分布的独热标签;g Φ是分类器,例如softmax;softmax是交叉熵损失。对于我们的应用程序,我们总共有2个任务,因此它被简化为一个二进制分类问题。对于任务身份预测神经网络,我们使用一个2-隐藏层MLP(多层感知器),具有512(输入特征)-128(隐藏层)-64(隐藏层)-2(分类器)结构。2.4用于深度MTL的在这项研究中,我们基于众所周知的残差网络(ResNet)架构实现了我们的深度MTL [17]。我们使用紧凑的34层ResNet,其中有33个卷积层和1个完全连接层,详见[17]。我们对卷积层的所有33个可共享卷积层的权重执行迹范数8G. Hu等人堆叠的网络。此外,原始的34层ResNet在损失层之前有一个7× 7的全局平均池,适应224× 224的输入。为了适应我们的96× 96输入,我们使用3× 3平均池。对抗域对齐在该平均池化的激活(特征图)上执行心理状态识别的分类损失是softmax交叉熵损失,而地标检测的损失是l1回归损失。该架构如图所示。二、图2:我们的深度MTL框架。为了简单起见,诸如池化、relu等层可以被简化。不被电视播放。'a c t i v a t io n ' ∈ R 512 d e n t e t u re m a p a f t e r glo b a v era g e p o l i n g。3大规模微妙的情绪和精神状态在野生(LSEMSW)数据库当一个人对周围环境的所有情感都是低强度的时候,许多人都会选择这种情感。当人们开始感受到某种情绪时,他们通常会表现出微妙的表情微妙的表情识别有许多应用,如心理活动分析和欺骗检测[55]。然而,对细微表情的研究却很少,现有的表情分析技术主要集中在强烈或夸张的表情上。为了推进细微表情分析的研究,我们收集了新的LSEMSW数据库。收集和标注LSEMSW从《生活大爆炸》、《哈利波特》、《权力的游戏》等200多部电影和电视剧中收集。对于每个视频/剪辑,我们选择每5帧中的第一帧。然后使用MTCNN [60]对所选帧进行这些包含人脸的图像是在9个月内通过Amazon Mechanical Turk手动注释的。为了实现准确的注释,我们为注释者提供了详细的说明,并使用Amazon MT Master服务根据其历史性能选择性能良好的可靠注释者每个图像都被分配微量迹线规范33转化层激活softmaxreg. 损失规范ADA用于细微表情识别的93名工人进行注释。在注释期间,框架上的副标题(如果可用)将显示,以帮助工作人员做出决定。只有当两个以上的工作者同意注释时,注释才被接受。具有强烈表情的图像被手动过滤。我们的数据库的更多细节显示在表1和表2以及补充材料中。表1:属性分布。性别男性64.1%女性35.9%表2:表达分布。表达式#图像表达式#图像孩子百分之一点五年龄年轻百分之五十五点九成人百分之四十二点六黑色百分之一点三白色百分之三十一点九种族亚洲人百分之六十六点二混合百分之零点六与现有数据库的比较我们在表3中将LSEMSW与现有的众所周知的表情/情感数据库进行比较。我们可以看到,我们的LSEMSW是唯一一个具有微妙表达而不是强烈表达的。虽然这项研究的重点是微妙的表情识别,从LSEMSW学到的在尺寸方面,LSEMSW比EmotioNet [11]和AffectNet [37]小。然而,虽然EmotioNet [11]包含100万个图像,但只有50K被手动注释,并且剩余图像的标签由算法[4]嘈杂地预测因此,我们的数据库是第二大的手动表达式注释。它是唯一具有认知状态注释的数据库。4实验4.1数据库和设置我们探索两种类型的表情识别:(1)细微表达识别和(2)传统(非细微)表达识别(TNER)。对于(1),我们的LSEMSW数据库用于评估。具体地,根据以下比率将数据库划分为训练集、验证集和测试集:80%,10%和10%。报告了测试集上的秩1识别率。对于(2),我们探索了如何将从LSEMSW学 习到 的 表征 转移 到 TNER。 具体 地 说, 我 们通 过 从用LSEMSW训练的微妙表达网络进行微调来训练TNER网络我们使用两个众所周知的TNER数据库,Oulu-Casia NIR Vis(OCNV)面部表情数据库[62]和扩展的Cohn-Kanade数据库(CK+)[29]进行评估。OCNV包含在3种光照下拍摄的480个序列:暗、强和弱。在[9]之后,我们使用VIS视频,快乐22,378惊讶13,712焦虑11,776傲慢11,240伤心10,392思维31,645害怕12,190无奈10,699生气9,014可疑12,666犹豫7,365质疑10,288无动于衷12,314总175,67910G. Hu等人表3:手动注释的面部表情数据库的比较。数据库表达强度表达类型#表达图像数量环境JAFFE [32]强情绪7213控制SFEW [7]强情绪7663不受控DISFA [34]强情绪74,845控制FER2013 [15]强情绪736K不受控RAF-DB [23]强情绪1830K不受控[第11话]强情绪16 50K(950K)1不受控[37]第三十七话强情绪7 450K(1M)2不受控LSEMSW微妙情绪认知状态13 176K不受控150K图像被手动标注,950K图像的标签由算法[4]预测。2450K的1M图像被手动注释有情绪、效价和唤醒。强光照明(80个身份和6个表情)。每个图像序列从中性变化使用最后三个帧(最强表达)。10-如[9]进行折叠交叉验证。另一方面,CK+包括123个主题的593个视频序列。受试者显示7个基本(非微妙)的表达在不同的序列。我们只使用序列的最后一个(最强)帧在[23]之后,进行5倍交叉在训练过程中,我们发现非常重要的数据增强(翻转,裁剪,旋转)被执行。我们使用OCNV和CK+的增强训练图像对LSEMSW预训练网络进行微调,并在这两个数据库的测试图像上评估性能。除非明确指定,否则报告任务(1)的评估。面部标志我们使用68点注释[46]进行标志检测。我们的训练集由300Faces In-the-Wild Chal- lenge(300-W)[46]和Menpo基准[59]的训练图像组成。使用MTCNN进行[60] 在原始训练图像上执行。检测到的边界框扩展的比例为0.2,旨在覆盖整个面部区域。由于训练图像有限,数据论证是重要的。检测到的面被翻转、旋转(-30◦,30◦),并通过平移和缩放(0.8,1.2)进行干扰。在训练期间,地标坐标被归一化为(0,1)。在[52,18]之后,测试集包含3个部分:常见子集(554张图像)、挑战子集(135张图像)和全集(689张图像)。如果没有明确规定,我们将报告完整的结果。在[52,18]之后,我们使用归一化的平均误差(估计的地标和地面实况之间的距离,由瞳孔间距离归一化)来评估结果。我们的端到端深度MTL框架在TensorFlow中实现[1]。用于精神状态识别的训练图像被对齐并裁剪为96× 96。类似地,将用于地标检测的图像的大小调整为96× 96,并按照[43]对地标坐标进行白化。通过水平翻转、旋转、缩放、移位和添加高斯噪声来增强地标检测数据[12]。只有水平翻转用于emo-用于细微表情识别的11ResNet-1ResNet-10ResNet-20ResNet-30初始化Para10.90.9 0.80.80.70.70.60.60.50.50.40.40 6 12 18 24 30 3642时代0.31357911131517192123252729313335层索引(a) 针对时期的(b) 优化后的TNDR(c)2个测试集的特征分布图3:跟踪范数和ADA分析:在(a)网络优化期间和(b)网络优化之后的跟踪范数变化。有和没有ADA的特征分布(c)。动作识别两个网络的学习率都设置为0.01,批量大小都为256。4.2结果为了分析学习的共享策略,我们将跟踪范数下降率(TNDR)定义为优化参数的范数。TNDR越小,一个卷积层共享的知识越多以ResNet+LAF为例,研究了迹范数优化的性质.图3a示出了TNDR随网络优化时期而减小。选取第1、10、20、30层LAF迹范数进行分析。显然,第一层LAF比其他层降低得更显著,这意味着在第一层中共享更多的知识这与较低层捕获更广泛有用的低级特征的常见直觉一致图图3b示出了学习之后所有层的TNDR我们观察到:(i)如预期的,在较早层处,总体TNDR较小(信息共享较大)然而,这种趋势是连续的而不是不连续的,支持连续变化的软共享的价值,而不是离散的全有或全无的分叉。令人惊讶的是,(ii)在每个残差块内,TNDR在较高层处减小(共享较少) 通过学习参数共享,我们的方法发现了一个令人惊讶的策略-与ResNet块架构相关-人类工程师不太可能尝试过。与其他深度MTL方法的比较传统的深度MTL方法使用具有和确定的指定的“hard”层共享,其中通常确定哪些层是共享的,哪些层不是共享的。为了对比手动方法,我们比较了4种预定义的架构:34层ResNets,其中第一个{6,14,26,32}卷积层是共享的,其余的是特定于任务的。 这些增量被选择为对应于[17]中的4个残差单元/块。从表4中,我们看到我们的自动软共享(没有ADA)工作得比“hard d”的在bot h t中作为k s的共享好得多。 其中,前6层共享的R e s Ne t(6)最好。这种相当有限的共享效果最好的事实意味着两个任务之间的跨数据集域转移很强,进一步说TNDRTNDR12G. Hu等人表4:使用34层ResNet的LSEMSW上的精神状态识别的准确度(%)。RN(#)表示标准MTL基线中共享层的数量单个任务我们的软分享硬共享横[36]第三十六话RNLAF Tucker TTRN(6)RN(14)RN(26)RN(32)RN无ADA28.3933.43 33.39 33.41 30.0728.1126.9024.6930.96ADA-36.72 36.51 36.64 33.9731.9530.5828.18-激励我们的解决方案用于域不变特征学习。我们还使用相同的R esNet实现了ReedepMTLmethod' c r os t it c h M T L' [ 36]。从表4中,我们可以看到我们的MTL存储资源已被删除。这是因为我们的跟踪规范为基础的策略提供了更细粒度的控制信息共享相比,离散的排名设置。跟踪范数比较这项工作的一个关键贡献是通过跟踪范数共享多任务参数 。 在 这里 , 我 们 比 较了 在 2.2节 中 引入 的 三 个 迹 范数 (LAF ,Tucker,TT),没有ADA。基线单任务方法是没有任何参数共享的34层ResNet从表4中的结果,我们可以看到我们的MTL方法(LAF,Tucker,TT)的表现明显优于单任务学习。具体来说,对于精神状态识别,LAF,Tucker和TT实现了约33.4%的识别准确率,而单任务学习的识别准确率为28.39%。对于地标检测,LAF,Tucker和TT将单个任务的平均错误率降低了约7%。三个迹规范实现非常相似的性能。这意味着我们的策略对范数/因子分解的类型不是很敏感。TT和Tucker与LAF的类似性能还意味着在帧处跨滤波器进行压缩没有太多增益,因为在帧处进行压缩对于金属状态识别而言不太重要因此,我们选择最简单的LAF进行后续比较。对抗性领域对齐我们提出了ADA,以减少来自任 务 的 训 练 集 之 间 的 领 域 偏 移 。 如 表 4 所 示 , 我 们 的 方 法ResNet+LAF+ADA实现了36.72%的心理状态识别准确率和4.64%的地标检测平均错误率,与ResNet+LAF(33.43%,4.67%)相比,显示了ADA的有效性。为了进一步研究ADA的作用,我们使用t-SNE [33]技术可视化数据分布。从图在图3c中,我们比较了使用ADA的两个测试集(精神状态和地标)的特征分布,其中显然,ADA可以有效地解决域移位问题。最后,我们将其与现有技术(SoA)方法进行比较。历史上缺乏大的训练数据,这意味着大多数现有的表情/情感识别方法使用手工制作的特征,例如LPQ [6],LBP [47],EOH [35]。最近的一项研究[40]经验表明,深度学习方法(AlexNet,VGGNet,ResNet)是有效的。因此,我们将所提出的方法与所有这些网络进行比较。由于细微表情识别非常具有挑战性,因此手工特征(LPQ、LBP和EOH)没有实现有希望的性能。从表5中,我们可以看到用于细微表情识别的13EOH [35]是最好的手工特征,因为EOH捕获空间和纹理信息,而LBP和LPQ仅捕获纹理信息。然而,深度学习方法比手工制作的特征工作得更好,因为深度特征是端到端训练的,以捕捉微妙的面部 变 化 。 我 们 提 出 的 ResNet+LAF+ADA 方 法 整 体 表 现 最 好ResNet+LAF+ADA算法相对于ResNet算法的优越性表明了MTL策略(LAF)和域对齐策略(ADA)的有效性。表5:LSEMSW上的SoA方法的比较方法累积(%)表6:300-W数据库上的标志检测的错误率(%)。方法通用封装完整手工制作LPQ[6] 10.86子集子集设置特征LBP[47] 10.53TCDCN[61] 4.80 8.60 5.54标志点检测(SoA)面部标志点检测主要用于为我们的主要微妙表情识别任务提供辅助任务。然而,我们也评估地标检测在这里。一些定性结果如图所示。4.图像示出了表情、照明、遮挡和姿势的强烈变化。我们可以看到,我们的方法(ResNet+LAF+ADA)对这些变化非常鲁棒。一些失败案例也示于图4.这些主要是由不同的强变化的组合引起的,例如表情+姿势(行2,列5 - 6)和表情+姿势+照明(行2,列7)。我们还对表6中的SoA方法进行了定量比较。从结果中我们可以看到,我们的方法(RN+LAF+ADA)实现了非常有前途的地标检测性能。具体地,我们在公共子集和全集上实现了第二最佳性能,并且在挑战性子集上实现了最佳性能,示出了我们的方法在各种挑战性场景(诸如强姿势、光照和表情变化)上的鲁棒性4.第一章性能优异的原因在于(1)ResNet强大的非线性建模(回归)能力和(2)LAF和ADA的有效性。表4也支持(1)和(2)我们还比较了地标检测所使用的不同损失函数。从表6中,我们可以看到l1损耗比l2损耗实现更好的性能。传统(非微妙)研究将从LSEMSW学到的知识转移到TNER是有趣的。我们使用Oulu-Casia NIR Vis(OCNV)[62]和CK+ [29]面部表情数据库的增强训练图像以及用于多任务学习的300-W来微调LSEMSW预训练网络。从表7中的结果,我们可以得出以下结论:(i)来自LSEMSW作品的微调EOH [35]13.47TSR [30]4.367.564.99AlexNet [40,22]26.77RAR [57]4.128.354.94深VGGNet [40,49]28.07MSLPR [18]3.837.464.54学习RN28.39我们的(l2损失)4.097.514.76RN+LAF+ADA36.72我们的(l1损失)3.997.284.6414G. Hu等人图4:地标检测的样本:具有表情(第1行,第1-2栏)、幻觉(第1行,第3-4栏)、遮挡(第1行,第5-6栏)、姿势(第2行,第1-3栏)和失败的面部病例(第2行,第4-6列)表7:与传统非微妙表达识别的现有技术的比较。(FT)指示来自LSEMSW的微调(S)是指从头开始训练OCNV数据库方法eAcc.(%)CK+数据库方法eAcc.(%)LOMO [48]82.1FP+SAE [31]91.1PPDN [63]84.6AUDN [26]93.7FN2EN [9]87.7英国皇家空军[23]95.8RN(FT)82.9RN(FT)93.2RN+LAF(FT)85.8RN+LAF(FT)95.3RN+LAF+ADA(FT)87.1RN+LAF+ADA(FT)96.4RN+LAF+ADA(S)76.0RN+LAF+ADA(S)86.3比从零开始训练要好得多:87.1% vs 76.0%,96.4% vs 86.3%,从而证实了其作为表征学习数据来源的益处,即使最终目标是TNER。(ii)我们 基 于 LAF 和 ADA 的 MTL 也 有 益 于 该 TNER 任 务 ( RN+LAF+ADA(FT)对RN(FT)在OCNV上的得分为87.1%对82.9%,在CK+上的得分为96.4%对93.2%),以及细微的表达识别。(iii)在与现有技术的比较方面,我们通过我们的软MTL方法和来自LSEMSW的微调(尽管它仅包含微妙的表达式)实现了非常有竞争力的TNER性能。我们的RN+LAF+ADA(FT)在CK+上实现了最先进的性能,在OCNV上实现了第二好的性能。5结论总之,我们贡献了一个大型的新数据库,以推进深度学习时代的微妙表达识别提出了一种基于迹范数的MTL大量的实验验证了所提出方法的有效性。用于细微表情识别的15引用1. Abadi,M.,Agarwal,A.,Barham等人:Tensorflow:异构系统上的大规模机器学习,2015年。可从tensorflow.org2. Argyriou,A.,Evgeniou,T.,Pontil,M.:凸多任务特征学习。02 The Dog(2008)3. Bakker,B.,Heskes,T.:贝叶斯多任务学习中的任务聚类与选通。J〇urnalofMachineLearningReserch4,834. 贝尼特斯-基罗斯,C.F.,斯里尼瓦桑河冯,Q,王玉,Martinez,A.M.:情绪挑战:野外情绪面部表情的识别。arXiv预印本arXiv:1703.01210(2017)5. 卡鲁阿纳河:多任务学习。上一篇:学会学习03 The Dog(1998)6. Dhall,A.,Asthana,A.,Goecke河Gedeon,T.:基于phog和lpq特征的情感识别。在:自动人脸手势识别和研讨会(FG)(2011)7. Dhall,A.,Goecke河Lucey,S.,Gedeon,T.:恶劣条件下的静态面部表情分析:数据,评估协议和基准。在:ICCV研讨会(2011)8. Dhall,A.,Goecke河Lucey,S.,Gedeon,T.:从电影中收集大型的、注释丰富的面部表情数据库。IEEE MultiMedia19(3),0034(2012)9. 丁,H.,Zhou,S.K.,切拉帕河:Facenet2expnet:正则化用于表情识别的深度人脸识别网络。在:FG(2017)10. E vgeniou,T., Pontil,M. :Regularizedmulti- t a s k l e a rn i n g. 02TheDog(2004)11. Fabian Benitez-Quiroz,C.,斯里尼瓦桑河Martinez,A.M.:Emotionet:一个准确的,实时的算法,用于自动注释100万个面部表情。 In:CVPR. pp.556212. Feng,Z.H.,Kittler,J.,圣诞节,W,Huber,P.,Wu,X.J.:利用训练数据增强和模糊集样本加权的动态注意力控制级联形状回归。arXiv预印本arXiv:1611.05396(2016)13. Ganin,Y.,Lempitsky,V.S.:通过反向传播的无监督域自适应In:ICML(2015)14. 古德费洛岛Pouget-Abadie,J.Mirza,M.,徐,B.,沃德-法利,D.,Ozair , S. , Courville , A. Bengio , Y. : 生 成 性 对 抗 网 。 在 : NIPS(2014)15. Goodfellow,I.J. Erhan,e.a.:表征学习的挑战:关于三个机器学习
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功