TransFER模型：使用Transformers进行人脸表情识别

12 浏览量更新于2023-10-13 收藏 858KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3601TransFER：使用Transformers薛芳蕾1，2*，王强昌3*，顾国栋4，5，3†1中国科学院大学，中国2空间利用重点实验室，中国科学院空间利用技术与工程中心，北京3西弗吉尼亚大学，摩根敦，美国4百度研究院深度学习研究所，北京，中国5深度学习技术及应用国家工程实验室，北京，中国网址：xuefanglei19@mails.ucas.ac.cn，qw0007@mix.wvu.edu，网址：www.example.com，guoguodong01@baidu.com摘要人脸表情识别（FER）是计算机视觉领域的研究热点之一我们提出了一个可以学习到丰富的关系感知局部表示的trans-FER模型。它主要由三个组件组成：多注意力丢弃（MAD）、ViT-FER和多头自注意力丢弃（MSAD）。首先，局部块在区分各种表达式中起着重要的作用，然而，很少有现有的工作可以定位有区别的和多样的局部块。当某些面片由于姿势变化或视点更改而不可见时，这可能会导致严重的问题。为了解决这个问题，MAD被提议随机丢弃注意力图。因此，模型被推到探索不同的局部补丁自适应。其次，为了在不同的局部块之间建立丰富的关系，在FER中使用视觉变换器（ViT），称为ViT-FER。由于使用全局范围来增强每个局部补丁，因此获得更好的表示以提高FER性能。第三，多头自注意允许ViT共同关注来自不同位置的不同信息子空间的特征。然而，如果没有明确的指导，多重自我关注可能会提取出类似的关系。为了解决这个问题，提出了MSAD随机丢弃一个自我注意模块。因此，模型被迫学习不同的本地补丁之间的丰富关系。我们提出的TransFER模型优于国家的最先进的方法在几个FER基准，显示其有效性和实用性。*前两位作者贡献相当。这项工作是在薛芳蕾和王强昌在IDL，百度研究院实习†通讯作者图1.注意力可视化[5]在两个示例图像上：惊讶（第1行）和愤怒（第2行）。第1列：原始图像。第2列：我们的ViT-FER模型的注意力可视化。第3列：TransFER模型的注意力可视化。1. 介绍在过去的几十年中，面部表情识别（FER）在计算机视觉研究界引起了越来越大的兴趣，因为它对于使计算机理解人类情感并与人类交互非常重要尽管FER最近取得了优异的性能，但FER仍然是一项具有挑战性的任务，主要原因有两个：1) 大类间相似性。来自不同类的表达式可能仅表现出一些微小的差异。如示于图1、惊讶（第一行）和愤怒（第二行）有着相似的嘴型。区分它们的关键线索在于双眼和双眼之间的区域; 2）小类内相似性。属于同一类的表达可能会有显着不同的外观，不同的种族，性别，年龄和文化背景。现有工程可分为两类：以全球为基础和以地方为基础的办法。对于前者，3602提出了许多损失函数来增强特征的表示能力[18，11]。然而，由于这些方法采用全局人脸图像作为输入，它们可能会忽略一些关键的面部区域，这些区域将在区分不同的表情类中发挥重要作用。为了克服这个问题，提出了许多基于局部的方法来学习来自不同面部部分的区别性特征，这些面部部分可以分为两个子类别：基于地标和基于注意力的方法。[30，15，31]在地标周围裁剪的面部部分上提取特征。然而，存在几个问题：1）预定义的面部裁剪对于描述可能因不同图像而变化的局部细节可能不灵活。这是因为重要的面部部分可能出现在不同的位置处，特别是对于具有姿势变化或视点变化的面部;2）对于受各种挑战性因素（诸如强照明变化、大姿势变化和严重遮挡）影响的面部，面部标志检测可能不准确因此，有必要捕捉重要的面部部位，压制无用的部位。为了实现上述目标，[19，28]应用了注意力机制。然而，它们可能在相似的面部部位周围具有冗余的响应，而忽略了在FER中起重要作用的其他潜在的辨别性部位这个问题对于具有遮挡或大姿势变化的面部尤其严重，其中一些面部部分不可见。因此，应该提取不同的局部表示来对不同的表达进行分类。因此，即使某些斑块不可见，更多样化的局部斑块也可以做出贡献。同时，不同的局部块可以彼此互补。例如，如图所示。1，仅根据嘴部区域（列2）很难区分惊讶（行1）和愤怒（行2）。我们的TransFER模型探索了不同的关系感知面部部分，如眼睛（第3列，第1行）和眉毛之间的区域（第3列，第2行），这有助于区分这些不同的表情。因此，应该在全局范围内探索不同局部斑块之间的关系，突出重要的斑块并抑制无用的斑块。为了实现上述两个目标，我们提出了Trans- FER模型来学习FER的各种关系感知的本地首先，提出了多注意力丢弃（MAD）来随机丢弃注意力图。以这样一种方法，模型被推到探索除了最具区分性的局部块之外的全面的局部块，自适应地聚焦于不同的局部块。这是特别有用的，如果某些部分是不可见的，由于姿态变化或闭塞。第二，Vision Transformer（ViT）[10]适用于FER，称为ViT-FER，以模拟多个局部补丁之间的连接由于采用了全局域来约束每个局部块，充分利用了多个局部块之间的互补性，提高了对局部块的识别能力。性能。第三，多头自注意允许ViT共同关注来自不同位置的不同信息子空间的特征。然而，由于没有明确的指导，因此可以建立冗余关系。为了解决这个问题，提出了多头自注意力丢弃（MSAD）以随机丢弃一个自注意力。以这种方式，如果一个自我注意力被丢弃，模型就被迫从其他模型中学习有用的关系因此，丰富的关系，不同的局部补丁之间的探索，以有利于FER。结合新的MAD和MSAD模块，我们提出了最终的架构，称为TransFER。如图2所示。在图1中，与ViT-FER基线（列2）相比，TransFER定位更多样化的关系感知局部表示（列3），从而区分这些不同的表达。它在多个FER基准测试中达到了最先进的性能，显示了它的有效性。这项工作的贡献可以总结如下：1. 我们应用ViT自适应地描述不同面部部位之间的关系，称为ViT-FER，显示它们对FER的有效性。据我们所知，这是第一次努力探索变压器和调查的重要性，关系感知的本地补丁FER。2. 引入了一种多头自注意丢弃算法（MSAD），随机删除自注意模块，迫使模型学习不同局部块之间丰富的关系。3. 多注意力丢弃（MAD）被设计为擦除注意力地图，推动模型从最具辨别力的部分之外的每个面部部分提取全面的局部信息4. 几个具有挑战性的数据集上的实验结果表明，我们提出的TransFER模型的有效性和实用性。2. 相关工作在这一节中，面部表情识别，变压器，正则化方法的相关工作进行了简要回顾。2.1. 人脸表情识别人脸表情识别（FER）在过去的几十年里一直是一个活跃的研究领域。传统上，手工制作的特征被开发来描述不同的面部表情，例如LBP [22]，HOG [7]和SIFT [21]。然而，这些特征在一些具有挑战性的场景下缺乏泛化能力，例如较差的光照条件。最近，深度学习极大地改善了FER研究。在[18，11]中设计了损失函数以增强表达特征的区分能力。每个ROI在[19]中通过计算权重的门单元进行加权3603NNNNNNNNN×图2.我们的TransFER模型的整体架构。首先，面部图像首先被馈送到干CNN中以提取特征图。其次，特征图然后通过本地CNN来定位不同的有用特征区域。第三，使用11卷积和整形操作来将特征映射投影到特征向量序列，所述特征向量序列可以直接输入到MSAD（Transformer编码器中的MAD）中，其中探索这些局部块之间的关系。附加MLP头以生成最终分类结果。MAD引导多个本地分支定位不同的本地补丁。MSAD推动多头自我注意，以探索不同局部斑块之间的丰富关系。从该地区本身。在[28]中提出了一种区域注意力网络，以自适应地捕获面部区域对于遮挡和姿态变化FER的重要性。不同的是，在[17]中提出了一种新的自适应损失来重新加权类别重要性系数，从而减轻不平衡的类别分布。此外，一些作品[27，6]解决了FER中的标签不确定性在我们的方法中，一个机制，anism的目的是找到不同的本地补丁。此外，不同的本地补丁之间的关系，这是第一次尝试FER，尽我们所知。2.2. 计算机视觉中的变压器最近，变压器[26]被应用于解决计算机视觉问题[4，10，25]。端到端对象检测方法利用Transformer解码器[4]推断对象的位置。最近，Vision Transformer（ViT）[10]将图像视为图像分类的补丁序列。在大规模数据集上进行预训练，获得了具有竞争力的性能。在不需要大规模训练数据的情况下，DeiT [25]可以使用教师-学生策略来加速训练。在我们的工作中，这是第一次尝试探索变压器的FER，尽我们所知。此外，这也是第一次努力表明当地斑块之间的关系对FER的重要性。2.3. 正则化方法过拟合是深度神经网络中的一个重要问题Dropout[23]随机将完全连接的层，从而缓解过拟合问题。尽管其有效性，但在卷积运算中效果较差这是因为特征在CNN中是空间相关的。为了解决这一挑战，提出了Cutout [9]来随机擦除输入图像中的连续区域。DropBlock [12]通过在每个特征图上应用Cutout来进一步改进Cutout。我们提出了MSAD有效地规范变压器，探索丰富的关系，不同的地方补丁之间。3. 转移我们的方法的整体架构如图2所示，主要由主干CNN、局部CNN和多头自注意力丢弃（MSAD）组成。干CNN用于提取特征图。IR-50[8]具有很好的推广性。如上所述，由于不同情绪之间的小的类间差异，因此非常期望提取不同的局部块。为了实现这一目标，设计了多注意力丢弃（MAD）以随机丢弃面部部分。以这种方式，鼓励局部CNN中的多个局部分支定位不同的有区别的局部块。在MSAD中，不同的本地补丁之间的丰富的关系被捕获，以提高FER性能。这是通过随机丢弃自我注意模块来实现的。因此，多头自注意力是相互补充的，学习不同的局部补丁之间的丰富的有用的关系。更多细节说明如下。LANet多注意力丢弃MLP磁头输出1×1Conv1×1Conv随机设置$t& 分支到0添加规范MLP：原始特征：设置为0添加NormMAD多头自注意×M本地CNN（+职位嵌入+（2Max×1×1Conv重塑…X（）*t（-X）X/MSADLANetLANetLANet干CNN疯……3604∈×∈∈×3.1. 本地CNN如前所述，给定一个面部图像，我们的方法首先使用干CNN来提取特征图。然后，多个空间注意力被用来自动捕获局部补丁。然而，如果没有适当的引导，则不能保证定位全面的有区别的面部部分。如果模型集中在少数有区别的面部部分，当这些部分难以识别或完全遮挡时，FER将遭受性能下降，特别是对于具有大姿态变化或强遮挡的面部为了解决这个问题，开发本地CNN以提取由MAD引导的各种本地特征。框架如图所示。2，主要由三个步骤组成，具体如下。首先，生成多个注意力图。令X Rh×w×c表示输入特征图，其中h、w和c分别表示特征图的高度、宽度和数量由于LANet [29]允许模型自动定位重要的面部部分，因此它用于多个局部分支，如图所示。二、它由两个11卷积层组成。第一个输出c/r特征图，其中r是减少特征图的维度的减少比率，随后是ReLU层以增强非线性。第二层将特征图的数量减少到一个，并通过S形函数生成注意力图，表示为Mi。假设存在B个LANet分支，则注意力映射[M1，M2，…其中M iRh×w×1。第二，MAD迫使多个局部分支来表达多样且有用的面部部分，这将在第3.2节中呈现。一般来说，它将数据的几个分支作为输入，并通过将该分支中的值设置为零（而不改变输入形状）来随机丢弃一个分支因此，MAD将B个注意力图作为输入，随机将一个注意力图设置为零，并输出B个注意力图。第三，将多个注意力图聚合到一起以生成一个注意力图。具体来说，使用逐元素最大化操作来聚合多个注意力图。给定一个特征图[M1，M2，. . .，M_B]，输出M_out可以被公式化如下：M_out（x，y）= max {Ml（x，y），M2（x，y）。. . M B（x，y）}最大运算，随后是与输入特征图的逐元素乘法。3.2. 多注意力丢弃Dropout [23]被提出来防止神经网络过拟合。它将特征向量或特征图作为输入。在训练过程期间，使用来自伯努利分布的样本，以概率p将输入的一些元素随机设置为零。如果存在多于一个通道，则每个通道将独立地归零。受此启发，针对FER任务开发了一种类似dropout的操作，称为多注意力丢弃。与标准Dropout相比，我们提出的MAD采用一组特征图（或向量）作为输入，并将每个特征图视为一个整体。如图中上部所示。2，在训练过程中，从完全设置为零的均匀分布中选择一个特征图。以概率p1执行丢弃操作。在以下图层中，将不会激活已删除的特征贴图。因此，提出了一种类似dropout的停止梯度操作，它可以引导局部CNN探索不同的和有区别的面部部位。因此，可以定位分布良好的面部部分，从而导致全面的局部表示以有益于FER。3.3. 多头自注意力下降为了探索由局部CNN生成的不同局部特征之间的丰富关系，提出了多头自注意力丢弃（MSAD）模块。它主要包括一个Transformer编码器，每个多头自注意模块后面都有MAD注入，以及一个MLP分类头，如视觉变压器（ViT）[10] I don't know.具体情况如下投影在局部CNN之后，生成包含关于不同局部块的信息的特征图Xout Rh×w×c为了捕获多个局部补丁之间的丰富关系，使用了包含多个编码器块的Transformer。然而，由于Transformer首先被提出用于NLP任务，并且采用一系列1D特征向量作为输入。为了适应Transformer，一个projec- tion模块开发转换2D序列输入到1D。哪里1≤ x ≤ w且1 ≤ y ≤ h。（一）如示于图2，首先将1×1卷积层应用于X out，投影到特征图X p∈最后，我们将M乘以原始特征图X使用逐元素产生。因此，原始特征图中的不重要区域被抑制，反之亦然。总而言之，局部CNN能够定位不同的局部块。这是通过使用多个LANet来定位多个区分区域并通过以下方式聚合它们来实现的Rh×w×c2，其中通道数表示为c2。到目前为止，我们没有改变特征图Xp和原始图像之间的高度和宽度关系。因此，每个C21向量可以被认为是输入图像的对应块的表示。因此，我们沿着通道维度对Xp特征图进行切片，并将它们重新排列为特征向量序列x∈R（h·w）×c2，3605∈∈∈K×可以直接输入Transformer编码器在[10]之后，可学习的[类]令牌也被附加到输入向量的序列。并且将标准可学习的1D位置嵌入添加到扩展的向量序列以注入位置信息。Transformer编码器。Transformer编码器[26]由M个编码器块的堆栈组成。每个块由多层的多头自注意（MSA）和多层感知器（MLP）组成，具有跳跃连接，如图的右侧所示。二、附加由单层MLP实现的分类头以执行分类输出。首先，输入XRN×d被线性变换为查询q、键k和值v，如下所示：[q，k，v]= x[wq，wk，wv]，（2）其中wq，wkRd×dk，wvRd×dv.其次，注意力权重计算如下：qkTA= Softmax（√d）。（三）第三，如下计算所有值的加权和：O=平均值（四）MSA并行地运行自注意操作k次，并且线性地嵌入它们的级联输出以形成最终输出。MLP由用于特征投影的两个全连接层和用于非线性的GELU [16MSA被设计成将投影嵌入其各自的空间中。然而，如果没有一个明确的信号，多个自我注意模块往往有冗余的投影，限制了表征能力。为了解决这个问题，我们利用第3.2节中介绍的多注意力丢弃（MAD）来随机丢弃其中一个注意力头，推动模型学习不同局部补丁之间的假设MSA中有k个SA从均匀分布中随机选择一个SA模块，并且将其设置为具有概率P2的零。MAD是在不同的MSA之间进行的，即，同一小批量中的每个样本和不同块中的每个MSA在每次训练迭代中从它们自身的k个SA中随机选择一个SA。这给样本和Trans-former中的不同MSA块带来了足够的随机性。与Dropout类似，MAD仅在训练时间期间执行。但是在推理时间期间，与Dropout不同，MAD由于具有完全连接的层的不同机制而没有重新缩放权重。通过这种方式，鼓励模型学习有用的信息，因为多个自我注意力被推动以相互补充。一般来说，可以选择并丢弃多个SA，但根据我们的观察，同时丢弃两个或更多SA不会提高性能。因此，为了简单起见，我们只考虑丢弃率作为超参数，并且在MAD中仅丢弃一个分支来进行我们所有的实验4. 实验4.1. 数据集RAF-DB [18]是一个真实世界的表达式数据集。它包含29，672个真实世界的面部图像，这些图像由Flickr的图像搜索API收集在实验中，利用RAF-DB中提供的单标记子集。它包含15，339个表情图像，包括六个基本表情（快乐、惊讶、悲伤、愤怒、厌恶、恐惧）和中性表情，其中12，271个用于训练，其余用于测试。报告了测试集的总体准确度FERPlus [3] 是从 FER2013 [ 13 ] 扩展而来的，FER2013 [13]是由Google图像搜索中的API收集的大规模数据集。它包含28，709个训练，3，589个验证和3，589个测试图像。他们用10个标签将数据集重新标记在测试集上报告总体准确度。AffectNet [20]是迄今为止最大的公开可用FER数据集。它包含了三大搜索引擎收集的大约100万张面部图像，其中大约42万张图像被手动注释。按照[17]中的设置，我们使用了280K训练图像和3500个验证图像（每个类别500个图像），其中包含7个情感类别。报告验证集上的平均类别准确度。4.2. 实现细节由于RAF-DB和FERPlus数据集提供了带注释的地标，因此这些地标用于人脸检测和对齐。对于FERPlus数据集，MTCNN [33]用于检测和对齐人脸。所有图像对齐并调整大小为112 × 112像素。在Ms-Celeb-1 M [14]上预先训练，IR-50 [8]被用作干CNN，其中只使用IR-50中的前在ImageNet1，ViT[10] 有八个自我注意的头和一堆M=采用8个相同的编码器层作为Transformer编码器。针对FER中普遍存在的类分布不均衡问题，采用对训练数据进行本地CNN（p1）和MSAD（p2）中MAD的丢弃率被设置为0.6和0.3，用于RAF-DB和MSAD（p2）。1 预先训练的权重从 https://github.com/rwightman/pytorch-image-models/下载。3606×× × ×××表1. RA F-DB和AffectNet上的本地CNN、MAD和MSAD的评价（%）。本地CNNMAD MSAD RAF-DB AffectNet89.93 65.63✓90.0365.74✓ ✓ 90.35 65.94✓ 90.91 66.23表2. RAF-DB上IR-50的不同输出阶段的评价（%）。第二阶段3 4Acc.（%）84.94 90.91 90.32FERPlus和0.2和0.6的影响，分别基于我们的网格搜索。我们的TransFER是用SGD优化器训练的，以最小化交叉熵损失。我们使用的动量为0.9，没有重量衰减，在我们的实验中，小批量大小为256。在训练期间，实时利用数据增强，包括随机旋转和裁剪、随机水平翻转和随机擦除。在测试时，我们只将原始图像的大小调整为112112像素，并将其馈送到模型直接。对于RAF-DB和FERPlus，我们培训40名初始学习率为1 e-3的时期在15和30时期衰减10倍。对于AffectNet，由于其大量的样本，我们训练了20 K次迭代，初始学习率为3e-4，在9.6K和19.2K次迭代中衰减了10倍我们在两个具有32GB RAM的NVIDIA V100GPU上训练我们的模型。4.3. 消融研究拟议单元的有效性。为了验证我们的TransFER模型中提出的模块，消融研究被设计为研究局部CNN、MAD和MSAD对RAF-DB和AffectNet的影响，如表1所示。为了有效地示出结果，使用元组（a，b），其中a和b分别表示RAF-DB和Af-fectNet上的性能基线策略（第一行）意味着没有本地CNN，没有MAD，也没有MSAD。从干CNN提取的特征图直接馈送到标准Transformer编码器中，而无需MAD或MSAD的任何指导。与基线相比，局部CNN的性能略有提高（0. 1%、0. 11%），但在添加MAD后获得显著改善（0。42%，0. 30%）。据推测，多个局域网不能产生不同的注意力地图，没有额外的监督。MAD通过在训练过程中随机丢弃一个LANet分支来实现这一点，引导局部CNN探索更多可识别的特征区域。MSAD进一步提高了性能，实现了图3. RAF-DB上局部CNN中分支数（B的最先进的性能（90. 91%，66。23%），提高了（0.56%，0. 29%）。我们认为，这是由于多重自我注意力相互补充，学习全面和有用的表征。确定主干CNN深度。我们知道，对于CNN网络，较深的层产生更多的高层和语义信息，而较浅的层包含更多的纹理和细节信息。对于我们提出的框架，我们既需要本地CNN的语义信息来定位更精确的位置，也需要将详细信息馈送到MSAD中以进行进一步提取。因此，我们设计了这个烧蚀研究，以确定哪个阶段的IR-50是最好的FER任务。与ResNet-50一样，IR-50有四个阶段，每个阶段由两个卷积层和一个最大池化层组成，以使特征图大小增加四分之一。由于输入图像的大小为112 112，因此四个阶段中的输出特征大小为56 56，28 28，14 14，77，分别。第一阶段输出的特征图尺寸非常大，使得后续模块的参数太多，因此我们只研究阶段2到4。根据表2中的结果，阶段3实现了90.91%的最佳性能，而阶段4给出了相当的性能（90.32%），但具有更多的参数。第二阶段的表现要差得多，仅达到84.94%，证明LANet不能很好地定位语义特征。局部CNN中的B的评估。正如我们在3.1节中所描述的，B表示局部CNN中的局部分支的数量。为了探索分支数B的影响，我们在RAF-DB上评估从0到8的B，其他参数作为默认值。评价结果如图3所示。随着B的增加，性能首先增加，并在B=5后开始下降。当B设置为2时，可获得最佳性能（90.91%）。小B使得TransFER难以定位3607表3.RAF-DB上MAD（p1）和MSAD（p2）中不同脱落率的评价p1p2Acc.（%）0.4 0.3 89.280.5 0.389.240.6 0.390.910.7 0.389.890.8 0.389.890.6 0.189.800.6 0.289.830.6 0.390.910.6 0.489.930.6 0.5 89.24重要特征部分，仅达到 89.60% 。大的 B 降低了TransFER的能力，因为更多的分支可能落入具有几乎相同输出的“崩溃解决方案”。AffectNet是一个更困难的数据集，因此B=4时性能最好。MAD和MSAD中的脱落率评价评估-在RAF-DB上设计了不同丢包率的实验，评估了MAD和MSAD中丢包率的影响De- notep1，p2作为MAD和MSAD中的丢弃率，它们默认设置为0.6和0.3。如表3所示，小的和大的p1、p2值都会降低模型性能。当p2设为0.3时，p1从0.4变化到0.8，性能先从89.28提高到90.91%，然后又降回89.89%。当p1固定为0.6时，在p2当p2设置为0.3时，性能首先从89.80%增加到90.91%，并且随着p2继续增加而降低回到在MSAD中有八个自我注意头，而MAD只有两个LANet分支。最佳p2值小于p1值指示MSAD中的自我注意可以在RAF-DB上更有效地抓住重要区域。MAD、Dropout、Drop Block和Spatial Dropout之间的比较首先，从形式上讲，MAD接受一组注意力地图作为输入，随机选择一个并丢弃整个选择的地图。这就是为什么我们称之为自我注意力下降的原因相比之下，Dropout [23]，Drop Block [12]和Spatial Dropout [24]直接应用于特征图。Dropout平等对待所有输入并将其丢弃， Drop Block 在连续区域中丢弃单元， SpatialDropout丢弃整个通道。它们都独立地执行元素或通道方式，这不适合具有多个注意力图的输入情况。为了验证我们的假设，我们用这些方法和我们提出的MAD在RAF-DB和AffectNet上进行了实验其他超参数是默认值，如4.1所述。我们用这些方法替换MAD，并执行表 4. 比较我们的 MAD 、 Dropout 、 Drop Block 和 S PaticalDropout。数据集MADDropoutDrop Spatial数据块丢失RAF-DB百分之九十点九一90.3590.25%百分之八十九点九九AffectNet66.23%66.0666.03%65.54%网格搜索以找到最佳超参数。每种方法的最佳结果如表1所示。4.第一章对于RAF-DB和AffectNet，Dropout分别在丢弃率为0和0.1的情况下实现最佳性能我们还发现，在丢弃率为0.6的情况下，该模型似乎在RAF-DB上不起作用（39.05%），但在AffectNet上实现了相当的性能（65.51%）。这可能是因为AffectNet包含更多的训练数据，因此模型可以从更多样化的情况中学习在RAF-DB和AffectNet上，以0.3的丢弃率实现丢弃块的最佳结果，并且块大小分别为7和9对于两个数据集，Spatial Dropout的最佳丢弃率均为0.2我们的MAD实现了最好的性能，我们相信这是因为其他方法独立地执行丢弃。这适用于特征图，因为通道数很大，但不适用于我们的情况下分支很少的注意力图。表5.与RAF-DB和AffectNet上最先进方法的性能比较（%）。方法RAF-DB AffectNetDLP-CNN [18]80.8954.47GACNN [19]85.0758.78IPA2LT[32]86.7755.71[28]第二十八话86.9052.97CovPool [1]87.00-SCN [27]87.0360.23DACL [11]87.7865.20KTN [17] 88.07 63.97TransFER（Ours）90.91 66.234.4. 与最新技术表5将我们的最佳结果与RAF-DB和AffectNet上的最新方法进行了比较。RAF-DB是最新的面部表情数据集，据我们所知，我们提出的TransFER是第一个在该数据集上实现90%以上准确度的模型，比KTN [17]好2.84%，这是之前报道的最佳结果AffectNet是最大的面部表情数据集，这是一个非常具有挑战性的数据集。KTN [17]在RAF-DB中实现了第二好的性能，比之前在AffectNet上报告的最佳结果低1.23%。我们提出的方法优于以前的最佳结果（DACL）的1.03%。表6比较了我们的TransFER与FERPlus上最先进方法的性能可以看出3608表6.与F ERPlus上最先进方法的性能比较（%）。TransFER（Ours）90.83我们的方法达到了90.83%的最佳准确度。SCN [27]和KTN [17]通过应用平凡损失函数实现了所报告的性能，而我们仅使用标准CE损失实现了更好的性能4.5. 注意力可视化为了进一步研究我们方法的有效性，我们采用方法[5]来可视化由TransFER生成的注意力地图。具体来说，我们首先将可视化注意力图的大小重新调整为与输入图像相同的大小，并通过COL-ORMAP JET颜色映射到原始图像来可视化注意力图。图4显示了不同情绪的注意力地图，（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）方法FERPlusPLD [3]85.10[28]第二十八话88.55SeNet50 [2]88.80[28]第二十八话89.16SCN [27]89.35KTN [17]90.493609（Ⅰ）（Ⅱ）（Ⅲ）（Ⅳ）AffectNet.该图有七行，每行显示七个表达类别中的一个。从上到下，类别是愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。第一列示出了原始对齐的面部图像，并且第二列至第五列示出了表1中列出的四种训练策略的结果：（I）基线策略;（II）添加多个LANet以生成多个注意力图，但没有MAD来引导;（III）具有多个LANet和MAD两者;（IV）整个体系结构，包括多个局域网、MAD和MSAD。首先，比较不同的列（培训策略）：与基线（I）相比，局部CNN（II）可以定位更多潜在的感兴趣区域，并且局部CNN（III）中的MAD和MSAD（IV）通过探索更多感兴趣区域（例如，(a)，（b）在（III）中）和约束较少分割区域（例如，(c)在（IV）中）。其次，比较不同的行（情绪）：一般认为，嘴、鼻子和眼睛是区分不同情绪的最有用的区域。但正如[17]中所讨论的，由于不同情绪的高度相似性，即使对于不同的情绪，这些区域也可能非常相似。例如，恐惧（c）、快乐（d）和惊喜（g）通常是张着嘴的，因此探索其他面部区域以区分不同的情绪更为重要。我们提出的MSAD通过限制（c）（IV）中嘴部区域的激活并与（III）相比探索（g）（IV）中的其他有用区域来解决这个问题。图4.来自AffectNet数据集的一些示例人脸图像上的不同表情的注意力可视化[5]。(a)- （g）分别记下愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。（I）-（IV）表示表中的四种训练策略1、(I)表示基线策略，（II）表示使用本地CNN但没有MAD的训练，（III）表示使用本地CNN和MAD的训练，以及（IV）表示我们提出的TransFER，使用本地CNN和MSAD的训练在应用MAD和MSAD之后，整个框架可以专注于更具区分性的面部区域。5. 结论我们已经提出了一个新的架构的基础上的Trans-former的FER任务，称为TransFER，它可以学习丰富的，不同的关系感知的本地表示。首先，提出了多注意力丢弃（MAD）来引导局部CNN生成不同的局部补丁，使模型对姿势变化或遮挡具有鲁棒性。其次，ViT-FER被应用于在多个局部块上建立丰富的连接，其中重要的面部部分被分配有较高的权重，而无用的面部部分被分配有较小的权重。第三，MSAD已经被提出来探索不同面部部分之间的更丰富的关系。据我们所知，这是第一个利用变压器的FER任务的工作。在三个公共FER数据集上的广泛实验表明，我们的方法优于最先进的方法。3610引用[1] Dinesh Acharya 、 Zhiwu Huang 、 Danda Pani Paudel 和Luc Van Gool。用于面部表情识别的协方差池在IEEE计算机视觉和模式识别研讨会会议论文集，第3677[2] 塞缪尔·阿尔巴尼，阿尔沙·纳格拉尼，安德里亚·维达尔迪，和安德鲁·齐瑟曼.在野外使用跨模态转移的语音中的情感识别第26届ACM国际多媒体会议论文集，第292- 301页，2018年。8[3] Emad Barsoum，Cha Zhang，Cristian Canton Ferrer，andZhengyou Zhang.使用众包标签分发训练用于面部表情识别的深度网络。在第18届ACM多模态交互国际会议论文集，第279-283页，2016年。五、八[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。3[5] 希拉·切佛希尔·古尔和里奥·沃尔夫超越注意力可视化的Transformer 可解释性。 arXiv 预印本 arXiv ：2012.09838，2020。1、8[6] 陈世凯，王建峰，陈跃东，石中超，辛耿，永瑞。用于面部表情识别的辅助标签空间图上的标签分布学习在IEEE/CVF计算机视觉和模式识别会议论文集，第13984-13993页，2020年。3[7] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在2005年IEEE计算机社会计算机视觉和模式识别会议（CVPRIEEE，2005年。2[8] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页三、五[9] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。3[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。二三四五[11] Amir Hossein Farzaneh和Xiaojun Qi。通过深度注意中心丢失的野外面部表情识别在IEEE/CVF计算机视觉应用冬季会议的论文集，第2402-2411页，2021年二、七[12] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock：卷积网络的正则化方法。NeurIPS，2018。三、七[13] Ian J Goodfellow，Dumitru Erhan，Pierre Luc Carrier，Aaron Courville ， Mehdi Mirza ， Ben Hamner ， WillCukierski，Yichuan Tang，David Thaler，Dong-Hyun Lee，等.表征学习的挑战：关于三个机器学习竞赛的报告。神经信息处理国际会议，117-124页。Springer，2013. 5[14] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。欧洲计算机视觉会议，第87-102页。施普林格，2016年。5[15] SL Happy和Aurobinda Routray。基于显著面部斑块特征的面部表情自动识别。IEEE Transactions on AffectiveComputing，6（1）：12[16] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位（gelus）。arXiv预印本arXiv：1606.08415，2016。5[17] Hangyu Li，Nannan Wang，Xinpeng Ding，Xi Yang，and Xinbo Gao.通过cf标签和蒸馏自适应学习面部表情表征。 IEEE Transactions on Image Processing ， 30 ：2016-2028，2021。三五七八[18] Shan Li，Wehong Deng，and Junping Du.可靠的众包和深度本地保留学习，用于野外表情识别。在Proceedingsof the IEEE conference on computer vision and patternrecognition，pages 2852二、五、七[19] Yong Li，Jiabei Zeng，Shigua

下载后可阅读完整内容，剩余1页未读，立即下载