没有合适的资源?快使用搜索试试~ 我知道了~
1一种用于人脸表情相似性的谷歌AIravitejavemu@google.comAseemAgarwalaGoogle AIaseemaa@google.com摘要现有的人脸表情自动分析的研究主要集中在离散情感识别或面部动作单元检测上。然而,面部表情并不总是整齐地落入预定义的语义类别。此外,在动作单元空间中测量的表情之间的相似性不需要对应于人类如何感知表情相似性。与以前的工作不同,我们的目标是描述面部表情在一个连续的时尚使用一个紧凑的嵌入空间,模仿人类的视觉偏好。为了实现这一目标,我们收集了一个大规模的野外人脸数据集,其中包含以下形式的人类注释:与表达式C相比,表达式A和B在视觉上更相似,并使用此数据集来训练神经网络,生成紧凑(16维)的表达式嵌入。我们的实验表明,学习嵌入可以成功地用于各种应用,如表情检索,相册摘要,情感识别。我们还表明,使用建议的数据集学习的嵌入比使用现有的情感或动作单元数据集学习的其他几个嵌入更好1. 介绍自动面部表情分析由于其众多的应用,如情感预测、表情检索(图1)、相册摘要、坦率的肖像选择[14]等,已经受到计算机视觉社区的显著关注。大多数现有工作[32,37]都集中在识别由面部动作编码系统(FACS)定义的离散情感或动作单元上。13]。然而,面部表情并不总是整齐地符合语义框,并且在同一语义类别中的表情可能存在显著变化。例如,微笑可以有许多微妙的变化,从害羞的微笑到紧张的微笑,再到大笑。此外,并非所有人类可识别的面部表情都有名称。一般来说,面部表情的空间可以被看作是一个连续的多维空间。图1:使用建议的数据集(顶部)和现有的情感分类数据集(底部)学习嵌入的表情检索结果。在这项工作中,我们专注于学习一个紧凑的,无语言,主体独立的,和连续的表达嵌入空间,模仿人类的视觉偏好。如果人类认为两个表情在视觉上比第三个表情更相似,那么嵌入空间中这两个表情之间的距离应该小于它们与第三个表情的距离。为了学习这种嵌入,我们收集了一个新的数据集,称为面部表情比较(FEC)数据集,它由使用156K人脸图像生成的大约500K表情三元组组成,以及指定每个三元组中哪两个表情最相似的注释。 据我们所知,这是第一个带有表情比较注释的大规模人脸数据集。该数据集可以从https://ai.google/tools/datasets/google-facial-expression/下载。我们证明了一个紧凑的(16维)表达式嵌入空间可以通过使用三重丢失训练一个深度网络来学习。基于学习的嵌入空间中的距离,我们能够预测三元组中最相似的一对,在保持验证集上进行评估时,准确率为81.8%。在此验证集上,人类评分者的准确率中位数为87.5%,随机选择的准确率为33.3%。我们还表明,使用FEC数据集学习的嵌入比使用现有的情感或动作单元数据集学习的其他几个嵌入效果更好。56835684我们通过实验证明,使用FEC数据集学习的表情嵌入可以成功地用于各种应用,如表情检索,相册摘要和情感识别。1.1. 我们的贡献• 我们介绍了FEC数据集,这是第一个大规模的面部表情比较注释数据集。该数据集现已公开。• 我们通过实验证明,通过训练深度神经元学习的16维表达式嵌入,具有FEC数据集的ral网络可以成功地用于几个基于表达式的应用。• 我们表明,使用FEC数据集学习的嵌入比使用现有情感或动作单元数据集学习的其他几种嵌入表现更好。2. 相关工作在自动面部表情分析领域的大多数现有研究集中在以下三个主题:(一)分类模型:离散情感类别标签,(ii)FACS模型:检测由FACS定义的各种动作单元的存在/不存在(和强度)[13],以及(iii)维度模型:使用二维或三维模型描述情感,例如效价-唤醒[47],愉悦-唤醒-支配[40]等。总结关于这些主题的大量现有研究超出了本文的范围,我们建议读者参考[29,32,37],了解关于这些主题的最新调查。表达式数据集:过去已经创建了几个面部表情数据集,其包括用离散情感类别标 记 的 面 部 图 像 [4,10,11,12、17、18、33、36、42、43、45、56、57],面部动作单位[4,36,38,39,45],和化合价和觉醒[27,29,30,42,46]。 虽然这些数据集在情感识别、动作单元检测和效价-唤醒估计方面,它们在自动面部表情分析的进步中具有重要作用,但它们并不最适合于学习模仿人类视觉偏好的紧凑表情嵌入空间。表达式嵌入:在[41]中,使用情感分类数据集和基于类别标签的三元组损失[48]来训练神经网络,以产生128维嵌入。情感标签不提供关于类内变化的信息,因此用基于标签的三元组训练的网络可能不会编码细粒度的表达信息。所提出的FEC数据集通过包括类内三元组的表达比较注释来解决这个问题。在[28]中提出了一种自我监督的方法,通过观看来视频,并且通过使用标记的训练数据训练附加的分类或回归层,然而,如[28]中所报告的,其性能比这些任务的现有方法更差与[28]不同的是,我们遵循完全监督的方法来学习紧凑(16维)的表达式嵌入。在[5]中使用了一种改进的Lips-chitz嵌入[24],将人脸嵌入到低维空间中进行表情识别。基于三重丢失的表征学习:几个现有的作品已经使用基于三重态的损失函数来学习图像表示。虽然他们中的大多数使用基于类别标签的三元组[15,20,21,34,48,50,53,58],但一些实验工作[6,52]专注于学习细粒度表示。虽然[52]使用了使用几种现有特征表示计算的相似性度量来生成三元组的地面实况注释,[6]使用了基于Google图像搜索的文本-图像相关性来注释三元组。与这些方法不同的是,我们使用人类评分员来注释三胞胎。此外,这些作品都没有关注面部表情。3. 面部表情比较数据集在本节中,我们将介绍FEC数据集,这是一个大规模的人脸数据集,具有由人类评分员提供的表情注释。据我们所知,没有这样的公开可用的表达比较数据集。大多数现有的表情数据集都用情感标签或面部动作单元或效价和唤醒强度进行了注释。有人可能认为我们可以使用可用的情感或动作单元标签为现有数据集生成比较然而,这种方法存在几个问题• 情绪标签不提供类内变异的信息,因此我们无法生成类中的比较注释。例如,虽然图2(a)中的所有表情都属于幸福类别,但与右侧表情相比,左侧和中间的表情在视觉上更相似。这种类内比较对于学习细粒度的表达式表示是重要的。• 由于类内变化和类间相似性,来自同一类别的两个表达式需要当与来自不同类别的表达相比时,视觉上不更相似。例如,虽然图2(b)中的中间和右边的表情属于惊喜类别,但是中间的表情在视觉上更类似于属于愤怒类别的左边的表情。5685幸福幸福幸福(a) 一类三元组愤怒惊喜惊喜(b) 两类三重态幸福愤怒蔑视(c) 三级三重态图2:基于AffectNet [42]数据集中使用的情感标签的不同类型的三元组• 利用标签预测三种不同情感类别表情之间的视觉相似关系是困难的例如,当图2(c)中的三个表情属于三个不同的类别,当与右侧表情相比时,左侧和中间表情在视觉上更相似。这样的比较对于学习可以对不同类别之间的长距离视觉• 目前还不清楚两个表情之间动作单位强度的差异如何转换为模仿视觉偏好的距离函数3.1. 数据集FEC 数 据集 中的 每个 样 本由 面部 图像 三 元组(I1,I2,I3)以及标签L∈ {1,2,3}组成,标签L∈ { 1,2,3 }指示三元组中的哪两个图像在面部表情方面形成最相似的对例如,L=1意味着与I1相比,I2和I3在视觉上更相似。注意,与常用的三元组不同,注释[48,54],这些三元组没有一个合唱团的概念,每个三元组提供两个注释:I2比I 1更接近I3,I3比I 1更接近I2。此外,在该数据集中,图像A可以在一个三元组中(相对)更靠近另一图像B,并且在另一三元组中(相对)更远离同一图像B这与使用类别标签生成的三元组不同[48],其中任何两个图像将在它们出现的所有三元组中形成相似对或不相似对FEC数据集中的三元组是通过从部分标记的1个内部面部数据集中采样图像来生成的,其中每个面部图像具有以下情感标签中的一个或多个[8,9]:娱乐,愤怒,敬畏,无聊,专注,困惑,沉思,蔑视,满足,欲望,失望,厌恶,苦恼,怀疑,兴奋,兴高采烈,尴尬,恐惧,兴趣,爱,中立,痛苦,骄傲,实现,救济,悲伤,羞耻,惊讶,同情和胜利。为了减少类别偏差的影响,我们对图像进行了采样,使得所有这些类别在三元组数据集中(大致)相等地表示。每个三联体由六个人类注释。1该数据集中的图像未被完全标记,即,图像可能不具有适用于它的所有标签。评分员,并且评分员被指示仅关注前一项,而忽略其他因素,如身份、性别、种族、姿势和年龄。总共有40名评分员参与了这个过程,每个人都注释了整个数据集的一个子集。基于现有的情感标签,该数据集中的每个三元组可以分为以下类型之一:• 单类三元组:所有三个图像共享一个类别标签,见图2(a)。这些三元组对于学习细粒度的表达式表示非常有用。• 两类三元组:只有两个图像共享类别标签,第三个图像属于不同的类别,见图2(b)。如第3节所述,我-共享类别标签的年龄不需要在这些三元组中形成(视觉上)最相似的对。• 三类三元组:没有一个图像共享共同的类别标签,见图2(c)。这些三元组对于学习远程视觉相似性关系是有用的。不同类别之间的关系。单类三元组是相对最困难的,因为表达式可能彼此非常接近,而两类三元组是相对最简单的,因为共享标签的图像可能与其余图像不同(尽管不总是)。虽然基于其他标签组合(例如,I1,I2共享一个标签,I2,I3共享另一个标签),但我们在收集数据集时优先考虑上述三种类型,因为其他类型可能会让评分者感到困惑。表1显示了该数据集中的三元组数量以及用于生成三元组的面的数量。该数据集进一步分为训练集(90%)和测试集(10%),我们鼓励该数据集的用户使用训练集来训练他们的算法,并使用测试集来验证它们。注释协议:该数据集中的每个三联体由六名评分员进行注释。对于一个三元组,如果至少有三分之二的评分者投票支持最大投票标签,我们就说他们强烈同意,如果有一个唯一的最大投票标签,并且有一半的评分者投票支持它,我们就说他们弱同意每种类型的这种三联体的数量见表1。2数据集中的图像(我们从中采样人脸)没有被彻底标记,因此,如果图像已经被彻底标记,则基于现有标签被分类为两个/三个类别的三元组的三元组5686图3:基于NN2 FaceNet架构的拟议嵌入网络[48]。在这里,FC代表全连接,L2-Norm层执行102标准化,DenseNet由1×1卷积层(512个过滤器)和一个Dense块[22]组成,该块有5层,增长率为64。分区评核人协议三联型面临单类两舱三级所有训练集强115,544124,665117,540357,749130,516强+弱137,266138,034132,435407,735所有152,674150,234146,235449,143测试集强13,04614,60713,94141,59425,427强+弱15,41115,90815,40446,723所有17,05917,10716,89451,060全数据集强128,590139,272131,481399,343155,943强+弱152,677153,942147,839454,458所有169,733167,341163,129500,203表1:所提出的FEC数据集中的三元组和面的数量。评分者强烈同意约80%的三胞胎,这表明人类对视觉表达相似性有一个明确的概念4. 面部表情嵌入网络在最近的过去,人脸识别系统的性能已经显着提高[1,2,25,44],部分原因是大规模(数百万数据样本)训练数据集的可用性,如MS-Celeb-1 M [19],MegaFace [44],SFC [51]和Google-Face [48]。在这些大规模数据集上训练的神经网络看到的图像在不同的维度上有显著的变化,如光照、姿势、年龄、性别、种族等。在训练期间。与这些大规模的人脸数据集相比,在DenseNet和第一个FC层中使用了激活功能。我们还使用dropout进行正则化。我们的网络的输入是对齐的(旋转以取消滚动变换并缩放以保持55像素的眼间距离)224×224的面部图像I,并且输出是一个单位范数为ε2的d维嵌入e14.1. 三重损失函数为了使用所提出的FEC数据集来训练嵌入网络,我们使用三重损失函数,该函数鼓励形成最相似对的两个图像之间的距离小于这两个图像与第三个图像的距离对于具有最相似对(I1,I2)的三元组(I1,I2,I3),损失函数由下式给出:表达式比较数据集明显较小(仅l(I1,I2,I3)=max(0,I3)-eI2−eI−eI2+δ)1 221 32130K训练面)。因此,为了利用权力+max(0,eI−eI2−eI−eI2+δ),在一个大型训练集上,我们使用[48]中提出的预训练FaceNet构建我们的面部表情嵌入网络,见图3。我们使用预训练的NN2版本FaceNet [48]直到inception(4e)块3,其输出是具有1024个通道的7×7特征图这个fea-1 22其中δ是小的余量。5. 实验2 32(一)真实地图由DenseNet处理,DenseNet由1×1卷积层(512个滤波器),然后是一个密集块[22],有5层4,增长率为64。DenseNet的输出被传递到一个7 ×7的平均池层,然后是一个具有512个隐藏单元的全连接(FC)层以及嵌入层(线性FC层+N2归一化层)。[31]第二十三话:我的世界3我们还对inception 4d,5a和5b块的特征进行了实验,4e块的特征表现最好。4增加更多的层并没有改善结果。在本节中,我们展示了从所提出的FEC数据集学习的表情嵌入在我们所有的实验中,我们只使用评分员一致性强的三胞胎进行训练和评估。我们还尝试使用评分者一致性较弱的三胞胎进行训练,但结果没有改善(见第5.4节)。在本文的其余部分,我们将在建议的FEC数据集上训练的建议的表达式嵌入网络称为FECNet。56875.1. 相对做法现有的大规模表情数据集大多集中在分类任务上。人们可以用这样的数据集训练分类网络,并使用最后一层或倒数第二层的输出作为表达式嵌入。在这里,我们训练两个网络:AFFNet-CL用于使用AffectNet数据集进行情感识别[42],FACSNet-CL用于使用DISFA数据集进行面部动作单元检测[38]。AffectNet是一个大规模的人脸数据集,手动标记有八个情感类别。这个数据集有大约288K的训练图像和4K的验证图像。DISFA是一种广泛使用的自发面部动作数据集,手动标记有12个动作单元5的存在/不存在。该数据集有大约260K图像,其中212K图像用于训练,48K图像用于验证。我们使用这两个分类网络创建四个表达式嵌入:• AFFNet-CL-P和AFFNet-CL-F:AFFNet-CL的倒数第二层和最后一层输出。• FACSNet-CL-P和FACSNet-CL-F:FACSNet-CL的倒数第二层和最后一层输出。使用分类数据集学习嵌入的另一种方法是使用类似于[48]的基于类别标签的三元组损失来训练嵌入网络。因此,我们还使用三元组损失在AffectNet数据集上训练了一个嵌入网络(称为AFFNet-TL)。为了公平比较,所有网络的输入和架构都选择与FECNet相同(图3),除了嵌入层被AFFNet-CL的softmax分类器和FACSNet-CL的单独二进制分类器5.2. 训练和验证我们将三元组预测准确度定义为视觉上最相似的一对之间的距离(在嵌入空间中)小于这两个图像与第三个图像之间的距离的三元组的百分比在不失一般性的情况下,令(Ai,Bi)为测试三元组(Ai,Bi,Ci)中最相似的对。然后,三元组预测精度由下式给出:图4:FEC测试集上的三元组预测准确度。AFFNet-TL6,以及(在[7,49]之后)FACSNet-CL的DISFA验证集上的平均F1评分。对于所有网络,FaceNet层的参数保持固定,新添加的DenseNet和FC层从Xavier初始化开始训练[16]使用Adam优化器[26],学习率为5 ×10−4,dropout为0.5。FECNet是在FEC列车上训练的-使用具有90个样本的小批量(来自每个三元组类型的30个三元组)的训练集进行50 K次迭代,AFFNet-CL和AFFNet-TL在具有128个样本的小批量的AffectNet训练集上进行10 K次迭代(来自八个情感类别中的每一个的16个样本),并且FACSNet-CL在具有130个样本的小批量的DISFA训练集上进行训练(至少每个动作单元10个正样本和没有动作单元的10个样本),用于20K次迭代。对于训练FECNet,对于一类三元组,将margin δ的值设置为0.1,对于二类和三类三元组,将marginδ的值设置为0.2。对于训练AFFNet-TL,损失裕度被设置为0.2,嵌入维数被设置为16。所有超参数值均根据相应的验证措施选择5.3. FECNet嵌入虽然我们希望使用嵌入以连续的方式表示面部表情,但不清楚嵌入空间应该使用多少维。为了回答这个问题,我们针对不同的输出维度值训练了FECNet。图4显示了FEC测试集上的三元组预测准确度如何随1ΣNNi=1Σ Σ1eAi−eBi2eAi−eCi2,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功