没有合适的资源?快使用搜索试试~ 我知道了~
20922FERV39k:一个用于视频Yan Wang1,Yixuan Sun1,Yiwen Huang2,Zhongying Liu2,ShuyongGao2,Wei Zhang2,Weifeng Ge2, Zhang Wenqiang1,2,Zhang1复旦大学工程技术研究院,上海,中国2复旦大学计算机科学学院,上海,中国{wfge和wqzhang} @ fudan.edu.cn图1.FERV39k的概述,由7个基本表达的视频帧组成,跨越4个场景,细分为22个场景。摘要目前人脸表情识别(FER)的基准测试主要集中在静态图像上,而视频中的FER数据集有限。评估现有方法的性能在现实世界的面向应用的场景中是否仍然是令人满意的仍然是模糊的。例如,脱口秀节目中高强度的“高兴”表情比事件中低强度的相同表情更有为了填补这一空白,我们构建了一个大规模的多场景数据集,称为FERV39k。我们从三个方面分析了构建这种新型数据集的重要因素:(1)多场景层次和表达类,(2)候选视频片段的生成,(3)可信的手动标记过程。基于这些准则,我们选择了细分为22个场景的4个场景,基于精心设计的工作流程对从4k视频中自动获得的86k样本进行注释,最终构建了38,935个带有7个经典表达式的视频片段。最后给出了四种基本框架的实验基准,分析了它们在不同场景下的性能,并指出了未来研究的一些挑战。此外,我们通过消融研究系统地研究了DFER的关键组成部分*通讯作者基线框架和我们的项目可在https://github.com/wangyanckxx/FERV39k网站。1. 介绍静态图像[43]或视频[29]中的面部表情识别(FER)对许多应用非常重要,例如人机交互(HCI)[2]和测谎[3]。由于用户每天从不同的活动和社交聚会上传数百万张图像,因此有各种可用的静态FER大规模数据集,例如RAF-DB [27]和AffectNet [34]。在这些数据集之上,设计了各种方法[14,15,26,44]来理解人类情感和识别面部表情。与静态图像FER相比,只有少数基于视频的面部表情数据集。在早期,研究人员关注实验室数据集,如CK+ [32]和Oulu-CASIA [48],这些数据集从实验室环境中收集,包含不超过30帧的有限姿势视频剪辑。最近,从实验室短视频片段中识别表情已经取得了相当大的进展[29,45,49],但这些模型通常无法直接应用于野外场景。通常,没有复杂和变化的场景上下文的有限样本对于现实世界的应用可能是不切实际的。20923××数据集(年份)样本Emo. 是的最好上下文场景视频源表1.现有可用DFER数据集和我们构建的FERV39k的统计比较。(Emo。=情绪分布;是的=注释次数;最好=最佳精度; Exps =表达式; V-A =效价-唤醒。)随着AFEW竞赛的发展[11,24],基于视频的野外数据集逐步发布,但其视频剪辑有限,不足以开发深度FER模型。虽然表面上的数据集,如CAER [25]和DEFW [21],声称他们的视频来源是多样的,但这些数据集存在一些局限性。对于CAER [25],数据量达到13k,但其场景单一,对FER方法缺乏挑战性。DEFW[21]是视频中FER的大规模且注释良好的未约束数据集,但它未能考虑和进一步区分场景类别[9],这对于面向应用的表情识别至关重要。但是,这些工作都忽略了如何自动生成大量的候选视频片段以供人工标注,以满足构建更大规模数据集的需要。为了提高视频的误码率,需要建立多场景数据集。基准应该满足几个重要的要求,以涵盖现实的挑战。1)考虑到现实世界应用的复杂性,所选场景应涵盖各个方面。2)随着目前从互联网和视频平台访问的数十亿视频,迫切需要能够自动生成大量视频片段的鲁棒算法。3)由于面部表情注释的复杂性,注释视频片段的工作流程需要被良好地设计。基于上述指导方针,我们构建了FERV39k(图1),这是一个大规模、多场景、高质量的数据集,包含38,935个视频片段,在4个场景中标记了7个类表达式:日常生活、弱交互节目、强交互活动和异常问题。我们设计情景和场景有四个原因:1)大量的视频源和样本。2)可扩展22个精细场景。(3)差异大,重叠有限(4)与场景语境有明显的关联此外,我们设计了一个四阶段的策略,它本身产生86 k candi- date视频剪辑从4k原始视频。具体而言,我们构建的FERV 39k具有3个主要特征:1)多场景:剪辑被分为4个场景,并细分为22个具有不同特征的场景。2)大规模:视频剪辑的数量达到39k,最后时间从0.5s到4s,这表明可用的视频帧和裁剪的面部图像达到1M,分别为336 504和224 224。3)高品质:采用众包和专业标注的工作流程,以细粒度表达为指导,确保高质量的标签。考虑到我们构建的数据集中注释良好的多场景视频剪辑,我们首先在动作识别基线之后,在挑战性的FERV39k上对视频中FER的四种基于深度学习的架构进行基准测试[7,22,30]。然后,我们使用四个基线和代表性骨干进行了几次基线评估,以揭示视频中多场景表达的挑战性方面。According to our analysis onFERV39k benchmark, we uncover several new challenges:1) dif- ficulty and confusion of 7 basic expression classes.2)4个场景之间的差异。3)跨场景性能不理想。4)表达和 持 续 时 间 的 长 尾 分 布 。 为 了 系 统 地 列 举 基 于FERV39k的四种基线架构的DFER建模中的关键组件,我们进一步进行了几项消融研究,并得出了一些重要的发现:1)在大规模数据集上进行预训练并不总是有帮助的。2)更多的采样不能稳定地提高性能。3)场景信息对DFER起着补充作用。总之,我们的工作有三个主要贡献:1)我们构建了一个新的大规模多场景FERV39k数据集,用于场景内和场景间的DFER。该数据集包含38,935个视频剪辑,这些视频剪辑在4个孤立场景中的22个细粒度场景中标记有7个class-sic表达式。据我们所知,这是第一个动态FER数据集,具有39K剪辑,场景划分以及跨域支持。2)提出了四阶段候选片段生成和两阶段注释的工作流程,在成本和质量控制之间取得了平衡,可用于其他大规模人脸视频数据集的构建。3)我们对四种基于深度学习的架构进行了基准测试,并对FERV39k进行了深入研究,揭示了我们数据集的关键挑战,并根据广泛的消融研究指出了未来研究的新方向。实验室拍摄电影电视直播别人CK+(2010年)[32]3277次实验199.69实验室✓[48]第48集9.1疯狂的女人5606次实验192.7实验室✓[23]第298V-A8N/A野生✓ ✓ ✓[24]第24话600V-A2N/A野生✓AFEW 8.0(2018)[11]1,8097次实验253.26野生✓CAER(2019)[25]13,2017次实验377.04野生✓209242. 相关工作2.1. 基于视频的DFER基于视频的FER数据集[11,25,48]自面部表情研究开始以来就已被提出。在早期,参与者被要求或诱导在受控环境中执行有针对性的面部表情,以收集CK+[32]和Oulu-CASIA [48]等数据然而,受参与者的规模和实验条件的限制,实验室数据集通常是小规模的,并且其中的面部表情通常远离真实世界的表情。此外,大多数方法[29,35](表1)已经在这些基准上获得了出色的性能。因此,从具有自然主义情绪状态的野外条件收集的数据集吸引了更多的关注,例如AFEW [11],Aff-Wild[23] , AFEW-VA [24] , CAER [25] 和 DFEW [21] 。AFEW [11]是2013年提出的第一AFEW- VA [24]提供了更多的受试者、样本和专业注释以及效价唤醒注释。Caer[25]将视频剪辑的数量增加到13,201,并考虑裁剪的面部和上下文信息。DFEW [21]扩展了数据的规模和多样性,提高了标注质量。 表1比较了现有数据集与我们构建的FERV39k之间的统计数据,FERV39k具有以下特征:1)从86k个自动生成的候选视频片段中获得的最大样本数达到39k。2)众包与专业评审相结合的标注工作流程3)两级场景的分层设计,有助于面向应用的DFER和不同情境下的跨领域4)所有原始视频都是从跨平台来源收集的。2.2. 动态FER方法虽然各种方法可以从静态图像中识别表情[26],但动态视频通常包含更多信息,包括外观的移动以及其他时间信息。有两种网络结构,称为三维卷积网络( 3D ConvNet ) 和 2D ConvNet-LSTM , 通 常 用 于DFER 。 基 于 3D ConvNet 的 方 法 [31 , 40] 使 用 3DConvNet提取时空特征并生成DFER的嵌入。例如,作品[1,40]使用C3D [40]进行局部时空特征提取。基于2D ConvNet-LSTM的方法[29,33,47]结合了CNN和LSTM,分别用于提取空间特征和学习时间建模。大多数作品[13]主要依赖于对裁剪的人脸区域的分析,忽略了场景上下文信息用于野外情感识别为了解决这些限制,Lee et al.[25]调查通过双流编码网络(CAER-Net)来分析上下文信息的影响,双流编码网络利用人脸编码流和上下文编码流来分别对裁剪后的人脸区域和上下文信息进行编码。通过分析和比较现有的基于视频的表示架构中卷积层是否使用2D或3D内核,以及网络的输入是否包括场景上下文,我们设计了四种基线架构。3. FERV39k数据集为了给面向应用的DFER引入一个新颖而具有挑战性的基准,我们提出了一个精心设计的数据集构建过程,以构建具有高质量注释的FERV39k。FERV39k在多应用场景、跨领域学习支持、自动候选剪辑选择和两阶段高效高可信度标注等方面比以往的FERV39k更具挑战性和启发性。而基于这些数据的其他类型的注释将被包括在后续版本中,例如,FERV39k的当前版本主要提供4个孤立场景的DFER注释,其中22个细粒度场景由7个基本表达式标记。3.1. 关键挑战在关键挑战[38]的启发下,我们考虑了一系列前所未有的困难,并制定了相应的战略,如下所示:如何定义和生成场景和表情?由于成千上万的上下文/场景和数十个面部表情在所有国家系统地发生,因此在工作中完成全场景任务是不现实的[9]。幸运的是,我们分析了Cowen等人的研究结果和结论。[9],它帮助我们总结了由22个场景组成的4个场景设计了一种新颖的基于场景的关键词列表和如何自动生成候选视频片段?与基于关键字从互联网抓取的静态面部图像不同[34],由于视频或电影的故事复杂性,需要额外的分割来获得具有单一表达的短持续时间视频片段通常,用于DFER数据集的候选视频剪辑收集的流水线是从互联网抓取大规模视频(Meta数据)并手动裁剪单个表情剪辑。然而,对于大规模数据集,手动操作是昂贵的。因此,提出了一种新的基于四阶段FER的视频分割方法。如何设计具有质量控制的标注程序?众包服务,如亚马逊机械土耳其人或JD众包通常用于建立一个20925}{}{}{--图2. FERV39k结构概述。大规模数据集。然而,发现一些表达之间的微妙差异需要专业知识。因此,提出了一个两阶段的注释工作流程,以获得质量保证的注释与成本和可靠性之间的平衡。3.2. 数据集构建过程节中3.2,我们将介绍数据集构建的三个步骤,即场景词汇和表达类的选择,候选视频片段的生成和数据标注(图2)。场景词汇和表达类的选择。在数据采集之前,我们首先设计了场景词汇表(包括关键词)和表达式类. 对于场景词汇,我们分析了工作[ 9 ]的统计结果,选择了22个代表性场景并将其分为4个场景:为日常生活(DL11k)设计的6个场景辩论,社会,学校,医学,冲突和日常生活,为弱互动节目设计的6个场景行动,学术报告,演讲,高雅艺术,现场表演和谈话节目(WIS9k),6个场景商业,实验,事件,犯罪,面试,强互动活动竞赛(SIA10k)和4个场景历史,恐怖,战争和危机的异常问题(AI9k)。对于我们基于场景的原材料集合,我们还为每个场景设计了一个关键字列表。在设计表情类时,选取了“愤怒”、“厌恶”、“恐惧”、“高兴”、“悲伤”、“惊讶”、“中性”等7个基本表情我们遵循Parrot等的分类学定义[42]第26话认真[28]旨在澄清细粒度情感类的差异,这导致了图3(a)中所示的最终表达式层次结构。在表达式定义[11,21,34]之后,我们还初始化了一个表达式列表,并编写了一本手册来阐明每个表达式。候选视频剪辑的生成 根据工作[21,23,27,34],在线视频来源于不同场景中的真实生活场景,因此视频中的人类表情可以被识别为真实世界的面部表情。我们首先回顾顶级22个场景,然后收集相应的在线视频,电视节目和搜索引擎/视频引擎为了获取片段,前编辑器要求注释者通过视频编辑软件手动分割具有表情的视频对于较小规模的数据处理,时间和劳动力成本是不可承受的。然而,对于我们的39k剪辑数据集(原材料甚至更多),手动提取剪辑似乎不切实际。因此,我们采用四阶段策略来收集和生成多场景视频的候选视频片段,其流程如图3(b)所示。首先,我们通过生成的关键字列表从8个全球开源引擎中下载了超过6 k的具有不同持续时间的元数据,这些引擎包含亚洲,非洲和欧洲/美洲视频。然后,我们对一些视频进行排序并随机删除。在此步骤之后,留下4k条根据工作[5],我们将它们随机分割成0.5-4秒的视频 为了生成面部剪辑,我们制作了一个规则列表,以帮助我们精心设计的机制自适应地自动选择比最终数据集的预期规模大20倍的剪辑然而,基于规则的选择机制是粗糙的,产生一个好的候选人和手工细化仍然是一个困难的工作。因此,我们利用预先训练的轻量级ResNet-50 FER检测器来优化这些片段并生成具有表达预测的候选片段。最后,考虑到过滤剪辑的规模是最终数据集规模的两倍,我们随机删除了一些剪辑,并保持估计表达式的延迟分布符合真实世界的工作[9]。手动注释。为了达到专业标注和成本控制的平衡,我们设计了一个标注-审核的数据标注工作流程(图3(c))。在我们设计的流程中,有两个角色,分别是众包注释员(CA,20名工作人员)和专业评审员(PR,10名工作人员)。我们的目标是巧妙地利用公关,以较低的成本获得专业的注释.为了进一步帮助注释者将我们的任务与平台上的许多其他任务区分开来,并使我们的任务尽可能具有刺激性和吸引力,JDCrowdsourcing根据我们的指导建立了一个单页网站标签界面如图3(d)所示,其中提供了一个视频剪辑,介绍和每个帧中面部区域的边界框以帮助注释者。此外,该平台还可以自动将26个选项转换为7个表情标签。剪辑首先被分成组(每组5%是PR注释)并复制3次。然后,我们随机地将分组的材料洗牌,并将它们提供给CA。CA被要求在平台上选择最可能的单词或注释后,通过Flag-Recaptured Statistic方法[4]检查组副本。我们设计了80%和40%的正确率作为两个阈值,并将副本标记为不可接受(UA),不正确(IP)和接受(AC)。IP和AC组将交由PR进行判断。在20926图3.数据集构建的四个重要组件。(a)我们设计了4个孤立的场景,22个场景,7个基本表达式和26个细粒度表达式。(b)FERV39k数据集中候选视频剪辑的四阶段生成。(c)数据标注、统计评价、专业判断和标签生成的过程。(d)众包平台中的标签界面在这一步中,PR只需要决定一个组的注释是否可以接受。UA将退回到CA,而仍然是IP的将由PR重新标记。对于UA和IP,PR将向CA提供反馈。之后,加权赢家通吃(WWTA)投票方法用于生成最终的面部表情标签。我们的目标是,在对几个组进行迭代之后,注释器可以提供相对可靠的注释,并且验证工作将变得不那么复杂。3.3. 数据集统计数据FERV39k由4个独立场景组成,细分为22个详细场景,包括近39k个标记有7个基本面部表情的视频剪辑[26],平均持续时间为1.5秒。 一般来说,剪辑均匀分布在4个场景中,但每个场景的规模也反映了严重的长尾分布。为了进一步分析,图4(左)显示了每个场景中的剪辑数量以及我们构建的FERV39k中的表情分布,本文将其用于基线分析。直方图显示了不同场景中7种基本表情的自然长尾分布。例如,这对DFER模型来说是一个新的挑战图4(右)示出了不同场景中视频片段表达持续时间的较大变化使得DFER模型更难以准确定位关键帧,如[38]。此外,FERV39k中的表达实例通常与较长的时间上下文以及与上下文的交互这些在-FERV39k的这些挑战需要一个更强大和灵活的时态建模方案来进行表达检测。在遵守协议的条件下,我们制造的FERV39k可以使用3.4. 数据集特征与现有的数据集相比,我们的FERV39k具有几个独特和有吸引力的特征。大规模候选视频剪辑。通过引入四阶段候选视频片段生成方法,可以廉价地获取大量候选视频片段,为FERV39k的进一步扩展提供了可能。高质量的注释。通过我们的两阶段注释策略,支持文件,细粒度选择以及标记重新捕获统计方法,专业判断和WWTA投票,FERV39k可以以较低的成本获得可靠的标签。任务难度。提出了四个难点:1)片段之间的表情持续时间的大的变化; 2)不同场景中的表情的不同强度;3)用于剪辑中的标记表达的有限表示帧; 4)不同场景和表情下的严重长尾分布,FERV 39 k给DFER方法带来了新的挑战。面向应用的多样性。FERV39k以新的应用视角关注DFER方法的特定应用性能和跨场景鲁棒性4. 基准收益在本节中,我们将通过基线评估进行实验,以显示FERV39k在实践中的挑战,并通过消融研究得出一些发现。20927××图4.我们的FERV39k的统计数据。左图是视频片段在不同场景下的7种表情分布,按4种场景和7种不同表情排序。右图为视频片段在不同场景下的7个表情时长分布,按4个场景、5个不同时长排序。4.1. 实验装置FERV39k协议。为了建立一个可靠的DFER基准,我们手动将所有数据分为训练集(包括验证集)和测试集。在FERV39k Benchmark中,所有场景的视频片段被 随 机 混 洗 , 并 被 分 成 训 练 ( 80% ) 和 测 试(20%),没有重叠,这形成了27种配置,包括每个场景22个设置跨场景学习也是可用的,其中一些特殊的场景用于测试。此外,我们还提供了224 224分辨率的裁剪人脸图像和336 504分辨率的场景图像,以满足上下文感知DFER方法的要求。实作详细数据。在我们的实验中,整个框架使用NVIDIA GeForce RTX 2080 Ti GPU 构 建 在 PyTorch-GPU上。 我们将学习率(lr)设置在1 e-3和1 e-2之间,权重衰减为1 e-4,所有架构的批量大小固定为32。在每个时期中将视频剪辑作为输入,其中lr为0.95。所有模型都是使用FERV39k从头开始训练的,以标准随机梯度下降(SGD)为60个历元,动量为0.9,均匀采样帧间隔为8。此外,由于FERV39k中用于训练的序列数量有限,我们将数据增强技术应用于训练集:随机裁剪、照明变化和图像翻转。为了减少对计算源的依赖性,将所有裁剪后的人脸图像的大小调整为112× 112,整幅图像的大小调整为112× 168。评价指标。 根据评估FER或DFER的标准实践[21,34,37],我们选择两个常用的指标:加权平均召回率(WAR,也称为整体准确率)和未加权平均召回率(UAR)。4.2. 基线网络根据视频中动作识别的基本架构[7,8,22],我们首先简要定义并描述了DFER的几种标准ConvNet架构我们考虑了DFER的四种典型方法:2D ConvNet,2DConvNet-LSTM [46] , 3D ConvNet [20 , 40] 和 Two-Stream 3D ConvNet。然后,我们使用这些架构作为基线,并通过训练和测 试 整 个 FERV39K 。 表 2 显 示 了 四 种 基 准 架 构 在FERV39k上的比较结果。2D ConvNet。深度CNN(2D ConvNet),如VGG [39]和ResNet [19],在图像分类任务上取得了巨大成功[36]。因此,我们在对DFER进行最小更改的情况下重用它们。为了处理剪辑,可以提取所有帧的特征并将其平坦化为嵌入,这些嵌入被连接并馈送到分类器中以获得结果。二维ConvNet-LSTM 2D ConvNet-LSTM的结构更适合DFER,它向模型添加了一个递归层[12]以引入时间信息。因此,我们定位了一个具有1024个隐藏单元的LSTM层和一个批量归一化层(如Cooijmans等人提出的)。[10])在2D ConvNets的最后一个平均池化层一个完全连接的层被添加到顶部作为分类器。3D ConvNet。3D ConvNets (例如,C3D [40]和I3D[7])可以直接用时空(3D)滤波器对时空信息3DConvNets的一个问题是,由于额外的内核尺寸,它们具有比2D ConvNets多得多的参数。此外,DFER还需要对网络和输出结构进行额外的调整。双流网络。 与上述方法不同的是,双流网络可以对场景的上下文组件以及裁剪的面部图像的面部表情进行编码,灵感来自CAER [25]。具体来说,我们将裁剪后的 人 脸 图 像 和 场 景 帧 序 列 输 入 到 Two-Stream 3DConvNets和2D ConvNet-LSTM中。4.3. 基线评价在FERV39k之上,我们系统地评估了跨多个场景的四种基线架构在这里,我们注意到,除非另有说明,否则所有培训方案都遵循原始表2显示了FERV 39 k的9个代表性场景(显示WAR/UAR性能)上的四种基线架构所有模型都是在实验中从头开始训练的。总之,在更具体的场景(WIS9k,SIA10k)上的性能优于其他场景,并且对于22个细粒度场景,大多数方法在实验(SIA10k)上实现了最高的结果,而在恐怖(AI9k)上实现我们将这一结果归因于实验的一致性强度和时空一致性的可区分性。20928方法所有DL11kWIS9kSIA10kAI9k社会DailyLifeLiveshow脱口秀采访大赛实验恐怖危机R1839.33/30.3039.75/31.3640.50/28.6742.31/30.0233.90/27.2039.74/33.2641.40/31.1337.72/26.8238.57/25.4745.75/29.1848.24/33.3749.56/26.7031.28/26.6936.88/29.21R5030.57/22.4730.46/21.5232.52/23.5030.56/22.6830.14/19.9427.51/25.0531.00/19.3728.51/23.1328.86/20.1433.25/21.7237.06/27.5531.86/16.8926.54/19.6724.25/20.11VGG1341.02/31.1940.40/31.5943.04/30.2343.44/29.9938.86/29.9448.03/35.5039.07/28.6344.74/30.4040.57/26.2544.34/28.8347.62/32.3949.56/26.5236.73/31.4842.52/31.65VGG1641.66/32.0141.81/32.5942.93/30.7742.31/29.5839.60/31.4643.23/34.7741.19/28.7346.05/33.6539.43/24.9647.17/30.7748.03/32.9252.21/33.1239.57/34.2140.86/32.95R18-LSTM42.59/30.9243.34/32.2444.12/29.5942.85/28.7839.66/30.4042.36/31.4741.61/29.1146.93/31.5944.57/27.2345.52/28.0150.10/33.7948.67/25.4235.55/29.9644.85/33.46R50-LSTM40.75/32.1240.93/32.9141.74/30.7042.16/30.3938.01/31.1642.79/35.7041.61/28.0040.35/30.4040.00/27.4243.87/30.0248.24/34.3247.79/33.1736.26/32.4639.87/31.87VGG13-LSTM43.37/32.4142.29/32.4644.23/30.8145.00/31.4541.20/31.4943.67/34.6446.07/31.5045.61/31.2844.29/29.1747.17/30.0749.90/33.6657.52/36.1740.28/33.6142.86/31.11VGG16-LSTM41.70/30.9342.99/32.3241.63/28.4243.83/29.8337.04/29.3949.34/36.8344.37/30.5836.84/25.7641.14/26.3946.23/27.3948.65/34.1553.10/30.0336.26/32.8341.53/33.59C3D [40]31.69/22.6826.95/21.0230.15/19.9442.70/29.2227.29/19.8034.50/24.3426.96/18.3528.51/22.5536.57/23.2543.16/26.3546.58/32.4454.87/22.8722.99/20.3132.56/20.93I3D [7]38.78/30.1738.56/29.2538.52/29.1140.55/31.0737.44/28.1537.55/32.0539.70/26.0937.72/30.5726.29/18.2741.51/27.8745.55/35.4353.10/31.5633.89/29.1036.54/28.813D-R18 [41]37.57/26.6737.69/27.4738.40/24.8540.40/26.0833.45/25.4041.48/29.8335.67/24.9539.04/25.1236.29/21.8642.69/22.7044.10/28.3254.87/32.5031.28/27.8337.21/27.25两个C3D41.77/30.7241.45/31.3743.44/29.7744.71/30.1537.89/28.0947.16/32.2235.46/23.2641.23/25.7442.00/27.8946.23/28.4548.03/32.3163.72/37.5535.78/30.4740.86/29.60两个I3D41.30/31.0141.02/31.5542.31/30.1443.63/31.2038.75/28.5344.98/30.9440.76/28.9338.16/25.9139.43/28.3744.81/29.9648.03/33.2854.87/26.9636.02/29.1938.87/28.01两个3D-R1842.28/30.5542.77/32.7244.12/29.6342.95/27.8338.46/28.5449.34/31.6239.28/28.4141.67/28.5038.57/24.6645.52/24.7148.45/33.1662.83/33.4135.07/28.7342.19/29.58两个R18-LSTM43.20/31.2842.20/31.6644.91/30.3746.33/31.0940.40/30.0447.60/35.6040.55/27.0944.74/26.5543.43/27.5247.41/28.5053.00/33.9357.52/24.5636.49/29.9443.85/31.45两个VGG 13-LSTM44.54/32.7944.65/32.9645.25/31.4546.57/31.8840.63/30.9648.03/36.4346.92/31.5548.25/33.0245.14/28.3046.70/28.3552.80/35.3253.98/31.6637.44/32.4946.84/35.11平均39.58/29.3439.27/29.8040.61/28.1142.04/28.9436.55/27.6142.25/31.9738.98/26.7539.79/27.6538.39/24.7544.19/27.2247.33/32.3952.06/28.5733.75/28.7039.12/29.12表2.在FERV 39 k(WAR/UAR)上从头开始训练的四种基线架构的比较结果图5.进一步进行了详细的实验分析。(a)RS 50-LSTM分别在4种场景下训练的最差、平均和最佳场景测试结果。(b)FERV 39 k和9个代表性场景上的双流VGG 13-LSTM(最佳性能)的混淆矩阵。(c)4种基线方法在FERV39k和DFEW上的性能比较文本特征。 双流2D ConvNets-LSTM 方法源靶第4.4节,我们进一步探讨了场景方法对DFER 39k的影响跨场景挑战。我们通过RS 50-LSTM评估了4个孤立场景之间的跨域难度。表3显示了近8%的平均跨域下降。而WIS9k实验的最大下降表明,将模型从弱交互场景(例如,WIS9k)到更强的,反之亦然。为了证明这一点,我们还收集了图5(a)中相应场景下模型训练的场景性能分布统计数据结果还表明,WIS9k既有理想的性能和较小的差异之间的4个场景。结果表明,克服FERV39k不同结构域中表达的各种特征分布是一项具有挑战性的任务。场景困难和表达混乱。为了进一步分析在不同场景中识别表情的难度,我们还在图5(b)中提供了性能最佳网络表3. RS 50-LSTM上FERV 40 k的DL 11 k、WIS 9 k、SIA 10k和AI 9 k的跨场景结果比较(VGG13-LSTM)。这10个矩阵在场景间具有相似的视线偏移距离,其中该方法在4个明显表达式上性能较好,也是最难的。结果显示与先前数据集的总体静态一致性(例如,DFEW)。然而,一些微妙的变化值得注意。例如,“悲伤”在脱口秀、现场秀和体验中的表现有所这种情况可能是由特定场景中表情的强度、特征和出现频率(长尾分布)的变化引起的。在我们构建的FERV39k中存在明显的偏差和异质性,这使得它成为一个具有挑战性的数据集。我们总结了几个可能有效的方向:(1)长时间建模;(2)场景再现;(3)时空上的全局-局部融合。将性能与现有数据集进行比较。为了强调FERV39k的难度,我们比较了优于VGG 13-LSTM具有最佳性能的其他DL11kWIS9kSIA10kAI9k业绩44.54%。二维ConvNet-LSTM方法DL11k 37.69/27.2129.98/19.93 31.15/21.87 24.27/18.54在一个和两个方面WIS9k 27.04/19.9540.5/26.631.78/19.924.62/19.24流结构我们认为这是LSTM的赌注-SIA10k 28.57/21.92 31.39/19.9539.72/24.927.75/20.28称为全局-局部时间特征利用机制。在AI9k 26.29/20.2123.3/18.2923.85/17.93 31.62/24.1620929图6.三项消融研究的结果从左到右的图表分别是预训练有效性、稀疏帧采样有效性和场景信息有效性的结果在DFEW上具有三个基线架构(没有双流基线)。DFEW 上的方法得到约10%的更高平均结果(图 5(c)),这证明FERV 39k比最先进的方法更具挑战性。我们将其归因于以下原因:a)FERV39k的剪辑数量是DFEW的三倍,b)数据多样性代表了现有算法的现实挑战,c)该数据集中的22个场景需要进一步的面向应用的研究。4.4. 消融研究大规模数据集的预训练是否有帮助?我们使用MS-Celeb-1 M [18]和DFEW [21]我们构建的FERV 39 k使用RS 18-LSTM和RS 50-LSTM进行预训练和不进行预训练。实验表明,在图6(左)中,前者的性能并不优于后者。一个潜在的原因是FERV39k的场景和特征分布与其他数据集不同。稀疏采样对于DFER是否足够 稀疏采样方案[6,17,38]通常导致动作识别的高效率和有希望的准确性。为了探索稀疏采样是否足以用于DFER,我们进一步研究了采样帧对DFER性能的影响。在这里,我们将FERV39 k上的四个2D ConvNet-LSTM网络的输入帧数从2调整到16,步长为2。图6(中间)中的结果显示,不同方法的性能趋势不同,但当帧增加超过阈值时,效果趋于平稳或略有波动下降。这些结果还表明,应该使用更微妙的采样方法,关键帧提取可能是一个点[16,50]。现场信息对DFER有辅助作用吗 为了进一步了解场景信息是否能提高DFER方法的性能,我们在FERV39k基准上比较了两个单流I3D网络。我们选择了4个场景中最好和最差的结果场景,并在图6(右)中提供了结果,这表明双流网络可以增强仅面部模型,并在大多数场景中实现更好的结果,因为场景中的上下文信息融合例如,当有人来时,我们可以很容易地用面部区域和场景上下文猜测表情为为什么目前的方法无法处理FERV39k? 通过仔细总结所有实验,我们总结了一些使FERV39k对四种基线架构具有挑战性的因素:(1)有限的表情相关帧,特别是具有频繁情绪变化的场景。(2)微妙的空间语义,其中涉及面孔和场景-面孔关系的差异。(3)复杂的时间动态,如运动方向和旋转程度。此外,FERV39k数据集对中间表示提出了更高的要求,由于场景的多样性,中间表示难以5. 结论在本文中,我们建立了一个大规模的多场景数据集(FERV39k)的FER视频。与现有的基于视频的数据集相比,我们的FERV 39 k具有许多独特的特征:1)自动生成大规模可编辑视频片段; 2)精心设计的众包和专业标注工作流程,实现高质量的数据标注; 3)提出了视频FER的四种挑战和难点; 4)面向应用的多场景层 次 结 构 ,增 强 了DFER方法的 鲁 棒 性 。 为 了 对FERV39k进行基准测试,我们设计了四种基于视频的FER基线架构,并进行了深入的评估和消融研究。这些结果提出了一些重要的挑战,并揭示了未来推进基于视频的FER领域6. 致谢本 课 题 得 到 了 国 家 自 然 科 学 基 金(No.62072112)、国家重点&研发计划(2020 AAA0108301 ) 、 上 海 市 科 委 科 技 创 新 行 动 计 划( No.20511103102 ) 、 复 旦 大 学 -CIOMP 联 合 基 金( No.201103102 ) 、 上 海 市 科 技 创 新 基 金( No.201103103 ) 、 上 海 市 科 技 创 新 基 金(No.201103102)、上海市科技创新基金(No.2010FC 2019 -005 号) 、双 一流 建设 基金 (编 号: XM03211178),部分得到了国家自然科学基金的资助。62106051和上海浦江项目No.21PJ1400600。20930引用[1] Dawood Adel Al Chanti和Alice Caplier。深度学习用于动 态 自 发 情 绪 的 时 空 建 模 。 IEEE Transactions onAffective Computing,2018。3[2] Amal Azazi、Syaheerah Lebai Lutfi、Ibrahim Venkat和FernandoFer na'nought-Mar t'ınez。为了获得可靠的认可:三维人脸表情的自动识
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功