没有合适的资源?快使用搜索试试~ 我知道了~
Evangelos Sariyanidi1, Casey J. Zampella1, Robert T. Schultz1,2 and Birkan Tunc1,2{sariyanide,zampellac,schultzrt,tuncb}@email.chop.edu30o60o90o71730弱透视相机能够分离面部姿态和表情吗?01. 费城儿童医院自闭症研究中心,宾夕法尼亚大学0摘要0在图像中分离面部姿态和表情需要一个3D到2D的相机模型。弱透视(WP)相机一直是最受欢迎的选择;它是最先进的面部分析方法和软件的默认选项。WP相机的合理性是基于这样的假设:当被拍摄对象相对远离相机时,其误差可以忽略不计,然而,尽管进行了近20年的研究,这一假设从未被验证过。本文对WP相机在分离面部姿态和表情方面的适用性进行了批判性的研究。首先,我们从理论上证明了WP相机会导致姿态-表情的模糊性,因为它会导致估计出虚假的表情。接下来,我们实验性地量化了虚假表情的大小。最后,我们测试了虚假表情对常见面部分析应用(如动作单元(AU)检测)的不利影响。与传统观点相反,我们发现即使被拍摄对象离相机不近,姿态-表情的模糊性仍然存在,导致AU检测中的大量误报。我们还证明了虚假表情的大小和特征取决于用于模拟表情的点分布模型。我们的结果表明,关于WP的常见假设需要在面部表情建模中重新审视,并且面部分析软件应该在可能的情况下鼓励和促进真实相机模型的使用。01. 引言0面部表情分析是计算机视觉中研究最多的问题之一,受到工业、临床研究、娱乐和市场营销等众多应用的推动。头部姿态的变化对面部表情分析构成了重要挑战[30],因为不同角度下的表情看起来差异很大。将面部表情从姿态中分离出来对于提高表情识别准确性非常重要,也从可解释的AI角度来看,人们无法可靠地解释0智能手机摄像头。网络摄像头0会议摄像头。行动摄像头。0智能手机摄像头(长焦)0视场30° 45° 60° 90° 120° 160°(d)0图1.(a)本文使用的三种视场;视场越大,透视效果越明显。(b)每种视场下的两个主体到相机的距离;30°、60°和90°视场的(¯Z close,¯Zfar)分别为(8.5m,3.5m)、(3.9m,1.6m)和(2.3m,0.9m)。(c)以¯Z close(上)和¯Zfar(下)为例,头部大小相对于图像大小的示意图;无论视场如何,对于任何距离,头部大小都大致相同。(d)几种相机的视场;这些数据的来源在[3, 6, 5, 4, 1, 2, 7]中。0如果表情系数被头部运动所混淆,面部行为分析系统的决策将受到影响。在2D图像中分离姿态和表情的主要方法是将面部形状投影到3D空间中,然后将其分解为刚性因素(旋转、平移)和非刚性因素(表情)(第2.1节)。这个过程需要一个负责2D-3D投影的相机模型。弱透视(WP)相机(即缩放正交相机)是事实上的标准模型,在几乎所有最先进的方法中都被使用(第1.1节)。传统观点认为,当被拍摄对象离相机较远时,WP相机是合适的(第1.1节);然而,据我们所知,在20年的研究中没有一项研究对这一观点进行了调查。随着移动技术和在线通信的进步,使用具有大视场(FOV)的相机从近距离录制的面部视频激增,而在这些情况下,WP相机的近似误差会增加[19]。在本文中,我们从理论和实验上进行了调查。Xi = R(¯Xi + ∆Xi),(1)71740研究WP相机在分离面部姿态和表情方面的适用性。具体而言,我们展示了WP相机导致虚假表情估计,从而引入了姿态-表情的歧义。本文有四个贡献。首先,我们从理论上证明了WP相机存在虚假表情。其次,我们在大量摄像机配置上实验性地量化了虚假表情的大小,包括不同的视场角和人脸尺寸(图1),这些配置代表了现代摄像机和常见用途(例如摄影、网络摄像头/智能手机录制)的范围。第三,我们展示了虚假表情的大小在用于建模面部表情的点分布模型(PDM)上存在显著差异。最后,我们展示了姿态-表情分离错误具有重要的实际影响,因为它们导致动作单元(AU)检测中的误报[30]。我们的分析得出了以下结论,这对于当前3D面部分析软件的用户和开发新方法的研究人员都很重要。1.即使WP误差很小,现有方法也无法分离面部姿态和表情,因为误差在优化过程中被加剧。这一发现与传统观点相矛盾,传统观点认为如果被拍摄对象离相机足够远,姿态和表情可以通过WP相机分离。2.用于建模表情的PDM可以显著增加WP相机的近似误差。未来的研究需要设计允许面部姿态和表情可分离的PDM和优化过程。3.WP相机存在较大的近似误差,应该在视场角较高(60°+)的相机中放弃使用,特别是当人脸与相机相对较近时,这在个人视频或在线通信中经常发生。我们的研究结果呼吁重新考虑使用WP相机(第5节)。本文的主要结果可以通过https://github.com/sariyanidi/WP_pose-expression-separation上的代码进行复现。01.1. 相关工作0自Tomasi和Kanade的开创性研究[31]以来,正交投影(是WP投影的一种特殊情况[19])在计算机视觉中非常流行。WP是一个简化的相机模型,因为它不能表示透视效果[19];也就是说,物体的部分不会根据它们与相机的距离而相对变小或变大。虽然WP显然不是一个现实的相机模型,但传统观点认为它适用于面部分析,因为如果被拍摄对象与相机足够远,WP的近似误差是可以忽略的,因为面部内部的深度变化通常比主体与相机的距离小得多[13, 17, 26, 9,35]。WP0相机已广泛用于面部分析[15, 27, 28, 42, 33, 17, 39, 36,32, 37, 26, 9, 29, 35, 21, 22, 41,16],因为它通过消除透视投影的非线性,将2D面部形状投影到3D空间中。更具体地说,WP相机用于分离面部姿态和表情[13, 9, 27, 42, 17, 26, 35,41],或者更一般地说,分离刚性和非刚性运动[38, 40, 34,14]。值得注意的是,在面部表情的背景下,没有研究测试WP相机的主要假设,不清楚WP的近似误差是否足够小以实现面部姿态-表情分离。重新审视这个假设尤为及时,因为新的研究继续使用WP相机[41, 10, 11, 22,16]。此外,近年来对从2D图像中估计3D形状和纹理的兴趣日益增加,最近提出的3D可塑模型[25,18]和公开可用的软件[10, 20, 8]都使用WP相机。02. 姿态-表情分离0将人脸映射到三维空间内的2D图像分离姿态和表情的研究通常将3D面部形状表示为姿态和表情的组合(第2.1节)。因此,可以通过准确估计该组合中的姿态和表情系数来分离面部姿态和表情。大多数方法使用在第2.1节中回顾的面部模型。然后在第2.2节中回顾使用该模型从2D图像中估计姿态和表情系数的方法。这些回顾使我们能够在理论上证明姿态-表情模糊在弱透视相机中是固有的(第3节)。02.1. 建模姿态和表情0设 { ¯ X i } N i = 1 是一组 N 个三维点(即 ¯X i ∈ R 3),表示相对于相机来说是中性和正面的面部形状。此外,设 { X i } N i = 1 是来自同一个人的一组 N个点,但可能存在表情和姿态的变化。那么,后者可以被合理地生成为0其中 R 是一个 3 × 3的旋转矩阵(为简单起见,我们忽略了平移),∆ X i ∶ = (∆ X i , ∆ Y i , ∆ Z i ) T 表示第 i个点的面部表情变化。通常,表情变化是用线性模型来建模的。也就是说,( ∆ X T 1 , . . . , ∆ X T N ) T = Be,其中 B∈ R 3 N × M是一个预先学习的表情基础矩阵(也称为表情PDM),具有M 个分量,e是解释给定面部形状中的表情的系数集合。大多数将姿态和表情解耦的方法中使用的面部模型基本上与(1)相同;主要区别在于对中性面部的建模方式。通常假设中性面部 { ¯ Xi } N i = 1 是未知的,并使用身份PDM [ 41 , 12 ]进行估计。P ∶=⎛⎜⎜⎝αx0cx0αycy001⎞⎟⎟⎠,(2)xi = (αxX′i/Z′i + cx, αyY ′i /Z′i + cy)T .(3)We can now formulate the problem of estimating poseand expression coefficients under WP camera. We assumethat we know the neutral face (i.e. the points {¯Xi}) to facil-itate the interpretation of experimental outcomes, as in thiscase R and e remain as the only unknowns.Suppose that we are given a set of 3D points {¯X}Ni=1 cor-responding to a neutral and frontal face of a person, and aset of 2D image points representing the facial shape of thesame person, {xi}Ni=1, with a possible pose (i.e., rotation)and expression variation.Let {˜xi}Ni=1 be the zero-meanimage points defined as ˜xi ∶= xi−(1/N) ∑Ni=1 xi. Then,the rotation and expression coefficients can be estimated byminimizing the error function JB defined as71750由于我们的研究目标是分析姿态-表情的可分离性,我们将假设中性面部是已知的,从而避免其估计可能出现的错误。02.1.1 2D-3D映射0根据(1)中的公式,姿态和表情分离的问题本质上等同于准确估计旋转矩阵 R和表情系数 e。从2D图像中估计 R 和 e需要定义一个适当的映射,将2D点和3D点对应起来。假设图像是用CCD相机捕获的。那么,2D图像点 x i 可以通过透视投影[ 19 ]矩阵 P 准确计算得到,该矩阵定义为 10其中 ( c x , c y ) 是主点,α x 和 α y是相机在水平和垂直方向上的焦距。为了得到与 X i对应的图像点 x i ,我们首先计算齐次图像坐标 X ′ i ∶ = (X ′ i , Y ′ i , Z ′ i ) T ,定义为 X ′ i ∶ = P ( R ( ¯ X i + ∆ Xi ) + t ),其中 t ∶ = ( t x , t y , t z ) T是相机的三维位置。最后,可以通过去齐次化得到图像点 xi ,即0为了分析清晰起见,我们在此假设 t x = t y = 0 。02.1.2 通过弱透视相机进行映射0分离姿态和表情的一个主要挑战是相机模型(即 P)通常是未知的。此外,透视变换中的去齐次化引入了非线性,使得未知变量的估计变得复杂。因此,大多数研究使用弱透视投影(第1.1节),这是一个简单的模型,但在相机到物体距离相对于物体内部深度变化较大时通常被认为是合理的。在弱透视相机模型下,与3D点 X i对应的图像点可以计算为[ 19 ]0W(σ)R(¯X i + ∆X i) + c, (4)0其中W(σ)是WP投影矩阵,定义为0W(σ) ∶ = (σ x 0 0 0 σ y 0) , (5)0c = (c x , c y ) T。参数σ x 和σ y在(5)中分别是水平和垂直缩放因子。这些因子的实际作用是根据人脸与相机的距离使人脸看起来更大或更小;WP模型无法调整人脸大小,因为它没有透视效果。01 为了清晰起见,我们忽略了可能的径向畸变效应。0现在我们可以阐述在WP相机下估计姿态和表情系数的问题。我们假设我们知道中性脸(即点{¯Xi})以便于解释实验结果,因为在这种情况下R和e仍然是未知的。假设我们有一组对应于人的中性和正面脸的三维点{¯X}N i = 1,以及表示同一人脸的面部形状的一组二维图像点{x i}N i =1,具有可能的姿态(即旋转)和表情变化。令{˜x i}N i = 1为零均值图像点,定义为˜x i ∶ = x i −(1/N)∑N i = 1 x i。然后,可以通过最小化误差函数J B 来估计旋转和表情系数,该函数定义为02.2. 估计姿态和表情系数0J B ( R , e , σ )∶ =0i = 1 ∣∣ ˜x i − W(σ)R(¯X i + [Be] i)∣∣ ,(6)0关于变量σ、R和e的最小化,分别对应WP的尺度参数、旋转矩阵和表情系数2。(当我们对零均值图像点进行操作时,可以消除(4)中的项c [31]。)R受到隐含约束R ∈SO(3)的限制。误差函数(6)的最小化通常使用高斯-牛顿方法进行[13, 28, 12, 11]。03. 姿态和表情分离的歧义性0如果图像点{x i}N i =1表示具有中性表情的面部形状,则通过最小化(6)估计的表情系数e理想情况下应为0。正如我们在下面理论上证明的那样,这并不是真实情况;相反,使用WP相机会导致固有的歧义性。如果面部形状{X i}N i = 1具有中性表情,则对于i= 1,...,N,∆X i = 0,(1)可以重写为0X i = R¯X i . (7)0由于我们假设没有表情,现在让我们暂时假设表情PDM是零矩阵,即B = 0。然后,函数(6)简化为0J 0 ( R , σ )∶ =0i = 1 ∣∣ ˜x i − W(σ)R¯X i ∣∣ . (8)0为了简化符号,我们在此之后使用符号R作为对应旋转矩阵的优化变量,即使在第2.1节中它被用作真实旋转。-45o-22.5o0o22.5o45o-45o-22.5o0o22.5o45o71760注意,这可以解释为WP相机的3D到2D映射误差,对于参数R和σ,因为(˜x i − W(σ)R¯X i)表示点X i的正确2D投影与在WP相机下同一点的2D投影之间的差异[参见(4)对于∆X i =0]。最小的3D到2D映射误差(以ℓ2为单位)被编码在残差向量中0r ∶ = ˜x − ˙W(σ�)˙R�¯X, (9)0其中 ˜x 和 ¯ X 是列向量,˜x ∶ = ( ˜x T 1 , . . . , ˜x T N ) T0和¯X∶=(¯X T 1,...,¯X T N ) T。˙ W ( σ � )和˙ R�是具有N个矩阵的块对角矩阵,˙ W ( σ � )∶=diag(W ( σ �),...,W ( σ � ))和˙R �∶=diag(R �,...,R�)。R�和σ�是(8)的最小化器。我们现在列出本文的主要理论结果。0定理3.1. 假设我们有一个中性表情的3D面部点{ ¯ X i } N i =1和对应于这些3D点但有旋转的2D图像点{ x i } N i =1。令R�和σ�最小化J 0 ( R , σ ),r如(9)所定义,并且B∈R 3N × M是一个矩阵,使得rank( ˙ W ( σ � ) ˙ R � B ) = M <2N。那么,0min R , e , σ J B ( R , e , σ ) ≤ min R , σ J 0 (R , σ )。0如果r�Null[( ˙ W ( σ � ) ˙ R � B ) T ],则不等式成立,此时∣∣ e0其中e�是J B ( R , e , σ )相对于变量e的最小化器。0证明请参见附录A。假设rank( ˙ W ( σ � ) ˙ R � B ) =M是一个温和的假设,因为PDM通常是通过主成分分析获得的,这会产生瘦高和完全列秩的矩阵,而且因为˙ R和˙ W ( σ�)是完全(行)秩的。此外,正如我们在附录B中所讨论的,r∈Null[( ˙ W ( σ � ) ˙ R � B ) T]不是一个实际上可能发生的事件。该定理表明,即使没有表情(即中性面部),由于在(6)中使用虚假表情系数,正确的点X i的正确2D投影与WP相机下相同点的2D投影之间的误差将减小。因此,该定理正式证明了如果r�Null[( ˙ W ( σ � ) ˙ R � B )T],将生成虚假表情(即e�≠0)。接下来,我们将从实证角度研究这些虚假表情是否足够大以在实践中造成伤害。04.实验分析0我们现在通过实验证明WP相机会产生面部姿势-表情的歧义。我们的实验与第3节中的理论分析一致,即0我们使用包含中性(即无表情)面部的序列,并证明使用WP相机会导致虚假表情检测。我们的实验分析有三个方面。第4.3节定量分析了WP相机相对于姿势的3D到2D映射误差。第4.4节量化了虚假表情,并研究了面部表情PDM(即B)选择的影响。第4.5节表明虚假表情系数会导致AU估计中的误报。04.1. 数据集0我们在合成数据上进行分析,以确保我们使用的面部序列不包含表情变化,并了解面部姿势(即,地面真实)和面部点的3D位置。我们尝试了三个视野,30°、60°和90°,以及每个视野的两个面部尺寸(相对于图像),即大和小(图1b,c)。我们使用Basel'09模型[24]合成面部序列。我们通过从Basel模型中随机选择100个不同的身份系数来生成100个面部身份(图2a)。我们使用广泛使用的68个面部标记集N =68,也称为iBUG-68点(见图2b)。在整个实验过程中,我们研究了(超出平面)姿势变化的影响,即沿偏航和俯仰轴的旋转。为此,对于每个合成的身份,我们生成两个序列,每个序列包含一个面部沿着两个前述轴之一从-45°到45°旋转的面部(见图3)。因此,我们的实验涉及每个视野和距离200个序列,由于我们有三个视野和两个距离,总共有1200个序列。0(b)(a)0图2。(a)实验中使用的生成的面部身份的示例。我们只使用面部形状,但这里我们还展示面部纹理以增强解释。(b)用于实验的68点面部形状模型(iBUG-68),以及眼间距d_iod的说明。请注意,即使是0.1d_iod的虚假表情也足够大,可以产生眨眼或抬起眉毛的印象。0图3。旋转范围;(a)偏航旋转,(b)俯仰旋转。-40 -200200.02-40 -200200.04-40 -200200.04-40 -200200.09-40 -200200.07.15-40 -200200-40 -200200.02-40 -200200-40 -200200-40 -200200-40 -200200-40 -200200es71770FOV:30°,远FOV:30°,近FOV:60°,远FOV:60°,近FOV:90°,远FOV:90°,近0图4。不同FOV(30°,60°,90°)和主体到摄像机距离(近,远;图1)的旋转量与3D到2D映射误差的关系。(a)偏航旋转;(b)俯仰旋转。y轴显示相对于眼间距的误差率(图2);例如,0.01表示0.01d_iod。请注意,随着FOV的增加,误差也会增加;每个子图的y轴范围单独缩放以增强解释。0优化0在所有实验中,我们使用高斯-牛顿优化算法来最小化(6)和(8),因为这个算法已经被之前的研究使用过(第2.2节)。为了初始化(6)中的估计旋转矩阵,我们使用通过最小化简化函数(8)获得的旋转矩阵。03D到2D映射误差的分析0我们现在通过实验证明了WP相机的3D-2D映射误差如何随着头部旋转而变化。度量。第k个序列的第i个面部点的映射误差为∣∣ ˜x_k_i − W ( σ � ) R � ¯X_k_i ∣∣,其中σ �和R �0通过最小化J_0获得(第3节)。我们报告了所有N =68个地标点的平均映射误差(e_overall),以及与眉毛(e_brow),眼睛(e_eyes)和嘴巴(e_mouth)相关的地标的平均误差。设I_eyes为包含与眼睛对应的地标索引的集合(即图2b中的黄色点)。然后,眼睛地标的平均映射误差e_eyes通过对序列和I_eyes中的地标进行平均计算如下0e_eyes∶= 10K0K0k = 10∣ I_eyes∣0N0i = 10∣∣ ˜x_k_i − W ( σ � ) R �¯X_k_i ∣∣0d_k_iod,(11)0在我们将3D人脸的眼间距d_k_iod进行分割以更好地解释误差时,误差e_overall,e_brows和e_mouth的计算方式类似,只需相应地替换I_eyes集合(I_overall为{1,...,N})。结果。图4显示了旋转角度对平均误差e_overall,e_brow,e_eyes和e_mouth的影响;每个面板显示了唯一FOV和主体到摄像机距离组合的误差。符号θ和φ分别表示偏航和俯仰轴的旋转。如预期,当人脸大小保持不变时,映射误差随着FOV的增加而增加(图1c)。当主体靠近摄像机时,误差也会增加0靠近摄像机时,映射误差增加。由于面部相对于垂直线大致对称,偏航轴的旋转(图3a)会生成一个几乎对称的误差模式(图4a)。每个面部特征的平均误差都有所不同。眉毛在偏航旋转中始终产生最高的误差,其次是眼睛和嘴巴。对于俯仰旋转,特征的误差排名取决于旋转量。FOV为60°时的误差可以接近0.1d_iod,这对于肉眼来说是相当明显的;例如,足够大以产生抬起/放下的眉毛或眨眼的印象(图2b)。04.4. 虚假表情系数分析0我们现在分析虚假表情的幅度,这是由定理3.1所暗示的。重要的是,我们展示了虚假表情如何随面部表情PDM B的选择以及面部姿态、FOV和主体到相机距离的变化而变化。度量标准。我们通过第k个序列中估计的表情Be � k的ℓ2范数来测量虚假表情的幅度。由于我们的序列不包含表情变化(第4.1节),非零的e �k总是表示虚假表情。与第4.3节类似,我们分别报告眼睛、眉毛和嘴巴的虚假表情的平均幅度。眼睛的虚假表情的平均幅度用yeyes表示,并通过对K个序列进行平均计算,如下所示:0y eyes ∶= 10K0K0k = 10∣ I eyes ∣∑0∣∣[ Be � k ]′ i ∣0d k iod(12)0其中I eyes和d kiod的定义如第4.3节所述。这里我们仅考虑沿x轴和y轴的虚假表情幅度:[ � ] ′i运算符解析与表情变化对应的两个值,忽略z轴;即[ Be � k ]′ i包含向量Be �k的位置3i−2,3i−1的值。这使我们能够将眼睛的虚假表情幅度y eyes与71780真实投影(CCD相机)0WP投影0图5.根据正确的透视投影(CCD相机模型)和根据WP投影进行面部点的投影,对于FOV为90°和主体到相机距离较近以及-45°、0°和45°的俯仰旋转。WP投影分别使用(a)没有表情PDM,即B =0,(b)使用Basel'17 PDM和(c)使用ITWMM PDM。0当没有旋转时,眼睛的3D到2D映射误差的平均幅度,所有点的虚假表情的平均幅度,整体上,以及其他面部特征,如眉毛,嘴巴,计算方式类似。面部表情PDMs。我们使用两个PDMs,据我们所知,这是唯一公开可用的仅用于建模表情的PDMs:(i)Basel'17:Basel'17模型的表情PDM[18];(ii)ITWMM:朱等人的野外方法的表情PDM[41],也被野外可塑模型研究[12]使用。我们省略了不仅仅建模表情的PDMs(例如OpenFace PDMs[10],SurreyPDM[20])。结果。当我们使用表情PDM时,估计的2D点显著改善(例如,将图5 b,c与图5a进行比较),如定理3.1所预测的。然而,这会导致虚假表情(图6),从而损害了姿态-表情分离,我们在本节中详细阐述。图7定量化了不同PDMs以及FOV和主体到相机距离的虚假表情的幅度。如定理3.1和随后的论证所预测的,总是存在虚假表情。虚假表情的幅度随着FOV的增加而增加,并且当主体靠近相机时也更高。然而,图7揭示了一个不明显的重要结果:具有小的3D到2D映射误差的面部部位可能具有较高的虚假表情,反之亦然。例如,嘴巴的映射误差(图4 a)相对较低,而ITWMMPDM的嘴巴的虚假表情大于其他特征的虚假表情(图7a)。另一个新颖的结果是,虚假表情的幅度通常大于映射误差。这些观察结果可以通过以下事实解释:当最小化(6)时,e不是唯一的变量,优化算法确定的最佳R和σ取决于B是否为0。R和σ的值差异导致额外的地标移动,通过激活额外的e系数来进行补偿。图7的另一个重要结果是,虚假表情的幅度以及具有最高虚假表情的面部特征取决于所使用的PDM。例如,ITWMM0(a) (b)0图6. 通过最小化JB获得的伪表情,其中使用的B是(a) Basel'17PDM和(b) ITWMMPDM。每个红色箭头表示伪表情Be�对应的地标的影响。0PDM对嘴部区域的错误较大,而Basel'17PDM对所有特征的错误相当。04.5. 伪动作单元的分析0虽然我们已经证明了伪表情的存在,但自动面部表情分析系统是否对其具有重要的实际影响仍然是一个问题。在本节中,我们将展示伪表情确实可能会造成损害,并在AU检测应用中导致误报。为此,我们训练以表情系数e�为输入并输出预测AU的AU检测器。我们使用SVM分类器,并避免使用更复杂的分类器(例如深度学习),因为我们的目的不是最大化AU检测准确性,而是分析可能由伪表情系数e�引起的误报。训练AU检测器。我们使用MMI数据集[23]中包含时间相位注释的327个视频进行AU检测器的训练。我们为8个AU(AU1、AU2、AU4、AU45、AU12、AU17、AU25和AU26)训练了8个检测器。为了训练它们,我们通过最小化(6)计算e�系数。由于MMI数据集是2D的,它没有(6)中所需的中性3D面部形状{¯Xi}Ni=1。为了估计{¯Xi}Ni=1,我们使用每个MMI视频的第一帧;这包含了一个中性表情,因此我们可以使用Basel'09模型从该帧估计人的3D形状。我们使用差分特征训练每个AU检测器;即,我们从包含AU的帧中减去第一帧(即中性帧)的表情系数。作为负样本,我们使用具有其他AU的帧和没有AU的帧(即除第一帧之外的中性帧)。我们通过F1分数对每个AU检测器进行了5折交叉验证(表1)。任何AU的假阳性率(FPR)都不超过0.02(表1),突出了实验的可行性;即,我们可以可靠地断定测试集中的误报主要是由伪表情引起的。Basel'17PDM在大多数AU上实现了最高的F1分数[23]。测试序列。我们的测试序列严格来说是1200个合成序列(第4.1节),这些序列没有表情变化,因为我们的目的是分析当AU检测器被提供伪系数时的行为。因此,对于我们的测试序列中的任何帧,输出为正的AU检测器将产生误报。-40 -2002004-40 -200200.04-40 -200200.1-40 -200200.09-40 -200200.09-40 -200200.08-40 -200200.21-40 -200200.18-40 -200200.15-40 -200200.13-40 -200200.35-40 -200200.24-40 -2002001-40 -2002007-40 -200200.27-40 -200200.19-40 -200200.24-40 -200200.17-40 -200200.57-40 -200200.46-40 -2002000.4-40 -200200.32-40 -200200.95-40 -200200.67-40 -2002001-40 -200200-40 -200200-40 -200200-40 -200200-40 -200200-40 -2002001-40 -2002001-40 -2002001-40 -2002001-40 -2002001-40 -2002000.51AU1AU2AU4AU45AU12AU17AU25AU26F10.660.640.470.700.430.480.800.45TPR0.580.630.410.580.310.360.720.36FPR0.010.010.020.010.010.020.020.02ITWMMF10.620.420.40.680.340.360.80.08TPR0.490.310.280.560.240.240.710.05FPR0.000.010.010.010.010.010.020.01FPRθ =18Nseq ∑i∈IAUFPAUiθ(13)71790(a)0视场角:30°,远视场角:30°,近视场角:60°,远视场角:60°,近视场角:90°,远视场角:90°,近0(b)0Basel'17ITWMMBasel'17ITWMM0图7. 对Basel'17 PDM和ITWMMPDM分别显示的伪表情的幅度与旋转量的关系进行分析,以及不同FOV(30°、60°、90°)和主体到摄像头距离(近、远;见图1)进行分析。 (a) 偏航旋转;(b)俯仰旋转。y轴显示相对于眼间距离diod(图2)的错误率。注意,伪表情随着FOV的增加而增加;每个子图的y轴范围单独缩放以增强解释。0(a)0(b)0Basel'17ITWMM0视场角:30°,远视场角:30°,近视场角:60°,远视场角:60°,近视场角:90°,远视场角:90°,近0图8. 不同FOV(30°、60°、90°)和主体到摄像头距离(近、远;见图1)的旋转量对应的AU误报率(FPR)。 (a) 偏航旋转;(b) 俯仰旋转。0表1.AU检测结果以F1分数、真阳性率(TPR)和假阳性率(FPR)报告,分别针对Basel'17 PDM和ITWMM PDM。0Basel'170度量。我们测量每个AU的误报率(FPR)。为了简洁起见,我们报告所有AU的平均FPR。我们有N seq =600个带有偏航旋转的序列(第4.1节)。在θ度下的8个AU的平均FPR为0偏航旋转用FPR θ 表示,其定义为0其中FP AU i θ是AU i 在θ度偏航旋转下的误报数量,IAU是我们使用的8个AU的集合。在φ度俯仰旋转下的AU的平均FPR,FPR φ,类似地定义。结果。图8显示了合成序列上AU检测的FPR(第4.1节)。如前几节的结果所预期的那样,FPR随着视场角的增大而增加,并且当主体离相机越近时,FPR越高。然而,即使FOV只有30°,主体距相机的距离如图1c(底部)所示,对于25°的俯仰或偏航旋转,FPR仍然不为零。71800更高。对于60°的视场角,即使旋转角度略高于0°,仍存在一些误报的AU。总之,面部姿态和表情分离的标准方法导致了不可接受的误报数量。使用原始ITWMM软件的结果。为了验证本节的发现,我们使用原始的ITWMM[12]源代码(使用WP相机)重复了实验,据我们所知,这是唯一一个包含仅用于表情的单独PDM并使用高斯牛顿优化的公开可用的基于2D的3D面部形状估计方法。结果同样表明了严重的姿态敏感性,并且即使面部远离相机,所有视场角下都存在误报的AU(附录C)。这个实验确保了我们的发现不是我们自己实现的人为因素,进一步强调了WP相机模型引起的虚假面部表情的重要性。使用透视相机的结果。为了验证误报的AU是否源自WP相机,并且不是由于训练集和测试集(MMI与合成图像)之间的数据特征的变化,我们通过将(6)中的WP模型替换为真实的相机模型(根据(2)的透视变换)重新运行了本节的实验。在这种情况下,无论视场角还是主体到相机的距离如何,都没有AU的误报,这并不奇怪,因为我们使用的是无噪声的3D和2D点。05. 讨论0近20年来,WP相机一直是几乎所有分离面部姿态和表情的方法中的常见组件。虽然它仍然是最近在顶级会议和期刊上发表的研究中的默认相机模型,但WP相机对于这个任务的适用性从未得到彻底和系统地调查过(第1.1节)。我们的研究在批判性地评估这个问题方面迈出了第一步,并得出了两个重要的发现。首先,即使WP相机的误差确实很小,姿态和表情也无法可靠地分离。这是一个特别引人注目的发现,因为它与传统观点相矛盾,即当面部离相机较远时,WP相机是可用的(第1.1节)。在这些情况下的不确定性是由估计的旋转和表情系数之间的相互作用引起的:优化算法可以找到一个解释2D点的好解,但姿态和表情参数是错误的(第4.4节)。此外,我们的结果强调了用于建模表情的PDM对错误的数量和特征(即虚假表情)有重要影响。这些观察自然引出了一个问题(以及未来的研究方向):是否可以找到PDM的设计准则,以最小化虚假表情?作为一个糟糕设计的PDM的极端例子,可以想象一个包含类似于0旋转。在这种情况下,即使没有相机近似误差存在,也不能保证通过最小化(6)来正确估计姿态和表情。其次,我们的实验证明了WP相机的近似误差在瞳距diod方面是特别不可靠的,特别是对于从近距离摄像头(如智能手机或网络摄像头)记录的面部表情(图1)。鉴于最近这种视频的激增,新的方法和软件可能需要重新考虑使用WP相机。虽然在使用完全未知来源的图像的应用中使用WP相机模型可能是合理的,在许多应用中,它是没有理论或实际理由的。例如,在大多数临床应用或个人社交/娱乐/艺术应用中,使用的相机是已知的。可以使用图像的元数据或相机的技术规格(即FOV和图像宽度/高度),或添加简单的相机校准步骤,来估计真实的透视投影,从而消除对WP相机的需求。面部表情分析软件应该警告用户关于默认的WP相机的限制,并鼓励使用真实的投影矩阵,特别是如果相机具有大的FOV和/或面部大小相对于图像来说很小。06. 结论0我们重新审视了一个研究了20多年的问题,即在2D图像中分离面部姿态和表情,并表明使用WP相机模型是实现可靠结果的障碍。我们在理论上证明了WP相机会产生虚假表情。我们的系统实验表明,与常识相反,即使被拍摄对象远离相机(即WP相机的误差很小),姿态-表情歧义仍然存在。我们还表明,虚假表情导致面部AU检测中的误报。我们讨论了我们发现的影响,并提出了未来研究方向,以解决WP相机引起的问题。值得注意的是,WP相机在许多计算机视觉应用中被使用(第1.1节),这表明本研究的发现可能对面部分析之外的应用有影响。0致谢0E. Sariyanidi、C. J. Zampella、R. T. Schultz和B.Tunc的工作部分由美国NIMH基金会的R01MH118327号和Eagles Autism Foundation资助。R. T.Schultz的工作部分还得到了McMorris FamilyFoundation的资助。0参考文献0[1]会议室摄像头比较。https://cdn2.hubspot.net/hubfs/2799205/71810会议室摄像头比较。pdf?t=1510772566947。访问日期:2010-09-1。10[2]GoPro相机。https://gopro.com/help/articles/question_answer/hero7-field-of-view-fov-information。访问日期:2010-09-1。10[3]iPhone相机。https://developer.apple.com/library/archive/documentation/DeviceInformation/Reference/iOSDeviceCompatibility/Cameras/Cameras.html。访问日期:2010-09-1。10[4] LogitechB910高清网络摄像头。https://www.logitech.com/assets/64666/2/b910datasheet.pdf。访问日期:2010-09-1。10[5] Logitech C930e1080p高清网络摄像头。https://www.logitech.com/en-us/product/c930e-webcam。访问日期:2010-09-1。10[6] 三星GalaxyS10e、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功