没有合适的资源?快使用搜索试试~ 我知道了~
1一种基于深度的鲁棒三维人脸姿态跟踪卢胜1蔡健飞2詹达仁2弗拉基米尔·帕夫洛维奇3王毅11香港中文大学2南洋理工大学3罗格斯大学{lsheng,knngan}@ ee.cuhk.edu.hk,{asjfcai,astjcham}@ ntu.edu.sg,vladimir@cs.rutgers.edu摘要本文研究了在严重遮挡和任意面部表情变化的无约束场景下基于深度的鲁棒3D人脸姿态跟踪问题。 不像以前的基于深度的判别或数据驱动的方法,需要复杂的训练或手动干预,我们提出了一个生成框架,统一的姿态跟踪和人脸模型适应的飞行。特别是,我们提出了一个统计的三维人脸模型,拥有的灵活性,以产生和预测的分布和不确定性的人脸模型。此外,与采用基于ICP的面部姿态估计的现有技术不同,我们提出了基于面部模型对输入点云的可见性来正则化姿态的光线可见性约束,这增强了对遮挡的鲁棒性。在Biwi和ICT-3DHP数据集上的实验结果表明,该框架是有效的,优于最先进的基于深度的方法。1. 介绍鲁棒的3D人脸姿态跟踪是计算机视觉和计算机图形学领域中的重要课题,其应用于面部表演捕获、人机交互、沉浸式3DTV和自由视角TV以及虚拟现实和增强现实。传统上,面部姿态跟踪已在RGB视频上成功执行[22,3,16,4,14,15,21,33,42]对于良好约束的场景,由照明变化、阴影和大量遮挡所带来的挑战阻碍了基于RGB的面部姿态跟踪系统在更典型的无约束场景中的应用。来自商品实时范围传感器的深度数据的利用已经导致更鲁棒的3D面部姿态跟踪,不仅通过使得能够沿着深度轴配准,而且通过提供用于遮挡推理的线索。虽然通过在无约束的面部姿态跟踪中利用RGB和深度数据已经证明了有希望的结果,但是当RGB数据由于不一致而较差时,现有方法还不能可靠地应对。图1.我们的身份自适应人脸姿态跟踪系统是鲁棒的闭塞和表情失真。(a)姿态估计与严重闭塞。人脸模型与输入点云重叠,其中可见人脸点用红色标记(b)在不同的表情下跟踪姿势。估计的人脸身份不受表情的干扰。或照明条件差。此外,在隐私是主要关注点的情况下,RGB数据可能并不总是可用的。因此,研究仅使用深度数据的鲁棒的3D人脸姿态跟踪,作为传统跟踪系统的一种完全替代方案,是有意义的。我们希望在仅跟踪深度数据时解决的一些新挑战包括:(1)应对复杂的自闭塞和由头发、配饰、手等引起的其他闭塞; (2)维持一个始终在线的面部跟踪器,可以动态地适应任何用户,而无需手动校准;以及(3)为用户表达中的变化提供随时间的稳定性。与之前需要复杂训练或手动校准的基于深度的判别或数据驱动方法[35,7,28,18,17,30,20]不同,在本文中,我们提出了一个框架,该框架将姿态跟踪和面部模型动态自适应统一起来,提供高度准确,遮挡感知和不间断的3D面部姿态跟踪,如图所示。1.一、这项工作的贡献有三个方面。首先,我们为生成3D人脸模型引入了一种新的分析概率公式,推进了早期的3D多线性张量模型[12,38],并鼓励分组姿态估计和表情不变人脸模型更新。其次,我们提出了一种基于最小化信息的遮挡感知姿态估计机制4488(一)(b)第(1)款4489idexp.- 理论光线可见性分数,其使当前深度帧中的面部模型的可见性规则化。 这是基于基于一种潜在的直觉,即可见面部模型点必须或者作为可见点与所观察的点云共同定位,或者作为遮挡点位于点云后面。我们的姿态估计方法不需要明确的对应关系,准确地估计面部姿态,同时处理遮挡。第三,我们提出了一种紧耦合的在线身份自适应方法,该方法通过连续输入深度帧逐渐使人脸模型适应捕获的用户。这通过在生成过程中的跟踪过程期间跟踪身份发现来完成。2. 相关工作随着消费级深度传感器的普及,除了基于RGB的面部姿态跟踪系统[22,3,16,4,14,15,21,33,42]之外,已经提出了各种3D面部姿态跟踪和模型个性化框架。一类方法采用深度特征,例如由表面曲率定义的面部特征[35],鼻子检测器[7]或三角形表面补丁描述符[28]。然而,当在高噪声深度数据、极端姿态或大遮挡的条件下不能检测到这样的特征时,这些方法可能失败。使用了Tor兼容性标准[31,19,41,23]。可能的补救措施包括粒子群优化[27],用于优化精细的目标函数[26]。最近,Wanget al. [39]通过考虑多视图可见性一致性,满足一般移动对象的部分配准,并更好地处理遮挡。我们提出的光线可见性分数在人脸模型和输入点云之间结合了类似的可见性约束,但具有概率公式,这能够更鲁棒地处理3D人脸模型中的不确定性,因此不太容易接近ICP中经常遇到的局部最小值。3. 概率三维人脸参数化在本节中,我们将介绍具有概率解释的3D人脸模型,该模型可作为人脸姿态估计和人脸身份自适应的有效先验。3.1. 多线性人脸模型我们应用多线性模型[12,38]来参数化地生成适应不同身份和表达的任意3D面部。它由一个三维张量C2R3NM<$Ni d<$Nexp控制 每个维度分别对应于形状、身份和表达。多线性模型表示3D面另一种类型的方法适用于歧视性f=(x1,y1,z1, . ...... 你好 。,xNM,yNM,zNM)>由NM基于随机森林的方法[18,17],深度Hough网络[30],或者找到输入深度图像和预定义的标准面部模型[20,40]之间的密集对应场。虽然这些方法是有前途的和准确的,他们需要广泛的和复杂的监督训练与大规模的数据集。另一种方法涉及3D面部模型到输入深度图像的刚性和非刚性配准,或者通过使用3D可变形模型[1,11,10,9,13,29,8,6,19,26,24,34],或蛮力逐顶点3D面重建。建筑[37,41,23]。 尽管这样的系统可能是准确的,但是大多数需要离线初始化或用户校准来创建特定于各个用户的面部模型。还有一些后续方法在主动跟踪期间随着时间的推移逐渐细化3D可变形模型[24,26,6,19,36]。 我们提出的方法进入这个类别。除了现有的多线性人脸模型[12,38]被区别地应用于跟踪之外,我们通过一个新颖而完整的概率框架增强了这个人脸模型,在这个框架中,由于表情变化引起的不确定性被明确建模,同时保留用户身份,从而增加了跟踪的稳定性。一个相关的问题是处理在跟踪过程中出现的遮挡。虽然可以通过人脸分割[19,32]或基于块的特征学习[17,18,30,20]来区分标记遮挡,但当典型的距离测量或正常向量时,基于ICP的人脸模型注册框架不能很好地vertices(xn,yn,zn)> asf=<$f+C2w>3w>,(1)其中wid2RNid和wexp2RNexp分 别是恒等式和表达式的线性权重。 表示第i个模积. f是训练数据集中的平均值。张量C,或称为核心张量,编码子空间通过对训练数据集进行高阶奇异值分解(HOSVD)来计 算 跨 越 人 脸 的 形 状 变 化 的 特 征 , 即 ,C=T2Uid3Uexp. Uid和Uexp是从模式2和模式3 HOSVD到数据张量T2R3NMNi dNexp的酉矩阵。T是3D张量从face中收集fsets的平均face′f在训练数据集中具有不同身份和表达的网格。 我们使用FaceWarehouse数据集[12]作为训练数据集,因为它包含数千个面部网格,这些面部网格具有全面的表情集和各种身份,包括不同的年龄、性别和种族。3.2. 统计人脸模型与传统的方法不同,我们不像传统的方法那样使用具有精确确定的参数的单个人脸模板来拟合目标点云或跟踪其运动,因此可能导致对用户的不良拟合或者与局部表达变化不兼容。相反,我们提出了一个人脸模型,其中人脸形状可以从计算的分布中概率生成,具有以下动态:4490expIDNexpN NIDexp(a)总体差异图2.在FaceWare内部数据集中训练的人脸模型的统计数据[12]。(a)总体形状变化。(b)-(c)分别通过宽度和宽度的形状变化。(d)方程中剩余项的形状变化。(二)、形状变化被设置为边缘化的每个顶点分布的一个被跟踪的面部被可靠地预测。这样的模型本质上提供了概率先验鲁棒的人脸姿态跟踪。3.2.1身份和表达先验假设恒等权重wid和表达式权重wexp遵循两个独立的高斯分布是合理的,wid=μid+ μi d,μid=N(μi d|0,i d)和wexp=µexp+ex p,expN(ex p|0,xe× p)。 这些先验分布可以从训练数据中估计。特别是我们知道µid=1U>1和µexp=1U>1。的我们还感兴趣的身份适应是不变的表达变化。人脸模型和身份参数的联合分布为p(f,wi d)=pM(f|wi d)p(wi d)=N(f|f+Pi dwi d,E)N(wi d|i d,(四)其中表达式的方差在似然p(f)中捕获|wid)。因此,它对表情导致的局部形状变化具有鲁棒性,并且wid的后验将受用户当前表情的影响较小另一方面,一旦身份适应于当前用户,它将有助于调整表情方差,从而增加姿态估计的鲁棒性。如图如图2所示,与头部的其他部分相比,整体形状变化(表示为每像素标准偏差)在面部区域中是最显著的。我们进一步观察到,这种形状变化-同一性的差异决定了这一过程,正如编码为Pi idP>的那样。然而,正如预期的那样,由表达式“EEE”引起的形状不确定性通常局限于嘴部和下巴周围以及脸颊周围区域眉毛。更重要的是,在方程中的残差项(2)比那些低得多的数量级NididNexpexp仅仅是因为身份和表达。方差矩阵被设置为具有尺度的单位矩阵即,id= σ2I,其中σ2=1和4. 概率面部姿态跟踪idexp.idNid2exp =1是从训练集中经验学习的。exp在这一节中,我们提出了我们的概率面部姿势,请注意,µid(或µexp)不应为0,因为它可能会让人脸模型f对wexp(或wid)不敏感[5]。4.1.1多线性人脸模型先验关于wid和wexp的正则人脸模型M可以写成f=<$f+C2µid3µexp+C2µid3µexp(二)+C2µid3exp+C2µid3exp。(2)中的最后一项在形状变化上通常可以忽略不计,如图所示。二、因此,M近似遵循高斯分布,pM(f)=N(f|µM,μM),(3)其中,其中性面为µM=<$f+C2µid3µexp,其变异矩阵由下式给出:跟踪.图3示出了总体架构,其包括两个主要组件:1)鲁棒的面部姿态跟踪,以及2)在线身份自适应。第一个组件是在给定输入深度图像和概率面部模型PM(f)的情况下估计刚性面部姿态Pmax。姿态参数θ不仅包括旋转角r,平移向量t,而且尺度s,因为面部模型可能由于尺度差异而不匹配输入点云。第二部分的目的是更新在给定先前面部模型、当前姿态参数和输入深度图像的情况下,识别参数w_id和可能面部模型p_M(f)4.2. 鲁棒的面部姿态跟踪在跟踪之前或跟踪失败之后,我们需要检测人脸在第一帧中的位置。我们采用的头部检测方法Meyer等人。[26],并裁剪输入深度图以获得以检测到PexpΣexpP>.投影矩阵Pid和PID经验值头部中心在半径r= 100像素内。 指从该深度片提取的点云作为P。恒等式和表达式定义为:Pid=C3µexp2R3NMNid,Pexp =C2µid 2R3NMNe xp.μM为几乎与平均face<$f相同,因为kµM−<$fk2=姿态参数θ={r,t,θ}指示旋转角度、平移向量和尺度s的对数,1kCIDexp(U>1) (U>1)k20. 则意味着即,s=e>0,8 × 2R. 一个正则面模型点fn被刚性地扭曲成qn,n 2 {1,. ..,NM} asW-ID和W-exp的先验不向人脸模型添加偏差M表示训练数据集的表示(b)变异mm(c)(d)残差σ24491qn=T(r)fn=e<$R(r)fn+t,(5)4492M,eM,[n],[n]彩色图像点云姿态参数人脸模型刚体运动跟踪恒等分布输出输入身份适应图3.概述了所提出的概率框架,该框架由两个部分组成:鲁棒的面部姿态估计和在线身份适应 对于这两个分量,生成模型p(t)(f)充当关键中间体,并且它立即用身份适配的反馈来更新。系统的输入是深度图,而输出是刚性姿态参数θ(t),更新的场身份参数{μ(t),μ(t)},其编码身份分布p(t)(w)的情况。请注意,彩色图像是为了说明但在我们的系统中没有使用ID IDID本身就具有挑战性。相反,我们提出了一个光线可见性约束(RVC)来规范每个人脸模型点的可见性,基于我们开发的统计人脸先验。图4.被遮挡面的示例其中变换T(r)fn描述了这种刚性扭曲,而R(r)是旋转矩阵。因此,扭曲的面部模型Q对于每个qn2Q具有与(3)密切相关的类似分布:4.2.1光线可见性约束形式上,我们可以将连接相机中心到面模型点qn的射线指定为~v(qn,pn),通过将pn标识为P中最接近该射线的点。这个点可以通过查找表[19,23]将像素位置与qn如果qn是可见的,则它应该靠近从P提取的局部表面。如果qn不可见,pQ(qn; n)=N(qn|T()µM,[n]2↵(ω)M,[n])、(6)它必须被表面遮挡比表面。 但是,如果qn在表面的前面,其中μM,[n](ω)M,[n]是平均向量和ro-面沿射线点,应受强制处罚分别以µ M和µ M为单位的点fn的定态方差矩阵。在此基础上,我们得到了一个新的定理:ω=R(r)<$MR(r)>. 找到一个最佳的姿势来匹配扭曲的脸模型Q和输入点云P,我们期望P的表面分布在面部模型Q的分布所跨越的范围内。然而,在实际的不受控制的场景中,我们经常遇到自遮挡或对象到面部遮挡,其中被遮挡的人脸总是在遮挡对象(如头发、眼镜和手指/手)后面,如图1B所示。4.第一章在这些场景中,即使面部模型Q和输入点云P正确对齐,Q也仅部分地拟合子集点云这将把面部模型Q推得更远,qn围绕P的表面。最终,面部模型将紧密地和/或部分地拟合P,同时将其余的点作为遮挡。请带上菲格。5作为例子。P的曲面是通过将平面拟合到相邻点来局部定义的。因此,如果qn通过射线~v(qn,pn)连接到pn,则qn到表面的有符号距离为n(qn;pn)=n>(qn−pn)(7)其中nn是以点p n为中心的局部平面的法向量。基于(6),符号距离pQ!P(yn;n)可以被建模为在P中,Q中的其余点被遮挡。因此,有必要识别非遮挡⇣Ny n|(T(;pn),σ2+e2<$n><$(ω)⌘nn,或与P重叠的Q的可见部分,基于M,[n]onM,[n](八和Σ4493O)我们就能很好地跟踪面部姿态。为了识别可见部分,我们没有遵循严格的基于对应关系的方法,如距离阈值和法向量兼容性检查[19],因为找到可靠的对应关系其中σ2是考虑到表面建模误差和传感器的系统误差的P根据光线可见性约束,我们可以用标签γn={0,1}对点qn进行分类:44940OO面点可见γn= 1面点被遮挡γn= 0图5.光线可见性约束的图示。轮廓化的人脸模型和点云上的曲线位于深度相机的前面。(a)一部分面点拟合曲线,而其余点被遮挡。(b)人脸模型完全被遮挡。(c)一个算法1:鲁棒的3D面部姿态跟踪输入:输入深度帧Dt;前姿态参数θ(t−1);输出:当前姿态参数θ(t);1 θi(t);2如果跟踪失败则θ0←头部检测(Dt);3 P ←提取点云(Dt,θ0);N粒子4在初始姿态θ0周围生成粒子{φi}i=1;5 对于τ←1到Niter,6对于i←1到N粒子do7通过优化第节中的S(Q,P; φi)来更新φ i。4.1.38所有粒子的粒子群更新不现实的情况下,人脸模型遮挡点云。9θ(t)←φ最好其中S(Q,P;φ最好)的最低分数i) qn 是 可 见 的( γn= 1 ) 。 如 果 点 qn 沿 射 线 v(qn;pn)可见,则qn应该是以pn为中心的表面的圆或内圆。也就是说,(T()µM,[n];pn)应该在p Q的带宽内!P(yn)或n egat ive1:Q把pQ(qn; n)模型化到pn的局部曲面上,就像pQ!P(yn;n)。 pP(yn)可以看作是被遮挡污染的噪声场,而pQ!P(yn;n)表示具有其自身不确定性的人脸模型,投影在P的表面上。(T(;pn)σ2+e2 <$n><$(ω)n.射线可见度分数S(Q,P; P)是测量M,[n]onM,[n]QNMpP(y)=n=1pP(yn)和pQ(y;n)=1之间的相似性ii) qn是闭塞的(γn= 0)。类似地,当点qn的符号距离为正时,假定点q n被遮挡QNMn=1Q!P(yn; 10)Kullback-Leibler分歧,并且低于p Q的置信区间!P(yn;n):Q<$(T(ω)<$μ;pn)>σ2+e2<$n><$(ω)nn.S(Q,P;N)=DKL[pQ(y;N)||pP(y)](10)所以pP(y)和pQ(y;n)越相似,S(Q,P; P)是。 因此,最佳姿态参数θm是M,[n]o nM,[n]一个最小化射线可见性分数:从理论上讲,我们能够计算出{γ}NM,以便形成用于姿态的完整贝叶斯框架Q= arg min S(Q,P; Q)。(十一)nn=1θ,γ估计但在实践中,我们发现二进制标签是效率高,不会使性能降低太多。4.2.2射线可见度评分在这里,我们开发了一个光线可见性分数(RVS)来衡量人脸模型点Q和输入点云P的分布之间的兼容性。考虑连接模型点qn和输入点pn的射线v(qn,pn)。 假设Q通过符号距离y n正确对齐,则pn的分布建模为pP(yn)=N(yn|0,σ2)γnUO(yn)1−γn,(9)其中UO(yn)=UO是均匀分布。(9)考虑可见性标签。当qn可见时,pn具有相容的表面分布N(yn|0,σ2)。怎么-(c)案例三(a)案例一(b)案例二p4495M注意,(10)不仅考虑了可见点,而且在一定程度上惩罚了被遮挡点,这避免了仅具有微不足道数量的完全对准的可见点的退化解,而大部分点被标记为被遮挡。4.2.3刚体姿态估计求解(11)是具有挑战性的,因为S(Q,P;Q)是高度非线性的,没有现成的封闭形式解。在这项工作中,我们应用递归估计方法来解决这个问题。特别地,在每次迭代中,我们交替地估计中间的ε(t)和γ(t)。在第一个子问题中,我们应用拟牛顿更新<$(t)=<$(t−1)+<$(t− 1)使用S(Q,P; n(t−1))的信赖域方法,前一个 γ(t-1)。 第二,更新视野--如果qn被遮挡,则pn可以是任意的,只要它n标号集γ(t)={γ(t)}NM通过检查射线nn=1在qn的前面,我们将其建模为均匀分布,对所有点对{~v(q,p)}NM的可见性约束nnn=1(yn). 同样地,给定P,我们可以投射出1我们保持nn指向捕获的场景。 因此,负符号距离yn意味着qn在曲面的前面。当前姿态P(t)和面部模型P(t)(f)。重复该过程,直到收敛或超过预定义的迭代次数。此外,粒子群优化算法4496OnIDID为了在人脸模型已经个性化时快速捕获新用户,我们向方差矩阵添加松弛,p(t)(wid)为紧接着iden之后的<$(t)→(λ+1)<$(t)ID id表1.面部姿势数据集汇总乳房适应。这个过程类似于添加更多从恒等空间中的方差到μ(t),因此它将ID id(PSO)[27,26]的方法,以有效地消除由于初始化不良而导致的未对准问题,并在优化陷入RVS的不良局部最小值时纠正错误估计。算法1中列出了刚性面部姿态跟踪的草图。4.3. 在线身份适应与刚性姿态跟踪并行,面部模型也逐渐更新以适应用户的身份。由于当新用户第一次出现在传感器中时,身份最初是未知的,因此我们从通用的人脸模型开始,然后逐渐个性化身份。在这项工作中,表达的局部形状变化在我们的概率模型中被有效地分离,因此估计的身份对表达变化的干扰是鲁棒的。如图所示, 3.2、利用身份分布p?(wid)=N(wid| µ?,你呢?)的情况。但是,确切的P?如果没有足够的深度样本可用,则(w_id)是未知的。因此,脸的身份重新-需要顺序更新,如假设密度滤波(ADF)[2],以从后验近似p(t)(wid)由当前似然pL(y(t))引起|wid; n(t))和先前的最佳估计p(t-1)(wid)。似然pL(y(t)|wid; t(t)),其对从可见面部模型点到P的表面的距离以及被遮挡点的距离进行建模:既不会失去描述新面孔的能力,也不会失败,保持估计的恒等空间的形状。5. 实验与讨论5.1. 数据集和系统设置我们在两个公开的基于深度的基准数据集上评估了所提出的方法,Biwi Kinect头部姿势数据集[18]和ICT3D头部姿势(ICT-3DHP)数据集[1]。数据集总结列于选项卡中。1.一、Biwi数据集:Biwi数据集包含24个序列中20个受试者(不同性别和种族)的超过15 K RGB-D图像,旋转和平移范围很大。记录的人脸受到头发和配饰的遮挡以及面部表情的形状变化。ICT-3DHP数据集:ICT-3DHP数据集提供了10个KinectRGB-D序列,包括6个男性和4个女性。数据包含类似于Biwi数据集的遮挡和扭曲。该数据集中的每个受试者也涉及任意表达变化。系统设置:我们在MATLAB中实现了所提出的三维人脸姿态跟踪算法。本文报告的结果是在3.4 GHz IntelCore i7处理器上测量的,具有16GB RAM。未应用GPU加速人脸模型的维数为NM= 11510,Nid= 150,Nexp= 47。 在实践中,我们采用了截断多-线性模型,具有较小的维度,如Nid=28,Nexp=7 .第一次会议。我们将噪声方差设为σ2= 25,分布的特征为U0(y)=U0=12。λ是NYM pQ!P(y(t)|wi d;(t))γnUO(y(t))1−γn,(12)根据经验设定为0.25。2500n nn=1我们的方法在一个帧周期内调整身份,并继续下去,直到调整后的人脸模型收敛,即,的其中投影分布pQ!P (y(t)|wid; n(t))是相邻人脸模型类似于p(y(t);n(t))在(8)中,但具有不同的小于给定阈值(例如,5毫米)。在线Q!潘每10帧执行一次 人脸自适应,以避免过度平均值mn=0T(n(t))n(<$fn+Pidwid);pn和变量,符合部分面部扫描(吨)强度σ2=σ2+e2σn(t)>n(t−1)n(t)。为了消除不不E,[n]n5.2. 与最先进技术的量化误差的输入点云,我们修改,∆˜(qn;pn)=sign(∆(qn;pn))max{|n(qn;pn)| -“,0}。恒等分布p(t)(wid)= N(wid| μ(t),μ(t))我们将我们的方法与用于基于深度的3D面部姿态跟踪的许多现有技术[18,26,25,1,28,27,24]进行ID id通过最小化DKL[p(t)(wi d)||p(wi d|y(t)][2]的文件。 特别是,我们计算后验p(wid|y(t))=L(y(t))|wid; n(t))p(t−1)(wid).(十三)N序列NfrmNsubj困难ωmaxBIWI [18]2415K25闭塞表达式±75μma w±60间距ICT-3DHP [1]1014K10闭塞表达式±75μma w±45间距4497[18]和ICT-3DHP [1]数据集。选项卡. 图2显示了Biwi数据集上旋转角度的平均绝对误差和平移的平均欧几里得误差。旋转误差进一步量化,p(t)(wid)的参数)通过各种方法进行估算分别关于偏航角、俯仰角和滚转角。模拟在Tab.3,我们评估平均旋转误差,贝叶斯框架[2]。 我们根据经验发现,该过程在3到15次迭代内收敛。2注意本文所用的计量单位为毫米(mm)4498(a)Biwi数据集(b)ICT-3DHP数据集图6.(a)使用个性化人脸模型跟踪Biwi数据集的结果(b)跟踪ICT-3DHP数据集的结果提取的头部区域的点云与个性化的人脸模型重叠我们的系统对轮廓人脸和遮挡具有很好的鲁棒性,对人脸表情变化也很有效。方法错误偏航Pitch()Roll()平移(mm)我们2.32.01.96.9RF [18]8.98.57.914.0马丁[25]3.62.52.65.8CLM-Z [1]14.812.023.316.7[28]第二十八话3.93.02.58.4[27]第二十七话11.16.66.713.8迈耶[26]2.12.12.45.9[24]第二十四话2.21.73.2−表2.Biwi数据集的评价方法错误Yaw()螺距(o)滚动(◦)我们3.43.23.3RF [18]7.29.47.5CLM-Z [1]6.97.110.5[24]第二十四话3.33.12.9表3.对ICT-3DHP数据集的评价ICT-3DHP数据集。请注意,参考方法的结果直接取自其各自作者在文献中报告的结果。在Biwi数据集上,所提出的方法在基于深度的头部姿势跟踪算法中产生了整体最低的旋转误差[18,1,25,28,24,27,26]。虽然没有使用外观信息,但所提出的方法与最先进的方法[24](标记为?在选项卡中。2和3),采用RGB和深度数据。类似的结论也可以在ICT-3DHP数据集上绘制,与随机森林[18]和CLM-Z [1]相比,所提出的方法在估计旋转参数方面也实现了优异的性能。我们的性能类似于Li [24],尽管没有使用颜色信息。图7.身份适应的例子。我们的方法成功地-完全适应不同的身份的通用模型。数 据 集 3. 针 对 Meyer 等 人 的 视 力 下 降。 ”[26] 见 《 说文》。2可能是因为Biwi数据集中的地面真实人脸模型与基于[12,38]提出的统计多线性人脸模型之间的模型配置不兼容。5.3. 视觉结果图6示出了基于逐渐适应的面部模型的对Biwi和ICT-3DHP数据集的一些跟踪结果。虽然使用通用模型已经可以在具有挑战性的情况下实现良好的性能,如遮挡和表达变化与不良的初始姿势,如图所示。9、使用个性化的人脸模型在旋转和平移度量方面都取得了更好的效果。此外,个性化的形状分布使人脸模型能够与输入点云拟合,而个性化的表情分布使估计的人脸姿态对个性化表情的变化具有鲁棒性。图7报告了一些个性化的面部模型,以视觉上验证性能。对于平移参数,在Biwi 3上也实现了非常有竞争力的性能,Groundtruth翻译不适用于ICT-3DHP数据集[1]。4499(b)点云(c)初始对齐(d)我们的(a)彩色图像(b)点云(c)初始对齐图8.刚体姿态估计方法与通用人脸模型的比较。(a)彩色图像及其对应的点云。(c):两种观点的初步路线。(d):比较方案的结果[31]。(e):通过最大化对数似然good的结果logpQ!P(y;θ)。(f):通过最小化RVS得到的结果。(g)用粒子群算法(PSO)增强RVS方法对于刚体姿态跟踪,我们的方法有效地抑制了头发、配饰和手等因素造成的遮挡,以及轮廓脸等自遮挡,如图1所示。6通过个性化的人脸模型,和图。9和8的通用人脸模型。图1(a)还可视化了个性化面部模型上的可见性掩模,表明所提出的方法可以有效地将遮挡从姿态估计以及面部模型自适应中剪除。与迭代最近点(ICP)[31]等常见技术相比,所提出的方法仅需要(a)彩色图像图9.我们的刚性姿态估计的通用人脸模型的例子。(a)-(b):彩色图像和对应的点云。(c):由头部检测方法提供的初始对准[26]。(d):所提出的刚性姿态估计结果。5.4. 限制当输入的深度视频被严重的噪声、离群值和量化误差污染时,所提出的系统不可避免地是脆弱的。另一方面,有效的线索,如面部标志是不可访问的,由于丢失的颜色信息。因此,困难的面部姿势(具有极大的旋转角度或遮挡)接收较少射线集V ={~v(q,p)}NM但不需要来自光线可见性约束的置信度仍然可以nnn =1估计期间的显式对应。与此相反,ICP [31]及其变体无法检查每个匹配点对的可见性,因此无法保证合理的姿势。例如,如图2所示。8(d),ICP将面部模型与头发匹配,但尚未意识到面部不能遮挡输入点云的事实。此外,RVS不太容易受到坏的局部最小值的影响,因为它奖励概率分布pP(y)和pQ的更高重叠!P(y;y),而不是试图分别计算深度数据点和模型点。采用最大似然(ML)或最大后验概率(MAP)估计,这对分布参数的精确估计更敏感。 例如,max-最大限度地减少了李克pQ!(8)中的P(y;n)可能只是寻找一个局部模,它不能捕捉到分布的主要质量,如图所示8(e)项。相反,RVS中的Kullback-Leibler发散确保具有最佳阈值的人脸模型分布覆盖了pP(y)中传达的大部分信息。 图8和图9显示了RVS和RVS+PSO方法在处理无约束即使使用通用面部模型,也可以使用具有大旋转和严重遮挡的面部姿势。不可靠 然而,这些问题可以通过以下方式得到缓解:约束相邻帧之间的面部姿态的时间相干性,如卡尔曼滤波等。6. 结论我们提出了一个强大的3D人脸姿态跟踪的commodity深度传感器,带来了国家的最先进的性能在两个流行的人脸姿态数据集。所提出的生成式人脸模型和光线可见性约束保证了一个鲁棒的3D人脸姿态跟踪,有效地处理了严重的遮挡、轮廓人脸和表情变化,以及在线自适应人脸模型而不受人脸表情变化的干扰。鸣 谢 本 研 究 得到 新 加 坡 MoE AcRF Tier-1 Grants RG138/14和Being- Together Centre的部分支持,该中心是新加坡南洋理工大学(NTU)和北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill)之间的合作项目。BeingTogether中心由新加坡总理办公室国家研究基金会在其新加坡国际研究中心资助计划下提供支持。(d)ICP(e)RVC + ML(f)RVs(g)RVS + PSO4500引用[1] T. Baltrus spanaitis,P. Robinson和L. P.莫伦西用于刚性和非刚性面部跟踪的3D约束局部模型。正在进行IEEE会议Comput.目视模式识别。第2610-2617 页IEEE ,2012。二六七[2] C. M. Bishop和N.M. Nasrabadi 模式识别和机器学习。Springer,2006年。6[3] M. J. 布莱克和Y.雅酷利用局部参数化图像运动模型跟踪和识别 在proc IEEE会议Comput. 目视模式识别。第374-381页,1995年6月。一、二[4] 诉Blanz和T.维特用于合成3D面的可变形模型在第26届计算机图形和交互技术年会的会议记录中,第187194. ACM出版社/Addison-Wesley出版公司1999. 一、二[5] T. Bolkart和S.乌勒运动中三维人脸的统计分析 在procIEEE国际Conf. 3D Vision,第103-110页,2013年6月。3[6] S. Bouaziz,Y.Wang和M.Pauly. 实时面部动画在线建模ACM Trans. Graph. ,32(4):40,2013.2[7] M. D. Breiwei,D. Kuettel,T.魏斯湖范古尔,还有H.菲斯特从单一距离影像进行即时人脸姿态估测。正在进 行 IEEE 会 议 Comput. 目 视 模 式 识 别 。 , 第 1-8页 。IEEE,2008年。一、二[8] A. Brunton,A.Salazar,T.Bolkart和S.乌勒三维数据统计形状空间的回顾与人脸的比较计算机视觉和图像理解,128:1-17,2014。2[9] Q. Cai,C.盖洛普角zhang和Z.张某使用商品深度相机的3D可变形面部跟踪 在proc 欧元.Conf. Comput. 目视第229-242页施普林格,2010年。2[10] Y.蔡,M. Yang和Z.李使用3D变形模型的鲁棒头部姿态估计。工程中的数学问题,2015,2015。2[11] C. Cao,Y.Weng、黄毛菊S.Lin和K.舟用于实时面部动画 的 3d 形 状 ACM Trans. Graph. , 32 ( 4 ) : 41 ,2013.2[12] C. Cao,Y. Weng、黄毛菊S. Zhou,Y. Tong和K.舟人脸库:一个用于视觉计算的三维人脸表情数据库 IEEETrans. 目视Comput. Graphics,20(3):413-425,2014. 一、二、三、七[13] C. Chen,H.X. Pham,V.Pavlovic,J.Cai和G.石利用面部先验进行深度恢复 在proc 亚洲会议Comput. 目视第336-351页。Springer,2014. 2[14] T. F. Cootes,G. J. Edwards和C. J·泰勒主动应用模型。IEEE传输模式分析马赫内特尔,(6):681-685,2001. 一、二[15] D. Cristinacce和T.虱子带约束局部模型的自动特征定位。Pattern Recognition,41(10):3054-3067,2008.一、二[16] D. DeCarlo和D. Metaxas可变形模型的光流约束及其在人脸 跟 踪 中 的 应 用 。 International Journal of ComputerVision,38(2):99-127,2000. 一、二[17] G. Fanelli,J. Gall,and L.范古尔使用随机回归森林的实时头部姿态估计。正在进行IEEE会议Comput. 目视模式识别。,第617IEEE,2011年。一、二[18] G. Fanelli,T.Weise,J.Gall和L.范古尔来自消费者深度相机的实时模式识别,第101Springer,2011.一、二、六、七[19] P. - L. 谢角,澳-地Ma,J.Yu和H.李不受约束的实时面部表现捕捉。正在进行IEEE会议Comput.目视模式识别。第1675-1683页,2015年二、四[20] 诉卡泽米角,澳-地Keskin,J.Taylor,P.Kohli和S.伊扎迪 从 单 个 深 度 图 像 实 时 重 建 人 脸 。 在 3D Vision(3DV),2014年第2届国际会议,第1卷,第369-376页中。IEEE,2014。一、二[21] 诉Kazemi和J.苏利文用回归树的集合进行一毫秒人脸正在进行IEEE会议Comput. 目视模式识别。第1867-1874页,2014年一、二[22] H. Li,P. Roivainen,and R.福什海默基于模型的人脸图像编码中的三维运动估计。IEEE Trans.模式分析马赫内特尔,15(6):545一、二[23] H. Li,J. Yu,Y. Ye和C.布莱格勒实时面部动画与即时矫正。ACM事务处理图表,32(4):42-1,2013. 二、四[24] S. Li,K.恩甘河Paramesran和L.盛基于在线人脸模板重建的实时头部姿态跟踪IEEE传输模式分析马赫内特尔,2015年。二六七[25] M. Martin,F.Van De Camp和R.Stiefelhagen 在消费者深度相机上实时头部模型创建和头部姿势估计在3DVision(3DV),2014年第2届国际会议上,第1卷,第641IEEE,2014。六、七[26] G. P. Meyer,S.古普塔岛Frosio,D. Reddy和J.考茨鲁棒的基于模型的3d头部姿态估计。 在proc IEEE国际Conf. Comput. 目视第3649-3657页,2015年二三六七八[27] P. Padeleris,X. Zabulis,和A. A. Argyros基于粒子群优化的深度数据头部姿态估计。在计算机视觉和模式识别工作室(CVPRW)中,2012年IEEE计算机协会会议,第42-49页。IEEE,2012。二六七[28] C. Papazov,T.K. Marks和M.琼斯使用三角形表面块特征从深度图像实时3D正在进行IEEE会议Comput. 目视模式识别。第4722-4730页一、二、六、七[29] H. X. 范和V帕夫洛维奇在极端姿态、深度和表情变化下,从rgbd视频中进行鲁棒的实时3d人脸跟踪正在进行IEEE国际Conf. 3D Vision,第441-449页,2016
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功