没有合适的资源?快使用搜索试试~ 我知道了~
首页计算机视觉中头部姿态估计的研究综述Head Pose Estimation in Computer Vision: A Survey(中文)word
资源详情
资源评论
资源推荐

Head Pose Estimation in Computer Vision: A
Survey
Erik Murphy-Chutorian, Student Member, IEEE and Mohan Manubhai Trivedi,
Senior Member, IEEE
摘要
估计另一个人头部姿势的能力是一种常见的人类能力,对计算机视觉系统
提出了独特的挑战。 与作为面部相关视觉研究的主要焦点的面部检测和识别相
比,身份不变的头部姿势估计具有较少的严格评估的系统或通用解决方案。 在
本文中,我们讨论头部姿势估计的固有困难,并提出描述该领域演变的有组织
的调查。 我们的讨论侧重于每种方法的优缺点,并涵盖了 90 篇关于该主题的
最具创新性和特色性的论文。 我们通过关注它们估计粗糙和精细头部姿势的能
力来比较这些系统,突出显示非常适合无约束环境的方法。
关键词
头部姿势估计,人机界面,手势分析,面部标记,面部分析
I.引言
从很小的时候开始,人们就能够快速,轻松地解释人类头部的方向和运动,
从而可以推断出附近其他人的意图并理解一种重要的非语言形式的交流。完成
此任务的难易程度掩盖了数十年来一直挑战计算系统的问题的难度。在计算机
视觉环境中,头部姿势估计是从数字图像推断人头部方向的过程。它需要一系
列处理步骤来将头部的基于像素的表示转换为高级方向概念。与其他面部视觉
处理步骤一样,理想的头部姿势估计器必须证明对各种图像变化因素的不变性。

这些因素包括物理现象,如相机失真,投影几何,多源非朗伯照明,以及生物
外观,面部表情,以及眼镜和帽子等配件的存在。
在计算机视觉的背景下,头部姿势估计最常被解释为推断人的头部相对于
相机视图的方向的能力。更严格的是,头部姿势估计是推断头部相对于全局坐
标系的方向的能力,但是这种细微差别需要知道固有的相机参数以消除来自透
视畸变的感知偏差。一般成年男性的头部运动范围包括从-60.4°到 69.6°的矢状
屈曲和伸展(即从颈部向后运动),正面侧向弯曲(即颈部从右向左弯曲) -
40.9°至 36.3°,水平轴向旋转(从头部向左旋转)从-79.8°到 75.3°[26]。肌肉
旋转和相对取向的组合是经常被忽略的模糊性(例如,当相机从正面观看时与
相机从正面和头部观看时相比,头部的轮廓视图看起来不完全相同转向侧面)。
尽管存在这个问题,但通常假设人头部可以被建模为无实体的刚性物体。在这
种假设下,人体头部的姿势受限于 3 个自由度(DOF),其特征可以是俯仰角,
滚动角和偏航角,如图 1 所示。
头部姿势估计与视觉注视估计有内在联系,即表征人眼的方向和焦点的能力。
头部姿势本身提供了凝视的粗略指示,其可以在人的眼睛不可见的情况下(例
如低分辨率图像,或存在诸如太阳镜的遮挡眼睛的物体)的情况下估计。 当眼

睛可见时,头部姿势成为准确预测凝视方向的要求。 生理学研究表明,一个人
对凝视的预测来自头部姿势和眼睛方向的组合[59]。 通过在不同的头部方向上
数字地组合特定眼睛方向的图像,作者确定观察者对凝视的解释在目标头部的
方向上倾斜。
在图 2 [134]所示的 19 世纪图纸中证明了这种效果的图解例子。 在该草图
中,头部的两个视图以不同的方向呈现,但是两者中的眼睛以相同的配置绘制。
瞥了一眼这个图像,很清楚,所感知的凝视方向受到头部姿势的高度影响。 如
果完全移除头部并且仅保留眼睛,则感知的方向类似于头部处于正面构造的方
向。
基于这种观察以及我们相信人类凝视估计能力正在适当地处理视觉信息,我们
假设没有先前光照条件知识的被动相机传感器没有足够的信息来准确地估计眼
睛的方向而不知道 头部方向也是如此。 为了支持这一说法,请考虑眼睛周围的
可见巩膜(即白色区域)的比例。 巩膜和虹膜之间的高对比度可以从远处辨别
出来,并且可能已经进化以促进凝视感知[54]。 使用该巩膜虹膜提示的眼睛方
向模型将需要头部姿势估计来解释凝视方向,因为任何头部运动引入不会影响

可见巩膜的凝视移位。 因此,为了在任何配置中计算地估计人类凝视,眼睛跟
踪器应补充有头部姿势估计系统。
本文介绍了过去 14 年来发表的头部姿势估计方法和系统的调查。 这项工
作由共同的主题和趋势组织,并与每种方法固有的优点和缺点的讨论相结合。
以前的文献调查考虑了一般的人体运动[76,77],人脸检测[41,143],人脸识别
[149]和影响识别[25]。 在本文中,我们提出了一种类似的头部姿势估计处理方
法。
本文的其余部分结构如下:第二部分描述了头部姿势估计方法的动机; 第三
节包含对头部姿势估计方法的有组织的调查; 第四部分讨论了可用于评估的地面
实况工具和数据集,并根据公布的结果和一般适用性对我们调查中描述的系统
进行了比较; 第五节提出了总结和总结发言。
II.动机
人们使用他们的头部方向来传达丰富的人际信息。 例如,一个人将指出他
的头部方向以指示谁是对话的预期目标。 类似地,在对话中,头部方向是一种
非语言公报,它提示听众何时转换角色并开始说话。 作为在谈话中打手势的形
式,头部的运动具有重要意义。 人们点头表示他们理解所说的内容,他们使用
额外的手势来表示不同意见,混淆,考虑和协议。 夸张的头部动作是指向手指
的同义词,它们是指导某人观察特定位置的传统方式。
除了有意识的头部姿势暗示的信息之外,还可以通过观察一个人的头部来
推断出很多信息。例如,快速的头部运动可能是惊讶或警报的标志。在人们中,

这些通常会引发观察者的反射性反应,即使在存在矛盾的听觉刺激时也很难忽
视[58]。通过从头部姿势估计建立关注的视觉焦点,可以进行其他重要的观察。
如果两个人将他们的视觉注意力集中在一起,有时被称为相互凝视,这通常表
明两个人正在进行讨论。相互凝视也可以用作意识的标志,例如,行人将等待
停止的汽车司机在踏入人行横道之前看着他。观察一个人的头部方向也可以提
供有关环境的信息。如果一个人将头转向特定方向,则很可能它朝向感兴趣对
象的方向。年仅六个月的儿童利用这种称为凝视的属性,通过观察照顾者的视
线作为环境的显着性过滤器[79]。
就像语音识别已经与许多广泛可用的技术交织在一起一样,头部姿态估计
很可能成为弥合人与计算机之间差距的现成工具。
III.头部估计方法
将头部姿势估计的各种方法组织成一个普遍存在的分类法既是挑战也是我
们的愿望。 我们考虑过的一种方法是功能分类,它按操作域组织每种方法。 这
种方法将需要分离的方法,这些方法需要来自仅需要单目视频的系统的立体深
度信息。 类似地,它将具有隔离的方法,其需要从能够适应远场视图的低分辨
率的那些人的头部的近场视图。 另一个重要的考虑因素是每个系统提供的自动
化程度。 一些系统自动估计头部姿势,而其他系统则假设具有挑战性的先决条
件,例如必须事先知道的面部特征的位置。 使用当今可用的视觉算法是否能够
精确满足这些要求并不总是很清楚。
剩余37页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论1