E. Brau,J. Guan,T. Jeffries和K. 巴纳德
身体姿势和头部姿势分类器的输出[14,15]。相比之下,我们通过3D
身体和头部姿势的联合分布来模拟这种耦合。
头部姿势是视觉注意力集中(VFoA)识别的强有力线索,其具有潜
在的应用,例如测量公共空间中的广告或商店展示的吸引力以及分析会
议的社会动态。VFoA中的许多研究都集中在动态会议场景上,其中人们
通常坐在会议桌周围,同时被多个摄像机录制视频[5,7,8,19,42,
43,51这些方法中的大多数利用来自语音和运动活动的上下文相关信
息,并且潜在的VFoA是具有已知位置的预定义离散集合。此外,场景中
的人数是固定的,并且他们被认为坐在通常已知的位置,这在给定应用
的情况下是有意义的。
在理解行为的背景下,在监控设置中也考虑了VFoA估计[10,27,
48,49],其中,到目前为止,视觉注意力仅限于图像坐标,并且一
次一个人。然而,Benfold和Reid[10]使用校准到地平面的相机来估计
视觉注意力地图,该地图表示城镇中心场景中每平方米地面所接收的
注意力量。与我们类似,它们基于推断的视觉注意力图来识别场景中
的然而,虽然地图可以被投影到视频中以使其可视化,但是3D位置
未被推断。估计VFoA的另一个应用是人机交互场景,其涉及人与人
和机器人与人的交互[36,47,67]。 该领域中的方法通常假设大对象
(对象、机器人和对象)的已知头部姿势(取向
和
位置
)
。
例如,
M
as
s'e
等人提出了一种切换卡尔曼滤波器公式,用于根据观察到的头
部姿势和物体位置联合估计几个人的注视和VFoA [36]。此外,它们
还假设人和物体的数量是已知的,并且随着时间的推移保持不变。相
比之下,我们建议同时推断目标的数量及其在场景中的位置,同时
使用图像证据估计其VFoA
3
统计模型
图2显示了我们
使用概率图形建模符号的时间场景理解的生成统计
模型。该场景由在整个视频中在地平面上移动的多个人组成在每
个帧处,每个人可以将他们的视觉注意力集中在另一个人或位于
3D空间中的若干静态对象中的一个上我们模型的视觉焦点的注意
力和静态对象明确。在每个帧处,每个人还可以生成检测框,并
且数据关联按人(或噪声)对这些检测框进行最后,我们建模的
相机,它的场景投影到图像平面上,生成观察到的数据。
我们将先验分布放在上面提到的每个模型变量同样,对于我们使
用的每种类型的数据,我们都有一个可能性函数,该函数的上限为-