单眼视频中的人眼追踪技术：推断3D注视点与场景理解

175 浏览量更新于2024-06-20 收藏 1.56MB PDF 举报

"本文介绍了一种名为‘多凝视’的方法，通过分析单眼视频中的注视行为来推断场景中的3D位置。该方法利用交叉凝视原理，即通过观察个体的视线方向来推测他们关注的3D目标，类似于多摄像头视角的效果。此技术能够推断出那些未直接出现在相机视野中的物体位置，这对于场景理解具有重要意义。文章提出一个贝叶斯生成模型，用于同时估计相机参数、人物位置、视线方向以及他们所关注的对象。在模型中，还要考虑场景中的人数和引起注意力的额外物体数量，这些都是未知但需要推理的变量。为了实现这个复杂的联合推理过程，作者采用了概率数据关联方法，结合马尔可夫链蒙特卡洛（MCMC）算法和大都会拉普拉斯近似，以及哈密顿（混合）蒙特卡罗最大化来处理离散和连续参数的边缘化。由于现有的数据集缺乏关于人们注视的3D位置信息，作者创建了一个新的小型数据集。在该数据集上，该方法能够以59%的准确率推断出人们正在看什么，显著优于基线方法的13%，并且还能精确到0.58米内的物体位置。关键词涵盖了三维场景理解、三维凝视估计、单目视频处理、目标检测、MCMC以及模型选择。文章指出，观察人与环境的互动可以揭示3D结构信息，这对各种应用，如自动化监控、人机交互等，都有潜在的价值。例如，可以利用这种技术来减少操作员的工作负担，提高工作效率。" 在介绍部分，作者强调了观察人类行为在计算机视觉领域的应用，如功能理解、地面平面检测以及3D表示对于人-物交互的理解。通过这种方法，不仅能够理解当前时刻的交互，还可以追踪历史交互，如图1所示，人物的Z坐标变化揭示了他们在不同时间点的位置。这种方法的创新之处在于，即使物体不在直接视线内，也能通过人们的凝视行为推断出它们的存在和位置，这对于增强现实、虚拟现实以及机器人导航等领域有潜在的应用价值。

E. Brau，J. Guan，T. Jeffries和K. 巴纳德

身体姿势和头部姿势分类器的输出[14，15]。相比之下，我们通过3D

身体和头部姿势的联合分布来模拟这种耦合。

头部姿势是视觉注意力集中（VFoA）识别的强有力线索，其具有潜

在的应用，例如测量公共空间中的广告或商店展示的吸引力以及分析会

议的社会动态。VFoA中的许多研究都集中在动态会议场景上，其中人们

通常坐在会议桌周围，同时被多个摄像机录制视频[5，7，8，19，42，

43，51这些方法中的大多数利用来自语音和运动活动的上下文相关信

息，并且潜在的VFoA是具有已知位置的预定义离散集合。此外，场景中

的人数是固定的，并且他们被认为坐在通常已知的位置，这在给定应用

的情况下是有意义的。

在理解行为的背景下，在监控设置中也考虑了VFoA估计[10，27，

48，49]，其中，到目前为止，视觉注意力仅限于图像坐标，并且一

次一个人。然而，Benfold和Reid[10]使用校准到地平面的相机来估计

视觉注意力地图，该地图表示城镇中心场景中每平方米地面所接收的

注意力量。与我们类似，它们基于推断的视觉注意力图来识别场景中

的然而，虽然地图可以被投影到视频中以使其可视化，但是3D位置

未被推断。估计VFoA的另一个应用是人机交互场景，其涉及人与人

和机器人与人的交互[36，47，67]。该领域中的方法通常假设大对象

（对象、机器人和对象）的已知头部姿势（取向

和

位置

）

。

例如，

s'e

等人提出了一种切换卡尔曼滤波器公式，用于根据观察到的头

部姿势和物体位置联合估计几个人的注视和VFoA [36]。此外，它们

还假设人和物体的数量是已知的，并且随着时间的推移保持不变。相

比之下，我们建议同时推断目标的数量及其在场景中的位置，同时

使用图像证据估计其VFoA

统计模型

图2显示了我们

使用概率图形建模符号的时间场景理解的生成统计

模型。该场景由在整个视频中在地平面上移动的多个人组成在每

个帧处，每个人可以将他们的视觉注意力集中在另一个人或位于

3D空间中的若干静态对象中的一个上我们模型的视觉焦点的注意

力和静态对象明确。在每个帧处，每个人还可以生成检测框，并

且数据关联按人（或噪声）对这些检测框进行最后，我们建模的

相机，它的场景投影到图像平面上，生成观察到的数据。

我们将先验分布放在上面提到的每个模型变量同样，对于我们使

用的每种类型的数据，我们都有一个可能性函数，该函数的上限为-

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

单眼视频中的人眼追踪技术：推断3D注视点与场景理解

2025年软考高级 - 信息系统项目管理师考试备考全攻略

MySQL 5.7从入门到精通 第23章 新闻发布系统数据库设计 共6页.pptx

高分springboot毕设+vue的游戏创意工坊与推广平台的设计与实现_orv论文-Java源码.zip

考研助手--论文.zip

C# AutoCAD DWG打印成PDF 代码

PowerQuery的使用与M语言介绍.docx

【java毕业设计】小说阅读平台的设计（springboot+vue+mysql+说明文档）.zip

高分springboot毕设+vue的实验室开放管理系统-Java源码.zip

22个财务报告PPT模板

ISO 24342 2024.pdf

最新资源

MySQL 5.7从入门到精通第23章新闻发布系统数据库设计共6页.pptx