多凝视：通过单眼视频观察注视推断3D位置的场景理解方法

91 浏览量更新于2023-10-13 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

多重凝视几何：从单眼视频中观察到的注视推断新的3D位置Ernesto Brau1[0000−0003−0380−8630]，Jinyan Guan1[0000−0002−9721−6267]，TanyaJeffries2和Kobus Barnard2[0000−0002−8568−9518]1CiBO Technologies，Cambridge MA 02141，USA{ebrau，jguan}@ cibotechnologies.com2亚利桑那大学，图森AZ 85711，美国网址：tanyasjeffries@email.arizona.edu，kobus@cs.arizona.edu抽象。我们开发了使用人的视线方向的场景理解。特别是，我们使用交叉凝视来学习人们倾向于看的3D位置，这类似于具有多个相机视图。我们发现的3D位置不需要对相机可见。相反，知道吸引视觉注意力的场景元素（诸如场景中的其他人）的3D位置可以帮助推断注视方向。我们提供了一个贝叶斯生成模型的时间场景，捕捉相机参数的联合概率，人的位置，他们的目光，他们在看什么，和视觉注意力的位置场景中的人数和吸引注意力的额外物体的数量都是未知的，需要进行推断。为了执行这种联合推理，我们使用概率数据关联方法，使模型假设的原则性比较我们使用MCMC的离散对应变量的推理，并近似边缘化的连续参数使用大都会拉普拉斯近似，使用哈密顿（混合）蒙特卡罗最大化。由于现有的数据集不提供人们正在看的3D位置，我们贡献了一个小的数据集。在这个数据集上，我们以59%的准确率推断出人们正在看什么，而基线方法的准确率为13%，以及这些物体在0.58米范围内的位置。关键词：三维时间场景理解，三维凝视估计，单目视频，发现对象，MCMC，模型选择1介绍观察人们与环境的互动可以提供有关其3D结构的线索已经在计算机视觉中研究的这方面的方面包括功能性功能，如“dark_mat_t”[ 64]、groud_plan_at_s [ 30]，以及对人-对象交互进行3D表示可以回答问题2E. Brau，J. Guan，T. Jeffries和K. 巴纳德了图1.一、三维投影仪和实时作业可以减少操作员的作业成本、成本和作业成本，以及您正在作业的作业成本。当前时间（红色）和先前时间（褪色的红色）的红色人物的Z坐标相交，以帮助在左墙上定位3D目标。假设他们从两个不同的角度看同一个物体，这类似于立体视觉。蓝色人添加第三视图。此外，绿色人正在看红色人的假设丰富了我们对场景的理解，并且可以帮助改善对绿色人的位置和位置的估计以及对红色人的位置的估计。这是笨拙的或无法用2D表示访问的。例如，人们可能想要询问是否存在安全摄像头不可见的可以采取的路径。在本文中，我们提出了一个系统，推断3D的位置，人们看，包括不可见的相机，从单目，未校准的视频。例如，我们可以通过观察到的视图来推断在视图的注视下的感兴趣的点的3D位置，如通过图1所示。①的人。为此，我们开发了一种完全3D贝叶斯建模方法，该方法表示人在哪里，他们的头部姿势（因此近似注视方向），以及他们正在看什么3D位置，这可能是其他人中的一个，或者是在场景中的某个位置我们的模型进一步体现了一个假定的固定单目视频摄像机的相机参数，所以我们可以推断它，而不是依赖于有校准的相机。我们的联合推理方法是由以下观察结果激发的：1）人们可能正在看的东西的3D位置可以帮助估计注视方向并因此估计头部姿势; 2）场景中的其他人是视觉注意的可能目标，并且如果我们在3D中跟踪他们，则他们的位置和来自其他人的注视的联合推断应该是有益的;以及3）场景通常包含视觉注意的可能位置（例如，视觉上有趣的海报），并且多个时空凝视锥体可以帮助在3D中类似地用多个视图来精确定位它们（图2）。①的人。我们还利用Brau等人的以下观察结果。[13]关于跟踪在地面上行走的人：1）3D表示简化了处理遮挡（其成为证据而不是混淆）; 2）3D表示允许有意义的速度先验（并且在此，头部转动角速度）;以及3）可以推断相机参数多凝视几何3这是因为行走的人倾向于保持固定的高度，因此就像将自己运送到不同深度的校准探针。我们指定了潜在模型的联合概率和跨帧的人员检测的关联（§3）。数据关联意味着对每个时间点场景中的人数的假设。为了以原则性的方式比较不同维度的模型，我们近似地边缘化所有连续模型参数。这些包括每个人的位置，他们的凝视角度，以及我们试图从凝视行为中发现我们使用MCMC采样来计算这些我们将其与多个MCMC抽样策略相结合，以探索模型的空间（§4）。因为我们的目标是新的，所以我们贡献了一个适度的数据集，其中包含参与者正在观看的3D位置，这在其他人走动的数据集中是不可用的（参见第5节进一步讨论）。在贡献的数据集中，参与者记录了他们在走动时看到的东西，我们使用地面实况2D检测（§6）为所有目标（人和其他物体）建立了地面实况3D位置。我们的贡献包括：1）操作从头部姿势估计的多个注视角度可以用于学习人们观看的3D位置的观察; 2）扩展Brau等人提出的方法。[13个国家]包括头部姿势、行走方向先验和更有效的采样方法; 3）头部姿态和人们在行走时正在看的东西的3D位置的联合推断; 4）推断谁在看谁或看什么（都是匿名定义的）;以及5）关于人们在四处走动时正在看什么以及这些物体或人在3D中的位置的新数据集。2相关工作多目标跟踪（MOT）。尽管取得了重大进展，但由于诸如噪声和复杂证据、遮挡、突然运动和未知数量的目标等问题，多目标跟踪仍然是一个挑战。这项工作是在检测跟踪范式[13，69，31，3，44，9，4，46，17，37，66，54]。通常，这些方法首先从视频序列中获取人的图像位置，然后通过解决数据关联问题和推断目标位置来找到每个潜在目标的轨迹2D和3D模型都被用来表示潜在的目标。在2D中有效地工作需要对被遮挡的目标（例如，[69，37]）。相反，3D模型可以自然地处理闭塞和平滑运动[28，13]。头部姿态估计。在从单个图像估计头部姿势的方法（例如，[12、22、11、39、26、33、34、21、25、38]。在视频中，帧之间的信息流已经被许多研究人员利用[70，6，65，57]）。与我们更相似的是基于模型的跟踪方法，这些方法将3D模型拟合到视频中的跟踪特征（例如，[62，32，63，45，56]）。头部和身体姿势也已经通过以下各项之间的相关性来联合估计：4E. Brau，J. Guan，T. Jeffries和K. 巴纳德身体姿势和头部姿势分类器的输出[14，15]。相比之下，我们通过3D身体和头部姿势的联合分布来模拟这种耦合。头部姿势是视觉注意力集中（VFoA）识别的强有力线索，其具有潜在的应用，例如测量公共空间中的广告或商店展示的吸引力以及分析会议的社会动态。VFoA中的许多研究都集中在动态会议场景上，其中人们通常坐在会议桌周围，同时被多个摄像机录制视频[5，7，8，19，42，43，51这些方法中的大多数利用来自语音和运动活动的上下文相关信息，并且潜在的VFoA是具有已知位置的预定义离散集合。此外，场景中的人数是固定的，并且他们被认为坐在通常已知的位置，这在给定应用的情况下是有意义的。在理解行为的背景下，在监控设置中也考虑了VFoA估计[10，27，48，49]，其中，到目前为止，视觉注意力仅限于图像坐标，并且一次一个人。然而，Benfold和Reid[10]使用校准到地平面的相机来估计视觉注意力地图，该地图表示城镇中心场景中每平方米地面所接收的注意力量。与我们类似，它们基于推断的视觉注意力图来识别场景中的然而，虽然地图可以被投影到视频中以使其可视化，但是3D位置未被推断。估计VFoA的另一个应用是人机交互场景，其涉及人与人和机器人与人的交互[36，47，67]。该领域中的方法通常假设大对象（对象、机器人和对象）的已知头部姿势（取向和位置）。例如，Mass'e等人提出了一种切换卡尔曼滤波器公式，用于根据观察到的头部姿势和物体位置联合估计几个人的注视和VFoA [36]。此外，它们还假设人和物体的数量是已知的，并且随着时间的推移保持不变。相比之下，我们建议同时推断目标的数量及其在场景中的位置，同时使用图像证据估计其VFoA3统计模型图2显示了我们使用概率图形建模符号的时间场景理解的生成统计模型。该场景由在整个视频中在地平面上移动的多个人组成在每个帧处，每个人可以将他们的视觉注意力集中在另一个人或位于3D空间中的若干静态对象中的一个上我们模型的视觉焦点的注意力和静态对象明确。在每个帧处，每个人还可以生成检测框，并且数据关联按人（或噪声）对这些检测框进行最后，我们建模的相机，它的场景投影到图像平面上，生成观察到的数据。我们将先验分布放在上面提到的每个模型变量同样，对于我们使用的每种类型的数据，我们都有一个可能性函数，该函数的上限为-多凝视几何5r=0^r=1^图二. 用于时间场景理解的生成图形模型。我们使用粗体字来表示集合变量（例如，z表示每个帧的每个人的状态向量）。数据关联ω指定人数以及哪些检测（身体、面部）与他们相关联。ω取决于超参数，这些超参数统称为γ（§3.1）。X是人们看到的静态3D点的集合。对于每个帧，每个人的视觉注意力焦点（VFoA）ξ是这些3D点中的一个或另一个人。时间场景z由每个人在每个帧处的3D状态（位置、大小、头部姿势）组成（§3.2）。z投影到2D上以经由相机C创建模型帧，从而生成人检测B、光流If和面部标志Ik（§3.4）。它依赖于模型。我们将这些函数组合起来得到后分布，并将其最大化（见§4）。3.1协会根据以前的工作[13]，我们定义了一个关联ω={τrB}m到是B的分区，B是整个视频的所有检测（身体、面部）的集合这里，每个τr，r= 1，. . .，m，称为轨迹，是与人r相关联的检测的集合，并且τ0是由噪声过程生成的虚假检测的集合[41]。先验分布p（ω）具有超参数λA、κ、θ和λN，其表示每帧每个人的预期检测、每帧新轨迹、轨迹长度和每帧噪声检测[13]。3.2场景和VFoA我们的3D场景模型由一组移动的人，表示使用3D圆柱体和椭球体，我们称之为时间的场景，和一组静态的对象，表示的3D点。这些对象被假定为命令注意力从场景中的人，我们明确地为每个人在每帧模型，并调用视觉焦点的注意力（VFoA）。静态对象。场景包含一组m个静态对象，由X =（X1 ，. . . ，χm^），χr∈R3. 由于不需要对它们的位置进行任何预分配，因此我们在可见光范围内对它们的位置进行均匀分配。三维空间。我们将感兴趣的位置建模为彼此独立，通过使用p（x）=p（m（x））（m（x））p（x）的一个约束，其中p（m（x））是P（x）。R视觉注意力集中（VfoA）。场景还包含m个人，每个关联轨迹τr∈ω一个人。每个人在每一帧都有一个VFoA，它编码了他们正在观察的人或事物，如果有的话。我们使用ξrj∈ {0，. . . ，m + m}来表示帧j处的人r的VfoA，例如， ξrj= r′表示人r是6E. Brau，J. Guan，T. Jeffries和K. 巴纳德^r=1R在帧j处观看人或对象r’，其中1≤ξrj≤m的值指示聚焦在人上，mξrj≤m+m在对象上，并且ξrj= 0指示没有聚焦。先验地，人们倾向于在连续的帧中聚焦于相同的视觉目标在ξr =（ξr1，. . .，ξmlm），其中ξrj= ξrj−1很有可能整个VfoA集合的先验是p（ξ |ω）= Qmp（n）。R时间场景。每个人r具有时间3D状态w r=（w r1，. . . ，wrlr），其中在wrj=（xrj，qrj，prj，yrj），j=1，. . . ，L河主要地，该头状突起对该身体而言是一种必然的反应，即。例如， yrj=0，其中，在r处的p个帧j上的p个帧j看起来很可能在前面。此外，每个人都有三个尺寸维度：宽度、高度和高度。厚度，由dw、dh和dg表示。我们将表示完整的3D配置R r r用zr =（wr，dw，dh，dg）对轨迹τr进行了计算概念上，在任何给定帧j处，这可以R r r从某个角度看，如果有一个“前”字，则会出现宽×高×深的环形线R r rqrj，其中，在h处存在作为p r j的p itc h和yrj（Fig. （3）第三章。我们称x r=（x r1，. . . ，xrl，r）的轨迹，并且在其上放置高斯过程（GP）以促进平滑。我们使用身体角度轨迹qr、头部俯仰轨迹pr和头部 y_w_r_a_t 或 y_y_r 的类似定义（例如， G. ，对于横截面， qr=（qr1，. . . ，qrlr））。我们使用这些轨迹的相似平滑GP先验。重要的是，头部角度轨迹p r和y r的先验取决于他们观察到的对象，由xr编码，以及它们的位置，它们包含在x和x-r中（除了x r之外的所有轨迹）;例如，对于头部俯仰，p（p r|ξr，χ，x −r）。我们表示这种依赖性，通过设置平均值的GP之前的角度指向观察对象的方向，如果有的话，在每一帧。上一个版本的完整物理状态p（zr|ξr，χ，x−r，ω），expandstoop（dw，dh，dg）p（xr|ω）p（q r|ω）p（pr|r，χ，x −r，ω）p（y r|r，χ，x −r，ω），通过条件R r r给定上下文变量，状态变量的独立性。我们以ω为条件，因为它编码轨道长度概率。我们的整体状态先验包括一个能量函数，使得轨迹相交不太可能，这更有利于推理图3.第三章。人的3D模型（左）及其在图像平面中的投影（右）。在时间（帧）j处的每个r由圆柱体组成在位置xrj处，宽度为dw，高度为dh，以及R r厚度dg（未示出）与主体角度qrj（对“从t”表示的圆柱形的最佳描述）相关。因此，由椭圆体表示的per〇n的h e a d具有相对于圆柱体的前部的偏航y rj和由红色弧表示的俯仰p rj。其在摄像机C下的投影产生三个框：模型框hrj、模型bodyboxorj和模型面boxgrj。pRJ多凝视几何7r=1t=1不^ ^您的位置：而不是简单的约束（省略细节）。不包括能量函数，总体先验是：p（z |ξ，χ，ω）= Qmp（z r|ξ，χ，x −r，ω），其中m是数字R场景中的人3.3相机我们使用标准透视相机模型[23]，并使用Del Pero等人的简化假设。[18]第10段。具体来说，世界坐标原点为在地平面上（我们使用xz平面），并且相机中心是（0，η， 0），具有间距Φ和焦距f。这个简化的相机具有单位纵横比，并且滚动、偏航、轴偏斜和主点偏移都为零。我们将摄像机参数表示为C=（η，ψ，f），并给出模糊正态先验，其参数由我们手动设置。3.4数据和可能性我们使用三个证据来源：人检测器、与人检测相关联的面部界标以及光流。人检测器[20]提供了约束条件Bt={bt1，. . . ，btNt}，t=1，. . . ，T，其中N是一组检测在帧T处。我们定义B=∪TBt为所有这样的盒子的集合我们参数-将一个chboxbtjbybx，btop，bbot），重新定义该实例的x-coordinat，TJtj tj以及顶部和底部的y坐标。面部标志检测器[71]为每个面部提供五个2D点，（k1，. . .，k5），表示眼睛的中心、嘴角和眼睛的中心。娣娣在帧t处的第i次检测的鼻尖。我们使用Ik={k t1，. . . ，k tN}到表示在帧t处检测到的所有面部界标，并且定义Ik={Ik，. . .，Ik}。1T密集光流估计器[35]提供速度向量If={v，t，. . . ，vtN}我不是对于每个帧t= 1，. . .，T-1，其中NI是帧中的像素的数量。我们还定义I=（If，Ik）。为了计算来自2D帧中的证据的数据似然，我们首先通过如下将3D场景z投影到图像上（经由相机C）来在每个时间点将3D模型转换为2D。模型盒子。对于帧j处的每个人r，我们计算他们的身体圆柱体和头部椭圆体的表面上的一组点，并将它们投影到图像中。然后，我们在图像平面上找到一个紧密的边界框，称为模型框。类似地，分别使用圆柱体和椭圆体，我们计算modelbodybox，or ，j 和modelfacebox，gr ，j（参见图3）。通过使用这种计算，我们可以推断3D中的遮挡，因为我们可以有效地计算框[13]的非遮挡区域，由orj（身体）和orj（面部）表示。面部特征。我们在椭圆体上投影了五个人脸位置，分别代表眼睛、鼻子和嘴角的中心（见图3）。我们表示投影的面部特征。. . ，m5），使用特殊值rj rj当特征对相机不可见时。图像平面运动方向。我们定义了两个2D方向向量，称为模型体向量和模型面向量，它们表示投影到图像上的体圆柱体（分别为面椭球体）8E. Brau，J. Guan，T. Jeffries和K. 巴纳德Y为了计算人r在其第j帧处的模型面部向量，我们在头部椭圆体上挑选可见点，并将该点投影到帧j和j+1处的图像上。然后，通过两个投影点之间的差来给出模型面部向量我们使用身体圆柱体执行类似的计算以得到模型身体向量urj。可能性。我们为讨论的每个数据源定义一个似然函数p（B|ω，z，C），p（If|z，C）和dp（Ik|z，C）。如果B、If和Ik在给定z和C的情况下是条件独立的（参见图2），则总似然函数由这三个函数的乘积给出。检测盒似然性。我们假设每个分配的检测框具有i.i.d拉普拉斯分布误差相对于其中心的X坐标以及其顶部和底部的y坐标我们的相似性包括用于框检测的视频特定噪声率和检测器特定未命中率，这两者对于推断轨道的数量都是关键的[13]。面部标志可能性。如果界标kti的质心在模型面部框grt的中心附近，则我们将界标k ti与帧t处的人r相关联。然后，我们假设围绕每个模型面部特征m，rj的高斯噪声模型。具体地说，对每个k∈Ik，kiN（mi，Σik）. 对于i = 1，. . . ，5，其中m是模型rjIrj分配给ki的面特征。假设所有地标的独立性，我们得到的地标可能性为p（Ik|z，C）= p（k |m（k）），（1）k∈Ik其中m（k）是界标k的预测面部特征。因为我们将人脸与盒子联系起来，所以嘈杂的检测是不相关的。然而，以模型（和框）为条件的错过面部检测的概率强烈地取决于面部是正面的还是在轮廓中充分地使得仅一只眼睛可见。因此，我们校准这两种情况下使用举行的数据的未命中率。光流似然。我们将拉普拉斯分布放置在非遮挡模型身体向量与相应模型身体框中的平均光流之间的差上，并且类似地用于模型面部向量[13]。4推理我们希望找到ω的MAP估计作为数据关联问题的良好解决方案。此外，我们需要推断相机参数C和关联先验参数γ=（κ，θ，λΝ），我们希望其是视频特定的。我们将离散的VFoA变量ξ添加到在维度上不变化的参数块。因此，我们寻求使后验概率最大化的（ω，γ，C，ξp（ω，γ，C，ξ |B，I）∝ p（ω |γ）p（γ）p（C）p（ξ |ω）p（B，I|ω，C，ξ），（2）其中边际数据似然p（B，I）|ω，C，ξ）由下式给出：∫p（B |ω，z，C）p（I |z，C）p（z |ξ，χ，ω）p（χ）dXdz。（三）多凝视几何94.1γ、ω、C和ω上的块抽样由于表达式（2）没有封闭形式，因此我们使用MCMC块采样来近似其最大值，该MCMC块采样从条件分布p（γ）中连续抽取样本|ω），p（ω|γ，ξ，C，B，I），p（C |ω，ξ，B，I）和p（ξ |ω，C，B，I）。在采样期间，我们需要评估后验（2），其包含表达式（3）中的积分。由于该积分不能解析地执行，也不能由于（z，X）的高维数而数值地计算，我们使用Laplace-Metropolis近似估计其值[24]。该近似需要获得相对于后验分布p（z，χ）的最佳3D场景（z *，χ *|B，I，ω，C，ξ），我们使用MCMC（参见§4.2），跟踪样本中的最佳场景我们使用Gibbs直接从条件后验p（γ）中抽取关联参数γ的样本|ω），MCMCMCDA算法[40]的扩展，以从p（ω）中采样ω的值|γ，ξ，C，B，I）[13]和随机游走Metropolis-Hastings（MH）来从分布p（C）中抽取相机参数η、ψ和f的样本|ω，ω，B，I）。我们还使用MH从p（ξ）中采样ξ|ω，C，B，I）。对于场景中的每个人r，在每个帧j处，我们找到当前场景估计中与r的注视点上的每个人相交（最多达第二个hole d）的对象或人的集合（z_i，x_i）。因此，我们构建了关于这些对象的数据，其偏向于较近的对象以及前一帧中的VfoA。我们从这个分布中抽取一个样本，并将其分配给ξrj。然后，我们使用标准MH接受概率接受或拒绝样本。4.2估计（z*，χ*）为了近似（z*，χ*）的MAP估计，我们在z上交替采样，并且分布下的χp（z，χ |B，I，ω，C，ω）p（χ）p（z |ξ，χ，ω）p（B，I |z，x，ω，C）。（四）为了在χ上采样，我们使用随机游走MH来扰动每个感兴趣点χr的位置。我们还执行出生移动以在场景中引入新的点首先，我们通过使用场景z中的人的时间3D状态的当前估计使所有帧上的所有注视光线相交来构建候选点的集合然后，我们从候选中随机均匀地选择一个点，并将其添加到χ。我们还使用死亡移动，其中我们从χ中移除一个元素是均匀随机的。为了探索z的空间，我们使用基于诱导点的有效高斯过程后验采样机制[55]。其基本思想是通过从条件GP先验和一组提供函数的低维表示的诱导点位置绘制样本来构建提案分布我们迭代人r = 1，. . . ，m以及在每个Xr、Qr、Pr和Yr的不同轨迹上，在每次迭代处绘制样本。更具体地说，10E. Brau，J. Guan，T. Jeffries和K. 巴纳德RrjcR框架1框架100了图 4.第一章 Proposingstaticobjects. 在左侧示出了眼睛的视线与它们在帧1处的对应注视向量的对应操作。其中两个的交集将创建一个候选静态对象（红色圆圈）。在右侧，我们示出了同一视频的帧100，其也包含生成四个附加候选的三个主体三条较浅的线是以前记录的凝视。红色圆圈是仅由当前帧中的注视生成的候选。三个蓝色圆圈是通过使当前帧处的注视与来自先前帧的注视相交而生成的候选。最后，浅红色圆圈是来自帧1的候选。对于给定的节点或y，s，y，q，r=（q，r，1，. . . ，qrlr），我们可以任意选择（1，. . . ，lr）作为诱导点，由（j1，. . . ，jl′）。然后，对于每个诱导p_i_j_c，我们从编码G_P_p_i或q′p（q_r_j）中得到一个简单的算法|qrj）的情况下，−c以及来自预测分布q’p（q r|q rj−c′rjc），在哪里q rj−c 表示在不包括j c的诱导点集合处的q r。样品仅使用似然函数p（B，I）使用MH接受概率比来接受或拒绝|z，x，ω，C）。5评价数据集和措施有几个数据集可用于评估会议场景中的VFoA识别[7，5，8，29，58，59]。由于可用会议数据集中的大多数参与者在整个视频中都坐着，因此这些数据集不太适合评估我们的系统，该系统依赖于检测站立的人的能力，并且针对在俯仰和偏航两者中具有多种注视方向的场景。类似地，像Vernissage Corpus数据集[29]这样的数据集，它模拟了一个艺术画廊的场景，包含许多只有参与者的上半身可见的帧。另一方面，具有行走的人的数据集统一地不对人们正在看的东西的3D位置进行虽然像具有挑战性的SALSA [1]，鸡尾酒会[68]和咖啡休息[16]这样的数据集具有头部姿势注释，但这不足以实现我们的目标。因此，我们创建了一个新的数据集，其中多个参与者自由移动，同时查看不同的静态目标和彼此。5.1用于3D凝视我们捕获并注释了六个室内和两个室外视频序列。每个设置包含几个静态对象位置，其中几个是不可见的。，q多凝视几何11图五.从左到右，分别是两个室外视频和两个室内视频的采样帧。这些户外视频是在一个车库屋顶和一个图书馆庭院内拍摄的室内视频是在教室和走廊内拍摄的。每个视频参与者在场景内行走并记录（通过录音机）他们正在看的东西-另一个人或静止的室内视频中的所有对象对相机都是可见的，并且可以在帧中看到室外视频中的一些对象对于相机是不可见的。可用于照相机。视频参与者被要求四处走动并看着彼此或静止的物体，指示他们何时开始和停止用音频记录设备聚焦于每个目标我们所有的8个视频都在40到90秒之间，有3到4个人和5到8个物体（包括不可见的物体）。室内视频的图像分辨率为1920 ×1080。室外视频分辨率为1440 ×1080。注释和地面实况。我们使用VATIC注释工具[60]在每个帧处注释每个目标然后，我们通过使用地面实况框的顶部和底部最小化相对于3D位置和高度的重投影误差来估计每个目标的3D位置和每个视频中我们还使用上述VFoA音频注释来估计每个人在每个帧处的真实头部取向（俯仰和偏航），其中该人正在观看目标。为了确定相机不可见的点的位置，我们测量了它们的位置，以及在共享坐标系中可见的位置然后，我们将不可见点的位置映射到相机坐标系。5.2评估措施轨迹和头部姿势评估。为了评估推断目标的3D轨迹，我们首先使用匈牙利方法与成对欧几里得距离找到推断轨迹和地面真实轨迹之间的最佳匹配然后，我们使用两个常规度量进行跟踪：MOTA（用于数据关联的准确性）和MOTP（用于估计的3D轨迹的精度）[50]。按照惯例，我们将MOTP阈值设置为1米。为了评估头部姿势估计，我们计算在推断的头部姿势与它们在其中它们可用的帧处的对应的地面真实头部姿势（以度测量）之间的偏转和俯仰两者的MOTP的等效物为了评估VFoA估计，我们将被跟踪的人的推断的VFoA与其存在的每个帧处的地面实况VFoA进行令Nc是其中正确地估计VfoA的帧的数量，Nm是其中正确地估计VfoA的帧的数量。12E. Brau，J. Guan，T. Jeffries和K. 巴纳德其中，N是我们未能推断出VFoA（未命中）的帧的数量，并且Ne是我们推断出不正确的VFoA的帧的数量。然后，我们计算VFoA估计的以下三个分数：准确度= Nc/N，错误= Ne/N，错过= Nm/N，其中N是该人的地面实况记录的他们正在观看场景VFoA目标之一的帧的总数。注意，这排除了当被跟踪的人从看一个目标转变到看另一个目标时评估VFoA。对于每个视频，我们计算所有跟踪人员的平均评估推断感兴趣的位置。最后，我们评估如何以及我们可以推断出有趣的位置在场景中，首先找到最佳匹配的推断出的有趣的位置和预设的地面实况位置使用匈牙利方法与1米的阈值。然后，我们计算推断出的感兴趣位置的召回率和精度以及它们到地面真实位置的平均距离6实验和结果我们运行了两组实验来评估我们的方法的性能。我们不与其他人比较我们的主要任务，因为我们不知道任何相关的出版结果。我们首先在数据集上运行我们的算法和消融变体，以评估我们方法的不同方面的影响。然后，我们将我们的人跟踪性能与我们先前发表的结果[13]进行比较，以单独检查视线跟踪和对象发现的扩展对众所周知的TUD数据集[2]上的基本跟踪的影响。在我们的数据集上进行实验。我们在模型的三个不同部分上进行启用和禁用推理的实验：3D头部姿势（p， y）、VFoAξ和静态对象χ，并将每个部分替换为基线算法。我们不使用中间型MGG（用于“多气体几何”）。当我们禁用对（p， y）的推断时，我们只需将头部姿势设置为与每个帧的行走方向相同当禁用推断时，我们将每个人在每个帧处的VFoA设置为对象或人首先与他们的注视光线相交（MGG-NO-VO）。最后，当关闭对X的推断时，我们通过计算所有人在所有帧上的所有3D注视方向的相交的直方图来估计静态对象，然后采用具有最高投票的前5个箱的位置（MGG-BASELINE）。表1提供了我们的数据集上的跟踪和头部姿势估计结果虽然MOTA和MOTP在所有算法中的位置是相当的，但在没有头部姿势数据的情况下，头部的估计偏航很差这并不奇怪，因为我们视频中的参与者通常不会直视前方，部分原因是实验的构建。通过联合建模位置和姿势，我们保持了良好的跟踪性能，同时获得了合理的头部偏转精度，超过了MGG-NO-HEAD的显著数量（40◦）。音高的增益更适中，但音高的绝对误差开始时更小多凝视几何13表1.我们的算法在数据集上的不同模式的性能。数字都是八个视频的平均值第一行显示了启用所有部分的方法，而接下来的三行分别显示了禁用不同方面的算法，例如，MGG-NO-HEAD是不推断头部姿势的立体凝视算法（有关详细信息，请参见§6）。每列显示不同的评估度量。我们使用MOTA（1.0m阈值）和距离和角度的MOTP。对于VFoA，我们使用§5.2中定义的度量。算法MotaMOTPVFoAPOS偏航间距精度错误错过MGG0.950.0728.116.80.480.350.17MGG-无头0.930.0867.319.30.140.450.41MGG-NO-VO0.950.0729.919.20.310.390.30MGG-基线0.920.1070.120.80.130.460.41表2.对象发现性能。数字是八个视频的平均值。算法与表1中相同，测量值在§5.2中定义。我们将在任何帧中不可见的对象的性能单独制成表格。这里的性能可以有利地偏向不可见对象，因为它们往往在相机后面，并且看着它们意味着观看者的更正面的图像，这需要更好的姿态估计。算法所有静态对象视频中的对象对象未在视频召回precDist召回precDist召回precDistMGG0.480.590.580.450.540.590.570.670.51MGG-无头0.100.230.350.100.250.350.100.220.34MGG-NO-VO0.140.150.170.150.180.180.140.140.17MGG-基线0.130.120.400.140.110.400.130.120.39这是由我们的指令和我们的环境偏见。然而，这在生态学上是有效的，因为典型的视角离水平并不远。表1还提供了估计的VFoA的结果。平均而言，我们可以在48%的时间内正确识别VFOA靶点，远优于基线（13%），也优于消融的MGG-NO-VO版本（31%）。后一结果表明，也许并不令人惊讶，学习人们可能正在观看的3D位置提供了超出仅从图像数据确定的注视角度的附加信息。对象发现的结果如表2所示在这里，我们通过正确估计一米以内的位置来定义成功我们正确地识别了48%的实例，这些实例可在八个视频中识别（召回）。此外，在我们的方法提出的感兴趣的位置中，59%是正确的（精度）。平均距离误差略大于半米，这是由一米阈值的选择所驱动的图6示出了与基线（MGG-BASELINE）相比，当运行完整算法（MGG）时得到的推断的3D场景的一些示例帧。14E. Brau，J. Guan，T. Jeffries和K. 巴纳德见图6。在三个场景设置中推断的3D目标的可视化。顶行示出了基线算法（MGG-BASELINE）的结果的可视化，其中基于行走方向设置注视方向的偏转，并且从注视交叉点估计静态对象。底行示出了所提出的方法对相同视频的相同帧的结果。头部上的箭头指示注视方向，并且身体圆柱体上的箭头指示身体方向。通过从头部连接到所发现的3D点（黄色球体）中的一个或其他被跟踪人中的一个的直线段来识别被跟踪人的V F oA在最后一列中，对象位于可见图像区域之外TUD基准视频上的实验。我们将跟踪性能与仅用于跟踪的类似系统进行了比较[13]，以评估结合凝视跟踪和对象推断是否会降低跟踪性能。我们发现我们实际上在TUD数据上做得更好，这表明联合推断是有帮助的。表3.跟踪TUD数据集上的结果。我们与[13]进行比较，这表明对额外场景属性的联合推断也产生了跟踪性能的提升。7结论我们证明了从单眼视频中观察到的多人凝视中发现有趣的视觉位置（在3D中指定）的可行性特别是，在为这项任务开发的数据集上，我们发现我们可以推断出人们在59%的时间里在看什么我们还发现，联合推断的各种场景属性一般提高了准确性的个人估计。简言之，凝视既是场景语义的一部分，也可以帮助确定场景语义的其他方面。视频Brau等人[13个国家]提出MotaMOTPMotaMOTPTUD校园0.840.190.910.11TUD-穿越0.800.220.800.10图德市中心0.700.270.760.06是说0.780.230.820.08多凝视几何15引用1. Alameda-Pineda，X.，Staiano，J.，Subramanian河巴特林卡湖Ricci，E.，Lepri，B.，Lanz，O.，Sebe，N.：Salsa：一种用于多模态群体行为分析的新型数据集。IEEE Transactions on Pattern Analysis and Machine Intelligence38（8），17072. Andriluka，M.，Roth，S.，Schiele，B.：通过检测进行人员跟踪和通过跟踪进行人员检测。在：计算机视觉和模式识别，2008。CVPR2008。IEEEConfere nceo n。pp. 一02The Dog（2008）3. Andriyenko，A.，Schindler，K.：六角网上全局最优多目标跟踪。 In：ECCV. pp. 4664. Andriyenko，A.，辛德勒，K.，Roth，S.：离散-连续优化，用于多目标跟踪。 In：CVPR. pp. 19265. Ba，S.O.，Hung，H. Odobez，J.M.：用于动态会议中的注意力焦点估计的视觉活动上下文。2009年：多媒体与博览会。ICME 2009年。IEEEI TER NATI N A TI NATIN AT I NCE N FE N.pp. 142402The Dog（2009）6. Ba，S.O.，Odobez，J.M.：单摄像机和多摄像机设置中的概率头部姿态跟踪评估在：Multimodal Technologies for Perception of Humans，pp.27602.第二季2008）7. Ba，S.O.，Odobez，J.M.：从自然会议中的头部姿势识别视觉注意焦点。《系统、人与控制论》，第二部分： Cybernetics ， IEEETRANSACti o n so n 39（1），16- 33（2009）8. Ba，S.O.，Odobez，J.M.：从头部姿势的多人视觉注意焦点和满足上下文线索。Pattern Analysis and Machine Intelligence，IEEETramsacti〇ns〇n33（1），1019. Benfold，B.，Reid，I.：实时监控视频中的稳定多目标跟踪。In：CVPR.pp. 345710. Benfold，B.，Reid，I.：通过跟踪人类注意力引导视觉监视。In：B MVC.pp. 第一11. Beymer ， D.J. ：变姿态下的人脸识别。 In ： Computer Vision and Pat-ternRecognition，1994. 请参见CVPR' 94 .， 1994年，我将参加第二届世界杯足球赛。pp. 756-761 02The Dog（1994）12. Blanz ， V. ， Vetter ， T. ：基于拟合三维变形模型的人脸识别。PatternAnalysisandMachineIntelligee，IEEETransacti onson25（9），106313. Brau，E.，Guan，J.，Simek，K.，德尔佩罗湖道森，C.R. Barnard，K.：单目视频的贝叶斯 3D 跟踪。 In ： Computer Vision （ ICCV ）， 2013IEEEInternati onalConferenceon. pp. 3368-3375 IEEE（2013）14. 陈春，Heili，A.，Odobez，J.M.：监控视频中头部和身体方向线索的联合估计。

下载后可阅读完整内容，剩余1页未读，立即下载