没有合适的资源?快使用搜索试试~ 我知道了~
基于眼-头-身时间坐标的3D凝视估计
2192动态3D凝视:基于眼-头-身时间坐标的深度注视估计野中相马<$信原翔平<$西野高<$†京都大学研究生院情报学研究科PRESTOhttps://vision.ist.i.kyoto-u.ac.jp/摘要我们介绍了一种新的方法和数据集的3D凝视估计的自由移动的人从远处,典型的,cally在监视视图。在这种情况下,由于遮挡和缺乏分辨率,眼睛无法清楚地看到。现有的注视估计方法遭受或退回到具有头部姿势的近似注视,因为它们主要依赖于眼睛的清晰的特写视图。我们的主要想法是利用人们内在的目光、头部和身体的协调性。我们的方法将视线估计公式化为贝叶斯预测,给出头部和身体方向的时间估计,可以从远处可靠地估计。我们建模的头部和身体的方向似然性和条件先验的注视方向上的那些与单独的神经网络,然后级联输出的3D注视方向。我们引入了一个广泛的新数据集,该数据集由在5个室内和室外场景中捕获的3D凝视方向注释的监控视频组成。在此数据集和其他数据集上的实验结果验证了我们方法的准确性,并证明即使在摄像机看不到人的面部时,也可以从典型的监视距离准确地估计注视1. 介绍如果我们可以从远处连续跟踪一个人的视线方向,例如,将摄像机固定在房间和街角?如果我们能做到这一点,视线估计的实用性将大大提高,其效用将大大扩展。它将允许我们使用已经安装的监控摄像头或那些监视老人跟踪一个人的动态变化的目光,这将让我们更深入地了解这个人的内部状态,而不仅仅是她的尽管凝视估计研究取得了很大进展,特别是通过利用深度神经网络[9,16,32,34,35],但大多数基于外观的方法无法应用于从远处拍摄的这是因为他们在她-图1.我们介绍了一种新的方法,用于估计从远处捕获的视频中的人(橙色箭头)的凝视我们的方法不依赖于眼睛的外观,即使当人背对相机时,也可以判断注视方向我们引入了一个新的数据集,在野外与地面实况注释的凝视估计请注意,标记、眼动仪和身体佩戴式摄像机仅用于地面实况注释。需要眼睛的清晰和近距离观察。例如,大多数领先的方法假设人足够接近相机(范围从10 cm到1 m),或者它们仅适用于人的正面视图(高达90°)。我们的目标是典型的监视和监控视图,范围从几米到10米。证明从监视图像进行凝视估计的少数方法近似于具有头部或身体取向的凝视,这对于大多数下游任务来说太粗糙[25,26]。最近的一种方法[6]确实通过从OpenPose检测到的人体关键点回归来估计来自监控摄像机的然而,该方法仅估计2D中的注视(即,在图像平面中2193并且它仅在有限数量的监控视频(具有2个摄像头的1个场景)上被验证。在本文中,我们介绍了一个3D的视线估计方法,从远处拍摄的自由移动的人的视频,典型的房间大小的监控场景。我们的关键思想是充分利用人的注视、头部和身体取向的时间协调来仅从头部和身体取向估计人我们表明,我们可以估计的凝视direc- tion从头部和身体的方向估计的时间序列,甚至没有看到眼睛在所有。我们将视线估计公式化为贝叶斯预测,该贝叶斯预测利用了以头部和身体方向为条件的视线方向的学习角度-时间先验。凝视、头部和身体角度取向具有强烈但复杂的时间依赖性。例如,当我们在房间里寻找东西时,我们的眼睛首先移动到所需的方向,然后我们的头跟着眼睛移动。当我们的头部跟随扫视时,我们的眼睛在相反的方向上移动以在头部移动期间稳定视网膜上的图像。这些看似简单的角度-时间关系被一个接一个地级联,并且在时间上混合在一起,导致复杂的依赖性,其不再能够用简单的分析模型来捕获。我们用两个学习的深度网络的级联来模拟这种复杂的凝视-头-身协调,所述深度网络分别编码头部和身体方向,以及以它们为条件的凝视方向,以利用它们的丰富依赖性来仅从头部和身体方向推断凝视方向。给定在一定距离处捕获的一个人的视频帧序列,我们首先通过设计一个使用身体外观和2D轨迹的网络来这些方向被估计为von Mises-Fisher分布,以规范地表示它们的不确定性。然后,将这些头部和身体取向似然性与给定编码其自然时间协调的头部和身体取向的注视方向的学习的条件先验我们用一个网络对这个有条件的先验进行建模,该网络对每帧中的注视方向对过去和未来的头部和身体方向的时间依赖性进行编码。可选地,我们扩展我们的方法以在眼睛出现时机会性地利用眼睛出现,并且在我们可以访问多个相机时利用多视图头部和身体出现我们引入了一个新的数据集,它包含了在室内和室外场景中从远处拍摄的自由移动的人的带注释的监控视频。这些视频是用放置在八个不同日常环境中的多个摄像机拍摄的。视频中的人经历大的姿势变化,并且经常被各种环境因素遮挡 最重要的是,他们的眼睛大多不清楚在监控录像中经常可见我们介绍了第一个严格注释的数据集的3D凝视方向的自由移动的人从远处捕获。通过使用这个新数据集进行广泛的评估,我们表明我们的方法可以从远处进行准确的3D凝视估计。我们还证明,我们的方法推广到不同的场景和相机构成。所有数据和代码都可以从我们的项目网页下载。2. 相关作品视线估计方法可以大致分为基于几何和基于外观的。基于几何的方法使用3D眼睛模型来利用眼睛的几何或光学特性[12,14,19,36]。为了获得高精度,这些方法通常需要眼睛的详细信息,这通常需要硬件眼动仪。相比之下,基于外观的方法直接从眼睛的图像估计注视最近的方法通常使用深度神经网络来学习这种映射,并实现高精度[9,32然而,这些方法自然地需要目标面部或眼睛的特写正面视图,这在拍摄自目标面部或眼睛的图像和视频中是不可用的。距离(例如, 一米多)。 近日,Gaze360[16]创建了一个大规模的数据集,其中包含360度偏航的头部姿势,并表明在他们的数据集上训练的模型即使在人向后看时也可以估计凝视虽然Gaze360包含不同的外观,但他们的数据集只包含站立不动的人,在俯仰和滚动方面头部姿势有限相比之下,我们的数据集是自由移动的人。我们的数据集还包含具有广泛,自然多样的头部姿势的人的图像,反映了现实的监视和监控场景。过去用于从监视图像进行注视估计的方法,其中眼睛基本上不清楚或根本不可见,通常使用头部取向作为注视方向的替代[25,26]。这些方法对低图像质量是鲁棒的,但是头部取向很少是真实的注视方向。Dias等人使用面部关键点来估计静止图像中的2D凝视,并使用手动注释有2D凝视方向的监视图像数据集来评估模型[6]。相比之下,我们估计动态变化的3D视线方向的视频。在3D中恢复的注视方向在下游应用中具有广泛的实用性,因为它允许对人在环境中的注意力进行3D推理凝视、头部和身体的关系。头部和眼睛的协调已经被广泛研究[1,27,31]。例如,在看电影[7]或日常活动(如泡茶[18])期间,可以观察到凝视和头部取向之间的前庭眼反射(VOR)表征了它们的协调时间运动;当头部移动以固定视网膜图像时,眼睛沿相反方向移动[1]。各种2194ΣΣ研究已经研究了凝视和身体以及凝视和头部取向之间的关系[8,18]。Yamazoe等人[30]报告称,在自由行走期间,在凝视和身体方向之间观察到类似于凝视和头部方向的线性关系。Murakami等人最近表明,当使用简单的回归模型[20]知道它们的真实方向时,可以根据头部和身体方向估计注视方向,这证实了我们的直觉。然而,在没有已知的头部和身体方向的情况下估计实际监视视图中的注视需要一个显著的飞跃,我们通过在可以端到端学习的规范贝叶斯框架中无缝地集成复杂的眼睛-头部-身体协调的学习的角度-时间我们的方法也模型和传播估计不确定性的原则性的方式。头部和身体方向估计。早期的头部姿态估计方法使用面部标志来对齐几何模板[3]。最近的方法依赖于深度神经网络和大型图像数据库,以直接从外观估计头部的方向[25]。Zhou和Gregson [37]表明,即使受试者的视线远离相机,也可以估计头部姿势然而,这些方法可能会受到万向节锁定的影响,并且不适合具有极端头部或相机姿势的图像我们处理这个问题,估计只有偏航和俯仰的头部方向,因为滚动的范围相对较小,几乎不影响凝视估计。人体方位估计已经被广泛研究,特别是用于诸如运动预测的行为分析大量的工作已经证明了根据图像进行准确的2D身体方向估计[5,13,23]。与其他任务一样,最近的方法通过使用深度神经网络从外观直接估计身体的方向,大大提高了例如,Wuet al.注释了COCO数据集的55K图像中的2D身体方向,并表明他们的方法在不同的相机姿势和背景中很好地推广[29]。然而,二维身体方向不足以让我们估计3D凝视,因为音高也可以变化很大。为此,我们以与估计头部方向相同的方式估计3D身体3. 头部和身体我们的目标是估计一个人的视线方向,而不依赖于她的眼睛的清晰外观,而是3.1. 头部和身体网络我们首先从输入的视频中估计头部和身体的方向而不是每个独立的网络,我们建立了一个网络,同时估计头部和身体方向从全身图像,以减少计算成本。该网络还采用头部边界框的二进制掩码,用于确定图像中的头部位置此外,该网络利用人的图像内2D速度来更好地估计身体方向。头部边界框和人的速度相对于图像中的人的高度被归一化。图2左侧示出了头部和身体取向估计网络的架构首先,网络处理多帧全身图像以提取共享特征(Sharedconv)。头部位置的掩码由平均池化层进行下采样,以便其对齐特征图的大小。共享特征和头部掩码相乘并输入到卷积层(头部卷积),或者直接输入到另一组卷积层(身体卷积)。头部Conv和身体Conv层的输出以及身体速度被连接并馈送到LSTM层中,以联合估计头部和身体方向。对于骨干网络,我们使用EfficientNet-b 0 [28]的前两个卷积层用于共享Conv,并使用EfficientNet-b 0的后续层用于Head Conv和BodyConv层。为了规范地建模不确定性,我们将头部和身体方向估计为3D von Mises-Fisher(vMF)分布。vMF分布是由两个参数{µ,κ}表示的球形方向统计分布vMF(x;µ,κ)= κexpκxTµ,(1)4π sinhκ其中,µ是表示平均方向的3D单位向量,κ是浓度参数(κ越大,置信度越高)。该vMF分布为我们提供了方向估计及其不确定性的自然解释为了限制输出成为有效的vMF分布,我们通过将[2,22]的方法扩展到3D来向网络引入最终层。该层由两个分支组成,分别用于估计平均方向(µ)和浓度(κ)。平均方向分支(fµ)通过在全连接层上执行归一化使输出成为单位向量,而浓度分支(fκ)通过Softplus函数头部和身体的协调动作图2显示了我们的框架的概述。我们将凝视估计公式化为贝叶斯预测,其中我们估计fµ(x;W,b)=WX+B=Wx+bsincosθsinsinθcos=µˆ(二)在给定输入图像的情况下,计算头部和身体取向的似然性,然后通过级联两个神经网络来乘以学习到的注视方向的条件时间先验。fκ(x;W,b)=Softplus(Wx+b)=fκ,(3)其中x,W,b分别是输入、权重和偏置。2195××Xyzx yz可选:从面部进行凝视估计输入帧步骤2:根据头部/身体的注视估计图2.模型架构。头部和身体估计网络接收全身图像、头部位置和身体速度,并输出方向统计(vMF)分布作为它们的方向估计。多个帧的两个分布都被馈送到注视估计网络中,该注视估计网络输出注视方向估计的序列作为vMF分布。可选地,我们添加了一个网络,可以直接从面部外观机会主义地估计注视方向对估计的注视方向进行积分以产生作为vMF分布的最终注视估计。我们学习的vMF网络参数的最大似然估计。为此,我们将损失函数定义为vMF分布LvMF=−lnκ+lnsinhκ−κµTµ。(四)我们用这个损失来优化方向(µπ ι)和浓度(κπι),同时交替地固定其他每个r。我们使用3D人体姿势数据集训练vMF网络。特别是,我们使用AGORA数据集的训练集[21],其中包含放置在各种渲染3D场景中的真实人体模型。 为了处理低图像分辨率,我们随机地降低输入图像的分辨率在0.1比0。9 .第九条。请看补充资料-用于可视化。3.2. Head–Body Conditional Temporal Gaze贝叶斯公式的第二步是从估计的头部和身体方向的分布来估计注视方向的序列。也就是说,给定头部和身体取向似然性,我们现在想要乘以给定这些取向的注视方向的条件时间先验。我们的核心思想是学习复杂的角度-时间之间的依赖关系的凝视和头部,凝视和身体取向的递归神经网络工作。注意,这是一个时间先验,而不是一个瞬时的静态的,体现了与头部和身体的注视协调作为一个动态变化的系统。为此,我们使用由两个双向LSTM层和最后一层组成的双向LSTM来输出vMF分布的参数。它需要头脑和身体方向估计作为输入,并输出注视vMF分布的参数(图2右)。另一个关键思想是通过估计的头部和身体取向的估计浓度来调节估计的头部和身体取向,这使我们能够处理高度不确定的情况,例如当头部或胸部不可观察时。为此,在输入头部和身体方向之前,我们用估计的不确定性对其进行调制,以使我们的模型对遮挡具有鲁棒性身体κb(µb,µb,µb)和头部κh(µh,µh,µh)的加权方向连接起来,向量并输入到双向LSTM模型。3.3. 视觉外观整合当从远处看到一个自由移动人时,在监视视图中,眼睛很少清晰可见(在我们的数据集中,只有不到所有帧的6%然而,当它们可见时,我们可以利用它们的外观。为此,我们扩展了我们的框架来整合(但不依赖于)眼睛外观。如图2的上半部分所示,我们添加了一组卷积层,其与头部卷积层相同,但直接从眼睛的外观估计注视方向。通过对估计的方向与其相关的不确定性进行加权,将从眼睛附件和从注视-头-身体协调估计的注视方向这使得我们能够仅在相关的不确定性较低时才利用眼表,即,当眼睛清晰可见时,机会主义地。脸Conv头部位置头部转换vMF输出层LSTMVMF注视方向的顺序Concat全身图像LSTMVMF共享转换车身轮廓LSTMVMF车体速度[du,dvFC:方向:浓度LSTMVMFVMFVMF2196××ΣΣ3.4. 多视点注视估计多个监视或监控摄像机通常安装在一个位置。在这种情况下,我们可以-45°30°15°75°60°注视分布103102探索性地利用多视图观察来获得进一步的注视估计准确性。我们提出了两个扩展,锡永集成多视图视频源。0°-15°-30°-150°-120°-90° -60° -30° 0°30° 60° 90° 120°150°101凝视估计的难度取决于每个相机中的人的外观。例如,人可以从相机中的一个清晰可见,但是-45°-60°-75°偏航[度]100从另一个封闭。当被遮挡时,估计的注视具有低确定性。因此,我们将来自每个视图的估计注视方向与它们相关联的不确定性结合,然后将它们转换为世界坐标。这自然是通过最大化vMF分布的对数似然之和来完成的µ=argmaxµi{−lnκR=,r=κµ,(6)图3.用Mollweide投影显示GAFA数据集中的3D注视方向分布。在数据集中均匀地捕获广泛的注视方向。它由882,000帧视频组成,捕捉各种凝视行为。我们自动标注他们与准确的3D视线方向以及头部和身体方向。我们的数据集是其第一个公开可用的数据集。布雷尔河我我我可以作为推进3D技术的通用平台其中i表示相机索引。此外,我们还测试了在头和身体网络中使用人的3D身体速度。我们通过对多个视图中的2D身体中心进行三角剖分来获得身体中心的3D位置我们将3D速度而不是2D速度输入到我们的头部和身体网络中,并通过加权平均将来自多个相机的头部和身体方向进行整合。注视方向是从与第2节中介绍的相同的网络估计的。3.2.4. 来自遥远数据集的从远处,特别是从典型的监控视图的注视估计的研究,需要一个完整的视频数据集捕捉人在他们的自然环境中的各种姿势,但与他们的注视方向的逐帧注释。特别地,人们在日常环境中自由漫游的视频将是优选的。此外,我们对3D凝视估计感兴趣,而不仅仅是依赖于视图的2D估计。以前的凝视数据集[9,10,16,17,35]仅包含面部特写图像或静止站立的人的图像尽管过去已经引入了用于凝视估计的监视图像数据集[6],但其仅包含具有手动注释的2D凝视方向的2个摄像机的1个场景。我们介绍了来自远方的凝视(GAFA)数据集,它包含在5个不同的日常环境中拍摄的自由移动的人的视频,包括厨房,图书馆,实验室,客厅和庭院。与之前的数据集相比,我们的数据集包含由不同环境引导的长期丰富的凝视行为,以及具有挑战性头部姿势的监控视频(例如后视图或高音),这是在不受约束的环境中的人的典型特征。在野外的凝视估计。我们建立了我们的数据收集,以捕获日常环境中的自然凝视。我们选择了五种不同的环境进行录音,并要求参与者在环境中自由走动,并根据口头指示寻找物体。我们选择了在每个环境中常见的目标对象。参与者在实验过程中的行为被记录在每个环境中的高处的3到9个摄像头相机和参与者之间的距离从50厘米到7米不等,其中人的头部区域的大小我们使用可穿戴摄像头来自动计算每帧的地面实况凝视、头部和身体方向。每个参与者都佩戴眼动追踪眼镜(瞳孔核心[15])。眼镜是最低限度地可见,因为他们只有一个上框架。他们有两个红外线眼睛摄像头,捕捉双目凝视方向。他们还有一个向外的摄像头我们用它来计算头部的方向。参与者还在胸前佩戴摄像头(GoPro HERO 7)以获得身体方向。通过使用基于AR标记的定位系统(ArUco)[11,24]分别从眼动跟踪眼镜的外向摄像头和胸部摄像头的视频中在每个环境中的不同位置放置30至50个AR标记。事先扫描环境中的所有AR标记,以计算它们在世界坐标系中的3D位置。我们获得了头部和身体的方向通过解决一个Pestival问题,从头部和身体安装的摄像头拍摄的视频。通过眼动仪获得相对于头部姿态的注视方向,并将其转换到世界坐标系中。我们收集了8个主题的17个会议的视频。的节距[deg]数量的样本2197GAFA数据集总共包含882K帧(789K用于训练,93K用于测试)。为了评估受试者之间的图3示出了相机坐标中的注视方向的分布。偏航均匀地分布在360° 范 围内,这清楚地表明GAFA数据集包含包括后视图在内的各种头部姿势。5. 实验结果据我们所知,我们的方法是第一个实现3D凝视估计,即使在眼睛不可见的情况下,也能从监视视图中工作。除了我们的GAFA数据集之外,没有其他方法可以直接比较,也没有任何其他数据集可以用于在预期的上下文中完全检查我们和现有的注视估计模型的准确性(例如,具有3D注视注释的人的监视视图)。我们彻底评估我们的方法,并将其与现有的方法进行比较,一些精心设计的实验。首先,为了评估我们和现有的凝视估计方法在现实监控视频中的工作效果,我们使用GAFA数据集训练和测试这些模型我们进行了一项消融研究,以检查我们的方法的关键组件的有效性,在每个架构组件的有效性。接下来,我们对MoDiPro数据集[6]进行了跨数据集评估,该数据集包含住院后设施中自由移动人员的监控视频。虽然MoDiPro数据集只包含一个场景,有两个摄像头,并且只有手动注释的2D凝视注释,但我们用它来检查我们的方法在其他数据集上训练的效果如何。请注意,我们不能使用MoDiPro数据集来训练我们的方法,因为数据集只包含2D凝视注释。最后,我们检查我们的眼睛外观和多视图相机的GAFA数据集上的可选集成的有效性我们还包括估计的不确定性的定量验证和我们的头部和身体方向估计的评价补充材料。模型进行比较。我们的实验与我们的代表性的凝视估计方法的准确性进行比较。据我们所知,有几个方法适用于监控视频。Dias et al. [6]从OpenPose检测到的面部关键点估计图像平面中的2D凝视[4]。我们还比较了两种基于外观的方法。Gaze360[16]将连续的整个头部图像作为输入,并输出3D注视方向。请注意,与此相反,我们的方法从头部和身体方向估计注视,而不是外观。X-Gaze[32]将人脸图像作为输入。X-Gaze假设高分辨率面部图像为输入,并且因此基本上不适用于从远处的注视估计。为了公平比较,我们还在微调时除了常规的正面视图外,还在背面图像上训练它们。作为一个简单的基线,我们计算训练集中的平均注视方向,并评估当该数据集平均值用作测试集中的注视估计时的角度误差(MAE)(固定偏差)。该基线显示了估计精度的下限。对于我们的模型,我们测试了四种变体:使用暂时的头-身协调来估计注视方向的模型(我们的),眼睛外观的机会性使用(我们的+ Face ) 、 通 过 加 权 平 均 的 多 视 图 集 成 ( OursMultiview-WA)和使用3D轨迹的多视图集成(OursMultiview-3DTraj)。我们还用不同的训练策略测试了我们的模型。我们要么以端到端的方式在GAFA数据集上训练我们的模型,要么用AGORA数据集分别训练头部和在所有实验中,每个模型都是用Adam训练的,学习率=10-4,批量大小= 32。GAFA数据集上的结果为了在现实的(如果不是真正真实的)监控视频上测试我们的方法,我们首先评估GAFA数据集上的准确性。输入视频被重新缩放为480p,以便图像质量与典型的监控图像相匹配。表1显示了每个场景的3D和2D平均角度误差(MAE)。与Dias等人相比,我们的方法实现了显着更高的准确性。s方法。由于具有清晰眼睛外观的视频帧的数量是有限的,基于外观的模型(凝视360和X凝视)表现更差。 中 5个场景中,Office具有最大的空间,其中受试者倾向于不停止地行走,表现出自然的凝视-头部-身体协调,其中我们的方法显示出更高的准确性。在LR和户外场景中,准确度会变低,因为这些场景包含会导致频繁遮挡的家具或树木。这些结果证明了我们方法的有效性,即,仅从头部和身体取向估计注视,这可以通过利用注视-头部-身体取向的角度-时间依赖性从监视视图Tab的第二行。1显示了消融研究的四种变化的结果。“No temporal”与我们提出的模型具有相同的架构,但只接收一个输入帧,因此该模型不考虑凝视-头部-身体方向的时间关系。在"没有不确定性."双向LSTM层不接收头部和身体取向的估计的不确定性。“无身体输入”和“无头部输入”不接收估计的身体方向或头部方向作为输入。结果表明,所有这些组件是必不可少的准确估计。此外,我们还测试了我们的模型使用眼睛出现-2198EAM方法办公室LR厨房图书馆庭院正面180度后180度是说固定偏置88.0/76.085.5/76.786.0/82.489.0/85.189.7/87.886.3/99.490.3/55.088.1/79.7Dias等人[6]美国-/27.2-/25.2-/19.8-/24.9-/36.1-/22.89-/34.8-/27.1[16]第十六话24.0/19.241.1/31.332.4/21.227.5/20.728.2/28.321.8/19.636.3/26.730.4/24.5[32]第三十二话24.2/23.042.0/40.923.3/22.924.6/22.330.2/31.926.2/23.531.5/31.729.2/28.4无时间20.0/18.125.6/25.521.5/18.621.9/20.128.4/30.522.9/20.025.0/25.724.1/23.3没有不确定性。17.5/17.623.9/26.320.2/19.620.6/18.523.9/25.620.9/18.123.6/24.122.1/21.6无身体输入17.3/15.231.3/28.022.0/19.421.7/19.525.7/27.121.9/19.626.5/24.724.1/22.5无磁头输入20.5/21.931.7/30.824.0/23.823.2/22.024.7/27.223.2/20.627.0/28.324.9/24.8我们的(AGORA)24.9/22.825.7/24.223.4/20.827.7/27.130.1/32.227.3/22.228.3/28.227.3/26.8我们的(GAFA)14.4/14.325.1/22.620.4/19.619.8/18.425.4/26.920.7/17.423.2/21.921.7/20.9Ours + Face(GAFA)15.3/14.324.0/24.219.1/17.218.2/19.024.4/26.019.3/16.821.7/21.520.4/20.0表1.与GAFA数据集上的现有方法进行定量评估(测试数据的平均角度误差(MAE)最后一列显示所有场景的平均MAE。所有模型都是在我们的训练数据集上训练的。MAE以3D/2D显示。我们的方法在这些具有挑战性的现实数据上始终优于过去的方法。图4. GAFA数据集上的3D凝视估计示例。估计(橙色)和真实注视方向(蓝色)与平均角度误差(MAE)一起显示。上、中、下三行分别显示高、中、低准确度的结果。我们的模型(Ours + Face)和我们在AGORA数据集上训练的头部和身体网络。作为Tab的底部行。1显示,在AGORA数据集上训练的模型与在GAFA数据集上训练的模型相比,准确性略低。当使用眼睛的外观时,我们的模型的准确性略有提高,特别是对于正面图像(前180度)。图4显示了我们在GAFA数据集上进行凝视估计的示例结果。如上一行所示,当人在看某个物体时,我们的模型往往会显示出更高的准确性当人在行走时(中间行),估计变得更具挑战性。最下面一行显示了来自失效案例的样本,其中头部或主体一部分往往看不见。虽然凝视估计在这些情况下变得具有挑战性,但我们的模型基于头部或身体方向返回最佳猜测,只要两者中的任何一个是可观察的。请参阅补充视频中的图像序列的结果。MoDiPro数据集上的结果接下来,为了了解我们和现有模型在不同场景中的泛化性能,我们对MoDiPro数据集进行了跨数据集实验Tab的第一行。2显示了在GAFA数据集上训练模型并在MoDiPro数据集上测试模型的请注意,我们的估计是3D的,它被投影到图像平面上,以评估MoDiPro数据集的2D地面实况。我们的模型表现最好。如果可以准备一些3D注视监督,则可以通过对任何新场景进行微调来我们的模型有一个两阶段的架构,使我们能够单独训练头部和身体网络与其他大规模的数据集,如人体姿势估计。这是特别有用的,因为模型的第一阶段将图像作为输入,并且较大的图像变化导致更好的泛化 。 Dias 等 人 也 是 如 此 。 的 方 法 , 它 是 建 立 在OpenPose [4]。为了充分利用这一点,我们分别在AGORA数据集上训练了第一阶段网络(头部和身体网络),并使用GAFA数据集训练了第二阶段网络。除了Diaset al.在COCO数据集上训练Open-Pose的原始模型,我们也在AGORA数据集上重新训练Tab的底部行。2显示结果。我们在AGORA数据集上训练的模型显示出比Dias等人更好的准确性。不管训练数据集如何。该结果表明,与Dias等人中使用的静态面部关键点相比,注视-头部-身体取向的时间关系是用于估计注视方向的更鲁棒和可推广的线索。s方法。图5显示了示例输出-00110 00010001000角度误差角度误差角度误差2199真Dias等人我们方法训练数据MAE(2D)[16]第十六话GAFA52.5[32]第三十二话GAFA51.4我们GAFA46.3Dias等人[6]美国COCO(OpenPose)+GAFA28.1测试 集办公室LR厨房图书馆庭院训练集办公室-23.336.431.233.5LR36.6-32.929.843.4厨房39.232.9-49.145.1图书馆28.632.427.7-29.9庭院33.435.637.032.4-表2.跨数据集评估。每个模型都在指定的数据集上进行训练,并在MoDiPro数据集上进行测试2D MAE开启表3.针对不同训练/测试集组合的跨场景评估。显示了每个场景的3D MAE显示MoDiPro数据集 我们的模型部分训练了AGORA数据集显示了最高的准确性。图5. MoDiPro数据集上的凝视估计示例。使用AGORA,Diaset al.使用COCO训练的模型,并显示了地面实况方向我们和迪亚斯等人的观点"的模型在MoDiPro数据集。跨场景分析我们还进行了跨场景实验,其中模型在GAFA数据集中的5个场景中的1个上进行训练,并在其余4个场景上进行测试。表3总结了结果。对库数据的训练实现了最佳的泛化精度。这可能是由于图书馆数据包含各种各样的凝视行为,例如,上下看以扫描书架。另一方面,对厨房数据的训练导致泛化性能低下。这是因为相机的视角是有限的(大部分数据是人的后向图像)。多视图实验我们在GAFA数据集上测试了我们的多视图模型。我们从没有检测到人的相机视图中丢弃帧。平均而言,多视图模型使用4.6个相机视图。表4显示了我们的单眼模型的结果,单眼模型输出的加权平均值,以及使用GAFA数据集训练和测试的3D身体速度的模型简单的加权平均产生比单目方法稍好的精度。使用3D身体速度的模型表现得更好。为了验证我们的多视图方法,我们将测试集方法闭塞没有遮挡 是说基线(单眼)24.820.221.6多视图-华盛顿州-21.620.520.8多视图-3DTraj-19.918.218.9表4.在GAFA数据集上评估我们的单目和多视图模型。显示了所有场景的平均3D MAE将多个视图与我们的模型相结合可以提高准确性。根据从开放式姿势[4]检测到的关键点的数量,将人的一部分被遮挡的情况和人从所有摄像机清晰可见的情况区分开来虽然当人被遮挡时单目模型的性能显著下降,但是多视图模型受影响较小,因为它们可以基于估计的不确定性适当地将低权重分配给被遮挡的相机限制由于我们的方法使用注视-头部-身体定向的时间协调来估计注视方向,所以当人根本不移动时(例如,读一本书)。我们计划通过利用其他线索来解决这个问题,例如在我们未来的工作中场景的显着性。6. 结论本文介绍了一种新的不依赖于眼睛外观的远距离3D视线估计方法我们将凝视估计公式化为贝叶斯预测,该贝叶斯预测利用凝视、头部、身体方向之间的学习角度-时间依赖性。实验结果清楚地表明,我们的方法可以鲁棒地估计视线方向从远处,从典型的监视视图。我们还引入了一个广泛的数据集,用于从远处进行凝视我们相信这些结果为凝视估计和人类行为分析的研究开辟了新的途径。致 谢 本 工 作 部 分 得 到 了 JSPS 20 H 05951 、 21 H04893、JST JPMJCR 20 G7、JP-MJPR 1858和RIKEN GRP.我们还要感谢三上郁久和西井雄介在本工作初期给予的帮助。2200引用[1] 加雷思·巴恩斯。前庭眼功能在协调的头部和眼睛运动,以获得视觉目标。J. Physiol. ,287:127-147,1979年2月。2[2] 卢卡斯·拜尔亚历山大·赫尔曼斯和巴斯蒂安·莱比。Biternion Nets:来自离散训练标签的连续头部姿势回归模 式 识 别 , 第 9358 卷 , 第 157-168 页 SpringerInternational Publishing,Cham,2015. 3[3] 帕特里克·伯格马丁·罗斯布彻和克劳斯·迪波德用2D单目 USB 摄 像 机 自 初 始 化 头 部 姿 态 估 计 。 arXiv :2005.10353,2014。3[4] 曹哲,Gines Hidalgo Martinez,Tomas Simon,Shih-EnWei和Yaser A Sheikh。OpenPose:使用部件亲和场的实时多人2D姿势估计TPAMI,2019。六七八[5] Jinyoung Choi,Beom-Jin Lee,and Beth-Tak Zhang. 基于卷积神经网络的人体方位估计arXiv:1609.01984,Sept. 2016. 3[6] Philipe A Dias,Damiano Malafronte,Henry Medeiros,and Francesca Odone.辅助生活设施的注视估计。在Proc.WACV,2020中。一、二、五、六、七、八[7] Yu Fang , Masaki Emoto , Ryoichi Nakashima ,Kazumichi Matsumiya,Ichiro Kuriki,and Satoshi Shioiri.在超高清电视上观看电影时视头部方向而定的眼位分布。ITE Trans.MTA,3(2):149-154,2015年。2[8] Yu Fang,Ryoichi Nakashima,Kazumichi Matsumiya,Ichiro Kuriki,and Satoshi Shioiri.视觉认知处理的眼-头协调。PLoS One,10(3):e0121035,2015年3月。3[9] Tobias Fischer,Hyung Jin Chang,and Yiannis Demiris.Rt-gene:在自然环境中的实时眼睛注视估计在Proc. ECCV,第334-352页,2018年。一、二、五[10] 肯尼思·阿尔贝托·富内斯·莫拉,弗洛朗·莫奈,让-马克·奥多贝兹. EYEDIAP:用于开发和评估RGB和RGB-D相机的凝视估计算法在Proc. ETRA,第255-258页,2014中。5[11] 塞 尔 吉 奥加 里 多 - 胡 拉 多Ra faelMunnoboz-Salinas ,弗朗西斯科·何塞的马德里·奎瓦斯和拉斐尔·麦地那·卡尼斯特。使用混合线性规划生成基准标记字典。模式识别,51,Oct. 2015。5[12] Craig Hennessey,Borna Noureddin,and Peter Lawrence.具有自由头部运动的单摄像机视线跟踪系统。 在procETRA,ETRA '06,第87-94页,纽约,美国纽约,2006年。计算机协会2[13] Duyeong Heo,Jae Yeal Nam,and Byoung Chul Ko.基于师生框架的软目标训练行人姿态定向估计传感器,19(5),2019年3月。3[14] Peiyun Hu和Deva Ramanan寻找小面孔arXiv:1612.04402,abs/1612.04402,2016。2[15] MoritzKassner , WilliamPatera , andAndreasBulling.Pupil:一个开源平台,用于普遍的眼动跟踪和基于移动凝视的交互。在Proc. ACM UbiComp中,Ubi-Comp5[16] Petr Kellnhofer 、 Adria Recasens 、 Simon Stent 、Wojciech Matusik和Antonio Torralba。Gaze360:自然环境下的无约束注视估计。InProc. ICCV,2019. 一、二、五、六、七、八[17] 作者:张文辉,张文辉.班达尔卡,沃伊切赫·马图西克,安东尼奥·托拉尔巴.眼动追踪适用于所有人在Proc.CVPR,第2176-2184页,2016年。5[18] 迈克尔·兰德在自然情况下产生的扫视转动中眼睛、头部和躯干的旋转的协调。Exp. Brain Res. ,159(2):151-160,2004年11月。二、三[19] Ji Woo Lee,Chul Woo Cho,Kwang Yong Shin,EuiChul Lee,and Kang Ryoung Park.基于眼睛光学模型和瞳孔Purkinje图像的3D视线跟踪方法Optics and Lasers inEngineering,50(5):736-751,May 2012. 2[20] 村上纯一和三上郁久。从头部凝视在模式识别中,第254-267页。Springer International Publishing,2020. 3[21] 放大图片作者:Priyanka Patel,Chun-Hao P. Huang,Joachim Tesch,David T.霍夫曼,沙尚克·特里帕蒂,迈克尔·布莱克。AGORA:地理上的化身,为回归分析而优化.在Proc. CVPR,2021年6月。4[22] 谢尔盖·普罗库丁,彼
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功