没有合适的资源?快使用搜索试试~ 我知道了~
141260ESCNet:具有对3D场景的理解的凝视目标检测0鲍军1 刘布宇2 于军1 *01 杭州电子科技大学 2 NEC Laboratories America0摘要0本文旨在解决单幅图像凝视目标检测问题。传统方法要么专注于2D视觉线索,要么以非常粗糙的方式利用额外的深度信息。在这项工作中,我们提出在仅有2D注释的挑战性场景下明确且有效地建模3D几何。我们首先使用估计的深度和参考对象获取给定场景的3D点云。然后我们找出给定人的所有可能的3D方向中最前面的点。这些点随后在我们的ESCNet模型中得到利用。具体而言,ESCNet由几何和场景解析模块组成。前者根据估计的3D凝视方向产生一个初始热图,推断每个最前面的点被看到的概率。后者进一步探索场景上下文线索以调节检测结果。我们在两个公开可用的数据集GazeFollow和VideoAttentionTarget上验证了我们的想法,并展示了最先进的性能。在GazeFollow上,我们的方法在AUC方面甚至超过了人类。我们的代码可以在这里找到:https://github.com/bjj9/ESCNet。01. 引言0凝视目标检测对于理解人类意图很重要。因此,它在人机界面[26]和社交意识跟踪[27]等应用中起着重要作用。虽然可穿戴式眼动仪[10]等物理设备可用于进行凝视估计,但由于位置或校准限制,它们并不理想。更一般的设置是将第三人称视图图像以及场景中的给定人作为输入,并旨在定位此人在2D图像空间中的凝视位置[31]。传统方法通常利用2D视觉线索来调节凝视预测,不仅包括显著对象,还包括估计的凝视方向[6,31]。最近的方法[9]提出了结合3D凝视估计和深度线索。虽然展示了先进的性能,但需要额外的人工注释[18]来明确3D凝视和粗糙深度表示,它缺乏处理更一般场景的能力,例如多个显著对象位于相同的深度层和视野中。为此,我们提出通过对3D场景的完全理解和明确建模来执行凝视目标检测,仅使用2D凝视注释。虽然听起来很有前景,但现有数据集中缺乏3D信息使得我们的任务困难。此外,有效地表示这种信息仍然是一个重要问题。我们通过两个关键见解来解决这些挑战。首先,可以通过绝对深度和相机参数重建3D几何,这可以通过相对深度和对参考对象的某些假设来估计。具体而言,我们将“人”作为我们的参考类别,因为在为凝视估计任务收集的图像中,人类最常出现,并且其大小具有一定的分布。在人类大小的假设下,我们可以估计每个图像的绝对深度和焦距,从而得到3D点云(见图1中的(1))。其次,遮挡在凝视估计中起着重要作用,因为人无法透过遮挡物看到。这一事实提供了强烈的先验知识。0*通讯作者。0图1.我们提出在2D凝视目标检测任务中明确建模3D几何。我们提出在单幅图像中使用3D点云重建场景(1),并证明我们的ESCNet能够在(2)中有效利用这些信息。0明确建模3D凝视,由于粗糙的深度表示,它缺乏处理更一般场景的能力,例如多个显著对象位于相同的深度层和视野中。为此,我们提出通过对3D场景的完全理解和明确建模来执行凝视目标检测,仅使用2D凝视注释。虽然听起来很有前景,但现有数据集中缺乏3D信息使得我们的任务困难。此外,有效地表示这种信息仍然是一个重要问题。我们通过两个关键见解来解决这些挑战。首先,可以通过绝对深度和相机参数重建3D几何,这可以通过相对深度和对参考对象的某些假设来估计。具体而言,我们将“人”作为我们的参考类别,因为在为凝视估计任务收集的图像中,人类最常出现,并且其大小具有一定的分布。在人类大小的假设下,我们可以估计每个图像的绝对深度和焦距,从而得到3D点云(见图1中的(1))。其次,遮挡在凝视估计中起着重要作用,因为人无法透过遮挡物看到。这一事实提供了强烈的先验知识。141270为了规范一个人可以看的地方,我们受到启发,提出用最前面的点或遮挡物来表示3D几何。这是通过对给定人的所有可能的3D方向建模点,然后在每个方向上只保留最前面的点来实现的。此外,我们提出了一个新颖的模型ESCNet,它由几何和场景解析模块组成。前者利用几何线索,例如3D凝视方向和3D几何,输出一个初始热图作为中间表示,推断每个最前面的点被看到的概率(见图1中的(2))。后者进一步结合场景上下文线索,如RGB图像中的显著性,并生成最终的热图预测。我们在GazeFollow[31]和VideoAttentionTarget[6]上进行测试,并获得了最先进的性能。我们的中间表示不仅在视觉上和概念上有意义,而且还允许深度监督,从而提高性能。最后,我们的方法甚至在AUC指标上超过了人类的表现。总结起来,我们的主要贡献是:0•一种新颖的方法,在2D凝视目标检测中明确建模完整的3D几何,特别是遮挡。0•一种端到端的深度监督模型ESCNet,探索了3D几何、2D/3D凝视和场景上下文线索,只有2D中的凝视注释可用。0•在公开可用的数据集上取得了最先进的结果,并且优于人类的性能。02. 相关工作0我们将相关工作分为三个领域:凝视目标预测、3D凝视估计和从单个图像中理解3D场景。凝视目标检测最初旨在在图像中定位给定人物的凝视目标[4, 6, 9, 21, 31,44]。先驱性工作[31]迈出了凝视目标检测的第一步,并发布了一个带有头部位置注释和相应凝视目标注释的大规模图像数据集。在他们的设计之后,大多数后续的凝视目标检测方法[4, 6, 9,21]在解决这个问题时考虑了2D图像空间中的凝视和物体显著性估计。[4,6]首次考虑了图像之外的情况,其中人物可能会看向图像之外的某个地方。现有工作的主要局限性之一是它们依赖于2D视觉线索,缺乏在3D中推理的能力。最近的方法[9]提出了将深度线索纳入以区分前景/背景点。尽管令人印象深刻,但它需要额外的3D凝视标签[18]来专门训练其3D凝视估计器。由于缺乏深度通道的预测,[9]的核心深度重新基准部分将无法工作。相比之下,我们的工作明确地用点云模型化3D几何,并在我们的模型中隐含地利用3D凝视线索来调节我们的预测。0云和有效地表示了给定人物的3D几何形状,只对所有3D方向上的遮挡物进行建模,只有2D中的凝视注释可用。我们进一步引入了关于给定人物注视每个遮挡物的概率的中间表示。这种表示不仅提供了对3D场景和凝视的有意义的理解,还允许深度监督。3D凝视估计3D凝视估计侧重于更基本的凝视估计问题,其中提供了单个人的眼睛/面部图像,并且其目标是预测该人的3D凝视方向。现有方法通常可以分为基于模型的方法[2, 7, 15, 35]或基于外观的方法[25, 28,33]。借助大规模数据集(例如MPIIGaze[43]),基于CNN的方法[1, 42,43]进一步推动了凝视估计领域的快速发展。已经探索了与模型设计相关的各种技术,包括模型结构、输入和中间表示[29]。例如,[11,43]提出了复杂的或CNN集合来利用它们的表示能力,[3]在面部图像中模拟了两眼的不对称性。至于模型输入,已经提出了多模态输入[19,39]和数据归一化[41]。3D凝视在[9]中也起着重要作用,以明确区分深度层。与[9]相比,它需要额外的3D凝视标签[18]来训练其3D凝视预测模块,而我们仅依赖于2D中的凝视注释。此外,我们明确地用前端点建模3D几何,并在我们的模型中隐含地利用3D凝视线索来调节我们的预测。从单个图像中理解3D仅使用单个图像来理解3D是一个不适定的问题,因为一个单一的图像可以从无限多个真实场景中生成[13]。研究人员已经提出了各种几何表示,例如深度和法线[37],层[16, 38]和布局[20,23],语义,例如2D和3D对象[34],以及两者的组合[24,40]。在这项工作中,我们选择点云作为我们的表示,因为它足够精细,可以对像素级遮挡进行建模。具体而言,我们依赖于单目方法的相对深度预测和参考对象的绝对深度和焦距预测。为了对像素级遮挡进行建模,我们使用遮挡物或相对于给定人物的所有3D方向的前端点来表示每个场景。03.我们的框架0如上所述,我们的方法由两个阶段组成,如图2所示。第一阶段通过从单个RGB图像重建整个场景来显式建模3D几何,从而得到3D点云。在第二阶段,我们的ESCNet有效地利用获得的3D几何来执行凝视估计任务。ESCNet由两个子模块组成,即几何解析模块(第3.1节)和场景解析模块。具体而言,几何解析模块估计给定人物在图像Ii上注视3D空间中第m个点的概率。我们在图3中提供了fgp的更多细节,其定义如下:Assuming that we have a dataset D = {Ii, ti}Ni=1 con-sists of N images as well as their annotations, where Ii ∈RHi×Wi×3 denotes the i-th image, with height Hi andwidth Wi. ti = [txi , tyi ] denotes the x, y locations of groundtruth gaze fixation in 2D image space. We can automati-cally generate 3D point clouds of all images P = {Pi}i ={{pmi }m}i and pmi = [pm,xi, pm,yi, pm,zi] is a 3-dimensionalvector representing the 3D position of m-th pixel in the i-thimage, with m = [1, ..., Hi × Wi]. xy denote the imageplane, and z is for depth direction. We further denote thegaze fixation and the head center in 3D space as pti and phi .Equivalently, we can represent 3D points/vectors in angularspace, or by its angle α, β and norm. Taking pmi as an exam-ple, pmi can be represented by [fα(pmi ), fβ(pmi ), fn(pmi )],where fα(pmi ) = arctan 2(141280图2.我们的方法以单个RGB图像和一个给定的人物作为输入,并在2D中输出目标凝视位置。第一阶段使用点云重建3D场景,在第二阶段中,ESCNet使用与该人物相关的最前方的点来有效地表示场景几何,并通过进一步结合3D凝视和场景上下文线索进行预测。我们的ESCNet是深度监督和端到端可训练的,初始热图作为有意义的中间表示。我们在粉色中突出显示我们的创新之处。0通过考虑3D几何线索,我们可以看到可能的目标注视点。场景解析模块(第3.2节)在2D图像空间中同时结合场景上下文线索和预测概率来改进目标注视点的预测。为了清晰起见,我们首先假设在介绍每个子模块时都有3D点云可用,然后在第3.3节中描述如何从单个RGB图像中获取它们。0p m,x i) ∈ [-π, π],f β(p m i) =0∥ p m i ∥) ∈ [-π/2, π/2],f n(p m i) = ∥ p m i∥表示冠状面和矢状面的角度,以及向量的范数0p m i,分别。角度空间的定义可以在图2右下方找到。03.1. 几何解析模块0几何解析模块fgp的目标是根据几何线索预测给定人物可能在3D中观察的位置。fgp的设计遵循三个主要直觉。首先,头部图像包含重要信息,如3D头部姿态[46],这给出了关于凝视方向的强先验。其次,在2D图像中头部的位置与该人物的凝视之间存在强相关性[31]。最后,如果一个人的一个视线上存在多个对象/点,他/她只能专注于最近的对象/点。受到这三个假设的启发,fgp接受头部图像I h i ∈ R H h i × W h i ×3,头部在2D图像中的位置M h i ∈ R H i × Wi和3D几何线索R i ∈ R H i × W i × 4作为输入。fgp的输出是一个初始热图A i ∈ R H i × W i = {a m i}m,其中a m i表示图像Ii中给定人物注视3D空间中第m个点的概率。我们在图3中提供了f gp的更多细节,其定义如下:0A i = f gp(I h i, M h i, R i) (1)0similar to existing work [6, 9, 31], there are three main dif-ferences. Firstly, fgp exploits the full 3D information whilethese existing methods either leverage only 2D cues [6,31]or incorporate depth information at very coarse level [9].Due to the 3D modelling, our intermediate representationAi actually reflects probability of 3D points rather thanpixels in 2D image space.Secondly, we explicitly rep-resent front-most points in Ri and the intuition of Ri, orone cannot see through occluers so that only front-mostpoints/objects are visible to given person, is lacking in ex-isting methods. Finally, due to the explainable design of Ai,fgp allows deep supervision for this intermediate represen-tation during training while existing methods only receiveheatmap-wise losses at the final prediction step. We will ex-plain in below about how to obtain geometric cues Ri andground truth A∗i , and leave details of Ihi and M hi to Sec. 3.3.Geometric cues Ri consist of both the full 3D informa-tion of the current scene and the front-most point alongeach visual ray from the head center of a given person.Given the head center phi , the former can be easily ob-tain by converting all vmi= pmi − phi to angular space, or[{fα(vmi )}m, {fβ(vmi )}m, {fn(vmi )}m]. The latter is a bi-nary map reflecting our intuition that when occlusion hap-pens, only occluders are visible to human. In another word,if there are multiple objects/points along a visual ray, onlythe front-most one can be our focus. To achieve that, wefirst define visual rays and then figure out 3D points that liein each visual ray. Lastly, we select out only the point withthe minimum distance to a given person along each ray.Given the head center phi , we assume that all visual raysmust pass phi . Instead of working on the original continuousspace, we propose to discretize them for better efficiency.Specifically, we discretize the coronal angle α into J = 180̸141290图3. 我们提供了fgp的更多细节。输入、输出和模块分别以粉色、绿色和黄色进行可视化。0图4。我们可视化了带有红色边界框的RGB图像中的给定人物。右侧可视化了该人物可以观察到的最前方点的二进制图。0将角度β和K = 90个箱子分成K =90个箱子,总共有16200个可能的离散化视觉射线。我们的下一步是确定每个点相对于头部中心的角度属于哪个箱子。记vmi = pmi − phi,�m ≠ h,这样的角度可以用[fα(vmi),fβ(vmi)]表示。根据角度值和我们的离散化,我们可以进一步确定每个pmi属于哪个箱子。当发生遮挡时,一个箱子中可能有多个点,表示该视觉射线中出现了多个点。我们将bmi,αi∈1,...,J和bmi,βi∈1,...,K表示第m个点所属的箱子,例如,如果且仅如果bmi,αi = j且bmi,βi =k,则它属于箱子j,k。确定每个3D点的成员资格后,我们然后在每个箱子中删除遮挡点。换句话说,当多个点属于一个箱子时,只保留具有最小范数的点。我们定义一个包含属于箱子j,k的点的索引的集合Vj,ki。然后我们有:0m�j,k = arg min m fn(vm i), m∈Vj,ki (2)0其中m�j,k表示在箱子j,k中到头部中心距离最小的点的索引。将所有这些索引分组在一起,或{m�j,k}J,Kj=1,k=1,为我们提供了关于给定人物可能在所有可能的3D方向上注视的信息,仅基于3D几何。然后我们生成一个大小为Hi×Wi的二进制图,仅反映最前方的点。如果m∈{m�j,k}j,k,则将其在该二进制图中的像素值设置为1。否则,将其设置为0。我们在图4中提供了上述二进制图和配对的Ii的一些视觉示例。我们用红色边界框突出显示给定的人物,并显示最前方点的生成二进制图。如图所示,生成的二进制图对于一个给定人物可能在所有可能的3D方向上注视的最前方点给出了令人满意的估计,仅基于场景几何。地面真实A�i从生成的Ri开始,并进一步融入注视线索。具体而言,A�i旨在估计给定人物正在观察的每个3D方向的概率。直观地说,与地面真实注视方向更接近的方向应具有更高的概率。否则,它们的概率应降低。141300图5。我们展示了四对示例。左侧是RGB图像,显示了给定的人物和注释的地面真实位置。右侧显示了我们生成的A�i。0首先,我们首先生成地面真实注视方向,可以通过[fα(vti), fβ(vti)]获得,其中vti = pti −phi。我们再次通过将以bti,αi,bti,βi为中心的狄拉克函数与固定方差的高斯进行卷积,将其离散化为J和K个箱子,得到独立的概率Pr(αi)和Pr(βi)。Pr(αi)j和Pr(βi)k0在向量Pr(αi)和Pr(βi)中,j和k分别表示第j个和第k个值,表示观察第j个和第k个离散化方向的概率。最后,我们生成概率图A�i = {ˆami}m∈RHi×Wi,如果m∈{m�j,k}j,k,则ˆami= Pr(αi)j ∙Pr(βi)k。否则,我们将ˆami设置为0。我们在图5中可视化生成的A�i。可以看到,与Ri相比,A�i不仅缩小了目标区域,而且提供了与地面真实3D注视方向相关的有意义的概率。我们的A�i考虑了3D线索,因此对给定人物可能注视的位置提供了更多多样且有意义的猜测。可以预期,通过上下文线索,我们能够进一步改进我们的预测。另一个有趣的观察是关于多模态估计和人类注释中的潜在歧义。例如,仅通过单个RGB图像很难确定左上角图像中的女孩在像素级别上真正看向哪里。由于其可见性,她更有可能关注左侧的脸部、鼻子或嘴巴区域,而不是右侧的脸部/耳朵/肩膀。我们相信我们的A�i反映了我们的观察。我们将在第4节中讨论这一观察。03.2.场景解析模块0如上所述,我们有反映给定人在3D空间中可能查看的位置的Ri,而不考虑头部姿势或上下文线索。我们还获得了旨在预测与凝视相关线索相关的每个点/方向的概率的Ai。我们的下一步是结合上下文线索来改进我们的目标位置估计。因此,我们引入了一个场景解析模块,该模块将当前图像Ii、头部位置Mhi、概率图Ai和来自fgp的中间头部特征fhi作为输入,并输出最终的热图Gi∈RHi×Wi,反映给定人在每个像素位置上注视的置信度。fgp的详细信息如图6所示。数学公式如下:0图6.我们提供了fsp的更多细节。输入、输出和模块分别以粉色、绿色和黄色进行可视化。热特征fhi是从fgp获得的。0具体而言,我们有:0Gi = fsp(Ii, Ai, Mhi, fhi)(3)0为了获得真实的G�i,我们首先生成一个二进制地图,在ti处将值设置为1,其他地方设置为0。然后,我们将以ti为中心的狄拉克函数与固定方差的2D高斯进行卷积。然后,我们的整体损失函数定义为:0L = Lmse(Ai, A�i) + λ ∙ Lmse(Gi, G�i)(4)0其中Lmse表示均方误差损失。03.3.数据准备0在本节中,我们提供了如何使用单个RGB图像获取3D点云Pi、头部图像Ihi和头部位置Mhi的更多细节。为了生成Pi,我们首先估计Ii和参考对象(或“人”)之间的相对深度,我们依赖于人体尺寸在一定分布范围内的假设来估计超参数。具体而言,相对深度Di∈RHi×Wi通过现有的单目深度估计器fd获得,即Di=fd(Ii)。Dr=10a(Di−b)是我们所期望的绝对深度。我们的下一步是估计Dri,或者等效地估计a,b和焦距c,以便每个图像都能从参考物体的帮助中得到。给定绝对深度图Dri以及焦距c,可以使用几何学将Ii中的所有像素映射到3D空间[13],从而得到我们的Pi。如上所述,我们使用Ii中的人作为参考物体。具体而言,我们在每个图像上部署姿势估计器fdp,并获得所有人的身体部位的掩码。Ei =141310fdp(Ii)∈RHi×Wi×C×Ni,其中C是身体部位的数量,Ni表示第i个图像中的个体数量。我们还利用2D/3D关键点检测器或f kd2和fkd3提供身体关节的详细位置。具体而言,我们有Ki = fkd2(Ii)∈RC'×2×Ni和Si = fkd3(Ii),其中Si∈RC'×3×Ni,C'表示关键点类别的数量。对于图像Ii中的每个个体l,我们可以从Ei中获得头部区域的最紧密边界框。然后,我们将该边界框的最长边的倒数表示为eh,li。我们还可以进一步获得相对于Ei和Di的头部掩码的平均相对深度,表示为dh,li。然后,b可以通过以下方式获得:0b = −�0l(eh,li−eh,li0�0l(eh,li−eh,li)2(5)0l(�)Ni表示�的平均函数。为了计算a,我们转向图像Ii中最好表示的人。直观地说,一个个体1)提供了较大的最紧密掩码2)其大多数关键点在fkd2中被检测到3)作为人的高置信度得分将被视为我们的候选人。将最好表示的人的索引表示为l�,我们可以在Ei中检测到的其检测到的全身掩码上获得其相对深度Di,并将其表示为dl�i。我们进一步通过max(dl�i)和min(dl�i)获得此人的最大和最小深度。给定人l�的3D关键点,我们可以计算任意两个关键点之间的深度差和宽度差。我们将其最大深度差和宽度差分别表示为sdl�i和sw,l�i。然后,我们可以通过以下方式获得a:0a = (0min(dl�i) + b−10max(dl�i) + b)) / sd,l�i (6)0有了a和b,我们可以很容易地得到绝对深度,其中Dr,i = 10a(Di−b)。类似地,l�的平均绝对深度-0th person is defined over its 2D mask and denoted as dr,l�i.By computing the tightest bounding box of this person inEi, we can further get the width of this person, which wedenote as 1/ew,l�i. Then the focal length c is defined as:0c = dr,l�i / (sw,l�i ∙ ew,l�i) (7)0我们将读者们参考补充材料以获取更多关于获取a、b和c的细节。为了获得头部图像Ihi,我们直接利用Ei来获取头部掩码。然后,我们根据该掩码的最紧密边界框裁剪图像Ii以获得Ihi。类似地,头部位置掩码Mhi是通过生成一个二进制图并将仅位于上述最紧密边界框内的像素的值设置为1来获得的。为了获得头部中心phi,我们使用在Ki中检测到的目标人物的关键点,在2D图像空间中找到左右眼位置的关键点的中心02D图像空间,然后将其映射到3D。我们的真实注视目标pti也是通过将ti映射到3D获得的。更多细节请参见第4节。04.实验0在本节中,我们通过在两个公开可用的数据集GazeFollow[31]和VideoAttentionTarget[6]上进行多个实验来展示我们提出的方法的有效性。我们展示了这些数据集上的最先进性能,并通过验证每个模块的有效性来进行消融研究。GazeFollow数据集是一个大规模的注视跟踪数据集,从各种现有数据集(例如ImageNet[8])中收集了122,143张图像中的130,339个人,并使用Amazon的MechanicalTurk(AMT)进行了注释。根据[31]中的划分,GazeFollow的4,782个人用于测试,其余的用于训练。为了确保注释质量,同一图像中的每个个体都属于同一划分,并且他们的注视点在整个图像上均匀分布。更重要的是,为了评估人类表现,在测试图像上每个人收集了10个人的注释。VideoAttentionTarget从YouTube上收集了来自50个不同节目的视频。从这些节目中提取了1到80秒的短片,可以连续观察到动态注视行为以及感兴趣的人。在注释过程中,对这个人的头部边界框和注视目标点进行了密集注释,导致了164,541个帧级边界框和相应的注视目标。其中约20%的注释被保留用于测试,即10个节目中的31,978个注视注释。评估指标我们采用了四个评估指标[6, 9,31]来评估注视跟踪方法的性能。面积下曲线(AUC)准则[17]利用预测的热图作为置信度生成ROC曲线。我们遵循[6]进行公平比较。具体而言,GazeFollow数据集上的真值是一个具有原始RGB图像大小的二进制图,其中来自10个注释的目标位置在图像上设置为1。而在VideoAttentionTarget数据集上,通过对以人类注释者的目标位置为中心的高斯置信度掩码进行阈值处理来获得真值。并且在64×64的调整大小空间下测量AUC。L2距离(Dist.)衡量了平均真值注释和预测注视位置之间的欧氏距离,或者是预测热图中的平均像素位置。请注意,图像的高度和宽度都被归一化为1.角度误差(Ang.)报告了预测和平均真值之间的角度差异。0尽管作者提到有2个注释者在测试集上工作[ 6],但我们在他们发布的数据集中只找到了每个测试图像一个可用的注释。因此,我们省略了与人类表现的比较。Recasens [31].878.19024.0Chong [5]✓.896.187-Lian [21]✓.906.14517.6Video* [6]✓.921.137-Fang [9]✓✓.922.12414.9Ours✓.928.12615.3Ours+✓✓.928.12214.6141320地面真值凝视向量。最后,帧外AP(AP)利用平均精度(AP)评估帧外识别的准确性。实现细节我们使用预训练的MiDaS [ 30 ]作为我们的单目深度估计器f d 。至于姿势估计器 f dp ,我们转向使用在COCO [ 22]上预训练的Dense Pose [ 12 ]。我们的2D关键点检测器 fkd 2 结构与在COCO [ 22 ]上预训练的X101-FPN [ 32 , 36]相同。我们采用预训练的SMAP [ 45 ]作为 f kd 3。由于原始的SMAP在通用凝视估计数据集上表现不佳,我们将SMAP中的2D关键点检测模块替换为使用 f kd 2 或 K i获得的结果。请注意,我们直接在两个数据集上应用这些预训练模型,而没有重新训练或微调。我们的视野、头部和场景特征提取器使用ResNet50作为骨干网络[ 14 ]。f gp、fsp中的编码器-解码器、内外特征提取器和MLP与[ 6 , 9]的结构相同。我们使用PyTorch实现我们的方法,并使用ADAM作为优化器,将学习率设置为0.00025。请注意,我们的方法不依赖于这些子模块的具体细节,我们选择上述结构主要是为了再现的目的。有关每个组件的模型结构的更多细节,请参阅补充材料。04.1. GazeFollow上的性能0定量结果我们在GazeFollow数据集上展示了我们的定量结果,如表1所示。我们用粗体和下划线突出显示最佳和次佳数字。为了进行公平比较,Video*不包括[ 6]的时间部分。Ours+将Ours中的头部特征提取器替换为在[18 ]或Whenet [ 46 ]上预训练的模型,因此与[ 9]相比,监督是相同的。由于所有注释都在帧内,因此不报告AP。从这个表中可以看出,与需要相同监督的SOTA方法相比,我们的方法始终可以达到更好的性能。即使与需要额外训练数据[ 18 ]的方法[ 9]相比,Ours也是可比的。我们想要强调的是,我们提出的方法在AUC指标下可以击败人类表现。与Dist.或Ang.关注人类注释的平均位置不同,这在某种程度上可能是无意义的(参见图9中的真实值),AUC实际上提供了一种衡量预测中多模态属性的方法。超越人类表现表明我们的方法确实可以在给定图像上提供有意义的多模态和潜在更集中的预测。可视化我们在GazeFollow数据集上展示了我们的结果,如图7所示。我们用黄色展示我们的预测,用红色展示地面真值注释。在测试时,每个人实际上有10个注释,我们只可视化这10个注释的平均位置的RGB值。0监督评估指标 方法 [ 31 ] 3D凝视AUC ↑ Dist. ↓ Ang.( ◦ ) ↓0随机 [ 31 ] � .504 .484 69.0 中心 [ 31 ] � .633 .313 49.0 固定偏差[ 31 ] � .674 .306 48.00人类 .924 .096 11.00表1. 在GazeFollow数据集[ 31]上进行单张图像凝视目标检测的评估。基线的数量来自[ 6 , 9 ]。0图7. 我们用黄色和红色分别展示了我们的预测和平均人类注释。0并将对注释可靠性的讨论留到后面的段落中。我们在左列展示了好的例子,当人类注释不明确时,我们在中间和右列可视化了我们的结果。我们可以看到我们几乎总是能给出合理的预测。消融研究为了评估我们的3D表示以及中间表示的有效性,我们进行了两项消融研究。首先,我们移除了 f gp 中的 R i ,只使用 Lmse ( G i , G � i )训练我们的模型。在我们的第二个设置中,我们保留了 R i,但不强制执行 A i中的损失。在这两个设置中,模型的结构与 ESCNet相同。我们将前者称为-geo-Aloss,后者称为-Aloss,在[31]的测试集上报告性能,如表2所示。通过将-Aloss与我们的完整模型进行比较,我们发现没有明确建模 A i会导致性能下降,这证明了我们中间表示和深度监督的有效性。从-Aloss到-geo-Aloss的性能下降进一步展示了 R i真正有效且有益作为3D几何表示。141330评估指标 方法 AUC ↑ Dist. ↓ Ang. ( ◦ ) ↓0Ours .928 .126 15.30-Aloss .921 .139 17.6 -geo-Aloss .910.161 21.10表2.在GazeFollow数据集[31]上进行单幅图像凝视目标检测的评估。我们逐步去除中间表示A i 和R i的损失,以展示中间表示和我们的3D几何表示的有效性。0图8. 我们将左侧的RGB图像与给定人物和右侧的我们配对的预测A i进行可视化。我们可以看到A i 很好地反映了3D几何和概率。0表达。我们在图8中进一步可视化了我们预测的A i。我们观察到我们的模型确实可以生成关于给定人物可能注视的3D几何位置的有意义的中间表示。例如,尽管明显作为显著对象存在,左上角的女士由于遮挡无法看到前面孩子的脸。类似地,右上方图中的给定人物由于被白色球员遮挡,无法看到红衣女士。人类注释和我们的预测的多模态性质图9提供了关于我们逐步预测和整体人类注释的更多细节。从左到右,我们可视化了输入的RGB图像,我们的中间表示A i ,10个注释的真值和我们的最终预测G i。我们可以看到A i 和G i与现实世界的人类注释具有相同的多模态性质。尽管在文献中缺失,但我们认为这种性质对于凝视估计任务是有益的。04.2. 在VideoAttentionTarget上的性能0我们在Tab.3中展示了我们在VideoAttentionTarget数据集上的定量结果。Ours*展示了直接将我们在GazeFollow中训练的模型应用于VideoAttentionTarget的性能。为了获得AP,我们只需将额外的BCELoss添加到Equ.4中。再次,我们总是能够击败需要相同凝视监督的SOTA方法[5,6]。我们的性能甚至优于使用额外时间线索获得的Video[6]。虽然我们的性能略低于需要额外凝视相关信息的[9]0图9. 从左到右,我们展示了突出显示给定人物的RGB图像,A i,人类注释和G i。我们可以看到人类注释和我们的预测具有多模态性质。0监督评估指标 方法[6] [18] Video AUC ↑ Dist. ↓ AP ↑0Random [6] � .505 .458 .621 Center [6] � .728 .326 .6240Chong [5] � .830 .193 .705 Video* [6] � .854 .147 .848 Video [6]� � .860 .134 .853 Fang [9] � � .905 .108 .8960Ours* � .872 .167 - Ours � .885 .120 .8690表3. 在VideoAttentionTarget数据集[6]上的评估结果。基准性能来自[6,9]。0数据集用于训练。有趣的是,即使没有在VideoAttentionTarget上进行训练,Ours*也能很好地泛化并取得令人满意的结果。结论0我们提出了一种新颖的凝视目标检测方法。我们的方法通过使用单个RGB图像从显式建模3D几何来重建给定场景,并在ESCNet中有效地利用这些信息。为了实现这一目标,我们引入了一种中间表示,即最前面的3D点被观察到的概率图,并结合3D凝视和场景上下文线索进一步调节最终的凝视位置。我们展示了这种表示不仅可以提供对3D几何的有意义的理解,而且还允许进行深度监督。我们在两个数据集上的结果展示
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功