双注意力引导的野外凝视目标检测方法在3D空间中的应用

6 浏览量更新于2024-01-22 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11390双注意力引导的野外易芳1 <$、汤佳鹏1 <$、王申1、魏申2 <$、小顾1、李松1 <$、翟广涛1 <$1上海交通大学图像通信与网络工程研究所2上海交通大学{一方，唐jp，沈旺，魏.沈，古古97，宋丽，翟光涛}@ sjtu.edu.cn摘要凝视目标检测的目的是推断场景中每个人正在看的地方现有的工作集中在2D凝视和2D显着性，但未能利用3D上下文。在这项工作中，我们提出了一个三阶段的方法来模拟人类的视线推理行为在3D空间。在第一阶段中，我们引入了一种从粗到细的策略来鲁棒地估计来自头部的3D预测的注视被分解为图像平面上的平面注视和深度通道注视。在第二阶段，我们开发了一个双注意力模块（DAM），它采用平面凝视来产生视场，并根据深度通道凝视来屏蔽由深度信息调节的干扰物体。在第三阶段，我们使用生成的双重注意作为指导来执行两个子任务：（1）识别凝视目标是在图像内部还是外部;（2）如果在内部，则定位目标。大量的实验表明，我们的方法表现良好，对国家的最先进的方法在GazeFollow和VideoAttentionTarget数据集。1. 介绍凝视线索表明一个人对什么感兴趣，因此在各种社会背景下，它是评估意图和预测人类行为的重要手段[12]。由于这些原因，凝视分析已广泛用于神经生理学研究[36，10]，相关显着性预测[8，34]和社会意识跟踪[7，29，30]。然而，大多数现有的工程需要特定的设备（例如，眼睛跟踪器[13]、VR/AR设备或昂贵的RGB-D相机[42]）或专门的设置（例如，人-机器人交互[31，40]或受约束的主体位置[32，1]）。相比之下，我们关注的是来自日常生活中更容易获得的源的注视目标检测在野外的一张照片。如图1（a）所示，给定场景和每个人的头部位置（边界框），我们平等贡献。†对应的作者。目标是预测他们在看什么，包括识别帧外目标和定位帧内目标（点）。现有方法[37，28，5，6，46]通常以估计的注视方向为条件来推理场景中的显著对象虽然取得了重大进展，但仍有三个关键问题需要考虑。(1)大多数先前的作品探索2D表示中的注视方向，并且几乎没有对深度通道注视进行编码它们无法捕捉被标记的人是向前看、向后看还是向侧面看（见图1（b））。Chong等人 [5]提出的直观解决方案简单地将3D凝视作为附加特征通道，但没有合理地与场景上下文相结合。因此，我们需要一个明确的3D凝视表示，并结合一个更有效的方法来利用它。（2）以往的方法主要从2D视觉线索中搜索显著对象。由于缺乏对场景深度的理解，它们很难捕捉到准确的空间信息。例如，沿着受试者的注视方向可以存在不同深度处的两个或更多个因此，我们需要对三维场景理解中的人与环境的相对深度进行建模。(3)现有方法直接学习从头部特征到注视方向的映射函数。它们难以应对眼睛和头部之间的注视不一致（参见图1（d），例如，面向前方但向下看）。因此，我们需要了解眼睛和头部之间的依赖关系，以便更准确地预测。基于上述观察，我们提出了一个三阶段的计划，以模拟人类的视线推理机在3D空间。当一个人推断另一个人的注视目标时，他/她首先预测注视方向，然后通过分析场景沿着注视方向的3D几何形状来估计目标。类似地，在第一阶段中，我们学习从头部图像估计3D注视方向。预测的凝视被分解为2D图像平面上的平面凝视和深度通道凝视。然后，我们提出了双注意模块（DAM）的模型的人的深度感知的角度在场景中的第二阶段。具体来说，我们聚合两个平行的atten- tion组件。一个是视场（FOV）发生器11391(a) 凝视目标检测示例。（b）深度通道注视角。(c)场景深度理解。（d）头部姿势和眼球方向不一致。图1. 凝视目标检测的示例（（a））和现有方法的失败案例[37，28，5，6]（（b）-（d））。给定图像和头部的真实位置（边界框），我们的方法学习预测人在看什么，包括识别帧外目标和定位帧内目标（点）。（b）-（d）中的黄线和红线分别表示地面实况注视和预测注视（b）显示判断错误（例如，在第一个例子中位于前面的女人）通过现有的方法[5，6]由于缺乏深度通道凝视（例如，被标记的婴儿向后看而不是向前看）。（c）显示了这些方法[5，28]在场景深度理解方面的缺陷第一个例子是一个骑自行车的人看着旁边的地面，而这些方法错误地预测了前面的奶牛。现有方法[5，37]不能在头部姿势（例如，在第一个例子中女孩面向女孩实际上是向下看的）。本文提出的基于双注意力模块的网络结构很好地解决了上述问题，并获得了准确的检测结果。另一个是用于深度注意的深度重定基组件。FOV生成器采用平面凝视在图像平面上生成透视范围。深度重置将场景分割为前-后-前-后-后-基于预先估计的深度先验来确定聚焦的背景、中间背景，并且随后从深度通道注视中推导出聚焦的背景。深度注意力有效地用于掩蔽FOV注意力中不匹配深度处的2D显著干扰对象在第三阶段，我们以双重注意力为指导，完成两个子任务。我们制定第一个子任务，即，识别帧外目标作为二进制分类问题，而第二子任务，即，定位帧内目标，作为热图回归问题。具体来说，对于第一阶段，我们引入了一个粗略到精细的策略来估计3D凝视在野外。这是一个艰巨的任务，大相机到主题的距离，在照明，自由主题运动和由此产生的变化，在不受约束的图像外观。我们提出了一个粗粒度的组件来估计从头部图像的粗凝视。该组件不依赖于面部关键点，而是依赖于可见的头部特征。即使眼睛和脸部完全被遮挡，该模型也能输出相对准确的预测。为了应对眼睛和头部之间可能存在的不一致，我们采用眼睛检测器，并使用transform layer.当眼睛可见时，该模型明确地学习眼睛和面部之间的内在相关性。通过这种方式，所提出的3D凝视估计器可以管理野外图像并提高凝视估计精度。我们的贡献可概括如下：• 我们设计了一种新颖的双注意模块（DAM），它明确地体现了人由3D空间中的深度信息来确定。据我们所知，我们是第一批将场景深度理解纳入2D凝视目标检测的公司之一。• 我们引入了一个由粗到细的策略来估计3D凝视方向。鲁棒的凝视估计器显示竞争泛化性能的图像在野外，特别是眼睛包括或闭塞的情况下。• 我们证明了所提出的方法执行faforably对国家的最先进的方法的凝视，遵循[37]基准测试和VideoAttentionTar- get [6]基准测试。2. 相关工作我们的网络的关键组成部分是双注意力模块（DAM），它同时在深度和视野范围内过滤候选目标。当然，我们将在本节中介绍凝视目标检测、单目深度估计和3D凝视估计的相关工作。11392凝视目标检测。一些研究探索了针对特定应用的凝视目标检测，例如，检测相互注视的人[30，29]，识别多个人类观察者的共同凝视点[49，7]，通过人机交互任务估计几个给定位置的凝视目标[32，31]。最近的作品[37，28，5，6，46]概括了凝视目标检测toimages图片in the wild野生.这些工作通常开发一个两阶段的计划，其中的视线方向估计第一，然后结合显着性模型。具体来说，Recasens等人 [37]是解决一般问题的先驱。他们发布了一个大规模的图像数据集，其中包含头部位置和相应注视目标的注释。Lian等人。 [28]使用平面多尺度注视方向场来加强对显着性模型的注视监督。Chong等人 [5，6]扩展到人可能看向图像之外的某个地方的情况。这些基于2D视觉线索的作品虽然在一定程度上有效，但缺乏场景深度理解和深度通道注视监督，导致前/背景点的模糊性。相比之下，所提出的DAM明确地利用深度信息和3D注视，并产生目标聚焦的空间注意图。我们的模型可靠地排除了在不适当的深度分心，并定位凝视区域。单目深度估计。如上所述，恢复场景深度信息是非常需要的，以澄清对象中的空间关系。具体地，DepthRebasing组件将先验场景深度图作为输入。我们需要从输入RGB图像中估计深度，类似于单目深度估计。单目深度估计是单个RGB图像的不适定问题，可以从无限数量的现实场景中生成[17]。早期的作品[19，21，23]努力利用一些统计上有意义的单眼线索（例如，视角、对象大小和对象定位）。最近，基于CNN的方法[11，25，15，26]在该领域显示出显着的改进然而，这些方法大多局限于实验室场景或光照条件下，而不能很好地推广到野外图像在理论上，已经学习了足够丰富的模态的CNN模型可以在任意场景中从单个RGB图像估计场景深度在这项工作中，我们采用了Ranftl等人 [35]的通用模型，该模型在不同的数据集和3D电影中进行了训练，以预测场景图像的先验深度图。在建议的深度重定基组件，我们重新建模的相对位置之间的关系，个人和外部环境。然后，我们通过参考深度通道凝视产生深度通道透视范围（深度注意）。我们在4.3节中说明了深度信息显著提高模型性能的结论。此外，为了研究深度估计性能对我们方法的影响，我们采用了四种状态-最先进的单目深度估计方法来预测先验深度图，并将其用于我们在第4.5节中的模型。3D凝视估计。与大多数现有的凝视目标检测方法不同，我们学习3D凝视方向来表示凝视行为。3D凝视估计方法可以分为几何方法和基于外观的凝视方法。几何方法[18，43，48]依赖于关键点检测，大多数情况下可以用很少的数据实现相对较高的精度，但仅限于实验室设置。基于外观的方法通常学习从眼睛或面部图像到注视方向的更鲁棒和直接的映射函数。一些实践[45，38，22，33]通过头部姿势近似凝视，允许覆盖广泛的头部姿势。然而，这些方法很难准确预测，因为眼球的方向可能与头部不同，第35话[41]涉及眼睛的方法[47，14，4]证明眼睛信息可以提高凝视预测只从头部。然而，在极端的头部姿势下，眼睛会变得越来越闭塞。涉及眼睛的入路仅限于主要的前视图，而不是自由头部条件。我们提出了一个很好的广义凝视估计与高容量，以应付自然场景，包括眼睛闭塞和眼睛方向和头部方向之间可能存在的巨大差距。我们采用了一种由粗到细的策略，通过头部姿势近似基本凝视，并在眼睛可见时用细粒度的眼睛移位对其进行细化。3. 方法本节介绍了我们的生物启发模型的架构，它由三个阶段组成，如图2所示。在第一阶段，给定被标记人的头部图像，我们训练一个3D凝视估计器来估计视线。在第二阶段，我们提出了一个双注意力模块（DAM），这是一个关键的组件模型搜索在视线方向的场景中，由两个平行的注意力分量。在第三阶段中，我们将生成的双重注意力图与场景图像堆叠到一个共享的主干中进行特征提取。两个头分别为两个子任务提取特征：（1）分类注视目标是在图像内还是在图像外;（2）如果在图像内，则回归像素级注视目标位置。3.1. 3D凝视估计我们提出了一种鲁棒的从粗到细的策略来估计野外不受约束的头部图像的 3D凝视（图 2中的黄色面板）。如果眼睛是不可见的，则凝视将粗略地近似于头部姿势。相比之下，细粒度的眼睛特征被另外考虑用于更准确的注视方向。头部姿态提取器将头部图像作为输入，并估计粗粒度的头部方向相对11393深度估计网络深度换基先验深度阈值深度关注3D凝视估计双重注意力模块骨干眼睛检测头部姿势提取器二元分类头Heatmap回归负责人眼睛特征提取器FOV注意事项眼睛特征提取器FOV发生器进出头部位置ℎ图2. 野外凝视目标检测的体系结构。在第一阶段（黄色面板）中，给定被标记人的头部图像，我们采用由粗到细的策略来估计3D注视方向。在第二阶段（紫色面板）中，所提出的双注意力模块（DAM）通过FOV注意力产生视场，并通过深度注意力屏蔽不匹配深度处的干扰物体。在第三阶段，我们将与场景图像堆叠的双重注意力图馈送到两个子任务的共享骨干中：（1）分类凝视目标是在图像内还是在图像外;（2）如果在内部，则回归像素级位置。摄像机坐标系。我们将估计的头部姿态向量表示为h=（yaw，pitch），其分别指示水平和垂直旋转角度。然后，我们通过算法从头部图像中检测左眼和右眼的位置（参见下一段眼睛检测）。裁剪后的眼罩被分别馈送到两个并行的眼睛特征提取器中以生成左眼特征向量fl和右眼特征向量fr。受一项研究工作[44]的启发，该研究证明全连接层执行几何凝视变换比手工制作的凝视变换操作更好[47]，我们采用具有一个隐藏层（记为F（·））的多层感知器来用细粒度眼睛特征来细化粗粒度头部取向g=F （ h ，f· （ flfr ）），（1）其中f∈ {0，1}指示是否检测到眼睛，并且是连接操作。最后，3D凝视-估计器输出形式为（gx，gy，gz），其中xy表示图像平面，z表示深度方向。正的gz表示被标记的人在向后看，而负的gz表示向前看。眼睛检测。由于现有的相关数据集中没有提供眼睛注释，因此如果受试者面向相机，我们需要检测和注释左眼和右眼的位置为了减少误报，我们采用了双重检查策略，参考三维头部姿态和面部标志点检测联合。首先，给定一个头部图像，我们使用Kellnhofer等人的头部姿态检测器。 [22]第二十二话导向如果该方向超出相对于相机的适当范围（60° C，通过实验确定），则认为眼睛自遮挡。我们使用Bulat等人的面部标志检测器。[2]进行第二次检查。我们从视觉上判断检测到的眼睛标志是否合理。左眼和右眼界标中心之间的距离为了提高检测精度，我们旋转和重新缩放头部图像10次，并平均检测到的眼睛标志的归一化位置。紧围绕对齐的眼睛标志的矩形将被扩展到固定大小的眼罩，并随后从标准化的头部图像中裁剪3.2. 双重注意力模块双注意力模块（DAM）（图2中的紫色面板）学习目标集中的注意力地图，第三视角人在3D空间中的注视跟踪行为。DAM可以以相互绑定的方式分解为FOV生成器和深度FOV generator生成一个平面偏振区域来模拟被标记人深度变基的目的是掩盖干扰对象的凝视深度范围。FOV生成器。视场（FOV）可以被视为从头部位置开始无限延伸的实心圆锥。其不同深度的圆锥截面是不同大小的椭圆片。这些切片在相机平面上的投影将形成扇形区域。基于上述分析，我们提出了FOV发生器。将生成的FOV注意力图表示为Mf。给定头部位置（hx，hy）和估计的平面注视方向（gx，gy），我们首先计算角度差θ11394FD在注视方向和从一个点到头部位置的向量θ（i，j）=arccos（（i−hx，j−hy）·（gx，gy）），（2）<$（i−hx，j−hy）<$2· <$（gx，gy）<$2其中（i，j）是Mf中每个点的坐标。由于θ越小表明该点越有可能是注视点，因此我们为距离估计视线越近的点分配更多权重，FOV注意力图可以生成为：双重注意力依恋。为了在适当深度处搜索视场内的显著对象，我们聚合FOV注意力图Mf和深度注意力图Md以生成双重注意力图：Mdual=Mf<$Md，（9）其中，n表示元素级乘积。以这种方式，只有那些在FOV和深度注意力图将在双注意力图中被激活。换句话说，在FOV注意力范围内但深度不匹配的干扰对象将在帮助下被屏蔽M（i，j）= max（1- 1）αθ（i，j）、0）、（3）π深度关注。随后，与场景图像连接的输出双重注意力图将被馈送到其中α决定视角。我们根据经验将α设置为6，并实现60°的视角。深度重建。除了平面注意力引导，我们设计了一个深度rebasing组件，引入场景深度理解，帮助进一步选择候选对象。首先，我们使用[35]的最先进的单目深度估计器从场景图像中提取先验归一化深度图（表示为Id∈[0，1]）请注意，较低的深度值意味着距离摄影机较远基于目标人物的深度，我们通过计算深度差异图：Backbone回归3.3. 凝视目标检测在该阶段中，所生成的双重注意力图和场景图像被连接并通过骨干来执行特征提取。所提取的关注特征在二进制分类头和热图回归头之间共享。详细地说，二进制分类头由两个卷积层组成，后面是一个完全连接的层，用于分类凝视目标是在图像内还是在图像外。对于热图回归头，我们应用另一个F= I −1d dNΣ I（i，j），⑷D两个卷积层，然后是三个去卷积层，以预测目标人物在看哪里，n（i，j）∈n其中（i，j）是包含N个元素的头部边界框中的像素索引。深度的平均深度用作深度重定基的阈值。自然地，大于零值的Fd的像素被认为是前景点，并且相反地，被认为是背景。中间地带包括接近零值的那些像素。因此，我们得到三个不同的场景分割图：放一张logits图。这个热图中的最大值点是我们预测的注视点。我们采用二进制交叉熵损失的二进制分类头，表示为LCls。Heatmap Regression水头损失函数LReg使用均方误差损失计算。此外，我们在3D凝视估计器的输出处引入平面角损耗LAng，以获得更精确的FOV注意力图：M= max（F，0），（5）（dx，dy）·（gx，gy）L= 1−，（10）前M个中间D= max（1−τ F2，0），（6）Ang（dx，dy）·（gx，gy）2Mback=max（−Fd，0），（7）其中，τ决定头部深度周围的选定深度范围，并指定为16。最后，根据深度通道凝视值gz（由3D凝视估计器提供），我们可以选择相应的前/中/后场景作为我们的深度注意力图：请原谅，gz∈（−1，−δ）Md=Mmid，gz∈（−δ，+δ），（8）Mback，gz∈（+δ，+1）其中δ是确定选择哪个场景的经验阈值。我们在实验中将δ11395其中（dx，dy）是地面实况平面注视方向，即，地面实况头部和注视点位置之间的偏移，以及（gx，gy）是估计的3D注视方向的2D投影。总损失函数定义为：L=λ1LCls+λ2LReg+λ3LAng，（11）其中λ1、λ2、λ3分别是它们的权重参数3.4. 实现细节我们在PyTorch上实现模型1对于第3.1节中的3D凝视估计，将从头部图像中裁剪两个检测到的眼罩如果没有检测到，我们将填补第1https://github.com/Crystal2333/DAM11396用黑色像素代替补丁。然后将眼罩调整为36×60，并分别送入两个并行的ResNet- 18，即，眼睛特征提取器头部姿势提取器是ResNet-34，后面是三个完全连接的层，并将裁剪的头部图像（大小调整为224×224）作为输入。对于第3.3节中的注视目标检测，生成的双重注意力图和场景图像是两者都被调整为224×224，并通过在ImageNet上预训练的ResNet-50主干[9]。热图回归头输出尺寸为64 ×64的热图。在训练阶段，我们首先预训练3D凝视估计，在Gaze360数据集上进行搜索[22]。其次，除了二进制分类头之外，所提出的模型在GazeFollow数据集[37]上进行训练，直到收敛。最后，我们在VideoAttentionTarget数据集上微调完整模型[6]。整个网络由Adam [24]优化，学习率为0.0001，批量大小为128。4. 实验4.1. 数据集和评估我们在GazeFollow数据集[37]和VideoAttentionTarget数据集[6]上定量评估了我们的完整模型。此外，我们在Gaze360数据集上评估了我们的3D凝视估计器[22]。为了估计更细粒度的注视方向，我们还扩展了现有数据集的注释我们遵循每个数据集的标准训练/测试划分进行公平比较。数据集。GazeFollow数据集[37]包括122，143张图像，其中包含130，339个头部位置和相应注视点的注释。请注意，由于GazeFollow关注图像内的凝视目标，因此我们仅将其用于 Heatmap Regression Head 。VideoAttentionTarget数据集[6]由从YouTube上的各种来源收集的 1 ， 331 个视频片段组成。 VideoAt-tentionTarget的注释包括164，541个帧级头部边界框、109，574个帧内凝视目标和54，967个帧外凝视指示符。Gaze360数据集[22]是一个大规模的凝视跟踪数据集。它包含在各种室内和室外环境中拍摄的172K全脸图像，并在整个色域相对于相机的凝视方向（360°评价我们采用以下指标来评估所提出的模型的性能。AUC：我们使用Judd等人提出的曲线下面积（AUC）标准 [20]来评估预测热图的置信度。地址：我们评估预测注视点和地面真实注视标注之间的L2分析：我们计算从头部位置到注视点的预测注视方向和地面真实注视向量之间的角度误差帧外AP：我们利用平均精度（AP）来评估帧外识别的准确性。表1. 对GazeFollow数据集[37]进行单图像凝视目标检测的评估。红色和蓝色的数字代表最好和第二好的结果。方法AUC↑Dist. ↓最小距离↓埃↓[37]第三十七话0.5040.4840.39169.0米中心[37]0.6330.3130.23049.0米固定偏差[37]0.6740.3060.21948.0米Recasens等人 [37个]0.8780.1900.11324.0米Chong等 [五]《中国日报》0.8960.1870.112-Lian et al. [28]第二十八届0.9060.1450.08117.6米视频附件 *[6]0.9210.1370.077-我们0.9220.1240.06714.9米人类0.9240.0960.04011.0米表2.对VideoAttentionTarget数据集的评估[6]用于单图像凝视目标检测。方法在AUC↑帧Dist. ↓框外美联社↑随机[6]0.5050.4580.621固定偏差[6]0.7280.3260.624Chong等 [五]《中国日报》0.8300.1930.705视频附件 *[6]0.8540.1470.848视频属性[6]0.8600.1340.853我们0.9050.1080.896人类0.9210.0510.9254.2. 双注意力引导模型评价为了评估所提出的模型如何执行单图像凝视目标检测的任务，我们比较了 GazeFol- low [37] 和VideoAttentionTarget [6]上的几个最先进的基线[37，28，5，6]。值得注意的是，由于[6]的方法（表示为VideoAtt）使用一种用于视频中的动态预测的时空架构，我们保留其空间部分（表示为VideoAtt*）用于公平比较。此外，由于GazeFollow旨在帧内凝视目标检测，因此在使用此数据集时，我们删除了BinaryClassification Head实验结果总结于表1和表2中。我们可以观察到：（1）就所有评估指标而言，我们的方法在两个数据集上都大幅超越了第二好的竞争对手，更接近人类的表现。我们实现了9的相对改善。49%的L2距离的凝视跟随，和19。40%在VideoAt-tentionTarget上。(2)我们比较了我们的模型我们的方法产生的平均欧氏误差为0.VideoAttentionTarget的评分为108，优于0。第124章盯着我一个潜在的原因在于，VideoAttentionTarget包含更高分辨率和更低噪声的图像，从而为注意力地图生成提供更准确的3D(3)对于帧外识别，表2中的结果表明，所提出的方法优于所有基线，并给出0的最佳AP。896.这验证了我们的模型我们提出了一些例子，我们的预测图-11397表3. VideoAt- tentionTarget数据集上消融研究的定量结果[6]。方法在AUC↑帧Dist. ↓框外美联社↑DAM-无0.7750.2370.690深度-无0.8530.1360.841FOV-无0.8370.1430.846眼睛-无0.8780.1240.872场景-无0.8920.1190.875LAng-无0.8640.1310.859我们的满了0.9050.1080.896表4. 我们的3D凝视估计器与Gaze360数据集上的其他最先进方法之间的比较[22]。图3. 定性结果。黄线表示地面真实凝视，红线是我们预测的凝视。第一行中的图像说明了我们的方法的深度感知场景理解第二行表明，我们的模型可以有效地估计凝视在野外。我们在第三排展示了一些失败的案例。ure3.所提出的方法可以可靠地识别出帧外的情况下，检测图像内的凝视目标。第一行中的图像示出了我们的方法的深度感知场景理解。对于第一张图片，所提出的模型准确地定位凝视的服务员，而不管在不适当的深度处的2D凝视路径上的第二行的图片显示，我们的模型可以有效地估计野外的准确凝视。尽管头-眼不一致（例如，面向前方但向侧面看）和自遮挡（例如，面，面定量结果见表3。可以清楚地看到，我们的网络架构的所有组件都是取得出色成果所必需的。毫不奇怪，最有贡献的性能改进来自双重注意力模块（DAM）。这是由DAM的性质决定的：通过在3D空间中搜索显著对象来此外，scene-None产生了与完整模型相当的结果尽管如此，叠加场景图像仍然可以作为一个有益的补充，以促进最终的预测。向后或向下），我们的方法仍然准确地预测注视方向。我们在第三行中提出了一些失败的情况，当面部不可见时，即使对于人类观察者，也很难区分两个或更多有意义的物体。4.3. 仔细的分析消融研究。为了更好地理解所提出的模型中不同组件的有效性，我们在VideoAttentionTarget [6]上训练了以下变体：1）DAM-无：我们删除了双重注意力模块（DAM），并通过主干直接从场景图像中提取特征。2)Depth-None：我们删除了DAM中的深度重基组件生成的深度atten- tion贴图，并使用均匀加权的贴图。3）FOV-无：我们用均匀加权的地图替换DAM中的FOV注意力地图。4）眼睛-无：我们移除两个视力特征提取网络，但仅通过粗粒度头部姿势来近似注视。5)场景-无：我们重新移动了双重注意力地图和场景im的串联年龄，并且仅将双重注意力地图作为骨干6)LAng-无：我们像以前一样初始化所提出的模型，并在没有角度监督的情况下从头开始训练。想象力。我们提供了一个不同图4中我们的网络的各个阶段，包括深度-注意力图、FOV注意力图、双重注意力图、输出热图和预测的注视目标。前三行表示我们对图像内的凝视目标的预测例如，在第一行，带注释的人正向前看着计算机。我们的深度注意图强调了与人相关的前方场景（桌子、电脑、腿）。我们的FOV注意力地图沿着他的注视方向（电脑，女人，绘画）生成视野。在元素级乘积之后，生成的双重注意图激活了上述两个图中具有高激活的那些区域，并且有效地将显著区域缩小到计算机。最后，输出热图准确地聚焦在固定点上。此外，我们在最后一行显示了一个框架外的我们的预测正确地识别出被标记的人正在看图像之外。4.4. 注视方向评估我们在Gaze360数据集[ 22 ]上将所提出的3D凝视估计模块与其他最先进的方法[39，22]进行比较，以评估凝视估计在野外的性能。预测误差的程度是重新-方法全部360个↓↓正面180度↓ ↓正面↓平均值[22]59.0米40.5公斤19.0米Ruiz等 [39]第三十九届49.3米30.7米22.7米[22]第二十二话13.5公斤11.4分11.1.11398输入图像深度注意力FOV注意力双重注意力输出热图目标预测图4. 注意力模块的可视化结果。前两行位于GazeFollow [37]上，最后两行位于VideoAt- tentionTarget [6]上。对于每一行，我们显示一个带有注释的头部边界框、深度注意力图、FOV注意力图和集成的双重注意力图的输入图像此外，还提供了输出热图、预测结果和地面实况表4中的端口。所有360度、正面180度和正面的评估范围分别代表了人在90度和20度范围第一个值得注意的事实是，我们的方法优于其他竞争对手，产生的角度误差为11。3英里。这表明可以将此模块单独用作3D凝视估计器。此外，我们观察到，一个显着的性能提升，实现了面向前方的设置。我们得到了一个相当低的误差9。2通过明确地将眼球方向与头部姿势相结合来实现4.5. 先验深度评估为了研究我们的模型是否对不同的先验深度图具有鲁棒性，我们使用四种最近的单目深度估计方法进行了比较研究[16，3，27，35]。如在先前关于深度估计的工作中所提到的，三种监督方法（即，PSM-Net，MC ， MiDaS ）显著超过无监督方法（即，MonoDepth）的泛化性能。VideoAttentionTar- get [6]的定量结果见表5。根据所提出的性能提升，我们得出结论，我们的模型受益于更好的深度图。即使使用无监督方法[16]获得的深度图，我们的模型在提交时仍然优于最先进的模型。这表明，该模型是高度鲁棒的表5. 深度分析。VideoAttentionTarget上用于凝视目标检测的不同质量深度图的比较[6]。深度在AUC↑帧Dist. ↓框外美联社↑MonoDepth [16]0.8720.1270.861PSMNet [3]0.8930.1200.875MC [27]0.8970.1160.884MiDaS [35]0.9050.1080.896不同质量的深度图。5. 结论在本文中，我们提出了一个三阶段的方法，在野外凝视目标检测。在第一阶段中，我们引入了一个由粗到细的策略，为无约束图像提供鲁棒的3D凝视估计。在第二阶段，我们设计了双重注意力模块（DAM），它模拟了人的深度感知视野。在第三阶段中，我们识别帧外凝视目标并定位图像内目标。大量的定量和定性评价表明，该方法优于现有的方法。致谢。我们非常感谢文博宝的帮助。本工作得到国家自然科学基金61831015、61771305和U1908210的部分资助。11399引用[1] Ernesto Brau ， Jinyan Guan ， Tanya Jeffries 和 KobusBarnard。Multiple-gaze geometry：从单眼视频中观察到的凝视推断新的3D位置。在ECCV，2018年。1[2] 阿德里安·布拉特和乔治斯·齐米罗普洛斯。我们离解决2d和3d人脸对齐问题还有多远？(and 230，000个3D面部界标的数据集）。在ICCV，2017年。4[3] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。8[4] Yihua Cheng，Shiyao Huang，Fei Wang，Chen Qian，and Feng Lu.一种用于基于外观的凝视估计的从粗到细的自适应网络。在AAAI，2020年。3[5] Eunji Chong ， Nataniel Ruiz ， Yongxin Wang ， YunZhang，Agata Rozga，and James M.连接凝视，场景和注意力：通过凝视和场景显着性的联合建模进行广义注意力估计。在ECCV，2018年。一、二、三、六[6] Eunji Chong，Yongxin Wang，Nataniel Ruiz，and JamesM.检测视频中的关注视觉目标。在CVPR，2020年。一、二、三、六、七、八[7] Meir Cohen ，Ilan Shimshoni， Ehud Rivlin ， and AmitAdam.检测相互感知事件。IEEE TPAMI，2012年。第1、3条[8] Marcella Cornia，Lorenzo Baraldi，Giuseppe Serra，andRita Cucchiara.基于lstm的显著性注意模型预测人眼注视IEEE TIP，2018年。1[9] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。Imagenet：一个大规模的分层图像数据库。2009年，CVPR。6[10] 段惠宇，闵雄阔，方毅，范磊，杨小康，翟广涛。孤独症谱系障碍儿童对人脸的视觉注意分析和汤姆，2019年。1[11] David Eigen，Christian Puhrsch，Rob Fergus。使用多尺度深度网络从单个图像进行深度InNeurIPS，2014. 3[12] 内森·J·埃默里眼睛有它：神经行为学，功能和社会凝视的演变。Neurosci. Biobehav. Rev. ，2000年。1[13] Alireza Fathi，Yin Li，and James M.学习使用凝视来识别日常行为。在ECCV，2012年。1[14] Tobias Fischer，Hyung Jin Chang，and Yiannis Demiris.RT-基因：自然环境中的实时眼睛注视估计在ECCV，2018年。3[15] 傅欢，龚明明，王朝辉，Kayhan Bat- manghelich，陶大成.用于单目深度估计的深度有序回归在CVPR，2018年。3[19] Derek Hoiem，Alexei A Efros，and Martial Hebert.自动照片弹出。在ACM SIGGRAPH中。2005. 3[20] TilkeJudd，KristaEhinger，Fre'doDurand，andAntonioTorralba.学会预测人类的视线。载于ICCV，2009年。6[21] Kevin Karsch，Ce Liu，and Sing Bing Kang.深度转换：使用非参数采样从视频中提取深度IEEE TPAMI，2014年。3[22] Petr Kellnhofer ， Adria Recasens ， Simon Stent ，Wojciech Matusik，and Antonio Torralba.在自然环境下的非约束性凝视估计。在ICCV，2019年。三、四、六、七[23] Kourosh Khoshelham和Sander Oude Elberink。室内测绘应用kinect深度数据的精度和分辨率。传感器，2012年。3[24] 迪德里克·P·金马和吉米·巴。Adam：随机最佳化的方法。arXiv，2014. 6[25] Iro Laina，Christian Rupprecht，Vasileios Belagiannis，Fed-erico Tombari，and Nassir Navab.使用全卷积残差网络进行更深的深度预测。在3DV，2016年。3[26] 李瑞博，柯贤，沈春华，曹志国，陆昊，杭凌霄。基于深度注意力的分类网络，用于鲁棒的深度预测。在ACCV，2018年。3[27] Zhengqi Li ， Tali Dekel ， Forrester Cole ， RichardTucker，Noah Snavely，Ce Liu，and William T Freeman.通过观察冰冻的人来学习感动人的深度。在CVPR，2019年。8[28] 连东泽，于泽浩，高胜华。信不信由你，我们知道你在看什么！在ACCV，2018年。一、二、三、六[29] ManuelJMarin-Jimenez，VickyKalogeiton，PabloMedina-S ua'rez和Andr e wZisserman。Laeo-net：在视频中相互观看的来访者在CVPR，2019年。第1、3条[30] 马努和耶稣你的马林希门尼斯，安德烈和齐瑟曼，马尔辛艾希纳，和维托里奥法拉利。在视频中检测人们互相注视。IJCV，2014年。第1、3条[31] 本·奥·马赛特·马斯、西勒·伊·巴和拉杜·霍劳德。参与社会互动的人的凝视和视觉注意焦点。IEEE TPAMI，2017年。第1、3条[32] BenoitMasse'，Ste' phaneLathuilie' re，PabloMesejo和RaduHoraud。扩展凝视跟踪：检测摄像机视野之外的视频中的在FG，2019年。第1、3条[33] CristinaPalmero ， JavierSelva ， MohammadAliBagheri，and Sergio Escalera.基于外观和形状线索的递归cnn三维凝视估计。BMVC，2018年。3[34] Qin ， Zichen Zhang ， Chenyang Huang ， Chao Gao ，Masood Dehghan，and Martin Jagersand.Basnet：边界感知的显著对象检测.在CVPR，2019年。1[16]Cle' mentGodard

下载后可阅读完整内容，剩余1页未读，立即下载