连接凝视、场景和注意力：基于视线和场景显著性联合建模的广义注意估计

118 浏览量更新于2023-10-13 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

连接凝视、场景和注意力：基于视线和场景显著性联合建模的广义注意估计Eunji Chong，Nataniel Ruiz，Yongxin Wang，Yun Zhang，Agata Rozga，and James M.雷格美国佐治亚州亚特兰大市佐治亚理工学院交互计算学院{eunjichong，nataniel. ruiz，ywang751，yzhang467，agata，yangg}@gatech.edu抽象。本文讨论了具有挑战性的问题，估计一般的视觉注意的人在图像中。我们所提出的方法被设计为在多个自然主义的社会场景中工作，并提供了一个完整的pi ctureof thesubjects atet e n n and a z e。相反，关于注视和注意力估计的更早的工作集中在更具体的上下文中的约束问题特别是，我们的模型明确表示的凝视方向和处理帧外的凝视目标。我们使用多任务学习方法利用三个不同的数据集我们评估我们的方法在广泛使用的基准单任务，如凝视角度估计和注意力内的一个图像，以及在新的具有挑战性的任务广义视觉注意力预测。此外，我们已经为我们的实验中使用的MMDB和GazeFollow数据集创建了扩展注释，我们将公开发布。关键词：视觉注意·注视估计·显著性1介绍作为人类，我们对他人的目光非常敏感。我们可以快速推断另一个人是否正在进行眼神交流，跟随他们的目光来识别他们的目光目标，将快速扫视归类到物体上，甚至识别出某人何时没有注意。从图像和视频中自动检测和量化这些虽然凝视估计长期以来一直是研究的活跃领域，但大多数工作都集中在特定预定上下文中的问题的相对受限版本上。例如，[31，18]在给定人正在看智能手机屏幕上的点的情况下预测注视目标，[23]在给定人正在看帧内的显著对象的情况下预测对对象的注视，[7，30]在给定的注视点处预测注视目标。并[ 24]在常见的运动中提供了一个人的视线的形式，其中包括以下内容的拍摄空调正在开。设计一个能够模拟人的视觉注意力的系统是一个重大的挑战。2E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格Fig. 1.我们提出了一个模型，其目的是理解上面举例说明的一般化注意力预测问题的不同方面。在（a）中，对象正在观看场景中的显著对象，在（b）中，对象正在观看帧外的某处我们的模型预测了这些图像中的每个图像中的受试者的3D注视向量，以及图像中注视固定的我们的模型明确地确定子块的集是否与框架相同主题在不受约束的情况下，没有先决条件利用以前的作品。我们称之为广义视觉注意力预测问题。图1中的三个示例说明了挑战的难度。在图1（a）中，受试者正在观看场景中的显著对象，而在图1（b）中，受试者正在观看场景中的显著对象。在（b）中，对象正看着场景之外的某个地方，以及（c）他们正看着相机。图1（a）的情况由Recasens等人的开创性工作解决。[23]，其通过获得主体注视目标的人类注释来解决这个问题，利用来自[21，4，5]的发现，其指示注释者经常就场景中哪个对象是突出的达成一致。然而，他们的方法并不是为了处理情况（b）和（c）而设计的，因为数据集注释过程迫使人类注释者将图像中的点标记为注视位置。换句话说，数据集不区分对象是在看图像内部的点还是在看图像外部的某个地方。纯粹基于显著性的方法也会失败：请注意，（b）中有显著的物体，即美国国旗，（c）中有显著的物体，即马克杯，这可能会混淆这种方法。图1（c）对应于基于屏幕的眼睛跟踪的情况[18，11]，其中受试者观看屏幕上的图像并且由允许估计注视位置的校准相机捕获。图1中的场景(a)对应于注视跟随，并且已经在[23]中解决。图1（b）表示先前工作尚未解决的具有挑战性的情况，其中注视目标位于帧外部，因此在没有附加信息的情况下无法明确识别。设计一个能够可靠地处理这三种不同场景的注意力模型是具有挑战性的。我们通过开发一种新的广义视觉注意力估计方法来解决这个问题这允许我们估计最终的注视可能性图。连接凝视、场景和注意力3我们的方法被设计成使得当受试者看向帧外时，固定可能性图变得接近于零，如在情况（b）和（c）中。当受试者正在看图像中可见的目标时，如在情况（a）中，则注视可能性图预测受试者可能关注的地方。该模型同时估计3D注视角以提供所述注视点和注视的综合效果。作为结果，我们的方法产生跨越图1中的所有三种情况的可解释结果。我们的贡献。这项工作的主要贡献是我们的方法，一般化的视觉注意力预测，它适用于大多数自然场景。为了有效地训练我们的模型，我们利用了最初为不同任务收集具体来说，我们使用EYEDIAP数据集[11]来学习精确的注视角度表示，使用GazeFol- low数据集[23]的修改版本来学习注视相关场景显著性表示，并且使用SynHead数据集[13]来补充前两个数据集，因为它包括大的面部姿势变化和图像帧之外的主体注意力。由于我们的多任务学习方法，我们的模型在GazeFollow [23]任务上实现了最先进的结果，该任务包括识别受试者正在观看的场景的位置。我们的模型还与来自EYEDIAP数据集的3D凝视估计任务的最先进模型竞争[11]。最重要的是，我们评估了我们的完整模型上的一个新的具有挑战性的任务，自动量化密集的视觉注意自然的社会互动。我们报告了我们在多模态二元行为（MMDB）数据集[25]上的结果，这是一个社交和交流行为的视频记录数据集。在许多其他非语言行为中，这一点并不像普通的电子水平那样涉及到个体的视觉目标我们是第一个在这个数据集上报告注意力估计结果的人。我们将我们的结果与几个基线进行比较，证明了我们的方法的优越性能。2相关工作注视估计：注视估计旨在预测人类主体的注视我们的工作涉及第三人称注视估计和跟踪方法，其寻求估计注视的三维方向或注视在屏幕上的Krafka等人[18]预测智能手机屏幕上注视的坐标，并呈现解决该问题的数据集。Mora等人[11]提出EYEDIAP，一个设计用于评估在受控实验室环境中收集的凝视估计的数据集他们设计了一种RGB-D方法，其预测受试者的注视的3D向量。存在解决类似任务的数据集，例如MPIIGaze [31]，以及用于凝视估计的眼睛图像的合成数据集[29，27]。除了预测3D凝视向量之外，我们的工作还预测场景的固定可能性图以及人是否正在看图像内部或外部的位置。视觉显著性：视觉显著性预测的目标是估计图像中吸引观看图像的人的注意力的位置4E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格自从Itti et al.[16]视觉显著性预测已经被广泛研究。最近，深度学习方法在这一任务上表现出了优异的性能，因为它们能够学习特征并将局部和全局上下文结合到预测中[28，20，33]。我们在一般化视觉注意力预测方面的工作受到视觉显著性任务的影响，因为人们倾向于看场景中的显著物体，但它是独特的，因为我们考虑了主体没有看场景中任何物体的情况。主要由显著性检测驱动的方法在后一种情况下将不会成功。此外，与基于屏幕的眼睛跟踪场景相比，真实世界场景更有可能生成宽范围凝视跟随：Recasens等人的论文[23]提出了一个新的计算机视觉问题，激发了这项工作。问题可以描述如下：给定包含一个或多个人的单个图像，预测场景中每个人正在观看的位置。他们提出了一个新的数据集，其中包含受试者在每张图像中所看位置的手动注释。我们的工作的不同之处在于，我们考虑的情况下，受试者正在寻找的框架外除了预测图像的固定可能性图之外，我们还预测每个受试者的3D凝视向量。Gorji和Clark [12]研究了视觉显着性和注视跟踪交叉点的问题，该问题包括将来自图像区域的信号结合起来，这些信号将注意力引导到图像的某个部分。例如，当图像中的主体看对象时，这放大了对象的明显显著性同样，我们的问题在于，我们不提供视觉上的真实性，而是提供了用户的注意力建模：先前的工作已经提出了使用安装在环境中的相机来测量第三人称视觉注意力的不同方法通过假设身体或头部方向是视觉方向的良好代理，[3]通过在3D中跟踪行人来将注意力投射到街道上，[26，8]对拥挤的社交场景中的注意力焦点进行建模，[6]预测场景中的对象，一个人通常通过手操作或指向来与之交互。我们的工作当然是相关的，尽管它不同，因为我们明确地考虑了主题的凝视。3方法图2是我们的深度神经网络模型及其输入和输出的概述。这个模型记录了三个输入：图像的位置，一张照片上的女孩的脸，以及她的脸的位置。给定输入，模型估计1。视觉注意的“视觉”组成部分）; 2.根据热图的受试者相关显著性（“what”是v_al_at_t），以及然而，在该场景中，该子节点在该时间段的气体量上是固定的（超过该视频的所有“存储时间”）。连接凝视、场景和注意力5偏航，俯（（b）第（1）款注视似然⨀（热图（（了图二、 Overviewoourappach. 特写图像，我们想要预测的视觉注意力的一个人的面部，并且对应的特写面部图像被提供作为输入。场景和面部图像以这样的方式经过单独的卷积层，在最后一层中，组合这两个任务的最终特征向量以估计人实际上注视可观察场景内的凝视目标的可能该模型有两个完全卷积的路径，一个连接到整个图像（图2-a），另一个连接到人脸图像（图2-b）。具有两个独立通路背后的推理受到人类在其他人的视觉上的方式的启发，如由[ 23]首次公开的。对于示例，当新的视觉对象在视觉上呈现时，我们检测视觉方向并且考虑沿着估计的方向在图像中是否存在任何显著对象。基于这一假设，[23]将两个独立的转化途径连接在一起以学习热图（图2-c）。我们进一步采用这种方法，并通过使用多任务学习框架，使用连接到面部图像的卷积路径显式训练注视角度（图2-d）来扩展他们的模型添加注视角度输出作为辅助任务具有若干优点，包括我们可以基于注视热图和角度之间的关系设计的附加监督信号，这进一步推动热图估计的性能。最后，我们定义固定的可能性：对象正看着帧内的估计目标区域的可能性的单值度量。它由一个完全连接的层建模（图2-e）。使用最后一种输出，该模型可以提高对人的视觉注意力的理解考虑图1-b或c的情况，其中人正在看图像帧之外。在这种情况下，我们希望热图尽可能接近零，因为人没有注意到图像内部的任何点通过训练此最后一层以在更确定关注热图区域时产生较高值且在其它情况下产生较低值，所述值可6E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格可以使用运算符⊙应用于热图，该运算符可以是加权运算符或门控运算符，具体取决于应用。由于不存在覆盖我们在本文中解决的所有各种注视和场景组合的单个数据集（例如，看帧外、看相机、固定在帧内对象上等），我们采用跨域学习方法，其中模型从不同的数据集学习与每个任务相关的根据在给定的一批训练数据中可用的监控信号，模型选择性地更新其相应的分支。我们在3.1小节中更详细地描述了模型架构。我们在3.2中详细介绍了损失函数，并在3.3中讨论了数据集和训练过程。3.1模型该输入被赋予到模型特征、目标的遮挡面以及我们想要估计其注意力的目标的面部的位置。这两张图像的大小被调整为227×227，以便网络可以以更高的分辨率观察到人脸面部位置可在（x，y）全图像坐标方面获得。这些坐标被量化为13×13的网格，然后展平为169维的1-hot向量。该模型由两个卷积（conv）路径组成：人脸路径（图2-d）和场景路径（图2-c）。ResNet 50 [14]被用作conv路径的骨干网络（图2-a和b）。具体来说，我们为每个conv路径使用ResNet50的所有conv层在每个ResNet 50块之后，我们添加三个Conv层（1x 1，然后是3x 3，然后是1x 1），使用ReLu和batch norm-步幅为1，没有填充。（c）中表示的蓝色conv层在面路径之后的紫色和红色conv层（在（c）和（d）中表示）具有512、128和16的过滤器深度。这些conv层用于降低由ResNet50骨干网络提取的特征的维度。在面部路径中，利用面部输入图像计算的特征向量经过全连接层以预测使用偏航和俯仰固有欧拉角表示的注视角在场景路径中，从整个图像以及从面部图像提取的特征向量与面部位置输入向量连接以学习以人为中心的热图。类似于面部位置，用于学习热图的地面实况可用作（x，y）坐标中的凝视目标位置，其在每个维度中被量化为10个网格。最后，每个路径的最后一层的输入向量被级联，并且最终被级联到最后一层，以确定固定ie的“结构”。该人实际上注视可观察场景内的凝视目标的可能性有多大。该值的训练标签对于图像内部的注视等于1，并且当对象正在看场景外部时等于0。我们还探索了替代模型架构，并将我们的训练限制在三个数据集的子集实验报告见第4.4节。连接凝视、场景和注意力7实际注视预测凝视实际注视预测凝视注视角小损耗大损耗图3.第三章。我们的项目和比较损失说明在这里。如果估计角度接近实际角度，则图像上的投影注视角度也应该接近将头部位置连接到注视目标的向量。3.2损失由于我们的模型预测注视角度，显着性图和固定可能性，我们需要为每个任务应用适当的损失函数。对于角度回归任务，我们使用L1损失，对于其他两个任务，我们使用交叉熵损失。此外，我们认识到，注视角度和固定目标预测是密切相关的。基于它们的关系，可以施加附加约束也就是说，当受试者正在看一个图像时，实际的图像是从受试者的头部到图像的。该光线可以被投影到图像上。它变成来自由图3中的蓝向量实现的子节点的头部的2D向量。如果估计角度接近实际角度，则图像上的投影注视角度（图3中的橙色向量）也应该接近蓝色向量。使用余弦距离测量两个向量的接近度我们称之为项目并比较损失。3.3跨域数据集和训练过程图4.第一章用于训练模型的数据集示例左边两个：SynHead，中间两个：EYEDIAP，右边两个：GazeFollow。训练我们模型的最大挑战是缺乏可用的训练示例。虽然有几个现有的数据集是合适的8E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格对于训练我们网络的某些部分，没有一个数据集包含我们训练完整模型所需的所有信息。因此，我们利用三个不同的数据集，即GazeFollow [23]，EYEDIAP [11]和SynHead [13]。我们根据训练批次中可用的监督信息，一次选择性地训练网络的不同子部分。请参见图4，查看每个数据集的示例图像。GazeFollow [23]是一个真实世界的图像数据集，带有人们正在看的位置的手动注释。图像取自其他主要数据集，如MS COCO [22]和PASCAL [10]。因此，图像覆盖了广泛的场景、人和注视方向。然而，实际的3D注视角度不可用。此外，不区分对象正在看图像帧外部的图像，并且所有图像都具有帧内部的注视注释。虽然在[23]中提到，如果注释者指示人在看图像之外，则图像将被丢弃，但我们注意到，存在相当数量的图像，其中人似乎在看框架之外。因此，我们以二进制指示符标签的形式向该数据集添加了额外的注释，用于每个图像的“look in g in s id e”或“look out s id e”。我们总共提取了14，564个训练样本，其中14，564个样本的学习率仅占我们已经公开发布了我们的附加注释以及本文。EYEDIAP [11]数据集被设计用于评估注视估计任务。它有16个不同主题的视频，在实验室环境中可以看到完整的面部和背景要求每个受试者看监视器屏幕上的特定目标点，并且通过利用相机校准和来自深度相机的面部深度测量来注释3D注视角度。该数据集包含人注视目标点的帧的精确3D注视角度。该数据集还包含受试者观看3D球目标而不是2D屏幕目标点的视频，但我们将这些球会话从我们的实验中排除，以便与先前的工作进行更公平的比较。我们随机选择了四个受试者进行测试，并使用其余的课程进行培训。由于受试者正在看屏幕，因此所有帧都可以被认为是在看图像外部然而，由于数据集是在受控设置中收集的，因此背景主要是白色的，并且在照明或姿势方面没有太多变化。此外，测量的注视角度范围在−40◦到40 ◦之间，这是相当有限的。NVIDIA SynHead [13]是为头部姿势估计任务创建的合成数据集。该数据集包含使用10个单独的头部模型渲染的70个头部运动轨迹的510，960帧。头部的注视是固定的并且与头部姿势对齐，因此我们使用标记的3D头部姿势作为注视角地面实况。合成数据集的优点之一是能够在背景中插入不同的图像我们从利用所提供的自然场景背景增强的总帧中随机生成15%，并且将所有帧视为“look in gout_s_id_e”x样本。在WeincludeSyn上的主要原因是因为它补充了EYEDIAP数据集，因为角度范围更大。连接凝视、场景和注意力9表1.我们的实验中使用的数据集以及训练和测试分割中的样本数量，以及每个分割中包含向内/向外看的人的百分比。数据集训练集in vs out测试集in vs out[23]第二十三话125,55788.4% vs 11.6%4,782100% vs 0%EYEDIAP [11]72,6130% vs 100%18,1530% vs 100%SynHead [13]75,4000% vs 100%--[25]第二十五话--4,96541.4% vs 58.6%在-90◦和90◦之间，它可以包括更多样化的背景。由于头部姿态估计不是本文的重点，因此我们不留出测试集并完全使用SynHead进行训练。数据集详细信息也总结在表1中。培训程序。由于每个数据集只与某些子任务相关，因此我们只根据训练样本来自哪个数据集来更新网络的相关部分，而在反向传播过程中冻结其他不相关的层。具体地，当学习注视角度估计时，我们仅更新图2中的角度路径（b）和（d），当学习显著性时，我们更新场景路径（a）、（b）和（c），同时冻结所有其他层。类似地，当训练固定可能性时，我们只更新图2中的层（e）我们发现，这种选择性的反向传播方案是实现良好的性能的关键。在每个批次中，我们从所有混洗在一起的数据集中抽取随机样本，并对三个输出执行三个独立的反向传播，如刚才所述。一开始，两个卷积路径都是使用在ImageNet分类任务上预训练的ResNet50模型初始化的[9]。我们使用Adam优化算法，学习率为2。5 e-4，批量大小为36。训练通常在12个时期内收敛我们所有的实现和实验都是在PyTorch [1]中完成的。4评价在本节中，我们通过将每个输出与许多现有方法和基线进行比较来评估我们的模型我们首先在4.1中评估依赖于个人的显着性图，在4.2中评估注视角度估计，在4.3中评估一般注意力估计。最后，我们在4.4中通过改变模型架构和训练数据集来评估我们的方法。4.1个人相关显著性预测我们使用Gaze Foll流的建议测试点来评估显着图估计的性能。该测试显示器可以在相同的情况下进行所有注视，并且每个测试图像具有多个按照相同的10E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格了图五、在G a z e F oll w数据集中，我们的模型G a z e fe输入图像在第一行和第三行上给出，输出热图和估计的注视覆盖在下面。表2.GazeFollow测试集上的注视显著性评估方法AUCL2距离最小距离随机0.5040.4840.391中心0.6330.3130.230贾德[17]0.7110.3370.250[23]第二十三话0.8780.1900.113我们0.8960.1870.112通过[23]的评估方法，我们计算受试者操作特征（ROC）曲线的曲线下面积（AUC）得分，其中地面真实目标位置是真实标签，并且对应位置上的热图值是预测置信度得分。我们的方法实现了0的分数。896实现最先进的性能。除了AUC，我们还报告了L2、最小距离和角度度量的结果。有关指标的详细信息，请参阅[23]。表2中总结了这些数字以及[23]中报告的一些基线。定性结果见图5。4.2注视角度预测我们报告的3D凝视估计精度的基础上，偏航和俯仰输出的模型上选择的EYEDIAP测试分裂。表3示出了角度误差，其中我们实现了与现有技术的基于外观的注视估计方法的小于0.5度的差异值得注意的是，中间两个值来自[32]，通过五重交叉验证计算连接凝视、场景和注意力11表3.EYEDIAP上的注视角度评估方法角度误差（度）◦木材[29] 11.3◦[18]第十八话[32]第二届全国人大代表◦我们的6.4使用整个EYEDIAP数据集，而我们的方法是在单个训练/测试分割上进行评估的。虽然我们没有选择执行完全的交叉验证，但我们得出结论，它在基准测试中达到了合理的准确性。还要注意，我们的方法是在多个任务上训练的，而所有其他方法都是在注视角度预测任务上训练的。4.3自然主义社会交互我们工作的主要灵感源于对量化各种类型的视觉注意行为的能力的需求，这是我们日常生活中使用的最重要的非语言社交线索之一此外，这在研究儿童发展的研究人员中特别感兴趣，因为幼儿的凝视行为与他们的社会发展和发育障碍（如自闭症）密切相关[15]。MMDB数据集是最大的数据集之一，该数据集由视频存储器的局部和共同收集以促进基于视频的该数据集包含广泛的非语言行为，如手势，微笑和凝视。它具有每个行为的帧级人工注释。至于凝视，当孩子正在看球、书或考官时，每个帧都被注释这是通过手动且不依赖于多个视点来确定的，因为取决于视点，视器的凝视目标可以是可见的或不可见的由于注释不指示注视目标在哪个视图中可见，因此我们自己添加了附加注释，并且识别目标在面向儿童的摄像机视图中是否可见，以构造用于一般注意力估计问题的标签。我们公开发布此注释文本文件以及我们的论文。我们评估我们的方法上的广义注意力预测任务。我们设计了一个凝视目标网格分类任务，其中每个测试图像被划分分成N×N个网格。如果受试者正在看图像内部，则包含注视目标的网格正方形被分配标签1，而其他网格正方形被分配标签0。如果主体正在看帧外的某处，则所有网格均被设置为与图1相同。使用我们的方法可以预测正注视网格正方形。我们测试了GazeFollow模型[23]，这是在预测凝视目标位置的能力方面与我们的方法最接近的工作。它的局限性之一是不能正确地预测“输出”情况，其中所述错误很难找到帧的输出。作为一个结果，12E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格表4. MMDB -凝视目标网格分类网格大小方法精度召回2x2[23]第二十三话0.3440.715我们0.7440.8515x5[23]第二十三话0.2100.437我们0.6140.683如表4所示，我们的方法除了提高查全率之外还实现了更高的精确度。此外，我们构建了各种基线测试组成的分类器的基础上构建的显着性，凝视和头部姿势的特征的子集具体地，我们使用{[23]，[32]，[2]}的子集作为特征，使用SVM和随机森林进行测试换句话说，每个分类器已经使用前述特征利用表1中描述的训练集被训练用于检测我们在表5中报告了结果。请注意，MMDB数据集并没有用于所有方法的训练，包括我们的方法。此外，我们评估了多数据集训练在解决一般注意力问题方面的价值如表5最后三行所示，联合训练注视和显著性的估计在解决一般注意力估计任务中是关键的，因为在没有注视角度估计的情况下，确定对象是在看框架内部还是外部是无效的。表5.MMDB上固定可能性的评价方法平均精度[23]第二十三话0.311[32]第二十三话：我的世界0.531[23]第二十三章：你是谁？0.620SVM与凝视[32]+头部姿势[2]0.405SVM与GazeFollow [23]+gaze [32]+headpose [2]0.624[23]第二十三话0.707[32]第23话：我的世界，我的世界0.727[23]第二十三话：我的世界0.785随机森林与凝视[32]+头部姿势[2]0.512随机森林与凝视跟随[23]+凝视[32]+头部姿势[2]0.773我们的，仅使用GazeFollow数据集进行0.737我们的，仅使用GazeFollow和EYEDIAP数据集进行0.820我方最后0.902连接凝视、场景和注意力13见图6。我们的方法在MMDB数据集上的示例结果。数据集包含各种类型的注视行为，包括帧内和帧外的目标上的注视。当固定目标在外部时，我们的方法产生低热图，当目标变得清晰时，产生高热图。4.4替代模型和诊断最后，我们运行额外的实验来研究我们的模型的性能如何受到不同的训练数据集和架构选择的影响，通过在GazeFollow基准测试中对其进行评估如表6所示，省略EYEDIAP或SynHead训练数据集对图像内注意力热图估计没有太大影响，而改变模型架构则会显著影响分数。例如，使用单个ResNet50路径（其使用ROI池化来池化面部特征）示出显著降低的性能，这支持我们使用场景路径以及面部路径的决定。有趣的是，投影和比较损失并不像最初预期的那样有帮助，并且我们认为这是因为SynHead和EYEDIAP数据集中的姿态覆盖范围有限（在±90内），而GazeFollow数据集中的情况并非如此。定性地，我们能够观察到，即使我们的方法被设计为测量外部注视，当目标在帧内但被其他对象遮挡时，它也可能出错此外，当对象比背景中的一些显著对象更靠近相机时，由于缺乏场景深度理解，该方法有时将那些对象估计为注视候选者。示例在图7中示出。14E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格表6.关于GazeFollow测试分割的其他模型评估和诊断方法AUCL2距离无虹膜0.8870.197无SynHead0.8950.191无EYEDIAP和SynHead0.8910.194无项目和比较损失0.8950.189地图分辨率15x150.7780.194ROI池0.7000.325我方最后0.8960.187图7.第一次会议。由于闭塞和缺乏深入的了解，5结论在本文中，我们提出了一个新的挑战性的问题，广义的视觉注意力预测，它封装了几个约束的注意力预测和凝视估计问题，一直是许多以前的工作的重点我们提出了一种多任务学习方法和神经架构，利用三个不同的数据集来解决这个问题，并在多个自然主义的社会场景中工作为了训练我们的体系结构，我们为这些数据集提供了新的注释，并将这些注释发布给公众。我们的模型在单任务注视显著性预测上实现了最先进的性能，并在注视估计基准上与最先进的方法竞争，同时在MMDB数据集上的广义注意力预测问题这一领域的未来工作可能会导致注意力预测应用的突破，这在许多科学和商业领域都是有价值的建议的第一步是用额外的注释来改进现有的数据集，或者收集针对该问题定制的数据集。6确认这项研究的部分资金来自西蒙斯基金会，拨款247332。连接凝视、场景和注意力15引用1. Pytorch：Python中的张量和动态神经网络，具有强大的GPU加速功能。https：//github.com/pytorch/pytorch，访问时间：2017-11-032. B.A. A. A. B. A. A. A. B. Robinson，P.， Morency，L. P. ：操作功能：一个操作系统功能行为分析工具包。In： Applications of Computer Vision（WACV），2016 IEEE WintterConferenceon. pp. 1-10 IEEE（20 16）3. Benfold，B.，Reid，I.：通过跟踪人类注意力引导视觉监视。英国机器视觉会议（2009年9月）4. Borji，A.，郑女士江，H.，李杰：显著对象检测：基准。IEEETransactio nso nImageProcessi ng24（12），57065. Borji，A.，Sihite，D.N.，Itti，L.：在一个场景中，什么是突出的？人类性侵犯的一项研究是一种错误判断。Visionresearc h91，626. Chen，C.Y.，Grauman，K.：主体及其客体：以人为中心的重要性视图的本地化交互对象。国际计算机视觉杂志17. Chong ， E. ， Chanda ， K. ，是啊 ZSoutherland ， A.Ruiz ， N. ，琼斯R.M.Rozga，A.，J. M. Bogg在自然社会互动中检测朝向眼睛的注视及其在儿童评估中的Proceedings of the ACM on Interactive，Mobile，Wearableand Ubiquitous Technologies 1（3），43（2017）8. Cristani，M.，巴扎尼湖Paggetti，G.，Fossati，A.，Tosato，D. Del Bue，A.，Menegaz，G.，穆里诺，五：通过f-队形的统计分析发现社会互动。In：Proc. BMVC（2011）9. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。我是一个很好的朋友。pp. 248-255 02TheDog（2009）10. Everingham，M.凡古尔湖威廉姆斯，C.K.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（ voc ）的挑战。 International Journal of Computer Vision88（2），30311. Funes Mora，K.A.，Monay，F.，Odobez，J.M.：Eyediap：用于开发和评估来自rgb和rgb-d相机的凝视估计算法的数据库ACM眼动追踪研究与应用研讨会论文集ACM（2014年3月）。https://doi.org/10.1145/2578153.257819012. Gorji，S.，克拉克，J.J.：注意力推动：深度卷积网络，用于在社交场景中通过共享注意力建模来增强图像显著性。在： ProceedingsoftheIEEEConFeRénCeonCon PuterVis isonandPater nReg gnition中。pp. 251013. 顾，J.，杨，X.，De Mello，S.，Kautz，J.：动态面部分析：从贝叶斯滤波到递归神经网络。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）14. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。arXiv预印本arXiv：1512.03385（2015）15. Hutman，T.，Chela，M.K.，Gillespie-Lynch，K. Sigman，M.：12个月时的选择性视觉注意力：早期社会交往中的自闭症迹象。 Journalofautismanddevel opmentaldisorder s42（4），48716. 伊蒂湖Koch，C.，尼布尔，E.：基于显著性的快速场景分析视觉注意模型。IEEE Transactions on pattern analysis and machine intelligence20（11），125 417. Judd，T.，Ehinger，K.，Durand，F.，Torralba，A.：学习预测人类的行踪。In：C〇mputerVi s isio n，2009IEEE12thiter nati n at i n a ti n a t i nalc en e n e n e ncen o n.pp. 2106IEEE（2009）16E. 冲N，加-地Ruiz，Y.Wang，Y.Zhang，中国古柏A.Rozga和J.M. 雷格18. Krafka，K.，Khosla，A. Kellnhofer，P.，Kannan，H.，Bhandarkar，S.，Matusik，W.，Torralba，A.：每个人的眼动追踪IEEE计算机视觉与模式识别会议（CVPR）（2016）19. 兰德，M.，Tatler，B.：外观和行为：视觉和眼睛运动的自然行为。牛津大学出版社（2009）20. Li，G.，Yu，Y.：基于多尺度深度特征的视觉显著性。计算机视觉与模式识别会议（2015）21. 李，Y.，侯，X.，Koch，C.，Rehg，J.M.，Yuille，A.L.：显着对象分割的秘密。在：IEEE计算机视觉和图像处理会议论文集中。pp. 28022. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。在：欧洲会议上的竞争对手。pp. 740-755 02TheDog（2014）∗ ∗23. Recasens，A.，Khosla，A.冯德里克角Torralba，A.：他们在看哪里∗神经信息处理系统（NIPS）进展（2015）指示平等贡献24. Recasens，A.，冯德里克角Khosla，A.Torralba，A.：在视频中跟随凝视在：IEEE计算机视觉国际会议（ICCV）（2017年10月）25. Rehg，J.，Abowd，G.，Rozga，A.，Romero，M.，Clements，M. Scaroff，S.，埃萨岛你好，奥， Li、Y. Kim，C.，是的。：Dec odingchildrens s o cia l b e h a v i o r。 In：Proceedings of the IEEE conference on computer visionand pattern recognition. pp. 341426. Soo Park，H.，Shi，J.：社会显着性预测。In：Proceedings of the IEEE Con-Fe-nceonComuterVisi onandPatternRecognition. pp. 477727. Sugano，Y.，Matsushita，Y.，Sato，Y.：基于外观的3d凝视估计的合成学习。 In ： ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition. pp. 第182128. Wang，L.，美国，吕，H.，Ruan，X.，Yang，M.H.：通过局部估计和全局搜索进行显着性检测的深度网络。 In ： Computer Vision and PatternRecognition （CVPR）， 2015IEEEConferenceon. pp.3183-3192 爱的力量（2015）29. Wood，E.，Baltrusaitis，T.，张，X.，Sugano，Y.，Robinson，P. Bulling，A.：用于眼睛形状配准和注视估计的眼睛的渲染。In：Proceedings oftheIE E EInternationalConferenceonComuterVision. pp. 375630. 张，X.，Sugano，Y.，Bulling，A.：使用无监督注视目标发现的日常目光接触检测。第30届用户界面软件与技术年会（30thAnnual Symposium onUser InterfaceACM（2017）31. 张，X.，Sugano，Y.，Fritz，M.，Bulling，A.：野外基于外观的凝视估计。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中。pp. 451132. Z han g，X.， S u g ano，Y.， Fritz，M.， Bulli ng，A. 这是关于你的脸的描述：基于人脸外观的注视估计。在：Proc. IEEE计算机视觉和模式识别研讨会国际会议（CVPRW）（2017

下载后可阅读完整内容，剩余1页未读，立即下载