深度图像凝视估计：基于深度学习的凝视估计方法的研究总结

43 浏览量更新于2023-10-13 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

深度图像凝视估计Seonwook Park，Adrian Spurr和Otmar Hilliges苏黎世联邦理工学院计算机科学系AIT实验室{firstname.lastname}@ inf.ethz.ch抽象。仅从自然眼睛图像估计人类注视是一项具有挑战性的任务。注视方向可以由瞳孔和眼球中心来定义，其中后者在2D图像中是不可观察的。因此，实现高度准确的注视估计是不适定的问题。在本文中，我们介绍了一种新的深度神经网络架构，专门为单眼输入的凝视估计任务而设计。代替直接回归眼球的俯仰和偏航的两个角度，我们回归到中间图形表示，这进而简化了3D注视方向估计的任务。我们的定量和定性的结果表明，我们的方法实现了更高的精度比国家的最先进的，是强大的变化的目光，头部姿势和图像质量。关键词：基于外观的视线估计，眼动跟踪1介绍准确估计人类注视方向在运动障碍用户的辅助技术[4]、基于注视的人机交互[19]、视觉注意力分析[16]、消费者行为研究[34]、AR、VR等方面有许多应用。传统上，这已经通过专用硬件来完成，因此，在使用者的眼睛和专用摄像头时，需要使用头枕。最近，基于深度学习的方法已经朝着在自由头部运动下、在具有不受控制的照明条件的环境中并且仅使用单个商品（并且可能是低质量的）相机的完全不受约束的注视估计迈出了第一步。然而，这仍然是一个具有挑战性的任务，由于眼睛外观，自遮挡，头部姿势和旋转变化的主体间的变化。因此，当前的方法仅达到6Ω量级的精度，并且仍然远离许多应用场景的要求。在证明纯粹基于图像的注视估计的可行性并引入大型数据集的同时，这些基于学习的方法 [14 ， 43 ， 44] 利用了卷积神经网络（CNN）架构，其最初被设计用于图像分类的任务例如，[43，45]简单地将头部姿势方向附加到LeNet-5或VGG-16的第一个全连接层，而[14]建议通过复制卷积来合并多个输入模态2S. Park等人回归到图形表示（GAZEMAPS）网站地图注视方向回归一个眼神眼睛方向输入输出层叠沙漏网络体系结构图1.一、我们的顺序神经网络架构首先估计一个新的图形表示的3D注视方向，然后执行凝视估计从最小的图像表示，以产生改进的性能MPIIGaze，哥伦比亚和EYEDIAP。来自AlexNet的图层。在[44]中，AlexNet架构被修改为学习所谓的空间权重，以在提供全脸图像作为输入时强调区域的重要激活。通常，所提出的架构仅经由注视方向输出上的均方误差损失来监督，该均方误差损失表示为3维单位向量或以弧度为单位的俯仰角和偏航角。在这项工作中，我们提出了一个网络架构，已专门设计的任务的视线估计铭记。一个重要的见解是，首先回归到抽象但凝视特定的表示有助于网络更准确地预测3D凝视方向的最终输出此外，引入该注视表示还允许中间监督，我们通过实验证明这进一步提高了准确性。我们的工作是松散的灵感，在人类姿态估计领域的最新进展。在这里，早期的工作直接回归关节坐标[32]。最近，对更特定于任务的监督形式的需求导致使用置信图或热图，其中关节的位置被描绘为二维高斯[20，31，35]。该表示允许输入图像和关节位置之间的更简单的映射然而，应用热图的这个概念来正则化训练不直接适用于注视估计的情况，因为关键的眼球中心在2D图像数据中不可观察。我们提出了一个概念上类似的表示凝视估计，称为gazemaps。这样的地图是对所有的地球、地球和小行星的中心的抽象的、图像化的记录（参见图1）。眼球根部的轮廓可以是圆形和椭圆形，前者表示眼球，后者表示虹膜。注视方向是由在大的圆的中心和椭圆中的矢量约束所确定的。因此，3D注视方向可以以图像的形式（图示地）表示，其中球形眼球和圆形虹膜被投影到图像平面上，从而产生圆形和椭圆形。因此，注视方向的改变导致椭圆定位的改变（参见图1）。图2a）。在给定已知注视方向注释的情况下，可以容易地从现有训练数据生成该图形表示。在推断时间，从这样的图形表示恢复注视方向是比直接从原始像素值回归简单得多的任务然而，调整输入图像以适合我们的图形表示是不平凡的。对于给定的眼睛图像，圆形眼球和椭圆必须深度图像凝视估计3然后将其调整到中心并重新缩放到预期的形状。我们通过实验观察到，使用完全卷积架构可以很好地执行此任务。此外，我们表明，我们的方法优于以前的工作的最后任务的凝视估计显着。我们的主要贡献包括一个新的架构外观为基础的凝视估计。所提出的架构的核心在于3D注视方向的图形表示，网络将原始输入图像拟合到该图形表示，并且附加的卷积层根据该图形表示来估计最终注视方向。此外，我们还执行：（a）使用我们的图形表示对中间监督的效果进行深入分析，（b）在独立于人的设置中对三个具有挑战性的数据集（MPIIGaze，EYEDIAP，Columbia）上的最先进的凝视估计方法进行定量评估和比较，以及（c）详细评估使用我们的架构训练的模型在凝视方向和头部姿势方面的鲁棒性图像质量。最后，我们表明，与MPIIGaze上的最新技术[45]2相关工作在这里，我们简要回顾了最重要的工作，在眼睛注视估计和审查工作触及相关方面的网络架构，如图像分类和人体姿态估计从邻近地区。2.1基于表观的CNN基于图像的注视估计的传统方法通常被分类为基于特征的或基于模型的。基于特征的方法将眼睛图像减少到基于手工规则的一组特征[11，12，24，39]，然后将这些特征馈送到简单的，通常是线性的机器学习模型中，以回归最终的凝视估计。相反，基于模型的方法试图通过最小化合适的能量来将已知的3D模型拟合到眼睛图像[28，33，37，40]基于外观的方法学习从原始眼睛图像到注视方向的直接映射。学习这种直接映射可能是非常具有挑战性的，由于照明、（部分）遮挡、头部运动和眼睛装饰的变化。由于这些挑战，基于外观的注视估计方法需要引入大型、多样化的训练数据集，并且通常利用某种形式的卷积神经网络架构。基于外观的方法的早期工作仅限于具有固定头部姿势的实验室设置[1，30]。这些初始约束已经逐渐放松，特别是通过引入在日常设置[14，43]或模拟环境[27，36，38]中收集的新数据集。训练数据的规模和复杂性不断增加，产生了各种基于学习的方法，包括线性回归[7，17，18]，随机森林[27]，k-最近邻[27，38]和CNN [14，25，36，43CNN已经证明4S. Park等人对视觉外观变化更鲁棒，并且当提供有足够的规模和多样性的训练数据时，能够进行与人无关的注视估计。独立于个人的注视估计可以在没有用户校准步骤的情况下执行，并且可以直接应用于诸如未修改设备上的视觉注意力分析[21]、公共显示器上的交互[46]以及注视目标的识别[42]等领域，尽管代价是对训练数据和计算成本的需求增加。已经提出了几种CNN架构用于无约束设置中的独立于人的注视估计，主要在可能的输入数据模态方面不同。Zhang等人。 [43，44]调整LeNet-5和VGG-16架构，使头部姿势角度（俯仰和偏航）连接到第一个全连接层。尽管其简单，但该方法产生当前最佳注视估计误差5。当在具有单眼图像和头部姿势输入的MPIIGaze上评估数据集内跨人病例时，在[14]中，单独的卷积流用于左/右眼图像，面部图像和指示图像帧中检测到的面部的位置和比例的25×25网格。他们的实验表明，与[43]相比，这种方法得到了改进。在[44]中，使用单个人脸图像作为输入，并学习所谓的空间权重。这些强调基于输入图像的重要特征，从而在注视估计精度方面产生相当大的改进我们引入了一种新颖的眼睛凝视的图形表示，并通过中间监督将其纳入深度神经网络架构据我们所知，我们是第一个将完全卷积架构应用于基于外观的凝视估计任务的公司。我们表明，这些贡献一起导致显着的性能提高了18%，即使使用一个单一的眼睛图像作为唯一的输入。2.2深度学习与辅助监督已经证明[15，29]，通过在网络的中间输出上应用损失函数，可以在不同的任务中产生更好的性能。引入这种技术是为了解决在训练更深层次的网络过程中梯度消失的此外，这种中间监督允许网络快速学习最终输出的估计，然后学习细化预测的特征-简化需要在每一层学习的映射随后的工作已经通过复制最终的输出损失，采用中间监督[20，35]用于改善神经网络性能的另一种技术是通过多任务学习使用辅助数据。在[23，47]中，架构由单个共享卷积流形成，该卷积流被分成单独的全连接层或回归函数，用于性别分类、面部可见性和头部姿势的辅助任务这两个作品显示出显着的改进，以国家的最先进的面部标志定位的结果。在这些方法中，通过引入多个学习目标，在网络上强制使用隐式先验来学习对两者都有信息的表示。深度图像凝视估计5任务相反，我们通过gazemaps明确地将特定于凝视的先验引入与我们的贡献最相似的是[9]中的工作，其中通过应用辅助情感分类损失来改善面部标志定位性能。需要注意的一个关键方面是，他们的网络是顺序的，也就是说，情感识别网络只接受面部标志作为输入。因此，检测到的面部标志充当用于情感分类的手动定义的表示，并且在整个数据流中产生瓶颈实验表明，应用这样的辅助损失（对于不同的任务）产生的改进超过国家的最先进的结果的AFLW数据集。在我们的工作中，我们学习回归注视方向的中间和最小表示，在回归两个角度值的主要任务之前形成瓶颈。因此，[9]的一个重要区别是，虽然我们采用了辅助损失项，但它直接有助于视线方向估计的任务。此外，辅助损耗被应用为中间任务。我们将在SEC中对此进行详细说明。第3.1条多人人体姿态估计[ 3]中的最新工作学习在被称为“局部域”的映射上估计关节。在组合的情况下，这将使得能够确定多个可操作关节，其中关节属于哪个人方面的模糊性降低。此外，在每个图像比例结束时，该架构将来自每个空间的特征图串联起来，以形成沿着“空间匹配”和“空间关联”图的连续流。因此，您可以利用卷积神经网络的优势，在图像恢复空间上进行操作。我们的工作在精神上是相似的，因为它引入了一种新颖的基于图像的表示。3方法我们工作的一个关键贡献是3D注视方向的图形表示- 我们称之为地理地图这种表示由两个布尔映射构成，可以通过完全卷积神经网络进行回归。在本节中，我们描述了我们的表示（Sec.3.1）然后解释我们如何构建我们的架构，以使用表示作为网络训练期间中间监督的参考（第2节）。3 .第三章。2）的情况。3.13D凝视在基于外观的注视估计的任务中，输入眼睛图像被处理以产生3D的注视方向。该方向通常表示为3元素单位向量v[6，25，44]，或者表示为表示眼球俯仰和偏航的两个角度g=（θ，φ）[27，36，43，45]。在这一节中，我们提出了一个替代先前到v或g的直接映射。如果我们将输入眼睛图像陈述为X并且考虑对值g进行回归，则常规注视估计模型估计f：x-g。映射f可以是复杂的，如通过已经实现的精确度的改进所反映的6S. Park等人n(a)(b)来自UnityEyes的gazemap示例图二.我们的3D注视方向的图形表示，本质上是简单眼球和虹膜模型到二进制映射上的投影（a）。在（b）中示出了具有（从左到右）输入图像、虹膜图、眼球图和叠加的可视化的示例对。通过简单采用更新的CNN架构来实现，从LeNet- 5 [25，43]，AlexNet [14，44]到VGG-16[45]，这是当前最先进的CNN架构，用于基于外观的凝视估计。我们假设可以学习眼睛的中间图像表示m。也就是说，我们将我们的模型定义为g=k◦j（x），其中j：x→m和k：m→g。可以想到的是，学习j和k的复杂度应当显著低于直接学习f，从而允许具有显著较低模型复杂度的神经网络架构以更高或等效的性能应用于相同的注视估计任务。因此，我们提出估计所谓的地景图s（m），并且从地景图估计3D注视方向（g）。我们将视线估计的任务重新表述为两个具体的任务：（a）将输入图像简化为最小归一化形式（gazemap），(b) 从地景图的凝视估计。给定输入眼睛图像的凝视图应该在视觉上类似于输入，但仅提取用于凝视估计的必要信息，以确保映射k：m-g是简单的。为此，我们认为人类眼球的平均直径约为24mm [2]，而人类虹膜的平均直径约为12mm [5]。然后，我们假设一个简单的模型，人类眼球和虹膜，其中眼球是一个完美的球体，虹膜是一个完美的圆形。对于m × n的输出图像维度，我们假设投影眼球直径2r = 1。并且将虹膜中心坐标（u，i，v，i）计算为：Mui= −r′sinφ cosθ（1）2nvi=−r′sinθ（2）2’。 −1 1Σ其中r=r cos sin2，并且注视方向g=（θ，φ）。虹膜绘制为长轴径r短轴径r的椭圆|cos θ cos φ|.我们的地理地图的例子如图所示。其中针对一个注视方向g产生两个单独的布尔图。学习如何仅从单眼图像预测地地图不是一项微不足道的任务。不仅需要考虑诸如图像伪影和部分遮挡之类的外来因素，还必须使简化的眼球适合于给定的图像（ui，v i）1.2n深度图像凝视估计72基于虹膜和眼睑的外观。然后必须对检测到的区域进行缩放和居中以产生地地图。因此，映射j：x→m需要比映射k：m→g更复杂的神经网络架构。3.2神经网络架构我们的神经网络由两部分组成：（a）从眼睛图像到凝视地图的回归，以及（b）从凝视地图到凝视方向g的回归。虽然可以针对（b）实现任何CNN架构，但是回归（a）需要全卷积架构，诸如在人类姿态估计中使用的那些。我们适应堆叠沙漏架构从Newell等人。 [20]为了这个任务。沙漏架构已被证明在诸如人体姿势估计和面部标志检测[41]等任务中是有效的，其中需要以各种尺度对复杂的空间关系进行建模以估计被遮挡关节或关键点的位置。该架构执行重复的多尺度细化特征图，从中可以通过1× 1卷积层提取期望的输出置信度图。我们利用这一事实，让我们的网络预测Gazemap，而不是经典的置信度或热点图的联合位置。节中5，我们证明这在实践中效果很好。在我们的gazemap回归网络中，我们使用3个沙漏模块，中间监督仅应用于最后一个模块的gazemap输出。最小化的中间损耗为：Lgazemap=−α Σp∈Pm（p）logm（p），（3）其中，针对所有像素P的集合中的像素P，新的计算可由两个预处理的像素P和粗处理的图像组成。在我们的评估中，我们将权重系数α设置为10−5。对于g的回归，我们选择最近显示的DenseNet在图像分类任务上表现良好[10]，同时与ResNet [8]等以前的架构相比使用更少的参数。凝视方向回归的损失项（每个输入）是：Lgaze=||g−g||第二条、第四条其中g是由您的神经网络k执行的气体定向。4执行在本节中，我们将更详细地描述我们架构的完全卷积（沙漏）和回归（DenseNet）部分。4.1沙漏网络在堆叠沙漏网络的实现中[20]，我们提供大小为150×90的图像作为输入，并在整个网络中细化64个大小为75×45的特征图8S. Park等人网络半尺度特征图由具有滤波器大小7和步幅2的初始卷积层产生，如原始论文[20]中所做的那样。接下来是批量归一化，ReLU激活和两个残差模块，然后作为输入传递到第一个沙漏模块。在我们的架构中存在3个沙漏模块，如图1所示。在人体姿态估计中，通常使用的输出是2维置信图，其与输入图像像素对准。我们的任务不同，因此我们不对每个沙漏模块的输出应用中间监督。这是为了允许在许多层上以多个尺度处理输入图像，其中必要的特征变得与最终输出的地平面图表示对准相反，我们将1× 1卷积应用于最后一个沙漏模块的输出，并应用gazemap损失项（等式2）。（3）第三章。图三.中间监控通过执行1× 1卷积应用于沙漏模块的输出。来自先前沙漏模块的中间地地图和特征地图然后被连接回网络以传递到下一沙漏模块，如在原始沙漏文件[20]中所做的那样4.2DenseNet如第3.1节所述，我们的图形表示允许学习更简单的功能，用于凝视估计的实际任务。为了证明这一点，我们采用了一个非常轻量级的DenseNet架构[10]。我们的凝视回归网络由5个密集块（每个块5层）组成，增长率为8，瓶颈层和压缩因子为0。5. 这导致DenseNet结束时只有62最后，单个线性层将这些特征映射到g。由此产生的网络是轻量级的，仅由66k个可训练参数组成。4.3培训详细信息我们训练神经网络的批量大小为32，学习率为0。0002和L2权重正则化系数为10−4。使用的优化方法是Adam [13]。训练在配备英特尔酷睿i7 CPU和Nvidia Titan Xp GPU的台式PC上进行20个epoch，在MPIIGaze数据集上进行一次（15次）的Leave-one-out评估仅需2小时多一点。641x11x11x1深度图像凝视估计9(a) 无（中间）和有（底部）中间监督的训练样本的中间表示(b) 没有中间监督（左）和有中间监督（右）的测试样本的中间表示和预测见图4。在L gazemap存在或不存在的情况下，我们的体系结构学习的图像表示的示例。注意，图形表示更加一致，并且沙漏网络能够解释遮挡。预测的注视方向以绿色示出，地面实况以红色示出。在训练期间，在图像平移和缩放方面应用轻微的数据增强，并且学习率乘以0。1，以解决过拟合并稳定最终误差。5评价我们主要在MPIIGaze数据集上进行评估，该数据集包括15名笔记本电脑用户在日常环境中拍摄的照片。近年来，该数据集已被用作无约束的基于外观的凝视估计的标准基准数据集[25，36，38，43 我们的重点是跨人的单眼评估，其中15个模型在每个配置或架构中被训练。在14个个体的数据（左眼和右眼各1500个条目）上进行神经网络测试被遗忘的人（1000个条目）。使用超过15次此类评价的平均值作为表示跨人员性能的最终误差度量。作为MPIIGaze很好地表示真实世界设置的数据集，对数据集的跨人评估指示给定模型的真实世界个人独立性。为了进一步测试我们方法的泛化能力，我们还在本节中对另外两个数据集执行评估：Columbia [26]和EYE-DIAP [7]，其中我们进行5倍交叉验证。虽然哥伦比亚大学的55名参与者表现出很大的多样性，但图像质量很高，是用数码单反相机拍摄的。另一方面，EYEDIAP受到所使用的VGA摄像头的低分辨率以及摄像头之间的大距离的影响和参与者。我们选择屏幕目标（CS/DS）和静态头部姿势序列(S)从EYEDIAP数据集中，每15秒从其VGA视频中采样一次流（V）。仅用单眼输入对移动头部序列（M）进行训练被证明是不可行的，所有模型在训练期间都经历了发散的测试误差10S. Park等人ing. MPIIGaze，Columbia和EYEDIAP的性能改进表明，我们的模型对跨人外观变化以及低眼睛图像分辨率和质量引起的挑战具有鲁棒性。在本节中，我们首先评估我们的gazemap损失的影响。五、1），然后比较性能（Sec. 5. 2）和鲁棒性（Sec. 5. 3）我们的方法对国家的最先进的架构。5.1图片表示法（地平面图）我们假设在SEC。3.1通过提供在视觉上类似于输入图像的3D注视方向的图形表示中，我们可以实现基于外观的注视估计的改进在我们的实验中，我们发现，应用 gazemaps 损失项 general-erally提供的性能改进相比，损失项不适用的情况下。当DenseNet增长率较高时（例如，k = 32），如表1所示。表1. 跨人凝视es-估计误差的Lgazemap的存在和不存在，与 DenseNet（k=32）。数据集L地景图否是MPIIGaze4.674.56哥伦比亚3.783.59EYEDIAP11.2810.63通过观察最后一个沙漏模块的输出并与输入图像进行比较（图4），我们可以确认，即使没有中间超视，我们的网络也学会了隔离虹膜区域，从而在参与者之间产生类似的注视方向注意，该表示仅在最终注视方向损失L注视的情况下学习，并且表示虹膜位置的斑点不一定与输入图像上的实际虹膜位置对准。在没有中间监督的情况下，所学习的最小图像表示可以并入视觉因素，诸如由于头发和眼镜的遮挡，如图4a所示。这支持了我们的假设，即由虹膜和眼球组成的中间表示包含回归注视方向所需的信息然而，由于学习的性质，网络也可以学习不相关的细节，例如眼镜的边缘然而，通过以gazemap的形式显式地提供中间表示，我们实施了一个先验，帮助网络学习所需的表示，而不包含前面提到的无用的细节。5.2跨人注视估计我们通过对MPIIGaze进行一人一次的评估，对Columbia和EYEDIAP进行5倍的评估，比较了我们模型的跨人员性能在第3.1节中，我们讨论了从gazemap到注视方向的映射k不应该需要复杂的架构来建模。因此，我们的DenseNet配置有低增长率（k= 8）。为了进行公平的比较，我们为单眼图像输入（大小为150 × 90）重新实现了两种架构：AlexNet和VGG-16。AlexNet和VGG-16架构已经在深度图像凝视估计11模型AlexNetVGG-16我们误差4.第一章23 .第三章。93 .第三章。8模型AlexNetVGG-16我们误差11个国家。511个国家。210个。3表2.数据集内跨人员k倍评估的平均注视估计误差（以度为单位）在（a）MPIIGaze、（b）Columbia和（c）EYEDIAP数据集上进行评价。(a) MPIIGaze（15倍）模型kNN [45]RF [45][四十三]AlexNetVGG-16[第45话]我们#参数输入0e + H-e + H1 .一、8Me + H86Me158Me90Me + H0的情况。7Me误差7 .第一次会议。2六、7六、3五、7五、4五、54.第一章5(b) Columbia（5折）（c）EYEDIAP（5折）其中e：单眼，h：头部姿势（俯仰，偏航）最近在基于外观的凝视估计中工作，因此是合适的基线[44，45]。这些体系结构的实施和培训过程细节在补充材料中提供。在MPIIGaze评估（表2a）中，我们提出的方法大大优于当前最先进的方法，得到1的改进。0 ◦（5. 5 ◦→ 4。5 ◦= 18。2%）。尽管在我们的架构中使用的可训练参数的数量减少了（90M对0.7M），但这种显著的改进仍然存在。我们的表现与[44]（4. 8◦）其中使用全脸输入与我们的单眼输入形成对比虽然由于注视方向的不同定义（以脸为中心与以眼为中心相对），我们的结果不能直接与[44]的结果进行比较，但类似的性能表明眼睛图像可能足以作为注视方向估计任务的输入。我们的方法获得了与人脸输入模型相当的性能，并且使用的参数比最近推出的architec- tures（比GazeNet少129倍）少得多。我们还分别在表2b和表2c中的Columbia Gaze和EYEDIAP数据集上评估了我们的模型。虽然高图像质量导致所有三种方法对ColumbiaGaze的性能相当，但我们的方法仍然以0的改进而占上风。4◦通过AlexNet。在EYEDIAP上，由于低分辨率和低质量输入，平均误差非常高。注意，不执行头部姿态估计，仅依赖单个眼睛输入进行注视估计。我们的基于地图的架构在这种情况下显示其优势，执行0。9◦优于VGG-16 - 8%的改善。样本凝视地图和凝视方向预测在图5中示出，其中明显的是，尽管缺乏视觉细节，但是可以拟合凝视地图以产生改进的凝视估计误差。通过评估我们的架构在3个不同的数据集与不同的属性，在跨人设置，我们可以得出结论，我们的方法提供12S. Park等人(a) 哥伦比亚(b) EYEDIAP图五. Columbia和EYEDIAP数据集上的Gazemap预测（中），具有在输入眼睛图像（左）上可视化的地面实况（红色）和预测（绿色）注视方向地面实况地图显示在每个三联体的最右边。与以前的方法相比，具有显著更高的泛化能力因此，我们使视线估计更接近直接的现实世界的应用。5.3鲁棒性分析为了更好地保证我们的模型性能，我们进行了额外的鲁棒性分析。更具体地说，我们的目标是分析我们的方法在困难和具有挑战性的情况下的为此，我们对MPIIGaze内评估的输出进行移动平均，其中y值对应于平均角度误差，x值采用以下变化因子之一：头部姿势（俯仰&偏转）、注视方向（俯仰&偏转）。此外，我们还考虑图像质量（对比度锐度）作为定性因素。为了将每个变异因子与其余因子隔离开来，我们仅在其余因子接近其中值的点直观地，这对应于其中人仅在一个特定方向上移动而在所有其余方向上保持静止的对于使用所有数据点的图像质量分析，情况并非如此。图6绘制了作为不同运动变化和图像质量的函数的平均角误差。顶行对应于沿着头部姿势的变化，中间对应于沿着注视方向的变化，并且底部对应于变化的图像质量。为了计算图像对比度，我们使用RMS对比度度量，而为了计算清晰度，我们使用了拉普拉斯公式，如[22]中所概述。这两个指标都在补充材料中解释。该图显示，我们在极端头部和凝视角度方面始终值得注意的是，我们表现出更一致的性能，特别是在大深度图像凝视估计13头部俯仰角和注视偏转角的范围。此外，我们超越了以往的作品在不同质量的图像上，如图6e和6f所示。6结论我们的工作是第一次尝试提出一个明确的先验设计的任务与神经网络架构的凝视估计。我们通过引入一种新颖的图像表示，我们称之为Gazemaps。因此，使用中间监督的伴随架构和训练方案自然出现，其中首次采用完全卷积架构我们的地理地图是解剖学的启发，并通过实验证明优于由显着更多的模型参数，有时，更多的输入模态组成的方法我们报告了MPIIGaze的改进高达18%，并在其他两个不同的数据集上与竞争基线相比有所改进。此外，我们证明，我们的最终模型是更强大的各种因素，如极端的头部姿势和凝视方向，以及图像质量差，与以前的工作相比。未来的工作可以研究用于凝视估计的替代图形表示，以及用于地景图预测的替代架构。另外，存在使用合成注视方向（和对应的注视地图）用于注视回归函数的无监督训练以进一步改进性能的潜力。确认这项工作得到了ERC Grant OPTINT（StG-2016-717054）的部分支持。我们感谢NVIDIA公司捐赠用于这项工作的GPU14S. Park等人平均角度误差（度）平均角度误差（度）7.06.5AlexNetVGG-16我们7.06.5六点零六点零五点五5.05.0四点五四点五4.04.03.57.06.520 10 0 10 2030头部倾斜（度）（一）3.56.520 10 0 10 20头部偏航（度）（b）第（1）款6.06.05.55.55.05.04.54.54.04.03.520.0 17.5 15.0 12.5 10.0 7.5 5.0 2.50.0凝视俯仰（度）(a)3.520 10 0 10 20凝视偏航（度）(b)六点五六点五六点零六点零五点五5.0 5.0四点五四点五4.0 4.03.572.0七十二点五七十三点零七十三点五74.0七十四点五75.0七十五点五76.0图像对比度(c)3.50 5001000150020002500300035004000图像清晰度(d)见图6。AlexNet（红色）、VGG-16（绿色）和我们对不同头部姿势（顶部）、注视方向（中间）和图像质量（底部）的方法（蓝色）的鲁棒性。这些线是移动平均线。平均角度误差（度）平均角度误差（度）平均角度误差（度）平均角度误差（度）书目[1] Baluja，S.，Pomerleau，D.：使用人工神经网络的非侵入式注视跟踪Tech.代表，Pittsburgh，PA，USA（1994）[2] 贝克曼岛Gottlieb，P.，Vaiman，M.：健康成人眼球直径的变化。眼科杂志2014（2014）[3] Cao，Z.，Simon，T. Wei，S.E.，Sheikh，Y.：利用局部仿射场进行实时多人二维姿态估计。在：CVPR中。第1卷，第7页（2017年）[4] 阿成CA Barreto，A. Cremades，J.G.，Adjouadi，M.：为有运动障碍的电脑使用者设计的整合型肌电图及眼球追踪游标控制系统。康复研究与发展杂志45 1，161[5] Forrester ， J.V. ， Dick ， AD ， McMenamin ， P.G. ， Roberts ， F.Pearlman，E.：眼睛电子书：实践中的基础科学Elsevier HealthSciences（2015）[6] Funes-Mora，K.A.，Odobez，J.M.：基于rgb-d传感器的3d空间注视估计。 International Journal of Computer Vision 118 （ 2 ）， 194https://doi.org/10.1007/s11263-015-0863-4[7] Funes Mora，K.A.，Monay，F.，Odobez，J.M.：Eyediap：用于开发和评估来自RGB和RGB- D相机的凝视估计算法在：眼动追踪研究和应用研讨会论文集上。 pp. 255-258E.T.R.A.14 ， A.C.M. ，New.Y.or.k，NY，USA（2014）.https://doi.org/10.1145/2578153.2578190[8] 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议（CVPR）（2016年6月）[9] Honari，S.，Molchanov，P. Tyree，S.，Vincent，P.帕尔角Kautz，J.：用半监督学习改进地标定位。在：IEEE计算机视觉和模式识别会议（CVPR）（2018年6月）[10] Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接的卷积网络。在： IEEE计算机视觉和模式识别会议（ CVPR ）（2017年7月）[11] Huang，M.X.，郭T.C.，Ngai，G.， Leong，H.V.， Chan，S.C.：从用户交互数据构建自学习眼睛注视模型。第22届ACM多时间数据国际会议论文集。pp. 1017-1020MM’14，A C M，Ne w Y or k，NY，US A（2014）。https://doi.org/10.1145/2647868.2655031[12] 黄，Q，Veeraraghavan，A.， Sabharwal，A.： Tabletgaze：移动平板电脑中基于外观的无约束凝视估计的数据集和分析。马赫视觉应用 28 （ 5-6 ）， 445-461 （ 2017 年 8 月）。https://doi.org/10.1007/s00138-017-0852-4[13] 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。Corrabs/1412.6980（2014）16S. Park等人[14] Krafka，K.，Khosla，A. Kellnhofer，P.，Kannan，H.，Bhandarkar，S.，Ma- tusik，W.，Torralba，A.：每个人的眼动追踪IEEE计算机视觉与模式识别会议（CVPR）（2016年6月）[15] Lee，C.Y.，Xie，S.，Gallagher，P.，张志，图，Z.：深度监督网络。在：人工智能和统计。pp.第562-570号决议（2015年）[16] 刘洪，Heynderickx，I.：客观图像质量评估中的视觉注意力：基于眼球追踪数据。 IEEE Transactions on Circuits and Systems for VideoTechnology 21（7），971[17] Lu，F.，Okabe，T.，Sugano，Y.，Sato，Y.：一种头部姿态自由的方法用于基于外观的注视估计。在：英国机器视觉会议论文集。pp.126.1-126.11.BMVAPress（2011），http://dx.doi.org/10.5244/C.25.126[18] Lu，F.， Sugano，Y.， Okabe，T.， Sato，Y.：通过自适应线性回归从外观推断人类注视。 2011年计算机视觉国际会议论文集。pp. 153-160. ICCV’11，IEEE C 〇 mput e r S 〇 c i e t y，W as hington，DC，USA（2011）。https://doi.org/10.1109/ICCV.2011.6126237[19] Majaranta，P.，Bulling，A.：眼动追踪和基于眼睛的人机交互，pp。39-65. Advances in Physiological Computing，Springer（2014）[20] Newell，A.，杨，K.，Deng，J.：用于人体姿态估计的堆叠沙漏网络欧洲计算机视觉会议。pp. 483-499. Springer（2016）[21] Papoutsaki，A.Sangkloy，P.，拉斯基，J.，Daskalova，N.黄，J.，Hays，J.：Webgazer：使用用户交互的可扩展网络摄像头眼动跟踪。第25届国际人工智能联合会议（ IJCAI）。pp. 3839-3845.AAAI（2016）[22] Pech-Pacheco，J.L.，克里斯托瓦尔，G.，Chamorro-Martinez，J.，Fernandez- Valdivia，J.：明场显微镜中的硅藻自动聚焦：比较研究。第15届国际模式识别会议论文集。ICPR-2000。第3卷，第314-317第3卷（2000）。https://doi.org/10.1109/ICPR.2000.903548[23] Ranjan河帕特尔，V.M.，切拉帕河：Hyperface：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。arXiv abs/1603.01249（2016）[24] 塞斯马湖Villanueva，A.， Cabeza，R.：使用网络摄像头的用于注视估计的瞳孔中心-眼角矢量的评估。在：眼动追踪研究和应用研讨会的进展。pp. 217-220E.T.R.A.12，A.C.M.，New.Y.or.k，NY，US A（2012）. https://doi.org/10.1145/2168556.2168598[25] Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，王伟，韦伯R.：通过对抗训练从模拟和无监督图像中学习。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）[26] 史密斯，文学士，尹Q Feiner，S.K.， Nayar，S.K.：凝视锁定：用于人与物体交互的被动式目光接触检测。In：Proceedings深度图像凝视估计17第26届年度ACM用户界面软件和技术研讨会。pp. 271-280。UIST’13，ACCM，New Y or k，NY，US A（2013）。https://doi.org/10.1145/2501988.2501994[27] Sugano，Y.，Matsushita，Y.，Sato，Y.：基于外观的3d凝视估计的合成学习。2014年IEEE计算机视觉和模式识别会议。pp.1821-1828年（2014年6月）。https://doi.org/10.1109/CVPR.2014.235[28] 孙湖，加-地刘志，Sun，M.T.：使用消费者深度相机的实时注视估计。信息科学 320 （ C ）， 346-360 （ 2015 年 11 月）。https://doi.org/10.1016/j.ins.2015.02.004[29] 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.E.，Anguelov，D.，Er-han，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。在：IEEE计算机视觉和模式识别会议论文集（2015）[30] Tan，K.H.，Kriegman，D.J.，Ahuja，N.：基于外观的眼睛注视估计。 In ： Proceedings of the Sixth IE

下载后可阅读完整内容，剩余1页未读，立即下载