深度学习驱动的凝视估计：一种新的神经网络架构

31 浏览量更新于2024-06-20 收藏 1.93MB PDF 举报

"本文主要探讨了深度图像凝视估计这一课题，特别关注基于深度学习的凝视估计方法。作者来自苏黎世联邦理工学院的计算机科学系AIT实验室，提出了一个新颖的深度神经网络架构，旨在解决仅从单眼输入图像中估计人类注视方向的难题。该方法通过回归中间图形表示，简化了3D注视方向的估计，从而提高了准确性。文章还讨论了当前基于深度学习方法面临的挑战，如眼睛外观的变化、自遮挡、头部姿势变化等，并指出当前方法的精度仍有待提高。文中提及的其他关键词包括眼动跟踪、基于外观的视线估计以及它们在不同领域的应用，如辅助技术、人机交互和视觉注意力分析。此外，提到了利用卷积神经网络（CNN）架构在图像分类任务上的成功尝试，并介绍了如何通过修改现有的CNN模型，如LeNet-5、VGG-16和AlexNet，来适应凝视估计任务。" 深度图像凝视估计是一个复杂的任务，因为它涉及到从二维图像中推断三维空间中的注视方向。传统的硬件眼动追踪设备依赖于固定头部的位置，但现代技术正转向完全不受约束的凝视估计，即在自由头部运动、不受控制的光照条件下，仅使用普通摄像头进行估算。这要求深度学习模型能够处理各种变量，如眼睛和头部姿态的变化，以及图像质量的差异。文中提出的深度神经网络架构，称为层叠沙漏网络，采用了全新的中间图形表示方法，将注视方向分解为更易于处理的步骤。这种方法有助于减少估计过程中的不确定性，从而提高估计的精确性。通过回归到这个图形表示，网络能够逐步细化对3D注视方向的预测，从粗略的估计到更精确的定位，类似于沙漏从宽口端向窄口端流动的过程。卷积神经网络在图像识别和分类任务中表现优秀，因此被广泛应用于基于图像的凝视估计。例如，LeNet-5和VGG-16等预训练模型被调整以适应新的任务，通过添加额外的全连接层来考虑头部姿势等额外信息。AlexNet也被改造，以适应凝视估计的需求。这些方法虽然取得了一定的进展，但依然存在精度不足的问题，特别是在应对复杂环境和个体差异时。作者们的工作为深度学习在凝视估计领域的应用提供了新的思路，其创新的网络设计有望推动未来研究的进步，进一步提高无约束条件下的凝视估计准确性，这对于无障碍技术、人机交互、消费者行为研究等多个领域都具有重要的实际意义。通过不断优化和改进模型，我们可以期待更加精准的眼动追踪技术，为相关领域的研究和应用打开新的可能。

S. Park等人

对视觉外观变化更鲁棒，并且当提供有足够的规模和多样性的训练数

据时，能够进行与人无关的注视估计。独立于个人的注视估计可以在

没有用户校准步骤的情况下执行，并且可以直接应用于诸如未修改设

备上的视觉注意力分析[21]、公共显示器上的交互[46]以及注视目标

的识别[42]等领域，尽管代价是对训练数据和计算成本的需求增加。

已经提出了几种CNN架构用于无约束设置中的独立于人的注视估

计，主要在可能的输入数据模态方面不同。Zhang

等人。

[43，44]调

整LeNet-5和VGG-16架构，使头部姿势角度（俯仰和偏航）连接到第

一个全连接层。尽管其简单，但该方法产生当前最佳注视估计误差

。

当在具有单眼图像和头部姿势输入的MPIIGaze上评估数据集内跨

人病例时，在[14]中，单独的卷积流用于左/右眼图像，面部图像和指

示图像帧中检测到的面部的位置和比例的25

25网格。他们的实验表

明，与[43]相比，这种方法得到了改进。在[44]中，使用单个人脸图

像作为输入，并学习所谓的空间权重。这些强调基于输入图像的重要

特征，从而在注视估计精度方面产生相当大的改进

我们引入了一种新颖的眼睛凝视的图形表示，并通过中间监督将

其纳入深度神经网络架构据我们所知，我们是第一个将完全卷积架构

应用于基于外观的凝视估计任务的公司。我们表明，这些贡献一起导

致显着的性能提高了18%，即使使用一个单一的眼睛图像作为唯一的

输入。

2.2

深度学习与辅助监督

已经证明[15，29]，通过在网络的中间输出上应用损失函数，可以在

不同的任务中产生更好的性能。引入这种技术是为了解决在训练更深

层次的网络过程中梯度消失的此外，这种中间监督允许网络快速学习

最终输出的估计，然后学习细化预测的特征-简化需要在每一层学习

的映射随后的工作已经通过复制最终的输出损失，采用中间监督

[20，35]

用于改善神经网络性能的另一种技术是通过多任务学习使用辅助

数据。在[23，47]中，架构由单个共享卷积流形成，该卷积流被分成

单独的全连接层或回归函数，用于性别分类、面部可见性和头部姿势

的辅助任务这两个作品显示出显着的改进，以国家的最先进的面部标

志定位的结果。在这些方法中，通过引入多个学习目标，在网络上强

制使用隐式先验来学习对两者都有信息的表示。

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习驱动的凝视估计：一种新的神经网络架构

基于深度学习的深度估计综述

Depth_estimation:深度学习模型可估计图像深度

深度学习方法在图像处理中的应用与研究(总结)

如何利用卷积神经网络(CNN)改进深度学习在凝视估计中的应用？请结合《深度学习驱动的凝视估计：一种新的神经网络架构》的内容，提供具体的实现策略。

在深度学习项目中，如何利用卷积神经网络(CNN)改进凝视估计技术？请结合《深度学习驱动的凝视估计：一种新的神经网络架构》的内容，提供具体的实现策略。

OpenCV部署眼睛凝视估计包含C++和Python源码+模型+说明.zip

基于图像驾驶员疲劳检测技术研究

基于深度学习算法的坦克装甲目标自动检测与跟踪系统.pdf

基于眼动追踪的基于内容的图像检索

计算机视觉中头部姿态估计的研究综述Head Pose Estimation in Computer Vision: A Survey（中文）

最新资源