深度学习驱动的凝视估计:一种新的神经网络架构

1 下载量 31 浏览量 更新于2024-06-20 收藏 1.93MB PDF 举报
"本文主要探讨了深度图像凝视估计这一课题,特别关注基于深度学习的凝视估计方法。作者来自苏黎世联邦理工学院的计算机科学系AIT实验室,提出了一个新颖的深度神经网络架构,旨在解决仅从单眼输入图像中估计人类注视方向的难题。该方法通过回归中间图形表示,简化了3D注视方向的估计,从而提高了准确性。文章还讨论了当前基于深度学习方法面临的挑战,如眼睛外观的变化、自遮挡、头部姿势变化等,并指出当前方法的精度仍有待提高。文中提及的其他关键词包括眼动跟踪、基于外观的视线估计以及它们在不同领域的应用,如辅助技术、人机交互和视觉注意力分析。此外,提到了利用卷积神经网络(CNN)架构在图像分类任务上的成功尝试,并介绍了如何通过修改现有的CNN模型,如LeNet-5、VGG-16和AlexNet,来适应凝视估计任务。" 深度图像凝视估计是一个复杂的任务,因为它涉及到从二维图像中推断三维空间中的注视方向。传统的硬件眼动追踪设备依赖于固定头部的位置,但现代技术正转向完全不受约束的凝视估计,即在自由头部运动、不受控制的光照条件下,仅使用普通摄像头进行估算。这要求深度学习模型能够处理各种变量,如眼睛和头部姿态的变化,以及图像质量的差异。 文中提出的深度神经网络架构,称为层叠沙漏网络,采用了全新的中间图形表示方法,将注视方向分解为更易于处理的步骤。这种方法有助于减少估计过程中的不确定性,从而提高估计的精确性。通过回归到这个图形表示,网络能够逐步细化对3D注视方向的预测,从粗略的估计到更精确的定位,类似于沙漏从宽口端向窄口端流动的过程。 卷积神经网络在图像识别和分类任务中表现优秀,因此被广泛应用于基于图像的凝视估计。例如,LeNet-5和VGG-16等预训练模型被调整以适应新的任务,通过添加额外的全连接层来考虑头部姿势等额外信息。AlexNet也被改造,以适应凝视估计的需求。这些方法虽然取得了一定的进展,但依然存在精度不足的问题,特别是在应对复杂环境和个体差异时。 作者们的工作为深度学习在凝视估计领域的应用提供了新的思路,其创新的网络设计有望推动未来研究的进步,进一步提高无约束条件下的凝视估计准确性,这对于无障碍技术、人机交互、消费者行为研究等多个领域都具有重要的实际意义。通过不断优化和改进模型,我们可以期待更加精准的眼动追踪技术,为相关领域的研究和应用打开新的可能。