自然环境下的鲁棒注视估计与深度学习方法

80 浏览量更新于2024-06-20 收藏 1.56MB PDF 举报

“自然环境中的鲁棒注视估计的方法和实验” 本文主要探讨了在自然环境中如何实现鲁棒的注视估计，这是计算机视觉和人机交互领域中的一个重要问题。自然环境下的注视估计面临着诸多挑战，如大范围的相机到主体距离、头部姿势的变化以及眼睛注视角度的多样性，这些因素都可能降低现有技术的准确性。作者Tobias Fischer、Hyung Jin Chang和Yiannis Demiris来自英国伦敦帝国理工学院电气与电子工程系的个人机器人实验室，他们创建了一个名为RT-GENE的新数据集，旨在解决实地注释的问题。这个数据集包含了在自然环境下不同目光和头部姿态的图像，利用运动捕捉系统记录头部姿态，移动眼动跟踪眼镜记录眼睛注视。此外，他们应用语义图像修复技术处理眼镜遮挡的区域，以减少训练与测试图像间的差异。为了提高在复杂环境中的注视估计准确性，研究团队提出了一种基于深度卷积神经网络的新实时算法。这种网络设计能够更好地处理新数据集中的各种图像，尤其在低分辨率图像上依然保持良好的性能。他们在多个不同的眼睛注视数据集上进行了实验，包括他们自己创建的RT-GENE数据集，进行了交叉数据集评估。实验结果表明，该算法在所有实验中的估计精度上均达到了最先进的水平。关键词提到的“注视估计”是研究的核心，它涉及到对人类注意力的精确计算；“注视数据集”是进行模型训练和验证的基础；“卷积神经网络”(CNN)是实现这一目标的关键工具，能够在大量图像数据中学习特征；“语义修复”技术则用来处理因眼镜遮挡造成的图像不连续问题；“眼动跟踪眼镜”是采集真实世界中眼睛运动数据的设备。文章的引言部分强调了注视估计在多种应用中的重要性，如理解人类意图、社会互动分析、影响分析、显著性检测、动作识别等。深度学习的引入显著提升了任务性能，但其效果很大程度上依赖于图像质量和多样性。实验部分描述了使用RGB-D相机和运动捕捉系统构建的数据收集设置，以及如何通过光线跟踪运动捕捉和移动眼动追踪眼镜来捕捉不同距离和姿势下的数据。这个设置允许在0.5-2.9米的距离范围内记录受试者，模拟了自然环境中的广泛条件。这项研究提出了一种创新的方法来应对自然环境中的注视估计挑战，通过创建新数据集、应用语义修复和深度学习技术，提高了算法的鲁棒性和准确性，对于未来的人机交互和计算机视觉研究具有重要启示。

T. Fischer，H. J. Chang，Y. 德米

里斯

表

凝视数据集的比较

数据集

RGB

图像类型

注释

#图像

距离

头部姿势凝视头部姿势RGB-

D类型annot。阿诺东方。

[18]第十八话

RGB

相机帧

68面部标志 300cm

- 全部

BIWI [13]

RGB-D

相机帧

头部姿态向量 15，500 100厘米

- 全部

ICT 3D头部姿势[2]

RGB-D

相机帧

头部姿态向量 14，000

≈

100cm

- 全部

[38]第三十八话

RGB-D

相机帧

头部姿态向量 68，000

≈

200-800cm

- 全部

[23]第二十三话

RGB

（机器人）相机框架

头部姿态向量

未知

不同

所有

咖啡休息区[8]

RGB

低分辨率人脸图像

头部姿态向量

18,117

不同

所有

眼镜片[15]

RGB-D

面部+眼罩

注视向量

62，500英

镑

80-120cm

正面

MPII凝视[60，61]

RGB

面部+眼罩

注视向量

213,659

40-60cm

正面

哥伦比亚[52]

RGB

高分辨率相机图像

注视向量

5,880

200cm

5东

方。

正面

[第56话]

RGB

合成眼罩

注视向量

11,382

不同

所有

UnityEyes [55]

RGB

合成眼罩

注视向量

1,000,000

不同

所有

UT多视图[53]

RGB

眼区+眼罩

注视向量

1,152,000

60cm

所有

[28]第二十八话

[20]第二十话

RGB

面部+眼罩平板

摄像头视频

2D pos on screen

> 250万

≈

10万

关闭

30- 50

正面

我们的（

RT-GENE

）

RGB-D Face +eye patches

凝视矢量

122

，

531 80- 280 cm

C C

全部

除了计算机屏幕上的目标之外，数据集还包含使用颜色和深度信息跟

踪的3D浮动目标。GazeCapture [28]是近1500名受试者在平板电脑屏幕

上观看凝视目标的众包数据集。对于前述数据集，使用对象的界标位

置和（通用或对象特定的）3D头部模型来估计头部姿态。虽然这些数

据集适用于对象直接面对屏幕或移动终端的情况相比之下，在较大距

离处捕获准确头部姿势注释的数据集通常不包含眼睛注视标签[2，

8，13，18，23，38]。

获得注释的注视数据的另一种方式是创建合成图像

块

[

，

- 57]，

其具有头部和眼睛位置以及相机-主体距离的任意变化。例如，Wood

等人

[55]提出了一种实时渲染眼睛区域的照片级逼真图像的然而，合

成图像和真实图像之间的域差距使得这些训练过的网络很难应用于真

实图像。Shrivastana

等人。

[50]提出使用生成对抗网络来优化合成补

丁，以类似于更真实的图像，同时确保注视方向不受影响。然而，细

化图像的外观和注视多样性则限于在真实图像中发现的变化。

McMurrough

等人

[37]提出了采用运动捕捉系统和眼动跟踪眼镜的

数据

集

。它仅包含由眼动追踪眼镜提供的眼睛图像，但不包含来自外部相机

的图像。此外，由于使用屏幕来显示目标，所以注视角度受到限制。

基

于深度学习的凝视估计：几

项工作将卷积神经网络（CNN）应用于凝视

估计，因为它们已被证明优于传统方法[60]，例如

-最近邻或随机森林。

Zhang

等人。

[60]提出了一种具有六层的浅层CNN，它将眼睛图像作为输

入，并将其与网络最后一个完全连接层中的头部姿势融合。Krafka

等人。

[28]介绍了一种CNN，它通过将左眼，右眼和面部图像与面部网格相结合

来估计凝视，提供

剩余18页未读，继续阅读

cpongm

粉丝: 6

自然环境下的鲁棒注视估计与深度学习方法

基于观测器的鲁棒模型预测控制算法

基于随机逼近的鲁棒估计

投影三维重建中基础矩阵的鲁棒性估计方法 (2001年)

基础矩阵的鲁棒估计方法

不确定离散线性系统鲁棒ESPR估计新方法 (2005年)

数据协调与过失误差侦破的鲁棒估计同步方法 (2000年)

造纸机定量估计：多传感器鲁棒融合估计方法

无线传感器网络的鲁棒分布式估计方法研究

高噪声图像中单模态直方图的鲁棒阈值估计方法

线性系统鲁棒状态估计的Distributionally Robust方法

最新资源