自然环境下的鲁棒注视估计与深度学习方法

0 下载量 195 浏览量 更新于2024-06-20 收藏 1.56MB PDF 举报
“自然环境中的鲁棒注视估计的方法和实验” 本文主要探讨了在自然环境中如何实现鲁棒的注视估计,这是计算机视觉和人机交互领域中的一个重要问题。自然环境下的注视估计面临着诸多挑战,如大范围的相机到主体距离、头部姿势的变化以及眼睛注视角度的多样性,这些因素都可能降低现有技术的准确性。 作者Tobias Fischer、Hyung Jin Chang和Yiannis Demiris来自英国伦敦帝国理工学院电气与电子工程系的个人机器人实验室,他们创建了一个名为RT-GENE的新数据集,旨在解决实地注释的问题。这个数据集包含了在自然环境下不同目光和头部姿态的图像,利用运动捕捉系统记录头部姿态,移动眼动跟踪眼镜记录眼睛注视。此外,他们应用语义图像修复技术处理眼镜遮挡的区域,以减少训练与测试图像间的差异。 为了提高在复杂环境中的注视估计准确性,研究团队提出了一种基于深度卷积神经网络的新实时算法。这种网络设计能够更好地处理新数据集中的各种图像,尤其在低分辨率图像上依然保持良好的性能。他们在多个不同的眼睛注视数据集上进行了实验,包括他们自己创建的RT-GENE数据集,进行了交叉数据集评估。实验结果表明,该算法在所有实验中的估计精度上均达到了最先进的水平。 关键词提到的“注视估计”是研究的核心,它涉及到对人类注意力的精确计算;“注视数据集”是进行模型训练和验证的基础;“卷积神经网络”(CNN)是实现这一目标的关键工具,能够在大量图像数据中学习特征;“语义修复”技术则用来处理因眼镜遮挡造成的图像不连续问题;“眼动跟踪眼镜”是采集真实世界中眼睛运动数据的设备。 文章的引言部分强调了注视估计在多种应用中的重要性,如理解人类意图、社会互动分析、影响分析、显著性检测、动作识别等。深度学习的引入显著提升了任务性能,但其效果很大程度上依赖于图像质量和多样性。 实验部分描述了使用RGB-D相机和运动捕捉系统构建的数据收集设置,以及如何通过光线跟踪运动捕捉和移动眼动追踪眼镜来捕捉不同距离和姿势下的数据。这个设置允许在0.5-2.9米的距离范围内记录受试者,模拟了自然环境中的广泛条件。 这项研究提出了一种创新的方法来应对自然环境中的注视估计挑战,通过创建新数据集、应用语义修复和深度学习技术,提高了算法的鲁棒性和准确性,对于未来的人机交互和计算机视觉研究具有重要启示。