统一统计框架:扫视眼球运动与视觉显著性建模

需积分: 10 3 下载量 13 浏览量 更新于2024-09-12 收藏 3.6MB DOC 举报
"本文探讨了扫视眼球运动和视觉显著性的统计建模方法,旨在理解人类注意力的分布特征及其与自然图像结构信息的关系。通过分析人眼在自然图像上的注视点统计特性,研究发现人类的注意力是稀疏分布的,通常会集中在具有丰富结构信息的位置。这一新发现启发了作者基于超高斯分量(SGC)分析来构建扫视行为和视觉显著性的模型。该模型通过投影追求逐步获取SGC,并根据最大SGC响应选择生成眼动的位置。实验结果显示,该模型不仅能模拟人类的扫视行为,而且在心理模式和人眼注视基准测试上表现出优于现有先进方法的效果。" 扫视眼球运动和视觉显著性是视觉认知领域的关键研究主题,它们涉及到人类如何快速有效地处理视觉信息。扫视眼球运动,即快速的眼球跳动,是我们观察环境时的一种常见现象,它有助于我们在短时间内捕获大量信息。视觉显著性则指的是图像中吸引注意力的区域或特征,这些区域通常与背景形成鲜明对比或者包含重要的视觉线索。 在本文中,作者提出了一个统一的统计框架,用于同时建模扫视眼球运动和视觉显著性。他们通过分析人眼在自然图像上的注视点分布,揭示了人类注意力的稀疏性特征,这表明人们倾向于关注那些具有丰富结构信息的图像区域。这种新的洞察为构建基于超高斯分量(SGC)的模型提供了理论基础。SGC是一种统计工具,能够有效识别和表示图像中的局部特征,特别适合捕捉视觉显著性。 模型的工作流程包括两部分:首先,通过投影追求方法逐次获取SGC,这种方法能够提取图像中的不同尺度和方向的特征;然后,模型根据获得的SGC响应强度,选择响应最高的位置作为下一个扫视的目标。这种方法不仅能够模拟人眼的真实扫视行为,还在一系列密集实验中证明了其在模拟效果和稳健性上的优越性。 实验部分,作者对比了他们的模型与其他最先进的方法在心理模式和人眼注视数据集上的表现。结果表明,该模型在理解和预测人眼扫视行为方面有显著优势,进一步证实了其在理解和模拟人类视觉系统方面的有效性。 这篇文章贡献了一个结合扫视眼球运动和视觉显著性统计建模的新方法,为理解和模拟人类视觉注意机制提供了有价值的工具,同时也为未来在视觉感知、图像理解和人机交互等领域的工作提供了理论支持和方法借鉴。