LSTM驱动的眼动行为识别与人机交互技术

需积分: 50 6 下载量 79 浏览量 更新于2024-08-13 1 收藏 1.8MB PDF 举报
"这篇文章主要探讨了一种基于LSTM的眼动行为识别方法,旨在解决传统眼动交互设备的问题,如侵入性、校准复杂和成本高昂。通过利用前置摄像头视频源,结合方向梯度直方图(HOG)特征、支持向量机(SVM)和长短期记忆网络(LSTM),实现对眼动行为的有效识别,从而应用于人机交互场景。" 本文介绍了一种创新的眼动行为识别技术,特别适用于人机交互系统。传统的传感器方法在眼动识别中存在诸多挑战,如设备的侵入性、校准难度以及高昂的成本。为了解决这些问题,研究者提出了一种利用普通单目摄像头作为传感器的解决方案。这种方法首先通过HOG特征提取来定位和跟踪人脸,接着在进行人脸对齐后,根据四个眼角的关键点坐标确定眼睛区域。SVM模型被用来判断眼睛的状态,如睁眼、闭眼和非眨眼状态。 接下来,系统分析相邻帧之间眼球中心的位置变化,以初步判断眼动情况。对于可能包含有意眼势的帧间差分视频序列,它们被输入到LSTM网络进行深度学习。LSTM网络因其在处理时间序列数据上的优势,能有效地捕捉到眼动行为的连续性和模式,从而提高识别准确性。经过20,000个样本(含约10%负样本)的测试,该方法在动态眨眼识别上的准确率超过95%,而在眼动行为预测上的准确率达到了99.3%。 这一技术的实现对于人机交互具有重要意义,因为它允许用户通过自然的眼动来控制计算机,简化了交互方式,提高了用户体验。未来的研究可能会进一步优化此模型,提高实时性能,并扩展到更复杂的交互场景,如虚拟现实(VR)、增强现实(AR)或无障碍技术等领域。此外,这种基于LSTM的眼动识别方法也有可能在生物医学、心理学研究等领域发挥重要作用,例如分析疾病状态下的特殊眼动模式等。 这篇研究展示了LSTM在网络在眼动行为识别中的潜力,为非侵入式、低成本且高效的眼动交互提供了新的可能性。随着技术的发展,我们可以期待眼动识别技术在日常生活和专业应用中扮演越来越重要的角色。