实时人脸表情识别:多尺度核特征CNN提升精度与速度

需积分: 12 6 下载量 122 浏览量 更新于2024-09-02 收藏 2.28MB PDF 举报
本文主要探讨了基于多尺度核特征卷积神经网络的实时人脸表情识别方法,以解决当前人脸表情识别在泛化能力、稳定性和速度方面的局限性。研究者针对这些问题,提出了一种创新的解决方案。 首先,他们改进了MobileNet结构,将其与单发多框检测器(MSSD)结合,设计出轻量级的人脸检测网络。这种集成使得检测过程更为高效,通过结合MobileNet的高效计算能力和MSSD的多尺度检测能力,提高了人脸检测的速度和稳定性,特别是利用核相关滤波(KCF)模型进行人脸跟踪,进一步增强了实时性能。 接着,他们构建了三个不同尺度的卷积核线性瓶颈层,形成了三条并行的支路。这些支路通过通道合并的方式融合特征,创建了多尺度核卷积单元。这种设计利用了多尺度特征的互补性,提高了表情识别的精度,有助于捕捉面部表情的细微变化。 为了增强模型的泛化能力和防止过拟合,研究人员采用了数据增强技术,通过不同的线性变换对原始数据进行扩充。这不仅增加了模型的鲁棒性,也使得模型在面对未知数据时能有更好的表现。 实验结果显示,该方法在大规模的FER-2013人脸表情数据集上达到了73.0%的识别率,相较于Kaggle表情识别挑战赛的冠军结果提高了1.8%,显示出显著的优势。在小样本CK+数据集上,识别率更是高达99.5%,证明了方法的有效性。在实际应用中,对于640×480分辨率的视频,人脸检测速度达到了每秒158帧,是主流人脸检测网络MTCNN的6.3倍,显示出极高的实时性能。同时,整个人脸检测和表情识别流程的总速度达到了每秒78帧,确保了实时性需求的满足。 总结来说,本文提出了一种高效、精确且具有良好泛化的实时人脸表情识别方法,通过多尺度核特征卷积神经网络的结合,实现了人脸检测和表情识别的无缝集成,为实时应用场景提供了有力的技术支持。这种方法在处理人脸表情识别任务时,兼顾了速度和准确度,有望在人脸识别领域得到广泛应用。