双流Faster R-CNN改进的人体动作识别算法提升UCF101精度

5 下载量 37 浏览量 更新于2024-08-28 2 收藏 2.69MB PDF 举报
本文主要探讨了一种基于双流快速区域卷积神经网络(Faster R-CNN)改进的人体动作识别算法。随着深度神经网络在静态图像领域取得显著进步,其应用范围逐渐扩展到视频识别,尤其是人体动作识别这一具有挑战性的任务上。传统的Faster R-CNN在处理复杂视频场景时可能面临性能瓶颈,因此,研究者们针对这些问题提出了创新方法。 首先,该算法采用了RGB(红、绿、蓝)图像和光流数据作为输入,这两个数据流能够提供丰富的时空信息,有助于捕捉动态动作中的关键特征。通过分别训练两套Faster R-CNN模型,每个模型专注于处理一种数据源,从而增强模型的识别能力。 接下来,融合了两个训练好的网络模型,通过引入改进的压缩和激励模块。这个模块的作用是筛选和强化重要的特征通道,减少冗余信息,提高识别精度。它可能是利用某种形式的注意力机制或特征选择技术,确保模型集中关注那些与动作识别最相关的特征区域。 最后,为了优化边框回归过程,研究人员选择了一个全新的完全交并比损失函数作为损失函数。这个损失函数旨在解决传统Faster R-CNN中预测框与真实框不精确匹配的问题,特别是那些无法相交的情况。通过这种改进,算法能够更准确地定位和识别人体动作,从而提升整体的识别性能。 在实验部分,作者使用了UCF101动作识别数据集进行评估。结果显示,与传统的Faster R-CNN相比,该算法在识别准确率上有所提升,证明了其在复杂人体动作识别任务中的优势。这项研究对于提升计算机视觉在实时动作分析、视频监控和运动分析等领域的应用具有重要意义。 总结来说,该研究通过结合双流数据、优化特征处理以及改进的损失函数,提出了一种高效的人体动作识别算法,有效提升了识别准确性和鲁棒性,为机器视觉领域带来了新的突破。