YOLOv3模型改进:实时行人检测新算法

31 下载量 96 浏览量 更新于2024-08-26 5 收藏 765KB PDF 举报
"这篇论文是《山西大学学报(自然科学版)》中的一篇文章,由范丽、苏兵和王洪元共同撰写,探讨了基于YOLOv3模型的实时行人检测算法的改进方法,旨在解决行人检测的实时性和精度问题。通过引入标签平滑、多尺度预测以及利用k-means算法优化anchors,提高了模型的检测性能和效率。在Caltech数据集上的测试结果显示,改进后的模型mAP达到91.68%,在1920x1080分辨率的视频中,运行速度超过40帧/秒,满足实时检测需求。此外,该模型还在Daimler和INRIA数据集上表现出良好的性能,证明了其鲁棒性和泛化能力。" 文章详细内容: 该研究主要关注的是行人检测这一关键的计算机视觉任务,尤其是在实时应用场景中的挑战。YOLOv3(You Only Look Once version 3)作为一种流行的实时目标检测模型,以其快速的检测速度和相对较高的精度而受到关注。然而,原版YOLOv3在处理小目标和复杂场景时可能遇到困难,无法同时实现高精度和高速度。 为了克服这些问题,作者提出了对YOLOv3的改进策略。首先,他们引入了标签平滑技术,这是一种正则化手段,可以缓解模型训练过程中的过拟合问题,有助于提高模型的泛化能力。其次,他们增加了多个尺度的预测,使得模型能更好地检测不同大小的行人目标,尤其是小尺寸的目标。这种多尺度预测的方法有助于提升对行人检测的准确性,尤其是在变化的环境和视角下。 再者,研究团队运用了k-means聚类算法来确定模型的anchors(预定义的边界框比例和大小)。通过自动学习行人特征,这种方法可以更精确地适应不同行人目标的形状和尺寸,进一步提高检测效果。相比于手动设定的anchors,这种方法更加灵活且适应性强。 实验部分,论文在Caltech行人检测数据集上验证了改进后的模型。结果显示,改进的YOLOv3模型在mAP(mean Average Precision)上达到了91.68%,相较于原始模型有了显著的提升。在1920x1080分辨率的视频流中,模型能够保持每秒超过40帧的检测速度,完全满足实时行人检测的要求。 此外,为了验证模型的鲁棒性和泛化能力,研究者还在Daimler和INRIA两个不同的行人检测数据集上进行了测试。在这两个数据集上,改进的模型依然表现出优秀的性能,证明了其在不同环境和数据集上的适用性。 这篇论文提出的改进YOLOv3模型为实时行人检测提供了一个有效且高效的解决方案,通过结合标签平滑、多尺度预测和k-means优化的anchors,实现了精度和速度的双重提升,对于实际应用具有重要的价值。