基于YOLOv5的短袖短裤识别算法优化与性能提升

需积分: 1 5 下载量 53 浏览量 更新于2024-06-26 收藏 3.54MB PDF 举报
王镇等人在2020首届珠港澳人工智能算法大赛中,针对短袖短裤识别任务进行了深入研究。他们的工作集中在目标检测领域,特别使用了YOLOv5这一高效的一阶段检测框架,该框架在保持高精度的同时,兼顾了模型的运行速度。他们对模型进行了优化,包括利用BN缩放因子进行主干网络的修剪以实现模型压缩,以及通过TensorRT封装部署进行模型加速,采用深度学习框架Pytorch 1.7.0进行模型训练。 数据增强是提升模型性能的重要手段,他们采用了随机几何变换、颜色扰动、翻转以及多尺度等策略,以增强训练数据的多样性。实验中,他们针对不同的图像比例(H:W=2:1和1:2)选择了不同输入大小(480和640)的模型,以便在测试时根据图像尺寸选择最优模型进行预测。结果显示,8分类模型相对于14分类模型具有更好的性能。 参赛团队使用了WiderPerson行人数据集和COCO行人数据集进行模型预训练,设置了Batch Size为8,SGD动量为0.843,权重衰减为0.00036,学习率为0.0032。此外,他们在非极大抑制(NMS)和正样本阈值上也做了精细调整,分别是0.5和0.5。在实验过程中,他们还考虑到了显卡的特性,如NVIDIA T4的低功耗、强大的计算能力以及模型量化加速的潜力。 数据分析部分显示,他们共处理了10537张训练数据,涵盖了12种组合类别、15个场景和18304个正样本,其中前五个场景占比高达86.18%。训练样本中包含了各种状态的人群和衣物组合,例如短袖、长袖、短裤、长裤等,且类别分布以80.6%的比例为主。此外,他们还关注了数据集的多样性和复杂性,包括不同场景下的衣物状态和遮挡情况。 在解决问题时,团队首先对赛题进行了深入分析,明确了识别的目标(短袖短裤)以及可能遇到的挑战,如衣物种类的多样性和复杂背景环境。通过对数据的细致统计和模型的精心调优,他们的目标检测算法在比赛中取得了成功,展示了在实际应用场景中短袖短裤识别的可行性和有效性。