深度学习驱动的行人细粒度检测：Mask R-CNN优化与实验验证

18 浏览量更新于2024-08-28 1 收藏 386KB PDF 举报

本文探讨了在复杂场景下提高行人检测性能的问题，提出了一个改进的Mask R-CNN网络框架，这是一种基于深度学习的目标检测方法。首先，作者利用K-means聚类算法对行人数据集中的目标框进行分析，目的是确定一组更广泛的锚点（包括额外的2:5长宽比），以适应行人不同尺寸的多样性。这种设计允许算法更好地捕捉到行人可能的形状变化，增强其检测能力。接着，文章结合细粒度图像识别技术，提升行人定位的精确度，确保即使是微小的身体部位（如头部或腿部）也能被准确识别。通过全卷积网络（FCN）的应用，作者能够进行像素级预测，生成行人局部掩码，如上半身和下半身，从而实现行人细粒度的区分和定位，增强了对行人个体特征的识别。整体的行人检测过程中，除了局部特征的学习，还涉及到整体掩码的生成，这有助于减少误检情况的发生。作者通过比较改进的Mask R-CNN算法与Faster R-CNN、YOLOv2、R-FCN等主流目标检测方法在同数据集上的表现，证明了新算法在速度、精度和误检率方面的优势。研究结果显示，改进后的Mask R-CNN算法在处理复杂场景下的行人检测任务时，不仅提高了检测效率，而且显著提升了检测精度，减少了误报的可能性。这为行人检测领域的实际应用提供了有价值的改进策略，尤其是在智能监控、自动驾驶等需要高精度行人识别的场景中。这项研究对于提升计算机视觉技术在行人检测领域的应用水平具有重要意义。

Journal of Computer Applications ISSN 1001-9081 2019-07-23

计算机应用 CODEN JYIIDU http://www.joca.cn

收稿日期: 2019-05-24; 修回日期:2019-06-20; 录用日期: 2019-06-24。

基金项目: 国家自然科学基金资助项目(61572085);

作者简介: 朱繁（1994—），女，江苏淮安人，硕士研究生，主要研究方向：计算机视觉；王洪元（1960—），男，江苏常州

人，教授，博士，CCF 会员，主要研究方向：计算机视觉；张继（1981—），男，江苏常州人，讲师，硕士，CCF 会员，主

要研究方向：计算机视觉。

文章编号:1001-9081(****)**-0000-00 doi:10.11772/j.issn.1001-9081.2019051051

基于改进的 Mask R-CNN 网络的行人细粒度检测算法

朱繁，王洪元

，张继

(常州大学信息科学与工程学院，江苏常州 213164)

(*通信作者电子邮箱 hywang@cczu.edu.cn)

摘要: 针对复杂场景下行人检测效果差的问题，采用基于深度学习的目标检测中领先的研究成果，提出了一种改进的

Mask R-CNN 网络框架的行人检测算法。首先，采用 K-means 算法对行人数据集的目标框进行聚类得到合适的长宽比，通过增

加一组长宽比

(2:5)

得到 12 种 anchors 适应图像中行人的尺寸；然后，结合细粒度图像识别的技术，实现行人的高定位精度；

其次，采用全卷积网络（FCN）分割前景对象，并进行像素预测获得行人的局部掩码（上半身、下半身），实现对行人的细粒

度检测。最后，通过学习行人的局部特征获得行人的整体掩码。为了验证改进算法的有效性，将其与当前具有代表性的目标

检测方法（如 Faster R-CNN、YOLOv2、R-FCN 等）在同等数据集上进行对比。实验结果表明，改进的算法提高了行人检测

的速度和精度，并且降低了误检率。

关键词: Mask R-CNN；行人检测；K-means 算法；细粒度；全卷积网络

中图分类号:

TP391.41 文献标志码: A

Pedestrian fine-grained detection algorithm based on improved

Mask R-CNN network

ZHU Fan

, WANG Hongyuan

, ZHANG Ji

(College of Information Science and Engineering, Changzhou University, Changzhou Jiangsu 213164, China)

Abstract: Aimed at the problem of poor pedestrian detection effect in complex scenes, this paper proposed an improved

pedestrian detection algorithm based on Mask R-CNN network framework which based on the leading research results in deep

learning-based object detection. Firstly, the K-means algorithm was used to cluster the object frame of the pedestrian datasets to obtain

the appropriate aspect ratio. By adding a set of aspect ratio

(2:5)

, 12 anchors could be adapted to the size of the pedestrian in the image;

Secondly, combined with the technology of fine-grained image recognition, the pedestrian's high positioning accuracy was realized;

Then, the foreground object was segmented by the full convolutional network (FCN), and pixel prediction was performed to obtain the

local mask (upper body、lower body) of the pedestrian, so as to achieve fine-grained detection of pedestrians. Finally, the overall mask

of the pedestrian is obtained by learning the local features of the pedestrian. In order to verify the effectiveness of the improved

algorithm, it was compared with the current representative object detection methods (such as Faster R-CNN、YOLOv2、R-FCN, etc.) on

the same dataset. The experimental results show that the improved algorithm improves the speed and accuracy of pedestrian detection

and reduces the false positive rate.

Keywords: Mask R-CNN; pedestrian detection; K-means algorithm; fine-grained; fully convolutional networks(FCN)

0 引言

行人检测技术由于应用的广泛性使其在计算机视觉领域

成为一个重要的分支，对视频监控、车辆辅助驾驶、智能机

器人等多个领域提供了重要的技术支持．它与行人重识别、

目标跟踪等领域的联系密切相关，被认为是一个图像检索的

子问题。

传统的行人检测方法大多以图像识别为基础，并基于人

工设计的特征提取器进行特征的提取。首先在图片上使用穷

举法选出所有物体可能出现的目标区域框，之后对这些区域

框提取 Haar

[1]

、方向梯度直方图(Histogram of Oriented

网络出版时间：2019-07-23 13:46:55

网络出版地址：http://kns.cnki.net/kcms/detail/51.1307.TP.20190723.1346.014.html

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38743054

粉丝: 8
资源: 943

深度学习驱动的行人细粒度检测：Mask R-CNN优化与实验验证

Mask R-CNN

mask rcnn 模型在COCO数据集上预训练权重mask_rcnn_coco.h5

Detectron-maskrcnn 训练自己的数据集

基于多层聚焦Inception-V3卷积网络的细粒度图像分类.docx

从传统到深度_视觉烟雾识别_检测与分割_夏雪_森林火灾识别_烟雾识别_细粒度检测_火灾识别_火灾预警；_源码.rar.rar

基于锚框的深度学习物体目标检测算法概览.docx

细粒度家庭场景家具图像分割数据集发布

桥梁图像分割数据集发布：细粒度分割与标注资源

目标检测算法（如YOLO、SSD）原理及比较分析

行人重识别中的目标检测与分割

最新资源