第 42 卷 第 6 期 自 动 化 学 报 Vol. 42, No. 6
2016 年 6 月 ACTA AUTOMATICA SINICA June, 2016
基于序的空间金字塔池化网络的人群计数方法
时增林
1
叶阳东
1
吴云鹏
1
娄铮铮
1
摘 要 视频中的人群计数在智能监控领域具有重要价值. 由于摄像机透视效果、图像背景、人群密度分布不均匀和行人遮挡
等干扰因素的制约, 基于底层特征的传统计数方法准确率较低. 本文提出一种基于序的空间金字塔池化 (Rank-based spatial
pyramid pooling, RSPP) 网络的人群计数方法. 该方法将原图像分成多个具有相同透视范围的子区域并在各个子区域分别取
不同尺度的子图像块, 采用基于序的空间金字塔池化网络估计子图像块人数, 然后相加所有子图像块人数得出原图像人数. 提
出的图像分块方法有效地消除了摄像机透视效果和人群密度分布不均匀对计数的影响. 提出的基于序的空间金字塔池化不仅
能够处理多种尺度的子图像块, 而且解决了传统池化方法易损失大量重要信息和易过拟合的问题. 实验结果表明, 本文方法相
比于传统方法具有准确率高和鲁棒性好的优点.
关键词 人群计数, 空间金字塔池化, 深度学习, 卷积神经网络, 岭回归
引用格式 时增林, 叶阳东, 吴云鹏, 娄铮铮. 基于序的空间金字塔池化网络的人群计数方法. 自动化学报, 2016, 42(6):
866−874
DOI 10.16383/j.aas.2016.c150663
Crowd Counting Using Rank-based Spatial Pyramid Pooling Network
SHI Zeng-Lin
1
YE Yang-Dong
1
WU Yun-Peng
1
LOU Zheng-Zheng
1
Abstract Crowd counting in videos has an important value in the field of intelligent surveillance. Due to the constraints
resulting from camera perspective, uneven distribution of crowd density, background clutter, and occlusions, traditional
low-level features-based methods suffer from low counting accuracy. In this pap er, a new crowd counting method is
prop osed based on rank-based spatial pyramid pooling (RSPP) network. In the proposed method, the original image is
divided into several sub-regions with the same scope of perspective, and then multi-scale sub-image blocks are respectively
taken from different sub-regions. Rank-based spatial pyramid pooling network is used to get the numbers of pedestrians in
sub-image blocks. Then summing the numbers of persons of all sub-image blocks gives the total number of people on the
image. The proposed image blocking method eliminates the effect of camera perspective and uneven distribution of crowd
density on crowd counting. The proposed rank-based spatial pyramid pooling can not only handle multi-scale sub-image
blo cks, but also solve the problem of huge important information loss and over-fitting encountered by traditional pooling
metho ds. Experimental results show that the proposed method has the advantages of high accuracy and good robustness
compared with traditional methods.
Key words Crowd counting, spatial pyramid pooling (SPP), deep learning (DL), convolutional neural network (CNN),
ridge regression
Citation Shi Zeng-Lin, Ye Yang-Dong, Wu Yun-Peng, Lou Zheng-Zheng. Crowd counting using rank-based spatial
pyramid pooling network. Acta Automatica Sinica, 2016, 42(6): 866−874
监控视频中的人群自动计数有着重要的社会意
义和市场应用前景. 充分利用兴趣区域的人数统计
信息可以为一些人群密集的商场、车站、广场等公
共场合的安全预警提供有效的指导, 还可以带来经
济效益, 例如, 提高服务质量、分析顾客行为、广告
投放和优化资源配置等. 因此, 该问题已成为计算机
收稿日期 2015-10-31 录用日期 2016-04-01
Manuscript received October 31, 2015; accepted April 1, 2016
国家自然科学基金 (61170223, 61502432, 61502434) 资助
Supported by National Natural Science Foundation of China
(61170223, 61502432, 61502434)
本文责任编委 柯登峰
Recommended by Associate Editor KE Deng-Feng
1. 郑州大学信息工程学院 郑州 450002
1. School of Information Engineering, Zhengzhou University,
Zhengzhou 450002
视觉和智能视频监控领域的重要研究内容.
近年来, 随着计算机视觉技术的持续发展, 大量
的人群计数方法被提出. 这些方法总体可以分为两
类, 一类是基于行人检测技术的直接法
[1−2]
, 另一类
是基于特征回归技术的间接法
[3−9]
. 直接法通过检
测和跟踪视频中的个体来完成人数统计. 这种方法
能够同时完成人群计数和个体定位, 缺点是在人群
密度较高或视频开阔的场景下识别率不高. 间接法
将人群视为一个整体, 利用图像特征和人群人数之
间的回归关系实现行人计数. 这类方法能够有效地
解决人群遮挡问题, 具有大规模人群计数的能力.
间接法又可以分为全局法和局部法
[10]
. 全局
法
[3−4, 8]
以视频中的每一帧为计数单位, 使 用 全 局