深度时空特征与卷积池化在视频人群计数中的应用

199 浏览量更新于2024-08-28 收藏 1.52MB PDF 举报

"基于深度时空特征卷积—池化的视频人群计数方法，通过利用视频的时空特征和卷积—池化技术，提高了视频人群计数的精确度和鲁棒性。这种方法结合了卷积神经网络，能够更好地描述视频的运动和外观信息。" 在现代监控系统和智能安全领域，视频人群计数是一项关键的技术，它有助于理解和分析大规模公共活动的安全状况，预测人群流动，以及在紧急情况下快速响应。然而，传统的人群计数方法由于受到摄像机角度、复杂背景、人群密度不均以及遮挡等因素的影响，往往难以达到理想的计数效果。本文提出了一种创新的视频人群计数方法，该方法主要依赖于深度时空特征和卷积—池化操作。深度时空特征是指从视频中提取的多层次、多维度的特征，它们涵盖了空间和时间两个维度，能更全面地捕捉人群的动态变化。卷积—池化是深度学习中的核心操作，通过卷积层捕获局部特征，池化层则进一步减少计算量并保持特征的不变性，这对于处理视频数据尤其有效，因为它可以捕捉到连续帧之间的运动信息。具体实现过程中，该方法首先通过卷积神经网络（CNN）提取视频帧的底层视觉特征，这些特征包括边缘、颜色、纹理等。然后，利用卷积和池化操作将这些低级特征转换成更高层次的时空特征，这有助于模型理解人群的整体结构和动态行为。接下来，采用局部特征聚合描述符来量化和编码这些特征，形成码本，以便更准确地描述视频中的群体信息。实验结果显示，这种方法相比于传统方法，不仅提高了计数的精度，还增强了对各种环境条件变化的适应性，比如光照变化、人群遮挡等。因此，它在实际应用中具有更高的实用价值，对于提升视频监控系统的智能分析能力有着显著的贡献。总结来说，基于深度时空特征的卷积—池化方法为视频人群计数提供了一个强大的工具，它有效地克服了传统方法的局限性，通过深度学习和高级特征提取，实现了更加准确和稳定的人群计数。这一技术的发展预示着未来智能视频分析领域的进步，并可能为公共安全、交通管理和城市规划等领域带来重要的技术革新。

2018161-1

研究与开发

基于深度时空特征卷积—池化的视频人群计数方法

李强，康子路

（中国电子科技集团公司信息科学研究院，北京 100086）

摘要：由于摄像机角度、背景、人群密度分布和遮挡的限制，传统的基于底层视觉特征的视频人群计数方

法往往难以实现理想的效果。利用视频的时空特征和卷积—池化方法形成高层的视觉特征，采用局部特征聚

合描述符进行量化和码本计算，实现了对视频人群信息的精准描述；该方法充分利用了视频的运动和外观信

息，基于卷积神经网络和池化方法提升了对视频本征属性和特征的描述能力。实验结果表明，所提方法比传

统的视频人群计数方法具有更高的精度和更好的顽健性。

关键词：人群计数；卷积神经网络；深度时空特征；卷积—池化

中图分类号：TP391

文献标识码：A

doi: 10.11959/j.issn.1000−0801.2018161

Video crowd counting method based on conv-pooling

deep spatial and temporal features

LI Qiang, KANG Zilu

Information Science Academy, China Electronics Technology Group Corporation, Beijing 100086, China

Abstract: Due to angle of camera, background, population density distribution and occlusion limitations, traditional

video crowd counting methods based on underlying visual features are often difficult to achieve ideal results. Using

the temporal and spatial features of video and conv-pooling method, high-level visual features were formed, local

feature aggregation descriptors were used for quantization and codebook calculation to achieve accurate description

of video crowd information. This method made full use of video motion and appearance information. Based on con-

volutional neural networks and pooling methods, the ability to describe video intrinsic attributes and features was im-

proved. Experimental results show that the proposed method has higher precision and better robustness than tradi-

tional video crowd counting methods.

Key words: crowd counting, convolutional neural network, deep spatial and temporal feature, conv-pooling

1 引言

视频人群计数具有重要的现实意义和应用价

值，可以为公众提供安全、预警服务，还可以通过

对人的行为分析，优化公共资源配置、提高服务

质量等。视频人群计数问题已成为模式识别和智

能视频处理领域的重要研究内容。近年来，研究

人员提出一系列人群计数方法，这些方法大体可

收稿日期：2017−11−23；修回日期：2018−04−18

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38684328

粉丝: 5
资源: 897

深度时空特征与卷积池化在视频人群计数中的应用

最新资源