拥挤场景检测:一种提案,多重预测方法
版权申诉
5星 · 超过95%的资源 30 浏览量
更新于2024-09-11
收藏 2.86MB PPTX 举报
"旷视科技提出了一种在拥挤场景中进行多目标检测的新方法——Detection in Crowded Scenes: One Proposal, Multiple Predictions。这种方法主要应用于行人检测,利用深度学习技术来解决在高密度人群中准确识别个体的挑战。"
该研究的核心问题是解决在拥挤场景中,由于目标之间的严重重叠,传统的Non-Maximum Suppression (NMS)策略往往无法有效地分离出独立的实例。在这样的场景中,即使高度重叠的边界框也可能包含不同的行人实例。如描述所示,(a) 基线方法每个边界框预测单个实例,而(b) 提议的方法则允许每个候选框预测多个实例,以应对重叠情况。
论文引入了一个可选的细化模块,它接收初步预测作为输入,并结合提议框的特征进行第二轮预测,旨在纠正可能的错误。这一模块通过一组实例集合(Instanceset)来处理重叠目标,Instanceset包含多个预测结果,每个结果都有对应的置信度和坐标值。为了确保每个Instanceset样本至少有K个预测结果,若不足则填充背景类别的“哑”框,但这些填充的框不参与回归损失计算。
损失函数方面,研究使用了分配优化的EMD(Earth Mover's Distance)损失,这是一种衡量预测分布与真实分布之间差异的度量。EMD损失确保了每个候选框预测的实例是唯一的,从而避免了重复或遗漏的问题。在K=1的情况下,EMD损失退化为传统的检测回归损失,证明了它是现有检测损失的泛化形式。
此外,Set-NMS(集合非极大抑制)也被用于处理这种多预测情况,它基于EMD损失,能够更精确地处理重叠边界框,避免了传统NMS可能导致的误删除真实目标问题。通过这种方式,拥挤场景中的行人检测性能得到了显著提升,减少了假阳性和假阴性的发生。
总结来说,这项工作提出了一个创新的深度学习框架,通过改进的实例预测和损失函数,解决了拥挤场景中多目标检测的难题,尤其在行人检测领域有着重要的应用价值。通过实验和实际案例,旷视科技的这一方法展示了在复杂环境下的高精度和鲁棒性,对多目标检测领域的发展产生了积极影响。
2021-03-19 上传
2017-11-09 上传
2018-05-15 上传
2021-05-18 上传
2021-02-10 上传
2020-03-04 上传
2021-10-14 上传
sun_ching
- 粉丝: 58
- 资源: 5
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍