拥挤场景检测：一种提案，多重预测方法

版权申诉

5星 · 超过95%的资源 30 浏览量更新于2024-09-11 收藏 2.86MB PPTX 举报

"旷视科技提出了一种在拥挤场景中进行多目标检测的新方法——Detection in Crowded Scenes: One Proposal, Multiple Predictions。这种方法主要应用于行人检测，利用深度学习技术来解决在高密度人群中准确识别个体的挑战。" 该研究的核心问题是解决在拥挤场景中，由于目标之间的严重重叠，传统的Non-Maximum Suppression (NMS)策略往往无法有效地分离出独立的实例。在这样的场景中，即使高度重叠的边界框也可能包含不同的行人实例。如描述所示，(a) 基线方法每个边界框预测单个实例，而(b) 提议的方法则允许每个候选框预测多个实例，以应对重叠情况。论文引入了一个可选的细化模块，它接收初步预测作为输入，并结合提议框的特征进行第二轮预测，旨在纠正可能的错误。这一模块通过一组实例集合（Instanceset）来处理重叠目标，Instanceset包含多个预测结果，每个结果都有对应的置信度和坐标值。为了确保每个Instanceset样本至少有K个预测结果，若不足则填充背景类别的“哑”框，但这些填充的框不参与回归损失计算。损失函数方面，研究使用了分配优化的EMD（Earth Mover's Distance）损失，这是一种衡量预测分布与真实分布之间差异的度量。EMD损失确保了每个候选框预测的实例是唯一的，从而避免了重复或遗漏的问题。在K=1的情况下，EMD损失退化为传统的检测回归损失，证明了它是现有检测损失的泛化形式。此外，Set-NMS（集合非极大抑制）也被用于处理这种多预测情况，它基于EMD损失，能够更精确地处理重叠边界框，避免了传统NMS可能导致的误删除真实目标问题。通过这种方式，拥挤场景中的行人检测性能得到了显著提升，减少了假阳性和假阴性的发生。总结来说，这项工作提出了一个创新的深度学习框架，通过改进的实例预测和损失函数，解决了拥挤场景中多目标检测的难题，尤其在行人检测领域有着重要的应用价值。通过实验和实际案例，旷视科技的这一方法展示了在复杂环境下的高精度和鲁棒性，对多目标检测领域的发展产生了积极影响。

汇报人：

2020

2021.

拥挤人群检测

论文地址

code

下载后可阅读完整内容，剩余8页未读，立即下载

sun_ching

粉丝: 58
资源: 5

拥挤场景检测：一种提案，多重预测方法

CrowdDet

深度学习人群计数dcc_crowdnet训练模型-迭代450000次

End-to-end people detection in crowded scenes

anomaly Detection In Crowded Scenes

Anomaly Detection In Crowded Scenes（Shuqiang Guo）

FCHD:人头检测网络 “FAST AND ACCURATE HEAD DETECTION IN CROWDED SCENES”

Deformable Part Model Based Multiple Pedestrian Detection for Video Surveillance in Crowded Scenes

social lstm.pptx

英语演讲lifestylePPT课件.pptx

UnitWheels时PPT教案学习.pptx

最新资源