拥挤场景检测:一种提案,多重预测方法

版权申诉
5星 · 超过95%的资源 4 下载量 30 浏览量 更新于2024-09-11 收藏 2.86MB PPTX 举报
"旷视科技提出了一种在拥挤场景中进行多目标检测的新方法——Detection in Crowded Scenes: One Proposal, Multiple Predictions。这种方法主要应用于行人检测,利用深度学习技术来解决在高密度人群中准确识别个体的挑战。" 该研究的核心问题是解决在拥挤场景中,由于目标之间的严重重叠,传统的Non-Maximum Suppression (NMS)策略往往无法有效地分离出独立的实例。在这样的场景中,即使高度重叠的边界框也可能包含不同的行人实例。如描述所示,(a) 基线方法每个边界框预测单个实例,而(b) 提议的方法则允许每个候选框预测多个实例,以应对重叠情况。 论文引入了一个可选的细化模块,它接收初步预测作为输入,并结合提议框的特征进行第二轮预测,旨在纠正可能的错误。这一模块通过一组实例集合(Instanceset)来处理重叠目标,Instanceset包含多个预测结果,每个结果都有对应的置信度和坐标值。为了确保每个Instanceset样本至少有K个预测结果,若不足则填充背景类别的“哑”框,但这些填充的框不参与回归损失计算。 损失函数方面,研究使用了分配优化的EMD(Earth Mover's Distance)损失,这是一种衡量预测分布与真实分布之间差异的度量。EMD损失确保了每个候选框预测的实例是唯一的,从而避免了重复或遗漏的问题。在K=1的情况下,EMD损失退化为传统的检测回归损失,证明了它是现有检测损失的泛化形式。 此外,Set-NMS(集合非极大抑制)也被用于处理这种多预测情况,它基于EMD损失,能够更精确地处理重叠边界框,避免了传统NMS可能导致的误删除真实目标问题。通过这种方式,拥挤场景中的行人检测性能得到了显著提升,减少了假阳性和假阴性的发生。 总结来说,这项工作提出了一个创新的深度学习框架,通过改进的实例预测和损失函数,解决了拥挤场景中多目标检测的难题,尤其在行人检测领域有着重要的应用价值。通过实验和实际案例,旷视科技的这一方法展示了在复杂环境下的高精度和鲁棒性,对多目标检测领域的发展产生了积极影响。