SSD: Single Shot MultiBox Detector (SSD) 是一篇由 Wei Liu、Dragomir Anguelov、Dumitru Erhan、Christian Szegedy、Scott Reed、Cheng-Yang Fu 和 Alexander C. Berg 等人合作完成的深度学习论文。该研究提出了一种革新性的对象检测方法,它利用单个深层神经网络来替代传统的区域提议(Region Proposal)步骤,显著简化了物体检测流程。在传统的检测体系中,通常需要预生成候选区域,然后对这些区域进行像素或特征的重新采样,最后应用高质量的分类器。而 SSD 则通过将边界框的输出空间离散化为一组不同大小、比例的默认框,每个特征图位置都对应一个,使得网络能够同时预测每个框中是否存在目标以及其精确的位置。
在预测过程中,SSD 对每个默认框内的每个类别进行分数生成,并对框进行微调以适应目标对象的形状。这种设计允许模型处理不同尺度的目标,无需复杂的像素或特征金字塔结构。实验结果显示,尽管没有使用额外的区域提议,SSD 在 PASCAL VOC、Microsoft COCO 和 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 数据集上的性能与基于区域提议的方法相当,但在速度方面表现出优势,尤其是在Nvidia Titan X上,300x300分辨率下,SSD 可以实现每秒58帧(FPS),并达到了72.1%的mAP,而500x500分辨率下更是达到了75.1%的mAP,明显优于当时的类似技术,如Faster R-CNN。
SSD 的贡献在于提供了一个统一的训练和推理框架,使得它易于集成到需要对象检测功能的系统中。相比于其他单级检测方法,SSD 在处理较小输入图像时也能保持较好的精度,这表明其在实际应用中具有广泛的适用性和效率。论文还提供了 GitHub 地址(<https://github.com/weiliu89/caffe/tree/ssd>),以便研究人员和开发者可以获取源代码进行进一步研究和开发。本文的关键概念包括实时对象检测、卷积神经网络(CNN)、单次前向传播检测、默认框和多尺度特征融合。