DEYOv2:Rank Feature与贪婪匹配的端到端物体检测器

10 下载量 118 浏览量 更新于2024-08-03 3 收藏 15.83MB PDF 举报
"DEYOv2是DETR与YOLO结合的第二代物体检测器,旨在通过改进的一对一匹配策略提高模型训练速度和性能。DEYOv2引入Rank Feature和Greedy Matching来克服一对一匹配的局限性,实现无需NMS的端到端优化。在多尺度特征和ResNet-50骨干网络的支持下,DEYOv2在COCO数据集上达到了51.1 AP和51.8 AP的优异表现,对比DINO模型有显著的性能提升。" DEYOv2是计算机视觉领域的创新成果,主要聚焦于物体检测的效率和精度。它基于DETR(DEtection TRansformer)框架,借鉴了YOLO(You Only Look Once)的速度优势,同时针对DETR中的一对一匹配策略进行了优化。在DETR中,每个对象查询直接对应一个ground truth框,这在训练初期可能导致匹配困难和收敛速度慢的问题。为了解决这个问题,DEYOv2引入了Rank Feature和Greedy Matching技术。 Rank Feature是一种新的特征表示方法,它通过比较不同查询和ground truth之间的关系,增强了模型学习更复杂匹配模式的能力。这种特征有助于模型在训练过程中更好地理解对象之间的相对位置和大小关系,从而改进匹配过程。 另一方面,Greedy Matching策略则是一种更高效的匹配策略,它不是一对一地绑定查询和ground truth,而是根据匹配度的高低进行贪婪选择,最大化整体的匹配质量。这种策略使得DEYOv2能在第三阶段整合前两阶段的信息,进一步提升了模型的性能,且无需使用非极大值抑制(NMS)后处理步骤,实现了真正的端到端优化。 DEYOv2在设计上融合了密集查询、稀疏查询、一对多匹配和一对一匹配,充分利用了各种匹配方式的优点。实验结果显示,DEYOv2在12个和24个epoch的训练后,分别达到51.1 AP和51.8 AP的平均精度,这表明其在训练效率和最终性能上都有显著提升。特别是在与基于Transformer的端到端模型DINO的比较中,DEYOv2在相同条件下取得了2.1 AP和1.4 AP的提升,证明了其优越性。 此外,DEYOv2还在COCO数据集上进行了测试,选择了ResNet-50作为基础网络,并结合多尺度特征提取,这进一步巩固了其在复杂场景下的物体检测能力。这些改进对于推动端到端目标检测器的发展具有重要意义,特别是对于那些追求实时性和准确性的应用,DEYOv2提供了有力的解决方案。