"DETR:直接集合预测的目标检测框架"

版权申诉
5星 · 超过95%的资源 1 下载量 93 浏览量 更新于2024-04-07 1 收藏 5.43MB PDF 举报
本文提出了一种新方法,将目标检测视为直接的集合预测问题。这一方法简化了检测管道,有效地消除了对许多手工设计组件的需要,如非最大抑制程序或锚点生成。新框架称为检测TRansformer或DETR,其主要成分是基于集合的全局损失,通过二分图匹配强制进行独特的预测,以及TRansformer编码器-解码器架构。DETR通过对对象和全局图像上下文的关系进行推理,直接输出最终的预测集。与许多其他现代检测器不同,DETR模型非常简单,不需要专门的库。在具有挑战性的COCO目标检测数据集上,DETR展示了与完善的、高度优化的Faster RCNN基线相当的准确性和运行时间性能。此外,DETR易于推广,以统一的方式产生全景分割。实验表明,DETR明显优于有竞争力的基线。训练代码和预训练模型可以在https://github.com/facebookresearch/detr上找到。 目标检测是计算机视觉领域的一个重要问题,旨在预测感兴趣物体的边界框和类别标签。传统的目标检测方法通常基于深度学习模型和复杂的网络架构,如Faster RCNN,YOLO和SSD等。然而,这些方法通常需要大量的手工设计组件,如非最大抑制程序和锚点生成,以及复杂的调参过程。因此,研究人员一直在寻找更简单、更有效的目标检测方法。 本文提出的DETR方法将目标检测视为集合预测问题,并引入了全局损失和TRansformer编码器-解码器架构。具体来说,DETR通过对对象和全局图像上下文之间的关系进行推理,直接并行输出最终的预测集。与传统方法不同,DETR不需要手工设计的组件,从而简化了整个检测管道。 通过在挑战性的COCO目标检测数据集上进行实验,DETR展示出了与Faster RCNN等基线模型相当的准确性和运行时间性能。此外,DETR还能够轻松推广到全景分割任务,并在实验中表现优异。这表明DETR在目标检测领域具有广泛的应用前景。 总的来说,本文提出的DETR方法在目标检测领域取得了显著的进展,展示出了简单、有效和易于推广的特点。未来的研究可以进一步探索DETR在其他计算机视觉任务上的适用性,以及进一步优化模型性能和训练效率。