DEYO:一步到位的DETR+YOLO 实时目标检测

版权申诉
0 下载量 92 浏览量 更新于2024-08-03 1 收藏 5.23MB PDF 举报
DEYO是一种结合了YOLO(You Only Look Once)架构的改进版DETR(Detector Transformer),旨在解决目标检测任务中的端到端学习问题。传统的DETR依赖于ImageNet上的预训练,但其基于一对一匹配的策略提供的监督信号有限,导致颈部网络预训练不足,且训练初期匹配的不稳定会影响优化目标的一致性。为解决这些问题,研究者提出了一种创新的训练方法——分步训练。 在DEYO的设计中,首先进行两阶段的训练过程。在第一阶段,研究人员使用经典的检测器,采用一对多匹配策略进行预训练,这有助于初始化DETR的 backbone(特征提取部分)和 neck(将特征转化为检测区域表示的部分)。这种方法增强了特征表示的学习,使得后续端到端模型的性能得以提升。 在第二阶段,训练进入重点,backbone和neck被冻结,仅允许解码器(负责预测目标位置和类别)从头开始训练。这种分离式的训练策略有助于稳定解码器的学习,并确保优化目标的一致性。这样做的结果是,DEYO成为首个实时性良好的端到端目标检测模型,能够在保持高精度的同时实现较快的速度,无需额外依赖补充训练数据。 DEYO的独特之处在于它采用了纯卷积结构的编码器,这与传统的基于全连接层的Transformer架构有所不同,从而在硬件资源有限的情况下,如使用单个8GB的RTX 4060 GPU,也能完成COCO数据集的训练,显著降低了训练成本。DEYO系列的开源代码和预训练模型可以在指定的URL获取,使得更多研究者能够参与到这一领域的探索中来。 DEYO的出现革新了目标检测领域的训练策略,展示了深度学习特别是Transformer架构在实时目标检测中的潜力,同时也为其他端到端模型提供了有价值的训练范例。