3611基于变换器的集合预测目标检测的再思考孙志清曹圣操杨一鸣Kris Kitani卡内基梅隆大学{zhiqings,shengcao,yiming,kkitani}@ cs.cmu.edu摘要DETR是最近提出的一种基于Transformer的方法,它将对象检测视为一组预测问题,并实现了最先进的性能,但需要超长的训练时间来收敛。本文探讨了DETR训练中优化困难的原因。我们的研究揭示了几个因素造成DETR的缓慢收敛,主要是匈牙利损失和Transformer交叉注意机制的问题。为了克服这些问题 , 我 们 提 出 了 两 种 解 决 方 案 , 即 TSP-FCOS(Transformer-based Set Prediction with FCOS)和TSP-RCNN(Transformer-basedSetPredictionwithRCNN)。实验结果表明,所提出的方法不仅收敛速度比原来的DETR,但也显着优于DETR和其他基线的检测 精 度 。 代 码 发 布 于 https://github.com/Edward-Sun/TSP-Detection。1. 介绍目标检测的目的是在图像中找到所有感兴趣的对象,并预测它们的类别标签和边界框,这本质上是一个集合预测问题,因为不需要对预测的对象大多数现有技术的神经检测器[21、24、19、25、38、26、11]是以检测和合并的方式开发的,也就是说,代替以端到端的方式直接优化预测集,这些方法通常首先对一组区域提议或滑动窗口进行预测,然后执行后处理步骤(例如,“非最大抑制”或NMS),用于合并可能属于同一对象的不同建议或窗口中的检测结果。由于检测模型是相对于合并步骤不可知地训练的,所以那些对象检测器中的模型优化不是端到端的并且可以说是次优的。检测Transformer(DETR)[2]最近被提议作为第一个完全端到端的对象检测器。它使用*表示同等贡献。Transformer [32]直接输出最终的一组预测,而无需进一步的后处理。但是,它需要额外长的训练时间来收敛。例如,流行的Faster RCNN模型[26]只需要大约30个epoch来收敛,但DETR需要500个epoch,在8个V100GPU上至少需要10天。这种昂贵的培训成本在大型应用中实际上是过高的。因此,我们应该以何种方式加速训练过程,以实现快速收敛的DETR类Transformer为基础的检测器是一个具有挑战性的研究问题,是本文的主要焦点。为了分析DETR算法优化困难的原因,我们进行了大量的实验,发现Transformer解码器从图像中获取目标信息的交叉注意模块是导致算法收敛缓慢的主要原因。为了追求更快的收敛,我们进一步研究了一个编码器的DETR版本,通过删除交叉注意模块。我们发现,编码器只DETR产生了实质性的改善,特别是小对象的检测,但次优性能的大对象。此外,我们的分析表明,DETR匈牙利损失中二部匹配的不稳定性也是导致收敛缓慢的原因之一基于上述分析,我们提出了两个模型,用于显著加速基于变换器的集合预测方法的训练过程,这两个模型都可以被视为具有特征金字塔的仅编码器DETR的改进版本[18]。具体来说,我们提出了TSP-FCOS(基于变换器的集合预测与FCOS)和TSP-RCNN(基于变换器的集合预测与RCNN),它们分别受到经典的一级检测器FCOS [30](全卷积一级对象检测器)和经典的两级检测器Faster RCNN [26]的启发。TSP-FCOS中提出了一种新的感兴趣特征(FoI)选择机制,以帮助Transformer编码器处理多级特征。为了解决匈牙利损失中二分匹配的不稳定性,我们还为我们的两个模型中的每一个设计了一个新的二分匹配方案,以加速训练中的收敛。在我们对COCO 2017检测基准的评估中[20]3612u=1u=1∅N联系我们L所提出的方法不仅比原始DETR收敛得快得多,而且在检测精度方面显著优于2. 背景2.1. 单级和双级物体探测器大多数现代对象检测方法可以分为两类:单级检测器和两级检测器。典型的一级检测器[21,24,19]直接基于图像中提取的特征图和(可变大小的)滑动窗口位置进行预测,而两级检测器[26,11]首先基于滑动窗口位置生成区域提议,然后改进每个提议区域的检测。通常,两级检测器比一级检测器更准确,但在计算上也更昂贵然而,这两种检测器都是以检测合并的方式开发的,即它们需要后处理步骤以确保每个检测到的对象仅具有一个区域而不是多个重叠区域作为检测结果。换句话说,许多现有技术的对象检测方法不具有关于集合预测的端到端训练目标2.2. 具有端到端目标的与上述流行的对象检测器不同,检测Transformer(DETR)[2]提出了第一种方法,其具有用于集合预测的端到端优化目标。具体而言,它通过二分匹配机制来制定损失函数。让我们用y =yiM表示对象的地面真值集,y=yiN表示预测集。 一般来说,我们有M