没有合适的资源?快使用搜索试试~ 我知道了~
Qinghang Hong*, Fengming Liu*, Dong Li, Ji Liu, Lu Tian, Yi ShanAdvanced Micro Devices, Inc., Beijing, China{d.li, lu.tian, yi.shan}@amd.com47230动态稀疏R-CNN0摘要0SparseR-CNN是一种最近的强大的目标检测基线,通过对稀疏的、可学习的候选框和候选特征进行集合预测来实现。在这项工作中,我们提出了两个动态设计来改进SparseR-CNN。首先,SparseR-CNN采用一对一的标签分配方案,其中应用了匈牙利算法,只匹配一个正样本与每个真实标签。这种一对一的分配对于学习到的候选框和真实标签之间的匹配可能不是最优的。为了解决这个问题,我们提出了基于最优传输算法的动态标签分配(DLA),在SparseR-CNN的迭代训练阶段逐渐分配更多的正样本。我们约束匹配在顺序阶段逐渐变得更宽松,因为后期阶段会产生具有更高精度的改进候选框。其次,在SparseR-CNN的推理过程中,学习到的候选框和特征对于不同的图像保持不变。受动态卷积的启发,我们提出了动态候选框生成(DPG),动态地组合多个候选框专家,为连续的训练阶段提供更好的初始候选框和特征。因此,DPG可以为推理过程提供样本相关的候选框和特征。实验证明,我们的方法,称为Dynamic SparseR-CNN,可以提升不同骨干网络的强大SparseR-CNN基线的目标检测性能。特别是,Dynamic SparseR-CNN在COCO 2017验证集上达到了最先进的47.2%AP,相比于使用相同的ResNet-50骨干网络的SparseR-CNN提高了2.2% AP。01. 引言0目标检测是计算机视觉中的一项基本任务,旨在预测给定图像中一组具有位置和相应预定义类别的对象。它已广泛应用于智能监控和自动驾驶等多个领域。0* 同等贡献。0图1. 在COCO2017验证集上的性能与训练轮数对比。所有结果都是使用ResNet-50骨干网络进行单尺度推理得到的。我们的Dynamic SparseR-CNN在与SparseR-CNN相同的36个训练轮数下达到了最先进的47.2%AP。圆圈代表基于Transformer的方法。三角形代表基于CNN的方法。0目标检测在近年来取得了快速发展,从卷积神经网络(CNN)[7, 11, 24, 27]到Transformer [6,18],从不同的特征提取骨干网络到不同的检测流程设计[2,17, 22, 23, 25,28]。根据回归次数,检测器主要可以分为单阶段、两阶段和多阶段方法。单阶段检测器[17,28]直接预测给定图像中对象的回归目标和类别,无需进行精细化的后处理。两阶段检测器[4, 9, 14,23]首先为前景生成有限数量的候选框(例如,区域候选网络(RPN)),然后将这些候选框传递给检测网络以进一步精细化位置和类别。多阶段检测器[1]会多次精细化位置和类别,性能更好,但通常需要大量计算开销。单阶段方法通常可以分为基于锚点和无锚点检测器。基于锚点的检测器[15,17,22]设计密集的预定义锚点,将锚点平铺在图像上,然后直接预测锚点的类别和坐标。然而,手动配置锚点可能对最终性能不是最优。无锚点检测器[13,28]通过去除锚点设计来解决这个问题。它们47240通常使用中心点或地面实况内的区域来定义正样本提议,并预测偏移量以获得最终边界框。最近,通过使用Transformer编码器和解码器架构,基于Transformer的检测器[2, 20,25,29]提出了将目标检测作为一种集合预测问题的方法。这些方法用少量可学习的对象查询替换了锚点机制,可以模拟对象之间的关系和全局图像上下文以输出最终预测结果。匈牙利算法用于基于分类和回归的综合损失找到地面实况和预测之间的二分匹配。这些检测器中的标签分配是一对一的方式,即在训练过程中,只有一个单一的检测与一个地面实况匹配。受到使用多对一标签分配方案的现有基于CNN的方法的启发[8, 15,28],我们假设将多个正样本分配给一个地面实况可以更有效地优化提议,并促进检测器的训练以获得更好的性能。因此,我们提出了基于最优传输算法的动态标签分配(DLA),采用基于稀疏R-CNN强基线的逐渐增加的正样本分配给地面实况。由于每个阶段都会为下一个阶段生成经过改进的提议框和特征,我们期望由于顺序阶段中预测的精度增加,将地面实况与预测框之间的匹配在早期阶段更加严格,在后期阶段更加宽松。此外,在稀疏R-CNN中,对象查询(即提议框和提议特征)在训练过程中是可学习的,但在推断过程中对于不同的图像保持不变。受到动态卷积[3]的启发,我们提出了动态提议生成(DPG)来提供更好的初始提议框和特征在第一个迭代阶段。与固定提议相比,DPG可以聚合多个与样本相关的并行提议专家,并为推断生成动态提议。我们将我们的方法命名为动态稀疏R-CNN,在COCO2017验证集上达到了最先进的47.2%AP,与相同的ResNet-50骨干网络相比,超过了稀疏R-CNN基线2.2%的AP(图1)。我们的主要贡献可以总结如下:(1)我们指出,在基于Transformer的检测中,多对一的标签分配比一对一的方案更合理和有效。我们将最优传输分配方法应用于稀疏R-CNN,并在迭代阶段逐渐增加正样本分配给地面实况。(2)我们设计了一种动态提议生成机制,用于学习多个提议专家并将它们组合起来生成用于推断的动态提议框和特征。(3)我们将这两种动态设计集成到稀疏R-CNN中,得到了动态稀疏R-CNN,其在COCO验证集上达到了最先进的47.2%AP,与相同的ResNet-50骨干网络相比,超过了稀疏R-CNN基线2.2%的AP。0CNN检测器在ResNet-50上取得了2.2%的大幅AP提升,达到了COCO验证集上的最先进的47.2% AP。02. 相关工作02.1. 通用目标检测0由于各种特征提取骨干和流水线设计的发展,基于CNN的检测器取得了巨大的进展。一阶段检测器直接在给定图像中预测对象的位置和相关类别,而无需区域提议和细化组件,包括基于锚点的[15, 17, 22]和无锚点的[13,28]方法。二阶段检测器[4, 14,23]首先使用区域提议网络(RPN)为前景生成一定数量的提议,然后将提议传递给检测网络以细化对象的位置和类别。最近,基于Transformer的检测器[2, 20, 29,35]利用Transformer编码器和解码器架构将目标检测重新定义为一种集合预测问题。它们设计了少量可学习的对象查询来建模对象之间的关系和全局图像上下文,并展示了令人印象深刻的性能。解码器中的对象查询是DETR的必需组件[2](没有它们,AP下降了7.8%)。条件DETR[20]提出了一种用于快速训练收敛的条件空间查询。锚点DETR[29]提出了一种基于锚点的查询设计,并在较少的训练时间内实现了接近DETR的性能。稀疏R-CNN[25]提出了可学习的提议框和提议特征,并将基于提议框的特征图上提取的RoI特征(基于关联的提议特征)传递给迭代结构(即动态头)进行预测。02.2. 标签分配0标签分配在现代目标检测器中起着重要作用。基于锚点的检测器[15, 17,23]通常采用IoU作为分配标准。例如,RetinaNet将IoU得分高于0.5的锚点定义为正样本,其他为负样本。YOLO检测器[21,22]只采用与ground-truth相关的最大IoU得分的锚点作为正样本,这种标签分配是一对一的匹配方法。无锚点检测器[13, 28,34]将中心点或缩小的中心区域定义为正样本,其他为负样本。ATSS[32]指出,基于锚点和无锚点检测器之间的本质区别在于标签分配。它提出了一种自适应训练样本选择方法,根据物体的统计特征将正样本和负样本分开。PAA[12]提出了一种概率锚点分配方法。s.t.(1)47250通过将正样本和负样本的联合损失分布建模为高斯分布来进行标签分配。OTA[8]将标签分配问题形式化为一个最优传输问题,将groundtruth和背景定义为供应商,将锚点定义为需求者,然后使用Sinkhorn-Knopp迭代来高效优化问题。基于Transformer的检测器[2, 20, 25, 29,35]将目标检测问题形式化为一个集合预测问题,并将groundtruth和物体查询之间的标签分配视为一个二分图匹配。通过最小化全局损失来优化groundtruth和物体查询之间的一对一匹配。在本文中,我们假设一对一的标签分配在Transformer-based检测器中是次优的,并受到OTA[8]的启发,探索了一种多对一匹配的动态标签分配方法,用于Sparse R-CNN。02.3. 动态卷积0动态卷积[3]是一种通过使用可学习的样本相关权重动态组合多个卷积核来增强模型的表示能力的技术。在softmax中进行温度退火可以提高训练效率和最终性能。CondConv[31]提出了有条件参数化卷积,为每个输入图像学习专门的卷积核。它使用sigmoid变换生成由子网络生成的权重来组合多个卷积核,构建一个特定于图像的卷积核。DyNet[33]基于动态卷积设计了几个动态卷积神经网络,包括Dy-mobile、Dy-shuffle和Dy-ResNet等。在这项工作中,我们分析了SparseR-CNN中在推理过程中针对不同输入的固定提议框和特征的次优性和不灵活性。受到动态卷积的启发,我们通过在推理过程中生成动态的样本相关提议来改进Sparse R-CNN。03. 提出的方法03.1. 重新审视Sparse R-CNN0Sparse R-CNN [ 25]是最近一个强大的目标检测基准,通过对一组可学习的稀疏目标提议进行预测。它使用迭代结构(即动态头部)逐步生成和改进预测。每个迭代阶段的输入由三部分组成:由主干提取的FPN特征,提议框和提议特征。输出包括预测的框,相应的类别和框的物体特征。一个阶段输出的预测框和物体特征分别用作下一个阶段的改进提议框和提议特征。提议框是一组小的固定的区域提议(Np×4),表示物体的潜在位置。提议特征是潜在向量。0(Np×C)来编码实例特征(例如姿态和形状)。在SparseR-CNN中,提议框在训练过程中被学习并在推理过程中固定。SparseR-CNN应用基于集合的损失来产生预测和groundtruth对象之间的二分图匹配,使用匈牙利算法进行一对一匹配。图2(a)说明了SparseR-CNN的设计。我们分析了SparseR-CNN的两个主要限制如下。首先,SparseR-CNN采用检测预测和groundtruth之间的一对一匹配,这可能是次优和低效的训练方法。其次,在SparseR-CNN中学习的提议框和提议特征表示训练集的统计信息,对于特定的测试图像来说是不适应的。在我们的工作中,我们设计了两个修改来改进SparseR-CNN。图2概述了我们方法的概览,并在接下来的章节中介绍算法细节。03.2. 动态标签分配0在SparseR-CNN中,匈牙利算法用于一对一匹配,其中每个真实值与一个预测框匹配。我们假设这种一对一匹配可能不是最优的。将多个正样本分配给一个GT可以更有效地优化提议并促进检测器训练。为了实现多对一匹配,我们遵循基于CNN的方法[8],并在Transformer中应用最优传输分配(OTA)。具体而言,OTA是一种探索检测框应如何与真实值匹配的公式。该公式将真实值视为供应商,为分配提供配额,并将检测框视为需求者,寻求分配。背景类也被构建为提供默认分配的供应商。在数学上,假设图像中有m个真实值,每个真实值提供s i =k个分配,这些分配被称为单位。每个检测框都试图获得一个单位,成功匹配被称为正样本分配。背景提供s i = n - k *m个单位,以满足未分配给任何真实值的检测框,这被称为负样本分配。优化目标可以定义如下。0min π0m �0i = 10j = 1 C(i, j) * π(i, j),0m �0i = 1 π(i, j) =1,0n �0j = 1 π(i, j) = si,0m �0i = 1 s i =n,0π(i, j) > 0,0C(i, j) =0�L cls(i, j) + α * L reg(i, j),正样本分配L cls(背景,j),负样本分配0其中i是真实值的索引,j是检测框的索引(j =1,...n),α是平衡分类损失和回归损失的系数47260(a)Sparse R-CNN(b)Dynamic Sparse R-CNN0图2. 与(a)Sparse R-CNN基线和(b)我们的Dynamic Sparse R-CNN的比较。SparseR-CNN使用匈牙利算法优化的一对一标签分配和推理期间固定的提议框/特征。Dynamic Sparse R-CNN通过两个动态设计改进SparseR-CNN。首先,我们采用通过最优传输算法进行优化的动态多对一标签分配和单位增加策略。其次,我们提出动态提议生成来生成样本相关的提议框和特征。0分类和回归损失。每个正样本的成本是分类损失Lcls和回归损失Lreg的总和,而每个负样本的成本只是分类损失。π(i,j)表示要优化的真实值i和检测框j之间的匹配结果。每个供应商提供的单位数k可以是固定的或动态的。根据[8]中的动态k估计方法,我们的工作根据预测值和真实框之间的IoU动态估计k值。在这个策略中,选择每个真实值的前q个IoU值并求和(并转换为整数)作为k值的估计。基于标签分配的最优传输理论(在等式1中,�m i=1 π(i,j)=1),每个提议(即需求者)只需要由GT(即供应商)提供的一个标签单位。因此,一个提议不会被分配给不同的GT。动态k估计方法通常保持k
80% ×Np,我们将通过相同的缩放因子为每个GT减少k,以确保至少有20%的负分配。单位增加策略。SparseR-CNN采用迭代架构逐渐提高精度。0预测。我们提出了一种简单的单元递增策略来促进迭代结构的训练。当动态头的预测在早期阶段不够准确时,我们希望供应商(GT)提供少量的单元,以使匹配更加严格。当动态头的预测在后期变得更加准确时,我们逐渐放松约束,让供应商(GT)提供更多的单元进行匹配。简单的单元递增策略可以定义如下。0k� = k - 0.5 * (T - t), t = 1, 2, ..., T (2)0其中我们在我们的方法中使用默认的迭代阶段数(T =6)。03.3. 动态提议生成0在Sparse R-CNN中,一组N p 个提议框和N p个提议特征与从FPN骨干网络(P2到P5)提取的特征一起输入动态头。这些提议在训练过程中是可学习的,但在推理过程中对于不同的图像是固定的。受到动态卷积的启发,我们提出根据输入图像生成动态提议框和特征以提高性能。在我们的设计中(图3(a)),提议框/特征是 N e个不同集合的提议框/特征的线性组合,每个集合被称为一个专家。通过专家权重生成网络(图3(b))生成将专家组合的系数(称为专家权重)。我们的DPG模块可以表示如下。(3)where Pbi indicates the output dynamic proposal boxes, Pfiindicates the output dynamic proposal features, Wi is theproposal expert weight learned by the expert weight gen-eration network G, F indicates the features extracted fromthe FPN backbone (P2 to P5).Staircase Structure. Our expert weight generation net-work follows the basic design of dynamic convolution struc-ture, as shown in Figure 3 (b). We also use the tempera-ture annealing operation (tao) in softmax to control the ex-pert weights and make the training process more effective.We build a staircase architecture to aggregate the featuresfrom different pyramid levels. The P2 to P5 features de-47270(a)动态提议生成0(b)阶梯结构0图3.所提出的(a)动态提议生成(DPG)模块和(b)DPG中的阶梯结构的示意图。0Pfo = ΣN e i=1 Pfi * Wi0Pbo = ΣN e i=1 Pbi * Wi0(W1, W2, ..., WN e) = G(F)0尺度递增:P i 的宽度和高度是 P i-1 的1/2。对 P i和前一级的输出进行深度卷积,卷积核为3×3,步长为2,保持通道数不变并降低中间特征的尺度。最后,将连接的数据插值到一个4C×30×30的特征图中(每个金字塔级别的 C=256)。然后,通过求和融合4C个通道,并将结果的30×30特征图展平为两个全连接层。第一个全连接层的大小为900×1500,第二个全连接层的大小为1500×(N e Np)。我们构建了 N e = 4 个专家,并在我们的方法中使用了N p = 300个提议框/特征。所有专家以及专家权重生成网络都进行了训练。在推理过程中,权重生成网络以FPN特征作为输入,并为每个专家生成权重。然后通过专家的线性组合获得最终的提议框和特征。04. 实验0数据集。所有实验都是在COCO2017数据集[16]上进行的。训练集包含约118k个样本,验证集包含约5k个样本。该数据集标注了80个不同类别的对象,这些对象来自自然场景。我们使用标准的MS COCOAP作为主要评估标准。训练细节。基本训练设置遵循SparseR-CNN。我们使用在ImageNet[5]上预训练的网络(例如ResNet-50[11])作为骨干网络,具有5个FPN级别。在训练过程中,我们使用AdamW优化器[19],权重衰减设置为0.0001。我们使用批量大小为16的模型进行36个时期的训练。初始学习率为2.5×10-5,并在第27和第33个时期缩小0.1倍。新添加的层采用Xavier初始化[10]。我们遵循SparseR-CNN采用相同的多尺度训练过程,将输入图像调整大小,使最短边至少为480像素,最长边至多为1333像素。按照SparseR-CNN的做法,我们采用6个阶段的迭代结构进行训练。我们的实验在4个Nvidia A100GPU上进行,使用ResNet-50骨干网络的Dynamic SparseR-CNN训练大约需要37个小时。推理细节。推理时,输出300个框和相应的分数作为预测结果。每个框的分数是框包含对象的概率。在推理过程中,这些框不需要进行后处理。在基于OTA的动态标签分配中,应用非最大抑制(NMS),阈值为0.7。04.1.与最先进技术的比较0与基于Transformer的检测器的比较。表01将我们的动态稀疏R-CNN与最先进的基于Transformer的目标检测方法进行比较,这些方法47280方法 骨干网络 训练时期 AP AP 50 AP 75 AP S AP M AP L0基于CNN的检测器:Faster R-CNN [ 30 ] ResNet-50 36 40.2 61.0 43.8 24.2 43.5 52.0 Faster R-CNN [ 30 ]ResNet-101 36 42.0 62.5 45.9 25.2 45.6 54.6 RetinaNet [ 30 ] ResNet-50 36 38.7 58.0 41.5 23.3 42.3 50.3RetinaNet [ 30 ] ResNet-101 36 40.4 60.2 43.2 24.0 44.3 52.2 Cascade R-CNN [ 30 ] ResNet-50 36 44.3 62.2 48.026.6 47.7 57.7 ATSS [ 32 ] ResNet-101 24 43.5 - - - - - PAA [ 12 ] ResNet-101 24 44.6 - - - - - OTA [ 8 ]ResNet-50 12 40.7 58.4 44.3 23.2 45.0 53.60基于Transformer的检测器:DETR [ 2 ] ResNet-50 500 42.0 62.4 44.2 20.5 45.8 61.1 DETR [ 2 ] ResNet-101 50043.5 63.8 46.4 21.9 48.0 61.8 DETR [ 2 ] ResNet-101-DC5 500 44.9 64.7 47.7 23.7 49.5 62.3 Conditional DETR [20 ] ResNet-50 108 43.0 64.0 45.7 22.7 46.7 61.5 Conditional DETR [ 20 ] ResNet-101 108 44.5 65.6 47.5 23.648.4 63.6 Conditional DETR [ 20 ] ResNet-101-DC5 108 45.9 66.8 49.5 27.2 50.3 63.3 Anchor DETR [ 29 ]ResNet-50 50 42.1 63.1 44.9 22.3 46.2 60.0 Anchor DETR [ 29 ] ResNet-101 50 43.5 64.3 46.6 23.2 47.7 61.4Anchor DETR [ 29 ] ResNet-101-DC5 50 45.1 65.7 48.8 25.8 49.4 61.6 Sparse R-CNN [ 25 ] ResNet-50 36 45.063.4 48.2 26.9 47.2 59.5 Sparse R-CNN [ 25 ] ResNet-101 36 46.4 64.6 49.5 28.3 48.3 61.6 TSP-RCNN [ 26 ]ResNet-50 96 45.0 64.5 49.6 29.7 47.7 58.0 TSP-RCNN [ 26 ] ResNet-101 96 46.5 66.0 51.2 29.9 49.7 59.20我们的方法:动态稀疏R-CNN ResNet-50 36 47.2 66.5 51.2 30.1 50.4 61.7 动态稀疏R-CNN ResNet-101 36 47.867.0 52.0 31.0 51.1 62.20表1.在COCO 2017验证集上的检测性能比较(%)。0设置 AP AP 50 AP 75 AP s AP m AP l0基线 45.0 63.4 48.2 26.9 47.2 59.5 + DPG,无阶梯 45.3 63.2 49.5 28.8 48.2 59.1 + DPG,有阶梯 45.763.9 50.0 28.8 48.2 59.8 + DPG,+ DLA,动态 q =8,无单元增加策略 46.0 65.0 49.9 28.7 49.2 61.1 +DPG,+ DLA,动态 q =8,有单元增加策略 47.2 66.5 51.3 30.1 50.4 61.70表2.我们方法的每个算法组成部分的影响。0主要与我们的方法相关。结果表明,动态稀疏R-CNN不仅优于原始的稀疏R-CNN,还优于其他改进的DETR方法,如条件DETR和锚点DETR。例如,使用相同的ResNet-50骨干网络,我们的工作在AP上超过条件DETR4.2%,超过锚点DETR5.1%。配备更大的ResNet-101骨干网络,与之前的方法相比,我们也获得了显著的改进。另一方面,我们只对网络进行36个时期的训练(与稀疏R-CNN基线相同),这比其他基于Transformer的检测器的训练时间显著缩短。我们还进行了评估。0在COCO测试集上,我们的动态稀疏R-CNN使用ResNet-50实现了47.2%的AP,使用ResNet-101实现了47.9%的AP,超过了使用ResNet-101的TSP-RCNN(46.6%)。0与基于CNN的检测器的比较。我们还将我们的动态稀疏R-CNN与最先进的基于CNN的方法进行比较。在相同的3×训练计划(即36个时期)下,我们的方法优于FasterR-CNN,RetinaNet和级联R-CNN。ATSS,PAA和OTA的方法也探索了改进的多对一标签分配方案,与我们的DLA相关。我们的动态稀疏R-CNN获得了卓越的性能。446.766.051.131.550.160.5546.766.250.930.649.861.1646.766.050.930.250.060.7746.465.750.430.249.560.7847.266.551.330.150.461.7946.165.250.129.049.560.647290骨干网络 匹配器 单元损失 单元增加策略 AP AP 50 AP 75 AP s AP m AP l0R50匈牙利 � � � 45.0 63.4 48.2 26.9 47.2 59.5 R50 OTA固定 k =1 � � 44.7 64.9 48.0 28.2 46.9 59.3 R50 OTA固定 k =2 � �45.9 65.1 49.8 28.8 48.6 60.9 R50 OTA固定 k =3 � � 45.9 65.2 50.0 28.6 48.6 61.0 R50 OTA动态 q =8 � � 46.1 64.6 50.127.9 49.2 61.9 R50 OTA动态 q =8 两个损失 � 46.1 65.2 50.0 29.4 49.7 60.9 R50 OTA动态 q =8 两个损失 � 46.7 65.950.9 29.8 49.8 61.30表3. 不同匹配器的影响。在这个消融实验中,没有使用动态提案生成。0图4. 使用ResNet-50骨干网的动态稀疏R-CNN的检测结果可视化。0与具有相同骨干网的这些方法相比,例如,在COCO验证集上,与ResNet-50相比,AP超过OTA6.5%,与ResNet-101相比,AP超过PAA3.2%。定性结果。图4可视化了我们的动态稀疏R-CNN的采样检测结果。我们的方法可以正确检测具有不同尺度、外观等特征的物体。04.2. 消融研究0算法组件的贡献。我们进行了消融实验,以检验每个算法组件的贡献。如表2所示,动态提案生成设计通过阶梯结构提升了0.7个点的AP,以聚合来自多个金字塔层级的特征。特别是,AP75和APs的值都增加了近2个点,证明DPG有助于模型在更严格的IoU标准和检测小物体方面表现更好。这种改进背后的直觉是,DPG有助于为动态头部提供更多样化的提案框和特征,以进行更好的预测。我们的阶梯结构可以更好地利用FPN特征来生成专家权重。没有阶梯结构,FPN特征0q AP AP 50 AP 75 AP s AP m AP l0表4. 在动态k估计中q的影响,使用单位增加策略和动态提案生成。0特征直接插值到30×30的特征图中,并连接到第一个全连接层。结果表明,这种阶梯结构带来了0.4%的AP增益。通过基于OTA的多对一标签分配,我们可以将性能从45.7%提升到46.0%。在这个设置中,所有迭代阶段的单位都是基于相同的动态k估计方法设置的。我们发现我们简单的单位增加策略可以进一步提高性能,单模型达到47.2%的AP。这些结果证明了DLA和DPG设计的有效性。不同匹配器的影响。如表3所示,OTA匹配器与固定的k值(k=2,3)相比,AP提高了0.9个点。动态k估计中q=8的OTA匹配器提高了1.1个点,这证明了使用动态k的有效性。单位增加策略进一步提高了AP到46.7%,表明这种简单的设计是有效的。此外,q=8的OTA匹配器和单位增加策略在AP75和APs方面都提高了近3个点。显著增加的背后的直觉是,我们的动态多对一匹配方案为匹配一个groundtruth提供了更多的预测框选项。这个方案特别有利于小物体的检测。q的影响。如表4所示,我们尝试了动态k估计中不同的q选择,发现q=8效果最好。它345.463.450.028.648.459.6445.763.950.028.848.259.8545.363.249.527.647.860.047300#专家 AP AP 50 AP 75 AP s AP m AP l0表5.专家数量的影响。在这个消融实验中,没有使用动态标签分配。0值得注意的是,表4中的所有结果都优于一对一匹配的基线(45.0%),验证了我们的动态多对一匹配方案的有效性。专家数量的影响。如表5所示,我们尝试了不同数量的专家,并在我们的方法中默认使用4个专家。05. 更多分析0图5比较了Sparse R-CNN和Dynamic SparseR-CNN之间AP值的详细训练曲线。我们观察到,在整个训练迭代过程中,我们的Dynamic SparseR-CNN始终优于基线。结果进一步验证了DLA和DPG的非平凡设计。图6比较了Sparse R-CNN和Dynamic SparseR-CNN之间每个阶段的AP值。使用我们的方法,每个阶段的AP值至少提高了2个点。这表明DLA和DPG实际上对每个迭代阶段的训练有所贡献。我们注意到DPG仅对第一阶段施加,它有助于产生更好的初始提案框和特征,并有助于连续阶段的训练。此外,我们发现Dynamic SparseR-CNN仅使用4个阶段就可以达到46.4%的AP,超过使用6个阶段的基线(45.0%)。结果表明,我们的方法可以加速迭代结构的收敛。06. 限制0我们的检测器的参数大小和计算成本略大于SparseR-CNN基线。Sparse R-CNN有77.8M个参数,耗费23.28GFLOPs,而我们的Dynamic SparseR-CNN有81.0M个参数,耗费23.30GFLOPs。这表明我们的专家权重生成网络只引入了边际的内存和计算开销。我们的Dynamic SparseR-CNN在4个A100 GPU上训练需要37小时,而SparseR-CNN在相同设备上需要29小时。训练时间可以进一步优化。07. 结论0在这项工作中,我们通过引入两个动态设计来改进SparseR-CNN,提出了Dynamic Sparse R-CNN。0图5. Sparse R-CNN和Dynamic SparseR-CNN之间AP曲线的比较。0图6. Sparse R-CNN和Dynamic SparseR-CNN之间每个阶段结果的比较。0我们指出,基于Transformer的检测器中,一对一的标签分配方法对于对象查询和真实值之间的匹配是次优的。基于最优传输算法,我们实现了多对一的标签分配,并设计了一种简单但有效的单元增加策略来提高性能。我们还提出了一种动态提案生成机制,以聚合多个学习到的专家,从而得到更好的初始提案框和特征。这种机制受到动态卷积的启发,为更好的检测性能产生了动态的输入相关提案。我们的Dynamic SparseR-CNN是有充分动机的,并且在COCO上使用ResNet-50达到了47.2%的AP,达到了最先进的水平。我们希望我们的方法能够激发对目标检测的新见解,并考虑将我们的想法应用于更多基于Transformer的检测器作为未来的工作。47310参考文献0[1] Zhaowei Cai and Nuno Vasconcelos. Cascade r-cnn:Delving into high quality object detection. In CVPR, 2018. 10[2] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.End-to-end object detection with transformers. In ECCV,pages 213–229. Springer, 2020. 1, 2, 3, 60[3] Yinpeng Chen, Xiyang Dai, Mengchen Liu, DongdongChen, Lu Yuan, and Zicheng Liu. Dynamic convolution:Attention over convolution kernels. In Proceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition, pages 11030–11039, 2020. 2, 30[4] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Objectdetection via region-based fully convolutional networks.2016. 1, 20[5] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In CVPR, 2009. 50[6] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image isworth 16x16 words: Transformers for image recognition atscale. ICLR, 2021. 10[7] Yoav Freund, Raj Iyer, Robert E Schapire, and YoramSinger. An efficient boosting algorithm for combiningpreferences. Journal of machine learning research,4(Nov):933–969, 2003. 10[8] Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, andJian Sun. Ota: Optimal transport assignment for objectdetection. In CVPR, pages 303–312, 2021. 2, 3, 4, 60[9] Ross Girshick. Fast r-cnn. In ICCV, 2015. 1 [10] XavierGlorot and Yoshua Bengio. Understanding the difficulty oftraining deep feedforward neural networks. In Proceedings ofthe thirteenth international conference on artificialintelligence and statistics, pages 249–256. JMLR Workshopand Conference Proceedings, 2010. 50[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功