没有合适的资源?快使用搜索试试~ 我知道了~
48250R(Det)2:用于目标检测的随机决策路由0李亚丽 王胜进 �0清华大学电子工程系和BNRist,中国北京0liyali13,wgsgj@tsinghua.edu.cn0摘要0在目标检测范式中,决策头是一个重要的部分,它对检测性能有着显著影响。然而,如何设计一个高性能的决策头仍然是一个未解决的问题。本文提出了一种新颖的方法,将决策树和深度神经网络以端到端的学习方式相结合,用于目标检测。首先,我们通过将软决策树插入神经网络中来解耦决策选择和预测值。为了促进有效学习,我们提出了具有节点选择和关联损失的随机决策路由,可以同时提升特征表示学习和网络决策。其次,我们开发了用于目标检测的决策头,使用窄分支生成路由概率和掩码,以获取来自不同节点的不同决策。我们将这种方法命名为用于目标检测的随机决策路由,简称R(Det)2。在MS-COCO数据集上的实验表明,R(Det)2能够有效提高检测性能。配备现有的检测器,它实现了1.4%至3.6%的AP提升。01. 引言0目标检测旨在识别和定位图像中感兴趣的目标,是计算机视觉中一项基础而具有挑战性的任务。它对于各种应用非常重要,如视频监控、自动驾驶和机器人视觉。由于其实际重要性,目标检测在学术界引起了广泛关注。在最近几十年中,深度神经网络(DNNs)为目标检测带来了显著进展。通常,现有的基于深度学习的检测方法包括单阶段检测器[22,25, 31],两阶段检测器[1, 7, 16, 30, 33],端到端检测器[3,39,51]。一般而言,用于目标检测的当前深度架构包括两个组件。一个是主干网络0�通讯作者0图1.提出方法的概述。(a)受到决策树的启发,我们通过在目标检测的决策头中引入树结构来解耦决策选择和预测值。通过多节点预测,我们可以探索更多多样的线索。(b)我们使用软概率来表示不同节点路由的决策选择。整体决策是来自不同节点的预测值的加权和。特别地,我们提出了随机决策路由,以学习来自不同节点的不同决策,以提高整体性能。0用于特征提取,可以通过大规模视觉识别数据集(如ImageNet[35])进行预训练。另一个是决策头,用于生成计算损失或推断检测框的预测结果。结合区域采样,目标检测可以转化为多任务学习问题,其中决策任务包括分类和边界框(bbox)回归。对于现有的检测网络,决策头通常是通过顺序连接多个卷积或全连接层来构建的。对于单阶段检测器,决策头通常是通过堆叠多个卷积层来构建的。两阶段检测器中用于区域提议的决策头类似。对于两阶段检测器,R-CNN阶段中的区域决策通常使用2个全连接层来实现。由于决策头对于高性能检测器非常重要,最近有一些研究致力于此方面的研究[8, 12, 37,43]。然而,这些工作大多关注任务分离和c =48260任务感知学习使得通用决策机制远未得到充分利用。考虑到深度神经网络的特征在高级视觉任务中具有巨大潜力,广泛采用的单节点决策设计可能会阻碍目标检测的性能。一个自然的问题是:单节点预测是否足够用于目标检测中的特征探索?为了回答这个问题,我们关注于新颖的决策机制,并提出了一种将软决策树引入目标检测的方法。如图1所示,我们将软决策树集成到目标检测中,以解耦路由选择和预测值。为了联合学习软决策树和神经网络,我们提出了所谓的选择性损失和关联损失相结合的随机决策路由。实验证实了所提方法的有效性,并阐明了引入多节点预测的必要性。由于我们的工作主要是关于目标检测中的随机决策路由,我们将其命名为R(Det)2。从机器学习的角度来看,我们的R(Det)2是将神经网络和决策树这两种主流算法进行桥接的一次尝试,这将为未来的研究带来新的见解。本文的贡献有三个方面。•我们提出了一种在目标检测中实现多节点决策的方法,特别是我们提出了基于树状决策头的随机决策路由,实现了端到端的联合学习。0•我们为目标检测构建了一个新颖的决策头,引入路由概率和掩码,从多个节点生成不同的决策以提升整体决策能力。0•大量实验证实了我们提出的R(Det)2的有效性。特别是,当与FasterR-CNN配备时,R(Det)2的AP提升超过3.6%。它也大幅提高了大型对象的检测准确性。02. 相关工作0单阶段检测器。Overfeat[36]直接使用卷积特征图预测分类和定位的决策值。YOLO[31,32]根据图像网格直接回归对象边界和类别概率。SSD[25]通过多层特征的不同尺度改进了单阶段检测。RetinaNet[22]提出了聚焦损失来解决前景-背景不平衡问题。此外,基于关键点的单阶段检测器[5, 11, 20,49]也得到了广泛研究。CornerNet[20]为检测生成了左上角和右下角的热图。CenterNet[11]使用三个关键点进行表示,并附加中心点。此外,FCOS[40]和ATSS[47]引入了中心度分支进行无锚点检测。其他方法探索了0样本分配策略[2, 14, 19, 28, 47,50]。两阶段检测器。R-CNN[16],FastR-CNN[15],FasterR-CNN[33]使用提议区域的池化特征预测对象得分和边界。R-FCN[7]引入位置敏感的得分图来共享每个感兴趣区域的特征计算。Denet[41]预测并搜索稀疏角点分布以获取对象边界。CCNet[29]连接多个阶段的级联分类器以拒绝背景区域。级联R-CNN[1]使用顺序R-CNN阶段逐步改进检测到的框。Libra R-CNN[30]主要解决不平衡训练问题。GridR-CNN[27]引入像素级网格点来预测对象位置。TSD[37]通过任务感知的解耦建议和任务特定特征来分离分类和边界框的预测。DynamicR-CNN[46]调整标签分配的IoU阈值和回归超参数以提高检测质量。SparseR-CNN[38]学习一组固定的稀疏候选区域。端到端检测器。DETR[3]将目标检测建模为一组预测问题,并使用Transformer编码器-解码器架构解决。它启发了基于Transformer的检测框架的研究[9, 10, 24, 39, 51]。DeformableDETR[51]提出了关键元素的稀疏采样。TSP[39]将FCOS和R-CNN头部集成到预测问题中以实现更快的收敛。决策机制。目标检测框架中的决策头通常涉及多个计算层(例如,卷积层,全连接层和Transformer模块)。对于具有密集先验的单阶段检测器[11, 22, 25, 31,40],通常使用堆叠的卷积来获得具有更大感受野的特征,其中包括分类、定位和其他预测任务的单独卷积。对于R-CNN阶段的决策[1, 27, 30, 33,46],通常使用堆叠的全连接层。Double-headR-CNN[43]使用全连接层进行位置无关分类和全卷积层进行位置敏感定位。Dynamichead[8]统一了尺度、空间和任务感知的自注意力模块以进行多任务决策。03. 随机决策树03.1. 软决策树0为了解开决策选择和预测值,我们首先在目标检测中构建了多类别分类和 bbox 回归的软决策树[ 13 ]。我们使用从 0到 1的软路由概率来表示决策选择,并促进网络优化。用于分类的软决策树。对于多类别分类,软决策树的制定如下:0j ∈ 节点 p j 0j ∈ 节点 p j = 1 (1)b =(3)(4)48270其中 c 是整个分类树的输出, c j 是每个节点的预测值。p j 是决策选择的路由概率。它表示选择第 j个分类节点的概率。对于所有节点,�0j ∈ 节点 p j = 1 . 方程 1 显示 c是来自所有节点的分类得分的加权和。与传统决策树不同,p j 是从 0 到 1的“软”值。在网络中,可以通过具有激活函数(如Softmax , Sigmoid )的标量得分获得 p j。用于回归的软决策树。对于 bbox回归,我们以类似的方式制定软决策树:0j ∈ 节点 q j 0j ∈ 节点 q j = 1 (2)0其中 b j 是每个节点 j 输出的回归值。 q j 是第 j个回归节点的路由概率。 b是树回归器的输出。与软分类树类似,路由概率 q j ∈ [0, 1] 是“软”的。注意,路由概率 p j , q j表示决策选择,表示路由到第 j个节点的概率。它可以视为测试阶段的决策置信度。 c j 和 b j 是附加在第 j个节点上的分类和回归任务的预测值。决策选择和预测值都可以通过神经层轻松获得。使用软决策树,可以通过来自不同方面的特征获得多个有区分性和不同的决策。为了方便讨论,我们将软决策树限制为二进制且 j ∈ { l, r } 。03.2. 随机决策路由0为了在神经网络中学习软决策树,我们提出了随机决策路由。动机有两个方面。首先,为了获得具有树结构的高性能决策头,我们需要避免来自不同节点的多个预测的高相关性。这意味着我们应该区分训练以减少不同节点的决策相关性。其次,我们还需要保证整个树的决策性能。简而言之,我们需要实现具有低相关节点决策的高性能树决策。为了实现这一点,我们提出了选择性损失来监督每个节点的学习和关联损失来指导整个树的优化。然后,我们将选择性损失和关联损失统一到一个通用的训练框架中。由于我们引入了随机因素来模拟路由不同节点的概率,我们将这种训练策略称为随机决策路由。为了实现具有低相关性的节点决策,我们首先进行节点选择,以确定具有更高优化优先级的节点。然后,我们将所选节点与更高的路由概率相连。相反,剩余节点附加较低的路由概率。不同的路由概率导致不同节点的学习速率。因此,为了使不同节点的决策多样化。0图2.使用决策树头训练深度网络的示意图。我们提出了随机决策路由,包括选择性损失和关联损失。选择性损失以随机的方式识别主导的决策预测,并相应地加权节点损失。关联损失通过衡量融合输出与真实值之间的差异来学习路由概率。0为了构建选择性损失,我们为不同的节点损失设置不同的随机权重。如图2左所示,分类和bbox回归的选择性损失表示为:0Lcls s(cl, cr, y) = γclLcl + γcrLcr =γclLcls(cl, y) + γcrLcls(cr, y)0Lbbox s(bl, br, B) = γblLbl + γbrLbr =γblLbbox(bl, B) + γbrLbbox(br, B)0其中y是真实标签,B是bbox回归的真实值。γcl,γcr是分类树选择性路由的权重,γbl,γbr是bbox回归树选择性决策路由的权重。我们使用随机权重来区分节点学习。对于分类,我们根据Lcl,Lcr的比较设置γcl,γcr。我们将具有较低损失值的节点设置为具有较高随机权重。对于bbox回归,我们根据ql,qr的相对比较设置权重γbl,γbr。例如,如果ql < qr,则限制γbl <γbr。这与我们的直觉一致,即我们以快速方式学习具有较高优先级的选择性节点,同时以较慢的方式学习剩余节点。根据经验,我们从U(0.1, 0.3)中采样较低权重,从U(0.9,1.1)中采样较高权重。这种慢-快的随机方式有助于整个决策头部的学习。除了区分节点决策外,我们还需要确保整个决策树的性能。也就是说,整个树的预测决策输出应该是好的。为了实现这一点,我们制定了关联损失。(7)48280图3. 目标检测的决策头部。 (a) 显示了常见的决策头部。 (b) 显示了通过软决策树解耦决策选择和值的R(Det)2-B。 (c)显示了利用路由掩码为决策生成分歧输入特征的R(Det)2-M。 (d) 显示了将任务解耦合并到基于R(Det)2的决策头部的R(Det)2-T。0关联损失基于融合的预测c,b。关联损失可以与原始的分类或bbox回归损失具有相同的形式,以融合的预测作为输入。如图2右所示,分类和bbox回归的关联损失定义如下:0Lcls a(c, y) = Lcls(plcl + prcr, y) (5)0Lbbox a(b, B) = Lbbox(qlbl + qrb, B) (6)0关联损失同时优化路由概率和预测值。特别地,路由概率表示决策选择,仅由关联损失监督,从而在推理中产生适当的路由。整个损失的公式如下:0Lall = λ × Lcls s + Lbbox s + (1 − λ) × Lcls a +Lbbox a0其中λ∈[0,1]是平衡选择性损失和关联损失之间的系数。值得注意的是,计算选择性损失和关联损失的Lcls,Lbbox可以是常用的分类损失函数(例如交叉熵损失,Focal损失[22])和bbox回归损失函数(例如平滑L1损失,IoU损失[34, 42, 45,48])。通过软决策树,我们可以生成具有不同视觉线索的多个决策。此外,分歧学习有助于增强特征表示并抑制过度优化,进一步提升目标检测性能。04. 目标检测的决策头部0我们使用决策树构建目标检测的头部。R-CNN检测器[1, 17,21,33]常用的头部是单预测类型,如图3(a)所示。通常,两个全连接(fc)层依次连接区域池化特征,分别用于分类和bbox回归,另外还有一个额外的fc层。为了获得多个节点的决策值,我们首先生成0使用与公共头相同结构的特征输出预测c l ,c r 和b l ,b r。我们进一步添加另一个窄分支,使用1�2个fc层产生路由概率p l ,p r 和q l ,q r,如图3(b)所示。我们将其记录为基本头部用于随机决策路由,即R(Det)2-B。使用这种基本头部结构,路由选择和预测被解耦。此外,我们在预测之前为特征添加路由掩码,增加来自多个节点的决策差异性。使用路由掩码生成路由值c l ,c r 和b l ,b r。如图3(c)所示,我们对批量区域特征进行平均,得到一个类似上下文的向量。在这个向量上施加一个带有Sigmoid的fc层,产生不同节点的路由掩码。通过在决策之前将路由掩码乘以最后的特征,我们进一步增加了不同决策节点的输入多样性,减少了节点决策的依赖性。我们将其记录为带掩码头部用于随机决策路由,即R(Det)2-M。受到将分类和定位任务解耦的检测方法的启发,我们开发了另一种R(Det)2-T。我们将多任务预测之前的最后特征计算分离,并将任务感知特征学习统一到我们的框架中,如图3(d)所示。由于这不是本文的主要关注点,我们没有涉及更复杂的任务感知头部设计[37,43,46]。然而,值得注意的是,提出的R(Det)2可以轻松地插入这些检测器中以提高性能。05. 实验0数据集。我们在大规模基准MS COCO 2017[23]上评估我们提出的方法。按照常见做法,我们在包含约115k张图像的训练集上训练检测器,并在包含5k张图像的验证集上进行评估。我们还在包含20k张图像的COCOtest-dev上报告结果并与最先进的方法进行比较。LclsLbboxAPAP50 AP75 APSAPM APLCES-L140.461.244.123.843.753.0FocalS-L140.561.244.424.243.652.6CEIoU40.961.244.523.944.253.7FocalIoU41.061.144.524.344.353.748290B M T AP AP 50 AP 75 AP S AP M AP L02fc 37.4 58.1 40.4 21.2 41.0 48.102fc � 38.8 59.8 41.8 22.3 42.3 50.9 � 39.1 60.5 42.3 22.543.1 50.5 � 38.9 60.2 42.1 23.1 42.1 50.204conv � 38.7 59.0 41.9 22.4 42.0 50.4 1fc � 39.2 59.742.4 22.8 42.8 51.5 � 39.5 59.8 42.9 22.7 43.1 51.704conv � 39.3 60.2 42.7 22.5 42.8 51.6(res)� 40.1 60.843.3 23.3 43.5 52.6 1fc � 40.4 61.2 44.1 23.8 43.7 53.00表1.使用R(Det)2进行不同类型的消融研究。基线是使用ResNet-50骨干网络的FasterR-CNN。B,M和T分别表示R(Det)2-B,R(Det)2-M和R(Det)2-T的决策头部。0标准的平均精度(AP)在不同的IoU阈值上被用作评估指标。训练细节。我们实现了提出的R(Det)2。0作为插件头部并将其集成到现有的检测器中。我们的实现基于流行的mmde- tection[4]平台。除非特别说明,R(Det)20用于两阶段检测器中的R-CNN的决策,如Faster R-CNN[33],Cascade R-CNN [1]。我们使用8个Nvidia TitanXGPU训练ResNet-50/ResNet-101[18]骨干网络的模型。学习率设置为0.02,权重衰减为1e-4,动量为0.9。用于消融研究的模型使用标准的1×配置进行训练。除了标准的水平图像翻转之外,我们没有使用任何数据增强。我们只在COCOtest-dev上进行多尺度训练增强,以与最先进的方法进行比较。推理细节。值得注意的是,随机决策路由只在训练阶段执行。在推理中,我们在单个图像尺度上执行,而不需要特别注意。按照标准做法,我们使用测试时间增强(TTA)来评估模型,以与最先进的方法进行比较。05.1. 剔除实验0组件的影响。我们首先进行剔除实验,评估R(Det)2的不同组件的影响(Table.1)。我们将提出的决策头结构集成到R-CNN阶段,并应用随机化决策路由进行训练。我们首先按照常规设置使用2×1024全连接层(称为2fc)生成区域特征,基于这些特征预测多类别分类和bbox回归的决策值。将2fc转换为R(Det)2-B后,检测AP提高到38.8%,改进了1.4%。0基准 37.4 58.1 40.4 21.2 41.0 48.10表2.使用不同的损失函数进行比较。基准模型是使用ResNet-50作为主干的Faster R-CNN。CE表示交叉熵损失。Focal表示原始的focalloss[22]。S-L1表示平滑L1损失。IoU表示通过负对数交并比计算的损失[45]。0添加区域特征的路由掩码后,R(Det)2-M的检测AP达到39.1%,提高了1.7%。这是合理的,因为掩码乘法会促进节点之间的决策差异,从而提高联合决策的性能。我们进一步将2fc替换为4×256卷积层和1个全连接层(称为4conv1fc)。将R(Det)2-B、R(Det)2-M、R(Det)2-T与4conv1fc集成后,实现的AP分别提高到38.7%、39.2%和39.5%。通过在特征增强时在相邻卷积之间添加残差连接,称为4conv(res)1fc。将4conv(res)1fc与R(Det)2-B集成后,实现的AP为39.3%,AP75为42.7%。将R(Det)2-M集成后,实现的AP为40.1%,AP75为43.3%。将任务解耦作为R(Det)2-T,实现的AP、AP50、AP75分别为40.4%、61.2%和44.1%。与基准相比,AP、AP50、AP75分别提高了3.0%、3.1%和3.7%。特别是,R(Det)2显著提高了大物体的检测准确性,APL的提升幅度较大。与基准相比,我们最终实现了APL的提升4.9%。这验证了特征包含了更多可利用的信息,特别是对于具有高分辨率视觉线索的较大物体。我们提出的R(Det)2可以通过多个节点产生决策,可以从不同的方面关注证据,从而显著提高性能。使用不同的损失函数。提出的随机化决策路由可以与任何现有的分类和定位损失相结合。我们进行实验评估了R(Det)2的有效性。0使用不同的损失函数(Table2)。当我们对分类应用Softmax交叉熵损失,对bbox回归应用平滑L1损失时,我们获得40.4%的AP,61.2%的AP50,44.1%的AP75。与使用相同损失的基准FasterR-CNN相比,我们分别提高了3.0%、3.1%、3.7%的AP、AP50、AP75。使用focalloss[22]进行分类时,AP稍微更高。使用IoUloss[45]进行bbox回归时,检测AP进一步提高,达到41.0%。R5037.458.140.421.241.048.1+R(Det)241.061.244.824.644.153.7(+3.6) (+3.1) (+4.4) (+3.4) (+3.1) (+5.6)R50-DCN41.362.445.024.644.954.4+R(Det)244.264.548.326.647.758.6(+2.9) (+2.1) (+3.3) (+2.0) (+2.8) (+4.2)R10139.460.143.122.443.751.1+R(Det)242.562.846.325.146.455.7(+3.1) (+2.7) (+3.2) (+2.7) (+3.7) (+4.8)(+2.3) (+1.7) (+2.4) (+2.3) (+2.1) (+2.8)ResNet-50-DCN (ResNet-50 with deformable convolution)as the backbone, we achieve the detection AP of 44.2%,2.9% improvement. The performance gain of R(Det)2 withResNet-101 is also significant. By equipping with R(Det)2,the detection AP of ResNet-101 reaches 42.5% and AP75reaches 46.3%, 3.1% and 3.2% higher than the baseline.With ResNet-101-DCN as the backbone, the AP reaches45.0% and AP75 is 49.2%. In particular, the detection accu-racy over large objects is improved significantly. The APLover the different backbones is increased by 5.6%, 4.2%,4.8% and 2.8%, respectively. Experiments show that theproposed R(Det)2 is effective among object detectors withvarious backbones.Generalization on different detectors.We plugR(Det)2 into existing detectors to evaluate the general-ization capability (Table 4).Other than Faster R-CNN,we integrate R(Det)2 with libra R-CNN [30], dynamic R-CNN [46], cascade R-CNN [1]. The backbone is ResNet-50. Upon libra R-CNN, R(Det)2 improves the detection APby 3.1% and AP75 by 3.6%, yielding 41.4% AP and 45.5%AP75. On cascade R-CNN, the powerful detector with cas-cade structure, R(Det)2 also shows consistent improvement.00.10.30.70.91373839404142 48300主干 AP AP 50 AP 75 AP S AP M AP L0与基准线相比,AP提高了3.6%,APL提高了5.6%。这表明所提出的R(Det)2在不同的损失函数组合中表现良好,进一步证明了其有效性。在不同主干网络上的有效性。以Faster R-CNN为基准检测器,我们进行了消融实验,评估了R(Det)2的有效性。0表3.不同主干网络的比较。R-50和R-101分别表示ResNet-50和ResNet-101。R(Det)2插入到不同主干网络的FasterR-CNN中,实现了一致的性能提升。0分别提高了3.6%、3.0%和4.1%。以ResNet-50-DCN(带有可变形卷积的ResNet-50)作为主干网络,我们实现了44.2%的检测AP,提高了2.9%。R(Det)2在ResNet-101上的性能提升也很显著。通过装备R(Det)2,ResNet-101的检测AP达到了42.5%,AP75达到了46.3%,分别比基准线高出3.1%和3.2%。以ResNet-101-DCN作为主干网络,AP达到了45.0%,AP75为49.2%。特别是在大物体上,检测精度得到了显著提高。不同主干网络的APL分别增加了5.6%、4.2%、4.8%和2.8%。实验证明,所提出的R(Det)2在具有不同主干网络的目标检测器中是有效的。不同检测器的泛化性。我们将R(Det)2插入到现有的检测器中,以评估其泛化能力(表4)。除了Faster R-CNN之外,我们还将R(Det)2与libra R-CNN [30]、dynamicR-CNN [46]和cascade R-CNN [1]集成。主干网络是ResNet-50。在libraR-CNN上,R(Det)2将检测AP提高了3.1%,AP75提高了3.6%,分别达到了41.4%和45.5%。在cascade R-CNN上,这个具有级联结构的强大检测器,R(Det)2也显示出一致的改进。0在不同的主干网络上(表3)。以ResNet-50作为主干网络,R(Det)2的AP、AP50和AP75分别为0它分别提高了2.2%的检测AP和2.4%的AP50。由于动态R-CNN[46]自适应地改变了bbox回归的Smooth-L1损失的超参数,我们通过基于Smooth-L1损失的随机路由来展示检测准确性,而不是具有更好性能的IoU损失。通过装备R(Det)2,AP和AP75分别增加了2.1%。此外,R(Det)2对于提高大物体的检测性能非常有效。libra R-CNN和cascadeR-CNN的APL分别增加了很大的幅度,分别提高了5.2%和4.1%。对于具有设计头部的DoubleHead R-CNN[43]和单阶段RetinaNet[22],我们固定头部进行任务感知决策。只有基于随机路由的训练才能使DoubleHeadR-CNN的AP提高1.4%,RetinaNet[22]的AP提高1.8%。实验证实了所提出的R(Det)2在现有检测器上的良好性能。0λ0检测AP(%)0CE损失(cls)+平滑L1损失(bbox)CE损失(cls)+IoU损失(bbox)0图4.用于平衡选择性损失和关联损失的超参数λ对决策路由的影响。0超参数λ的影响。我们利用超参数λ来平衡随机决策路由中的选择性损失和关联损失。我们进一步评估了λ对基于ResNet-50的FasterR-CNN的影响。图4中绘制了λ变化时检测AP的曲线。当λ=0.5时,检测准确性最高。这意味着我们将选择性损失和关联损失的权重几乎相等。当λ在0.1到0.9之间时,检测AP保持稳定。如果我们进一步将λ减小到0.001,并减小选择性损失的影响,使用Smooth-L1损失进行bbox回归的检测AP降至38.6%,降低了1.8个百分点。这表明旨在区分节点决策的选择性损失对于性能提升至关重要。由于只有关联损失指导路由概率的优化,将λ增加到接近1会导致不稳定的模型(生成路由概率p l ,p r ,q l ,q r的参数与随机初始化的参数几乎相同),我们限制λ≤0.95。λ=0.95时的检测AP降低了0.3�0.4%。模型复杂度和计算效率。R(Det)2的模型复杂度主要是由于用于路由概率、路由掩码和任务感知特征的额外分支引起的。从表5中可以看出,复杂度主要是由任务感知特征计算引起的。考虑到这一点,我们开发了R(Det)2-Lite,采用窄48310检测器 AP AP50 AP75 APS APM APL0Libra R-CNN [30] 38.3 59.5 41.9 22.1 42.0 48.5 +R(Det)2 41.4(+3.1) 61.4(+1.9) 45.5(+3.6) 24.7(+2.5)45.0(+3.0) 53.7(+5.2)0级联R-CNN[1] 40.3 58.6 44.0 22.5 43.8 52.9 +R(Det)2 42.5(+2.2) 61.0(+2.4) 45.8(+1.8) 24.6(+2.1) 45.5(+1.7)57.0(+4.1)0Dynamic R-CNN [46] 38.9 57.6 42.7 22.1 41.9 51.7 +R(Det)2 41.0(+2.1) 59.7(+2.1) 44.8(+2.1) 23.3(+1.2)44.2(+2.3) 54.8(+3.1)0DoubleHead R-CNN [43] 40.1 59.4 43.5 22.9 43.6 52.9 +R(Det)2 41.5(+1.4) 60.8(+1.4) 44.5(+1.0) 24.2(+1.3)45.0(+1.4) 53.9(+1.0)0RetinaNet [22] 36.5 55.4 39.1 20.4 40.3 48.1 +R(Det)2 38.3(+1.8) 57.4(+2.0) 40.8(+1.7) 22.6(+2.2) 42.0(+1.7)50.5(+2.4)0表4. 不同检测器的泛化性能。R(Det)2在各种检测器上都有AP的提升。0类型 #FLOPs #params AP (%)04conv1fc 129.0G 15.62M 37.60R(Det)2-B 132.6G 19.31M 39.8 R(Det)2-M132.6G 25.88M 40.5 R(Det)2-T 146.3G45.97M 40.9 R(Det)2-Lite 130.2G 18.48M40.20表5. R(Det)2头部的模型复杂度比较。0行计算用于路由概率和掩码,得到40.2%的AP和几乎可以忽略的模型复杂度。可视化。我们在图5中展示了比较的可视化结果。图5(a)显示了基于ResNet-101的FasterR-CNN的检测结果,图5(b)显示了R(Det)2的检测结果。可以看出,提出的R(Det)2对于改善检测和定位性能是有效的。特别是,R(Det)20在减少重复检测和避免过度自信方面非常有效。05.2. 与最先进方法的比较0我们将提出的R(Det)2集成到级联R-CNN中,与最先进的方法在COCO测试集上进行比较。骨干网络采用ResNeXt-101(64×4d)[44],具有可变形卷积和swintransformer[26]。比较研究结果如表6所示。我们首先比较单模型单尺度模型的性能。经过12个训练周期(1×),R(Det)2的AP达到了50.0%,远远超过了FasterR-CNN[33]、LibraR-CNN[30]和级联R-CNN[1]。与具有相同骨干网络的最新的SparseR-CNN[38]相比,我们在1/3的训练迭代次数下提高了1.1%的AP。与具有变形卷积和transformer架构的deformableDETR[51]相比,性能相当且模型复杂度更低。0经过更多训练周期和测试时数据增强(多尺度测试和水平翻转),检测准确率进一步提高。经过24个训练周期和TTA,R(Det)20在AP方面,达到了54.1%的AP和72.4%的AP50。与堆叠自注意力模块的DyHead相比[8],AP50和APL分别提高了0.3%和1.0%。此外,我们将ViT的骨干网络改为swintransformer[26]。经过12个训练周期,单尺度测试的AP达到了55.1%,多尺度测试的AP达到了57.4%。这证明了R(Det)2在不同骨干网络上表现良好,对于高性能目标检测是有效的。06. 结论0决策头对于高性能目标检测非常重要。在本文中,我们提出了一种新颖的方法,即用于目标检测的随机化决策路由。首先,我们将软决策树插入神经网络中。我们进一步提出了随机路由来产生准确而又不同的决策。通过软决策树的随机路由,我们可以获得具有多样化特征探索的多节点决策,用于目标检测。其次,我们开发了一个决策头,用于检测,其中窄分支用于生成路由概率,宽分支用于生成路由掩码。通过减少节点决策的相关性,我们开发了一种新颖的基于树状结构的深度学习目标检测决策头。实验证实了我们提出的R(Det)2的性能。0致谢0本工作得到了第十四个五年计划国家重点研发计划的支持,项目编号为2021QY1702、2021YFF0602103、2021YFF0602102。我们还感谢清华大学郭庆研究基金会的资助,项目编号为2019GQG0001。Retina-Net [22]ResNeXt-10118e40.861.144.124.144.251.2FCOS [40]ResNeXt-10124e43.262.846.626.546.253.3ATSS [47]ResNeXt-101-DCN24e47.766.551.929.750.859.4OTA [14]ResNeXt-101-DCN24e49.267.653.530.052.562.3IQDet [28]ResNeXt-101-DCN24e49.067.553.130.052.362.0Faster R-CNN [33]ResNet-10112e36.754.839.819.240.951.6Libra R-CNN [30]ResNeXt-10112e43.064.047.025.345.654.6Cascade R-CNN [1]ResNet-10118e42.862.146.323.745.555.2TSP-RCNN [39]ResNet-101-DCN96e47.466.751.929.049.759.1Sparse R-CNN [38]ResNeXt-101-DCN36e48.968.353.429.950.962.4Deformable DETR [51]ResNeXt-101-DCN50e50.169.754.630.652.864.7Centernet [11]Hourglass-104100e✓47.064.550.728.949.958.9ATSS [47]ResNeXt-101-DCN24e✓50.768.956.333.252.962.4IQDet [28]ResNeXt-101-DCN24e✓51.668.757.034.553.664.5OTA [14]ResNeXt-101-DCN24e✓51.568.657.134.153.764.1Dynamic R-CNN [46]ResNet-101-DCN36e✓50.168.355.632.853.061.2TSD [37]SENet154-DCN36e✓51.271.956.033.854.864.2Sparse R-CNN [38]ResNeXt-101-DCN36e✓51.571.157.134.253.464.1RepPoints v2 [5]ResNeXt-101-DCN24e✓52.170.157.534.554.663.6Deformable DETR [51]ResNeXt-101-DCN50e✓52.371.958.134.454.465.6RelationNet++ [6]ResNeXt-101-DCN24e✓52.770.458.335.855.364.7DyHead [8]ResNeXt-101-DCN24e✓54.072.159.337.157.266.348320图5. 基线Faster R-CNN和配备R(Det) 2的检测结果对比。模型的主干为ResN
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功