没有合适的资源?快使用搜索试试~ 我知道了~
{ashen,williamj,zhenx,davidli,junghyunk,louli}@nvidia.com11510置信度传播聚类:释放目标检测器的全部潜力0Yichun Shen � Wanli Jiang * Zhen Xu Rundong Li Junghyun Kwon Siyi Li NVIDIA0摘要0长期以来,大多数目标检测方法通过使用非极大值抑制(NMS)及其改进版本如Soft-NMS来获取对象并去除冗余的边界框。我们从三个方面挑战这些基于NMS的方法:1)具有最高置信度值的边界框可能不是与真实边界框具有最大重叠的真正正样本。2)不仅需要对冗余的边界框进行抑制,还需要对这些真正的正样本进行置信度增强。3)按置信度值对候选框进行排序并不是必要的,因此可以实现完全并行化。在本文中,受到置信度传播(BP)的启发,我们提出了置信度传播聚类(CP-Cluster)来替换基于NMS的方法,它既可以完全并行化,又在准确性方面更好。在CP-Cluster中,我们借鉴了BP的消息传递机制,以迭代的方式惩罚冗余的边界框并同时增强真正的正样本,直到收敛。我们通过将其应用于FasterRCNN、SSD、FCOS、YOLOv3、YOLOv5、Centernet等各种主流检测器来验证CP-Cluster的有效性。在MSCOCO上的实验证明,我们的即插即用方法,在不重新训练检测器的情况下,与基于NMS的方法相比,能够稳定提高所有这些最新模型的平均mAP,分别提高了0.3到1.9个百分点。01. 引言0卷积神经网络的出现在各种目标检测任务中带来了革命性的改进[10, 14, 24, 41]。一般来说,两阶段/多阶段检测器[4,9, 15, 31, 51]可以实现更高的准确性,而一阶段检测器[1,16, 23, 26, 30, 37,38]在准确性和性能平衡方面更好。最近,除了取得更好的最新结果和更少的推断成本外,还有一些研究关注于简化0* 平等贡献。0训练和推断流程。[21, 36, 46, 52]去除了预定义的锚点。[5,34, 39, 52,55]设计了特定的一对一标签分配策略,以训练端到端的检测模型,无需后处理方法。[8,52]只使用一个输出特征图。现在一些无需NMS的方法已经获得了合理的准确性,但它们仍然在准确性、性能、训练时间和设计选择的灵活性方面存在或多或少的牺牲。特别是在不需要实时推断时,配备NMS的检测模型集合被用于获得更好的结果[33,54]。此外,在自动驾驶车辆系统中,研究人员通常将NMS应用于多个传感器检测到的对象的组合。因此,大多数主流检测器[23, 31, 36, 37]仍然使用NMS或Soft-NMS[2]在推断阶段去除冗余的边界框。标准NMS贪婪地抑制与具有最高置信度值的框周围的所有相邻边界框。在此基础上,研究人员提出了几种方法来提高标准NMS的准确性[2, 19,25, 50]。其中,Soft-NMS[2]被证明可以为各种检测器实现普遍改进,而其他方法要么设计用于特定的检测器,要么需要使用特定技巧进行重新训练。此外,还提出了一些方法来并行化NMS [3,49],但这些方法仍然依赖于其流程中的置信度排序。在这些基于NMS的方法中,所有候选框首先根据其检测分数进行排序,然后在每个聚类中选择具有最高分数的边界框作为代表。具有稍低分数的其他对象被简单地丢弃或分配较小的置信度,这样就没有充分利用候选框之间的关系。在本文中,我们旨在用更好的聚类框架(CP-Cluster)替换基于NMS的方法,以实现更好的准确性,并同时实现完全可并行化。如图1所示,CP-Cluster首先根据它们的重叠情况从所有候选框构建一个图集,然后在属于框的正负消息之间传播。11520图1.CP-Cluster的整体流程。CP-Cluster将来自目标检测器的所有候选框转换为一组图形。正向消息(蓝色箭头)和负向消息(橙色箭头)在每个图形中迭代传播,同时增强真正的阳性和抑制冗余框。0以同一图形调整每个框的置信度值,直到收敛。具体而言,为了克服基于NMS的方法的不足,CP-Cluster经过精心设计,结合以下策略:01)为了充分利用候选框之间的关系,我们在它们之间传播消息以调整它们的置信度值。具体而言,CP-Cluster生成正向消息以增强真正的阳性框,并生成负向消息以惩罚冗余框。02)为了进一步最大化真正阳性和冗余框之间的置信度差距,我们进行了多次迭代的置信度消息传递。03)为了实现完全并行,消息传播仅限于相邻的候选框之间,以便每个候选框都能独立更新自己。0我们总结如下贡献:01)我们提出了一种新的完全可并行化的聚类框架(CP-Cluster),适用于所有需要后处理的目标检测器,这种新的聚类框架在准确性上优于基于NMS的方法。02)我们将CP-Cluster应用于各种主流检测器,包括FasterRCNN [31],SSD [26],FCOS [36],yolov5[37]等。在MSCOCO上的实验结果表明,只需将CP-Cluster设置为后处理步骤,就可以对所有主流检测器进行整体改进。03)通过将CP-Cluster应用于CenterNet[52],我们展示了一些无NMS检测器也可以通过这个聚类框架得到明显的改进。0据我们所知,在Soft-NMS[2]之后,CP-Cluster是唯一一个能够以即插即用的方式在大多数主流目标检测器上实现整体改进的边界框聚类方法。此外,它0由于其完全并行性,CP-Cluster在实时任务中具有巨大的应用潜力。02. 相关工作0两阶段目标检测。传统的目标检测流程主要采用滑动窗口策略,在所有ROI上运行分类器。早期的基于神经网络的方法也是这样做的,比如两阶段检测器[9, 12, 13, 31,51]:候选ROI在第一阶段生成,然后在第二阶段进一步分类。一些后续的工作通过引入多阶段检测[4,42]来进一步提高准确性,[27]则尝试在候选ROI之间建立关系。一般来说,通过使用分层阶段,这些两阶段方法具有高准确性的优点,但也面临着高推理成本和复杂的训练策略的问题。一阶段目标检测。一阶段检测器[1, 11,016, 23, 26, 28-30, 36,38]被提出,具有更简单的训练流程和更低的推理成本。一些早期的一阶段检测器在准确性上与二阶段检测器不可比较,但后来的研究通过更好的训练样本选择/分配策略[46,53],更强大的神经网络架构[11, 30, 35,40],更复杂的设计损失函数[22, 23, 32,48]以及所有这些技术的组合[1, 36-38,47]极大地提高了模型质量。像YOLO5[37]这样的最新方法既实现了高准确性,又具有非常低的推理成本。一阶段和二阶段的检测器不仅仅是竞争关系,还可以共同作为一个更强大的检测器进行合作。例如,大多数这些一阶段检测器可以集成到像FasterRCNN[31]这样的二阶段检测框架中,作为区域建议网络[51]。简化的检测器。最近,一些研究工作致力于进一步简化一阶段检测器。第一个方向是在训练过程中去除预定义的锚框,简化正负样本分配策略[5, 21, 34, 36,52]。其次,一些方法如CenterNet [52]和Yolof[8]只使用一个输出特征图,但仍然实现了合理的准确性。这种简化可能有助于多任务训练。ˆP(bi) = ˆP(bi|Nbi, bi) =� 1.0bi ∈ Bp0.0bi ∈ Bn(1)11530首先,多任务学习允许多个任务共享相同的主干网络,这对于模型训练是有益的。其次,从基于关键点的检测器[20,21, 52]和基于Transformer的检测器[5,55]开始,研究人员开始探索无需后处理的端到端目标检测的可能性。具体来说,这些方法依赖于一些精心设计的一对一分配策略,例如匈牙利匹配[5]和最小成本分配[34]。非最大抑制。通常,端到端检测器需要一种一对一分配策略。然而,另一方面,这种策略限制了检测器进一步提高准确性和降低推理时间成本的能力。因此,NMS仍然是大多数流行目标检测器中最有效的后处理步骤。除了标准的NMS,Soft-NMS[2]对边界框分配较低的置信度值,而不是直接删除它们,这对于遮挡情况更友好。[25]利用密度来提高特定于行人检测任务的聚类质量。[17,19]将特定技巧整合到训练过程中,与NMS共同工作。[18]将NMS转化为可学习的神经网络。[48]通过提出更好的重叠计算策略改进了NMS。此外,还有一些注意力集中在并行化NMS[3,49]上,但它们仍然依赖于置信度排序,因此不能完全并行化。计算机视觉中的置信传播。基于图模型的方法在计算机视觉任务中有着悠久的应用历史。一些立体匹配任务[43,45]利用BP来平滑视差图。对于场景分割任务,DeepLab的早期版本[7]也将BP作为后处理步骤来生成细粒度的分割结果。最近,一些人脸聚类方法完全建立在图论上,以确定人脸聚类。与以前的基于NMS的方法的关系。CP-Cluster在以下方面与以前的基于NMS的方法不同:01.CP-Cluster完全建立在图模型和置信度消息传播上,不再遵循NMS的框架。02.CP-Cluster是第一个尝试同时增强真正阳性和惩罚冗余框的边界框聚类流程。03.CP-Cluster不依赖于根据置信度值对边界框进行排序,因此可以实现完全并行化。0尽管在不同的框架中实现,但CP-Cluster也与以前的基于NMS的方法兼容,包括:1)盒子坐标加权,如[33,50]。2)不同的重叠计算策略,如CIOU[48]。03. 置信度传播聚类0在本节中,我们逐步讨论CP-Cluster如何融合候选框。首先,我们描述如何将框聚类任务转化为图模型问题,以最大化真正阳性和冗余框之间的置信度差距。然后,我们讨论如何使用来自框分布的启发式方法来组合正向消息和负向消息,以更新每个候选框。03.1. 通用聚类流程0构建边界框的MRF。为了描述预测边界框之间的邻居关系,我们根据它们的IOU创建边界框之间的连接,然后将它们推广为马尔可夫随机场(MRF)图。对于一个目标检测模型,B ={b1,b2,b3,...}是模型输出后的原始边界框集合,在后处理之前。对于每对框(bi,bj∈B),如果它们的IOU大于θ,则在它们之间绘制一个无向边,生成一组MRFs G ={g1,g2,...}。对于每个图gi∈G,我们将Egi定义为其边集,将Vgi定义为其节点集。对于一个框bi∈Vgn,其相邻节点集Nbi包含与bi在gn中连接的所有节点。图2是一个示例,说明了如何使用θ = 0.6从B生成G,其中B ={A,B,C,D,E,F},G = {g1,g2}。详细来说,Vg1 ={A,B,C,D},Eg1 ={(A,B),(B,C),(A,C),(C,D)},Vg2 = {E,F},Eg2={(E,F)}。以框A∈B为例,它的邻居节点NA是{B,C}。从图2可以看出,G的数量与目标框的数量相同,但是当两个严重遮挡的真实框的重叠大于θ时,这种等价性不成立。概率目标。给定一个边界框bi∈B,我们定义ˆP(bi) = ˆP(bi | Nbi,bi)为模型输出给定其邻近框和自身的边界框bi的置信度值,因此聚类过程的目标可以定义为:0其中B p是持有与真实边界框具有最大重叠的真正正例候选框的集合,B n 是冗余边界框的集合。b i是从目标检测器中观察到的b i的置信度。方程(1)的目标是最大化真正正例的置信度值,同时最小化冗余边界框的置信度值。与传统NMS的目标相比,CP-Cluster的目标在三个方面不同:01.基于NMS的聚类方法假设具有最大置信度值的框始终是最佳选择iipn8:θθ + λ11540(a) 在聚类之前的原始检测结果示例。0B0A0C0F E0D0(b) 由边界框重叠生成的图集。0图2. 根据它们的IOU从边界框构建MRF的示例(θ = 0.6)0但在方程(1)中,这个假设并不总是成立。02.我们不仅应该抑制那些多余的边界框,还需要增强那些真正正例的置信度值。03. 每个候选框只受其相邻边界框的影响。0聚类流程。在我们的任务中,与传统的置信度传播不同,相邻的边界框不仅相互平滑,而且还相互竞争。因此,我们借鉴了置信度传播的迭代消息传递思想,但是我们通过边界框分布的启发式方法生成消息,而不是传统的BP中的求和乘积或最大乘积等方式。具体来说,我们设计了正消息M p来奖励那些真正的正例,负消息M n来惩罚那些多余的边界框。M p 和M n只更新边界框的置信度值。在算法1中,图模型构建步骤(第2行)类似于传统NMS中的重叠矩阵计算步骤。F gp是通过G(第3.2节)生成正消息的函数,F gn生成负消息(第3.3节)。第8行表示θ在每次迭代中都会增加λ,其中λ始终为正值,从而在迭代消息传递过程中逐渐增加IOU阈值。增量重叠阈值的动机是:两个边界框的重叠越高,应该抑制它们的次数越多。0算法1 置信度传播聚类0要求: B, θ, F gp, F gn01: 对于每次迭代 = 1, 2, ..., N 2:使用θ计算G03: 对于B中的每个b i04: M p ( i ) ← F gp ( G ) � 在第3.2节中生成正消息05: M n ( i ) ← F gn ( G ) � 在第3.3节中生成负消息07: 结束循环09: 结束循环0其中一个更合理的应该被抑制多次。此外,算法1是完全可并行化的,因为每个框的置信度值更新步骤完全独立。图3是标准NMS和CP-Cluster之间的比较示例。第一行和第二行的图像由相同的Yolov5模型生成,但分别由标准NMS和CP-Cluster进行聚类,并使用恒定的置信度阈值(conf >0.4)进行可视化。与NMS的输出框相比,CP-Cluster不仅获得了更多的对象,还为那些真正的正例框生成了更高的置信度值。0NMS0CP-0聚类0图3. CP-Cluster如何同时增强真正正例和去除冗余框的示例。03.2. 生成正消息0公式(1)的一个关键目标是提高真正正例候选框的排名。对于特定的框bi,正消息是从其邻居节点Nbi生成的,以增加ˆP(bi)。较弱朋友聚合(WFA)。与高置信度的候选框相比,低置信度的候选框在传统的后处理流程中往往参与较少。正如更多的柴火会产生更强的火焰一样,我们认为这些低置信度的框有时是证明它们更强的邻居为真正正例的证据。通过Mp(i) ←0.850.870.920.87T(bj,bi) ← α ∗ ˆP(bj)/ˆP(bi) + (1 − α) ∗ IOU(bj, bi)/θ(3)4)11550对于一个边界框bi∈Vgn,其较弱朋友集合Wbi是其邻居集合Nbi的子集,其中对于每个bj∈Wbi,IOU(bj, bi) >θn且ˆP(bj) <ˆP(bi)。通常,θn大于算法1中的重叠阈值θ,即只有足够接近的邻居才能被视为bi的朋友。具体而言,我们发现边界框的增强主要受到以下两个因素的影响:01. 其较弱朋友的数量,这些朋友表示更强的增强动机。02.其较弱朋友的置信度值。较多具有较高置信度值的朋友是证明该框本身为真正正例的证据。经过多次尝试,发现其较弱朋友的最大置信度值在公式(2)中效果最好。0因此,我们给出了框bi的正消息生成定义(算法1的第4行)如下:0Q + 1 * (1 - ˆP(bi)) * max ˆb∈WbiˆP(ˆb) (2)0其中,Q是bi的较弱朋友的数量,(1 -ˆP(bi))是归一化项,确保应用正消息后ˆP(bi)的最大值不会大于1.0。0(a) WFA之前。0(b) WFA之后。0图4显示,在WFA之后,具有更多较弱朋友的边界框(红色实线框)的置信度值得到了增强。0图4是一个示例,展示了WFA如何调整边界框的置信度值。红色实线框在WFA的过程中得到了增强,因为它周围有许多较弱的朋友(红色虚线框),而绿色实线框由于缺乏较弱的朋友而不受正消息更新的影响。0SNMS-WFA。为了验证我们的正消息生成步骤的有效性,我们将较弱朋友聚合步骤集成到标准的Soft-NMS中,得到SNMS-WFA。具体而言,我们在抑制其较弱朋友之前,使用公式(2)放大那些重要的框。在第4节中,我们还将讨论SNMS-WFA的实验结果,并与CP-Cluster进行比较。03.3. 生成负消息0除了增强真正正例框,抑制冗余框也是另一个目标,如公式(1)所示。给定一个边界框bi∈Vgn,其较强邻居Sbi是Nbi的子集,其中对于每个bj∈Sbi,IOU(bj, bi) > θ且ˆP(bj) >ˆP(bi)。在算法1的每次迭代中,如果一个边界框的较强邻居集合不为空,则它将被其较强邻居bj∈Sbi之一抑制。至于选择哪个边界框来抑制bi,我们设计了从bj∈Sbi到bi的负影响因子T(bj, bi)如下:0在公式(3)中,当α =1.0时,选择Sbi中具有最大置信度值的框。相反,如果α =0.0,则选择与bi具有最大IOU(bi,bj)的最近较强邻居。bi和Sbi之间的另一个问题值得讨论:某个特定的框bj∈Nbi被允许抑制bi的次数是多少?为了灵活性,我们定义了抑制计数矩阵SUPj,i来计算bj抑制bi的次数,ζ是最大抑制次数。我们将在第4.1节中讨论如何配置ζ。基于上述讨论,对于框bi的负消息(算法1的第5行)由以下方程生成:0Mn(i) ← ˆP(bi) * IOU(bi, arg max bj∈Nbi, SUPj,i <=ζT(bj,bi))0其中SUPj,i用于限制bi被bj抑制的次数,并选择具有最大负面影响因子的框来惩罚bi。03.4. 信心传播的更多细节0消息流方向。如第3.2节所示,正面消息从较弱的框传递到较强的框。相反,负面消息从较强的框传递到较弱的框,如第3.3节所讨论的。并行性我们已经在第3.1节中简要讨论了算法1的并行性。具体而言,由于每个候选框只受其邻居在一个迭代中的影响,因此可以创建K个线程来处理每个框。11560迭代,可以创建K个线程来并行处理每个框,其中K是候选框的数量。实际上,我们可以通过将图生成步骤和消息传播结合起来进一步提高并行性,可以创建K *K个线程来处理两个框之间的消息传递。04. 实验0数据集。我们在COCO2017数据集[24]上进行实验。评估结果报告在COCOval和test-dev数据集上。实验。我们没有训练新模型,而是直接从模型动物园下载模型用于那些主流检测器。然后我们用CP-Cluster替换基于NMS的后处理步骤,并在COCOval和test-dev数据集上进行评估。基线。我们将标准NMS和Soft-NMS作为基线与我们的CP-Cluster进行比较。我们还对其他插拔式NMS版本(如加权NMS[50]和聚类NMS[49])进行了详尽的实验,但通常它们无法与Soft-NMS竞争,甚至对一些检测器产生负面影响。对于其他基于NMS的方法,如[17,18,25],它们要么需要使用额外的架构修改重新训练模型,要么针对特殊任务。为了节省空间,我们只报告标准NMS和Soft-NMS的基线指标。此外,我们还单独报告了关于WFA-SNMS的实验结果,以证明我们的正面消息生成策略的有效性。04.1. 消融研究0本节中的所有实验都是使用从Yolov5模型动物园下载的Yolov5s模型进行的。图5显示了不同超参数对mAP、AP50和AP75的影响。迭代次数。CP-Cluster提供了一种迭代的方式来增强真正的正样本框,同时抑制冗余的框。如图5a中的红色柱所示,通常2次迭代已经足够将聚类过程运行到收敛状态。负面影响因子。在负面消息生成步骤中,负面影响因子被设计为在必要时惩罚框bi时选择最合适的强邻居。强邻居的选择标准由参数α控制。经过尝试不同的选项,我们发现通常在每次迭代中应用不同的α可以获得最佳结果。具体而言,在第一次迭代中,我们选择具有最大置信度值(α=1.0)的框,而在第二次迭代中,我们选择与bi有最大重叠的框(α=0.0)。增量IOU阈值。从算法1中,参数λ用于在每次迭代中增加重叠阈值。0迭代。直观上,λ越高,第二次迭代中被惩罚的框越少。从图5的绿色柱中可以看出,较小的λ导致更好的AP50但更差的AP75。在下面的实验中,我们将λ设置为0.2,以在所有桶上实现最平衡的改进。选择较弱的邻居的阈值。在正面消息生成步骤中,参数θn决定了将多少个框纳入bi的较弱邻居集合中。具体而言,较大的θn意味着bi的朋友较少。如图5的蓝色柱所示,通常在θn约为0.8时可以实现最佳准确性。最大抑制次数。在公式(4)中,ζ用于决定框bi可以被bj抑制的最大次数。从图5的黄色柱中可以看出,当ζ=2时对AP50有益,而当ζ=1时可以获得稍微更好的AP75。由于我们发现ζ=2在大多数情况下可以获得更稳定的改进,因此我们在后续实验中采用了这个设置。04.2. MMDetection实验。0MMDetection[6]是一个包含多种流行目标检测器实现的工具箱。我们在mmcv中实现了我们的CP-Cluster,mmcv是MMDetection使用的工具库。由于CP-Cluster不需要重新训练模型,我们从MMDetection模型动物园中下载了这些流行模型,并与CP-Cluster一起进行评估。实验结果报告了COCO验证集和测试集上的结果,如表1所示。从表1可以看出,使用CP-Cluster,所有这些流行模型的平均mAP相比标准NMS提高了0.3-0.7。与Soft-NMS相比,CP-Cluster在平均mAP上仍然实现了0.2-0.6的改进。04.3. Yolov5实验。0最近,Yolov5[37]因其在准确性和时间成本方面的极端平衡而变得流行。在我们的实验中,我们下载了预训练的检查点(2022年1月10日的v6版本)并将它们与我们的CP-Cluster配对。对于默认的NMS,我们使用建议的IOU阈值θ=0.65在COCO测试集上重新生成了评估结果。而对于CP-Cluster,我们使用稍小的θ=0.6。实验结果报告了COCO测试集上的结果,如表2所示,表明与标准NMS相比,CP-Cluster在平均mAP上实现了0.3-0.4的改进。为了节省表格大小,我们没有报告Soft-NMS和SNMS-WFA的评估结果。实际上,Soft-NMS未能对大多数Yolov5模型产生明显的积极影响,而SNMS-WFA可以实现与CP-Cluster类似的改进。NMSS-NMS #iter=1#iter=2#iter=3 = 0= 0.1= 0.2= 0.3 n = 0.6n = 0.7n = 0.8n = 0.9 = 1= 237.037.237.437.637.8baseline#iternNMSS-NMS = 0= 0.1= 0.2= 0.3 n = 0.6n = 0.7n = 0.8n = 0.9 = 1= 255.856.056.256.456.6baselinenNMSS-NMS = 0= 0.1= 0.2= 0.3 n = 0.6n = 0.7n = 0.8n = 0.9 = 1= 240.040.240.440.640.841.041.241.4baselinen11570(a) mAP。0(b) AP50。0(c) AP75。0图5. Yolov5s在不同超参数下的准确性。0MAP(验证/测试集)nms soft-nms snms-wfa cp-cluster0ssd512 29.5/29.6 29.8/29.9 30.0/30.0 30.1/30.1 frcnn-r50fpn38.4/38.7 39.0/39.2 39.1/39.3 39.2/39.4 fcos-x101 42.7/42.842.7/42.8 42.8/42.9 43.0/43.2 retina-r50fpn 37.4/37.7 37.5/37.937.7/38.2 38.1/38.4 yolov3 33.5/33.5 33.8/33.8 33.6/33.7 34.1/34.1yolof 37.5/37.8 37.6/37.8 38.0/38.4 38.1/38.4 autoassign-fpn5040.4/40.6 40.5/40.7 40.6/40.8 41.0/41.20表1. MMDetection中使用不同流行模型的CP-Cluster在COCO验证/测试集上的结果。04.4. 基于关键点的检测器实验。0基于关键点的目标检测器[20, 21,52]是最早尝试去除NMS后处理步骤的方法之一。具体而言,它们用简单的maxpooling操作替换了NMS,以选择预测热图中的峰值点。正如[52]中讨论的那样,NMS方法对某些Centernet模型有积极影响,但对其他模型产生负面结果。0在我们的实验中,我们直接从官方Centernet仓库[52]下载了预训练模型。对于那些非maxpooling的实验,maxpooling步骤分别被Soft-NMS和CP-Cluster替换,IOU阈值θ=0.5。实验结果报告了COCO测试集上的结果,其中“dla34flipscale”表示“dla34”架构的模型,通过重新缩放和翻转进行增强。0与默认的maxpooling后处理步骤相比,所有的Centernet模型在与CP-Cluster配对时都有较大的提升,平均mAP的提升范围为0.6-1.9,包括那些具有多尺度和翻转增强的模型。此外,当Soft-NMS方法在单模型的实验中替代maxpooling时,也可以提高Centernet的准确性,但在多尺度融合实验中会产生负面影响。CP-Cluster在多尺度测试中提供的稳定改进显示出其作为处理来自多个模型的边界框的更好聚类的潜力。04.5. 实例分割实验。0实例分割方法通常建立在目标检测器的基础上,以获得检测到的对象的准确实例区域。在MMDetection中,我们将CP-Cluster应用于模型动物园中的各种MaskRCNN模型,并在COCO测试集上进行实验结果如表4所示。与标准NMS相比,CP-Cluster在BOX-AP和MASK-AP上都显示出相当大的改进。尽管Soft-NMS和CP-Cluster在X101模型上的准确性相似,但CP-Cluster在其他更轻量级的MaskRCNN模型上表现优于Soft-NMS。04.6. 运行时间测量0我们测量了CP-Cluster的CPU和GPU版本以及Yolov5框架的运行时间成本。将CP-Cluster与mmcv中的CPUSoft-NMS和torchvision中的GPUNMS进行比较。请注意,CP-Cluster不依赖于按置信度值对边界框进行排序。然而,为了使API与torchvision保持一致,在我们的CP-Cluster的末尾添加了一个额外的边界框排序步骤,以确保以置信度值降序返回真正的正面框。在测量CP-Cluster在GPU上的运行时间时,我们排除了边界框排序步骤。测量是在一台配有第九代Core-i7 CPU和Titan-VGPU的工作站上进行的。如表5所示,我们的CP-Cluster(Iter=2)在GPU上的实现与torchvision中的NMS实现相当。实际上,我们仍在进一步优化GPU实现,因为它将从更复杂设计的CUDA技巧中受益。s 640nms37.155.740.220.141.545.255.1cp-cluster37.456.040.820.341.945.557.2m 640nms45.564.049.726.650.056.662.2cp-cluster45.864.250.326.950.356.964.3l 640nms49.067.353.429.953.461.364.6cp-cluster49.367.453.930.153.761.567.1x 640nms50.768.855.131.954.963.466.6cp-cluster51.168.955.732.355.263.568.7s6 1280nms44.362.748.827.048.353.662.3cp-cluster44.662.749.427.348.554.164.4m6 1280nms51.269.256.233.555.162.168.1cp-cluster51.569.256.733.755.462.570.2l6 1280nms53.871.658.936.357.864.970.3cp-cluster54.171.659.436.658.165.372.4x6 1280nms55.172.860.437.858.966.571.5cp-cluster55.572.860.938.159.366.873.4dla34maxpool37.355.140.718.641.149.255.8soft-nms38.157.041.118.740.850.756.8cp-cluster39.257.943.020.442.451.358.0maxpool41.760.645.121.744.056.060.4soft-nms40.658.743.821.243.154.857.4cp-cluster43.361.847.624.345.956.462.7hg104maxpool40.259.143.822.543.450.856.0soft-nms40.658.744.523.143.951.057.4cp-cluster41.159.945.024.444.651.058.4maxpool45.264.149.326.747.257.963.2soft-nms44.362.848.326.246.557.060.8cp-cluster46.665.051.528.949.058.365.1NMSSoft-NMSCP-ClusterBox APMask APBox APMask APBox APMask APMaskRCNN R50 3X41.537.742.037.842.238.1MaskRCNN R101 3X43.138.843.639.043.739.2MaskRCNN X101 3X44.640.045.240.245.240.211580模型 方法 AP AP50 AP75 APS APM APL AR1000表2. CP-Cluster在COCO测试集上使用8个yolov5模型。0模型 方法 AP AP50 AP75 APS APM APL AR1000dla34翻转 缩放0hg104翻转 缩放0表3. CP-Cluster用于COCO测试集的Centernet。0表4. CP-Cluster用于COCO测试集的MaskRCNN。0运行时间(毫秒) NMS Soft-NMS CP(Iter=1,2,3)0CPU(mmcv) N/A 11.1 32 52 63 GPU 1.4 N/A 1.01.3 1.50表5. CP-Cluster的运行时间比较。05. 结论0在这项工作中,我们提出了一种基于图模型的边界框聚类框架(CP-Cluster),它是完全可并行化的。该框架可以作为所有目标检测器的通用后处理步骤,取代传统的基于NMS的方法。与NMS和Soft-NMS相比,当应用于相同模型时,CP-Cluster能够在MS COCO数据集上实现更好的准确性。11590参考文献0[1] Alexey Bochkovskiy, Chien-Yao Wang, and Hong- YuanMark Liao. Yolov4: 目标检测的最佳速度和准确性.arXiv预印本arXiv:2004.10934, 2020. 1 , 20[2] Navaneeth Bodla,Bharat Singh,Rama Chellappa和LarrySDavis。Soft-nms-用一行代码改进目标检测。在IEEE国际计算机视觉会议论文集中,页码为5561-5569,2017年。1, 2, 30[3] Daniel Bolya,Chong Zhou,Fanyi Xiao和Yong JaeLee。Yolact:实时实例分割。在IEEE /CVF国际计算机视觉会议论文集中,页码为9157-9166,2019年。1, 30[4] Zhaowei Cai和NunoVasconcelos。级联r-cnn:深入高质量目标检测。在IEEE计算机视觉和模式识别会议论文集中,页码为6154-6162,2018年。1,20[5] Nicolas Carion,Francisco Massa,GabrielSynnaeve,Nicolas Usunier,Alexander Kirillov和SergeyZagoruyko。使用变压器进行端到端的目标检测。在欧洲计算机视觉会议上,页码为213-229。Springer,2020年。1, 2, 30[6] Kai Chen,Jiaqi Wang,Jiangmiao Pang,YuhangCao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,WansenFeng,Ziwei Liu,JiaruiXu等。Mmdetection:开放的mmlab检测工具箱和基准。arXiv预印本arXiv:1906.07155,2019年。60[7] Liang-Chieh Chen,George Papandreou,IasonasKokkinos,Kevin Murphy和Alan LYuille。使用深度卷积网络和完全连接的CRF进行语义图像分割。arXiv预印本arXiv:1412.7062,2014年。30[8] Qiang Chen,Yingming Wang,Tong Yang,XiangyuZhang,Jian Cheng和JianSun。你只看一个级别的特征。在IEEE /CVF计算机视觉和模式识别会议论文集中,页码为13039-13048,2021年。1, 20[9] Jifeng Dai,Yi Li,Kaiming He和JianSun。R-fcn:通过基于区域的全卷积网络进行目标检测。在神经信息处理系统的进展中,页码为379-387,2016年。1, 20[10] Mark Everingham,SM Ali Eslami,Luc VanGool,Christopher KI Williams,John Winn和AndrewZisserman。Pascal视觉对象类别挑战:回顾。计算机视觉国际期刊,111(1):98-136,2015年。10[11] Cheng-Yang Fu,Wei Liu,Ananth Ranga,Ambrish Tyagi和Alexander CBerg。Dssd:反卷积单次检测器。arXiv预印本arXiv:1701.06659,2017年。20[12] RossGirshick。快速r-cnn。在IEEE国际计算机视觉会议论文集中,页码为1440-1448,2015年。20[13] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。用于准确的目标检测和语义分割的丰富特征层次结构。在IEEE计算机视觉和模式识别会议论文集中,页码为580-587,2014年。20[14] Agrim Gupta,Piotr Dollar和RossGirshick。Lvis:用于大词汇实例分割的数据集。在IEEE /CVF计算机视觉和模式识别会议论文集中,页码为5356-5364,2019年。10[15] Kaiming He,Georgia Gkioxari,Piotr Doll´ar和Ross Girshick。Maskr-cnn。在IEEE国际计算机视觉会议论文集中,页码为2961-2969,2017年。10[16] Kaiming He,Xiangyu Zhang,Shaoqing Ren和JianSun。深度卷积网络中的空间金字塔池化用于视觉识别。IEEE模式分析与机器智能交易,37(9):1904-1916,2015年。1, 20[17] Yihui He,Chenchen Zhu,Jianren
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功