没有合适的资源?快使用搜索试试~ 我知道了~
19387BABCD评分 0.950.70.60.3IOU0.950.40.60.6×}联系我们联系我们一种用于目标检测的双重加权标记分配方案李帅,何晨航,李瑞煌,张磊香港理工大学{csshuaili,csche,csrhli,cslzhang}@ comp.polyu.edu.hk摘要标签分配(LA)是指为每个训练样本分配一个正(pos)和一个负(neg)的损失权重,在目标检测中起着重要的作用。现有的LA方法大多集中在pos权函数的设计上,而neg权则直接由pos权导出。 这种机制限制了学习能力的探测器。在本文中,我们探索了一种新的加权范式,称为双加权(DW),分别指定pos和neg权重。通过分析目标检测中的评价指标,确定了影响正/负权重的关键因素,并在此基础上设计了正/负权重算法。w阳性w阴性w阳性w阴性w阳性w阴性ABCD0.零点零四0.05GFL0.零点零五0.040.9 0.160.360.36VFL0.05 0.24 0.241.00.0.010.550.060.310.030.08DW基于它们的权重函数。具体地说,一个样本的正权重由其分类和定位得分之间的一致性程度决定,而负权重被分解为两项:它是负样本的概率和它以是负样本为条件的重要性。这种加权策略提供了更大的灵活性来区分重要和不太重要的样本,从而产生更有效的对象检测器。配备了所提出的DW方法,单个FCOS-ResNet-50检测器可以在1个时间表下在COCO上达到41.5%mAP 它通过以下方式不断改进COCO的基线:在各种脊骨下的大的边缘没有花里胡哨的。代码可在https://github.com/strongwolf/DW 上 获得。1. 介绍作为一项基本的视觉任务,目标检测几十年来一直受到研究人员的极大关注。社区最近见证了一个快速的演变随着卷积神经网络(CNN)[13当前最新技术水平检测器[1,22,24,29-作为探测员训练的基本单位,需要为探测员分配适当的图1.说明拟议的DW方法和现有标签分配方法,GFL [21]和VFL [43]对于模糊锚点B、C和D,GFL和VFL将分别为B、D和C、D分配几乎相同的正权重和负相比之下,我们的DW为每个锚点分配不同的(正,负)对。分类(CLS)和回归(REG)标签来监督训练过程。这样的标签分配(LA)过程可以被认为是向每个锚分配损失权重的任务。锚的cls损耗(reg损耗可以类似地定义)通常可以表示为:Lcls=−wpos×ln(s)−wneg×ln(1−s),(1)其中w_pos和w_neg分别是正(pos)和负(neg)权重,并且s是预测的分类分数。根据w阳性和w阴性的设计,LA方法大致可分为两类:硬LA和软LA。硬LA假设每个锚要么是pos要么是neg,这意味着wpos,w neg0、1 wneg+wpos=1. 该策略的核心思想是找到一个合适的划分边界,将锚点划分为正集和负集。沿着这条研究线的划分规则可以进一步分为静态和动态的。静态规则[18,24,32,38]采用预定义的度量,例如IoU或从锚中心到地面实况(GT)中心的距离,以匹配对象或背景一DC19388×每个锚。这样的静态分配规则忽略了具有不同大小和形状的对象的分割边界可能变化的事实。最近,已经提出了许多动态分配规则[12,26]。例如,ATSS [44]基于对象的IoU分布拆分对象的训练锚。预测感知分配策略[4,17,19]将预测置信度分数视为估计锚质量的可靠指标静态和动态赋值方法都忽略了样本并不同等重要的事实。对象检测中的评估度量表明,最佳预测不仅应该具有高分类分数,而且应该具有准确的定位,这意味着cls头和reg头之间具有较高一致性的锚在训练期间应该具有更大的重要性。基于上述动机,研究者们选择将软砝码作为锚点.GFL [21]和VFL [43]是两种典型的方法,它们基于IoU定义软标签目标,然后通过乘以调制因子将它们转换为损耗权重。其他一些作品[9,11]通过联合考虑reg得分和cls得分来计算样本权重。现有的方法主要集中在pos权函数的设计上,而neg权则简单地由pos权导出,由于neg权提供的新的监督信息很少,从而限制了检测器的学习能力。我们认为,这种耦合的权重机制不能区分每个训练样本在一个更精细的水平。图1示出了示例。四个锚点具有不同的预测结果。然而,GFL和VFL分别向(B,D)和(C,D)分配几乎相同的(pos,neg)权重对GFL还向锚点A和C分配零正权重和零负权重,因为每个锚点具有相同的cls分数和IoU。由于在现有的软LA方法中,负加权函数与正加权函数高度相关,因此有时可以为具有不同属性的锚分配几乎相同的(正,负)权重,这可能会损害经训练的检测器的有效性。为了给检测器提供更具鉴别力的监督信号,我们提出了一种新的LA方案,称为双加权(DW),从不同的角度指定pos和neg权重,并使它们相互补充。具体地,pos权重由置信度分数(从cls头部获得)和reg分数(从reg头部获得)的组合动态地确定。每个锚点的负权重被分解为两个项:它是负样本的概率和它的重要性以是负样本为条件。pos权值反映cls头和reg头的一致性程度,它会将一致性较高的锚点在锚点列表中向前推,而neg权值反映不一致性程度,它会将不一致的锚点推到列表的后面. 通过这种方式, 在推断时,具有较高CLS分数的边界框和在NMS之后,更精确的位置将有更好的机会存活,并且那些具有不精确位置的边界框将落后并被过滤掉。参照图1,DW通过为四个不同的锚分配不同的(pos,neg)权重对来区分它们,这可以为检测器提供更细粒度的监督训练信号。为了提供我们的加权函数与更准确的注册分数,我们进一步提出了一个框细化操作。具体地说,我们设计了一个学习预测模块,根据粗回归图生成四个边界位置,然后聚合它们的预测结果,得到当前节点的更新边界框。这个轻量级的模块使我们能够提供更准确的注册分数DW只引入适度的计算开销。我们提出的DW方法的优势通过MS COCO [23]上的综合实验证明。特别是,它将具有ResNet- 50 [13]主干的FCOS [38]检测器提升到在常见1训练方案下COCO验证集上的41.5/42.2 AP w/wo box细化,超过了其他LA方法。2. 相关工作硬标签分配。将每个锚标记为阳性或阴性样本是训练检测器的关键程序。经典的基于锚的对象检测器[24,32]通过测量其与GT对象的IoU来设置锚的标签。近年来,无锚探测器由于其简洁的设计和可比的性能而引起了人们的广泛关注。FCOS [38]和Foveabox [18]都通过中心采样策略选择pos样本:靠近GT中心的锚点被采样为阳性,其他锚点在训练过程中为阴性上述LA方法对于具有不同形状和尺寸的GT盒采用固定规则,这是次优的。已经提出了一些先进的LA策略[12,16,17,25,28,44]来为每个GT动态选择posATSS [44]从特征金字塔的每个级别中选择前k个锚点,并采用这些顶部锚点的平均值+标准IoU作为阳性/阴性划分阈值。PAA [17]以概率方式基于cls和reg丢失的联合状态自适应地将锚点分离为pos/neg锚点OTA [12]通过将分配过程制定为最优运输问题,从全局角度处理LA问题。基于变压器的检测器[4,6,27,50]通过为每个GT找到最佳pos样本,采用一对一分配方案硬LA平等地对待所有样本,然而,这与对象检测中的评估度量不太兼容软标签分配。由于预测框在评估中具有不同的质量,因此在训练期间应区别对待样本。许多作品[3,2019389L− × − −×−−训练样本。Focal Loss [22]在交叉熵损失上添加了一个调制因子,以降低损失的权重,使其与分类良好的样本一致,从而推动检测器专注于硬样本。广义焦点损失[21]通过联合考虑cls评分和定位质量为每个锚点分配软权重Varifocus loss [43]利用IoU感知cls标签来训练cls头。上面提到的大多数方法都专注于计算pos权重,并简单地将neg权重定义为1 -wpos的函数。在本文中,我们解耦这个过程,并分别为每个锚的符号pos和neg损失权重。大多数软LA方法为损失分配权重。有一种特殊的情况,即权重被分配给得分,其可以用公式表示为cls=ln(w位置个)ln(1w阴性s)的情况。典型的方法包括FreeAnchor [45]和Autoassign [47]。应该指出的是,我们的方法与他们不同。为了以完全差分的方式匹配锚点,自动分配中的wpos和wneg然而,在我们的方法中,损失权重被精心设计,并完全脱离网络,这是加权损失的常见做法3. 该方法3.1. 动机和框架为了与NMS兼容,良好的密集检测器应该能够预测具有高分类分数和精确位置的一致边界框。然而,如果所有训练样本都被平等对待,则两个头部之间将存在不对准:具有最高类别得分的位置通常不是回归对象边界的最佳位置。这种不对齐会降低检测器的性能,特别是在高IoU度量下。软LA通过加权损失以软方式处理训练样本,是增强cls和reg头部之间的一致性的尝试。对于软LA,锚钉损失可表示为:表1.不同加权函数的比较。方法Wposw阴性不GFL [21]VFL [43]TOOD [9][第11话]我们的(DW)(s − t)2× t t×t(s−t)2×t(s−t)2×tfpos(IoU,s)(s−t)2×(1−t)t×(1−t)(s−t)2×(1−t)s2×(1−t)4P阴性×I阴性IoUIoUf(IoU,s)f(IoU,s)-方法.可以看出,当前的方法通常定义度量t以指示在锚水平处两个头部之间的一致性程度,然后将不一致性度量设计为1t的函数。 一致性和不一致性度量最终通过分别添加缩放因子((s t)2、s2或t)而被集成到pos和neg与上述wpos和wneg高度相关的方法不同,我们提出以预测感知的方式分别设置pos和neg权重。具体地,pos加权函数将预测的cls得分s和预测框与GT对象之间的IoU作为输入,并且通过估计cls和reg头部之间的一致性程度来设置pos负权重函数采用与正权重函数相同的输入,但将负权重公式化为两项的乘积:锚点为负的概率,以及其重要性以其为负为条件。通过这种方式,具有相似pos权重的模糊锚点可以接收具有不同neg权重的更细粒度的监督信号,这在现有方法中是不可用的。我们的DW框架的管道如图2所示。作为一种常见的做法[9,11,12,38],我们首先通过选择GT中心附近的锚点(中心先验)为每个GT对象构建一袋候选阳性。候选袋外的样本被认为是负样本,其将不涉及加权函数的设计过程,因为它们的统计量(例如,IoU、cls评分)在早期训练阶段非常嘈杂。候选袋内的样本将被分配三个重量,包括w阳性、w阴性和wreg,更有效地监督培训过程。Lcls= −wpos ×ln(s) −wneg ×ln(1−s),Lreg=wreg ×nreg(b,b′),(二)3.2. 正加权函数其中,s是预测的cls得分,b和b'分别是预测的边界框和GT对象的位置,并且Ureg是回归损失,例如平滑L1损失[32],IoU损失[41]和GIoU损失[33]。可以通过将较大的wpos和wreg分配给具有更高锚点的锚点来缓解cls和reg头之间的不一致问题。因此,这些训练有素的锚点能够在推理时同时预测高cls分数和精确位置现有的工作通常设置wreg等于wpos,并且主要集中在如何定义一致性并将其集成到损失权重中。表1总结了最近的代表性文献中用于pos锚的wpos和wneg样本的pos权重应反映其在分类和定位中准确检测对象的重要性。通过对目标检测评价指标的分析,找出影响目标检测重要性的因素在COCO上进行测试时,一个类别的所有预测都应该通过一个排名方法进行适当的排名。现有方法通常使用cls得分[32]或cls得分和预测IoU [44]的组合作为排名度量。每个边界框的正确性将从排名列表开始检查。一个预测将被定义为正确的,当且仅当:a. 预测的边界框与其最近的GT对象之间的IoU大于阈值θ;19390H ×× × ××× × ××∝∝骨干FPN检测头cls和IoU的预测图样本加权×4×CLS评分wpos=高×宽× 256高×宽× C宽× 1×4框细化锚袋locWneg =×高×宽× 256高×宽× 4克莱斯岛检测损失w阳性,w阴性高×宽×8P阴性我否定图2. DW的管道。左侧部分示出了由主干、FPN和检测头组成的总体检测模型。来自分类分支(H)的输出WC)和中心分支(HW1)乘以最终的CLS分数。 框细化模块利用四个预测的边界点(H W8)将粗略预测(H W4)调整到更精细的位置。给定一个对象,首先通过选择对象中心附近的锚点来构造候选锚包。然后,将从不同方面为每个锚点分配pos权重和neg权重。b. 没有满足上述条件的盒子排在当前盒子的前面。总之,只有预测列表中第一个IoU大于θ的边界框将被定义为正检测,而所有其他边界框都应被视为同一GT的误报。可以看出,高排名得分和高IoU都是正预测的充分必要这意味着同时满足这两个条件的锚更有可能在测试期间被定义为pos预测,因此它们在训练期间应该具有更高的重要性。从这个角度来看,pos权重wpos应该与IoU和排名得分正相关,即,wpos IoU和wpos s。为了指定pos函数,我们首先定义一个一致性度量,表示为t,以测量两个条件之间的对齐程度:t=s×IoUβ,(3)其中β用于平衡两个条件。鼓励具有更粗糙的位置(比θ小的IoU),但是具有更高的cls分数。它们可能具有相同的一致性程度t,因此将以相同的位置强度推进为了提供更多的判别监督信息的检测器,我们建议通过分配给他们,这是定义为以下两项的乘法更不同的负权重成为阴性样本的概率。根据COCO的评价度量,小于θ的IoU是错误预测的充分条件这意味着不满足IoU度量的预测边界框将被视为阴性检测,即使它具有高cls分数。也就是说,IoU是确定为阴性样本的概率的唯一因素,由P阴性表示。由于COCO采用范围从0.5到0.95的IoU间隔来估计AP,因此边界框的概率Pneg应满足以下规则:如果IoU为0.5,∈不同锚之间的pos权重差异很大,我们添加指数调制因子:P阴性=[0,1],如果IoU [0.5,0.95], 如果IoU>0.95,(五)wpos=eµt×t,(4)其中μ是控制不同位置权重的相对间隙的超参数。最后,每个实例的每个锚点的pos权重通过候选包内的所有pos权重的总和来归一化3.3. 负加权函数虽然pos权重可以强制一致的锚点具有高cls分数和大IoU,但不太一致的锚点的重要性无法通过pos权重来区分。参考图1,锚点D具有更精细的位置(比θ更大的IoU),但是具有更低的cls分数,而锚点B具有更小的位置(比θ更大的任何单调递减函数定义在区间[0.5,0.95]适用于P阴性。为了简单起见,我们将Pneg实例化为以下函数:Pneg= −k×IoUγ1+b,如果IoU∈ [0.5,0.95],(6)它通过点(0.5,1)和(0.95,0). 一旦γ1确定后,用待定系数法求出参数k和b图3绘制了不同γ1值的Pneg与IoU的曲线。重要性以阴性样本为条件在推理时,排序列表中的否定预测不会影响召回率,但会降低精度。为了延迟这个过程,neg边界框应该排在19391--nΣnnnΣ--ΣLL不L不不LL不不RRBBSO(j,i)=Lty时间复杂度为O(Br,2),时间复杂度为O(Br,3)(−k×IoU γ1+b)×s γ2,如果IoU ∈[0.5,0.95],--RRBBP阴性=k×IoU1+b1.00.80.60.40.20.00.5 0.6 0.7 0.8 0.9 1.0IOU图3. [0.5,0.95]中的P阴性曲线与不同γ1的IoU。可能的,即,它们的等级分数应该尽可能小基于这一点,具有较大排名分数的负预测比具有较小排名分数的负预测更重要,因为它们是网络优化的较难示例。因此,表示为负样本图4.框细化操作的插图。首先通过预测四个距离= 1,2,3,4,5,6,7,8,10,11,12,13,14,15,16,17,18,19然后相对于四个侧点(绿点)预测四个边界点最后,通过聚合预测结果来生成更精细的边界框(绿框)。由I neg,应该是排名分数的函数。对于sim-四个边界点。plicity我们把它设为粗糙的边界框。参考图4,四个边界点的坐标被定义为:Ineg=sγ2,(7)B=. j+ y,i − l + x,B =. j−t+y,i+x,B r=(j + y,i + r + x),B b=. j+b+y,i+x,重要的阴性样本。最后,负权重wneg=Pneg×Ineg变为哪里x、的细化模块。细化的偏移映射O′被更新为:γ2w阴性=’。 时间复杂度O(B1,0),时间复杂度O(Bt,1)RbΣ(10)如果IoU>0.95,(八)3.5.损失函数所提出的数据仓库计划可以适用于大多数现有的-与IoU呈负相关,与s呈正相关。可以看出,对于具有相同pos权重的两个锚点,具有较小IoU的锚点将具有较大的neg权重。w-neg的定义与推理过程具有很好的兼容性,并且它可以进一步区分具有几乎相同pos权重的歧义锚。示例请参见图1。3.4. 框细化由于pos和neg加权函数都将IoU作为输入,因此更准确的IoU可以产生更高的质量密集探测器。在这里,我们采用代表性的密集检测器FCOS [38]来实现DW。如图2.整个网络结构包括骨干网、FPN和检测头。按照惯例[11,38,47],我们将中心分支和分类分支的输出相乘作为最终的cls分数。我们网络的最终损失是Ldet=Lcls+βLreg,(11)其中,β是平衡因子,其与等式1中的平衡因子相同。3和样本,有利于学习更强的功能。 我们提出一个框细化操作来细化边界Lcls =Nn=1 −wpos ×ln(s)−wneg×ln(1 −s)基于预测偏移地图的框O∈RH×W×4,+Mm=1 FL(sm,0),(十二)其中O(j,i)=l,t,r,b表示从当前锚点的中心到最左边Lreg =Nn=1n位置×G IoU。b,b′,l、GT对象的最顶部t、最右侧r和最底部b侧,如图4所示。受物体边界附近的点更有可能预测准确位置的事实1= 11= 21= 31= 41= 5(j − t+y,i+x)不不y(j+l,i − l+l)∆tX阿鲁尔(i,j)(j+y,i + r+x)RR∆b(j + b+y,i+x)BbP阴性W(九)其中,γ2是指示应该选择多少偏好的因子,如果IoU为0.5,<19392的启发,我们设计了一个可学习的预测模块,以基于其中,N和M分别是候选包内部和外部的锚点总数,FL是Focal损失[22],GIoU是回归损失[33],s是预测的cls得分,b和b'分别是预测框和GT对象的位置19393×2表2.通过在w位置设置不同的超参数来实现检测性能。β53467µ3456785AP40.8 41.2 41.5 41.5 41.4 41.2 40.8 41.3 41.441AP50 59.1 59.7 59.8 60.1 59.8 59.6 59.9 59.9 59.659AP75 43.9 44.24544.6 45.1 44.5 43.6 44.5 44.9 44.4表3. 设置不同γ1γ2在wneg.γ1γ2APAP50AP751141.59.244.11241.359.744.62241.559.8453241.359.744.44241.259.444.45241.159.544.52341.359.644.54. 实验数据集和评估指标。在大规模检测基准MS-COCO[ 23 ]上进行了广泛的实验,该基准分别包含训练集、验证集和测试开发集的115 K、5 K和20 K图像。我们报告了val集的分析和消融研究,并与测试开发集的其 他 最 新 技 术 进 行 了 比 较 。 通 过 COCO 平 均 精 度(AP)测量精度。实施详情。我们使用ResNet-50在ImageNet [7]上预训练,FPN [32]作为所有实验的骨干,除非另有说明。按照常见的做法,大多数模型都是用12个epoch(在[5]中表示为1)进行初始学习速率为0.01并且在第8和第11个历元之后衰减10倍。对于所有消融,我们使用800像素的图像比例进行训练和测试,除非另有说明。所有实验都是在8个GPU上使用SGDM [2]进行训练的,总批量大小为16(每个GPU 2张图像在推理时,我们以0.05的阈值过滤掉背景盒,并以0.6的阈值通过NMS去除冗余盒,得到最终的预测结果。超参数γ1、γ2、β和μ分别设置为2、2、5和54.1. 消融研究正权重的超参数。pos权重有两个超参数:β和μ。β平衡了一致性度量t中cls得分和IoU之间的贡献。随着β的增大,IoU的贡献度也增大。µ控制pos权重的相对比例。与不太一致的样本相比,更大的μ使最一致的样本具有相对更大的pos权重。我们在表2中通过将β从3变化到7以及将μ从3变化到8来显示DW的性能。可以看出,当β为5且µ表4.比较不同的方法来选择候选袋。中心优先APAP50AP75141.259.744.71.341.359.644.4阈值1.741.459.544.62.041.359.644.42.541.159.144.3941.259.444.3Top-k121541.2 59.441.2 59.6表5. 不同方法配制w阴性的比较。Wposw阴性APAP50AP75P阴性I阴性√√√√√√× ×××√1 −w位置√√39.540.540.040.741.558.658.758.559.559.842.943.942.944.145.0为5. β和µ的其他组合将使AP性能从0.1降低到0.7。因此,我们在所有其余实验中将β和μ负权重的超参数。我们还进行了几个实验来研究DW对超参数γ 1和γ2的鲁棒性,超参数γ1和γ 2用于调节neg权重的相对尺度。如表3所示,使用γ1和γ2的不同组合的AP结果范围为41至41.5。这意味着DW的性能对两个超参数不敏感。我们在所有实验中采用γ1= 2,γ2= 2候选人包的构造 作为物体检测中的常见做法,软LA仅应用于候选袋内的锚点。我们测试了三种候选袋构造方式,它们都基于从锚点到相应GT中心的距离r(由特征步幅归一化)第一种方法是选择距离小于阈值的锚点第二个是从FPN的每个级别中选择前k个最近的锚点。第三种是给每个锚点一个软中心权重e-r,并将其乘以w pos。结果示于表4中。可以看出,AP性能在41.1和41.5之间略有波动,这表明我们的DW对候选袋的分离方法具有鲁棒负权函数的设计。我们investi-门的影响,负权重函数取代它与其他替代品,如表5所示。我们可以看到,仅使用pos权重将性能降低到39.5,这表明对于一些低质量的锚点,仅为它们分配较小的wpos不足以降低它们的排名分数。它们可以被强制排在较大w阴性的后面,导致测试期间较高的AP2软中心优先e−r41.559.845.019394−×表6.不同加权策略的比较。在不使用Ineg或Pneg 的 情 况下,我们分别得到40.5 AP和40.0 AP,这验证了这两个项都是必要的。如在现有方法中所做的那样,我们尝试用1wpos替换wneg,但实现了40.7 AP的性能,比我们的标准DW低0.8分。箱子精炼。在没有框细化的情况下,我们的DW方法达到41.5 AP,据我们所知,这是第一种在COCO上实现超过41 AP的性能而不增加任何参数和FCOS-ResNet-50的训练成本的方法。通过框细化,DW可以达到42.2 AP,如表6所示。表7还表明,框细化可以一致地提高具有不同主干的DW的性能。权衡策略。 为了证明我们的DW策略的有效性,我们将其与使用不同加权策略的其他LA方法进行比较。结果示于表6中。前五行是硬LA方法,而其他是软LA。硬LA的最佳性能通过OTA实现,40.7 AP.由于OTA将LA公式化为最优运输问题,它将增加20%以上的训练时间GFLv2利用一个额外的复杂分支来估计定位质量,并在软LA方法中实现了41.1 AP的第二好性能。与 主 流 方 法 不 同 , 其 中 权 重 被 分 配 给 损 失 ,Autoassign将权重分配给cls得分,并在训练期间通过梯度更新它们我们试图在自动分配中分离权重并将其分配给损失,但仅分别获得39.8和36.6 AP, 0.6和36.6AP。3.8低于原来的表现。这意味着自动分配中的加权方案无法工作图5.cls评分、IoU、阳性和阴性权重的可视化当它适应主流实践的时候。4.2. 与现有技术的我们比较了我们的DW与其他一级检测器,test-dev2017在表7中。根据以前的作品[9],21,43],在训练期间采用多尺度训练策略和2个学习时间表(24个epoch)。我们报告了所有方法的单模型单尺度测试结果。其他设置与[9,21,43]一致除了LA策略之外,一些作品[9,20,43]还利用额外的特征学习模块来提高他们的检测器。为了公平比较,在表7中,我们通过报告不带此辅助模块的性能来与它们可以看出,我们使用ResNet- 101的DW方法达到了46.2 AP,优于所有其他具有相同主干的竞争方法,包括VFL(44.9 AP),GFL(45.0 AP)和OTA(45.3 AP)。当使用更强大的骨干,如ResNet-101-DCN和ResNeXt-101- 64 x4 d时,DW达到49.3和48.2AP,分别超过GFL 2和2.2点。我们还可以看到,框细化的操作一致地改进了具有不同主干的DW。值得一提的是,当我们将FCOS中的检测头替换为TOOD [9]中提出的检测头时,DW达到49.8 AP,比TOOD好1.5分。这证明了我们的DW策略对其他检测头的良好推广4.3. 讨论DW的可视化。为了进一步理解DW与现有方法之间的差异,我们在图5中显示了DW和两种代表性方法GFL [21]和VFL [43]的cls评分、IoU、pos和neg权重的可视化图。可以看出,DW中的pos和neg权重主要集中在GT的中心区域,而CLSIOUw位置(DW)w阴性(DW)w阳性(GFL)w阴性(GFL)w位置(VFL)w阴性(VFL)方法AP AP50 AP75参考[18]第十八话36.455.838.8-FCOS [38]38.657.441.4ICCV19ATSS [44]39.257.442.2CVPR20临时机场管理局[17]40.458.443.9ECCV20旅游[12]40.758.444.3CVPR21自动分配[47]40.459.643.7-自动分配(分离)39.859.642.8-自动分配(重量损失)36.656.239.1-[19]第十九话38.056.940.6CVPR2020《仲裁示范法》[16]39.258.042.3CVPR2020GFL [21]39.958.543.0NeurIPS20VFL [43]40.258.244.0CVPR21FCOS+GFLv2 [20]40.658.243.9CVPR21ATSS+GFLv2 [20]41.158.844.9CVPR21[第11话]40.658.944.3ICCV21TOOD [9]40.358.543.8ICCV21DW41.559.845.0DW+框细化42.260.445.319395表7.与COCO 2017测试开发集上最先进的密集探测器进行性能比较。下面列出的所有模型都采用多尺度训练。 表示辅助学习模块。方法骨干Aux.APAP50AP75APSAPMAPLFCOS [38]ResNet-101×××××××××√×41.560.745.024.444.851.6ATSS [44]ResNet-10143.662.147.426.147.053.6临时机场管理局[17]ResNet-10144.863.348.726.548.856.3GFL [21]ResNet-10145.063.748.927.248.854.5旅游[12]ResNet-10145.363.549.326.948.856.1[26]第二十六话ResNet-10145.163.449.326.748.556.6[第11话]ResNet-10144.863.249.126.247.956.4自动分配[47]ResNet-10144.564.348.425.947.455.0VFL [43]ResNet-10144.964.148.927.148.755.1DW(我们的)ResNet-10146.264.850.027.149.458.5GFLv2 [20]ResNet-101√46.264.350.527.849.957.0DW+框细化(我们的)ResNet-10146.865.150.527.749.959.1ATSS [44]公司简介×××××√×46.364.750.427.749.858.4[第44话]公司简介47.465.751.627.951.360.6GFL [21]公司简介47.366.351.428.051.159.2[第11话]公司简介47.465.051.827.850.560.0VFL [43]公司简介48.567.452.929.152.261.9DW(我们的)公司简介49.367.653.329.252.263.5GFLv2 [20]公司简介√48.366.552.828.851.960.7DW+框细化(我们的)公司简介49.567.753.428.952.263.7ATSS [44]ResNeXt-101-64x4d××××√×45.664.649.728.548.955.6临时机场管理局[17]ResNeXt-101-64x4d46.665.650.828.850.457.9GFL [21]ResNeXt-101-64x4d46.065.150.128.249.656.0旅游[12]ResNeXt-101-64x4d47.065.851.129.250.457.9DW(我们的)ResNeXt-101-64x4d48.267.152.229.651.260.8VFL [43]TOOD [9]DW+box refine(ours)DW+ box refine(ours)ResNeXt-101-64x4dResNeXt-101-64x4dResNeXt-101-64x4dResNeXt-101-64x4d√√√48.548.348.749.867.066.567.167.752.652.452.753.830.130.729.730.451.751.351.652.359.758.661.163.0GFL和VFL在更宽的区域上分配权重这种差异意味着DW可以更多地关注重要样本,并减少容易样本的贡献,例如靠近对象边界的样本这就是为什么DW对候选袋的选择更鲁棒。我们还可以看到,中心区域的锚在DW中具有不同的(pos,neg)权重对。相反,在GFL和VFL中,负权重与正权重高度相关。橙色圆圈突出显示的参数在GFL和VFL中几乎具有相同的pos权重和neg权重,而DW可以通过为它们分配不同的权重来区分它们,从而为网络提供更高的学习能力。DW的局限性。虽然DW可以很好地区分不同锚点对一个对象的重要性,但它会同时减少训练样本的数量,如图5所示。这可能会影响对小物体的训练效果。如表7所示,DW对小对象的改进不如对大对象的改进高。为了缓解这个问题,我们可以基于对象大小动态地设置wpos的不同超参数,以平衡小对象和大对象之间的训练样本。5. 结论我们提出了一种自适应的标签分配方案,命名为双加权(DW),训练准确的密集对象检测器。DW打破了以往稠密检测器中耦合加权的惯例,通过从不同角度估计一致性和不一致性度量,动态地为每个锚点分配单独的正、负权重还开发了一种新的框细化操作,以直接细化回归图上的框。DW是高度兼容的评价指标。在MS COCO基准测试上的实验验证了数据仓库在不同主干下的有效性。采用ResNet-50的DW在有无框细化的情况下分别达到41.5 AP和42.2 AP,记录了新的最新技术水平。作为一种新的标签分配策略,DW还对不同的检测头表现出良好的泛化性能。目标检测的负面社会影响主要来自军事应用的滥用和隐私问题,这在将该技术应用于现实生活之前需要仔细考虑。19396引用[1] Alexey Bochkovskiy,Chien-Yao Wang,and Hong-YuanMark Liao. Yolov4:目标检测的最佳速度和准确性。arXiv预印本arXiv:2004.10934,2020。1[2] 我 在 博 图 。 随 机 梯 度 下 降 的 大 规 模 机 器 学 习 在COMPSTAT’2010的Proceedings施普林格,2010年。6[3] Yuhang Cao,Kai Chen,Chen Change Loy,and DahuaLin.目标检测中的主要样本注意力在IEEE/CVF计算机视觉和模式识别会议论文集,第11583-11591页2[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中 , 第213Springer,2020年。一、二[5] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu , Jiarui Xu , Zheng Zhang , Dazhi Cheng ,Chenchen Zhu , Tian-heng Cheng , Qijie Zhao , BuyuLi,Xin Lu,Rui Zhu,Yue Wu,Jifeng Dai,JingdongWang , Jianping Shi , Wanli Ouyang , Chen ChangeLoy,and Dahua Lin.MMDetection:打开mmlab检测工具箱和基准测试。arXiv预印本arXiv:1906.07155,2019。6[6] Xiyang Dai,Yinpeng Chen,Jianwei Yang,PengchuanZhang,Lu Yuan,and Lei Zhang. Dynamic Detr:端到端的动态注意力对象检测。在IEEE/CVF计算机视觉国际会议论文集,第2988-2997页一、二[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。Ieee,2009年。6[8] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. 2021. 1[9] Chengjian Feng , Yujie Zhong , Yu Gao , Matthew RScott,and Weilin Huang. Tood:任务对齐的一阶段对象检测。在IEEE/CVF计算机视觉国际会议论文集,第3510-3519页二三七八[10] Peng Gao ,Minghang Zheng,Xiaogang Wang,JifengDai,and Hongsheng Li.具有空间调制共同注意的detr算法 的 快 速 收 敛 。 arXi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功