没有合适的资源?快使用搜索试试~ 我知道了~
文件: 目标检测和实例分割中的秩排序损失方法
3009不不LVD=Σ ΣλL,(1)不用于目标检测和实例分割的秩排序损失Kemal Oksuz,Baris Can Cam,Emre Akbas*,Sinan Kalkan*部土耳其安卡拉中东技术大学计算机工程系{kemal.oksuz,can.cam,eakbas,skalkan}@ metu.edu.tr摘要我们提出了秩&排序(RS)损失,这是一种基于排名的损失函数,用于训练深度对象检测和实例分割方法(即视觉检测器)。RS Loss监督分类器,这些方法的子网络,以将每个阳性排在所有阴性之上,以及相对于(wrt.)它们的定位质量(例如,相交于并合-IoU)。为了解决排名和排序的不可微性质,我们将错误驱动的更新与反向传播的结合重新模拟为身份更新,这使得我们能够在阳性之间对我们的新的排序错误进行建模。利用RS Loss,我们显著简化了训练:(i)由于我们的分类目标,阳性被分类器优先化,而没有额外的辅助头部(例如,对于中心性,IoU,掩码IoU),(ii)由于其基于排名的性质,RS损失对类别不平衡是鲁棒的,并且因此,不需要采样试探法,以及(iii)我们使用无调谐任务平衡系数来解决视觉检测器的多任务性质。使用RS Loss,我们仅通过调整学习率来训练七种不同的视觉检测器,并表明它始终优于基线:例如,我们的RS损耗得到改善(i) 通过COCO数据集上的<3框AP和<2框AP的aLRP损失(基于排名的基线)更快的R-CNN,(ii)通过3的重复因子采样(RFS)掩蔽R-CNN。LVIS数据集上的5个掩码AP(罕见类别为7个AP);并且性能也优于所有对应物。 代码可从以下网址获得:https://github.com/kemaloksuz/RankSortLoss网站。1. 介绍由于其多任务性(例如分类、盒回归、掩模预测)性质,对象检测和实例分割方法依赖于以下形式的损失函数:K Kt tk∈Kt ∈T它结合了Lk,阶段上任务t的损失函数k(例如|K|对于具有RPN和R-的Fa ster R-CNN [32]= 2*同等贡献的资深作者。(a)阳性(+)高于阴性(-)锚钉ID()分类逻辑二进制标签(+)目标排名( )0、4、1、6(任意顺序)2、3、5、7(任意顺序)(-)(b)排序损失:排序(+)高于(-)排序(+)与其IoU标签锚钉ID()分类逻辑连续标签(IoU)(+)RS损失目标排序()04162、3、5、7(任意顺序)(-)图1.基于排名的分类损失与RS损失。(a)强制将阳性排序在阴性之上为训练提供了有用的目标,然而,它忽略了阳性之间的排序(b)我们的RS损失,除了在消极因素之上搜索积极因素之外,还旨在对积极因素进行排序。它们的连续IoU(阳性:基于其标签的绿色色调,阴性:橙色)。我们提出了身份更新(第3节),一个错误驱动的更新与反向传播,以解决这些排名和排序操作,这是难以优化,由于其不可微的性质。CNN),由超参数λk加权。在这样的公式中,超参数的数量可以容易地超过10 [27],其中额外的超参数由任务特定的不平衡问题产生[28],例如:分类任务中的正负不平衡,并且如果使用级联架构(例如,HTC[7]采用具有不同λ k的3个R-CNN。因此,尽管这样的损失函数已经导致了前所未有的成功,但是它们需要调谐,这是耗时的,导致次优的解决方案,并且使得方法的公平比较具有挑战性。最近提出的基于排名的损失函数,即交叉熵损失和焦点损失[22]):(1)它们直接优化性能测量(例如,AP),从而提供训练和评估对象之间的一致性。这也减少了作为性能度量的超参数的数量(例如,AP)通常不具有任何超参数。(2)它们对类是健壮的012345673.02.01.00.0-1.0 -2.0 -3.0 -4.011001010012345673.02.01.00.0-1.0 -2.0 -3.0 -4.00.90.40.00.00.80.00.10.03010不不L不L由于其基于排名的错误定义而导致的不平衡。尽管这些损失已经产生了最先进的(SOTA)性能,但它们需要更长的训练和更多的增强。一般来说,基于排名的损失(AP损失和aLRP损失)专注于将正面示例排名为负面,但它们并没有明确地对正面到正面的交互进行建模。然而,有证据表明,对预测进行优先排序是有帮助的。通过使用辅助(AUX.- 例如IoU,中心度)头部[15,17,38,44]或通过监督分类器直接回归预测的IoU而无需辅助。头部(如Li等人所示)[18]质量焦点损失-QFL)。在本文中,我们提出了秩排序(RS)损失作为一个基于排名的损失函数来训练视觉检测(VD- 即对象检测和实例分割)方法。 RS Loss不仅将积极因素排在消极因素之上(图1(a)),而且还根据其连续的IoU值将积极因素排序(图1(a))。(b)款。这种方法带来了几个关键的好处。由于在训练期间对阳性的优先级排序,使用RS Loss训练的检测器不需要辅助。头部,并且由于其基于排名的性质,RSLoss可以处理极其不平衡的数据(例如,对象检测[28])而没有任何采样试探法。此外,除了学习率之外,RS Loss不需要任何超参数调整,这要归功于我们的免调整任务平衡系数。由于训练的这种显著简化,我们可以将RS损失应用于不同的方法(即,多级、一级、基于锚的、无锚)容易地(即,仅通过调整学习率),并证明RS Loss始终优于基线。我们的贡献可归纳如下:(1) 我们将错误驱动的优化重新公式化到反向传播中,以优化不可微的基于排名的损失作为身份更新,其在训练期间唯一地提供可解释的损失值,并允许定义类内错误(例如:阳性之间的分选误差)。(2) 我们提出了秩排序损失,它定义了一个排序的客观之间的积极和消极的,以及排序的目标,以优先考虑积极的wrt。他们的连续借据。由于这种基于排名的性质,RS Loss可以在存在高度不平衡数据的情况下训练(3) 我们提出的有效性RS损失的一组不同的四个对象检测器和三个实例分割方法,只有通过调整学习率,没有任何辅助。在广泛使用的COCO和长尾LVIS基准测试中使用头部或采样启发式:例如,(i)我们的RS-R-CNN通过COCO上的3框AP改进了Faster-CNN,(ii) 我们的RS-Mask R-CNN将重复因子采样提高了3。LVIS上的5个掩码AP(稀有类为2. 相关工作辅助头和连续标签。预测具有辅助的检测的定位质量。中心度[38,44]、IoU [15,17]、掩模IoU [14]或不确定头[13]并将这些预测与NMS的分类得分相结合,可以提高检测性能。Lin等人。[18]发现使用连续的预测IoU来监督分类器优于使用辅助。头目前,Lin et al.的通过RS损失,我们研究了这种想法在不同网络上的普遍性(例如,多阶段网络[2,32])和不同的任务(即,实例分段)。VD中基于排名的损失。尽管它们的优点,基于排名的损失是不可微的,难以优化。为了解决这一挑战,黑盒求解器[34]使用插值AP表面,尽管在对象检测中几乎没有增益。DR Loss [31]通过使用铰链损失强制保证金来实现正面和负面之间的排名最后,APLoss [6]和aLRP Loss [27]分别通过使用感知器学习[35]的错误驱动更新来优化性能指标AP和LRP [26]然而,他们需要更长时间的训练和大量的增强。RS Loss的主要区别在于它还考虑了连续本地化品质是标签。VD的客观失衡。VD中的常见策略是使用λk(等式2)。1),标量乘数,对每个任务,并调整他们的网格搜索[1,17]。最近,Oksuz et al.[27]采用自平衡策略来平衡分类和盒回归头,两者都竞争aLRP损失的有界范围。类似地,Chen et al.[5]使用分类和回归损失的比率来平衡这些任务。在我们的设计中,每个损失k为一个特定的头部有自己的有界范围,因此,没有竞争之间的头部。此外,我们使用ks与类似的范围,并表明我们的RS损失可以简单地结合一个简单的任务平衡策略的基础上的损失值,因此不需要任何调整,除了学习率。3. 基于排名的损失使用基于排名的损失函数是有吸引力的,这要归功于其与常见的性能度量(例如:AP)。然而,由于排名的不可微性质,这是具有挑战性的。 在这里,我们首先重新审视现有的解决方案[6,27],该解决方案通过将错误驱动的更新[35]纳入反向传播(第3.1节)来克服这种不可微性,然后提出我们的重新制定(第3.2节),它唯一地(i)提供可解释的损失值和(ii)考虑到类内错误,这对于使用连续标签至关重要。3011- -LP∈ P∈ P∈ N∈ PΣL.∈ PN≥∈ P ∈ N|LLLL∈ P ∪ N∈ P ∈ P ∪ NLΣΣ- -LIJ主要术语[27]:L=1l(i)=1Lij.Σ为了监督视觉探测器的分类器模型参数在三个计算步骤(图。步骤1和步骤3是可微的,而主项Lij不是差分变换的可微函数。在xij中表示此更新为L然后使用链式法则, 斯岛可以表示为:L=Σxjk= 1。Σ∆x我-Σ∆xΣ.图2.三步计算(绿色箭头)和优化(橙色箭头)基于排名的损失函数的算法。 我们身份更新(i)产生可解释的损失值(参见Supp.Mat.斯岛j,kLjkjksZjiJ JIJ(三)对于我们的RS损失的示例),(ii)替换Eq.2以前的[27]第27话5(步骤2中的绿色箭头)以允许类内错误,这对我们的RS损失建模至关重要,以及(iii)导致简单的“身份更新”规则(步骤2中的橙色箭头):∆xij=Lij。3.1. 再论误差驱动优化在反向传播损失的定义 Oksuz等人[27]建议写作Chen等人。[6]将错误驱动更新[35]和将∆xij替换为(L*ij其中L*ij是表示对(i,j)的期望误差的主项。AP损耗[6]和aLRP损耗[27]都以这种方式优化3.2. 我们的新配方:身份更新我们首先确定3.1节中公式的两个缺点:(D1)所得损失值(L)不考虑基于排名的损失为L=1Σl(i),其中Z是概率∈P因此,在以下情况下,不容易解释/Z我lem特定归一化常数,是正的并且l(i)是在i上计算的误差项。损失的计算。 给定logits(si),可以通过三个步骤计算[6,27](图2绿色箭头):步骤1.logitssi和sj之间的差变换为由xij=sj−si计算。L*ij=0(cf. aLRP损失[27]和我们的RS损失-第4节);(D2)当量 2指定一个非零的主项只有当i和j,有效地忽略类内错误。 对于连续标签,这些错误变得尤为重要:i的标号越大,s i应该越大。损失的定义 我们将损失函数重新定义为:1步骤2. 使用Xij,源自每对前-后-前-后-后的误差被样本计算为主要项(Lij):L=Zi∈P∪N(l(i)−l*(i)),(4)Lij =l(i)p(j|i),对于i∈ P,j ∈ N0,否则,(二)其中l*(i)是i上的期望误差项。我们的损失定义有两个好处:(i)直接测量目标和期望错误之间的差异,产生可解释的损失值(D1),以及(ii)我们这样做其中p(j,i)是概率质量函数(pmf),tribute l(i),在i上计算的误差,在j上,其中是负例子的集合。 根据定义,基于排名的误差I(i)以及因此的Lij需要输出i和j之间的成对二进制排名关系,其由具有输入Xij的不可微单位阶跃函数H(X)(即,如果X为0,则H(X)=1, 否则H(X)=0)确定。使用H(x ij),可以引入不同的基于排名的函数来定义l(i)和p(j|i):例如,第i个示例,rank(i)=H(xij);j∈P∪N不限制为仅在阳性上定义,并替换“i”虽 然我们不使用损失的计算。 为了计算(等式。4),我们只替换Eq。2个:L=. l(i)−l*(i)Σ p(j|(i)、(5)假设中的第i个示例,rank+(i)=H(x,j);j∈P以及logits大于S1的假阳性的数量,NFP(i)=H(xij)。例如,对于AP损失[6],j∈N使用这些定义,l(i)和p(j|(1)可以简单地分别定义为NFP(i)和H(xij)[27]。三步算法(第3.1节,图2绿色箭头)并且允许所有对具有非零错误寻址(D2)。损失的优化 由于当l(i)=l*(i)时,对的误差L ij最小化,等式 5有一个ta r get的L*ij=0不管。因此,方程中的∆ x ij 3只是主项本身:∆xij=(L*ijLi j)=(0Li j)=Li j,从而得出我们的身份更新的推导。rank(i)NFP(i)步骤3. 最后,y,L被计算为以下项的正态ΣalizeΣd和:Z i∈Pj ∈N4. 排序损失损失的优化。 在这里,我们的目标是找到-1..���=−���IJJI���十一...���一��� ������…...等式2或等式5(requireL11������...i、jIJi������一......��������� ���������…...������1���������������������L1…L������ ������…ℒ������ij= −1Δxij...���ℒ =1L���1������������LijLogits步骤1差异步骤2主要术语步骤3损失变换值3012伊什日期L,然后通过我考虑到预测的定位质量(例如,3013伊什斯岛我∈伊什∈ P我∈ P∈ NΣ≥−- -×个×个Σ×个||ΣH(xij)(1−yj)本身,而lS(j)−l*S(j)p S(i|j)≥ 0次降级iLij=lS(i)−l*S(i)pS(j|i),对于i∈P,j∈P,0,否则,∈P联系我们∈ P5.2. 分析和免调谐设计选择RS Loss将问题分解为两个任务:(i)排序任务,其目的是将每个阳性排序高于所有阴性,以及(ii)排序任务,其目的是以降序wrt对logit s i进行排序。连续标签yi(例如IoU)。我们定义RS损失并使用以下公式优化. 为了获得LRS,我们简单地替换Δ x ij(等式3)通过RS损失的主要项,L ij(等式3),9),随后进行身份更新(第3.2节)。对于i ∈ N,所得的LRS则变为(参见补充材料。对于衍生):我们的身份更新(第3.22)的情况。定义. 给定logitss我和它们的连续标号LRS=1Σlj∈P(j) p (i|j)。(十一)yi[0, 1](例如IoU),我们将RS Loss定义为当前(lRS(i))和目标(l*RS(i))RS误差之间的差在假设(即yi>0):由于附加的分类误差(等式10),在图7、8)中,用于i的RS包括用于提升和降级两者的更新信号,以相应地对正进行排序L:=1Σ。LRs(i) −l*(i)Σ,(6)1|P|RSRSi∈P.l*RS(i)−lRS(i)+Σ。lS(j)−l*S(j)Σp S(i|j)Σ。其中IRS(i)是当前排序误差和当前排序错误:ΣN(一)|P|将签名日期更新到promoxteiJ`更新signal以降级ix(十二)RS(i):=FPrank(i)AR(i):C`urrentRanxking错误+j∈P。rank+(i)A`S(i):当前排序错误xr(七)注意,等式1的第一部分和第二部分的方向12不一样 为了将i∈ P放置在期望的排名中,l*R S(i)−lR S(i)≤0。根据计算的误差提升i对于i,虽然精度错误时,“当前排序错误”会logits大于s i的个体,其输入标签的平均值为1−yj。注意,当i∈P在所有j上运行时,NF P(i)=0,并且ta r得到排名误差,l*R(i),为0。对于目标排序错误,我们对倒置标签的j∈P具有比i∈ P更大的logits(H(xij ))和标签(yj≥yi)基于来自j的信号。我们提供更多见解对于RS损失及其梯度,在Supp.Mat.5. 利用RS损失训练视觉探测器本节开发了一个整体损失函数,以训练具有RS损失的检测器,其中只有学习率需要调整。正如文献[17,18]中通常执行的那样,第5.2节分析了ATSS的不同设计选择[44],∗ ∗0si;对于排序,j∈P,其中sj>si,但是yjyi):LATSS =Lcls +λ框L盒+λctr 左中心、(十三)H(xij)H(xij)[yjyi]其中Lcls是病灶损失[22];Lbox是GIoU损失[33];Lctrp R(j|i)=斯岛|P|RR(九)3014kΣ∈NH(xik); pS(j|i)=H(xikk∈P)[yk、1,例如掩模评分R-CNN)Cls.头简体CL箱头$% x$ ()s$2.00 0.90$ )*x(b)RS-DET:使用RS损失来训练检测器的阶段k, DET箱头$GI/∈ [0,面罩头$01c2 ∈ [0,预测Ground TruthSigmoid6$简体中文$∈6∈7$6 =CL6630=**���(c)基于损失值的任务平衡)*x$2.00 0.90-1.00 0. 50辅助头试探法采样-2.00-1.000.001.002.00头+S$ ∈ [0,2]0.900.000.000.500.00Cls.-1.00 0. 50辅助头面罩头试探法采样不CLS不不.. ..∂ˆs布雷布L L LL.. ..010012.00 1.00 0.00 -1.00-2.00图3. (a)通用视觉检测流水线包括来自可能的多个级的许多头。一辆辅助车。头部,除了标准的头部之外,在最近的方法中是常见的(例如,用于ATSS的中心头部[44],用于IoU-Net的IoU头部[15],以及用于掩码评分R-CNN的掩码IoU头部[14]),以在推理期间回归定位质量并对示例进行优先级排序(例如通过将分类分数乘以预测的定位质量)。采样启发式也是常见的,以确保均衡的训练。这样的架构使用许多超参数并且对于调谐是敏感的。(b)用我们的RS Loss训练检测器去除了(i)aux。通过直接监督分类(Cls.)标题为连续IoU(红色粗体),(ii)采样启发式算法,其对类不平衡的鲁棒性。我们使用与其他分支中的RS Loss(即RS Loss)范围相似的损失。GIoU损失、Dice损失),还通过使用分类得分对每个进行加权,将S形应用于对数而获得。(c)我们没有调整λks,而是通过考虑损失值来平衡任务通过这种设计,我们只通过调整学习率来训练几个检测器,并一致地提高它们的性能(第4节),LRS ,使用预测框(bi)和地面实况框(bi)之间的IoU(bi,bi)作为连续标签:LRS−ATSS=LRS+λboxLbox,(14)到调谐λbox(平均Δ P差值<0)。此外,我们使用基于评分的加权[18],通过将每个预测的GIoU损失乘以其分类评分(详细信息见补充材料)。请注意,基于值的任务平衡和基于分数的实例加权都是无超参数的,并且很容易适用于所有网络。 通过这些设计选择,Eq.图14仅具有1个超参数(即,H(·)中的δ RS,设置为0)。50,平滑单位阶跃函数)5.3. 培训不同的体系结构图 3给出了我们如何采用RS Loss来训练不同架构的比较概述:当我们使用RS Loss来训练分类器时(图1)。3(b)),我们去除辅助。头(例如IoU-Net [15]中的IoU头)和采样启发式(例如OHEM在YOLACT [1]中,随机采样在Faster R-CNN [32]中)。我们在框回归和掩码预测头中采用基于分数的加权,并且优选Dice Loss而不是常见的交叉熵损失来训练掩码预测头,例如分割,这是由于(i)其有界范围(在0和1之间),以及(ii)预测的整体评估,两者都类似于GIoU Loss。最后,我们设置λk(等式 1)标量k/k(即cls=RS)每个迭代-图3(c)),唯一例外的是RPN,我们将RPN的损失乘以0。aLRP丢失后20例。6. 实验为了呈现RS损耗在性能和调谐简单性方面的贡献,我们对具有不同架构集的七个视觉检测器进行实验:四个对象检测器(即,更快的R-CNN [32],Cascade R-CNN [2],ATSS [44]和PAA [17]-第6.1节)和三种实例分 割 方 法 ( 即 Mask R-CNN [12] , YOLACT [1] 和SOLOv 2 [40]-第6.2节)。最后,第6.3节介绍了消融分析。6.1. 目标检测6.1.1多级物体探测器为了通过我们的RS Loss(即RS Loss)来训练更快的R-CNN [32]和Cascade R-CNN [2]。RS-R-CNN),我们从所有阶段移除采样(即,RPN和R-CNN),使用所有锚点来训练RPN和m个得分最高的建议/图像(默认情况下,m= 1000用于更快的R-CNN,m = 2000级联R-CNN其中λ框 任务级平衡系数一般为在mmdetection [8]中),用binary替换softmax分类器sigmoid分类器,并将初始学习率设置为0。012.通过网格搜索设置为常量标量。受最近工作的启发[5,27],我们研究了两种无调谐启发式算法来确定每次迭代的λ box:(i)基于值:λ box=LRS/Lbox,以及(ii)基于幅度的:λbox=LRS /Lbox哪里|·|是L1范数,b和s分别是盒回归和分类头输出。在我们对使用RS Loss训练的ATSS的分析中,我们观察到基于值的任务平衡执行类似于3016RS损失达到39。6 AP在标准的Faster R-CNN上并且优于(表1):(i)FPN [21](交叉熵&平滑L1损失)3。4AP,(ii)aLRP损失[27],SOTA基于排名的基线,2. 2 AP,(iii)IoU-Net [15] with aux.头1。5 AP和(iv)动态R-CNN,最接近的对应物,0。7AP。然后我们使用轻质Carafe[39]作为FPN中的上采样操作,并获得40。8AP(RS-R-CNN+),仍维持 2与Carafe3017不不表1. RS-R-CNN使用标准的基于IoU的分配器,无采样,不使用辅助。头,几乎是无调谐WRT。任务-平衡权重(λk s-等式1)1),并且因此具有最少数量的超参数(H#= 3&-两个δ RS,一个用于训练RPN R-CNN的每个RS Loss,以及一个RPN权重)。尽管如此,RS-R-CNN将标准的Faster R-CNN与FPN改进了3AP; aLRP Loss(基于排名的损失基线)改进了2AP; IoU-Net(一种带有IoU头的方法)改进了1。5AP。RS-R-CNN+通过轻量级Carafe操作[ 39 ]替换FPN的上采样,并保持与Carafe FPN(38. 6到408AP)。所有模型都使用ResNet-50,在COCOminival中进行评估,并在mmdetection上训练12个epoch,IoU-Net除外。H#:超参数的数量(Supp.Mat.提供了H#的详细信息。)方法分配器采样器Aux. 头AP↑ AP50↑ AP75↑oLRP↓ oLRP位置↓ oLRPFP↓oLRPFN↓H#↓会场FPN [21]基于IoU随机没有一三十六5五十八539岁4七十1十八岁3二十七岁8四十五89CVPR 17[27]第二十七话基于IoU没有一没有一三十七4五十七939岁269岁。2十七岁628岁5四十六岁。13NeurIPS 20[33]第三十三话基于IoU随机没有一三十七6五十八241岁069岁。2十七岁028岁5四十六岁。37CVPR 19[15]基于IoU随机IoU头三十八岁。1五十六3-----11ECCV 18Libra R-CNN [30]基于IoU基于IoU没有一三十八岁。3五十九541岁968岁8十七岁2二十七岁5四十五411CVPR 19[24]第二十四话基于IoU随机没有一三十八岁。5五十八641岁868岁4十六岁6二十七岁1四十五57ICLR 21Carafe FPN [39]基于IoU随机没有一三十八岁。6五十九9四十二268岁3十七岁2二十七岁044. 27ICCV 19动态R-CNN [43]动态随机没有一三十八岁。9五十七6四十二768岁2十五岁7二十七岁7四十六岁。610ECCV 20RS-R-CNN(我们的)RS-R-CNN+(我们的)基于IoU基于IoU没有一没有一没有一没有一39岁6四十8五十九561岁4四十三0四十三867岁966岁。9十六岁3十六岁3二十七岁8二十六岁4四十五4四十三733FPN[39](38. 6AP),并且在所有基于AP和oLRP的[26,29]性能指标中优于所有方法,除了oLRP Loc,这意味着我们的主要贡献是在由我们的RS Loss训练的分类任务中,并且在本地化任务中仍有改进的空间。 RS Loss还将更强的基线Cascade R-CNN [2]从40提高了1个AP。3AP 到41。3 AP(辅助材料呈现Cascade R-CNN的详细结果最后,RS Loss具有最少数量的超参数(H#= 3,表1),并且不需要采样器、辅助器。头或调谐λks(等式①的人。6.1.2单级物体探测器我们训练ATSS [44]和PAA [17],分别在其架构中包括中心头部和IoU头部我们采用Oksuz等人的锚钉配置。[27]对于所有基于排名的损失(不同的锚点配置不会影响标准ATSS的性能[44]),并将学习率设置为0。008.在训练PAA时,我们保留评分函数,将阳性和阴性分开,用于不同损失函数之间的公平比较。与AP和aLRP损失的比较,基于排名的基线:我们简单地用AP Loss代替Focal Loss来训练网络,至于aLRP Loss,类似于我们的RS Loss,我们将其学习率调整为0。005由于其调谐简单。 对于ATSS和PAA,RS Loss提供了优于基于排名的替代方案的显著增益,这些替代方案在先前的工作[6,27]中使用SSD样增强[ 25 ]训练了100个时期:1。8/2。2 ATSS的AP增益和3.7/3。3对于AP/aLRP损失的PAA的增益(表2)。与Focal Loss比较,默认损失函数:当两个网络在没有辅助的情况下同等训练时,RS Loss提供大约1的AP增益。头(表2)和0. 6与具有辅助的默认网络相比的AP增益。构造标准部件. 与QFL比较,使用连续IoU作为标签的基于评分的损失函数:为了将QFL [18]应用于PAA,我们移除辅助。IoU头(正如我们对ATSS所做的那样),测试两个可能的选项((i)默认PAA设置3018其中λ box= 1。(ii)默认QFL设置:λ box= 2。0和基于分数的加权),并报告QFL的最佳结果。虽然QFL和RS损失的结果是类似的ATSS,有0。8 AP缺口有利于我们的RS损失,这可能是由于PAA的不同正负分配方法(表2)。6.1.3与SOTA的在这里,我们使用我们的RS-R-CNN,因为它在其基线上产生了最大的改进。我们使用多尺度训练来训练RS-R-CNN 36个时期,方法是在ResNet-101上使用DCNv 2 [45]随机调整[480,960]内的较短大小。 表3报告了COCO test-dev的结果:我们的RS-R-CNN达到47 。 8 AP , 分 别 比 类 似 训 练 的 Faster R-CNN 和Dynamic R-CNN强3和 1 AP。虽然我们没有增加FasterR-CNN的参数数量,但RS R-CNN优于所有多级检测器,包括具有更多参数的TridentNet [19]。我们的RS-R-CNN+(第6.1.1节)达到四十八2AP,并且RS-Mask R-CNN+(第6.2节)达到49。0AP,优于所有一级和多级同行。6.2. 实例分割6.2.1多阶段实例分割方法我 们 在 COCO 和 LVIS 数 据 集 上 训 练 Mask R-CNN[12],保持Faster R-CNN的所有设计选择相同。COCO:我们观察到Mask R-CNN的分割和检测性能(表4)的2 AP增益。此外,RS-Mask R-CNN优于Mask-scoring R-CNN [14],具有额外的辅助。掩码IoU头,由0. 4掩模AP,1. 8盒AP和0. 9掩模oLRP(表4)。LVIS:通过我们的RS损失替换交叉熵来训练具有重复因子采样(RFS)的Mask R-CNN,将性能提高了3。5在长尾LVIS数据集上的掩模AP(21. 7到252,在罕见类别上有改善),并且优于最近的同行(表5)。3019×个表2. RS Loss具有最少数量的超参数(H#),并且显著优于(i)基于排名的替代方案,(ii)具有辅助的默认设置。头(下划线)为0。6AP,(iii)基于评分的替代方案,QFL,尤其是PAA。我们测试统一损失(即在训练分类头时考虑定位质量的损失)。头所有型号均使用ResNet-50。[17]第十七话表3.在COCOtest-dev上使用ResNet-101(* 除外)和DCN进行对象检测时,与SOTA进行比较。类似训练的Faster R-CNN的结果从Zhang等人获得[43]。+:FPN的上采样是Carafe [39],*:ResNeXt-64 x4 d-101方法APAP50 AP75 APS APM APL一期ATSS [44]四十六岁。3六十四750块4二十七岁7四十九8五十八4GFL [18]四十七366岁。351岁428岁051岁1五十九2临时机场管理局[17]四十七4六十五751岁6二十七岁951岁3六十岁。6ReppPointsv2 [10]四十八167岁551岁828岁750块9六十岁。8多级更快的R-CNN [43]44. 8六十五5四十八8二十六岁2四十七6五十八1Trident Net [19]四十六岁。867岁651岁528岁051岁2六十岁。5动态R-CNN [43]四十六岁。9六十五951岁328岁1四十九6六十岁。0D2Det [3]四十七4六十五951岁7二十七岁250块461岁3我们RS-R-CNN四十七868岁051岁828岁551岁161岁6RS-R-CNN+四十八268岁652岁429岁051岁361岁7RS掩码R-CNN+四十九069岁。2五十三429岁952岁462.8RS掩码R-CNN+*50块2七十3五十四831岁5五十三563岁9表4.没有辅助。头部,RS-Mask R-CNN通过2 AP改进了MaskR-CNN [12],并且优于Mask-scoring R-CNN[14]其采用附加的掩模IoU头作为辅助。头方法Aux头分割性能AP髁间盒H#↓AP↑ AP50↑ AP75↑ oLRP↓Mask R-CNNMask-sc. R-CNNC三十四7三十六055. 755. 8三十七2三十八岁。7七十一2七十一0三十八岁。2三十八岁。289RS-Mask R-CNN三十六4五十七339岁2 七十1四十03表5.LVIS v1.0 valset的比较 使用ResNet-50、多尺度图像(范围:[640,800])进行12个时期。方法AP掩模 APR APC APfAP髁间盒会场RFS [11]21岁79 .第九条。621岁0二十七岁8二十二岁5CVPR 19购物车[20]23岁1十三岁1二十二岁528岁223岁7CVPR 20当量Lossv2[37]23岁7十四岁9二十二岁828岁6二十四岁2CVPR 21RFS+RS损失二十五2十六岁8二十四岁329岁9二十五96.2.2一阶段实例分割方法在这里,我们使用RS Loss训练两种不同的方法:(i) YOLACT [1],一种实时实例分割方法,涉及采样启发式(例如OHEM [36]),aux. 头部和仔细调整的损失权重,并证明RS损失可以放弃所有通过提高其性能(ii)SOLOv2[40]作为无锚SOTA方法。YOLACT:在YOLACT [1]之后,我们通过大小为550 550的图像对RS-YOLACT进行了55个epoch的训练和测试。而不是寻找衰减学习率的时期,精心调整为YOLACT为20,42,49和52,我们简单地损失函数统一基于秩Aux. 头H#↓AP↑AP50↑AP75↑oLRP↓AP↑AP50↑AP75↑oLRP↓[22]第二十二话C三十八岁。739岁3五十七6五十七541岁5四十二668岁968岁639岁9四十4五十七3五十八4四十三4四十三968岁767岁734AP损失[6]CCC三十八岁。1三十七2五十八255. 641岁0四十269岁。2七十0三十五3三十七3五十三1五十四3三十八岁。541岁2七十一5七十5233020×个×个采用初始学习率为0的余弦退火。006.然后,我们移除(i)OHEM,(ii)语义分割头,(iii)仔细调整的任务权重(即,λ box= 1。5,λ mask= 6。125)和(iv)基于大小的归一化(即,每个实例的掩模压头损失通过地面实况区域的归一化)。删除每个启发式算法会导致轻微到显著的性能下降(至少需要重新调整λt在这些简化之后,我们的RS-YOLACT将基线提高了1。5掩模AP和3. 3盒AP。SOLOv 2:遵循Wang et al.[40],我们在其两个不同设置上使用多尺度训练来训练具有RS损失的无锚SOLOv 2 36 个 时 期 : ( i ) SOLOv 2-light 是 使 用ResNet-34和具有大小的图像的实时设置。448 448在推理。我们使用32图像/批和学习率0。012训练(ii)SOLOv 2是具有ResNet-101的SOTA设置,推断时图像大小为1333 800。我们使用16张图像/批,学习率为0。006训练由于SOLOv2不具有盒回归头,因此我们使用Dice系数作为RS损失的连续标签(参见Supp.Mat.用于分析使用不同的局部化质量作为标签(例如分割)。同样,RS Loss比基线(即,FocalLoss和Dice Loss)仅通过调整学习速率(表7)。6.2.3与SOTA的我们使用我们的RS-Mask R-CNN(即具有RS损失的标准掩码R-CNN)与SOTA方法进行比较。为了适应我们的V100 GPU的16 GB内存并保持所有设置不变,我们将掩码头中的最大propos- als数量在我们的对 手 [40 ,41]之 后, 我们 首 先使 用 ResNet- 101在[640,800]之间进行多尺度训练,并达到40,训练RS-Mask R-CNN 36个时期。6掩模AP(表8),将掩模R-CNN改进2。3掩模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功