文件:目标检测和实例分割中的秩排序损失方法

54 浏览量更新于2023-09-26 收藏 734KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3009不不LVD=Σ ΣλL，（1）不用于目标检测和实例分割的秩排序损失Kemal Oksuz，Baris Can Cam，Emre Akbas*，Sinan Kalkan*部土耳其安卡拉中东技术大学计算机工程系{kemal.oksuz，can.cam，eakbas，skalkan}@ metu.edu.tr摘要我们提出了秩&排序（RS）损失，这是一种基于排名的损失函数，用于训练深度对象检测和实例分割方法（即视觉检测器）。RS Loss监督分类器，这些方法的子网络，以将每个阳性排在所有阴性之上，以及相对于（wrt.）它们的定位质量（例如，相交于并合-IoU）。为了解决排名和排序的不可微性质，我们将错误驱动的更新与反向传播的结合重新模拟为身份更新，这使得我们能够在阳性之间对我们的新的排序错误进行建模。利用RS Loss，我们显著简化了训练：（i）由于我们的分类目标，阳性被分类器优先化，而没有额外的辅助头部（例如，对于中心性，IoU，掩码IoU），（ii）由于其基于排名的性质，RS损失对类别不平衡是鲁棒的，并且因此，不需要采样试探法，以及（iii）我们使用无调谐任务平衡系数来解决视觉检测器的多任务性质。使用RS Loss，我们仅通过调整学习率来训练七种不同的视觉检测器，并表明它始终优于基线：例如，我们的RS损耗得到改善(i) 通过COCO数据集上的<3框AP和<2框AP的aLRP损失（基于排名的基线）更快的R-CNN，（ii）通过3的重复因子采样（RFS）掩蔽R-CNN。LVIS数据集上的5个掩码AP（罕见类别为7个AP）;并且性能也优于所有对应物。代码可从以下网址获得：https：//github.com/kemaloksuz/RankSortLoss网站。1. 介绍由于其多任务性（例如分类、盒回归、掩模预测）性质，对象检测和实例分割方法依赖于以下形式的损失函数：K Kt tk∈Kt ∈T它结合了Lk，阶段上任务t的损失函数k（例如|K|对于具有RPN和R-的Fa ster R-CNN [32]= 2*同等贡献的资深作者。(a)阳性（+）高于阴性（-）锚钉ID（）分类逻辑二进制标签（+）目标排名（）0、4、1、6（任意顺序）2、3、5、7（任意顺序）（-）(b)排序损失：排序（+）高于（-）排序（+）与其IoU标签锚钉ID（）分类逻辑连续标签（IoU）（+）RS损失目标排序（）04162、3、5、7（任意顺序）（-）图1.基于排名的分类损失与RS损失。(a)强制将阳性排序在阴性之上为训练提供了有用的目标，然而，它忽略了阳性之间的排序（b）我们的RS损失，除了在消极因素之上搜索积极因素之外，还旨在对积极因素进行排序。它们的连续IoU（阳性：基于其标签的绿色色调，阴性：橙色）。我们提出了身份更新（第3节），一个错误驱动的更新与反向传播，以解决这些排名和排序操作，这是难以优化，由于其不可微的性质。CNN），由超参数λk加权。在这样的公式中，超参数的数量可以容易地超过10 [27]，其中额外的超参数由任务特定的不平衡问题产生[28]，例如：分类任务中的正负不平衡，并且如果使用级联架构（例如，HTC[7]采用具有不同λ k的3个R-CNN。因此，尽管这样的损失函数已经导致了前所未有的成功，但是它们需要调谐，这是耗时的，导致次优的解决方案，并且使得方法的公平比较具有挑战性。最近提出的基于排名的损失函数，即交叉熵损失和焦点损失[22]）：（1）它们直接优化性能测量（例如，AP），从而提供训练和评估对象之间的一致性。这也减少了作为性能度量的超参数的数量（例如，AP）通常不具有任何超参数。（2）它们对类是健壮的012345673.02.01.00.0-1.0 -2.0 -3.0 -4.011001010012345673.02.01.00.0-1.0 -2.0 -3.0 -4.00.90.40.00.00.80.00.10.03010不不L不L由于其基于排名的错误定义而导致的不平衡。尽管这些损失已经产生了最先进的（SOTA）性能，但它们需要更长的训练和更多的增强。一般来说，基于排名的损失（AP损失和aLRP损失）专注于将正面示例排名为负面，但它们并没有明确地对正面到正面的交互进行建模。然而，有证据表明，对预测进行优先排序是有帮助的。通过使用辅助（AUX.- 例如IoU，中心度）头部[15，17，38，44]或通过监督分类器直接回归预测的IoU而无需辅助。头部（如Li等人所示）[18]质量焦点损失-QFL）。在本文中，我们提出了秩排序（RS）损失作为一个基于排名的损失函数来训练视觉检测（VD- 即对象检测和实例分割）方法。 RS Loss不仅将积极因素排在消极因素之上（图1（a）），而且还根据其连续的IoU值将积极因素排序（图1（a））。（b）款。这种方法带来了几个关键的好处。由于在训练期间对阳性的优先级排序，使用RS Loss训练的检测器不需要辅助。头部，并且由于其基于排名的性质，RSLoss可以处理极其不平衡的数据（例如，对象检测[28]）而没有任何采样试探法。此外，除了学习率之外，RS Loss不需要任何超参数调整，这要归功于我们的免调整任务平衡系数。由于训练的这种显著简化，我们可以将RS损失应用于不同的方法（即，多级、一级、基于锚的、无锚）容易地（即，仅通过调整学习率），并证明RS Loss始终优于基线。我们的贡献可归纳如下：(1) 我们将错误驱动的优化重新公式化到反向传播中，以优化不可微的基于排名的损失作为身份更新，其在训练期间唯一地提供可解释的损失值，并允许定义类内错误（例如：阳性之间的分选误差）。(2) 我们提出了秩排序损失，它定义了一个排序的客观之间的积极和消极的，以及排序的目标，以优先考虑积极的wrt。他们的连续借据。由于这种基于排名的性质，RS Loss可以在存在高度不平衡数据的情况下训练(3) 我们提出的有效性RS损失的一组不同的四个对象检测器和三个实例分割方法，只有通过调整学习率，没有任何辅助。在广泛使用的COCO和长尾LVIS基准测试中使用头部或采样启发式：例如，（i）我们的RS-R-CNN通过COCO上的3框AP改进了Faster-CNN，(ii) 我们的RS-Mask R-CNN将重复因子采样提高了3。LVIS上的5个掩码AP（稀有类为2. 相关工作辅助头和连续标签。预测具有辅助的检测的定位质量。中心度[38，44]、IoU [15，17]、掩模IoU [14]或不确定头[13]并将这些预测与NMS的分类得分相结合，可以提高检测性能。Lin等人。[18]发现使用连续的预测IoU来监督分类器优于使用辅助。头目前，Lin et al.的通过RS损失，我们研究了这种想法在不同网络上的普遍性（例如，多阶段网络[2，32]）和不同的任务（即，实例分段）。VD中基于排名的损失。尽管它们的优点，基于排名的损失是不可微的，难以优化。为了解决这一挑战，黑盒求解器[34]使用插值AP表面，尽管在对象检测中几乎没有增益。DR Loss [31]通过使用铰链损失强制保证金来实现正面和负面之间的排名最后，APLoss [6]和aLRP Loss [27]分别通过使用感知器学习[35]的错误驱动更新来优化性能指标AP和LRP [26]然而，他们需要更长时间的训练和大量的增强。RS Loss的主要区别在于它还考虑了连续本地化品质是标签。VD的客观失衡。VD中的常见策略是使用λk（等式2）。1），标量乘数，对每个任务，并调整他们的网格搜索[1，17]。最近，Oksuz et al.[27]采用自平衡策略来平衡分类和盒回归头，两者都竞争aLRP损失的有界范围。类似地，Chen et al.[5]使用分类和回归损失的比率来平衡这些任务。在我们的设计中，每个损失k为一个特定的头部有自己的有界范围，因此，没有竞争之间的头部。此外，我们使用ks与类似的范围，并表明我们的RS损失可以简单地结合一个简单的任务平衡策略的基础上的损失值，因此不需要任何调整，除了学习率。3. 基于排名的损失使用基于排名的损失函数是有吸引力的，这要归功于其与常见的性能度量（例如：AP）。然而，由于排名的不可微性质，这是具有挑战性的。在这里，我们首先重新审视现有的解决方案[6，27]，该解决方案通过将错误驱动的更新[35]纳入反向传播（第3.1节）来克服这种不可微性，然后提出我们的重新制定（第3.2节），它唯一地（i）提供可解释的损失值和（ii）考虑到类内错误，这对于使用连续标签至关重要。3011- -LP∈ P∈ P∈ N∈ PΣL.∈ PN≥∈ P ∈ N|LLLL∈ P ∪ N∈ P ∈ P ∪ NLΣΣ- -LIJ主要术语[27]：L=1l（i）=1Lij.Σ为了监督视觉探测器的分类器模型参数在三个计算步骤（图。步骤1和步骤3是可微的，而主项Lij不是差分变换的可微函数。在xij中表示此更新为L然后使用链式法则，斯岛可以表示为：L=Σxjk= 1。Σ∆x我-Σ∆xΣ.图2.三步计算（绿色箭头）和优化（橙色箭头）基于排名的损失函数的算法。我们身份更新（i）产生可解释的损失值（参见Supp.Mat.斯岛j，kLjkjksZjiJ JIJ（三）对于我们的RS损失的示例），（ii）替换Eq.2以前的[27]第27话5（步骤2中的绿色箭头）以允许类内错误，这对我们的RS损失建模至关重要，以及（iii）导致简单的“身份更新”规则（步骤2中的橙色箭头）：∆xij=Lij。3.1. 再论误差驱动优化在反向传播损失的定义 Oksuz等人[27]建议写作Chen等人。[6]将错误驱动更新[35]和将∆xij替换为（L*ij其中L*ij是表示对（i，j）的期望误差的主项。AP损耗[6]和aLRP损耗[27]都以这种方式优化3.2. 我们的新配方：身份更新我们首先确定3.1节中公式的两个缺点：（D1）所得损失值（L）不考虑基于排名的损失为L=1Σl（i），其中Z是概率∈P因此，在以下情况下，不容易解释/Z我lem特定归一化常数，是正的并且l（i）是在i上计算的误差项。损失的计算。给定logits（si），可以通过三个步骤计算[6，27]（图2绿色箭头）：步骤1.logitssi和sj之间的差变换为由xij=sj−si计算。L*ij=0（cf. aLRP损失[27]和我们的RS损失-第4节）;(D2)当量 2指定一个非零的主项只有当i和j，有效地忽略类内错误。对于连续标签，这些错误变得尤为重要：i的标号越大，s i应该越大。损失的定义我们将损失函数重新定义为：1步骤2. 使用Xij，源自每对前-后-前-后-后的误差被样本计算为主要项（Lij）：L=Zi∈P∪N（l（i）−l*（i）），（4）Lij =l（i）p（j|i），对于i∈ P，j ∈ N0，否则，（二）其中l*（i）是i上的期望误差项。我们的损失定义有两个好处：（i）直接测量目标和期望错误之间的差异，产生可解释的损失值（D1），以及（ii）我们这样做其中p（j，i）是概率质量函数（pmf），tribute l（i），在i上计算的误差，在j上，其中是负例子的集合。根据定义，基于排名的误差I（i）以及因此的Lij需要输出i和j之间的成对二进制排名关系，其由具有输入Xij的不可微单位阶跃函数H（X）（即，如果X为0，则H（X）=1，否则H（X）=0）确定。使用H（x ij），可以引入不同的基于排名的函数来定义l（i）和p（j|i）：例如，第i个示例，rank（i）=H（xij）;j∈P∪N不限制为仅在阳性上定义，并替换“i”虽然我们不使用损失的计算。为了计算（等式。4），我们只替换Eq。2个：L=. l（i）−l*（i）Σ p（j|（i）、（5）假设中的第i个示例，rank+（i）=H（x，j）;j∈P以及logits大于S1的假阳性的数量，NFP（i）=H（xij）。例如，对于AP损失[6]，j∈N使用这些定义，l（i）和p（j|（1）可以简单地分别定义为NFP（i）和H（xij）[27]。三步算法（第3.1节，图2绿色箭头）并且允许所有对具有非零错误寻址（D2）。损失的优化由于当l（i）=l*（i）时，对的误差L ij最小化，等式 5有一个ta r get的L*ij=0不管。因此，方程中的∆ x ij 3只是主项本身：∆xij=（L*ijLi j）=（0Li j）=Li j，从而得出我们的身份更新的推导。rank（i）NFP（i）步骤3. 最后，y，L被计算为以下项的正态ΣalizeΣd和：Z i∈Pj ∈N4. 排序损失损失的优化。在这里，我们的目标是找到-1..��=−��IJJI��十一...��一�� …...等式2或等式5（requireL11��...i、jIJi��一......�� …...��1��L1…L�� …ℒ��ij= −1Δxij...��ℒ =1L��1��LijLogits步骤1差异步骤2主要术语步骤3损失变换值3012伊什日期L，然后通过我考虑到预测的定位质量（例如，3013伊什斯岛我∈伊什∈ P我∈ P∈ NΣ≥−- -×个×个Σ×个||ΣH（xij）（1−yj）本身，而lS（j）−l*S（j）p S（i|j）≥ 0次降级iLij=lS（i）−l*S（i）pS（j|i），对于i∈P，j∈P，0，否则，∈P联系我们∈ P5.2. 分析和免调谐设计选择RS Loss将问题分解为两个任务：（i）排序任务，其目的是将每个阳性排序高于所有阴性，以及（ii）排序任务，其目的是以降序wrt对logit s i进行排序。连续标签yi（例如IoU）。我们定义RS损失并使用以下公式优化. 为了获得LRS，我们简单地替换Δ x ij（等式3）通过RS损失的主要项，L ij（等式3），9），随后进行身份更新（第3.2节）。对于i ∈ N，所得的LRS则变为（参见补充材料。对于衍生）：我们的身份更新（第3.22）的情况。定义. 给定logitss我和它们的连续标号LRS=1Σlj∈P(j) p （i|j）。（十一）yi[0， 1]（例如IoU），我们将RS Loss定义为当前（lRS（i））和目标（l*RS（i））RS误差之间的差在假设（即yi>0）：由于附加的分类误差（等式10），在图7、8）中，用于i的RS包括用于提升和降级两者的更新信号，以相应地对正进行排序L：=1Σ。LRs(i) −l*（i）Σ，（6）1|P|RSRSi∈P.l*RS（i）−lRS（i）+Σ。lS（j）−l*S（j）Σp S（i|j）Σ。其中IRS（i）是当前排序误差和当前排序错误：ΣN（一）|P|将签名日期更新到promoxteiJ`更新signal以降级ix（十二）RS（i）：=FPrank（i）AR（i）：C`urrentRanxking错误+j∈P。rank+（i）A`S（i）：当前排序错误xr（七）注意，等式1的第一部分和第二部分的方向12不一样为了将i∈ P放置在期望的排名中，l*R S（i）−lR S（i）≤0。根据计算的误差提升i对于i，虽然精度错误时，“当前排序错误”会logits大于s i的个体，其输入标签的平均值为1−yj。注意，当i∈P在所有j上运行时，NF P（i）=0，并且ta r得到排名误差，l*R（i），为0。对于目标排序错误，我们对倒置标签的j∈P具有比i∈ P更大的logits（H（xij ））和标签（yj≥yi）基于来自j的信号。我们提供更多见解对于RS损失及其梯度，在Supp.Mat.5. 利用RS损失训练视觉探测器本节开发了一个整体损失函数，以训练具有RS损失的检测器，其中只有学习率需要调整。正如文献[17，18]中通常执行的那样，第5.2节分析了ATSS的不同设计选择[44]，∗ ∗0si;对于排序，j∈P，其中sj>si，但是yjyi）：LATSS =Lcls +λ框L盒+λctr 左中心、（十三）H（xij）H（xij）[yjyi]其中Lcls是病灶损失[22];Lbox是GIoU损失[33];Lctrp R（j|i）=斯岛|P|RR（九）3014kΣ∈NH（xik）; pS（j|i）=H（xikk∈P）[yk、1，例如掩模评分R-CNN）Cls.头简体CL箱头$% x$ ()s$2.00 0.90$ ）*x(b)RS-DET：使用RS损失来训练检测器的阶段k， DET箱头$GI/∈ [0，面罩头$01c2 ∈ [0，预测Ground TruthSigmoid6$简体中文$∈6∈7$6 =CL6630=**��(c)基于损失值的任务平衡）*x$2.00 0.90-1.00 0. 50辅助头试探法采样-2.00-1.000.001.002.00头+S$ ∈ [0，2]0.900.000.000.500.00Cls.-1.00 0. 50辅助头面罩头试探法采样不CLS不不.. ..∂ˆs布雷布L L LL.. ..010012.00 1.00 0.00 -1.00-2.00图3. (a)通用视觉检测流水线包括来自可能的多个级的许多头。一辆辅助车。头部，除了标准的头部之外，在最近的方法中是常见的（例如，用于ATSS的中心头部[44]，用于IoU-Net的IoU头部[15]，以及用于掩码评分R-CNN的掩码IoU头部[14]），以在推理期间回归定位质量并对示例进行优先级排序（例如通过将分类分数乘以预测的定位质量）。采样启发式也是常见的，以确保均衡的训练。这样的架构使用许多超参数并且对于调谐是敏感的。(b)用我们的RS Loss训练检测器去除了（i）aux。通过直接监督分类（Cls.）标题为连续IoU（红色粗体），（ii）采样启发式算法，其对类不平衡的鲁棒性。我们使用与其他分支中的RS Loss（即RS Loss）范围相似的损失。GIoU损失、Dice损失），还通过使用分类得分对每个进行加权，将S形应用于对数而获得。(c)我们没有调整λks，而是通过考虑损失值来平衡任务通过这种设计，我们只通过调整学习率来训练几个检测器，并一致地提高它们的性能（第4节），LRS ，使用预测框（bi）和地面实况框（bi）之间的IoU（bi，bi）作为连续标签：LRS−ATSS=LRS+λboxLbox，（14）到调谐λbox（平均Δ P差值<0）。此外，我们使用基于评分的加权[18]，通过将每个预测的GIoU损失乘以其分类评分（详细信息见补充材料）。请注意，基于值的任务平衡和基于分数的实例加权都是无超参数的，并且很容易适用于所有网络。通过这些设计选择，Eq.图14仅具有1个超参数（即，H（·）中的δ RS，设置为0）。50，平滑单位阶跃函数）5.3. 培训不同的体系结构图 3给出了我们如何采用RS Loss来训练不同架构的比较概述：当我们使用RS Loss来训练分类器时（图1）。3（b）），我们去除辅助。头（例如IoU-Net [15]中的IoU头）和采样启发式（例如OHEM在YOLACT [1]中，随机采样在Faster R-CNN [32]中）。我们在框回归和掩码预测头中采用基于分数的加权，并且优选Dice Loss而不是常见的交叉熵损失来训练掩码预测头，例如分割，这是由于（i）其有界范围（在0和1之间），以及（ii）预测的整体评估，两者都类似于GIoU Loss。最后，我们设置λk（等式 1）标量k/k（即cls=RS）每个迭代-图3（c）），唯一例外的是RPN，我们将RPN的损失乘以0。aLRP丢失后20例。6. 实验为了呈现RS损耗在性能和调谐简单性方面的贡献，我们对具有不同架构集的七个视觉检测器进行实验：四个对象检测器（即，更快的R-CNN [32]，Cascade R-CNN [2]，ATSS [44]和PAA [17]-第6.1节）和三种实例分割方法（即 Mask R-CNN [12] ， YOLACT [1] 和SOLOv 2 [40]-第6.2节）。最后，第6.3节介绍了消融分析。6.1. 目标检测6.1.1多级物体探测器为了通过我们的RS Loss（即RS Loss）来训练更快的R-CNN [32]和Cascade R-CNN [2]。RS-R-CNN），我们从所有阶段移除采样（即，RPN和R-CNN），使用所有锚点来训练RPN和m个得分最高的建议/图像（默认情况下，m= 1000用于更快的R-CNN，m = 2000级联R-CNN其中λ框任务级平衡系数一般为在mmdetection [8]中），用binary替换softmax分类器sigmoid分类器，并将初始学习率设置为0。012.通过网格搜索设置为常量标量。受最近工作的启发[5，27]，我们研究了两种无调谐启发式算法来确定每次迭代的λ box：（i）基于值：λ box=LRS/Lbox，以及（ii）基于幅度的：λbox=LRS /Lbox哪里|·|是L1范数，b和s分别是盒回归和分类头输出。在我们对使用RS Loss训练的ATSS的分析中，我们观察到基于值的任务平衡执行类似于3016RS损失达到39。6 AP在标准的Faster R-CNN上并且优于（表1）：（i）FPN [21]（交叉熵&平滑L1损失）3。4AP，（ii）aLRP损失[27]，SOTA基于排名的基线，2. 2 AP，（iii）IoU-Net [15] with aux.头1。5 AP和（iv）动态R-CNN，最接近的对应物，0。7AP。然后我们使用轻质Carafe[39]作为FPN中的上采样操作，并获得40。8AP（RS-R-CNN+），仍维持 2与Carafe3017不不表1. RS-R-CNN使用标准的基于IoU的分配器，无采样，不使用辅助。头，几乎是无调谐WRT。任务-平衡权重（λk s-等式1）1），并且因此具有最少数量的超参数（H#= 3&-两个δ RS，一个用于训练RPN R-CNN的每个RS Loss，以及一个RPN权重）。尽管如此，RS-R-CNN将标准的Faster R-CNN与FPN改进了3AP; aLRP Loss（基于排名的损失基线）改进了2AP; IoU-Net（一种带有IoU头的方法）改进了1。5AP。RS-R-CNN+通过轻量级Carafe操作[ 39 ]替换FPN的上采样，并保持与Carafe FPN（38. 6到408AP）。所有模型都使用ResNet-50，在COCOminival中进行评估，并在mmdetection上训练12个epoch，IoU-Net除外。H#：超参数的数量（Supp.Mat.提供了H#的详细信息。）方法分配器采样器Aux. 头AP↑ AP50↑ AP75↑oLRP↓ oLRP位置↓ oLRPFP↓oLRPFN↓H#↓会场FPN [21]基于IoU随机没有一三十六5五十八539岁4七十1十八岁3二十七岁8四十五89CVPR 17[27]第二十七话基于IoU没有一没有一三十七4五十七939岁269岁。2十七岁628岁5四十六岁。13NeurIPS 20[33]第三十三话基于IoU随机没有一三十七6五十八241岁069岁。2十七岁028岁5四十六岁。37CVPR 19[15]基于IoU随机IoU头三十八岁。1五十六3-----11ECCV 18Libra R-CNN [30]基于IoU基于IoU没有一三十八岁。3五十九541岁968岁8十七岁2二十七岁5四十五411CVPR 19[24]第二十四话基于IoU随机没有一三十八岁。5五十八641岁868岁4十六岁6二十七岁1四十五57ICLR 21Carafe FPN [39]基于IoU随机没有一三十八岁。6五十九9四十二268岁3十七岁2二十七岁044. 27ICCV 19动态R-CNN [43]动态随机没有一三十八岁。9五十七6四十二768岁2十五岁7二十七岁7四十六岁。610ECCV 20RS-R-CNN（我们的）RS-R-CNN+（我们的）基于IoU基于IoU没有一没有一没有一没有一39岁6四十8五十九561岁4四十三0四十三867岁966岁。9十六岁3十六岁3二十七岁8二十六岁4四十五4四十三733FPN[39]（38. 6AP），并且在所有基于AP和oLRP的[26，29]性能指标中优于所有方法，除了oLRP Loc，这意味着我们的主要贡献是在由我们的RS Loss训练的分类任务中，并且在本地化任务中仍有改进的空间。 RS Loss还将更强的基线Cascade R-CNN [2]从40提高了1个AP。3AP 到41。3 AP（辅助材料呈现Cascade R-CNN的详细结果最后，RS Loss具有最少数量的超参数（H#= 3，表1），并且不需要采样器、辅助器。头或调谐λks（等式①的人。6.1.2单级物体探测器我们训练ATSS [44]和PAA [17]，分别在其架构中包括中心头部和IoU头部我们采用Oksuz等人的锚钉配置。[27]对于所有基于排名的损失（不同的锚点配置不会影响标准ATSS的性能[44]），并将学习率设置为0。008.在训练PAA时，我们保留评分函数，将阳性和阴性分开，用于不同损失函数之间的公平比较。与AP和aLRP损失的比较，基于排名的基线：我们简单地用AP Loss代替Focal Loss来训练网络，至于aLRP Loss，类似于我们的RS Loss，我们将其学习率调整为0。005由于其调谐简单。对于ATSS和PAA，RS Loss提供了优于基于排名的替代方案的显著增益，这些替代方案在先前的工作[6，27]中使用SSD样增强[ 25 ]训练了100个时期：1。8/2。2 ATSS的AP增益和3.7/3。3对于AP/aLRP损失的PAA的增益（表2）。与Focal Loss比较，默认损失函数：当两个网络在没有辅助的情况下同等训练时，RS Loss提供大约1的AP增益。头（表2）和0. 6与具有辅助的默认网络相比的AP增益。构造标准部件. 与QFL比较，使用连续IoU作为标签的基于评分的损失函数：为了将QFL [18]应用于PAA，我们移除辅助。IoU头（正如我们对ATSS所做的那样），测试两个可能的选项（（i）默认PAA设置3018其中λ box= 1。（ii）默认QFL设置：λ box= 2。0和基于分数的加权），并报告QFL的最佳结果。虽然QFL和RS损失的结果是类似的ATSS，有0。8 AP缺口有利于我们的RS损失，这可能是由于PAA的不同正负分配方法（表2）。6.1.3与SOTA的在这里，我们使用我们的RS-R-CNN，因为它在其基线上产生了最大的改进。我们使用多尺度训练来训练RS-R-CNN 36个时期，方法是在ResNet-101上使用DCNv 2 [45]随机调整[480，960]内的较短大小。表3报告了COCO test-dev的结果：我们的RS-R-CNN达到47 。 8 AP ，分别比类似训练的 Faster R-CNN 和Dynamic R-CNN强3和 1 AP。虽然我们没有增加FasterR-CNN的参数数量，但RS R-CNN优于所有多级检测器，包括具有更多参数的TridentNet [19]。我们的RS-R-CNN+（第6.1.1节）达到四十八2AP，并且RS-Mask R-CNN+（第6.2节）达到49。0AP，优于所有一级和多级同行。6.2. 实例分割6.2.1多阶段实例分割方法我们在 COCO 和 LVIS 数据集上训练 Mask R-CNN[12]，保持Faster R-CNN的所有设计选择相同。COCO：我们观察到Mask R-CNN的分割和检测性能（表4）的2 AP增益。此外，RS-Mask R-CNN优于Mask-scoring R-CNN [14]，具有额外的辅助。掩码IoU头，由0. 4掩模AP，1. 8盒AP和0. 9掩模oLRP（表4）。LVIS：通过我们的RS损失替换交叉熵来训练具有重复因子采样（RFS）的Mask R-CNN，将性能提高了3。5在长尾LVIS数据集上的掩模AP（21. 7到252，在罕见类别上有改善），并且优于最近的同行（表5）。3019×个表2. RS Loss具有最少数量的超参数（H#），并且显著优于（i）基于排名的替代方案，（ii）具有辅助的默认设置。头（下划线）为0。6AP，（iii）基于评分的替代方案，QFL，尤其是PAA。我们测试统一损失（即在训练分类头时考虑定位质量的损失）。头所有型号均使用ResNet-50。[17]第十七话表3.在COCOtest-dev上使用ResNet-101（* 除外）和DCN进行对象检测时，与SOTA进行比较。类似训练的Faster R-CNN的结果从Zhang等人获得[43]。+：FPN的上采样是Carafe [39]，*：ResNeXt-64 x4 d-101方法APAP50 AP75 APS APM APL一期ATSS [44]四十六岁。3六十四750块4二十七岁7四十九8五十八4GFL [18]四十七366岁。351岁428岁051岁1五十九2临时机场管理局[17]四十七4六十五751岁6二十七岁951岁3六十岁。6ReppPointsv2 [10]四十八167岁551岁828岁750块9六十岁。8多级更快的R-CNN [43]44. 8六十五5四十八8二十六岁2四十七6五十八1Trident Net [19]四十六岁。867岁651岁528岁051岁2六十岁。5动态R-CNN [43]四十六岁。9六十五951岁328岁1四十九6六十岁。0D2Det [3]四十七4六十五951岁7二十七岁250块461岁3我们RS-R-CNN四十七868岁051岁828岁551岁161岁6RS-R-CNN+四十八268岁652岁429岁051岁361岁7RS掩码R-CNN+四十九069岁。2五十三429岁952岁462.8RS掩码R-CNN+*50块2七十3五十四831岁5五十三563岁9表4.没有辅助。头部，RS-Mask R-CNN通过2 AP改进了MaskR-CNN [12]，并且优于Mask-scoring R-CNN[14]其采用附加的掩模IoU头作为辅助。头方法Aux头分割性能AP髁间盒H#↓AP↑ AP50↑ AP75↑ oLRP↓Mask R-CNNMask-sc. R-CNNC三十四7三十六055. 755. 8三十七2三十八岁。7七十一2七十一0三十八岁。2三十八岁。289RS-Mask R-CNN三十六4五十七339岁2 七十1四十03表5.LVIS v1.0 valset的比较使用ResNet-50、多尺度图像（范围：[640，800]）进行12个时期。方法AP掩模 APR APC APfAP髁间盒会场RFS [11]21岁79 .第九条。621岁0二十七岁8二十二岁5CVPR 19购物车[20]23岁1十三岁1二十二岁528岁223岁7CVPR 20当量Lossv2[37]23岁7十四岁9二十二岁828岁6二十四岁2CVPR 21RFS+RS损失二十五2十六岁8二十四岁329岁9二十五96.2.2一阶段实例分割方法在这里，我们使用RS Loss训练两种不同的方法：(i) YOLACT [1]，一种实时实例分割方法，涉及采样启发式（例如OHEM [36]），aux. 头部和仔细调整的损失权重，并证明RS损失可以放弃所有通过提高其性能（ii）SOLOv2[40]作为无锚SOTA方法。YOLACT：在YOLACT [1]之后，我们通过大小为550 550的图像对RS-YOLACT进行了55个epoch的训练和测试。而不是寻找衰减学习率的时期，精心调整为YOLACT为20，42，49和52，我们简单地损失函数统一基于秩Aux. 头H#↓AP↑AP50↑AP75↑oLRP↓AP↑AP50↑AP75↑oLRP↓[22]第二十二话C三十八岁。739岁3五十七6五十七541岁5四十二668岁968岁639岁9四十4五十七3五十八4四十三4四十三968岁767岁734AP损失[6]CCC三十八岁。1三十七2五十八255. 641岁0四十269岁。2七十0三十五3三十七3五十三1五十四3三十八岁。541岁2七十一5七十5233020×个×个采用初始学习率为0的余弦退火。006.然后，我们移除（i）OHEM，（ii）语义分割头，（iii）仔细调整的任务权重（即，λ box= 1。5，λ mask= 6。125）和（iv）基于大小的归一化（即，每个实例的掩模压头损失通过地面实况区域的归一化）。删除每个启发式算法会导致轻微到显著的性能下降（至少需要重新调整λt在这些简化之后，我们的RS-YOLACT将基线提高了1。5掩模AP和3. 3盒AP。SOLOv 2：遵循Wang et al.[40]，我们在其两个不同设置上使用多尺度训练来训练具有RS损失的无锚SOLOv 2 36 个时期：（ i ） SOLOv 2-light 是使用ResNet-34和具有大小的图像的实时设置。448 448在推理。我们使用32图像/批和学习率0。012训练(ii)SOLOv 2是具有ResNet-101的SOTA设置，推断时图像大小为1333 800。我们使用16张图像/批，学习率为0。006训练由于SOLOv2不具有盒回归头，因此我们使用Dice系数作为RS损失的连续标签（参见Supp.Mat.用于分析使用不同的局部化质量作为标签（例如分割）。同样，RS Loss比基线（即，FocalLoss和Dice Loss）仅通过调整学习速率（表7）。6.2.3与SOTA的我们使用我们的RS-Mask R-CNN（即具有RS损失的标准掩码R-CNN）与SOTA方法进行比较。为了适应我们的V100 GPU的16 GB内存并保持所有设置不变，我们将掩码头中的最大propos- als数量在我们的对手 [40 ，41]之后，我们首先使用 ResNet- 101在[640，800]之间进行多尺度训练，并达到40，训练RS-Mask R-CNN 36个时期。6掩模AP（表8），将掩模R-CNN改进2。3掩模

下载后可阅读完整内容，剩余1页未读，立即下载