重新审视密集目标检测的AP损失：自适应排名对选择

112 浏览量更新于2023-10-25 收藏 909KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14187重新审视密集目标检测的AP损失：自适应排名对选择徐东利，邓锦红，李文*电子科技大学深圳高等研究院计算机科学与工程学院{dongliixu，jhdeng1997，liwenbnu}@ gmail.com摘要平均精度（AP）损失最近显示出在密集对象检测任务上的性能。然而，从成对排序的角度来看，AP损失如何影响检测器的深入理解尚未得到证实。在这项工作中，我们重新审视了平均精度（AP）损失，并揭示了关键因素是选择正样本和负样本之间的排名对。基于这一观察，我们提出了两种策略来改善AP损耗。其中第一个是一种新的自适应成对误差（APE）损失，专注于正负样本中的排序对。此外，我们选择更准确的排名对利用归一化的排名分数和本地化分数与聚类算法。在MS-COCO数据集上进行的实验支持了我们的分析，并证明了我们提出的方法与当前分类和排名损失相比的优越性。该代码可在https://github.com/Xudangliatiger/APE-Loss上获得。1. 介绍目标检测是计算机视觉的基本任务之一，其目的是预测给定图像中所有目标的类别标签和边界框坐标[3，19，21，27，30]。它在许多下游应用中也起着重要作用，例如实例分割[1，9，31，33]和人脸检测[6]。现代目标检测器可以分为两阶段方法[3，27]和一阶段方法[35，39]。单阶段检测器采用密集预测而没有区域建议阶段，因此它们也被称为密集对象检测器。单级对象检测器自然也比两级检测器更快，并且在诸如边缘设备上的实际应用中流行[35，39]。大多数单阶段对象检测器[16，19，21，26，30，38，40]依赖于分类任务来区分对象的类别，即。，直接预-*通讯作者。指示图像中每个块的类别概率。然而，它经常遭受极端的不平衡问题，因为大量的背景补丁（即，，负样本）可以压倒前景块的足够的损失梯度（即，阳性样品）。最近，为了减轻这种对阴性和阳性样本比率的敏感性，平均精度损失[4]通过显式建模样本关系将分类任务转换为排名任务，该样本关系通过比较所有样本对来计算。尽管AP损失在解决样本不平衡问题方面表现良好，但AP损失如何影响检测器的基本机制仍然被掩盖。因此，在本文中，我们从成对排序的角度深入研究AP损失[2];具体来说，AP损失的关键部分是正负样本之间的成对误差最小化。为了找出AP损失的本质属性，我们分别分析了成对误差的组成部分，并揭示了关键因素是准确和完整的排序对选择。因此，我们通过调整排名对的构造和选择方式来改善AP损失。正确的排序对选择实现了显着的性能增益的对象检测。更具体地说，我们首先推导出AP损失的重新表述，并表明它包含广义成对误差的三个主要组成部分：距离函数、平衡常数和排序对选择。我们进行了详细的实验，以验证这些不同的组件然后，我们调查现有的排名对选择策略遇到的障碍，以获得良好的性能，并确定以下问题：（1）传统策略[13，19，30，38]忽略了正样本之间的排序对，这可能导致不准确的类别概率预测，并损害非最大抑制（NMS）结果;（2）排序任务中图像内容的概率和定位任务中的准确性，即，排序得分和定位得分具有不同的分布，这使得配对选择过程中对这两个任务的关注不平衡14188(a)（b）（c）图1.我们的排名对选择和传统方法之间的比较在这里，红色和蓝色的大圆点分别用于(a)目前的成对排序方法忽略了正位置之间的配对，而专注于基于锚点的IoU来选择排序对。红色和白色框是地面实况和预设锚点。(b)FCOS检测器（本文省略了中心度分支）。(c)我们的方法可以弥补正样本之间的排名对的损失，并专注于预测分数的分布，以自适应地选择更准确的排名对。概率锚点分配（ProbabilityAnchor Assignment，PAA）[13]。为了缓解这些障碍，我们提出了一个简单而有效的自适应排名对选择（ARPS）方法，以提供完整和更准确的排名对计算成对误差。首先，我们从正样本集合中构造额外值得注意的是，APE损失也可以被认为是更准确的AP损失公式。其次，我们通过归一化将实例级排名分数和本地化分数对齐，并将它们馈送到聚类算法（例如，PAA中的高斯混合模型[13]），以在正集和负集之间创建更好的分割然后，可以容易地从两个聚类的每个组合对中获得排序对实验结果表明，该方法可以优化训练过程对任务进行更高精度的排序。这项工作的贡献有三个方面，可归纳如下：（1）我们从两两的角度对AP损失的各个部分进行了深入的实验验证，发现不适当的排序对选择是主要的障碍;2）提出了一种排序对选择算法，即：ARPS，自动开发完整的、更准确的排序对; 3）与所有其他现有的分类和排名方法相比，我们的方法具有竞争力。2. 相关工作密集物体检测：在目标检测框架中，两级检测器通常利用交叉熵损失[3，27]进行分类，而许多密集检测器配备GHM损失[14]和焦点损失[19]以缓解样本不平衡问题。此外，大量的工作已经试图提高密集对象检测，使用包括利用来自不同层的信息[8，18]、特征对齐[25，37]和准确类别概率[11，13，16，36，37]的方法。准确的目标检测：最近的研究[11，16，30，36]已经整合了阳性样本的质量信息，即：，预测框和地面实况框之间的交集（IoU），到分类任务或额外的IoU（或中心性）预测任务（例如，，IoU被用作分类任务中CE损失的标签）。当检测器能够预测阳性样本的质量时，更准确地预测类别概率（例如，，[37]中的IoU感知分类得分）将大大改善盒子选择算法NMS的结果[11]。目标检测的排名：最近，已经提出了AP损失[4]，通过提出一种新的排名框架来取代分类任务，以避免密集对象检测中的不平衡问题。aLRP损失[22]扩展了AP损失，以优化统一的检测度量LRP，并解决了定位任务。DR loss [24]重新分配正样本和负样本，以便在损失中仅使用一个期望排序对;然而，它忽略了定位质量，即，，阳性样本的IoU。学习排名模型[29]在两阶段检测器中增加了一个额外的分支，类似地，RankDetNet [20]将任务视为一个单独的排名任务，并通过IoU引导的排名损失来解决它。采用不同的方法，通过实验分析，从两两的角度验证了AP损失的各个因此，我们提出了一个排名对选择算法，ARPS，自动产生完整的和更准确的排名对，并合并到一个更准确的AP度量优化问题的定位质量。从本地化质量排名来看，排名子网：特征图排名热图标准化排名评分K×W ×DSS×4K×W ×CSS宽×高×256SS本地化子网：定位热图×4KWSS× ×4标准化定位评分宽×高×256SSBpckboµQ N qoçk FPN14189我----∈--HWFF·HWHW×··−ΣˆSISIi+，x+，y+ΣΣ∈∈⎩=相关和并行工作是RS损失[23]，这也有利于其中P+，x+，y+，c+∈R和P∈R是每个通过应用分类损失来平衡阳性样本之间的信息。尽管RS损失[23]考虑了阳性样本之间的关系，但它在本质上与我们提出的方法不同他们将IoU结合到错误驱动的更新中，以解决排名和排序的不可微性质;相比之下，我们利用IoU信息从正样本构建额外的排名对，以形成可区分的成对错误，并且可以在没有错误驱动的更新的情况下工作。训练样本选择：在本文中，我们将互换使用术语“排序对选择”和“训练样本选择”，理解排序对被公式化为来自两个样本集的不同对;即积极的和消极的。Reti-naNet [19]使用预设锚框的手动调整IoU阈值来定义阳性样本，而ATSS [38]提供自适应IoU阈值。最近的研究[12，13，分别在每个位置i+、x+、y+、c+上的采样和每个位置上的所有采样。我们训练M个二元预测器，而不是一个多类预测器，卢荣[19]。Bi+，x+，y+R4与Bi+，x+，y+r4是用于定位的预测和地面实况标签相对于水平，而i+，x+，y+表示阳性样本的位置。至于本地化，LGIoU是GIoU损失[28]。4. AP损失请注意，所有样本的预测概率P（在sigmoid函数之前）被馈送到损失函数Lp中。因此，这种损失可以利用正样本和负样本之间的排序对我们将精度损失公式化如下：L（P，P） = 1−精度n（P，P） =F P15]根据模型的学习状态自适应地分离正集和负集。3. 初步puurank−（u）=rank+（u）+rank−（u）TP+FP（五）H（P基于传统的探测器设计，设ORH×W×3是宽度W和高度H的输入图像。给予v∈NH（Pv−Pu） +H（Pv−Pu）图O中，我们使用骨干网FFPN与特征v∈P，v/=uv∈N金字塔网络（FPN）[18]，以获得如下的n个特征图：F0，F1，...，如果我... Fn= FFPN（O）（1）其中F E ∈R××Di是第i层的特征图，其中，indexu用于替换i+，x+，y+，c+以表示系数n，而rank+和rank-表示样本u在正样本集P的排名负样本集N。他们还指出，iS iSI真阳性（）和假阳性（）的数量，{0，1，…n}，Si是输出步幅，Di是维度。TP FPFi的深度。在每个Fi上应用排名子网rank和局部化子网Ioc，使得我们的目标热图如下获得：分别这里，为了近似计算排名位置，AP损失采用样本对之间的距离函数H（），其是分段阶跃函数，并且可以写为：哪里Pi=Frank（Fi）××M和Bi=Floc（Fi）（2）××4代表x−δH（x）=x/2δ，−δ< =x<=δ（六）类别概率预测和定位边界箱预测;此外，4表示用于定位的四个坐标的编码。此外，M等于CA，其中C是类的数量（COCO [17]数据集的C是80），A是锚的数量。具体地说，对于N个正样本，我们的训练目标函数Lrank可以描述为每个正样本的平均精度损失Lp这两个子网上的L秩和局部化损失L_（loc）可以表示为1，δ x<其中δ是用于控制[δ，+δ]中的H（）的斜率的调谐超参数。然而，H（）的预测误差的向量场为：不是保守的。[4]这是一个错误驱动的过程。通过手动设置误差g u作为精度损失L pw.r.t.的梯度，一个积极的预测Pu。这里，gu定义如下：如下所示1 Σ Σ Σˆˆgu=-v∈NH（P<$v−P<$u）rank+（u）+rank−（u）（七）L秩=NPOS I+c+ x+，y+Lp（Pi+，x+，y+，c+，P）（3）其中gu与P_L_p（P_u，P_u）的用法相同 Pu后面Pi∈R SiBi∈R Sii+，x+，y+14190locN阳性L=1ΣB.G.U（B.，B）（4）传播类似地，g v，梯度w.r.t. 负预测−=H（P）可以配制为：Gv 波夫i+ x+，y+14191n−∈Nˆ··−−·····uBCvuΣ表1.距离函数距离函数错误驱动更新APAP50AP75H（·）S（·）CE（S（·），0）✓✓37.437.337.357.557.457.239.238.939.1P<$u）/（rank+（u）+rank−（u）），其中gv在反向传播中以与<$Lp（P<$u，P<$）相同的方式使用。我没什么可说的Pv的vg v=因此，成对设计可以缓解正负样本的不平衡。事实上，等式（1）中所示的反向传播梯度gu的分母项（7）与方程（1）中的精度损失相同。（5）可以看作是一个平衡常数。显然，优化AP损耗等效于最小化等式中的分子（5）[22]，其也可以被认为是每对预测分数之间的距离误差之和，即，成对误差。因此，为了减少分析排名任务的冗余，我们可以将精度损失重写为成对错误损失，并使用[2]中的我们在这里将这个统一的成对误差损失LPE表示如下：LPE（P，P） =−1<$D（P−P）（8）v∈N表2.平衡常数的比较。平衡常数阈值APAP50AP75rank+（i） +rank−（u）37.357.438.9N阴性✓37.356.739.4表3. L PE上的采样策略不同。采样策略APAP50AP75 APSAPMAPLIoU阈值37.357.438.919.441.751.8ATSs39.259.441.821.443.253.7最近成对损失[2，4，29]中使用的距离函数是次要的。平衡常数：因此，我们需要一个平衡常数来规范化所有成对错误的总和。 AP损耗使用等式中的rank+（i）+rank−（u）。（7）作为其平衡常数。而文献[2]将平衡常数设为有效负样本数Nneg，使损失函数保持简单。注意，只有当Nneg足够小时，我们才能用Nneg代替平衡常数。因此，我们使用阈值来定义哪个样本是有效的（更多详情请参阅附录）。我们用这两个平衡常数进行了实证研究如表1所示，两个不同的平衡常数也产生类似的性能。37. 3对三十七（3）第三章。尽管结果表明，其中BC表示平衡常数，而D（）表示被采用作为成对误差的距离函数。最后，对于小批量中的所有阳性样本，我们有我们的排序损失L rank：Lrank=uLP E（Pu，P）/Npo s。5. 是什么导致了Pairwise Error？如等式1所示。（8），成对排序损失的重新表述由三个基本部分组成：（1）dis-ranking-（2）平衡常数BC;（3）P_v和P_u的配对选择。为了找出基本的道具-在基于排名的损失中，我们分别分析了不同设计的各个部分，并验证了成对排名方法的不同策略的效果[2，22，29]：距离函数：[2，29]采用sigmoid S（）作为距离函数，可以描述如下：S（P）P<$u）=1/（1+exp（λ（P<$uP<$v）），其中λ是调谐控制sigmoid函数斜率的超参数靠近原点。相比之下，AP损耗使用不可微函数H（），如等式（1）所述。（6）采用误差驱动更新算法进行反向传播。然而，如表1的第一行和第二行所示，当AP损失中的H（）被S（）取代时，对性能的影响很小。此外，我们还使用交叉熵损失CE（，0）来代替错误驱动更新（更多细节请参见附录）。结果如表2所示，其中可以看出，错误驱动更新的使用提供了与CE丢失相同的性能（即，、37. （3）第三章。这些结果表明，不同的14192这两个平衡常数的选择是稳健的，平衡AP损耗的恒定设计是更自适应的，并且不需要有效的采样阈值超参数。排名配对选择：至于排序对的选择，我。e. ，（Pv，Pu），ALRP丢失[22]采用TSS[38]，而AP丢失采用IoU阈值，遵循[19]。当我们使用ATSS [38]来选择排名对时，成对损失的概率显著提升;具体来说，它从37.3提升到39.2。这个结果可能是由于一些重要的排名对被忽略或者许多所选择的排名对不准确而导致的。因此，不适当的排序对选择是提高准确性的重要障碍。不适当的排名对选择分析：当前最先进的配对选择策略[4，22，24]仅依赖于预设锚框和地面实况之间的IoU;因此缺乏对图像内容的利用。根据图在图2（a）中，背景和前景可以具有相同的优先级，因为到该地面真值框的中心的距离对于它们两者是相同的，从而导致较差的排序对选择（例如，，图中两个草地位置之间将存在排名对。第2（a）段）。最近关于自适应采样选择的研究[12，13，15]将预测的类别概率和定位结果集成到正样本选择中，因为类别预测可以表示图像内容，而准确的定位结果也可以实现更好的检测精度。为了解决这个障碍，我们采用PAA [13]，它利用了分类损失和本地化损失14193NA ←∈ PNN一一个PuBC·Σ（一）（b）第（1）款算法一：自适应排序对选择输入：是一组正位置是一组负位置我是在第一天预测的对应位置和地面实况输出量：A是自适应负位置集的集合1公斤;2for alludo3.为每个正样本位置u建立一个空的负样本集u←u;4对所有v∈ P，v udo（c）第（1）款图2. (a)地面实况框中的不同位置可以在其预设锚框和地面实况之间具有相同的IoU567端8如果我不知道，如果其IoU小于p的IoU，则该样本应被认为是原始P集合Au=Auv中的自适应假阳性（aFP）样本;端蓝色框用于表示锚框，而双向箭头用于突出显示两个排名对。(b)密集对象检测可以从正位置预测许多候选框选项。完美预测这只猫的盒子显然表现出91011端部Au=Au<$N;A=A<${Au};比那些无视猫脚的人更好。(c)左：原始排名分数和本地化分数的分布。虽然它们都在[0，1]的范围内，但它们具有不同的分布。右：0-1标准化排名分数和本地化分数的分布。用于自适应采样选择。然而，当将现有的采样算法并入成对排序方法时，仍然存在两个主要问题：(1) 现有的分级对选择策略自然地忽略肯定样本之间的所有重要分级对（即，，在Eq.（8）局限于阴性样本集）.如图在图2（b）中，检测模型可以预测用于特定正位置的许多候选框。这揭示了定位精度的存在，12 返回A;在图像内容上，分类损失比定位精度更高，因为在训练结束时，分类损失将获得比定位损失更高的值6. 自适应排序对选择我们提出ARPS来计算正样本之间的自适应成对误差。我们的方法侧重于动态地选择负样本u在积极的集合根据其本地化质量。值得注意的是，每个正样本u被分配有不同的集合u以在Eq.（八）、这里，APE损失LAPE可以写为：低点：阳性样本之间的联系因此，有必要利用本地化信息进行排名损失。如果忽略正样本之间的排序对，LAPE（P，P） =−1D（Pv−Pu）（9）v∈Au检测器更有可能选择不可靠的盒子，这对最终的准确性有严重的不利影响。(2)排名分数（即，在采样处理中使用的预测排序概率S（P））具有不同的分布，其中定位得分（即，，IoUs），导致两个任务的注意力不协调。我们在图中说明了这种现象。第2段（c）分段。本地化分数通常具有接近1的值，而排名分数通常具有相对较低的值。这是因为在排名得分为正之前，采样值为1。特别地，当样本的P_u相对高于P_v时，距离函数D（·）将下降到0。为此，PAA [13]将更加关注其中平衡常数BC被设置为rank+（u）+rank−（u），而距离函数被设置为具有sigmoid CE（S（），0）的交叉熵。与先前的工作[11，16，30，36]不同，自适应成对误差将定位质量相关信息整合到正样本之间的额外排名对中，而不是回归某个值（例如，[30][ 16 ][17][18][19]我们的方法是自适应的，没有带来任何超参数，这减轻了训练过载不同的应用程序。随着负样本集的动态扩展，我们提出的APE损失考虑了正样本中的排序对，进一步提高了检测精度。O-1非标自动化oµ排序分数本地化评分标准化排名评分标准化定位评分P14194∈ P一P ANΣ− −−−××D（Pv−Pu） +D（Pv−Pu）=v∈Nv∈P，Iv

下载后可阅读完整内容，剩余1页未读，立即下载