AP损失：一阶段目标检测器的排序问题优化方法的优化算法和性能改善

168 浏览量更新于2023-10-18 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5119基于AP损失Kean Chen1，Jianguo Li2，Weiyao Lin1，John See3，Ji Wang4，Lingyu Duan5，Zhibo Chen4，Changwei He4，JunniZou11上海交通大学，中国，2英特尔实验室，中国3马来西亚多媒体大学4中国腾讯优图实验室5中国北京大学摘要一阶段目标检测器通过同时优化分类损失和定位损失来训练，由于锚点数量过多，前者存在严重的前景-背景类不平衡问题。本文通过提出一种新的框架来解决这个问题，该框架将单阶段检测器中的分类任务替换为排序任务，并采用平均精度损失（AP损失）来解决排序问题。由于其不可微性和非凸性，AP损耗不能直接优化。为此，我们开发了一种新的优化算法，该算法无缝结合了感知器学习中的错误驱动更新方案和深度网络中的反向传播算法。我们从理论和实验上验证了所提出的算法具有良好的收敛性实验结果表明，显着的性能改善，在国家的最先进的一级检测器的基础上，AP损失超过不同种类的分类损失在各种基准测试，而不改变网络架构。1. 介绍目标检测需要同时从大背景中定位和识别目标，由于前景和背景之间的不平衡，这仍然具有挑战性基于深度学习的检测解决方案通常采用多任务架构，该架构处理类(a) Acc= 0。88月6月5月83日月12月1月10 月13月15月2月4月14月9月16 月11月7（b）AP = 0。33图1：红色虚线框是地面实况对象框。橙色填充框和其他空白框分别是具有阳性和阴性地面实况标签的锚点。(a)结果表明，由于大量的真阴性，检测性能很差，但分类精度仍然很高。(b)显示排名度量AP可以更好地反映实际情况，因为它没有遭受大量的真阴性。摘要盒子的数量会导致前景和背景之间的不平衡据观察，分类度量可能是非常高的一个平凡的解决方案，预测几乎所有的候选框的负标签，而检测性能很差。图1a示出了一个这样的示例。为了在一级对象检测器中解决这个问题，一些作品引入了新的分类损失，例如平衡的具有不同损失函数的量化任务和定位任务分类任务旨在识别给定框中的对象，而定位任务旨在预测对象的精确边界框。两阶段检测器[24，7，2，14]首先生成有限数量的对象框建议，以便可以通过对这些建议采用分类任务来解决检测问题。然而，对于单阶段检测器，情况是不同的，其需要直接从密集的预先设计的候选框预测对象类大量电子邮件：wylin@sjtu.edu.cn[ 22 ]，[23]，[24]，[25]，[26]，[27]，[28]，[29]，例如在线硬示例挖掘（OHEM）[18，29]。这些损失独立地对每个样本（锚箱）进行建模，并试图在分类损失中重新加权前景和背景样本以满足不平衡条件;这是在不考虑不同样本之间的关系的情况下完成的。所设计的平衡权重是手工制作的超参数，其在数据集之间不能很好地推广。我们认为，分类任务和检测任务之间的差距阻碍了一阶段检测器的性能。在本文中，而不是修改分类损失，我们建议取代0.120.130.09 0.15分类0.050.860.07 零点零四分检测器0.020.810.14 0.03交叉熵0.080.01零点零六0.10损失0.120.130.09 0.15排名0.050.860.07 零点零四分检测器0.020.810.14 0.03AP-损失0.080.010.06 零点一NNNNNPNNNPNNNNNN5120AP-损失图2：拟议办法的总体框架我们取代了一个阶段的检测器与排名任务，排名过程中产生的AP损失和相应的标签向量的主要条款的分类任务优化算法是基于误差驱动的学习计划结合反向传播。由于没有修改，本地化任务分支未在此处显示分类任务与一级检测器中的排序任务，其中相关联的排序损失明确地对样本关系进行建模，并且不随正样本和负样本的比率而变化如图1b所示，我们采用平均精度（AP）作为目标损失，这本质上与目标检测的评估指标更加一致。然而，由于不可微性和不可分解性，直接优化AP损失是不平凡的，因此标准梯度下降方法不适用于这种情况。本文主要从三个方面进行了研究。首先，在结构化SVM模型中研究基于AP的损失[34，19]，其在线性SVM模型中受到限制，使得性能受到限制。其次，提出了结构化铰链损失[20]，以优化AP损失的上限，而不是损失本身。第三，提出了近似梯度法[31，9]来优化AP损失，由于AP损失的非凸性和非拟凸性，即使对于线性模型，这种方法效率也较低，容易陷入局部最优。因此，AP损耗的优化仍然是一个悬而未决的问题在本文中，我们通过用排名任务取代一级检测器中的分类任务来解决这一挑战，因此我们用基于排名的损失AP损失来处理类不平衡问题。此外，我们提出了一种新的错误驱动的学习算法，有效地优化不可微AP为基础的目标函数。更具体地，将一些额外的变换添加到一级检测器的分数输出以获得AP损失，其包括将分数变换为成对差异的线性变换，以及将成对差异变换为AP损失的主要项的非线性且不可微的然后，AP损失可以通过主项与标签向量之间的点积获得。值得注意的是，在AP损耗上使用梯度方法的困难在于使梯度通过不可微的激活函数。受感知器学习算法[25]的启发，我们采用了一种错误驱动的学习方案，将更新信号直接通过不可微激活函数。与梯度法不同的是，我们的学习方案给每个变量一个与其误差成比例的更新信号。然后，我们采用反向传播算法将更新信号传递到神经网络的权值。我们从理论和实验上证明了所提出的优化算法不受目标函数的不可微性和非凸性的影响。本文的主要贡献总结如下：• 我们提出了一个新的框架，在一个阶段的对象检测器，采用排名损失来处理类的不平衡问题。• 我们提出了一个错误驱动的学习算法，可以有效地优化不可微和非凸AP为基础的目标函数的理论和实验验证。• 我们表现出显着的性能改善与所提出的方法对国家的最先进的一级检测器在不同种类的分类损失，而不改变模型架构。2. 相关工作单级检测器：在目标检测中，一阶段方法比两阶段方法具有相对简单的结构和更高的效率。OverFeat [27]是第一个基于CNN的一级检测器之一。此后，提出了不同的一级检测器设计，包括SSD [18]、YOLO [22]、DSSD [6]和DSOD [28，13]。这些方法表现出良好的处理效率作为一个阶段的检测器，但通常产生较低的精度比两个阶段的检测器。最近，RetinaNet [15]和Re- fineDet [35]通过一些创新设计缩小了一阶段方法和两阶段方法之间的性能差距（特别是在具有挑战性的COCO基准[16]上）。众所周知，性能检测器差异转型XIJ激活功能Lij回来传播优化错误驱动更新标签分配排名标签转型排序过程ʘYij5121一级探测器的优势在于密集设计的锚点，这会在前地和背景样本之间引入极端的不平衡。为了应对这一挑战，已经提出了OHEM [18，29]和Focal Loss [15]然而，有两个障碍仍有待讨论.首先，手工制作的用于权重平衡的超参数不能很好地在数据集上推广。其次，样本锚点之间的关系远没有得到很好的建模。AP作为对象检测的损失：平均精度(AP)被广泛用作许多评估指标，任务，如目标检测[5]和信息检索[26]。然而，由于其不可微性和非凸性，AP远不是一个好的和常见的目标检测的优化目标的选择。已经提出了一些方法来优化对象检测中的AP损失，例如线性结构SVM模型中的AP损失[34，19]，作为AP损失上限的结构铰链损失[20]，近似梯度方法[31，9]，用基于AP的度量微调预训练对象检测器的再学习[21]。虽然这些方法在优化AP损耗方面给出了有价值的结果，但由于固有的限制，它们的性能仍然受到限制。具体而言，所提出的方法在4个方面与它们不同。(1)我们的方法可以用于任何可扩展的线性或非线性模型，如神经网络，而[34，19]仅适用于线性SVM模型。(2)我们的方法直接优化了AP损耗，而[20]在松弛后引入了显著的损耗间隙。(3)我们的方法不近似梯度，也不像[31，9]那样受到目标函数非凸性的影响。(4)我们的方法可以以端到端的方式训练检测器，而[21]不能。感知器学习算法：我们优化算法的核心是“错误驱动更新”，K(a)（b）第（1）款图3：标签分配的比较红色虚线框是k类的地面真值框。(a)在传统的单阶段检测器分类任务中，锚被分配一个前景标签k。(b)在我们的排名任务框架中，锚点复制K次，我们将第k个锚点分配给标签1，其他锚点为0。naNet [15]. 图2显示了我们的方法的两个关键组成部分，即的排序过程和错误驱动的优化算法。下面，我们将首先介绍如何从传统的分数输出中导出AP损失。然后，我们将介绍错误驱动的优化算法。最后，对所提出的优化算法进行了理论分析，并给出了训练结果.请注意，所有更改都是在分类分支的丢失部分进行的，而不会更改主干模型和本地化分支。3.1. 排名任务和AP损失3.1.1排名任务在传统的一级检测器中，给定输入图像I，假设预定义的盒子（也称为锚）集合为B，每个盒子bi∈B将被分配一个标签ti∈{-1，0，1，. . . ，K}，其中标签1 K表示对象类ID，标签在训练和测试阶段期间，检测器为每个框bi输出得分向量（s0，...，sK）。从感知器学习算法[25]推广，i i并且有助于克服目标函数不可微的困难。感知器是一种简单的人工神经元，使用Heaviside阶跃函数作为激活函数。学习算法最早由Frank Rosenblatt发明[25]。由于感知器中的Heaviside阶跃函数是不可微的，因此不适合梯度法。感知器学习算法不使用交叉熵等替代损失，而是直接在神经元的权重上采用错误驱动的更新方案。如果训练数据是线性可分的，则该算法保证在有限步内收敛进一步的工作，如[11，1，32]已经研究和改进了感知器学习算法的稳定性和鲁棒性。3. 方法我们的目标是在一阶段检测器中用基于AP损失的排名任务取代分类任务，如Reti，在我们的框架中，而不是一个盒子与K+ 1di-为了对分数进行预测，我们将每个框bi复制K次以获得bik，其中k= 1，· · ·，K，并且第k个框负责第k个类。每个盒子bik将通过相同的IoU策略被分配一个标签tik∈{−1，0，1}（标签- bel −1表示不计入排名损失）。因此，在训练和测试阶段，检测器将针对每个框bik仅预测一个标量分数sik。图3说明了我们的标签配方和与传统情况的差异。排名任务规定，每个积极的盒子都应该比所有消极的盒子排名更高。请注意，我们的排名结果的AP是在所有班级的分数这与对象检测系统的评估度量meanAP略有不同，meanAP计算每个类别的AP并获得平均值。我们以这种方式计算AP，因为在排名每个班级都不能单独实现这一目标。5122IJIJ3.1.2AP-损失为了简单起见，我们仍然使用B表示复制后的锚盒集，使用bi表示第i个锚盒，不带复制下标。因此，每个框bi对应于一个标量分数si和一个二进制标签ti。一些反-除了AP度量之外，其他基于排名的度量也可以用于为我们的框架设计排名损失。一个例子是AUC-损失[12]，其测量ROC曲线下面积用于排名目的，并且具有略微不同的要求形成一个等级损失公式，L′（x）=H（xij）（七）如图2所示。一、差异化改造将分数si转换为差分形式i，j，xij=−（s（bi;θ）−s（bj;θ））=−（si−sj）（1）其中s（bi;θ）是基于CNN的评分函数，具有框bi的权重θ。排名标签转换将标签ti转换为相应的成对排序形式i，j，yij=1ti=1，tj=0（2）其中1是仅当下标条件成立时等于1的指示符函数（即，，ti= 1，tj= 0），否则为0。然后，我们定义一个向量值激活函数L（·）来产生AP损失的主项，如下所示：IJ| N|由于AP与目标检测任务的评价指标一致，我们认为AP损失比AUC损失更适合于该任务，并将在我们的实验中提供实证研究。3.2. 优化算法3.2.1错误驱动更新回顾感知器学习算法，输入变量的更新是我们采用这一思想，并进一步推广它，以适应激活函数的情况，Lij（x）=（xij）1 +k∈P <$N，k/=iH（xik）=Lij（三）向量值的输入和输出。假设x ij是输入，Lij是当前输出，因此xij的更新为其中H（·）是Heaviside阶跃函数：.xij=L∗H（x）=0x0的1x≥0（四）其中L ij是期望输出。注意AP损失当每一项都达到最小可能值0Lij·yij= 0。有两种情况。如果yij= 1，则当不存在适当排序时，两个样品得分相等（即，，sj，sj=sj）。为了避免失去一般性，我们将把所有的排名作为一个适当的排名，打破关系任意。现在，我们可以将AP损失LAP公式化为：设置所需输出L= 0。如果yij= 0，则我们不关心更新并将其设置为0，因为它对更新没有贡献。AP丢失。因此，更新可以简化为xij= −Lij·yij（9）LAP = 1−AP= 1−1|P|排名+（i）rank（i）i∈P3.2.2反向传播=1− 1ΣΣ1+j∈P，j/=iH（xij）Σ（五）我们现在有了所需的矢量形式更新，然后将找到模型权重的更新，这将有助于|P|1个以上i∈Pj∈P，jiH（xij）+j∈NH（xij）为x选择最合适的运动。我们用点积1Σ Σ为|P|Liji∈Pj ∈N1Σ为|P|Liji、j·yij1为|P|L（x），y为了测量连续运动的相似性，并且规则化权重的变化（即，e. 基于L2-范数的其中rank（i）和rank+（i）表示排名位置惩罚条款优化问题可以写为：arg min{− <$$>x，x（θ（n）+<$θ）−x（θ（n））<$$>+λ<$$>θ<$2}（10）在所有有效样本和阳性样本中得分si的，P={i|t i= 1}，N ={i|t i= 0}，|P|是集合P、L和y大小分别是所有L ij和y ij的向量形式，k，k表示两个输入向量的点积。其中，x，y，L ∈ Rd，d =（|P|+的|N|）2.其中θ（n）表示第n步的模型权重。由此，x（θ）的一阶展开由下式给出：θ x（θ（n））51232最后，优化问题可以写为：x（θ）=x（θ（n））+∂θ·（θ−θ（n））+o（θ−θ（n））（11）最小LAPθ（θ）= 1−AP（θ）=1|P|L（x（θ）），y其中，x（θ（n））/xθ是向量值函数x（θ）在θ（n）处的雅可比矩阵. 忽略高阶无穷小，其中θ表示检测器模型的权重作为行动-我们得到逐步最小化过程：vation函数L（·）是不可微的，一种新的优化方法，·学习计划，而不是标准课程梯度下降法θ（n+1）-θ（n） = argmin{−xmax，∆θθ x（θ（n））∂θθ（十二）5124最优解可通过寻找驻点来求得. 然后，最优的θ的形式与导数的链式法则一致，这意味着，它可以通过将xij的梯度设置为− <$xij（c.f.等式9），并继续进行反向传播。因此，得分si的梯度可以通过差分变换后向传播梯度来获得算法1内插AP的小批量训练输入：小批量中的所有分数{si}和相应的标签{ti}输出：输入{gi}1的梯度：i，gi←02：MaxPrec ←03：P ← {i|ti= 1}，N ← {i|{0}{0}{0}4：O←argsort（{si|i ∈ P}）n按升序排序的分数的索引5：对于i∈O，gi=− Σ杰克斯·JK·J.K.伊什Σ=xij−Σ黄记6：计算xij=sj−sifor allj∈P<$N和Lijfor allj∈ N根据公式3和公式14j，kijjΣ Σ（十三）Σ7：Prec←1−j∈N Lij=3.3. 分析Lji·yji−JLij·yijJ8：如果Prec≥ MaxPrec，则第9章：最大化10：else插值11：j∈N，Lij←Lij·（1−MaxPrec）/（1−Prec）收敛：为了更好地了解12：如果结束13：gi← −Σ根据等式13，针对AP损失问题，首先从理论上分析了优化算法的收敛性，并将其推广到传统的自适应学习算法。命题1如果以下条件成立，则AP损耗优化算法保证以有限步收敛：(1) 学习模型是线性的;(2) 训练数据是线性可分离的。补充资料附录1提供了这一命题的证明。虽然收敛性由于需要强条件而有些弱，但它是非平凡的，因为即使对于线性模型和线性可分数据的情况，AP损失函数也不是凸或拟凸的，使得基于梯度下降的算法即使在这样强的条件下也可能仍然无法收敛于平滑的AP损失函数。补充资料附录2提供了一个这样的例子这意味着，在这样的条件下，我们的算法仍然比近似梯度下降算法更好地优化AP损失。此外，通过一些轻微的修改，即使训练数据是不可分离的，累积的AP损失也可以通过学习模型的最佳性能按比例限制。更多详情载于补充资料附录3一致性：除了收敛性，我们观察到，所提出的优化算法是内在一致的广泛使用的分类损失函数。观察1当激活函数L（·）为softmax函数和损失增广的阶跃函数时，我们的优化算法可以分别表示为交叉熵损失和铰链损失下的梯度下降算法。该观察结果的详细分析见补充材料附录4。我们认为，所观察到的一致性的基础上的“错误驱动”的十四：根据等式13，15：结束16：i，gi←gi/|P|标准化这里的预测是指激活函数的输出。换句话说，它们的激活函数有一个很好的特性：预测误差的矢量场是保守的，允许它是某个替代损失函数的梯度。然而，我们的激活函数不具有此属性，这使得我们的优化无法表示为具有任何代理损失函数的梯度下降。3.4. 训练算法的细节Minibatch训练minibatch训练策略广泛用于深度学习框架[8，18，15]，因为它比批量大小等于1的情况更稳定小批量训练对我们的优化算法有很大帮助，可以避免所谓的AP损失可以从一批图像和具有多个锚框的单个图像两者中考虑一个极端的情况：我们的检测器可以预测图像I1和图像I2中的完美排名，但是图像I1中的最低分数甚至大于图像I2中的最高分数。由于两幅图像之间存在在小批量中聚合图像上的分数可以避免这样的问题，因此小批量训练对于良好的收敛和良好的性能至关重要。分段阶跃函数在训练的早期阶段，分数si彼此非常接近（即，几乎所有的Heaviside阶跃函数H（x）的输入都接近零），因此，输入的一个小的变化将引起输出的大的差异，这使更新过程不稳定。为了解决这个问题，我们用分段阶跃函数代替H（x）：0，x−δX众所周知，那些广泛使用的损失函数的梯度与它们的预测误差成比例，其中f（x）=12 δ+ 0. 五、−δ≤x≤ δ1，δ

下载后可阅读完整内容，剩余1页未读，立即下载