学习统一样本加权网络的目标检测算法的损失与重量分析

188 浏览量更新于2023-10-23 收藏 2.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14173损失：3.51重量：0.25学习统一样本加权网络的目标检测算法QiCai，YingweiPan，YuWang，Jingen Liu，Ting Yao，and TaoMei†中国科学技术大学，中国合肥JDAI Research，北京，中国§JD AI Research，山景城，美国{cqcaiqi，panyw.ustc，feather1014，jingenliu，tingyao.ustc}@ gmail.com，tmei@jd.com摘要区域采样或加权对于现代基于区域的对象检测器的成功非常重要。不同于以往的一些工作，只关注“硬”样本优化目标函数时，我们认为，样本加权应该是数据依赖和任务依赖。样本对目标的重要性-（一）（b）第（1）款（c）第（1）款主动函数优化是由其不确定性决定的绑定到对象分类和边界框回归任务。为此，我们设计了一个通用的损失函数，以涵盖大多数基于区域的目标检测器与各种采样策略，然后在此基础上，我们提出了一个统一的样本加权网络来预测样本的任务权重。我们的框架简单而有效。它利用样本在分类损失、回归损失、IoU和概率得分上的不确定性分布来预测样本权重。我们的方法有几个优点：（i）。它联合学习分类和回归任务的样本权重，这与大多数以前的工作不同。（ii）。这是一个数据驱动的过程，因此它避免了一些手动参数调整。（iii）。它可以毫不费力地插入到大多数对象检测器中，并在不影响推理时间的情况下实现显著的性能改进。我们的方法已经thor-oughly评估与最近的目标检测框架，它可以不断提高检测精度。代码已在 https://github.com/caiqi/sample-weighting-network上提供。1. 介绍现代基于区域的目标检测是一个多任务学习问题，它包括目标分类和定位。它涉及区域采样（滑动窗口或区域建议），区域分类和回归，以及非最大值抑制。利用区域采样，它将对象检测转换为分类*这项工作在JD AI Research进行。图1：我们训练过程中的样本。(a)分类损失大但权重小的样本。(b)分类损失小但权重大的样本。(c)样本表现出分类评分和IoU之间的不一致。任务，其中对大量区域进行分类和回归。根据区域搜索的方式，这些检测器可以分为一级检测器[28，30，34，45]和两级检测器[2，15，16，17，27，36]。一般来说，最高精度的对象检测器基于两阶段框架，例如Faster R-CNN [36]，它在区域提议阶段快速缩小区域（其中大部分来自背景）。相比之下，单级检测器，如SSD[30]和YOLO [34]，实现更快的检测速度，但精度较低。这是由于阶级不平衡的问题（即，前景和背景区域之间的不平衡），这是对象检测的典型挑战。两阶段检测器通过以下方式处理类不平衡：一个区域建议机制，然后是各种有效的采样策略，例如采用固定的前景与背景比率进行采样虽然类似的硬示例挖掘可以应用于一级检测器，但由于大量的简单否定示例，它是低效的[28]。与在线硬示例挖掘（OHEM）[37]显式选择具有高分类损失的样本进入训练循环不同，Focal-Loss [28]提出了一种软加权策略，该策略重塑分类损失以自动降低容易样本的贡献，从而将训练集中在硬样本上。结果表明，人工调节的聚焦损失可以显著提高单级探测器的性能。e损失：3.51重量：0.25评分：0.21IoU：0.89损失：0.39重量：5.46评分：0.87IoU：0.81损失：0.03重量：7.39损失：3.88重量：0.27评分：0.19IoU：0.87：0.690.69ScorIoU：14174上述然而，如图1（a）所示（所有样本均选自我们的培训过程。）举例说明，样本具有高分类损失，但权重较小（“硬”但不重要）。相反，如果一个“简单”的样本抓住了对象类的要点，如图1（b）所示，那么它可能是重要的。此外，当分类分数高时边界框回归是准确的假设并不总是如图1（c）中所示的示例那样成立。有时分类和回归之间可能存在不一致[21]。因此，在[21]中提出了IoU-Net来预测位置置信度。此外，由于遮挡、不准确的标记和模糊的对象边界，在边界框注释中存在模糊性。换句话说，训练数据具有不确定性。因此，[19]提出了一种KL损失，同时学习边界框回归和位置不确定性。具有高不确定性（高回归损失）的样本在训练期间被向下加权。样本加权是一个非常复杂的动态过程。当应用于多任务问题的损失函数时，存在各种不确定性，这些不确定性存在于单个样本中。受[23]的启发，我们认为样本加权应该是数据依赖和任务依赖的。一方面，与以前的工作不同，样本的重要性另一方面，目标检测是一个多任务问题。样本如果检测器牺牲其准确分类的能力而产生较差的定位结果，则错误定位的检测将损害平均精度，特别是在高IoU标准下，反之亦然。基于上述思想，本文提出了一种统一的动态样本加权网络用于目标检测。这是一种简单而有效的学习样本权重的方法，它也平衡了分类和回归的任务。具体来说，除了基本的检测网络，我们设计了一个样本加权网络来预测样本该网络以分类损失、回归损失、IoU和得分为输入。它作为一个函数，将样本的当前上下文特征转换为样本权重。我们的样本加权网络已经在MS COCO [29]和Pascal VOC [11]数据集上进行了全面评估，使用了各种一级和两级检测器。ResNet-50 [18]以及强大的ResNeXt-101- 32 x4 d [43]骨干一直实现了高达1.8%的显着性能提升消融研究和分析进一步验证了我们的网络的有效性，并揭示了其内部过程。总之，我们提出了一个通用的损失函数的对象检测，它涵盖了大多数基于区域的对象的de-a。和抽样策略，并在此基础上设计了一个统一的样本加权网络。与以前的样本加权方法[3，16，19，28]相比，我们的方法具有以下优点：（i）。它联合学习分类任务和回归任务的样本权重。（ii）。它依赖于数据，可以从训练数据中学习每个样本的软权重。（iii）。它可以轻松地插入到大多数对象检测器中，并在不影响推理时间的情况下实现显著的性能提升。2. 相关工作基于区域的对象检测可以主要分为两阶段和一阶段方法。两阶段方法，例如，R-CNN [16]，Fast R-CNN[15]和Faster R-CNN [36]由区域建议阶段和区域分类阶段组成。已经设计了各种区域建议技术，例如选择性搜索[39]和区域建议网络[36]。在第二阶段中，区域被分类为对象类别，同时进行边界框回归新设计的骨干[7，9，27]、建筑[2，4，8]和独立建筑都有了显著的块[10，20，21，31，41]。受领域适应的对于识别[33，44]，另一条研究路线[1，6，24]专注于基于两阶段方法学习鲁棒和域不变检测器。相比之下，包括SSD [30]和YOLO [34]的一阶段方法去除了区域提议阶段，并直接预测对象类别和边界框偏移。这种简单性以降低精度为代价获得了更快的我们的样本加权网络（SWN）的设计，以提高一般的区域为基础的对象检测器。它可以很容易地插入到上述对象检测器中，而不会增加太多的训练成本。事实上，它根本不影响推理，这使得我们的方法非常实用。区域采样或加权策略在目标检测模型的训练中起着重要的作用随机采样和固定的前景-背景比例是早期对象检测[15，36]。然而，并非每个样本都对优化具有同等重要性。实际上，大多数阴性样本很容易分类。因此，已经提出了各种硬示例挖掘策略，包括硬否定示例挖掘[16，30]，在线硬示例挖掘（OHEM）[37]和IoU引导采样[2，28]。Focal-Loss [28]建议为样本分配软权重，而不是进行硬选择，这样它就可以重新塑造分类损失，以降低“简单”样本的权重，并将训练集中在“硬”样本上。然而，最近的一些作品[3，42]注意到“简单”的样本可能也很重要。素抽样[3]和IoU平衡损失[42]已经被改进，以使14175我1ΣΣ我损失函数优化。除了各种样本加权方法之外，我们还设计了一个通用的损失函数公式，它代表了大多数基于区域的对象检测器及其各种采样策略。在此基础上，设计了一个统一的样本加权网络，用于自适应学习各个样本的权值。我们的样本加权网络不是基于某些算法手工制作的[3，28]，而是直接从训练数据中学习的此外，与大多数现有的分类或回归方法不同，我们的方法能够平衡分类和回归任务之间的权重。多任务样本加权有两个典型的函数设计方向。利用单调递增函数w.r.t. 损失值，如AdaBoost[14][32]第32话，另一类设计单调递减函数w.r.t.损失值，0.952评分：0IoU：0.9一C评分：0.9IoU：BIoU：0.74评分：0.95图2：第一个epoch后的Faster R-CNN训练样本。虚线白色框表示地面实况。A、B、C是具有不同预测分数和IoU的三个阳性样本。其中scls=I[ai∈Acls]且sreg=I[ai∈Areg]。I[·]我我特别是当训练数据是有噪声的时。比如说，广义交叉熵[46]和SPL [26]建议更多地关注简单的样本。最近，一些学习-是指示函数，当满足条件时输出1，否则输出0。因此，我们可以雇用Scls={scls}和Sreg={sreg}来表示各种现有的我我的方法提出了自适应学习权重，从数据中提取方案，这减轻了手动调整加权函数的难度[12，22，35，38]。在多任务学习机制中，[23]提出使用同方差任务不确定性来最佳地平衡多个任务之间的权重，其中具有较高不确定性的任务在训练期间被降低权重。3. 一种统一的样本加权网络3.1. 抽样策略抽样策略。在这里，我们将区域采样重新解释为样本加权的特殊情况，它允许软采样。在下面的段落中，我们将简要解释在我们的一般损失公式下最流行的抽样或加权方法3.2. 现有抽样方法存在的问题RPN，随机抽样和OHEM区域建议网络（RPN）将每个样本分类为类别不可知的前景或背景类别。以RPN作为数据驱动的抽样策略，在本节中，我们简要回顾了培训目标-定义为：scls=I[p（ai）> ρ]I[ai ∈ ANMS]目标检测的工具和采样策略。再-对包括一级和两级对象检测器的对象检测的研究遵循类似的基于区域的范例。给定一组锚点ai∈ A，即，先前的盒子，它们被规则地放置在图像上以密集地覆盖空间位置、尺度和长宽比，我们可以将多任务培训目标总结如下：L=Lcls+1Lreg，（1）其中ρ是滤除具有低前景分数的样本的阈值，并且ANMS是应用非最大值抑制（NMS）之后的锚点集。随机抽样从AP（正）中均匀选择np个样本，从AN（负）中均匀选择nn n个样本，其中np和nn表示所需的正负样本数，分别所选样本的分类权重被分配为1，而其余的为0。相反N1i{i：ai∈Acls}N2i{i：ai∈Areg}以等概率随机抽样，OHEM优先其中Lcls（Lreg）是分类损失（回归损失），将阳性样本和阴性样本分别排列在单通道中，基于它们的损失值单调递减的顺序然后并且Acls（Areg）表示用于分类（回归）的采样锚。N1和N2是训练样本和前景样本的数量。关系Aregion将前n-p个正样本和前n-n个负样本的分类权重对于所有采样，其样本对于大多数物体探测器，cls_cls_A都现在，让我们regcls Pregi定义为si= I[si= 1]<$I[ai∈ A]。和si是用于分类的样本ai回归损失分别，我们制定了一个广义损失函数的两个阶段和一个阶段的检测器与各种采样策略，通过转换方程。1至：Focal-Loss和KL-LossFocal-Loss重塑损失函数，以降低简单样本的权重，并将训练集中在困难样本上。它可以被看作是分配软类，每个样本的分解权重：scls=（1−p（ai））γ，其中L=1sclsLcls+1ΣSregLreg、（二）我γ >0。回归损失计算在所有的posi-N1ii{i：ai∈A}n2ii{i：ai∈A}样品，sreg=I[ai∈ AP]。 KL-损失重新加权14176我σ我我我我我我我我我我我2我我我回归损失取决于估计的不确定性σ2：lihood，其中预测的位置偏移作为平均值，reg2我注册SI=1/σi。分类权重与随机抽样和OHM。给定一组锚点A=APAN，样本加权的目标是找到加权分配Scls和Sreg，以获得更好的检测性能。现在，让我们有一个关闭检查两个重要组成部分，即，NMS和标准偏差σi：p（gt|其中向量gti表示地面实况边界框坐标，并且σreg是估计的边界框坐标。为了优化回归网络，我们最大化似然的对数概率：mAP，以了解它们在样品重量中的特殊作用-∗1∗2reging. 通常，NMS过滤杂乱的边界框通过移除具有相对低分数的框。德-logp（gti|ai）−reg2 ||gti− ai ||2 − log σi、（四）σi以图2中的三个框A、B、C为例，C是通过定义Lreg= ||gti−a||2，乘以Eq. 4，-1在推理过程中，由于其相对较低的忽略常数，我们得到回归损失：与A和B相比。相反，当OHMLreg=1Lreg+λ2logσreg，（5）应用，C将被选择用于训练，因为其损失更高把太多的注意力放在ireg2ii i i其中λ2是吸收全局损失规模在检测目标上。通过将1/σreg2写为sreg，等式5我我推论我们也追求一个好的排名。 Focal-Loss也面临着类似的问题，因为它为盒子A和B分配了相同的分类权重。但是，考虑到A关于基础事实的IoU高于B的IoU，旨在提高A的分数可能更有益。这是因为mAP是在各种IoU阈值下计算的，这有利于更精确地定位检测结果。另一方面，KL-损失基于边界框不确定性为回归损失分配不同的样本权重，而忽略重新加权分类损失。鉴于现有方法的这些缺点，我们建议从数据驱动的角度联合学习分类和回归的样本权重。简而言之，先前的方法集中于重新加权分类（例如，OHEM焦点损失）或回归损失（例如，KL-可以粗略地看作是一个加权的回归损失与正则化项防止损失达到平凡的解决方案。随着偏差的增加，Lreg上的权重减小。直觉上，这种加权策略将更多的权重放在自信的样本上，并对这些样本在训练期间所做的对于分类，似然性被公式化为softmax函数：p（y |a*）= softmax（y，1 p（a*）），（6）IIII I I其中温度Ti控制分布的平坦度。p（a_i）和y_i分别是a_ip（yi）的分布|实际上是玻尔兹曼分布。为了使其形式与回归任务的形式一致，我们定义2t= 1/σcls. 设Lcls=−logsoftmax（y，p（a）），我我损失）。但我们的方法联合重新加权分类分类损失近似为：回归损失。此外，由于与民-cls1clsCLS在OHEM聚焦损失方法中的具有较高的分类损失，我们的方法侧重于Li=2L+λ1logσ，（7）CLSI重要的样本，也可能是3.3. 样本加权的联合学习组合加权分类损失Eq. 7和加权回归损失方程五是全面亏损：Li=Lcls+Lreg受最近关于不确定性预测的工作的启发，我我=1Lcls+1Lreg+λ1 logσcls +λ2 logσreg，多任务学习[23]，我们重新制定了样本加权问题的概率格式，并衡量cls2iireg2ii我我（八）通过对不确定性的反映来确定样本的重要性我们请注意，直接预测σ·2会带来实现困难。证明我们提出的方法能够实现相同的-自σ·2我预计将是积极的，通过深度学习，使加权过程变得灵活和可学习。请注意，我们的工作与[23]不同，因为我们的概率建模不仅解决了样本加权，而且还解决了分类和本地化任务之间的平衡。然而，工作[23]只考虑了多任务设置，其中所有训练样本分母位置的σ·2在[23]之后，我们替代地预测mi：=10g（σ·），这使得优化在数值上更稳定并且允许无约束的预测输出。最终，总损失函数变为：Li=exp（−2mcls）Lcls+λ1mcls重量相同。我我我+exp（−2μmreg）Lreg+λ2mreg，（九）目标检测目标可以分解为回归和分类任务。给定第i个样本，我们首先将回归任务建模为高斯型-我我我理论分析。存在用于对象检测器训练的两种相反的样本加权策略一方面σσσ14177我我样本加权网络MiWFGHKLcls我Lreggti我 +概率iIoUi（c）第（1）款a我检测器区域特征地面实况训练目标exp（−2m）*Lcls我我+1 ” *m 我+的CLSregregexp（−2*m）*Lii2+reg”*m我×“1Xexp（−2*）×“2Xexp（−2*）ROI池Lcls我mcls我Lreg我FCS地面实况gti+…（一）（b）第（1）款a我我mreg损失L0L1LiLi+1…LN图3：样本加权网络（SWN）的框架。(a)两级检测器的一般框架（可以用一级检测器代替）。在前向传递中，每个样本都与其地面真实值进行比较。计算分类和回归损失。在反向传递中，对所有样本的损失进行平均以优化模型参数。 (b)监控基地探测网和SWN的损失函数的故障。梯度可以被反向传播到检测网络，样本加权网络 (c)描述了SWN设计。它吸收Lcls、Lreg、Probi、IoUi作为输入，并为每个样本生成权重。我另一方面，有些人更喜欢另一方面，一些人认为，当排名对评估度量更重要时，“简单”的例子需要更多的关注，而类不平衡问题是肤浅的然而，手动判断训练样本的难度或噪声通常是不现实的因此，涉及样本水平方差，如等式中所示。5引入了更多的灵活性，因为它允许基于每个样本特征的有效性自动调整样本权重取Eq的导数。5关于差异σreg，等于零并求解（假设λ2=1），ireg，102reg最优方差值满足σ=L. 插头-我由检测目标监督的检测器网络，它采用一些输入特征来预测每个样本的权重我们的网络非常简单，由两个层次的多层感知（MLP）网络组成，如图3（c）所示。而不是直接使用样本的视觉特征，这实际上错过了相应的地面真相的信息，我们设计了四个区分功能，从检测器本身。它利用了估计和地面实况之间的相互作用，即，IoU和分类得分，因为分类和回归损失在某种程度上固有地反映了预测的具体而言，它采用了以下四个特点：分类损失Lcls，回归损失Lreg，IoU我我将该值返回Eq.5并忽略常量，总体回归目标降至logLreg.该函数是一个凹非减函数，vors Lreg=||gti−a||2→0，而它只适用于软以及P robi，相对于iv el y，作为输入。对于n个样本，IoUi和Probi被设置为0。接下来，我们引入四个函数F，G，H和K将输入转换为密集特征，以获得更全面的表示。这些i i2大Lreg值的惩罚。这使得算法鲁棒性的离群值和噪声样本具有大的gra，潜在地降低性能。这也防止了算法过多地集中在Lreg非常大的硬样本上。这样，回归函数都是由MLP神经网络实现的我们将这些特征封装到一个样本级特征di中：d=concat（F（Lcls）;G（Lreg）;H（IoU）;K（Prob）），我我函数方程5有利于选择具有较大我我我我（十）IoU鼓励更快的速度，将损失推向负无穷大。这反过来又激励特征学习过程对这些样本施加更多权重，而具有相对较小IoU的样本仍然在接下来的步骤中，自适应样本权重mcls第一区分类损失和回归损失的mi是从样本特征di学习，如下：mcls=Wcls（di）和mreg=Wreg（di），（11）在训练过程中保持适度的坡度我我注意，我们有不同的权重（exp（−2mcls）和其中Wcls和Wreg表示两个单独的MLP网。regi用于分类和回归权重预测。（exp（−2mi）为每个样本量身定制。这一点至关重要因为它允许在样本水平上调整多任务平衡权重。在下一节中，我们将描述损失函数如何通过我们的网络设计有效地驱动网络学习有用的样本权重。3.4. 统一样本加权网络设计图3显示了我们的样本加权网络（SWN）的框架。正如我们所看到的，SWN是一个子-如图3所示，我们的SWN没有假设这意味着它可以与大多数基于区域的对象检测器一起工作，包括Faster R-CNN，RetinaNet和Mask R-CNN。为了证明我们的方法的泛化，我们对原始框架进行了最小的修改。Faster R-CNN由区域建议网络（RPN）和Fast R-CNN网络组成。我们保持RPN不变，并将样本加权网络插入Fast R-CNN分支。对于每个样品，14178我们首先计算Lcls，Lreg，IoUi和Probi作为输入，样本加权网络，我们采用Adam [25]，我我向SWN发送。预测权重exp（−2mcls）0.001的学习率，并遵循相同的学习率去-第一区和exp（−2 mi），然后插入Eq。9和将梯度反向传播到基本检测网络和样本加权网络。对于RetinaNet，我们遵循类似的过程来为每个样本生成分类和由于Mask R-CNN有一个额外的掩码分支，我们将另一个分支纳入样本加权网络以生成用于掩码丢失的自适应权重，其中分类，边界框回归和掩码预测被联合估计。为了匹配额外的掩码权重，我们还将掩码损失作为样本加权网络的输入。在实验中，我们发现由于负样本和正样本之间的不确定性比回归的不确定性更大，所以预测的分类权重并不稳定。因此，我们在每一批中分别平均正样本和负样本的分类权重，这可以被视为分类损失的权重预测的平滑版本。4. 实验我们对具有挑战性的MS COCO [29]和Pascal VOC[11]数据集进行了彻底的实验，并使用一级和两级检测器评估了我们的方法。4.1. 数据集和评估指标MS COCO [29]包含80个日常场景中常见的对象类别。按照惯例，我们使用train2017分割进行培训。它有115k的图像和860k的注释对象。我们测试了我们的方法，以及其他比较方法COCO测试开发子集。由于test-dev的标签不公开，我们将所有结果提交给评估服务器进行评估。然而，所有消融实验均在包含5k图像的val 2017子集上进行评价。Pascal VOC [11]涵盖了日常生活中常见的20个类别我们合并了VOC07训练和VOC12训练分割进行训练，并在VOC07测试分割上进行评估。我们的评估指标是不同IoU阈值下的标准COCO风格平均精度（mAP），范围为0.5至0.95，间隔为0.05。它反映了各种标准下的检测性能，有利于高精度的定位检测结果。4.2. 实现细节我们基于公开可用的mmdetection工具箱[5]实现了我们的方法。在我们的实验中，所有模型都使用4个Tesla P40 GPU（每个GPU保存4个图像）进行端到端训练，持续12个epoch，这通常被称为1x训练计划。不包括SWN的基本检测网络使用随机梯度下降（SGD）进行训练。初始学习率被设置为0.02，在第8和第11个时期之后降低0.1。为cay调度作为基础检测网络。重量-两个优化器都使用0.0001的Cay。除非另有说明，否则其他超参数将严格遵循mm检测中的设置。我们初始化的FC层在SWN的高斯分布的权重。标准偏差和平均值分别设置为0.0001和0，因此在训练开始时，预测的权重在样本中几乎是均匀的我们还执行了预测的通过将值裁剪出界限，使权重落入[-2，2]的范围内，这在实践中稳定了训练。选择Faster R-CNN、Mask R-CNN和RetinaNet作为代表性的两阶段和一阶段检测器。两个经典的网络，ResNet-50和ResNext-101- 32 x4 d被用作骨干，默认情况下使用FPN。请注意，我们的方法是相当普遍的，因此不限于上述检测器和骨干。事实上，它适用于任何两级和一级检测器，并且对骨干网络的选择是透明的。4.3. 结果如前所述，我们的样本加权网络（SWN）可以应用于任何基于区域的对象检测器。为了验证我们的方法在性能提升方面的有效性，我们在Faster R-CNN，Mask R-CNN和RetinaNet（最新的一级检测器之一，性能优于SSD）上进行了全面表1显示了COCOtest-dev的平均精度（AP）结果。由于所提出的SWN，所有的检测器都取得了一致的，帐篷的性能增益高达1.8%。特别是，RetinaNet的提升非常令人印象深刻，因为它已经有了强大的样本加权策略。所有的改进表明，我们的SWN是互补的检测器的内部样本加权策略。此外，从列APS、APM和APL（分别针对小型、中型和大型对象的AP结果），我们注意到我们的加权策略对于“大型”对象更有效此外，我们可以从结果中推断，AP提升在较高的IoU下更大。值得一提的是，SWN只影响检测器培训，额外成本最小例如，将SWN添加到“Faster R-CNN + ResNet-50”检测器中，每次迭代的训练时间仅从1.009s增加到1.024s，参数从418.1M增加更重要的是，由于推断完全相同，我们的方法不会给测试增加任何额外成本，这使得我们的抽样策略更实用。我们还对PASCAL VOC 2007数据集进行了类似的评估。实验报告总结于表2中。在AP方面，我们的方法进一步证明了其对性能改进的有效性。根据这两个流行的基准14179表1：COCO test-dev上不同探测器的结果方法骨干APAP50AP75APSAPMAPL两级探测器更快的 R-CNN 更快的R-CNN 掩码R-CNN 掩码R-CNNResNet-50ResNeXt-10136.740.337.541.458.862.759.463.439.644.040.745.221.624.422.124.539.843.740.644.944.949.846.251.8更快的R-CNN w/SWN更快的R-CNNw/SWN Mask R-CNNw/SWN MaskResNet-50ResNeXt-101ResNet-5038.5 ↑1. 841.4 ↑1. 139.0 ↑1. 542.5 ↑1. 158.761.958.964.142.145.342.746.622.024.121.924.841.344.742.146.048.252.049.253.5单级探测器RetinaNetResNeXt-10135.939.056.059.738.341.919.822.338.942.545.048.9RetinaNet w/SWNRetinaNet w/SWNResNet-50ResNeXt-10137.2 ↑1. 340.8 ↑1. 855.860.139.843.820.623.240.144.046.251.1表2：不同检测器对V0C2007测试的结果。方法骨干AP两级探测器Faster R-CNNResNet-5051.0Faster R-CNNResNeXt-10154.2更快的R-CNNw/SWNResNet-5052.5 ↑1.5更快的R-CNNw/SWNResNeXt-101 56.0 ↑1.8单级探测器RetinaNetResNet-5052.0RetinaNetResNeXt-10155.3RetinaNet w/SWNResNet-5053.4 ↑1.4RetinaNet w/SWNResNeXt-101 56.8 ↑1.5数据集，我们可以相信我们的SWN可以始终如一地提高基于区域的对象检测器的性能。图4展示了RetinaNet和RetinaNet+SWN在COCO数据集上的一些定性性能比较。在用于可视化检测到的对象的共同阈值0.5之后，我们仅在其分数高于阈值时说明检测。正如我们所看到的，一些所谓的我们推测，原来的RetinaNet可能过于集中在“硬”样本。因此，“容易”的样本得到的关注较少，对模型训练的贡献也较少。这些“简单”示例的分数已经被压低，这导致了缺失检测。图4的目的不是为了显示“坏”RetinaNet在分数校准中的应用，因为当降低阈值时，无论如何都可以检测到 “ 容易 ” 的分数。图 4 实际上说明了与RetinaNet不同，SWN还有另一条研究路线，旨在改进边界框回归。换句话说，他们试图通过将IoU作为替代学习来优化回归损失表3：与基于IoU的方法的性能比较。AP AP50 AP75 APS APM APL基线36.4 58.4 39.1 21.6 40.1 46.6[21]第二十一话37.0 58.3----[21]第二十一话37.6 56.2----SWN38.2 58.1 41.6 21.3 41.7 50.2SWN + Soft-NMS 39.2 58.6 43.3 22.3 42.6 51.1表4：每个组件的有效性。CLS REGAPAP50AP75APSAPMAPLC36.4三十六7 ↑0。358.458.739.139.521.621.240.140.246.647.9C三十七0 ↑0。656.640.121.240.447.9CC38.2 ↑1.858.141.621.341.750.2pervision 或其与 NMS 的组合基于 Faster R-CNN +ResNet-50 + FPN框架，我们在COCOval 2017上做了一个比较，如表3所示。性能比较表明，我们的SWN及其扩展 SWN+Soft-NMS 都优于 IoU-Net 和 IoU-Net+NMS。它进一步证实了学习样本权重对于分类和回归的优点。4.4. 消融研究和分析为了更好地了解我们的SWN，我们使用Faster R-CNN + ResNet-50作为基线，进一步对COCOval 2017进行了我们做的第一组实验是验证我们的方法对每个任务的效果，即，对象分类（CLS）和回归（REG）。表4显示了详细的结果。如果一个组件被选中，这意味着我们的加权策略已经应用于它。结果清楚地表明，当样本加权仅应用于一个任务时，性能提升微不足道。不过，将其联合应用于这两项任务可以实现1.8%的显著性能提升。这一观察结果与我们的SWN设计目标一14180致。14181狗_0.87库思_0.51冰箱_0.52狗_0.85床_0.77人_0.53瓶_0.56瓶_0.66床_0.78瓶_0.68人_0.71人_0.66热狗_0.61飞机_0.56飞机_0.97飞机_0.54卡车_0.54飞机_0.91飞机_0.63床_0.78（一）（b）第（1）款（c）第（1）款（d）其他事项床_0.77瓶_0.68狗_0.87卡车_0.54瓶_0.56飞机_0.54库思_0.51人_0.53飞机_0.56人_0.66飞机_0.97热狗_0.61冰箱_0.52瓶_0.66狗_0.85飞机_0.63飞机_0.91人_0.71图4：RetinaNet（第一行）和RetinaNet w/SWN（第二行）的检测结果示例。RetinaNet错过了检测一些已经被增强的视网膜网和SWN成功探测表5：通过改变λ的性能比较。λ0.10.30.50.71.0AP29.337.438.237.937.2有两个正则化超参数（即，λ1和λ2）的损失函数。在这组实验中，我们为这些参数分配了不同的值，以检查我们的方法对不同正则化幅度的敏感程度。在我们的实现中，两个参数总是共享相同的值。表5显示了比较结果。结果表明，当λ在0.3 ~ 0.7范围内时，结果相对稳定，当λ为0.5时，性能最佳。为了理解学习过程，我们绘制了不同IoU下样本的分类损失分布，如图5所示我们从两个训练时期中提取数据，以推导出基线和SWN的分布。X轴表示具有地面实况的特定IoU处的样本。具有较高IoU的样本应具有较少的不确定性，因此损失优化应考虑较高的权重。从分布中有两个观察结果首先，在优化过程中，分类损失将更多地关注“简单”样本（即，具有高IoU值的那些）。其次，我们的方法通常在计算损失时对具有高IoU值的样本赋予更多权重所有的观察结果都是一致的我们之前对SWN的5. 结论我们已经证明了基于区域的对象检测的样本加权问题是数据依赖的和任务依赖的。样本的重要性图5：不同IoU阳性样本的分类损失分布。更高的IoU意味着更容易的样本。Y轴表示加权亏损百分比。例如，SWN-Epoch 12在IoU=0.85时的百分比=20%意味着IoU在0.8和0.9之间的样本的损失占总损失的42%。检测最优化也由其不确定性决定，其不确定性在两个相关的分类和回归损失中示出。我们推导出一个通用的原则性损失函数，它可以从训练数据中自动学习样本任务权重。它是用一个简单而有效的神经网络实现的，它可以很容易地插入到大多数基于区域的检测器中，而无需额外的推理成本。所提出的方法已经在不同的数据集上进行了彻底的测试一些定性的结果清楚地表明，我们的方法可以检测到一些在未来的工作中，我们将致力于对这一现象的完整解释此外，我们可以继续改进我们的方法，使其能够在不同的优化阶段更智能地处理14182引用[1] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR，2019年。[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。[3] Yuhang Cao，Kai Chen，Chen Change Loy，and DahuaLin. 目标检测中的主要样本注意力。 arXiv 预印本arXiv：1904.04821，2019。[4] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在CVPR，2019年。[5] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al.检测：打开mmlab检测工具箱和基准。arXiv预印本arXiv：1906.07155，2019。[6] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR，2018年。[7] Yukang Chen ，Tong Yang ，Xiangyu Zhang，GaofengMeng，Chunhong Pan，and Jian Sun.Detnas：对象检测上的神经架构搜索。NeurIPS，2019。[8] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。InNeurIPS，2016.[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017.[10] Jiajun Deng，Yingwei Pan，Ting Yao，Wengang Zhou，Houqiang Li，and Tao Mei.用于视频对象检测的关系蒸馏网络。在ICCV，2019年。[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，2010年。[12] 杨帆，飞天，秦涛，李向阳，刘铁岩。学会教书。ICLR，2018年。[13] Pedro F Felzenszwalb ， Ross B Girshick ， and DavidMcAllester. 基于可变形零件模型的级联目标检测。CVPR，2010。[14] Yoav Freund和Robert E Schapire。在线学习的决策理论推广及其在boosting中的应用。JCSS，1997年。[15] 罗斯·格希克。快速R-CNN。在ICCV，2015年。[16] Ross Girshick，Jeff Donahue，Trevor

下载后可阅读完整内容，剩余1页未读，立即下载