减轻噪音的锚点学习，提高目标检测精度

51 浏览量更新于2023-10-23 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10588从噪声锚点学习用于一阶段目标检测李恒多1，吴祖轩1，陈竺1，熊彩明2，理查德·索赫尔2，拉里·S·戴维斯11马里兰大学2Salesforce Research{hdli，zxwu，chenzhu，lsd}@cs.umd.edu，{cxiong，rsocher}@salesforce.com摘要现有技术的对象检测器依赖于对可能的锚点的广泛列表进行回归和分类，所述锚点基于它们与对应的地面实况对象的交并（IoU）而被划分为正样本和负样本。以IoU为条件的这种苛刻的分割导致二进制标签，其潜在地有噪声并且对训练具有挑战性。在本文中，我们提出了减轻噪音的不完美的标签分配，这样的锚的contribu- tions动态地确定了一个精心构造的清洁度得分与每个锚。探索回归和分类分支的输出，清洁度分数，估计没有招致-（一）（b）第（1）款（c）第（1）款在任何附加的计算开销中，不仅用作软标签来监督分类分支的训练，而且还用作样本重加权因子以改进定位和分类精度。我们对COCO进行了广泛的实验，并证明，除其他事项外，所提出的方法稳步提高Reti，naNet增加了1.2%，具有各种骨干。1. 介绍对象检测器旨在识别在图像中包围感兴趣的对象的刚性边界框，并且在过去几年中已经稳步改进。提高准确性的关键是将目标检测简化为图像分类问题。特别地，一组糖果盒，即，具有各种预定尺寸和纵横比的锚被广泛用于回归到期望的位置并被分类到对象标签（或背景）中。虽然回归分支的训练是直接的，具有可用对象的地面实况（GT）坐标，但优化分类网络具有挑战性：只有一小部分锚与GT盒充分重叠。这些数量有限的提案与大量剩余的提案*作者在Salesforce Research实习时完成了部分工作。†通讯作者。图1：候选锚点及其分配的标签（由颜色表示）。上图：经典的训练方法分配二进制标签，即，基于CAN之间的IoU，对锚点为正（蓝色）didates和地面实况框（绿色）。底部：软标签，由颜色密度表示，通过我们基于锚的拟议清洁度度量的方法最好用数码观看。负锚，在焦点损失[22]或硬样本挖掘方法[36，31，26]等技术的帮助下学习良好的分类器，可以减轻数据不平衡问题。尽管这种训练方案在各种检测器中取得了成功[30，28，24，21，22]，但正锚和负锚的分离依赖于设计选择-其具有GT框的IoU高于预定义的前期阈值的提案被视为正样本，而具有低于背景阈值的IoU的提案被视为负样本。尽管简单有效，但使用预定义阈值只是基于自组织分析，更重要的是，将锚定物硬划分为阳性或阴性是值得怀疑的。与标准图像分类问题不同，在标准图像分类问题中，正样本和负样本更清楚地由物体是否出现来确定，与GT框重叠的锚对应于物体的补丁，覆盖物体的一小部分。负积极10589对象的范围，因此只包含部分信息。因此，根据锚点与GT框的重叠而分配给锚点的标签是模糊的。例如，图1中的长颈鹿头将被视为阴性样本，因为IoU较低，但它包含对定位和分类都有用的有意义的语义信息此外，由于使用矩形表示对象的限制，与GT框满意重叠的轴对齐候选可能包含背景杂波甚至其他对象（参见图1中卡车上的绿色汽车和膝上型计算机前面的狗）因此，用于训练分类分支的标签是噪声的，并且定义完美干净的标签是具有挑战性的，因为没有oracle信息来测量建议的质量。此外，标签中的噪声通过采样方法[31，26]或焦点损失[22]进一步放大，因为模糊和有噪声的样本往往会产生大的损失[2]。有鉴于此，我们明确考虑锚点的标签噪声，旨在减少其在分类和回归过程中的影响。特别是，我们将清洁度得分与每个锚点相关联，以在训练期间自适应地调整其重要性。定义清洁度并非无关紧要，因为关于锚钉质量的信息有限。然而，这些分数被期望为（1）自动确定而不是基于启发法;（2）软且连续，使得锚不被分成具有硬阈值的正集合和负集合;（3）可以反映锚被成功地回归到期望位置并被分类为对象（或背景）标签的概率。已经证明，当标签被破坏并且有噪声时，网络的输出可以指示样本的噪声水平，用于图像分类任务-网络倾向于在早期快速学习干净的样本并对其进行自信的预测，同时缓慢但渐进地识别有噪声的样本[13，15，29，34，18]。本着这种精神，我们使用网络输出作为代理来估计锚的清洁度。我们将锚的清洁度分数定义为来自回归子网络的定位精度和由分类头产生的预测分数的组合。这样的定义不仅满足了上述要求，而且还将分类分支与其回归分支相关联。这将定位信息注入分类子网，从而减少训练和测试之间的差异，因为建议只是基于NMS的分类置信度进行排名，而不知道评估期间的定位准确性。然后，清洁度分数作为软标签来监督分类分支的训练。由于它们反映了网络预测的不确定性，并且包含比二进制标签更丰富的信息，因此可以防止网络对噪声样本产生过度自信的预测。此外，清洁度得分，通过非线性变换被用作样本重加权因子，以调节不同锚对分类和回归网络的损失函数的贡献。这有助于模型关注具有高清洁度分数的样本，指示准确的回归和分类潜力，并忽略有噪声的锚点。值得指出的是，基于网络输出的分数是在不产生额外计算成本的情况下得出的，并且可以很容易地插入到基于锚的对象检测器中。我们使用最先进的一级检测器对COCO进行了广泛的研究，并证明我们的方法使用各种骨干网络以最小的手术损失功能将基线提高了1.2%在特别是，通过多尺度训练的常见实践[12]，我们的方法将RetinaNet [22]提高到41.8%，并分别以ResNet-101[14]和ResNeXt-101- 32×8d[39]作为骨干提高了44.1%的AP，分别比原始RetinaNet [22]高2.7%和3.3%，并且更好或更好。与最先进的一级物体探测器相当我们还表明，所提出的方法也可以应用于两阶段的检测器，以提高性能。2. 相关工作基于锚的物体探测器。继承自transmitting滑动窗口范例，大多数现代对象检测器在一组边界框先验的条件下执行分类和框回归[28，24，30，22，2、33、19]。特别是像Reti这样的一级探测器，naNet [22]，SSD [24]和YOLOv 2 [28]直接使用预定义的锚点，而像Faster R-CNN [30]这样的两阶段检测器使用从锚点中提炼的生成区域建议一次或以级联方式。基于这些框架[32，37，25，2，44，7，6，46，4]，新提出了许多检测器。然而，它们依赖于预定义的IoU阈值来为提案分配二元正标签和负标签，以便训练分类分支。相反，我们将每个框与精心设计的清洁度得分相关联，作为软标签，动态调整不同建议的贡献，从而使训练具有噪声容忍性。无锚物体探测器。最近有一些研究试图通过将对象检测公式化为关键点局部化问题来解决由使用锚点引起的问题。特别地，它们旨在定位对象关键点，诸如角[16]、中心[40，8]和覆盖[35]或外接[42]对象的空间范围的代表点。所发现的关键点要么直接分组到框中[16，8]，要么用作框回归的参考点[35，42，40]。它们达到了与基于锚点的同行相当的精度，证实了传统的分类监测使用锚点是不完美的。然而，这些基于关键点的10590方法通常需要更多的训练时间来收敛。相反，我们根据引入的清洁度分数对损失函数进行轻微修改来改进锚这有助于有效的训练，但有竞争力的性能，而无需额外的计算成本。对象检测中的采样/重新加权。目标检测器的训练通常由于背景候选的大百分比而面临巨大的类不平衡。解决这种不平衡的常见技术是采用固定的前景与背景比率对批次进行采样[11，30]。在ad-[0，1]是预测的分类置信度。wp和wn表示在焦点损失[22]中使用的加权参数，以降低分类良好的样本的权重。与其中基于对象的存在更清楚地定义标签的标准图像分类任务相比，用作监督信号的锚的标签基于它们与GT框的重叠以如下方式被人为如果IoU≥fg-阈值，则为1此外，已经提出了各种硬[31，26，5，24]和软[22，17，3]它们的核心思想是防止简单样本压倒损失，如果IoUbg-阈值，则t=0-1否则。（二）然后集中训练硬样本。尽管这些采样策略有效，但它们往往会放大正样本和负样本的不完美分离所引起的噪声，因为观察到混淆样本会产生更大的损失[13，1]。我们证明了我们的方法是这些采样方法的补充，同时alleviates噪声的影响进行训练。用嘈杂的标签学习。已经对从噪声标签中学习进行了广泛的研究，其中噪声通常由深度神经网络[15，13，34，18，29]或图形模型[38，20]等建模。然后，这些模型的输出用于重新加权训练样本或推断正确的标签。这些方法专注于图像分类的任务相比之下，我们的重点是对象检测，其中标签噪声来自于仅基于IoU的标签分配策略产生的阳性和阴性候选者的不完美分裂。3. 背景我们简要回顾了标准的协议和设计选择培训一阶段检测器，并讨论其局限性。现有技术的一级检测器将原始图像作为输入并产生一组候选建议（即，锚点），以特征向量的形式，用分类分支预测潜在对象的标签，并通过回归分支回归地面实况边界框的坐标。特别地，回归分支通常使用平滑的BCE1损失[10]来鼓励边界框的正确回归，而分类分支则通过二进制交叉熵（BCE）损失1：BCE（p，t）=−t·wp·log（p）−（1−t）·wn ·log（1−p），（1）其中t∈{0，1}表示背景（bg）为0且前景（fg）为1的候选框的标签，且p∈[1]为了简单起见，我们考虑二进制分类，并将其扩展到多个类是简单的。fg阈值通常设置为0。5、在部分由PASCAL VOC [9]检测台驱动马克[31]，并已被经验发现是有效的各种检测器。类似地，如果具有GT的盒的IoU小于设置为0的bg阈值，则盒被标记为背景。4在RetinaNet [22].在最受欢迎的检测器，识别阳性和阴性样本的启发式方法可能不是理想的，因为对于所有对象，阈值是手动选择和固定的，而不管它们的类别、形状、大小等。例如，对于不规则形状的对象，具有高IoU的候选框可能包含背景杂波或甚至其他对象。另一方面，具有较小IoU的锚可能仍然包含重要线索。例如，图1中包含长颈鹿头的候选框将被认为是背景，但它包含用于识别和定位长颈鹿的有用外观信息。这种硬标签分配导致难以学习的噪声样本，并产生相对较大的损失。因此，当使用OHEM [31]或焦点损失[22]等重新采样方法来减轻类别不平衡和容易的样本优势问题时，噪声将被放大，因为更多的注意力集中在这些困难但可能没有意义的建议上。4. 我们的方法如上所述，由正样本和负样本的不完美分割以及用矩形表示对象的限制引起的噪声不仅混淆了分类分支以导出良好的决策边界，而且还误导了重新采样/加权方法。因此，我们建议通过动态调整其重要性来减少噪声建议的影响。为了实现这一点，我们引入了锚的清洁度的概念，基于它们被成功分类和回归的可能性。清洁度分数是连续的，以便自适应地控制不同建议的贡献。在训练网络时从噪声标签中学习的最新进展表明，网络的置信度得分指示了在进行训练时样本的噪声水平10591我我1−x预测，即，网络可以很容易地学习具有高置信度的简单样本，同时倾向于对困难和噪声样本做出不确定的预测。受此观察的启发，我们使用从检测器中的分类和定位分支中学习到的知识定义锚点的清洁度评分.c=α·loc_a+（1−α）·cls_cforb∈Apos0对于b∈ Aneg.（三）这里，b是候选框，loc_a和cls_c表示定位准确度和分类置信度，rep，α是控制参数，平衡定位和分类的影响。此外，Apos和A阴性分别代表阳性和阴性候选人从每个GT对象的前N个建议中根据其在框细化之前的IoU请注意，由于锚点的密集放置，大多数候选框仅覆盖背景区域，并且不应被标记和学习为阳性样本;因此，我们仅将清洁度得分分配给一组看似正确的阳性候选，而其他候选框则被标记为0.此外，我们使用分类网络的直接输出作为cls_c，并将loc_a实例化为回归候选框与其匹配的GT-对象之间的IoU。注意，尽管我们使用网络输出，但该方法不会遭受冷启动-cls_c的初始值和来自回归分支的输出都很小，因此导出的清洁度得分是锚点和匹配的GT对象之间的IoU的近似值，这不会在前几次迭代期间使训练不稳定。软标签。清洁度分数很容易用作软标签，以通过用c代替t来控制不同锚点对公式1中BCE损失的贡献。由于清洁度分数是基于loc_a和cls_c之间的权衡来动态估计的，因此网络可以专注于清洁样本，而不是不正确标记的噪声样本。此外，这些软且连续的标签允许网络与检测评估协议更兼容，其中所有最终预测都基于其在NMS中的分类分数进行排名，如将在实验中所示原因有两个方面：（1）软标签可以防止模型产生过于自信的二值化决策，从而产生更有意义的排名;（2）在软标签中对定位精度进行建模，减少了分类和定位之间的误对准。样品重新称重。 One-stage detectors are usually con-fronted with a severe imbalance of training data with a large算法1我们的方法的算法输入：I、GT、B、cls_c、loc_a、α、γ、NI是输入图像，GT是I内的地面实况对象的集合，B是候选框的集合（即，锚），cls_c是候选者的对应基础真值类的分类置信度loc_a是候选的定位精度，α、γ为调节因子，N控制阳性候选集的大小输出：分类和箱回归的损失Lcls，Lreg。1：A阳性，A阴性，S ←阴性2：对于gt ∈ GT，3：indices=argsort（IoU（B，gt））<$按降序排序4：Apos← Apos{indices[0：N]：gt}5：结束6：Aneg← {（B-Apos）.indices：0}7：forbi∈Aposdo8：c=α ·loc_ai+（1−α）·cls_ci=等式39：r=（α · f（loc_ai）+（1−α）· f（cls_ci））γ=等式410：S←S{bi：{c，r}}11：结束12：f或bi∈AnegdoS<$S<${bi：{c<$0. 0，r←1。0}}结束或13：Lcls=BCE（pi，ci）=等式515：返回Lcls，Lreg基于公式3中定义的清洁度评分。虽然我们可以直接使用Eqn。对于重新加权，由于LOC_A和CLS_C被归一化，所以不同建议之间的清洁度分数的变化并不显著大。为了鼓励大的方差，我们通过非线性函数f（x）=1传递loc_a和cls_c。的每个框b∈ Apos的重新加权因子r变为：r=（α·f（loc_a）+（1−α）·f（cls_c））γ，（4）其中γ用于进一步扩大评分方差，在实验中固定为1。此外，我们还将r归一化为平均值为1，因为所有阳性样本的平均值均为1，因为它们在重新加权之前同样重要。以这种方式重新加权建议不仅淡化了网络无法建模的非常硬的样本的作用，而且还有助于重新访问被认为分类良好的干净样本，以提高分类的区分能力。最后，利用上述软标签和基于清洁度分数的采样重新加权因子，用于训练分类Lcls和回归Lreg网络的损失函数可以写为：一些消极的建议，只有一些积极的建议。为了缓解这个问题，焦点损失[22]减少了容易样本的损失，并更多地关注硬样本和噪声样本。但是，对于带有标签噪声的提案，Lcls=一个人我一个人riBCE（pi，ci）+AnegJBCE（pj，cj），（5）在训练中强调，即使他们可以简单地异常值因此，我们还建议重新称量样品Lreg=r ismooth_1.（六）我10592在这里，r用于对两种损失进行加权，BCE损失以c作为监督信号进行计算，并且广泛采用的平滑BCE1损失用于回归[22]。我们的方法的完整算法是在Alg。1.一、5. 实验5.1. 实验装置数据集。我们在COCO基准上评估了所提出的方法[23]。根据标准的训练和测试协议[22，21]，我们使用trainval 35 k集（80K训练图像和35K验证图像的联合）进行训练，使用minival集（5K图像）或test-dev 2017集进行测试。性能由COCO平均精度（AP）衡量[23]。对于消融，我们报告了minival的结果。对于主要结果，我们在test-dev 2017集上报告了AP，其中注释不可公开。探测器我们主要使用RetinaNet [22]进行实验，这是一种最先进的一级检测器，具有不同的主干，包括ResNet-50，ResNet-101 [14]和ResNeXt-101。32×8d [39]。此外，我们证明了这个想法也可以扩展到使用更快的R-CNN的两阶段检测器[30]。对于消融研究，我们使用RetinaNet，ResNet-50的骨干实作详细数据。我们使用PyTorch实现，采用4个GPU进行训练，批量大小为8（每个GPU 2个图像）使用SGD，并优化为总共180K次迭代（1×计划），除非另有说明初始学习率被设置为0。01更快的R-CNN乙腈-0.005，然后在120K和160K迭代时除以10。我们使用0的权重衰减。0001和0的动量。9 .第九条。如[22，35，46，17，27]所示，输入图像的大小调整为具有800的短边，而长边边保持小于1333;我们还执行随机水平图像翻转以用于数据增强。当执行多尺度训练时，输入图像在较短侧的尺度{640，672，704，736，768，800}为多尺度测试，我们使用尺度{400，500，600，700，900，1000，1100，1200}和水平翻转作为增强[12]第12话5.2. 主要结果我们使用 RetinaNet 报告了我们的方法在COCOtest-dev 2017集上的性能，并在表2中与其他最先进的方法进行了比较。特别是，我们比较了RetinaNet 的变体，如 FSAF [46] ， POD [27] ， GHM[17]，Cas-Retinanet [43]，Refinedet [44]和几种无锚方法，包括FCOS [35]，Cor-nernet [16]，ExtremeNet [45]和CenterNets [40，8]。为公平的比较，按照常见的设置[22，46，27，43]，我们还用更长的时间表（1.5x）第5.1节中提到的时间表）和刻度抖动。从表中可以看出，在不引入任何计算开销的情况下，我们的方法分别将ResNet-101和ResNeXt- 101-32×8d 作为骨干网络的 RetinaNet AP 提高了 2.7% 和3.3%，证实了我们方法的有效性值得注意的是，这些RetinaNet模型是用焦点损失训练的[22]，这证明了我们的方法与用于解决训练样本不平衡的技术的兼容性。此外，我们的方法实现了更好的或可比的性能相比，各种国家的最先进的检测器在单尺度和多尺度测试scenar- ios。请注意，我们的方法表现得更好或与一些具有多个细化阶段的检测器相当[44，43] 或更长的训练时间表（例如，a 2x of default sched- ule）[35，45，16，40]。拥有强大的骨干网络ResNeXt-101-32×8d和多尺度测试，我们实现了45.5%的高AP。5.3. 消融研究不同的主干架构。我们还对RetinaNet的不同骨干网络进行了实验，包括ResNet-50、ResNet-101和ResNeXt-101-32×8d。结果总结于表1中。我们观察到，我们的方法对于不同的骨架稳定地将基线提高了102%。方法主干AP AP50AP75基线ResNet-5036.2 54.0 38.7我们的38.0+1.856.9 40.6基线ResNet-10138.1 56.4 40.7我们的40.2+2.159.3 42.9基线ResNeXt-10140.3 59.2 43.1我们的42.3+2.061.6 45.4表1：我们的方法的结果以及与基线的，使用RetinaNet [22]与不同的骨干网络。软标签（SL）和重新加权（SR）的贡献。为了证明基于清洁度评分的两个关键组件的有效性，我们在表3中分别报告了使用SL和SR的方法的结果。我们可以看到，应用软标签或从清洁度评分中得出的重新加权系数可以改善基线，而将这两种方法结合起来可以提供最大的性能改善。值得指出的是，当不应用软标签时，简单地用硬二进制样本重新加权样本会带来相对较小的性能增益，这表明使用软监督信号来训练分类分支是至关重要的。10593方法骨干APAP50AP75APSAPMAPLRetinaNet [22]ResNet-10139.159.142.321.942.750.2Regionlets [41]ResNet-10139.359.8n/a21.743.750.9GHM [17]ResNet-10139.960.842.520.343.654.1[35]第三十五话ResNet-10141.060.744.124.044.151.0[43]第四十三话ResNet-10141.160.745.023.744.452.9[27]第二十七话ResNet-10141.562.444.924.544.852.9[44]第四十四话ResNet-10136.4/41.857.5/62.939.5/45.716.6/25.639.9/45.151.4/54.1FSAF [46]ResNet-10140.9/42.861.5/63.144.0/46.524.0/27.844.2/25.551.3/53.2CenterNet（Duan等人）[8]沙漏-5241.6/43.559.4/61.344.2/46.722.5/25.343.1/45.354.1/55.0RetinaNet [22]ResNXet-101-32×8d40.861.144.124.144.251.2GHM [17]ResNXet-101-32×8d41.662.844.2222.345.155.3[35]第三十五话ResNXet-101-32×8d42.162.145.225.644.952.0FSAF [46]ResNXet-101-32×8d42.9/44.663.8/65.246.3/48.626.6/29.746.2/47.152.7/54.6[16]第十六话沙漏-10440.5/42.156.5/57.843.1/45.319.4/20.842.7/44.853.9/56.7[45]第四十五话沙漏-10440.2/43.755.5/60.543.2/47.020.4/24.143.2/46.953.1/57.6CenterNet（Zhou等人）[40]第40话沙漏-10442.1/45.161.1/63.945.9/49.324.1/26.645.5/47.152.8/57.7CenterNet（Duan等人）[8]沙漏-10444.9/47.062.4/64.548.1/50.725.6/28.947.4/49.957.4/58.9我们ResNet-10141.8/43.461.1/62.544.9/47.023.4/26.044.9/46.052.9/55.4我们ResNXet-101-32×8d44.1/45.563.8/65.047.5/49.326.0/28.247.4/48.455.0/57.6水平翻转用于单尺度和多尺度测试†更长的培训时间表表2：COCOtest-dev 2017套件的检测结果（% AP）。报告单尺度/多尺度（如存在）检测结果。我们的方法将RetinaNet检测器提高了1.3%AP，并且与最先进的一级检测器相比，获得了更好或相当的性能。SLSrAPAP50AP75APSAPMAPL曼斯。这也表明，考虑到两个分类-36.254.038.719.340.148.8定义清洁度C37.156.540.019.440.949.3分数很重要。C36.7 54.4 39.3 19.5 40.3 49.4C C37.7 56.5 40.2 20.0 41.1 51.2表3：在我们的方法中，软标签（SL）和样品重新加权（SR）的组分的有效性的消融实验超参数敏感性。我们还分析了在我们的方法中使用的不同超参数的敏感性：γ控制对不同样本的聚焦程度，N控制Apos的大小，α平衡cls_c和loc_a当计算清洁度分数时。如表4所示，我们的方法对于不同的参数是相对鲁棒的。我们观察到γ和N应该一起选择，因为大的γ将训练集中在一小部分样本上，而大的N将更多噪声样本添加到Apos;检测性能将急剧下降，但是如果两个都太大了。当γ=0时，所有样本都被相等地重新加权以用于网络学习，因此SR被禁用。α的影响揭示了cls_c和loc_a之间的权衡，以计算标签分配和样本重新加权的清洁度得分。如表4c所示，α=0。75产生最好的结果-loc_a往往比cls_c更重要，因为较大的α提供更好的性能。扩展到两级检测器。我们的方法提供了明确的性能增益为一级检测器，我们假设，它可以很容易地插入到多级检测器，产生更好的建议。我们用更快的R-CNN验证了我们的算法 [30]。特别是，我们首先用我们的方法训练区域建议网络（RPN）来分析召回，因为一级检测器是RPN的变体。表5显示了使用不同方法生成的建议的召回率。我们可以看到，我们的方法明显优于基线RPN模型-AR100，AR300和AR1000分别为7.8，5.4，3.4%它还优于[44]中的两阶段迭代RPN和类似于[ 44 ]的请注意，当保留较少数量的建议时，观察到较大的改进，这表明我们的方法可以更好地根据实际定位精度对预测进行我们还分析了软标签和样本重新加权的贡献，并观察到类似的趋势，在一阶段检测器。然后，我们通过仅对RPN使用我们的方法，以端到端的方式使用FPN [21]训练更快的R-CNN [30]。结果示于表6中。我们观察到1%的mAP改善相比，标准的训练更快的rcnns，10594γAP AP50AP75N γAP AP50AP75αAP AP50AP750.0 37.3 56.3 39.70.25 37.3 56.2 39.91.2537.756.240.3601.037.155.839.50.537.756.540.21.537.755.940.5801.036.655.638.90.7538.056.940.61.7535.952.938.4801.2536.955.539.21.037.856.540.5(a) 改变γ以进行样品重新加权。(b) 改变N以收集A位置(c) 改变平衡因子α。表4：在我们的方法中关于超参数的灵敏度的烧蚀实验：（a）γ调节不同样品上的聚焦程度。（b）N控制A位置的大小。（c）在计算清洁度分数时α平衡cls_c和loc_a方法AR100AR300AR1000RPN基线[21]43.351.656.9RPN-0.546.853.456.2RPN+迭代[37]49.756.060.0RefineRPN [37，44]50.256.360.6RPN-0.5 + SR48.354.656.6我们51.157.060.3表5：在COCOminival上评估的地区提案的结果，通过平均召回率（AR）衡量。RPN基线使用{0.3，0.7}IoU阈值进行GT分配（如果为0.3，则为背景，如果>0.7，则为前景，如果介于两者之间，则忽略），而RPN-0.5用于分离阳性和阴性样本。SR表示样本重新加权。方法APAP50AP75APSAPMAPL基线36.858.539.821.039.947.6我们37.859.241.121.741.348.9表6：使用FPN的更快R-CNN的结果，使用和不使用我们的方法。证明了我们的方法也适用于两阶段检测器，而无需任何额外的计算。5.4. 讨论在本节中，我们将进行各种定量和定性分析，以调查我们的方法带来的性能增益。召回vs.精度为了更好地理解我们的方法如何提高检测性能，我们绘制了精度与。图2中的召回曲线，并分析性能增益。如图所示，我们的方法在不同条件下（如IoU阈值、对象大小和评估期间每个图像的最大预测数量）稳步提升检测性能。同样值得注意的是，我们的方法在所有召回率下都获得了明显的精度增益，因此它可能有利于现实世界中的各种对象检测应用。图2：精度与我们的方法的召回率（PR）曲线，以及在不同IoU阈值、对象大小（面积）和每个图像的最大预测数（maxDet）下与基线的比较。分类置信度预测。我们还分析了预测的分类置信度，并调查我们提出的方法是否有助于缓解过度置信预测的问题，并减少分类预测和定位精度之间的差异对于基线检测器和我们的方法，我们在NMS之前和之后收集他们对COCOminival集的前2%如表7所示，使用我们的方法训练的检测器产生比分类基线相对温和的预测。尽管在NMS之前，基线的预测提供了更高的平均IoU，但在运行NMS之后，我们的方法超过了它。这表明我们的方法更友好0.037.156.640.0301.037.756.540.20.537.656.940.1401.037.756.840.31.037.756.540.2501.037.356.239.910595杯椅子人行李箱狗自行车电视棒球棒滑板车图3：具有高IoU的示例候选框（红色）与地面实况框（绿色），但包含噪声内容，通过我们的方法进行了降权。参数和地面实况框分别用红色和绿色表示。当在评估期间执行排序时，因为预测的标签更软并且包含更多的排序信息，因此与NMS更兼容。为了进一步验证我们的方法将分类置信度与定位精度相关联的能力，我们计算了NMS前这些预测的Pearson相关系数，基线和我们的方法的分类置信度和输出IoU之间的系数这表明考虑两个分支的清洁度分数能够帮助弥合分类和本地化之间的差距。NMS前方法NMS后方法平均置信度平均IoU平均置信度平均IoU基线0.8450.8950.9580.914我们0.7820.8820.9200.921表7：使用NMS之前（左）和之后（右）的预测，具有匹配的地面实况的平均分类置信度和输出IoU定性分析除了定量结果外，我们还在图3中定性地证明了我们的方法能够降低噪声锚的权重。如图所示，我们的方法为包含不相关对象或复杂背景的模糊样本分配较小的软标签和重新加权系数。例如，图3的左上角中的围绕杯子的锚被女士和先生的手所遮挡类似地，与该人相关联的顶部中间的锚也被向下加权，因为它大部分包含了马的不相关区域这验证了标签噪声可以通过我们的清洁度定义来建模，并且因此被减轻以改善对象检测的训练过程。我们注意到，这些模糊的锚是相当常见的-这样的锚可以很容易地在十个不同的类别中找到，如图3所示。6. 结论在本文中，我们已经提出了一种方法，这是解释性地设计，以减轻用于训练对象检测器的锚噪声特别是，我们为每个锚点引入了精心设计的这些清洁度分数，利用分类和检测分支的输出，作为代理来测量锚点被成功回归和分类的概率它们进一步被用作软监督信号来训练分类网络并重新加权样本以实现更好的定位和分类性能。在COCO上进行了广泛的研究，结果表明，所提出的方法的有效性，定量和定性。确认HL、ZW和LSD由情报高级研究项目活动（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC 00345提供支持。美国政府被授权复制和分发重印本用于政府目的，而不受任何版权注释。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA、DOI/IBC或美国的官方政策或认可，无论是明示还是暗示政府的10596引用[1] D ev anshArpit，Stanisła wJastrz ebski，NicolasBallas，Da vid Krueger，Emmanuel Bengio，Maxinder S Kanwal，Tegan Maharaj，Asja Fischer，Aaron Courville，YoshuaBengio ， et al. 深入研究深度网络中的记忆 ICML ，2017。3[2] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：高质量的对象检测和实例分割。arXiv预印本arXiv：1906.09756，2019。2[3] Yuhang Cao，Kai Chen，Chen Change Loy，and DahuaLin. 目标检测中的主要样本注意力。 arXiv 预印本arXiv：1904.04821，2019。3[4] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在CVPR，2019年。2[5] Bowen Cheng ， Yunchao Wei ， Honghui Shi ， RogerioFeris，Jinjun Xiong，and Thomas Huang.重温rcnn：论快速rcnn分类能力的觉醒。在ECCV，2018。3[6] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。InNeurIPS，2016. 2[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 2[8] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在ICCV，2019年。二、五、六[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，2010年。3[10] 罗斯·格希克。快速R-CNN。CVPR，2015。3[11] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。3[12] Ross Girshick ， Ilija Radosavovic ， Georgia Gkioxari ，Piotr Dollár ， and Kaiming He. 探测器 https ：//github.com/facebookresearch/detectron ， 2018 年。二、五[13] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor Tsang，and Masashi Sugiyama.合作教学：使用非常嘈杂的标签对深度神经网络进行鲁棒训练。NeurIPS，2018。二、三[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。二、五[15] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-Jia Li，and Li Fei-Fei. Mentornet：在损坏的标签上学习数据驱动的深度神经网络课程。ICML，2017。二、三[16] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在ECCV，2018。二、五、六[17] Buyu Li，Yu Liu，and Xiaogang Wang.梯度协调单级检测器。在AAAI，2019年。三五六[18] 李俊南，黄永康，赵奇，和莫汉·S·康康-哈利.学习从有噪声的标记数据中学习。在CVPR，2019年。二、三10597[19] Yanghao Li ， Yuntao Chen ， Naiyan Wang ， andZhaoxiang Zhang. 用于对象检测的尺度感知三叉神经网络在ICCV，2019年。2[20] Yuncheng Li，Jianchao Yang，Yale Song，LiangliangCao，Jiebo Luo，and Li-Jia Li.用蒸馏从噪声标签中学习

下载后可阅读完整内容，剩余1页未读，立即下载