平衡目标检测的一致性预测与谐波损失的研究

94 浏览量更新于2023-12-18 收藏 1.3MB PDF 举报

目标检测

联系方式

身份认证购VIP最低享 7 折!

30元优惠券

3631IoU：0.85平衡目标检测的一致性预测王克扬，张磊Learning Intelligence Vision Essential（LiVE）组重庆大学微电子与通信工程学院{wangkeyang，leizhang}@ cqu.edu.cn摘要分类和回归是目标检测器的两大支柱。在大多数基于CNN的探测器中，这两个支柱是独立优化的如果它们之间没有直接的相互作用这显然会导致在推理阶段出现大量分类得分高但定位精度低或分类得分低但定位精度高的不一致预测，特别是对于形状不规则和遮挡的对象，这严重影响了预测的准确性。IoU：0.55Cls评分：0.83Cls评分：0.43IoU：0.55Cls评分：0.83(a) 基线IoU：0.59Cls评分：0.73IoU：0.94Cls评分：0.88IoU：0.94Cls评分：0.88(b) 我们损害了现有检测器在N-MS之后的检测性能为了协调平衡目标检测的预测一致性，我们提出了一个谐波损失来协调分类分支和定位分支的优化。Harmonic损失使这两个分支能够在训练过程中相互监督和促进，从而在推理阶段产生具有高度共现的顶级分类和定位的一致预测此外，为了防止定位损失在训练阶段被离群值所支配，提出了谐波IoU损失来协调不同IoU水平样本的定位损失的权重。基准PASCAL VOC和MS COCO的综合实验证明了我们的模型的通用性和有效性，以促进现有的对象检测器的国家的最先进的精度。1. 介绍目标检测是广泛的一组下游视觉应用，如人员重新识别[3]、实例分割[9]和动作识别[8]。随着深度神经网络的建立，近年来目标检测取得了重大进展总的来说，所有使用深度CNN的检测器可以分为两类：（1）多阶段方法，包括[7，22，15，1，14，30]。对于多阶段目标检测器，依次采用多阶段分类和定位，使模型更加强大图1.不规则（例如，尾部）和闭塞（例如，背景）的对象检测输出的基线检测器和我们的检测器训练与谐波损失。红色边界框表示地面实况。基线检测器（a）产生具有高分类分数但低定位IoU的不一致边界框（蓝色bbox），或者低分类分数但高定位IoU（黄色bbox），这将损害NMS之后的检测准确性（即，选择次优的蓝色bbox）。我们的检测器（b）通过协调这两个分支的优化来产生具有高共现率的顶部分类和定位的边界框，从而在NMS之后获得更好的检测结果。分类和本地化任务。因此，这些方法在基准数据集上取得了最佳性能。(2)单阶段方法，包括[19，21，16，29，26]。单阶段方法以密集的方式应用对象分类器和单阶段检测器的主要优点是其推理效率，但检测精度通常低于两阶段方法。现代的基于CNN的目标检测器将目标检测任务分为两个分支：分类分支和回归分支，这两个分支使用独立的目标函数进行训练，而不需要明确地知道彼此具体地，分类损失（例如，交叉熵损失[7]）被用来优化分类器和距离损失（例如，smoothL1 loss [7]）用于优化回归量。然而，由于现有的检测器忽略了分类任务和定位任务之间的相关性，在NMSNMS之前3632分类器和回归器的混合往往不能同步。具体而言，分类损失驱动模型学习所有阳性示例的尽可能高的分类分数，而不管定位准确度如何，并且回归损失使模型能够为每个锚点输出准确的回归偏移，而无需考虑训练期间的分类分数结果，这导致分类和回归之间的严重预测不一致。具体而言，检测器在推理阶段输出大量具有高分类分数但低IoU或低分类分数但高IoU的不一致检测结果。如图1（a）所示，我们由基线检测到的不协调边界框的代表性示例。基线产生两个不协调的候选项（蓝色bbox和黄色bbox）显然，在NMS程序之后，具有高IoU但低分类分数的黄色将被不太准确的蓝色抑制。这意味着，对于这种情况，检测器将以明显次优的检测结果（即，，蓝色bbox），但不是最佳的一个（即，黄色bbox）。由于分类损失和回归损失在整个训练阶段都是针对每个阳性样本独立优化的，因此这种不一致在测试阶段非常常见然而，任务间的预测不一致性问题在目标检测领域却很少受到关注。为了协调预测的一致性，我们提出了一个相互监督的损失，称为谐波损失，以共同优化分类和回归分支的最佳方向。在训练阶段，分类分支将通过与分类损失相关的谐波因子持续监督回归分支的优化状态通过将Harmonic损耗插入现有检测器并播放，网络将变得具有训练意识，并通过相互交互来减少任务也就是说，容易训练的分支将学习以动态地促进另一分支朝向渐进谐波状态的学习。因此，检测器在测试中产生具有高共现率的顶部分类和定位的边界框，从而减轻这两个任务之间的预测不一致性，如图1（b）所示。此外，在检测器的训练阶段，仅使用正样本来优化回归分支，但所有正样本的IoU分布严重不平衡（请参见图1）。3（a）在方法部分）。一般而言，低IoU水平的样本数量显著大于高IoU水平的样本数量。这将导致现有检测器的定位损失，特别是一级检测器，在训练阶段由离群值（低IoU水平）主导，这使得检测模型偏向离群值。为了为了减轻由焦点损失引起的偏差[16]，我们提出了一种简单但有效的谐波IoU（HIoU）损失，以动态协调训练阶段中每种样本的贡献我们提高了权重的本地化通过将这个HioU损失嵌入到我们提出的谐波损失中，每个级别的样本的贡献得到了平衡，训练更加有效和稳定。通过将HioU损耗嵌入到我们提出的谐波损耗中，制定谐波检测（HarmonicDet）损耗我们将HarmonicDet损耗插入PASCAL VOC上的两阶段和单阶段检测框架中，[6] 和MS COCO [17]基准。检测结果表明，我们的方法在改善现有的检测器的有效性和通用性总之，本文做出了三个贡献：1.我们提出了一个谐波损失，共同优化的分类和回归分支朝着最佳的方向在训练阶段，从而调和预测之间的一致性分类和本地化在测试阶段。2. 我们引入了谐波IoU（HIoU）损失来协调不同IoU级别样本的定位损失的权重，避免了定位损失被离群值所主导，保证了检测器准确的边界盒回归能力。3. 所提出的损失可以很容易地插入和发挥到不同的国家的最先进的检测算法，实现显着的性能增益的PAS-CAL VOC数据集和MS COCO数据集。2. 相关工作目标检测的体系结构设计。得益于Deep ConvNets，CNN在目标检测领域取得了巨大的成功所有基于CNN的检测器可以大致分为两类，即，两级检测器和一级检测器。两级探测器由两部分组成。第一部分负责生成一组候选对象提议，例如，[32]第二十五话，我的世界第二部分根据候选对象建议确定准确的对象区域和相应的类标签。其后代（例如，Fast R-CNN [7]，Faster R-CNN [22]，R-FCN [4]，FPN [15]，Mask RCNN [9]）在几个具有挑战性的数据集上实现了主导性能相比之下，像SSD [19]这样的一阶段方法直接预测默认边界框的类得分和位置偏移，而没有区域建议步骤。在此之后，更先进的一级检测器（例如，RetinaNet [16]，Refinedet [29]，RFB [18]），以实现高检测精度。为了解决检测结果对锚点大小过于敏感的问题，同时避免复杂的IoU计算，3633我LNML↑↓Har↑↑R我我C我我RC由于训练过程中锚盒和地面实况盒之间的关系，提出了一些无锚检测器，包括CornerNet [12]，FCOS [24]，CenterNet [5]，FASF [31]。损失设计用于准确的目标检测。为了加强分类和局部化任务之间的关联性，得到准确的包围盒，一些检测器也进行了一些有代表性的探索。IoU-Net [11]将IoU预测器集成到现有的对象检测器中，以预测每个检测到的绑定框与匹配的地面实况之间的IoU。同时，提出了一种IoU引导的NMS，以解决分类置信度和定位精度之间的不一致。PISA [2]使用分类概率重新加权每个例子对回归损失的贡献，例如可以加强回归分支以提高检测性能。为了平衡各种样本对定位分支的贡献，研究了一些样本自适应定位损失。GHM [13]根据梯度范数分布分析了一级检测器中的样本不平衡Libra R-CNN [20]声称，与离群值产生的大梯度相比，容易样本产生的小梯度可以被忽略，并且提出了平衡1损失来增加容易样本的梯度并保持离群值不变。3. 该方法在本节中，我们将首先在第3.1节中介绍谐波损耗。特别是，它如何能够协调优化的损失和它的梯度提出了深入的见解然后，我们在第3.2节中进一步阐述了所提出的谐波IoU（HIoU）损耗。3.1. 谐波损耗我们首先重新审视对象检测器的标准损失，如等式（1）所示。（一）.预测的分类得分与定位精度无关，并且必然存在许多具有高分类得分但低IoU或低分类得分但高IoU的不一致检测，这使得NMS之后的整体检测性能为了避免这些不一致的检测，我们提出了谐波损失来协调分类和回归分支的训练，并加强分类得分和定位精度之间的相关性。由于只有正样本需要回归，因此我们只对正样本应用谐波损耗。因此，给定正样本xi，谐波损耗可以定义如下：L=（1+β）CE（p，y）+（1+β）L（d，dθ）（2）其中，βr、βc是我们的方法中的两个关键但动态的谐波因子，其可以定义如下：β=e−L（di，di）， β=e−CE（pi，yi）（3）从等式（2）Eq.（3）、我们可以清楚地发现，在我们的谐波损耗中有两个相互作用的部分。我们使用一种相互监督的机制来协调分类和回归分支的优化对于分类任务，通过分配一个回归损失导出的谐波因子（1+βr）来动态地监督分类分支的优化。换句话说，设计了回归感知分类损失以优化分类分支。类似地，对于回归任务，使用与分类损失相关的动态因子（1+βc）来监督回归损失的优化，这意味着回归损失是分类感知的。接下来，从损失函数和梯度两个方面对谐波损失协调分类和回归分支的原因进行了深入的剖析和详细的分析。由于篇幅的限制，我们在补充资料中给出了谐波损耗的收敛性分析。L=1（n（CE（p，y）+L（d，dn））+nCE（p，y））从损失函数进行有效性分析。给定DetNi ii∈Posi我j∈NegjJ（一）并且假设预测的类得分w.r.t.其地面实况等级为P1，并且位置精度为W.R. T。地面实况边界框为IoUi。我们可能面临其中N和M分别是阳性和阴性样本的数量。并且分别表示预测的分类得分和对应的地面真值类。我和分别表示fset的输出回归和fset的输出回归。CE（）是交叉熵损失，（）是常用的平滑L1损失，我们可以清楚地发现，对于每个正样本，分类和定位分支是用独立的目标函数训练的，而不显式地知道彼此，这导致分类和回归任务之间严重的预测不一致例如，对于分类分支，CE损失驱动模型学习尽可能高的分类分数，用于所有样本，而不考虑训练期间的定位准确度因此，在本发明中，优化过程中的四种不同情况：（1）分类良好（pi）和回归良好（IoUi）。这意味着样本xi是用于学习高分类分数和准确定位的主要样本。因此，我们同时根据回归状态为分类损失分配一个大的谐波因子βr，并根据分类状态为回归损失分配一个大的谐波因子βc（2）分类是好的（pi），但回归是坏的（IoUi）。这是我们需要解决的不和谐的训练情况由于该阳性样本的回归任务较差，因此我们根据分类状态为回归损失分配大的调和因子βc，并根据回归状态为分类损失分配小的调和权重βr直觉，3634布吕普↓↓LLLL·Har=−（1+β）rHar=L（d，d）−ii1我至p，该网络将加强对主要优化回归分支的关注此外，由于动态谐波因子βc是由分类损失导出的，这意味着回归器总是可以感知分类状态。换句话说，分类损失也将监督回归分支的优化。对于分类分支也是如此。因此，这两个部门将相互监督，相互促进，同时优化-（一）（b）第（1）款朝着最佳的方向。分类与回归之间的不协调因此得到缓解。（3）分类效果差（p i↓），回归效果好（IoUi↑）。这图2.检测损失的梯度相对于对应的地面真值类的预测分数的可视化。（a）是我们的谐波损耗的梯度，是另一种不和谐的训练情况。与situ相反-式（2），小的谐波加权因子β和大的谐波加权因子β，我Har我我. （b）是标准检测损失的梯度.C分别为回归损失和分类损失分配谐波加权因子βr因此，该网络主要优化分类分支，缓解两个任务之间的不协调。从情况（2）和（3）中，我们看到，在谐波损耗中，容易训练的分支总是能够动态地促进另一个分支的学习。（4）分类是坏的（pi），回归是坏的（IoUi）。这意味着正样本xi是硬正样本。我们认为，这些硬正样本不是素数样本，对检测器的优化没有什么影响因此，我们同时降低了分类损失和定位损失的权重βr，βc通过在训练过程中应用谐波损失来优化现有检测器，这些检测器可以在测试阶段自然地协调分类分数和定位精度。从梯度角度对分类任务进行有效性分析。本文从损失函数的角度详细描述了如何应用谐波损失来实现分类任务和回归任务在下文中，我们将进一步讨论我们的Harmonic损失如何从梯度方面协调两个任务的训练对于分类任务，我们计算方程的偏导数。（2）相对于对应的地面实况类的预测得分P1，（交叉熵损失加上平滑L1损失）相对于pi我们可以清楚地发现，我们的谐波损失对分类概率pi的偏导数与回归损失相关，这意味着在优化过程中分类分支将受到回归损失的监督。为了进一步说明局部化损失对等式（1）中的梯度在公式（7）中，我们在图2中分别可视化标准检测损耗和所提出的谐波损耗相对于pi的梯度。对于标准检测损失，相对于pi的梯度不随不同位置损失值而改变，如图2（b）所示，这意味着分类的优化绝对独立于回归任务。但对于我们的谐波损耗，梯度是由两个变量pi和（di，di）. 换句话说，对于每个正样本，定位损失（di，di）将在谐波损失的训练阶段期间监督分类分支的优化具体在Eq.（7）中，（di，di）与损失梯度w之间存在比例相关性。r. t. 皮岛但是，由于在训练过程中该梯度值始终为负，这个梯度的绝对值随着回归损失的增加而减小，如图所示2（a）. 这意味着梯度将抑制具有低回归质量的样本的分类得分。吉吉Har=（1+βr）阿尔普岛（pi，yi）阿尔普岛+L（di，di）βC阿尔普岛（四）从学生角度分析回归任务的有效性。我们的谐波损耗回归其中，CE（）是交叉熵损失，yi是独热标签，任务类似于分类任务。对于回归任务，谐波损耗相对于预测的谐波损耗的梯度为：fset（di−di）的回归也由classifica监督CE（pi，yi）=−yi log（pi）=−log（pi），βc=e−CE（pi，yi）=eyilog（pi）=pi通过替换Eq.（5）进入Eq。（4）我们可以有（五）第一次得分由于篇幅所限，我们在补充材料中给出了这一推导过程。任务对比损失。为了进一步缩小两个任务之间的差距，我们引入一个简单的任务-阿利阿尔普岛p+L（di，di）（六）对比度（TC）损失，如等式中所定义（8）、对我们的谐波损失。我们直接缩小了通过代入βr=e−L（di，di）转化为等式（6），我们可以有一个预测得分pi和定位准确度IoUi对于样品xiw.r.t.它的地面真值类和边界我的天阿尔普岛（1+e−L（di，di））piL（di，d）我p我L我的（d，di）pi3635（七）盒子之所以采用间隔，是因为我们认为在以下情况下可以忽略分类和回归之间的差距：3636我≤我L我loc我我N我MeeTCγpi和IoUi之间的距离小于标记，0.50个单位0.400.300.20金酒此外，我们分配了一个信息熵引导的10.300.10权重因子1+β对于每个样本。具体来说，当0.200.00熵大，这意味着分类的不确定性10.100.00-0.10大，因此分配小的权重1+β，反之亦然。0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90IOU0.500.600.700.80 0.90IOUi1（a）（b）LTC=1+βCmax（0，|pi−IoUi|−margin）（八）图3.阳性样本的两个直方图。(a)是细化前100k个阳性样本的IoU分布。(b)是β=e−pklog（pk）其中，C是类的数量，余量设置为0.2在我们的实验中。3.2. 谐波IoU损耗基于IoU的定位损失[28]已被证明是获得最佳IoU度量的合适选择，其被写为：LIoU= 1−IoUi（9）然而，典型的IoU损失平等地对待所有积极的样本，忽略了一个事实，即IoU分布是严重不平衡的。如图3（a）所示，我们将细化后不同IoU间隔的提案的平均本地化改进损失总是单调的，γ的值需要满足γ1、我们在补充资料中给出了推导。完全本地化丢失。应该指出，S-moothL1损失可以直接优化预测框中心点与GT框的距离，从而加快训练的收敛速度因此，我们没有将Harmonic损耗中的SmoothL1损耗替换为HioU损耗，而是将HioU损耗作为局部化损耗的一部分添加因此，完全定位损失可以定义如下：10万个阳性样本的IoU分布。我们能找到L=L（d，d）+αLi（十一）低IoU水平的样本数量远大于高IoU水平的样本数量。不用说，硬萨姆-禄宜HIoU低IoU的样本在训练阶段主导定位损失的梯度，这使得检测模型能够偏向硬样本（低IoU水平）。如图3（b）所示，我们可视化了细化后不同IoU间隔的提案我们可以发现，随着IoU的增加，细化的增益变小，性能甚至在高IoU水平（IoU=0.8，0.9）变得更差这是因为其中α是权衡参数。3.3. 总体检测损失通过替换本地化损失（di，di）在等式中（2）在方程中的完全定位损失。（11）并嵌入如等式中定义的TC损失。在公式（8）中，正样本xi的总谐波检测损耗可以用公式表示如下：回归器总是在测试阶段输出大的偏移，因为它偏向硬样本。为缓解LHardet =（1 +βr）CE（pi，yi）+（1+βc）Lii（12）偏差，由焦点损失[16]驱动，我们引入谐波IoU（HIoU）损失，定义为：LHIoU=（1 +IoUi）（1−IoUi）（10）其中，βr=e−Lloc，βc=e−CE （pi ，yi ）是在等式中导出的两个动态谐波因子。（三）、通过进一步加入负样本的分类损失，我们可以得到整个目标函数如下：γ是可调聚焦参数。一个动态因素（1+IoUi）γ能自动反映局部化L=1（μL+μCE（p，y））（13）精度用于协调不同IoU级别样本的定位损失的权重具体来说，我们使用HardetNi∈PosHardetJ Jj∈Neg增加高IoU示例的局部化损失权重，同时抑制低IoU示例的权重的因子。最后，平衡了各类样本的贡献如图3（b）所示，使用我们的Harmonic IoU损失训练的模型可以防止定位损失在训练阶段被离群值主导，并确保整个检测器的准确边界框让我们以细化前IoU大于0.8的样本为例。原始的本地化损失会导致负回归，但我们的Harmonic IoU损失可以有效避免这种情况。应注意，为了确保Harmonic IoU4. 实验4.1. 实验环境数据集和基线。我们将提出的损失函数集成到六个流行的一阶段和两阶段检测器中，包括SSD，DSSD，Refinedet，RetinaNet，Faster R-CNN和Mask R-CNN，并在两个基准上进行实验，即。、PASCAL VOC和MSCOCO.骨干ResNet-50 [10]，ResNet-101 [10]，ResNeXt-基线HioU丢失百分比平均IoU改进k=1+Lee3637101 [27]，在标准分类任务[23]上进行了预训练，被用作我们的骨干网络。具体来说，ResNet-50和ResNet-101主要用于PAS- CAL VOC数据集的实验ResNet-50、ResNet-101和ResNeXt- 101都用于MS COCO数据集的实验3638×∼表1.PASCAL VOC 2007测试集的主要结果实验中采用了四种不同的探测器方法骨干APAP50AP60AP70AP80AP90两级检测器：更快的R-CNNResNet-101-FPN51.754.180.981.876.077.465.167.843.848.511.115.0更快的R-CNN w/HarmonicDet Loss更快的R-CNN w/HarmonicDet LossResNet-50-FPNResNet-101-FPN54.2（+2.5）56.5（+2.4）81.782.677.578.767.370.148.252.514.718.2单级检测器：SSD300ResNet-50-FPN51.078.973.463.344.114.6SSD512ResNet-50-FPN53.381.576.866.647.315.3DSSD320ResNet-5052.379.875.064.546.216.2DSSD512ResNet-5054.281.877.767.450.015.7精炼Det320ResNet-5053.480.276.065.548.017.5Refinedet512ResNet-5056.382.479.369.852.719.6SSD 300，带谐波检测器损耗ResNet-50-FPN54.5（+3.5）79.774.965.850.221.2SSD512，带谐波检测器损耗ResNet-50-FPN56.7（+3.4）81.878.068.952.722.0DSSD 320，带谐波检测器损耗ResNet-5055.7（+3.4）80.075.766.952.123.7DSSD512，带谐波检测器损耗ResNet-5057.3（+3.1）82.478.669.053.423.1RefineDet320（带谐波检测器损耗）ResNet-5056.9（+3.5）80.276.267.553.227.2RefineDet512（带谐波检测器损耗）ResNet-5060.4（+4.1）83.079.772.058.029.74.2. PASCAL VOC对于PASCAL VOC数据集，在我们的实验中采用了三个一阶段检测器所有模型都在VOC 2007训练集和VOC 2012训练集的联合上进行训练，并在VOC 2007测试集上进行测试。为了证明我们的模型可以回归更准确的边界框，使用了更严格的COCO风格的平均精度（从0.5到0.9）度量在PASCAL VOC数据集上采用。从表1中可以看出，我们的HarmonicDet损耗在一级和两级检测器上都实现了一致的显著AP改善，表明了其有效性和通用性。对于两级探测器，我们的Har-与具有 ResNet-50-FPN 主干的 Faster R-CNN 相比，monicDet损失可以将AP提高2.5%即使使用像ResNet-101-FPN这样更深的主干，观察到改进。对于一级检测器，当我们采用小输入大小时，我们的HarmonicDet损失分别使SSD，DSSD和Refinedet提高了3.5%，3.4%和3.5%。即使使用更大的输入大小（512 512），我们的HarmonicDet损失也可以分别将SSD，DSSD和RefineDet提高3.4%，3.1%和4.1%。特别地，在较高IoU阈值（0.8，0.9）下的AP的改善是非常显著的。当IoU阈值为0.8时，我们的Harmon- icDet损失可以将AP提高5%-6%。当IoU阈值为0.9时，我们的HarmonicDet损失甚至可以将AP提高10%。这证明了用我们的HarmonicDet损失训练的检测器可以回归更准确的bbox。4.3. MS COCO对于MS COCO数据集，我们采用三个一阶段检测器（SSD，Refinedet，RetinaNet）和两个两阶段检测器（Faster R-CNN，Mask R-CNN）作为检测器，在一级和两级探测器上都有显著的AP改进具体而言，在SSD 300和SSD 512上，使用ResNet-50- FPN主干的增益分别为1.9%和1.7%。在Refinedet 320和Refinedet512 上，使用 ResNet-101 主干的增益分别为 1.4% 和2.4%。对于RetinaNet，我们的方法可以使用ResNet-50-FPN骨干将AP提高1.5%即使有像ResNeXt-101- 32 x8 d这样强大的骨架，我们的模型也比基线高出1.4%AP。对于两级检测器，HarmonicDet损失可以将Faster R-CNN，Mask R-CNN的AP分别提高1.8%，1.6%，具有ResNet-50- FPN骨干。当我们采用ResNeXt-101-FPN作为主干时，我们的方法可以实现46.9%的AP，这优于一些最先进的检测器，如Cascade R-CNN（42.8%），FCOS（42.7%）和FASF（42.9%）。4.4. 预测一致性很明显，我们通过在谐波损耗中设计两个动态谐波因子来协调分类和回归的训练。然而，这两个分支在实际训练过程中是否和谐优化？下面，我们将从两个方面详细分析训练阶段的预测一致性：首先，如图4（a）所示，我们可视化了两个谐波因子的动态分布（即，1+βr，1+βc）。显然，在训练的早期阶段，由于两个分支的不一致性严重，两个谐波因子之间的差距相对较大。但随着优化的推进，两个谐波因子之间的差距逐渐减小，并在训练结束时保持稳定，这意味着两个分支逐渐协调。此外，为了定量分析优化过程中分类和回归之间的预测不一致性，我们提出了一个简单的度量，称为平均不一致系数（AIC），定义如下：N实验MS COCO数据集上的结果如表2所示，我们的HarmonicDet损失也达到了一致3639AIC=i∈Pos|（十四）|(14)3640表2.在MS COCO测试开发集上进行实验的主要结果多尺度测试（Multi-Scale Testing）方法骨干APAP50AP75APSAPMAPL最先进的探测器：FCOS [24]FASF [31]Cascade R-CNN[1]ResNeXt-101-FPNResNeXt-101-FPN42.742.942.862.263.862.146.146.346.326.026.623.745.646.245.552.652.755.2单级检测器：SSD300ResNet-50-FPN29.549.030.511.032.647.0SSD512ResNet-50-FPN34.455.036.516.339.650.1精炼Det320ResNet-10132.051.434.210.534.750.4Refinedet512ResNet-10136.457.539.516.639.951.4RetinaNetResNet-50-FPN36.156.038.319.838.945.0RetinaNetResNeXt-101-FPN39.859.942.922.543.150.9SSD 300，带谐波检测器损耗ResNet-50-FPN31.4（+1.9）49.332.911.133.349.3SSD512，带谐波检测器损耗ResNet-50-FPN36.1（+1.7）55.238.316.840.651.2RefineDet320（带谐波检测器损耗）ResNet-10133.4（+1.4）51.635.411.135.252.3RefineDet512（带谐波检测器损耗）ResNet-10138.8（+2.4）56.541.817.844.454.8RetinaNet w/HarmonicDet损失ResNet-50-FPN37.6（+1.5）56.040.120.039.648.7RetinaNet w/HarmonicDet损失ResNeXt-101-FPN41.2（+1.4）60.344.223.243.852.4两级检测器：Faster R-CNNResNet-50-FPN37.559.041.021.440.149.5Faster R-CNNResNeXt-101-FPN41.463.645.325.445.552.3Mask R-CNNResNet-50-FPN38.559.541.921.940.850.1Mask R-CNNResNeXt-101-FPN42.364.146.226.145.954.3更快的R-CNN w/HarmonicDet LossResNet-50-FPN39.3（+1.8）59.842.722.041.450.0更快的R-CNN w/HarmonicDet LossResNeXt-101-FPN43.0（+1.6）64.047.026.046.153.6Mask R-CNN w/HarmonicDet LossResNet-50-FPN40.1（+1.6）60.543.722.842.350.7Mask R-CNN w/HarmonicDet LossResNeXt-101-FPN44.0（+1.7）64.948.127.047.055.3Mask R-CNN w/HarmonicDetLossResNeXt-101-FPN46.966.050.830.250.257.9其中N是阳性样本的数量。分别表示样本xi的预测分类得分和定位准确度。显然，AIC值越小意味着预测不一致性越小，反之亦然。我们在图4（b）中可视化了使用标准检测损失和谐波损失训练的检测器的AIC。我们可以发现，在训练过程中，用谐波损失训练的检测器的AIC显著小于用标准检测损失训练的模型。这也清楚地意味着我们的谐波损失可以调和分类和回归之间的预测不一致。0.60表 3. 每个部件的消融结果（即，谐波损失和谐波 IoU（HIoU）损失）。采用更快的R-CNN作为基线。方法APAP50 AP75 APS APM APL基线（更快的R-CNN）37.358.640.721.040.149.2+谐波损耗38.559.341.821.741.450.1+谐波损耗+IoU损耗38.759.342.121.641.850.3+谐波损耗+HIoU损耗39.259.242.722.042.050.9表4.谐波损耗中TC损耗的消融结果谐波损耗APAP50AP75APSAPMAPL无TC损失38.359.041.721.541.149.8TC损失38.559.341.821.741.450.1谐波损耗分析如表3所示，我们首先在MS COCO上进行烧蚀实验，1.81.61.41.21.00k20k40k60k80k100k120k140k迭代（一）0.550.500.450.400.350.300.250.200k20k40k60k80k100k12万14万迭代（b）第（1）款数据集。我们的谐波损耗可以将AP提高1.2%（从37.3%提高到38.5%）。每个IoU级别的检测结果都得到了改善，并且随着IoU的增加，AP的证明更有意义。这表明，使用我们的Harmonic损失训练的模型可以输出具有高的顶部分类和本地化共现率的谐波盒。我们进一步分析了TC损失的影响图4. (a)是两个谐波因子的分布（即，1+ βr，1+ βc）。（b）是优化过程中AIC的分布4.5. 消融研究1+C1+R基线谐波损失谐波因子平均不一致系数3641我们对我们方法的每个组成部分进行了彻底的消融研究采用Faster R-CNN检测器在MS COCO数据集上进行消融实验表3显示了我们的方法的每个组件的效果。谐波损耗见表4。我们可以发现，AP可以在低IoU阈值的情况下得到小幅度的改善由于谐波损失被提出来协调分类任务和回归任务，但它真的减轻了测试阶段？图第五，我们将3642无谐波损耗带有地面实况框的IoU1.01.0带谐波损耗的检波器0.9 0.90.8 0.80.7 0.70.6 0.60.50.00.20.40.60.81.0版分类评分（一）0.50.00.20.40.60.81.0版分类评分（b）第（1）款图5.所有检测到的bbox的分类分数和IoU的分布。红色曲线是指示曲线，曲线右上角检测到的bbox是分类得分高、IoU高的和谐检测结果。表5. α和γ在HIoU损失中的消融结果。所有检测到的边界框的分类分数和IoU的分布。与没有谐波损失的检测器（a）相比，我们改进的检测器（b）的更多预测边界框出现在红色曲线内，这意味着我们的检测器可以预测更多的边界框，同时具有高分类得分和高回归准确性（IoU）。换句话说，我们的检测器清楚地说明了分类分数和定位精度之间的不协调。HIOU损失分析。为了验证我们的HIoU损失的有效性，我们进行了三次消融实验。首先，我们将标准IoU损耗和HIoU损耗分别添加到谐波损耗如表3所示，当我们将标准IoU损耗添加到Harmonic损耗中时，AP只能提高很小的幅度（从38.5%提高到38.7%）。但是当我们将HIoU损失添加到Harmon- ic损失中时，与没有HIoU损失的检测器相比，我们的方法可以实现0.7%的改进（从38.5%到39.2%）。具体地，AP在较高IoU阈值（例如，0.75）是非常显著的，这意味着我们的HIOU损失防止了定位损失在训练阶段被离群值所支配。原因是我们的HIoU损失可以缓解不同IoU水平样本的不平衡偏倚，如图所示。3（b）. 其次，我们进行实验来分析聚焦参数γ对HioU损失的影响。如表5所示，当我们将聚焦参数γ设置为0.8. 第三，我们还进行了实验，以分析平滑L1损失和HIoU损失之间的权衡α 如表5所示，我们用范围从0.5到2.5的四个不同比率进行实验，当α = 1时得到最佳结果。五、所以我们采用α=1。5，γ=0。8在实验中图6.标准检测损失与我们基于Faster R-CNN的HarmonicDet方法之间的定性比较。不规则和遮挡物体检测的几个例子说明。第一列显示了使用标准检测损失训练的Faster R-CNN的结果。第二列显示了使用HarmonicDet损失训练的Faster R-CNN的结果红色框表示GT，绿色框表示预测框。4.6.不同对象标准的Faster R-CNN和我们的方法之间的定性比较见图。第六章我们可以清楚地发现，与使用标准检测损失训练的Faster R-CNN相比，使用Harmon-icDet损失训练的Faster R-CNN可以获得更准确的检测边界框。这表明通过在训练阶段使用HarmonicDet损失来加强两个任务之间的相关性，可以有效缓解测试阶段分类得分和定位精度之间的不协调5. 结论为了协调分类和回归的预测Harmonic损失使得分类任务和定位任务能够在训练阶段动态地相互促进，从而在测试阶段产生具有高共现率的顶部分类和定位的一致边界框。此外，为了防止训练阶段的局部化损失被离群值所主导，提出了一种谐波IoU（HIoU）损失来协调不同IoU水平样本的局部化损失的权重通过将所提出的损失插入并播放到六个流行的检测器中的综合实验证明了我们的HarmonicDet方法的通用性和有效性。致谢。本工作得到了国家自然科学基金（61771079）和中央大学基础科学研究基金（2005年第106号）的资助。2020CDCGTX 061）。带有地面实况框的IoUαγAPAP50AP75APSAPMAPL0.50.838.959.342.121.941.750.51.00.839.059.342.322.141.750.81.50.839.259.242.722.042.050.92.50.838.958.643.021.641.850.61.50.038.759.342.121.641.850.31.50.538.959.242.421.741.850.71.50.839.259.242.722.042.050.91.51.039.058.742.821.941.950.93643引用[1] 蔡兆伟和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页1、7[2] Yuhang Cao，Kai Chen，Chen Change Loy，and DahuaLin.目标检测中的主要样本注意力在IEEE/CVF计算机视觉和模式识别会议（CV

下载后可阅读完整内容，剩余1页未读，立即下载