没有合适的资源?快使用搜索试试~ 我知道了~
C2AM Loss: 解决长尾目标检测决策边界问题
69800C2AM Loss: 追寻更好的长尾目标检测决策边界0Tong Wang 1,2 , Yousong Zhu 1 , Yingying Chen 1 , Chaoyang Zhao 1,4 , Bin Yu 1,2 , Jinqiao Wang 1,2,3 , Ming Tang 101 中国科学院自动化研究所模式识别国家重点实验室,北京,中国 2中国科学院大学人工智能学院,北京,中国 3 深圳鹏城实验室,深圳,中国 4广州智慧城市发展研究院,广州,中国0{tong.wang,yousong.zhu,yingying.chen,chaoyang.zhao,bin.yu,jqwang,tangm}@nlpr.ia.ac.cn0摘要0长尾目标检测在尾部类别上表现不佳。我们揭示了真正的罪魁祸首是分类器权重范数的极度不平衡分布。对于传统的softmax交叉熵损失,这种不平衡的权重范数分布会导致具有较小权重范数的类别的决策边界条件不良。为了摆脱这种情况,我们选择最大化学习特征与目标类别的权重向量之间的余弦相似度,而不是它们的内积。任意两个类别之间的决策边界是它们的权重向量之间的角平分线。然而,完全相等的决策边界是次优的,因为它降低了模型对不同类别的敏感性。直观地说,具有丰富数据多样性的类别应该在分类空间中占据较大的区域,而具有有限数据多样性的类别应该占据稍小的空间。因此,我们设计了一种类别感知的角度边界损失(C2AMLoss),在任意两个类别之间引入自适应的角度边界。具体而言,两个类别之间的边界与它们的分类器权重范数之比成正比。因此,决策边界稍微向具有较小权重范数的类别推移。我们在LVIS数据集上进行了全面的实验。与基线相比,C2AMLoss在不同的检测器和骨干网络上带来了4.9�5.2个AP的改进。01. 引言0目标检测是计算机视觉中最基本的任务之一。现代目标检测器在PASCAL VOC [11, 16, 31,32]等数据集上取得了显著的进展。0图1. (a) 是使用LVIS v1.0训练集训练的一个简单MaskR-CNN模型的分类器权重范数分布[13]。X轴是基于类别频率排序的类别索引。Y轴显示权重范数;(b)显示前100个类别的精度APm;(c) 显示最后100个类别的精度。0在具有挑战性的PASCAL VOC [9]和COCO[23]数据集上取得了令人满意的结果。这两个基准数据集都被精心策划,以保持各个类别之间的相对平衡。然而,在现实世界的场景中,数据总是服从Zipfian[29]分布,其中大量的尾部类别只有很少的样本。尽管当前的检测器在平衡数据集上表现良好,但在面对极度不平衡的数据集时,它们在尾部类别上都会严重降低性能。因此,长尾目标检测仍然是研究人员面临的主要挑战。在长尾训练数据集上最小化经验风险的模型严重偏向于头部类别,因为它们贡献了大部分的训练数据。为了克服这个问题,先前的文献通常采用两种类型的措施,即数据重采样[8, 14, 27, 33]和损失重新加权[34, 35, 38,39]。数据重采样寄希望于调整极度不平衡的数据分布,使之变得较为平衡,通过过采样尾部类别和欠采样头部类别来实现。然而,这只增加了尾部类别的出现频率,数据的多样性保持不变,这将导致对尾部类别的过拟合。此外,欠采样头部类别存在错过有区分性信息的风险。损失重新加权方法通过增强尾部类别的损失并减弱头部类别的损失来工作。这两种方法都隐式地重塑了决策边界,并对尾部类别带来了好处。然而,它们以间接的方式调整决策边界,可能削弱了它们的有效性。而且,它们如何影响决策边界在几何上并不直观和可解释。在长尾设置下,我们观察到分类器的权重范数也呈现出极度不平衡的分布,如图1(a)所示。这种现象也得到了先前的文献验证[20, 34,35]。我们还注意到精度与分类器的权重范数密切相关。如图1(c)所示,最后100个类别的权重范数接近于零。它们的精度几乎为零。对于具有较大权重范数的类别,它们的精度在一个合理的范围内变化,如图1(b)所示。我们证明了极度不平衡的权重范数分布将恶化决策边界,导致具有较小权重范数的类别的精度接近零。对于基于内积的softmax,类别i的输出logit(softmax之前)由|| Wi || 2 ∙ || x || 2 ∙cos(θi)给出,其中Wi,x,θi分别是分类器权重,特征和它们之间的角度。当|| Wi ||2压倒性地大时,模型有很高的概率预测类别i的高分数。结果是,具有较小权重范数的类别被完全抑制,这对它们的准确性是致命的。我们将在下一节详细分析极度不平衡的权重范数分布如何导致病态的决策边界。余弦分类器在处理上述病态的决策边界方面具有自然优势。两个类别之间的决策边界是两个分类器权重向量之间的角平分线,如图2(b)所示。然而,完全放弃权重范数信息是次优的,因为它降低了模型对不同类别的敏感性。直观地说,具有丰富数据多样性的类别应该在角度分类空间中占据较大的区域。对于具有有限数据多样性的类别,略微缩小角度分类空间有利于学习紧凑和内在的特征表示。换句话说,在长尾目标检测中,适当的分类器偏置是有益的。在本文中,我们提出了一种基于权重范数分布自适应调整决策边界的类别感知角度边界损失(C2AMLoss)。具体而言,两个类别之间的边界与它们的分类器权重范数之比成正比。因此,决策边界稍微向具有较小权重范数的类别推移。我们在LVIS数据集上进行了全面的实验。与基线相比,C2AMLoss在不同的检测器和骨干网络上带来了4.9�5.2个AP的改进。69810通过过采样尾部类别和欠采样头部类别来调整极度不平衡的数据分布,从而将其调整为较不平衡的分布。然而,这只增加了尾部类别的出现频率,数据的多样性保持不变,这将导致对尾部类别的过拟合。此外,欠采样头部类别存在错过有区分性信息的风险。损失重新加权方法通过增强尾部类别的损失并减弱头部类别的损失来工作。这两种方法都隐式地重塑了决策边界,并对尾部类别带来了好处。然而,它们以间接的方式调整决策边界,可能削弱了它们的有效性。而且,它们如何影响决策边界在几何上并不直观和可解释。在长尾设置下,我们观察到分类器的权重范数也呈现出极度不平衡的分布,如图1(a)所示。这种现象也得到了先前的文献验证[20, 34,35]。我们还注意到精度与分类器的权重范数密切相关。如图1(c)所示,最后100个类别的权重范数接近于零。它们的精度几乎为零。对于具有较大权重范数的类别,它们的精度在一个合理的范围内变化,如图1(b)所示。我们证明了极度不平衡的权重范数分布将恶化决策边界,导致具有较小权重范数的类别的精度接近零。对于基于内积的softmax,类别i的输出logit(softmax之前)由|| Wi || 2 ∙ || x || 2 ∙cos(θi)给出,其中Wi,x,θi分别是分类器权重,特征和它们之间的角度。当|| Wi ||2压倒性地大时,模型有很高的概率预测类别i的高分数。结果是,具有较小权重范数的类别被完全抑制,这对它们的准确性是致命的。我们将在下一节详细分析极度不平衡的权重范数分布如何导致病态的决策边界。余弦分类器在处理上述病态的决策边界方面具有自然优势。两个类别之间的决策边界是两个分类器权重向量之间的角平分线,如图2(b)所示。然而,完全放弃权重范数信息是次优的,因为它降低了模型对不同类别的敏感性。直观地说,具有丰富数据多样性的类别应该在角度分类空间中占据较大的区域。对于具有有限数据多样性的类别,略微缩小角度分类空间有利于学习紧凑和内在的特征表示。换句话说,在长尾目标检测中,适当的分类器偏置是有益的。在本文中,我们提出了一种基于权重范数分布自适应调整决策边界的类别感知角度边界损失(C2AMLoss)。具体而言,两个类别之间的边界与它们的分类器权重范数之比成正比。因此,决策边界稍微向具有较小权重范数的类别推移。我们在LVIS数据集上进行了全面的实验。与基线相比,C2AMLoss在不同的检测器和骨干网络上带来了4.9�5.2个AP的改进。0具体而言,它在角度空间中为任意两个类别引入了类别感知的边界。角度边界与分类器权重范数的比例成正比。我们可以自适应地将决策边界推向具有较小权重范数的类别,以学习更紧凑和内在的特征表示。需要注意的是,尽管C2AMLoss在模型中手动引入了分类器偏差,但它不会像基于内积的softmax损失那样生成病态的决策边界。C2AMLoss利用超参数α来控制推动决策边界的强度。此外,使用凸函数log(x)来确保边界不会变得过大。以上两个措施保证了分类器偏差在适当的幅度内保持。为了验证C2AMLoss的有效性,我们在具有挑战性的长尾目标检测数据集LVIS(v0.5和v1.0)[13]上进行了大量实验。不同的检测器(Mask R-CNN [15]和Cascade Mask R-CNN[1])以及不同的主干网络(ResNet-50和ResNet-101[16])的实验结果都显示了所提出的C2AMLoss的优越性。具体而言,具有C2AM Loss的MaskR-50相对于基线提高了5.2个APm。改进主要来自于稀有类别(+11.9个APmr)和常见类别(+6.8个APmc)。我们还将我们的方法与其他SOTA方法进行了比较,结果表明我们的方法更具竞争力。总之,这项工作做出了以下三个贡献:01.我们指出,在长尾设置下,极不平衡的权重范数分布导致了病态的决策边界,严重损害了性能。02. 我们提出了一种类别感知的角度边界损失(C2AMLoss),可以自适应地调整决策边界,学习更紧凑和内在的特征表示。03.我们在长尾目标检测数据集LVIS(v0.5和v1.0)上进行了全面的实验。与基线相比,C2AMLoss带来了明显的性能提升(4.9% ~ 5.2%APm),并在LVIS v0.5和v1.0上取得了新的最先进水平。02. 相关工作0目标检测。近年来,目标检测领域取得了快速发展。当前流行的目标检测器可以分为两种类型,一阶段和两阶段方法。基于CNN的两阶段检测器[6, 12, 15, 21,31]首先通过轻量级的区域建议网络(RPN)生成粗略的边界框候选框。然后,提取这些提议的区域特征̸L = −log(W T x69820通过RoI Pooling或RoIAlign操作。这些特征进一步用于准确的分类和边界框回归。一阶段检测器具有更简洁的流程。典型的一阶段方法包括SSD [24],YOLO [28],RetinaNet [22]和CornerNet[18]等。它们直接在密集的锚点或点上进行预测,而不生成边界框提议。由于一阶段检测器不为每个提议提取区域特征,因此它们具有更高的效率,并广泛应用于现实场景。这些检测器在平衡数据集上表现良好。然而,直接将它们应用于长尾数据集会因前面提到的问题而获得较差的性能。因此,我们打算改进检测器在长尾数据集上的性能。0长尾识别。重新采样策略是处理不平衡数据集的一种有用技术。重复因子采样[13]和类别感知采样[33]旨在通过以更高的频率对尾部类别进行采样来平衡数据分布。特殊的损失函数是解决长尾问题的另一个技术方向。LDAM[2]基于标签频率强制实施类别相关的边界,并鼓励尾部类别具有更大的边界。为了保护尾部类别免受过度抑制,EQL[35]忽略来自头部样本的负梯度。先进的EQL v2[34]从梯度平衡的角度出发。它引入了一种新颖的梯度引导的重新加权机制,以保持每个分类器的正负梯度之间的平衡。ACSL[39]提出仅抑制那些语义相似的类别,以保护尾部类别并保持网络的判别能力。除了这些特殊函数外,像解耦训练[17]、类别分组[20]等措施在长尾设置下也表现良好。所有这些方法都会隐式地重塑决策边界以保护尾部类别。然而,这种间接的方式可能会削弱它们的有效性。因此,我们选择明确调整决策边界。0基于边界的损失函数基于边界的损失函数在度量学习中起着重要作用,并广泛应用于人脸验证和个人Re-ID等任务中。为了鼓励类内紧密性和类间可分性,L-Softmax [26]损失将一个预设的常数 m与特征和真实分类器之间的角度相乘。ArcFace[7]在目标角度上添加了一个附加的角度边界,以获得高度区分性的人脸识别特征。CosFace[37]引入了一个余弦边界项,进一步最大化角度空间中的决策边界。SphereFace[25]通过对权重进行归一化改进了L-Softmax,从而在一系列人脸识别基准上取得了更好的性能。这些损失函数引入了各种边界来鼓励0图2. (a) 显示传统Softmax损失的决策边界;(b)展示基于余弦距离的Softmax损失的决策边界,˜ W 1 ,˜ W 2是归一化的权重向量;(c)是我们提出的C2AM损失函数的决策边界。0年龄判别学习。然而,它们所使用的边界是一个不考虑分类器特性的常数值。这是C2AM损失与这些损失函数之间的主要区别。03. 方法0在本节中,我们首先揭示了长尾识别中极度不平衡的权重范数分布会导致传统基于内积的Softmax交叉熵损失产生病态的决策边界(第3.1节)。我们证明了基于余弦相似度的Softmax损失有助于摆脱病态的决策边界。为了学习更紧凑和内在的尾部类别特征表示,我们提出了一种面向类别的角度边界损失(C2AM)损失,将决策边界推向尾部类别(第3.2节)。在第3.3节中,我们通过在MNIST[19]数据集上进行一个玩具示例,并可视化特征分布,来更好地说明C2AM损失如何影响决策边界。最后,我们在第3.4节中讨论了C2AM损失与其他基于边界的损失函数的区别。03.1. 基于内积的Softmax交叉熵损失的病态决策边界0我们首先回顾传统的基于内积的Softmax交叉熵损失。给定学习到的特征 x 和真实标签 i,损失根据式(1)计算,其中 W j是最后一个全连接层的第 j 列(分类器 j的权重向量)。为简单起见,我们省略了最后一个全连接层的偏置项。实际上,它对模型性能没有影响。为了进行正确的预测,模型必须输出真实类别的最高后验概率,这意味着对于所有的 j � = i ,都有 W T i x > W T j x 。0C j =1 e W T j x ) (1)0考虑最简单的二分类问题,决策边界由式(2)定义。我们将其重新表述为式(3),其中 θ i 是 W i 与̸̸̸W T1 x = W T2 x(2)||W1||2 · ||x||2 · cos(θ1) = ||W2||2 · ||x||2 · cos(θ2)(3)cos(θ1) = ||W2||2||W1||2cos(θ2)(4)L = −log(es·cos(θi)�Cj=1 es·cos(θj) )(5)69830(a) 平衡设置下的Softmax交叉熵损失。(b) 不平衡设置下的Softmax交叉熵损失。(c) 不平衡设置下的C2AM损失。0图3. MNIST[19]验证集上的特征分布。平衡的MNIST是原始的训练数据集。我们通过随机选择100张图像来创建一个不平衡的MNIST,这些图像属于类别‘7’、‘8’和‘9’(每个类别100张,总共300张)。对于类别‘0’-‘6’,我们保留它们的所有训练图像。由于特征维度为50,我们使用t-SNE将特征维度降低到2以进行可视化。0x . 考虑当 || W 1 || 2 ≠ 0 , || W 2 || 2 ≠ 0 , || x || 2 ≠ 0 且 0≤ θ 1 , θ 2 ≤ π 2的情况下,公式可以进一步简化为式(4)。正如我们之前提到的,长尾数据集会导致分类器权重范数的高度不平衡分布。假设我们有 || W 1 || 2 > || W 2 || 2 ,决策边界将向 W2移动。结果是,类别2的角度分类空间将被缩小。如图2(a)所示,决策边界与 W 2 之间的角度(θ 2 )小于 θ 1。当权重范数的分布极度不平衡时,情况会变得更糟。当 ||W 1 || 2 � || W 2 || 2 时,θ 2趋近于零。对于来自类别2的样本,特征 x 与权重 W 2之间的角度必须足够小以进行正确分类。在这种情况下,类别2的角度分类空间将被缩小得太多,以至于分类器无法为尾部样本输出高分数。尾部类别被主类遮盖。0尽管上述分析是基于二分类情况,但将分析推广到多分类情况是微不足道的。在长尾目标检测任务中,不平衡因子通常很大。头部类别包含数万个实例,而尾部类别的实例数量少于100个。使用传统的softmax损失训练的模型对于尾部类别具有病态的决策边界。分类器对尾部类别不敏感,因此精度接近零。03.2. 类别感知的角度边界损失0为了摆脱长尾设置下的病态决策边界,我们将传统softmax损失中的内积操作替换为余弦距离。余弦距离的softmax损失最小化特征向量 x 与真实分类器权重向量 W i之间的角度,而不是最大化 x 与 W i 的内积。其数学公式如式(5)所示,其中 cos ( θ i )= W T i x0|| W i || 2 ∙|| x || 2 。这里我们引入一个超参数 s来稳定训练,就像CosFace [ 37 ]和ArcFace [ 7]一样。从这个公式中,我们可以观察到决策边界只与角度 θ有关,这保护了尾部分类器不会被具有极大权重范数的头部类别过度抑制。对于二分类情况,决策边界是权重向量 W 1和 W 2 的角平分线,如图2(b)所示。0尽管优化余弦相似度减轻了权重范数分布不平衡的压力,但我们认为头部和尾部类别之间绝对相等的决策边界对整体性能也是有害的。完全放弃权重范数信息是不合理的,因为它降低了模型对不同类别的敏感性。直观上,由于数据的丰富多样性,头部类别应该在角度分类空间中占据更大的面积。相反,由于数据的稀缺性,尾部类别的角度分类空间应该稍微收缩,以学习更紧凑和内在的特征表示。决策边界应该根据分类器的情况进行灵活调整。LC2AM = −log(es·cos(θi)es·cos(θi) +C̸es·cos(θj+mij) )mij = max(0, απ log( ||Wi||2||Wj||2))(7)To this end, we reintroduce the weight norm componentto the cosine classifier in a more controllable and gentleway. Specifically, we add a Category-Aware Angular Mar-gin to the cosine similarity based softmax Loss (abbrevi-ated as C2AM Loss). The math formulation is shown asEq. (6). For samples from category i, C2AM Loss adds aclass-aware angular margin mij to category j(j ̸= i), wheremij is proportional to the ratio of the classifier’s weightnorm as Eq. (7). Noting that we detach the gradients ofWi, Wj when calculating the margin mij. We still take thebinary-classification case as an example to illustrate howC2AM Loss influences the decision boundary. For sam-ples from category 1, supposing the angle between W1 andW2 is t, the decision boundary of C2AM Loss is given bycos(θ1) = cos(θ2 + m12). Since θ1 + θ2 = t, the decisionm12 > 0122angular bisector, as shown in Fig. 2 (c).The decisionboundary is pushed towards the classifier weight vector withsmaller weight norm. The adaptive margin mij is in pro-portion to the ratio of the weight norm ||Wi||2||Wj||2 . C2AM Losswill push the decision boundary harder if the gap betweenthe weight norms becomes larger.It is worth noticing that although C2AM Loss pushes thedecision boundary towards classifier with smaller weightnorm, it will not generate ill conditioned decision bound-ary like the inner-product based softmax loss. First, C2AMLoss is more controllable. It introduces a hyper-parameterα to control the strength of pushing the decision boundary.α is typically a small value in our experiments. Second, itworks in a more gentle way. The log(x) function will out-CosFace [37]L = −log(es·(cos(θi)−m)es·(cos(θi)−m)+�Cj=1,j̸=i es·cos(θj ) )ArcFace [7]L = −log(es·cos(θi+m)es·cos(θi+m)+�Cj=1,j̸=i es·cos(θj ) )SphereFace [25]L = −log(e||xi||ψ(θi)e||xi||ψ(θi)+Cj=1,j̸=i e||xi||cos(θj ) )C2AM LossL = −log(̸69840状态。0(6) 其中,02 . 当 || W 1 || 2 = || W 2 || 2 ,m ij = 0,类别2没有额外的边界。决策边界是角平分线( θ 1 = t0|| W j || 2 。此外,由于 log ( x )的二阶导数小于0,随着输入变大,输出增长速度会变慢。总的来说,上述两个原因保证了C2AMLoss不会生成病态的决策边界。03.3. 玩具示例的可视化0研究不平衡数据分布如何影响特征学习并验证其有效性0表1. 与其他基于边界的损失函数的比较。0损失函数的构建0ψ(θi) = (-1)k cos(mθi) - 2k, θi ∈ [kπ0m, (k+1)0m], k ∈ [0, m - 1]0e s ∙ cos(θi) + ΣCj=1, j ≠ i e s ∙cos(θj + mij))0m ij = max(0, α0|| Wj || 2))0对于C2AM损失的理解,我们在MNIST上进行了一个玩具示例,并在图3中可视化了特征分布。为了更好地可视化,我们使用t-SNE将特征维度从50降低到2。我们首先在平衡的MNIST训练集上训练网络,并可视化验证集的特征分布。如图3(a)所示,尽管存在一些误报,我们仍然可以观察到不同类别之间清晰的决策边界。为了说明不平衡的数据分布如何影响特征分布,我们通过手动将‘7’、‘8’和‘9’的图像数量减少到100来创建一个不平衡的MNIST训练集。如图3(b)所示,尾部类别和头部类别之间的决策边界变得模糊。决策边界附近的特征点不具有区分性,导致许多误报。将图3(b)和图3(c)进行比较,我们观察到图3(c)中有一个更清晰的决策边界,并且尾部类别的特征在2维特征空间中更具区分性。以上观察结果证明了C2AM损失能够鼓励模型学习更具区分性和内在特征表示。03.4. 讨论0虽然C2AM损失与其他基于边界的损失函数具有相似的公式,但它们的设计目标完全不同。CosFace [37]、ArcFace[7]和SphereFace[25]引入了一个预设边界m,以最大化类间方差并最小化类内方差。然而,C2AM损失设计了一个自适应边界,以调整头部和尾部类别之间的决策边界。为了更好地区分我们的方法与其他方法,我们在表1中列出了它们的数学公式。对于CosFace和ArcFace,边界是以加法方式引入的。CosFace将一个负的预设边界添加到余弦相似度cos(θi)中。而ArcFace直接将常数边界m添加到角度θi中。除了加法方式外,常数边界也可以乘以角度θi,就像SphereFace一样。从形式上讲,我们提出的C2AM损失更像ArcFace,它们都添加了一个额外的边界69850表2. 交叉熵损失和C2AM损失在LVIS v1.0验证集上的性能比较。0框架 骨干 损失 AP m AP b AP m r AP m c AP m f0掩膜R-CNN0ResNet-50 交叉熵 20.5 21.4 1.1 18.6 310C2AM损失 25.7 26.5 13 25.4 31.50ResNet-101 交叉熵 21.8 22.8 1.4 20.3 32.50C2AM损失 27 28.1 14.1 26.7 330级联掩膜R-CNN0ResNet-50 交叉熵 22.7 25.3 2.8 21.6 32.70C2AM损失 27.6 31.1 14.2 27.7 33.50ResNet-101 交叉熵 24.3 27 3.3 23.7 34.10C2AM损失 29.2 32.6 16.8 29.1 34.70到角度。然而,本质上的区别在于C2AM损失中的边界是自适应的,这体现在以下两个方面:首先,C2AM损失中的边界是与类别相关的。对于CosFace、ArcFace和SphereFace,任意两个类别之间的边界都是相同的值m。然而,C2AM损失中的边界与分类器的权重范数有关,从而在不同类别之间产生不同的边界。其次,C2AM损失中的边界在训练过程中会发生变化。在训练过程中,网络的参数将被更新。动态变化的分类器产生了自适应的角度边界m,有利于精确调整决策边界。04. 实验04.1. 数据集和评估指标0为了验证我们提出的C2AMLoss的有效性,我们在长尾大词汇实例分割(LVIS)数据集[13]上进行了全面的实验。LVIS提供了各种类别的精确边界框和掩码注释,并具有长尾分布。我们主要在v1.0版本上进行实验,该版本包含1203个类别。整个数据集被分为训练集(100k张图像,1.3M个实例)和验证集(19.8k张图像)。我们在训练集上训练模型,并在验证集上报告准确率。LVIS根据类别在训练集中的频率将所有类别分为3组:稀有类别(<10张图像),常见类别(11-100张图像)和频繁类别(>100张图像)。评估时,我们报告平均精确度(AP m用于掩码预测,AP b 用于边界框预测)。此外,还报告了稀有类别(AP m r)、常见类别(AP m c )和频繁类别(AP m f)的平均精确度,以很好地表征长尾类别的性能。除了LVIS v1.0,我们还发布了与LVISv0.5的结果进行比较。0此外,还报告了稀有类别(AP m r )、常见类别(AP m c)和频繁类别(AP m f)的平均精确度,以很好地表征长尾类别的性能。除了LVISv1.0,我们还发布了与LVIS v0.5的结果进行比较。04.2. 实现细节0我们使用流行的MMDetection[4]工具箱实现了我们的方法,并主要在Mask R-CNN上进行实验。0我们采用R-CNN [15]检测器。主干网络采用ResNet50[16]与FPN[21]架构。此外,我们还使用更大的主干网络ResNet101进行实验,以验证C2AMLoss的有效性。在训练时,我们选择2倍的训练计划进行端到端训练。模型使用SGD优化器进行训练,动量为0.9,权重衰减为0.0001,批大小为16,在8个GPU上进行训练。初始学习率设置为0.02,进行500次迭代的预热。学习率在第16和22个epoch结束时分别衰减为0.002和0.0002。训练在第24个epoch停止。按照惯例,我们在所有实验中应用随机水平图像翻转和多尺度抖动,使用较小的图像尺寸(640、672、704、736、768、800)。在测试时,图像尺寸设置为(1333、800),不进行任何测试时数据增强。使用IoU阈值0.5进行非极大值抑制以去除重复框。NMS后,每个图像选择得分阈值为0.0001的前300个边界框进行评估。将C2AM Loss与MaskR-CNN相结合时,我们只需将边界框分类分支的交叉熵损失替换为C2AM Loss。04.3. 主要结果0为了验证C2AM Loss的有效性,我们使用MaskR-CNN和级联Mask R-CNN[1]在不同的主干网络ResNet-50和ResNet-101上进行实验。我们使用交叉熵损失函数对基准模型进行了24个epoch的训练。实验结果总结如表2所示。基准模型(MaskR-50)的准确率分布相当不平衡。常见类别的准确率较高(31%),而稀有类别的准确率几乎为零(1.1%)。极度不平衡的权重规范分布严重恶化了尾部类别的决策边界。因此,模型无法正确分类尾部类别的样本。通过使用C2AMLoss,尾部类别AP m r的准确率大幅提高(+11.9%)。此外,我们还观察到AP mc 的性能明显提高(+6.8%),这与我们的分析一致。sAP mAP bAP mrAP mcAP mf1014.214.907.627.72025.426.112.52531.63025.726.51325.431.54024.825.513.223.930.85023.624.411.522.7300.024.124.89.623.231.50.124.825.511.624.231.40.325.326.112.824.731.60.525.726.51325.431.50.725.426.41324.931.569860表3. C2AM Loss在LVISv1.0验证集上使用不同超参数的结果。模型采用ResNet-50主干的Mask R-CNN。0此外,C2AMLoss提高了尾部类别的性能而不牺牲头部类别的性能。实际上,AP m f的改进很小,从31%提高到31.5%。整体精确度AP m提高了很大的幅度(+5.2%)。当切换到大型模型时,C2AMLoss仍然带来了一致的性能提升。对于主干网络为ResNet-101的Mask R-CNN,掩码预测的整体准确率AP m达到27%,边界框预测的AP b从22.8%提高到28.1%,增加了5.3%。AP mr(12.7%)和AP mc(6.4%)的准确率提高仍然显著。值得注意的是,C2AMLoss不会损害头部类别的性能,这是长尾解决方案的期望属性。原则上,C2AMLoss的有效性不限于特定类型的检测器。为了验证这一点,我们使用更强大的级联MaskR-CNN检测器进行了实验。通过简单地将所有3个头部的原始softmax交叉熵损失替换为我们提出的C2AMLoss,性能可以得到极大提升,尤其是对于尾部类别。详细信息请参见表2。结果表明,C2AM测器是通用的。04.4.消融研究0超参数消融研究。C2AM Loss引入了两个超参数 s 和α。s是一个用于高效优化基于余弦相似度的softmax损失的缩放因子。它是余弦分类器的标准配置,在人脸识别和人物再识别等各种验证任务中被广泛使用。Norm-Face[36]证明了余弦相似度与softmax损失的优化困难,因为余弦值的范围是有限的[-1,1]。低范围问题可能阻止概率 P i =e cosθi � C j =1 e cosθj 接近10当样本分离良好时,引入 s来将余弦值缩放到适当的大小是稳定优化的必要条件。我们仔细调整这个超参数,并在表3中记录结果。我们发现最佳设置是30,这与CosFace [37]、ArcFace[7]等的推荐设置一致。C2AM Loss的另一个超参数是α。它控制了我们推动决策边界的强度。如果 α设置得太小,强度太弱,无法影响0表4. C2AM Loss在LVIS v1.0 val上使用不同超参数 α的结果。模型是带有ResNet-50骨干的Mask R-CNN。0α AP m AP b AP m r AP m c AP m f0表5.在LVIS v1.0 val上使用不同边界类型的Mask-R-50结果。0边界类型 AP m AP b AP m r AP m c AP m f0None 24.1 24.8 9.6 23.2 31.5 自适应 25.7 26.5 1325.4 31.5 固定 24.3 25.2 11.5 23.4 30.90最终决策边界。当 α设置为0时,C2AM损失退化为与softmax交叉熵损失相结合的余弦分类器。我们使用不同的 α 进行实验,并在表4中列出结果。我们观察到C2AMLoss优于余弦分类器,具有明显的精度提升(+1.6% AP m,+1.7% APb)。我们实验发现 α = 0.5 最好。因此,我们采用这个默认设置来进行与C2AMLoss相关的所有实验。自适应边界还是固定边界?由于C2AMLoss在类别之间设置了自适应边界,一个自然的问题是:如果我们像CosFace和ArcFace一样设置一个固定边界会发生什么?为了说明自适应边界的必要性,我们设计了关于边界类型的对照实验,即自适应边界和固定边界。对于固定边界,我们替换了自适应边界项 α0|| W j || ) 与一个常数值 m 一起使用。经过精心调整 m的值,我们发现固定边界比自适应边界效果更差,如表5所示。它在 AP m r、AP m c 和 AP m f上表现更差,这表明固定边界不能有效地调整决策边界。由于固定边界忽略了不同类别的特征,它不适用于所有类别。因此,在长尾设置下,需要考虑类别感知的边界。04.5.与最先进方法的比较0在本节中,我们将我们的方法与其他最先进的方法进行比较,如表6所示。由于LVISv1.0是一个新发布的数据集,我们还报告了LVISv0.5上的结果,以便与更多先前的方法进行比较。我们的模型使用重复因子采样器进行了24个时期的训练。在测试期间没有进行测试时间增强。对于LVISv0.5,我们提供了使用ResNet50-FPN骨干的MaskR-CNN的结果。C2AMLoss优于其他方法,超越了最先进的方法69870表6.在LVIS v0.5和LVIS v1.0数据集上与最先进方法的比较。粗体数字表示最佳结果。0数据集框架骨干方法AP m AP b AP m r AP m c AP m f0LVIS v0.5 Mask R-CNN R-50-FPN0CBL [5] 23.3 23.9 11.4 23.8 27.30LWS [17] 23.8 24.1 14.4 24.4 26.80LDAM [2] 24.1 24.5 14.6 25.3 26.30EQL [35] 25.2 24.1 14.6 24.4 26.80Forest R-CNN [41] 25.6 25.9 18.3 26.4 27.60RFS [13] 25.9 26.1 17.8 26.2 28.80BAGS [20] 26.3 25.8 18.0 26.9 28.70BALMS [30] 27.0 27.6 19.6 28.9 27.50EQLv2 [34] 27.1 27.0 18.6 27.6 29.90DisAlign [43] 27.9 27.6 16.2 29.3 30.80LOCE [10] 28.4 28.2 22.0 29.0 3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 批量文件重命名神器:HaoZipRename使用技巧
- 简洁注册登录界面设计与代码实现
- 掌握Python字符串处理与正则表达式技巧
- YOLOv5模块改进 - C3与RFAConv融合增强空间特征
- 基于EasyX的C语言打字小游戏开发教程
- 前端项目作业资源包:完整可复现的开发经验分享
- 三菱PLC与组态王实现加热炉温度智能控制
- 使用Go语言通过Consul实现Prometheus监控服务自动注册
- 深入解析Python进程与线程的并发机制
- 小波神经网络均衡算法:MATLAB仿真及信道模型对比
- PHP 8.3 中文版官方手册(CHM格式)
- SSM框架+Layuimini的酒店管理系统开发教程
- 基于SpringBoot和Vue的招聘平台完整设计与实现教程
- 移动商品推荐系统:APP设计与实现
- JAVA代码生成器:一站式后台系统快速搭建解决方案
- JSP驾校预约管理系统设计与SSM框架结合案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功