平衡分组Softmax：克服多样的长尾目标

75 浏览量更新于2023-10-25 收藏 972KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10991平衡分组Softmax克服分类器不平衡的长尾目标李玉1、2、3、王涛3、4、康秉义3、汤盛1、2、王春风2、李金涛1、2、冯佳石31中国科学院计算技术研究所智能信息处理重点实验室，北京2中国科学院大学，中国3新加坡国立大学电子与计算机工程系，新加坡4新加坡国立大学数据科学研究所{liyu，ts，jtli}@ ict.ac.cn，twangnh@gmail.com，kang@u.nus.edu，wangchunfeng14@mails.ucas.ac.cn， elefjia@nus.edu.sg摘要使用基于深度学习的模型解决长尾大词汇量对象检测是一项具有挑战性和要求的任务，然而，这是一项尚未开发的任务。在这项工作中，我们提供了第一个系统的分析国家的最先进的模型在长尾分布面前的不足。我们发现，现有的检测方法是无法建模时，数据集是非常倾斜，这可能会导致分类器的参数幅度不平衡的少数拍摄类。由于检测和分类之间的本质差异，直接将长尾分类模型适配到检测框架中并不能解决这个问题。在这项工作中，我们提出了一种新的平衡组softmax（BAGS）模块，用于通过分组训练来平衡检测框架内的分类器。它隐式地调节头类和尾类的训练过程，并确保它们都是经过充分训练的，而不需要对尾类的实例进行任何额外的采样。在最近的长尾大词汇对象识别基准测试LVIS上进行的大量实验表明，我们提出的BAGS显著提高了具有各种骨干和框架的检测器在对象检测和实例分割方面的性能。它击败了所有从长尾图像分类转移过来的最先进的方法，并建立了新的最先进的方法。代码可在 www.example.comBalancedGroupSoftmax上获得https://github.com/FishYuLi/。本工作得到国家重点研究发展计划（2017YFC 0820605）、国家自然科学基金（61525206、61572472、U1703261、61871004）和242项目（2019A010）的资助Jiashi Feng得到AI.SG R-263-000-D97-490、NUS ECRA R-263-000-C87-133和MoE Tier-II的部分支持R-263-000-D17-112余丽获得了国家留学基金管理委员会的部分资助（编号：201904910801）。通讯作者图 1.COCO 和 LVIS 训练集中类别的分类训练实例数（#ins），以及在COCO和LVIS上训练的Faster R-CNN模型的相应分类器权重范数。x轴表示COCO和LVIS的分类索引。我们将80类COCO与1230类LVIS对齐，以获得更好的可视化效果。类别0表示背景。1. 介绍目标检测[31，29，25，23，21，1]是计算机视觉中最基本和最具挑战性的任务最近的进展主要是由手动平衡的大规模数据集驱动的，例如PASCAL VOC [9]和COCO [24]。然而，在现实中，对象类别的分布通常是长尾的[30]。使最先进的检测模型适应这种类别不平衡分布的有效解决方案是高度期望的，但仍然缺乏。最近，发布了一个长尾大词汇量对象识别数据集LVIS [14]，这极大地促进了更现实场景中的对象检测研究。长尾对象检测的直接解决方案是训练一个建立良好的检测模型（例如，更快的R-CNN [31]）直接在长尾训练数据上。然而，当调整为相当平衡的数据集设计的检测器时，会观察到大的性能下降（例如，COCO）到长尾（例如，”（《易经》）：“其义。10992由于多重因素的纠缠，儿子的去向仍然不明。受[20]的启发，我们将检测框架内的表示和分类模块解耦，并发现对应于不同类别的建议分类器的权重范数严重不平衡，因为低镜头类别很少有机会被激活。通过我们的分析，这是导致长尾检测性能差的一个直接原因，而长尾检测性能差的本质原因是数据不平衡。如图1所示，我们分别根据训练集中实例的数量对在COCO和LVIS上训练的模型的类别分类器权重范数进行排序。对于COCO，相对平衡的数据分布导致所有类别的相对平衡的权重标准，除了背景类别（CID=0，CID用于类别ID）。对于LVIS，很明显，类别权重规范是不平衡的，并且与训练实例的数量正相关。这种不平衡的分类器（w.r.t.它们的参数范数）将使得低镜头类别（尾部类别）的分类分数比多镜头类别（头部类别）的分类分数小得多。在标准softmax之后，这种不平衡将进一步加剧，因此分类器错误地抑制预测为低拍摄类别的建议。分类器不平衡的根源在于数据分布的不平衡，多镜头分类器的训练样本会更多、更多样化，从而导致分类器的数量优势。可以考虑使用长尾分类的解决方案来克服这样的问题，包括重新采样训练实例以平衡分布[15，7，32，26]并重新加权分类损失，类别级别[5，2，18]或实例级别[23，33]。基于重采样的解决方案适用于检测框架，但可能导致增加的训练时间和对尾类的过度拟合风险。不幸的是，基于重新加权的方法对超参数选择非常敏感，并且由于在处理特殊背景类别（非常多的镜头类别）时的困难而不能很好地应用于检测框架。我们的经验发现，这些方法都不能很好地解决长尾检测问题。在这项工作中，为了解决分类器的不平衡，我们引入了一个简单而有效的平衡组softmax（BAGS）模块到检测框架的分类头。我们建议将训练实例数量相似的对象类别放入同一组，并分别计算分组softmax交叉熵损失。将具有不同实例数的类别分开处理可以有效地缓解头类对尾类的支配。然而，由于每个组训练缺乏不同的因此，BAGS进一步在每个类中加入一个类别others，并引入背景类别作为一个独立的类，从而减轻了头类对尾类的抑制通过保持分类器的平衡，同时防止类别背景和其他方面的误报。我们通过实验发现，袋子工作得很好。它将各种框架的尾部类的性能提高了9%-骨骼在长尾对象识别基准LVIS上保持一致[14]，整体mAP提高了约3%综上所述，本文的工作主要有以下贡献：• 通过综合分析，揭示了现有模型对长尾模型表现不佳的原因检测，即它们的分类器是不平衡的，并且没有被同样好地训练，这由观察到的不平衡的分类器权重范数反映。• 我们提出了一个简单而有效的平衡群软最大化模块来解决这个问题.它可以很容易地与对象检测和实例分割框架相结合，以提高其长尾识别性能。• 我们使用最先进的长尾分类方法进行广泛的评估这种对标不仅加深了我们的理解-这些方法的优点以及长尾检测的独特挑战，而且还为该方向的未来研究提供了可靠和强大的基线。2. 相关作品与均衡分布目标对象检测[11，31，1]和少镜头对象检测[19，3，38，10]相比虽然Ouyanget al. [28]提出了长尾对象检测的概念，他们的工作集中在ILSVRCDET数据集[6]上的不平衡训练数据分布上，而没有像LVIS [14]那样的尾部类的少镜头设置。[14]建议重复因子抽样（RFS）作为基线。分类校准[36]通过使用ROI级别类别平衡采样策略训练的另一个头部校准尾部类别的分类得分来增强RFS。下面我们首先重新审视一般的目标检测方法，然后是长尾分类方法。基于深度学习的对象检测框架分为基于锚点的和无锚点的。基于锚点的方法[12，11，31，29，23]显式或隐式地提取各个区域的特征，从而将对象检测转换为已被大量探索的提议级分类相比之下，无锚方法专注于检测对象的关键点，并通过适当组合检测到的关键点[21，8，40]或扩展代表性来构建最终检测框。10993CΣ关键词[39，35]。对于这样的检测器，通过对关键点进行分类来实现预分类这些流行的对象检测框架都采用softmax分类器进行建议分类或关键点分类。我们提出的平衡组softmax模块可以很容易地插入到这样的主流detec-z=W h+b，其中W∈Rd×（C+1）是分类器权重，其中每列wj∈Rd与一个特定的类别j相关，b是偏差项。在训练期间，使用地面真值标签y∈{0，1}C+1 ，softmax交叉熵被应用于计算特定提案的损失：通过简单地替换原始的softmax分类器。为了简单起见，我们主要使用基于锚点的检测器Faster R-CNN [31]和Cascade R-CNN [1]进行实验因为它们对应的实例分割方法Lk（p，y）=−yjlog（pj），（1）j=0ezjMask R-CNN [16]和HTC [4]。pj=softmax（zj）=Ci=0时.（二）ezi长尾分类由于其实际应用而受到越来越多的关注。目前的工作利用数据重新采样，成本敏感的学习，或其他技术。对于数据重采样方法，训练样本是过采样的（为尾类添加训练样本的副本）[15]，欠采样的（删除头类的训练样本）[7]，或类平衡采样[32，26]，这激发了RFS [14]。对于成本敏感学习，通过在不同类别上乘以不同权重来在类别级别重新加权网络损失，以扩大尾类训练样本的影响[5，2，18]，或者通过在不同训练样本上乘以不同权重来在实例级别进行更细粒度的控制[23，33]。一些其他方法优化了用长尾数据训练的分类器，例如最近类均值分类器（NCM）[27，13]和τ归一化分类器[20]。这些方法通常对超参数敏感，并且当转移到检测框架时由于分类和检测之间的固有差异而不能很好地执行，1.一、因此，一种专门为长尾对象检测设计的方法是可取的，并且我们的工作是第一次成功尝试通过分组训练来克服分类器不平衡，而无需从尾类进行额外采样。3. 初步和分析3.1. 初步我们首先以Faster R-CNN [31]为例重新审视流行的两阶段对象检测框架。我们采用这样一个两阶段的框架来发展和实现我们的想法。骨干网络fback将图像I作为输入，并生成特征图F=fback（I）。然后将特征图传递到ROI对齐[16]或 ROI 池化 [11] ，以产生具有其自身特征Fk=ROIAlign（F，bk）的K个建议。这里bk表示提议k。然后，分类头fhead为每个建议提取d维特征h=fhead（Fk）最后，一个FC这里zj表示z的第i个元素，pj是提案是类别j的实例的预测概率。3.2. 分析当训练集服从长尾分布时，当前性能良好的检测模型通常无法识别尾类。在本节中，我们试图通过对它们的代表性示例进行对比实验，研究从平衡数据集到长尾数据集的性能下降背后的潜在机制，即、COCO和LVIS。我们采用具有R50- FPN主干的更快R-CNN [11]模型。通过直接比较两个数据集上的mAP，性能从36.4%（COCO）显著下降到20.9%（LVIS）。尽管不公平，因为LVIS包含的类比COCO多得多（1230 v.s.#20803;，我们可以看到一些有趣的现象。在头等舱方面，LVIS模型取得了与COCO相当的结果。然而，当涉及到尾部类时，性能迅速下降到0。这种现象意味着当前的检测模型确实受到数据不平衡的挑战。为了进一步研究数据不平衡如何引起性能下降，我们将检测框架解耦为建议特征提取阶段和建议分类阶段，如下[20]。具体而言，在SEC中的符号3.1中，我们将用于生成h的操作视为建议特征提取，并且在Eqn中的最后一个FC层和softmax（2）作为一个软-最大分类器然后，我们研究了训练样本数与分类器中每个类别的权重范数之间的相关性。结果如图1所示。我们可以看到，对于COCO数据集，大多数类别包含103-104个训练实例（至少102）;分级的重量标准也相对平衡（0.75-1.25）对于所有前景类别1.相比之下，对于LVIS数据集，权重范数与相应类别j中的训练实例的数量高度相关;训练实例越多，权重就越大。对于极少数拍摄类别（尾部类），其相应的权重规范非常（全连接）层用于将h转移到（C+1）-类别预测（C对象类加背景）1注意，第一类是背景（CID=0）。10994nnnn+1个nn12344n00CESoftmax11CESoftmax卢恩科隆CESoftmax标签概率分布新概率别人BG别人头类别人尾类使用CNOO重新缩放0��…1年拉吉×2010年10月1日映射到原始CIDSoftmaxSoftmax...(a) 培训01(b) 测试卢恩图2.我们的平衡组softmax模块的框架。(a)训练：包含类似训练实例的类被分组在一起。类其他添加到每个组。G0表示背景组。Softmax交叉熵（CE）损失分别应用于每个组。(b)测试：使用新的预测z，在每个组中应用softmax，概率按其原始类别id（CID）排序，并使用前景概率重新缩放，为后续后期处理生成新的概率向量。很小甚至接近于零基于这样的观察，可以预见尾类的预测分数将先天地低于头类，并且尾类的提议在与softmax计算内的头类别的提议竞争之后将不太可能被选择这就解释了为什么当前的检测模型经常在尾类上失败。为什么分类器权重与每个类的训练实例数量相关？为了回答这个问题，让我们进一步检查Faster R-CNN的训练过程。当选择来自首类j的建议作为训练样本时，应激活zj，而应抑制其他类别的预测。由于头类的训练实例比尾类的训练实例多得多（例如，在某些极端情况下，10，000对1），尾类的分类器权重更有可能（频繁地）被头类权重抑制，导致训练后权重规范不平衡。因此，可以看出为什么重新采样方法[14，36]能够使长尾实例分类和分割的尾类它只是在训练期间增加尾类建议的采样频率，4. 平衡组Softmax我们的新型平衡组softmax模块如图2所示。我们首先阐述其制定，然后解释设计细节。4.1. 集团softmax如前所述，检测器性能受到权重范数和训练示例数量之间的正相关性的损害。为了解决这个问题，我们建议将类分成几个不相交的组，并分别执行softmax操作，这样只有训练实例数量相似的类才能在每个组中相互竞争。通过这种方式，包含显著不同数量的实例的类可以在训练期间彼此尾类的分类器权重将不会被头类实质上抑制具体地说，我们根据训练实例的数量将所有C类分为N组我们将类别j赋给群Gn，如果l≤ N（j）0（3）其中N（j）是地面实况边界框的数量不同类别的权重可以被同等地激活或超级化。对于训练集中的类别j，并且s l而sh是超-因此，将tail和head类平衡到一些确定最小和最大实例的解参数。同意。此外，损失重新加权方法[5，2，18，23，33]组n的数字。在这项工作中，我们设置sl=shto也能以类似的方式发挥作用虽然，每个人都有自己的故事，但每个人都有自己的故事。策略是能够缓解数据不平衡，它实际上介绍了-血淋淋的只能分到一组。 N和sl载减少了新的风险，如过度拟合尾类和额外的计算开销。与此同时，损失重新加权是明智的-以经验地确保每个组中的类别包含相似的训练实例总数在整个倾向于每类减肥设计，这通常是不同的本文设N=4，sl=0，sl=10，sl = 102，sl=跨不同的框架、主干和数据集，这使得它很难部署在现实世界的应用程序中。此外，基于重加权的方法不能很好地处理检测问题中的背景类因此，我们提出了一种简单而有效的解决方案来平衡分类器权重规范，而无需繁重的超参数工程。103，s h=+∞.此外，我们手动将G0设置为仅包含背景类别，因为它拥有最多的培训实例（通常是对象类别的10-100倍）。我们在这里对G0采用S形交叉项损失，因为它只包含一个预测，而对另共享头部特征S1099500˜˜NΣ我我我们使用softmax交叉熵损失。选择softmax的原因是softmax函数本身具有抑制每个类的能力，并且不太可能产生大量误报。在训练期间，对于具有地面实况标签c的提议bk，两个组将被激活，这是背景组G0和前景群Gn，其中c∈Gn.4.2. 通过“其他”类别进行校准然而，我们发现上述组softmax设计存在以下问题。在测试过程中，对于一个提案，由于其类别未知，因此所有组都将用于预测因此，每组至少有一个类别将获得高预测分数，并且很难决定我们应该采取哪个组的预测，从而导致大量的误报。为了解决这个问题，我们在每个组中添加了一个类别others此类别others包含当前组中未包含的类别，这些类别可以是其他组中的背景或前景类别F或G0，也可以表示为e个基类. 具体地说，对于具有地面真值标签c 的建议b k ，新预测 z 应该是 z∈R（C+1）+（N+1）。类j的概率计算如下：ezj如果在一个组中激活类别，则不会激活所有其他实例。这个群体被忽略了。通过这种方式，每个组可以保持平衡，具有较低的假阳性率添加其他类别带来了2.7%的基线改善。4.4. 推理在推理过程中，我们首先用训练好的模型生成z，并使用公式Eqn在每组中应用softmax。（四）、除G0外，其余节点均被忽略，所有类别的概率按原始类别ID排序. 在G0中的p0可以记为前-地面提案最后，我们重新调整所有的概率，正态猫族，pj=p0×pj。该新的概率向量被馈送到以下后处理步骤，如NMS生成最终检测结果。应该注意的是，p在技术上不是真实的概率向量，因为它的总和不等于1。它扮演着原始概率向量的角色，通过选择最终的盒子来指导模型。5. 实验5.1. 数据集和设置我们对最近的大词汇进行了实验pj=Σi∈Gn ezi，{n|j ∈ Gn}。（四）实例分割（LVIS）数据集[14]，其中包含1，230个类别，包含边界框和实例掩码地面实况标签应在每个组中重新映射在不包括c的组中，其他类将被定义为地面真值类。最后的损失函数为Lk=−ynlog（pn），（5）n=0i∈Gn其中yn和pn表示Gn中的标签和概率。4.3.在组在上述处理中，新添加的类别“其他”将再次成为压倒许多实例的主导离群值。为了平衡每组的训练样本数量，我们只对一定数量的其他人进行训练，这是由抽样率控制的tioβ。 F或G0，由于背景建议的数量非常大，因此将使用其他的所有训练样本。对于 {Gn|n∈R ，1≤n≤N}，从所有其它实例中随机抽取m n个其它实例，其中m n=β i∈GnNbatch（i）。β∈[0，+∞）是一个超参数，我们在第二节进行了消融研究。 5.4显示β的影响。通常，我们设置β = 8。Nbatch（i）表示当前批次中类别i的实例也就是说，在包含地面真理注释。对于目标检测实验，我们只使用边界框注释进行训练和评估。在探索BAGS有关实施细节，请参阅我们的在[36]之后，我们根据训练实例数量将LVIS验证集中的类别划分为4个bin，以更清楚地评估头部和尾部类的模型性能Bini包含具有10i−1到10i实例的类别我们将前两个容器中的类别称为除了LVIS-api2提供的官方指标mAP、APr（罕见类的AP）、APc（常见类的AP）和APf（频繁类的AP）之外，我们还报告了不同bin上的APAPi表示来自Bini的类别上的平均AP。5.2. 关于LVIS的主要结果我们将多种最先进的长尾分类方法转移到Faster R-CNN框架中，包括对尾类的微调，重复因子采样（RFS）[26]，类别损失重新加权，焦点损失[23]，NCM [20，34]和τ-归一化[20]。我们仔细调整了超参数设置，使其适合于类别，其他实例将按比例基于一小批K提案如果没有正常2https://github.com/lvis-dataset/lvis-api10996ID 模型地图AP1AP2AP3AP4APR APC APf ACC ACC1 ACC2 ACC3 ACC4 ACCbg(1)R50-FPN20.98 0.00 17.34 24.00 29.99 4.13 19.70 29.30 92.780.002.4725.30 45.8795.91(2)X221.93 0.64 20.94 23.54 28.92 5.79 22.02 28.26 92.620.005.6026.51 45.7195.69（三）微调尾22.28 0.27 22.58 23.89 27.43 5.67 23.54 27.34 94.810.005.045.585.8699.85（四） RFS [14]23.41 7.80 24.18 23.14 28.33 14.59 22.74 27.77 92.710.607.5025.62 44.3995.84(5)RFS-finetune22.66 8.06 23.07 22.43 27.73 13.44 22.06 27.09 92.770.607.1425.08 43.7995.91(6)重新加权23.48 6.34 22.91 23.88 30.12 11.47 22.41 29.61 94.840.000.829.5717.4099.53(7)再加权cls24.66 10.04 24.12 24.57 31.07 14.16 23.51 30.28 94.760.000.347.7216.0299.64（八） [23]第二十三话11.12 0.00 10.24 13.36 13.17 2.74 11.13 14.46 3.870.0017.45 40.11 49.311.35（九）焦点损失-CLS19.29 1.64 19.30 20.64 23.70 6.60 19.81 23.71 2.900.0027.67 48.53 48.890.16(10)NCM-fc [20]16.02 5.87 14.13 16.97 21.40 10.31 13.92 20.92 94.290.000.020.230.15100.00(11)NCM-conv [20]12.56 4.209.71 13.75 18.46 6.11 10.39 17.85 94.290.000.000.200.10100.00(12)τ-范数[20]11.01 0.00 11.71 12.01 12.36 2.07 12.30 12.97 5.910.0030.32 39.49 49.143.42(13)τ-范数选择21.61 0.35 20.07 23.43 29.16 6.18 20.99 28.54 92.430.0013.19 20.62 38.9895.91(14)我们25.96 11.33 27.64 25.14 29.90 17.65 25.75 29.54 93.712.067.5022.07 35.8897.41表1.在LVIS值集上与从长尾图像分类转移的最新方法进行比较。粗体数字表示所有型号中的最佳结果。模型（1）和（4）是用在COCO数据集上预训练的模型初始化的。所有其他的都用model（1）初始化。“-cls” denotes only train the classification FClayer 模型（10）和（11）分别表示使用分类FC特征和ROI合并Conv特征来计算类别中心的NCM模型模型（13）意味着仅在前景提议上使用τ-范数结果请参阅我们的补充材料了解更多实施细节。目标检测我们的补充材料提供了执行细节我们在表1中报告了它们的检测性能和建议分类精度。幼稚基线的表现如何？我们以具有ResNet-50-FPN主干的Faster R-CNN作为基线（表中的模型（1）），实现了20.98%的mAP，0 AP1. 基线模型由于其他类的支配而错过了大多数尾部类别。考虑其他模型由模型（1）初始化，并进一步微调另外12个时期。为了确保改进不是来自更长的训练时间表，我们用另外12个时期训练模型（1）进行公平比较。这给出了模型（2）。比较模型（2）和模型（1），我们发现较长的训练主要提高AP2，但AP1保持在0左右。也就是说，较长的训练几乎无助于提高实例少于10的低镜头类别的性能。对尾类训练样本（模型（3））进行微调模型（1）仅显著增加AP2，同时使AP4降低2.5%，AP1保持0。这表明当训练样本数量太少时，原始的软最大分类器不能很好地执行。长尾分类方法有用吗？我们观察到基于采样的方法RFS（模型（4））将总体mAP提高了2.5%。尾类的AP得到了改进，同时头类的AP得到了维护。然而，RFS增加培训时间成本为1。7×。我们还尝试用模型（1）初始化模型，得到模型（5）。但mAP下降0.8%，由于过度拟合。对于成本敏感的学习方法，模型（6）和(7)改进性能，而模型（7）工作得更好-之三. 这证实了[20]中的观察结果，即解耦特征学习和分类器有利于长尾识别仍然适用于对象检测。对于焦点损失，我们直接在建议级别应用S形焦点损失值得注意的是，在建议分类方面，所有对象类（ACC1、2、3、4）的准确性显著提高然而，对于背景提案，ACC bg从95.8%下降到0.16%，导致大量误报和低AP。这一现象再次突出了长尾检测和分类之间的区别-非常特殊的背景类应该仔细对待。对于NCM，我们尝试在分类器之前使用FC特征（模型（10）），以及通过ROI对齐提取的Conv特征（模型（11））。然而，我们的观察是，NCM对于极低杆类效果很好，但对于头部类效果不好。此外，NCM可以提供一个很好的1-最近邻分类标签。但是对于检测，我们还需要整个概率向量是有意义的，以便可以使用相同类别的不同提案的得分来评估提案的质量。τ-归一化模型（12）遭受与局灶性损失模型（8）类似的挑战。多镜头背景类非常占主导地位。虽然前景建议的准确性大大提高，但ACCbg大幅下降。因此，对于模型（13），分类为背景的建议继承了原始模型的预测，而其他建议则采用τ-范数结果。然而，改进是有限的。值得注意的是，τ-范数后AP1和ACC1仍为0，而AP2和ACC2得到了改进。我们的方法效果如何？对于我们的模型，前-109970模型地图AP1AP2AP3AP4APR APCAPf更快的R5020.98 0.00 17.34 24.00 29.994.13 19.70 29.30我们25.96 11.33 27.64 25.1417.65 25.75 29.54更快的X10124.63 0.79 22.37 27.45 32.735.80 24.54 32.25我们27.83 14.99 28.07 27.93 32.0218.78 27.32 32.07级联X10127.160.00 24.06 31.09 36.174.84 27.22 36.00我们32.77 19.03 36.10 31.13 34.9628.24 32.11表2.具有更强骨架ResNeXt-101- 64 x4 d和更强框架CascadeR-CNN的结果我们所有的模型都是初始化与他们的平原对口。除G0 外，我们将正常猫族分成4组进行分组softmax计算，sl和sh分别为（0，10），（10，102），（102，103），（103，+∞），β=8.我们的模型初始化为model（1），类由于输出形状改变，因此fication FC层被随机初始化。只有这个FC层被训练了另外12个epoch，并且所有其他参数都被冻结。我们的结果大大超过了所有其他方法。AP1增加11.3%，AP2增加10.3%，AP3和AP4几乎不变。这一结果验证了我们设计的平衡组softmax模块的有效性。将我们的方法扩展到更强的模型。为了进一步验证我们方法的推广，我们将 Faster R-CNN 主干改为ResNeXt-101- 64 x4 d [37]。结果示于表2中。在这个更强大的骨干上，我们的方法仍然获得了3.2%的改进。然后，我们将我们的方法应用于最先进的Cascade R-CNN [1]框架，将3个阶段中的所有3个softmax分类器更改为我们的BAGS模块。总体mAP显著增加5.6%。我们的方法带来了持续的收益与3头。5.3. 实例分割的结果我们进一步评估了我们的方法优势，例如分割模型，包括Mask R-CNN [16]和LVIS上最先进的HTC[4]。在这里，HTC模型使用COCO stuff注释进行训练，用于分割分支。结果如表3所示。首先，将我们的模型（8）（10）（12）与它们相应的基线模型（7）（9）（11）进行比较，边界框和掩码的mAP都大大增加。我们的模型更适合尾部类，而头部类的AP略有下降。其次，我们将我们的结果与LVIS实例分割任务的最新结果 [36 ， 14]进行了使用 Mask R-CNN 框架和ResNet-50-FPN主干，我们的模型（8）超过RFS（1）和Calibs（4）至少1.8%。通过HTC框架和ResNeXt-101-FPN主干，我们的模型(10)比校准品（5）好1.4%使用ResNeXt-101-FPN-DCN骨干和多尺度训练，我们的模型（12）比Calibb（6）好2.3%。我们的方法建立了新的国家的最先进的包围盒和掩模标准。图3.表1中模型（1）（4）（7）（14）的权重规范比较。垂直虚线将所有类别分为箱1、2、3、4。5.4. 模型分析我们的方法能很好地平衡分类器吗？我们在图3中可视化模型（1）（4）（7）和表1的模型（14）的分类器权重范数W。RFS在尾类上的权重明显增大。重赋权法抑制了头类的权重，提高了类的权重。尾类。对于我们的算法，由于我们解耦了不同类别之间的关系，因此G1，G2和G3的权重几乎处于同一水平。虽然G4的重量仍然较小，但它们比原始的更平衡，nal模型。注意到我们模型的权重范数与每组中的训练实例数量相关性较小，这意味着这种解耦有利于网络训练。有多少背景和其他贡献？参见表4。用基线模型（0），将正常猫组直接分为4组，每组不加基线环G0等，得到（1）的结果。对于模型（1），在推理过程中，每组的分数被馈送到softmax re-直接连接到NMS。虽然AP 1提高了5.7%，但所有其他Bins的性能都显着下降。这是因为我们对FP没有任何对于单个提案，每个组中至少有一个类别将被激活，从而导致许多 FP 。当我们添加 G0 （模型（2）），并使用p0来重新调整正常类别的得分时，我们比模型（1）提高了1.9%，但比模型（0）更差。对于模型（3），在不使用G0的情况下，在每个组中加入其他类别，获得了2.7%的性能增益。在Bags中使用多少组？用G0重新标度，又得到了2.2%的改进（模型（5））。如果我们将组数从4减少到2，如模型（4）所示然而，具体地说，应该注意到AP1变得更差，而AP4略有增加。使用更多的组也没有帮助（模型（6））。由于Bin1的#ins太小，N=4，将箱1分成2个箱进一步减少了导致尾巴训练严重不足109980ID模型骨干地图 AP1AP2AP3AP4APR APC APf 地图m APm APm APm1 2 3 4APm APmr cf(1)Mask-RFS*[14] R50––––––––24.40––––14.50 24.30 28.40(2)Mask-RFS*[14] R101––––––––26.00––––15.80 26.10 29.80(3)Mask-RFS*[14] X101-32x8d––––––––27.10––––15.60 27.50 31.40(4)[36]第三十六话––––––––21.108.60 22.00 19.60 26.60–––(5)HTC-校准 *[36] X101––––––––29.85 16.05 30.60 29.80 33.50–––（六） HTC-Calibr * [36] X101-MS-DCN––––––––32.10 12.70 32.10 33.60 37.00–––(7)Mask R-CNNR5020.78 0.00 15.88 24.61 30.51 3.28 18.99 30.00 20.680.00 17.06 23.66 29.62 3.73 19.95 28.37(8)我们R5025.76 9.65 26.20 26.09 30.45 15.03 25.45 30.42 26.25 12.81 28.28 25.15 29.61 17.97 26.91 28.74(9)HTCX10131.28 5.02 31.71 33.24 37.21 12.39 32.58 37.18 29.285.11 30.34 30.62 34.37 12.11 31.32 33.58(10)我们X10133.68 19.95 36.14 32.82 36.06 25.43 34.12 36.42 31.20 17.33 33.87 30.34 33.29 23.40 32.34 32.89(11)HTC(12)我们X101-MS-DCNX101-MS-DCN34.6137.715.8024.4035.3640.3036.8736.6740.5040.0014.2429.4335.9837.7841.0340.9231.9434.395.5621.0733.0736.6933.7533.7137.0236.6113.6726.7934.0435.0436.6236.61表3.当我们的方法扩展到LVIS值集上的实例分割时，边界框和掩码AP的结果APm表示实例分割掩码的AP所有骨干都在FPN。X101表示X101- 64 x4 d。* 结果来自相应的引用论文。粗体数字表示所有型号中的最佳结果。用模型（7）（9）（11）初始化模型（8）（10）（12）。ID B o N 地图 AP1AP2AP3AP4APR APC APf（0）20.980.00 17.34 24.00 29.994.13 19.70 29.30(1)4 17.825.71 17.07 18.09 23.138.52 17.44 22.01(2)C4 19.737.18 19.66 18.80 25.959.89 19.32 24.19(3)C423.749.90 24.06 23.38 28.88 15.46 22.58 28.49(4)C C225.316.53 27.55 24.19 15.30 25.14 29.53(5)C C425.9611.33 27.64 25.14 17.65 25.75 29.54(6)C C824.857.79 26.05 24.59 29.58 14.11 24.79 29.21表4.向我们的模块添加不同组件的效果。b为背景组G0。o用于将类别其他添加到所有箱。N是正常类别组的数量。总而言之，在每个组中添加类别其他人会产生很大的效果，并且使用经过专门训练的p0来抑制背景建议比其他建议效果更好。最后，将类别分组到bin中并解耦尾类和头类之间的关系，这对尾类的学习有很大β对BAGS的影响。在将类别others添加到所有组之后，我们需要为others采样训练实例。使用所有其他建议将导致每个组中的不平衡问题。因此，我们的策略是以比率 β 对其他人进行采样，因此 #insothers ：#insnormal =β。如图4.当β增大时，mAP持续增大，直到β=8。如果我们在激活组中使用所有其他建议（在x轴中表示为n），头类的性能保持增加，但尾类的性能下降了很多。如果我们训练所有其他的提议，不管是否有正常的类别被激活（在x轴上表示为所有），mAP变得更糟。这证实了我们的观点，另一个不平衡的问题可能会恶化的结果.5.5. 关于COCO LT为了进一步验证我们的方法的泛化能力，我们通过以下方式构建了一个长尾分布COCO-LT数据集：图4.取样比β的影响。n表示激活组中的所有其它组，all表示所有组中的所有其它组从COCO采样图像和注释[24]。我们在COCO-LT上得到了与LVIS相似的结果我们的模型在mAP上仍然有超过2%的改进（Faster R-CNN为+2.2%，Mask R-CNN边界框为+2.4%，Mask R-CNN掩码为+2.3%），特别是在Faster R-CNN和Mask R-CNN框架下，尾部类的改进（边界框从0.1%提高到13.0%请参阅我们的补充资料，以了解数据集的说明、数据详情和完整结果。6. 结论在这项工作中，我们首先揭示了长尾数据检测性能不佳的原因是分类器由于对低拍摄类的训练不足而不平衡然后，我们研究了从长尾分类转移来的多个固体基线方法，但我们发现它们在解决检测任务的挑战方面

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

平衡分组Softmax：克服多样的长尾目标

margin-softmax:keras的margin-softmax稀疏实现

解释代码：softmax: bool = False,

if self.softmax: logits = torch.softmax(logits, dim=-1)什么意思

softmax和L-softmax的区别 以及L-softmax的优势

pytorch softmax函数使用

如何通过C++编程实现逆向softmax？

python一句话实现softmax

torch中softmax

模型有相关定义layers { name: "prob" type: SOFTMAX bottom: "fc8" top: "prob" }

学习使用torch中的Softmax层： 随机生成一个20维的张量，输出其通过Softmax层后的结果

"objective" = "multi:softmax"是什么意思

pytorch里面softmax怎么接

softmax python代码

softmax怎么用

RELU,ELU,LEAKYRELU，SIGMOD,SOFTMAX中文

能够实现类似softmax函数的功能，有什么函数可以选择？

softmax 回归模型实例

最新资源

softmax和L-softmax的区别以及L-softmax的优势

学习使用torch中的Softmax层：随机生成一个20维的张量，输出其通过Softmax层后的结果