没有合适的资源?快使用搜索试试~ 我知道了~
基于成对类平衡的长尾实例分割算法
7000基于成对类平衡的长尾实例分割算法张祥玉2,张建苏2南京大学软件新技术国家重点实验室2MEGVII技术3南京理工大学计算机科学与工程学院heyy@lamda.nju.edu.cn,weixs.gm @ gmail.com{张佩珍,张翔宇,孙健}@www.example.com摘要长尾实例分割是一项具有挑战性的任务,由于类之间的训练样本的极端不平衡。它会导致头部类(大多数样本)对尾部类的严重偏差。这使得先前的工作主要使用标签分布或平均得分信息来指示粗粒度的在本文中,我们探索挖掘混淆矩阵,其中携带细粒度的错误分类细节,以减轻两两偏见,推广了粗糙的。为此,我们提出了一种新的成对类平衡(PCB)方法,建立在一个混淆矩阵,在训练过程中更新,以积累正在进行的预平衡。绷带网球太阳镜日历量杯手推车果汁池垃圾池预测−5−10−15−20措辞偏好PCB在训练期间生成用于正则化的反击软标签此外,一个迭代学习范式的开发,以支持一个渐进的和平滑的正则化,在这样的去偏。PCB可以即插即用,作为对任何现有方法的补充。在LVIS上的实验结果表明,我们的方法达到了最先进的性能,没有花里胡哨。在不同体系结构上的仿真结果表明了该方法的通用代码和训练模型可在https://github.com/megvii-research/PCB上获得。1. 介绍现代对象检测器和实例分割器的成功然而,当AP-*同等贡献。本文得到了科技部国家重点研发计划(项目编号:2020 AAA 0104400)、CAAI-Huawei MindSpore开放基金和北京人工智能研究院(BAAI)的资助。本研究是何银银†通讯作者。图1.在LVIS v0.5上使用ResNet-50-FPN对Mask R-CNN的随机采样10类分类混淆矩阵进行可视化在当前调色板中,较高的概率用较浅的颜色显示。它清楚地反映了模型偏差(例如,,将太阳镜误分类为量杯的概率大于相反)。应用于像LVIS [12]这样的数据集,它更接近真实世界场景中的长尾和大词汇类别分布魔鬼在于由前景类之间的极端不平衡的训练样本量引起的分类预测偏差[35]。通常,通常利用与预测偏差具有正相关性的指导性指示来建模以用于去偏差,从而实现更好的结果。先前的工作利用训练集中的类样本频率作为直观的指示[4,12,26,34]。然而,一个类的学习质量不仅与分布先验有关,还与优化难度[9]等因素有关Feng等人提出了平均分类得分[10]方法。这种训练时间模型统计可以反映学习地面实况7001表1.在验证集上使用不同模型统计量进行事后校准前后的模型性能。实验在LVIS v0.5上使用Mask R-CNN和ResNet-50-FPN进行。MS代表平均分类得分[10],CM代表混淆矩阵。使用CM的校准可以实现几乎完全无偏的性能。采样器Info.APAPRAPCAPfAPB随机/MSCM21.94.621.728.921.925.714.327.328.225.426.323.726.027.925.9/25.616.026.428.525.6RFS [12]MS27.020.628.228.027.0CM28.428.628.827.928.2类的质量不仅仅是标签分发。然而,我们注意到,它只考虑每个类内的样本分类统计,忽略了类间的相似性。为了涉及类内和类间的关系,分类混淆矩阵已经是一种武器。它携带类对之间的动态误分类条件概率分布(图1)。在LVIS v0.5 [12]上进行了证明研究以验证我们的猜想。使用混淆矩阵和平均得分(混淆矩阵和平均得分都收集在验证集上)测试事后校准的上限性能详细结果总结见表1。1.一、如图所示,使用平均得分和混淆矩阵的校准都可以更重要的是,混淆矩阵校准的上限远高于平均得分校准的上限(+9. 4随机采样器上的AP r和+8。0APr在RFS [12]采样器上,在频繁类上具有类似的性能)。混淆矩阵校准实现了几乎完全无偏的性能。请参阅Sec。3.2详情因此,混淆矩阵中成对类别之间的细粒度误分类概率(我们将其总结为成对偏差)作为一个指标是很有效的。一个必须解决的重要问题是在实际训练中无法获得验证集。一个直接的直觉是利用训练集上的混淆矩阵进行校准。不幸的是,这一故障如Tab. 4.第一章这可能是由于训练时和测试时计算的混淆矩阵之间的不匹配,这源于样本的多样化模式。受[15]的启发,他们进行了训练时间分解以取代长尾分类的测试时间后补偿,我们开发了一种名为PCB(PairwiseC lassB alance)的在线成对偏差驱动校准方法。它在训练过程中保持一个混淆矩阵,以矩阵转置后验方式生成反击目标,以平衡每个正在进行的建议学习的成对偏差。然而,幼稚的利用可能会限制功效,因为较强的正则化可能不利于区分能力,而较弱的正则化不能很好地消除为了充分吸收上述PCB正则化的优点,同时促进去偏,配备了轻预测依赖的迭代范例。它是通过使用由原始独热标签训练的判别预测来实现的,以嵌入回递归地增强特征。PCB正则化逐渐应用于来自增强特征的每个步骤的预测。通过这种方式,实现了更友好的、渐进的成对类平衡,这在后面的实验部分中也被证明概括起来,我们的贡献如下:我们探讨了混淆矩阵的使用,以表明在长尾实例分割领域的成对模型的偏见,这表明了一个有前途的上限。提出了一种成对类平衡方法来解决长尾实例分割问题。在LVIS v0.5和LVIS v1.0上的大量实验表明了该方法的有效性。2. 相关工作对象检测和实例分割。近年来,目标检测技术受到了广泛的关注,并取得了显著的进步。现代目标检测框架[2,11,21,27,32,45]可以分为两阶段和一阶段。两阶段检测器[2,11,27]首先在第一阶段生成一组建议,然后在第二阶段细化建议并执行分类。而一级检测器[21,32,45]直接预测边界框。与两级检测器相比,一级检测器更快,但两级检测器可以提供更好的定位。Mask R-CNN [13]通过在第二阶段添加掩码预测分支,使Faster R-CNN [27]适应SOLO [37,39]是另一行实例分割,它是无框的。我们的工作基于Mask R-CNN,以保持与其他长尾实例分割工作相同。长尾学习长尾学习问题跨越各个领域(例如,细粒度识别[33],多标签学习[41]和实例分割[12])。两个经典的解决方案是数据重新采样[5,12],其目的是使数据分布变平,以及损失重新加权[3,8],其更多地强调尾部数据。最近的工作提出了解耦训练[17,48],首先通过常规训练获得良好的表示,然后校准分类器。其他技术,如集成[38],自监督学习[19,42]和知识蒸馏[14,19]被证明在长尾学习中是有用[12]首先将长尾学习问题引入实例分割,从而引入对象检测。他们···7002·∈∈ΣK∈≤ ≤·ΣΣT ∈ HTHT ∈H建立了一个名为LVIS的大型词汇数据集,并提出了一个简单的基线RFS。[35]指出长尾特性对分类的影响最大。后来,一系列的工作试图减轻分类偏见。一条工作线试图改进样本策略[4,10,40,43,47],而另一条主要工作线则专注于损失工程。Equalization Loss [30]及其改进[29]降低了头类尾类的负梯度,而droposs [16]进一步考虑了背景的梯度。类似地,ACSL [36]仅处罚超过阈值的阴性类别。将类别分成一些小组[20,40]和简单的校准[24,46]也有帮助。[26,34]通过嵌入分布先验修改了原始的soft-max函数,取得了成功。[10]首先介绍模型统计。它利用平均分类分数代替模型不可知先验。它没有指出一个类别的预测偏向的方向。所以我们更进一步,二维统计分类混淆矩阵来指示我们在下面详细说明的学习偏好。为了便于说明,并以经典的两阶段实例分割模型Mask R-CNN [13]为例,我们用F()表示R-CNN分类头。在不失一般性的情况下,我们主要讨论最常用的交叉熵损失(CE)(另见对二进制交叉熵损失的适用性)。在第二节的最后一段熵。3.3)。通常,通过将建议特征图X作为输入,F预测分类分布z=F(X)RC+1(C个前景类加上1个背景类)。由于误分类习惯于在长尾设置[31]下的前景类中,因此我们仅研究前景类这是通过排除背景logit(zfgRC)并重新归一化以下多项式类概率来实现的。exp(zfg)p=i.(一)(i.e.、混淆矩阵)用于指示细粒度的成对偏差。ICk=1 exp(zfg)混淆矩阵。混淆矩阵是误差分析的经典工具。在许多领域,它都显示出强大的能力。它在标签噪声领域,[25]对最干净的样本我们记为MRC×C 作为混淆矩阵其可以在给定标记-预测统计的二维箱中的直方图投票的情况下计算:(x,y)I[arg max(zfg)=j,y=i]生成混淆矩阵,并假设噪声比。同样,[44]实际上保持了一种混乱,Mi,j=n(x,y)I[y=i],(二)矩阵使用软预测进行标签平滑。据我们所知,我们是第一个在长尾学习领域采用混淆矩阵的3. 方法在本节中,我们首先讨论了长尾Phe-其中1i、jC和I[ ]作为一个指标,当内部条件满足时,计算1,其他为0睿的为了保持更精细的误分类分布细节(在等式中被argmax2)为了更稳定的训练,我们选择了一个软化的版本,通过在地面真实指数上聚合预测概率。由混淆矩阵揭示的成对偏差观点中的现象秒第3.1节)。接下来,事后校准验证显示了平衡Mi,j=(x,y)p<$j·I[y=i].(三)(x,y)I[y=i]偏置(cf.秒3.2)。在实际训练中,我们提出了一种在线迭代正则化范式来减轻有助于长尾实例分割的成对类偏差(参见。秒3.3)。3.1. 指示成对偏倚大多数处理长尾问题的现有工作旨在减轻数据丰富类之间的预测偏差(即,头类)和数据稀缺类(即,尾类)。它们主要传达了数据重新采样或损失重新加权的精神。然而,这些仅限于样本级,而不考虑模型学习动态,并且可能是次优的。LOCE [10]建议在训练中使用每个类别的平均分类得分来反映运行时预测偏好。然而,它未能充分利用长尾文学中至关重要的阶级关系。相反,在本文中,我们建议利用M i,j是统计概率,指定模型将类别i的样本分类为j的程度。M i,j和M j,i之间的不相等值反映了两类之间的非对称模型偏好。我们称这种现象为成对偏差。当M i,j= M j,i时,类别i和j之间的成对偏差变得平衡。通常,在长尾场景中,头类和尾类之间更容易发生成对偏差不平衡,其中Mi,j> Mj,i,i,j其中尾类和头类的集合分别表示为和。在极端情况下,可能有M i,jM j,i,i,j。正式地,头部和尾部类由三个类分裂表示,即。常见(f )、常见( c )和 罕见(r)。实际上,对于在LVISv0.5上训练的Mask R-CNNResNet-50-FPN,频繁类实例被错误分类为罕见类的概率,即,,Mf,r为0.01,而对Mr,f为0.19。7003ROI特征r+1预报头RoI特征r分类框更新ΣΣΣΣi=1Σ|−K我ˆ...步骤r(1张图片)混淆矩阵量杯步骤r+1共享权重...跨步骤 正常化水箱…图2.我们提出的PCB框架:在每个循环步骤r,由前一步生成的ROI特征被馈送到共享预测头以获得预测框和分数。根据分类正则化的混淆矩阵L PCB生成软目标,并通过αr和LCE进行权衡。随后,RoI特征由下一步使用的预测更新,混淆矩阵由得分统计的当前迭代更新。3.2. 事后校准试验直观地利用混淆矩阵是为了后处理,我们还将上述事后校准与下面的一元平均分类评分[10]辅助的事后校准进行了如第2.1节所述的特殊校准1.一、通常,事后校准可以通过遵循贝叶斯全概率定理的精神来进行s=(x,y)pi·I[y=i](x,y)I[y=i](七)CP(y=i|x)=P(y=i|y=j,x)P(y=j|(十)、(四)j=1其中条件x省略X=x,表示提议特征。y=i和y=j分别表示“x确实属于类i”和“x被预测为类j“的事件很明显,他们正是这个骗局中的对角线元素融合矩阵(Eq. 3),即,si=Mi,i(作为补充,额外的成对偏差项保留细粒度的类间误分类提示,反映成对类中的模型偏好)。根据经验发现[10],平均分类得分与实例数量之间存在正相关性,我们进行了以下校准调整。自然地,P(y=j|x)项由前-pi/sip=(八)分类的第j个位置上的指定概率(pj输出.我们实例化P(y=i|通过通过每-iCp/sy=j,x)Mi,j超过上述校准,通过等式前景上6或8在混淆矩阵上形成归一化,使得每列(不是行)的元素加起来等于1。类,我们继续使用相同的背景概率(p<$C+1=p<$C+1),如[31,34]中所建议的。以确保Mi,jM=(五)summation-1属性的预测,我们首先划分每个i、jCk=1 Mk,j前景概率由它们的总和,渲染p=1M_i,j指示样本如何可能总体上被归属于类别i,条件是被预测为类别j。它可以看作是P(y=iy∈=j,x)的一个近似期望. 因此,样本x在类别i上的预测概率的事后校准(称为pi)被校正为:Cpi=Mi,jpj(6)j=1在另一个视图中,系数Mi,j与Mj,i一起构成在Sec.第3.1条(仍然使用相同的符号,但符号略有滥用然后,我们通过乘以系数δ=1来重新缩放每个前景概率p=C+1。我们证明了事后校准的有效性w.r.t. 两指标(混淆矩阵或平均分类得分)。实验是在LVISv0.5上进行的,混淆矩阵是在验证集上计算的。见table1关于细节对于启用用于上限检查的部分标签的事后评估,利用pro-tags的实际类别来计算混淆矩阵(通过使用pro-tags和地面实况框之间的交集(IoU)进行 值得注意的是,使用混淆k=1K7004≈·k=1≥y∈∈∈∈×i,y⊕−R1Σy yy用于校准的矩阵在罕见类别的AP方面更有希望(在随机模式下高10%,与APc和APf相似)。这样的优势表明,通过考虑非对角成对偏差,混淆矩阵对平均分类得分的上界更高。这激发了我们在SEC中的方法。3.3以下。用于微样本级分类的普通交叉熵损失LCE()将K表示为当前小批量中的建议的数量,总分类损失函数为L cls=KL cls(k),其中每个项为:3.3. 在线迭代混淆矩阵学习Lcls(k)=。αLPCB(k)+(1−α)LCE(k),ykC+1 、上述事后校准依赖于在常规训练中不可用的验证或者,可以使用训练集上的混淆矩阵统计。然而,训练集和验证集上的混淆矩阵模式不能完全匹配,例如。即使在同一类别中,由于对象外观的多样性选项卡中的结果4、实验验证。受[15]的启发,他们进行了训练时间解缠以取代分类的测试时间后补偿,我们建议在训练期间使用训练时间混淆矩阵信息进行在线成对类别平衡,图2是我们的框架。我们在训练过程中通过指数移动平均(EMA)更新混淆矩阵。具体地,对于第t个小批量,我们更新矩阵行,每个矩阵行通过分配给它的建议的平均预测输出对应于前景类ymt=γmt−1+(1−γ)p<$t,(9)其中mt和mt−1表示连续的第y行向量LCE(k),否则(十一)其中α是权衡两个损失函数的系数。如Tab.所示。6、PCB原料开采正规化-(等式(10)确认利润。然而,性能恶化的正则化项成为主导(α0。2)。 我们认为这是因为当前的预测在第一次实现联合时的区分度较低成对偏差平衡和基本分类的目标受此启发,以及[7]中的细化其核心在于使用来自建议功能的预测预测的框和置信度被投影为稀疏空间和通道注意力,以增强建议特征,而不是像[7]中那样直接级联,这可能导致语义差距。详细分析见补充资料。总的来说,Tab。4显示魔术般的综合效益。整个过程只发生在最后的头部,并保持提案箱不变,第t-1次和第t次迭代时的融合矩阵。p<$t是平均预测概率向量,γ(0,1)是动量。更新未出现在当前迭代被跳过。如SEC中所述3.2、变换后的混淆矩阵不像[2]。从技术上讲,对于每个步骤r:1. 计算输出分类logitszrRC+1和关于分类和箱头的预测箱brR4C,给出紧凑的建议特征图项目(M)i、j,1 ≤ i,j ≤ C),5反映条件XrRHp×Wp×D(Hp、Wp和D合并7 7分辨率和通道深度)。 X0(r = 0)是正则的以成对偏差的形式进行校正的后验概率。因此,我们直接强制模型学习这些信息作为反击正则化。具体地说,提案特征X.2. 计算正则局部化损失Lr一起我们利用变换后的混淆矩阵项作为软用修正的分类损失Lrloc目标的形式上,对于当前迭代中标签的每个第k个前景建议,我们通过下面的交叉熵对前景类学习应用正则化。cls(方程式第11段)。3. 使用单独的MLP(FC-ReLU-FC)来将zr和br投影为D维特征和H p W p维特征。即,获得fr=MLP cls(zr)和fr=MLP loc(br),CZB1×1×DLPCB(k)=−Mt原木(十)然后弯曲成R的形状RH×W×1,记为Xr和Xr。和个zlbi=14. 细化提案特征Xr+1=Xr<$Xr <$Xr。⊗除了上面阐述的基本原理之外,正则化直观地旨在平衡成对偏差。以一对类a和b为例,如果存在偏好Ma,b Mb,a,则对类a和b的预测置信度同时被抑制和提高。正则化的目的是在宏观模型动力学水平上缓解训练时间成对类平衡。我们继续bz值并表示广播元素乘法和加法。自然地,在稍后的细化步骤中的建议特征变得更具区分性并且可以承受更强的规则性。我们只是简单地施加一个线性增加的αr=r−1α,随着步骤的移动。7005ΣΣCLS∥·∥R∥ −∥引入了Wr,结合了分类和定位损失,并且我们导出了总体目标:功能,它将通过相同的预测头进行三次迭代,并三次生成分类得分和边界框预测,而只使用RL=r=1wr(Lr(同上)+L面罩,(12)进行评估。三次迭代中的每一次的分类损失权重wt被设置为0.2、0.2和0.6,以保证最后一次迭代的性能。EMA势头掩码预测损失自分段子任务具有其自己的分支。BCE分类器的扩展。除了交叉熵之外,具有S形激活函数的分类器的二进制交叉熵(BCE)变体在现代实例分割器中也很普遍我们提出的方法可以无缝应用,除了丢弃公式5之外,无需修改,因为PCB正则化是为前景类设计的,自然匹配BCE上下文。在EQL v2 [29]上的实验表明了该方法的有效性。4. 实验在本节中,我们在LVIS数据集[12]上进行实验,以验证我们方法的有效性我们证明了我们的方法的互补性,其他国家的最先进的长尾实例分割方法。4.1. 实验装置数据集。实验在大型词汇实例数据集LVIS上进行。LVIS v0.5包含1230个类别,包括实例掩码注释和边界框注释。最新版本LVIS v1.0包含1203个类别。我们主要在LVIS v0.5上进行实验训练集用于训练,验证集用于评估。根据每个类别在训练集中出现的图像数量,所有类别被分为三个部分:罕见(1-10张图像),常见(11-100张图像)和频繁(>100张图像)。评估指标。 遵循通用协议,我们采用平均精度(AP)作为评估指标,该指标在0.5至0.95的IoU阈值范围内取平均值。用于主掩模预测任务的AP被省略为AP,并且用于对象检测的AP被表示为APb。还对AP50和AP75进行了我们报告了罕见、常见和频繁分裂的详细AP结果,表示为APr、APc和APf。此外,我们还评估了一种新的度量方法来检查验证集上混淆矩阵的成对类平衡,称为成对偏差(PwB)。在PwB(M)= M M <$F,其中M <$F代表M的转置,F是Frobenius归一化。实作详细数据。为了实现我们的PCB,我们在MLPloc中设置隐藏层的尺寸,MLPclsto 512.对于EQL v2 [29],我们在MLPcls之前额外应用LayerNorm [1],以使训练稳定,这不会提高性能。 对于ROIγ被设置为0.99作为默认值,我们选择α=0。4对于任何方法,不修改损失函数。 为了在EQL v2 [29]和Seesaw [34]上实现,应相应修改L PCB和L CE。 由于PCB正则化仅将一个热标签替换为软目标,因此可以通过将其应用于这些方法来轻松实现。由于损失函数的改变,模型被强烈地重新平衡,α分别为0.2和0.05,作为补充。PCB正则化项在第16个时期之后应用。对于Seesaw [34],应用RFS采样器与LOCE [10]进行公平比较,LOCE也对数据进行了重新采样对于培训策略,我们遵循常见的配方[34],请参阅我们的补充材料了解详细信息。4.2. 基准测试结果我们的PCB,其目的是实现成对的类平衡,可以是任何现有的长尾实例分割方法的补充。实验在LVISv0.5和LVIS v1.0上跨各种基础方法进行,包括两种最先进的解决方案EQL v2 [29]和跷跷板损失[34]。结果见表1。二、当配备PCB时,所有基础方法的AP都得到了改善,特别是APr。即使在强再平衡方法跷跷板上,仍然有罕见AP的明显上升(例如,LVIS v0.5 + 3.5 APr这是由于PCB中的成对偏差的探索,这在以前的工作中没有考虑,因此仍然存在于那些SOTA模型中。另一个有趣的事情是,PCB几乎不会伤害APf来补偿APr,有时甚至会提高APf此外,PwB度量值与模型AP呈负相关,我们的PCB可以有效地降低PwB。在选项卡中。 3.在LVISv0.5和LVISv1.0上,我们报告了在不同骨干网络上与这些最先进的方法的比较。在所有实验中,所实现的Seesaw + PCB实现了最佳的掩模AP和盒AP。APr和APf之间的间隙变窄。4.3. 消融研究在这一部分中,进行了全面的烧蚀研究,以分析我们的PCB中的各种组件实验在LVIS v0.5上使用Mask R-CNN和ResNet- 50-FPN进行。除非另有说明,否则采用RFS。PCB中的组件。PCB中有两个组件,正则化项和学习范式。对每种方法的选择进行了实验验证,实验结果总结在表1中。4.第一章为了评估设计的PCB正则化的有效性,我们进行了比较,+L7006表2.使用ResNet-50主干的LVIS v0.5和LVIS v1.0验证集的结果我们的PCB可以补充各种方法,包括基线方法Softmax,采样方法(例如,RFS [12]),一个是二元分类器(例如,EQL v2 [29]),甚至强大的最先进的方法(例如,Seesaw [34])。LVIS v1.0上RFS和EQL v2的结果直接复制自[10],LVIS v1.0上Seesaw的结果直接复制自[6]。数据集LVIS v0.5LVIS v1.0方法PCBAPAPRAPCAPfAPBPwB↓APAPRAPCAPfAPBPwB↓Softmax✗✓21.925.14.612.621.725.528.929.521.925.213.88.419.022.61.37.716.721.829.329.919.924.114.58.8RFS [12]✗✓25.627.716.021.826.428.028.529.725.628.213.68.823.726.513.518.522.826.529.330.224.728.3-9.0[29]第二十九话✗✓26.927.817.820.927.228.429.529.926.528.110.97.425.526.217.718.224.325.930.230.126.127.3-6.5[第34话]✗✓27.828.819.923.428.929.629.530.027.328.67.97.026.827.219.819.026.327.130.530.927.628.17.56.4表3.与LVIS v0.5和LVIS v1.0的最新技术水平进行了比较。†表示从[10]复制的结果。‡表示从[6]复制的结果。数据集骨干方法APAP50AP75APRAPCAPfAPB行李[20]†26.3--18.026.928.725.8EQL v2 [29]†26.941.528.917.827.229.526.5LVIS v0.5R-50-FPNLOCE [10]†28.4--22.029.030.228.2[第34话]27.842.629.619.928.929.527.3跷跷板+PCB28.843.830.923.429.630.028.6EQL v2 [29]†25.5--17.724.330.226.1LVIS v1.0R-50-FPNLOCE [10]†瑞典[34]26.626.8-41.3-28.418.519.826.226.330.730.527.427.6跷跷板+PCB27.241.729.419.027.130.928.1行李[20]†25.6--17.325.030.126.4EQL v2 [29]†27.2--20.625.931.427.9LVIS v1.0R-101-FPNLOCE [10]†28.0--19.527.832.029.0中国[10]28.242.730.221.027.831.828.9跷跷板+PCB28.843.330.922.628.332.029.9标签平滑[23]和在线标签平滑[44]。显然,PCB规范化超越了两者。它在所有分裂上都得到了改进,特别是对于稀有类(+2.9 APr),这与传统的进行权衡的方案不同。相反,在线标签平滑,不考虑长尾分布加剧了偏差。深度监督(DSN)[18,28]和我们提出的迭代学习范式之间的比较也被引入。当配备DSN或迭代学习范式时,PCB的性能得到改善,即使单独应用DSN会损害性能,这表明了这种渐进学习方式的有效性基于预测的自校准迭代学习范式仍然优于DSN,所有分裂的性能优于DSN。文中还给出了事后混淆矩阵校正的结果,其中混淆矩阵是在训练集上计算的PCB正则化的性能在所有类别上都优于事后混淆矩阵校准分裂,这支持我们选择在线学习。超参数。 我们测试了PCB中的两个主要超参数,混淆矩阵更新的动量γ和PCB正则化系数α。结果总结见表。5、Tab六、在选项卡中。5、随着γ的增大,稀有类的性能逐渐提高,与普通类相反然而,总体而言,性能对于γ的选择是稳健的。我们把α从0变到1。随着α的增加,APr先迅速提高后缓慢下降。在APc和APf上也发生类似的现象。当α=0时,模型没有正则化来减轻偏差。如果α=1,太强的正则化会损害基本分类。因此,我们选择α=0。4.平衡两两之间的平衡和歧视。在每个循环步骤中进行预测 PCB在每个递归步骤输出预测,该预测嵌入到下一个递归步骤的输入中。在选项卡中。7、我们评估每一步的分类预测。稀有类的性能是通过迭代逐步提高的,7007表4.PCB中每个组件的烧蚀研究正则化(Regu.)的选择学习范式(Paradigm)La- bel平滑(LS)[23]和在线标签平滑(OLS)[44]与PCB正则化进行比较深度监督(DSN)[18]是与我们的迭代学习范式进行比较。还提供了事后混淆矩阵校准(CM)的结果。†表示使用训练集混淆矩阵,与Tab中不同。1.一、雷古范式APAPRAPCAPfAPBN/AN/A25.616.026.428.525.6CM†N/A25.417.825.827.825.2LS [23]N/A25.916.926.329.126.0OLS [44]N/A25.615.426.428.625.7PCBN/A26.718.927.528.827.1N/A[第18话]24.815.425.227.924.2N/A迭代26.517.427.329.226.8PCB[第18话]26.921.127.029.128.0PCB迭代27.721.828.029.728.2表5.分析了不同EMA动量γ的影响。γAPAPRAPCAPfAPB0.927.619.328.829.328.30.9927.721.828.029.728.20.99927.522.127.629.528.4表6.分析不同PCB正则化系数α的影响。实验是在LVIS v0.5上用RFS进行的αAPAPRAPCAPfAPB0.026.517.427.329.226.80.227.420.327.829.628.10.427.721.828.029.728.20.627.721.328.229.528.50.827.421.327.929.128.41.026.620.926.928.627.6对频繁上课的学生影响不大甚至有所改善。这表明我们的PCB的机制,从经常性的步骤,经常性的步骤,罕见的偏见是减轻。采用逐步去偏的方式保证了频繁类的性能。有趣的是,即使是仅通过CE损失训练的第一个递归步骤的性能也超过了Tab中相应的基本方法。2,中间步骤的预测甚至可以与最终预测相媲美。这可能是由不同的循环步骤的权重共享带来的与其他辅助方法的比较。除了我们的PCB之外,最近提出的NORCAL [24]也是一种补充方法,它根据训练分布进行事后校准。为了显示PCB的优越性,对各种方法进行了实验。结果总结见表。8. NORCAL可以在RFS失败时提高RFS的性能,这表7. 3步PCB的每个递归步骤的预测的性能。实验在LVISv0.5上进行。方法步骤idAPAPRAPCAPfAPB122.98.322.629.123.0Softmax224.610.625.029.624.7325.112.625.529.525.2126.820.727.129.027.0RFS [12]227.821.028.429.728.4327.721.828.029.728.2表8.与NORCAL [ 24 ]的比较,NORCAL [24]也是其他方法的NORCAL是网格搜索,并报告了每种方法的最佳超参数的结果。方法APAPRAPCAPfAPBRFS25.616.026.428.525.6RFS +正常27.419.628.828.827.4RFS + PCB27.721.828.029.728.2EQL v226.917.827.229.526.5EQL v2 +正常26.820.527.029.226.4EQL v2 + PCB27.820.928.429.928.1跷跷板27.819.928.929.527.3跷跷板+标准27.820.928.929.227.4跷跷板+PCB28.823.429.630.028.6在强基线上这样做。NORCAL只依赖于标签分布,缺乏类间关系,因此当基线被强烈重新平衡时会变得尴尬。这8.5. 结论和局限性在本文中,我们建议利用混淆矩阵统计中的成对偏差作为强大而直观的指标,以促进更平衡的长尾实例分割。这种指示器拥有更细粒度的类间关系细节,有助于实现更高的性能上限。总之,提出了一种针对成对类别平衡(PCB)的在线校准方法,通过以简单正则化的形式生成反击软目标来缓解长尾实例分割为了更友好的正则化,设计了一种迭代学习范式来逐步减轻成对偏差。实验上,我们提出的PCB方法提高了各种现有的长尾实例分割方法的性能,在非常具有挑战性的LVIS基准上建立了一个新的最先进的方法。局限性:混淆矩阵的统计方式可能有改进的空间,混淆矩阵是历史统计和未来批次统计之间的权衡前者在反映当前模型状态方面引入了滞后,而后者则没有代表性。我们将在未来改善PCB。7008引用[1] Jimmy Lei Ba,Jamie Ryan Kiros,Geoffrey E Hinton.层归一化。arXiv预印本arXiv:1607.06450,2016。6[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的对象检测。 在IEEE会议Comput. 目视模式识别,第6154-6162页,2018年。二、五[3] Kaidi Cao , Colin Wei , Adrien Gaidon , NikosArechiga,and Tengyu Ma.使用标签分布感知的边际损失 学 习 不 平 衡 数 据 集 。 arXiv 预 印 本 arXiv :1906.07413,2019。2[4] Nadine Chang , Zhiding Yu , Yu-Xiong Wang , AnimaAnand- kumar,Sanja Fidler,and Jose M Alvarez.图像级还 是 对 象级 ? 长 尾 检 测的 两 种 策 略 。arXiv 预 印 本arXiv:2104.05702,2021。第1、3条[5] Nitesh V Chawla,Kevin W Bowyer,Lawrence O Hall,and W Philip Kegelmeyer. Smote:合成少数过采样技术。人工智能研究杂志,16:321-357,2002。2[6] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu,Jiarui Xu,et al.Mmdetection:打开mmlab检测工具箱和基准测试。arXiv预印本arXiv:1906.07155,2019。7[7] Xuangeng Chu,Anlin Zheng,Xiangyu Zhang,and JianSun.拥挤场景中的检测:一个建议,多个预测。在IEEEConf. Comput.目视模式识别,第12214-12223页,2020。5[8] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge Belongie.基于有效样本数的类平衡损耗。在IEEEConf. Comput.目视模式识别,第9268-9277页,2019年。2[9] Rahul Duggal , Scott Freitas , Sunny Dhamnani , DuenHorng Chau,and Jimeng Sun. Elf:一个早期存在的长尾分类框架。arXiv预印本arXiv:2006.11979,2020。1[10] Chengjian Feng,Yujie Zhong,and Weilin Huang.长尾目标检测中的分类均衡研究。在Int. Conf. Comput. 目视第3417一二三四六七[11] 罗斯·格希克。快速R-CNN。在国际会议计算中目视第1440-1448页,2015年。2[12] 阿格里姆·古普塔,皮奥特·多勒,罗斯·格希克。Lvis:用于大词汇实例分割的在IEEE Conf. Comput. 目视模式识别,第5356一二六七八[13] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在国际会议计算中目视,第2961- 2969页,2017年。二、三[14] Yin-Yin He,Jianxin Wu,and Xiu-Shen Wei.提取长尾识别的虚拟示例。arXiv预印本arXiv:2103.15042,2021。2[15] Youngkyu Hong , Seungju Han , Kwanghee Choi ,Seokjun Seo,Beomsu Kim,and Buru Chang.用于长尾视觉识别的标签分布分解。在IEEE Conf. Comput.目视模式识别,第6626-6636页,2021。二、五[16] Ting-I Hsieh , Esther Robb ,Hwann-Tzong Chen ,andJia-Bin Huang.用于长尾实例分割的Droploss。arXiv预印本arXiv:2104.06402,2021。3[17] Bingyi Kang,Saining Xie,Marcus Rohrbach,ZhichengYan,Albert Gordo,Jiashi Feng,and Yannis Kalantidis.用于长尾识别的解耦表示和分类器arXiv预印本arXiv:1910.09217,2019。2[18] Chen-Yu Lee , Saining Xie , Patrick Gallagher ,Zhengyou Zhang,and Zhuowen Tu.深度监督网络。《人工智能与统计》,第562-570页。PMLR,2015. 七、八[19] 李天豪,王利民,吴刚山。长尾视觉识别的自我在Int.Co
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功