没有合适的资源?快使用搜索试试~ 我知道了~
开集目标检测中的低密度潜在区域扩展方法
9591检测器用于开集目标检测的低密度潜在区域扩展韩家明1、2、任玉强3、丁建1、2、潘兴佳3、柯岩3 <$、夏桂松1、2 <$1武汉大学2国家重点实验室武汉大学3腾讯优图实验室{韩家明,建.丁,桂松.夏}@ whu.edu.cn{condiren,kerwinyan} @ tencent.com,xjia. gmail.com摘要现代物体探测器在近距离设置下取得了令人瞩目的进步。然而,开集对象检测(OSOD)仍然具有挑战性,因为未知类别的对象经常被误分类到现有的已知类别。在这项工作中,我们提出了识别未知物体的共识,通过分离高/低密度区域的潜在空间,未知物体的闭集训练图像开集测试图像(b)第(1)款Ω������建议嵌入空间(a) Faster R-CNN(b) OpenDet(我们的)通常分布在低密度潜伏区。 作为传统的基于阈值的方法只能保持有限的低密度区域,不能覆盖所有的未知对象,我们提出了一种新的具有扩展的低密度区域的开集检测器(OpenDet)为此,我们为Open-Det配备了两个学习器:对比特征学习器(CFL)和未知概率学习器(UPL).CFL执行实例级对比学习以鼓励已知类的紧凑特征,为未知类留下更多的低密度区域; UPL基于预测的不确定性优化未知概率,从而进一步在已知类的集群周围划分更多的低密度区域。因此,低密度区域中的未知对象可以利用学习的未知概率来容易地识别。大量的实验表明,我们的方法可以显着提高OSOD的性能,例如。OpenDet在六个OSOD基准测试中将绝对开集误差降低了25%-35%。代码可在https://github.com/csuhan/opendet2 上 获得。1. 介绍尽管过去十年中,目标检测取得了显著进展[3,17,29,37,39,45],但现代目标检测器通常是以闭集为基础开发的在腾讯优图实验室实习期间完成的工作†通讯作者。图1.(a)基于阈值的方法,例如,Faster R-CNN通常会将未知对象(黑色三角形,例如斑马)错误分类为已知类别(彩色点,例如马),因为低密度区域有限(灰色)。(b)我们的方法通过扩展低密度区域来识别未知物体。我们鼓励紧凑的建议功能,并学习已知和未知类之间的明确分离。假设在测试过程中出现的对象类别包含在训练集中,并且在处理真实世界场景时很快失去效率,因为许多对象类别在训练中从未见过。参见图1的实例,其中代表性的目标检测器,即,在PASCAL VOC [14]上训练的更快的R-CNN [39]将斑马错误地分类为具有高置信度的马,因为PASCAL VOC不包含新的斑马类为了缓解这个问题,最近研究了开集对象检测(OSOD),其中要求在闭集数据集上训练的检测器检测所有已知对象并识别开集条件下的未知对象。OSOD可以被看作是开集算法(OSR)的扩展[40]。虽然OSR已经被广泛研究[2,7,16,40,51,53],但很少有作品试图解决具有挑战性的OSOD。Dhamija等人 [12]首先对一些代表性方法的开集性能进行了基准测试[29,37,39],这表明大多数检测器在开集条件下被高估。Miller等人。 [32,33]采用丢弃采样[15]来提高(一)9592∪在开放设置条件下的探测器。Joseph等人 [23]通过拟合已知和未知类的能量分布提出了一种基于能量的未知标识符总之,先前的作品通常利用隐藏的证据(例如,输出logits)作为未知指标,代价是额外的训练步骤和复杂的后处理。我们是否可以只用闭集数据训练开集检测器,并直接将其应用于开集环境,而无需复杂的后处理?我们从已知物体通常聚集在潜在空间中形成高密度区域的共识中获得灵感,而未知物体(或新图案)分布在低密度区域[5,18,38]。从这个角度来看,高/低密度潜在区域的适当分离然而,TRANSMISSION方法,例如,硬阈值处理(图1(a))仅维持有限的低密度区域,因为较高的阈值将阻碍闭集精度。在这项工作中,我们建议通过扩展低密度潜在区域来识别未知物体(图1(b))。首先,我们学习已知类的紧凑特征,为未知类留下更多的低密度区域然后,我们学习每个实例的未知概率,作为阈值,以划分更多的低密度区域周围的已知类的集群。最后,分布在这些区域的未知对象可以很容易地识别。更 具 体 地 说 , 我 们 提 出 了 一 个 开 集 检 测 器(OpenDet)与两个学习器,对比特征学习器(CFL)和未知概率学习器(UPL),从两个折叠扩展低密度区域。让我们用=KU表示潜在空间,其中K和U分别表示高/低密度子空间。CFL执行实例级对比学习,以鼓励已知类的类内紧凑性和类间分离,这通过缩小ΩK来扩展ΩU。UPL根据预测的不确定性学习每个实例的未知概率。当我们仔细优化UPL以保持闭集精度时,学习到的未知概率可以作为阈值,将更多的UPL划分为UPL和UPL。在测试阶段,如果一个实例的未知概率在所有类中最大,则直接将其分类到未知为了证明我们的方法的有效性,我们采用PASCALVOC [14]进行闭集训练,并考虑VOC和COCO [30]构建几个开集设置。与以前的方法相比,Open-Det在所有开集度量上都有显着改进,而不影响闭集精度。例如,OpenDet减少了绝对开集误差(在第4.1)在六个开放设置上减少25%-35%。我们还在图2中可视化了潜在特征,其中OpenDet学习了已知和未知类之间的清晰分离。此外,我们进行了广泛的烧蚀实验,以分析(a)基线(b)我们图2. 潜在特征的t-SNE可视化。我们将VOC类作为已知类(彩色点),将COCO中的非VOC类作为未知类(黑色三角形)。我们的方法学习了已知和未知类之间的明确分离。我们的主要组件和核心设计选择的效果此外,我们还证明了OpenDet可以很容易地扩展到单级检测器,并取得了令人满意的结果。我们将我们的贡献总结为:• 据我们所知,我们是第一个通过模拟低密度潜在区域来解决挑战性OSOD的。• 我们提出了一种新的开集检测器(OpenDet),它有两个精心设计的学习器,CFL和UPL,可以以端到端的方式进行训练,并直接应用于开集环境。• 我们引入了一个新的OSOD基准。与以前的方法相比,OpenDet在所有开集度量上都有显着的改进,例如。OpenDet将绝对开集误差降低了25%-35%。2. 相关工作开放集识别。OSR的早期尝试[1,22,24,41,52]通常利用传统的机器学习方法,例如。,SVM [22,41].Bendale等人 [2]介绍了Open-Max,这是第一个基于深度学习的OSR方法,它重新分配了softmax层的输出概率。其他方法包括基于生成对抗网络的方法[16,34],其生成潜在的开集图像以训练开集分类器,基于重建的方法[35,44,51],其采用自动编码器来恢复潜在特征并通过重建误差识别未知,以及基于原型的方法[6,7],其通过测量与学习的原型的距离来识别开集图像。此外,Zhou等人。 [53]提出学习数据占位符以预测开集数据和分类器占位符以区分已知和未知。 Kong等人 [26]利用一个经过对抗训练的机器人来检测未知的例子。我们的方法与[53]更相关。不同的是,[53]需要在验证集上进行闭集预训练和校准,而我们的方法是以端到端的方式训练的,并且学习的未知概率是准确的,无需校准。开集目标检测是OSR在目标检测中的扩展。 Dhamija等人 [12]第一个正式的OSOD9593LL联系我们i=1--图3. 概述我们提出的方法。左图:OpenDet是一个两级检测器,具有(a)对比特征学习器(CFL)和(b)未知概率学习器(UPL)。CFL首先利用对比头(CH)将提议特征编码到低维嵌入中。然后,我们优化这些嵌入之间的小批量和内存银行的实例对比损失LIC。UPL学习已知类CK和未知类CU的概率,具有交叉熵损失CE和未知概率损失 起来右图:不同组件如何工作的玩具插图。彩色点和三角形分别表示不同的已知和未知类的建议特征我们的方法通过扩展低密度潜在区域(灰色)来识别未知。并通过分类器对一些代表性的检测器进行了基准测试。具有背景类的分类器[39]在处理未知对象时比一对 其 余 [29] 和 基 于 对 象 的 分 类 器 [37] 表 现 得 更 好Dhamija等人 [12]还表明,大多数检测器的性能是在开集条件下估计的。 Miller等 [32,33]利用丢弃采样[15]来估计对象检测中的不确定性,从而减少开集误差。Joseph等人 [23]通过拟合已知和未知类的能量分布提出了一种基于能量的未知标识符然而,[23]中的方法需要额外的未知类的开集数据,这违反了OSOD的原始定义。总之,先前的方法利用隐藏的证据(例如,输出逻辑)作为未知指示符。但它们需要额外的训练步骤和复杂的后处理来估计未知指标。相比之下,OpenDet可以只使用闭集数据进行训练,并直接使用学习的未知概率识别未知对象。对比学习是一种通过将正样本对拉在一起而将负样本对推开来学习表示的方法,最近已在自监督表示学习中推广[4,8,9,13,19,20]。 Khosla等人 [25]首先将自监督对比学习扩展到全监督设置,并受到其他领域的大量关注,例如。长尾识别[10,47]、语义分割[46,48]和少量目标检测[43]。我们的方法也受到监督对比学习的启发[25]。在这项工作中,我们探索了实例级对比学习来学习对象提案的紧凑特征。不确定度估计神经网络往往会产生过于自信的预测[27]。估计不确定度模型预测的有效性对于现实世界的应用是重要的。目前,不确定度估计方法可分为基于抽样的方法和不基于抽样的方法。基于采样的方法集成多个运行[15]或多个模型[27]的预测,这不适用于速度关键的对象检测。无采样方法学习额外的置信度值[11,42]来估计不确定性。我们的方法属于后一类。学习的未知概率可以反映预测的不确定性。3. 方法3.1. 初步我们正式OSOD基于以前的作品[12,23]。 让我们用D=(x,y),x表示X为ohY对象检测数据集,其中x是输入图像,并且y=(ci,bi)N表示具有相应类别标签c和边界框b的对象集合。我们在具有K个已知类的训练集DtrCK={1,. . .,K},并在具有来自已知类CK和未知类CU的对象的测试集D te上对其进行测试。目标是检测所有已知对象(对象∈CK),并识别未知对象(对象∈CU),以便它们不会被误分类为CK。因为不可能列出无限个未知类,我们用CU=K+1表示。与OSR不同,OSOD有其独特的挑战。在OSR中,图像只属于CK或CU;CK之外的任何示例都被定义为未知。在OSOD中,图像可能包含来自CK和CU的对象,这被定义为混合未知[12]。这意味着未知对象也将出现在Dtr中,但尚未被标记。此外,检测器通常保持一个容易与CU混淆的背景类Cbg。RPN概率1.0标签������∗ROIAlign������(������������ ∗)ℒ������E+������ℒUPℒ������������������(b)UPL存储体(a)CFLCH⋮ ⋮ ⋮⋮ℒI������+CFL基线+UPL⋮⋮⋮号提案骨干9594Σ1LFFLL∈F∈≤\L我j,其中si,j表示相似分数IC我|M(ci)|z∈A(c)exp(zi·zk/τ)3.2. 基线设置我们使用Faster R-CNN [39]建立了基线,该基线由主干网、区域提案网络(RPN)和R-CNN组成。标准R-CNN包括一个共享的全连接(FC)层和两个单独的FC层,用于分类和回归。我们通过三种方式来扩充R-CNN。(a)我们用两个并行FC层替换共享FC层,使得应用于分类的长期记忆最后,我们重复(a)和(b)每次迭代,其中最旧的建议从内存中取出,最新的建议进入队列。实例级对比学习。受监督对比损失[25]的启发,我们提出了实例对比(IC)损失,以学习对象提案的更紧凑的特征。假设我们有一个小批量的N个提案,IC损失被公式化为:阳离子分支不会影响回归任务。(b)受[7,49]的启发,我们使用基于余弦相似性的分类器来缓解过度自信问题[2,36]。具体地说,我们采用缩放余弦相似性分数作为输出logits:LICN= Ni=1IC(zi),(1)αF(x)F(x)iL(z)=1ΣlogΣzj∈M(ci)exp(zi·zj/τ)K我、(二)第i个建议要素之间(x)i和权重向量j类。α是缩放因子(默认情况下,α=20)。(c)框回归量被设置为类不可知的,即,,则回归分支输出长度为4而不是4(K+ 2)的向量。请注意,我们的基线并没有提高开集性能,但它对整个框架是有效的(图1)。(3)第三章。3.3. 对比特征学习者本节介绍了对比特征学习器(CFL),以鼓励类内紧凑性和类间分离,它通过缩小已知类的集群来扩展低密度潜在区域。如图3(a)所示,CFL包含对比头(CH)、存储体和实例对比丢失IC。对于建议特征(x)i,我们首先将其编码为CH的低维嵌入。然后,利用集成电路对小批量和存储体的嵌入进行了优化.我们在以下部分。对比头。我们建立一个对比头(CH)将高维提议特征(x)i映射到低维提议嵌入ziRd(默认情况下d=128详细地说,CH是一个具有顺序FC、ReLU、FC和L2-Norm层的多层感知器,它在训练中应用于R-CNN的分类分支,在推理过程中被放弃。类平衡存储体。流行的对比表征学习通常采用大规模的小批量[25]或记忆库[20]来增加样本的多样性。在这里,我们建立了一个新的类平衡的内存银行,增加的多样性的对象的建议。具体来说,对于每个类c CK,我们初始化大小为Q的存储体M(c)。然后,我们通过两个步骤从小批量中抽取代表性提案:(a)我们抽取具有交集(IoU)> Tm的提案,其中Tm是IoU阈值,以确保提案包含相关语义。(b)对于每个小批次,我们对最不相似的q(q Q)个概率进行采样(即,最小余弦相似性)与M(c)中的现有样本。这一步使我们的存储器库存储更多不同的样本,其中ci是i-提议的类标签,τ是温度超参数,M(ci)表示类ci的存储体,并且A(ci)=M M(ci)。请注意,我们仅优化IoU> Tb的提案,其中Tb是类似于Tm的IoU阈值。虽然未知对象在训练中不可用,但已知类的分离有利于未知识别。优化IC相当于将已知类别的聚类推离低密度潜在区域。如图2(b)所示,我们的方法只使用封闭的训练数据来学习已知和未知类之间的清晰分离。3.4. 未知概率学习器如在第二节介绍。3.3,CFL通过缩小已知类别的聚类(即,高密度区域)。然而,我们仍然缺乏明确的边界来区分高/低密度区域。具有小分数阈值的传统的基于阈值的方法(例如,,0.05)仅维持有限的低密度区域,无法覆盖所有未知物体。在这里,我们提出了未知概率学习器(UPL)划分更多的低密度潜在区域周围的集群的已知类。为此,我们首先用K+1路分类器来增强K路分类器,其中K+1表示未知类。那么问题就变成了:如何用闭集训练数据优化未知类?让我们考虑一个简单的已知与未知的分类器与可用的开放集数据,我们可以直接训练一个好的分类器,通过最大化类之间的利润。现在,我们只有闭集数据;为了训练这样的分类器,我们放松了最大间隔原则,只确保所有已知对象都被正确分类,即。保持近距离的准确性。在这个前提下,我们将在下面的部分介绍如何学习未知概率。查看交叉熵(CE)损失。我们首先回顾一下soft- maxCE Loss,这是Faster R-CNN的默认分类损失。让s表示提案的分类逻辑,类别c的softmax概率p被定义为:si,j=9595--L·LuuCCumAPK↑WI↓AOSE↓mAPK↑APU↑WI↓AOSE↓mAPK↑APU↑WI↓AOSE↓mAPK↑APU↑[39]第三十九话80.1018.391511858.45022.742339155.26018.492547255.830法国有线电视新闻网(FR-CNN)80.0118.831194157.91023.241825754.77018.721956655.340PROSER [53]79.6819.161303557.6610.9224.151983154.667.6219.642132255.203.25ORE [23]79.8018.181281158.252.6022.401975255.301.7018.352141555.470.53DS [33]80.0416.981286858.355.1320.861977555.313.3917.222192155.771.25OpenDet80.0214.951128658.7514.9318.231680055.8310.5814.241825056.374.36表1. 与其他方法对VOC和VOC-COCO-T1的比较。 我们报告了VOC的闭集性能(mAPK),以及不同方法对VOC-COCO- 20、40、60的闭集(mAPK)和开集(WI、AOSE、APU)性能。“0”表示测试的较高评分阈值(即0.1)。WI↓AOSE↓mAPK↑APU↑WI↓AOSE↓mAPK↑APU↑WI↓AOSE↓mAPK↑APU↑[39]第三十九话9.25601577.97016.141240974.52032.894861863.920法国有线电视新闻网(FR-CNN)9.01459977.66016.00947774.17033.113701263.800PROSER [53]9.32510577.357.4816.651060173.558.8834.604156963.0911.15ORE [23]8.39494577.841.7515.361056874.341.8132.404086564.592.14DS [33]8.30486277.782.8915.431013673.674.1131.793938863.125.64OpenDet6.44394478.619.0511.70828275.5612.3026.693241965.5516.76表2. 与其他方法对VOC-COCO-T2的比较。请注意,由于篇幅有限,我们将VOC-COCO-2 n放在附录中。经验(sc)p= softmax(s)=0、(3)保持近距离的准确性,LUP学习不,j∈C其中C=CK <$U <$bg表示所有已知的类CK,un-过滤,优化LUP 相当于把更多的低-已知CU类和背景Cbgsoftmax CE LossLCE为:. 然后,我们制定已知类别的密度潜在区域(灰色)。一旦我们完成训练,学习的未知概率就可以作为识别未知对象的指标,LCE=— yclog(pc),yc=1,c=c,∗(四)这些低密度区域。不确定性加权优化。 虽然我们选择-c∈C0,c =c求条件概率p′ 代替pu,LUP将其中c表示地面实况类,y是独热类标签为了简单起见,我们将LCE重写为:LCE= −log(p c)。(五)学习未知概率 因为没有超级-仍然会惩罚CE,导致accu-已知类的快速下降受不确定性估计[11,42]的启发,我们将权重因子w()添加到UP,其定义为pc的函数:α未知概率pu的视觉′,我们认为一个条件-w(pc)=(1−pc)(8)在真实概率pc下的概率pu。形式上,我们将p′定义为softmax概率,而没有∗其中α是一个超参数(默认情况下α=1尽管W(·)的许多设计选择(如Tab中所示)。6),我们选择地面实况等级c的logit:一个简单而有效的Eq。8. 我们的灵感来自于'exp(su)(六)常见的不确定性信号:熵w(p)= −plog(p)。pu=0j∈C,j∈C =c∈ C、exp(sj)由于Eq. 8具有与熵相似的曲线形状(见附录),它也可以反映不确定性。但我们的帝国-其中u是未知类CU的缩写。然后,类似于CE损失,我们用公式表示未知概率(UP)损失LUP来优化p′,其定义为:方法VOCVOC-COCO-20VOC-COCO-40VOC-COCO-60方法VOC-COCO-0.5nVOC-COCO-nVOC-COCO-4n.exp(sj)已知概率。 图3(右下角)是一个插图。9596′′临床研究结果表明,Eq. 8比熵更容易优化。最后,我们将不确定性加权UP损失公式化如下:LUP= − log(pu)。(七)之后,我们联合优化CE损耗LCE和UP损耗LUP(如图3(b)所示),其中LCE旨在LUP= −w(p c)log(pu)。(九)采矿的硬例子。让所有已知对象学习未知概率是不合理的,因为它们不属于9597Σ−∈LLL------vs.P未知的班级。因此,我们提出了不确定性指导的硬示例挖掘,以优化具有高不确定性建议的UP在这里,我们考虑两种不确定性引导的挖掘方法:• 最大熵。熵是一种流行的不确定性度量[27,31],定义为:H(p)=CCp clog(p c)。 对于一个小批量,我们将它们按熵降序排序,并选择前k个示例。• 最小最大概率最大概率,即所有类别的最大概率:max(p)是另一个不确定性信号。我们选择具有最小最大概率的前k个示例。此外,由于背景提案通常超过小批量,我们对相同数量的前地和背景提案进行采样,使我们的模型能够从背景类中召回未知对象。3.5. 整体优化我们的方法可以以端到端的方式进行训练,并具有以下多任务损失:L=Lrpn+Lreg+LCE+βLUP+γtLIC,(10)其中rpn表示RPN的总损失,reg是箱回归的光滑L1损失,β和γt是加权系数。注意,γt与当前迭代t成比例,因此我们可以逐渐减小LIC的权重,以获得更好的性能。LCE和LUP的收敛。4. 实验4.1. 实验装置数据集。 我们使用流行的PASCAL VOC [14]和MSCOCO [30]构建OSOD基准。我们采用VOC的训练集进行闭集训练。同时,我们在COCO中选取了20个VOC类和60个非VOC类,在不同的开集条件下对我们的方法 进 行 了 评 估 。 这 里 我 们 定 义 两 个 设 置 : VOC-COCO- T1,T2。为了设置T1,我们逐渐增加开放-设置类以构建三个联合数据集,其中n=5000个VOC测试图像和{n,2n,3n}个COCO图像,包含{20,40,60}分别为非VOC类。 用于设置CFL UPLWI↓AOSE↓mAPK↑APU↑基线✓✓✓ ✓19.2617.9216.4714.951643315162120181128658.3358.5457.9158.750014.2714.93表3.不同组分对VOC-COCO-20的影响。类,分别。请注意,为了方便起见,我们将原始WI缩放100。在[23]之后,我们报告了召回水平为0.8的WI此外,我们还使用绝对开集误差(AOSE)[33]来计算错误分类的未知对象的数量。此外,我们报告了已知类别的平均精度(mAP)(mAPK)。最后,我们通过APU(未知类的AP)来衡量新颖性发现能力。注意,WI、AOSE和APU是开集度量,并且mAPK是闭集度量。比较方法。 我们将OpenDet与以下方法进行了比较:Faster R-CNN ( FR-CNN ) [39] , Dropout Sampling(DS)[33],ORE [23]和PROSER [53]。FR-CNN是其他方法的基础检测器。我们还报告了FR-CNN测试,它采用了更高的分数阈值进行测试。我们使用ORE的官方代码,并基于FR-CNN框架重新实现DS和PROSER。实施详情。我们使用ResNet-50 [21]和特征金字塔网络[28]作为所有方法的主干。我们采用与De-tectron相同的学习率时间表2 [50]。采用SGD优化器,初始学习率为0.02,动量为0.9,权值衰减为0.0001。所有模型都在8个GPU上训练,批量大小为16。对于CFL,我们设置内存大小Q=256,采样大小q=16。我们对存储库的IoU阈值Tm=0.7和小批量的Tb=0.5的提案进行采样。对于UPL,我们分别针对前地和背景提案采样k此外,我们设置超参数α=1.0和β=0.5。我们将γt的初始值设为0.1,并将其线性减小到零。4.2. 主要结果在VOC-COCO-T1、T2上比较了OpenDet与其他方法的性能. 选项卡. 图1示出了通过逐渐增加未知类别对VOC-COCO-T1的结果。与FR-CNN相比,分数阈值较高(0.05→0.1)的FR-CNN阈值并没有降低WI,但会导致降低在mAPK中,其中具有低置信度的已知对象被T2,我们逐渐增加荒野比率(WR)2[12],以构建四个联合数据集,其中n个VOC测试图像和0。5n,n,2n,4nCOCO图像与VOC类别不一致更多细节请参见我们的附录。评估指标。我们使用WildernessImpact(WI) [12]来衡量未知物体的错误程度。分类为已知类别:WI=(PK−1)×100,其中过滤掉。PROSER对AOSE和APU有一定的改善作用,但 WI和 mAPK更 差 。 虽 然 ORE 和 DS 实 现 了 相 当 的mAPK,但开集指标的改进是有限的。建议的OpenDet-执行其他方法的一个很大的保证金。以VOC-COCO-20为例,OpenDet分别获得了20%,25%,14.93WI、AOSE和AP无并发症,PK和PKU分别表示cKlu-集和开集的精度U预测mAPK(58.75 ± 58.45)。 而我们亦2Wilderness Ratio是包含未知对象的图像数与包含已知对象的图像数之比报告VOC上的mAP K,这表明OpenDet在传统的封闭设置中具有竞争力(80.02 vs. 80.10)。9598×联系我们L表4. 类平衡存储体。我们比较我们的类平衡内存银行与其他变种。我们保持类无关的内存库与我们的大小相同(25620=5120). 8和20分别是GPU和VOC类的数量。这意味着更大的内存大小。TbTm(一)0.50.5(b)第(1)款0.70.7(c)第(1)款0.90.9(d)其他事项0.50.7(e)0.50.9(f)第(1)款0.70.9WI↓mAPK↑15.3358.2915.1658.5515.2758.3214.9558.7514.6258.6615.2758.33(a) IoU阈值QQ(一)16128(b)第(1)款16256(c)第(1)款16512(d)其他事项32256(e)64256(f)第(1)款128256WI↓mAPK↑15.3658.5114.9558.7514.4758.3115.2458.3215.4357.7714.7758.18(b) 内存大小和小批量抽样大小表5. CFL中的采样策略。我们列出不同的选择(a)存储器采样阈值Tm和小批量采样阈值Tb,(b)存储器大小Q和采样大小q。我们还通过增加WR将OpenDet与其他方法进行了比较,其中Tab. 2得出了与Tab相似的结论。1.一、随着WR的增加,我们的方法表现得更好。例如,VOC-COCO- 0.5n,n,4n上的mAPK增益为0.64,1.04,1.63,表明我们的方法实际上分离了已知和未知类。4.3. 消融研究在本节中,我们对VOC-COCO-20进行烧蚀实验,以分析我们的主要组件和核心设计选择的效果。总体分析。我们首先分析了不同组分的贡献。如Tab.所示。3,我们的两个模块,CFL和UPL,与基线相比,显示出实质性的改善。CFL和UPL的结合进一步提高了性能。我们还可视化图中2,其中我们的方法学习已知和未知类之间的明确对比特征学习器。详细研究了CFL中存储体的设计选择和样例采样策略.由于IC在当前的小批量和存储体之间进行了优化,我们研究了Tab中不同的存储器设计 4.第一章 与小批量(即,短期记忆),具有记忆体的设置在WI上表现更好。然而,不平衡的训练数据使得类不可知的记忆库充满了高频类,导致存储器大小WI↓mAPK↑单GPU小批量˜5016.1958.29跨GPU小批量类无关存储体˜50×8512015.8815.9958.0757.47类无关存储体6553615.4958.90类别平衡记忆体256×2014.9558.759599·LΣ−→→·表6. UP中w()的不同设计。pm是所有类别的最大概率:pm= max(p)。(e)表示归一化熵,其中H(p)=cpclog(pc),C是已知类别的数量。设置WI↓AOSE↓mAPK↑APU↑OpenDet(带HEM)14.951128658.7514.93(a)不含HEM18.331373357.4113.91(b)不含bg。13.021223056.5313.49(c)top-k:114.461282658.4214.54314.951128658.7514.93514.661041258.5014.551015.151035858.2514.86所有18.401177956.5513.89(d)公制:随机17.011306556.9915.58最大熵14.291151458.2715.46最小最大概率14.951128658.7514.93表7. Hard Example Mining(HEM)在UPL中的应用(a)没有他。(b)无背景:我们仅对前景投影进行采样。(c)改变top-k。设置所有意味着所有前景和相等数量的背景提议。(d)采矿方法。mAPK ( 58.76 ± 57.47 ) 。 增 大 内 存 块 大 小 ( 512065536)可以缓解这个问题,但它需要更多的计算。所提出的类平衡存储器银行可以存储更多样化的例子与一个小的内存大小,优于其他变种。进一步研究了样本抽取策略的设计选择。对于小批量,我们考虑IoU阈值Tb;对于内存组,我们考虑IoU阈值Tm、内存大小Q和小批量采样大小Q.如Tab.所示。5a中,设置(d)和(e)分别在mAPK和WI中实现最佳结果,而(a)-(c)在WI中比(d)-(e)差。这表明,小批量需要一个宽松的约束,以收集更多样化的例子,而内存库需要高质量的例子,以代表类中心。在选项卡中。图5b、(b)和(c)比其他设置表现更好,这表明长期记忆(即,较大的Q/q)是CFL的良好选择。未知概率学习器 我们首先探索w()的不同变体。与基线相比,Tab. 6(a)显著降低WI和AOSE,但导致mAPK下降,这表明学习的未知概率被高估。(b)的公式类似于熵,(c)是我们的默认设置。如第3.4,(b)和(c)在WI和AOSE方面均取得了令人满意的结果,但(c)在mAPK和(一)基线身份19.2610.50164331218558.3356.42011.33(b)第(1)款−pclog(pc)α(1−pc)pc14.701138458.1313.719600·≤LL图4.基线(顶部)和OpenDet(底部)之间的定性比较。我们在VOC上训练这两个模型,并在COCO上可视化检测结果请注意,我们在已知类和未知类之间应用NMS以获得更好的可视化效果。APU.(d)和(e)分别是基于最大概率和熵的w()的两个变体。它们在开集指标上获得了可比较的性能,但mAPK是低于(C)。我们还分析了硬例挖掘(HEM)在Tab中的效果。7 .第一次会议。比较选项卡。7(a)(无HEM)与我们的默认设置(有HEM),我们表明HEM对UPL至关重要。选项卡. 图7(b)指示背景提议对于未知概率学习也是必要的,例如,无背景的OpenDet导致mAPK和APU下降2.22和1.44。此外,我们在Tab中改变超参数top-k。其中HEM在k(10)的宽范围内工作,而优化所有示例是不适用的。选项卡. 7(d)表明了两种采矿方法的有效性,即:最大熵和最小最大概率。定性比较。图4比较了基线和OpenDet的定性结果。OpenDet给未知对象一个未知的标签(最下面一行),而baseline方法将它们分类为已知类或背景(最上面一行)。更多定性结果见附录。4.4. 扩展到单级检测器虽然OpenDet基于两级检测器,但它可以很容易地扩 展 到 其 他 架 构 , 例 如 , 代 表 性 的 一 级 检 测 器RetinaNet [29]。RetinaNet有一个主干网络和两个并行的子网络,分别用于分类和回归与FR-CNN不同,Reti- naNet采用Focal Loss [29]进行密集分类。在这里,我们展示了如何将OpenDet扩展到RetinaNet(用Open-RetinaNet表示)。对于CFL,我们将对比头附加我们采用相同的采样策略,在CFL和优化IC与像素级的功能。对于UPL,我们只对硬前景示例进行采样,因为RetinaNet不保留背景类。然后UP与Focal Loss联合优化。选项卡. 8报告了VOC-COCO- 20的结果,其中Open-RetinaNet显示出显着的改进表8.Open-RetinaNet对VOC-COCO-20的性能。在所有开集度量上,并实现了可比较的闭集mAPK。例如,Open-RetinaNet在WI、AOSE和APU中分别获得23.7%、55.8%和11.02。5. 结论本文提出了一种新的开集检测器(Open-Det),通过扩展低密度潜在区域来解决具有挑战性的OSOD任务。OpenDet由两个精心设计的学习器CFL和UPL组成,其中CFL执行实例级对比学习以学习更紧凑的特征,UPL学习未知概率,该概率用作进一步分离已知和未知类的阈值。 我们还建立了一个OSOD基准,并进行了大量的实验来证明我们的方法的有效性。与其他方法相比,OpenDet在所有指标上都有显着改进。局限性。 我们注意到,一些低质量的建议,期待已知的类被赋予未知的标签在推理过程中,不能过滤掉每类的非最大值抑制。虽然这些建议并没有损害密集mAPK,但它提出了一个新的问题,即减少错误的未知预测,这也是我们未来工作的一个确认本工作得到了国家自然科学基金项目61922065、41820104006和61871299的资助。本文的数值计算是在武汉大学超级计算中心的超级计算系统上进行的丁健也得到了中国国家留学基金管理委员会的支持。方法WI↓AOSE↓mAPK↑APU↑RetinaNet14.583807157.440开放视网膜网10.841681557.2511.029601引用[1] Abhijit Bendale和Terrance Boult。走向开放世界的认可。在CVPR,第1893-1902页,2015年。2[2] Abhijit Bendale和Terrance E Boult。 向开集深层网络在CVPR,第1563-1572页,2016年。一、二、四[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV,第213-229页。Springer,2020年。1[4] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Pi-Otr Bojanowski和Armand Joulin。无监督学习视觉特征对 比 聚 类 分 配 。 arXiv 预 印 本 arXiv : 2006.09882 ,2020。3[5] Olivier 查佩尔 Bernhard 斯科尔科普夫 和亚历山大齐恩半监督学习2006. 剑桥,麻省理工学院出版社观点文章,2006. 2[6] 光耀 陈先生,培喜 阿鹏:向前 Wang和田永红。开集识别的对抗互反点学习。arXiv预印本arXiv:2103.00953,2021。2[7] 陈光耀,乔立萌,石业民,彭培喜,贾Li,Tiejun Huang,Shiliang Pu,and Yonghong Tian.具有可判别倒易点的开集网络学习。见ECCV,第507-522页。Springer,2020年。一、二、四[8] Ting Chen,Simon Kornblith,Mohammad Norouzi,andGe-奥弗里·辛顿。视觉表征对比学习的一个简单框架。在ICML,第1597-1607页,2020年。3[9]Xinlei Chen,Kaiming He.探索简单的暹罗代表-怨恨学习在CVPR中,第15750-15758页,2021
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功