没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文通过单点监控Pengfei Chen1、Xuehui Yu1、Xumeng Han1、Najmul Hassan2、KaiWang2、Jiachen Li2、Jian Zhao3、Humphrey Shi2、 4、Zhenjun Han1、Qixiang Ye11中国科学院大学,中国北京2SHI Lab @ U of Oregon UIUC,美国3中国北京北方电子设备研究所4Picsart AI Research(PAIR){chenpengfei20,yuxuehui17,hanxumeng19} @ mails.ucas.ac.cn{najmulhassan1628,kk94wang,chrisleesjtu,shihonghui3} @gmail.comzhaojian90@u.nus.edu,{ hanzhj,qxye} @ ucas.ac.cn抽象的。近年来,使用单点监督的对象检测受到越来越多的关注。在本文中,我们将如此大的性能差距归因于无法生成高质量的建议包,这对于多实例学习(MIL)至关重要为了解决这 个 问 题 , 我 们 引 入 了 一 个 轻 量 级 的 替 代 现 成 的 建 议(OTSP)的方法,从而创建点到盒网络(P2BNet),它可以构建一个对象间平衡的建议袋生成的建议在锚一样的方式。P2BNet通过充分调查准确的位置信息,进一步构建了一个实例级包,避免了多个对象的混合。最后,以级联方式的由粗到细的策略被用来改善亲-亲和地面实况(GT)之间的IoU。受益于这些策略,P2BNet能够为对象检测生成高质量的实例级包。P2BNet相对于MS COCO数据集上以前最好的PSOD方法,将平均精度(AP)提高了50%以上。它还展示了弥合点监督和边界盒监督检测器之间的性能差距的巨大潜力。该代码将在github.com/ucas-vg/P2BNet上发布。关键词:目标检测,单点标注,点监督目标检测.1介绍用准确的边界框注释训练的对象检测器[13,30,29,25,23,4,38,46]在学术界和工业界都受到了好评。然而,收集质量边界框注释需要大量的人力。为了解决这个问题,弱监督对象检测[2,39,40,6,41,51,8,49](WSOD)*Correspondent author.arXiv:2207.06827v1 [cs.CV] 2022年7+v:mala2255获取更多论文2Pengfei Chen et al.Fig. 1. 基于OTSP方法的WSOD图像级包存在背景过多、目标混杂、建议不均衡和质量不高等问题。通过点注释,以前的作品UFO2在第一阶段过滤了大部分背景,并在细化中为不同的对象分割了袋子。我们的P2BNet在粗略阶段产生平衡的实例级包,并通过在前一阶段的估计框周围自适应地采样建议框来提高包的质量,以获得更好的优化。在COCO-14中的表现。27.6 AP50是在UFO 2上进行的,使用ResNet-50和我们的点注释进行公平比较。使用低成本的图像级注释替换边界框注释然而,由于缺乏关键的位置信息,并且难以区分密集的目标,WSOD方法在复杂场景中表现不佳点监督目标检测(PSOD)可以提供目标的位置信息,并且与包围盒监督方法相比成本更低。最近,基于点的注释被广泛用于许多任务,包括对象检测[28,32]和定位[45,33,37],实例分割[7]和动作定位[21]。然而,点监督检测方法[28,32]和边界框监督检测器之间的性能差距仍然很大。虽然这是可以理解的,由边界框提供的位置信息比点更丰富,我们认为这不是唯一的原因。我们认为大多数PSOD方法没有充分利用基于点的注释的潜力以前的作品使用现成的建议(OTSP)的方法(e。例如,在一个实施例中,选择性搜索[34],MCG [1]和EdgeBox [53]),以获得构建袋子的建议尽管这些基于OTSP的方法在弱监督检测器中具有广泛的适应性,但它们在图1中存在以下问题1:1)袋子里有太多的背景提案。OTSP方法生成太多的建议框,这些建议框与前面的任何建议框都没有任何交集。+v:mala2255获取更多论文PSOD 3的点到箱网络(a)(b)第(2)款图二. (a)由MCG(基于OTSP)产生的每个对象分配的建议框的数量是不平衡的,这对于训练是不公平的。(b)用于不同提议生成方法的mIoU道具的直方图。mIoUprop表示提议框和对象的地面实况之间的平均IoU。MCG中的小mIoU道具会带来语义混乱。 而对于我们的P2BNet,大的mIoU道具有利于优化。统计数据是关于COCO-17训练集的,两个数字都有50个bin。(2)每个对象的积极建议不平衡。MCG在COCO-17训练集上产生的每个对象的积极建议如图2(a)所示,这显然是不平衡的; 3)袋子中的大多数建议具有非常低的IoU,表明低质量的建议(图2)。2(b))。此外,由于先前的PSOD方法仅构造图像级包,因此它们不能在MIL训练期间利用点注释,从而导致同一包中不同对象的混合。所有这些问题限制了所构造的袋的整体质量,这导致模型的性能差。在本文中,我们提出P2BNet作为替代的OTSP方法生成高质量的对象的建议。P2BNet生成的提案数量此外,建议包是实例级的,而不是图像级的。这为给定的建议包保留了对象的排他性,这在MIL训练期间非常有用为了进一步提高袋子的质量,在P2BNet中以级联方式设计了一个细化阶段包括两个部分,粗伪盒预测(CBP)和精确伪盒细化(PBR)。CBP阶段预测对象的粗略尺度(宽度和高度),而PBR阶段迭代地微调尺度和位置。我们的P2BNet生成高质量、平衡的提案包,并确保在所有阶段(MIL训练之前、期间和之后)都有点注释的贡献。COCO上的详细实验表明,我们的模型的有效性和鲁棒性优于以前的基于点的检测器的大幅度。我们的主要贡献如下:— P2BNet是一个生成式的无OTSP网络,用于预测伪盒。该算法生成的实例级包具有对象间均衡性,有利于更好地优化MIL训练。此外,P2BNet比基于OTSP的方法更具时间效率。— 提出了一种由粗到细的方式,在P2BNet中使用CBP和PBR阶段,以获得更高质量的建议包和更好的预测。+v:mala2255获取更多论文4 Pengfei Chen等。— 我们提出的P2BNet-FR框架与P2BNet在单准中心点监督下的检测性能将之前最好的PSOD方法的平均精度(AP)在COCO上提高了50%以上(相对),并弥合了边界框监督检测器之间的差距,在AP50上实现了相当的性能。2相关工作在本节中,我们简要讨论了框监督、图像级和点级监督目标检测的研究现状。2.1框监督的目标检测框监督对象检测[13,30,29,25,23,4,38,46]是一种传统的对象检测范式,它为网络提供了特定的类别和框信息。基于滑动窗口的一级检测器,如YOLO [29],SSD [25]和RetinaNet [23],通过设置锚来预测分类和边界框回归。两阶段检测器通过OTSP方法(如Fast R-CNN [13]中的选择性搜索[34])或深度网络(如Faster R-CNN [30]中的RPN)预测提案框,并使用过滤后的提案框稀疏地进行分类和边界框回归。基于变换器的检测器(DETR [4],Deformable-DETR [52]和Swin-Transformer [26])利用全局信息进行更好的表示。稀疏R-CNN [38]结合了将Transformer和CNN映射到稀疏检测器。[43,9,14]空中场景中然而,框级注释需要高成本。2.2图像监督目标检测图像监督目标检测[2,39,40,6,41,51,8,49,48,27,35]是WSOD中的传统领域。传统的图像监督WSOD方法可以分为两种风格:基于MIL的[2,39,40,6,41]和基于CAM的[51,8,49]。在基于MIL的方法中,如果一个包包含至少一个阳性实例,则它被标记为阳性;否则,它是阴性的。MIL的目标是-从阳性包中选择阳性实例。WSDDN [2]将MIL引入到WSOD中,其中具有代表性的双流弱监督深度检测网络可以对积极的建议进行分类。OICR [39]将迭代方式引入WSOD,并试图找到整个部分而不是判别部分。PCL [40]开发了提案聚类学习并使用提案聚类以指示物体最可能出现的大致位置。随后,SLV [6]引入了空间似然投票来取代最大得分提议,进一步寻找对象的整个上下文。我们的纸生产锚式[35,30]建议将点注释作为一个包,并使用实例级MIL来训练分类器。它移动固定的预生成的pro-boundary(e.例如OICR、PCL和UWSOD[35]),以实现由粗到细的目的。+v:mala2255获取更多论文(1)L=L+L ,p2b cbpPBRPSOD 5的点到箱网络在基于CAM的方法中,主要思想是产生类别激活图(CAM)[51],使用阈值选择高分区域,并找到最大一般域的最小外接矩形。WCCN [8]采用三级级联结构.第一阶段产生类激活图并获得初始建议,第二阶段是用于细化对象定位的分割网络,最后一个阶段是输出结果的MIL阶段。Acol [49]引入了两个并行分类器,用于使用对抗互补学习来减轻区分区域的对象定位。2.3点监督目标检测点级注释是一个相当新的创新。注释单个点的平均时间约为1.87秒/图像,接近图像级注释(1.5秒/图像),远低于边界框(34.5秒/图像)。统计学[11,28]是在VOC [10]上进行的,可以类比为COCO[24]。[28]引入中心点击注释来代替框监督,并通过两次中心点击之间的误差来估计比例。[32]设计了一个与各种监督形式兼容的网络,如标签,点,涂鸦和框注释。然而,这些框架是基于OTSP方法的,并不是专门为点注释而设计的。因此,性能在COCO [24]数据集这样的复杂场景中,它是有限的,性能很差。我们引入了一个新的框架,P2BNet是免费的OTSP方法。3点对盒网络P2BNet-FR框架由点到盒网络(P2BNet)和更快的R-CNN(FR)组成。P2BNet预测带有点注释的伪框来训练检测器。我们使用Faster R-CNN的标准设置,没有任何花哨的东西。因此,我们将在本节中详细介绍拟议的P2BNet。P2BNet的架构如图3所示,其包括粗略伪盒预测(CBP)阶段和伪盒细化(PBR)阶段。CBP阶段预测对象的粗略尺度(宽度和高度),而PBR阶段迭代地微调尺度和位置。P2BNet的总损失函数是这两个阶段的损失之和,即。例如,不(吨)PBR其中PBR包括T次迭代,并且L(t)t=1是第t次迭代的损失。3.1粗伪盒预测在CBP阶段,首先,不同的宽度和高度的建议框生成锚样式为每个对象,以注释点为框中心。其次,提取样本提案的特征以训练一个+v:mala2255获取更多论文v··B∈{}- -B6 Pengfei Chen等。图三. P2BNet的架构。首先,为了在CBP阶段预测粗糙的伪盒,建议袋固定地围绕点注释采样用于分类器训练。然后,为了在PBR阶段预测细化的伪框,高质量的建议袋和否定建议被采样为粗糙的伪框进行训练。最后,由训练好的P2BNet生成的伪盒作为训练的监督经典探测器(Best以彩色观看)。MIL分类器,用于选择对象的最佳拟合建议最后,利用top-k合并策略估计粗伪盒.CBP采样:围绕注释点固定采样。以点注释p=(px,py)为中心,s为大小,v调整纵横比,生成p ro pboxb=(bx ,by , bw ,bh ),i. e.b=(px,py,vs,1s)。建议框采样示意图如图4(左)所示。通过调整s和v,每个注释pj生成一组具有不同比例和纵横比的属性,表示为j(j一,二,. .,M,其中M是对象的量)。 s和v的设置细节在补充中给出。所有建议包都用于训练MIL分类器,CBP模块以点的类别标签作为监管。有一个小问题,过大的s可能会导致b的大部分在图像之外,并引入太多无意义的填充值。在这种情况下,我们裁剪b以保证它在图像内(见图11)。4(左)),i.例如,b=.px,py,min(v·s,2(px−0),2(W−px)),min(·s,2(p−0),2(H−p)),(2)1vy y其中W和H表示图像大小。(px0)和(W px)分别是从图像的中心到左边缘和右边缘的距离。CBP模块。对于建议袋Bj,通过7 × 7 RoIAlign [15]和两个全连接(fc)层提取特征F j ∈ R U×D,其中U是j中的建议数,D是特征维数。我们参考WS-DDN [2]并设计了一个双流结构作为MIL分类器,以找到最佳+v:mala2255获取更多论文JJJ^UJL联系我们JJJJJJJCBP密耳1MJKJKJKJKJj=1k=1PSOD 7的点到箱网络图四、 CBP阶段和PBR阶段的抽样策略详情。PBR采样中的箭头表示中心抖动的偏移在PBR采样中,通过中心抖动跟随比例抖动和纵横比抖动获得样本边界框区域来表示对象。具体地说,将分类分支 fcls应用于 Fj得到Ocls∈RU×K,然后将其通过激活函数以获得分类得分Scls∈RU×K,其中K表示实例类别的数量。同样,实例得分Sins∈ RU×K是通过实例选择分支fins和激活函数i得到的. 例如,KOcls=f(F),[Scls]=e[Ocls]uk,e[Ocls]ui;(3)jclsjJ英国J Ji=1U0ins=f(F),[Sins]=e[Oins]uk,e[Oins]ik,(4)其中,[·]uk表示矩阵中r owu和列k处的值。通过计算分类得分和实例得分的Hadamard乘积来获得推荐得分Sj,并且通过对U个推荐框i的推荐得分求和来获得袋得分Sj。例如,Sj=Scls∈Sins∈RU×K,S^j=<$[Sj]u∈RK.(五)u=1S^j可以被看作是分类得分[Scls]uby的加权求和对应的选择得分[Sins]u。CBP损失。CBP模块中的MIL损失(为了区分它来自PBR中的MIL损失)使用交叉熵损失的形式,定义为:M K1Σ ΣL=L=−[c]log([S^])+(1−[c])log(1−[S^]),(6)其中cj0,1K是p i n t p j的独热类别标签。 CBP损失是为了使每个建议正确预测它所属的类别和实例。最后,对每个对象的具有最高提议得分Sj的前k个框进行加权,以获得用于随后的PBR采样的粗略伪框。ins英国i=1+v:mala2255获取更多论文BNJBJJWWvHJJ对于负样本集N,我们计算其分类得分为:8 Pengfei Chen等。3.2伪框细化PBR阶段旨在微调伪框的位置,宽度和高度,并且可以以级联方式迭代执行以获得更好的性能。通过在小跨度中调整在前一阶段(或迭代)中获得的伪框的高度和宽度,同时抖动其中心位置,生成更精细的伪框作为模块训练的正例。此外,因为在局部区域中生成正建议袋,所以可以远离建议袋采样负样本以抑制背景。PBR模块还对具有最高预测分数的前k个建议进行加权,以获得细化的伪框,这是P2BNet的最终输出。PBR采样。自适应采样周围估计框。如图4(Right),对于在前一阶段(或迭代)中获得的每个ch粗伪boxbbb b=(bx,by,bw,bh),我们用s和v调整其尺度和纵横比,并用ox,oy抖动其位置以获得更精细的propb=(bx,by,bw,bh):b=v·s·b,b=1·s·b,(7)bx= bx+ bw·ox,by= by+ bh·oy。(八)这些更精细的建议被用作正建议包j来训练PBR模块。此外,为了更好地抑制背景,在PBR采样中引入负样本。我们随机抽取了许多提案箱,这些提案箱的IoU很小(默认设置为小于0.3),所有袋子中的所有提案都是正面的,以组成PBR模块的负面样本集通过伪箱分布对提案箱进行抽样,得到高质量的提案箱获得更好的优化(如图所示)。5)。PBR模块。PBR模块具有与CBP模块类似的结构。它与CBP共享骨干网络和两个全连接层,并具有分类分支fcls和实例选择分支fins。注意,fcls和fins在不同的阶段和迭代之间不共享参数。例如选择分支,我们采用与CBP模块相同的结构,并利用Eq。4来预测亲包j的实例得分Sins。相应地,分类分支使用S形激活函数σ(x)来预测分类得分Scls,i。例如,σ(x)=1/(1+e-x),Scls=σ(fcls(Fj))∈RU×K. (九)这种形式使得执行多标签分类成为可能,这可以将重叠的提案框与不同的对象区分开来。根据Eq. 在图5中,使用当前阶段的Scl_s和Sins来计算bag得分Sl_s。CLS阴性 = σ(fcls(Fneg))∈ R| N| ×K.(十)PBR损失。PBR损失包括阳性袋的MIL损失Lmil2和阴性样本的阴性损失Lneg,即。例如,Lpbr=αmil2Lmil 2+αnegLneg,(11)SH+v:mala2255获取更多论文Σ^.ΣJJCBP中的袋评分)。CT,S^t表示两个矢量的内积,MJJnegnegJJ(十四)PSOD 9的点到箱网络图五、 mIoU prop在细化过程中的进展。通过统计,mIoUpred在PBR阶段逐渐增加,表明提案包的质量在迭代细化中得到改善。其中αmil2= 0。25和αneg= 0。75是本文中的设置1) MIL损失。PBR级中的MIL损耗Lmil2定义为:KFL(τ,τ)=− [τ]k(1− [τ]k)γlog([τ]k)+(1− [τ]k)([τ]k)γlog(1−[τ]k),k=1(十二)Lmil2= 1ΣM.cT,S^T·FL(S,j,c,j),(13)其中FL(τ,τ)是聚焦损失[23],γ被设置为2following[23]。S_j表示最后一次PBR迭代的袋分数(对于PBR的第一次迭代,使用这意味着前一阶段或在地面实况类别上的迭代的预测袋得分Score用于对每个对象的FL进行加权,以实现稳定的训练。2) 负损失。 传统的MIL将属于其他类别的建议框视为负样本。为了进一步抑制背景,我们在PBR阶段中采样更多的负样本,并引入负损耗(在FL之后γ也被设置为2),即。例如,β=1μm .cT,S^T, Lneg=−1ΣΣ|N|Nβ·([Scls] k)γlog(1−[Scls] k).4实验4.1实验设置数据集和评估 对于实验,我们使用公共可用的MS COCO [24]数据集。COCO有80个不同的类别和两个版本。COCO-14具有80 K训练和40 K验证图像,而COCO-17具有MMj=1Kj=1k=1+v:mala2255获取更多论文×··10Pengfei Chen et al.118K训练和5K验证图像。 由于测试集上的基础事实尚未发布,因此我们在训练集上训练我们的模型,并在验证集上对其进行评估,报告AP 50和AP(在[0. 第五章:0。05:0。[95]关于COCO。mIoUpred由训练集中所有对象的预测伪框及其对应的地面实况边界框之间的平均IoU计算。它可以直接评价P2BNet的性能以将注释点转换为精确的伪框。实施细节。 我们的P2BNet-FR代码是基于MMDetection[5]。随机梯度下降(SGD [3])算法用于优化1训练时间表。学习率被设置为0.02,并分别在第8和第11个时期衰减0.1。在P2BNet中,我们使用多尺度(480,576,688,864,1000,1200)作为短边,在训练过程中调整图像大小,在推理过程中使用单尺度(1200)。我们选择经典的Faster R-CNN FPN [30,22](主干是ResNet-50 [16])作为具有默认设置的检测器,并且在训练和推理期间使用单尺度(800)图像更多细节见补充部分。准中心点注释。 我们提出了一个准中心(QC)点注释,是友好的对象检测任务,成本低。在实践中-在实际场景中,我们要求注释者用一个宽松的规则在非高限制中心区域中注释对象。由于实验中的数据集已经用边界框或掩码进行了注释,因此手动注释的点在中心区域遵循高斯分布是合理的。我们利用[ 45 ]中定义的具有中心椭圆约束的整流高斯分布(RG)。 对于b=(bx,by,bw,bh)的边界box,以(bx,by) 为 椭 圆 中 心 ,以(κbw ,κbh)为椭圆的两个轴,其中心椭圆可定义为E_l_p(κ).此外,考虑到在上述规则下大对象的绝对位置偏移过大的事实,我们将两个轴限制为不超过96像素。如果对象的遮罩Mask与中心椭圆Ellipse(κ)重叠,则V用于表示交点。如果没有相交区域,则V表示整个Mask。当从边界框注释生成时,这些框被视为遮罩。则RG被定义为,RG(p; µ,σ,κ)=.Gauss(p;µ,σ)VGauss(p;µ,σ)dp,p∈V(十五)0,p∈/V其中µ和σ是RG的平均值和标准差。κ决定椭圆(κ)。在本文中,RG(p; 0,1,1)被选择来生成QC点注释。4 44.2性能比较除非另有说明,我们的P2BNet-FR框架的默认组件我们将P2BNet-FR与现有的PSOD方法进行比较,同时选择最先进的UFO2 [32]框架作为全面比较的基线此外,为了证明PSOD方法的性能优势,我们将其与最先进的WSOD方法进行了比较。同时,我们比较了箱监督目标检测器的性能,以反映它们的性能上界。、+v:mala2255获取更多论文PSOD 11的点到箱网络方法骨干提案COCO-14COCO-17AP AP50AP AP50箱监督检测器快速R-CNN [13]VGG-16SS18.938.619.339.3更快的R-CNN [30]VGG-16RPN21.241.521.542.1FPN [5]转轴-50RPN35.5 56.737.458.1[23,5]转轴-50-34.353.336.555.4Reppoint [44,5]转轴-50---37.056.7稀疏R-CNN [38,5]转轴-50PP--37.956.0图像监督检测器OICR+快速[39,13]VGG-16SS7.717.4--PCL [40]VGG-16SS8.519.4--PCL+快速[40,13]VGG-16SS9.219.6--MEFF+快速[12,13]VGG-16SS8.919.3--C-MIDN [42]VGG-16SS9.621.4--[第47话]VGG-16SS10.822.7--[32]第三十二话VGG-16MCG10.823.1--[18]第十八话VGG-16SS11.625.0--ICMWSD [31]VGG-16MCG11.424.3--ICMWSD [31]转轴-50MCG12.626.1--ICMWSD [31]R-101MCG13.026.3--CASD [17]VGG-16SS12.826.4--CASD [17]转轴-50SS13.9 27.8--点监督检测器表1. 在COCO数据集上比较箱监督,图像监督和点监督检测器的性能。UFO 2是指带有图像级注释的UFO2†表示我们在原始设置下再现的性能。这意味着我们重新实现UFO2与我们的QC点注释。P2BNet-FR,UFO2和盒子监督检测器的性能在单尺度数据集上进行了测试。我们的P2BNet-FR基于P2BNet,具有前4个合并和一个PBR阶段。SS是选择性搜索[34],PP表示[38]中定义的建议框,Free表示基于无OTSP的方法。与PSOD方法的比较我们比较了COCO上现有的PSOD方法Click [28]和UFO2 [32],如Tab. 1.一、Click和UFO2都利用基于OTSP的方法(SS[34]或MCG [1])来生成亲盒。由于UFO2使用的点标注与本文提出的QC点不同,为了公平比较,我们使用我们的QC点标注在公共代码上重新训练UFO2。此外,以前的方法主要基于VGG-16 [36]或AlexNet[20]。为了保持一致性,我们将UFO2扩展到ResNet-50 FPN主干,并将其与我们的框架进行比较。与Click和UFO2相比,我们的P2BNet-FR框架的性能大大优于它们在COCO-14上,P2BNet-FR将AP和AP50分别提高了6.8和15.9此外,我们的框架在COCO-17上的性能显著优于最先进的8.9 AP和18.4 AP50在图6中,可视化[第28话]AlexNetSS-18.4--[32]第三十二话VGG-16MCG12.427.0--[32]第三十二话VGG-16MCG12.826.613.227.2[32]第三十二话VGG-16MCG12.726.513.527.9[32]第三十二话转轴-50MCG12.627.613.228.9P2BNet-FR(我们的)转轴-50免费19.4 43.5 22.1 47.3+v:mala2255获取更多论文LL12 Pengfei Chen等人。CBP 阶段PBR 阶段性能L阳性L密耳1L密耳2L阴性 佩苏多mIoUpredAPAP50✓✓25.02.910.350.213.737.8✓✓52.012.735.4✓✓✓57.421.7 46.1✓✓✓✓56.718.544.1(a)P2BNet中训练损失的有效性:CBP阶段的Lmil1PBR阶段为Lmil2和L阴性。 Lpos和Lpesudo用于比较。top-kmIoUpredAPAP50TmIoUpredAP AP50(b) 盒子合并的top-k对于所有阶段,k(c) PBR 阶 段 中 的 迭 代 次 数T 。 T= 0 表 示 仅 进 行 CBP 阶段。表2. 消融研究(第一部分)。实验表明,P2BNet-FR充分利用了点标注的精确位置信息,能够在复杂场景中区分密集的物体。与WSOD方法的比较 我们比较了所提出的框架,工作状态的最先进的WSOD方法 的COCO-14在表 。 1.一、 P2BNet-FR的性 能证 明, 与WSOD相比,PSOD在标注代价增加不大的情况下,显著提高了检测性能,显示了PSOD任务的巨大发展前景。与Box-Supervised方法的比较 为了验证P2BNet-FR在实际应用中的可行性并显示这种监督方式下的上限,我们比较了Tab中的框监督检测器[30]。1.一、在AP 50 下,P2BNet-FR-R50(47.3 AP 50)比以前的WSOD和PSOD方法更接近于箱监督检测器FPN-R50(58.1 AP 50)。这表明PSOD可以应用于对框质量要求不高且更倾向于查找对象的行 业[19,50],大大降低了注释成本。4.3消融研究在本节中,所有消融研究均在COCO-17数据集上进行。除了Tab中的框合并策略部分之外,top-k设置为k= 7。2(b)和不同的检测器部分(k= 4)在表。3(d)。P2BNet中的训练损失P2BNet中训练损失的消融研究见表1。2(a).1)CBP丢失。只有在CBP阶段使用Lmil1,我们可以获得13.7 AP和37.8AP50。为了进行比较,我们进行pos,它将袋子中的所有提案框视为阳性样本。我们发现它很难优化,性能很差,证明了我们提出的方法的有效性。mil1用于伪盒预测。粗糙的求婚袋可以覆盖大多数物体高IoU,导致低丢失率。不过,业绩仍有149.212.235.9354.721.346.6457.522.147.3757.421.746.11057.121.546.0050.213.737.8157.421.746.1257.021.946.1356.221.345.6+v:mala2255获取更多论文LLLPSOD 13的点到箱网络(a)UFO2和P2BNet-FR的平均召回率比较。检测器GT箱伪盒AP AP50AP AP50[23]第二十三话36.5五十五点四21.0四十四点九免费WiFi [44]37.0五十六点七20.845.1稀疏R-CNN [38]37.956.021.143.3FR-FPN [30,22]37.458.122.1四十七点三(d) 不同检测器在P2BNet生成的地面实况框注释和伪框上的性能。公司现采用国际(b) 不平衡问题。(c) 抖动策略。top-4用于框合并。表3. 消融研究(第二部分)。由于比例和长宽比较粗,因此可能需要进行细化,中心位置需要调整。2)PBR损失。 通过对建议袋进行细化采样(如图5所示),引入了相应的PBR损失。仅使用mil2时,性能仅为12.7 AP。性能下降的主要原因是级联方式的误差积累和缺乏用于聚焦损失的负样本。由于Sigmoid激活函数没有显式的负样本来抑制背景,引入了负采样和负损失负。性能提高了9.0 AP和10.7AP 50,表明这是必要的,有效地提高了优化。我们也评估mIoU预测讨论了预测的伪盒的质量。在具有Lmil2和Lneg的PBR阶段中,mIoU从50.2增加到57.4,表明伪盒的质量更好。受[45]的启发,我们进行Lpesudo,将CBP阶段的伪盒视为阳性样本。然而,伪限制的细化和性能下降。在Tab。如图3(c)所示,如果我们在PBR阶段去除建议框的抖动策略,则性能下降到14.2AP。PBR中的优化数量 精化伪盒是P2BNet的重要组成部分,采用级联结构进行迭代精化以提高性能。选项卡. 图2(c)示出了PBR阶段中的精制次数的影响一个改进带来了8.0 AP的性能增益,高达21.7 AP的竞争力。经过两次改进后,获得了最高的21.9 AP,并且性能饱和。我们选择一个细化作为默认配置。框合并策略。我们使用top-k平均权重作为合并策略.我们发现超参数k稍微敏感,可以很容易地推广到其他数据集,如表1所示。2(b),并且只有前1个或前几个提议框在框合并中起主导作用。当k=4时,最佳性能为22.1 AP和47.3AP50。伪盒和地面实况盒之间的mIoU预测值在推断中,如果包分数S被用于合并的分类分数Scls替换,则性能下降到17.4 AP(vs 21.7AP)。平均回忆。在Tab。3(a),UFO2的AR为23.3,表明更高的缺失率。而P2BNet-FR获得34.2 AR,远远超过UFO2。这表明我们的无OTSP方法在查找对象方面更好。方法AR1 AR10AR100幽浮214.722.623.3P2BNet-FR 21.332.834.2平衡AP AP50✓21.7 46.1-12.936.0抖动AP AP50✓21.7 46.1-14.238.2+v:mala2255获取更多论文14 Pengfei Chen等人。见图6。P2BNet-FR和UFO 2的探测结果可视化。我们的P2BNet-FR可以区分密集的物体,并在复杂的场景中表现良好(最好是彩色的)不平衡抽样分析为了证明不平衡采样的效果,我们为每个对象采样不同数量的建议框,并在训练期间的每个时期保持不变。在Tab中性能下降。3(b)表明不平衡抽样的负面影响不同的探测器。我们为完整性实验训练了不同的检测器[30,22,23,44,38],所有这些实验都在R-50上进行,如表1所示。3(d)。我们的框架在所有检测器上都表现出具有竞争力的性能。框监督性能列出,以证明我们的框架的上限5结论在本文中,我们给出了一个基于OTSP的PSOD框架的缺点进行了深入的分析,并进一步提出了一种新的OTSP免费网络称为P2BNet,以获得对象间的平衡和高质量的建议袋。由粗到精的策略将伪盒的预测分为CBP和PBR阶段。在CBP阶段,在注释点周围执行固定采样,并通过实例级MIL预测粗略的伪盒PBR阶段在估计的框周围执行自适应采样,以级联方式微调预测的框如上所述,P2BNet充分利用点信息生成高质量的建议包,更有利于优化检测器(FR)。值得注意的是,概念上简单的P2BNet-FR框架通过单点注释产生了最先进的性能。致谢本研究得到了中国科学院青年创新促进会、国家自然科学基金委员 会 ( NSFC ) 的 部 分 资 助 , 项 目 号 : 61836012 、 61771447 和62006244、中国科学院战略重点研究项目(批准号:XDA 27000000)和中国科学技术协会青年拔尖科学家资助计划(批准号:YESS20200140)。+v:mala2255获取更多论文PSOD 15的点到箱网络引用1. 阿拉伯半岛, Pont-Tuset,J., 等,J.T.B.:多尺度组合群。在:CVPR(2014)2,112. Bilen,H.,Vedaldi,A.:弱监督深度检测网络在:CVPR(2016)1,4,63. 博图湖:随机梯度下降技巧。《神经网络:交易技巧》(NeuralNetworks:Tricks of the Trade - Second Edition)03 The Dog(2012)4. Carion,N.,Massa,F.,等,G.S.:使用变压器进行端到端的物体检测在:ECCV(2020)1,45. 陈凯,王杰,Pang,J.e.:MMDetection:打开mmlab检测工具箱和基准测试。arXiv预印本arXiv:1906.07155(2019)10,116. 陈志,傅志等,R.J.:SLV:弱监督目标检测的空间似然投票。在:CVPR(2020)1,47. Cheng,B.,Parkhi,O.,基里洛夫,A.:点监督实例分割。CoRR(2021)28. Diba,A.,Sharma,V.,等,上午:弱监督级联卷积网络。在:CVPR(2017)1,4,59. 丁,J.,Xue,N.,Long,Y.,Xia,G.,Lu,Q.:学习roi Transformer用于航空图像中的定向对象检测。在:CVPR(2019)410. Everingham,M.,Gool,L.V.,等,C.K.I.W.:Pascal Visual Object Classes(VOC)IJCV(2010)511. 高,M.,Li,A.,等,R.Y.:C-WSL:计数引导的弱监督定位。在:ECCV(2018)512. Ge,W.,杨,S.,Yu,Y.:基于弱监督学习的多标记分类、目标检测和语义分割的多证据过滤和融合。在:CVPR(2018)1113. Girshick,R.B.:快速R-CNN。In:ICCV(2015)1,4,1114. 郭志,刘,C.,张,X.,Jiao,J.,Ji,X.,叶问:Beyond bounding-box:Convex-hull feature adaptation for oriented and densely packed object detection.在:CVPR(2021)415. 他,K.,Gkioxari,G.,等,P.D.:屏蔽R-CNN。In:ICCV(2017)616. 他,K.,张,X.,等,S.R.:深度残差学习用于图像识别。在:CVPR(2016)1017. 黄志,Zou,Y.,中国科学院,等,B.V.K.V.K.:用于弱监督对象检测的综合注意力自升华。在:NeurIPS(2020)1118. Jia,Q.,魏,S.,等,T.R.:Gradingnet:通过对候选框进行分级,为弱监督对象检测提供可靠的监督。在:AAAI(2021)1119. Jiang,N.,Wang,K.,彭,X. Yu,X.,王建奎,Xing,J.,Li,G.,赵,J,Guo,G.,Han,Z.:Anti-uav:用于无人机跟踪的大型多模态基准。IEEE TMM(2021)1220. 克里热夫斯基,A.,萨茨克弗岛,巴西-地Hinton,G. E.:使用深度卷积神经网络的图像网分类。In:NIPS(2012)1121. 李,P.,Byun,H.:从弱监督时间动作定位的点学习动作完整性。在:ICCV(2021)222. Lin,T., 多尔拉尔山口, 等,R.B.G.: 用于对象检测的特征金字塔网络。在:CVPR(2017)10,13,1423. Lin,T.,Goyal,P.,等,R.B.G.:用于密集目标检测的焦点损失In:ICCV(2017)1,4,9,11,13,14,18+v:mala2255获取更多论文16 Pengfei Chen等。24. Lin,T.Y.,Maire,M. e.:Microsoft Coco:上下文中的通用对象。In:ECCV(2014)5,925. 刘伟,Angue
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功