没有合适的资源?快使用搜索试试~ 我知道了~
单实例注释的对象检测(SIOD):一种解决不完全数据下目标检测问题的方法
14197SIOD:单实例注释每类每图像的对象检测韩军李i1*、邢家潘2、KeYan2<$、FanTang3、魏世政1、4、5<$1中山大学计算机科学与工程学院2优途实验室、腾讯3吉林大学4鹏程实验室5机器智能与先进计算教育部重点实验室lihj85@mail2.sysu.edu.cn,{xjia. pan,tfan.108} @ gmail.com,kerwinyan@tencent.com,wszheng@ieee.org摘要不完全数据下的目标检测是近年来的研究热点。弱监督对象检测(WSOD)由于缺乏实例级标注而存在严重的定位问题,而半监督对象检测(SSOD)由于标记数据和未标记数据之间的图像间差异而仍然具有挑战性。在这项研究中,我们提出了单实例注释的对象检测(SIOD),只需要一个实例注释图像中的每个现有类别SIOD从任务间(WSOD)或图像间(SSOD)差异降级为图像内差异,为挖掘剩余的未标记实例提供了更可靠和丰富的先验知识,并权衡了注释成本和性能。在SIOD环境下,我们提出了一个简单而有效的框架,称为双挖掘(DMiner),它包括一个基于相似性的伪标签生成模块(SPLG)和像素级组对比学习模块(PGCL)。SPLG首先从特征表示空间中挖掘潜在实例,以缓解标注缺失问题。为了避免被不准确的伪标签所误导,我们提出了PGCL以提高对虚假伪标签的容忍度。在MS COCO上进行的大量实验验证了SIOD设置的可行性和所提出方法的优越性,与基线方法相比,该方法获得了一致和显著的改进,并在仅标注40%实例的情况下实现了与全监督对象检测(FSOD)方法代码可从https://github.com/solicucu/SIOD网站。1. 介绍随着卷积神经网络(CNN)和视觉Transformer的蓬勃发展[9,16,13,23,30,33],对象*部分工作在优图实验室实习期间完成†通讯作者backpac人K人网球拍运动球滑雪板背包人滑雪板(a) (b)裁军特别联大巴克普人ack人网球拍运动球背包客 K人网球拍运动球滑雪板(c)SAOD(d)SIOD(Ours)图1.(a)WSOD、(b)SSOD、(c)SAOD和(d)SIOD(Ours)的不同注释设置检测[3,5,20,22,26,27,28,50]已经利用大量的实例级注释实现了很大的改进。然而,这些注释不仅是劳动密集型和耗时的,而且还阻止检测器推广到只有很少的标记数据可用的最现实的场景弱监督目标检测(WSOD),它只需要图像级的标签进行训练,在计算机视觉界受到了广泛的关注。虽然近年来取得了很大的进步[2,19,34,29,8],但WSOD和FSOD之间仍然存在巨大的性能差距。由于图像级标注和实例级任务之间存在较大差异,WSOD存在严重的半监督对象检测(SSOD)是一种替代的少标签对象检测任务,其中只有少量的实例级注释可用。与WSOD方法相比,SSOD方法[14,15,1,35,17,49]获得了更高的定位精度,但由于缺乏流行的小批量优化方式中的稀疏标注的目标检测(SAOD)是最近提出的,它在每幅图像中标注一部分实例具体而言,SAOD方法[37,43,45]通常通过从完全注释的对象检测14198数据集[21]。 这样一来,不可避免地会出现某些类别的所有实例都没有注释的情况在图像中,这导致图像间差异,如SSOD。为此,我们提出了一个新的任务,称为单实例注释对象检测(SIOD),它只注释一个实例,每个现有的类别在一个图像。与WSOD、SSOD和SAOD相比,SIOD将任务间或图像间的差异降低为图像内的差异,并在标注成本和性能之间进行了权衡。图1示出了WSOD、SSOD、SAOD和所提出的SIOD的注释细节。基于伪标记的方法是不完美数据下最常用的解决方案,并取得了令人瞩目的进展。然而,检测器在早期训练阶段产生的伪标签通常是不准确的,这使得稳定的训练变得困难。在这项研究中,我们提出了一个简单 而 有 效 的 框 架 下 的 SIOD 设 置 , 称 为 双 挖 掘(DMiner),它包括一个基于相似性的伪标签生成模块(SPLG)和像素级组对比学习模块(PGCL)。与基于检测器的伪标签相比,SPLG利用特征相似性来挖掘潜在实例,这是基于CNN的等方差能力。 然后,我们提出了PGCL,它自挖掘一个组对每个类别的正对进行组对比学习,以提高对虚假伪标签的容忍度,并最小化每个图像中相同类别的实例之间的距离COCO风格的评估协议不过滤具有极低置信度的检测到的盒子,因此通过召回大量具有低置信度的对象而因此,我们引入额外的置信度约束,以coco风格的评估指标,预测框被确定为真正的匹配,只有当它满足特定的IoU(联合上的交互)和置信度阈值。总之,本研究的贡献包括:• 研究SIOD任务,它为目标检测的发展提供了更低的注释成本。• 提出了DMiner框架来挖掘未标记的实例,提高了对伪标签的容忍度。• 大量的实验验证了SIOD的优越性,与基线方法相比,所提出的DMiner获得了一致和显著的增益。2. 相关作品2.1. 对象检测在全面监督下进行目标检测。近年来,全监督目标检测技术取得了很大的进展大多数现代检测方法可以大致分为两阶段或一阶段的方法。两阶段方法[28,20,4,11]通常首先通过引入区域建议网络(RPN)生成高质量的建议,然后应用细化阶段以获得最终预测。同时,一阶段方法[22,27,3,50,36]直接回归边界框并预测类概率,这导致了高效率。在CornerNet [18]之后,提出了几种方法[50,52,32,44,5,46],通过直接预测绝对边界框来去除锚点设置w.r.t输入图像,并且这些方法中的大多数遵循一级流水线的设置。然而,这些方法的巨大成功在很大程度上依赖于大量的实例级注释,这是众所周知的劳动密集型和耗时。不完美数据下的目标检测。弱监督和半监督的目标检测由于减轻了对昂贵的实例级标注的需求而受到越来越多的大多数WSOD方法[2,19,34,29,25,10,47]采用多实例学习(MIL)[7]或CAM[48]来挖掘具有图像级标签的潜在对象建议,然后是一些实例细化模块。由于缺乏实例级注释,WSOD和FSOD之间仍然存在很大的性能差距。SSOD方法利用有限的实例级标记数据和大量未标记数据。基于一致性正则化的方法[14,15]有助于训练模型对给定的扰动输入具有鲁棒性,但效果有限,并且在很大程度上取决于数据扩充策略[24]。基于伪标签的方法[1,35,17]是当前最先进的方法,其中大多数都进行了复杂的多阶段训练模式:生成伪标签和重新训练过程。最终的性能受到伪标签质量的限制。最近,SAOD方法[37,43,45]随机注释每个图像中的一部分实例,这不可避免地导致每个类别的不平衡。与上述设置不同,SIOD为每个图像中的每个现有类别标注一个实例,以达到减少标注和保留丰富信息的目的。2.2. 对比学习对比学习[12,6,51,38]已广泛应用于自监督学习领域。 这些方法中的大多数使用实例判别[40]作为借口任务来预训练网络,然后针对不同的下游任务进行微调(例如,分类、对象检测和分割)。对比学习的目标是最小化正对(即同一图像的两个不同增强视图)之间的距离,并推开负对。具体而言,Xieet al.[41]在多层次特征上引入全局图像和局部块之间的对比学习进行预训练,然后将学习的模型转移到目标检测任务中。Xie等人[42]介绍141992σ∈SSSS2[]∈0,1���������∈������×���n∈0,1��� ×���×���11507202不同类别���∈������×���133不同分数背景SPLG0PGCLLsplgLPGCL��� ∈������×���×���热图���∈������×��� ×3净���∈������ ×���×���尺寸偏移LsizeLoff图2. DMiner由基于相似性的伪标签生成模块(SPLG)和像素级组对比学习模块(PGCL)组成。 设M15、M27、M31=1,并参考等式(6)理解M的意义。用于学习对密集预测任务友好的密集特征表示的像素级借口任务(例如,对象检测和分割)。为了减轻对伪标签的依赖并提高对伪 标签的容忍度,Wangetal.[38]提出了一个伪组对比分别地,我们生成目标类别热图Y∈[0,1]H×W×C,在等式中具有高斯核函数。(1),其中p=CPX ,p=中国共产党并且σwh是对象大小自适应标准偏差[18]。(x-p<$)2+(y-p<$)2解决确认自我训练的偏见。然而,所有这些都需要保持Yyxc=exp(−xy )。(一)WH用于提取关键特征的动量编码器和相对麻烦且消耗资源的大特征队列。为了解决目标检测中伪标签不准确导致的错误放大问题,挖掘更多的未标记实例,本文设计了一个像素级分组对比学习模块(PGCL)。请注意,PGCL独立地应用于每个图像,而无需额外的动量编码器。3. DMiner3.1. 概述在本文中,我们采用CenterNet [50]作为我们的基本框架。设IRH× W×3是高H和宽W的输入图像。 给定一个主干网,首先提取特征映射F∈RH×W×D=Net(I),其中H=H,W=W,s为d o wnsample步长w. r.t输入。 D是特征尺寸。特征F然后被馈送到分类器头,其用于预测猫类热力图Y∈在SIOD设置下,直接将所有未标记区域指定为背景无疑会损害训练过程并降低检测器性能。为了缓解注释缺 失 问 题 , 我 们 提 出 了 如 图 2 所 示 的 双 挖 掘(DMiner)框架,该框架由基于相似性的伪标签生成模块(SPLG)和像素级组对比学习模块(PGCL)组成。SPLG根据参考实例(标记)和未标记区域的其余部分之间的特征相似性召回几个潜在实例。仅利用SPLG生成的伪标签的模型很容易被错误的伪标签混淆,因为它专注于学习一个超平面来区分每个类别和其他类别[38]。因此,我们进一步设计了PGCL模块来提高对虚假伪标签的容忍度,这是受到对比学习损失专注于探索数据的内在结构并且自然依赖于虚假伪标签的启发[38]。总体培训目标如下:L=L+λL+λL+λL(2)RH×W×C,其中C是猫的数量。Giv enan总人民解放军pgclpgcl关闭关闭大小大小实例地面实况注记(cpx,cpy,w,h,c),其中(cpx,cpy)表示实例中心点的坐标,w,h,c是宽度、高度和类别其中,Loff和Lsize是CenterNet [50]之后的中心点偏移和尺寸回归损失,Lsplg是SPLG模块的修正焦点损失(在第5.1节中)。3.2)和Lpgcl14200--联系我们联系 我们Qk0L=−M∈Nk0˜构造伪猫进化热图YNZiYoYoYo如果v > Tsim,0,否则Q|M ij= 1k0K1=−(1−Y<$yxc)α(Yyxc)γˆˆ∈公司简介是PGCL模块的损失(在第3.3)。λpgcl、λoff、λsize分别是Lpgcl、Loff、Lsize损失的权重参数。3.2. 基于相似性的伪标签生成在SIOD设置下,我们可以为图像中的每个现有类别获得标记的为了解决标注缺失的问题,我们提出了根据标注参考实例与其余未标注数据之间的特征相似度来召回未标注实例的方法。设C 1=c1,c2,..,c N表示当前图像I中现有的N个类别。我们可以很容易地通过等式获得每个参考实例的特征向量。(三)、ΣGCi 2015年02月01日02:00-01:00(YYXCIYX通过专注于探索数据的内在结构与标准的对比学习不同,在图像级的每个对比中只涉及一个正键,PGCL引入了一组具有相同伪类的正键,以与来自其他伪类的所有负键进行对比[38]。根据班级预测YRH×W×C对于一幅图像,我们首先选择前m个实例(pi x els)Pp=p1,p2,..然后我们收集相应的特征向量作为编码的正密钥fk∈Rm×D。的每个带标签的引用实例类ci,通过提取其中心特征及其相应的主正关键字来获得编码查询fci被编码为f ci,使用等式 (3)增加其中l2表示L2归一化。设PU={pi|位置p处未标记}表示特征图F中的未标记像素,Q ∈ RK× D表示特征向量通过对遵循高斯分布的相邻像素进行加权求和。形式上,PGCL的总体目标概述如下:未标记数据,其中K = |PU|数目的N MCJ未标记的像素。 然后通过点积运算得到参考实例与其余未标记数据之间的余弦相似度S=QGT,其中S∈1PGCLMi=1j=1NMij测井Ciexp(fq i·fk/τ)ZiCi[0,1]K×N。根据相似度矩阵S,我们可以∈[0,1]H<$×W<$×C.-1logexp(fq·fk0/τ)i=1(六)对于每个位置p∈i,Si [0,1]1×N表示相似性其特征与N个现有参考文献的特征之间的关系Zi=Δexp(f ci·fj/τ)+Δexp(f ci·f cz/τ)姿态然后,我们确定其伪类标签如下:QKj=1z=1qk0cn,v=a rgmaxCI(Si)其中τ表示温度缩放。Ob viously,PGCL.(四)最大化查询fci和a之间的相似性对应的正键组{fci,fJK对于每个类别ci.正关键字f ci和{f j|M ij= 1其中Cn和v分别表示最相似的类别和对应的相似性。η和Tsim分别是比例因子和相似性阈值然后我们得到一个新的算法可以得到猫的热图Y<$=Y+Y。Follo wing[50],我们计算分类损失如下:Σ(1−Yˆyx c)γlo g(Yˆyx c),Y¯yxc=1LSPLG利用自预测类标签C,i将彼此竞争。虽然在所选的组中存在一些错误的预测,但这些错误的实例将在上述竞争中被击败,因为与真实的实例相比,它们的编码特征往往与查询不太相似因此,该模型将主要通过真实自我预测标签的梯度来更新,并且倾向于避免被错误的自我预测标签误导。由于对错误的自我预测标签具有很强的耐受性,PGCL有效地Nyxclogg(1−Y,否则)(五)最小化未标记实例之间的距离,引用实例,因此改进了3.3. 像素级小组对比学习SPLG基于特征相似性召回几个潜在实例,但不准确的伪标签不可避免地引起由交叉熵损失导致的错误放大问题[38]。为了克服自我训练中存在的类别歧视的缺点,我们提出了像素级的分组对比学习(PGCL)来提高容忍度未标记实例的预测分数。3.4. 适用于其他探测器在本节中,我们将介绍如何将DMiner应用于其他检测器,例如。两阶段基于锚的Faster- RCNN [28]和多尺度无锚FCOS [36],在SIOD 任务上。对于Faster-RCNN , 我 们 只 将 DMiner 应 用 于 区 域 建 议 网 络(RPN),因为分类器Fyx )(3)=14201.(g,d,s)= 联系我们Σ××心理材料的更多细节),我们提出了一个新的分数感知检测评估协议来衡量这种能力。给定类c的地面实况边界框g和具有得分sd的类c的预测边界框d,我们向官方COCO匹配规则添加得分约束,并如下确定匹配结果:TSTIOU1,IoU(g,d)> tiou且sd>tsD0,否则(七)图3.配备DMiner的Faster-RCNN插图RoI(Region of Interest)头的分支是基于区域的,而DMiner是基于像素级特征构造的其中t为0,0的情况。1,0。2,0。3,0。四,零。5,0。6,0。七比零。八比零。9是得分阈值,并且tiou是IoU阈值。为了简洁起见,我们将AP@Si表示为分数阈值ts=i/10的所有IOU阈值上的平均精度。我们还总结了一个更全面的指标如下:由于RPN是类不可知的,我们不能为每个锚点获得特定的类别,并且RPN约束的特征Fc4的区分能力有限,这导致1AP@S=109AP@Sii=0时(八)许多不准确的伪标签。因此,我们引入一个与RPN并行的新类分类器分支,并将DMiner应用于新分支,如所示图3。为了给每个锚点分配令人满意的伪标签,我们对由具有不同核大小的特征图Fp生成的初始伪标签进行平均池化操作(例如,1、3、5、7、9),预定锚的尺寸(例如,32,64,128,256,512)以自动获得每个锚点的对应伪标签。对于FCOS,我们以类似的方式将DMiner直接应用于 FPN [20] 结 构 的 每 个 具 体 地 说 , 每 个 特 征 层 的DMiner共享PGCL模块中除所选阳性样本数m以外的超参数,因为特征的区分能力特别地,由于每个像素级特征的感受野之间的大重叠,来自P6、P7级的特征具有有限的区分度。在实践中,我们只在前三个级别的特征上应用DMiner,并将m设置为[96,64,32]。4. 实验4.1. 数据集和评价方案数据集。根据SIOD的定义,我们首先构建一个名为Keep 1-COCO 2017-Train的新数据集,方法是从COCO2017的训练集中为每个图像中的每个现有类别随机保留一个注释[21]。通过这种方式,它减少了约60%的实例注释。我们保持验证集COCO 2017-Val与往常一样,以便与完全监督的对象检测进行比较。评估方案。由于官方COCO评估方案无法区分不同评分分布的检测结果差异(参考补充说明),在本文中,我们评估的检测器与建议分数感知检测评估协议,并提供更全面的比较。我们报告了具有不同分数约束AP@Si的AP(例如,对于t s=0,AP @ S 1。1)。请注意,AP@S0与官方COCO评估协议完全相同。实作详细数据。在这项工作中,我们的实验主要使用CenterNet框架进行[50]。对于CenterNet,我们在512的输入分辨率上进行训练512.这产生128 128的输出分辨率。利用Adam优化器对网络参数进行优化。对于CenterNet-Res 18,我们使用114个批量(在4个GPU上)进行训练,初始学习率为5e-4,持续140个epoch。对于CenterNet-Res 101,我们使用批量大小为96(在8个GPU上)进行训练,初始学习率为3.75e-4,持续140个epoch。这两种算法在90和120 epoch时的学习率衰减因子均为0.1。至于Faster-RCNN-Res 50-C4,我们使用detectron 2框架进行实验[39]。FCOS-Res 50-FPN使用官方代码[36]实现。所有实验都是在Tesla V100、Pytorch 1.7.0和CUDA 10.1的环境下进行的。对于超参数,η和Tsim被设置为默认情况下分别为1.0和0.6。而λpgcl,λoff,λsize分别设置为0.1、1.0、0.1。4.2. 主要结果我们首先检查CenterNet-Res 18从FSOD到SIOD的效果与建议的分数感知检测评估协议。虽然注释减少了约60%,但AP@S0仅减少了3。0,表明该检测器在SIOD设置下仍具有较强的定位能力。然而,在AP@S3上,性能差距明显增大(-5.5),这解释了图11中第4(b)段。比较AP@S3和AP@S0,RPN…RoI池RoI头���∈������×��� ×������������∈������×��� ×������������热图PGCLSPLG������∈������×��� ×���������M14202××检测器任务AP(%)@S@S0@中三@中五@S7@S9[50]第五十话FSODSIOD(base)SIOD(DMiner)17.313.916.8(+2.9)28.125.126.6(+1.5)24.018.522.4(+3.9)17.112.317.1(+4.8)8.86.19.4(+3.3)1.51.42.1(+0.7)[50]第五十话FSODSIOD(base)SIOD(DMiner)22.615.119.7(+4.6)34.227.829.8(+2.0)30.320.926(+5.1)23.613.320.5(+7.2)13.66.112.2(+6.1)3.11.12.9(+1.8)[28]第二十八话FSODSIOD(base)SIOD(DMiner)32.827.029.2(+2.2)35.931.631.9(+0.3)34.729.430.6(+1.2)33.227.329.5(+2.2)31.224.627.8(+3.2)26.118.923.9(+5.0)FCOS-Res50-FPNFSODSIOD(base)SIOD(DMiner)27.122.023.6(+1.6)38.633.233.9(+0.7)38.332.133.3(+1.2)33.525.628.6(+3.0)16.011.314.1(+2.8)0.100表1. COCO 2017-Val上的单实例注释对象检测(SIOD)和全监督对象检测(FSOD)任务的检测结果。SIOD(base)表示我们直接将相应的检测器应用于SIOD任务,SIOD(DMiner)表示检测器配备DMiner。gap大表示检测到的大量对象的得分在0和0之间。3,当分数阈值设置为0的情况。3 .第三章。一个主要原因是大多数未标记的实例在训练过程中被视为背景。为了改进不正确的监督,建议SPLG挖掘潜在的积极的情况下,基于特征相似性。此外,PGCL采用对比学习来提高对虚假伪标签的 CenterNet-Res 18-SIOD ( DMiner) 配备 了两 个模块,提高了检测能力不同分数阈值的性能一致如表1所示。与SIOD(base)相比,我们的方法在AP@S0和AP@S3处分别提高了1.5和3.9。前者表明我们的方法召回了更多的实例,而后者表明我们的方法提高了那些低质量检测(得分小于0的对象)的得分。(3)到0。3 .第三章。注意,SIOD和FSOD之间的差距缩小到0。更全面的指标AP@S。除了使用小型网络(Res18)验证 DMiner 的 有 效 性 外 , 我 们 还 使 用 大 型 骨 干( Res101 ) 进 一 步 验 证 了 我 们 的 方 法 。 如 表 1(CenterNet-Res 101)所示,一致地获得了大的改进。为了验证各种检测框架的有效性,我们使用检测器Faster-RCNN和FCOS进行实验这两种方法都面临着不正确的后台监控,并有很大的性能下降。在配备了建议DMiner后,性能提高了不同的分数阈值。从表1中,我们还观察到,随着主干网络变得更大(从Res18到Res101),FSOD和SIOD(基本)设置上的检测器之间的性能差距会增加。在我们看来,随着模型变大,表 2. 我 们 使 用 CenterNet-Res 18 实 现 了 半 监 督 对 象 检 测(SSOD)和稀疏注释对象检测(SAOD)等不同方法,并在COCO 2017-Val上进行了评估,以进行公平比较。需要更多的标记数据来学习最佳参数。考虑到计算成本,该方法只在训练阶段引入额外的成本具体地说,与基线方法相比,它需要大约1.4个4.3. 与其他方法为了与SSOD提出的其他方法(例如,CSD [14])或SAOD(Comining [37]),我们使用CenterNet-Res 18实现它们。具体来说,我们首先通过随机保留一些完全注释的图像并从COCO 2017-Train中删除其余图像的所有注释来构建SSOD方法的新训练集,COCO 2017-Train具 有与 Keep 1-COCO 2017-Train等 效的 实例 注释。如表2所示,Base表示直接在相应的训练集上训练检测器。由于SIOD将图像间差异减小为图像内差异,因此SIOD的基线是明显的。方法类型AP (%)@S@S0@中三@中五基地基地基地特别联大SAODSIOD14.414.013.923.425.025.119.518.618.514.312.712.3CSD [14]特别联大15.124.020.315.1TS [31]特别联大15.825.221.415.814203Tsim0.50.550.60.650.7AP@SAP@S016.226.81626.515.826.415.52615.426.1η0.80.91.01.11.2AP@SAP@S015.426.115.826.215.826.41.64.100表3. SPLG和PGCL对COCO 2017-Val上SIOD任务的有效性。在AP@S0处,它优于SSOD,这表明所提出的注释方式重新训练更丰富的信息。此外,所提出的方法优于CSD和TS(教师-学生)的大幅度相同数量的实例注释。而Comining算法对选择伪阳性样本的评分阈值非常敏感,容易陷入崩溃。因此,Comining带来的改善非常有限。4.4. 消融实验SPLG和PGCL的有效性。为了验证所提出的SPLG和PGCL 的 有 效 性 , 我 们 分 别 为 基 本 检 测 器(CenterNet)配备了它们进行训练。如表3所示,SPLG和PGCL都独立地提高了性能。具体而言,SPLG倾向于提高AP@S,而PGCL则大大提高了AP@S,这意味着SPLG有利于挖掘更多的实例,而PGCL倾向于提高分数潜在的实例。将它们集成后,检测器获得了更高的性能。SPLG的超参数选择。请注意,伪标签的准确性对Tsim非常敏感。较高的评分阈值会导致阳性样本的召回率较低,而较低的评分阈值会导致产生大量虚假的伪类标签。如表4所示,尽管它在T sim = 0时实现了最佳性能。5、它实际上几乎把所有的候选职位都确定为前台,这是不合理的。知道PGCL模块将最大化正对之间的相似性,我们最终将T sim设置为0。默认情况下,与PGCL结合使用时,性能会更好。对于比例因子η,过大的比例因子容易导致模型崩溃,不进行比例因子的选取是最好的选择。PGCL的超参数选择。本文首先探讨了top-m在PGCL中的作用.由于我们将前m个位置确定为前景,表4.SPLG中不同超参数的影响表5.不同超参数对PGCL的影响被识别为大m的前景,而很少有前景被回忆为小m。为了更好地平衡这一矛盾,我们探索了64到192之间的不同值,发现128是相对合适的选择。在Eq中的τ。(6),当它被设置为0时实现最佳性能。07,在对比学习中,通常默认选择的值为了更好地平衡Lpgcl和其他损失的影响,我们尝试选择不同的值进行实验。如表5所示,当λ pgcl设置为0时,检测器可实现令人满意的性能。1.一、SIOD任务的优势。请注意,SIOD任务与SAOD任务非常相似。因此,我们进行了严格的实验进行比较。有三种不同的注释集(例如简单,困难和极端)的SAOD任务。具体而言,硬集保留COCO 2017-Train中的50%实例注释,而SIOD任务中仅保留40%实例注释。如表6所示,与SAOD任务的注释相比,方法Comining进一步利用来自SIOD任务的注释实现了更好的性能,尽管可用的实例注释更少这种现象表明,SIOD的注释方式具有很大的潜力,以实现更好的性能与更低的注释成本。4.5. 可视化为了清楚地揭示我们的方法的有效性,我们可视化不同方法的检测结果下,建议SIOD设置。如图4中所示,列(a)示出了用以下训练的CenterNet-Res 18的检测结果:骨干模块AP(%)SPLGPGCL@S@S0@中三@中五13.925.118.512.3CCCCRes1815.816.216.826.425.826.621.522.322.415.716.617.115.127.820.913.3CCCCRes10118.518.919.73029.229.825.225.82618.620.120.5M6496128160192AP@SAP@S015.825.716.325.716.225.816.125.51625.3τ0.010.040.070.10.13AP@SAP@S00016.125.816.225.81625.615.725.2λpgcl0.050.10.150.20.25AP@SAP@S016.125.916.225.816.225.516.225.615.925.414204(a) 裁军特别联大(b)南南合作会议(基础)(c)可持续发展特别联大(d)裁军特别联大(e)图4.使用CenterNet-Res 18的不同方法的可视化,评分阈值为0.3,(a)FSOD,(b)SIOD(基础),(c)SSOD-CSD,(d)(e)我们的工作。方法类型AP(%)@S@S0@中三@中五[37]第三十七话[37]第三十七话SAODSIOD19.423.631.632.426.828.516.723.6表6.使用RetinaNet-Res 50在两个不同的注释集上进行实验请注意,这里的SAOD采用硬稀疏注释集[37]进行训练。完全注释的数据,其中大多数实例都被准确定位和分类。然而,如列(b)所示,直接针对SIOD任务训练的检测器的检测结果非常不令人满意。造成这种现象的一个主要原因是训练过程中不正确的背景监督对检测器造成了混淆。因此,大多数实例都是以非常低的分数检测到的,并且在t s = 0时进行可视化时被过滤。3 .第三章。此外,我们还可视化了两个半监督方法,列(c)和(d)。从第一行可以看出,他们未能在图片中找到一些滑雪板。在配备了DMiner的SPLG和PGCL之后,大多数显著实例被准确地检测到,与SIOD(基础)相比具有相对较高的分数,如列(e)所示与DMiner相比,CSD方法定位相对不完善。如下图所示,男孩和滑板部分检测到的方法CSD。5. 结论在这项研究中,我们研究了一个新的任务,称为单实例注释对象检测(SIOD)。在SIOD设置下,我们提出了一个简单而有效的框架,称为双挖掘(DMiner),挖掘潜在的实例的基础上的特征相似性的建议SPLG和进一步提高容忍虚假伪标签的建议PGCL。大量的实验验证了SIOD设置的优越性,所提出的DMiner有效地减少了与全监督对象检测的差距。作为SIOD设置下的第一个坚实的基线,DMiner为不完美数据下具有挑战性的对象检测任务提供了新的见解局限性。大量的实验表明,SIOD任务提供了一个有前途的方式来权衡标注成本和检测精度,但SIOD的标注成本仍然是不容忽视的。在将来的工作中,值得探索仅注释图像中的一个实例。虽然我们已经见证了所提出的DMiner框架对SIOD任务的有效性,但所提出的方法在应用于基于锚的架构(例如,更快的RCNN)。由于SPLG和PGCL模块是基于像素级特征构建的,因此很难为共享相同特征表示的锚分配准确的伪标签。在未来,我们将更新框架,以更好地适应不同的架构。6. 确认本工作得到了国家自然科学基金(U21A20471、U1911401、U1811461)、广东省自然科学基金项目(No.2020B1515120085、2018B030312002)、广州市重点领域研究发展计划(202007030004)。14205引用[1] Philip Bachman,Ouais Alsharif,and Doina Precup.学习伪合奏。神经信息处理系统,27:3365-3373,2014。一、二[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集,第2846- 2854页,2016年。一、二[3] Alexey Bochkovskiy,Chien-Yao Wang,and Hong-YuanMark Liao. Yolov4:目标检测的最佳速度和准确性。arXiv预印本arXiv:2004.10934,2020。一、二[4] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:高质量的对象检测和实例分割 。IEEE Transactions on PatternAnalysis and Machine Intelligence,2019。2[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在欧洲计算机视觉会议上,第213-229页。Springer,2020年。一、二[6] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。2[7] 托马斯·G·迪特里希、理查德·H·莱思罗普和托马的洛扎诺·佩雷斯。用平行轴矩形求解多实例问题人工智能,89(1-2):31- 71,1997. 2[8] 董博文,黄梓桐,郭跃林,王启龙,牛振兴,左旺梦。通过学习边界框调整器增强弱在IEEE/CVF计算机视觉国际会议论文集,第2876-2885页,2021年。1[9] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. arXiv预印本arXiv:2010.11929,2020。1[10] 高伟、方婉、潘兴佳、彭志良、田琦、韩振君、周伯磊、叶梓瑾。弱监督目标定位的令牌语义耦合注意图arXiv预印本arXiv:2103.14862,9,2021。2[11] Jianyuan Guo , Kai Han , Yunhe Wang , Han Wu ,Xinghao Chen,Chunjing Xu,and Chang Xu.通过解耦功能提取对象检测器在IEEE/CVF计算机视觉和模式识别会议论文集,第2154-2164页2[12] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页,2020年。2[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议论文集,第770-778页1[14] Jisoo Jeong , Seungeui Lee , Jeesoo Kim , and NojunKwak.基于一致性的对象检测半监督学习。神经信息处理系统,32:10759-10768,2019。一、二、六[15] Jisoo Jeong , Vikas Verma , Minsung Hyun , JuhoKannala,and Nojun Kwak.基于插值的半监督学习目标检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第11602-11611页,2021年。一、二[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展,25:1097-1105,2012。1[17] 郭家文,马智尧,黄家斌,吉良。Featmatch:用于半监督学习的基于特征的增强。欧洲计算机视觉会议,第479-495页。Springer,2020年。一、二[18] 黑律和贾登。Cornernet:将对象检测为成对的关键点。在欧洲计算机视觉会议(ECCV)的会议记录中,第734-750页二、三[19] Chenhao Lin,Siwen Wang,Dongqi Xu,Yu Lu,andWayne Zhang.面向弱监督对象检测的对象实例挖掘。在AAAI人工智能会议论文集,第34卷,第11482-11489页,2020年。一、二[20] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。一、二、五[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功