没有合适的资源?快使用搜索试试~ 我知道了~
4288基于自监督的弱监督语义分割Qi Chen1,Lingxiao Yang1,Jianhuang Lai1,2,3 and XiaohuaXie1,2,3*1中山大学计算机科学与工程学院2广东省信息安全技术重点实验室3机器智能与先进计算教育部重点实验室chenq377@mail2.sysu.edu.cn,{yanglx9,stsljh,xiexiaoh6} @ mail.sysu.edu.cn摘要基于图像级标签的弱监督语义分割(WSSS)由于标注成本低而受到广泛关注。现有的方法通常依赖于类激活映射(CAM),测量图像像素和分类器权重之间然而,分类器只关注区分区域,而忽略了其他有用的信息,在每一个图像,导致不完整的定位地图。为了解决这个问题,我们提出了一个自我监督的图像特定的原型探索(SIPE),由图像特定的原型探索(IPE)和一般特定的一致性(GSC)损失。具体地说,IPE为每幅图像定制原型以捕获完整的区域,形成了我们的图像特定CAM(IS-CAM),它由两个连续的步骤实现此外,本文还提出了GSC模型来构造通用CAM和专用IS-CAM的概念,进一步优化了特征表示,并赋予了原型 探 索的 自 校 正 能 力。 在 PASCAL VOC 2012 和 MSCOCO 2014分割基准上进行了广泛的实验,结果表明我们的SIPE仅使用图像级标签就实现了新的最先进的性能。该代码可在https://github.com/chenqi1126/SIPE 上 获得。1. 介绍语义分割旨在为图像中的每个像素分配语义分类标签,其已广泛应用于自动驾驶[14],医学成像[38]和遥感图像解译[17]。由于卷积神经网络(CNN)的发展,语义分割在全监督方式下取得了显著的进展.然而,训练完全监督的分割模型需要大量的*通讯作者图像特定原型类中心IS-CAM凸轮IS-CAM凸轮IS-CAM凸轮IS-CAM凸轮图1.主要动机。我们通过t-SNE [39]可视化了四张猫图像的像素级特征分布。原始CAM使用类中心(绿色星号)激活每个像素。我们的方法提取图像特定的原型(粉红色的明星),以生成图像特定的CAM(IS-CAM),捕捉更完整的地区。像素级注释,这是众所周知的昂贵和耗时的收集。一种替代方法是从弱标签中学习,例如,图像级标签[2]、边界框[26,49]、涂鸦[29,34,46]和点[3,5]。其中,基于图像级标签的弱监督语义分割(WSSS)在社区中享有大多数现有方法利用类激活映射(CAM)[53]技术来提供目标对象的定位线索。具体地说,这些方法训练分类器并将其学习的权重视为每个类的一般表示,即,班级中心然后,该类中心用于与图像像素相关以获得如图1所示的局部化图。然而,CAM倾向于4289专注于几个主要区域(猫的头部),而忽略其他有用的线索(猫的身体)。为了解释这个问题,我们可视化从训练的分类网络中提取的前景的像素级特征。这些特征用四种不同的颜色表示,其透明度指示CAM的激活。我们发现,类中心总是给予高激活的近像素(对应于一些主要区域),并忽略了遥远的像素。不平衡的激活导致不完整的定位图,如图1所示。此外,通过特征的质心(粉红色星形)激活每个图像上的特征可以有益于探索更完整的区域(参见图1所示的图像特定CAM(IS-CAM))。因此,本文的目的是量身定制的图像特定的原型,自适应地描述图像本身。为此,我们提出了一种新的弱监督语义分割框架,称为自监督特定于图像的原型探索(SIPE)。所提出的SIPE由图像特定的原型探索(IPE)和一般特定的一致性(GSC)损失组成,如图2所示。具体来说,IPE实现为两个连续的步骤来表征原型,允许-ING捕获更完整的本地化地图。在第一步中,我们利用像素间语义来探索空间结构线索,定位每个类的鲁棒种子区域。给定种子区域,我们提取图像特定的原型类型,然后通过原型相关产生我们的IS-CAM。此外,本文还提出用GSC构造一般CAM和我们的特殊IS-CAM的概念。这种自监督信号进一步优化了特征表示,并赋予了原型探索的自校正能力。在Pascal VOC 2012 [11]和MS COCO 2014 [30]上进行了广泛的实验,结果表明,当只有图像级标签可用时,我们的SIPE实现了新的最先进性能。我们的主要贡献概括为:• 我们提出了自监督图像特定的原型探索(SIPE)学习图像特定的知识,弱监督语义分割。• 我们提出了图像原型探索(IPE),为每个图像,这是通过结构感知的种子定位和背景感知的原型建模实现的它使模型能够捕获更完整的定位图。• 我们提出了一个通用特定的一致性(GSC)损失,有效地规范原来的CAM和IS- CAM,授权的特征表示。2. 相关工作基于图像级标签的弱监督语义分割由于其较低的标注成本而备受关注。提 高 注 意 力 。 现 有 的 方 法 大 多 采 用 类 激 活 映 射(CAM)来生成定位图,然后将其细化为伪标签来训练完全监督的分割模型。为了实现高性能的分割模型,已经研究了许多策略来提高定位图的质量。擦除和积累。擦除方法通过有意地从图像[23,37,43]或特征图[8,18]中移除区分区域来然而,擦除大部分区分区域可能混淆分类器并导致假阳性。为了避免这个问题,一些作品通过对扩张卷积率[44]、图像尺度[50]、空间位置[24]和训练过程[20]应用精心设计的采样来跨图像挖掘。考虑到图像之间的共享语义,一些工作设计了跨图像关系挖掘模块,如跨图像亲和度[13],最大二分匹配[31]和共同注意力分类器[36]来挖掘弱标签的语义上下文。此外,通过图卷积网络[28]和自注意机制[45]探索多图像的协作信息以捕获潜在的知识。背景建模。 许多方法[21,27,47,48]通过使用辅助显著图来获得精确的背景,这是费力的。在没有辅助地图的情况下,Fan等人。[12]提出了类内分类来分离每个类的前景和背景然而,由于图像的对象和场景多样性,为每个类学习一般的类内映射是相当棘手的。自我监督学习。最近,自监督方法挖掘潜在信息并构建监督信号,这已被证明是缩小完全监督语义分割和弱监督语义分割之间的监督差距的有前途的解决方案。Wang等人。[42]从各种变换的图像中对CAM应用一致性正则化来完成自我监督学习。Chang等人[4]引入了一个自我监督的任务,发现子类别,它提供了额外的监督,以增强特征表示。与现有方法相比,我们充分考虑了图像的独特性,引入图像特有的原型来发现完整的区域,并构造了一种自监督的方式来增强特征表示。3. 方法本节详细阐述了所提出的用于弱监督语义分割的SIPE框架,如图2所示。首先,我们简要回顾了计算机辅助制造的发展历程。然后,我们描述了探索图像特定的原型和图像特定的CAM(IS-CAM)的流水线。最后,一个自监督学习与一般特定的一致性(GSC)的介绍,以授权功能表示。4290k=1---一个∪i·sS图2.概述所提出的SIPE弱监督语义分割。它主要由两种方法组成:图像特定的原型(IPE)探索和一般特定的一致性(GSC)损失。具体来说,在我们的IPE,结构感知的种子定位方法,提出了实现更强大的种子区域和背景感知的原型建模开发提取层次特征。此外,我们在两种类型的CAM(即,通用CAM和IS-CAM)。该自监督信号在CAM和IS-CAM两者中有效地进行校正。3.1. 类激活映射给定输入图像和预训练的分类网络,K个前景类上的类激活图Mf=MkKMk=ReLU(θkTFs), θk∈K,(1)其中Fs是来自网络最后一层的语义特征,θk表示第k个分类器权重,因此Mk是第k个类特定激活图。在以前的工作,CAM进一步规范化为[0,1]的最大值沿空间轴,使它可以被视为每个类的概率。考虑到背景在分割任务中的重要性,我们遵循[42]以基于Mf估计背景激活图Mb。由于CAM往往会部分覆盖目标区域,估计的背景往往包含前景区域的高响应,这将带来相当大的噪声。为了减少这种混淆,我们通过引入衰减系数α = 0来削弱背景概率。第五章:WSSS中的地面实况像素级掩模。为了探索用于表征特征分布的特定于图像的原型第一步提供vides强大的类明智的种子区域和第二步aggregates这些种子在一个全面的特征空间,以实现准确的图像特定的表示。结构感知种子定位。获得种子的直接方法是根据经验选择CAM的阈值[19],但由于对象和场景的多样性,难以在不同图像上使用固定阈值。虽然CAM更关注辨别性区域,但它也对其余区域产生弱激活。这意味着CAM具有提供语义对象的空间结构的潜力。此外,像素的空间结构可以通过聚类高相关性像素来构成。对于一幅图像,我们可以通过比较其空间结构与CAM来确定每个像素在此基础上,本文提出了一种结构感知的种子定位方法,该方法通过探索像素间语义来捕捉空间结构,并采用CAM作为模板来匹配最优类别。Mb=α(1 max≤k≤K Mk)。(二)图第三章用所选的前地和背景例子说明了所提出的方法首先,对于任意我们将处理后的背景激活图与前景激活图作为一个整体结合起来,即M=M fM b,以帮助对背景知识建模。3.2. 特定于图像的原型探索提出了图像特定原型来表示每个类的特征分布,允许捕获更完整的区域。与少数镜头分割中的原型表示不同[33,40,52],没有像素i,我们将其语义特征向量fi作为查询,计算与特征图中所有像素的语义相关性。由于具有高相关性得分的像素更可能属于同一类,因此这些高相关性像素可以突出空间结构。因此,我们通过像素间语义相关来定义像素的空间结构:fiF(j)S(j)=ReLU(),(3)||·||F(j)||F(j)||人员,表分类损失分类器权重…一般-特定一致性损失G凸轮人…表背景晶种区域人图像特定原型前景…IS-CAM人C特征提取表M背景C表F语义特征C背景背景C相关性F 特征融合M 掩码平均池G 全球平均池IOU评价结构图结构相似性结构感知种子定位分层特征背景感知原型建模……4291D+·我伊港Σ∗K−K[M(j)+Si(j)-M(j)Si(j)]我K其中i表示空间位置,1(·)输出1语义特征H特征提取HHH2xD4xD+层次特征映射卷积下采样级联图4.用于提取几何特征表示的修改后主干的图示语义特征从最后一层提取,层次特征是骨干四个阶段的融合图3.选定前景(绿色)和背景像素(红色)的结构感知种子定位的图示。通过语义关联得到结构图。然后,类的结构相似性可以通过IoU评估,并选择最大的一个作为最终类。其中是点积,j是特征图和结构图上的空间索引。Si(j)表示像素i和j之间的语义相关性,Si是像素i的结构图. 我们通过ReLU函数抑制负相关性,以消除不相关像素的影响。其次,我们评估像素i的结构图和CAM之间的类间IoU作为结构相似性:语义特征空间上的背景原型。相反,来自浅层的特征包含丰富的低级视觉信息(例如颜色、纹理),这更适合于对背景相关信息进行建模。因此,我们修改架构的骨干,以捕捉层次化的功能,有效的原型表示。图4示出了经修饰的骨架的架构。具体地,我们添加四个卷积层来提取多尺度输出。然后,多尺度输出被重新调整大小为相同的大小,并连接以形成几何特征Fh。因此,前景和背景的图像特定原型Pk可以被公式化为分级特征空间中的种子区域的质心:C=ΣjMk(j)Si(j)KK.(四)Pk=Fi1(Ri=1)R1(Ri= 1),(六)这里,Ci表示像素i相对于第k类的结构相似性 j是激活图以及结构图上的空间索引。从图3,我们可以看到前景像素(绿色星星)与猫的身体相关此外,背景像素(红星)不是如果参数为真,则为0,否则为0。该过程对种子像素执行类式压缩,实现K个前景原型和一个背景原型。利 用 这 些 图 像 特 定 原 型 , 图 像 特 定 CAM ( IS-CAM)计算如下:与前景像素相关联,所以它更可能是背景类的-长。马克 (1)R2 =R3(Fh(j)·Pk),(7)||F h(j)||·||PK||最后,像素i被分配到具有最大相似性的类别:. 1,如果k=argmaxCi',K其中 ,M_k(j ) 是在pi x elj 处 的 第 k 个 IS-CAM。相关性在[1,1]中有界,然后是ReLU以去除负相关性。Ri=k'k0,否则。(五)与采用分类器权重作为类中心来计算每个像素,建议的IS-CAM利用原型泰,通过并行地对图像的所有像素重复该过程lel中,前景和背景类的种子区域R如图12所示定位。二、背景感知原型建模。在本节中,我们同时建模前景和背景原型。考虑到背景没有特定的语义,很难挖掘出代表性lored为每一个图像,以实现更完整的对象重新-gions。此外,背景原型建模提供了高质量的背景定位线索,这反过来又有助于确定准确的前景区域。3.3. GSC自监督学习为了进一步利用图像特定的知识,我们引入了一个自监督学习范式。的结构图XCat:X人:0.1背景:0.7IOU评价IOU评价IOU评价C语义相关猫人背景C 语义相关性IOU评价IOU评价IOU评价结构图Cat:LPESP1016人:0.1X背景:0.3XH凸轮J4292gscK+11总体训练损失包括多标签分类损失和一般-特定一致性(GSC)损失,Ltotal=Lcls + Lgsc。(八)分类损失通过图像级类别标签y和预测y之间的多标签软余量损失来计算,该软余量损失通过对由CAM生成的前景图进行平均来获得K构建一个包含10,582张图像的增强训练集另一个MSCOCO 2014数据集总共有81个类,包含80k个训练和40k个验证图像,这是对弱监督语义分割的挑战请注意,在两个数据集的网络训练期间,只有图像级分类标签可用平均交集大于并集(mIoU)被用作评估分割结果的度量。PASCAL VOC测试集的结果从官方评估服务器获得。L=1ylogσ(y)+(1−y)logg(1−σ(y)),CLSKi ii i i=1我(九)实施详情。在我们的实验中,采用Ima-geNet [9]预训练的ResNet 50 [16]作为主干其中σ是S形激活函数。GSC用于最小化由分类器权重激活的原始CAM和由图像特定原型激活的IS-CAM之间的差异。这种一致性正则化的数学定义被表示为两种CAM的L1归一化:L=1||M−M||、(10)输出步幅为16,其中全连接层由输出通道为20的分类器替换。增强策略与[25]相同,包括随机翻转、随机缩放和裁剪。该模型在2个Nvidia A100 GPU上以16个批量进行训练。采用SGD优化器对模型进行了5个epoch的训练,动量为0.9,权重衰减为1 e-4。骨干层和新增层的学习率分别设置为0.1和1。我们使用聚学习调度器其中M,M 表示原始CAM和IS-CAM重新-学习率以0.9的幂衰减。分别为。损失在K个前景类和一个背景类上平均。利用这种一致性,将特定于图像的知识注入到特征表示中,并在训练周期中完成协同优化。IS-CAM迫使原始CAM关注缺失的对象区域,这隐含地缩小了区分像素和缺失像素之间的特征距离。此外,增强的语义和层次特征有利于捕获更全面和准确的图像特定的原型,提高定位地图的质量4. 实验在本节中,我们首先阐述了实验设置,包括数据集,评估指标和实现细节。其次,我们将我们的方法与PASCAL VOC 2012数据集[11]和MS COCO 2014数据集[30]上的最先进方法进行了比较。第三,我们进行了一系列的消融研究,以验证所提出的方法的有效性4.1. 实验设置数据集和评估指标。我们在PASCAL VOC 2012分割基准[11]上评估了我们提出的方法官方数据集包含1,464张用于训练的图像,1,449张用于验证,1,456张用于测试。遵循语义分割中的常见实验协议,我们从SBD[15]推理在推理阶段,网络通过层次特征生成前景和背景种子,并激活到定位图。与其他工作[25,42]不同,我们没有检查训练集上的各种mIoU分数以获得伪标签,而是直接使用背景定位图计算伪标签。4.2. 与现有技术的本地化地图的改进。我们首先在本地化地图上评估mIoU,其中这些地图由所提出的IS-CAM生成。选项卡. 1给出了在PASCAL VOC 2012列车组上与其他先进方法的比较。在这些比较方法中,ECS [37]提供了最佳结果,mIoU为56.6%。我们提出的SIPE实现了58.6%的最先进的性能。此外,我们报告了使用denseCRF后处理的性能。结果表明,我们的SIPE与密集CRF提高mIoU到64.7%,优于所有其他方法,这可能得益于我们的高质量的本地化地图。我们解释这一性能增益来自SIPE生成完整的前景和背景定位图的能力。由于局部化映射可以捕获语义对象的令人满意的边界,因此在细化CAM时,denseCRF不那么令人困惑。图5显示了PASCAL VOC 2012训练集上前景定位图的视觉比较。实验结果表明,SIPE算法能够有效地捕捉不同对象尺度、拥挤对象、多类别等场景下的语义区域的4293图5.在PASCAL VOC 2012列车集上通过不同方法生成的定位图的视觉比较。从上到下:原始图像,基线,SCE [4],SEAM[42],AdvCAM [25]和我们的SIPE。表1. PASCAL VOC 2012火车模型最佳结果以粗体显示。方法Pub.本地. 地图+denseCRF基线-50.154.3SCE [4]CVPR2050.955.3SEAM [42]CVPR2055.456.8EDAM [45]CVPR2152.858.2AdvCAM [25]CVPR2155.662.1ECS [37]ICCV2156.658.6CSE [23]ICCV2156.062.8SIPE(我们的)58.664.7获得的高质量定位图将进一步有利于我们的分割结果。改善分割结果。为 了 进一步评估我们的方法的性能,我们使用生成的伪标签训练完全监督模型,并将分割结果与最先进的方法进行比较。遵循常见的做法[25],伪标签由IRN [1]细化并用于训练DeepLabV2[7]。选项卡. 2介绍了PASCAL VOC 2012 val和测试集与最新方法的比较。仅使用图像级标签,我们的SIPE优于以前的方法,在val集和测试集上分别有68.8%和69.7%的 mIoU此外,我们的方法对NSROM [48]和EPS[27]表现良好,它们引入了显着图作为辅助1http://host.robots.ox.ac.uk:8080/anonymous/NGICBM.html2http://host.robots.ox.ac.uk:8080/anonymous/UU6VNX.html表2.与PASCAL VOC 2012val和测试集上的其他最新技术进行比较。仅使用图像级标签的方法中的最佳结果以粗体显示。模型出版社辅助核算 骨干 确认测试DSRG [19] CVPR 18I +S ResNet101 61.4 63.2SeeNet [18] NIPS18I +S ResNet101 63.1 62.8FickleNet [24] CVPR 19I +S ResNet101 64.9 65.3OAA+[20] ICCV19I +S ResNet101 65.2 66.4G-WSSS [28] AAAI21I +S ResNet101 68.2 68.5NSROM [48] CVPR 21I +S ResNet101 70.4 70.2EPS [27] CVPR 21I +S ResNet101 71.0 71.8[47]第47话我的世界IRN [1] CVPR 19IResNet50 63.5 64.8ICD [12] CVPR 20IResNet101 64.1 64.3SCE [4] CVPR 20IResNet101 66.1 65.9SEAM [42] CVPR 20IResNet38 64.5 65.7BES [6] ECCV20IResNet101 65.7 66.6MCIS [36] ECCV20IResNet101 66.2 66.9CONTA [10] NIPS20IResNet101 66.1 66.7LIID [32]TPAMI20IResNet101 66.5 67.5A2GNN [49]TPAMI21IResNet101 66.8 67.4AdvCAM [25] CVPR 21I ResNet101 68.1 68.0CDA [35] ICCV21IResNet38 66.1 66.8ECS [37] ICCV21IResNet38 66.6 67.6CSE [23] ICCV21IResNet38 68.4 68.2CPN [51] ICCV21IResNet38 67.8 68.5SIPE(Ours)IResNet38 68.2 69.51SIPE(Ours)IResNet10168.8 69.72SIPE AdvCAM SEAM SCE基线图像4294PASCAL VOC 2012 MS COCO 2014图6.PASCAL VOC 2012和MS COCO 2014验证集的定性分割结果表3.与MS COCO 2014val set上的其他最新技术进行比较。最佳结果以粗体显示。表4.主要贡献的影响。CAM:原始CAM,IPE:图像特定原型探索,GSC:通用特定一致性。模型出版社辅助核算骨干谷DSRG [19] CVPR 18I +S VGG 16 26.0 G-WSSS [28] AAAI 21I +S ResNet101 28.4 EPS[27] CVPR 21I +S ResNet101 35.7[47]第47话我的世界[22] 2016年12月22日IRN [1] CVPR 19IResNet50 32.6[41] 2016年12月27日SEAM [42] CVPR 20IResNet38 31.9CONTA [10] NIPS20IResNet101 33.4CSE [23] ICCV21IResNet38 36.4SIPE(Ours)IResNet3843.6SIPE(Ours)IResNet101 40.6标 签 此 任 务 为 了 进 行 公 平 的 比 较 , 我 们 还 使 用ResNet38按照默认设置[42]训练模型。我们的SIPE在测试集上实现了69.5%的mIoU,超过了使用ResNet38主干的现有方法。valset上的定性分割结果如图6所示。基于我们的SIPE,DeepLabV2对各种具有挑战性的场景表现出更强的鲁棒性,例如不同的对象尺度,多个对象和多个类别。在选项卡中。3,我们还在MS COCO 2014数据集[30]中评估了我们的方法。采用与PASCAL VOC 2012上的实验相同的训练脚本,但由于计算成本大,没有使 用 IRN 进 行 细 化 。 我 们 的 方 法 在 验 证 集 上 使 用ResNet38主干实现了43.6%的mIoU,比之前的SOTACSE高7.2%[23]。使用ResNet 101主干,我们还超过-CAM IPE GSC mIoU(%)C50.1C C53.2C C C 58.6EPS [27]增长4.9%。这些在两个数据集上的现有最先进技术的出色表现证实了我们的SIPE的有效性,SIPE通过自监督学习范式很好地探索了图像特定的原型。4.3. 消融研究主要贡献的影响。我们进行了一项消融研究,以验证所提出的两个关键贡献的效果,即,图像特定原型探索(IPE)和一般特定一致性(GSC)。如Tab.所示。4、使用图像特定的原型,我们的IS-CAM可以在mIoU评分上将原始CAM提高2.1%。为了增强特征表示能力,引入了GSC进行自监督训练.所提出的GSC以明显的幅度提高了IS-CAM的质量(5.4%)。通过结合这两种方法,我们的完整方法的性能显着优于原来的CAM。图7显示了具有不同设置的CAM和IS-CAM。从前两行中,我们可以观察到特定于图像的原型可以激活更有用的区域。此外,我们的IS-CAM表明,所提出的方法产生更清晰的背景激活比CAM。在用GSC训练模型时,定位图的质量得到了明显的改善,特别是对于背景。SIPE(R101)SIPE(R38)地面实况图像429557.056.0mIoU(%)59.058.0鸟个人背景表5.通过GSC进行特征选择和背景原型建模(BPM)组合的消融研究。每个项目报告两个伪标签的mIoU,其中前者通过搜索最佳背景阈值[42]生成,后者通过估计的背景图生成。最佳结果以粗体显示。特征,不带BPM,带BPM阈值估计阈值估计语义56.054.655.954.3分层53.951.257.658.6图7. CAM和IS-CAM在不同设置下的可视化。我们的IS-CAM显示了更完整的人的区域。此外,所提出的GSC进一步细化了背景激活。边界被很好地捕获为白框。55.054.053.052.352.051.00.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5阈值图8.结构感知种子定位的烧蚀研究。所提出的结构感知种子定位方法始终优于固定阈值的CAM,以及自适应阈值的CAM结构感知种子定位的效果。为了验证所提出的结构感知种子定位的有效性,我们将mIoU与其他种子生成方法进行比较,包括在CAM上应用阈值或argmax如图8所示,在CAM上应用不同阈值表现出波动,并且只能实现53.3%的最大mIoU。此外,简单地应用argmax会导致略微的性能提升(+0.4%)。这些方法仍然很难找到竞争区域,因为其中的一种仅依赖于单个像素的概率。相比之下,由于所提出的结构信息,所提出的结构感知种子定位在很原型建模的效果。我们在定位图上进行原型建模的消融研究。四个关于特征和背景的原型建模(BPM)在选项卡中显示。5:(1)无BPM的语义特征,(2)有BPM的语义特征,(3)无BPM的层次特征,以及(4)有BPM的层次特征。我们报告基于阈值和基于估计的伪标签为每种类型的选项。我们的SIPE采用选项(4),其中学习分层特征以它表明,我们的方法实现了最高的性能,在这两个值之间的所有选项。从(1)到(2),mIoU基本上没有变化,因为背景通常不具有特定的语义。从(1)到(3),mIoU下降超过2%,因为低级信息给前方定位带来混乱。值得注意的是,只有在同时使用层次特征和背景建模时,基于估计的伪标签的mIoU才超过基于阈值的mIoU,这有力地证明了背景线索估计的有效性。5. 结论在本文中,我们提出了自监督图像特定的原型探索(SIPE)弱监督语义分割。在我们的框架中,提出了一个图像特定的原型探索(IPE),以实现更方便的定位地图。它是通过结构感知的种子定位和背景感知的原型建模。此外,一般特定的一致性(GSC)损失的开发,以有效地规范一般CAM和图像特定的CAM(IS-CAM),授权的特征表示。大量的实验表明,我们的SIPE设置新的国家的最先进的性能两个众所周知的基准使用图像级标签。致谢。本课题得到了广东省重点领域研究发展计划( 2019B010155003 ) 和 国 家 自 然 科 学 基 金(62072482)的资助。感谢张鹏泽、周华军和翁星星的真知灼见。IS-CAMIS-CAM+GSC凸轮Struct乌雷-阿器皿硒卢卡廷 -58.6CA M wi特阿格最大- 53.7.752.552 .652 .85253.052.153.0.453凸轮与 Thres举行4296引用[1] Jiwoon Ahn,Sunghyun Cho,和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE计算机视觉和模式识别会议论文集,第2209-2218页,2019年。六、七[2] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第4981-4990页1[3] Amy Bearman,Olga Russakovsky,Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议,第549-565页,2016年。1[4] 张玉婷,王乔松,洪伟智,罗宾逊·皮拉穆图,蔡义轩,杨明轩。通过子类别探索的弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第8991-9000页二、六[5] 陈鸿钧、王金宝、陈洪才、郑仙童、冯征、冀蓉蓉、凌少。用于点击级弱监督语义分割的研讨会学习在IEEE计算机视觉国际会议论文集,第6920-6929页1[6] 陈丽怡,吴薇薇,付晨晨,韩晓,张运涛.具有边界探索的弱监督语义分割。欧洲计算机视觉会议,第347-362页6[7] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2017。6[8] 崔俊锡李承浩和沈贤贞用于弱监督单对象局部化和语义分割的基于注意力的丢弃层。IEEE Transactions onPattern Analysis and Machine Intelligence,2020。2[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第2485[10] 张东,张汉旺,唐锦辉,华显生,孙倩茹。弱监督语义分割的因果干预。在神经信息处理系统的进展,2020年。六、七[11] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge : ARetrospective.International Journal of Computer Vision,111(1):98-136,2015. 二、五[12] 范俊松,张兆祥,宋春风,谭铁牛。弱监督语义分割的类内鉴别器学习整数对象。进行中-IEEE计算机视觉和模式识别会议,第4283-4292页,2020年。二、六[13] 范俊松、张兆祥、谭铁牛、宋春风、肖军。Cian:用于弱监督语义分割的跨图像亲和网络。在AAAI人工智能会议集,第34卷,第10762-10769页2[14] Di Feng、Christian Haase-Schuetz 、Lars Rosenbaum 、Heinz Hertlein 、 Claudius Glaeser 、 Fabian Timm 、Werner Wies-beck和Klaus Dietmayer。自动驾驶的深度多模态对象检测和语义分割:数据集、方法和挑战。IEEE Transactions on Intelligent Transportation Systems,2020。1[15] Bhara thHariharan,PabloArbela' ez,LubomirBourdev,Subhransu Maji,and Jitendra Malik.从反向检测器的语义轮廓在IEEE计算机视觉国际会议论文集,第991-998页,2011年。5[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页,2016中。5[17] Mohammad D Hossain和Dongmei Chen.基于对象的图像分析(obia)的分割:从遥感角度回顾算法和挑战。ISPRS Journal of Photogrammetry and Remote Sens- ing,150:115-134,2019。1[18] Hou Qibin,Jiang Peng-Tao,Wei Yunchao,and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。神经信息处理系统进展,第547-557页,2018年。二、六[19] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉和模式识别会议论文集,第7014-7023页,2018年。三六七[20] Peng-Tao Jiang , Qibin Hou , Yang Cao , Ming-MingCheng,Yunchao Wei,and Hong-Kai Xiong.通过在线注意力积累的整体对象挖掘。在IEEE计算机视觉国际会议论文集,第2070-2079页,2019年。二、六[21] 金范英韩三根金俊模用于弱监督语义分割的区分区域抑制。在AAAI人工智能会议论文集,第35卷,第1754-1761页,2021年。2[22] Alexander Kolesnikov和Christoph H.蓝伯特种子,扩展和约束:弱监督图像分割的三个原则。2016年欧洲计算机视觉会议。7[23] Hyeokjun Kweon , Sung-Hoon Yoon , HyeonseongKim , Daehee Park 和 Kuk-Jin Yoon 。 Unlocking thepotential of ordinary classifier:Class-specific adversarialerasingframeworkforweaklysupervisedsemanticsegmentation.在IEEE计算机视觉国际会议的Proceedings中,第6994-7003页,2021年10月。二六七[24] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet:Weakly and semi-supervisedse-mantic image segmentation using stochastic inference.在4297IEEE计算机视觉和模式识别会议论文集,第5267-5276页,2019年。二、六[25] Jungbeom Lee,Eunji Kim,Sungroh Yoon。用于弱监督和半监督语义分割的反不利操纵属性。在IEEE计算机视觉和模式识别会议论文集,第4071-4080页,2021年6月。五、六[26] Jungbeom Lee,Jihun Yi,Chaehun Shin,and SungrohYoon.Bbam:弱监督语义和实例分割的边界框属性图。在IEEE计算机视觉和模式识别会议集,第2643-2652页,2021年。1[27] Seungho Lee , Minhyun Lee , Jongwuk Lee , andHyunjung Shim. Railroad is not a train : Saliency aspseudo-pixel supervision for weakly supervised semanticsegmentation.在IEEE计算机视觉和模式识别会议论文集,第5495-5505页,2021年6月。二六七[28] Xueyi Li , Tianfei Zhou , Jianwu Li , Yi Zhou , andZhaoxiang Zhang.弱监督语义分割的分组语义挖掘。在AAAI人工智能集,第1984二六七[29] Di Lin,Jifeng Dai,Jiaya Jia,Kaiming He,and JianSun. Scribblesup:用于语义分割的Scribble-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功