没有合适的资源?快使用搜索试试~ 我知道了~
ECS-Net:弱监督语义分割中利用类激活映射联系的改进方法
7283ECS-Net:利用类激活映射之间的联系改进弱监督语义分割孙昆阳1,2,石浩清1,2,张正明1,2,黄永明1,2,*1东南大学国家移动通信研究实验室2紫金山实验室普适通信研究中心1南京2100962南京211111Sunky@seu.edu.cn,shihaoqing619@seu.edu.cn,zmzhang@seu.edu.cn,huangym@seu.edu.cn摘要图像级弱监督语义分割是一项具有挑战性的任务。由于分类网络倾向于捕获显著的对象特征并且对过度激活不敏感,类别激活图(CAM)过于稀疏和粗糙,无法指导分割网络训练。从消除区分功能迫使网络收集新的非区分对象区域的事实的启发,我们使用CAM之间的关系,提出了一种新的弱监督方法。在这项工作中,我们应用这些特征,从擦除图像,作为分割监督,驱动网络研究鲁棒表示。具体地,首先在图像上擦除通过CAM技术获得的对象区域为了向其他区域提供分割监督,擦除CAM监督网络(ECS-Net)通过预测那些处理的图像的分割结果来生成像素级标签我们还设计了抑制噪声的规则来选择可靠的标签。我们在PASCAL VOC 2012数据集上的实验表明,除了地面实况图像级标签外,没有数据注释,我们的ECS-Net达到67。测试集上的mIoU为6%,测试集上的mIoU为66. val集上的mIoU为6%,优于之前的最先进方法。1. 介绍语义分割是计算机视觉的基本任务之一,其目标是为图像上的每个像素分配类别标签。由于全卷积网络(FCN)的快速发展,全监督语义分割(FSSS)方法[5,6]被广泛应用于辅助驾驶等应用。本工作得到了国家重点研发项目2018YFB1800801的*通讯作者图1.空间维度注释的不足导致网络过于关注显着的对象区域,并降低了对对象边缘的敏感性(左)。我们的方法使网络不会遗漏另一个有价值的区域,并且可以更好地捕获边缘(右)。医学成像在短时间内实现了优异的性能然而,由于训练那些算法需要配备有像素级注释的数据集,因此现有数据集遭受严重的耗时和大量劳动力投资。意识到这些困难,一系列研究采取了弱监督策略。这些方法通常遵循两阶段范式:(1)通过低度监督生成可靠的伪标签,如边界框[16,20]、涂鸦[19,28]、点以及图像级注释[17,2]。(2)通过将这些伪标签视为地面实况注释来训练现有的全监督语义分割方法。显然,生成更准确的伪标签可以增强(2)中的算法的性能与其他弱监督相比,图像级标注甚至可以直接从几乎所有现有数据集获得,具有最低的时间和劳动力成本。因此,我们选择7284图像级标签作为弱注释。图像级弱监督语义分割[23,13,21,22]是一项具有挑战性的任务,因为分类标签无法保留对象定位信息,这在分割任务中至关重要。为了研究这个问题,类激活图(CAM)[38]被广泛应用于弱监督语义分割(WSSS)方法中,以引入额外的位置监督。尽管CAM结构简单,但有两个主要障碍阻止其直接用作伪标签:(1)CAM倾向于对对象的部分而不是整个区域给出高响应。(2)粗略定位激活会引入噪声,如过度激活。许多研究人员通过设计从随机激活[18]到扩张卷积[34]的不同对象区域挖掘技术来解决这两个问题。通过从目标对象的各个区域进行采样,网络将注意力从区分特征转移到其周围区域。然而,这些方法仅使用图像级标签作为监督,使得第二个问题难以解决。我们注意到,弱监督和完全监督方法之间的巨大性能差距主要来自分类和分割任务之间的差异。具体地说,由于所有像素都在完全监督的框架中被正确地注释,因此可以直接解决分割任务。相反,图像级弱监督方法倾向于通过将其转化为分类问题来解决分割任务。在原始任务中,整个对象区域以及边界需要被精细分割,而对部分对象的粗略激活足以处理转换任务,这使得这些方法无法实现与完全监督方法相当的性能。在这项工作中,我们考虑缩小性能差距。很自然地会问一个问题:我们能否引入额外的监督,指导CAM研究细分信息?我们认识到一个事实:在分类任务中,擦除图像中的高亮区域可以引导网络探索和激活新的目标区域。以前的工作,如对抗擦除(AE)[32]也利用了这种现象。AE迭代地擦除图像,直到网络不能收敛。它通过将所有CAM组合在一起来生成最终结果。然而,随着迭代的增加,这些过度简化的擦除设计可能无法避免过度激活。此外,简单的组装不能很好地利用不同CAM之间的连接。我们注意到,由擦除图像预测的CAM包含原始CAM中缺少的对象片段信息。换句话说,擦除图像的CAM可以向原始CAM提供附加的段监督。我们专注于调查的方法,以提供额外的分割监督,利用预测删除的图像。特别地,我们首先从图像中擦除高响应区域并生成那些擦除的图像的新CAM年龄然后,我们从新的CAM中采样可靠的像素,并将其分割预测作为语义标签来训练相应的原始CAM。我们的方法不需要多次擦除我们进行了广泛的烧蚀研究,以发现最佳的超参数,如采样阈值。具体而言,我们可以实现以下目标:• 我们提出了一个简单,高效,新颖的框架:擦除的CAM监督网(ECS-Net),解决弱监督语义分割中的问题。第利用目标区域挖掘技术和两次CAM的关系,我们的方法提供额外的分割线索。实验表明,ECS-Net预测的CAM能够更好地学习对象的边界和形状等分割信息• 由于过度激活等噪声严重损害分割性能,我们的ECS-Net设计了采样规则来抑制擦除图像带来的噪声CAMs.我们证实,所提出的方法是有助于剔除不可靠的样本,加快网络收敛。• 如在PASCAL VOC 2012数据集的测试集上的实验所示,我们的框架实现了63的mIoU。4%与VGG-16骨架和67。使用ResNet-38主干的6%mIoU优于之前的最先进方法。2. 相关工作2.1. 低度监督弱语义分割的最新进展揭示了使用弱标签而不是像素级注释的可能性,大大降低了手动标记的成本。学习各种类型的弱标签以解决问题,例如,边界框[16,20,9],涂写[28,19]和点[3]。然而,当面对大量的未标记的数据,这些粗糙的注释仍然遭受了大量的手动标记的压力。2.2. 图像级监督图像级注释可以直接从几乎所有现有的大型数据集获得,而无需人工投资。因此,许多研究者试图应用分类标签来指导网络训练。Pinheiro等人[22]建立了基于多实例学习的图像级标签语义分割框架。由于缺乏目标定位线索,其性能远远落后于同时代的FSSS算法。这个问题部分地通过引入粗糙对象定位来解决7285>0C通过显著性检测[36]和类别激活图(CAM)[38]等然而,这两种定位线索都是针对部分对象而不是整个对象区域的,不能直接用作伪标签。最主要的方法是细化和扩展类激活映射以扩展整个对象。 SEC [17]引入了三个损失函数,种子,扩展和约束损失来指导网络训练。然而,静态种子线索,这是太少和稀疏,限制了分割性能。为了提高低响应对象区域的识别能力,AE [32]迭代地从输入图像中擦除高响应特征然而,迭代学习是耗时的. MDC [34]采用具有高扩张率的扩张卷积来采样和研究来自整个对象区域的特征。由于采样位置固定,MDC难以灵活地捕获目标边界。FickleNet [18]对此进行了研究,该研究试图利用具有不同丢弃率的Dropout方法来随机选择和组合特征。FickleNet在单个图像上生成多个位置图,获得具有不同形状的区域。由于丢包的随机性很大,FickleNet无法避免引入噪声。PSA [2]生成亲和矩阵来研究像素之间的相似性,并应用随机游走来预测最终结果。我们注意到,像[32,34,18]这样的方法迫使网络从低响应区域学习以扩展对象区域。然而,它们中的大多数没有办法抑制由采样引入的过激活,因为少量的背景像素被错误地分类,分类损失可能不受影响。为了突破这些限制,我们提出了ECS-Net。据我们所知激活了更多物体的部分,但加剧了过度激活。相反,大规模图像的CAM具有较少的激活区域,包括较少的过激活。这两个CAM相互监督,在扩展对象区域和过度激活之间提供良好的平衡然而,在两个CAM中的相同预测误差难以在SEAM中校正。3. 我们的方法本节将详细介绍我们的方法首先,我们详细阐述了应用CAM产生段监督的详尽过程。本文还介绍了抑制噪声标签的方法,并进一步讨论了该框架的实现,包括损失函数、网络结构、缩放和多重扩展覆盖模块等。整个框架如图2所示。最后,我们给出了一个详尽的解释如何算法的工作原理。3.1. 段标签生成我们提出的ECS-Net的主要思想是通过擦除建立CAM之间的连接。首先,我们使用擦除图像的CAM来生成段标签。然后,这些伪标签被认为是监督,以改善CAM的原始图像。特别地,通过应用类别激活图技术,可以生成具有分类的图像I。标签L首先被馈送到网络F中以预测热图H∈ RC×H×W,其中C是对象类别,H ×W是原始图像M的大小(例如, 448 × 448)。然后,我们对H进行归一化以产生原始CAM a,并应用分类权重W={wc|wc= 1,如果c ∈ L,否则wc=0的情况。 {1. . . C}}禁止不存在的类别正在激活:我们的方法可能是第一个引入re-a(x,y)=wHc(x,y)−minx,yHc(x,y)·,在爆破过程中进行可靠的伪分段监控定量阶段使用CAM之间的连接:许多优越CMaxx为ohHc(x,y)−minx为ohHc(x,y)(一)图像级弱监督方法考虑样本拼接不同CAM以预测最终分割结果。MDC [34]对不同扩张卷积预测的CAM求和。类似地,RRM [37]计算具有不同尺度的CAM的平均值。AE [32]裁剪来自每个CAM的高亮片段,并根据相应位置将它们粘贴在一起。我们认为,过于简化的装配设计不能充分发挥不同CAM的功能。最近,SEAM [31]通过将图像调整大小为两个尺度来产生相应的CAM此外,它利用等价正则化来缩小这两个CAM之间的差异通过这种自监督学习方法,SEAM生成更鲁棒的CAM分割任务。在一定程度上,小尺度图像的CAM其中(x,y)是H上的位置。我们生成分数图如下s(x,y)= max cac(x,y)。(二)更高的分数意味着更明显的分类特征,我们设置阈值δ = 0。6以从s中选择擦除区域R。此外,我们通过将高斯模糊应用于所选区域中的像素来擦除M上的这些特征然后,ECS-Net发送将处理后的图像I’输入到与F共享权重的网络F’中,并输出热图H’。下式(1)得到擦除图像a ′的CAM。然后对a′进行argmax函数处理,得到粗段标签L′。L′(x,y)=argmax a′(x,y).(三)7286凸轮ProPro>0优化模块骨干优化CAM输入图像CAM预测损失凸轮擦除噪声抑制扩张覆盖模块骨干小卡输入图像优化模块优化CAM产生热图优化热图图2. 我们提出的ECS-Net的整个框架工作。F中CAM的高响应区在图像上被擦除。通过抑制噪声,将F ’中的CAM用作附加分段标签。 F和F ′共享权重。图2显示,通过擦除高响应特征(红色区域),我们的网络将注意力转移到其他低响应特征上。我们的分类损失如下:CΣ− 1Σ。ΣSponse对象区域。直到现在,我们生产的粗糙标签包含大量的预测误差,远低于要求。lcls(o,L)=1C−1c=1信用证日志.11 +f(oc)ΣΣ噪声抑制:我们遵循从L ′中选择可靠的片段标签的规则。首先,我们忽略来自擦除区域的标签。原因有两个:(1)这些地区,+(1 −lc)logf(oc)1+f(oc)、(四)被认为是简单的例子,没有贡献。(2)由于擦除,这些区域错过了特征并导致不可靠的预测。我们进一步忽略背景标签。最后,通过在得分图s’上应用阈值θ来获得可靠标签。其中f(x)=exp(−x),o是长度为C其由GAP层预测我们的调查组忽略了-地类,即c=0。 我们定义ocam和opro作为H的GAP结果,并分别在F中细化CAM E。同样,O和o′表示F′中那些的GAP结果。然后,最终分类损失被公式化为:3.2. ECS NetLcls1=(l2CLS(o凸轮,L)+1CLS′凸轮(L))网络结构:我们将遵循[ 38 ]的工作要求-计算CAM预测。 在我们的ECS-Net中,分类卷积层B,具有3×3内核,然后是1 .一、+2LCLS(o亲,L)+1CLS(o′ ,L)Σ.(五)全局平均池化(GAP)被添加在主干的最后一考虑避免相互干扰对于语义分割任务,我们采用交叉熵损失定义为:在分割任务和分类任务之间,我们加入空间注意力来细化CAM结果E∈RC×H×W。如图3所示,即使共享权重,我们的两个LceΣ(P, Q′)=i∈Φ,c∈CQ′(i,c)log(P(i,c)),(6)网络F和F′在结构上是不同的。我们在改进部分3.2给出了详细的介绍。损失函数:在我们的工作中,由于分类标签和产生的伪语义标签都用于监督,因此我们的损失函数L由两部分组成:分类损失和分割损失。用于图像分类(o7287任务,我们遵循CAM技术[38]的工作来定义其中,Q′表示伪分割标签L′的独热结果,Φ被定义为可靠标签的位置集合,并且P是F中的精细CAM E,随后是softmax操作。因此,我们ECS中的最终损失函数Net定义为L=Lcls+ Lce。(七)7288maxteps3x3conv共享权重特点CAM速率=5率=7比率=12图3.在我们的方法中多个扩张叠加模块。实线表示在F中预测CAM的过程。虚线将预测结果发送到官方PASCAL VOC评估服务器。4.2.实现细节训练:我们选择ResNet- 38 [35]的卷积层作为我们的骨干,并通过ImageNet [10]上的预训练模块初始化它的参数。首先对训练图像进行随机缩放,最长边缘在[448,768]范围内。然后,这些重新缩放的图像被随机裁剪成448×448块。我们采用8个补丁的批量大小并训练网络4个GPU上的8个epoch。我们以学习率0.01为100步来预热网络。然后,初始学习率被设置为0.05,并按照poly策略衰减线表示从擦除图像生成H′的过程inF ′.3×3卷积层与各扩张层共享权值lr阶跃=lr步长(1-步)γ,其中γ=0。9 .第九条。学习卷积层在多扩张覆盖模块中。其他改进:我们还讨论了其他改进,提高预测性能。首先,在将图像发送到F之前,我们使用缩放因子β∈ [0,1]重新缩放原始图像M。 这意味着第一输入图像I小于M。 更具体地,第二输入图像I’具有与M相同的形状。此外,由于膨胀的卷积层能够扩展在感受野[8]中,我们添加K个具有不同速率的扩张卷积层,与层B平行(如图3所示)。值得一提的是,这些附加层与B共享权重,并且仅在训练阶段应用于F’因此,我们的网络可以捕获更健壮的特征。如下计算热图H’附加分类层和卷积的速率在细化模块中的层是主干的10倍配置和基线:我们考虑ECS-Net的以下配置超参数:• β,第一输入图像的重新缩放因子,• θ,用于选择可靠的片段标签的阈值,• 用于产生pesduo片段标签的热图,其可以是H’或精炼热图,精炼模块的输出,在F’中,我们用缩写β θ表示我们的模型。例如,0。50 8表示第一个输入图像的分辨率为244×244(448的0.5倍),我们忽略标签s′上的分数小于0.8。 默认情况下,我们使用H′ = 1H′0+122K.ΣKk=1ΣH′k、(8)H′来预测片段标签,并且不在我们的基线中添加多个扩张覆盖模块。另外,我们选10个。8作为我们的基线在其余的文件。其中H’0被定义为B的输出,而H’k是第k个扩张卷积层的输出。4. 实验4.1. 数据集我们的方法在PASCAL VOC 2012分割基准上进行了训练和评估[11]。该数据集已由21个类像素级标签注释,包括一个背景和20个不同的对象类别。值得注意的是,地面实况图像级标签,而不是像素级标签,可以在我们的ECS-Net中获得。PASCAL VOC 2012的原始子集由1464个训练图像、1449个验证图像和1456个测试图像组成。我们在SBD数据集提供的10582张图像的增强训练集上训练我们的方法[12]。在提交分割结果后,将通过官方评估指标平均交集/并集(mIoU)比率评估分割结果4.3. 消融实验我们通过在上述可配置的超参数上进行消融实验来我们评估我们的方法与语义分割度量(mIoU)。第一输入图像的缩放因子:我们测量了我们的模型的性能与不同的两倍输入大小的比例。表1表明,在0.5至0.7之间的适当重新缩放因子可以增强性能。使用较小的输入可以提供更多的对象定位,β10.70.5Miou55.155.756.1表1. 第一输入图像的缩放因子:β 0.8模型在PASCAL VOC2012列车组上的性能。在数据增强之后,输入图像被裁剪成H×W块。F中的输入尺寸为βH×βW,而F ′中的输入尺寸为H×W。7289H.此外,研究原始图像的不同尺度导致稳定的预测。我们设置β = 0。5、我们的最终模式θ0.60.70.80.9Miou53.854.155.154.9表2. 用于选择分割标签的阈值:性能与两倍相同大小的输入。选择段标签的阈值:我们验证了不同的阈值选择分割标签的影响。我们从0开始改变θ。六比零。9 .第九条。表2报告了结果。较小的阈值意味着更多的标签被选择以引入片段监督,而较大的阈值意味着更少的可靠像素被标记。有一个权衡,太多的标签区域引入噪声,因为选择了不正确的标签,而太少的分割标签不足以进行网络训练。如果没有指定,我们使用θ=0。8在以后的实验中特征CAM热图H′优化热图E′Miou55.154.2表3. 分割特征位置:10的表现。8模型在火车上。 H′和E′都是F ′ 的 输 出。H′来自CAM分支,而E′是细化模块输出。分割特征位置:CAMvs.细化模块:我们比较我们的段标签生成位置。 在表3中,通过使用CAM热图H’,我们可以改进性能。我们认为E′与E是高度耦合的,因为它们经过相同的细化模块,在它们之间产生相同的预测误差然而,H′与E的耦合程度较低,减少了这种现象的发生 在其余实验中,如果未指定,则我们应用CAM热图H’来生成片段标签。各部分的有效性表4说明了ECS-Net中各部分的有效性观察到由ECS-Net生成的定位图优于基线。如果我们不使用摄像机和年代之间的联系ing只是带来了一个轻微的改善分割每-基线删除CELoss其他改善CRF mIoUC47.4CC48.5CCC55.1CCCC56.6CCCCC58.6表4. ECS-Net各部分的消融研究。我们报告分割性能的火车集。擦除阈值为0.6,选择可靠标签的阈值为0.8。基线:原始CAM。擦除:擦除有区别的对象区域。CELoss:使用CAM之间的连接。CRF:条件随机场。其他改进:使用0.50 8模型,并添加具有膨胀率(5,7,12)的多个膨胀覆盖模块。(a)(b)(c)图4。ECS-Net在PASCAL VOC 2012验证集上获得的CRF定位图两组图像是按行列出。(a)图像. (b)单一类别的CRF结果。(c)第(1)款CRF定位图的分割结果方法mI0U中文(简体)47.4GradCAM++[4]47.4CAM+SEAM [31]55.4CAM+ECS-Net56.6表5. 不同弱监督定位方法:我们在PASCAL VOC 2012训练集上评估这些方法表演。在应用分段监督之后,分段性能从48.5提高到55.1。在0上训练具有CRF的定位图。50 图4中示出了具有多扩张覆盖模块的8模型。比较 与 其他 定位方法: 类似于我们的方法,CAM [38]、GradCAM++[4]和SEAM [31]提供用于生成伪片段标签的定位信息。如表5所示,我们的ECS-Net在语义切分方面优于其他方法。由于利用擦除的CAM,所提出的方法学习更精细的分割表示,与分割任务更匹配我们将给出我们的ECS-Net提供的进一步解释72902007_0024622007_004328cam分类任务对前景和背景像素之间的不正确分类不敏感。然而,这些错误损害了语义分割的性能。如图5所示,我们的具有较少过度激活的热图为网络训练提供了更详细的边界信息。我们还将ECS-Net与基线[38]以及图7中的SEAM [31]进行了比较。与其他方法相比,我们的结果具有更清晰的边界和更少的过激活像素。这些使我们的结果看起来更像片段掩码。我们相信我们的ECS-Net可以缩小语义分割和分类目标之间的差距图5. (a)原始图像的CAM结果。(b)已处理的图像已删除。(c)擦除图像的CAM结果。我们发现ECS-Net缺乏区分特征,专注于新的区分特征以及对象边界。图7.多尺度测试结果。我们的方法生成的CAM具有形状边界和较少的过度激活背景像素。图6.(a)输入图像。(b)具有5k次迭代的CAM结果(c)10k次迭代的CAM结果我们的ECS-Net可以在训练过程中扩展方法主干训练集值测试更精确的定位信息。4.4. 讨论ECS-Net中的对象区域挖掘:如图5的第一行所示,网络首先对左鸟和右鸟的右翼给出高响应。当模糊这些特征时,右鸟的左翼被检测为新的图6说明了在训练过程中,我们的ECS-Net检测到越来越多的对象区域,受益于擦除操作。与AE [32]方法不同,其擦除是为了对象挖掘,我们的擦除主要是为了生成新的监督。改进了ECS-Net中的分部信息:我们同意像CAM[ 38 ]这样的定位方法,它是通过仅应用图像级标签作为监督而产生的,不适合分段工作。 更具体地说,表6.PASCAL VOC 2012数据集的评价结果我们比较我们的ECS-Net与以前的国家的最先进的图像级WSSS方法。DCSM [25]VGG1610K44.145.1BFBP [24]VGG1610K46.648.0美国证券交易委员会VGG1610K50.751.1STC [33]VGG1650K49.851.2[32]第三十二话VGG1610K55.055.7MDC [34]VGG1610K60.460.8MCOF [30]ResNet-10110K60.361.2DSRG [14]ResNet-10110K61.463.2IRNet [1]ResNet-5010K63.564.8FickleNet [18]ResNet-10110K64.965.3SSDD [26]ResNet-3810K64.965.5WSIAL [29]ResNet-3810K64.365.4SEAM [31]ResNet-3810K64.565.7OOA [15]ResNet-10110K65.266.4北京谱仪ResNet-10110K65.766.6我们VGG1610K62.163.47291(一)(b)第(1)款(c)第(1)款图8. PASCAL VOC 2012验证集的定性结果。(a)原始图像。(b)Ground truth标签(c)我们的结果通过在我们的伪标签上保留DeepLab-resnet 38网络获得。方法BKGAero自行车鸟船瓶总线车猫椅子牛表狗马MBK人植物羊沙发火车电视是说美国证券交易委员会82.462.926.461.627.638.166.662.775.222.153.528.365.857.862.352.532.562.632.145.445.350.7PSA [2]88.268.230.681.149.661.077.866.175.129.066.040.280.462.070.473.742.570.742.668.151.661.7SEAM [31]88.868.533.385.740.467.378.976.381.929.175.548.179.973.871.475.248.979.840.958.253.064.5SSDD [26]89.062.528.983.752.959.577.673.787.034.083.747.684.177.073.969.629.884.043.268.053.464.9北京谱仪88.974.129.881.353.369.989.479.884.227.976.946.678.875.972.270.450.879.439.965.344.865.7我们89.868.433.485.648.672.287.478.186.833.077.541.681.776.975.475.646.280.743.959.856.366.6表7.PASCAL VOC 2012val数据集上的性能4.5. 与最新技术水平的比较我们遵循[2]的工作来基于我们的改进CAM训练亲和网络。然后,我们通过随机游走操作生成伪标签。最终伪标签达到67。82%的mIoU在火车上,超过SEAM[31] 4.2 mIoU。我们还用我们的伪标签训练了全监督语义分割模型DeepLabv1 [5我们应用VGG 16 [27]和ResNet-38 [35]作为网络骨干。对于ResNet-38 [35],我们用主干末端的膨胀卷积替换了三个完全连接的层。数据扩充操作包括随机缩放、随机裁剪、翻转和颜色抖动。之后,我们将输入图像的大小调整为321×321。初始学习率为0.001,遵循DeepLabV2 [6]中提出的poly策略。我们用批量大小10训练网络20个epochs。我们选择SGD作为最佳选择-米 泽 尔分 割 网 络 在 Py-torch 框 架 上实 现 , 并 在 4 个NVIDIA Tesla-v100 GPU上执行。表7显示了PASCAL VOC 2012 val set的最终结果。与基于原始CAM产生的伪标签训练结果相比,我们的ECS-Net在所有类别上都具有良好的性能。我们与以前的国家的最先进的弱监督语义分割解决方案与图像级注释进行了广泛的比较。如表6所示,我们的ECS-Net超越了其他方法,而无需任何其他辅助算法,如显着性检测。定性结果如图8所示。5. 结论在本文中,我们提出了一个强大的方法(ECS-Net)来缩小图像级监督方法和完全监督方法之间的性能差距。我们引入分割监督,利用原始和擦除CAM之间的关系,以产生部分可靠的像素级标签的WSSS方法。此外,我们设计了选择分割标签的规则,以抑制噪声。我们还介绍了其他改进,以进一步提高预测性能。与其他弱监督局部化方法相比,我们的ECS-Net细化了具有更相似形状的对象的CAM。我们在PASCALVOC 2012数据集上通过我们产生的伪标签训练了一个完全监督的语义分割模型。结果表明,我们的ECS-Net达到国家的最先进的性能。引用[1] Jiwoon Ahn,Sunghyun Cho,和Suha Kwak.具有像素间关系的实例分割的弱监督学习。在IEEE计算机视觉和专利识别会议上,CVPR 2019,长滩,加利福尼亚州,美国,2019年6月16日至20日,第2209-2218页。计算机视觉基金会/ IEEE,2019。7[2] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第4981-4990页。IEEE计算机学会,2018年。一、三、八[3] 艾米l Bearman,Olga Russakovsky,Vittorio Ferrari,and Fei-Fei Li.这有什么意义:带有点监督的语义分割。在巴斯蒂安·莱贝、伊日·马塔斯、尼库·塞贝、7292和Max Welling,编辑,计算机视觉- ECCV 2016- 第14届欧洲会议,阿姆斯特丹,荷兰,2016年10月11日至14日,会议记录,第七部分,计算机科学讲义第9911卷,第549施普林格,2016年。2[4] AdityaChattopadhyay , AnirbanSarkar , PrantikHowlader , and Vineeth N. Balasubramanian Grad-cam++:深度卷积网络的一般化基于梯度的视觉解释。在2018年IEEE计算机视觉应用冬季会议上,WACV2018,美国内华达州太浩湖日,第839-847页。IEEE计算机学会,2018年。6[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割Yoshua Bengio和Yann LeCun,编辑,第三届国际学习表征会议,ICLR2015,美国加利福尼亚州圣地亚哥,2015年5月 7日至9日,会议跟踪程序,2015年。1、8[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。Deeplab:使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。 IEEE Trans. 模式分析马赫内特尔,40(4):834-848,2018. 1、8[7] 陈丽怡,吴薇薇,付晨晨,韩晓,张运涛.具有边界探索 的 弱 监 督 语 义 分 割 。 在 Andrea Vedaldi , HorstBischof,Thomas Brox和Jan-Michael Frahm,编辑,计算机视觉-ECCV 2020-第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,会议记录,第XXVI部分,计算机科学讲义第12371卷,第347- 347362. Springer,2020年。七、八[8] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在VittorioFerrari , Martial Hebert , Cristian Sminchisescu 和 YairWeiss,编辑,计算机视觉- ECCV 2018 -第15届欧洲会议,德国慕尼黑,2018年9月8日至14日,Proceedings,第 VII , 计 算 机 科 学 讲 义 第 11211 卷 , 第 833-851 页Springer,2018. 5[9] 戴季峰、何开明、孙建。Boxsup:利用边界框来监督卷积网络进行语义分割。在2015年IEEE国际计算机视觉会议,ICCV 2015,智利圣地亚哥,2015年12月7-13日,第1635-1643页。IEEE计算机学会,2015年。2[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机协会计算机视觉和模式识别会议(CVPR 2009),2009年6月20- 25日,美国佛罗里达州迈阿密,第248-255页。IEEE计算机学会,2009年。5[11] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。pas- cal visual object classes ( VOC ) 挑 战 。 Int. J.Comput.目视,88(2):303-338,2010. 5[12] 放大图片创作者:Bharath Hariharan,Pablo Arbelaez,Lubomir D. Bourdev , Subhransu Maji , and JitendraMalik.语义轮廓7293从逆探测器。在Dimitris N. Metaxas 、 Long Quan、Alberto Sanfeliu和Luc Van Gool,编辑,IEEE国际计算机视觉会议,ICCV 2011,西班牙巴塞罗那,2011年11月6-13日,第991IEEE计算机学会,2011年。5[13] Seunhoon Hong,Donghun Yeo,Suha Kwak,HonglakLee,and Bohyung Han.使用网络抓取视频的弱监督语义分割。在2017年IEEE计算机视觉和模式识别会议上,CVPR 2017,檀香山,HI,美国,2017年7月21日至26日,第页 2224-2232.IEEE计算机学会,2017年。2[14] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第7014-7023页。IEEE计算机学会,2018年。7[15] Peng-Tao Jiang ,Qibin Hou , Yang Cao , Ming-MingCheng,Yunchao Wei,and Hongkai Xiong.通过在线注意力积累的整体对象挖掘。2019年IEEE/CVF国际计算机视觉会议,ICCV 2019,韩国首尔(南),2019年10月27日至11月2日,第2070IEEE,2019。7[16] Anna Khoreva 、 Rodrigo Benenson 、 Jan HendrikHosang、Matthias Hein和Bernt Schiele。简单做到:弱监督实例和语义分割。在2017年IEEE计算机视觉和模式识别会议,CVPR 2017,檀香山,HI,美国,2017年7月21-26日,第1665-1674页。IEEE计算机学会,2017年。一、二[17] Alexander Kolesnikov和Christoph H.蓝伯特种子、展开和约束:弱监督图像分割的三个原则。在BastianLeibe,Jiri Matas,Nicu Sebe和Max Welling,编辑,Computer Vision - ECCV 2016 - 14 th EuropeanConference,Amsterdam,The Netherlands,2016年10月11日至14日,Proceedings,第IV部分,第9908卷计算机科学讲义,第695施普林格,2016年。一、三、七、八[18] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和 Sungroh Yoon 。 Ficklenet : Weakly and semi-supervised se-mantic image segmentation using stochasticinference. 在 IEEE计 算机 视 觉和 模 式 识别 会 议上 ,CVPR 2019,长滩,加利福尼亚州,美国,2019年6月16日日,第5267-5276页。计算机视觉基金会/ IEEE,2019年。二、三、七[19] Di Lin,Jifeng Dai,Jiaya Jia,Kaiming He,and JianSun. Scribblesup:用于语义分割的Scribble-supervised卷积网络在2016年IEEE计算机视觉和模式识别会议,CVPR 2016,美国内华达州拉斯维加斯,2016年6月27-30日,第3159-3167页。IEEE计算机学会,2016年。一、二[20] GeorgePapandreou , Liang-ChiehChen , KevinMurphy , and Alan L. 尤 尔 。 用 于 语 义 图 像 分 割 的DCNN 的 弱 监 督 和 半 监 督 学 习 。 CoRR ,abs/1502.02734,2015。一、二[21] Deepak Pathak,Evan Shelhamer,Jonathan Long,andTrevor Darrell.完全卷积的多类多实例学习。YoshuaBengio和Yann LeCun,编辑,第三届国际学习表征会议,ICLR72942015 , San Diego , CA , USA , May 7-9 , 2015 ,Workshop Track Proceedings,2015. 2[22] 佩德罗·H. O. Pinheiro和Ronan Collobert。使用卷
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功