没有合适的资源?快使用搜索试试~ 我知道了~
稀疏注释的树能量损失用于语义分割
16907树能量损失:面向稀疏注释的语义分割梁志远1*王天才2张翔宇2孙建2沈建兵31北京理工大学2MEGVII Technology3澳门大学SKL-IOTSC摘要稀疏注释语义分割(SASS)旨在训练具有粗粒度(即,逐点、逐涂和逐块)监督,其中在每个图像中仅标记小比例的像素。在本文中,我们提出了一种新的树能量损失SASS提供语义指导未标记像素。树能量损失将图像表示为最小生成树,以模拟低级和高级成对仿射。通过顺序地将这些亲和度应用于网络预测,以由粗到细的方式生成未标记像素的软伪标签树能量损失是有效的,并且容易通过将其与传统分割损失相结合而被并入现有框架中。与以前的SASS方法相比,我们的方法不需要多阶段训练策略,交替优化过程,额外的监督数据,或耗时的后处理,同时在所有SASS设置中优于它们。代码可在https://github.com/megvii-research/TreeEnergyLoss获得。1. 介绍语义分割是计算机视觉的基本任务之一,其目的是为给定图像的每个像素分配一个以前的方法[4,18,25,26,36]倾向于利用大量的完全注释的标签,如图11。(2)达到满意的效果。然而,人工注释这种高质量的标签是劳动密集型的。为了降低注释成本并保持分割性能,最近的一些工作研究了具有稀疏注释的语义分割,例如逐点注释[2]和涂鸦注释[17]。如图2(c-d)所示,逐点注释为每个语义对象分配一个*这项工作是在MEGVII Technol- ogy实习期间完成的。本研究得到了国家重点发展计划(2020AAA0105200)和北京人工智能研究院(BAAI)的资助。通讯作者:沈建兵.电子邮件地址:shenjianbingcg@gmail.com(a) 辅助任务(b) 伪提案(c) 正规化损失(d) 一致性学习(e) 我们的树木能量损失图1.当前SASS方法的说明S和E分别表示分割模型和辅助模型。我们的方法利用最小生成树(MST)来捕获低级和高级亲和力,以生成软伪标签,进行在线自训练。单像素标签,而涂鸦式注释至少为对象绘制涂鸦标签。如图1(a-d)所示,现有方法主要基于辅助任务、伪提议、规则化损失和一致性学习来解决SASS。然而,这些方法都存在一些不足. 来自辅助任务[15,34,35]的预测误差可能会阻碍语义分割的性能。亲一代[17,39,42]是耗时的,通常需要多阶段的培训策略。正则化16908(a)图像(b)完整(c)点(d)涂鸦(e)块图2.用于语义分割的不同类型的训练注释。背景类用黑色注释。损失[20,21,29,30,32]忽略了视觉信息和高级语义之间的域间隙,一致性学习[3,13,22,24,44,45]未能直接监督类别级别的未标记像素。在本文中,我们的目标是减轻这些缺点,并介绍了一个简单而有效的解决方案。在SASS中,每个图像可以被划分为标记区域和未标记区域。标记区域可以直接由地面真值监督,而如何从未标记区域学习是一个悬而未决的问题。对于同一对象的区域,标记和未标记的像素在低级颜色(图像的RGB值)和高级响应(由CNN产生的特征)上共享相似的模式。在SASS中利用这种相似性是直观的。受树过滤器[1,41]的启发,该过滤器可以利用其结构保持属性对成对相似性进行建模,我们利用该属性为未标记区域生成软伪标签并实现在线自训练。具体来说,我们引入了一种新的树能量损失(TEL)的基础上的低级别和高级别的图像相似性( 见 图 1 (e ) ) 。 在 TEL中 , 两 个最 小 生 成 树(MST)分别建立在低级别的颜色和高级别的语义特征。每个MST是通过依次消除相异性大的相邻像素之间的连接来获得的,因此分离出相关性较小的像素,并保留像素之间的本质关系。然后,通过沿着MST累积边权重获得的两个结构感知的亲和矩阵以级联方式与网络预测相乘,产生软伪标签。最后,将生成的伪标签分配给未标记的区域。将TEL与标准分段损失(例如,交叉熵损失),任何分割网络都可以通过动态在线自训练从未标记区域学习额外的知识。为了全面验证TEL的有效性,我们通过引入逐块注释设置(参见图2(e))来进一步丰富SASS场景,其中注释的量位于完整和可涂写设置之间这样,我们可以将SASS分为三个级别,即,点,涂鸦,和块。实验结果表明,TEL可以显着提高分割性能,而不引入额外的计算成本在推理。配备最新的分割网络,我们的方法可以达到最先进的性能在不同的注释设置下。主要贡献归纳如下。我们提出了一种新的树能量损失(TEL)的SASS。TEL利用最小生成树来建模像素之间的低级和高级结构关系。一个cas- caded过滤操作,进一步介绍了动态生成软伪标签从网络预测的粗到细的方式。TEL是干净的,很容易插入到大多数现有的细分网络。为了进行验证,我们进一步引入了SASS的块注释集。我们的方法优于点,涂鸦和块注释设置下的最2. 相关作品稀疏注释的语义分割:稀疏注释的语义分割旨在用粗粒度的注释数据训练分割模型。以往的工作主要集中在点级和笔级的监督。What它将目标先验、图像级监督和点级监督结合到损失函数中。PDML [24]提出了基于点的距离度量学习来对图像之间的类别内和类别间关系进行建模。WeClick[19]利用视频序列的时间信息,并从更复杂的模型中提取语义知识。研讨会[3]通过基于EMA的教师模型介绍研讨会学习。为了缩小与完全注释方法的性能差距,出现了越来越多的涂鸦注释语义分割方法。ScribbleSup [17]构建了一个图形模型,以交替传播涂鸦注释并学习模型参数。RAWKS [34]和BPG[35]采用边缘检测器来逐步改进预测,以获得更清晰的语义边界。A2 GNN [42]混合了多级监督,并使用图神经网络解决了分割问题。PSI [39]利用多阶段语义特征来逐步推断预测和伪标签。URSS [22]通过随机游走学习减少分割模型的不确定性,再加上自监督学习策略。为了捕获标记和未标记像素之间的关系,提出了各种正则化损失[20,21,29,30]。这些方法使用低水平(即,空间和颜色)信息-16909ℒ������������(稀疏标签ℒ������������你知道吗,你知道树亲和性生成级联滤波PS eudolabel电子邮件图3.所提出的单级SASS方法的流程图,该方法通过将辅助分支并入传统分割模型S(·)。在训练过程中,预测的掩码P被分成标记和未标记的部分,它们分别由分割损失Lseg和树能量损失L树监督。为了获得用于未标记像素的伪标记,树亲和性生成过程(Eqs. 3-5 )首先利用颜色信息I和语义特征F来生成低级和高级亲和度矩阵Alow、Ahigh。然后,级联滤波操作(等式6-7 )将网络预测P转换成软伪标签Y~。在测试过程中,辅助分支被移除以避免额外的计算成本。图像和训练模型分两个阶段。在第一阶段中,分割模型仅使用分割损失进行训练。然后在第二阶段采用正则化损失对模型进行微调。树过滤器:对成对关系建模对于许多计算机视觉任务都很重要。将图像看作一个无向平面图,其中所有的节点都是像素,相邻节点之间的边通过外观不相似度进行加权,根据实质权去除边,可以构造最小生成树(MST). 由于相邻像素之间的梯度可以被视为对象边界的强度,节点倾向于优先地在树上的同一对象内彼此交互。由于MST的结构保持属性,传统的树过滤器应用于立体匹配[40,41],显著对象检测[33],im-seo [34],[27][28][29]最近,LTF [26]提出了一种可学习的树过滤器来捕获语义分割的长期依赖关系。LTF- V2 [25]结合了可学习树滤波器和马尔可夫随机场[16],以进一步提高性能。3. 方法在本节中,我们首先强调我们在SEC中的动机。第3.1条然后,在第二节中介绍了将传统分割损失与提出的树能量损失(TEL)相结合的总体架构。3.2.之后,我们在第二节中描述了TEL的细节。三点三最后,我们讨论的主要区别,从以前的相关工作在第二节。三点四分。3.1. 动机SASS任务旨在训练具有粗粒度(即,逐点、逐涂或逐块)标记,其中大多数像素的注释在训练期间是不可见的在SASS中,整个图像可以被分离分为两部分:标记集合L和未标记集合U。对于标记集EML,可以简单地使用相应的地面真值进行训练。而传统的语义切分框架往往忽略了语义切分单元,导致性能下降。本文旨在为SASS提供一种简单而有效的解决方案由于属于同一对象的像素在不同的特征级别上共享相似的模式,因此我们利用这些相似性来提供对PNUU中未标记像素的额外监督。受树过滤器[1,26,41]的启发,我们基于其结构保持特性对这种成对相似性进行建模。成对相似性与网络预测一起用于为未标记的像素生成软伪标签。结合神经网络的监督学习,构建了一个在线自训练框架,在训练过程中实现了网络预测和伪标签的逐步改进。3.2. 整体架构图3示出了我们的方法的整体架构,其由用于标记像素的分割分支和用于未标记像素的辅助分支组成。分割分支将稀疏注释的标签Y分配给标记的像素。对于辅助分支,从原始图像I和嵌入特征F生成成对亲和矩阵Alow 、Ahigh 。 然后使用亲和矩阵Alow、Ahigh来细化网络预测P并生成软伪标签Y 。生成的软标签被分配给未标记的像素。因此,整体损失函数包括分割损失Lseg和树能量损失Ltree,L=Lseg+λLtree,(1)其中λ是两个损耗的平衡因子。 通过共同弥补两个损失,可以获得互补的知识16910i、j低的,低的初始图MST亲和基质的图表。我们用Bor uvka算法[9]构造低级和高级MST。 基于MST的拓扑结构,同一对象内的顶点共享相似的特征表示,并且倾向于彼此优先交互。图4.树亲和性生成的过程首先在给定的低级颜色或高级语义特征上构建初始图,然后通过边缘修剪算法[9]获得MST在MST上,两个顶点之间的距离是通过沿它们的超边的边权重之和来计算的。一个例子用红色虚线表示最后,亲和投影是与[26,41]类似,两个顶点之间的距离MST可以通过它们的连接边的加权求和来计算顶点之间的最短路径的距离,表示为超边E,形成MST的距离图Σ将距离图投影到亲和矩阵中。通过整个分割网络学习对于L区,∗i、j∗j,i=(k,m)∈E∗k,m、(四)我们遵循以前的工作[19±21,29,30],并制定它作为部分交叉熵损失:其中i,j,k和m是顶点索引,k ∈ {low,high}。为了捕捉顶点之间的长程关系,我们1Lseg=− |Ω|ΣYilog(Pi),(2)将距离映射投影到正亲和矩阵,.Σ= exp−D/σ,Li∈L高= exp.Σ− D高 、(五)其中Pi和Yi是网络预测,在位置i.至于拟议树,它将在下一节中介绍。3.3. 树木能量损失给定具有稀疏注释的训练图像,TEL学习为未标记的像素提供类别指导。TEL主要包括以下三个步骤:(1)树亲和度生成步骤,用于对成对关系进行建模。(2)级联过滤步骤,用于生成伪标签。(3) 软标签分配步骤,用于为其中σ是用于调制颜色信息的预设常数值。给定一个训练图像,在训练过程中,低级别亲和度Alow是静态的,而高级别亲和度Ahigh是动态的。它们在不同的特征级别上捕获成对关系。通过共同利用它们,可以学到互补的知识。级联过滤。由于低级亲和矩阵Alow包含对象边界信息,而高级亲和矩阵Ahigh保持语义一致性,因此我们引入级联过滤策略来生成对象边界信息。来自网络预测的伪标签Y未标记的像素。在这里,我们将详细介绍TEL。树亲和性生成。图像可以表示为无向图G=(V,E),其中顶点集VY=F.ΣF(P,A低),A高、(6)由所有像素组成,并且两个相邻顶点之间的边构成边集合E。如图4所示,我们采用4连通平面图的架构,其中每个像素与多达4个相邻像素相邻。设顶点i和顶点j在图上相邻,它们之间的低级和高级权函数可以是其中P是softmax操作后的预测。 通过通过与低级和高级亲和度连续相乘,可以以从粗到细的方式细化网络预测,从而产生高质量的软伪标签。过滤操作F(·)表示如下:∗1Σ ∗分别定义为ω低= ω低= |I(i)−I(j)|二、F(P,A)=zij∈Ai,jPj,(7)i、jj,i(三)其中e=LU是所有像素的全集,并且ω高= ω高= |F(i)−F(j)|二、z=A是归一化项。要加快i、jj,iiji,j其中I(i)∈R3×h×w和F(i)∈R256×h×w分别是像素i的RGB颜色和语义特征h和w是下采样的输入图像的高度和宽度F(i)由1×1卷积层从分割模型的分类层之前的特征一旦得到边的权值,就可以通过从E中顺序移除具有最大权值的边来构造MST,同时确保连通性计算Eq. 7、我们采用高效的执行方式在LTF [26]中实现线性计算复杂度。如图5所示,通过级联过滤生成的伪标签可以通过考虑结构信息来保留比原始预测更清晰的语义由于语义边界对于稀疏标注中的语义分割具有重要意义,因此可以通过为未标记像素分配伪标签来提高分割模型的性能。边缘修剪亲和力投影D=Dω16911(a)(b)(c)第(1)款(d)(e)(f)图5.网络预测的可视化在我们的训练框架中对应的伪标签(a)输入图像。(b) 稀疏注释。(c)完整注释。(d)网络预测。(e)使用低级别亲和力生成的初始伪标签。(f)最终的伪标签生成与多层次的亲和力。软标签分配。现在我们获得了伪标签,TEL被设计用于软伪标签分配:Ltree=δ(P,Yt),(8)其中δ是标签分配函数,其测量预测概率P和伪标签Y 之 间 的 距 离 。δ的一些自然选择可以是L1距离、L2距离等,我们根据经验选择L1距离作为标签分配函数。关于δ的消融,请参见第4.4以这种方式,TEL的最终形成描述如下,4. 实验4.1. 数据集和注释数据集。Pascal VOC 2012 [8]包含20个对象类别和一个背景类。根据之前的方法[3,22,30,39],使用具有10,582个训练和1,449个验证图像的增强数据集[11城市景观[6]是为城市场景而建的它由2,975,500,1,525个精细标记的图像组成,数据集中共有30个带注释的类,其中19个用于语义分割。ADE20k [43]是一个具有挑战性的基准测试,包含150个细粒度类。它收集了20,210,2,000和3,352张图像用于训练,验证和测试。注释。对于点监督和涂鸦监督设置,分别使用PascalVOC 2012数据集的逐点注释[2]和涂鸦注释[17对于块监督设置,我们合成了Cityscapes和ADE 20k数据集上的块注释。特别地,给定完整的注释,我们从语义边缘到内部区域依次去除标记像素,直到剩余标记像素的比例达到预设阈值。在我们的补充材料中可以找到合成块式符号的例子。4.2. 实现细节我 们 采 用 三 种 流 行 的 语 义 分 割 模 型 ( 即 ,DeeplabV3+ [5],LTF [26]和HRNet [28])用于实验。在ImageNet [7]数据集上预训练的ResNet-101 [12]和HR-NetW 48 [28]被用作骨干网络。对于数据增强,随机hor-L树1=−|简体中文|Σi∈|Pi -Yi|.(九)在[0. 五二[0]、随机裁剪和[-10,10]中的随机亮度。输入分辨率为512×512、1024×512和512×512,请注意,TEL仅关注未标记的区域,因为标记的区域是通过明确的准确监督学习的。我们的TEL不是从稀疏注释中生成伪标签,而是从网络预测中生成软标签。因此,数据驱动的模型学习过程将有利于我们的在线自我训练策略。3.4. 讨论树型滤波器由于其结构保持的特性,在许多视觉任务中得到了应用。先前的方法将树滤波器应用于原始图像以进行图像平滑[1]和立体匹配[41],或者将中间特征应用于特征变换[25,26]。我们的方法受到这些作品的启发,但目的完全不同。我们捕获低级别和高级别的亲和力,并将它们应用于网络预测,用于SASS中的软伪标签生成,实现单阶段动态在线自训练。据我们所知,这是第一次,树过滤器在解决SASS问题。Pascal VOC 2012、Cityscapes和ADE20k数据集,重新发布。相应的初始学习率为0。001,0。01和0。02.SGD优化器的动量为0。9,使用权重衰减1e-4多项式时间表。Pascal VOC 2012、Cityscapes和ADE 20k数据集的总训练迭代分别为80k、40k和在我们的实践中,我们设置λ= 0。4在Eq. 1.一、在Eq. 5,设σ =0。02,并且σ= 0。002在Cityscapes和ADE 20k数据集中,由于语义类别的低级别外观多样性所有实验都在Pytorch [23]上进行,使用4个Tesla V100(32G)GPU。4.3. 与现有技术方法的点式监督。点监督语义分割是SASS中的极端设置有什么[2]提供了Pascal VOC 2012数据集的逐点注释。然而,它只标记前景类,而缺乏背景类的注释。关注-16912方法骨干出版物监督多级备选. 选购配件额外数据CRFMiou(1)DeeplabV2 [4]VGG16TPAMI'17充分---✓71.6(2)DeeplabV2 [4]ResNet101TPAMI'17充分---✓77.7(3)DeepLabV3+[5]ResNet101ECCV'18充分----80.2(4)LTF [26]ResNet101NeurIPS'19充分----80.9What(一)ECCV'16点----43.4[30]第三十话(二)ECCV'18点✓--✓57.0A2 GNN [42](二)TPAMI'21点✓--✓66.8会议室[3](三)ICCV'21点✓---72.5SPML [13](二)ICLR'21点--✓✓73.2电话(三)CVPR'22点----64.9电话(四)CVPR'22点----68.4电话w. 研讨会(三)CVPR'22点✓---74.2[17]第十七话(一)CVPR'16Scribble✓✓-✓63.1[29]第二十九话(二)CVPR'18Scribble✓--✓74.5[30]第三十话(二)ECCV'18Scribble✓--✓75.0[30]第三十话(二)ECCV'18Scribble✓--✓75.0[20]第二十话(二)ICCV'19Scribble✓✓--72.8BPG [35](二)2019年中国国际汽车工业展览会Scribble--✓-76.0SPML [13](二)ICLR'21Scribble--✓✓76.1URSS [22](二)ICCV'21Scribble✓--✓76.1PSI [39](三)ICCV'21Scribble-✓--74.9会议室[3](三)ICCV'21Scribble✓---76.2A2 GNN [42](四)TPAMI'21Scribble✓--✓76.2电话(三)CVPR'22Scribble----77.1电话(四)CVPR'22Scribble----77.3表1.在Pascal VOC 2012验证集上的点注释和涂鸦注释语义分割方法的实验结果。多阶段训练的实验设置(Multi-stage),交替优化(Alt.可选),考虑训练期间的额外监督数据(额外数据)和测试期间的CRF后处理(CRF)。前两个结果以蓝色和红色突出显示。在以前的作品[3,21]中,我们采用了Scrib-bleSup [17]中的scribble注释中的逐点背景注释。实验结果报告于表1中1.一、当配备DeeplabV3+时,我们的基线采用部分交叉熵损失可以产生58.5%的mIoU。与我们的基线相比,细分模型实现了6.4%的mIoU改进。实验结果表明,该方法是有效的,易于插入到现有的分割框架。在最近的方法中,Seminar [3]与半监督平均教师方法[31]具有类似的工作流程我们将我们的方法应用于研讨会,用建议的TEL替换DenseCRF损失这表明TEL可以带来额外的1.7% mIoU改进,并实现最先进的性能。涂鸦式的监督。如Tab.所示。1.所提出的TEL可以应用于单阶段训练框架,并且在训练期间不需要额外的监督数据或在测试期间不需要CRF后处理。Scrib-bleSup [17]提出了一种替代方案生成和模型训练方法,并实现了63.1%的mIoU。到为了获得更高的性能,通过从低层图像信息中挖掘成对关系来设计正则化损失。BPG [35]和SPML [13]利用边缘检测器(即,预训练的HED方法[38])用于语义边缘生成和过分割。然而,需要额外的监督数据来学习边缘检测器。在最近的所有方法中,A2GNN取得了最好的性能.该算法首先通过混合多层次监督生成种子标签,然后利用亲和注意图神经网络对种子标签进行细化。最后,采用CRF后处理。与A2GNN相比,我们的方法可以以单阶段的方式进行训练,同时在没有任何后处理的情况下将其性能提高1.1% mIoU。图6显示了Pascal VOC 2012数据集的一些定性结果。虽然标注是相当稀疏的,我们的方法可以利用标记和未标记区域之间的结构信息,并生成具有精细语义边界的有前途的掩模。块明智的监督。为了进一步评估TEL的鲁棒性,我们进行了额外的实验与块式注释。注意Pascal VOC2012数据集16913Δλ = 7.3%Δθ = 5.6%由于在精确度计算中通常忽略接近语义边界的像素预测(如图2(b)所示),因此相对容易,因此我们求助于Cityscapes和ADE 20k数据集。为了评估不同稀疏度下的性能,我们在三个不同的级别上生成了分块注释,包括10%,20%和50%的完整标签。100%的比率表示完全注释的设置,其作为SASS方法的上限。基线是仅用部分交叉熵损失训练的分割网络。我们将我们的TEL与最先进的DenseCRF损失[30]进行比较,并在表中报告结果。二、对于所有块注释的设置,我们使用论文中报告的DenseCRF Loss的默认超参数,与基线相比,它实现了更高的准确性。然而,性能改进相对有限。建议的TEL捕获低级别和高级别的关系,并优于密集CRF损失在所有块监督设置。4.4. 消融研究我们对TEL进行全面的消融研究。除非另有说明,否则报告了Pascal VOC 2012数据集上DeeplabV3+的scribble-supervised结果。损失形成。TEL学习为未标记的像素分配软标签。对Eq. 8是进行评估的有效性电话。基线模型在部分交叉熵损失的情况下达到了68.8%如Tab.所示。如图3a所示,可以通过不同形式的TEL来改善性能。其中,L1距离达到了最好的结果,为77.1%的mIoU,因此我们选择它作为我们的TEL的最终实现。亲和度TEL利用低级和高级结构信息两者来为未标记的像素生成伪标记。为了评估其有效性,我们在表中进行消融研究。3b.与基线相比,引入低级和高级信息可以分别实现7.5%和3.1%的mIoU改进。采用这两种方法,我们的方法实现了77.1%的mIoU,比基线高8.3%。亲和力生成。TEL捕获低级和高级结构信息以生成等式中的亲和五、如Tab.所示。3c,我们比较了不同的成对亲和力生成方法,包括用于低水平亲和力的双边滤波器(BF)和用于高水平亲和力的非局部操作(NL)。采用BF [30]和NL [37]的实现。我们的方法generates亲和矩阵的基础上的MST。与BF方法相比至于高水平的亲和力,我们的方法比NL高出1.7%。这些结果证明了TEL在低水平和高水平亲和力生成中的有效性亲和力聚集。 如何将多层次的信息聚合在一起--像点超级scribble up.地面实况图6.在Pascal VOC 2012数据集上提出的TEL的定性结果重点是。还有涂鸦分别指示点和涂鸦监督图7.在训练过程中,对网络预测和未标记区域中的软伪标记进行定性评估。Cityscapes上的20%块式注释的结果被示出。“TELpred”和“TEL软标签”是网络预测和TEL模型的生成的伪标签。CROP表示基线训练框架和建议的TEL框架之间的精度差异。分割网络可以通过将TEL结合到基线中来学习额外的知识。形成对于伪标记生成是重要的我们构造不同的变体的TEL的聚合策略的基础上。如Tab.所示。3d,LH-P表示平行聚集的变体。在这种情况下,低级和高级亲和矩阵分别与网络预测相乘与并行聚合策略相比,级联聚合策略将网络预测与多级亲和矩阵逐一合并,以顺序地细化伪标签在级联策略中,我们发现首先聚合低级别信息(表示为LH-C)比首先聚合高级别信息(表示为HL-C)的变体获得更好的结果。低级亲和度是从静态颜色信息生成的16914模型骨干方法城市景观ADE20k10% 20% 50% 100% 10% 20% 50% 100%基线52.858.668.878.230.233.137.242.5HRNetHRNetW48[30]第三十话57.461.870.9-31.933.838.4-电话61.966.972.2-33.835.540.0-基线48.452.860.580.230.833.436.644.6DeeplabV3+ResNet101[30]第三十话55.661.569.3-31.234.037.4-电话64.867.371.5-34.336.039.2-表2. Cityscapes和ADE 20k验证集上块级注释的单阶段训练结果。(a) 在Eq. 8.(b) 在TEL中的低水平和高水平亲和力的影响。(c) 基于不同层次图像信息的亲和度生成方法的影响变体LH-PHL-CLH-Cλ0.1 0.2 0.3 0.4 0.5σ0.010.020.030.04 0.05Miou76.475.877.1Miou74.976.076.477.1七十七点零Miou76.677.176.877.0 76.3(d) 亲和力聚集策略的影响(e) 等式中λ的有效性评估1.一、(f) 方程中σ的有效性评价。五、表3.拟定TEL的消融研究我们在scribble注释上进行训练,并在Pascal VOC 2012验证集上进行测试信息,这可能由于低级颜色和高级类别信息之间的不一致而带来噪声对可学习的高层次亲和度进行分类可以提高语义一致性。超参数。我们评估我们的方法的超参数,包括等式中的λ。1和方程中的σ。五、λ是平衡分段损失和TEL的因子。结果报告在表1中。3e,我们选择λ=0.4作为我们的TEL。σ是低级别亲和矩阵投影的归一化项我们评估了σ的影响,并在表1中报告了结果。3楼σ的值对分割精度不敏感,并且在Pascal VOC 2012数据集上当σ等于0.02时获得最高mIoU伪标签的质量。我们评估Cityscapes数据集上未标记像素的伪标签的质量。基线细分模型是HRNet。如图7所示,对于使用TEL学习的模型,伪标签的精度高于训练过程开始时的网络预测,这为模型学习提供了重要指导。随着迭代次数的增加,预测和伪标记之间的精度差距逐渐缩小,而两者的性能一直在提高。与基线相比,TEL可以帮助分割模型从未标记的数据中学习额外的知识,并实现性能提升(在训练期间从5.6%提高到7.3% mIoU)。4.5. 限制本文提供了一个简单而有效的解决方案,SASS和实现国家的最先进的性能。然而,它也有一些局限性。 首先,从静态图像生成低级别的亲和度,这可能会在伪标签中带来噪声。例如,具有不同类别的对象可以具有相似的颜色信息。第二,TEL忽略了伪标签和稀疏地面真值之间的内在关系。从噪声标签学习[10]和[20]等替代优化器分别是解决这些问题的可能解决方案。5. 结论本文提出了一种新的树能量损失(TEL)稀疏注释的语义分割。TEL通过最小生成树捕获低层和高层结构信息,为未标记像素生成软伪标记,然后动态地进行在线自训练。TEL是有效的,易于插入到大多数现有的语义分割框架。配备了最新的分割模型,我们的方法可以以单阶段的方式学习,并且在点,涂鸦和块式注释设置中优于最先进的方法,而无需改变优化程序,额外的监督数据或耗时的后处理。形成方程Miou信息方法Miou低级BF75.0MST76.3(+1.3)交叉熵--- Σ-P TYΣ2|P−Y|Σ|P−Y|76.0点积76.6L2距离75.1L1距离77.1高级别NL70.2MST71.9(+1.7)低级高级别Miou68.8✓76.3(+7.5)✓71.9(+3.1)16915引用[1] Linchao Bao , Yibing Song , Qingxiong Yang , HaoYuan,and Gang Wang.树过滤:使用最小生成树的高效结构保持平滑。TIP,23(2):555± 569,2013。二三五[2] Amy Bearman,Olga Russakovsky,Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV,2016年。一、二、五、六[3] 陈鸿钧、王金宝、陈洪才、郑仙童、冯征、冀蓉蓉、凌少。用于点击级弱监督语义分割的研讨会学习。ICCV,2021。二、五、六[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI,40(4):834±848,2017年。1、6[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。五、六[6] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。5[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。CVPR,2009。5[8] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 IJCV , 88 ( 2 ) :303±338,2010. 5[9] Robert G. Gallager,Pierre A. Humblet,and Philip M.斯皮拉最小权生成树的分布式算法。TOPLAS,5(1):66±77,1983. 4[10] Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,MiaoXu,Weihua Hu,Ivor Tsang,and Masashi Sugiyama.合作教学:对带有非常嘈杂标签的深度神经网络进行鲁棒训练。NeurIPS,2018。8[11] Bhara t hHariharan,PabloArbel aez,LubomirBourdev,Subhransu Maji,and Jitendra Malik. 从反向检测器的语义轮廓见ICCV,2011年。5[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。5[13] Tsung-Wei Ke,Jyh-Jing Hwang,and Stella X Yu. 通过像素到片段对比学习的通用弱监督分割。ICLR,2021年。二、六[14] 古贺孝纪末武纪明基于最小生成树空间填充曲线的结构上下文保持图像抽象。载于ICIP,2011年。3[15] Jae-Hun Lee,ChanYoung Kim,and Sanghoon Sull.带点标记的小建筑物弱监督分割ICCV,2021。1[16] 斯坦·李。计算机视觉中的马尔可夫随机场模型。在ECCV,1994年。3[17] Di Lin,Jifeng Dai,Jiaya Jia,Kaiming He,and JianSun. Scribblesup:用于语义分割的Scribble-supervised卷积网络。在CVPR,2016年。一、二、五、六[18] Chenxi Liu , Liang-Chieh Chen , Florian Schroff ,Hartwig Adam,Wei Hua,Alan L Yuille,and Li Fei-Fei.Auto-deeplab:用于语义图像分割的分层神经架构搜索在CVPR,2019年。1[19] Peidong Liu,Zibin He,Xiyu Yan,Yong Jiang,Shu-Tao Xia,Feng Zheng,and Hu Maowei.Weclick:带点击注释的弱监督视频语义分割在ACM MM,2021年。二、四[20] Dmitrii Marin,Meng Tang,Ismail Ben Ayed,and YuriBoykov.超越正则化分割损失的梯度下降。在CVPR,2019年。二四六八[21] Anton Obukhov、Stamatios Georgoulis、Dengxin Dai和Luc Van Gool。弱监督语义图像分割的门控crf损失。arXiv预印本arXiv:1906.04651,2019。二、四、六[22] 潘志毅,江鹏,王云海,涂长河,安东尼·科恩。通过减少神经表示的不确定性和神经特征空间的自我监督来进行手写监督语义分割。ICCV,2021。二、五、六[23] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKilleen , Zeming Lin , Natalia Gimelshein , LucaAntiga , et al. Pytorch : An imperative style , high-performance deep learning library. NeurIPS,2019。5[24] Rui Qian, Yunchao Wei , Honghui Shi , Jiachen Li ,Jiaying Liu,and Thomas Huang.基于点的距离度量学习的弱监督场景解析。在AAAI,2019年。2[25] Lin Song, Yanwei Li , Zhengkai Jiang, Zeming Li ,Xiangyu Zhang,Hongbin Sun,Jian Sun,and NanningZheng.重新思考用于通用特征变换的可学习树过滤器在NeurIPS,2020年。一、三、五[26] Lin Song,Yanwei Li,Zeming Li,Gang Yu,HongbinSun,Jian Sun,and Nanning Zheng.用于结构保持特征变换的可学习树过滤器。NeurIPS,2019。一、三、四、五、六[27] 让·斯塔瓦斯基和费托·迈耶。最小生成树自适应图像滤波。载于ICIP,2009年。3[28] Ke Sun,Yang Zhao,Borui Jiang,Tianheng Cheng,Bin Xiao,Dong Liu,Yadong Mu,Xinggang Wang,Wenyu Liu,and Jingdong Wang.用于标记像素和区域的高分辨率表示。arXiv预印本arXiv:1904.04514,2019。5[29] Meng Tang , Abdelaziz Djelouah , Federico Perazzi ,Yuri Boykov,and Christopher Schroers.弱监督cnn分割的归一化割损。在CVPR,2018年。二、四、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功