没有合适的资源?快使用搜索试试~ 我知道了~
单阶段弱监督语义分割方法及其在各类复杂场景中的性能提升
5954CRAID复杂场景的单阶段弱监督语义分割罗格斯大学电子邮件:rutgers.edu罗格斯大学kristin. rutgers.edu摘要获得语义分割标签的昂贵过程已经推动了对仅使用图像级、点或框标签的弱监督语义分割(WSSS)方法的研究。这样的注释引入了限制和挑战,导致在特定领域或场景类型中专用的过度调优的方法基于图像级的方法对生成高质量类激活图(CAM)的过度此外,缺乏密集的注释需要增加网络复杂性的方法来获得额外的语义信息,通常通过多个阶段的训练和细化来完成在这里,我们提出了一种可推广到各种数据集复杂性的单阶段方法,可以从头开始训练,而不依赖于预先训练的骨干,分类或单独的细化任务。我们利用点注释,通过细化和空间过滤功能生成可靠的,即时的伪掩模。我们将在基准数据集(PascalVOC 2012)上展 示 SOTA 性 能 , 并 在 最 近 的 真 实 世 界 数 据 集(CRAID,CityPersons,IAD,ADE20K,CityScapes)上显著优于其他SOTA WSSS方法,与我们的单阶段和多阶段基线相比,性能分别提高了28.1%和22.6%。1. 介绍语义分割的基本计算机视觉任务寻求将类别标签分配给给定输入图像中的特定像素。深度学习方法的快速发展已经在语义分割算法的性能[1,2]、稳定性[3]和可访问性[4,5]方面取得了重大进展,这些算法经常出现在现实世界的应用中,例如自动驾驶汽车[6]、精密农业[7]、医疗诊断[8]、图像恢复和编辑[9]。体育[10]和遥感[11,12]。虽然这样的算法提供了关于场景的有见地的信息,但它需要大量的逐像素标记的数据[13,14],这通常是昂贵的和耗时的。图1:场景复杂性定性说明常见的数据集相对于复杂性参数计数,规模和多样性.目前SOTA主要只探索紫色突出显示区域内的数据集,主要报告以对象为中心的数据集Pascal VOC 2012。这项工作的目的是扩大适用的场景复杂度范围(灰色突出显示)的WSSS。最好的颜色和缩放查看收藏[15]。为了减轻这一要求,最近的努力集中在使用图像级[16,17,18,19],中心点的[15,20]、涂鸦[21,22]或边界框[23]标签。在确定需要哪种注释时,图像级注释的产生可能是便宜的,但是不能推广到复杂场景,并且需要更复杂的多级网络,这对于现实世界的应用是不实用的另一方面,逐像素的注释作为前期成本可能太在这项工作中,我们根据三个主要参数定义场景的复杂性:多样性、规模和数量。多样性衡量数据集的同质性,例如血细胞数据集是同质的,而ImageNet [24]则更加多样。Scale测量图像中对象出现的平均面积,Count测量对象出现在给定图像中的平均频率。我们认为场景复杂时,它是在极端两端的范围内的两个参数或更多。例如,复杂的场景可能有许多CRAID城市景观ADE20KOpen ImagesImageNetCoco城市景观Pascal VOCMNISTCityPersonsCIFAR-10CRAIDADE20KPascal VOC 2012INRIA上海科技5955同一对象的小实例,或者它们可能有许多不同的对象。这些参数与示例数据集的可视化如图所示。1.一、当前SOTA方法用不同的方法解决不同水平的复杂性。高计数或多样化分割的更复杂任务需要点,边界框或像素注释[25,26,27,28],而以对象为中心的分割[29,30]可以单独使用图像级标签实现。这导致过度调整的方法在其分布式场景复杂性之外的场景上遭受显著的性能下降。更具体地说,基于图像级的方法依赖于类激活图(CAM)[31,32,33]来获得场景中对象的像素覆盖和定位CAM是从预训练分类过程中生成的特征,并且通常是有噪声的,并且在理想的复杂度条件下仅覆盖对象的最有区别的部分然而,一旦对象计数增加,对象规模减小,和/或类多样性变化,CAM的质量显着下降,往往超出效用[16]。即使当仅改变一个参数时,诸如具有很少(或二进制)对象标签(低多样性)的图像,分类预训练过程也变得太容易,并且虽然所得到的粗CAM(来自图像级标签)足以用于分类,但是它们不足以用于定位和/或分割,因此产生差的伪掩模。 因此,基于SOTA图像级的方法仅关注图1中所示的突出显示的复杂度范围内的数据集 。 1 , 很 少 关 注 更 复 杂 的 语 义 分 割 数 据 集 , 如ADE20K [13]或CityScapes [34]。另一方面,使用点监督的当前方法对对象规模[35,36]或数据集多样性[20,37]进行了强隐式假设。在这里,我们提出了一种方法,显着增加了适用的数据集复杂性范围,而无需作出强有力的假设。增加我们方法的通用性和适用性的另一个因素随着分割[19,38,39]、姿态估计[19,38,39]、信息[40,41],对象检测[42,43,44,45,46],图像检索[47]和图像生成[48]。为了理解为什么这对我们的任务很重要,我们考虑了常见的基于图像级的WSSS方法,管道和由此产生的弱点。基于图像级的方法通常需要计算上昂贵的阶段,诸如训练多个网络、区域建议生成和细化。这些方法被称为多阶段WSSS,因为它们在执行最终推理之前包括多个阶段的训练和评估。这样的多阶段要求使得适应新的数据集更加困难。数据分布的任何变化都需要付出巨大的努力,在线学习[45,49]等方法变得越来越重要。实际适应。此外,整个方法需要多级流水线中的所有元件工作,并且单个模块故障可能影响整个系统。例如,在低多样性场景上的预训练阶段(即,训练用于CAM生成的分类器)的失败将导致整个系统表现不佳,即使细化模块在那些复杂度参数下提供效用。相比之下,我们的方法消除了对先前预训练和细化任务的依赖性,在单阶段方法中实现了有竞争力的性能。本文提出了一种多功能的单阶段WSSS方法,适用于大范围复杂的数据集,独立于对象数量、规模或数据集多样性。我们的方法可以在单个阶段中训练,而无需单独的预训练,细化或评估阶段,使其在应用程序驱动的系统中具有灵活性和可扩展性我们选择使用点注释,因为虽然在注释时间上每个图像仅花费额外的2秒(20.0秒/图像,而PascalVOC [15]的平均值为22.1秒/图像该方法包括两个主要的新颖的贡献。首先,一个点生成器模块,它使用基本的直觉将几个点转换为许多点:给定一个用户定义的物点,对另一个物点进行采样的任务并不困难.事实上,图像分割中随机游走的经典工作可以重新制定这个问题。我们的方法是一个点扩增迭代散射原始点的小仿射扰动,然后随机游走。通过这种迭代分散然后行走过程获得的点集被称为点印迹,类似于墨迹。与原始点点击相比,所得到的点印迹具有显著更多的实用性,并且完全是确定性的(不需要训练)。我们框架中的第二个贡献是扩展距离场,这是经典距离场的新实例[50],它充当空间注意力过滤器,以确保捕获的特征在空间上是准确的。当考虑未训练网络的早期训练迭代时,预计输出会有噪声且不稳定,从而产生不可靠的伪掩码。为了减轻这种错误,我们的扩展距离场模块过滤了空间上不准确的特征活动,这通过防止在生成的伪掩模中积累偏差来稳定训练。最后,我们提出了像素自适应卷积层的自适应,以确定性地细化特征,从而在输出特征和后续伪掩模中保持局部一致性。2. 相关工作2.1. 语义分割语义分割是一个密集的图像预测任务,预测给定图像中每个像素的类别标签。深度学习和卷积5956神经网络[51]推动了全卷积网络(FCN)[2]的发展,这是许多当前SOTA语义分割方法的基础[1,3,52,53]。语义分割网络的典型设计利用编码器-解码器架构,其中深度特征被学习,并且被最近的工作通过结合跳跃连接[3],上下文信息[53],自我注意机制[54],扩大的感受场[52],金字塔池[1,55]和精炼网络[56]来改进这种基础设计。虽然这些网络通常提供SOTA性能,但它们仍然需要昂贵的、完全监督的地面实况。2.2. 类激活图和区域建议响应输入图像的深度学习网络的激活神经元被称为类激活图(称为CAM或注意力图)[31]。它们代表了网络对于给定类别标签最具特色的区域。利用CAM的初始工作用于对象定位[31,32,57,58,59]和网络可解释性[33],但最近被用于语义和实例分割任务[16,17,18,60]。大多数方法使用UTI-CAM、区域建议或辅助数据来生成用于分割方法的伪掩模。由于CAM往往有噪声且形状不规则,因此WSSS领域的重点一直致力于细化输出,以提高CAM覆盖精度和一致性[61,62]。2.3. 弱监督语义分割在WSSS领域中完成的大部分工作是在多步骤过程中完成的:训练分类或分割网络,将网络应用于训练集以提取CAM,然后在用于训练单独的分割网络之前对其进行细化和阈值化。早期的工作,如BoxSup[23],利用边界框来更新预定义的区域建议,以生成训练集的地面真实AffinityNet [18]利用图像级标签来生成通过选择放大的CAM上的高置信度点获得的亲和标签。类似地,PRM(峰值响应图)[16]通过注意力图中的局部极值点反向传播以生成实例伪掩码。其他方法[17,29,60,61,63]遵循使用图像级标签用于伪掩模生成的类似多级如前所述,如[16]所示,基于图像级的CAM在场景复杂度方面显着降低,通常超出任何下游任务的实用性。因此,基于图像级的WSSS方法集中在低复杂度场景上。图像级驱动的WSSS方法的弱点也被最近的基于点[35,64,65],框[66]和涂鸦[67]的方法所认识到[35]分段构建-在一个阶段中从头顶图像中提取,但需要建筑物中心点注释和捕获建筑物的点周围的估计半径。[65]采用点注释和四个独立的网络结构作为教师-学生架构,两个教师网络和两个学生网络。除了高网络复杂性之外,每个网络在生成伪掩码之前需要单独的训练和2.4. 单阶段WSSS学习单阶段WSSS方法[19,29,30]不太常见,因为从弱标签隐式获取可靠的空间和上下文信息的挑战。Triple-S [20]使用点监督和形状先验作为网络的空间和上下文线索。然而,形状先验的使用是高度限制性的,并且明确地向网络提供空间和上下文信息,使得该方法过于任务特定。相反,Araslanovet al. [19]使用归一化全局加权池化(nGWP)、迭代掩码细化和焦点掩码惩罚来训练分割感知分类网络。标准化全局加权池允许同时进行分类和分割训练,而输出掩码预测使用[68]中引入的像素自适应卷积(PAC)层进行迭代细化。虽然[19]在单阶段WSSS中显示出显着的改进,但该方法需要预先训练的骨干来实现良好的性能,并且如我们的实验所示,无法推广到更复杂的数据集。预训练的主干(在基准数据集或类似数据集上训练)本质上是预训练权重的效用消除了初始训练步骤期间存在的偏差和随机性,从而允许优越的伪掩码生成,在没有预先训练的权重的情况下,生成的伪掩模将明显更差,降低分割性能,并在学习过程中传播偏差。通常,如[32,33]所示,经过训练的分类网络通过定位类激活图中的峰值来提供这样的本地化将是不可用的,除非骨干是预先训练的,或首先训练的。相反,我们的方法可以推广到任何数据集,并且可以从头开始训练。与[19]类似,我们还利用像素自适应卷积层[68]进行特征细化和后续伪掩模生成。3. 点的伪掩码我们的方法背后的动机是从初始点获得可靠的、实时的伪掩模以训练语义分割网络。直观地说,地面实况标签越好,网络的性能就越好。伪掩码通常通过一些阈值来获得,5957E∈R∈R∈RE∈R保持高置信度(高激活)特征。当从头开始训练时,这样的特征往往是有噪声的,并且直接对这样的特征进行阈值处理将生成差的伪掩码,这将导致次优的训练和性能。我们通过使用扩展距离场模块(第3.2节)来解决这一挑战,该模块过滤错误激活的区域,并捕获和放大正确激活的区域。它还引入了一种新的聚合方法和扩展机制,消除了对地面实况点周围特征的过拟合。我们还采用了点印迹生成器(第3.3节)及其点印迹输出,以提供优于单独点的效用,捕获额外的本地可用上下文信息,并加速训练进度。如图3所示,我们结合了一个特征细化网络(第3.1节),与扩展距离场协同工作,以产生中间伪掩模,这些伪掩模与点印迹叠加,以产生最终的伪掩模用于监督。3.1. 像素自适应卷积精化网络我们使用[68]中介绍的像素自适应卷积层序列构建像素自适应卷积细化网络(PAC细化网络或PACPAC层允许基于一些底层条件动态修改内核权重,并且通常用于用户定义内核函数的特征细化工作[19,69,70,71,72,73]。在这里,我们使用PAC层来抑制输出特征中局部不一致的激活区域。我们的PAC细化网络考虑了给定像素与其邻居之间的局部相似性,这些相似性当一个像素与其相邻像素相似时,我们寻求放大局部特征,当一个像素与其相邻像素不相似时,我们寻求抑制局部特征。我们使用颜色空间的局部标准差和特征空间的均值来归一化核权重,避免过度放大。考虑图像输入X3×H×W,网络输出x10C×H×W,以及相应的softmaxxxsC×H×W,其中C、H、W表示类的数量、高度和宽度。单像素自适应卷积层前向传递生成标量矩阵MC×H×W,其中M中的局部元素由自适应卷积核函数确定:不同的内核参数中心像素与顶部区域的高度相似性中心像素与底部区域的相似度低图2:PAC细化网络示例和直观。在给定特征X和输入图像X的情况下,我们的细化网络试图生成类c(在上面的示例中为类“cow”)的标量矩阵Mc,使得局部包含的 在这个例子中,我们选择了一个边缘上的区域,该区域在颜色空间中的局部不一致区域(棕色奶牛和绿色草地)上包含高激活。具有各种核参数(核大小,膨胀,步幅)的归一化欧几里得距离核确定给定类在该区域上的阻尼或放大效果。最好的颜色和缩放查看。中心像素与其相邻像素不相似(damplitude)。然后,当标准偏差较大或激活较低时,我们进一步抑制内核权重作为归一化机制。请注意,x的平均值不能放大特征,而只能抑制它们。这种效果可以在图5中看到这一过程的可视化也显示在图。2.对于L层网络,我们生成L个标量矩阵,每个矩阵都由不同的PAC参数(内核大小,膨胀和步幅)构建。然后,我们将L个矩阵与我们的输出特征依次相乘(每个类),以获得细化的特征xrefined:xe fined=ML−1ML−2···M0x。(二)kc,i,j=−(Xi,j−Xl,n)2σi,jµc,i,j,(1)请注意,由于内核权重是局部颜色和特征统计表示(标准偏差和均值)的函数,因此细化特征是单个其中(i,j)对应于类c的内核k的当前位置,(l,n)表示内核内(i,j)的所有相邻像素,σi,j是X中当前内核区域的标准偏差,µc,i,j是类c的x中当前内核区域的平均值。当中心像素与其相邻像素(放大器)相似时,该k内核函数确保高内核值,而当网络的前进。在这个操作中没有学习权重,这使得它在计算上很便宜。3.2. 扩展距离字段扩展距离字段旨在通过利用背景(如果可用)在细化特征空间(从3.1获得)中施加全局一致性和正确定位,5958Yp,(a,b)DE∈RE和物点注释(也分别称为负点和正点)以生成距离场(第3.2.1节)。然后,这些距离场通过我们的扩展机制(第3.2.2节)进行更新,该机制允许距离场将更精细的特征逐步纳入最终输出。3.2.1距离字段聚合距离场[50]的使用将掩蔽图像(Yp)转换为基于距离的灰度,其强度描绘其最近的类似标记的邻居,在交互式分割方法[74,75,76]中很常见,其中它用作从用户输入(如点和涂鸦)产生的辅助数据。在这里,我们使用它作为一个点引导的过滤器,以加强对象定位的一致性,在细化功能和后续生成的伪掩模。我们使用距离场滤波器对于在早期迭代中稳定训练是必不可少的,在此期间,输出特征缺乏声音结构和定位以制作可靠的伪掩码。距离场通过取给定点与场景中存在的其余同类点之间的最小欧氏距离给定图像X∈RH×W×3和真值点 Yp∈RH×W×1,其中 Yp (i,j )∈{0 , 1 , ··· , C} , 我 们 利 用 Yp 得 到 类 距 离 域 D∈RC×H×W,其中C是类的个数.例如,为了生成某个类c的距离场Dc,我们计算D(c,i,j)在位置(i,j)相对于所有其他点的值,{(a,b):(a,b)∈Yp,(a,b)<$=(i,j)},使用扩展距离字段正负点E D扩展置信度评分softmax伪掩模距离距离变换变换正负距离字段字段更新中间伪掩模阈值细化特征点印迹点印迹生成器PAC精炼网络图3:点伪掩码(PMP)总体架构。输入图像被馈送到一个完全卷积的网络,并由扩展距离场和点印迹生成模块生成的伪掩模监督。该网络的输出softmax功能,T ildex s,被馈送到我们的PAC细化网络,以根据底层功能和颜色分布的本地统计数据进行细化。然后,将细化的特征(x_e_fined )与扩展的距离场逐元素相乘,扩展的距离场使用地面真值点Y_p(由对应于背景和对象的负点和正点组成)计算,并且阈值化以制作中间伪掩模,中间伪掩模与点印迹掩模Y_m叠加以制作最终伪掩模。当从头开始训练网络时,早期的迭代往往不稳定,产生噪声输出,因此产生不可靠的伪掩码。我们新颖的扩展距离字段允许通过防止生成的伪掩码中的错误累积来从头开始训练。最好的颜色和缩放查看。D(c,i,j|Yp)=n(a,b)∈ mindist(pc,i,j,pc,a,b)(3)n =(i,j)3.2.2膨胀机构其中pc是Yp中属于类c的点,dist是欧几里得距离。我们对图像中的所有类重复这一过程,以获得DC×H×W,包括背景点。如果没有提供和/或不能获得背景点通常,这样的距离场被连接到交互式分割方法的输入图像相反,我们利用距离字段来执行中间伪掩码上的对象本地化一致性。我们反转归一化的背景距离场Dc,并与所有其他距离图执行逐元素乘法:Dc=(1−D<$c)<$Dc<$c∈{1,···,C}(4)反转D-c在已知对背景类为长的区域中施加低值。通过在Dc和所有其他距离图之间取得元素级乘积,我们移除Dc中可能不明确或与底层对象的位置不一致的这可以在图5中观察到,其中错误激活的区域(用红框标记)被距离场抑制。使用点作为种子来创建距离场本质上会产生对这些种子周围区域的偏移,特别是当对象很大时。出于这个原因,我们employ我们的新的扩展机制,其目的是通过自适应地增加特征可能通过的空间区域来表示模型的可靠性增加典型地,早期的训练迭代往往会产生噪声输出,这些噪声输出由扩展距离场进行空间过滤随着训练的进行,期望更好的输出特征表示,因此需要更少的剧烈空间滤波。如果在没有扩展机制的情况下单独使用距离场,则中间伪掩模倾向于为具有大对象的图像提供部分覆盖,仅聚焦于种子点周围的区域相反,我们定义了一个扩展置信度分数,分数是网络学习进度的函数在训练的初始阶段,我们将种子点视为具有最高置信度的像素,对应于值1。随着网络学习与该类对应的特征,我们逐渐降低最高置信度阈值。通过这样做,我们从种子点5959LEγ= −1,(5)输入图像E D 输出特征图像真实值点印迹伪掩模图4:我们在Pascal VOC [77]训练集上生成的伪掩码和点印迹的定性结果我们扩展距离字段已过滤和已细化的要素方法提供了向完全监督的地面真相收敛的伪掩模,即使从头开始训练也可以获得更好的性能。具有低确定性的像素(未进行颜色编码)将被忽略。深灰色像素表示背景类。最好的颜色和缩放查看。向外,基本上扩大了高置信度区域,并允许在输出中包括更精细的从形式上讲,L(e−1)L(e)E评分=E评分+max(min(γ,η),ω),(6)其中(e)是时期e处的累积损失,γ是当前时期与先前时期之间的改善比率,并且η和ω是要添加到该时期处的得分 请注意,给定时期的性能下降将导致下一个时期的置信度得分降低。我们使用置信度得分来修改我们的距离图聚合,方法是将其添加到距离字段中,并如下所示剪切任何低于0和高于1的值,如果Dc,x,y+Escoree≥1,则为1图5:扩展距离字段和PAC Refine-Pascal VOC 2012上的ment Network联合实用程序示例[77]。网络输出特征被馈送到PAC Refiner,其输出与从点注释和扩展置信度得分获得的扩展距离字段逐元素相乘。观察到岩石被错误地激活为鸟类,这是由扩大的距离场阻尼。红色虚线框突出显示的区域表示错误激活的区域及其阻尼输出。对最终输出进行阈值化以制作中间伪掩模。最好的颜色和缩放查看。扩展距离场模块的最后步骤执行细化特征和聚合距离场之间的逐元素乘积,随后进行阈值处理,以获得最终伪掩模。由于PAC细化网络只平滑和确保局部一致性,而没有全局视角,因此它经常激活不属于对象的区域。通过将其输出与聚合的距离场相乘,我们在空间上将类激活映射约束到由距离场确定为相关这是直观的演示Dc,x,y=0,如果Dc,x,y+E评分≤0其他情况下,c,x,y+E评分(七)在图5中,其示出了直到最终伪掩模的每个级之间的过渡。其中x和y表示类别C的距离场的所有可能位置。 图像中不存在的类将被忽略。注意,我们对背景和对象使用不同的扩展置信度分数,并且对象扩展分数比背景扩展分数快2倍。 这个模块的重要性也在补充材料中通过逐时期的距离场实例及其相应的伪掩模直观地展示出来3.3. 点印迹生成器该方法的目的是通过输入图像X上的扰动和随机游走的迭代操作从图像X和注释点Yp生成一组新的局部真实像素。这组新的地面实况像素(称为点印迹)捕获“明显”是对象一部分的相邻像素。这些额外的像素在早期迭代中是必不可少的,因为它们在网络能够PAC精炼网络扩展距离字段5960FI BSE∈RE∈R∈∈SEAM [61]I4 54.3 51.1 58.2 2.8表1:CRAID [20]、CityPersons [78]、IAD [79]、ADE 20K [13]和CityScapes [34]验证集的mIoU(%)准确度。、和分别表示完整、图像、框、显著性、点和先验数据注释。我们的方法可推广到任意数据集,在选定的真实世界数据集上显著优于我们的单阶段和多阶段弱监督生成有意义的特征。这些点印迹的作用随着PAC精炼器和扩展距离场生成的中间伪掩模的改进而降低。设图像XH×W×3和地面真值点YpH×W×1为点印迹生成模块的输入样本。我们得到一个初始掩码,Ym,使用一个随机游走在X与Yp作为种子。然后,我们使用随机仿射变换来扰动Y p以获得新的点Ypp,这些点被用作在X上的随机walk的种子以生成候选掩模Ym。虽然我们可以保证Yp中的所有点都位于正确的对象上,但我们不能假设Yp也是如此,因此不能假设Ym是一个很好的候选掩码。相反,我们使用连接分量算法[81]将Ym和Ym划分为当前和候选斑点B,B,B,B,,其中每个当前斑点bB对应于候选斑点blobbB. 然后,我们计算由b和b的像素包围的底层图像特征的分布之间的比[82]。候选斑点如果它满足两个要求,则被接受为其对应的当前斑点的扩展:1)KLD距离是小于阈值δ,以及2)b和δb的并集上的交集大于阈值δ。这组扰动重复进行t次迭代,并增加扰动强度。sity,其中随机仿射变换从增加的旋转和平移范围中采样。KLD距离确保斑点中像素的颜色强度分布彼此相似,而超过联合阈值的交集要求我们逐渐扩展,而不创建不相交的斑点。增加的扰动也确保我们首先探索邻近区域以获得连续扩展。点印迹生成流水线可以在图1中看到补充材料,并在图1中输出示例4. 该方法允许我们捕获点周围的额外相邻像素,而不会牺牲过多的计算资源,增加每次迭代的大约18.74%(补充材料中描述了参数)。4. 实验我们在六个数据集上训练和评估我们的方法的性能 : Pascal VOC 2012 [77] , Cranberry from AerialImagery Dataset ( CRAID ) [20] , CityPersons [78] ,Inria Aerial Dataset ( IAD ) [79] , ADE 20K [13] 和CityScapes [34]。 首先是说明我们的方法在标准基准数据集上的性能,其余的是各种复杂度范围内的真实世界应用程序的示例。虽然标准的基准数据集是必不可少的基线疗效评估,我们希望证明我们的方法对于我们的基线,如果报告了数据集的性能,我们将报告正式的性能指标。如果性能没有在给定的数据集上报告,并且实现是公开的,则我们根据该方法的报告方法遵循训练和评估程序,并记录最佳执行结果。没有公开可用的实现和不报告任何复杂数据集的方法不在Tab中报告。1.我们在补充材料中提供了实现细节、伪代码和数据集细节。5. 结果表1展示了我们方法的广泛适用复杂性,该方法在CRAID、CityPersons、IAD、ADE 20K和CityScapes数据集上的表现明显优于我们的单阶段基线([19])。我们的方法在整个数据集上显著优于我们的图像级单阶段基线高达28.1%,并且我们最好的图像级多阶段基线高达22.6%。虽然PDML [80](我们的多阶段点监督基线)在ADE 20K上的性能提高了3.2%,但它需要4个单独的训练阶段,[第20话][第78话]IAD [79]ADE20K [13]城市景观[34]辅助核算阶段数mIoU(%)DeepLab-v3 [1]F181.380.782.445.578.8[18]第十八话PDML [80]我4449.8-49.7-53.8-0.719.68.2-P17.3三重S [20]P,D1 68.7--Araslanov等人[19]一54.9 48.2 57.6 2.011.8我们的P172.1 62.8 72.416.439.95961[19]第19话我的世界图6:我们的方法在Pascal VOC 2012 [77](左,第一行),ADE 20K [13](左,第二行),CityScapes [34](左,第三行),CRAID [20](右,第一行),IAD [79](右,第二行)和CityPersons [78](右,第三行)上的定性结果。观察到我们的方法在真实世界数据集(右侧)上提供了比我们的单阶段基线(在图像级别上训练)更精确的预测最好的颜色和缩放查看。深灰色像素表示背景类。复杂的体系结构另一方面,我们的方法只需要一个单一的阶段,仍然获得竞争力的perfor-mance。可以看出,当前的单阶段和多阶段WSSS方法很难在基准复杂度分布之外的数据上保持性能。图像级标签驱动方法(单阶段或多阶段)的较差性能源于对先前分类任务的依赖,以提供对本地化至关重要的良好类激活图随着场景复杂度的变化,激活图的质量呈指数级下降,并且由此产生的伪掩模也是如此。当图像具有很少(或二进制)类时,分类任务变得太容易,这导致粗糙的特征输出和次优的局部化和CAM覆盖。特征质量的退化在很大程度上取决于场景中对象的数量,使得诸如CRAID和CityPersons中的具有大量小对象的二进制场景对于使用图像级标签进行分割的任何方法来说越来越困难这也可以在定性结果中观察到,我们的基线产生CRAID和CityPersons数据集的粗略输出。相反,Pascal VOC 2012中的图像平均每个图像具有2.37个对象,使得在没有显著空间指导的情况下更容易生成特征。在[16]中讨论了基于图像级的方法相对于对象大小和计数的性能退化的彻底经验分析。虽然不是该方法的重点(作为应用驱动的方法),但我们还比较了SOTA基线(不包括CRF后处理)以及我们在补充材料表4中的Pascal VOC数据集上的方法在单阶段方法中,我们的方法在验证上优于[19]1%,在测试集上优于[19] 0.3%,即使我们从头开始训练我们的网络,而[19]使用预先训练的骨干。重要的是要注意,如[31,32,33]所示,预训练的背骨)可用。从我们的实验中,如果没有使用预先训练的骨干,[19]表现得明显更差。通过使用点,我们的方法可以用于更广泛的复杂性范围和非标准数据集,而不会产生显着的额外注释成本。消融研究和我们的方法对所有数据集的其他定量和定性结果可在附录材料中获得。5.1. 结论本文提出了一种实用的单阶段WSSS方法,适用于非标准数据集的预训练骨干不可用,或预训练分类任务不足。通过利用我们扩展的距离场和点印迹,我们的方法能够在基准数据集上实现SOTA性能,并且在现实世界和应用驱动的领域上比单阶段SOTA方法具有更好的性能致谢本项目由美国农业部NIFA AFRI奖号赞助:2019-67022-29922.5962引用[1] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[2] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页[3] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234-241页。施普林格,2015年。[4] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch:一个操作 风 格 的 高 性 能 深 度 学 习 库 。 In H.Wallach , H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc,E. Fox和 R. Garnett , 编 辑 , Advances in Neural InformationProcessing Systems 32 , 第 8024Curran Asso- ciates ,Inc.,2019年。[5] Mart´ın Abadi,Ashish Agarwal,Paul Barham,EugeneBrevdo,Zhifeng Chen,Craig Citro,Greg S. Corrado,Andy Davis , Jeffrey Dean , Matthieu Devin , SanjayGhemawat , Ian Goodfellow , Andrew Harp , GeoffreyIrving , MichaelIsard , YangqingJia , RafalJozefowicz,Lukasz Kaiser,Manjunath Kudlu r,JoshLev enbe r g , DanjayMa ne' , RajatMon g a , SherryMoore ,Derek Murray ,Chris Olah , Mike Schuster ,Jonathe Shlens,Benoit Steiner,Ilya Sutskever,KunalTal war , Paul Tucker , Vincent Vanhoucke , VijayVasudevan,费南达,奥里奥尔,沃登,马丁,魏克,余元,郑小强. 张量-流量:异构系统上的大规模机器学习,2015年。软件可从tensorflow.org获得。[6] Dingfu Zhou,Jin Fang,Xibin Song,Liu Liu,JunboYin,Yuchao Dai,Hongdong Li,and Ruigang Yang.自动驾驶中的联合3d实例分割和目标检测。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[7] Peri Akiva , Benjamin Planche , Aditi Roy , KristinDana,Pe- ter Oudemans,and Michael Mars.沼泽上的艾:监测和评估蔓越莓作物风险。在IEEE/CVF计算机视觉应用冬季会议(WACV)论文集,第2493-2502页[8] 余启航,杨东,霍尔格·罗斯,白雨彤,张一笑,艾伦·L。Yuille和Daguang Xu。C2fnas:用于3D医学图像分割的粗到细神经架构搜索。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[9] 乔什·迈尔斯-迪恩和斯科特·韦尔温。用于图像编辑的语义像素距离IEEE/CVF论文集计算机视觉和模式识别会议(CVPR)研讨会,2020年6月。[10] 安东尼·乔帕,阿德里安·德利格,马克西姆·伊斯塔塞,克里斯托夫·德·弗莱斯舒维尔和马克·范·德罗根-布鲁克。Arthus:通过在线蒸馏在体育运动中进行自适应实时人体分割。在IEEE/CVF计算机视觉和模式识别会议(CVPR)研讨会上,2019年6月。[11] Peri Akiva , Matthew Purri , Kristin Dana , BethTellman,and Tyler Anderson.H2o-net:通过对抗域自适应和标签细化的自监督洪水分割。在IEEE/CVF计算机视觉应用冬季会议(WACV)中,第111-[12] Matthew J. Leotta,Chengjiang Long,Bastien Jacquet,Matthieu Zins,Dan Lipsa,Jie Shan,Bo Xu,ZhixinLi , Xu Zhang , Shih-Fu Chang , Matthew Purri , JiaXue,and Kristin Dana.基于多视角卫星影像的城市语义三维重建。在IEEE/CVF计算机视觉和模式识别会议(CVPR)研讨会上,2019年6月。[13] Bolei Zhou,Hang Zhao,Xavier Puig,Sanja Fidler,Adela Barriuso,and Antonio Torralba.通过ade20k数据集进行场景解析。在IEEE计算机视觉和模式识别会议论文集,2017年。[14] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[15] Amy Bearman,Olga Russakovsky,Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议,第549-565页。施普林格,2016年。[16] 周延照,朱毅,叶启祥,邱强,焦建斌.使用类峰值响应的弱监督实例分割。在IEEE计算机视觉和模式识别会议论文集,第3791- 3800页[17] Shuxin Wang,Shilei Cao,Dong Wei,Renzhen Wang,Kai Ma , Liansheng Wang , Deyu Meng , and YefengZheng. Lt-net:通过学习可逆体素对应的标签转移,用于一次性医学图像分割。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[18] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第4981-4990页[19] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯 单级seman- 从图像标签进行tic分割。 在IEEE/CVF计算机视觉和模式识别会议论文集
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功