没有合适的资源?快使用搜索试试~ 我知道了~
5495Railroad is not a Train:基于显著性的弱监督语义分割李承昊延世大学seungholee@yonsei.ac.kr李敏贤延世大学lmh315@yonsei.ac.kr延世大学Hyunjung Shimkateshim@yonsei.ac.kr李成均馆大学jongwuklee@skku.edu摘要现 有 的 基 于 图 像 级 弱 监 督 的 弱 监 督 语 义 分 割(WSSS)方法存在着目标覆盖稀疏、目标边界不准确、非目标像素共存等问题。为了克服这些挑战,我们 提 出 了 一 种 新 的 框 架 , 即 显 式 伪 像 素 监 督(EPS),它通过结合两个弱监督从像素级反馈中学习;图像级标签通过本地化映射提供对象身份,显着性映射来自现成的显着性检测模型提供丰富的边界。我们设计了联合训练策略,充分利用两者信息的互补关系。我们的方法可以获得准确的物体边界(a)GroundTruth(c)定位映射(b)显著性图(d)我们的EPS并丢弃共同出现的像素,从而显著地改善伪掩模的质量。实验结果表明,该方法通过解决WSSS的关键挑战,显著优于现有方法,并在PAS-CAL VOC 2012和MS COCO 2014数据集上实现了新的最先进性能该代码可在https://github.com/halbielee/EPS上获得。1. 介绍弱监督语义分割(WSSS)利用弱监督(例如,图像级标签[36,37],涂鸦[29]或边界框[22]),旨在实现与需要像素级标签的全监督模型竞争的性能现有的研究大多采用图像级标签作为分割模型的弱监督。WSSS的整个管道包括两个阶段。首先,生成伪掩模,表示相等的贡献。[2]Hyunjung Shim是通讯作者。图1.利用显着图和和WSSS的本地化地图。(a)Groundtruth,(b)通过PFAN的显着性图[51],(c)通过CAM的定位图[52]和(d)我们的EPS利用显着性图和定位图来训练分类器。请注意,显着图不能捕获人和车,而我们的结果可以正确地恢复它们,并且定位图过度捕获两个对象。使用图像分类器定位对象。然后,使用伪掩码作为监督来训练分割模型。用于生成伪掩模的流行技术是类激活映射(CAM)[52],其提供对应于其图像级标签的对象定位图。由于完全(即,像素级注释)和弱(即,图像级标签)监督的语义分割,WSSS具有以下关键挑战:1)定位图仅捕获目标对象的一小部分[52],2)它遭受对象的边界失配[23],以及3)它几乎不能将共同出现的像素与目标对象分离(例如,火车上的火车[25]载人列车车厢5496为了解决这些问题,现有的研究可以分为三个支柱。第一种方法扩展了对象覆盖范围,通过对像素进行分时处理[9,23,28]、集成分数图[21,27]或使用自监督信号[41]来捕获对象的全部范围。然而,它们不能确定目标对象的准确对象边界,因为它们没有线索来引导对象的形状。第二种方法专注于改进伪掩码的对象边界[13,32]。由于它们有效地学习对象边界,它们自然地扩展伪掩码直到边界。然而,它们仍然不能区分非目标对象与目标对象的重合像素。 这是因为前景和背景之间的强相关性(即,同现)几乎与感应偏置不可区分(即,观察目标对象及其重合像素的频率),如[10]中所示。最后,第三种方法旨在使用额外的地面真实掩码[24]或显着图[35,47]来缓解同现问题。然而,[24,28]需要强像素级注释,这远非弱监督学习范式。[35]对显着图的错误很敏感。此外,[47]没有覆盖对象的全部范围,并且存在边界不匹配。在本文中,我们的目标是通过充分利用本地化地图(即,来自用图像级标签训练的图像分类器的CAM)和显著图(即,现成的显着性检测模型的输出[18,34,51])。我们专注于本地化图和显着图的互补关系。如图1所示,定位图可以区分不同的对象,但不能有效地分离它们的边界。因此,虽然显著图提供了丰富的边界信息,但它并不揭示对象身份。在这个意义上,我们认为,我们的方法使用两个互补的信息可以解决WSSS的性能瓶颈。为此,我们提出了一种新的框架WSSS,称为显式伪像素监督(EPS)。为了充分利用显著图(即,前景和背景),我们设计了一个分类器来预测C+ 1类,由C目标类和背景类组成。我们利用C定位图和背景定位图来估计显着图。然后,显着性损失被定义为显着性图和我们估计的显着性图之间的像素差异通过引入显著性损失,可以通过跨所有类的伪像素反馈来监督模型。我们还使用多标签分类损失来预测图像级标签。因此,我们训练分类器以优化显着性损失和多标签分类损失,协同背景和前景像素的预测-我们发现我们的策略可以改善显着性图(第3.3节和图3)和伪掩模(第5.1节和图3)图4)。我们强调,因为显著性损失通过伪像素反馈惩罚边界失配,所以它可以强制我们的方法学习对象作为副产品,我们还可以通过扩展地图直到边界来捕获整个对象因为显著性损失有助于分离前景(例如,一列),我们的方法可以将共同出现的像素(例如,一条铁路)到后台类。实验结果表明,我们的EPS实现了显着的分割性能,记录新的国家的最先进的准确性PASCAL VOC 2012和MS COCO 2014数据集。2. 相关工作弱监督语义分割。WSSS的一般流水线是从分类网络生成伪掩码,并使用伪掩码作为监督来训练分割网络。由于图像级标记中边界信息的缺乏,许多实验方法都存在伪掩模不准确的问题。为了解决这个问题,使用交叉图像亲和度[15],知识图[31]和对比优化[38,50]来提高伪掩模的质量。[5]提出了一个自我监督的任务来发现子类别,以执行分类器来改进CAM。[1,2]通过计算像素之间的亲和度来隐式地利用边界信息[49]专注于产生可靠的像素级注释,并设计了用于生成分割图的端到端网络[20,25]通过利用边界损失来训练分割网络。最近,[3]使用了一个基于分割的模型和一个自我监督的训练方案。[14]通过利用多个不完整的伪掩模关注分割网络的鲁棒性显着性引导的语义分割。显着性检测(SD)方法生成显着性图,通过具有像素级注释[18,46,51]或图像级注释[39]的外部显着性数据集区分图像中的前景和背景。许多WSSS方法[15,20,27,28,42,44]利用显着图作为伪掩模的背景线索。[43]利用显著图对单目标图像进行全面监控。[16]使用实例级显着图来学习对象的相似性图。[6,40,47]将显着性图与特定类别的注意力线索相结合,以生成可靠的伪掩码。[48]使用单个网络联合解决WSSS和SD,以提高这两项任务的性能。我们的EPS可以归类为显着性指导的方法,但在以下原因中与所有其他方法有明显区别大多数现有的方法利用显着性图作为伪掩模的一部分,或作为隐式指导,用于细化分类器的中间特征。相反,我们的方法利用显著图作为伪像素5497标测图选择显著性损失人λ+I估计李显著性图车分类损失显著性图高x宽间隙��� 1��� 2��� 3前景图生成背景图生成λ 加权和李+元素求和伪掩模背景定位图(C+1)x高x宽��� ���0图像级标签C×1我逆操作显著性损失的梯度流分类损失的梯度流图2. 我们EPS的整体框架。C+ 1本地化地图是从骨干网络生成的。实际的显著性图是从现成的显著性检测模型生成的。目标标签的一些定位图被选择性地用于生成估计的显著性图(第3.2节)。整体框架与显着性损失和分类损失联合训练(第3.3节)。反馈定位地图。虽然[48]在利用两个复杂信息的意义上与我们的工作最相似,但它们既没有解决同现问题,也没有处理噪声显着图问题。3. 该方法在本节中,我们提出了一个新的弱监督语义分割(WSSS)框架,称为显式伪像素监督(EPS)。WSSS分为两个阶段在这里,我们的主要贡献是生成准确的伪掩码。遵循WSSS约定[13,21,27,28,41,42],然后我们训练分割模型,其中第一阶段中生成的伪掩码用作监督。3.1. 动机我们对每股收益的关键见解是充分利用两个复杂的信息,即,来自局部化图的对象身份和来自显著图的边界信息为此,我们利用显著性图作为对目标标签和背景的定位图的伪像素反馈我们设计了一个具有附加背景类的分类器,从而预测出总共C+ 1个类,如图2所示。使用分类器,我们可以学习C+ 1本地化映射,即,目标标签的C定位图和背景定位图。然后,我们解释了如何EPS可以解决WSSS中的边界失配和同现问题。为了解决边界失配问题,我们从C定位图中估计出前景图,并将其与显著图的前景进行匹配。以这种方式,目标标签的定位图可以接收伪像素馈送,(a)(b)(c)(d)图3. PASCAL VOC 2012上估计的显着性图的定性示例。(a)输入图像,(b)地面实况,(c)来自[51]的显着图和(d)我们估计的显着图。从显著性图返回,从而改善对象的边界。为了减少非目标对象的共现像素由于用于背景的定位图还接收来自显著图的伪像素反馈,因此可以将同现像素成功地分配给背景;非目标对象的同现像素大多与背景重叠。这就是为什么我们的方法可以从目标对象中分离出同现像素。最后,EPS的目标函数由两部分组成:通过显着图的显着性损失Lsal(由图2中的红色框/箭头标记)和多标签分类损失Lcls(由图2中的蓝色框/箭头标记)图像伪掩模生成〮〮〮〮〮〮〮〮〮〮〮〮+1015498通过图像级标签。通过联合训练这两个对象,我们可以协同定位图和显着图与互补信息-例如,从现成的模型[18,34,51]获得的原始显着图另一方面,我们的结果成功地重新存储了丢失的对象(例如,船或椅子)并消除噪音(例如,气泡或轨迹),其明显优于原始显著性图。因此,EPS可以捕获更准确的对象边界,并从目标对象中分离出同现像素。这些优点导致显著的性能增益;表6报告称,EPS在分割准确度方面显著优于现有模型,增益高达3.83.2. 显式伪像素监控我们解释了如何利用显着图的伪像素监督。显着图的主要优点是提供了一个对象的轮廓,它可以更好地显示对象的边界。为了利用这一特性,我们将显著图与两种情况进行匹配:前景和背景。为了使类局部化图与显着图相比较,我们合并了局部化图,方法[13,21,40,43,47]使用完全监督的显着性模型。而现有的方法仅限于充分利用显着图,我们的方法采用显着图作为伪像素监督,并利用它作为边界和共现像素的线索。用于处理显著性偏差的图选择。之前,我们假设前景图可以是目标标签的本地化图的并集;背景图可以是背景标签的本地化图。然而,这样一个天真的选择规则可能不兼容的显着地图计算的现成的模型。例如,[51]中的显着性图经常忽略一些作为显着对象的对象(例如,图1中火车附近的小人物)。这种系统误差是不可避免的,因为显着性模型学习不同数据集的统计数据如果不考虑这个误差,同样的误差可能会传播到我们的模型,导致性能下降。为了解决系统误差,我们开发了一种有效的策略,使用定位图和显着图之间的重叠率具体地,如果Mi与显著图重叠超过τ%,则将第i个定位图Mi形式上,前景和背景图通过以下公式计算:CQC用于目标标签的前景图并生成前景图,Mfg∈RH×W。 我们也可以用以下方式表示前景:执行背景图的反转,所述背景图是Mfg=i=1CQCyi·Mi·τ[O(Mi,Ms)>τ],(二)背景标签Mbg∈RH× W。Mbg=i=1yi·Mi·n[O(Mi,Ms)≤τ]+MC+1,(稍后,我们将解释如何将前景图细化为广告,其中y∈RC是二进制图像级标签,dress noisy saliencymaps.)其中,m(Mi,Ms)是计算重叠率的函数具体来说,我们使用以下公式估计显著性图Ms:Mfg和Mbg如下:Mi和Ms之间的比值。为此,我们首先将局部化图和显著图二值化,使得:对于像素p,Ms=λMfg+(1−λ)(1−Mbg),(1)如果Mk(p)> 0,则Bk(p)= 1。5;Bk(p)= 0,否则。B我和Bs是对应于Mi的二值化映射,其中λ∈[0,1]是用于调整前景图和后向图的反转地面地图(默认情况下,我们在实验中将λ设置为0.5,并且在柔软的材料中发现了对λ的额外烧蚀研究然后,我们将显著性损失Lsal定义为我们估计的显著性图和实际显著性图之间的像素差异之和。(TheLsal的正式定义见第3.3节。)值得注意的是,使用预先训练好的模型,被认为是弱监督学习,因此利用显著图已被广泛接受为WSSS中的常见实践。尽管其受欢迎,采用完全监督的显著性检测模型可以是可行的,因为它们使用来自不同数据集的像素级注释。在本文中,我们研究了不同显着性检测方法的效果; 1)无监督和2)全监督显着性检测模型(见第5.3节),并通过经验证明我们的方法使用任何一种方法都优于所有其他方法M,分别为。然后我们计算Mi和Ms之间的重叠比,即,O(Mi,Ms)=|BiBs|/|B我|.我们设τ = 0。4.无论数据集和主干模型如何。在补充材料中,我们证明了我们的方法对τ的选择是鲁棒的(即,[0.3,0.5]内的τ显示了相当的性能)。代替用于背景标签的单个定位图,我们将用于背景标签的定位图与未被选作前台的定位图组合。 虽然它很简单,但我们可以绕过错误并且有效地训练从显著图中忽略的一些对象。(In表3,我们报告了所提出的策略克服显着图误差的有效性。3.3. 联合训练程序使用显著图和图像级标签,EPS的总体训练目标由两部分组成,5499显著性损失Lsal和分类损失Lcls。首先,显著性损失Lsal通过测量实际显著性图之间的平均像素级距离Ms和估计的显著性cy图Ms。Lsal1=H· W||Ms -M2S||、(3)其中Ms是从现成的显着性检测模型请注意,我们的方法始终优于所有以前的艺术,无论显着性检测模型。接下来,通过图像级标签y与其预测y∈RC 之间的多标签软余量损失来计算分类损失,其是针对每个目标类的定位图上的全局平均池化的结果1摄氏度(a)(b)(c)(d)(e)(f)第(1)款(g)Lcls= − Ci=1yilogσ(yi)+(1−yi)log(1−σ(yi)), (四)图4. PASCAL VOC 2012上伪掩模的定性比较。(a)输入图像,(b)地面实况,(c)CAM,(d)其中σ(·)是sigmoid函数。最后,整个火车-搜索损失是多标记分类损失和显著性损失的总和,即,Ltotal=Lcls+Lsal.如图2所示,Lsal参与更新C+ 1类的参数,包括目标对象和背景。同时,Lcls只评估C类的标签预测,不包括背景类然而,背景类的预测可以隐含地受到Lcls 的影响,因为它监督分类器训练。4.实验装置数据集。 我们对两个流行的研究进行了实证研究- 最大 的 基 准 数 据 集 , PASCAL VOC 2012 [12] 和 MSCOCO 2014 [30]。 PASCAL VOC 2012由21类(即,20个对象和背景),分别具有1,464、1,449和1,456个图像用于训练、验证和测试集。遵循语义分割的常见做法,我们使用具有10,582个图像的增强训练集[17]。接下来,COCO 2014由81个类别,包括背景,82,081和40,137张图像用于训练和验证,其中不含目标类别的图像被排除在外,如[9]所示。由于某些对象的地面实况分割标签相互重叠,我们采用COCO-Stuff [4]中的地面实况分割标签,解决了同一COCO数据集上的重叠问题。评估方案。我们使用PASCAL VOC 2012上的验证集和测试集以及COCO 2014上的PASCAL VOC 2012测试集的评估结果来自官方PASCAL VOC评估服务器。此外,我们采用平均交集超过联合(mIoU)来衡量分割模型的准确性。SEAM,(e)ICD,(f)SGAN和(g)我们的EPS。实施细节。我们选择ResNet38 [45]作为我们方法的骨干网络,输出步长为8.所有骨干模型都在ImageNet上进行了预训练[11]。我们使用SGD优化器,批量大小为8。我们的方法被训练到20k次迭代,学习率为0.01(最后一个卷积层为0.1)。对于数据扩充,我们使用随机缩放、随机翻转和运行-dom 裁 剪 为 448×448 。 对 于 分 割 网 络 , 我 们 采 用DeepLab-LargeFOV(V1)[7]和DeepLab-ASPP(V2)[8],以及VGG16和ResNet101用于其骨干网络。具体来说,我们使用了四个分割网络:基于VGG 16的DeepLab-V1 和 DeepLab-V2 , 基 于 ResNet 101 的DeepLab-V1和DeepLab-V2。更详细的设置在补充材料中。5. 实验结果5.1. 处理边界和同现边界不匹配问题。 为了验证伪掩模的边界,我们将边界的质量与最先进的方法进行比较[32,41,52]。我们利用SBD [17],它提供了PASCAL VOC 2011中的边界注释和边界基准。 为完成在[32]中,通过从拉普拉斯边缘检测器计算伪掩模的边缘,以类不可知的方式评估边界的质量。然后,通过测量查全率、查准率和F1分数,比较预测边界和真实边界来评估边界表1报告说,我们的方法在所有三个指标上都大大优于其他方法。图4中的定性示例表明,我们的方法可以捕获比所有其他方法更准确的边界。共现问题。 正如在几个研究报告中所讨论的那样,5500方法召回率(%)精确度(%)F1评分(%)基线初始预定义我们的自适应[52]第52话22.335.827.5Miou66.166.567.969.4美国[41]40.245.042.5[32]第三十二话45.546.445.9我们的EPS60.073.165.9表1. 在SBD训练集上评估边界精度。注意,BES的结果是从[32]中提出的边界预测网络表3.地图选择策略的影响 的精度在PASCAL VOC 2012训练集上评估使用不同映射选择策略的伪掩码。方法w/o w/方法船/火车/火车/水上铁路站台[52]第52话0.74(33.1)0.11(52.9)0.09(49.6)美国[41]1.13(30.7)0.24(48.6)0.20(45.5)表4.PAS上评估的伪掩模的准确度(mIoU)ICD [13]CVPR'200.47(41.4)0.11(56.7)0.09(49.2)CAL VOC 2012火车组。请注意,* 表示低置信度[47]第四十七话0.10(42.3)0.02(48.8)0.01(36.3)像素被忽略;其他方法使用所有像素进行评估。我们的EPS0.10(55.0)0.02(78.1)0.01(73.0)5.2.地图选择策略表2.与现有代表性方法的比较-解决同现问题。每个条目是mk,蓝色的c(越低越好)和括号中的IoU(越高越好)。ies [20,25,28,35]中,我们观察到一些背景类经常与PASCAL VOC 2012中的目标对象一起出现。我们通过采用PASCAL-CONTEXT数据集[33]定量分析共同出现的对象的频率,该数据集为整个场景提供像素级注释(例如,水和铁路)。我们选择了三个共同出现的对;船与水,火车与铁路,火车与平台。我们比较目标类的IoU和目标类与其重合类。混淆率衡量重合类被错误地预测为目标类的程度。 混淆比mk,c通过mk,c=FPk,c/TPc计算,其中FPk,c是对于重合类k被误分类为目标类c的像素的数量,TPc是对于目标类c的真阳性像素的数量。有关共现问题的更详细分析,请参阅补充资料。表2报告EPS始终显示出比其他方法更低SGAN [47]与我们的混淆率非常相似,但我们的方法在IoU方面更准确地捕获了目标类。有趣的是,SEAM显示出很高的混淆率,甚至比CAM更差。这是因为SEAM [41]通过应用自监督训练来学习覆盖目标对象的全部范围,这很容易被目标对象的重合像素所欺骗同时,CAM仅捕获目标对象的最有区别的区域,而不覆盖较少区别的部分,例如,重合类。我们也可以在图4中观察到这种现象。我们评估我们的地图选择策略的有效性我们将三种不同的地图选择策略合并到基线,该基线不使用地图选择模块。作为朴素的策略,前景图是所有对象局部化图的联合;背景图等于背景类的局部化图(即,naivestrategy)。接下来,我们遵循朴素策略,但有以下例外。几个预定类别的定位图(例如,沙发、椅子和餐桌)被分配给背景地图(即,预定义的类策略)。最后,所提出的选择方法利用定位图和显著图之间的重叠比率,如3.2节中所解释的(即,我们的适应策略)。表3表明,我们的自适应策略可以有效地处理显着图的系统偏差。朴素策略意味着在从定位图生成估计的显著图时没有偏见考虑。在这种情况下,伪掩模的性能降低,特别是在沙发、椅子或餐桌类上。使用预定义类的性能表明,可以通过忽略显着图中的缺失类来减轻偏差。然而,由于它需要人类观察者手动选择,因此不太实用,并且无法对每个图像做出最佳决策。同时,我们的自适应策略可以自动处理偏见,并对给定的显着图做出更有效的5.3. 与最新技术水平的比较伪掩码的准确性。我们通过聚合来自不同尺度的图像的预测结果来采用多尺度推断,这是[2,41]中使用的常见做法。然后,我们通过将我们的EPS与[52]第52话细化48.0通用报告格式[26]-AffinityNet [2]58.1美国[41]55.456.863.6ICD [32]CVPR59.962.2-[47]第62.8--我们的EPS69.471.471.65501(一)(b)第(1)款(c)第(1)款图5.PASCAL VOC 2012上分割结果的定性示例(a)输入图像,(b)地面实况和(c)我们的EPS。基 线 CAM [52] 和 三 种 现 有 技 术 的 方 法 , 即 ,[41][42][43][44][45][46][47 ][48][49]这里,测量训练集中的伪掩码的准确性是WSSS中的常见协议,因为训练集的伪掩码用于监督分割模型。表4总结了伪掩模的准确性,并表明我们的方法明显优于所有现有方法的大幅度(即,7图4可视化了伪掩模的定性示例,证实了我们的方法显着改善了对象边界,并且在伪掩模的质量方面显着优于三种最先进的方法。我们的方法可以捕获对象的精确边界(第2行),从而自然覆盖对象的全部范围(第3行),并且还减轻重合像素(第1行)。我们的方法的更多的例子和失败的情况下,提供在档案材料。分割图的准确性。 以前的方法[2,13,41]生成伪掩码,并使用CRF后处理算法[26]或亲和网络[2]对其进行细化。同时,如表4所示,我们生成的伪掩码足够准确,因此我们在没有对伪掩码进行任何额外细化的情况下训练分段网络我们在Pascal VOC 2012数据集中的四个分割网络上对我们的方法进行了广泛的评估和精确的比较。无论分割网络如何,我们的方法都比其他方法表现得更好表5报告了我们的方法比具有相同VGG16骨架的其他方法更准确。此外,我们在VGG 16上的结果与其他基于更强大的骨架(即VGG 16)的实验方法相当,甚至更好。表6中的ResNet101)。我们的方法也显示了一个明显的改进现有的方法。最后,表6证明了我们的方法(在基于ResNet 101的DeepLab-V1下,具有显着性图)在PASCAL VOC 2012数据集中实现了新的最先进性能我们强调,方法分段辅助核算价值检验[25]第二十五话V1I.50.751.7[2]第二届中国国际汽车工业展览会V1I.58.460.5ICD [13]CVPR'20V1I.61.260.9[32]第三十二话V1I.60.161.1[28]第二十八话V1一.+S.55.356.8[40]第四十话V1一.+S.56.257.6[48]第四十八话V1一.+S.57.158.6[20]第20话V2一.+S.59.060.4[19]第十九话V1一.+S.61.160.7美国[44]V1一.+S.60.460.8[27]第二十七话V2一.+S.61.261.9[21]第二十一话V1一.+S.63.162.8ICD [13]CVPR'20V1一.+S.64.063.9多重估计 [第14话]V1一.+S.64.664.2分裂&合并 [50]第50话V2一.+S.63.764.5[47]第四十七话V2一.+S.64.265.0我们的EPSV1一.+S.66.667.9V2一.+S.67.067.3表5.PASCAL VOC 2012上的分割结果(mIoU)所有结果均基于VGG16。在所有实验中,最好的分数以粗体显示。现有的最先进的模型实现的是大约1%。同时,我们的方法比以前的最佳记录高出3%图5显示了我们在PASCAL VOC 2012上的细分结果的定性示例。这些结果证实,我们的方法提供了准确的边界,并成功地解决了同现问题。在表7中,我们在COCO 2014数据集中进一步评估了我们的方法我们使用基于VGG 16的DeepLab-V2作为分割网络,与SGAN [47]进行比较,SGAN是COCO数5502据集中最先进的WSSS模型。我们的方法在验证集中实现了35.7 mIoU,比SGAN高1.9%[47]。因此,我们在COCO 2014数据集中实现了新的最先进的准确性在两个数据集上的现有最先进技术的这些出色表现证实了我们的5503(一)(b)第(1)款(c)第(1)款图6.MS COCO 2014上分割结果的定性示例(a)输入图像,(b)地面实况和(c)我们的EPS。方法分段辅助核算价值检验由于不同的显著性检测模型,我们采用了三种显著性模型; PFAN [51](我们的默认),OAA [21]和ICD [13]使用的DSS [18],以及USPS [34](即,无监督检测模型 ) 。 基 于 Resnet 101 的 DeepLab-V1 的 分 割 结 果(mIoU)分别为PFAN的71.0/71.8、DSS的70.0/70.1和USPS的68.8/69.9(验证集和测试集)。这些分数支持我们使用三种不同显着性模型中的任何一种的EPS仍然比表6中的所有其他方法更准确。值得注意的是,我们的EPS使用无监督显着性模型优于所有现有的方法使用监督显着性模型。我们的EPSV1 I.+ S.71.0 71.8V2 I.+ S.70.9 70.86. 结论我们提出了一种新的弱监督分段-表6.PASCAL VOC 2012上的分割结果(mIoU)所有结果基于ResNet101。方法分段辅助核算Val[25]第二十五话V1I.22.4[20]第20话V2一.+S.26.0美国[9]V1一.+S.30.8[47]第四十七话V2一.+S.33.6我们的EPSV2一.+S.35.7表7. MS COCO 2014上的分割结果(mIoU)。所有结果均基于VGG16。该方法充分利用了局部化图和显著性图,成功地捕捉到了目标对象的整体性,弥补了现有模型的不足图6显示了COCO 2014数据集上分割结果的定性示例。我们的方法表现良好,当几个对象出现没有遮挡,但在处理许多小对象的有效性较低。补充资料中提供了我们方法的更多显着性检测模型的效果。 去调查那个-的框架,即显式伪像素监督(EPS)。受局部化图和显著图之间的互补关系的启发,我们的EPS结合显著图和局部化图从伪像素反馈中学习。由于我们的联合培训计划,我们成功地补充了双方的噪音或缺失信息。因此,我们的EPS可以捕获精确的对象边界和丢弃的非目标对象的共现像素,显着提高伪掩模的质量。广泛的评估和各种案例研究证明了我们的EPS的有效性和出色的性能,以及PASCAL VOC 2012和MSCOCO 2014数据集上WSSS的最新精度。致谢。我们感谢Duhyeon Bang和Jun- suk Choe的反馈。本研究由MSIP资助的NRF Korea基础科学研究计划 ( NRF-2019 R1 A2 C2006123 , 2020 R1 A4A1016619)、MSIT资助的IITP资助(2020-0-01361,人工智能研究生院计划(YONSEI UNIVERSITY))和韩国政府资助的韩国医疗器械开发基金资助(项目编号:202011 D 06)支持。ICD [13]CVPR'20V1I.64.164.3美国[5]V1I.66.165.9[32]第三十二话V2I.65.766.6美国[31]V2I.66.567.5[40]第四十话V1一.+S.60.361.2[19]第十九话V1一.+S.63.162.8[20]第20话V2一.+S.61.463.2[27]第二十七话V2一.+S.64.965.3[21]第二十一话V1一.+S.65.266.4多重估计 [第14话]V1一.+S.67.266.75504引用[1] Jiwoon Ahn,Sunghyun Cho,和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE计算机视觉和模式识别会议论文集,第2209-2218页,2019年。2[2] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第4981二、六、七[3] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯图像标签的单阶段语义分割在IEEE计算机视觉和模式识别会议论文集,第4253-4262页2[4] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari Coco-stuff:上下文中的东西类. 在IEEE计算机视觉和模式识别会议论文集,第1209-1218页,2018年。5[5] 张玉婷,王乔松,洪伟智,罗宾逊,蔡义轩,杨明轩。通过子类探索的弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第8991-9000页二、八[6] 阿尔斯兰·乔杜里<法>来华传教士。Dokania,and PhilipH. S. 乇发现用于弱监督语义分割的类特定像素。在2017年英国机器视觉会议。2[7] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.使用深度卷积网络和全连接crfs的语义图像分割。2015年,在国际学习代表会议上。5[8] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络,atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2017。5[9] 崔俊锡,李承昊,沈贤贞。用于弱监督单对象局部化和语义分割的基于注意力的丢弃层。IEEE Transactions onPattern Analysis and Machine Intelligence,2020。二,五,八[10] Junsuk Choe,Seong Joon Oh,Seungho Lee,SanghyukChun,Zeynep Akata,and Hyunjung Shim.正确评估弱监督对象定位方法在IEEE计算机视觉和模式识别会议上,第3133-3142页,2020年2[11] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。Imagenet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别集,第248IEEE,2009年。5[12] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge : ARetrospective.International Journal of Computer Vision,111(1):98-136,2015. 5[13] 范俊松,张兆祥,宋春风,谭铁牛。学习完整的对象与类内映射弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第4283-4292页,2020年。二三四六七八[14] 范俊松,张兆祥,谭铁牛。采用多重估计进行弱监督语义分割。2020年欧洲计算机视觉会议论文集。二、七、八[15] 范俊松,张兆祥,谭铁牛,宋春风,萧军。Cian:用于弱监督语义分割的跨图像亲和网络。在AAAI人工智能会议集,第34卷,第107622[16] Chen Fan,Qibin Hou,Ming-Ming Cheng,Gang Yu,Ralph R Martin,and Shi-Min Hu.弱监督语义分割的图像间显著实例关联。在欧洲计算机视觉会议论文集,第367-383页,2018年。2[17] Bhara thHariharan,PabloArbela' ez,LubomirBourdev,Subhransu Maji,and Jitendra Malik.从逆检测器的语义轮廓2011年国际计算机视觉会议,第991-998页IEEE,2011年。5[18] Qibin Hou , Ming-Ming Cheng , Xiaowei Hu , AliBorji,Zhuowen Tu,and Philip HS Torr.具有短连接的深度监督法律程序中IEEE计算机视觉和模式识别会议,第3203-3212页,2017年。二,四,八[19] Hou Qibin,PengTao Jiang,Yunchao Wei,and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。神经信息处理系统的进展,第549-559页,2018年。七、八[20] 黄子龙,王兴刚,王佳思,刘文宇,王敬东。具有深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉和模式识别会议论文集,第7014-7023页,2018年。二、六、七、八[21] Peng-Tao Jiang , Qibin Hou , Yang Cao , Ming-MingCheng,Yunchao Wei,and Hong-Kai Xiong.通过在线注意力积累的整体对象挖掘。在IEEE计算机视觉国际会议论文集,第2070-2079页,2019年。二、三、四、七、八[22] Anna Khoreva , Rodrigo Benenson , Jan Hosang ,Matthias Hein,and Bernt Schiele.很简单:弱监督实例和语义分割。在IEEE计算机视觉和模式识别会议集,第876-885页,2017年。1[23] Dahun Kim,Donghyeon Cho,Donggeun Yoo,and InSo Kweon.弱监督目标定位的两阶段学习。在IEEE计算机视觉集,第3534一、二[24] 亚历山大·科列斯尼科夫和克里斯托夫·兰伯特。通过微标注改进弱监督目标定位。在Edwin R.理查德·汉考克Wilson和William A.史密斯,编辑,英国机器视觉会议论文集,第92.1-92.12页。BMVA Press,2016. 25505[25] 亚历山大·科列斯尼科夫和克里斯托弗·H·兰伯特。种子,扩展和约束:弱监督图像分割的三个原则。欧洲计算机视觉,第695Springer,2016.一、二、六、七、八[26] PhilippK réhenbuühl 和VladlenKoltun。具有高斯边缘势的全连通crfs的有效推理神经信息处理系统的进展,第109-117页,2011年。六、七[27] Jungbeom Lee,Eunji Kim,Sungmin Lee,Jangho Lee,andSungrohYoon.Ficklenet : Weaklyandsemi-supervised se-mantic image segmentation using stochasticinference.在IEEE计算机视觉和模式识别会议论文集,第5267-5276页,2019年。二、三、七、八[28] Kunpeng Li,Ziyan Wu,Kuan-Chuan Peng,Jan Ernst,and Yun Fu. Tell me where to look
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功