没有合适的资源?快使用搜索试试~ 我知道了~
1基于自校正网络的穆斯塔法·S. 西蒙弗雷泽大学msibrahi@sfu.caArash VahdatNVIDIAavahdat@nvidia.com马尼·兰杰巴尔体育报mani@sportlogiq.comWilliam G.Macready Sanctuarywgm@sanctuary.ai摘要使用高质量的对象掩模构建大型图像数据集进行语义分割是昂贵且耗时的。在本文中,我们介绍了一个原则性的半监督框架,它只使用一小部分完全监督的图像(具有语义分割标签和框标签)和一组只有对象绑定框标签的图像(我们称之为弱集)。我们的框架在辅助模型的帮助下训练主分割模型,该辅助模型为弱集生成初始分割标签,并在训练过程中使用越来越准确的主模型改进生成的标签。 我们介绍了两种变体的自校正模块使用线性或卷积函数。在PASCAL VOC2012和Cityscape数据集上进行的实验表明,我们用一个小的全监督集训练的模型的性能类似于或更好相比之下,使用大型全监督集训练的模型,同时需要的注释工作量减少了2.71. 介绍深度卷积神经网络(CNN)已经在许多计算机视觉任务中取得了成功,包括图像分类[28,19,76],对象检测[45,34,43],se-Mantic分割[4,71,9],动作识别[14,25,49,55]和面部标志定位[53,69,75]。然而,所有这些成功的共同先决条件是大型标记图像训练语料库的可用性。在这些任务中,语义图像分割是数据注释方面成本最高的任务之一例如,在对象上绘制分割注释平均比绘制边界框慢1.8x,比标记图像中对象的存在慢1.78x[5]。作为结果,大多数图像分割数据集的量级小于图像分类数据集。在本文中,我们使用一种半监督方法来减轻语义分割的数据需求,该方法在训练中利用廉价的对象边界框标签这种方法在D-Wave Systems实习期间完成的工作以需要推断边界框内的对象的掩码标签为代价降低了数据注释要求。当前最先进的半监督方法通常依赖于手工制作的几何学来推断边界框内的对象掩码[41,12,26]。相比之下,我们提出了一个原则性的框架,在半监督设置中使用一小组完全监督的图像(具有语义对象掩码和边界框)和一组弱图像(仅具有边界框注释)来训练语义分割模型。全监督集首先用于训练辅助分割模型,该模型预测弱集上的对象掩码。使用该增强的数据,训练主分割模型。该主要分段模型是概率性的,以适应由辅助模型生成的掩码标签的不确定性。训练被公式化,使得提供给主模型的标签在训练期间从初始辅助掩码标签被细化为随着其改进而从主模型本身获得的更准确的因此,我们称我们的框架为自校正分割模型,因为它基于其当前的对象掩码概率模型改进了弱监督标签。我们提出了两种自我纠正机制的方法首先,受Vahdat [56]的启发,我们使用了一个线性组合辅助和模型预测的函数。我们表明,这种简单而有效的方法是最小化加权Kullback-Leibler(KL)分歧从分布在segmenta- tion标签的辅助和主要模型的自然结果。然而,这种方法需要定义一个权重,其最佳值应该在训练期间改变。有了这个动机,我们开发了第二种自适应自我纠正机制。我们使用CNN来学习如何结合辅助模型和主模型来预测弱图像集的分割这种方法消除了对称重时间表的需要。在 PASCAL VOC 和 Cityscapes 数 据 集 上 的 实 验 表明,我们用一小部分完全监督集训练的模型的性能与用1271512716所有的监控图像2. 相关工作语义分割:全卷积网络(FCN)[37]已经成为语义图像分割不可或缺的模型。FCN的许多成功应用依赖于无环卷积[65](在不缩小图像的情况下增加网络的接收场)和密集条件随机场(CRF)[27](作为后处理[6]或作为分割模型的组成部分[73,33,48,36])。最近的努力集中在基于编码器-解码器的模型上,该模型使用编码器网络来提取长距离信息,编码器网络的输出被传递到解码器网络,解码器网络生成高分辨率分割预测。SegNet [4]、U-Net [46]和RefineNet [32]是使用不同机制将信息从编码器传递到解码器的此类模型的示例。[1]另一种捕获远程上下文信息的方法是空间金字塔池[29]。ParseNet [35]将全局上下文特征添加到空间特征中,DeepLabv2 [7]使用atrous空间金字塔池(ASPP),PSPNet [71]在几个尺度上引入空间金字塔池用于分割问题。虽然可以使用其他分割模型,但我们使用DeepLabv3+ [9]作为我们的分割模型,因为它使用简单的阶乘输出优于先前基于CRF的DeepLab模型。DeepLabv3+取代了Deeplabv3[8]与Xception网络的骨干网[10]并将其具有使用编码器的较低分辨率特征图的简单两级解码器。强大的培训:从边界框信息训练分割模型可以被公式化为从噪声标记实例中鲁棒学习的问题。以前的鲁棒学习工作集中在具有少量输出变量的分类问题上。在此设置中,一个常见的简化假设将输出标签上的噪声建模为独立于输入标签上的噪声。把[40,39,42,52,70]。然而,最近的工作已经解除了这一约束,以基于每个实例的内容依赖于输入的噪声)。Xiao等[63]使用一个简单的二进制指示符函数来表示每个实例是否具有噪声标签。Misra等人[38]独立表示每个类别的标签噪声。Vahdat [56]提出CRF来表示噪声和干净标签的联合分布,将结构模型[57,58]扩展到深度网络。Ren等人[44]通过在训练期间重新加权每个实例来获得对噪声标签的鲁棒性,而Dehghani等人[13]根据标签上的置信度分数重新加权梯度。在建议用于标签的1SegNet [4]将最大池化索引从编码器传输到解码器,U-Net [46]在编码器-解码器网络之间引入跳过连接,RefineNet [32]通过长距离残差块在解码器中提出多路径细化。校正,Veitet al. [59]使用神经回归模型来预测给定噪声标签和图像特征的干净标签,Jiang等人。[24]学习课程,和田中等。[54]使用当前模型预测标签。所有这些模型都仅限于图像分类问题,尚未应用于图像分割。半监督语义分割:本文的重点是使用绑定框注释来训练深度分割CNN帕潘德里欧等[41]在DeepLabv1 [6]的基础上提出了一种基于期望最大化(EM)的算法,以估计弱图像集的分割标签在每个训练步骤中,基于EM方式的网络输出来估计分割标签。Dai等人[12]提出一种迭代训练方法,在生成区域建议(从固定建议池中)和微调网络之间交替。类似地,Khoreva等人[26]使用迭代算法,但依赖于GrabCut [47]和手工制作的规则在每次迭代中提取分割掩码我们的工作在两个重要方面不同于这些以前的方法:i)我们用辅助CNN替换手工制作的规则,用于为弱集的框内的对象提取概率分割标签。ii)我们使用自校正模型来校正训练期间辅助CNN的输出与主分割模型之间的失配除了框注释,分割模型可以使用其他形式的弱注释,例如图像像素级[60,62,22,3,17,61,15],图像标签,水平[68],涂鸦[64,31],点注释[5]或网络视频[20]。最近,针对这个问题也提出了基于对抗学习的方法[23,51我们的框架是对其他形式的监督或对抗性培训的补充,可以与它们一起使用。3. 方法我们的目标是训练一个语义分割网络在使用两个训练集的半监督设置中:i)小的全监督集(包含图像、分割地面实况和对象边界框)和ii)弱集(仅包含图像和对象边界框)。我们的框架的概述如图所示。1.一、有三种型号:i)主分割模型生成给定图像的对象的语义分割。ii)辅助分割模型输出给定图像和边界框的分割。该模型为弱集生成初始分割,这有助于训练主模型。 iii)自校正模块细化由用于弱集的辅助和当前主模型生成的分割模拟模型和主要模型都基于DeepLabv3+[9]。然而,我们的框架是通用的,可以使用任何现有的分割模型。12717f=1w=1图1:我们的分割框架概述,包括三个模型:i)主分割模型生成给定图像的对象的语义分割这是一个主要的模型,在训练和测试时使用ii) 辅助分割模型输出给定图像和边界框的分割。该模型为弱集生成初始分割,这将有助于训练主模型。iii)自校正模块细化由辅助模型和针对弱集的当前主模型生成的分割。主模型使用交叉熵损失进行训练,该交叉熵损失将其输出与完全监督示例的地面实况分割标签或由自校正模块为弱集生成的软精炼标签相匹配。节中3.1,我们提出了辅助模型,并在Sec. 3.2,我们展示了一种简单的方法来使用这个模型来训练主模型。节中3.3和Sec.3.4,我们提出了自校正模型的两个变体。符号:x表示图像,b表示图像中的对象边界框,并且y=[y1,y2,. . .,yM]表示分割标签,其中ym∈[0,1]C+1,对于m∈ {1,2,. . .,M}是第m个像素的独热标签,C是用背景类,M是像素的总数。每个边界框都与一个对象相关联,并具有一个前景标签。 全监督[41,12,26]的机制。后一个过程通常在从图像的分割提取和使用边界框信息的标签细化之间迭代(例如,通过将框外的掩模归零)。这种过程的主要问题是i)边界框信息不直接用于提取分割掩模,ii)由于是手工设计的,该过程可能是次优的,以及iii)当多个框重叠时,分割变得模糊。在本文中,我们采取了不同的方法,通过设计一个辅助分割模型,该模型在给定图像和边界框注释的情况下形成每像素的标签分布数据集表示为F={(x(f ),y(f ),b(f ))}F哪里第该模型很容易使用完全监督F是F中的实例总数。类似地,可以将集合(F)和用作图1中的图像的训练信号。弱集记为W={(x(w),b(w))}W. 我们使用W. 在推理时,图像及其边界p(y|x; φ)表示主分割模型,|x,b; θ)表示辅助模型。φ和θ是每个模型的相应参数。 我们偶尔删除参数的表示以提高可读性。我们认为辅助模型和主模型都定义了一个分布,使用阶乘分布的分段标签的划分,盒被馈送到网络以获得PANC(Y|x(w),b(w)),分割标签分布。我们在设计辅助模型时的关键观察是,基于编码器-解码器的分割网络通常依赖于从图像分类模型初始化的编码器(例如,ImageNet预训练模型)。也就是说,p(y|x; φ)=QMMm=1 pm(ym|x; φ)和panc(y|x,b;θ)=这通常会通过以下方式提高分割性能:m=1 panc ,m(ym|x,b; θ),其中每个因子(pm(ym|x; φ)或panc,m(ym|x,b;θ))是范畴分布(在C+1范畴上)。3.1. 辅助细分模型带边界框注释的分割模型的半监督训练的关键挑战是推断框内对象的分割。现有的解决此问题的方法主要依赖于手工制作的基于规则的过程,如GrabCut [47]或迭代标签转移 知识 从 大图像分类数据集。为了保持同样的优势,我们用一个并行的边界框编码器网络来增强基于编码器-解码器的分割模型,该网络以不同的尺度嵌入边界框信息(见图2)。2)。边界框编码器的输入是表示边界框的二值化掩码的3D张量和表示编码器输出的目标尺寸的3D形状将输入遮罩张量调整为目标形状然后通过一个3×3的卷积层,地面实况标签初级逐像素分割模型预测交叉熵损失精致的软标签图像边界框辅助细分模型自校正模块当前批次弱集(W)停止坡度全套(F)12718分段编码器框信息引导辅助模型在推理时寻找框内的对象。训练主模型的最简单方法是使用全监督集F上的地面实况标签和辅助模型在弱集W上生成的标签来训练它进行预测。对于该培训的指导是优化:ΣMaxφf∈FΣlogp(y(f ))|x(f );φ)+(2)Σw∈Wpanc(y|x(w),b(w); θ)log p(y|x(w); φ),y分段解码器图2:辅助细分模型概述。我们通过引入嵌入框信息的边界框编码器来修改现有的编码器-解码器分割模型。边界框编码器的输出在经过S形激活之后充当注意力图。来自编码器的不同尺度的特征图与注意力图融合(使用逐元素乘法),然后传递给解码器。激活。所得到的张量可以被解释为注意力图,该注意力图被逐元素地乘以由分割编码器生成的图2显示了两种不同尺度下的两条路径,如DeepLabv3+架构中那样。对于每个尺度,生成注意力图,使用逐元素乘法与对应的特征图融合,并馈送到解码器。对于大小为W × H ×3的图像,我们使用大小为W×H×(C+1)的二进制掩码来表示其对象边界框,该掩码对C+1个二进制掩码进行编码如果一个像素的第c个二进制掩码在一个边界内,C级的箱子如果背景蒙版中的像素未被任何边界框覆盖,则该像素的值为1。使用完整数据集F上的交叉熵损失来训练辅助模型:Σ其中,第一项是与作为目标的独热地面实况标签的交叉熵损失,第二项是与作为目标的由PANC请注意,由θ参数化的辅助模型是固定的。我们称这种方法为无自校正模型,因为它直接依赖于辅助模型来训练W中示例的主模型。3.3. 线性自校正当量2依赖于辅助模型来预测弱集上的标签分布然而,该模型仅使用F的实例进行训练,而没有受益于W中的数据。最近的几项工作[41,12,26,54,56]通过使用主模型本身(因为它正在F和W上进行训练)将W中的信息合并到W中,以提取W上更准确的标签分布。Vahdat [56]介绍了一种正则化期望最大化算法,该算法使用KL分歧的线性组合来推断一般分类问题的缺失标签的分布。 主要的见解是假设分布q(y|x,b)在标签上的分布应接近辅助模型p anc(y)生成的分布|x,b)和主模型p(y|X)。不过,既然原始模型无法预测在训练的早期准确的分割掩模,这两个项使用正比例因子α重新加权:最小KL(q(y|x,b)||p(y|x))+α KL(q(y|x,b)||panc(y|(x,b))。(三)QMaxθf∈Flogpanc(y(f )|x(f ),b(f );θ),(1)Eq.的全局最小值3作为两个分布的加权几何平均值获得:它可以在阶乘分布下解析地表示,y x b.y xαΣ1y x b假设。 这种模式是固定的子-q(y|x,b)p(y|x)pANC(y|x,b)α+1。(四)后续实验。3.2.无自校正由于panc(y)|x,b)和p(y|x)分解为y的分量上的概率的乘积,并且由于在每个分量上分布iQ是广义的,则我们根据经验观察到,我们的一个-q(y|x,b)=Mm=1 qm(ym|x,b)也是阶乘,其中纤毛模型优于不有盒子的信息。这主要是因为,每个组合的分类分布参数通过将softmax激活应用于边界框编码器预测比例尺秤212719.Σ线性组合的logits来自主要和一个,.ancΣ这里的挑战是训练这个子网络,使它比ei更准确地预测分割标签。使用σ lm+α lm/α+1的纤毛模型。这里,σ(. )是softmax函数,lm和lanc是生成的对数therpanc(y)|x,b)或p(y|X)。 为此,我们引入一个目标函数中的第m个附加项,用于训练通过用于M像素的主模型和辅助模型。设q(y)为固定值,|x(w),b(w))在训练初级模型的每个迭代中的弱集上,我们可以训练初级模型,使用F中的训练示例创建子网络,同时在整个数据集上训练主模型:玛丽模型使用:ΣMaxφ,λΣlogp(y(f ))|x(f );φ)+(6)FMaxφlogp(y(f ))|x(f );φ)+(5)FΣΣqconv(y|x(w),b(w); λ)log p(y|x(w); φ)+ΣΣWyq(y|x(w),b(w))log p(y|x(w); φ)。ΣWylogqconv(y(f))|x(f),b(f);λ),F注意,等式中的α 3控制q与p(y)的接近程度|x)和panc(y|x,b)。当α=∞时,我们有q=panc(y|x,b)和方程中的线性自校正。五是要抓落实。2,而α=0恢复q=p(y|X)。有限的α保持q接近于p(y|x)和panc(y|x,b)。在训练开始时,panc(y|x,b)不能准确地预测分割标签分布。因此,我们定义一个时间表,其中,α在主模型的训练期间从大值减小到小值。该校正模型被称为线性自校正模型,因为它使用KL发散的线性组合的解(等式10)。3)推断潜在分割标签上的分布。2由于主模型3.4. 卷积自校正线性自校正的一个缺点是在训练期间调整α时间表所需的超参数搜索。在本节中,我们提出了一种方法,通过用学习自校正机制的卷积网络代替线性函数来克服这个困难因此,当训练主模型时,网络自动动态地调整机制。如果主模型准确地预测标签,则该网络可以将其预测转向主模型。图3示出了卷积自校正模型的架构。这个小网络接受由panc(y)生成的logit|x,b)和p(y|x)建模和生成阶乘分布qconv(y|x,b; λ)过分割其中λ表示子网的参数卷积自校正子网络由两个卷积层组成。这两个层都使用3×3内核和ReLU激活。第一层有128个输出特征图,第二层有基于数据集中类别数量的特征图。2原则上,qm(ym)的logits|x,b)可以通过将1×1卷积层应用于具有固定平均核的L和LANC的深度方向级联来获得。这促使我们开发了convo-在第二节中的逻辑自校正模型。3.4使用可训练的内核。其中第一项和第二项在F和W上训练初级模型(我们在第二项中不通过q反向传播),最后一项训练卷积自校正网络。由于qconv子网络是随机初始化的,因此在训练过程中,它无法在早期准确预测W上的分割标签。为了克服这个问题,我们提出了以下预训练过程:1. 辅助模型的初始训练:与复杂的自校正模型一样,我们需要训练模拟模型。这里,完全监督集(F)的一半用于此目的。2. Conv 的 初始 培训 自校 正网 络: 完全 监督 数据(F)用于训练主模型和卷积自校正网络。这是使用方程中的第一项和最后一项来完成的。六、3. 主要培训:整个数据(F和W)用于使用方程中的目标函数微调先前的模型。六、在阶段1中使用一半F背后的基本原理是,如果我们使用所有F来训练panc(y|x,b)模型,它将训练以在该集合上几乎完美地预测分割掩码,因此,卷积自校正网络的后续训练将仅学习依赖于panc(y|x,b)。为了克服这个训练问题,F的后半部分被用来帮助自校正网络学习如何组合panc(y|x,b)和p(y|X)。4. 实验在 本 节 中 , 我 们 将 在 PASCAL VOC 2012 和Cityscapes数据集上评估我们的模型。这两个数据集都包含对象分割和边界框注释。我们将完整的数据集注释分为两部分,以模拟完全和半监督设置。与[9,41]类似,性能使用可用类的平均交并(mIOU)来衡量。12720主要Logits改进的辅助Logits软标签图3:卷积自校正模型学习细化输入标签分布。子网络从主模型和辅助模型接收logit,然后将输出连接并馈送到两层CNN。训练:我们使用DeepLabv3+ [9]的公共Tensorflow [1]实现作为主要模型。我们使用0.007的初始学习率,并从ImageNet预训练的Xception-65模型中训练模型30,000步[9]。3对于所有其他参数,我们使用其他作者建议的标准设置。在评估时,我们对图像应用翻转和多尺度处理,如[9]所示。我们使用4个GPU,每个GPU有一批4个图像。我们在所有实验中定义了以下基线1. 旧型号:这是辅助模型,介绍了在第二节。3.1,在给定图像及其对象边界框的情况下预测语义分割标签。该模型预计将比其他模型表现更好,因为它使用边界框信息。2. 无自我纠正:这是使用第二节中介绍的模型训练的主要模型。3.2.3. 是林书自我纠正:这是使用线性自校正训练的主要模型,如第二节所述。三点三4. Conv.自我纠正:如第二节中所述,使用卷积自校正训练的主模型。三点四分。5. EM固定基线:由于我们的线性自校正模型来自正则 化EM模 型[56], 因此 我们 将我 们的 模型 与Papandreou等人的模型进行比较。[41]这也是一个基于EM的模型。我们使用DeepLabv3+实现了他们的EM固定基线,以进行公平比较。这一基线取得了最好的结果,[41]半监督学习。对于线性自校正,α控制KL发散偏倚的权重,大α有利于辅助模型,小α有利于主要模型。我们探索了α的不同起始值和终止值,中间是指数衰减。 我们发现初始值α=30,最终值α=0。5对两个数据集都表现良好。该参数设置是稳健的,因为这些值的适度变化几乎没有影响。3请注意,我们不初始化MS-COCO预训练模型的参数。4.1. PASCAL VOC数据集在本节中,我们评估了PASCAL VOC 2012分割基准[16]上的所有模型。该数据集由1464个训练图像、1449个验证图像和1456个测试图像组成,覆盖了20个前景对象类和一个用于分割的背景类。[18]提供了9118个训练图像的辅助数据集。然而,我们怀疑[18]的分割标签包含少量噪声。在本节中,我们将原始PASCAL VOC训练数据集和辅助集的并集称为训练集。我们主要在验证集上对模型进行评估,并且使用在线评估服务器在测试集上仅对最佳模型进行一次评估在表1中,我们展示了我们模型的不同变体对于不同大小的全监督集F的性能。训练集中的其余示例用作W。我们从表1中进行了几个观察:i)在给定图像及其对象边界框的情况下预测分割标签的辅助模型即使在用小至200个图像的训练集训练时也表现良好这表明,该模型也可以为缺乏分割标签的弱集提供良好的训练信号。ii)线性自校正模型通常比没有自校正模型执行得更好,这支持了我们的想法,即组合用于推断分割标签的主模型和辅助模型导致主模型的更好训练。iii) 卷积自校正模型的性能与线性自校正相当或更好,同时无需定义α计划。图4显示了这些模型的输出。#F中的图像2004008001464旧型号81.57 83.56 85.36 86.71无自我纠正78.75 79.19 80.39 80.34是林书自纠79.43 79.59 80.69 81.35Conv. 自纠78.29 79.63 80.12 82.33表1:PASCAL VOC 2012确认集上模型的消融研究,使用不同尺寸F的mIOU。对于最后三行,训练集中剩余的图像被用作W,即W+F=10582。表2比较了我们的模型与不同基线和公布结果的性能在这个实验中,我们使用1464幅图像作为F,使用最初来自辅助数据集的9118幅图像作为W。这两种自校正模型都取得了相似的结果,并优于其他模型。令人惊讶的是,我们的半监督模型优于全监督模型。我们假设两个可能的解释这一观察。首先,这可能 是 由 于 9k 辅 助 集 [18] 中 的 标 签 噪 声 对 VanillaDeepLapv3+的性能产生了负面影响。作为ev-3×3Conv3×3Convσ12721同一性,Fig.图5将辅助模型的输出与地面实况注释进行比较,并突出显示了一些未正确标记的实例。其次,性能增益也可能是由于标签不确定性和自校正的显式建模。为了测试这一假设,我们在原始PASCALVOC 2012训练集4中仅对1.4K实例进行了训练,并在验证集上获得了68.8%的mAP。然而,如果我们在相同的训练集上训练卷积自校正模型,并允许模型使用自校正5来细化地面实况标签,则我们得到高达76.88%的mAP(边界框顶部的卷积自校正产生75.97%mAP)。这表明,使用鲁棒损失函数对噪声进行建模并允许自校正可以显著提高分割模型的性能。这与已被证明对边缘检测有效的自校正方法[66,2]相一致,并且与使用具有独热注释掩码的交叉熵来训练模型的常见分割目标形成对比与我们的方法和推理非常相似,[67]使用logits来训练使用知识蒸馏技术的轻量级姿势估计模型。不 幸 的 是 , 最 先 进 的 模 型 仍 然 使 用 旧 版 本 的DeepLab。 我们无法使用DeepLabv3+重新实现这些方法中的大多数,也无法使用旧版本重新实现我们的工作 。 唯 一 的 例 外 是 EM 固 定 基 线 [41] 。 我 们 使 用DeepLabv3+的重新实现在验证集上达到了79.25%,而原始论文使用DeepLabv1报告了64.6%。在表2的下半部分,我们记录了以前发布的结果(使用旧版本的DeepLab)。仔细检查的结果表明,我们的工作优于以前的工作,因为我们的半监督模型优于完全监督模型,而以前的工作通常没有。最后,比较表1和表2,我们可以看到,F=200和W=10382,我们的线性自校正模型的表现与使用整个数据集训练的DeepLabv3+相似。使用[5]中报告的标记成本,这理论上转化为注释成本的2.77倍减少。4.2. Cityscapes数据集在本节中,我们评估了Cityscapes数据集[11]的性能,该数据集包含从不同季节在城市行驶的汽车中收集的图像。该数据集具有高质量的注释,但是某些实例被过度/欠分割。它由2975个训练、500个验证和1525个测试图像组成,覆盖了19个用于分割的前地对象类(材料和对象4排除辅助集以避免潜在的噪声标签。5对于本实验,1.1K图像用作F,364图像用作W。对于W,我们让自校正模型来细化原始的地面真值标签。数据拆分方法Val测试FW1464 9118无自校正80.34 81.611464 9118是林书自校正81.35 81.971464 9118Conv. 自校正82.33 82.721464 9118[41]第四十一话79.25-10582-香草DeepLabv3+[9]81.21-1464 9118[12]第十二话63.5-1464 9118[41]第四十一话65.1-1464 9118[26]第二十六话65.8-1464 9118FickleNet [30]65.8-1464 9118Song等人[50个]67.5-10582-香草DeepLabv1 [6]69.8-表2:PASCAL VOC 2012确认和测试集的结果。最后三行报告了具有相同注释的先前半监督模型的性能。#F中的图像200450914旧型号79.4 81.19 81.89无自我纠正73.69 75.10 75.44是林书自纠73.56 75.24 76.22Conv. 自纠69.38 77.16 79.46表3:我们的模型在Cityscapes验证集上的消融研究,使用不同尺寸F的mIOU。对于最后三行,训练集中的剩余图像被用作W,即,W+F=2975。数据拆分方法MiouFW914 2061无自校正75.44914 2061是林书自纠76.22914 2061Conv. 自纠79.46914 2061[41]第四十一话74.972975-香草DeepLabv3+我们的77.49表4:Cityscapes验证集的结果。30%的训练样本用作F,其余的用作W。任务然而,这些类别中的8个是扁平或结构标签(例如,道路、人行道、建筑物等),并且这种类的极为了创建类似于PASCAL VOC数据集的对象分割任务,我们仅使用11个类(杆、交通灯、交通标志、人、骑手、汽车、卡车、公共汽车、火车、摩托车和自行车)作为前景类,所有其他类都作为背景。由于标签的这种修改,我们只报告验证集的结果,因为服务器上的测试集对所有类进行评估。我们不使用数据集中的粗略注释训练数据。12722输入图像地面实况辅助模型无自校正线。自校正转换器自纠图4:PASCAL VOC 2012验证集的定性结果。最后四列表示表1的列1464中的模型。Conv自校正模型通常比其他模型更好地分割对象。输入图像地面实况辅助热图输入图像地面实况辅助热图图5:PASCAL VOC 2012辅助(弱集)的定性结果。辅助模型的单个类的热图显示了几个示例。辅助模型可以成功地校正这些图像中缺失或过度分割的对象的标签(由椭圆标记)。表3报告了我们的模型对于越来越多的图像的性能,如F,表4将我们的模型与类似于先前数据集的几个基线进行了比较。在PASCAL数据集上观察到的相同结论和见解适用于Cityscapes数据集,表明我们的自我纠正框架的有效性。5. 结论在本文中,我们提出了一个半监督框架,用于使用一小组完全标记和一组弱标记来训练深度CNN分割模型。图像(仅框注释)。我们引入了两种机制,使底层的主模型能够纠正辅助模型提供的弱标签。所提出的自校正机制结合了主模型和辅助模型使用线性函数或可训练CNN进行的预测。实验表明,我们提出的框架优于 以 前 的 半 监 督 模 型 在 PASCAL VOC 2012 和Cityscapes数据集。我们的框架也可以应用于实例分割任务[21,74,72],但我们将进一步的研究留给未来的工作。12723引用[1] Mart 'ın Abadi,Ashish Agarwal,et al.Tensorflow:异构分布式系统上的大规模机器学习。2016. 6[2] David Acuna,Amlan Kar,and Sanja Fidler. 魔鬼在边缘:从嘈杂的注释中学习语义边界在CVPR,2019年。7[3] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议(CVPR),2018。2[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。2015. 一、二[5] Amy Bearman,Olga Russakovsky,Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议(ECCV),2016。一、二、七[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割。2015年,国际学习代表会议(ICLR)。二、七[7] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。Deeplab:使用深度卷积网络、无纹理卷积和全连接crf进行语义图像 分割 。IEEE Transactions on Pattern Analysis andMachine Intelligence(TPAMI),2017。2[8] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。2017. 2[9] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV),2018。一、二、五、六、七[10] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习在IEEE计算机视觉和模式识别会议(CVPR),2017。2[11] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议(CVPR),2016年。7[12] 戴季峰、何开明、孙建。Boxsup:利用边界框来监督卷积网络进行语义分割。IEEEInternational Conferenceon Computer Vision(ICCV),2015年。一二三四七[13] Mostafa Dehghani, Arash Mehrjou , Stephan Gouws ,Jaap Kamps , andBernhardSch o? l k opf. Fidelity-weightedlearning-ing。在国际学习代表会议(ICLR),2018年。2[14] JeffreyDonahue , LisaAnneHendricks , SergioGuadarrama,MarcusRohrbach,SubhashiniVenugopalan,Kate Saenko,和特雷弗·达雷尔用于视觉识别和描述的长期递归卷积网络。在Proceedings of the IEEE conference on computervision and pattern recognition,pages 2625-2634,2015中。1[15] Thibaut Durand,Taylor Mordan,Nicolas Thome,andMatthieu Cord. WILDCAT:用于图像分类、逐点定位和分割的深度卷积神经网络的弱监督学习。在IEEE计算机视觉和模式识别会议(CVPR),2017。2[16] Mark Everingham,S. M. Ali Eslami,Luc J.放大图片作者:Christopher K. I. 约翰·威廉姆斯韦恩和安德鲁·齐瑟曼 。 pascal visual object classes 挑 战 : 回 顾 过 去 。International Journal of Computer Vision(IJCV),2015年。6[17] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据在IEEE计算机视觉和模式识别会议(CVPR),2018年。2[18] 放大图片创作者:Bharath Hariharan,Pablo Arbelaez,Lubomir D. Bourdev , Subhransu Maji , and JitendraMalik. 从反 向检 测器的 语义轮 廓。IEEEInternationalConference on Computer Vision(ICCV),2011年。6[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别(CVPR)中,第770-778页,2016年。1[20] Seunhoon Hong,Donghun Yeo,Suha Kwak,HonglakLee,and Bohyung Han.使用网络抓取视频的弱监督语义分割在IEEE计算机视觉和模式识别会议,2017年。2[21] Ronghang Hu , Piotr Dollr , Kaiming He , TrevorDarrell,and Ross Girshick.学会把每一件事都分割开来。在IEEE计算机视觉和模式识别会议(CVPR),2018。8[22] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉和模式识别会议(CVPR),2018年。2[23] W.- C.洪,Y H. Tsai,Y.- T.刘,Y.- Y. Lin和M.-H.杨半监督语义分割的对抗学习。英国机器视觉会议(BMVC),2018年。2[24] Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei.Mentornet:在损坏的标签上正则化非常深的神经网络在2018年的国际机器学习会议(ICML)上2[25] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议的论文集,第1725-1732页,2014年。1[26] Anna Khoreva 、 RodrigoBenenson 、 JanHendrikHosang、Matthias Hein和Bernt Schiele。简单做到:弱监督实例和语义分割。在IEEE计算机视觉和模式识别会议(CVPR),2017。一二三四七12724[27]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功