没有合适的资源?快使用搜索试试~ 我知道了~
8219△图半监督语义分割基于类记忆库的像素级对比学习伊尼戈·阿隆索1阿尔贝托·萨巴特1大卫·费斯特尔2 路易斯·蒙特萨诺1,3安娜·C。Murillo11RoPeRT组,在DIIS-I3 A,西班牙2Magic Leap,苏黎世,瑞士3Bitbrain,萨拉戈萨,西班牙{inigo,asabater,montesano,acm}@ unizar.es,dferstl@magicleap.com摘要这项工作提出了一种新的半监督语义分割方法这种方法的关键元素是我们的对比学习模块,该模块强制分割网络在整个数据集上为同类样本产生类似的像素级特征表示为了实现这一点,我们保持一个内存库,这是不断更新的相关和高质量的特征向量标记的数据。在端到端训练中,来自标记数据和未标记数据的特征被优化为与来自存储库的同类样本相似。我们的方法不仅优于半监督语义分割的当前最先进技术,而且还优于众所周知的公共基准上的半监督域自适应,并且在最具挑战性的场景上有较大的改进,即,较少可用的标记数据。代码可在https://github.com/Shathe/SemiSeg-Contrastive获得1. 介绍语义分割的目标在于为图像中的每个像素分配语义类标签。这是用于语义场景理解的基本计算机视觉任务,其在许多应用(诸如医学成像[30]或自动驾驶[2])中起相关作用对于许多其他计算机视觉任务,深度卷积神经网络在语义分割方面已经显示出显著的改进[2,19,1]。所有这些例子都遵循监督学习方法,需要大量的注释数据来很好地概括然而,标记数据的可用性是监督学习中的一个常见瓶颈,特别是对于诸如语义分割这样的任务,这需要繁琐且昂贵的每像素注释。半监督学习假设仅标记可用数据的小子集它解决了图1. 建议对比学习模块概述。在每次训练迭代时,教师网络f ξ用来自标记样本的所选特征的子集来更新特征存储库。然后,学生网络f θ从标记样本和未标记样本中提取特征,这些特征被优化为与记忆库○中的同类特征相似。通过从未标记的样本中提取知识来限制标记的数据。半监督学习已被应用于广泛的应用[37],包括语义分割[11,17,26]。先前的半监督分割工作主要基于每样本熵最小化[17,21,28]和每样本一致性regu。larization [11,36,28]。这些分割方法不对所学习的特征实施任何类型的结构以增加整个数据集上的类间可分性我们的假设是,克服这一限制可以带来更好的特征学习和性能,特别是当可用的标记数据量较低时。本工作提出了一种新的半监督语义分割方法,遵循师生方案8220其主要组件是新颖的表示学习模块(图1)。该模块基于仅正对比学习[5,14],并在不同样本之间强制执行像素级特征的类可分离性。为了实现这一点,教师网络仅从标记的数据中产生特征候选项,并将其存储在一个记忆库。同时,学生网络学习从标记和未标记的数据中产生类似的类特征。存储在存储器组中的特征基于它们的质量和学习的相关性来选择,以用于对比优化。除了增加的类间可分性之外,该模块还强制在特征空间中对齐未标记和标记的数据(存储库),这是半监督语义分割中另一个未开发的想法总之,我们提出了一种用于半监督语义分割的新框架,其中主要贡献如下:• 用于半监督语义分割的像素级对比学习方案,其中元素基于其相关性加权。• 使用存储器组从标记数据中获得高质量我们在知名的半监督语义分割基准上评估我们的方法除此之外,我们还证明了我们的方法可以自然地处理半监督域自适应任务,也获得了最先进的结果。在所有情况下,可比方法的改进随着未标记数据的百分比而增加。2. 相关工作本节总结了半监督学习和对比学习的相关工作,特别强调了与语义分割相关的工作。2.1. 半监督学习伪标签伪标签利用为未标记数据创建人工标签的想法[24,32],通过现有模型[21]保留最有可能预测的类别。使用伪标签的动机是熵最小化[13],鼓励网络在未标记数据上输出高度置信的概率。伪标记和直接熵最小化方法通常用于半监督场景[9,20,33,28],显示出很好的性能。我们的方法利用伪标签和直接熵最小化。一致性正则化一致性正则化依赖于模型应该对扰动不变的假设,例如,对同一图像进行的数据增强。这种正则化通常通过使用两种不同的方法来应用:分布对齐[3,31,35],或增强锚定[33]。虽然分布对齐强制扰动和非扰动样本的预测具有相同的类分布,但增强锚定强制它们具有相同的语义标签。为了在未标记的数据上产生高质量的非扰动类分布或预测,Mean Teacher方法[36]提出了一种教师-学生方案,其中教师网络是模型参数的指数移动平均(EMA),产生更稳健的预测。2.2. 半监督语义分割半监督语义分割的一种常见方法是利用生成对抗网络(GAN)[12]。Hung等人[17]建议训练鉴别器以区分来自标记和未标记数据预测的置信度图Mittal等人[26]利用两个分支的方法,一个分支使用GAN方法执行低熵预测,另一个分支使用Mean Teacher方法去除假阳性预测[35]。Feng等人提出了类似的想法。[10],最近的一项工作,介绍了动态相互训练(DMT)。DMT使用两个模型,模型的不一致性被用来重新加权损失。DMT方法还遵循CBC [9]的多阶段训练协议其他工作是基于数据增广- mentation方法的一致性正则化。French等人[11]专注于应用CutOut [7]和CutMix [45],而Olsson等人。[28]提出了一种专用于语义分割数据增强技术。2.3. 对比学习对比学习[15]的核心思想是创建正数据对和负数据对,在特征空间中吸引正数据对,排斥负数据对。该技术已用于监督和自我监督设置。然而,最近的自监督方法仅通过执行冗余减少[46]或使用蒸馏的相似性最大化[5,14],显示出与使用正对的至于语义分割,这些技术主要用作预训练[40,43,44]。最近,Wanget al.[39]已经显示出在像素和区域级别上应用标准对比学习的监督场景中的改进,用于同类监督样本。Van等人[38]在无监督设置中显示了对比学习的优势,将其应用于来自不同显着性掩模的特征之间。在这项工作中,我们建议遵循基于相似性最大化和蒸馏的仅阳性对比学习[5,14]。通过这种方式,我们以一种比标准的convex更简单,计算效率更高的方式提高了半监督语义分割的性能。8221LL∈HXX {}X {}一LXuH(y1,y2)= −N样本和伪标签(x a,y(u))。最后,Lent被优化用于uy2log(y1)α β图2. 监督和自我监督优化。对于标记数据(x l,y l),学生f θ用sup优化。对于未标记的数据xu,教师fξ计算伪标签yu第3.2节)和熵最小化(第3.3节)技术,其中伪标签由教师网络fξ生成。最后,contr是我们提出的仅阳性对比学习损失(第3.4节)。教师网络fξ的权重ξ是学生网络fθ的权重θ的指数移动平均值,衰减率为τ[0,1]。教师模型提供了更准确和稳健的预测[36]。因此,在每个训练步骤,教师网络fξ不通过梯度下降来优化,而是如下更新:ξ=τξ+(1− τ)θ。(二)3.1. 监督分割:Lsup我们的监督语义分割优化,应用于标记数据l,遵循具有加权交叉熵损失的标准优化。设为N个每像素类概率分布y1、y2的两个列表之间的加权交叉熵损失:N C其稍后用于优化增广对的L伪预测x。u1Σ Σn=1c =1(n,c)(n,c)c n[39 ]第39话. 与以前的作品不同,我们的对比学习模块解决了半监督的sce- nario对齐类明智和每像素的功能,从标记和未标记的数据的功能,从所有的标签,beled集存储在一个内存库。与将图像级特征保存在存储库中的先前对比学习工作[42,16]相反此外,由于对于所有数据集像素没有无限的内存,我们建议仅保存具有最高质量的特征。3. 方法半监督语义分割是每像素分类任务,其中两个不同的数据源可用:小的一组标记样本L=X1,Y1,其中X1是图像,Y1是它们相应的注释,以及大的一组未标记样本U=Xu。为了应付这个问题,我们建议采用师生计划。教师网络fξ从未标记的样本创建鲁棒的伪标记,并从标记的样本创建存储体条目,以教导学生网络fθ来提高其分割性能。师生计划。学生网络fθ的学习权重θ使用以下损失进行优化:其中C是要分类的类的数目,N是元素的数目,即,其中,αc是每类权重,βn是每像素权重。αc和βn的具体值详见第4.2节。监督损失(参见图2的顶部)定义为Lsup=H(fθ(x1),y1),(4)其中xa是xl的弱增广(增广细节见4.23.2. 从伪标签学习:Lpseudo半监督学习成功的关键是从未标记的数据中学习。我们的方法利用的一个想法是从伪标签中学习伪标签由教师网络fξ生成(见图2)。对于每个未标记的样本xu,伪标记y(u)按照以下等式计算y≡u=argmaxfξ(xu),(5)其中fξ预测类别概率分布。注意,伪标签在每次训练迭代时计算一致性正则化引入了增广锚定,即,在同一批次上为每个样本xu计算不同的数据增强,帮助模型收敛到更好的解决方案[33]。未标记数据u的伪标签损失通过交叉熵计算:一L=1ΣH(f(xa),y),(6)L=λsupL sup +λpseudoL pseudo +λentL ent +λcontr Lcontr.伪一a=1θuu(一)其中xa是xu的强增广,A是Lsup是标记样本的监督学习损失(第3.1节)。L伪和Lenttackle伪标签(第我们应用于样本xu的扩增数量(参见第第4.2节的增强细节)。、(3)8222∈CcontrCNpcNzc′ c=1pc∈Pcz′∈Z′CCCCC∠pc,zc ∠图3. 对比学习优化。在每次迭代时,通过f ξ从标记样本中提取特征(参见右部分)。这些特征被投影,按其质量过滤,然后排名,以最终仅将最高质量的特征存储到存储器组中。同时,来自由fθ提取的输入样本的特征向量被馈送到投影和预测头(见左部分)。然后,特征向量以类方式传递到自注意模块,获得每个样本的权重。最后,输入特征向量被强制为与来自存储体的同类特征相似3.3. 直接熵最小化算法直接熵最小化应用于学生网络从未标记样本xu预测的类分布,作为正则化损失:y中的不同语义类。令 Pc={Pc}是来自类别c的P的预测向量的集合。Zc′={zc′}表示由教师从存储在存储库中的标记示例获得的类c的投影向量的集合,Z′=gξ(fξ−(x))。A N C接下来,我们学习哪些特征向量(p和z′)是L= −11 Σf(xa,n,c)logf(xa,n,c),entA Nθ ua=1n =1c =1θu(七)通过分配将用作权重的每特征学习权重(等式8),这对于对比任务是有益的其中C是要分类的类别的数量,N是像素的数量,并且A是增强的数量。3.4. 对比学习:L对照图3说明了我们提出的对比优化,灵感来自于仅积极的对比学习作品对于对比损失函数(等式11),计算因子(等式10)。这些每个特征的权重是使用生成单个值(w)的特定于类别的注意力模块Sc,θ(更多细节请参见第4.2节)计算的[0,1])对于每个zc′和pc特征。根据[34],我们将L1归一化这些权重以防止收敛到平凡的全零溶液对于预测向量Pc情况,权重基于相似性最大化和蒸馏[5,14]。在我们的方法中,存储器库填充有来自教师fξ的高质量特征向量(图3的右部分)。wpc 然后计算如下:氮磷碳(八)同时,学生fθXX提取特征向量wpc=Σpi∈Pc Sc,θ(p)Sc,θ(pc),要么l或 联合以每个类的方式,每个特性都是通过一个简单的自我注意模块作为对比度损失中的每特征加权。最后,损失强制来自学生的加权特征向量类似于来自存储器库的特征向量。由于存储体包含来自所有标记样本的高质量特征,因此对比损失有助于在整个数据集上的特征空间中创建更好的类别分离,以及将未标记数据分布与标记数据分布对齐。优化. 设fθ−为没有分类层的学生网络,{x,y}为训练样本,或者来自{Xl,Yl}或{Xu,Yu}。第一步是提取所有特征向量:V=fθ−(x)。然后将特征向量V馈送到投影头Z=gθ(V),以及预测头P= g θ(V)。其中NPc是Pc中的元素的数量。等式8也用于计算wz′,改变Pc和p ′ c的Zc′和zc′。对比度损失强制预测向量pc类似于[5,14]中提出的投影向量zc’(在我们的情况下,投影向量在存储库中)。为此,我们使用余弦相似度作为相似性度量C:’(p,z′)=,(9)pc其中,预测与存储体条目之间的加权距离通过下式计算:D(pc,zc′)=wpcwzc′(1−C(pc,zc′)),(10),我们的对比损失计算如下:Cqθ(Z),遵循[5,14],其中gθ和qθ是两个不同的L=1 1Σ ΣΣD(p,z′). (十我多层感知器(MLP)。 接下来,将P分组为Cc8223一)CC8224∈×个×个×个×个×个×个LLH→ →→→ →→转×个和GTA5数据集通过设置α =.其中fc为内存库。存储 器组是维护用于对比损失中的每个类c的目标特征向量z,c’,ψ的数据结构。 由于没有无限的空间用于保存标记数据的所有像素,我们建议仅存储来自具有最高质量的标记数据的特征向量的子集。 如图3所示,在每次训练迭代时,使用zc’的子集更新存储体。Z′由教师r. 为了选择Z’的什么子集被包括在存储器组中,我们首先执行特征质量过滤器(FQF),其中我们仅保留当应用分类层时导致准确预测的特征,y = arg max fξ(xl),具有高于阈值的置信度,fξ(xl)> 0。其余的Z′按类Zc′分组。最后,不是随机挑选每个Zc’的子集来更新存储体,而是使用类特定注意力模块Sc , ξ。 我们得到排序得分 Rc=Sc , ξ(Zc′)来对Zc′进行排序,并且只使用前K个得分最高的向量来更新存储库。为了计算和时间效率,存储器组是每个类的先进先出(FIFO)队列通过这种方式,它以非常有效的方式在计算方面和时间方面保持最近的高质量特征向量。关于超参数的详细信息包括在第4.2节中。4. 实验本节描述了评估中使用它还包含了我们的方法在不同的基准半监督语义分割,包括半监督做主要适应设置,和详细的消融研究的评估。4.1. 数据集• 城市景观[6]。它是一个真实的城市场景数据集,由2975个训练样本和500个验证样本组成,具有19个语义类。• PASCAL VOC 2012 [8].它是一个自然场景数据集,具有21个语义类。该数据集分别有10582和1449张图像用于训练和验证• GTA5 [29]。这是一个合成数据集,从一个视频游戏,具有逼真的城市场景,总共有24966张图像。原始数据集提供了33个不同的类别,但在[41]之后,我们只使用与Cityscapes共享的19个4.2. 实现细节架构我们在实验中使用DeepLab网络[4]。对于消融研究和大多数基准测试实验,具有ResNet-101主干的DeepLabv 2是预测和投影头遵循[14]:Linear BatchNorm [18] Relu[27] Linear,隐藏和输出维度为256。建议的类特定注意模块遵循类似的架构:线性BatchNormLeakyRelu [23]线性乙状结肠,带隐藏维度和输出维度分别为256和1。我们使用2 N类注意模块,因为它们以类方式使用。特别地,每个类使用两个模块,因为我们具有用于投影或预测特征向量的不同模块。优化. 对于所有实验,我们使用动量为0的SGD优化器训练150 K it-erations。9 .第九条。DeepLabv2的学习率设置为210−4410−4for DeepLabv3+ with a poly learning rate sched-乌莱对于Cityscapes和GTA5数据集,我们使用的裁剪大小为512 512,Deeplabv2和Deeplabv3+的批量大小分别为5和7。 对于Pascal VOC,我们使用的裁剪大小为321321,批量为14和20分别用于Deeplabv2和Deeplabv3+。当使用Deeplabv2与[28,9,17,26]进行公平比较时,城市景观图像在裁剪之前被调整为5121024对于所有实验,(等式1)中的不同损失权重设定如下:λsup= 1,λpseudo= 1,λent= 0。01λcontr= 0。1.一、第一次2K训练是个例外其中λcontr= 0和λpseudo= 0的迭代确保预测在被使用之前具有一定质量。关于每像素权重((等式3)中的β η),对于sup,我们将其设置为1。对于pseudo,我们遵循[9],利用锐化操作fξ(xu)s,用其对应的伪标签置信度对每个像素进行加权,其中我们设置s=6。另一个重要且有影响力的细节是αc((等式3)中的类权重我们为Cityscapes执行类平衡cfmFCC类和F类的频率m是所有类别free的中值频率在半监督设置中,标签的量Yl通常较小。为了更有意义的估计,我们提出不仅从Yl而且从Yl计算这些频率。也来自于Yu 。F或Pa标度VOC,我们将αc=1设为等级平衡没有有益的效果。其他细节。DeepLab对于训练期间的特征比较,我们保持输出分辨率并对标签进行下采样,从而减少内存需求和计算。存储体大小固定为每个类ψ=256个向量(更多细节参见第4.4节)。用于接受特征的置信度阈值被设置为0。九十五对于每个图像和每个类别,在每次迭代时添加到存储器组的向量的数量被设置为max(1,Φ)。用于公平比较(即,类似的设置)到以前的作品[28,9,17,26]。DeepLabv3+支持Resnet50哪里 |Xl| 是标记的样本数。|Xl|[25]也是一种比较。在(等式2)中的训练期间,τ单个NVIDIA Tesla V100 GPU用于所有实验我们报告的所有结果均为具有不同标记/未标记数据分割的三次不同运行的平均值。8225×个、84305050 208在[28,36]之后,在实验验证中使用学生fθ执行分割,尽管教师会导致稍好的性能[33]。数据扩充。我们使用两种不同的增强设置,标记样本的弱设置和未标记样本的强设置,遵循[28]进行微小修改(表1描述了我们方法中的数据增强方案此外,我们将A=2(等式6)设置为每个样本的增强数量。表1.强和弱数据增强设置参数弱强翻转概率为0。50050调整大小[0。75,1。75]概率为0。50080颜色抖动概率为0。20080亮度调整最大强度0。15030对比度调整最大强度0。15030饱和度调整最大强度0。075015色调调整最大强度0。05010高斯模糊概率00。20ClassMix概率为0。200804.3. 基准实验以下实验将我们的方法与不同半监督设置中的现有技术方法进行比较,包括半监督域自适应任务。4.3.1半监督语义分割城市景观。表4.3.1比较了Cityscapes基准的不同方法,用于不同的标记-未标记率:11和12。 其中所有图像都被标记的完全监督(FS)场景也被示出作为参考。如表中所示,我们的方法在所有设置中均显著优于当前最先进的方法。性能差异随着标记数据的减少而增加,证明了我们方法的有效性这一点尤其重要,因为1/30 1/8 1/4 FS1/50 1/20 1/8FS架构:Deeplabv 2与ResNet-101主干对抗性[17]+五十七2(-17。第七章)六十四7(-10。(二)69岁。5(-5。四、74岁9s4GAN [26]+63岁3(-10。第三章67岁2(-6。四、七十一4(-2。(二)七十三。6French等人[11]*六十四8(-7。第七章)66岁。5(-6。0个)67岁6(-4。九、七十二5加拿大广播公司[9]+六十五5(-8。第一章69岁。3(-4。第三章七十7(-2。九、七十三。6[28]第二十八话66岁。2(-7。九、67岁8(-6。第三章七十一0(-3。第一章74岁1DMT [10]67岁2(-7。六、69岁。9(-4。九、72.7(-2.1)74岁8我们的 *六十五4(-7。(二)67岁8(-5。第一章69岁。9(-2。第七章)七十二6我们的+67.9(-6.2)70.0(-4.1)七十一6(-2。第五章)74岁1架构:Deeplabv 3+与ResNet-50主干错误-更正[25]*--七十2(-6。第一章七十六。3我们的 *63岁4(-12。第五章)69岁。1(-6。第八章)71.8(-4.1)75.9* ImageNet预训练+COCO预训练表3.不同标记-未标记比值的Pascal VOC值集的性能(平均IoU),括号中为相对于相对对应的完全监督(FS)结果。半监督学习是在尽可能少的监督下学习。请注意,每种方法的上限显示在完全监督设置(FS)中。图4显示了对来自Cityscapes的不同相关样本的最佳性能方法的视觉比较。Pascal VOC。 表4.3.1显示了Pascal VOC基准上不同方法的比较,使用不同的标记-未标记比率:1、1和1。我们提出的方法优于以前的方法,大多数的配置。与前面的基准测试一样,我们的方法对于更具挑战性的情况(即只有一小部分数据被标记为(1)。这表明,所提出的方法是特别有效的学习从未标记的数据。4.3.2半监督域自适应用于语义分割的半监督域自适应与半监督设置的不同之处在于来自另一域的标记数据的可用性。 也就是说,除了使Xl={xl,yl}和Xu={xu}与目标域中,来自另一个域的大量标记数据被架构:Deeplabv 2与ResNet-101主干也可用:X d={xd,yd}。1/30 1/15 1/6 1/3具有域适应(GTA5 →Cityscapes)8226[第41话]五十四2五十六0六十岁。2六十四5Liu等[22日]55. 2五十七0六十岁。4六十四6我们的59.9 62.0 64.2 65.6架构:Deeplabv 3+与ResNet-50主干错误-更正[25]*-67岁4(-7。四、七十7(-4。第一章74岁8我们的 *六十四9(-9。第三章70.0(-4.2)71.6(-2.6)74岁2* ImageNet预训练+COCO预训练表2. Cityscapes值集在不同标记-未标记比率下的性能(平均IoU),括号中为相对于对应的完全监督(FS)结果。无领域调整(无一般临时人员数据)表4. Cityscapesval set中的平均IoU。顶行评估半监督域自适应任务。最后一行评估Cityscapes中的半监督设置(无自适应)。比较了Cityscapes的不同标记-未标记比率(列)。所有 方 法 都 使 用 ImageNet 预 训 练 的 Deeplabv 2 ( ResNet-101)。我们59.9 62.0 64.2 65.6对抗性[17]+-五十八8(-7。六、62. 3(-4。第一章66岁。4s4GAN [26]*-五十九3(-6。第七章)61岁9-(4. 九、66岁。0French等人[11]*51岁2(-16。第三章六十岁。3(-7。(二)63岁9(-3。六、67岁5加拿大广播公司[9]+四十八7(-18。(二)六十岁。5(-6。四、六十四4(-2。第五章)66岁。982278XXXXXXXLLXX303030LLL30×个图4.城市景观的定性结果。使用带有ResNet-101的Deeplabv 2,使用1个从左至右:图像,手动注释,ClassMix [28],DMT [10],我们的方法。我们的方法可以自然地处理这个任务,在优化时从lsup和康特河 然而,存储器组仅存储来自目标域1的特征。以这种方式,来自未标记数据u的特征和来自另一个域d的特征都与来自l的特征对齐。在[41,22]之后,我们将GTA5数据集作为d,其中所有元素都被标记,并且Cityscapes是由一小组标记数据组成的目标域l和未标记样本u的大集合。表4.3.1比较了我们的方法与以前的方法[41,22]的结果,其中所有方法都使用ImageNet预训练。作为参考,我们还显示了我们的方法的结果,没有调整,即,仅在目标域Cityscapes上进行训练,就像我们对来自先前实验的半监督设置所做的那样(表4.3.1)。我们可以看到,我们的方法受益于其他域数据(GTA5)的使用,尤其是通常当几乎没有可用的标记数据时(1)。我们的方法优于ASS的一个很大的保证金,在所有不同的设置。与以前的实验一样,当可用标记数据的量较小时,我们的改进4.4. 消融实验以下实验研究所提出的方法的不同组件的影响评估是在Cityscapes数据上完成的,因为与Pascal VOC相比,它提供了更复杂的场景我们选择具有挑战性的标记数据比率1。损失影响。表4.4显示了所提出的方法使用的每种损失的影响。我们可以观察到四个损失是互补的,在我们的基线模型上增加了10mIoU,仅使用监督训练时我补充L伪贷款 L控制Miou✓四十九5✓✓五十六7✓✓52岁2✓✓五十四4✓✓✓五十七4✓✓✓五十九0✓✓✓五十七3✓✓✓✓五十九4表 5. 对 所 包 括 的 不 同 损 失 的 消 融 研 究 ( 等 式 1 ) 。 在Cityscapes基准上获得的平均IoU(1个可用标签,Deeplabv 2-ResNet 101 COCO预训练)。有1个Cityscapes标记的数据可用。请注意,我们提出的对比学习模块contr能够得到五十四32mIoU即使没有任何其他补充损失,这是该装置的现有技术水平(见表4.3.1)。添加伪显着提高了性能,然后,添加ent正则化损失给出了一点额外的性能增益。请注意,在测试时,我们的方法只使用学生网络fθ,不增加额外的计算成本。在训练时间,对于具有512 512的输入分辨率的表4.4的实验,具有正向通过372.04GFLOPs的成本,我们的方法执行1151。与1488相比,使用一个标记图像和一个未标记图像的一个训练步骤的GFLOP为19。16 GFLOPs来自[10]或1116。12个GFLOPs来自[28]。GFLOP的总数来自372。用于计算标记的图像预测,372。对于未标记的图像预测,372 04用于计算伪标签,35. 07为我们8228对比模块,其主要包括预测和投影头的计算(8. 第59章:班级--8229L30LL3030λ控制104十两10110个 10- 110−210−4Miou50块351岁4五十四8五十九1五十九4五十八7五十七6表6.对对比损失控制的影响进行加权的因子λcontr(等式1)的不同值的影响。 Cityscapes基准测试的结果(1个可用标签,Deeplabv 2-ResNet 101 COCO预训练)。ψ3264128256512Miou五十八7五十八9五十九2五十九4五十九3表7.我们的存储体大小的影响(每个类的特征),ψ。Cityscapes基准测试的结果(1个可用标签,Deeplabv 2-ResNet 101 COCO预训练)。特别注意模块(15. 96)以及输入特征和存储体特征之间的距离(10. 第52段)。对比学习模块。 表4.4显示了不同λcontr值(公式1)时对比学习模块的影响。 正如预期的那样,如果该值太低,则效果会被稀释,其性能与完全不使用建议损耗时的性能相似(见表4.4)。 高值也是有害的,可能是因为它会大大增加学习率,这会阻碍优化。当该对比损失重量略低于分段损失sup和pseudo(λcontr=10−1)时,实现最佳性能。Mempry银行规模(每类)的影响进行了研究在表4.4中。正如预期的那样,较高的值导致更强的性能,尽管从256开始,它们倾向于保持类似的状态。由于在对比优化期间使用来自存储器组的所有元素,因此计算和存储器复杂度随着存储器组的增大而增加,因此我们选择256的大小作为良好的折衷。表4.4研究了所用主要成分的影响在建议的对比学习模块中。该模块的基本配置包括我们使用存储器组的每像素对比学习的最简单实现,与不使用对比学习模块相比,仍然呈现出性能增益(从4.4到57.4 mIoU)。产生和选择高质量的原型是最重要的因素。这由特征质量过滤器(FQF),即,检查该特征是否导致准确且可信的预测,并且用教师网络fξ提取它们。此外,使用类特定注意力Sc,θ提高了性能。它对每个样本(来自存储体和输入样本两者)进行加权,这可以被解释为学习的采样方法。未来的方向。我们提出的方法可以潜在地应用于其他半监督任务,如对象检测或实例分割。最直接的方法是使用fξ:使用教师模型fξ来提取特征,而不是fθSc,θ:使用类特定注意力Sc,θ来加权每个特征表8.消融研究我们的对比学习模块的主要组成部分。Cityscapes基准测试的结果(1个可用标签,使用Deeplabv2-ResNet 101 COCO预训练)。来自检测或实例分割网络的语义头的特征,即,输出对象或实例的语义类的网络部分该方法当前受到类的数量和每个类的存储体条目的数量的解决这个问题的未来步骤可以是对每个类的特征向量进行聚类,并且仅保存类特征的聚类中心,类似于Zhang等人最近的工作。al [47]基于原型学习的域自适应。5. 结论提出了一种新的半监督语义分割方法.我们的工作显示了将仅阳性对比学习技术用于解决这个半监督任务的好处。所提出的对比学习模块在这些设置中提高了语义分割的性能。我们的新模块,ULE包含一个内存库,不断更新与选定的功能,从那些产生的教师网络工作从标记的数据。这些特征是基于它们的质量和相关性来选择的,用于对比学习。我们的学生网络针对标记和未标记的数据进行了优化,以学习与内存库中类似的类特征。在像素级使用对比学习我们的结果优于国家的最先进的几个公共- lic基准,特别是显着改善更具挑战性的设置,即当可用标记数据的量低时。致谢。 这项工作是部分由FEDER/MCIU/AEI项目PGC 2018 -098817-A-I 00资助,Arago' nregionalgovernment(DGAT4517 R/FSE)和海军研 究 办 公 室 全 球 项 目 ONRG-NICOP- N62909-19-1-2027。基地fξSc,θFQFMiou✓✓✓✓五十八3✓五十八7✓五十八68230引用[1] InigoAlonso,LuisRiazuelo,andAnaCMurillo. Mininet:一个用于实时机器人应用的高效语义分割convnet。IEEE Transactions on Robotics(T-RO),2020。一个[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence,39(12):2481-2495,2017。一个[3] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch:半监督学习的整体方法。在神经信息处理系统的进展中,第5049-5059页,2019年。二个[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834-848,2017。五个[5] Xinlei Chen,Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv:2011.10566,2020。二、四[6] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of IEEEConference on CVPR,第32135[7] Terrance DeVries和Graham W Taylor。改进的卷积神经网 络 的 正 则 化 。 arXiv 预 印 本 arXiv : 1708.04552 ,2017。二个[8] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。五个[9] Zhengyang Feng , Qianyu Zhou , Guangliang Cheng ,Xin Tan,Jianping Shi,and Lizhuang Ma.通过动态自我训练和班级平衡课程的半监督语义分割。arXiv预印本arXiv:2004.08514,2020。二、五、六[10] 冯正阳、周倩玉、顾奇奇、谭新、程广良、卢雪泉、石建平、马立庄.Dmt:半监督学习的动态相互训练arXiv预印本arXiv:2004.08514,2020。二六七[11] 杰夫·弗伦奇,萨穆利·莱恩,蒂莫·艾拉,和米哈尔·麦克耶维奇.半监督语义分割需要强的、变化的扰动。参加2019年第29届英国机器视觉大会,BMVC 2020。一、二、六[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统的进展,27:2672-2680,2014。二个[13] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。神经信息处理系统进展,17:529-536,2004。二个[14] Je a n-BastienGrill , FlorianStrub , FlorentAltch e´ ,CorentinTallec,PierreHRichemond,ElenaBuchatskaya , Carl Do- ersch , Bernardo Avila Pires ,Zhaohan Daniel Guo,Moham- mad Gheshlaghi Azar,etal. Bootstrap你自己的潜在:一种自我监督学习的新方法。arXiv预印本arXiv:2006.07733,2020。二、四、五[15] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议(CVPRIEEE,2006年。二个[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页三个[17] 洪伟智、蔡怡萱、刘彦婷、林彦宇、杨明萱。半监督语义分割的对抗学习。arXiv预印本arXiv:1802.07934,2018。一、二、五、六[18] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。五个[19] Sim onJe' gou , MichalDrozdzal , Da vidVazquez ,AdrianaRomero和Yoshua Bengio。百层提拉米苏:用于语义分割的全卷积密集网。在CVPR研讨会上。IEEE,2017年。一个[20] Tarun Kalluri、Girish Varma、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功