没有合适的资源?快使用搜索试试~ 我知道了~
7036C3-SemiSeg:基于交叉集学习和动态类平衡的对比半监督周燕宁Hang Xu*华为诺亚方舟实验室张伟华为诺亚华为诺亚香港中文大学彭安摘要半监督语义分割方法利用未标注的数据来增加特征的区分能力,从而减轻标注数据的负担。然而,主导一致性学习图受到以下限制:a)来自标记数据和未标记数据的特征之间的不对齐; b)单独处理每个图像和区域,而不考虑类之间的关键语义依赖性。在这项工作中,我们介绍一种新的C3-SemiSeg,通过利用扰动下更好的特征对齐和增强识别特征交叉图像的能力来改进基于一致性的半监督学习。具体来说,我们首先介绍了交叉集区域级数据增强策略,以减少标记数据和未标记数据之间的特征差异交叉集像素对比学习被进一步集成到流水线中以促进特征表示能力。为了稳定来自噪声标签的训练,我们提出了一种动态置信区域选择策略,以专注于高置信区域进行损失计算。我们在Cityscapes和BDD100K数据集上验证了所提出的方法,该方法显着优于其他最先进的半监督语义分割方法。1. 介绍语义分割是计算机视觉领域中的一个基本且具有挑战性的问题,并且已经被研究了很长时间。它旨在生成给定图像的高分辨率像素类别预测,并且可以应用于许多应用,例如自动驾驶[39,51,9]和医学图像分析。* 通讯作者:xbjxh@live.com妹 妹 [36 , 53] 。 大 多 数 方 法 都 具 有 卷 积 神 经 网 络(CNN)的优点,并通过设计特定的架构和训练策略对其进行改进[26,36,5,43]。然而,这些数据驱动的方法依赖于标注数据集的大规模和高质量,这成为在现实世界中应用的负担。对于有限的注释,网络无法辨别类别内的各种外观,并且很容易过度拟合到有限的样本,这导致在一些令人困惑的类别中的错误预测。半监督学习旨在通过从标记和未标记数据中学习表示来利用仅为其样本的一小部分具有标签的数据集[18]训练后的网络通常具有更好的泛化能力,对未知的数据比完全监督集训练。添加一致性正则化是半监督学习中的一种常见方法[23,38,13]。它鼓励网络通过计算输出之间的差异作为损失函数来为具有不同增强的相同未标记图像生成类似的预测。然而,先前的方法仅促进未标记数据集内的图像内特征一致性。虽然标记数据和未标记数据都是i.i.d. 从相同的数据分布可以观察到,标记数据的经验分布经常偏离真实的样本分布[44],这进一步导致特征空间[27]中的不对准,甚至损害性能[31]。因此,减少特征错位,提高特征的区分能力是至关重要的半监督像素级识别。在这项工作中,我们引入了一种新的C3-SemiSeg,利用扰动下更好的特征对齐,并增强了跨图像的类别间特征的区分性,从而减轻了基于一致性的半监督方法的限制。具体来说,我们采用平均教师网络[38]7037在我们的框架中,每个模型包含一个共享的CNN编码器,然后是一个分割头和一个投影头,在训练过程中并行。为了充分享受一致性正则化的优点,我们提出了具有交叉集区域级数据混合的非对称数据增强策略,该策略将强增强数据馈送到学生中以匹配来自教师网络的弱增强数据的预测数据混合方法可以进一步缩小交叉集融合中标记数据和未标记数据之间的特征错位。同时,在标记和未标记特征上添加像素级对比损失,以同时促进嵌入接近来自相同类别的嵌入,同时远离不同类别。直觉是在类内强制特征紧凑性并增加类间的区分性,类似于[45],但目标范围不同。[45]仅在标记数据中进行对比学习,而我们的方法同时利用标记和未标记数据。因此,我们的方法不仅可以提高特征的区分度,而且可以减少两个集合之间的特征错位,并扩大了硬负采样空间。此外,为了减少噪声预测带来的负面影响,本文提出了动态置信区域选择(DCRS)算法,在每一步都能自适应地保留类平衡样本,以保证网络优化的高置信度我们在Cityscapes和BDD100K数据集上进行了实验,并使用不同比例的标记数据来证明我们所提出的方法在不同情况下的有效性。它甚至将1/4标记数据和完全标记数据之间的性能差距缩小了79%。我们的控制-可归纳如下:• 我们提出了一种新的C3-SemiSeg框架,以改善传统的基于一致性的半监督学习的非对称数据增强与交叉集区域级数据混合,以缩小标记和未标记数据之间的特征错位。• 提出了一种基于像素的对比学习损失函数来增强数据集的类间特征差异和类间特征紧凑性,并使用动态置信区域选择模块来进一步防止噪声预测的误导。• 在Cityscapes和BDD 100 K两个自动驾驶数据集上的实验表明,C3-SemiSeg算法在所有标注数据比率上都显著优于其他最先进的方法.2. 相关作品半监督学习半监督学习被认为是一种有前途的方式,以减少对昂贵的注释的需要。大多数方法都是根据-考虑到以下一个或多个因素:(1)一致性规则化。一些方法[23,38]假设通过给出具有不同扰动的输入,预测应该是一致的。不同的数据增强被添加到相同的未标记数据,配备损失函数以鼓励预测彼此接近。(2)伪标记。这些方法[24,42]通过从标记数据预训练的网络向未标记数据给出伪标记。然后,他们重新训练网络并迭代地细化伪标签。(3)熵正则化它通过最小化熵来鼓励网络对决策充满信心[14]。半监督语义分割。 早期作品[30,20]引入了基于GAN的框架和对抗训练,以鼓励标记和未标记数据的预测是不可区分的。最近,人们调查了关于这个任务的自我训练策略[57,58,59,4,12,28]。 这些方法是-因为根据可靠的预测来校准伪标签。Zou等人[57]联合执行网络学习和伪标签估计,其中类特定阈值用于类平衡的自训练。[59]进一步结合了两种类型的置信度正则化以促进网络输出的平滑性。基于[57],Meiet al. [28]提出了一种指数移动平均方法来生成每个实例的阈值,用于无监督域自适应。与以往的方法相比,它是更灵活的动态调整类感知阈值。因此,我们将[28]应用到我们的方法中。最近,[59]引入了一个校准的融合策略,结合自我关注梯度CAM地图与预测。然而,为了在大多数图像具有相同图像级标签的数据集上获得合理的Grad-CAM结果,需要更积极的几何数据增强。自我训练法的主要缺点是它需要一个训练有素的教师模型,而这个先决条件并不总是成立的,特别是当数据非常有限时。与之相比,一致性训练方法[13,34,32]在低数据状态下表现更好它们成功的主要因素是数据增强策略,其中研究了输入增强[13,32]或[13]证明了CutOut [11]和CutMix [54]在该任务中的有效性。[32]通过在两个图像之间混合一半的语义类区域,[19]根据来自由额外顺序数据训练的深度估计模型的深度信息进一步混合图像。与仅混合未标记数据[13,32]不同,我们认为(1)在标记和未标记数据之间进行数据混合[54],以及(2)对教师使用弱增强数据,对学生使用强增强数据是半监督语义分割的最佳选择。密集预测的对比学习。最近,7038DD·∈−·D BBD·sup|BL|ML我我我Σ我不ΣΣ图1.所提出的C3-SemiSeg框架的概述。 该方法由两个具有相同架构的网络组成 进行半监督语义分割。每个网络包含一个共享的CNN特征提取器(CNN-t/ CNN-s),然后是投影头(PROJ-t/ PROJ-s)和分割头(SEG-t/ SEG-s)。我们在U和L的强增强数据中执行区域级数据混合,并鼓励教师和学生之间的一致性预测。同时,根据其分割结果对单位归一化的嵌入特征进行采样,用于逐像素对比学习,以鼓励类内紧凑性和类间区分性。在每次前向过程中,采用动态置信区域选择(DCRS)策略自适应更新类平衡置信阈值,选择高置信区域进行损失计算。对比学习方法由于在表征学习和其他应用上的成功而引起研究者这些AP的核心思想方法是在投影空间中拉正样本的嵌入和推负样本以前的半监督方法[13]:1 1MLL= −ylog(f(θ;A◦x)),(1)x∈BLi=1在这里,我们专注于密集预测任务的最相关文献,并请读者参考[25,21]了解其他细节。用于密集预测的自监督预训练方法[47,48,49,3]专注于定义新的正/负对和设计特定的学习框架。最近,Wanget al. [46]提出了一种基于像素的度量学习范式,通过对比学习探索标记像素的Zhao等人[56]设计了一种基于对比学习的半监督训练策略。然而,[56]在添加未标记数据之前仍然需要对比预训练步骤。相比之下,我们的目标是鼓励特定于类的嵌入是有区别的,并且增强输入的预测在整个端到端训练中保持一致,以享受来自标记和未标记数据的互补信息的优点。其中,θ是编码器和分割头(图1中的CNN-s和SEG-s)的可学习权重,ML表示一个图像中的有效像素的数量,yiR。是独热向量标签,并且A()表示应用于标记图像的弱增强函数对于未标记的数据,应用无监督一致性损失项以鼓励响应于具有不同扰动的一个图像的一致预测。为了构建预测对,我们采用平均教师框架[38]。的指数移动平均权重学生网络用于更新教师:θt=αθt−1+(1α)θt,其中α是控制更新率的超参数。因此,它倾向于产生更准确的模型[35]。令f(θ(i)表示来自教师网络的编码器和分段头的组合,形成无监督一致性损失项:微米的3. 方法1L组成= −1Σ3.1. C3-半隔离区概述|x ∈B U M U i =1|x∈BUMUi=1F. θ;A◦xΣTlog.F.θ;A◦xΣΣ,(二)在设置半监督语义seg-在分段之后,我们被提供有具有像素级注释L的标记数据的小集合和未标记数据的大集合U。令L和U表示每批中的标记数据和未标记数据,在标记数据的分割头上应用标准的逐像素交叉熵损失,类似于其中A()是非线性系统的强增广函数标记数据(详见第3.2节),MU表示大小置信区间(详见第3.4节)。等式2可以被认为是利用教师预测作为软目标标签的交叉熵损失函数7039PNDDDDNPPNLLBBlogi,对比fi·fj/τ+fi·fk/τΣΣ我另外,在来自投影头的像素嵌入上计算逐像素对比度损失令fi表示像素i的单位归一化特征,i和i表示对应的正集合和负集合。形成逐像素对比度损失:1N 1L=−建议的区域级数据混合和RandAugment [10]的强增强应用于学生网络的输入。3.3.像素对比学习虽然一致性正则化鼓励不变的预测给出了一个小扰动的图像,但它的稳定性仍然很好对比ΣNi=1 |Pi|exp. fT·fj/τΣ我在这种情况下,它不考虑交叉图像结构信息。为了进一步提高特征鉴别能力因此,我们建议采取对比学习的优点j∈Piexp. fT·fj/τΣ+Σk∈Niexp. fT·fk/τΣ(三)从同一类别中提取像素特征并将功能从不同类别中其中τ表示温度。3.2.交叉集数据增强以前的半监督方法通常在未标记集合内进行数据增强[2,13,59]。但当标记集和未标记集之间存在分布失配时,特征失配会影响算法的性能。为了减少这种影响并充分享受一致性学习的优点,我们提出(1)在来自DU和DL 的数据之间进行区域级数据混合,以及(2)对两个网络使用非对称数据增强。区域级数据混合。数据混合是通过在像素级[55,40]或区域级[54]组合两个图像的增强技术,它鼓励网络关注较少区分的部分,因此利用更广泛的特征。以前的方法建议将CutMix应用于未标记的数据[13]。虽然它丰富了未标记样本的多样性,但它并没有减少L和U之间的特征错位。特别是当L和U之间存在较大的比率差距时,两个集合之间可能存在较大的分布偏移。最近,[50,41]说明了MixUp的有效性,图像.具体地,来自共享编码器的特征被馈送到投影头中并且映射到嵌入空间中。令fi表示第i个像素的单位归一化嵌入。其对应的正集合i为嵌入同一类别的像素,负集合i为嵌入不同类别的像素。为了减少标记集和未标记集之间的特征误对准,i和i通过将来自同一批中的两个集合的特征组合在一起来构造。通过比较学习,使特征更接近同一类的特征,而不接近不同类的特征。所提出的像素级对比损失需要类别信息来采样正和负集。为了能够使用来自未标记数据的特征,我们假设教师的预测在大多数领域是正确的为了减少噪声预测的负面影响,我们提出了动态置信区域选择策略(第3.4节)来过滤掉不确定区域。因此,等式3可以重写为:ML+MU无监督域自适应中的域混合策略因此,我们认为, 我们建议进行交叉集数据混合1L=−LUi=11Σ|Pi|j∈Pi通过将BL和BU数据组合在一起用于CutMix。具体-exp.fT/τΣ(五)通常,给定两个图像xa,xb∈ B,其中B=BU<$BL,日志Ij.T ΣΣ.TΣ,xmix=m⊙xa+(1−m)⊙xb,(4)其中m是初始化为1的二进制掩码,其中像素的随机矩形为零。将sup和con应用于x混合的标记和未标记区域。非对称数据扩充。在分类方面,以前的方法[23,38,2]对教师和学生的输入都使用了相同的弱增强。最近的方法[37,1]通过对学生应用大量增强而对教师应用弱增强来显示更好的结果。在这里,我们不是对两个网络使用相同的增强强度[13],而是建议对教师应用弱增强,以获得更宝贵的预测作为监督信号。然后其中fj和fk是来自教师网络的正嵌入和负嵌入,ML和MU分别表示一个批次中M L和M U的总和。我们还利用[46]中的分割感知硬锚采样,让分割结果帮助找到信息丰富的硬样本。具体地,对于来自L的数据,硬样本是来自错误预测区域的点,并且对于来自U的数据,它被定义为两个网络之间的不一致输出3.4. 动态置信区域选择预测概率存在误差是很自然的。这些嘈杂的软标签会严重损害学习过程因此,设计样本选择策略M +M区域级混合过程为:expk∈Niexp7040DD×.Σ学习率,乘以1−atDD2D×30D84希望过滤噪声标签。[37]建议忽略置信度小于阈值的区域。[57]并且[58]进一步提出了类平衡阈值,其估计每个类的单独阈值以防止伪标签中的类支配。然而,固定的阈值是不适合的不断更新的教师网络在我们的框架。因此,我们提出利用动态类平衡阈值进行区域选择。具体来说,对于每个向前传递,我们对预测进行排序-对于第c个类,使用保留比率s来查找当前批次的类特定阈值δt,c。 然而DCRS我们还评估了我们的框架在全监督条件下,其中U和L包含所有样本。 与[32,12]相同,我们在3次运行中执行我们的方法。BDD100K [52]:这是另一个大规模的自动驾驶数据集。对于语义分割任务,它具有与Cityscapes [9]中相同的标签空间。训练和验证分割分别包含7000和1000个图像。以前,没有半监督语义分割方法在该数据集上进行实验我们选择使用与Cityscapes相同的数据比率(1,1和1)来估计性能。30 8 4不直接使用当前阈值来保存区域。相反,它使用通过EMA对来自不同前向传递的连续阈值进行平均而在线更新的整体阈值:网络结构。与之前的方法相同[13,32],我们利用DeepLab V2 [5] , 其 中 包 含 Atrous Spatial PyramidPooling(ASPP)模块,基于ImageNet预训练的ResNet提取多尺度表示。δt,c =βδt−1,c+(1−β)δt,c、(6)[17]在我们的实验中。具体来说,ResNet- 101表示图1中的CNNASPP及以下其中β控制更新比率,δ(t,c表示在t步处的第c类的最终更新后δ^t,c,它被用来掩盖老师在这一批中置信度小于阈值的区域在一致性正则化和对比学习中被我们的DCRS类似于IAS [28],但有两个不同之处:(i)我们没有为较难的类给出更严格的样本比率,以及(ii)我们在训练期间利用DCRS而不是在伪标签生成期间利用IAS。3.5. 总损失函数所提出的半监督语义分割可以以端到端的方式进行训练总损失为Ltotal=Lsup+λ1Lconsist+λ 2Lcontrast,(7)其中λ1和λ2是平衡每个项强度的超参数请注意,投影头将在培训后重新移动。因此,它不会在推理时增加任何计算成本。4. 实验4.1. 实验装置我们进行了实验,并报告了两个常用的数据集,即Cityscapes和BDD100K的平均交叉联合(mIOU)得分。城市景观[9]:这是一个从现实世界中的50个城市捕获的自动驾驶数据集。它包含高品质的像素级注释19个语义类别与固定的分辨率为2048 - 1024。 培训和验证分割分别包含2975和500。 福尔-根据以前的作品[13,32,12],我们向下采样图像为1024×512。 我们随机抽取1、1、1分类器被认为是分割头(SEG)。投影头被实现为两层 前馈 网络 ,在 层之 间 具有 非线 性函 数:Conv-ReLU-Conv,以将来自主干的2048-d特征映射到256-d嵌入空间中。实施详情。在两个数据集上的实验中使用相同的数据增强。值得注意的是,来自L的图像仅应用弱增强,包括10°内的随机水平翻转和随机旋转。另一方面,来自U的图像被弱对教师和学生都有很大的促进和增强作用。在强增强方面,它包含之前提到的几何操作、颜色抖动和来自RandAugment [10]的颜色变换(在补充材料中详述)。对于逐像素对比损失,我们在每个图像中每类选择20个样本来构建正集和负集。其中一半是从[46]推荐的错误预测区域中选择的。温度τ设定为0。15在所有实验中 对于Cityscapes,来自L和U的图像被随机裁剪成256 512作为输入。为了防止模型被初始噪声预测所混淆,它在前十个时期进行纯监督学习。然后,教师网络由来自学生网络的权重初始化,并在每一步中由来自学生的权重的指数移动平均值更新,其中α=0。九十九。对于Lconsistent,使用sigmoid斜升函数[23]来调整开始时的强度λ1=50e−5(1−curite r/4000)。 我们使用Adam[22]优化算法,学习率为0。00012,并采用多项式退火策略[6]来调度curr iter0. 9总iter每次迭代。网络的训练批量为32在4个GPU上进行25000次迭代。我们将每个批次中标记数据和未标记数据的比例设置为1:1。 对于BDD100K,的训练数据作为DL,其余的在DU中。此外,数据被裁剪成512×512作为输入。我们加上前-7041±标记样本1/30(100)1/8(372)1/4(744)中国人(2975)基线-55.5 59. 9 66.4对抗性[20]-58.8(+3.3)62.3(+2.4)-基线s4GAN [30]--56.259.3(+3.1)60.261.9(+1.7)66.065.8(-0.2)基线ECS [29]--55.96±0.8660.26±0.84 (+4.30)60.54±0.8563.77±0.65(+3.23)--基线French等人[13个国家]44.41±1.1151.20 ±2.29(+6.79)55.25±0.6660.34±1.24 (+3.30)60.57±1.1363.87±0.71(+3.30)67.53±0.3567.68±0.37(+0.15)基线45.556.761.166.9DST-CBC [12]48.7(+3.2)60.5(+3.8)64.4(+3.3)-基线ClassMix [32]43.84±0.7154.07±1.61(+10.23)54.84±1.1461.35±0.62 (+6.51)60.08±0.6263.63±0.33(+3.55)66.19±0.11-基线我们的(C3-半隔离区)44.83±0.3855.17±0.86(+10.88)55.10±0.6663.23±0.45 (+8.13)60.20±0.5365.50±1.08(+5.30)66.87±0.0669.53±0.21(+2.06)表1.在不同比例的标记样品下,Cityscapes验证集的性能(mIoU),表示为3次运行计算的平均标准差我们提出的C3-SemiSeg优于其他方法在每个标记的比率。方法1/30(233)1/8(875)1/4(1750)基线40.447.752.649.1+8.752.2+4.5 55.2+2.6我们的(C3-半隔离区)表2.BDD100K验证集的性能(mIoU)tra随机缩放0。75,1。0,1。第25章之前提到的战略我们在4个GPU上使用16的批量大小来训练网络进行20000次迭代。对于其他超参数,我们将s,β,λ2设置为0。八比零。9和0。对于两个数据集,分别为1。所有的实验都是在Tesla V100 GPU上进行的。4.2. 与最先进方法的城市景观。在表1中,我们展示了在不同比例的标记样本下,Cityscapes验证数据集上的平均Intersection overUnion(mIoU)结果。我们还在每个方法的顶部显示了相应的基线,它表示由相同的标记数据训练的纯监督学习结果。请注意,所有方法都使用DeepLab V2 [5]进行公平比较。我们提出的方法不仅实现了最高性能(55。百分之十七 63岁百分之二十三 和65. 50%),但最大收益(+10. 百分之八十八,+8。13%,+5。30%)的情况下。 当标记数据的比率变得较高时(例如,1/4),其他半监督算法带来的性能改善学习方法变得更小,特别是[13]和[32]。相比3。27%的收益[32]。64%),从我们的方法是显着更大。此外,当我们调整我们的方法,以充分监督的设置,作为-方法1/30(100)1/8(372)1/4(744)基线45.055.760.8Oursw/oLconsistent Oursw/oLcontrastOurs(C3-SemiSeg)48.854.455.0+3.8+9.4+10.060.263.363.7+4.5+7.6+8.064.465.866.4+3.6+5.0+5.67042表3. Cityscapes验证集上不同损失组件的性能分析。签名所有数据,我们的方法仍然可以用2击败基线。06%的改善。促成这一点的因素包括对比学习的收益,这也可以在表3中得到证明。当仅进行对比学习时(第2行),网络在不同的标记数据比率中得到一致的改进。此外,基于自训练的方法[12]在该任务上的性能改进有限。这可能是因为当标记数据有限时,噪声伪标记在迭代学习过程中混淆了网络。BDD100K。为了进一步证明我们的方法的泛化能力,我们进行了实验BDD100K,其中包含更复杂的场景与各种天气条件。表2示出了在具有不同比例的标 记 样 本 的 验 证 数 据 集 上 的 平 均 相 交 与 并 集(mIoU)的实验结果。相比之下,404%,47. 7%,52. 6%的mIoU,我们的方法得到8。7%、4. 5%和2.在1/30、1/8、1/4标记数据率下,性能分别提高6%7043DDDDDDDDD SN.A.DLDU✓DL+ DU1/30(100)1/8(372)1/4(744)54.4 63.3 65.753.5-0.9 61.9 -1.465.8 +0.154.6+0.263.5 2019年12月26日星期一54.6+0.264.2 +0.965.8 +0.1表5.不同增强策略的性能分析。S:强增强,W:弱增强,R:Ran- dAugment [10].混合1/30(100)1/8(372)1/4(744)DL+DU✓55.0 +0.663.7 +0.466.4 +0.8表4.不同对比学习策略的绩效分析。不适用:在没有L对比度的情况下,D:在L对比度中使用的特征的源,S:分段感知采样。表3示出了对不同损耗分量的性能分析。与有监督的基线相比,应用对比学习的性能提高了3。8%,4.5%和3. 对于1/30、1/8、1/4比例的标记数据,为6%。同时,添加一致性正则化导致mIoU从45提高。0%至54。4%,55。7%至63。3%,60。8%至65。百分之八将它们结合起来会得到最好的结果,这表明来自对比学习和一致性正则化的互补信息可以帮助网络具有更好的特征表示的区分能力。对比学习中各成分的有效性我们首先从不同的来源(L和U)选择功能,以应用所提出的像素对比损失。表4表明,仅将其应用于L并没有给出改进(第2行)。我们认为这是因为网络容易过度拟合有限数量的注释样本。 另一方面,在U上添加对比学习示出了对每个标记数据比率的益处(行3),并且跨U和L应用它是最佳选择(行6),这证明了增强类内特征紧凑性和减少跨la的特征未对准的必要性已标记和未标记的数据。此外,我们评估抽样策略的有效性。如[46]中所建议的,我们在每个图像的每个类别中采样20个特征点。其中一半是硬样本,另一半是随机样本。具体地,对于来自L的数据,硬样本是来自错误预测区域的点,并且对于来自U的数据,错误预测被定义为两个网络之间的不一致输出。同时,我们通过在每个类中随机抽取20个特征点来训练另一个网络以进行比较。如表4第5行所示,分段感知采样策略给出了略微的改进。加强战略的有效性N.A.51.160.763.3组内53.3 +2.262.4 +1.765.2 +1.9交叉集54.4 +3.363.3 +2.665.8 +2.5表6.不同数据混合策略的性能分析。集内:在D U和D L上执行独立数据混合,交叉集:在DU和DL之间执行数据混合。特征正则化一致性正则化的目的是鼓励与小扰动的给定图像的一致预测因此,仔细设计增强策略至关重要。我们首先对教师和学生进行不同强度的增强实验。关于增强定义的详细信息,请参见补充材料。如表5所示,直接将RandAugment [10]的强增强应用于两个网络会导致性能下降。这可能是由于教师网络的错误预测显著增加,误导了网络的优化方向。当在两个网络上添加弱增强时,它带来5。6%、3. 6%和1。在1/30、1/8、1/4比例的标记数据下,改善2%。然而,它并没有完全采取潜在的好处,从一致性正规化相比,网络配备了建议的不对称,尝试数据增强,这产生8。9%, 7. 5% 和4。0%的收益。 此 外 ,添加RandAugment [10]让它得到extra 0。5%、0. 1%和1. 0%的改善。我们还评估了跨集区域级数据混合的有效性。 表6示出了应用帧内集合区域级数据混合具有2.2%、1.7%和1.9%的性能增益。此外,将数据混合扩展到标记数据和未标记数据两者进一步改进了1。1%、0. 9%和0。6%,这说明所提出的交叉集数据混合是增强密集预测任务的特征对齐的更强大的工具。动态置信域选择的有效性。 为了缩小教师错误预测带来的负面影响,我们提出了在教师输出后添加DCRS模块。一个重要的超参数4.3.消融研究师生1/30(100)1/8(372)1/4(744)接下来,我们分析每个组件在监督45.055.760.8我们的框架。 不用多说,所有的实验-S+R S+R43.2-1.854.8-0.957.1-3.7使用与[13]中的第一个种子相同的训练策略,在Cityscapes数据集上进行测试。W WW SW S+R50.6电话:+5.6 59.3 +3.6 62.0+1.253.9电话:+8.9 63.2 +7.5 64.87044图2.我们的方法和基线方法对Cityscapes验证数据集上不同比例的标记图像的定性结果(a)(b)-(e)不同比例的标记图像的分割结果DCRS的成功率为s,它控制保留区域的比率以计算损失函数。表7示出了在不同的情况下,使用1/8比例的标记数据的Cityscapes验证集上的mIoU的网络性能。注意s=1。0表示所有样本都被保留,或者换句话说,从框架中删除DCRS。正如我们所看到的,设置s也是如此S0.40.60.80.91.0Miou61.962.963.363.162.8表7. DCRS中不同系统的性能分析。按1/8比例的标记数据计算(372)。小会给网络带来负面影响这可能是因为它只保留了具有高置信度的简单样本,这导致信息区域的丢失 当我们把s增加到0。8以包括更多用于损耗计算的区域,网络达到63的最高mIoU。百分之三。此外,分配太大的s也是有问题的,并且导致性能降低,因为错误的预测总是来自低置信度区域。定量评价。在图2中,我们进一步显示了我们的方法和基线方法在不同比例的标记图像上的一些定性分割结果。总体而言,我们的方法实现了更完整的分割结果比基线模型在相同的分裂标记的图像,特别是对于复杂的纹理区域,需要长距离的特征一致性。5. 结论我们提出了一种新的端到端的学习框架,半监督语义分割。具有交叉集数据混合策略的非对称数据增强具有一致性规则化的优点。此外,为了扩展所有图像的类内特征紧凑性和类间区分能力,我们引入了逐像素对比学习。增加了DCRS,以消除损失计算过程中噪声预测的负面影响在两个常用的自动驾驶数据集上的实验表明,该框架能够充分利用标记数据和未标记数据,并获得优异的性能.致谢这项工作得到了香港研究资助局的支持。香港中文大学14201620。作者也感谢华为诺亚7045引用[1] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。Remix-match :具有分布对齐和增强锚定的半监督学习在ICLR,2020年。[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch:半监督学习的整体方法。NeurIPS,2019。[3] Krishna Chaitanya ,Ertunc Erdil,Neerav Karani, andEnder Konukoglu. 有限注释医学图像分割的全局和局部特征对比学习在NeurIPS,2020年。[4] 放 大 图 片 作 者 : Chen Liang-Chieh , Raphael GontijoLopes , Bowen Cheng , Maxwell D. Collins , Ekin D.Cubuk , Barret Zoph , Hartwig Adam , and JonathonShlens.天真学生:在视频序列中利用半监督学习进行城市场景分割。在ECCV,2020年。[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[7] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。[8] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。[9] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。[10] Ekin D. Cubuk,Barret Zoph,Jonathon Shlens和Quoc V.乐随机扩增:实用的自动化数据扩充,减少搜索空间。2020年CVPR研讨会[11] Terrance Devries和Graham W.Taylor. 改进的卷积神经网络的正则化。arXiv预印本arXiv:1708.04552,2017。[12] Zhengyang Feng , Qianyu Zhou , Guangliang Cheng ,Xin Tan,Jianping Shi,and Lizhuang Ma.通过动态自我训练和班级平衡课程的半监督语义分割。arXiv预印本arXiv:2004.08514,2020。[13] Geoffrey French 、 Samuli Laine 、 Timo Aila 、 MichalMackiewicz和Graham D.Finlayson 半监督语义分割需要强的、变化的扰动。在BMVC,2020年。[14] Yves Grandvalet,Yoshua Bengio,et al.基于熵最小化的半监督学习。载于CAP,2005年。[15] Mi c haelUGutmannandAapoHy v¨ rinen. 非标准化统计模型的噪声对比度估计及其应用自 然 图 像 统 计 。 Journal of Machine Learning-ingResearch,13(2),2012.[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[18] 杰弗里·E Hinton,Oriol Vinyals,and Jeffrey Dean.在神经网络中扩散知识。arXiv预印本arXiv:1503.02531,2015。[19] LukasHo yer,DengxinDai,YuhuaChen,AdrianK¨ring,Suman Saha,and Luc Van Gool.用自监督深度估计改进语义分割的三种方法arXiv预印本arXiv:2012.10782,2020。[20] 洪伟智、蔡怡萱、刘彦婷、林彦宇、杨明萱。半监督语义分割的对抗学习。在BMVC,2018年。[21] 景龙龙和田英丽。使用深度神经网络的自监督视觉特征学习:一个调查。IEEE Transactions on Pattern Analysisand Machine Intelligence,2020。[22] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议[23] Samuli Laine和Timo Aila用于半监督学习的时间集成在ICLR,2017。[24] Dong-Hyun Lee等人伪标签:简单有效的深度神经网络半监督学习方法。在表征学习挑战研讨会上,ICML,2013年。[25] 小刘、张凡金、侯振宇、王昭宇、李勉、张静、唐杰。自我监督学习:生成的或对比的。arXiv预印本arXiv:2006.08218,2020。[26] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。[27] Christoph Mayer,Matthieu Paul,and Radu Timofte.半监督学习的对抗性特征分布对齐。计算机视觉和图像理解,2021年。[28] Ke Mei,Chuang Zhu,Jiaqi Zou,and Shanghang Zhang.实例自适应自训练,用于无监督域自适应。在ECCV,2020年。[29] Robert Mendel,Luis Antonio De Souza,David Rauber,Jo aoPauloPapa,andChristophPalm. 基于纠错监督的半监督分割2020年。[30] Sudhanshu Mittal、Maxim Tatarchenko和Thomas Brox。具有 高、 低层次 一致 性的半 监督 语义分 割。IEEETransactionsonPatternAnalysisandMachineIntelligence,2019。[31] Avital Oliv
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功