低成本城市场景语义分割方法的研究及应用

125 浏览量更新于2023-10-15 收藏 17.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Anurag Das1,2, Yongqin Xian5, Yang He6, Zeynep Akata3,4, Bernt Schiele1,2{andas,schiele}@mpi-inf.mpg.de, yongqin.xian@vision.ee.ethz.ch, yang.he@cispa.saarland, zeynep.akata@uni-tuebingen.de59780低成本粗标注的城市场景语义分割01 德国马普信息学研究所，2 萨尔兰信息学校园，3 德国马普智能系统研究所，4 图宾根大学，5 瑞士苏黎世联邦理工学院，6 CISPA0摘要0为了获得最佳性能，当今的语义分割方法使用大规模且精心标注的数据集，需要昂贵的标注预算。在这项工作中，我们展示了粗标注是一种低成本但高效的训练语义分割模型的替代方法。考虑到城市场景分割的情况，我们利用廉价的粗标注数据和合成数据来训练我们的模型，并展示了与精细标注的真实世界数据相比具有竞争力的性能。具体而言，我们提出了一种从粗到细的自训练框架，为粗标注数据的未标注区域生成伪标签，使用合成数据改进在语义类别之间的边界附近的预测，并使用跨域数据增强增加多样性。我们在Cityscapes和BDD100k数据集上进行了大量实验，结果表明我们的方法在性能与标注成本之间取得了显著的平衡，仅使用一小部分的标注预算就能达到与完全标注数据相当的性能。此外，当作为预训练时，我们的框架相比标准的全监督设置表现更好。01. 引言0由于大规模数据集的可用性，深度学习在语义分割领域取得了重大进展[8, 10,21]。然而，为了进行语义分割的数据集需要对图像中的每个像素进行仔细标注，这是耗时且昂贵的。这促使人们大量尝试通过探索较弱形式的监督来减少标注工作，例如图像级别标签[23,14]、边界框[17]、涂鸦[20]和点[1]。这些工作主要集中在相对较简单的PASCALVOC数据集[10]上，每个图像只有少数几个对象实例。然而，在真实世界的城市场景中，交通参与者的密度显著更高[8]。减少这种复杂城市场景的标注负担仍然具有挑战性且未被充分探索。Cityscapes[8]是最受欢迎的城市场景分割数据集之一，包含两种像素级别的标注（见图1）：（1）粗标注-标注者为标记类别绘制粗糙的多边形，忽略类别边界周围的细节。目标是在每张图像的7分钟标注时间内尽可能多地标注像素[8]，唯一的条件是每个多边形必须具有来自单个类别的像素标签。（2）细标注-标注者绘制与对象边界良好对齐的精细多边形，这需要更多的时间，即每张图像90分钟。粗标注为较低的标注成本而牺牲了更精细的细节。为了获得最佳性能，大多数现有工作[22, 5, 45, 41, 44, 38, 46, 39, 13, 32,43]依赖于完全的细标注，这种标注成本显著高昂。粗数据有时被用作额外的训练数据，以略微提高性能（不到2%）[5, 41,38]。然而，关于使用粗标注的潜在价值相对较少的了解。在这项工作中，0 我们的方法 DeepLab-v3+0 相同的低预算（58 vs 75 标注小时）0 全细标注预算的五分之一（933 vs 4462 标注小时）0我们的方法 DeepLab-v3+0 细标注0 粗标注0图1：左图：粗标注和细标注的比较。粗标注在边界准确性和标注成本之间进行权衡。右图：我们的方法使用粗标注和合成数据，在类似较低预算范围内比使用细标注数据训练的DeepLab-v3+模型预测效果更好（见第一行的汽车和建筑物），而在只有全细标注预算五分之一的情况下，我们的方法对大多数类别表现相当，并且对于尾部分布的类别（例如第二行的火车）甚至表现更好。0具有最佳性能的语义分割方法主要依赖于大规模精心标注的数据集[8,10,21]。然而，为了进行语义分割的数据集需要对图像中的每个像素进行仔细标注，这是耗时且昂贵的。这促使人们大量尝试通过探索较弱形式的监督来减少标注工作，例如图像级别标签[23,14]、边界框[17]、涂鸦[20]和点[1]。这些工作主要集中在相对较简单的PASCALVOC数据集[10]上，每个图像只有少数几个对象实例。然而，在真实世界的城市场景中，交通参与者的密度显著更高[8]。减少这种复杂城市场景的标注负担仍然具有挑战性且未被充分探索。Cityscapes[8]是最受欢迎的城市场景分割数据集之一，包含两种像素级别的标注（见图1）：（1）粗标注-标注者为标记类别绘制粗糙的多边形，忽略类别边界周围的细节。目标是在每张图像的7分钟标注时间内尽可能多地标注像素[8]，唯一的条件是每个多边形必须具有来自单个类别的像素标签。（2）细标注-标注者绘制与对象边界良好对齐的精细多边形，这需要更多的时间，即每张图像90分钟。粗标注为较低的标注成本而牺牲了更精细的细节。为了获得最佳性能，大多数现有工作[22, 5, 45, 41, 44, 38, 46, 39, 13,32,43]依赖于完全的细标注，这种标注成本显著高昂。粗数据有时被用作额外的训练数据，以略微提高性能（不到2%）[5, 41,38]。然而，关于使用粗标注的潜在价值相对较少的了解。在这项工作中，59790我们提出了一种新颖的混合监督方案，将粗糙数据和合成数据结合起来，旨在减少城市场景分割的注释成本，同时不损害最终性能。虽然粗糙数据在固定的注释预算下比细粒度数据大得多（超过10倍），但仅使用粗糙数据很难获得良好的性能，这在一定程度上解释了这个领域缺乏文献的原因。其中一个限制是粗糙数据中有很多未标记的区域，可能不包含足够的监督信号。我们提出了一个粗到细的自训练框架，为未标记的区域生成具有一致性约束的伪标签，逐渐将稀疏的粗糙注释转化为密集的细粒度注释。为了避免需要边界信息，我们提出利用合成数据，该数据提供精确的密集注释，并且在注释成本方面是免费的。在合成数据上应用边界损失，以鼓励网络专注于修复边界错误。为了减轻域差异，我们进一步进行跨域数据增强，混合来自两个域的图像。最后，我们使用伪标记的粗糙数据和合成数据重新训练网络以改进网络性能。我们的工作具有以下贡献。首先，我们强调粗糙注释的潜在价值，它比细粒度注释便宜得多，但作为主要的训练来源，它已经被大部分忽视。其次，我们为城市场景分割开发了一个强大的基线，使用来自粗糙和合成数据的混合监督信号，从而大大降低了注释成本。据我们所知，我们是第一个将粗糙和合成数据结合用于城市场景分割的研究。最后，我们展示了在具有挑战性的Cityscapes和BDD100k数据集上注释预算和性能之间的权衡。我们通过实验证明，与使用相当的注释预算的细粒度注释相比，我们的方法始终表现优于其细粒度数据对应物。值得注意的是，在Cityscapes和BDD100k数据集上，我们的方法仅使用细粒度注释成本的五分之一和八分之一，就实现了有竞争力的性能。02. 相关工作0使用弱标注进行语义分割。之前的工作使用图像级别注释[24,23]，点注释[1]，涂鸦注释[20]和边界框注释[17]。此外，其他工作在测试期间将零样本学习[2, 36, 19,9]结合到具有注释的类别中，以将知识转移到新颖类别中。然而，这个方向上的之前的工作并没有进行复杂的场景分割，只是展示了从图像中分割出少量对象的结果。与这些工作不同，我们专注于具有粗糙注释的具有挑战性的城市场景语义分割。我们展示了一种可行的解决方案，可以使用粗糙注释获得有竞争力的结果，每个结果只需要7分钟0平均每个1024×2048图像。半监督语义分割。例如，在[15,31, 6, 18, 4,12]中研究了使用无标签数据来改善分割性能或减少注释工作量的方法。生成对抗训练已被用于实现此目标，可以通过将训练好的判别器应用于为无标签图像提供训练信号[15]或从GAN生成标记对[18]来实现。此外，其他工作将标签从学习模型传播到无标签图像[4, 47,12]。尽管上述方法在减少注释工作量方面取得了成功，但它们仍然需要细粒度注释来训练城市场景的语义分割模型，而我们只使用粗糙注释来获得高质量的分割结果。自训练和伪标签自训练旨在从无标签数据中学习并为监督学习生成伪标签。谢等人[37]提出了嘈杂的学生训练，其中学生模型添加了诸如dropout、随机深度和数据增强等噪声。Ghiasi等人[11]引入了多任务自训练（MuST），它使用在标记数据上训练的几个专门的教师模型来创建一个多任务伪标签数据集。该数据集用于使用多任务学习训练单个学生模型。Zoph等人[48]发现，当使用更强的数据增强和在预训练有帮助的情况下，自训练总是有帮助的。更一般地说，自训练已被用于显著提高语义分割的性能[4]。与这项工作不同的是，我们不使用细粒度注释数据来训练我们的模型，仍然以更低的注释成本获得有竞争力的性能。使用合成数据进行语义分割有许多成功的数据集发布用于城市场景[27, 35,29]。然而，大多数之前的工作侧重于预训练模型[27,35]，域适应[33, 34, 3]或泛化[7,42]。在这项工作中，我们将真实世界数据与粗糙注释和合成数据结合起来，训练用于城市场景的语义分割模型。我们利用合成数据为网络提供有用的细节和边界，为粗糙注释数据中未标记区域预测伪标签。我们展示了仅使用粗糙注释和合成数据就可以在昂贵的细粒度注释预算的一小部分情况下获得可比较的性能。03.粗到精自训练框架0尽管粗糙注释可以显著降低标注成本，但仅使用粗糙数据在城市场景分割中实现良好性能非常困难，因为缺少边界信息。为此，我们提出了一种新颖的粗到精自训练框架。Γpred = ||∇ˆys||2; ΓGT = ||∇ys||2(1)59800跨域增强0伪标签0分割0网络0粗糙0合成0网络预训练0训练0粗糙0增强0伪标签与0一致性约束0推断0分割0网络0训练0训练0未标记边界0跨域增强0分割0网络0粗糙0合成0训练0训练0训练0伪标签0边界0网络重新训练0图2：我们的粗到精自训练框架。我们提出通过生成伪标签来改进粗糙注释。在网络预训练阶段，我们使用具有未标记边界的粗糙数据和增强合成数据。我们有所有数据的 L CE ，分类损失，以及仅用于精细详细合成数据的附加 L bd，边界损失。在网络预训练之后，我们为粗糙注释中被忽略的边界区域生成伪标签，然后进行网络重新训练，其中我们用带有伪标记边界的改进粗糙注释替换粗糙注释，并进行迭代训练。0利用粗糙和合成数据的混合监督，为未标记的区域生成伪标签以重新训练网络的框架。图2显示了我们粗到精自训练框架的概述，包括三个阶段：1）使用稀疏粗糙注释和合成数据进行网络预训练，2）使用一致性约束在粗糙数据中生成伪标签的未标记区域，3）使用伪标签的粗糙数据和合成数据进行网络重新训练。最后两个阶段也可以迭代地进行以改进网络。03.1.分割网络预训练0我们框架的第一阶段是分割网络的预训练，我们在第二阶段中学习一个强大的“教师”网络，例如DeepLab-v3+[5]，用于伪标注。让 D = ( X c , Y c ) ∪ ( X s , Y s )成为我们的训练集，其中 X c 表示具有粗糙注释 Y c的真实图像，X s 表示具有精细注释 Y s的合成图像。虽然粗糙注释 Y c在物体边界处特别稀疏，但合成注释 Y s为合成图像中的每个像素提供了密集标签。我们方法的关键是从粗糙数据中捕获真实分布并从合成数据中学习边界信息。接下来，我们描述了用于减小域差距的跨域数据增强和用于显式边界建模的边界损失。跨域增强。受到DACS[33]的启发，我们从合成标签中随机采样类别掩码（概率为p =0.5）和相应的图像片段，并将它们粘贴到真实掩码和图像上（参见图2和补充材料的第1节）。我们以概率 p = 0.5从给定的训练批次中选择真实样本，并执行此操作0使用从整个合成数据集均匀采样的合成数据进行增强，以获得一组新的训练数据 ( X aug , Y aug ) ，即 ( X aug , Y aug) = ( mask ) � ( X c , Y c )+(1 − mask ) � ( X s , Y s ) ，其中mask 从合成标签中采样，�是逐元素乘法。这种简单的策略减轻了域差距并改善了数据多样性，对于低预算环境特别有帮助。[33]解决了无监督域自适应问题，其中对于真实图像没有可用的标签，而对于我们的问题，我们为真实图像手动注释了粗糙标签。此外，我们从整个数据集中采样合成数据进行增强，而[33]仅从训练批次中采样合成数据。分类损失。我们采用标准的交叉熵损失（L CE ）对粗糙数据、合成数据和增强数据的混合（X c ,Y c ) ∪ ( X s , Y s ) ∪ ( X aug , Y aug )进行训练。边界损失。由于粗糙注释缺乏适当的边界，我们建议在合成数据上采用边界损失，鼓励网络预测更好的边界。假设 ˆ y s 是合成图像 x s 的预测标签掩码，具有GT掩码y s ，我们使用以下方程计算预测边界 Γ pred 和GT边界 ΓGT 。0其中 � 是梯度算子，采用中心差分逼近。我们使用 GumbelSoftmax trick [16] 估计 ˆ y s，使其可微分进行反向传播。对于两个边界，我们通过阈值处理选择具有代表性边界的像素（阈值为 1 e − 8[32]）。假设 p + GT 和 p + pred分别是地面真值和分割预测掩码的对应边界像素。Lbd = λ1|Γpred(p+GT ) − ΓGT (p+GT )|+λ2|Γpred(p+pred) − ΓGT (p+pred)|(2)θ∗ = arg maxθL(Y, fθ(X))59810在阈值处理之后（即 p + GT , p + pred 是满足 Γ GT > 1e − 8 , Γ pred > 1 e − 8 的点），我们计算边界损失：0在我们的实验中，我们将 λ 1 , λ 2设置为0.5。这个边界损失在[32]中被应用于精细标注的图像上。相比之下，我们将这个边界损失应用于合成数据上，并且没有访问任何精细标注的数据，这是一种更具挑战性的设置。这个损失项通过强制边界一致性来补充交叉熵损失。由于粗糙数据的边界不准确，我们不会在粗糙数据上应用边界损失。03.2. 迭代伪标签和网络重新训练。0在第二阶段，我们使用在前一阶段训练的模型为粗糙训练数据中的未标记像素生成伪标签。我们采用测试时增强一致性[4,25]来生成精确的伪标签。具体而言，我们使用翻转（翻转、不翻转）和调整大小（缩放：0.5、1、2.0）的组合进行增强。对于任何一种组合，如果伪标签不一致，我们将该像素标记为忽略。此外，我们还进行了置信度阈值处理。如果在6种增强的logits平均后得到的预测置信度大于阈值（0.9），我们接受伪标签，否则将其标记为忽略。生成伪标签后，我们进入第三阶段，用伪标签替换粗糙标注图像中的未标记像素。注意，每次迭代后，我们只替换粗糙数据中忽略区域的先前标签，并保留手动标注的粗糙标签不变。然后，我们使用相同的损失函数在新的粗糙数据、原始合成数据和增强数据上重新训练分割网络。这两个阶段可以迭代地进行，以改进网络。03.3. 通过基于模型的采样解决类别不平衡问题0选择训练样本并不是一件简单的事情。特别是对于较低的注释预算，尾部分布类别出现得很少，有这样的样本在训练中变得更加重要。此外，由于我们假设最初的图像是未标记的，从尾部类别获取训练样本变得困难。获取训练数据中类别分布的手动分类开销也是额外的。我们提出了基于模型的采样方法，以确保尾部类别的像素在训练数据集中充分存在，而不需要任何手动开销。我们的基于模型的采样方法利用在初始随机采样的1,000个样本上训练的模型。0算法1：生成伪标签的粗到精框架0数据：粗糙数据：( X c , Y c )，合成数据：( X s , Y s )步骤1 - 网络预训练：0• 对粗糙数据进行跨域增强，得到 ( X aug , Y aug )。0• 在组合数据 ( X, Y ) = ( X c , Y c ) ∪ ( X s , Y s ) ∪( X aug , Y aug ) 上训练分割模型 f θ ( x ) 。0其中， L = L CE ( Y, f ( X, θ )) + λ L bd ( Y s , f ( X s , θ ))0步骤2-带一致性约束的伪标签生成：从训练好的网络fθ�生成忽略区域（Xps，Yps）的伪标签，遵循一致性规则。步骤3-网络重新训练：用伪标签（Xps，Yps）替换粗糙数据（Xc，Yc），并迭代执行步骤2-3。0数据集类型训练验证时间 %注释0Cityscapes粗糙 19998 NA 7分钟 63.040精细 2975 500 90分钟 99.980BDD100k粗糙 4000 NA 7分钟 69.810精细 3000 1000 75分钟 1000Synscapes合成 25000 NA NA 1000GTA-5合成 24966 NA NA 1000表1：左：数据集统计。train：训练图像数量，val：验证图像数量，time：注释一张图像的时间，“%annotated”：每张图像平均注释的像素百分比。相对于精细注释，具有较少标记像素的粗糙注释的注释速度明显更快。0粗略注释图像。使用这个初始模型，我们估计了可用未标记图像的类别分布。根据估计的类别分布信息，我们确保从每个类别中采样足够数量的样本，通过采样几乎相同数量的具有特定类别的数据样本。我们在训练样本上逐步建立，即对于2000个训练样本，我们使用最初的1000个训练样本，并添加另外1000个样本，这些样本是通过初始分割模型的帮助获得的。我们将我们的采样技术的性能与随机采样进行了比较，结果见表3，观察到我们基于模型的采样确实可以显著提高性能。04. 实验0在本节中，我们首先描述了我们的实验设置，然后呈现了我们的结果和与基线的比较，以及框架组件的消融研究，最后进行了定性分析。数据集。我们使用Cityscapes[8]和BDD100k [40]数据集进行粗糙注释，以及Synscapes[35]和GTA-5 [28]数据集进行合成注释。统计数据59820这些数据集的结果如表1所示。只有Cityscapes数据集提供了手动注释的粗糙数据。由于BDD100k不包含粗糙注释，我们将7000个训练样本分为3000个精细注释样本和4000个粗糙样本，其中粗糙注释是模拟的（详见补充材料第1节和图1）。我们在Cityscapes和BDD100k的标准验证集上报告结果。注释成本Cityscapes图像的精细注释成本，其中几乎所有像素都被注释，大约为90分钟[8]每张图像，包括质量控制。相反，粗糙注释的成本只有7分钟[8]每张图像。此外，对于BDD100k，精细注释的成本约为75分钟，而粗糙注释的成本只有7分钟每张图像。我们通过使用labelme[30]手动注释每个粗糙和精细注释的10个样本来获得BDD100k的注释成本。我们认为合成数据注释的成本是免费的[26]，因为它是通过逼真的渲染技术生成的。实现细节我们使用带有Imagenet预训练的Xception-71作为骨干的DeepLab-v3+。我们使用SGD优化器和“Poly”学习率调度器，幂为2.0。我们还将动量设置为0.9，权重衰减率设置为0.0001。我们使用760×760的裁剪尺寸和批量大小为12。对于每一轮训练，我们训练100个epochs。此外，我们执行我们的自我训练框架的3个迭代。对于评估，我们使用多尺度推理，尺度为{0.5,1,2}。我们对BDD100k和Cityscapes使用相同的超参数。04.1. 与基线的比较0在本节中，我们首先介绍我们的基线，然后展示性能与注释成本的权衡，并与DeepLab-v3+的最佳结果进行比较。基线。我们将DeepLab-v3+[5]作为分割网络，并首先与大多数现有工作[5, 44, 41,38]采用的两种常见监督方案进行比较。第一个基线是只使用精细数据进行训练，表示为DeepLab-v3+（精细）。第二个基线是在精细数据和粗糙数据的组合上进行训练，表示为DeepLab-v3+（精细+粗糙）。具体而言，我们首先在粗糙数据上预训练网络，然后在精细数据上进行微调。其次，我们还与另外两个直观的基线进行比较，即DeepLab-v3+（Synscapes）和DeepLab-v3+（GTA），其中模型是使用合成数据进行训练的。性能与注释成本的权衡。在这个实验中，我们在Cityscapes和BDD100k上比较了不同注释成本下的基线。对于Cityscapes的精细数据，我们从训练集中选择了50、100、200、400、800、1600和2975张图像，分别花费75、150、300、600、1200、2400和4462小时进行注释。类似地，对于粗糙数据，我们选择了500、1000、2000、4000和8000张图像进行注释。0BDD100k Cityscapes0与DeepLab-v3+的最佳结果进行比较。我们在表2中展示了DeepLab-v3+在Cityscapes和BDD100k数据集上取得的最佳结果。对于Cityscapes，与在完整训练集上训练的DeepLab-v3+（精细）相比（表2），我们的方法（粗糙+合成）能够以只有其成本五分之一的代价（933 vs4462小时）取得竞争性的结果。对于BDD100k，我们以只有完整精细训练成本八分之一的代价（466 vs3750小时）取得可比较的性能。有趣的是，我们的方法在像素实例数量较少的尾部类别上表现更好。例如，我们的方法在Cityscapes的train、trafficlight、rider和motor以及BDD100k的wall、bicycle、rider和motorcycle上明显优于DeepLab-v3+（精细）。这归因于我们跨域数据增强中训练样本多样性的改进。我们还比较了两种预训练策略：（1）模型从训练集中抽取的年龄分别为58、116、233、467和933小时。最后，对于合成数据，我们随机选择500、1000、2000、4000和8000张图像，假设注释是免费的。需要注意的是，所有这些Cityscapes的训练样本都是根据我们提出的基于模型的采样策略逐步采样的，该策略在第3.3节中描述。对于BDD100k，我们遵循与Cityscapes相同的采样方案。图3显示了Cityscapes（左）和BDD100k（右）数据集上的结果。我们有以下观察结果。总体而言，我们的方法在注释成本与性能的权衡上取得了最佳结果。方法的排名顺序为Ours（粗糙+合成（Synscapes/GTA-5））> DeepLab-v3+（精细+粗糙）> DeepLab-v3+（精细）>DeepLab-v3+（合成），其中合成可以是GTA-5或Synscapes。虽然使用粗糙数据进行预训练，即DeepLab-v3+（精细+粗糙），确实改善了仅使用精细数据的DeepLab-v3+（精细），但我们提出的粗到细的框架实现了更大的性能提升。在Cityscapes上，我们的方法与Synscapes一起获得了令人印象深刻的77.5%的mIoU，只需933小时的注释成本，这只相当于使用完整精细数据（mIoU为77.4%）的注释成本的五分之一。这是令人鼓舞的，因为没有先前的工作报告在不使用任何精细数据的情况下取得如此竞争性的结果。此外，我们发现在注释预算较小的情况下，性能差距更大，例如对于Cityscapes实验，我们的方法以58小时的注释成本实现了67.5%的mIoU，而DeepLab-v3+（精细）以75小时的注释成本实现了37.2%的mIoU。类似地，对于BDD100k，我们的方法以58小时的注释成本实现了49.9%的mIoU，而以62.5小时的注释成本实现了25.9%的mIoU。这表明，在注释预算有限时，注释多样的粗糙示例比精细标注每个像素更重要，为大规模城市场景分割数据集的注释提供了启示。更重要的是，这些结果从经验上证实了我们提出的粗到细框架的有效性。 BDD100k Cityscapes59830图3：注释成本与性能。基线：1. DeepLab（精细）：标准的精细数据训练策略，2.DeepLab（精细+粗糙）：在粗糙数据上进行预训练，然后在精细数据上进行微调，3.DeepLab（Synscapes/GTA）：使用合成的Synscapes/GTA数据集进行标准训练，与我们的方法（粗糙+合成（Synscapes/GTA-5））相比：我们的方法在粗糙和合成数据的组合上进行训练。DeepLab-v3+简称为DeepLab。0Cityscapes0方法预算0道路0建筑物0植被0汽车0天空0人行道0栅栏0地形0墙0电线杆0交通标志0人0公交车0卡车0自行车0火车0交通灯0骑车人0摩托车0mIoU0DeepLab-v3+（精细） 4462 98.0 92.2 92.2 94.9 94.8 84.5 58.4 62.7 56.8 61.2 76.1 80.4 88.7 81.9 75.2 80.6 65.8 60.6 62.4 77.4我们的（粗糙+合成） 933 97.2 91.8 90.8 94.0 94.3 78.2 60.7 55.8 58.8 61.1 75.5 80.5 92.0 82.1 74.5 85.6 69.8 64.7 65.5 77.50预训练（粗糙） 6795 98.3 92.7 92.5 95.3 95.1 86.4 65.2 61.4 54.2 65.9 78.9 81.9 90.7 86.3 77.1 83.8 69.4 64.8 67.5 79.3预训练（我们的） 6795 98.4 93.5 93.2 96.0 95.5 87.3 66.3 65.1 54.7 71.2 82.5 85.5 92.6 84.5 80.8 88.0 75.3 70.7 72.7 81.80BDD100k0方法预算0道路0汽车0天空0杆子0植被0建筑物0交通标志0人行道0交通灯0地形0行人0卡车0栅栏0公共汽车0墙壁0自行车0骑车人0摩托车0火车0mIoU0DeepLab-v3+（精细） 3750 94.6 90.2 95.2 48.3 85.7 85.4 49.2 62.5 48.3 44.3 64.3 57.5 45.7 75.5 27.1 47.8 46.3 48.8 0 58.8我们的（粗糙+合成） 466 93.0 87.7 91.0 40.2 82.9 82.8 49.5 60.5 50.8 44.5 65.7 51.4 49.3 74.8 31.4 50.0 56.5 49.7 0 58.50预训练 4216 94.7 89.7 95.2 46.5 85.7 84.9 48.2 63.7 47.1 46.9 61.2 56.2 49.6 77.9 37.8 46.9 43.7 50.5 0 59.3 预训练（我们的） 421695.3 91.2 95.6 57.1 87.1 86.8 58.9 67.7 59.7 48.3 69.9 58.3 51.9 82.9 35.3 59.3 55.4 55.9 0.4 64.10表2：与DeepLab-v3+最佳结果的比较。我们报告每类IoU以及平均IoU（mIoU）。类别名称按照类别图像分布的降序排列。我们展示了Cityscapes（顶部块）和BDD100k（底部块）的结果。对于每个结果，我们进行了两个比较-1）我们的结果不使用精细数据与DeepLab-v3+使用所有可用的精细数据；我们的方法在尾部类别上表现更好，整体性能与1/5的预算（Cityscapes）和1/8的预算（BDD100k）相当。2）使用我们的框架进行预训练与使用粗糙数据进行预训练。我们的模型作为一种更好的预训练方法，优于直接使用粗糙数据进行预训练。0按照传统方法[5]在粗糙数据上进行预训练，(2)使用我们的框架在粗糙和合成数据上进行训练。如表2所示，使用我们的框架进行预训练可以显著提高Cityscapes数据集的2.5个mIoU和BDD100k数据集的4.8个mIoU。这些结果表明，我们的方法可以作为最佳性能的有希望的预训练策略。04.2. 模型组件和超参数的消融研究0在本节中，我们对跨域增强、边界损失、自训练迭代次数的影响以及与半监督学习方法的比较进行了消融研究。消融实验在Cityscapes上进行，Synscapes是合成数据集。0跨域增强的效果。在我们的方法中，我们通过复制粘贴进行跨域增强10050045050570503004505057050450505705030050505075rserentorker-ns.59840标注小时成本0mIoU性能0粗糙 <- 合成粗糙 <- 精细精细 <- 合成精细 <- 精细0标注小时成本0mIoU性能0精细+无增强精细+增强粗糙+无增强粗糙+增强0标注小时成本0mIoU性能0使用边界损失，不使用边界损失0标注小时成本0mIoU性能0我们的（粗糙+合成（Synscapes））半监督0图4：从左到右：1）合成与精细的跨域增强。2）跨域增强的重要性。3）边界损失的重要性。4）与半监督学习基线[4]在Cityscapes上的比较。0粗糙样本500 1K 2K 4K 8K0迭代0 65.6 68.0 70.7 73.4 74.5 迭代1 67.1 71.674.2 75.8 76.6 迭代2 67.5 70.4 73.4 74.4 77.50表3：使用混合的粗糙标注数据和合成数据的自训练迭代。我们的框架在大多数实验中在迭代1中达到了最佳性能，不需要进行更多的迭代。0将合成对象叠加到粗糙图像上，即粗糙 ←合成。在这项研究中，我们消除了给定两个数据域（粗糙 ←精细，精细 ← 合成，精细 ←精细）的其他增强选择。如图4（左）所示，从合成到粗糙数据的增强效果最好。我们还进行了消融实验，研究跨域增强对于我们的自训练框架的重要性。我们在图4（中）中展示了精细数据和粗糙数据的消融结果。我们观察到，使用跨域增强可以提高性能，特别是在低预算情况下（即58小时），使用粗糙数据的性能显著提高（mIoU提高了3%），因为合成数据提供了足够的样本，其中包含原始数据中没有的重要细节。0边界损失的影响。我们在图4（中）中展示了边界损失的消融实验。尽管合成数据提供了必要的边界信息，但我们可以观察到仅使用交叉熵损失训练的网络性能比另外应用边界损失的性能要差。具体而言，与不带边界的版本相比，我们观察到在58、116和233小时的标注预算下，即使用500、1000和2000个带有粗糙标注的图像，性能分别提高了3.1、1.9和2.1个mIoU。0自训练迭代次数。我们的粗到精自训练框架的最后两个阶段可以进行迭代训练。在表3中，我们展示了性能的改善。0粗糙样本1K 2K 4K 8K0基于模型的采样57.4 62.3 66.4 68.4均匀采样57.4 59.7 64.5 66.50表4：基于模型的类平衡采样与随机采样。我们的基于模型的迭代采样相比均匀采样生成了多样化的训练样本。0在不同迭代中使用500、1000、2000、4000和8000个粗糙样本进行训练。迭代0对应于网络预训练阶段，如算法1中所解释的那样。在迭代0之后，我们为粗糙标注图像中的被忽略区域生成伪标签，并为下一次迭代创建新的GT。从迭代0到1，有明显的改进，因为模型触及了在迭代0中被忽略的新标注像素。在第2次迭代中，由于伪标签中不可避免的错误，性能可能会稍微下降。应该标注哪些示例？粗糙标注并不昂贵，但了解哪些示例应该更早地标注是有趣的。我们逐渐从1000个扩展到8000个训练示例。在每一步中，我们采样新的粗糙示例来训练模型，如第3.3节所讨论的。我们将我们的采样策略与均匀采样进行比较，结果见表3。显然，我们可以看到模型基于采样的有效性，可以获得更好的结果。与半监督学习的比较。我们还将我们的学习框架与半监督学习方法[4]进行比较，结果见图4（右）。我们使用[4]提供的代码进行比较。对于这个实验，我们使用与其他实验相同的给定预算的粗糙数据样本。我们将粗糙数据样本视为未标记的数据，不使用其注释掩码。同样，我们对于给定预算使用与我们基线实验中相同的精细数据样本。我们的框架在58个标注小时的预算下达到了67.5%的mIoU，而半监督方法在75个标注小时的预算下达到了62.0%的mIoU（见图4（右））。同样，我们的框架在116和233个标注小时的预算下，与半监督方法相比，mIoU分别提高了2.4%和1.4%，预算分别为150和300。 De DeepLab-v3+ Image5985058与75小时0（精细）预算0233与300小时0 图像真值0我们0[933小时]0（精细）[4462小时]0真值0图像0不同低预算的性能比较与完整精细预算的20％的性能比较0图5：我们与DeepLab-v3+（精细）在Cityscapes数据集上的定性比较。左：不同标注预算（即58（我们）与75（基线）和233（我们）与300（基线）标注小时）的图像的定性性能。右：与完整精细预算的20％（933与4462标注小时）的定性比较。即使在五倍更便宜的预算下，我们的粗到精框架的性能与完整精细标注预算相当。此外，在一些尾部类别上，它甚至表现更好（例如，突出显示的摩托车、公共汽车）。感兴趣区域以白色边界框呈现。0小时。这表明粗略标注的重要性，结合合成数据可以有效地获得竞争性能。04.3. 定性结果0我们在图5中可视化了基线与我们框架的定性比较。在左侧，我们提供了与使用精细标注数据训练的基线在75和300小时预算下的比较，稍微多于我们的版本58和233小时。我们观察到小物体的性能和富有细节的区域得到了改善。例如，我们突出显示卡车和交通灯在我们的233小时模型中被正确预测，而使用精细标注的模型无法很好地识别它们。此外，我们的58小时模型仍然能够识别大多数这些物体，而使用75小时的比较方法直接忽略了这些物体，尽管它的训练图像对每个像素都有标签。此外，基线在两个预算下都无法预测交通灯，而我们的方法成功预测了。在右侧，我们提供了与完整精细标注预算的比较。我们的框架只使用了完整预算的五分之一（933与4462），在定性上能够与基线表现相当。此外，定性结果还证实了我们的框架在尾部类别上的表现更好。0（见表2）。例如，与基线相比，公共汽车和摩托车（右侧，分别为第1列和第2列）的性能。05. 结论0在这项工作中，我们认为粗略标注的数据作为主要的训练来源已经被大部分忽视。因此，我们提出了一种基于粗略数据和合成数据的新的监督方案，显著减少了标注时间。我们通过结合自训练、边界损失和跨域数据增强的方法，开发了一个有效地从粗略和合成数据中学习的强基线。我们进行了大量实验证明我们的方法在Cityscapes和BDD100k数据集上与两个不同的合成数据集（即Synscapes和GTA-5）相比，实现了最佳的性能与标注成本的平衡。更重要的是，我们的方法在Cityscapes数据集上仅使用五分之一的标注预算就能达到与现有技术水平相竞争的性能。我们希望我们的方法能够激发更多未来的研究方向，探索这个具有挑战性但有回报的研究方向。59860参考文献0[1] Amy Bearman, Olga Russakovsky, Vittorio Ferrari, and LiFei-Fei. 什么是重点：点监督的语义分割。在 ECCV ，2016年。0[2] Maxime Bucher, Tuan-Hung Vu, Matthieu Cord, andPatrick P´erez. 零样本语义分割. Advances in NeuralInformation Processing Systems, 32:468–479, 2019.0[3] Wei-Lun Chang, Hui-Po Wang, Wen-Hsiao Pen

下载后可阅读完整内容，剩余1页未读，立即下载