带有帧间特征重建的半监督视频语义分割

98 浏览量更新于2023-10-25 收藏 12.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

32630带有帧间特征重建的半监督视频语义分割0庄佳帆，王子磊，高远中国科学技术大学0{ jfzhuang，gyy } @mail.ustc.edu.cn，zlwang@ustc.edu.cn0摘要0在现实场景中，语义分割面临的一个主要挑战是由于人力成本高昂，只有有限的像素级别标注可用，尽管提供了大量的视频数据。现有的半监督方法试图利用无标签数据进行模型训练，但它们只将视频视为一组独立的图像。为了更好地探索使用视频数据的半监督分割问题，我们在本文中提出了一个半监督视频语义分割任务。对于这个任务，我们观察到在训练视频中，有标签帧和无标签帧之间的过拟合非常严重，尽管它们在风格和内容上非常相似。这被称为内部视频过拟合，实际上会导致性能下降。为了解决这个问题，我们提出了一种新颖的帧间特征重建（IFR）技术，利用真实标签来监督无标签帧上的模型训练。IFR本质上是利用视频中不同帧之间的内在相关性。在训练过程中，IFR会强制有标签帧和无标签帧之间的特征分布变窄。因此，内部视频过拟合问题可以得到有效缓解。我们在Cityscapes和CamVid上进行了大量实验，结果表明我们提出的方法优于先前的最先进方法。代码可在https://github.com/jfzhuang/IFR找到。01. 引言0作为计算机视觉中的一个基本任务，图像语义分割已经在许多下游应用中受益。然而，图像语义分割的训练数据需要像素级别的标注，这非常昂贵且耗时。最近，提出了半监督图像分割（SSIS）来使用有限数量的标记图像和额外的无标签图像来训练模型。0� 通讯作者0∙∙∙0采样的有标签帧采样的无标签帧0剩余的无标签帧0∙∙∙0SSIS的训练数据0扩展的训练数据0图1.扩展训练数据的示意图。在SSIS中通常只采样每个视频的一个帧作为训练数据。这些帧被分为有标签和无标签的帧。为了充分利用视频数据，我们提出将剩余的视频帧补充到无标签数据中进行训练。0标记图像。除了对有标签图像进行常规监督学习外，SSIS方法通常为无标签图像构建额外的监督信号，例如一致性约束[17, 23]和伪标签[4,32]。研究表明，它们可以在具有挑战性的数据集（如PASCAL VOC[8]）上带来相当大的性能改进。在现实场景中，我们通常可以方便经济地收集视频数据，但由于人力成本高昂，只有少数视频会被注释为单个帧。例如，作为代表性数据集的Cityscapes[6]在训练子集中包含2975个视频，每个视频只有第20帧被注释。也就是说，实际上有很多无标签帧可以用于模型训练。然而，现有的SSIS方法[4, 17,23]并没有充分利用视频数据，其中每个视频只采样一个帧用于模型训练，大量的无标签帧被忽略。为了更好地探索无标签视频，我们提出通过利用剩余的视频帧来扩展SSIS的训练数据设置，如图1所示。利用额外的无标签帧进行SSIS的一种自然方法是将剩余帧添加到无标签训练数据中进行训练。在这里，我们特别实现了两种SOTA的SSIS方法，即CAC[17]和CPS [4]。表1给出了2081.580.179.7Labeled FramesOverfittingTraining Videooverﬁtting issue in SSVS with a popular VSS model, i.e.,Accel [15]. In particular, we conduct a study experimenton the Cityscapes-VPS dataset [16]. The dataset contains500 videos, where each video contains 30 frames and every5 frame is annotated. We randomly select 100 videos fortraining and the remaining are for validation. To be speciﬁc,only the annotation on the 20th frame is used for each videoduring training. We evaluate the model on both the trainingand validation subsets, as shown in Table 2. From the re-sults, we have two observations. First, the performance gapexists between the training and validation frames, which isthe commonly concerned overﬁtting issue. Second, the gapalso occurs between the training and other frames within thetraining videos, though they have no signiﬁcant visual dif-ference as shown in Figure 2. We called this phenomenonas inner-video overﬁtting.In this work, we argue that the inner-video overﬁttingis mainly caused by the lack of accurate supervision sig-nals for unlabeled frames, which results in inconsistent per-formance. Speciﬁcally, the model trained on the labeledframes is supervised by the ground-truth labels, which canprovide accurate semantic signals. But the model trainedon unlabeled frames is either not considered as in Accel orsupervised by some constructed signals. Actually, these sig-nals can only provide an indirect constraint like consistencyin CAC or noisy semantic supervision like pseudo labels inCPS, which cannot effectively supervise model training onunlabeled frames.Then a natural question arises: can we use ground-truth32640方法采样帧所有帧0基准 66.00 - + CAC 69.70 69.80 (+0.10)0基准 70.32 - + CPS 74.39 74.66 (+0.27)0表1.使用所有视频帧的SOTA方法的性能。我们通过将剩余视频帧添加到未标记的训练数据中来实现CAC [17]和CPS[4]。然而，没有明显的改进。在这里，使用1/8标记数据的Cityscapes，并采用带有ResNet50骨干的Deeplabv3+作为分割模型。由于采用了不同的训练设置，基准性能不同。0ID Accel + CAC + CPS0T015 69.8 ↓ 11.7 69.9 ↓ 10.2 68.1 ↓ 11.6010 65.3 ↓ 16.2 65.5 ↓ 14.6 65.1 ↓ 14.605 60.6 ↓ 20.9 61.9 ↓ 18.2 61.8 ↓ 17.90V 20 49.8 ↓ 31.7 51.1 ↓ 29.0 51.3 ↓ 28.40表2.Cityscapes-VPS上的性能。T和V分别表示训练和验证子集。ID表示帧ID。模型在训练子集的第20帧上进行训练。↓表示与训练帧的准确度差距。性能差距不仅存在于两个子集之间，也存在于每个训练视频内部。0Cityscapes上的结果。可以看出，没有明显的性能改进。主要原因可能是视频数据的同质化，即视频中不同帧的内容通常相似。因此，对于每个视频的一个帧，现有的半监督方法不能通过对训练数据进行简单扩展来从剩余帧中获取更多信息。显然，如何有效地利用未标记的视频数据提高分割性能是具有挑战性的。接下来，我们首先阐述本文中所讨论的半监督视频分割（SSVS）任务。与SSIS任务相比，有两个主要区别。第一个是训练数据。在SSIS中，训练时只使用每个视频中的一个帧进行采样，而在SSVS中，可以访问所有视频帧，如图1所示。第二个是基准模型。SSIS专注于改进图像分割模型，例如PSPNet[28]，而SSVS专注于视频分割模型，例如Accel[15]。由于视频模型通常设计用于利用视频特征，例如通过利用时间一致性进行特征传播，因此我们特别考虑通过进一步探索视频数据的学习方法。过拟合是SSIS中的一个关键挑战，正如现有研究所示[17，23]。在这里，我们研究了使用流行的VSS模型Accel[15]在Cityscapes-VPS数据集[16]上的内部视频过拟合问题。该数据集包含500个视频，每个视频包含30帧，每5帧进行注释。我们随机选择100个视频进行训练，其余视频用于验证。具体而言，训练期间只使用每个视频的第20帧的注释。我们在训练和验证子集上评估模型，如表2所示。从结果中，我们得出两个观察结果。首先，训练和验证帧之间存在性能差距，这是常见的关注的过拟合问题。其次，训练视频内部的训练帧与其他帧之间也存在差距，尽管它们在视觉上没有明显的差异，如图2所示。我们将这种现象称为内部视频过拟合。在这项工作中，我们认为内部视频过拟合主要是由于未标记帧缺乏准确的监督信号导致的，这导致性能不一致。具体而言，训练在标记帧上的模型由地面真实标签进行监督，可以提供准确的语义信号。但是，在未标记帧上训练的模型要么不被考虑，如Accel中的情况，要么由一些构造的信号进行监督。实际上，这些信号只能提供间接的约束，如CAC中的一致性，或者像CPS中的伪标签一样的噪声语义监督，这些信号不能有效地监督未标记帧上的模型训练。然后，一个自然的问题出现了：我们能否使用真实的0未标记帧0测试视频0内部视频过拟合0图2.内部视频过拟合的示意图。通常关注的过拟合问题是训练和测试视频之间的性能差距。然而，我们发现每个训练视频中标记和未标记帧之间也存在过拟合现象，这被称为内部视频过拟合。Video semantic segmentation.Video semantic segmen-tation aims to predict pixel-level semantics for each videoframe. Different from static images, videos embody richtemporal information that can be exploited to improve se-mantic segmentation performance.DFF [30] ﬁrstly pro-poses feature propagation to reuse key frame features un-der the guidance of estimated optical ﬂows, which can re-duce the average computational cost.Inspired by DFF,Accel [15] proposes an adaptive fusion policy to effec-tively integrate the predictions from the key and currentframes. DAVSS [31] proposes to correct the distorted fea-tures caused by inaccurate optical ﬂow when propagating32650在未标记的帧上训练模型的标签？在这里，我们特别利用视频中不同帧之间的内在相关性，因为它们具有相似的语义内容和风格。基于这个想法，我们提出了一种新颖的帧间特征重建（IFR）方法。其主要思想是使用未标记帧fU的特征信息来重建标记帧fL的特征。然后，我们使用地面真实标签对重建特征fR进行监督学习，这实际上隐含地对fU进行了监督。在训练过程中，由于它们受到相同目标的监督，fR将变得与fL相似。因此，fL和fU之间的特征分布差异将缩小，进一步减轻视频内部过拟合。通过这种方式，我们还可以提高模型在未见场景（即测试数据）上的泛化能力。总之，与其他方法相比，IFR具有两个主要优点。首先，它使用地面真实标签在未标记数据上训练模型，而不是使用生成的伪标签[4]或一致性约束[17,23]，这可以提供更准确的语义监督。其次，它通过相同的目标协同处理标记和未标记数据的训练，而现有方法中这两者是分开处理的。我们在Cityscapes和CamVid数据集上对所提出的方法进行了实验评估。结果验证了我们的IFR在减轻视频内部过拟合问题方面的有效性，并且它可以显著提高主流视频语义分割方法的性能。本文的贡献总结如下。0•我们制定了半监督视频语义分割任务，并发现视频内部过拟合问题是损害SSVS性能的主要挑战之一。0•我们提出了一种新颖的帧间特征重建方法，以减轻视频内部过拟合并进一步提升性能。IFR实质上利用了视频中不同帧之间的内在相关性。0•我们通过实验证明了我们提出的方法的有效性，并且在Cityscapes和CamVid上的结果证明了我们的方法优于先前的最先进方法。02. 相关工作0图像语义分割。图像语义分割旨在为场景图像中的每个像素分配一个语义类别，这是一项基础但相当具有挑战性的任务。现代语义分割的深度学习方法主要基于全卷积网络（FCN）[20]。FCN首先使用卷积层替代全连接层，并能够获得更好的性能。0为了进一步提高分割结果，提出了扩张卷积[3]、金字塔池化[28]和注意机制[10, 13,29]来建模物体关系和聚合上下文信息。此外，HRNet[25]被设计用于保持高分辨率特征图。随着Transformer的发展，一些基于Transformer的分割模型[5, 19,26]被提出并超越了当前基于CNN的网络。尽管这些模型取得了成功，但由于需要足够的像素级注释进行学习，它们在实际部署中常常受到阻碍。0半监督语义分割。为了在有限的注释下实现良好的表示学习，研究了半监督语义分割方法来探索未标记数据。现有方法可以大致分为三类。基于对抗的方法，例如AdvSemiSeg[14]和S4GAN[21]，利用鉴别器区分来自标记和未标记数据预测的置信度图。基于一致性的方法通过各种扰动来强制预测或中间特征的一致性。扰动可以在输入图像上进行，例如CutMix[9]，ClassMix [22]和CAC[17]，也可以在特征空间上进行，例如CCT[23]。基于自学习的方法在未标记数据上生成伪分割图。[2,11,27]提出了以离线方式生成伪标签并迭代重新训练模型的方法。而PseudoSeg [32]和CPS [4]则遵循FixMatch[24]方案，并设计了一种在线伪标签机制。需要注意的是，Naive-Student等人[2]提出了利用额外的未标记视频序列中的自学习来提高全监督图像分割模型性能的方法。与此不同，我们的工作侧重于改进具有有限注释的视频分割模型的表示学习。然而，现有方法并不适用于视频数据，它只将未标记视频视为独立图像的集合。如表1所示，更多的额外帧由于数据同质性而无法带来显著的改进。在本文中，我们提出了一种探索视频数据内在相关性的新方法。��Lsup = −E(ˆx,y)∈DL32660...0...0原型生成类别原型0特征重建0监督信号0...0类别原型0...0共享权重0伪标签0标注0...0原型生成0真实标签0强数据增强0...0...0...0公式（5-7）0公式（4）0公式（4）0...0...0图3. 交帧特征重建概述。对于一个标记视频，我们采样注释帧 ˆ x L t 1 ，一个随机帧 x L t 2 和给定的标签 y t 1 来构建一个训练样本。t 1 和t 2 表示不同的时间戳。在训练过程中，经过特征提取后，我们基于伪标签 ˇ y t 2 在 f t 2 和 f s t 2 上生成类别原型。然后，使用原型 P t 2和 P s t 2 重建 f t 1 ，得到重建特征 � f t 2 和 � f s t 2 。最后，分别在 logits L t s 和 � L t s 上使用 y t 1 计算交叉熵损失 L 和 L s。需要注意的是，IFR 也可以应用于未标记的视频，只需将样本帧的标签 y t 1 替换为伪标签 ˇ y t 1 。最佳观看效果为彩色并放大。0特征。除了特征传播范式，一些最近的工作提出使用时间约束[7,18]和注意力机制[12]来改进轻量级模型的性能。与基于图像的方法不同，视频分割方法可以使用标记帧附近的未标记帧进行训练。然而，现有方法仍然需要足够的标记帧，而其他未标记视频则没有得到充分的利用。据我们所知，这项工作是为视频分割方法设计的第一个半监督学习方法。03. 方法03.1. 问题定义0在这项工作中，我们专注于半监督视频语义分割问题。形式上，假设提供了一小组带有一个帧注释的标记视频和一大组未标记视频。令 V = { x 1 , ∙ ∙ ∙ , x l } 表示视频中的 l个帧，其中 x i 是第 i 个帧，具有 H × W 的空间分辨率。令D L = { ( V L 1 , ˆ x 1 , y 1 ) , ∙ ∙ ∙ , ( V L n L , ˆ x L , y nL ) } 表示 n L 个标记视频，其中 ˆ x i 是第 i个视频的注释帧，y i ∈ R C × H × W对应于像素级的独热标签，C 是类别数。令 D U = {V U 1 , ∙ ∙ ∙ , V U n U } 表示 n U个未标记视频。此外，还使用另一组标记视频 D V = { ( V V1 , ˆ x 1 , y 1 ) , ∙ ∙ ∙ , ( V V n V , ˆ x n V , y n V ) }用于性能评估。0性能评估。我们的工作旨在从 D L 和 D U中学习分割模型，并将其推广到 D V 。一般来说，分割网络Net = Net B ◦ Net C 可以被看作是由骨干网络 Net B进行特征提取和分类器 Net C进行语义预测的组合。根据之前的方法[4, 9, 17, 22, 23,32]，半监督学习的目标通常可以总结为两个损失函数。第一个是在标记数据上的常规交叉熵损失：0H ×W ×0i = 10c = 1 y (i,c) log p (i,c),(1)0其中p = Net(ˆx)，p(i,c)表示像素i属于c类的softmax概率。第二个损失旨在使用一些构建的监督信号（例如一致性约束或伪标签）对未标记数据进行模型训练，本文中用Lunsup表示。然后，整体的训练目标可以表示为L = L sup +λL unsup，(2)0其中λ是一个权衡参数。03.2. 帧间特征重构0在这项工作中，我们主要关注解决视频内过拟合问题，并提出了一种新颖的帧间特征重构（IFR）方法。IFR不同于通过不同的损失函数利用标记和未标记数据，s(i,c) =s(i,c)/τ32670在标记帧的监督学习中涉及到未标记帧，从而可以缩小视频中不同帧之间的特征分布差异。我们解决方案的概述如图3所示。为了清楚起见，我们首先详细说明我们方法的核心组件，即标记视频数据，然后解释两个扩展，即强增强数据和未标记视频数据。具体而言，我们从标记视频中采样一个带有标签y t1的注释帧ˆ x L t1和一个未标记帧x Lt2来构建一个训练样本，表示为(x t1, x t2, yt1)，其中省略了上标L和ˆ以简化符号。首先，我们使用共享的骨干提取x t1和x t2的特征，得到f t1和ft2。我们IFR的关键思想是利用f t2的信息重构ft1，然后在重构特征上进行给定标签的监督学习。由于视频中的不同帧包含相似的语义内容，我们考虑使用从ft2生成的类原型进行特征重构。这里的类原型是指通常表示类语义的类别特征中心。具体而言，我们计算f t2的伪标签ˇy t2为0ˇ y t2 = argmax(Net C (f t2)). (3)0然后，我们根据ˇ y t2将属于同一类的像素特征ft2进行分组，即0P (c) t2 =∑0i f 0∑0i1 (ˇ y (i,c) t2 == 1), (4)0其中1是一个指示函数，ˇ y (i,c)t2表示像素i属于c类的独热标签。为了用生成的类原型Pt2表示f t1，我们考虑采用常用的注意力机制0s (i,c) = ¯ f (i) t1 T ¯ P (c) t2, (5)0∑ C c=1 e s (i,c) / τ re, (6)0f (i)t2 =0c = 1 s (i,c) P (c) t2, (7)0其中¯ f (i) = f (i) / ∥ f (i)∥是L2归一化。在此，我们通过除以温度τ re来调整softmax操作。然后，我们生成分类概率� p = σ(NetC (� ft2))，其中σ表示softmax函数。为了进行类似于标记帧的监督学习，我们采用交叉熵损失，给定标签y t1如下0L = -E0H ×W ×0i = 10c = 1 y (i,c) t1 log p (i,c). (8)0然后，整体的训练目标可以表示为0L = L sup + λ * L. (9)0在训练过程中，� f t2会变得与ft1相似，因为它们受到相同的损失函数和监督信号的约束。因此，模型被鼓励缩小f t2和ft1之间的分布差异，即保持视频中不同帧之间的特征一致性。03.3. 扩展解决方案0强增强数据。现有的工作[9, 22, 23,27]表明，在半监督学习中，对未标记数据进行强数据增强可以有效提高模型的泛化能力。如图3的下半部分所示，我们对强增强帧进行了IFR训练的扩展。具体而言，以标记视频数据为例，我们对xLt2施加强增强，例如颜色抖动，得到xLst2。在特征提取之后，我们还使用fst2对特征进行重建。不同的是，在生成原型时，我们使用ft2的伪标签而不是fst2进行更准确的语义预测。之后，采用常规的IFR训练过程，其中�LsL。本质上，我们对ft2和fst2施加了隐式一致性约束，因为我们通过ft1缩小了它们的分布差异。最后，整体的训练目标可以表示为0L = Lsup + λ(�L + λs�Ls), (10)0其中λs是一个额外的控制参数。0未标记视频数据。到目前为止，我们提出的IFR仅应用于标记视频。为了进一步探索大量的未标记视频，我们对IFR解决方案进行了简单扩展。具体而言，我们从每个未标记视频中随机采样两帧xUt1和xUt2。类似地，对xUt2应用强增强，得到xUst2。由于没有提供帧标签，我们需要为重建特征建立监督信号。特别地，我们采用xUt1的伪标签ˇyt1。然后获得一个训练样本(xUt1, xUt2, xUst2,ˇyt1)，自然地，它可以像标记样本一样用于IFR训练过程。最后，整体的训练目标可以表示为0L = Lsup + λL(�LL + λs�LsL) + λU(�LU + λs�LsU), (11)0其中下标L和U表示在标记和未标记视频上计算的损失项，λL和λU对应于它们的权衡参数。04. 实验04.1. 数据集0Cityscapes[6]是语义分割和自动驾驶领域的代表性数据集。它侧重于对城市街景的语义理解。32680方法 1/30 (100) 1/16 (186) 1/8 (372) 1/4 (744) 1/2 (1488)0Accel 45.73 52.10 57.12 60.55 62.83 + CCT [23] 48.05 (+2.32) 53.25 (+1.15) 58.88 (+1.76) 62.00 (+1.45)64.02 (+1.19) + CAC [17] 48.83 (+3.10) 54.56 (+2.46) 58.55 (+1.43) 62.78 (+2.23) 63.87 (+1.04) + CPS[4] 48.97 (+3.24) 54.69 (+2.59) 58.97 (+1.85) 62.43 (+1.88) 63.74 (+0.91) + Ours 52.86 (+7.13) 56.39(+4.29) 60.08 (+2.96) 63.45 (+2.90) 64.53 (+1.70)0表3. 在Cityscapes验证子集上与最先进的方法进行比较，使用不同的分区协议。Accel作为只在标记数据上训练的监督基准。我们的方法在少量标记训练数据上获得更多收益。0方法 1/30 (15) 1/16 (29) 1/8 (58) 1/4 (117) 1/2 (234)0Accel 42.37 47.57 50.78 56.40 59.37 + CCT [23] 47.09 (+4.72) 52.45 (+4.88) 54.50 (+3.72) 58.69 (+2.29)61.58 (+2.21) + CAC [17] 46.85 (+4.48) 52.16 (+4.59) 54.03 (+3.25) 59.67 (+3.27) 63.17 (+3.80) + CPS[4] 46.05 (+3.68) 52.04 (+4.47) 55.30 (+4.52) 59.02 (+2.62) 62.49 (+3.12) + Ours 49.50 (+7.13) 53.71(+6.14) 57.37 (+6.59) 61.27 (+4.87) 63.86 (+4.49)0表4. 在CamVid测试子集上与最先进的方法进行比较，使用不同的分区协议。Accel作为只在标记数据上训练的监督基准。我们的方法在少量标记训练数据上获得更多收益。0对城市街景的语义理解。训练和验证子集分别包含2975个和500个视频，每个视频包含30帧，分辨率为1024×2048。每个视频的第20帧通过像素级语义标签进行注释，共有19个类别。CamVid[1]也侧重于对城市街景的语义理解，但其数据量较Cityscapes少。它有四个驾驶视频，每个视频包含3600到11000帧，分辨率为720×960。每个视频的每30帧用11个语义类别进行注释，总共有701个样本。与Cityscapes类似，我们将视频分为701个视频，每个视频包含30帧。所有视频被分为包含468个视频的训练验证集和包含233个视频的测试集。我们遵循CutMix[9]和CPS[4]的分区协议，通过随机子采样1/2、1/4、1/8、1/16和1/30的所有训练视频，即Cityscapes中的2975个视频和CamVid中的468个视频，作为标记集，并将其余视频作为未标记集。在实现中，我们遵循[2]将标记集添加到未标记集中进行无监督学习，这可以稍微提高性能。根据[9, 14,21-23]，我们对Cityscapes和CamVid中的每个视频帧应用双线性插值，将其调整为512×1024和360×480，以提高训练和推理的效率。04.2. 实现细节0在这里，我们特别采用Accel[15]作为视频语义分割架构，因为它具有良好的性能。它由两个分割分支组成，即一个重型参考分支和一个轻量级更新分支，一个光流网络和一个分数融合层。0为了与之前的工作保持一致，我们采用PSPNet[28]来实现分割分支。具体来说，我们分别采用ResNet-101和ResNet-18作为参考分支和更新分支的骨干。Accel使用两阶段的训练过程。在第一阶段，两个分割分支在特定数据集上分别进行训练，例如Cityscapes[6]。为了改善有限注释下的表示学习，我们在这个阶段应用了半监督方法。分割模型使用SGD优化器进行训练，动量为0.9，权重衰减为10^-4。学习率设置为10^-3。0对于骨干参数，我们采用10^-2的学习率，对于其他参数，我们采用退火策略进行学习率的调整。在第二阶段，我们固定两个分割分支，并且通过标准的监督学习范式，联合训练分类器、光流网络和分数融合层。训练设置遵循原始的Accel实现。实际上，第二阶段的训练也面临着有限的注释问题。然而，如何为光流网络设计合适的半监督学习方法超出了本文的范围，可以在未来进行探索。我们在验证视频上评估分割性能，即Cityscapes的验证子集和CamVid的测试集。与Accel一样，对于每个测试视频，我们在选择的关键帧上进行参考分支，然后在注释帧上进行更新分支。通过特征传播和分数融合来预测分割结果。我们使用平均交并比（mIoU）作为度量标准评估不同的方法。关键帧间隔设置为5，实验中保持不变。Lsup�LL�LU�LsL + �LsUmIoU (%)√43.68√√46.13 (+2.45)√√46.81 (+3.13)√√46.66 (+2.98)√√√47.51 (+3.83)√√√√48.40 (+4.72)32690对于我们的IFR，方程（11）中有三个权衡超参数，方程（6）中有一个温度参数，即λL，λU，λs和τre。我们将λL设置为0.01，λU设置为0.001，λs设置为0.1，τre设置为0.5，用于所有实验。04.3. 性能比较0为了证明我们方法的优越性，我们与最近的最先进方法进行了比较，即基于一致性的两种SSIS方法，包括CCT[23]和CAC [17]，以及基于自学习的SSIS方法CPS[4]。然而，由于它们在不同的设置下实现，例如分割模型、数据划分和训练设置，很难直接进行比较。此外，这些方法并没有应用于我们使用的视频语义分割模型Accel。因此，我们根据官方代码重新实现了这些方法，其中所有方法都配备了相同的基础分割模型PSPNet，并使用相同的数据划分和训练设置（即优化器和超参数）。此外，现有工作中采用了不同的数据增强方法，例如[23]中的随机裁剪和翻转，[17]中的额外随机缩放，以及[4]中的cutmix。为了公平比较，我们对所有比较方法的有监督学习采用相同的随机裁剪和翻转，同时保持它们的原始实现进行无监督学习。通过这种方式，我们可以在有监督学习的基础上公平地比较不同方法带来的改进。在Cityscapes和CamVid上的比较结果如表3和表4所示。从结果中，我们得出以下两个观察结果。首先，我们的IFR相对于仅使用标记数据的基线，在所有划分协议下都能带来显著的性能提升。在Cityscapes中，使用100个样本获得了7.13%的mIoU增益，在CamVid中，使用15个样本获得了7.14%的mIoU增益。这些实验结果很好地验证了IFR能够有效提高模型的泛化能力。其次，我们的方法在性能上超过了其他最先进的方法，包括CCT [23]，CAC [17]和CPS[4]。例如，在Cityscapes和CamVid上的1/30划分协议下，它相对于CPS的性能提升分别为3.98%和3.46%。这表明IFR能够更好地利用无标签的视频数据来训练模型。04.4. 消融研究0在本小节中，我们进行实验来揭示我们提出的方法的有效性。所有实验都是在Cityscapes上使用1/30标记数据进行的。为了高效训练，默认情况下我们采用PSPNet与ResNet18作为分割网络。0组件的影响。为了揭示我们提出的组件的贡献，我们进行了一项广泛的研究0表5.我们提出的组件的消融研究。每个组件与基线相比都能带来性能改进，它们的组合效果最好。0方法阶段一阶段二 PSPNet18 PSPNet1010基准 43.68 50.24 45.73 + CCT 45.60 (+1.92) 52.60(+2.36) 48.05 (+2.32) + CAC 46.50 (+2.82) 53.50(+3.26) 48.83 (+3.10) + CPS 46.81 (+3.13) 53.26(+3.02) 48.97 (+3.24) + 我们的方法 48.40 (+4.72)54.40 (+4.16) 52.86 (+7.13)0表6.多阶段训练中改进的消融研究。在Accel之后，第一阶段涉及图像分割模型的训练，而第二阶段主要涉及光流网络和分数融合的训练。与其他方法相比，我们的方法在两个训练阶段都能带来更多的收益。0评估它们的组合，并且结果显示在表5中。可以看出，每个组件与基线相比都能带来性能改进。特别是，对标记和未标记帧进行的特征重建可以实现比仅装备其中一个的设置更高的准确性。最后，所有组件的组合效果最好。0两个阶段的改进。使用的Accel是以两个阶段的方式进行训练的。在这里，我们调查了两个阶段训练中的性能改进，并将结果显示在表6中。在第一阶段中，只涉及图像分割模型，即PSPNet18和PSPNet101。与其他方法相比，由于更好地利用了未标记的视频，我们的方法在基线上能够获得更多的收益。在第二阶段中，涉及光流网络和分数融合层的训练，即在这个阶段没有引入半监督方法。然而，我们观察到一个有趣的现象，即我们训练的分割模型可以进一步改善基线的性能，而其他模型只能几乎保持在第一阶段带来的改进。这是因为我们的方法可以帮助分割模型提取具有相似分布的不同帧的特征，这对于Accel中的特征融合非常重要。0不同VSS架构的性能。为了研究我们方法的泛化能力，我们进一步应用它DFF [30]44.1949.97 (+5.78)DAVSS [31]46.5151.97 (+5.46)T2081.580.179.776.51569.8↓11.769.9↓10.268.1↓11.671.0↓5.51065.3↓16.265.5↓14.665.1↓14.667.4↓9.1560.6↓20.961.9↓18.261.8↓17.966.8↓9.7V2049.8↓31.751.1↓29.051.3↓28.453.9↓22.632700基准（Accel）CCT CAC CPS 我们的方法 GT Frame0图4.使用1/30标记样本在Cityscapes数据集上进行定性结果比较。提出的IFR方法产生比基线和其他方法更好的结果。我们用黄色框突出显示细节。最好以彩色和放大的方式查看。0方法基准 + 我们的方法0表7.不同VSS架构的性能。我们的方法可以持续为不同的视频语义分割架构带来显著的改进。0ID 加速度 + CAC + CPS + 我们的方法0表8.Cityscapes-VPS上的性能。T和V分别表示训练和验证子集。ID表示帧ID。模型在训练子集的第20帧上进行训练。↓表示与训练帧相比的准确性差距。显然，我们的方法可以显著减小过拟合和内部视频过拟合问题。0对不同的视频语义分割架构进行了实验。我们特别采用了两种广泛采用的视频分割架构，即DFF [30]和DAVSS[31]。如表7所示，我们提出的方法可以始终带来显著的性能改进。0减轻过拟合的有效性。为了验证我们的方法在解决过拟合问题上的有效性，我们在Cityscapes-VPS上进行了分析实验，其中每个视频都有多个帧的注释，结果如表8所示。与基线相比，可以看出我们的方法不仅可以显著减小训练和验证视频之间的准确性差距，还可以减小训练视频内部的准确性差距。这验证了我们的方法可以有效地减轻视频语义分割中的过拟合问题。0时间一致性的有效性。这很重要0方法 Accel + CCT + CAC + CPS + 我们的方法0TC 70.04 71.43 71.47 70.74 73.880表9. 时间一致性比较.我们使用时间一致性（TC）得分[18]评估不同方法。我们提出的方法可以显著改善。0对于VSS方法来说，产生具

下载后可阅读完整内容，剩余1页未读，立即下载