基于时域伪监督的域自适应视频分割

156 浏览量更新于2023-12-01 收藏 2.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文arXiv：2207.02372v1 [cs.CV] 2022年7基于时域伪监督的域自适应视频分割YunXing1DayanGuan2JiaxingHuangg1ShijianLu1<$1南洋理工大学2穆罕默德·本·扎耶德人工智能大学抽象的。在大量带标签训练数据的监督下，视频语义分割取得了很大的进展。然而，域自适应视频分割，它可以通过从标记的源域适应到未标记的靶结构域在很大程度上被忽略。我们设计了时间伪监督（TPS），这是一种简单有效的方法，它探索了一致性训练的思想，从未标记的目标视频中学习有效的表示与传统的在空间空间中建立一致性的一致性训练不同，我们通过在增强的视频帧中执行模型一致性来探索时空空间中的一致性训练，这有助于从更多样化的目标数据中学习。具体地，我们设计了跨帧伪标记以提供来自先前视频帧的伪监督，同时从增强的当前视频帧学习。跨帧伪标记鼓励网络产生高确定性预测，这有助于有效地利用跨帧增强进行一致性训练。在多个公共数据集上的广泛实验表明，与最先进的技术相比，TPS更容易实现，训练更稳定，并且实现了卓越的视频分割准确性。代码可在https://github.com/xing0047/TPS上获得。关键词：视频语义分割，无监督域自适应，一致性训练，伪标记1介绍视频语义分割[15，49，12，43，55]旨在预测连续视频帧中每个像素的语义标签，是计算机视觉研究中具有挑战性的任务。随着近年来深度神经网络的发展，通过从大规模和注释的视频数据中学习，视频语义分割取得了很大的进展[59，38，17，31，34，35，24，44][4，11]。然而，视频语义分割中的注释涉及像素级密集标记，平等贡献。[2]通讯作者。+v：mala2255获取更多论文2YunXing1刘文田2刘嘉行Huang1ShijianLu1†监督源域视频序列视频预测地面实况跨帧增强跨帧伪标记目标域视频序列Fig. 1. 提出的时间伪监督（TPS）处理域自适应视频分割，通过引入跨帧增强和跨帧伪标记的一致性训练在目标域。具体地，跨帧伪标记获得针对先前帧的独热预测（作为伪标记），并且将预测的伪标记扭曲到当前视频帧，以监督从由跨帧增强生成的增强的当前帧的学习。收集起来非常耗时和费力，并且已经成为监督视频分割中的一个主要限制另一种方法是采用合成数据，例如由游戏引擎渲染的数据，其中像素级注释是自生成的[56，22]。另一方面，使用这种合成数据训练的视频分割模型在应用于与合成数据相比通常具有不同分布的真实视频时，通常会出现明显的性能下降[19]。域自适应视频分割的目的是桥接不同视频域之间的分布偏移。通过域自适应图像分割尽管域自适应视频分割技术在实际应用中具有重要价值，但其研究却很少。据我们所知，DA-VSN[19]是唯一探索对抗学习的工作以及时间一致性正则化，以最小化目标域中的域间时间差异和帧间差异。然而，DA-VSN严重依赖于对抗性学习，这无法保证对未标记目标数据的低经验误差[37，6，70]，从而对目标域中的时间一致性正则化产生负面影响。一致性训练是一种流行的半监督学习技术，它可以保证在学习过程中的低经验误差。视频分割先前帧一热预测伪监管增强的当前帧扭曲伪标签经纱+v：mala2255获取更多论文基于时域伪监督的域自适应视频分割3通过强制模型输出对数据扩充保持不变来实现未标记数据[68，60，53]。最近在领域适应任务中进行了探索，以保证未标记目标数据的经验误差较低[1，62，48]。受半监督学习中一致性训练的启发，我们设计了一种时间伪监督（TPS）方法，探索时空空间中的一致性训练，以实现有效的领域自适应视频分割。TPS通过强制模型预测在应用于未标记的目标域视频帧的跨帧增强的存在下是不变的来工作，如图1所示。具体地，TPS引入跨帧伪标记，其预测先前视频帧的伪标记。然后将预测的伪标签扭曲到当前视频帧，以强制与增强的当前帧的预测一致。同时，它们也为领域自适应模型提供了伪监督，以便从增强的当前帧中学习。与DA-VSN相比，TPS涉及不稳定的对抗学习，实现更简单，训练更稳定，并在多个公共数据集上一致地实现卓越的视频分割性能。这项工作的主要贡献可以概括为三个方面。首先，我们介绍了一个域自适应视频分割框架，从一致性训练的角度来解决缺少目标注释的挑战。其次，我们设计了一种创新的一致性训练方法，该方法在增强的当前视频帧的预测和先前视频帧的变形预测第三，我们证明了所提出的方法在多个公共数据集上一致地实现了卓越的2相关作品2.1视频语义分割视频语义分割是一个具有挑战性的任务，分配一个人类定义的类别，每个像素在每一帧的一个给定的视频序列。为了应对这一挑战，最自然和直接的解决方案是直接将图像分割方法单独应用于每一帧，这样模型在训练时往往会忽略视频中的时间连续性。大量工作探索通过光流引导特征融合[72，17，34，44]、基于顺序网络的表示聚合[52]或分割的联合学习以及光流估计[32，13]来利用跨帧的时间一致性。虽然视频语义分割在给定大量注释数据的监督学习范式下取得了巨大成功，但逐像素视频注释是费力的，并且通常不足以训练行为良好的网络。半监督视频分割的目的是利用稀疏注释的视频帧分割相同视频的未注释帧。为了更好地利用未注释的数据，一系列工作对学习视频进行了研究+v：mala2255获取更多论文4YunXing1刘文田1刘嘉颖1ShijianLu1通过利用光流[51，72，52，13]，补丁匹配[2，5]，运动提示[61，73]，伪标记[7]或自监督学习[66，39，33]，在注释有效设置下的分割网络。为了进一步减轻注释的负担，一种流行的研究方法探索了通过对抗学习[63，30，65，27，54，28，19]或自我训练[74，41，42，9，69，36，47，26，25，71，29，48]自动注释的合成数据训练真实场景的分割网络，这被称为域适应。对于域自适应视频分割，DA-VSN[19]是唯一通过结合对抗学习来解决问题的工作，以弥合时间一致性中的域差距。然而，DA-VSN在很大程度上受到对抗性学习的约束，这种学习在训练期间不稳定，具有高的感染风险。与对抗性学习[23，64，45，21，67，18]不同，一致性训练[68，60，48，1]最近在半监督学习和领域适应中得到了广泛的研究，其优点是具有更高的训练稳定性和更低的经验风险。在这项工作中，我们建议通过引入跨帧的一致性训练来2.2一致性培训一致性训练是一种流行的半监督学习方案，它将网络预测规则化为对输入扰动不变[68，60，53，20，10]。这在直觉上是有意义的，因为模型应该对输入的微小变化具有鲁棒性。最近的研究集中在一致性训练不同的方式和在哪里设置扰动。大量的工作在输入级引入了高斯噪声[16]，随机正则化[58，40]或对抗性噪声[50]的随机扰动，通过扩大样本空间来增强一致性训练最近，已经证明更强的图像增强[68，3，60]可以更好地改善一致性训练。从概念上讲，图像的强增强丰富了数据的样本空间，这可以显着地有利于半监督学习。除了半监督学习中一致性训练的有效性外，最近的一系列研究探索了在领域适应任务中调整策略[1，62，48]。 SAC [1]通过确保来自不同增强视图的预测之间的一致性来解决域自适应分割。DACS[62]通过混合来自两个域的图像块并相应地交换标签和伪标签来执行增强从FixMatch[60]衍生而来，它在图像分类的场景下进行一致性训练，PixMatch[48]探索了用于域自适应图像分割任务的各种图像增强策略。与上述涉及空间空间中的一致性训练的工作不同，我们通过在输入级强制模型输出对跨帧增强不变性来采用时空空间中的一致性训练，这旨在丰富增强集，从而有利于未标记目标视频的一致性训练。+v：mala2255获取更多论文PLF一Kk−ηk−η通过时间伪监督的域自适应视频分割53方法3.1背景一致性训练是一种流行的半监督学习技术，它可以加强未标记图像和相应扰动图像上的预测之间的一致性。受半监督学习中的一致性训练的启发，PixMatch[48]通过在未标记的目标图像上利用有效的数据增强，在域自适应分割方面表现出强大的性能。这个想法是基于这样的假设，即一个表现良好的模型应该预先当为未标记的目标数据提供强烈失真的输入时，类似地进行dict。具体来说，PixMatch执行伪标记，以提供来自原始图像的伪监督，用于使用增强的对应物进行模型训练。作为在FixMatch[60]中，在PixMatch中使用硬标签进行一致性训练鼓励模型获得不仅具有增强鲁棒性而且具有高度确定性的未标记数据的预测。Giv en一个源域图像xS及其相应的地面实况yS，以及一个未注释的图像xT从目标域出发，可以制定PixMatch的训练目标如下所示LPixMat ch=Lc e（F（xS），yS）+λTLc e（F（A（xT）），P（F（xT），τ））.（一）其中ce是交叉熵损失，和分别表示用于图像增强的分割网络和变换函数。表示在置信度阈值为τ的情况下选择伪标签的操作。λT是一个超参数，用于控制训练时源和目标损失之间的权衡。3.2时间伪监督本文主要研究了自适应域视频分割技术。与PixMatch[48]探索图像级域自适应的空间空间一致性训练不同，我们提出了一种时间伪监督（TPS）方法，通过探索时空一致性训练来解决视频级域自适应具体而言，TPS为时空一致性训练引入了跨帧增强，以扩展为空间一致性训练设计的图像增强的多样性[48]。对于特定于视频的域自适应问题，我们以Xk=S（xk−1，xk）的形式将相邻帧作为一个整体，其中S是堆栈操作的符号。对于TPS中的跨帧增强，我们将图像增强应用于在Eq. 1，并将此过程视为执行在多个标架XT上的交叉标架增广A，其中η是指作为传播间隔，其测量预-前帧和当前帧。通过这种方式，TPS可以通过加强预测之间的一致性来构建时空空间中的一致性训练在Acf（XT）和XTk−η，这与PixMatch[48]不同，+v：mala2255获取更多论文A（Xk−1K一一Kk−ηk−η→一一6YunXing1刘文田1刘嘉颖1刘世坚1†空间一致性在A（xT）和xT上的预测之间（如等式2中所示）。①的人。通常，跨帧增强Acf被定义为：cfTk−η）=S（A（xT），A（xT））.（二更）备注1值得强调的是，图像增强通过强扰动输入来构建不可见的视图，在一致性训练中起着至关重要的作用。至于增强集，已有研究[68，3，60]表明，更强的增强可以使一致性训练受益更多。为了扩大视频任务图像增强的多样性，我们将视频中的时间偏差作为视频任务的一种新的数据增强并将其与A结合，记为A cf。为了验证跨帧增强的有效性，我们在表1和表2中对TPS（使用A cf）与PixMatch [48]（使用A）进行了经验比较。利用从跨帧增强构建的时空空间，TPS执行跨帧伪标记，以提供来自先前视频帧的伪监督，用于馈送增强的当前视频帧的网络训练。跨帧伪标记具有两个作用：1）促进跨帧一致性训练，其跨帧应用数据增强; 2）鼓励网络在未标记的帧上输出具有高确定性的视频预测。给定目标域中的视频序列，首先将前一个视频转发到目标域帧XTk−η 通过视频分割网络F获得先前的帧预测，并使用FlowNet[14]产生光流ok−η→kes。从前一帧估计xTk−η 以及当前帧xT。随后，使用所估计的光学参数来扭曲所获得的先前帧预测流0k-n→k，以确保扭曲预测在时间上与当前帧一致。然后，我们通过利用置信度阈值τ来执行伪标记，以过滤出具有低置信度的扭曲预测简而言之，跨框架伪标记的过程可以公式化为：Pcf（F（XT），ok−η→k，τ）=P（W（F（XT），o k−η→k），τ）.（三）备注2我们要注意的是，置信度阈值τ被设置为挑选出高置信度的预测作为用于一致性训练的伪标签。在域自适应分割任务中存在难以转移的类（例如SYNTHIA-SeqCityscapes-Seq中的光、符号和骑手），与占优势的类相比，它们倾向于产生低置信度分数，因此更可能在伪标记中被忽略。为了尽可能多地保留难以转移的类的伪标签，我们将0作为我们的实验的阈值τ，并在表3中进一步讨论τ的影响。TPS的培训目标类似于Eq。1，除了：1）TPS将相邻的视频帧作为视频分割的输入，而不是将单个图像馈送到模型1）具有更多样化的版本cf，以通过结合跨帧增强来丰富增强集; 3）代替直接的伪+v：mala2255获取更多论文k−ηk−η→→××××通过时间伪监督的域自适应视频分割7在Eq.1、TPS采用跨帧伪标记，视频预测从先前帧跨光流k-Sη→k之前，步。简而言之，给定源域视频帧X以及目标域视频序列，我们将TPS公式化为：LTPS=Lce（F（XS），yS）+λTLce（F（Acf（XT）），Pcf（F（XT），o k−η→k，τ））。（四）注3我们应该指出的是，设置λ T是为了平衡源域和目标域之间的训练，就像在DA-VSN中一样。尽管DA-VSN在域自适应视频分割任务上是有效的，但对抗学习的训练过程本质上是不稳定的，在训练时向训练器提供复杂或不相关的线索[45]。为了减轻影响，DA-VSN将λT设置为0.001，以稳定训练过程，而损害域自适应性能。与以前的工作不同，我们利用一致性训练的固有稳定性，自然地将TPS的λ T设置为1.0，以平等对待源和目标的学习。我们进一步通过图中的可视化对DA-VSN和TPS之间的训练过程并在表5中探索λ T对性能的影响。4实验4.1实验环境数据集。为了验证我们的方法，我们在两个具有挑战性的域自适应视频分割的合成到真实基准下进行了全面的实验：SYNTHIA-Seq [57]Cityscapes-Seq [11]和VIPER [56]Cityscapes-Seq。如在[19]中，我们将SYNTHIA-Seq或VIPER视为源域数据，并将Cityscapes-Seq视为目标域数据。实施细节。与[19]一样，我们采用ACCEL [34]作为视频分割框架，其由双分割分支和光流估计分支以及输出级的融合层组成。具体而言，用于分割的两个分支通过Deeplab转发单个视频帧[8]。同时，光流估计的分支[14]产生相邻视频帧的相应光流，其可以进一步用于分数融合层以整合来自不同视图的帧预测。至于训练过程，我们使用SGD作为优化器，动量和权重衰减设置为0。9和5 10−4。该模型以2的学习率进行训练。5 10−4 40k迭代。与[60，48]一样，我们在实验中加入了多种增强，包括高斯模糊，颜色抖动和随机缩放。平均交并比（mIoU）用于评估所有方法。为了提高训练和推理的效率，我们应用双三次插值将Cityscapes-Seq和VIPER中的每个视频帧分别调整为512 1024，7201280。所有的实验都是在一个11 GB内存的GPU上实现的。+v：mala2255获取更多论文→→8YunXing1刘天一2刘嘉行Huang1ShijianLu1†表1.定量比较超过的基准的合成体-Seq→ Cityscapes-Seq：TPS优于多个领域自适应方法在很大程度上。这些方法包括唯一的域自适应视频分割方法[19]、最相关的域自适应分割方法[48]和作为基线的其他域自适应分割方法[65，75，54，74，30，27，69]。请注意，SYNTHIA-Seq→Cityscapes-Seq方法路的方面想buil。极光签署蔬菜。天空pers.骑手车Miou源仅56.326.675.625.55.715.671.058.541.717.127.938.3高级工程师[65]85.721.370.921.84.815.359.562.446.816.364.642.7CBST[75]64.130.578.228.914.321.375.862.646.920.233.943.3国际开发协会[54]87.023.271.322.14.114.958.867.545.217.073.444.0CRST[74]70.431.479.127.611.520.778.067.249.517.139.644.7CrCDA[30]86.526.374.824.55.015.563.564.446.015.872.845.0RDA[27]84.726.473.923.87.118.666.768.048.69.368.845.1美国食品药品监督管理局[69]84.132.867.628.15.520.361.164.843.119.070.645.2DA-VSN[19]89.431.077.426.19.120.475.474.642.916.182.449.5[48]第四十八话 90.249.975.123.117.434.267.149.955.814.084.351.0租置计划（我们的）91.253.774.924.617.939.368.159.757.220.384.553.84.2与最新技术水平的我们主要将所提出的TPS与最相关的方法DA-VSN[19]和PixMatch[48]进行比较，考虑到DA-VSN是域自适应视频分割的当前最先进的方法（与PixMatch是使用一致性训练（与本工作中相同的学习方案）的域自适应图像分割的最新方法。定量比较见表1和表2。我们注意到，在SYNTHIA-Seq Cityscapes-Seq（mIoU中为4.3%）和VIPER Cityscapes-Seq（mIoU中为1.1%）的基准上，TPS大大超过DA-VSN，这表明了一致性训练优于自适应视频分割的对抗性学习此外，我们强调，我们的方法TPS在两个基准上都优于PixMatch（mIoU分别为2.8%和2.2%），这证实了跨帧增强对于视频特定任务的一致性训练的有效性此外，我们还将我们的方法与最初为域自适应图像分割设计的多个基线[65，75，54，74，30，27，69]进行了这些基线基于对抗学习[65，54，30]和自我训练[75，74，69，27]。与[19]一样，我们通过简单地用我们的视频分割主干替换图像分割模型来应用这些方法，并类似地实现域自适应。如表4.1和表4.2所示，TPS大大超过了所有基线，证明了我们的视频特定方法与图像特定方法相比的优势。+v：mala2255获取更多论文→通过时间伪监督的域自适应视频分割9表2. VIPER→ Cityscapes-Seq基准的定量比较：TPS大幅优于多个领域自适应方法VIPER→Cityscapes-Seq方法路边。buil。fencelight sign vege. terr.天空个人车卡车公共汽车自行车Miou源仅56.7 18.7 78.7 6.022.0 15.6 81.6 18.3 80.4 59.9 66.3 4.516.8 20.4 10.3 37.1高级工程师[65]78.5 31.0 81.5 22.1 29.2 26.6 81.8 13.7 80.5 58.3 64.0 6.9 38.4 4.6 1.341.2CBST[75]48.1 20.212.0 20.6 19.2 83.8 18.484.9 59.2 71.5 3.238.0 23.837.741.7国际开发协会[54]78.7 33.9 82.3 22.7 28.5 26.7 82.5 15.6 79.7 58.142.0CRST[74]56.0 23.1 82.1 11.6 18.7 17.285.5 17.5 82.3 60.8 73.6 38.930.5 35.042.4CrCDA[30]78.1 33.3 82.2 21.3 29.1 26.8 82.9 28.5 80.7 59.0 73.8 16.5 41.4 7.8 2.544.3RDA[27]72.0 25.9 80.8 15.1 27.2 20.3 82.631.4 82.2 56.3 75.5 22.8 48.3 19.1 6.744.4美国食品药品监督管理局[69]70.327.7 81.3 25.8 20.0 83.7 31.3 82.9 57.1 72.2 22.449.0 17.2 7.544.4[48]第四十八话79.4 26.1 84.6 16.6 28.7 23.0 85.0 30.1 83.7 58.6 75.8 34.2 45.7 16.6 12.446.7DA-VSN[19]86.836.7 83.522.9 30.2 27.7 83.6 26.7 80.3 60.0 79.1 20.3 47.2 21.2 11.447.8租置计划（我们的）82.436.979.5 9.026.329.478.5 28.2 81.861.2 80.2 39.8 40.3 28.5 31.748.9此外，我们在图2中给出了定性结果，以证明我们的方法的优越性。我们指出，尽管DA-VSN和PixMatch的自适应性能令人印象深刻，但与TPS相比，这两种方法在视频分割方面都较差。关于DA-VSN，尽管其在保持时间一致性方面表现出色，但使用DA-VSN的学习网络产生不太准确的分割（例如，图2中的人行道）。这样的结果证明了一致性训练在最小化经验误差方面优于对抗性学习。对于PixMatch，我们注意到使用PixMatch学习的网络在保持时间一致性方面的性能并不令人满意，这证实了在一致性训练中引入跨帧增强的必要性基于对定性结果的观察，我们得出结论，TPS在保持时间一致性或产生准确分割方面表现更好，这与表1中的定量结果一致。4.3消融研究我们进行了广泛的消融研究，以更好地理解为什么TPS可以实现视频自适应语义分割的优异性能所有消融研究均在SynthiaSeq Cityscapes的基准上进行，其中TPS在默认设置下达到53.8%的mIoU我们提出完整的烧蚀结果和具体的分析，包括方程中的传播间隔η。2等式中的置信阈值τ3中的平衡参数λT，四、传播间隔。方程中的传播间隔η2表示跨帧增强中的先前帧与当前帧之间的时间方差。我们注意到，增加传播间隔η将扩大时间方差+v：mala2255获取更多论文10YunXing1陈德良2陈佳兴Huang1ShijianLu1†图二. TPS与最先进的领域自适应视频分割基准“SYNTHIA-Seq → Cityscapes-Seq”的定性比较：与“仅源”相比，TPS产生更准确的分割，表明我们的方法在解决领域自适应问题上的有效性。此外，TPS比PixMatch和DA-VSN生成更好的分割，如第4-5行所示，与我们的定量结果一致最好用彩色看从而丰富跨帧增强。我们在表3中给出了关于传播间隔的消融研究结果尽管所有结果都超过了表1中的当前方法，但我们注意到，在增加传播间隔时，网络遭受性能下降，特别是在小对象的分割上，这可以归因于通过光流传播视频预测引起的扭曲误差增加。置信阈值。等式中的置信阈值τ3与产生的伪标签的质量密切一种常见的解决方案是设置置信度阈值τ∈（0，1）来过滤掉低置信度的预测，租置计划（我们的）源仅PixMatchDA-VSNGT帧+v：mala2255获取更多论文通过时间伪监督的域自适应视频分割11表3. 不同传播间隔η的TPS结果：当η=1时，TPS达到最佳性能。对于小对象的类（例如，、杆、光、标志、人和骑手），在增加η的同时，性能可能遭受翘曲误差SYNTHIA-Seq→Cityscapes-Seqη路的方面想buil。极光学标记牌蔬菜。天空个人骑手车Miou388.949.575.423.414.131.673.561.054.315.282.251.7291.252.174.919.214.231.771.161.655.919.084.552.3191.253.774.924.617.939.368.159.757.220.384.553.8伪标记，而保留高置信度。尽管TPS中的一致性训练在保持伪标签的质量方面具有潜在的有效性，但它往往会受到现实世界数据集（目标域）中固有的类不平衡分布的影响，这会阻止网络为一些难以转移的类产生高置信度分数为了探索阈值τ对TPS性能的影响，我们进行了相关实验，并在表4中给出了我们的我们注意到，当τ设置为0时获得最佳结果。我们强调，在我们的任务中，难以转移的类（例如，杆，光，标志和骑手）的分割如预期的那样遭受性能下降，而在伪标记时采用置信阈值τ表4. 不同置信度阈值τ的TPS结果：当τ=0时，获得最佳结果。可以注意到，难以转移的类（例如，、杆、灯、标志、骑手）在设置τ >0以过滤掉伪标记时SYNTHIA-Seq→Cityscapes-Seqτ路的方面想buil。极光学标记牌蔬菜。天空pers.乘用车Miou0.5091.154.076.523.714.134.571.759.756.418.584.353.10.2588.148.177.221.216.238.574.164.157.617.486.053.50.0091.253.774.924.617.939.368.159.757.220.384.553.8表5. 平衡重λ T的参数分析。我们观察到，无论是在源域还是目标域上优先考虑训练过程都会降低分割性能SYNTHIA-Seq→Cityscapes-SeqλT0.10.20.51.01.52.0租置计划（我们的）50.051.252.653.853.453.3+v：mala2255获取更多论文目标损耗→→→12YunXing1刘天一2刘嘉星JiaxingHuang1 ShijianLu1†平衡重量。等式中的平衡重λ T 4通过很好地平衡源域和目标域之间的训练过程，有助于我们的解决方案。在源域中进行密集标注的监督学习和在目标域中进行一致性训练都要注意。我们在表5中给出了我们对λT的消融研究结果。如表5所示，当λT设置为1.0时，检索到最佳结果。我们可以观察到，在SYNTHIA-Seq Cityscapes-Seq的基准上，各种λT的所有结果都超过了先前工作DA-VSN的结果（在表1中实现了49.5的mIoU），这证明了 TPS中一致性训练的优越性。TPS DA-VSN8TPS DA-VSN86 64 42 200 10 20 3040迭代（103）00 10 20 30 40迭代（103）(a) SYNTHIA-Seq→ Cityscapes-Seq（b）VIPER→ Cityscapes-Seq图三. 针对两个域自适应基准测试的TPS和DA-VSN的目标损失：(a)SYNTHIA-Seq→ Cityscapes-Seq和（b）VIPER→ Cityscapes-Seq。我们指出，TPS中的目标丢失的退化比DA-VSN中的目标丢失的退化更稳定，两个基准。最好用彩色看。4.4讨论训练稳定性。为了比较DA-VSN与TPS在两个基准测试中的训练稳定性，我们通过计算每20次迭代的目标损失来可视化DA-VSN和TPS的目标域训练过程。如图3所示，与TPS相比，目标丢失的衰减噪声要小得多。在DA-VSN中，以及在两个基准上的目标域中平均较低的经验误差，表明一致性训练对主自适应视频分割任务的有效性。相比之下，DA-VSN中的目标损失由于对抗性学习而更加不稳定且更难收敛。在DA-VSN中的模块，这种负面影响在场景下更强的SYNTHIA-Seq Cityscapes-Seq.Benchmark之间的性能差异可以通过SYNTHIA-Seq与Cityscapes-Seq相比VIPER具有更大的域差距来解释，我们还指出TPS带来的SYNTHIA-SeqCityscapes-Seq基准的显著进步进一步证明了一致性训练相对于对抗性学习目标损耗+v：mala2255获取更多论文除其他帧内帧内帧内除其他帧内通过时间伪监督的域自适应视频分割13[48]第四十八话2除其他=0。679，σ2=0。606σ2=0。719，σ2=0。541[19]第19话2除其他=0。700，σ2=0。584σ2=0。740，σ2=0。527见图4。通过t-SNE [46]（不同的颜色表示不同的类别）在目标域中可视化时间特征表示：所提出的TPS明显优于Source Only，PixMatch [48]和DA-VSN[19]，具有更高的类间方差和更低的类内方差。请注意，我们通过堆叠从两个连续帧中提取的特征来获得时间特征，如[19]中所述，并对所获得的时间特征执行具有白化的PCA以检索具有白化的主成分。单位分量方差。可视化基于域自适应视频分割基准SYNTHIA-Seq→ Cityscapes-Seq。最好用彩色看。在不同视频分布之间桥接较大域间隙的方法。这一优点对于现实世界的应用非常重要，因为真实场景可能与预先构建的合成环境非常不同。特征可视化。为了更深入地研究TPS的有效性，我们使用图4中所示的t-SNE [46]可视化目标域视频表示，以及仅源的可视化，PixMatch和DA-VSN进行比较。我们观察到TPS的性能大大优于仅源训练，这揭示了我们基于一致性训练的方法的出色适应性能。此外，我们还发现，TPS超越了以前的工作领域自适应视频分割任务，实现最大的类间方差，同时保持最小的类内方差，这是一个适当的指标，从TPS的上游类表示更可区分。σσ+v：mala2255获取更多论文14YunXing1刘文田1刘嘉颖1刘世坚1†表6.TPS的补充研究：所提出的TPS可以很容易地与最先进的工作DA-VSN[19]集成，在两个具有挑战性的视频分割领域自适应基准上具有明显的性能增益SYNTHIA-Seq→Cityscapes-SeqVIPER→Citycapes-Seq方法基地+TPS增益基地+TPS增益DA-VSN49.555.1+5.647.850.2+2.4补充研究。我们进一步进行实验，以探索TPS是否通过对目标域数据执行额外的跨帧一致性训练来补充域自适应视频分割网络DA-VSN[19]。我们的补充研究结果总结见表6。可以观察到，TPS的集成在两个基准测试中大幅提高了DA-VSN的性能，这表明TPS中的一致性训练有效地补充了DA-VSN中的对抗性学习。此外，TPS与DA-VSN[19]互补，超过了“仅TPS”（在表1和表2中分别达到了53.8和48.9的mIoU），这证明了对抗性学习和一致性训练在域自适应视频分割任务上是正交的。5结论本文提出了一种时域伪监督方法，该方法引入跨帧增强和跨帧伪标记，从一致性训练的角度来解决域自适应视频分割。具体地，跨帧增强被设计为扩展传统一致性训练中的图像增强的多样性，从而有效地利用未标记的目标视频。为了促进利用跨帧增强的一致性训练，跨帧伪标记提供了来自先前视频帧的伪监督，以用于馈送有增强的当前视频帧的网络训练，其中伪标记的引入鼓励网络以高确定性输出视频预测。综合实验表明，我们的方法在视频分割的域自适应的有效性。在未来，我们将研究时间伪监督的思想如何在其他具有未标记数据的视频特定任务中执行，例如半监督视频分割和域自适应动作识别。确认这项研究得到了RIE 2020产业联盟基金-工业合作项目（IAF-ICP）资助计划的支持，以及新加坡电信有限公司（Singtel）通过Singtel企业认知和人工智能实验室提供的+v：mala2255获取更多论文通过时间伪监督的域自适应视频分割15引用1. Araslanov，N.，罗斯，S.：用于自适应语义分割的自监督增强一致性。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 153842. Badrinarayanan，V.，Galasso，F.，Cipolla，R.：视频序列中的标签传播。IEEE计算机协会计算机视觉和模式识别会议论文集。pp. 3265-3272. IEEE（2010年）3. Berthelot，D.，Carlini，N.，Cubuk，E. D.，Kurakin，A.，Sohn，K.，张洪，Raffel，C.：Remixmatch：具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv：1911.09785（2019）4. Brostow，G.J.，Shotton，J.，Fauzur，J.，Cipolla，R.：基于运动点云结构的分割与识别。在：欧洲计算机视觉会议。pp. 44-57. 03 The Dog（2008）5. 布德维蒂斯岛Sauer，P.，罗迪克，T.，Breen，K.，Cipolla，R.：用于驾驶场景中语义分割的大规模标记视频数据增强。在：IEEE计算机视觉研讨会国际会议的主持人。pp. 2306. 陈春，谢伟，黄伟，Rong，Y.，丁，X.，黄，Y.，徐，T.，Huang，J.：用于无监督域自适应的渐进式特征对齐。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 6277. Chen，L.C.，洛佩斯，R.G.，Cheng，B.，柯林斯，医学博士，Cubuk，E.D.，Zoph，B.，亚当，H.，Shlens，J.：Naive-student：在视频序列中利用半监督学习进行城市场景分割。在：欧洲计算机视觉会议。pp. 695-714.施普林格（2020）8. Chen， L.C. ，Papandreou ， G.，科基诺斯岛墨菲， K. ， Yuille ， A.L. ：Deeplab：使用深度卷积网络、无卷积和全连接crfs进行的语义图像分割。IEEE transactions on pattern analysis and machine intelligence40（4），8349. 陈美，Xue，H.，Cai，D.：基于最大平方损失的语义分割领域自适应。IEEE/CVF计算机视觉国际会议论文集。pp. 209010. 陈旭，Yuan，Y.，Zeng，G.，中国农业科学院，王杰：交叉伪监督的半监督语义分割。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 261311. Cordts，M.，Omran，M.，Ramos，S.，T.B.菲尔德，Enzweiler，M.，贝嫩森河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。在：IEEE计算机视觉和模式识别会议论文集。pp. 321312. 库普里角，Farabet，C.，LeCun，Y.，Najman，L.：基于因果图的视频分割。2013年IEEE International Conference on Image Processing。pp. 4249 IEEE（2013）13. 丁，M.，王志，Zhou，B.，（1991年），中国地质大学，施，J.，吕志，Luo，P.：每一帧都很重要：视频分割和光流的联合学习。在：AAAI人工智能会议论文集。第34卷，第1071314. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazirbas角，Golkov，V.，Van Der Smagt，P.，Cremers，D.，Brox，T.：Flownet：使用卷积网络学习光流在：IEEE计算机视觉国际会议论文集。pp. 2758+v：mala2255获取更多论文16YunXing1刘文田1刘嘉颖1刘世坚1†15. Floros，G.，Leibe，B.：联合二维-三维时间一致性街道场景语义分割。2012年IEEE计算机视觉和模式识别会议。pp. 2823-2830. IEEE（2012年）16. 法语，G.，Mackiewicz，M.，费希尔，M.：视觉域自适应的自组装。arXiv预印本arXiv：1706.05208（2017）17. 加德河，Jampani，V.，盖勒，P.V.：通过表示变形的语义视频cnns在：IEEE计算机视觉国际会议（ICCV）论文集（2017年10月）18. Guan，D.，黄，J.，吕，S.，Xiao，A.：图像分割中无监督域自适应的尺度方差最小化模式识别112，107764（2021）19. Guan，D.，黄，J.，Xiao，A.，Lu，S.：基于时间一致性正则化的域自适应视频分割。在：IEEE/CVF国际计算机视觉会议论文集。pp. 805320. Guan，D.，黄，J.，Xiao，A.，Lu，S.：半监督语义分割的无

下载后可阅读完整内容，剩余1页未读，立即下载