基于时间一致性正则化的视频分割

197 浏览量更新于2023-09-25 收藏 1007KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8053基于时间一致性正则化的视频分割关大雁，黄家兴，肖傲然，陆世健*新加坡南洋理工大学{大雁.关家兴.黄傲然.肖世坚.陆}@ ntu.edu.sg摘要视频语义分割是视频分析和理解的一项重要任务。最近的努力主要集中在通过从完全注释的数据中学习来进行监督视频分割，但是学习的模型在应用于不同领域的视频时通常会经历明显的性能下降。本文介绍了DA-VSN，一个域自适应视频分割网络，解决域的差距，视频的时间一致性正则化（TCR）的连续帧的目标域视频。DA-VSN由两种新颖的互补设计组成。第一个是跨域TCR，它通过对抗学习引导目标帧的预测与源帧（从注释的源数据中学习）具有相似的时间一致性。第二种是结构域内TCR，其先前帧当前帧引导目标帧的不可靠预测具有与目标帧的可靠预测相似的时间一致性。大量的实验证明了我们提出的域自适应视频分割网络的优越性，它始终优于多个基线的大利润率。1. 介绍视频语义分割的目的是为视频帧分配逐像素的语义标签，它已经受到了广泛的关注。在视频分析和理解中，越来越多的注意力是一项重要任务[19，53，15，45，60]。随着深度神经网络（DNN）的发展，近年来已经进行了几项研究，具有非常令人印象深刻的视频分割性能[65，40，20，33，37]。38、26、47]。然而，大多数现有的作品需要大量密集注释的训练视频，这需要非常昂贵和耗时的注释过程[3，14]。缓解数据注释约束的一种方法是诉诸于用计算机生成的虚拟场景收集的自注释合成视频[62，24]，但是用合成的虚拟场景*通讯作者。图1.时间一致性有助于域自适应视频分割：在源域中训练的视频分割模型在应用于目标域的视频时经常经历明显的性能下降。我们采用时间一致性，视频的固有和普遍的性质，作为一个约束，以regularize域间和域内的适应，在目标域中的最佳视频分割的目标（我们的）。当应用于自然场景的视频时，数据通常经历明显的性能下降，这主要是由于如图1所示的域偏移。1.一、尽管域自适应视频分割在这两个研究领域都有很大的价值，但在文献中却被忽略了和实际应用。可以通过利用现有的研究从两种方法来解决这个问题。第一种方法是域自适应图像分割[80，69，79，58，21，74]，它可以独立地处理每个视频帧，以实现域自适应视频分割。然而，域自适应图像分割没有考虑视频中的时间信息，这是非常重要的视频语义分割。第二种方法是半监督视频分割[56，78，5]，其利用稀疏注释的视频帧来分割相同视频的未注释帧。然而，半监督视频分割是为连续视频分割而设计的目标目标（我们源8054转转相同域的非连续视频帧，并且在域自适应视频分段中不能很好地工作，域自适应视频分段通常涉及清晰的域移位和不同源的非连续视频帧。在这项工作中，我们设计了一个域自适应视频分割网络（ DA-VSN ），它引入了时间一致性正则化（TCR）来弥合不同域视频之间的差距。该设计是基于这样的观察，即在源域中训练的视频分割模型倾向于产生对源域数据的时间上一致的预测，但对目标域数据的时间上不一致的预测（由于域移位），如图1B所示。1.我们在DA-VSN中设计了两个互补的调节模块，即跨域TCR（C-TCR）和域内TCR（I-TCR）。C-TCR采用对抗学习来最小化源域和目标域之间的时间一致性的差异。具体地，它引导目标域预测具有源域预测的类似时间一致性，源域预测通常通过从完全注释的源域数据学习而具有良好的质量。相反，I-TCR通过引导不确定的目标域预测具有与确定的目标域预测相似的时间一致性，从不同的角度工作。在I-TCR中，我们利用熵来衡量在多个数据集上有效工作的预测置信度。这项工作的贡献可以概括为三个主要方面。首先，我们提出了一个新的框架，引入时间一致性正则化（TCR），以解决域自适应视频分割中的域移位。据我们所知，这是解决视频语义分割中无监督域自适应挑战的第一项工作。其次，我们设计了域间TCR和域内TCR，分别通过最小化目标域中不同域和不同视频帧之间的时间一致性差异，极大地改善了域自适应视频分割。第三，在两个具有挑战性的合成到真实基准上进行了广泛的实验（VIPER [62]）Cityscapes-Seq [14]和SYNTHIA-Seq [63] Cityscapes-Seq）显示，与多个基线相比，所提出的DA-VSN实现了优异的域自适应视频分割。2. 相关作品2.1. 视频语义分割视频语义分割旨在预测每个视频帧的像素级语义。大多数现有的工作利用帧间时间关系进行鲁棒和准确的分割[34，77，20，46，72，42，37，26，47]。例如，[77，20]采用光流[18]来扭曲帧之间的特征图。[42]利用帧间功能低延迟的高效视频分割的传播。 [37]提出了一种自适应融合策略，用于有效地集成来自不同帧的预测。[26]在连续帧上分布若干子网络，并通过注意力传播来重组所提取的特征。[47]提出了一个紧凑的网络，提取时间一致性知识，每帧推理。此外，半监督视频分割已被研究，其利用稀疏注释的视频帧来分割相同视频的未注释帧。研究了两种典型的方法。第一种方法是基于标签传播，通过自监督学习[70，41，36]，补丁匹配[1，4]，运动提示[66，78]或光学方法来流[55，77，56，17]。另一种方法是基于自我训练，其通过跨多个增强的蒸馏来生成伪标签[5]。监督和半监督视频分割都是在相同视频或相同域的帧上工作的几乎没有畴隙的。我们提出的域自适应视频分割利用现成的视频注释从一个源域的不同目标域的视频的分割，而不需要任何注释的目标域的视频。2.2. 域自适应视频分类域自适应视频分类已被探索以调查动作分类问题中的域差异。一类作品专注于特定动作识别任务，旨在将视频剪辑分类为通过时间对齐[8]，时间注意力[57，13]或自监督视频表示学习[54，13]的特定类别的人类动作。另一类的作品专注于动作分割，同时在时间上分割视频，并通过时间对齐[9]或自监督视频表示学习[10]将每个分割的视频剪辑与动作类进行分类。这项工作的重点是一个新的问题域自适应语义分割的视频，一个新的和更具挑战性的域自适应任务相比，主自适应视频分类。注意，现有的自适应视频分类方法不适用于语义分割任务，因为它们不能为视频中的每个帧生成像素级密集预测。2.3. 域自适应图像分割域自适应图像分割已经被广泛研究以解决图像注释挑战和域偏移问题。大多数现有方法采用两种典型的方法，即基于对抗学习的方法[25，67，69，69]。68，48，32，58，21，31]和基于自我训练[80，79，43，44、7、74、39、76、52]。基于对抗学习的方法8055LLSSL源帧源连续预测GC-TCRI-TCR目标帧目标连续预测图2.所提出的域自适应视频分割网络（DA-VSN）的框架：DA-VSN引入时间一致性正则化（TCR）以最小化源域和目标域之间的分歧它由一个生成分割预测的视频语义分割模型G、一个从源域学习知识的源域监督学习模块（SSL）、一个引导目标预测具有与源预测相似的时间一致性的跨域TCR组件（C-TCR）和一个引导不确定目标预测具有与确定目标预测相似的时间一致性的域内TCR组件（I-TCR）组成。选项。ODS通过采用鉴别器来执行域对齐，该鉴别器努力区分输入[25，75，12，30，39，31]、特征[25，11，27，73，22，28，48]或输出[67，69，49，68，32，50，71，21，58，29]。基于自训练的方法利用自训练来预测目标域数据的伪标签，然后利用预测的伪标签来迭代地微调分割模型。尽管近年来已经报道了许多域自适应图像分割技术，但是它们没有考虑在视频分割中至关重要的时间信息。我们引入视频的时间一致性作为约束，并利用它来规范域自适应视频分割中的学习。3. 方法3.1. 问题定义给定具有对应标签Y_S的源域视频帧X_S和不具有标签的目标域视频帧X_T问题是学习一个模型G，它可以在目标域中产生准确的预测PT根据域名adap-在[2]中的站理论，域自适应中的目标误差由三个术语限定，包括源域和目标域上的理想联合假设的共享误差、经验源域误差以及源域和目标域之间的散度度量。本文重点研究第三项，提出了一种自适应视频语义分割网络（DA-VSN），以最大限度地减少源域和目标域之间的分歧。我们设计了一种新的时间一致性正则化（TCR）技术的连续帧靶结构域，其由两个互补组分组成，包括跨结构域TCR（C-TCR）组分和结构域内TCR（I-TCR）组分，如图1B所示。2. C-TCR通过鼓励目标预测具有与源预测相似的时间一致性（通过监督学习准确）来实现跨域对齐，而I-TCR通过强制不确定的预测具有与目标域中的确定预测相似的时间一致性来实现域内适应，更多细节将在随后的两个小节中描述。注意第一项中的共享误差（差异在跨域的标记函数中）通常很小，如[2]中所证明的。第二项中的经验源域误差实际上来自监督学习在源域中。对于域自适应视频分割，我们直接采用视频语义分割损失ssl（G）[77，37，26，47]作为源域监督学习损失3.2. 跨域正则化跨域时间一致性正则化（C-TCR）旨在引导目标预测具有与源预测相似的时间一致性，其通过最小化监督源损失ssl来确定并且通常具有良好的质量。我们设计了一个双鉴别器结构，用于源和目标视频剪辑的最佳时空对齐，如图所示。3.如图3所示，一个鉴别器Dst关注于不同域的单个视频帧的空间对准（如在域自适应图像分割中），并且另一鉴别器Dst关注于不同域的连续视频帧的时间对准。由于Dst不可避免地涉及空间信息，因此我们在Ds和Dst之间引入散度损失以8056k−1：kJStSLLLKKKKKKKKK预测pk1FlowNetW其中J是每个卷积层空间-时间鉴别器Dst然后对准pS和Tk−1：kpk−1：k和它的目标Lsta可以表示为：Lsta（G，Dst）=log（Dsta（pS））+log（1−Dsta（pT））。（二）k−1：k我们加强了Dst和使得空间-时间鉴别器D_st可以更专注于时间对准。两个鉴别器的权重发散可以通过如下最小化它们的余弦相似性来减小：1Σ→−wjW·→−wjLwd（Dst，Ds）=JSts、（3）¨→−j ¨→−j ¨j=1¨斯蒂斯判别式r，→−wj和→−wj是通过将鉴别器中第j个卷积层的权重Dst和Ds。结合等式1、2、3中的损失，C-TCR损失L_ctcr可如下公式化Lctcr（G，Dst，Ds）=Lsta（G，Dst）图3.所提出的跨域时间一致性正则化（C-TCR）的框架：C-TCR进行时间比对以最小化源和靶结构域之间的时间一致性的差异。它引入了空间-时间鉴别器Dst来对齐连续预测（en-1）。+λsaLsa（G，Ds）+ λwdLwd（Dst，Ds），其中λsa和λwd是平衡重。3.3. 域内正则化（四）编码空间-时间信息）和空间鉴别器Ds以对准单帧预测（编码空间信息）。引入时空对抗性学习损失状态和空间损失状态来优化鉴别器和分割模型。为了提高时间对齐，我们引入了一个重量差异损失wd，迫使D ST是独立的Ds，使DST可以集中更多的时间对齐。迫使Dst聚焦于时间空间中的对准对于空间对齐，我们针对当前帧XS以获得当前预测PS ，并且同时针对XS-1以获得连续预测PS-1。域内时间一致性正则化（I-TCR）旨在通过抑制跨不同目标帧的时间不一致性来最小化源域和目标域之间的分歧。如示于图4，I-TCR引导不确定的目标预测具有与确定的目标预测相似的时间一致性。具体来说，它首先通过使用帧到帧的光流估计向前传播（先前帧的）预测，然后强制当前帧中的不确定预测与从先前帧传播的确定预测一致。在tarr get域中，我们首先针对WardxT来获得空间鉴别器Ds对齐帧级预测当前预测pT，并且类似地对于WardXT ，以获得pS和pT及其对象i∈Lsa可以用公式表示前一个kT.然后我们采用k−1[35]- -低点：来估计光流wfxTk−1→xT从xTk−1 到xT。S萨萨T与估计的帧到帧光流wfxTS- XT，L（G，D）= log（D（pk））+log（1-D（pk））。（一）预测测试k−1kpk−1可以被扭曲以生成propa-为了时间对齐，我们将当前预测的gatedpredictionpT .S项S Sk−1Tpk和连续预测pk−1 如pk−1：k在当前帧中强制不确定的预测pk其在源域中编码时空信息。该相同的过程被应用于与有把握的预测pT一致传播E源连续预测DSt时空对抗性学习损失目标连续预测重量差异损失信源单帧预测Ds空间对抗性学习损失目标单帧预测8057产生两个连续的预测pT该-从先前的帧，我们采用熵函数[64]估计预测置信度并使用置信度不对目标域中的时空信息进行编码。的fidentpredictionpk−1（即，具有低的输入以进行优化8058K×× ××个转转×个×× ×F目标帧光流P前一帧预测前一帧熵传播预测传播熵域内时间一致性正则化损失当前帧预测当前帧熵图4.所提出的域内时间一致性正则化（I-TCR）的框架：I-TCR引导不确定的目标域预测具有与确定的预测相似的时间一致性，其中预测置信度通过熵来测量。它由估计光流的网络F和基于估计的光流来扭曲先前帧预测及其熵的传播操作P组成。I-TCR的目的是迫使当前帧预测具有高熵（即，低置信度）与具有低熵的传播预测一致（即，高置信度）。注意，只有由当前帧训练的网络需要梯度。不确定预测pT（即，具有高entro p y）。Giv en从ta得到视频帧XT，I-TCR损失其中为第20帧提供一个地面实况标签。VIPER被用作一个源域数据集，其包含k k−1Litcr可以如下公式表示Litc r（G）=S（E（pT）−E（pT））|pT−pT|.（五）片段133、670具有由游戏引擎产生的分段标签的合成视频帧使用SYNTHIA-Seq作为另一个源域数据集，其中包含8，000个k k−1kk−1具有自动生成的分段的其中S是正负号函数，如果输入为正，则返回1，否则返回0。DA-VSN联合优化源域监督学习（即，SSL）和目标域无监督学习（即，C-TCR和I-TCR）如下：心理状态注释。帧分辨率为1024 2048，1080 1920和760 1280。实施详情：我们采用ACCEL [37]作为视频语义分割架构。它包括两minGMaxDst，DsLssl（G）+λuLctcr（G，Dst，Ds）+λuLitcr（G），（六）分割分支、光流网络和分数融合层。每个分割分支使用Deeplab网络[6]生成单帧预测，Deeplab网络的骨干是在ImageNet [16]上预训练的ResNet-101 [23]。的其中λu是用于平衡监督和源域和目标域的无监督学习。4. 实验4.1. 实验装置数据集：我们的实验涉及两个具有挑战性的合成到真实域自适应视频语义分割任务：[14]第63话：我的世界，我的世界城市景观-Seq.Cityscapes-Seq是有监督视频语义分割的标准基准，我们将其用作目标域数据集。它包含2，975和500个用于训练和评估的视频序列，其中每个序列由30个真实帧组成光流网络通过FlowNet [35]传播先前帧中的预测，并且分数融合层使用11卷积层自适应地集成先前帧和当前帧中的预测。我们实验中的所有鉴别器都是如DCGAN[61]中那样设计的。为为了提高训练和推断的效率，我们应用双三次插值将Cityscapes-Seq和VIPER中的每个视频帧分别调整为5121024和720 1280。我们的实验建立在PyTorch [59]上，内存使用量低于12 GB。所有模型都使用动量为0的SGD优化器进行训练。9和10-4的重量衰减。学习率设置为10−4，并且具有幂为0的多项式衰减。9 .第九条。平衡权重λsa、λwd和λu分别被设定为1、1和0.001的8059转转转VIPER→Cityscapes-Seq方法LsslLsaLstaLwdmIoU源仅C37.1SACC41.6STACC43.7JTCCC44.2C-TCRCCCC46.5表1. C-TCR在域自适应分割任务VIPER Cityscapes-Seq上的消融研究：空间对齐和时空对齐（STA）的性能都大大优于“仅源”。STA和SA的简单联合训练（JT）产生超过STA的边际增益，表明额外的空间对准没有多大帮助。C-TCR通过引入权重差异损失Lwd而明显优于JT，这迫使STA独立于SA，并且更多地关注时间对齐。采用平均交并比（mIoU）来评估所有方法。4.2. 消融研究我们进行全面的消融研究，以检查我们的设计的有效性。表1和表2示出了实验结果。如表1所示，空间对齐（SA）和时空对齐（STA）始终优于“仅源”，这验证了空间和时间空间中对齐的有效性。具体而言，STA的性能增益大于SA，这通过引导目标预测具有与源预测相似的时间一致性来验证时间对齐在域自适应视频分割中的重要性。STA和SA的联合训练（JT）以边际性能增益优于STA，这主要是因为时空对准已经捕获空间对准。跨域时间一致性正则化（C-TCR）通过在STA和SA中的鉴别器之间引入权重差异损失Lwd来明显改善JT，这迫使STA专注于时间空间中的对齐。它也证明了节奏的重要性。域自适应视频语义分割中的语义对齐类似于C-TCR，结构域内TCR（I-TCR）以大裕度胜过“仅源”，如表2所示。这示出了抑制跨目标域帧的时间不一致性的域内适配的重要性。最后，DA-VSN产生最好的视频分割，这表明C-TCR和I-TCR相互补充。4.3. 与基线的由于很少有作品研究域自适应视频语义分割，我们定量比较了DA-VSN与多个域自适应基线[69，80，58，79，21，74]，这些基线在域自适应方面取得了优异的性能。VIPER→Cityscapes-Seq方法LsslLctcrLitcrmIoU源仅C37.1C-TCRCC46.5I-TCRCC45.9DA-VSNCCC47.8表2. DA-VSN在域自适应分割任务VIPER Cityscapes-Seq上的消融研究：跨结构域TCR（C-TCR）和结构域内TCR（I-TCR）两者都以大幅度优于“仅来源”。此外，DA-VSN中C-TCR和I-TCR的组合明显优于C-TCR或I-TCR，证明了两种设计的协同关系有效的图像分割我们将这些方法应用于域自适应视频分割任务，通过简单地将其图像分割模型替换为视频分割模型并执行域对齐，如[69，80，58，79，21，74]中所示。如表3和表4所示，在两个合成到实域自适应视频分割任务上执行比较。如两个表所示，所提出的方法始终优于所有域自适应基线，具有大的裕度。我们还进行定性比较的视频分割任务VIPER城市景观序列。我们将提出的DA-VSN与表现最佳的基线FDA[74]进行了比较，如图所示。5.我们可以看出，定性结果与表3中的定量结果一致。具体而言，我们的方法可以生成更好的分割结果，在连续视频帧中具有更高的时间一致性。优秀的分割性能在很大程度上归因于所提出的时间一致性正则化，其最小化跨不同域和不同目标域视频帧的时间一致性的发散。4.4. 讨论特征可视化：在第4.3节中，我们已经证明，与多个基线相比，所提出的DA-VSN在域自适应视频分割中实现了卓越的性能。为了进一步研究DA-VSN的特性，我们使用t-SNE [51]来可视化来自不同域自适应视频分割方法的目标域时间特征表示的分布，其中计算类间和类内方差以进行定量分析。如图6，与“仅源”和FDA [74]相比，DA-VSN产生具有最大类间方差和最小类内方差的最具鉴别力的目标域时间特征。补充研究：我们还研究了所提出的DA-VSN是否可以与多个主适应基线互补[80，58，79，74]（如在8060转VIPER→ Cityscapes-Seq方法路的方面想buil。围栏光签署蔬菜陆地天空 pers.车卡车总线 mot. 自行车Miou源仅56.718.778.76.022.015.681.618.380.459.966.34.516.820.410.337.1高级工程师[69]78.531.081.522.129.226.681.813.780.558.364.06.938.44.61.341.2CBST [80]48.120.284.812.020.619.283.818.484.959.271.53.238.023.837.741.7国际开发协会[58]78.733.982.322.728.526.782.515.679.758.164.26.441.26.23.142.0CRST [79]56.023.182.111.618.717.285.517.582.360.873.63.638.930.535.042.4SVMin [21]51.114.380.811.930.923.183.537.774.559.579.736.453.220.04.244.1CrCDA [32]78.133.382.221.329.126.882.928.580.759.073.816.541.47.82.544.3RDA [31]72.025.980.815.127.220.382.631.482.256.375.522.848.319.16.744.4FDA [74]70.327.781.317.625.820.083.731.382.957.172.222.449.017.27.544.4DA-VSN（我们的）86.836.783.522.930.227.783.626.780.360.079.120.347.221.211.447.8表3. DA-VSN与多个基线在域自适应视频分割任务VIPER→ Cityscapes-Seq上的定量比较：DA-VSN始终以较大幅度优于所有域自适应基线SYNTHIA-Seq→ Cityscapes-Seq方法路的方面想buil。极光签署蔬菜天空pers.骑手车Miou源仅56.326.675.625.55.715.671.058.541.717.127.938.3高级工程师[69]85.721.370.921.84.815.359.562.446.816.364.642.7CBST [80]64.130.578.228.914.321.375.862.646.920.233.943.3国际开发协会[58]87.023.271.322.14.114.958.867.545.217.073.444.0CRST [79]70.431.479.127.611.520.778.067.249.517.139.644.7SVMin [21]84.90.577.929.67.415.078.673.246.96.273.844.9CrCDA [32]86.526.374.824.55.015.563.564.446.015.872.845.0RDA [31]84.726.473.923.87.118.666.768.048.69.368.845.1FDA [74]84.132.867.628.15.520.361.164.843.119.070.645.2DA-VSN（我们的）89.431.077.426.19.120.475.474.642.916.182.449.5表4. DA-VSN与多个基线在域自适应视频分割任务SYNTHIA-Seq→ Cityscapes-Seq上的定量比较：DA-VSN始终以较大幅度优于所有域自适应基线连续视频帧Ground Truth*FDA [74]DA-VSN（Ours）图5.在域自适应视频分割任务“VIPERCityscapes-Seq”上DA-VSN与性能最佳的基线FDA [74]的定性比较：DA-VSN产生更准确的逐像素分割预测，其跨连续视频帧具有更高的时间一致性，如行1-3所示。由于Cityscapes-Seq仅提供每30个连续帧一个帧的地面实况标签，因此我们为所有行显示相同的地面实况。地面真值*表示针对行2中的视频帧注释的地面真值。最好用彩色观看。8061除帧除帧帧除帧转仅来源FDA [74]DA-VSN（我们的）2除其他=761。3，σ2=331。7σ2=781。2，σ2=239。0σ2=854。26，σ2=186。2图6.通过t-SNE可视化目标域中的时间特征表示的分布[51]：我们计算类间方差σ2和类内方差σ2时间特征，即，堆叠的特征映射来自两个连续帧。可以观察到所提出的DA-VSN明显优于“仅来源”模型和FDA [74]。对域自适应视频分割任务请注意，不同的颜色表示不同的类，最好用颜色查看VIPER→Cityscapes-Seq VIPER→Cityscapes-SeqCRST [79]42.4 51.3 +8.9表6.DA-VSN可以与不同的视频语义段一起工作表5. 所提出的DA-VSN 与域自适应视频分割任务VIPERCityscapes-Se上的多个域自适应基线互补：DA-VSN可以很容易地结合到最先进的域自适应图像分割方法[80，79，58，74]中，具有一致的性能改进。第4.3节）在域自适应视频分割任务上。为了进行该实验，我们将我们提出的时间一致性正则化组件（DA-VSN）集成到这些基线中，并且表5示出了新训练的模型的分割结果。可以看出，DA-VSN的结合极大地改善了所有基线上的视频分割性能，这表明DA-VSN与经由图像平移最小化域差异的域自适应方法互补（例如，FDA [74]）、对抗学习（例如，AdvEnt [69]）和自我训练（例如，[80]和CRST [79]）。不同的视频分割架构：我们进一步研究DA-VSN是否可以很好地与不同的视频语义分割架构。三种广泛采用的视频分段体系结构（即，Netwarp [20]、TDNet [26]和ESVS [47]）。如表6所示，所提出的DA-VSN始终优于“仅源”，具有大余量。该实验表明，我们的方法在不同的视频语义分割架构中表现出色，该架构通过特征传播[20]，注意力传播[26]和时间一致性约束[47]利用时间关系。分段架构：DA-VSN可以与不同的视频分段架构（例如，Netwarp [20]、TDNet [26]和ESVS [47]），与仅在域自适应视频分割任务“VIPER-Cityscapes-Seq”上的Source相比具有一致的性能改进。5. 结论本文提出了一种域自适应视频分割网络，该网络引入跨域时间一致性正则化（TCR）和域内TCR来解决视频中的域偏移。具体地，跨域TCR执行空间和时间对准，其引导目标视频预测具有与源视频预测类似的时间一致性。域内TCR直接最小化跨不同目标视频帧的时间一致性的差异。大量的实验表明，我们的方法在域自适应视频分割的优越性。在未来，我们将适应时间一致性正则化的想法，其他视频域的适应任务，如视频实例分割和视频全景分割。谢谢。本研究得到了RIE 2020产业联盟基金-产业合作项目（IAF-ICP）资助计划的支持标准差方法基地+ DA-VSN增益架构源仅DA-VSN增益FDA [74]44.448.5+4.1NetWarp [20]36.547.2+10.7国际开发协会[58]42.049.9+7.9TDNet [26]37.647.9+10.3CBST [80]41.750.2+8.5ESVS [47]38.248.1+9.98062引用[1] VijayBadrinarayanan 、 FabioGalasso 和 RobertoCipolla。视频序列中的标签传播。在IEEE计算机协会计算机视觉和模式识别会议集，第3265-3272 页。IEEE，2010。[2] Shai Ben-David 、John Blitzer 、Koby Crammer 、AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151[3] Gabriel J Brostow ，Jamie Shotton ， Julien Fauqueur ，and Roberto Cipolla.利用运动点云的结构进行分割和识别欧洲计算机视觉会议，第44-57页。Springer，2008.[4] Ignas Budvytis、Patrick Sauer、Thomas Roddick、KesarBreen和Roberto Cipolla。大规模标记视频数据增强在驾驶场景语义分割中的应用。在IEEE计算机视觉研讨会国际会议论文集，第230[5] Liang-Chieh Chen ， Raphael Gontijo Lopes ， BowenCheng ， Maxwell D Collins ， Ekin D Cubuk ， BarretZoph，Hartwig Adam，and Jonathon Shlens.天真学生：在视频序列中利用半监督学习进行城市场景分割。欧洲计算机视觉会议，第695-714页Springer，2020年。[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，KevinMurphy，andAlanLYuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义图像分割IEEE Transactions on PatternAnalysis and Machine Intelligence，40（4）：834[7] 陈明昊，薛宏阳，蔡登。最大平方损失的语义分割的主适应。在IEEE/CVF计算机视觉国际会议论文集，第2090[8] Min-Hung Chen ， Zsolt Kira ， Ghassan AlRegib ，Jaekwon Yoo，Ruxin Chen，and Jian Zheng.用于大规模视频域适应的时间注意在IEEE/CVF计算机视觉国际会议论文集，第6321-6330页，2019年[9] Min-Hung Chen，Baopu Li，Yingze Bao，and GhassanAl-Regib.具有混合时域适应的动作分割。在IEEE/CVF计算机视觉应用论文集，第605[10] Min-Hung Chen，Baopu Li，Yingze Bao，Ghassan Al-Regib，and Zsolt Kira.联合自监督时域自适应的动作分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第9454-9463页[11] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割在IEEE计算机视觉和模式识别会议论文集，第7892-7901页[12] Jaehoon Choi ，Taekyung Kim和Changick Kim。基于gan的数据增强的自集成用于语义分割中的领域适应。在IEEE/CVF计算机视觉国际会议论文集，第6830-6840页[13] Jinwoo Choi ， Gaurav Sharma ， Samuel Schulter ， andJia-Bin Huang.Shuffle和出席：视频域自适应。欧洲计算机视觉会议，第678Springer，2020年。[14] Marius Cordts，Mohamed Omran ，Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 3213[15] CamilleCouprie ， C le´ mentFarabet ， YannLeCun ，andLau-rent Najman.基于因果图的视频分割。2013年IEEE 图像处理国际会议，第4249-4253 页。 IEEE ，2013。[16] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页Ieee，2009年。[17] Mingyu Ding，Zhe Wang，Bolei Zhou，Jianping Shi，Zhiwu Lu，and Ping Luo.每一帧都很重要：视频分割和光流的联合学习。在AAAI人工智能会议集，第34卷，第10713-10720页[18] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser 、 Caner Hazirbas 、 Vladimir Golkov 、 PatrickVan Der Smagt 、 Daniel Cremers 和 Thomas Brox 。Flownet：使用卷积网络学习光流在IEEE计算机视觉国际会议的论文集，第2758-2766页[19] Georgios Floros和Bastian Leibe街道场景的联合2d-3d时间一致语义分割。在2012年IEEE计算机视觉和模式识别会议上，第2823-2830页。IEEE，2012。[20] Raghudeep Gadde，Varun Jampani，and Peter V Gehler.通过表示变形的语义视频cnn。在IEEE计算机视觉国际会议的论文集，第4453-4462页[21] Dayan Guan ，Jiaxing Huang ， Shijian Lu ， and AoranXiao.图像分割中无监督区域自适应的尺度方差最小化。模式识别，112：107764，2021。[22] Dayan Guan ， Jiaxing Huang ， Aoran Xiao ， ShijianLu，and Yanpeng Cao.目标检测中的不确定性感知无监督域自适应。 IEEE Transactions on Multimedia ，2021。[23] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[24] Daniel Hernandez-Juarez 、 Lukas Schneider 、 AntonioEs-pinosa、D a vidV a`zquez、AntonioMLo`pez、UweFrank e、Marc Pollefeys和Juan C Moure。倾斜的stixels：代表旧金山最陡峭的街道。 arXiv 预印本 arXiv ：1707.05397，2017。[25] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。Cycada：循环一致的对抗域adap-8063位置。在国际机器学习会议上，第1989-1998页[26] Ping Hu，Fabian Caba，Oliver Wang，Zhe Lin，StanSclaroff，and Federico Perazzi.用于快速视频语义分割的时间分布式网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第8818-8827页[27] Jiaxing Huang ，Dayan Guan ， Shijian Lu ，and AoranXiao. Mlan：用于领域自适应语义分割的多级对抗网络。arXiv预印本arXiv：2103.12991，2021。[28] 嘉兴黄，大雁

下载后可阅读完整内容，剩余1页未读，立即下载