没有合适的资源?快使用搜索试试~ 我知道了~
我扭曲细化传播:基于循环一致性的半监督自动标注2 * Aditya Ganeshan2* Alexis Vallet2 Yasunori Kudo2 Shin-ichi Maeda2 Tommi Kerola2Rares, Ambrus,3 Dennis Park3 Adrien Gaidon31布朗大学2首选网络公司3丰田研究所(TRI)摘要用于语义分割的深度学习模型依赖于昂贵的、大规模的、手动注释的数据集。拉贝林是一个繁琐的过程,可以采取小时的每一个形象。通过在时间上传播稀疏标记的帧来自动注释视频序列是一种更具可扩展性的替代方案。在这项工作中,我们提出了一种新的标签传播方法,称为Warp-Refine传播,结合语义线索与几何线索,有效地自动标记视频。我们的方法学习改进几何扭曲的标签,并通过利用跨时间的周期一致性在半监督设置中向它们注入学习的语义先验我们定量地表明,我们的方法在ApolloScape数据集上提高了13.1 mIoU的标签传播。此外,通过使用自动标记的帧进行训练,我们在三个语义分割基准上取得了有竞争力的结果,在NYU-V2和KITTI上将最先进的水平提高了1.8和3.61 mIoU,同时与Cityscapes上的当前最佳1. 介绍语义分割,即将语义类分配给输入图像中的每个像素是从图像中理解形状、几何形状和组件的交互作用的一项整体任务由于深度学习,该领域取得了革命性的进步[20,51,34]。然而,获得具有像素级注释的大规模数据集特别昂贵:例如,在Cityscapes数据集中,标记每张图像平均需要1.5小时[11]。尽管最近引入的数据集明显大于其前身[11,41,10,28],但与计算机视觉中的其他识别任务相比,标记数据的稀缺性仍然是一个瓶颈[33,40,22]。在数据被提供为具有用于稀疏子采样帧的标签的视频的常见场景中,解决数据稀缺性的突出方式是标签传播(LP),其通过在时间上传播标签来自动注释附加视频帧[53,3]。这个直观的想法*在A时完成的工作Ganeshan在Preferred Networks,Inc.图1:使用ApolloScape [41]逐帧地面实况对多个传播长度的不同自动标记方法的定量比较。我们比较我们的传播方法,翘曲精炼和翘曲修补,现有技术的语义和运动的传播,并表明,翘曲精炼是远远优于其他自动标记的方法,特别是对于大的时间步长。通过视频中的时间一致性的运动线索已经被广泛地探索,使用估计的运动[2,12,26],补丁匹配[3,4]或预测视频帧[54]。然而,如Zhu et al.[54],在长时间段上估计密集运动场仍然是非常困难的。此外,这些方法通常对超参数(例如,贴片尺寸),不能处理去遮挡,或者需要高度精确的光流,因此限制了它们的应用。在半监督设置中获得大规模注释的另一种有希望的方法是自训练(ST),其中训练以捕获语义线索的教师模型用于在未标记的图像上生成额外的注释[18,19,56,55]。虽然ST已经有了显着的改进,但在控制伪标签中的噪声方面仍然存在各种挑战,例如置信度阈值的启发式决策[35],伪标签中的类别不平衡[13],小片段的不准确预测以及源和目标域之间的类别定义的不一致。为了减轻LP和ST的缺点,我们提出1549915500→→图2:传播标签的准确性。我们直观地比较了所提出的扭曲细化传播(顶部中心)与仅运动模型(左下),仅语义模型(右下)和地面实况注释(底部中心)。仅运动模型(i)不能正确地分类在目标帧中引入的新区域,并且(ii)经常遭受漂移。相比之下,仅语义模型(iii)倾向于对于远距离段失败,以及(iv)不能处理教师和学生模型之间的未对齐的类定义(例如,在教师和学生模型之间的未对齐的类定义忽略标签)。我们的方法有效地结合了这两种方法的优势,以克服各自的局限性。有关仅运动模型和仅语义模型的详细信息,请参见第4.4节。Warp-Refine Propagation(简称warp-refine),一种自动为原始视频帧生成密集像素级标签的新方法。 我们的方法建立在两个关键见解之上:(i)通过将运动线索与语义线索组合,我们可以克服LP和ST的相应限制,以及(ii)通过利用跨时间的周期一致性,我们可以学习在没有顺序注释的视频的半监督设置中组合这两个互补线索。具体来说,我们的方法首先构建一个初始的估计,通过直接组合标签生成的运动线索和语义线索。这个初始估计,包含错误的冲突解决和错误的合并,然后纠正一个单独的细化网络。精化网络在半监督设置中经由新颖的循环一致性损失来训练。 这种损失将地面实况标签与通过在循环循环(t)中通过时间向前和向后传播标签而创建的它们的循环传播版本进行比较t+Kt)。 我们的损失是建立在这样的观察之上的,即由于我们的自动标记方法是双向的,因此它可以用于生成每个注释帧的不同版本。一旦该网络被训练,它就被用来校正由可变长度的传播图2我们展示了我们的方法对现有技术的定性比较,证明了标签质量的大幅改善。通过对大规模自动驾驶数据集(ApolloScape [41])的定量分析,我们具体建立了我们的方法相对于以前的状态的优越精度。现有技术的自动标记方法。这种不同方法的分析在以前的作品中完全缺失[54,35,26]。如图1,我们观察到,翘曲细化准确地传播标签显着更长的时间间隔,具 有 显 着 的 平 均 值 13 。 与 以 前 的 工 作 相 比 ,ApolloScape上有1mIoU的改进。此外,它准确地标记稀有类别(诸如“自行车”)和薄结构(诸如“杆”)(参见图1)。第4.3节)。因此,通过用由我们的方法标记的附加数据训练单帧语义分割模型,我们在KITTI[1]、NYU-V2 [27]和Cityscapes [11]基准上实现了最先进的第4.5节)。总之,我们的主要贡献是:1)一种新的算法,称为Warp-Refine Propagation,它产生了显着更准确的伪标签,特别是对于时间上遥远的帧; 2)一种新的损失函数,基于学习变换的周期一致性,在半监督设置中训练我们的方法;以及3)对不同自动分类器的质量和效用的定量分析。多个不同数据集上的标记方法。据我们所知,我们的工作是第一个利用语义和几何理解的视频自动标记的任务。2. 相关工作自我训练(ST)。将成熟的教师网络应用于未标记图像并使用预测的15501联系我们'图3:我们提出的warp-refine传播由三个步骤组成:(a)warp使用密集光流估计将地面实况标签重新映射到目标图像上;(b)inpaint将(a)的结果与强语义分割模型的预测混合在一起;(c)refine将学习的细化网络应用于(b)的结果。标签来监督学生网络已经受到越来越多的关注。Xie等人。[45]介绍了ST的框架,用于控制伪标签中的噪声以超过教师网络。Chen等人[9]将其扩展为语义分割。最近,ST已被证明在无监督域自适应(UDA)[56,24,55,6]上是有效的,其中目标是学习域不变表示以解决模拟到真实的差距。ST的进步主要是由模型架构和用于训练教师和学生网络的损失定义的改进[20,14,7,8,51,34],源和目标域之间的特征对齐[6,52,18]以及预测用作伪标签的决策过程[39,56,24,55]驱动的我们的方法可以被视为通过以下方式进一步改进ST:1)另外使用运动线索来跨长时间间隔传播地面实况标签,以及2)使用可学习组件校正来自两个源的组合误差。标签传播(LP)。LP的目标是使用密集像素级匹配从相邻帧传输地面实况像素标签[26,4,2,54]。鉴于基于CNN的光流算法的进步,已经提出了各种使用强几何线索来传播标签的方法,例如。使用视频预测[54]和基于流的投票[23]。LP中成功的关键标准是人们可以准确地传播地面实况标签的时间距离。这是一个至关重要的方面,因为伪标签需要包含关于注释源帧的新的学习信号。基于流的方法的一个常见的失败是错误传播;在早期步骤中犯的错误会持续存在,并在后续步骤中被放大(即漂移)。在这里,我们的方法可以被视为通过使用高容量语义分割模型来重新初始化标签以防止错误累积来改进LP。语义和几何线索。过去已经提出了结合语义和几何线索的方法用于其他任务,例如未来帧预测[21]和视频分割[12,38,30]。我们的主要区别是秒4.4,我们提供了定量分析,并报告说,我们的方法是成功的,在很长的时间间隔准确地传播地面实况周期一致性。循环一致性的概念先前已用于学习对象嵌入[44]、单次语义分割[42]和视频插值[32]。我们的工作受到使用周期一致性来学习鲁棒跟踪器的工作的启发[44]。然而,我们的不同之处在于,我们解决了我们的跟踪/几何建模方法本身的噪声性质。3. 翘曲细化传播我们首先介绍了整个论文中使用的符号。随后是用于传播密集像素标签的两个递归算法的描述,随后是通过利用循环一致性来训练去噪模型的所提出的方法3.1. 符号给定标记的视频帧(I t,L t)和其相邻的原始帧It+k',我们的目标是为1 k ' K创建近似的标记Lt+k'。为此,我们引入两个贪婪的传播算法。他们是贪婪的,因为Lt+k'的最优解,即Lt+k',是通过应用递归传播步骤到(近似最优)前一帧的解,L1t+k−1Lk=Ψ(Lk−1,Ik−1),t+1≤k≤t+K,(1)Lt=Lt.(二)我们介绍了两个算法,翘曲-inpaint和翘曲- refine,增长的复杂性Ψ。值得注意的是,Zhu et al.[54]可以包括在该框架中,当仅基于视频预测算法[31]的运动矢量用于定义Ψ时。地面实况标签的集合,而不是特征表示或预测的标签,用于在自我训练框架中使用。为了避免下标混乱,我们定义k:= t + k'.15502--KⓈ·KKKLKKK3.2. 翘曲修补如在在线视觉跟踪中通常观察到的[15],当Ψ纯粹依赖于运动提示时,传播的标签容易受到传播误差(即漂移)[54]。 另外,新场景元素的像素不能由先前帧中的标签来解释(例如,先前帧中的标签)。进入视野的汽车)。解决这个问题的一种方法是使用强语义分割模型重新初始化因此,我们在Lk中的每个像素都被定义为:其中,运动线索编码在(Ik-1,Ik)对中,或者从仅从Ik计算的语义线索。形式上,我们通过重映射L*计算Lk的一个版本,名为lyLm使用变换φKk−1,k学会了曲速K1Ik−1到Ik。然后,我们将Lm与Lk的另一个版本,即Ls混合,图4:为了训练细化网络,我们生成循环K K其是通过在Ik上应用预训练的语义分割模型gΦ而获得的语义标签:通过使用扭曲修补变换在注释帧上应用前向-后向传播来校准传播的标签,并将它们与地面实况标签进行比较。Lm=φk−1,k(L),(3)k k−1Ls=gψ(Ik),(4)Lk=MLm+(1−M)Ls,(5)图3总结了我们提出的传播方法的三个步骤节中4、我们定量和定性表明LW和LR在以下方面更准确K K其中表示逐像素乘法。二进制混合系数M的(x,y)值表示与由gΦ计算的语义标签相比,我们是否信任位置(x,y)处的估计运动向量。我们通过测量Ik和φk−1,k(Ik−1)之间像素值的欧氏距离来确定M:M(x,y)=I(Ik(x,y)−φk−1,k(It)(x,y)2<τ),(6)其中I()是指示符函数。 通过将预训练的运动估计模型f θ应用于相邻图像对来获得运动矢量:φ k−1,k=f θ(I k−1,I k).我们让ΨW表示整个传播过程(3)-(5),并且L(W)表示在第k帧处得到的伪标签:LW=ΨW(LW1,Ik−1)。(七)其用于各种k的基础事实标签,并且进一步地,所生成的标签对于改进单帧语义分割模型是有用的。3.4. 学习在warp-refine中存在三组可学习参数;在运动估计模型fθ中、在语义分割模型gΦ中以及在去噪模型Ωλ中。我们分别对fθ和gψ使用恒定的预训练运动估计模型[31]和语义分割模型[35,48],并对τ使用固定值。这里我们将介绍如何训练Ωλ。周期一致性。在全监督设置中训练去噪模型通常需要以下的大型数据集噪声-干净对[16],在我们的情况下是(LR,L)。Tok k−kk3.3. 扭曲-优化利用L(W),我们获得几何和语义线索的初始融合。然而,该估计仍然受到来自不完美的运动估计和语义分割模型(fθ和gψ)的伪影的影响。因此,我们通过应用旨在去除这些伪影的去噪网络Ωλ来扩展递归步骤以细化L(W):为了解决我们的半监督设置中Lk的缺乏,我们利用了我们的传播机制中固有的周期一致性。循环传播由两个阶段组成:1. 向前:我们执行Ψ W的传播步骤(即等式 3-Eq.5)l次以获得L(W)。2. 向后:我们执行ΨW的逆传播的l个步骤以获得Lt的循环传播变体,Lk=Ωλ(LW)。(八)注意,Ωλ的目标是减轻由ΨW的传播步长引起的特定类型的误差,具体地说15503即Lot。反向传播步骤类似于ΨW,但以相反的顺序执行:由fθ,gψ,和τ的选择,并在效果适当合并Lmk−1 =φk,k−1(Lk),(9)语义和几何线索。扩展传播过程和生成的伪标签由ΨR和ΨR表示。Lk−1 =gψ(Ik−1),(10)LR,关于:LR=ΨR(LR,I)。Lk−1=MLm1+(1−M)Ls−1,(11)k kk−1k−1k−k15504LL±±±{±|}tt±其中,Lk被设置为前向阶段的结果LW,并且运动矢量被向后计算:φ k,k−1=f θ(I k,I k−1)。(十二)循环一致性损失是通过比较注释标签Lt及其循环包装的对应物Lot来计算的,其中应用了去噪(Lt,Ωλ(L◦t))。这在训练期间通过标准的基于梯度的方法进行优化值得注意的是,后向步骤以及因此整个前向-后向过程链接Ψ W中使用的同一组变换(即f θ、g ψ和混合策略)。因此,预期利用该循环一致性损失训练的去噪网络校正由Ψ W的可变长度生成的伪标签中的错误,这是Ω λ的目标。 在实践中,我们在训练中使用变化的l 以最大化这种普遍性。图4呈现了我们用于经由标签的循环一致性来学习标签细化的方法的视觉总结。4. 实验4.1. 数据集我们在四个语义分割基准上进行了定量和定性实验:纽约大学NYU-Depth V2数据集[27]由1449个密集标记的图像组成,分为795个训练图像和654个测试图像,这些图像是从视频序列中随机采样的由于高fps(20-30fps)和缓慢的相机移动,我们以2fps对视频进行子采样,并在标记帧周围创建多达21帧的可变长度的序列,从而产生9786帧用于标签传播。凯蒂KITTI VisionBenchmark Suite [1]由200张训练图像和200张测试图像组成,具有像素级注释。对于每个训练图像,我们使用顺序帧 (10)从用于标签传播的场景-流子集中提取标签。城市景观。Cityscapes数据集[11]被分成一列火车,验证和测试集分别具有2975、500和1525个图像。对于每个训练图像,我们使用作为数据集的一部分提供的10个阿波罗景观ApolloScape数据集[41]包含顺序记录图像的像素级注释,分为40960个训练图像和8327个验证图像,允许评估传播标签的准确性。我们创建21个帧的连续分区,并且使用中心帧作为训练数据点,并且使用相邻帧(10)用于标签传播。这产生包含2005个图像的大小的训练子集和38095个图像的标签传播子集。4.2. 实现细节我们的方法包括三个部分:运动估计网络f θ、语义分割模型g Φ和去噪网络Ωλ。继Zhu et al.[54],对于运动估计网络f θ,我们使用视频预测基于SDC-net的模型[31]。对于我们的任务,视频预测的表现优于光流扭曲[36](参见。补充)。对于分割模型g Φ,我们采用Tao等人中概述的架构(MSA-HrNet-OCR)和训练协议。[35 ]第35段。最后,对于Ωλ,我们使用pix2pix风格的网络[43,29]。首先,编码器将经扭曲修补的标签作为输入。然后将形成的编码与来自gΦ的OCR特征[48]级联,并通过解码器。对于鲁棒细化,我们执行循环-一 致 性 训 练 , 传 播 范 围 采 样 到 6 。 请 注 意 , 标 签(Lt/LW/L◦)用作独热向量。单帧语义分割。为了用自动标记的数据训练单帧语义分割网络,我们使用与g ψ相同的架构和训练协议,但有一个重要的修改:独立于由自动标记生成的数据量,我们使用固定的时期大小(数据集大小的三倍)。这确保我们不会训练基线模型(参见补充文件)。当使用传播的数据进行训练时,我们从传播的数据中采样70%的epoch,从手动注释的数据中采样30%除非另有说明,我们在时间范围内对其他数据进行采样[2,4,6,8](类似于[26])。我们将没有额外数据训练的模型称为基线模型。自动标记基线。我们比较了我们的方法warp-inpaint(ΨW,cf.第3.2节)和翘曲细化(ΨR,参见第3.3节)与现有的自动标记技术进行比较。我们使用朱等人提出的方法。[54],其仅使用f θ来生成标签,并将该方法称为仅运动标记。当使用这些标签时,我们使用[54]推荐的同样,我们也使用陶等人提出的方法。[35],其仅使用g Φ生成标签,并且将该方法称为仅语义标签。 对于仅语义标记,我们使用最佳perfong架构(MSA-HRNet-OCR,在手动注释的图像上训练),并且仅使用> 0的像素。9信心,如[35]中所建议的。4.3. 宣传标签我们首先提供对我们的自动标记方法的广泛分析:扭 曲 修 补 ( warp-inpaint ) 和 扭 曲 细 化 ( warp-refine),以及现有的仅运动和仅语义的技术。我们针对ApolloScape数据集[41]中提供的地面实况标签评估由这些方法生成的标签。我们专注于两个关键方面:(1)长距离传播,以及(2)硬类的标记。首先,我们比较了不同的自动标记方法在不同的传播长度。图1报告了在给定各种传播方法和传播长度的情况下,传播标签和地面实况标签之间的平均交集(mIoU我们注意到,纯运动模型和纯语义模型在尊重方面表现出了明显的权衡15505图5:ApolloScape [41]中困难类的传播标签的比较,在所有时间步长中取平均值。我们的方法warp-refine(ΨR)能够很好地执行具有薄结构的类,如此外,当语义线索失败时,我们的方法利用运动线索,如对于“Ignore”和“Building”类所看到的传播长度:仅运动模型在较短范围内产生更准确的标签,而仅语义模型在较长范围内产生更准确的标签。此外,当在没有细化的情况下传播时(即,warp-inpaint),对于更长的传播长度,准确度降低,甚至下降到仅语义标记以下。最后,通过细化传播(即,翘曲-细化)产生比其它方法明显更干净的标签。由于细化模块,我们的方法保持其准确性,即使在大的时间步长,达到了很大的利润为 11. 在 t±10 时 , 与 最 接 近 的 竞 争 方 法 相 比 为35mIoU。接下来,我们量化了困难类的IoU和图2中所有传播长度上的总体mIoU。五、值得注意的是,用于自动标记的两种现有方法都在薄结构上失败,例如此外,我们注意到,仅语义标记严重失败,在估计的由于没有任何语义定义的标签)。因此,遵循推荐的协议[35],对于仅语义标记,我们通过概率阈值[ 35 ]估计 秒4.2)。 尽管经过精心挑选 因此,仅语义标记无法准确地标记“Ignore”类。我们的方法(翘曲- inpaint,和翘曲-精炼)有效地结合运动线索与语义线索,从而克服了这个缺点,并正确地估计“忽略”类。总的来说,我们的方法再次产生了令人印象深刻的13的利润率。在最接近的现有技术上为12mIoU(在所有传播长度上平均)。最后,我们还提出了定性结果图。 注意,与仅运动相比,我们的传播标签不遭受错误传播,同时在稀有类(例如,运动)上实现更高的准确性。bikes)相比于semantic-图6:定性比较:我们将我们的方法与ApolloScape上的其他自动标记方法进行了比较[41]。由于我们的方法结合了语义和运动线索,因此可以避免一个(例如,由稀有类或新的场景元素引起的)被另一个校正,从而导致更好的结果。只.图7还呈现了我们的方法的失败情况,其是由于“骑手”的语义和运动提示两者的并发失败而引起的4.4. 传播标签我们现在证明,自动标记的显着改进直接转化为使用我们生成的数据训练的单帧语义分割模型的我们在NYU-V2,ApolloScape和Cityscapes上进行了实验。继Zhu et al.[54],对于每个实验,我们进行三次运行并报告 平 均 值 ( μ ( mIoU ) ) 和 样 品 标 准 偏 差 ( σ(mIoU))。我们的分析总结在表1中。纽约大学阿波罗景观号。 使用warp-refine标签进行训练始终会产生更好的结果。在NYU-V2上,我们的标签平均提高了1。54mIoU,相比之下只有0. 35mIoU用于仅语义标记方法。类似地,在ApolloScape上,翘曲细化标签将性能提高1。IlmIoU,而最接近的自动标记基线(仅语义)仅产生0的益处。四十七最后,我们注意到,使用仅运动标签的训练始终会导致性能下降。由于ApolloScape包含所有提供的图像的地面实况注释,因此我们还使用地面实况标签而不是通过自动标签生成的标签来这作为一个oracle传播模型,我们把它作为一个经验的上限标签传播的好处。 使用地面实况而不是传播的标签(在(t± {2,4,6,8})处)产生以下益处15506±联系我们±表1:我们分析了使用自动标记数据训练的语义分割模型的性能。在这三个数据集上,我们观察到,翘曲细化标签始终比其他方法的标签带来更大的改进。通过在时间步长(t)处对自动标记的帧进行采样来计算仅语义、扭曲修补和扭曲细化的结果2、4、6、8)。继Zhu et al.[54],对于仅运动,我们仅以时间步长(t2)对帧进行采样。我们通过对每个实验进行三次运行来报告平均性能(μ(mIoU))、样品标准偏差(σ(mIoU))和相对于基线的平均改善(∆(mIoU)[11]第十一届全国人大常委会第十九次会议审议通过《关于进一步深化改革的意见》。+0。三十五+0。47图7:定性比较:我们在Cityscapes上展示了我们的方法warp-refine的失败案例[11]。当语义和运动线索都失败时,我们的方法可能失败(例如,“骑士”被贴错标签)。二、73百万值得注意的是,使用warp-refine标签的训练达到了这个经验上限的大约40%城市景观-val. 虽然扭曲细化标签产生优于先前方法的性能,但我们注意到仅语义和扭曲细化之间的差距在Cityscapes上较小(同时仍然具有统计学显著性)。 这可能是由于性能饱和:在这三个数据集中,我们观察到,随着基线模型的性能增加,(1)仅语义标签的效用增加(因为它们更准确),以及(2)扭曲细化标签的效用 降低(因为 相邻图像中 的标签变 得不太有用)。尽管有这个缺点,翘曲细化标签仍然比现有技术显著更有效通过教师模型标记附加数据最近已用于许多自我训练方法[45,9]。我们的工作表明,使用几何线索可以进一步提高标签,从而提高性能。在较长的时间范围内传播。传播的标签的功效取决于地面实况标签可以被准确地传播多远。这一点至关重要,因为图8:我们评估了用在不同时间间隔采样的自动标记帧训练的语义分割模型的性能。由于仅运动标签中的错误累积,当我们进一步采样帧时,性能下降。相比之下,扭曲细化标签在较大的时间步长(10)中特别有用。该消融在NYU-V2数据集上进行[27]。在注释帧的紧邻帧中几乎没有信息增益。在图8中,我们观察到,用从长时间范围采样的扭曲细化标签训练语义分割模型产生了很大的好处。这表明,翘曲细化准确地传播标签到远程帧的能力是有效地改善语义分割模型的关键注意,随着传播长度的增加,使用仅运动标签的训练只会进一步降低性能。相比之下,我们的方法显示没有退化,即使在采样标签从[-10,10]。4.5. 语义细分基准最后,我们列出了我们的方法在三个语义分割基准上 实 现 的 最 先 进 的 性 能 : NYU-V2 、 KITTI 和Cityscapes-test。由于KITTI和Cityscapes的评价规则明确规定测试分割不应用于消融研究,因此我们仅评价我们的最终模型,即MSA-HrNet-OCR [35]使用warp-refine标签进行训练。µ(mIoU)σ(mIoU)∆(mIoU)µ(mIoU)σ(mIoU)∆(mIoU)µ(mIoU)σ(mIoU)∆(mIoU)基线50块580的情况。25-七十二630的情况。09-83岁350的情况。10-仅运动50块3850块930的情况。130的情况。17-0。20七十二57七十三。100的情况。150的情况。14-0。1683岁0183岁910的情况。130的情况。04-0。34+0。5615507光签署表2:与Cityscapes [11]测试分割上的最先进方法的比较。这里报告的所有方法都使用额外的数据进行训练(即在Mapillary数据集[28]上进行预训练并使用粗标签)。我们的方法与Cityscapes上当前最先进的模型相当,达到0。1mIoU比以前的最先进的方法(陈等。[9])。路侧buil壁fenc极T.T.vegeTerra天空pers骑车truc总线火车M.BIKMiouZhu等人[五十四]九十八887岁894 2六十四1六十五0七十二479岁。082岁894 274岁0九十六。188岁275. 4九十六。578岁894 091. 6七十三。879岁。083岁5Yuan等人[48个]九十八988岁394 468岁067岁8七十三。6八十683岁994 474岁4九十六。089岁。275. 8九十六。883岁694 291. 3 74岁0八十184. 5Tao等人[35]第三十五届九十九。089岁。294 9七十一669岁。175. 882岁0八十五294 575. 0九十六。3九十079岁。4九十六。979岁。894 0八十五8七十七。481. 4八十五1Chen等人[9]第一章九十八888岁394 6六十五369岁。675. 2八十984. 494 374岁4九十六。2九十079岁。7九十六。783岁0九十五6九十三478岁479岁。6八十五2我们九十八988岁694 9七十一568岁775. 582岁0八十五294 574岁1九十六。389岁。979岁。4九十六。9八十294 492. 575. 781. 2八十五3表3:与NYU-V2 [27]测试分割上的最先进方法的比较:我们用warp-refine标签训练的模型获得了1的大跳跃。8、关于小米表4:与KITTI [1]测试分割的最新方法的比较:我们使用warp-refine 标 签 训 练 的 模 型 比 之前的 工 作 提高了3 倍 。61mIoU。方法pixel-acc mean-acc mIoU[49]第四十六章:一个女人256.3464类类别方法mIoU iIoU mIoU iIoU我们的77.6660522NYU-V2 我们将我们的模型与表3中数据集上报告的最佳分数进行了比较。我们的方法产生了1的改进。8mIoU,同时还获得了其他度量的有利统计数据,值得注意的是,增加了3。类平均像素精度(mean-acc)为5%由于NYU-V2的语义复杂性,额外的数据是绝对有益的。具体来说,长尾类,如“袋”,“白板”和“淋浴帘”产生的平均收益为7。超过基线的29个IoU凯蒂 我们在表4中报告了我们在KITTI数据集上的性能。我们显示出比以前的国家的最先进的显着增加。具体来说,我们提高了3个大幅度。61mIoU。为了评估warp-refine标签的好处,我们在没有warp-refine标签的情况下训练了我们的模型,并定性地比较了测试集图像上的预测(在补充资料中使用所提出的扭曲细化标签进行训练可以提高诸如“卡车”之类的类的性能我们将我们的方法在这个数据集上的卓越性能归因于这样一个事实,即由于这个数据集的大小很小,添加标记数据是非常有益的注意,如Zhu et al.[54],我们使用预训练的Cityscapes模型进行初始化,并在训练集上使用4重交叉验证来估计超参数。城市景 观测试。 最后,我们探讨了我们的方法在Cityscapes数据集上的好处。如表2中所报告,我们的方法产生85的mIoU。3,在现有技术基础上提高了0.1mIoU。我们将小的增加归因于基线模型的高度饱和性能具体地,作为标签传播仅la-走丁e.在对RK自行eMTI Net [37]75. 362. 9四十九0SegStereo [47]五十九1028岁0081.31六十岁。26PAD-Net [46]75. 262. 350块2AHiSS [25]61岁24二十六岁9481.54五十三4215508±[5]第69话. 564317865268 89在与注释图像相邻的帧之间,这些伪标签的效用随着基线模型的性能变得饱和而减小我们提出了额外的experi- ments和结果与(i)不同的骨干网络;和(ii)不同的培训制度在补充。5. 结论在这项工作中,我们提出了一种新的视频自动标记方法:Warp-Refine Propagation,它结合了几何和语义线索的标签传播。通过利用跨时间的周期一致性的概念,我们的方法学习在半监督集合中细化传播标签。使用warp-refine,我们可以在长时间范围内准确地传播标签(即10帧)。通过一个详细的消融分析,我们表明,翘曲细化超过以前的自动标记方法的显着保证金13。ApolloScape上的1百万IoU。此外,从翘曲细化生成的标签被证明是有用的,用于改善单帧语义分割模型。通过使用warp-refine标签训练语义分割模型,我们在NYU-V2(+1. 8mIoU)、KITTI(+3. 6mIoU)和Cityscapes(+0. lmIoU)。将传播的标签与手动注释以及较弱的监督源(即,粗糙标签)仍然是一个未解决的问题,我们的目标是在我们未来的工作中解决这个问题。致谢。这项工作得到了Woven Core,Inc.的支持。Zhu等人[五十四]七十二83四十八6888岁9975.26我们76.4450.9289.6373.6915509引用[1] Hassan Alhaija , Siva Mustikovela , Lars Mescheder ,Andreas Geiger,and Carsten Rother.增强现实与计算机视觉的结合:城市驾驶场景的高效数据生成。国际计算机视觉杂志(IJCV),2018年。二、五、八[2] VijayBadrinarayanan 、 IgnasBudvytis 和 RobertoCipolla。使用树结构图形模型的半监督视频分割。IEEETransactionsonPatternAnalysisandMachineIntelligence,35(11):2751-2764,2013. i、iii[3] V. Badrinarayanan,F. Galasso和R.西波拉视频序列中的标签2010年IEEE计算机协会计算机视觉和模式识别会议,第3265-3272页,2010年。我[4] I. Budvytis,P. Sauer,T. Roddick,K. Breen和R.西波拉用于驾驶场景中在IEEE国际计算机视觉会议(ICCV)的第五届道路场景理解和自动驾驶计算机视觉研讨会上,2017年10月。i、iii[5] SamuelRotaBulò , LorenzoPorzi , andPeterKontschieder. 用 于 dnn 记 忆 优 化 训 练 的 就 地 激 活batchnorm在IEEE计算机视觉和模式识别会议论文集,2018年6月。VIII[6] 陈超奇,谢卫平,黄文兵,于荣,丁兴浩,黄岳,徐廷阳,黄俊洲.无监督域自适应的渐进式特征对齐在IEEE计算机视觉和模式识别会议(CVPR),2019年。III[7] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割。Yoshua Bengio和Yann LeCun,编辑,第三届国际学习表征会议,ICLR 2015,美国加利福尼亚州圣地亚哥,2015年5月7日至9日,会议跟踪会议记录,2015年。III[8] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR,abs/1706.05587,2017。III[9] 放 大 图 片 作 者 : Chen Liang-Chieh , Raphael GontijoLopes , Bowen Cheng , Maxwell D. Collins , Ekin D.Cubuk , Barret Zoph , Hartwig Adam , and JonathonShlens.天真的学生:在视频序列中利用iii、vii、viii[10] Xinlei Chen , Tsung-Yi Lin Hao Fang , RamakrishnaVedan- tam,Saurabh Gupta,Piotr Dollár,and C.劳伦斯·齐尼克。Microsoft coco字幕:数据收集和评估服务器。arXiv预印本arXiv:1504.00325,2015。我[11] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.城市景观数据集用于语义城市场景理解。 在proc IEEE计算机视觉与模式识别会议(CVPR),2016年。一、二、五、七、八[12] Raghudeep Gadde,Varun Jampani,and Peter V.盖勒通过表示变形的语义视频cnn在IEEE国际计算机视觉会议(ICCV)2017年10月。 i、iii[13] 林宗义,崔银,史瑞文,林宗义,林志玲.阔克?库布克Le和Barret Zoph.简单的复制粘贴是一种强大的数据增强方法,用于2020年的实例分割。我[14] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于精确的对象检测和语义分割。2014年IEEE计算机视觉和模式识别会议,第580-587页III[15] Eddy Ilg 、 Nikolaus Mayer 、 Tonmoy Saikia 、 MargretKeu- per、Alexey Dosovitskiy和Thomas Brox。流动网络2.0:利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议论文集,第2462-2470页,2017年。IV[16] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。IV[17] J. Krapac和我K. S.舍维奇用于大型自然图像语义分割的在2017年IEEE计算机视觉研讨会国际会议(IC-CVW),第238-245页,2017。VIII[18] 李云生,陆远,努诺·瓦斯康塞洛斯。语义分割领域自适应的双向学习。 在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。i、iii[19] 青莲、吕丰茂、段立新、公伯庆。构建跨领域语义分割的自我激励金字塔课程:非对抗性的方法。在IEEE国际计算机视觉会议(ICCV),2019年。我[20] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网 络 。 在 2015 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第3431-3440页,2015年。i、iii[21] Pauline Luc,Camille Couprie,Yann LeCu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功