没有合适的资源?快使用搜索试试~ 我知道了~
1(ms/f)基于时间分布网络的快速视频语义分割胡平1,法比安·卡巴·海尔布隆2,奥利弗·王2,林哲2,斯坦·斯克拉罗夫1,费德里科·佩拉兹21波士顿大学2Adobe研究摘要我们提出了TDNet,一个时间分布的网络设计的快速和准确的视频语义分割。我们观察到,从深度CNN的某个高级层提取的特征可以通过组合从几个较浅的子网络提取的特征来近似。利用视频中固有的时间连续性,我们将这些子网络分布在连续帧上。因此,在每个时间步,我们只需要执行一个轻量级的计算,从一个单一的子网络中提取一个子特征组。用于分割的全部功能,然后重组的应用程序的一种新的注意力传播模块,补偿帧之间的几何变形。为了进一步提高全特征层和子特征层的表示能力,还引入了分组知识蒸馏损失。在Cityscapes、CamVid和NYUD-v2上的实验表明,该方法具有最先进的准确性,同时速度更快,延迟更低。1. 介绍视频语义分割的目的是为视频帧分配逐像素的语义标签。作为视觉理解的一项重要任务,它吸引了越来越多的研究界的关注[19,27,34,39]。再-在密集标记任务[4,20,25,28,50,54,56,59]中的50%的成功已经揭示了强特征表示对于准确的分割结果是至关重要的。然而,计算强特征通常需要具有高计算成本的深度网络,从而使其对于像自动驾驶汽车、机器人感测和增强现实这样的现实世界应用具有挑战性,这些应用需要高精度和低延迟。用于视频语义分割的最直接的策略是将深度图像分割模型独立地应用于每个帧,但是该策略不利用视频动态场景中提供的时间信息。一种解决方案是将相同的模型应用于所有帧,并在顶部添加额外的层来模拟时间背景,以提取更好的特征[10,19,23,34]。怎么-图1.城市景观的表现。我们提出的TDNet变量(表示为和)链接到其对应的深度图像分割主干(表示为),具有类似数量的参数。 与视频语义分割方法NetWarp [10]、PEARL[19]、ACCEL [18]、LVS-LLS [27]相比,GRFP [34] , ClockNet [39] , DFF [58] 和 实 时 分 割 模 型LadderNet [21],GUNet [32]和ICNet [55],我们的TDNet实现了准确性和速度的更好平衡。然而,由于必须在每一帧重新计算所有特征,因此这种方法无助于提高效率。为了减少冗余计算,合理的方法是仅在关键帧处应用强图像分割模型,并将高级特征重用于其他帧[18,27,31,58]。然而,其他帧相对于关键帧的空间未对准难以补偿,并且通常导致与[18,27,31,58]中报告的基线图像分割模型相比准确度降低此外,这些方法在关键帧和非关键帧之间具有不同的计算负载,这导致高的最大延迟和计算资源的不平衡占用,这可能降低系统效率。为了解决这些挑战,我们提出了一种新的深度学习模型,用于高精度和低延迟的语义视频分割,称为时间分布式网络(TDNet)。我们的模型受到组卷积的启发[17,22],这表明使用分离的过滤器组提取特征不仅允许模型并行化,而且有助于学习更好的表示。给予8818TD2-PSP 504GRFP(5)LetockNC不ICNeDFFGUNetrNet添加LAccele18双TD4-RL豌豆S-LL2LVT101BiseNe- PSP18TD34BISETD2-PNet101PSNetWarp8819N×像PSPNet [56]这样的深度图像分割网络,我们将深度模型提取的特征分成N个(例如,N=2或4)组,并使用N个不同的浅子网络来近似每组特征通道。通过强制每个子网络覆盖一个单独的特征子空间,可以通过重新采样这些子网络的输出来产生强特征表示。为了随着时间的推移进行平衡和有效的计算,我们让N个子网络共享相同的浅层架构,该架构被设置为原始深度模型大小的1当分割视频流时,N个子网络随时间顺序地和循环地分配给帧为了补偿跨帧运动引起的空间错位,我们提出了一个注意力传播模块,用于重新组装来自不同时间步长的特征为了进一步增强网络的表示能力,我们还提出了一种分组蒸馏损失,以在完整和子特征组级别上将知识从完整的深度模型转移到我们的有了这个新模型,我们只需要运行一个轻量级的前向传播并且可以通过重用在先前帧中提取的子特征来聚合全部特征。如图1所示,我们的方法优于最先进的方法,同时保持较低的延迟。我们通过多个基准测试的广泛实验来验证我们的方法。总的来说,我们的贡献包括:i)一个时间分布的网络架构和分组的知识蒸馏损失,它加速了视频的最先进的语义分割模型,在相当的精度下具有2个以上的较低延迟; ii)一个注意力传播模块,随着时间的推移有效地聚合分布式特征组,对跨帧的几何变化具有鲁棒性; iii)比以前的最先进的语义分割模型更好的精度和延迟。艺术视频语义分割方法在三个具有挑战性的数据集,包括Cityscapes,Camvid和NYUD-v2。2. 相关工作图像语义分割是一个活跃的研究领域,随着深度学习的成功,它在性能上有了显著的改善[12,16,28,41]。作为一项先驱工作,全卷积网络(FCN)[30]用卷积层取代了最后一个全连接层进行分类,从而允许密集标签预测。基于该公式,已经提出了有效分割[24,36,37,52,55]或高质量分割的后续方法。[4,7,11,26,38,40,43,44,45]。语义分割也被广泛应用于视频[14,23,31,46],采用不同的方法来平衡质量和速度之间的权衡。许多方法通过将相同的深度模型重复应用于每个帧并在时间上聚合具有附加网络层的特征来利用视频中的时间上下文[10,19,34]。虽然这些方法比单帧方法提高了准确性,但它们在每帧模型上引起额外的计算。另一组方法通过利用时间连续性来传播和重用在关键帧处提取的高级特征来实现高效的视频分割[18,27,39,58]。这些方法的挑战是如何随着时间的推移稳健地传播像素级信息,这些信息可能由于帧之间的运动而未对准。为了解决这个问题,Shelhameret al.[39] Carreiraet al. [2]直接重用以低分辨率从深层提取的高级特征,这些特征随着时间的推移相对稳定。Zhuetal. [58] is to adopt optical flow to warp high-level featuresat keyframes to non keyframes. Jain等人[18]进一步用在当前帧提取的浅特征更新流扭曲特征图。然而,使用光流会导致显著的计算成本,并且可能在大运动、不遮挡和非纹理区域的情况下失败。为了避免使用光流,Liet al.[27]而是提出使用空间变化卷积来自适应地聚集局部窗口内的特征,然而,局部窗口仍然受到超出预定义窗口的运动的限制。如[18,27,58]所示,尽管与其图像分割基线相比,总体计算减少,但准确度也降低。此外,由于提取了高级特征,在关键帧处,这些方法表现出不一致的速度,其最大延迟等同于单帧深度模型的最大延迟。与此相反,我们的方法不使用关键帧功能,并取代光流与注意力传播模块,我们表明,提高了效率和运动的鲁棒性。3. 时间分布网络在本节中,我们将描述临时分布式网络(TDNet)的架构,概述见图2。节中3.1我们介绍了分布子网络的主要思想,在第3.2节中,我们介绍了我们的注意力传播模块,旨在有效地聚合空间错位的特征组。3.1. 分布式网络受最近成功的Group Convolution[17,22]的启发,这表明采用单独的卷积路径可以通过增强过滤器关系的稀疏性来提高模型的有效性,我们建议将来自深度神经网络的8820∈E∈R不O−a) 逐帧模型b) 时间分布模型(TDNet)通过将先前计算的特征组与当前特征组聚合。3.2. 特征聚合聚合在不同时间步长提取的特征组的一个很大的挑战是由帧之间的运动引起的空间未对准。基于光流的扭曲是一种流行的工具来纠正这种变化[10,18,34,58],但它计算昂贵,容易出错,并且仅限于每个像素的单个匹配。为了解决这些挑战,我们提出了一个注意力传播模块(APM),它基于非本地注意力机制[47,49,57],但扩展到处理视频语义分割任务的时空变化。我们现在定义我们图2.与应用单个深度模型来独立地分割每个帧(a)相反,在TDNet(b)中,我们将特征提取均匀地分布在连续帧中以减少冗余计算,然后使用注意力传播模块(APM)将它们聚合,以实现用于准确分割的强特征。使用一组浅层子网络来近似它们,其中每个浅层子网络仅覆盖原始模型的特征表示的子空间此外,我们观察到,完整的特征图是将APM纳入TDNet。如图3、TDNet由两个阶段组成,编码阶段和分段阶段。编码阶段随时间提取交替的子特征图。我们不仅生成包含路径特定子特征组的值特征图,还让子网络生成查询和关键字图,以建立帧间像素之间的相关性。形式上,特征路径-i产生子特征映射XiC×H×W。然后,与先前的工作[47]一样,相应的编码模块C×H ×W大,并且尺寸减小(图2(a))是昂贵的。在PSP-R,以及低维查询和键×高 ×宽×高 ×宽Net 50 [56],特征图有4096个通道和维度-地图QCi∈R8,KiC∈ R8,有三个1×1降阶约占总计算量的三分之一。为了进一步提高效率,基于分块矩阵乘法[9],我们将用于降维的卷积层转换为子空间级别的一系列卷积运算的总和,这使我们能够将这些子空间级别的卷积运算分布到各自的子网络。因此,在用于网络的预测头保持与原始深度模型相似的总模型大小,我们表明聚合多个浅层网络路径可以具有与原始深度模型相似的强大代表性卷积层在分割阶段,目标是基于从来自先前帧的子网络的输出重构的完整特征来产生分割结果。假设我们具有从视频帧导出的m个(图3中m=4)独立特征路径,并且想要通过将先前m-1个帧的输出与当前帧组合来构建帧t的完整特征表示我们通过时空注意力[35,49]实现了这一点,其中我们独立地计算当前帧t和先前m-1帧的像素之间的亲和力QtK模型[42,48,50,53]。在单图像分割的背景下,先进的,Affp =Softmax(p)(1)DK这种方法的优点在于,它通过在多个设备上并行提取特征路径而允许更快的计算。然而,在分割视频序列的上下文中,我们可以利用其固有的时间特性,其中p指示先前帧,并且dk是查询和关键字的维度。然后,将当前帧和先前m-1帧处的子特征图合并为,Σt−1连续性,并沿节拍分布计算-ral维度我们将这种分布式特征提取方法应用到视频中,通过将子网络应用到序列V′=Vt+p=t−m+1φ(AffpVp)帧 , 并 将 新 的 体 系 结 构 称 为 时 间 分 布 网 络(TDNet)。如图2(b)所示,TDNet通过重用在先前时间步计算的子特征组来避免冗余子特征计算。然后产生每帧的完整特征表示通过这种注意机制,我们有效地捕获了跨帧像素之间的非局部相关性,时间复杂度为((m1)dkH2W2)对于等式中的亲和力。1.一、然而,用于语义分割的特征是高分辨率的,并且等式2引起高计算成本。到编码器框架不Dim.减少不APM APMTD1 TD2 TD3 TD4 TD1框架T-3 T-2 T-1 TT+1T+1不√8821−pqpkt−m+1×不M编码TD1帧T+1下一时间步骤:聚合t-2、t-1和t以分割帧t+1图3.TDNet与四个子网的图示由于我们在连续帧上循环分布子网络,因此任何四帧时间窗口将覆盖子网络的全部集合。为了分割帧t,我们应用注意力传播模块来传播和合并先前从(t-3,t-2,t-1)提取的子特征图与来自t的子特征图。对于下一帧t+1,通过类似地重新使用在帧(t-2,t-1,t)处提取的子特征来聚集完整特征表示。为了提高效率,我们对注意力地图进行下采样,并随着时间的推移传播它们。注意下采样。我们采用简单而有效的方法-从t m+1到t,它们各自的下采样查询、关键字和值映射在一起,则对于中间帧p∈(t-m+1,t),注意力被传播为,这是一种有效的策略,即对参考数据进行下采样,如图2中的“下采样”模块所示。3.第三章。例如,当分割帧T时,我们应用空间v′=φ.Softmax(⊤p−1√dkΣ′p−1+vp(4)步长为n到前一个m-1的池化运算γn(·)其中v′=γn(Vt−m+1),q、k和v是已知的-帧的查询、关键字和值映射,如等式2中的采样映射。3,dk是维数qi=γn (Qi),ki=γn (Ki),vi=γn (五)(3)对于Query和Key,Φp是11卷积层。然后,帧t处的最终特征表示被计算为,利用这些下采样的映射,Eq.2.Qk(m−1)dH2W2)V′=φt−1′Softmax(V)V+VD(五)时间复杂度为O(k)我们进行实验,t−1tK并发现n=4可以很好地保留必要的空间信息,同时大大降低了计算成本(see第5.3节)。注意力传播。接下来,我们提出一种传播并且分割图通过以下步骤生成:S m=π m(V′),其中π m是与子网络m相关联的最终预测层。在此框架下,时间复杂度被重新定义。方法,而不是计算之间的注意力(2)O((m−2)·dkH2W2)氮4+dkH2W2)n2)O(dkH2W2)n2)。当前帧和所有以前的帧,我们限制compu-站到相邻帧,并通过窗口传播它。这使得我们不仅可以减少我们必须计算的注意力地图的数量,而且还可以将注意力计算限制在运动较小的后续帧上。 给定由帧注意力传播模块输出T注意力传播注意力传播注意力传播下采样下采样下采样编码编码编码编码TD1TD2TD3TD4帧T-3帧T-2帧T-1帧不编码阶段分割阶段)vn28822由于注意力是从相邻帧中提取的,只是所得到的特征对于场景运动也更鲁棒我们注意到,最近的工作[60]也采用池化操作来实现有效的注意力模型,但这是在图像语义分割的背景下,而我们的模型扩展了这种策略来处理视频数据。8823··5. 实验我们在Cityscapes [5]和Camvid [1]上评估我们的方法用于街景,以及NYUDv2 [33]用于室内场景。在所有这些数据集上,我们的方法以更快的速度和更低且均匀分布的延迟实现了最先进的准确性。a) 教师b)学生图4.知识的升华。在“总体KD”中PSPNet101)和学生模型(例如,TD Net)。在“分组KD”中4. 分组知识蒸馏在训练过程中,我们通过引入知识蒸馏[15]策略,使用为单个图像设计的除了在全特征空间中传递知识之外[13,15,29],我们提出了一种分组知识蒸馏损失,以进一步在子空间水平上传递知识,以便使从不同路径提取的信息更加互补。分组蒸馏损失的概念如图所示。4.第一章我们以PSPNet101这样的深度基线模型作为老师,以我们的TDNet和m个子网络作为学生网络。我们的目标是不仅在整个模型级别对齐输出分布,而且在子特征组级别对齐输出分布。基于块矩阵乘法[9],我们将教师模型的特征约简层均匀地分成子要素组的集合{fi|i=1,..., m}。因此,原始分割结果为πT(f),第i个特征组的贡献为πT(fi),假设πT()为教师模型的分割层。在TDNet中,目标帧5.1. 方案制定和实施数据集评估Cityscapes[5]包含2,975/500/1,525个用于训练/验证/测试的片段。每个片段的第20帧用19个类进行注释以进行语义分割。Camvid[1]由4个视频组成,具 有 1Hz 的 11 类 像 素 注 释 。 注 释 帧 被 分 组 为467/100/233,用于训练/验证/测试。NYUDv2[33]包含518个室内视频,其中795个训练帧和654个测试帧被校正并使用40类语义标签进行注释。基于这些标记的帧,我们从原始的Kinetic视频中创建了校正的视频片段,我们将发布这些视频片段进行测试。根据以前的作 品 [10 , 14 , 19 , 27] 中 的 实 践 , 我 们 评 估 了Cityscapes上的平均Intersection-over- Union(mIoU),以及Camvid和NYUDv 2上的平均精度和模型基线。 我们证明了TDNet在不同骨干上的有效性。我们选择了两种最先进的图像分割模型用于我们的实验:[52]《易经》:“君子之道,焉可诬也?有始有卒者,其惟圣人乎!后者是[52]的修改/改进版本,其中空间路径被ResBlock-2的输出所取代,我们发现它具有更高的效率和更好的训练收敛性。我们使用时间分布框架扩展这些图像模型以提高性能,从而产生模型:TD2-PSP 50、TD4-PSP 18:前者由两个PSPNet-50骨干网组成,输出通道减半作为子网,而TD4-PSP18由四个PSPNet-18子网组成。时间分布模型的模型容量与它们所基于的图像分割网络(PSPNet-101)相当。可见信息为V′,因此完整模型输出为2 4 2TD -Bise34,TD -Bise18.类似地,我们构建TD-Bise 34πS(Vm),第m条特征路径给定πS()是最终的分割层。基于这些,我们的最终损失函数是,′ ′Σ损失= CE(π S(Vi,gt))+ α·KL(π S(Vi)||π T(f))+β·KL(π S(Vi)||π T(f i))(6)其中CE是交叉熵损失,KL表示KL-散度。第一项是使用地面实况的监督训练。第二个术语在整个模型水平上提取知识。第三个术语在特征组级别传递知识。在我们的论文中,我们将α和β其中两个BiseNetTM-34作为子网络,以及TD4-Bise 18和四个BiseNetTM-18作为子网络,用于实时应用。与PSPNet的情况一样,时间分布网络的模型容量与BiseNet*-101相当。速度测量比较。所有测试实验都是在Pytorch框架中的单个Titan Xp上以1个批量进行的。我们发现,不同的深度学习方法是用不同的深度学习框架实现的,并在不同类型的设备上进行了评估,因此为了进行一致的比较,我们报告了知识蒸馏KD分组APM8824最大值−方法mIoU(%)valtest速度(ms/f)DVSNet [51]63.2-33ICNet [55]67.7 69.520LadderNet [21]72.8-33SwiftNet [36]75.4-23[52]第 52话73.8 73.520[52]第五十二话76.0-27[52]第五十二话76.5-72TD4-Bise1875.0 74.921TD2-Bise3476.4-26表1.在Cityscapes数据集上进行评估。The “Speed” and “MaxLatency” represent the average and maximum per-frame timecost这些先前的方法基于基于基准的转换1和我们的重新实现。培训测试详情。我们的模型和基线都是用Imagenet [6]预训练参数初始化的为了训练具有m个子网络的TDNet,每个训练样本由m个连续帧组成,并且监督是来自最后一个的地面真实。我们执行随机裁剪,随机缩放和翻转的数据扩增。网络通过随机梯度下降进行训练,动量为0.9,权重衰减为5e-4,用于80 k次迭代。 学习率初始化为0.01,并衰减(1ITER)0。9 .第九条。 在测试过程中,我们将输出调整为输入在具有时间稀疏注释的Cityscapes和NYUDv2等数据集上,我们计算子网络所有可能顺序的准确度,并将其平均为最终结果。我们发现,不同顺序的子网络实现了非常相似的mIoU值,这表明TDNet在子特征路径方面是稳定的(参见补充材料)。5.2. 结果城市景观数据集。我们将我们的方法与表1中的语义视频分割的最新模型进行比较。与LVS [27]相比,TD4-PSP 18实现了类似的性能,平均时间成本只有一半,TD2-PSP 50在mIoU方面进一步提高了3%的准确性。与基于关键帧的方法(如LVS [27],ClockNet [39],DFF[58])不同,这些方法在关键帧和非关键帧之间具有波 动 延 迟 ( 例 如 , 575 毫 秒 与 对 于 DFF [58] 为 156ms),我们的方法随着时间的推移以平衡的计算负载运行。TD2-PSP 50的参数总数与PSPNet 101 [56]相似,每帧时间成本从360 ms减少一半,1http://goo.gl/N6ukTz/,http://goo.gl/BaopYQ/表2.在Cityscapes数据集上评估高效方法。178毫秒,同时提高精度。TD2-PSP 50中的子网是从PSPNet 50改编而来的,因此我们也比较了它们的性能,可以看出TD2-PSP 50的性能比PSPNet 50高1倍。8%的mIoU,平均延迟更快。如最后一行所示,TD4-PSP 18可以将延迟进一步减少到四分之一,但由于浅子网(基于PSPNet 18模型),与PSPNet 101相比性能下降。然而,它仍然达到了最先进的准确性,并且在延迟方面比以前的一些定性结果如图所示。5(a)为了验证我们的方法正如我们所看到的,TD2-Bise34比所有以前的实时方法(如ICNet [55],LadderNet[21]和SwiftNet [36])都有很大的差距,比喻,实时速度。TD2-Bise 34的总模型大小与BiseNet101相似,可实现更好的性能,同时速度约为BiseNet 101的三倍。TD4-Bise 18降低了精度,但进一步提高了速度,接近50 FPS。TD2-Bise 34和TD4-Bise 18都以类似的时间成本改进了它们的单路径基线,这验证了我们的TDNet对实时任务的有效性。Camvid数据集。我们还在表3中报告了Camvid数据集的评价。我们可以看到,TD2-PSP 50的性能比之前最先进的方法Netwarp [10]高出约9% mIoU,同时大约快四倍。与具有类似模型容量的PSPNet 101基线相比,TD2-PSP 50在具有可比精度的情况下减少了约一半的计算成本四路版本- sion进一步减少了一半的延迟,但也降低了准确性。这再次表明,适当的深度对于特征路径是必要的,尽管如此,TD4-PSP 18在mIoU和速度方面仍然NYUDv2数据集。 为了表明我们的方法不限于街景场景,我们还重新组织了室内NYUDepth-v2数据集,使其适合于语义。方法mIoU(%)valtest速度(ms/f)最大时延(毫秒)时钟[39]64.4-158198DFF [58]69.2-156575[34]第34话73.6 72.9255255[27]第二十七话75.9-119119珍珠[19]76.5 75.2800800LVS [27]76.8-171380PSPNet18 [56]75.5-9191PSPNet50 [56]78.1-238238PSPNet101 [56]79.7 79.2360360TD4-PSP 1876.8-8585TD2-PSP 5079.979.41781788825×模型n=12481632TD2-PSP 50mIoU(%)80.080.079.979.879.679.1延迟(ms)251205178175170169TD4-PSP 18mIoU(%)76.976.876.876.576.175.7延迟(ms)26810385817575TD4-Bise18mIoU(%)75.075.075.074.874.774.4延迟(ms)1403121191818表6.不同下采样步长n对城市景观的影响表3.Camvid数据集上的评估方法mIoU(%)平均加速(%)速度(ms/f)STD2P [14]40.153.8>100FCN [30]34.046.156DeepLab [3]39.449.678PSPNet18 [56]35.946.919PSPNet50 [56]41.852.847PSPNet101 [56]43.255.072TD4-PSP 1837.448.119TD2-PSP 5043.555.235表4.在NYUDepth数据集上进行评估总体KD分组-KD城市 猿NYUDv276.436.2C76.5 (+0.1)36.7(+0.5)CC76.8 (+0.4)37.4(+1.2)表5.在我们所知的蒸馏损失中,不同组分的mIoU(%)6)对于TD4-PSP 18。tic视频分割任务。由于大多数以前的视频语义分割方法都没有在这个数据集上进行评估,我们只找到一个相关的工作进行比较; STD2P [14].如表4所示,TD2-PSP 50在精度和速度方面均优于STD 2 P。TD4-PSP 18的精度较差,但速度快5倍以上。TD2-PSP 50再次成功地将延迟减半,但保持了基线PSPNet 101的准确性,并且与PSPNet 18相比,在不增加延迟的情况下,mIoU也实现了约1.6%的5.3. 方法分析知识的升华。基于知识分解的训练损失(公式10)6)一致地帮助改进三个数据集上的性能为了研究不同组件对损耗的影响,我们使用不同设置训练TD4-PSP18,结果如表5所示。整体知识蒸馏[15]通过提供关于类内相似性和类间多样性的额外信息来工作。因此,由 于 高 度 结 构 化 的 内 容 和 相 对 较 少 的 类 别 , 在Cityscapes上改进完全训练的基础模型不太有效然而,当与我们的分组知识共享相结合时,就mIoU而言,性能仍然可以提高近0.5%这表明了有效性表7.使用共享子网或独立子网的Cityscapes比较。最后一列显示了与TDNet的子网络相对应的基线模型我们的分组知识蒸馏提供额外的规则化。在包含更多不同场景和更多类别的NYUD-v2数据集上,我们的方法实现了显着的改进,mIoU绝对提高了1.2%注意力传播模块。在这里,我们将我们的注意力传播模块(APM)与其他聚合方法进行比较,例如:没有运动补偿,例如,只是添加特征组(Add),基于光流的扭曲(OFW)和香草时空注意力(STA)机制[35,49]。如图6(a),不考虑空间未对准(Add)导致最差的准确度。我们的APM优于OFW和STA在准确性和延迟。在图6(b)中,我们通过改变输入帧采样中的时间步长来评估我们的方法如图所示,APM显示出最好的鲁棒性,即使在基于流的方法失败的6帧采样间隙下,我们的APM与其他方法相比也略有下降。注意下采样。在用于提高计算注意力效率的下采样操作中,我们应用了步长为n的空间最大池化。我们在表6中显示了n的影响。通过将n从1增加到4,计算量急剧减少,而精度相当稳定。这表明下采样策略在以稀疏方式提取空间信息方面是有效的然而,当进一步将n增加到32时,由于信息太稀疏,精度共享子网与 独立的子网。在处理视频时,TDNet的有效性可能来自两个方面:分布式子网络的扩展表示能力和相邻帧提供的时间上下文信息。在表7中,我们通过使用用于每条路径的单个子网或一组独立子网来分析每条路径的贡献。正如我们所看到的,聚合功能方法mIoU(%)平均加速(%)速度(ms/f)LVS [27]-82.984珍珠[19]-83.2300[34]第34话66.1-230[第18话]66.7-132Netwarp [10]67.1-363PSPNet18 [56]71.078.740PSPNet50 [56]74.781.5100PSPNet101 [56]76.283.6175TD4-PSP 1872.680.240TD2-PSP 5076.083.490框架单路径基线共享独立TD2-PSP 5078.278.579.9TD4-PSP 1875.575.776.88826∼目标帧地面实况TD2-PSP50TD4-PSP18帧t帧t-1帧t-2T-3帧(a) (b)注意力可视化图5.我们的方法在Cityscapes和NYUD-v2上的定性结果(a),以及我们的注意力传播网络中注意力地图的可视化(b)。给定帧t中的一个像素(表示为绿色十字),我们用亲和矩阵反向传播相关性得分,然后将归一化的软权重可视化为窗口中其他帧的热图。其中P4表示目标帧处的子网络(a) mlou v.s.速度47776750123456时间间隙(b) 对时间变化的鲁棒性P1和P3是应用于先前帧的子网络。正如我们所看到的,通过从第一帧中删除特征路径,两个数据集的准确性一致下降,这证明了特征分布的有效性。为了显示这些路径是如何聚合的,在图5(b)中,我们可视化了TD4-PSP 18中的注意力传播模块的注意力地图。如图所示,给定目标帧t中的像素(表示为绿色十字),则先前帧t中的对应语义类别的像素图6.TD-PSP 18采用不同的时间聚合方法,城市景观数据集上的ods。“APM”表示我们的注意力传播模块。“STA” represents spatio-temporal attention [ “OFW” is theoptical-flow [ “Add” means simply adding featureP1P2P3P4城市景观NYUDepth-V2CCCC76.838.2CCC76.538.0CC76.037.2C74.334.4表8.TD4-PSP 18的消融研究显示性能如何随着累积的子功能逐渐减少而下降。通过共享的单个子网络进行并行计算可以提高图像分割基线的性能,而独立的子网络可以在不增加计算成本的情况下进一步提高mIoU 1%。这表明TDNet不仅受益于时间上下文信息,而且还通过时间分布的不同子网络有效地扩大了表示容量子网络的影响。 如最后一部分所示,TD-Net受益于强制不同的子网络提取互补的特征组。在这里,我们提供详细的消融研究的贡献,这些子网络。表8显示了TD4-PSP 18的分析,帧t-1匹配。然而,在先前帧t-2和t-3中,收集背景像素应该注意的是,在注意力传播模块中,存在层Φ(在等式2中)。4和方程式5)处理聚集的特征。因此,帧t-2和t-3提供上下文信息,并且帧t-1和t提供局部对象信息,它们被组合在一起以形成用于分割的强且鲁棒的特征。6. 结论我们提出了一种新的时间分布网络的快速语义视频分割。通过计算不同帧之间的特征映射并将其与新颖的注意力传播模块合并,我们的方法在保持高准确性的同时显著改善了处理视频帧的延迟。我们表明,使用分组的知识蒸馏损失,进一步提高性能。TDNet在准确性和效率方面始终优于以前的方法。鸣谢。我们感谢Kate Saenko的有益讨论和建议。这项工作得到了DARPA和NSF的部分支持,以及AdobeResearch的捐赠资金。APM STA OFWmIoU(%)方法mIoU(%)速度(ms/f)APM76.885STA76.595OFW76.197添加64.8738827引用[1] Gabriel J Brostow,Jamie Shotton,Julien Fauqueur,andRoberto Cipolla.利用运动点云的结构进行分割和识别。ECCV,2008年。5[2] Joao Carreira , Viorica Patraucean , Laurent Mazare ,AndrewZisserman和Simon Osindero。大规模并行视频网络。在ECCV,2018。2[3] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy和Alan L Yuille。Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE T-PAMI,2017年。7[4] 陈良杰,朱宇坤,乔治·帕潘德里欧,弗洛里安Schroff和Hartwig Adam。用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。一、二[5] Marius Cordts , Mohamed Omran , Sebastian Ramos ,TimoRehfeld ,Markus Enzweiler,Rodrigo Benenson,UweFranke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。5[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。CVPR,2009。6[7] 丁恒辉,蒋旭东,帅兵,刘艾群,和王刚。基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR,2018年。 2[8] Alexey 多索维茨基 Philipp 菲舍尔, 涡 Ilg,PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流在ICCV,2015年。8[9] 霍华德·惠特利·伊夫 基本矩阵理论 1980. 3、5[10] Raghudeep Gadde,Varun Jampani,and Peter V Gehler.通过表示变形的语义视频cnn在CVPR,2017年。一、二、三、五、六、七[11] 何军军,邓仲英,乔宇。 动态多用于语义分割的缩放过滤器。在ICCV,2019年。2[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。2[13] 同和、沈春华、田智、董功、昌明孙和严友良。知识适应有效的语义分割。在CVPR,2019年。5[14] 杨和,魏晨邱,玛格丽特Keuper和马里奥弗里茨。Std2p:使用时空数据驱动池的RGBD语义分割。在CVPR,2017年。二、五、七[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 蒸馏-在神经网络中学习知识。arXiv预印本arXiv:1503.02531,2015。五、七[16] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKil-伊恩·Q·温伯格密集连接的卷积网络。在CVPR,2017年。2[17] Yani Ioannou,Duncan Robertson,Roberto Cipolla和An-托尼奥·克里米尼西。深根:用分层过滤器组提高cnn效率。在CVPR,2017年。一、二[18]Samvit Jain,Xin Wang,and Joseph E Gonzalez. 加速度:A用于有效语义段的校正融合网络8828在视频上。在CVPR,2019年。一、二、三、七[19] Xiaojie Jin,Xin Li,Huaxin Xiao,Xiaohui Shen,ZheLin,Jimei Yang,Yunpeng Chen,Jian Dong,LuoqiLiu,Zequn Jie,et al.具有预测特征学习的视频场景解析。InICCV,2017. 一、二、五、六、七[20] 海杰田勇李永军鲍志伟方和韩-清庐君赋,景柳。用于场景分割的双注意网络。2019.1[21] Ivan Kreso,Sinisa Segvic和Josip Krapac。 阶梯式用于大型自然图像的语义分割的密集网在ICCV研讨会,2017年。1、6[22] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS,2012年。一、二[23] Abhijit Kundu、Vibhav Vineet和Vladlen Koltun。 Fea-用于语义视频分割的真空间优化。在CVPR,2016年。 一、二[24] Hanchao Li,Pengfei Xiong,Haojiang Fan,and JianSun. Dfanet : Deep feature aggregation for real-timesemantic segment.在CVPR,2019年。2[25] 李霞,钟智生,吴建龙,杨一波,周晨林和刘红。期望最大化注意力网络用于语义分割。ICCV,2019。1[26] Yanwei Li,Xinze Chen,Zheng Zhu,Lingxi Xie,Guan黄,杜
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功