没有合适的资源?快使用搜索试试~ 我知道了~
基于由粗到细特征挖掘的视频语义分割
3126基于由粗到细特征挖掘的视频语义分割孙国磊1刘云1* 丁恒辉1托马斯·普罗布斯特1吕克·范古尔1,21苏黎世联邦理工学院计算机视觉实验室,2鲁汶大学VISICS摘要语境信息在语义切分中起着核心作用。对于视频语义分割,上下文包括静态上下文和运动上下文,分别对应于视频剪辑中的静态内容和运动内容。通过学习多尺度和全局/长范围特征,静态上下文在图像语义分割中得到了很好的利用。在以往的视频语义分割中,都是对运动上下文进行研究.然而,如何同时学习静态语境和动态语境这两种高度相关和互补的语境,目前还没有相关的研究。为了解决这个问题,我们提出了一个粗到精的特征挖掘(CFFM)技术来学习静态上下文和运动上下文的统一表示。该技术由两部分组成:从粗到精的特征组装和跨框架特征挖掘。前一个操作为进一步处理准备数据,使随后的静态和运动上下文的联合学习成为可能。后一操作从连续帧中挖掘有用的信息/上下文以增强目标帧的特征的视频上下文。增强的特征可以直接应用于最终的预测。在流行的 基 准 测 试 上 的 实 验 结 果 我 们 的 实 施 可 在https://github.com/GuoleiSun/VSS-CFFM上获得。1. 介绍语义分割的目的是为自然图像中的每一个像素分配一个语义标签,它是计算机视觉领域的一个基础和热点问题。它在学术和工业领域都有广泛的应用。由于深度神经网络的强大表示能力[28,39,71,73]和大规模的IM,年龄数据集[3,14,20,59,102],图像语义分割取得怎么-*通讯作者:yun. vision.ee.ethz.ch图1.相邻视频帧之间的静态上下文(蓝色)和动态上下文(红色)的图示人和马是移动的物体,而草原和天空是静态的背景。注意,静态的东西有助于识别移动的物体,即,一个人骑着马在草原上。以往,由于缺乏大规模数据集,视频语义分割尚未见证 如 此 巨 大 的 进 展 [23 , 35 , 53 , 60] 。 例 如 ,Cityscapes [14]和NYUDv2 [70]数据集仅注释视频剪辑中的一个或多个CamVid [2]仅具有小规模和低帧速率。现实世界是动态的而不是静态的,因此视频语义分割的研究是非常必要的。幸运的是,最近建立的大规模视频分割数据集VSPW [58]解决了视频数据稀缺的问题这激励我们向VSS表示我们的努力。如广泛接受的,上下文信息在图像语义分割中起着核心作用[533、36、37、45、50、88、90、93、96、98、99、103、107]。当考虑到视频,上下文信息是双重的:静态语境和动态语境,如图所示。1.一、前者是指同一视频帧内的上下文或跨不同帧的未改变内容的上下文。图像语义分割已经大量利用了这样的上下文(对于图像),主要考虑多尺度[6,7,9,88]和全局/长距离信息[33,96,98,107]。这些信息不仅对于理解静态场景而且对于感知视频的整体环境都是必不可少的。后者,也称为时间信息,负责更好地解析移动对象/东西,并在运动的帮助下捕获更有效的场景表示情感语境3127学习在视频语义分割中已经被广泛研究[4,23,32,34,35,42,47,53,54,60,69,85,105],通常依赖于光流[19]来对运动上下文进行建模,而忽略静态上下文。虽然每一个方面,即,静态和动态上下文的学习方法已经得到了很好的研究,如何同时学习静态和动态上下文值得更多的关注,这对于VSS来说是非常重要的。此外,静态上下文和运动上下文是高度相关的,而不是孤立的,因为这两个上下文彼此互补以表示视频剪辑。因此,VSS的理想解决方案是联合学习静态和运动上下文,即,产生静态和运动上下文的统一表示。一个天真的解决方案是应用最近流行的自我注意[18,76,80],通过将相邻帧中所有像素的特征向量作为特征向量。这可以直接对所有to-kens的全局关系进行建模,当然包括静态和动态上下文。然而,这种简单的解决方案有一些明显的缺点。例如,由于视频剪辑中的大量标记/像素,它的效率非常低,使得这种天真的解决方案不切实际。它还包含过多的冗余计算,因为视频剪辑中的大多数内容通常不会改变太多,并且没有必要计算重复内容的注意力。此外,令牌的长度太长会影响自我注意的性能,如[12,21,29,56,84]所示,其中通过下采样减少令牌长度会导致更好的关于为什么传统的自我注意力不适合视频上下文学习的更多讨论可以在§3.1中找到。在本文中,我们提出了一种新的粗到细特征挖掘(CFFM)技术,它由两部分组成:从粗到精的特征组装和跨框架特征挖掘。具体来说,我们首先应用一个轻量级的深度网络[83]来从每个帧中提取特征然后,我们以从粗到细的方式从相邻帧中提取特征在这里,如果帧距离目标更远,则我们使用更大的感受野和更粗略的池化该特征组装操作具有两种含义。一方面,它以多尺度的方式组织特征,并且最远的帧将具有最大的感受野和最粗糙的池化。由于几个连续帧中的内容通常不会突然改变,并且大多数内容可能仅具有一点时间不一致性,因此期望该操作为学习静态上下文准备数据。另一方面,该特征组装操作使得能够实现远程帧的大感知区域,因为移动对象可能出现在远程帧的大区域中。这使得它适合于学习运动上下文。最后,利用组合特征,采用跨帧特征挖掘技术,迭代地从相邻帧中挖掘出目标帧的有用信息。这种挖掘技术是一种特别设计的非自我注意机制,具有两种不同的输入,不像通常使用的自我注意力只有一个输入[18,76]。CFFM增强的输出特征可以直接用于最终的预测。我们在§3.1中详细描述了CFFM的技术动机。这种新的视频上下文学习机制的优点是四方面的。(1)提出的CFFM技术可以学习静态上下文和运动上下文的统一表示,这两者对于VSS至关重要(2)CFFM技术可以添加到帧特征提取主干之上,以低复杂度和有限的计算代价生成强大的视频上下文特征。(3)在没有额外功能的情况下,我们通过使用CFFM模块在标准基准测试上实现了VSS的最新结果。(4)CFFM技术具有被扩展以改进需要强大视频上下文的其他视频2. 相关工作2.1. 图像语义分割图像语义分割一直是视觉领域的一个重要课题,主要是因为它在现实场景中有着广泛的应用。由于FCN[68]的开创性工作采用全卷积网络进行密集的像素预测,因此已经提出了许多具有不同动机或技术的分割方法[10,30,31,52,61,63,78,81,94,97,104]。例如,一些工作试图设计有效的编码器-解码器网络架构,以利用来自不同网络层的多级特征[1,9,25,51,62,66,68,75]。一些工程施加额外的边界监督,以提高细节的预测精度[44,74,77,89,99]。一些作品利用注意机制来增强语义表征[8,22,33,46,67,95,101,107]。除了这些天才作品之外,我们想强调的是,大多数研究旨在学习强大的上下文信息[5,17,27,36,37,45,50,90,93,96,99,103],包括多方面的信息。规模[6,7,9,26,27,45,88]和全球/长期信息-[33,96,98,107]。上下文信息对于VSS也是必不可少的,但是如上所述,视频上下文不同于图像上下文。2.2. 视频语义分割由于现实世界是动态的,而不是静态的,因此VSS对于将语义分割推向更实际的部署是必要的。以前对VSS的研究受到可用数据集的限制[58]。具体而言,有三个数据集可用:[2019 - 02 - 14][2019 - 02 - 01][2019 -02][2019 - 01]它们要么只注释视频剪辑中的几个不相邻的帧,要么具有小规模、低帧速率和低分辨率。事实上,这些数据集通常用于图像分割。幸运的是,最近建立的VSPW数据集[58]是大规模的,3128O完全注释解决了这个问题。大多数现有的VSS方法利用光流来捕获时间关系[23,34,40,42,53,54,57、60、69、85、105]。这些方法通常采用不同的智能策略来平衡准确性和效率之间的权衡[40,57]。其中,一些工作旨在通过利用用于特征扭曲的光流[23,53,60]或用于预测特征学习的GAN类架构[24]来利用时间关系来提高分割精度[35]。其他工作旨在通过使用用于特征传播和重用的时间约束[34,47,69,105],或直接重用高级特征[4,69],或自适应地选择关键帧[85],或将分割结果传播到相邻帧[42],或从具有不同子网络的不同帧中提取特征[3]来提高分割效率2],或将时间一致性视为额外的训练约束[54]。Zhu等[106]利用视频预测模型来预测未来的帧以及未来的分割标签,其被用作用于训练更好的图像语义分割模型的增强数据与上述方法不同,STT [43]和LMANet [65]直接对目标和参考特征之间的交互进行建模,以利用时间信息。上述VSS方法探索时间关系,这里表示为运动上下文。然而,视频上下文包括两个高度相关的方面:静态和动态语境。这些方法忽略了对分割复杂场景很重要的静态上下文本文提出了一种新的视频上下文学习机制,能够联合学习静态和运动上下文的统一表示来解决这个问题。2.3. Transformer视觉Transformer是CNN的强大竞争对手,已被广泛用于各种视觉任务[18,49,55,56,72,87,91,92,100],由于其强大的建模能力,ING全球连接内的所有输入令牌。具体来说,ViT [18]使用典型的Transformer层将图像分割成补丁,构建令牌并处理令牌。Swin [56]通过在计算自我注意力和分层架构时引入转移的胜利来改进ViT。Focal [87]介绍了架构设计中的细粒度和粗粒度注意力。转换器的有效性已在分割[83,100]、跟踪[11,86]、人群计数[48,72]、多标签分类[41]等方面得到验证。尽管在这些任务中使用了Transformer,但由于视频帧中存在大量的to- kens,因此在VSS中使用Transformer层并非微不足道。在这里,我们提出了一个有效的和高效的方式来建模的上下文信息的VSS。3. 方法3.1. 技术启示在介绍我们的方法之前,我们讨论了我们的技术动机,以帮助读者更好地理解所提出的技术。如上所述,视频上下文包括静态上下文和运动上下文。 前在图像语义分割中得到很好的利用[5而后者在视频语义分割中进行了研究[4,23,34,40,42,47,53,54,57,60,69,85,105]。然而,在这方面,目前还没有研究涉及静态和静态的联合学习,和运动的背景,这两者都是必不可少的VSS。为了解决这个问题,一个简单的解决方案是简单地将最近流行的自我注意机制[18,76,80]应用于视频序列,将每帧的每个像素处的特征向量视为令牌。通过这种方式,我们可以通过将每个像素与所有其他像素连接来建模全局关系然而,这种幼稚的解决方案有三个明显的缺点。首先,视频序列具有比单个图像多l倍的k,其中l是视频序列的长度。这将导致比单个图像多12倍的计算成本,因为自注意机制的复杂性是(N2C),其中N是令牌的数量,C是特征维度[18,56,76]。这样的高复杂度是无法承受的,特别是对于视频数据流按顺序到来时需要实时处理的VSS。其次,这种直接的全球建模将是多余的。尽管在视频剪辑中存在一些运动,但是整体语义/环境不会突然改变,并且大多数视频内容是重复的。因此,通过直接全局建模建立的大多数连接是不必要的,即,自我与自我的连接。最后但并非最不重要的是,尽管自我注意力可以在技术上对全局关系进行建模,但太长的序列长度将限制其性能,如[12,21,29,56,79,84]所示,其中将特征下采样到小尺度会导致比原始长序列长度更好的而不是直接建模的全球关系,我们建议模型之间的关系,只有必要的知识的静态和动态上下文的联合学习。我们的CFFM技术包括两个步骤。第一步,粗到细的特征组装(CFFA),组装从相邻帧提取的特征在时间上粗到细的方式的基础上三个观察。首先,移动的对象/素材在实践中只能逐渐地跨帧移动,并且对象/素材不能突然地从一个位置移动到另一个远位置。因此,对于更远的帧,帧中的移动对象/物体的可能位置的换句话说,对于帧中的一个像素,帧越远,相关区域越大。第二,虽然有些3129×联系我们联系我们联系我们联系我们SS图2.概述拟议的粗到细特征挖掘。所有帧首先输入到编码器以提取特征,然后通过粗到精特征组装模块(CFFA)。通过不同的池化策略处理不同帧的特征以生成上下文令牌。原理是对于更远的帧,使用更大的感受野和更粗的池化。所示的特征尺寸(20 20)、感受野和池化核用于简单解释。所有帧的上下文标记被连接,然后由跨帧特征挖掘(CFM)模块处理。利用上下文令牌来更新目标特征,由多个多头非自注意层。最后,我们利用增强的目标特征对目标帧进行分割最好用缩放查看。虽然视频内容可能跨帧改变,但是整体语义和环境将不会改变很多,这意味着大多数视频内容可能仅具有少量时间不一致性。第三,相邻帧之间的“静态”内容的小的时间不一致性受第二次和第三次观察的启发,通过相邻帧中的池化操作进行的变大小区域采样可以传达多尺度上下文信息。因此,所设计的CFFA可以感知多尺度的上下文信息(静态上下文)和动态上下文。具体地,目标帧中的每个像素对应于更远帧中的更大的感受野和更粗的池化,如图1B所示。二、请注意,采样标记的长度比默认的自我注意中的长度短得多。CFFM的第二步,跨帧特征挖掘(CFM),旨在从相邻帧的特征中挖掘有用的信息。这是一个基于注意力的过程。然而,与传统的自我注意力[18,76,80]不同,其查询,键和值来自相同的输入,我们建议使用非自我注意力机制,其中查询来自目标帧,键和值来自相邻帧。此外,在非自注意的迭代过程中,我们只更新查询,这是直观的,因为我们的目标是从相邻帧中挖掘信息,因此不需要更新上下文令牌与需要连接和处理所有组装特征的自我注意相比,这种非自我注意具有以下特点:从而降低了计算成本。3.2. 由粗到精的特征装配在不失去普遍性的情况下,我们开始讨论对培训数据含有视频帧{It−k1,· · ·,It−kl,It}, 其具有St−k1,St−kl,St的地面真值分割,并且我们专注于分割It。具体地,It是目标帧,并且{It-k1,· · ·,It-kl}是l个先前帧,{k1,...,k 1}帧。 让我们将U ={t-k 1,···,t-k l,t}表示为所有帧下标的集合。我们首先使用编码器处理It−k1,,It−kl,It以提取信息特征F=Ft−k1,,Ft−kl,Ft,每个的大小为Rh×w×c(h,w和c分别表示高度,宽度和通道数)。我们的目标是利用F生成更好的特征,用于分割It,因为在先前的帧中存在相关的和有价值的视频上下文为了有效地建立参考框架特征(Ft-k1,,Ft-kl)和目标框架特征Ft之间的远程交互,我们提出了由粗到精的特征组装模块,如图所示。二、受先前工作的启发[56,79,87],我们将目标帧特征Ft拆分为窗口,每个窗口关注一组共享的上下文令牌。这背后的原因是,参加- ing在Ft中的每个位置到一组特定的上下文令牌需要巨大的计算和内存成本。当使用窗口大小为s×s,Ft被划分为h×w个窗口。3130不不不·不不联系我们HW不JO联系我们J不俄.西S不不不t−k1t−kl不Σh w hWhwrjrj不联系我们我们获得新的特征图F'如下:Ft∈Rh×w×c→Ft′∈R(s×s)×(s×s)×c→Ft′∈Rs×s × s ×s×c。与从相同输入计算查询、键和值的机制不同,我们的非自我注意机制利用不同的输入来计算查询、键和值。由于F'是我们的跨帧特征然后,我们从不同的帧生成上下文令牌t0'其主要思想是看到更大的感受野,如果帧距离目标更远,则使用更粗的池化,这就是为什么我们将此步骤称为粗到细特征组装。这背后的动机描述在§3.1. 形 式 上 , 我 们 定 义 两 组 参 数 : 接 收 域r={rt−k1 , ··· , rt−kl , rt} 和 池 化 核 / 风 的 大 小p={pt−k1,···,pt−kl,pt},当基因r-挖掘模块,我们将其重写为Ft=Ft。对于F 0中的第i个窗口分区,查询Q i、键K i和值V i使用如下三个全连接层计算:Qi=FC(F0[i]),Ki=FC(ci),Vi=FC(ci),(4)其中FC()表示FC层。接下来,我们使用非自我注意来更新目标帧特征,由下式给出:生成相应的上下文令牌。对于t-k1t-k2<<···
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功