没有合适的资源?快使用搜索试试~ 我知道了~
半监督视频显著目标检测及其在VOS、DAVIS和FBMS数据集上的性能评估
7284基于伪标记的半监督视频显著目标检测闫鹏翔1李冠斌1谢元1,2李振3王传4陈天水1、2 梁琳1、21中山大学2DarkMatter AI研究4旷视科技3香港中文大学(深圳)深圳大数据研究院yanpx@mail2.sysu.edu.cn,www.example.com,liguanbin@mail.sysu.edu.cn,xiey39@mail2.sysu.edu.cn,lizhen36@connect.hku.hkwangchuan@megvii.com,linliang@ieee.org,tianshuichen@gmail.com摘要基于深度学习的视频显著对象检测最近取得了巨大成功,其性能显著优于任何其他无监督方法。然而,现有的数据驱动方法严重依赖于GT掩码伪掩码GT掩码伪掩码大量逐像素注释的视频帧来实现这种有希望的结果。在本文中,我们解决了半监督视频显著对象检测任务使用伪标签。具体来说,我们提出了一个有效的视频显著性检测器,由一个空间细化网络和时空模块。基于相同的细化网络和运动信息的光流,我们进一步提出了一种新的方法来产生像素级的伪标签从稀疏注释帧。通过利用生成的伪标签以及一部分手动注释,我们的视频显著性检测器学习空间和时间线索,用于对比度推断和相干增强,从而产生准确的显著性图。实验结果表明,我们提出的半监督方法在VOS,DAVIS和FBMS三个公共基准测试中的性能甚至大大优于所有最先进的全监督方法1. 介绍显著对象检测旨在识别图像或视频中吸引人类注意力的视觉上最独特的对象。与其他类型的显著性检测相比,即,眼睛注视预测[20,41]被设计为定位人类注意力的焦点,显著对象检测集中于用精确轮廓分割最显著的对象。该主题引起了广泛的兴趣,因为它可以应用于广泛的视觉应用,例如对象分割[46],视觉跟踪[47],视频压缩[14]和视频摘要[32]。通讯作者是李冠斌。(a)(b)第(1)款图1.示例地面实况遮罩(橙色遮罩)与我们从VOS [27]数据集生成的伪标签(蓝色掩模)。最近,由于深度卷积神经网络(CNN)的发展,视频显著对象检测已经取得了然而,这些基于深度学习的方法的性能是以大量密集注释的帧为代价的。手动注释大量像素级视频帧是费力且耗时的,因为即使是有经验的注释者也需要几分钟来标记单个帧。此外,视频剪辑通常包含具有类似内容的数百个视频帧。为了减少标签噪声对模型训练的影响,注释者需要花费大量时间检查前后标签的一致性。考虑到视觉显著性的主观性,标注工作变得更加困难,标注的质量难以保证。虽然有许多无监督的视频显著对象检测方法[42,43,27]不需要大量的训练样本,但这些方法的预测精度和效率都很低。由于这些方法中的大多数开发手工制作的低级特征,例如,颜色、梯度或对比度,它们在某些考虑的情况下工作得很好,而在其他具有挑战性的情况下失败。Li等人最近的研究。[22]注意到无监督方法的弱点以及基于深度学习的方法缺乏注释。他们尝试使用分别由基于学习的分类网络和无监督方法生成的粗激活图和显著图但是,这种方法并不适用-VOS148VOS1017285能够用于基于视频的显著对象检测任务,其中对象运动和外观对比度的变化比对象类别更吸引人的注意力[15]。此外,由于在稀疏注释的帧中缺乏时间线索,训练基于深度学习的视频显著对象检测模型以用于时间上一致的显著图生成也是具有挑战性的通过仔细观察现有视频显著对象检测基准[27,35,3]的训练样本,我们发现视频中的相邻帧由于高视频采样率而共享小的差异(例如,DAVIS [35]数据集中的24 fps因此,我们推测,没有必要密集地注释所有帧,因为可以通过利用运动信息来估计此外,最近的工作表明,经过良好训练的CNN也可以纠正训练样本中存在的一些手动注释错误[22]。受这些观察的启发,在本文中,我们提出了半监督视频显著对象检测任务,使用带有伪标签的未注释帧以及几个稀疏注释的帧。我们开发了一个框架,利用从一些地面真实标签生成的像素级伪标签来训练基于视频的卷积网络,以获得具有时空相干性的显着性图。具体来说,我们首先提出了一个细化网络与残余连接(RCRNet)提取空间显着性信息,并通过一系列的上采样为基础的细化操作生成高分辨率的显着图。然后,RCRNet配备了一个非局部增强的递归(NER)模块,提出了增强时空一致性的显着地图。对于伪标签生成,我们采用预先训练的FlowNet 2.0 [13]进行标记和未标记帧之间的运动估计,并将相邻标签传播到未标记帧。同时,另一个RCRNet被修改为接受多个通道作为输入,包括RGB通道、传播的相邻地面实况注释和运动估计,以生成连续的逐像素伪标签,这弥补了稀疏注释中存在的如图1,我们的模型可以产生合理和一致的伪标签,甚至可以改善边界细节(示例a)和克服帧之间的标签歧义在生成的伪标签以及一些地面真实标签的监督下学习,我们提出的RCRNet与NER模块(RCRNet+NER)可以生成更准确的显着性图,甚至超过性能最佳的全监督视频显着对象检测方法的结果。综上所述,本文有以下贡献:• 我们引入了一个改进的网络,配备了一个非局部增强的递归模块,以产生显着图的时空一致性。• 我们进一步提出了一个流引导的伪标签生成器,它捕获视频的帧间连续性,基于稀疏注释生成区间的伪标签。• 在所生成的伪标签和手动标记的稀疏注释(例如,20%的地面真实标签),我们的半监督模型可以被训练成优于现有的最先进的完全监督的视频显著对象检测方法。2. 相关工作2.1. 显着物体检测受益于深度卷积网络的发展,显著对象检测最近取得 了 重 大 进 展 。 特 别 是 , 这 些 基 于 全 卷 积 网 络(FCN)及其变体的方法[23,12,26]由于其强大的端到端特征学习性质和高计算效率,已成为该领域的主导方法。然而,这些方法不适用于视频显著对象检测,而不考虑视频中的运动和外观两者内的时空信息最近,将深度CNN应用于视频显著对象检测的尝试吸引了相当大的研究兴趣。Wang等人。 [44]通过将相邻的帧对作为输入,将FCN引入到这个问题中。然而,这种方法无法学习足够的时空信息与有限数量的输入帧。为了克服这一缺陷,Li等人。 [24]提出通过利用运动信息和顺序特征进化编码来增强特征级的时间相干性。Fan等人。 [10]提出使用学习人类注意力转移的显着转移感知模块来捕获视频动态。然而,所有上述方法都依赖于密集标注的视频数据集,并且它们中没有一个曾经试图减少对密集标注的依赖。据我们所知,我们是第一个通过减少对密集标记的依赖来探索视频显著对象检测任务的人。此外,我们验证了生成的伪标签可以在一定程度上克服标记过程中的歧义,从而促进我们的模型,以实现更好的性能。2.2. 视频对象分割视频对象分割任务可以分为两类,包括半监督视频对象分割[16,7]和无监督视频对象分割[38,17]。半监督视频对象分割的目的是跟踪从第一个注释帧在随后的帧中给出的目标掩模,而无监督视频对象分割的目的是通过整个视频序列自动检测主要对象。7286需要注意的是,这里提到的监督或半监督视频分割方法都是针对测试阶段的,两个任务的训练过程都是完全监督的。本文所研究的半监督视频显著目标检测方法旨在减少训练过程中训练样本的标签依赖性。在这里,无监督视频对象分割是与我们最相关的任务,因为这两个任务在推理阶段都不需要注释。它可以通过图切割[33],显着性检测[42],运动分析[28]或对象建议排名[21]来实现。最近,非监督视频对象分割方法主要基于深度学习网络,例如双流架构[17],FCN网络[5]和递归网络[38]。然而,大多数深度学习方法都依赖于大量的像素级标签来进行完全监督训练。在本文中,我们解决了半监督视频显著对象检测任务,使用伪标签与一些注释帧。虽然我们提出的模型是用半监督训练的,但它仍然很好地适用于非监督视频对象分割。3. 我们的方法在本节中,我们详细介绍了半监督视频显著对象检测的拟议框架的细节,该框架由三个主要部分组成。首先,提出了一种残差连接细化网络,用于提供空间特征提取器和像素级显著性目标检测分类器,分别用于从原始输入图像中提取空间显著性特征,并将这些特征编码为像素级显著性图,其中低层线索连接到高层特征。其次,设计了一个非局部增强的递归模块来增强特征表示的时空一致性。最后,应用由修改的RCRNet和现成的FlowNet 2.0模型[13]组成的流引导伪标签生成(FGPLG)模型,从稀疏注释的视频帧中生成中间伪标签。通过适当数量的伪标签,可以训练具有NER模块的RCRNet以捕获时空信息并为密集输入帧生成准确的显着性图。3.1. 具有剩余连接的典型的深度卷积神经网络可以使用卷积层堆栈和下采样操作从图像的低级线索(如颜色和纹理)中提取高级特征。下采样操作通过逐渐增加卷积层的感受野来获得抽象特征表示。然而,许多空间细节在这个过程中丢失了在没有足够的空间细节的情况下,像素级预测任务(例如显著对象检测)不能精确地预测空间要素提取器输入帧I我OS=2 OS=4OS=8OS=162级OS=16Conv1Conv 2_xConv3_xConv4_xConv5_xSSSASPP显著性图Si遮罩转换X4X2X2R3R2R1像素分类器Conv1x1MN/2N转换转换转换1x1 3x31x1澾剩余跳过连接层SR剩余跳过连接层 优化块上采样图2. 我们的细化网络与剩余连接(RCRNet)的架构。在这里,“X”表示逐元素加法。输出步幅(OS)解释输入图像大小与输出特征图大小的比率。在物体边界或小物体上。受[23]的启发,我们采用了一种细化架构,将低级别的空间信息纳入像素级的解码过程显著性推理如图2.提出的RCR-Net由空间特征提取器Nfeat和逐像素分类器Nseg组成,通过三个不同阶段的连接层连接。给定的输出显著图S帧I可以计算为S= Nseg(Nfeat(I))。(一)空间特征提取器:空间特征提取器基于ResNet-50 [11]模型。具体来说,我们使用ResNet-50的前五组层,并删除conv 5 x中的下采样操作,以减少空间信息的丢失。为了保持相同的感受野,我们使用速率=2的扩张卷积[48]来替换最后一层中的卷积层。然后,我们将一个atrous空间金字塔池(ASPP)[4]模块附加到最后一层,该模块捕获图像级全局上下文和多尺度空间上下文。最后,空间特征提取器产生具有256个通道和原始输入分辨率的1/16(OS= 16)的特征。逐像素分类器:逐像素分类器由三个级联的细化块组成,每个细化块通过以下方式连接到空间特征提取器中的层连接层。 它旨在减轻下采样过程中空间细节丢失的影响。每个细化块将先前自下而上的输出特征图及其从自上而下流连接的对应特征图作为输入。这两个特征图的分辨率应该是一致的,因此在必要时通过双线性插值细化块的工作原理是首先7287不XHt thh输入视频剪辑{I1,输出显著图{(1,图3.我们提出的视频显著对象检测网络(RCRNet+NER)的架构我们将一个非本地增强的时间模块与我们提出的RCRNet时空相干建模。连接特征图,然后将它们馈送到另一个具有128个通道的3×3卷积层。受[11]的启发,采用称为残余跳过连接层的残余瓶颈体系结构作为连接层,以将低级特征连接到高级特征。它将低级特征图从M个通道下采样到N=96个通道,并将更多的空间信息带到细化块。残差学习允许我们将逐像素分类器与预训练的空间特征提取器相关联,而不会破坏其初始状态(例如,如果剩余瓶颈的权重被初始化为零)。序列特征演化建模ConvGRU是传统全连接GRU [6]的扩展,在输入到状态和状态到状态中都具有卷积结构连接.设X1,X2,.,Xt表示Con-vGRU的输入,H1,H2,.,Ht代表其隐藏状态。ConvGRU模块由复位门Rt和更新门Zt组成. 通过这两个门,ConvGRU可以实现选择性记忆和遗忘。根据上述定义,初始化时,ConvGRU按时间展开的整体更新过程可以列出如下:Zt=σ(Wxz<$Xt+Whz<$Ht−1),3.2. 非本地增强型经常模块给定视频剪辑序列I,i = 1,2,.,T,视频Rt=σ(Wxr<$Xt+Whr<$Ht−1),H′= tanh(W<$X+R<$(WT−1))的情况下,(二)iH=(1− Z)H′+Z H,显著目标检测的目的是产生显著图tt tt t−1在所有帧Si中,i=1,2,...,T.虽然提出的RCRNet专门研究空间显着性学习,但它仍然缺乏视频帧的时空建模。因此,我们进一步提出了一个非局部增强时间(NER)模块,它由两个非局部块[45]和一个卷积GRU(ConvGRU)[1]模块组成,以提高高级特征中的时空相干性。如图3、结合NER模块,RCRNet可以扩展到基于视频的显著目标检测。具体来说,我们首先结合从其中σ(. )表示S形函数,W表示可学习的权重矩阵。为了符号简单起见,省略了偏置项。受[36]的启发,我们将两个ConvGRU模块与前向和后向堆叠在一起,以加强两个方向之间的时空信息交换 。 通 过 这 种 方 式 , 更 深 的 双 向 ConvGRU ( DB-ConvGRU)不仅可以记住过去的序列,还可以记住未来的序列。它可以公式如下:输入视频帧{Ii}T,其中X =[X1,X2,.,XT]。这里,ffi=1[,.,] 表示级联操作和空间FEA。每个帧I的真实X被计算为X=N(I)。Ht= ConvGRU(Ht−1,Xt),Hb= ConvGRU( Hb,Hf),(三)我我我壮举我t t+1t然后,将组合特征X馈送到非局部块中。Ht= tanh(Whf <$Hf+Whb <$Hb),非局部块计算位置tt处的响应输入FEA的所有位置处的特征的加权和其中,Hf和Hb表示来自前向的隐藏状态t t真地图它可以构建时空连接在输入视频帧的特征之间。另一方面,由于视频序列由按时间顺序捕获的一系列场景组成,因此还需要表征时间域中外观对比度的顺序演变。在此基础上,我们提出利用ConvGRU [1]模块进行se-非局部增强时态模块空间要素提取器DB-ConvGRU像素分类器......非局部块非局部块……7288和反向ConvGRU单元。 Ht表示DB-ConvGRU的最终输出Xt是第t个输出fea-从非本地块中取出True。正如[45]中所证明的,更多的非局部块通常会导致更好的结果。因此,我们将另一个非局部块附加到DB-ConvGRU以进一步增强时空相干性。72892=. 这里,β是KKGround Truth中文输入帧格式经纱输入帧 格式光流场������扭曲的地面真相������输入帧格式Ground Truth中文光流场������经纱扭曲���的地面真相������多通道RCRNet生成的伪标签标签图4.我们提出的流引导伪标签生成模型(FGPLG)的架构3.3. 流引导的伪标签生成模型虽然RCRNet+NER在生成具有时空相干性的显著性图由于只有少量稀疏注释的帧,它几乎不能学习足够的时间信息,这大大降低了所产生的显着性图的时间一致性。为了解决这个问题,我们尝试从一些稀疏的注释中生成更密集的伪标签,并使用这两种类型的标签来训练我们的视频显着性模型。给定输入视频帧的三元组{Ii,Ik,Ij}(i
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功