没有合适的资源?快使用搜索试试~ 我知道了~
8866Accel:一种有效的视频语义分割Samvit Jain Xin Wang加州大学伯克利分校{samvit,xinw,jegonzal}@ eecs.berkeley.edu摘要我们提出了Accel,这是一种新型的语义视频分割系统,通过结合两个网络分支的预测,以低推理成本实现了高精度:(1)参考分支,其提取参考关键帧上的高细节特征,并且使用帧到帧光流估计来向前扭曲这些特征,以及(2)更新分支,其计算当前帧上的可调节质量的特征,在每个视频帧处执行时间更新。更新分支的模块化,其中可以插入不同层深度的特征子网络(例如,ResNet-18至ResNet-101),能够在新的、最先进的精度-吞吐量权衡频谱上运行。在这条曲线上,Accel模型比最接近的可比较单帧分割网络实现了更高的准确性和更快的推理时间。总的来说,Accel在有效的语义视频分割方面明显优于以前的工作,纠正了在具有复杂动态的数据集上复合的扭曲相关错误。Accel是端到端可培训的,高度模块化:参考网络、光流网络和更新网络可以根据应用需求分别独立地选择,然后共同进行微调。其结果是一个强大的,通用的系统,快速,高精度的SE-MANTIC视频分割。1. 介绍语义分割是一项密集的计算机视觉任务,涉及为图像中的每个像素生成类预测当应用于高分辨率视频中的帧时,该任务变得更加昂贵,因为输出的高空间维度被视频的时间帧速率进一步缩放(例如,每秒30帧)。通过把视频看作是一系列与犯罪相关的静止图像,当代的语义分析方法我...我我关键帧当前帧...什...W更新分支参考分支NR任务NU任务分数融合分割壮举NU壮举NRSI图1. Accel是一个快速、高精度、端到端可训练的视频识别系统,它结合了两个网络分支:1)参考分支,其计算关于从最后访问的关键帧变形的高细节特征的分数图,以及2)廉价更新分支,其基于可调整质量的特征(例如,ResNet-18到-101)。TIC视频分割会产生这种全部计算成本,在30 fps视频馈送上实现小于1.5帧每秒(fps)的推理吞吐量[5,8,42]。此外,通过忽略时间上下文,逐帧方法未能实现由场景中的先前帧的可用性提供的改进的准确性的潜力先前的工作已经提出了特征重用和特征扭曲作为减少视频计算的手段特别是,利用观察到的更高级别的表示比视频中的原始像素演化得更慢[32],这些方法将特征提取(大多数视频识别架构中最昂贵的组件[45])降级为选择关键帧,并通过基于光流的简单复制或扭曲来虽然特征扭曲确实可以实现一些加速[45],但其功效是8867受视频动态的限制 快速场景演化需要频繁的特征重新计算,以及具有移动观察者的视频中的特征扭曲(例如,驱动镜头),其中整个场景相对于摄像机移动,引入了显著的扭曲误差。翘曲误差与翘曲操作符的重复应用相结合。我们提出的系统,加速(图。1),通过在卷积融合步骤中将参考分支的预测与分支的预测相结合来解决有效视频分割的挑战,其中参考分支保持重要的是,这个更新分支有两个目的:1)纠正和2)锚定。当使用廉价的浅更新网络时(例如,ResNet-18),变形的关键帧特征形成到融合运算器的更准确的输入,并且更新分支利用来自当前帧的信息来校正与变形相关的错误。当使用昂贵的深度更新网络时(例如,ResNet-101),更新分支将网络锚定在当前帧的特征上,这是更高精度的输入,而参考分支则使用来自先前帧的上下文来增强预测。这两种操作模式代表了Accel解锁的极具竞争力的精度-吞吐量权衡曲线上的两个极端。我们在Cityscapes和CamVid上评估了Accel,这是最大的可用视频分割数据集[3,17,7],并展示了全方位的准确性推理速度模式。我们对关键帧进行操作的参考网络是基于ResNet-101的DeepLab分割架构[5]的实现。我们选择的更新网络从快速的ResNet-18(在Accel- 18 中 ) 到 精 确 的 ResNet-101 ( 在 Accel-101中)。在高吞吐量方面,最便宜的Accel版本Accel-18比最接近的可比较的DeepLab模型更快,更准确。在高精度方面,Accel- 101比最好的单帧模型DeepLab-101更准确。作为一个集合,Accel模型的集合在每个关键帧间隔上都比以前的工作实现了更高的精度综合起来,这些结果形成了一个新的国家的最先进的任务,有效的语义视频分割。2. 相关工作2.1. 图像语义分割语义视频分割是语义图像分割研究的一个新的分支,语义图像分割是计算机视觉中一个长期感兴趣图像分割的经典方法是通过图形模型传播有关像素分配的信息[14,33,18],这是一种成本高昂的技术,无法很好地扩展到复杂的图像数据集[23]。最新的研究遵循龙的领导等人在使用全卷积网络(FCN)来分割图像[26]。最近的工作通过显式编码器-解码器架构[2,25],扩张卷积[41,42]和后处理CRF [4,5]增强了FCN模型,在更大,更真实的数据集上实现了更高的准确性[3,10,7]。2.2. 视频语义分割与视频对象分割不同,视频对象分割中存在大量关于使用运动和时间线索跨帧跟踪和分割对象的文献[30,15,28,37],视频语义分割任务要求整个帧的像素级标记,研究较少。 的 然而,随着自主控制和视频分析应用的兴起,以及对简单逐帧方法的严重计算成本的日益关注,引发了对有效视频分割问题的极大兴趣。最近的论文提出了选择性地重新执行特征提取层[32]、基于光流的特征扭曲[45]和基于LSTM的固定预算关键帧选择策略[27],作为实现视频加速的手段在这三种方法中,基于光流的方法[45]是最有力的竞争者,与第一种方法(简单地复制特征)和第三种方法(离线且尚未展示出强有力的定量结果)相比,它实现了更大的成本节约和更高的准确性。然而,尽管其相对强度,基于流的扭曲[45]在中间表示中引入了复合误差,并且未能结合其他形式的时间变化(例如, 新对象、遮挡)。因此,在中等到高的关键帧间隔下观察到显著的精度下降为了解决这些问题,新的工作已经提出了自适应特征传播,部分特征更新和自适应关键帧选择作为在视频上优化调度和传播计算的方案[44,24,39]。这些技术具有复杂性的缺点,需要网络学习辅助表示来决定:(1)是否重新计算区域或帧的特征,以及(2)如何以空间变化的方式传播特征此外,它们没有从根本上解决安装翘曲误差的问题,而是优化了[45]的操作相比之下,在Accel中,我们通过提出一个简单的网络增强来解决这些挑战:第二个分支廉价地处理每个视频帧,并纠正参考表示中的累积时间误差。2.3. 网络融合特征和网络融合在其他背景下也得到了广泛的研究。 一系列的工作,从[34]并扩展到[13,11,12],研究了用于视频动作识别的空间和时间双流融合在双流模型中,两个网络分支的softmax得分88681616的3216 ×壮举壮举任务壮举3216一个对单个RGB帧(空间流)进行操作,另一个对多帧光流场(时间流)进行操作,被融合以从静止视频帧中辨别动作这种方法的变体随后被应用于视频分类[22,38]和视频对象分割[20,36]等任务。与时空融合不同,N feat在不同的识别任务(对象检测、实例分割、语义分割)中基本相同,并且通过丢弃标准图像分类网络中的最终k路分类层来获得(例如,ResNet-101),并将conv5层的第一块中的步长从2减小到1,以获得更高的的场景结构,它试图从分辨率特征图(空间维度h×w代替RGB帧和运动的视频级任务,加速富,Sion网络使用关键帧上下文和光流作为在密集帧和像素级预测任务(例如分割)中节省计算并提高精度的手段。在Accel中,两个分支都处理单帧的表示,并且在模型中隐含地使用运动(光流)来更新潜在的参考表示。总之,这些设计选择使Accel坚固耐用且可配置。网络组件是独立的、具有清晰接口的事实允许整个系统通过选择更新网络(例如,ResNet-x)、运动输入(例如,光流,H.264块运动[19])和关键帧间隔。3. 方法3.1. 问题陈述给定由帧{I1,I2,. I T},我们希望计算每 个 帧 的分割:{S1,S2,. ST}。我们有一个单帧分割网络N,它可以分割视频中的任何静止帧:N(Ii)=Si。这个网络是准确的,但速度很慢。由于N只以单个图像作为输入,因此它不能利用视频的时间连续性;我们能做的最好的事情就是在每一帧i∈I上依次运行N。相反,我们想开发一个视频分割网络N′,其将帧Ii和潜在的附加上下文(例如,附近的帧、特征或分段),并渲染S′。我们的目标有两个:(1)h×w)。用于语义分割的任务网络N 任 务包括三个块:(1)特征投影块,其由1×1卷积加上非线性激活(ReLU)组成,并减少特征通道维度从2048到1024,(2)评分层,其由单个1×1卷积组成,并进一步将通道维度从1024减少到C语义类,以及(3)上采样块,其由反卷积层和裁剪层组成,并对预采样进行上采样。从hw到输入图像的空间维度h×w的口述分数。最后,输出块P由softmax层和argmax层组成利用特征可以跨帧重用以减少计算的观察结果[32,45],我们现在在视频上采用以下操作模型。Nfeat,这是深和昂贵的,只执行选择,desig- nated关键帧。关键帧以固定的间隔选择,从视频中的第一帧开始使用计算的光流场O将提取的关键帧特征f1扭曲到后续帧。N 个任务,这是肤浅和廉价的,在每帧上执行。由于在帧对上计算光流O(Ii,Ij),并且翘曲fea,流场W(fi,O))→f∈j的计算比计算Nfeat(Ij)[45]便宜得多,该方案节省了中间帧的大量计算,这些帧形成了绝大多数视频帧。3.3. Accel在Accel中,我们引入了一个轻量级的特征网络,{Si}应至少与{Si}一样准确,以及(2)运行-ningN′({Ii})应该比运行N({Ii})快。U壮举,在中间帧上更新分数预测3.2. 运营模式我们的基础单帧语义分割架构N由三个功能组件组成:(1)一个FEA-基于变形的关键帧特征,从当前帧。在关键帧上,我们执行原始特征网络,现在表示为参考特征网络,N R. 在我们的系统中,我们使用ResNet-101作为一个真正的子网Nfeat,它将RGB图像作为输入R壮举,以及从ResNet-18到ResNet-Ii∈R1×3×h ×w并返回一个中间表示a-101、你,取决于具体的精度-性能第f∈R1×2048×h ×w目标. 在本节中,我们将讨论通过此i1616,(2)任务子网N任务其将中间表示fi和re作为输入将语义分割得分图si∈R1×C ×h ×w,新架构Accel(见图1)2)的情况。在索引为k的关键帧上,我们执行完整的其中C是数据集中标记类的数量参考网络P(NRR壮举(Ik)以产生片段-以及(3)输出块P,其将si转换为归一化的站Sk,并保存中间输出fk=NR(Ik)概率pi∈[0,1]1×C×h×w,然后Si∈R 1 × 1 × h × w.作为我们缓存的特征。在中间帧i上,我们计算得分sR和sU我我这种划分遵循一种共同的模式,视频识别架构[45]。 特色网络,沿着引用分支和更新分支,重新分别为。在参考分支上,我们从NN(N8869壮举壮举壮举壮举任务我我壮举任务壮举我任务S=N对于我们的参考网络NR和更新网络NU,我们使用DeepLab架构[5]的高精度变体[8]DeepLab是语义分割的规范架构[8,2,25,41],DeepLab实现一直在Pascal VOC segmenta上排名第一。基准测试[1]。NRU壮举第一次训练是ImageNet;NR和NU然后在语义分割数据集上单独微调,例如Cityscapes [7]。在加速器,我们修复了是ResNet-101 然后我们建立一个基于一系列更新特征网的模型的分类作品NUResNet-18、-34、-50和-101。这形成SkS k+1图例:1x1 convSk+2Sk+3Sk+4上采样softmax从基于ResNet-18的轻量级竞争性Accel,到图2. Accel由几个组件组成:(1)在关键帧上执行的参考特征网络NR,基于ResNet-101的速度慢、精度高的Accel。对于第三个也是最后一个可独立训练的组件,U壮举在中间帧上执行,(3)光流网光流网络O,我们使用O用于特征扭曲W,(4)N任务的两个实例化(参考和更新),(5)1×1conv网络融合层,以及(6)最后的softmax层。前一帧Ii-1到当前帧Ii,然后ex-FlowNet项目[9]。 这个网络是预先训练好的在合成的飞椅数据集上,然后与NR联合微调语义分割任务。为了训练Accel,我们使用这三个预训练模型的权重进行初始化。在每个小批处理中,我们选择一个切割NR. 作为我们的扭曲操作W,我们在空间上框架Ij. 当在关键帧间隔n处训练时,我们认为-用光流场O(Ii−1,Ii)的双线性插值变换我们的缓存特征fc,如[45]所示在更新分支上,我们运行完全更新网络NU。这两个分支可以表示为:s R=N R(W(fc,O(Ii−1,Ii)(1)从相关视频片段中选择帧I j-(n-1),并将其标记为帧I j的相应关键帧I k。在前向传递中,我们在帧Ik,并对每个后续中间帧执行更新分支和融合步骤,直到Ij。一个像素级的交叉熵损失[26]是在预测的seg上计算的U U我责成U壮举(一)(二)和帧Ij的地面实况标签。 在向后传递中,梯度通过时间反向传播分数图SR和SU表示关于通过分数融合算子,我我为当前帧中的像素校正类别标签。这些预测现在合并在 1×1 卷 积 融 合 步 骤 中 , 我 们 称 之 为 评 分 融 合(SF)。sR和sU沿着沟道维度堆叠,产生-分支,以及无参数的扭曲运算符但完全可微。注意,联合训练的目的是学习分数融合(SF)算子的权重,并优化其他权重(即, N R和NU)for任务任务将输入堆叠∈R1×2C× h × w. 应用1 ×1端到端的任务。卷积层,尺寸为C×2C×1×1至s堆叠产生输出si∈R1× C × h × w。名义上,si=SF(sstacked)=SF([sR,sU])。最后,应用3.5.设计选择最近的工作已经探索了自适应关键帧调度,我我我输出块P到si产生帧Ii的分割Si。其中基于变化的视频dy来选择关键帧请注意,虽然NRU壮举动力学和特征质量[44,24,39]。在这里,一般不同,NRU任务在结构上是相同的,场景变化和特征质量下降可以触发FEA,尽管是独立的实例化(即, 他们不分享重量)。这使得Accel高度模块化。由于任务网络N任务具有固定的接口,Accel可以接受任何真正的重新计算。 我们注意到关键帧调度是与网络设计正交的优化,因此与Accel架构完全兼容。输出制图表达fi的要素网络合适的维度。3.4. 培训Accel可以在稀疏注释的视频帧序列上进行端到端训练。整个网络由分数融合层以及我们现在讨论的三个独立可训练的组件NR、NU和OIkIk+1Ik+2Ik+3Ik+4NRNU壮举NU壮举NU壮举NU壮举壮举OWWWWN任务N任务N任务N任务OOON任务N任务N任务和N净氮和N和N(N88704. 实验4.1. 设置我们在Cityscapes [7]和CamVid [3]上评估了Accel,这是复杂城市场景理解的最大可用数据集和语义视频分割的标准基准[5,8,42]。城市景观包括30-8871我来自50个欧洲城市的街景片段,以每秒17帧(fps)的帧率独立帧的大小为2048×1024像素训练集、验证集和测试集分别由2975、500和1525个片段组成,并为第20帧提供了地面实况标签,训练和验证集中的每个片段剑桥-驾驶标签视频数据库(CamVid)由超过10分钟的以30 fps捕捉的镜头组成帧的大小为960 x 720像素,每30帧提供一个地面实况标签。我们使用[35]的标准训练测试分割,将CamVid分为三个训练序列和两个测试序列,分别包含367和233帧。为了评估准确性,我们使用语义分割的标准--平均交集-并集75.072.570.067.565.062.560.057.50.2 0.4 0.6 0.8推断时间(s/帧)[10 ]第10段。mIoU被定义为数据集中所有有效语义类的平均实现交集-并集值或Jaccard指数。为了评估性能,我们报告了整个数据集上每帧(s/frame)的平均推理时间请注意,这是吞吐量(每秒帧数)的倒数我们按照Cityscapes和CamVid的第3.4节中所述训练Accel我们以5·10−4的学习率分两个阶段进行50次联合训练。在第一阶段,除SF外的所有权重都被冻结。在第二阶段,40个epoch之后我们训练一个参考通过联合微调NR和O的相同实现来实现[45]。在推理时,我们选择一个操作关键帧间隔i,并在每个片段中选择关键帧,使得到标记帧的距离旋转在[0,i-1]上一致。该采样过程模拟了对密集标记视频数据集的评估,其中1帧落在0和i − 1之间的每个关键帧偏移处。在这里,我们遵循以前工作的例子[45]。最后,Accel在MXNet框架中实现[6]。除非另有说明,否则所有实验均在Tesla K80 GPU上以关键帧间隔5运行。我们的Accel实现在GitHub上是开源的。4.2. 结果4.2.1基线为了生成我们的基线精度-吞吐量曲线,我们运行基于ResNet-18,-34,Cityscapes和CamVid测试数据上的-50和-101。对于DeepLab和Accel,我们使用了ResNet架构的一种变体 , 称 为 可 变 形 ResNet , 它 在 最 后 一 个 ResNet 块(conv5)中采用可变形卷积,以略高的干扰成本实现显著更高的准确性[8]。我们将基于ResNet-x的DeepLab模型称为DeepLab-x,将基于ResNet-x更新网络的Accel模型称为Accel-x。图3.Cityscapes上的准确性与推理时间。比较-将Accel的四个变体(A-x)转化为单帧DeepLab模型(DL-x)和各种其他相关工作(RW)。关键帧间隔为5的所有结果。数据来自表1。6866646260580.10 0.15 0.20 0.25 0.30推断时间(s/帧)图4.精度与CamVid上的推理时间。关键帧间隔为5的所有结果。数据来自表2。(CC和DVSN不评估CamVid; GRFP不报告计时结果。)4.2.2精度-吞吐量使用Accel,我们实现了用于语义视频分割的新的、最先进的准确度-吞吐量权衡曲线第3、4段)。所有Accel型号,从Accel-18到Accel-101,都允许高精度操作:Cityscapes上超过72 mIoU,CamVid上超过66 mIoU。在高精度端,Accel-101是迄今为止最准确的模型,比最好的DeepLab模型DeepLab-101实现了更高的mIoU。在高吞吐量端,Accel-18比最接近的可比单帧模型DeepLab-50更快,更准确。值得注意的是,Accel-18比DeepLab-101便宜40%以上,mIoU仅低2-3%。通常,每个Accel-x模型在所有x上都比其单帧对应模型DeepLab-x更准确。四种Accel型号共同构成了一个A-101AccelDee其他PLABRW4DL-3DL-18-50DL34A--A-18FDFDL-101A-50准确度准确度(mIoU,%)A-50A-101A-34DL-101DVSNGRFPDL-50CCDFFDL-34AccelDeepLABDL-18其他 RW8872任务壮举帕累托曲线明显取代了由四个单帧DeepLab模型定义的帕累托曲线(图第3、4段)。Accel还明显优于相关工 作 , 包 括 Clockwork Convnets [32] , Deep FeatureFlow [45] , Gated Recurrent Flow Propagation [29] 和Dynamic Video Segmentation Network [39](见表1)。虽然深特征流(DFF)在低精度范围内提供了很强的精度-吞吐量权衡,但由于其固定的架构,它在高精度范围内不是竞争者。我们将在下一节中提供与DFF的更详细的比较。表1. Cityscapes上四个单帧DeepLab模型(DL-x)、四个Accel变体(A-x)和各种相关工作的准确性和推理时间按准确度排序的表格每个75.072.570.067.565.062.560.0Accel-101Accel-50Accel-18DFF2 4 6 8 10关键帧间隔Accel-x模型比单帧模型DeepLab-x更准确,适用于所有x。所有推理时间标准差均小于0.01。数据绘制在图1B中。3 .第三章。模型应计(mIoU,%)时间(秒/帧)DL-1857.70.22DL-3462.80.33CC(Shel. (2016年)67.70.14DFF(Zhu 2017)68.70.25GRFP(Nils. 2018年)69.40.47DL-5070.10.51DVSN(Xu 2018)70.30.12A-1872.10.44A-3472.40.53A-5074.20.67DL-10175.20.74A-10175.50.87表2. CamVid上的精度和推理时间。按准确度排序的表格。数据绘制在图1B中。4.第一章模型加速度(mIoU,%)时间(秒/帧)DL-1858.10.105DL-3460.00.123DL-5065.50.185DFF(Zhu 2017)66.00.102A-1866.70.170A-3467.00.205A-5067.70.239DL-10168.60.287A-10169.30.320图5.精度与Cityscapes上的关键帧间隔,仅用于基于光流的扭曲(DFF)和Accel的四种变体。所有五种方案都在NR中使用ResNet-101。基 于 空 间 金 字 塔 池 , 如 PSPNet 、 Net-Warp 和DenseASPP [43,16,40],其实现了高准确性(在Cityscapes测试中高达80.6% mIoU),但计算成本很高。一项评估[16]发现,PSPNet每帧Cityscapes的运行时 间 为 3.00 秒 , 即 使 不 进 行 任 何 增 强 ( 例 如 ,NetWarp)或高级设置(例如,多尺度集成),这比任何DeepLab或Accel变体都要慢得多。其他相关的单帧网 络 族 包 括 编 码 器 - 解 码 器 架 构 ( 例 如 , U-Net[31]),其优化了高分辨率生物医学图像的准确性,以 及 参 数 高 效 的 DenseNets ( 例 如 , FC-DenseNet[21]),其分割推理时间尚未报告。4.2.3关键帧间隔在本节中,我们将评估扩展到从1到10的关键帧间隔范围。关键帧间隔1对应于在每个帧上运行参考网络NR。因此,深度特征流(DFF)[45]和Accel变体在此设置下报告了相同的准确性(见图10)。(五)。在关键帧间隔大于1时,我们发现即使是最便宜的Accel版本Accel-18也始终比DFF具有更高的准确性特别是,在关键帧间隔8上,出现了很大的准确性差距,因为DFF(五)。这个差距是DFF中构建的复合扭曲错误的说明,但随着更新分支的出现,它在Accel中得到了纠正。代价是Accel模型在中间帧上较慢:除了O和NR推理代价,也由DFF支付,我们还简要介绍了一系列最近,新的单一-Accel模型还产生了NU的成本,当准确度(mIoU,%)8873帧分割网络 其中包括架构U壮举是ResNet-18和更高,当NU是ResNet-101N88744.2.4消融研究我们现在提出一个简单的消融研究,该研究将参考网络NR和最新网络NU对加速精度的贡献分离开来(见表3)。禁用NU对应于仅使用来自前一关键帧的光流扭曲表示。由于所有版本的Accel共享相同的NR,因此所有型号的精度都相同(第1行)。禁用引用网络NR对应于在所有帧上仅运行单帧更新网络DeepLab-18、-34、-50或-101(行2)。禁用两者都不会产生我们的原始模型(第3行)。注意网络融合的效果:每个未修改的Accel模型都比其组成子网络中的任一个更精确。此外,Accel-18通过使用比NR更便宜且准确度低得多的更新网络NR,观察到比NR高6.8点的准确度提升。这证实了组合两组对比的表示的强大协同效应:一个是高细节但过时的,一个是低分辨率但时间上是当前的。表3. 消融研究。NR(参考分支)和NU(更新分支)对Accel的准确度贡献的细分关键帧间隔i= 5的结果,在距关键帧的最大偏移(4)处。城市景观数据集。模型设置A-18A-34A-50A-101仅限NR62.462.462.462.4仅NU57.762.870.175.2Accel69.269.773.075.54.2.5融合定位在本节中,我们将评估融合位置对最终网络精度和性能的影响。到目前为止,Accel使用1×1卷积层来融合前softmax类分数,但也可以在早期阶段执行在表4中,我们比较了两个融合变体的值和推理时间:(1)特征融合(N个特征和N个任务之间的融合)和(2)分数融合(分数上采样块和softmax层之间的融合)。如表4所示,评分(后期)融合导致精度略低,但推理时间更快回想一下,1×1卷积融合层是一个映射R1×2C×h ×w→R1×C ×h ×w,其中C是输入的通道维数。特征(早期)融合导致更高的准确度os-因为它是在更高维度的输入上执行的,允许发现更丰富的通道对应性(ResNet特征图的C为2048,而不是19表4. 融合位置。评估网络融合定位对最终精度值的影响。型号:Accel-18.关键帧间隔i= 5的结果,在距关键帧的最大偏移(4)处。城市景观数据集。度量位置Acc.(mIoU)时间(秒/帧)特征69.50.46评分69.20.44分数)。 另一方面,推理时间受益于较低的通道维度:与特征相比,融合算子本身在分数上执行更便宜。除了最准确的模型(Accel- 101)之外,我们尽管如此,在这两个方案中作出选择的可能性仍然很小.最后,我们还实验了中间通道维度,C。ResNets-50和 -101 传 统 上 在 第 五 个 conv 块 之 后 具 有 通 道 维 度2048,这就是为什么C= 2048是我们的默认选择。在我们的实验中,我们发现使用较小的C值,如512或1024,会导致分割精度较差,而不会明显减少推理时间。4.2.6定性评价在图6 中,我们比较了DFF (AccelNR)、DeepLab(AccelNU)和Accel(NR+NU)在两个10帧序列(顶部和底部)上的定性性能5. 结论Accel是一个快速、高精度的视频分割系统,它利用两种网络路径的组合预测能力:(1)参考分支NR,其提取参考关键帧上的高质量特征,并且使用增量光流估计来向前扭曲这些特征,以及(2)更新分支NU,其处理当前帧以校正参考表示中的累积时间误差。全面的实验展示了全方位的准确性推理速度模式,从比可比单帧模型更快、更准确的高吞吐量版本Accel到超过最先进水平的高准确度版本在所有关键帧间隔,Accel模型的完整集合始终优于针对该问题的大量工作,而消融研究表明,Accel的准确性显著优于其单个组件。最后,Accel架构是模块化的,端到端可训练的,可以作为如何在视频上有效执行密集预测任务的一般示例。8875R1R2R3R4R1R2R3R4(a)k(b)k+ 3(c)k+ 6(d)k+ 9图6.质量产出。 关键帧间隔为10的两个帧序列。列k+i对应于关键帧之后的第i帧K. 第一行:输入帧。第二行:AccelNR分支/DFF [45]。第三行:AccelNU分支/DeepLab-18。第四排:加速器18 请注意Accel如何纠正第2行中DFF底部示例中的列(c)也有资格作为Accel的错误案例,因为与DeepLab不同,Accel错过了右侧的街道标志致谢我们要感谢特雷弗·达雷尔的有益交谈和他对草案的评论。 除了NSF CISE Expeditions Award CCF-1730628之外,这项研究由阿里巴巴、亚马逊网络服务、蚂蚁金服、ARM、CapitalOne、爱立信、脸书、谷歌、华为、英特尔、微软、英伟达、加拿大丰业银行、Splunk和VMware的捐赠支持。8876引用[1] Y. 艾 塔 pascal 挑 战 赛 性 能 评 测 服 务 器 。http://host.robots.ox.ac.uk:8080/leaderboard/.访问时间:2018-11-07。4[2] V.巴德里纳拉亚南,A. Kendall和R.西波拉Segnet:用于图像分割的深度卷积编码器-解码器架构。InTPAMI,2017. 二、四[3] G. J. Brostow,J. Fauqueur和R.西波拉视频中的语义对象类:高清晰度地面实况数据库。Pattern Recognition Letters,30(2):8897,2009. 二、四[4] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。ICLR,2016年。2[5] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。InTPAMI,2017.一、二、四、五[6] T. Chen , M. Li ,Y. Li , M. Lin ,N. Wang 和 M. 王.Mxnet:一个灵活高效的异构分布式系统机器学习库。NIPS机器学习系统研讨会,2016年。5[7] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR,2016年。二、四[8] J. Dai,H.Qi,Y.Xiong,Y.Li,G.Zhang,H.Hu和Y.伟.可变形卷积网络。InICCV,2017. 一、四、五[9] A. Dos o vitski yP. Fische r,E. Ilg ,P. Hausser,C. 哈兹巴斯,诉 Golkov , P.v.d. Smagt , D.Cremers 和 T. 布 洛 克 斯Flownet:使用卷积网络学习光流在ICCV,2015年。4[10] M. Everingham,S.埃斯拉米湖诉古尔角威廉斯,J.Winn和A.齐瑟曼。pascal视觉对象类挑战:回顾展。IJCV,111(1):98-136,2015. 二、五[11] C. Feichtenhofer、A. Pinz和R.王尔德用于视频动作识别的时空残差网络。在NIPS,2016年。2[12] C. Feichtenhofer、A.平茨河P. Wildes和A.齐瑟曼。我们从动作识别的深层表征中学到了什么?在CVPR,2018年。2[13] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在CVPR,2016年。2[14] P. Felzenszwalb和D. Huttenlocher高效的基于图的图像分割。IJCV,59(2):167-181,2004. 2[15] K. Fragkiadaki,P. Arbelaez,P. Felsen和J.马利克学习分割视频中的移动对象。 CVPR,2015。 2[16] R. 加德河谷Jampani,和P.诉盖勒通过表示变形的语义视频InICCV,2017. 6[17] A. Geiger,P. Lenz,C. Stiller和R.乌塔松视觉与机器人技 术 的 结 合 : Kitti 数 据 集 。 International Journal ofRobotics Research(IJRR),32(11),2013. 2[18] M. Grundmann,V.Kwatra,M.汉和我艾萨高效的基于层次图的视频分割。CVPR,2010。2[19] S. Jain和J.Gonzalez. 基于块运动特征插值的视频快速语义分割在ECCV视频分割研讨会上,2018年。3[20] S. D.杰恩湾Xiong和K.格劳曼Fusionseg:学习结合运动和外观,实现视频中通用对象的在CVPR,2017年。3[21] S. Jgou,M. Drozdzal,D. Vazquez、A. Romero和Y.本吉欧。百层提拉米苏:用于语义分割的完全卷积密集网。CVPR汽车技术中的计算机视觉研讨会,2017年。6[22] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR,2014。3[23] P. K raühenbuühl 和V. 科尔顿具有高斯边势的全连通crfs的有效推理NIPS,2011年。2[24] Y. Li , J.Shi和 D. 是 林 书 低延 迟 视 频 语 义分 割 。 在CVPR,2018年。二、四[25] G. Lin,L.米兰角沈和我里德Refinenet:用于高分辨率语义分割的多路径细化网络在CVPR,2017年。二、四[26] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。二、四[27] B. Mahasseni,S.Todorovic和A.弗恩预算感知的深度语义视频分割。在CVPR,2017年。2[28] N. S. Nagaraja,F. R. Schmidt和T.布洛克斯视频分割,只有几招。CVPR,2015。2[29] D. Nilsson和C.斯明奇塞斯库基于门控递归流传播的语义视频分割。在CVPR,2018年。6[30] A. Papazoglou和V.法拉利无约束视频中的快速对象分割。InICCV,2013. 2[31] O.龙内贝格山口Fischer和T.布洛克斯U-net:用于生物医学图像分割的卷积网络在MIC-CAI,2015. 6[32] E. Shelhamer,K.Rakelly,J.Hoffman和T.达雷尔。基于时钟工作的视频语义分割算法。在ECCV视频分割研讨会上,2016年。一、二、三、六[33] J. Shotton,J.温恩角Rother和A.天啊Textonboost用于图像理解:通过联合建模纹理、布局和上下文的多类对象识别和分割。IJCV,81(1):2-23,2009. 2[34] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。在NIPS,2014。2[35] P. Stu r gess,K. 阿拉哈里湖 Ladic ky′和P. H. S. T或R。结合运动特征的外观和结构进行道路场景理解。在BMVC,2009年。5[36] P. Tokmakov,K. Alahari和C.施密特利用视觉记忆学习视频对象分割。在CVPR,2017年。3[37] Y.-- H.蔡美儿H.杨,和M。J.布莱克。通过对象流的视频分割。在CVPR,2016年。2[38] Z. Wu,X.王玉- G. Jiang, H. Ye和X. 雪在用于视频分类的混合深度学习框架中建模时空线索。在ACM-MM,2015中。3[39] Y.-- S. Xu,T.- J. Fu,H.- K.杨和C Y.李你动态视频分割网络。在CVPR,2018年。二、四、六8877[40] M. Yang,K. Yu,C. Zhang,Z. Li和K.杨用于街道场景语义分割的Denseaspp。在CVPR,2018年。6[41] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR,2016年。二、四[42] F. Yu,V. Koltun,and T.放克豪瑟扩张的残余网络。在CVPR,2017年。一、二、四[43] H. Zhao,J. Shi,X. Qi,X. Wang和J.贾金字塔场景解析网络。在CVPR,2017年。6[44] X. Zhu,J. Da
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功