没有合适的资源?快使用搜索试试~ 我知道了~
渐进稀疏局部注意视频目标检测
3909渐进稀疏局部注意视频对象检测郭朝旭1,2范斌1顾杰1张谦3向世明1,2陈春洪1,21中国科学2中国科学3地平线机器人{chaoxu.guo,bfan,smxiang,prinet,chpan}@ nlpr.ia.ac.cn,{qian01.zhang}@ horizon.ai摘要将基于图像的目标检测器转移到视频领域仍然是一个具有挑战性的问题。先前的努力主要利用光流跨帧传播特征,旨在实现准确性和效率之间的良好权衡。然而,引入额外的模型来估计光流可以显著地增加总体模型大小。光流和高级特征之间的差距也会阻碍它准确地建立空间对应关系。本文提出了一种称为渐进稀疏局部注意(Progressive Sparse Local Attention,PSLA)的新模块,该模块不依赖于光流,而是以渐进稀疏的步幅在局部区域中建立跨帧特征之间的空间对应关系,并使用该对应关系来传播特征。基于PSLA算法,提出了一种新的视频对象检测框架,分别采用递归特征更新(RFU)和密集特征在ImageNet VID上的实验表明,与现有方法相比,该方法具有更小的模型尺寸和可接受的运行速度,达到了最佳的准确性。1. 介绍目标检测是计算机视觉中的一个基本问题,也是许多实际应用的核心技术,如:机器人、自动驾驶和人类行为分析。随着卷积神经网络(CNN)的发展,在从图像中检测对象方面取得了显着的成功[7,12,13,16,17、26、28、29、31]。然而,逐帧地将那些技术应用于视频通常是不令人满意的范斌为通讯作者Ct,t+x图1. 渐进式稀疏局部注意(Progressive Sparse Local Attention,PSLA)PSLA的目标是以注意力的方式将特征图Ft与Ft+t对齐,其被公式化为两个步骤:第一步 1 每个特征嵌入式特征图f(Ft+t)中的单元格与嵌入式特征图g(F t)中的周围单元格相比,从中心到外侧的步幅更稀疏。 在g(Ft)中具有不同颜色的区域表示在不同步幅中的区域,其在等式2和3中示出。所得到的特征亲和度用于计算对应权重Ct,t+t,其捕获特征之间的空间对应第二步骤2是将Ft中所选择的特征单元与相应的权重聚合以生成Ft+F t中的特征单元,其是来自F t的对齐特征图。这是由于视频中经常遇到的诸如运动模糊、失焦相机和罕见姿势的问题所导致的劣化的外观视频中固有编码的时间信息已被用于提高视频对象检测的性能,因为它提供了关于静止图像中不存在的视频中的运动的利用时间信息从视频中检测对象的现有方法第一个依赖于专用的后处理[15,20,21,23]。这些方法首先在单帧上运行基于图像的检测器,然后通过框级后处理来整合每帧结果,这通常需要额外的对象跟踪器或现成的光流来估计运动场并关联边界框。以这种方式对时间相干性进行建模是次优的比较骨料ķCt,t+xĸf(Ft+x)g(Ft):(x,y):O(x,y):101(x,y):x2(x,y):x3(x,y)Ft+x:对应权重:对齐的要素单元F 不3910因为检测器在训练阶段中不能从时间信息中获益。另一类方法[4,10,35,37,41,42,43]在训练检测器时利用视频中的时间信息。他们要么追求准确性和复杂性之间的平衡,要么以牺牲运行时间为代价来提高性能。在这些方法中,光流被广泛用于跨帧传播高级特征。必须使用额外的光流模型,例如FlowNet[8],以实现端到端训练并实现更好的性能。然而,添加光流模型具有若干缺点。首先,额外的模型显著增加 了 检 测 器 的 整 体 模 型 大 小 ( 例 如 , ,ResNet101+RFCN的典型检测器具有59.6M参数,并且当使用FlowNet时,其必须添加额外的37M参数。这使得其更难被部署在移动设备上。其次,光流仅建立两个图像之间的局部像素对应。直接将流场转换为高级特征可能会引入伪影,因为它忽略了网络中从一层到另一层发生的转换。最后,高级特征图中一个像素的移位可以对应于图像中多达数十个像素对于光流来说,捕捉如此大的位移是非常具有挑战性的我们的工作属于第二类。为了解决上述限制,我们提出了一个新的模块,渐进稀疏局部注意(PSLA),传播高层次的语义特征跨帧,而不依赖于光流。具体地说,给定帧It和It+m的两个特征Ft和Ft+m,PSLA首先基于Ft和Ft+m之间的特征亲和度产生相应的权重,然后通过聚合具有相应权重的特征来对齐Ft和Ft+m它类似于注意力机制[33],但不同之处在于PSLA中的注意力位置分布在局部区域中,具有渐进的稀疏步幅,如图所示1,这是受启发的运动分布在视频中,如图所示。3 .第三章。提出了一种基于PSLA的视频对象检测框架,对稀疏关键帧进行代价高昂的高层特征提取,对密集非关键帧进行代价低廉的低层特征提取。基于提取的特征,PSLA用于两种不同且互补的情况:(1)将高级特征(在网络的给定层)从关键帧传播到非关键帧。这使我们能够将大部分计算成本分配给关键帧,并在不牺牲准确性的情况下提高测试效率。此外,本文还设计了一个名为质量网的小型网络,用于将非关键帧特征的低层信息补充到传播的高层特征中,以减少特征传播的混叠效应。我们将此过程命名为密集特征变换 ( Dense Feature Transforming , 简称 DenseFT) 。(2)为了保持对时间ap进行建模的时间特征Ft通过在关键帧上传播高级特征来增强视频的性能。同时,提出了一种更新网络,递归地更新关键帧的高层特征的Ft我们的消融研究表明,利用时间上下文有助于大幅提高性能。我们将此过程命名为递归特征更新(RFU)。我们在ImageNet VID[32] 用于视频对象检测。我们的结果在速度和准确性方面与最先进的方法相当或优于最先进的方法,同时减小了模型大小。此外,我们还证明了我们的模型可以推广到其他任务,例如CityScapes数据集上的视频语义分割[6]。总之,本文的贡献包括:• 我 们提 出了 一 种新 的模 块 渐进 稀疏 局 部注 意(PSLA),在不依赖额外光流模型的情况下建立特征图之间的空间对应关系,从而显著减少了模型参数,同时获得了更好的结果。• 在PSLA的基础上,提出了递归特征更新(RFU)和密集特征变换(DenseFT)两种技术,分别用于对非关键帧的时间表现进行建模和增强非关键帧的特征表示。• 我们介绍了一种用于视频对象检测的新框架,该框架在ImageNet VID上实现了最先进的性能[32]。2. 相关工作图像目标检测。现有的图像目标检测方法主要有两种模式,两阶段和单阶段。一个两阶段的流水线包括生成区域建议,区域分类和位置细化。R-CNN [13]是两阶段方法的开创性工作。Fast R-CNN [12]通过共享特征提取的计算来提高速度和准确性,而Faster R-CNN[31]学习生成区域建议。以下一些变体,例如R-FCN [7]和FPN [26],进一步提高了性能。与两阶段检测器相比,单阶段方法效率更高,但精度较低。SSD[28]从多个特征图的默认锚框中产生检测结果YOLO[29,30]将检测公式化为回归问题。Lin等人 [27]提出了焦点丢失来解决数据不平衡的问题。在本文中,我们使用R-FCN作为我们的基本检测器。视频对象检测。与图像目标检测不同,视频目标检测的方法需要有一定的速度,参考信息。T-cnn [20]利用现成的光流来传播边界框。然后,通过考虑视频的时间背景来重新评分并移除框。Tpn [19]提出了一个tubelet pro-tunnel网络,并采用LSTM来合并tem。3911HHL来自tubelet提案的poral信息。为了提高性能,MANET[35]和FGFA [42]使用FlowNet [8]估计的光流来聚合多个附近帧的特征。D T不是依靠光流,[10]通过执行当前帧和下一帧的特征之间的相关性来为了降低计算成本,Zhuet al. [43,41]使用光流将关键帧的高级特征传播Chen等人[4]通过设计时标网格来提高速度和精度。但是需要一个额外的分类器来重新对边界框进行评分。这大大增加了模型参数。与我们最接近的工作是STMN [37],它利用类似于相关性的模块来对齐局部区域中的特征图。与[37]不同,我们的方法专注于稀疏邻域,并利用softmax归一化来更好地建立空间对应。我们提高了速度和准确性,而STMN以牺牲运行时间为代价提高了准确性。自我关注。自注意是在[33]中首次引入的机器翻译机制。为了在序列中集成足够的上下文和远程信息,它通过取所有位置的加权平均值来计算序列中某个位置处的响应,其中权重通过反向传播来学习,而无需显式监督。Bahdanau等人[1]将软注意力应用于机器翻译,旨在捕捉源词和目标词之间的软对齐。不像以前的那些作品[1,33],我们提出的PSLA是一种更普遍的自我注意形式。在本文中,它被应用在时空域对准两个特征图。非本地运算符。Nonlocal是一种传统的滤波器al-tax[2],广泛用于图像去噪[3,24],超分辨率[14]和纹理合成[9]。这些方法将响应计算为图像中所有像素的加权平均值,其中权重基于块外观相似性获得最近,基于相同的原理,Wanget al.[36]提出了一种用于视频分类和目标检测的非局部它旨在捕获特征图中的长距离依赖性并增强感受野。该算子进一步扩展到图像生成[40]和语义分割[11,18,39]。与这些方法不同的是,PSLA专注于一个渐进稀疏步幅的局部区域。3. 该方法3.1. 概述我们框架的流水线如图所示。二、给定一个视频,每一帧首先由CNN处理以提取特征;它后面是一个任务网络Nt,用于特定任务,如本文中的目标检测。为了节省计算成本,将帧划分为关键帧视频流关键帧Ik1关键帧Ik2非关键帧我我NNN5Fi5FtFk1DenseFTHFFk2不RFUHRFU时间特征NtNtNt斑马1.00斑马1.00斑马1.00图2.提出的视频检测框架的流水线。为了简单起见,仅示出了两个关键帧Ik1、Ik2和一个非关键帧I1。首先将K个关键帧送入Nf中以产生高层特征Fk1和Fk2,而将非关键帧送入低成本网络Nl中以提取低层特征 Fi。 在高层特征的基础上,通过递归特征更新(RFU)来保持时间特征Ft,从而对视频的时间外观进行建模,其中Ft是递归更新的。同时,利用密集特征变换(Dense Feature Transforming,DenseFT)将来自更新的Ft的语义特征从最近的关键帧传播到非关键帧。这整个过程都适用于整个序列。PSLA嵌入RFU和DenseFT中,用于特征对齐和传播。RFU或DenseFT的输出被馈送到任务网络Nt中以产生检测结果。和非关键帧,其特征提取网络不同,分别表示为Nf和Nl。 用于非关键帧Nl的特征提取网络是比Nf更轻量级的特征提取网络。此外,为了充分利用视频中的长期时间信息,在整个视频中保持一个时间特征Ft,并在关键帧处通过递归特征更新(RFU)模块逐步更新在时间特征的辅助下,关键帧的语义特征也将被RFU增强,以利于最终的任务。同时,由于用于非关键帧的轻量级网络,它们的功能对于最终任务来 说 不 太 强 大 为 此 , 提 出 了 密 集 特 征 变 换(DenseFeature,DenseFT)模块,以通过从时间特征Ft传播来丰富它们的特征。这种设计的关键在于非关键帧的内容与附近关键帧的内容相似RFU 和DenseFT的核心是将时间特征对齐并传播到当前处理的帧的时间特征,这由渐进稀疏局部注意(PSLA)模块 解 决 。在下文中,我们将详细描述所提出的PSLA、RFU和DenseFT。3.2. 渐进稀疏局部注意我们的框架的核心是跨帧对齐和传播特征映射为此,我们引入了渐进稀疏局部注意(PSLA),这是一个新的模块,3912(x,y)11F=c(p,p)F在位置P1和P2处的两个特征单元被定义为c(p,p)= .g(Ft+Ft)),f(FtΣ),(1)1 2(x1,y 1)(x2,y2)其中(x1,y1)和(x2,y2)是p1,p2和g(Ft+∞)分别为不(x2,y2))∈Rc×1×1。图 3. 由 FlowNet 在 水 平 和 垂 直 维 度 上 计 算 的 采 样 100 个ImageNet VID视频的光流场最好用彩色观看。旨在建立两个特征图之间的空间对应关系,以便在它们之间传播特征。PSLA首先基于特征单元对之间的特征亲和度计算对应权重,这些特征单元源自两个不同的特征图,并且以逐渐稀疏的步幅分布(见图2)。①的人。这一战略的动机源于图。图3所示为沿垂直轴和水平轴1的光流场边缘分布主要集中在零附近。这表明用于计算对应权重的特征单元可以被限制到具有逐渐稀疏的步幅的邻域。此设置使PSLA能够· 对于中的每个位置(x,y),g(Ft+φ),只考虑f(Ft)在Φ(x,y)中的位置; Φ(x,y)是由逐渐稀疏的步幅和最大位移d定义的邻域。为了清楚起见,我们将Φ(x,y)划分为一系列子区域,Φ(x,y)={Φ0(x,y),Φ1(x,y),...,Φd(x,y)},(2)哪里Φ0(x,y)={(x,y)},(三)Φs(x,y)={(x+a,x+b),φa,b∈ {s,0,−s}}\{(x,y)},在我们的实现中,s被设置为满足1≤s≤dΦs(x,y)表示子区域中具有步幅的位置S. Φ(x,y)在g(Ft)中的空间排列如图所示。1,其中不同颜色的区域对应于不同的子区域Φs(x,y)。正如本节开头所述,它被设计为一个逐渐稀疏的网格从中心到外面。然后我们可以计算归一化的对应权重:更多地关注附近的位置(与小莫有关),少,少。c(p1,p2)=exp(c(p1,p2))exp(c).(四))更大的运动),并根据字符-p2∈Φ(x1,y1)(p1,p2)视网膜的视觉感知组织的痉挛[34]。形式上,设Ft和Ft+f分别为帧It和It+f的特征映射,其对应的嵌入特征记为f(Ft)和g(Ft+f)∈Rc×h×w,其中c,h,w分别为嵌入特征映射的通道数、高度和宽度.这里的嵌入函数f(·)和g(·)用于减小Ft和Ft+∞的通道维数,以节省计算量。PSLA通过引入softmax作为归一化,我们强制重量来互相竞争。因此,PSLA可以捕获区域中最相似和最关键的特征,类似于注意力机制[1],并且可以隐含地建立两个特征图之间的空间对应关系。然后,在第二步中,可以将Ft与Ft+ ft对齐,通过聚集具有相应权重的相应特征单元:Σ将来自g(Ft+f t)的每个特征单元与来自f(Ft)的局部稀疏位置处的周围单元进行比较。所得简体中文(x1,y1)p2:( x2, y2)∈Φ( x1, y1)不1 2(x2,y2) .(五)特征相似度被归一化以产生所使用的权重以对齐Ft。具有较高亲和度的特征单元(指示较高的对应性)将获得较高的权重,并且它们的信息的较大比例被传播到新的最后,对齐的特征被传播到帧It+I t。在这个阶段,我们的目标是解释PSLA的一般操作,因此不指定Ft和Ft+Δ的来源,这将在第2.2节中澄清。3.3和3.4。具体地,PSLA的操作可以被公式化为如下两个步骤:第一步骤是基于特征亲和度产生稀疏给定通过两个函数f(·)和g(·)嵌入的两个特征映射Ft和Ft+f(·),1准确地说,光流场是使用FlowNet[8]在从ImageNet VID训练分割随机采样的100个视频上计算的[32]),f(F3913使用PSLA对准特征的过程可以用公式表示 为 :=PLSA(F t+Σ,F t),这是嵌入RFU的核心模块(第二节)。3.3)和DenseFT(第3.3节)。第3.4段)。3.3. 递归特征更新视频提供了丰富的信息,有利于物体识别,例如。视觉线索和来自附近帧的时间上下文。然而,图像对象检测器忽略来自视频序列中的先前帧的外观和上下文信息这启发我们提出递归特征更新(RFU).RFU是一个过程,聚合和整合的语义特征的稀疏关键帧沿时间,旨在提高检测精度,通过利用时间上下文。3914H不HFi5转换网络FtPSLA1×C×H×WConv1x1,256Conv3x3,256Conv3x3质量网图4.递归特征更新(RFU)。(Convk×k,n)是一个卷积层,内核大小为k,输出通道为n具体地,RFU在整个视频中循环地维护和更新具有稀疏关键帧的语义特征的时间特征Ft在该过程中,用新关键帧的特征直接更新Ft因此,利用PSLA来加强Ft和新关键帧的高级特征之间的空间一致性。给定新的关键帧Ik的高级特征Fk,其中k是图像序列中关键帧的索引,PSLA的反应可以用公式表示为F_k=PSLA(F_ k,F_t)。图5.密集特征变换(DenseFT)。以进一步编码所提取的低级特征,旨在近似高级语义特征。这是一个关键步骤,因为它不仅丰富了底层特征的语义信息,而且避免了特征传播产生的梯度直接流入Nl,从而提高了训练的鲁棒性。将编码特征馈送到PSLA中以将Ft与非关键帧对准。在将F1传播到非关键帧之后,我们将其与低级特征F1融合。其原因是特征对齐中的加权聚合引起的别名效应为此,在DenseFT中嵌入了网络质量网,th在对齐时间特征后,一个微小的神经网络-本文设计了一个名为UpdateNet的工作,用来融合Fk和F k补充详细信息。最后,Qual的输出ity Net被馈送到Nt中以产生非关键帧的结果。th自适应地,其目标是将视频的时间上下文合并到Fk中。如图所示。4、更新网络任务克尔克3.5.实现细节我们使用在ImageNet上预训练的ResNet-101作为N,Ft和Fh作为输入的级联。然后通过多次迭代得到自适应权值W_k和W_ k其中Wk∈R1×h×w表示两个不同特征图的每个空间位置上的特征单元的重要性。权重在每个空间位置的两个特征图上进行归一化,以便Wk+W k=1。最后,基于权重更新FtF特征提取,其低于res4b3(包括res4b3)的层被选择来构造Nl。在[43]之后,RPN用于生成区域建议,R-FCN用作用于对象检测的任务特定网络Nt。本文讨论了方程(1)中的嵌入函数f(·)和g(·)。(1)在─用256个滤波器实现1×1卷积层ij ijFt=Wk·Fk+W k·F k,(6)对于PSLA的超参数,最大位移d默认设置为4。整个网络包括RFU和t h其中·是Hadamard乘积(即,多元素在广播权重图之后的应用)。最后用更新后的Ft代替Fk产生关键帧Ik的结果,并作为更新后的时间特征。3.4. 密集特征变换由于Nl为非关键帧提取的特征不太强大,我们引入密 集 特 征 变 换 ( Dense Feature Transforming ,DenseFT)以通过特征变换和从保持的时间特征Ft传播来生成非关键帧的语义特征。具体地,PSLA使用所提取的低级特征F1来从最近关键帧处的节奏特征F1然而,这些低级特征不包含足够的语义信息来找到空间对应。对齐的特征可能无法保留关键信息。为了解决这一问题,本文采用了一种轻量级的网络转换网络DenseFT在8个GPU上进行端到端训练,使用SGD进行 120K迭代 学习率在前80K次迭代中为2.5×10−4,在后40K次迭代中为2.5 × 10−5。在测试期间,我们采用类似于[43]的固定关键帧调度,即,视频被分割成包含相等的多个帧和中间帧被选择为关键帧。关键帧间隔l默认设置为10。更新网络的细节如图所示。4.第一章 一 首先使用1×1卷积层将特征减少到256个通道,然后是两个分别具 有 16 个 和 2 个 滤 波 器 的 3×3 卷 积 层 , 以 产 生 cor-picture。响应每个特征的空间权重。质量网络的结构与更新网络相同。如图5、用瓶颈块实现了转换网。首先,采用1×1核的卷积层减少特征通道;然后,添加两个连续的3×3卷积层,分别具有256和1024个滤波器,以进一步编码特征。FkHFtPSLA不更新网络FtFkConcat1×2C×H×WConv1x1,256Conv3x3,16Conv3x3,2Sigmoid1×2×高×宽39154. 实验4.1. 数据集和设置我们在ImageNet VID [32]数据集上评估了我们的框架,该数据集包含30个类的对象,具有完全注释的边界框。遵循[43]中的协议,模型在VID的训练分割和ImageNet DET [32]的子集的交集上进行训练,该子集具有与VID相同的类别。训练后的模型在VID的验证分割上进行测试在训练过程中,我们在每个GPU上使用一批三张图像来每个批次以1:1的比例从ImageNet VID或ImageNet DET中采样当从VID采样时,我们首先将图像采样为非关键帧Ii。然后,我们在非关键帧附近以随机偏移量采样另外两个图像Ik1和Ik2作为关键帧。具体地,如果Ii是视频的第n帧,则Ik1位于[-l + n,-0.5l + n],并且Ik2位于[-0.5l + n,0.5l + n],其中l是关键帧间隔。从ImageNet DET中采样时,有三张图像是相同的。在训练阶段中,仅为非关键帧提供标签。4.2. 结果我们比较了我们的框架与几个国家的最先进的视频对象检测的准确性和复杂性的方法。结果示于表1中。当使用ResNet101作为主干时,我们的方法在TITAN V\X上以30.8\18.7 fps的运行时间实现了77.1%的mAP。它超过了帧基线(即R-FCN[7]),显示了利用视频中的节奏信息来提高对象检测性能的潜力。与基于光流的方法(如DFF [43]和FGFA[42])相比,我们的方法实现了更高的mAP,并且仅比DFF稍慢。然而,值得注意的是,我们的方法将模型参数显著降低了近34%(96.6M→63.7M)。虽然MANET [35]实现了比我们的方法高1%的mAP,但它要慢得多当使用相同的主干时,Towards [41]不如我们的请注意,由于所提出的框架的高效率,它可以与更强大的主干一起使用,以进一步提高准确性,同时仍然保持快速运行。可以看出,使用ResNet101+DCN作为主干,我们的方法在TITAN V\ X上以26.0\13.34 fps的运行时间实现了80.0%mAP,这在准确性和速度方面都优于最近的进步。与我们最具竞争力的方法是ST-格[4],它以较低的mAP获得较高的fps。然而,ST-lattice需要一个额外的基于ResNet-101的分类器来重新评分边界框,并需要两个ResNet 18模型来传播和细化边界框。由于这些原因,它需要至少100M参数(所有模型都为了比较方法mAP(%)运行时(fps)型号尺寸骨干(参数)TCN [22]47.5--GoogLeNet主题方案网络[19]68.42.1(十)-GoogLeNetR-FCN [7]73.94.05(K)59.6MResNet101TCNN [20]73.8--GoogLeNetDFF [43]73.120.25(K)96.6MResNet101D(T loss)[10]75.8--ResNet101FGFA [42]76.31.36(K)100.4MResNet101美国(在线)[10]78.75.3(十)-ResNet101D T(δ=1)[1]79.8--ResNet101移动自组网[35]78.15(XP)-ResNet101ST-格[4]79.620(X)>100MResNet101向[41]78.613.0(X)-ResNet101+DCN我们77.130.8(V)\18.73(X)63.7MResNet101我们80.026.0(V)\13.34(X)72.2MResNet101+DCNFGFA [42] +[15]78.41.14(K)100.4MResNet101[15]第十五届全国人大常委会副委员长80.3--ResNet101[15]第37话80.51.2(十)-ResNet101我们的+[15]78.65.7(十)-ResNet101我们的+[15]81.46.31(V)\5.13(X)72.2MResNet101+DCN表1. 我们的方法和最先进的方法在ImageNet VID上的性能。其他方法的结果从他们的论文中获得,其中使用了不同的GPU。X表示泰坦X,XP表示泰坦XP,K表示K40,Ti表示1080 Ti,V表示泰坦V。我们最好的模型要小得多,需要大约72M参数。在与Seq-NMS [15]结合后,我们方法的mAP最终达到81.4%,据我们所知,优于所有最先进的方法。当与Seq-NMS组合时,MANET [35]和STMN [37]也实现了非常高的mAP,然而,它们遭受高计算复杂度,因为它们使用超过10个邻近帧以增强参考帧的特征。相反,我们的方法只需要几个关键帧来传播特征,同时减少了非关键帧的特征提取时间,从而大大减少了其运行时间。综上所述,我们的方法的整体性能优于以往的作品,实现了很好的平衡之间的精度,速度和模型大小。4.3. 消融研究我们在ImageNet VID上进行了消融研究,以验证PSLA和所提出的框架的有效性。在介绍了用于烧蚀研究的不同配置后,我们首先将PSLA与现有的非光流替代方案进行了比较。然后,我们比较PSLA光流。最后,我们对所提出的框架的不同模块进行了消融研究我们还表明,所提出的框架是通用的,足以使其他类型的特征传播方法。除了依赖于广泛使用的光流来传播特征图之外,文献中还有两种典型的替代方案,MatchTrans [37]和Nonlocal [36]。基本上,匹配-跨计算传播权重累积所有相似性分数在本地区域,而Nonlocal考虑所有位置。相比之下,PSLA使用逐渐稀疏的它还在计算传播权重时应用softmax,以便空间对应3916方法最大位移关键帧间隔最大平均接入点(%)表2.消融研究不同方法的配置* -15 72.2* -25 69.7* -35 67.5我们的方法(a)4 15 72.9(+0.7)我们的方法(a)4 25 70.5(+0.8)我们的方法(a)43568.5(+1.0)表4.在不同关键帧间隔下PSLA和DFF之间的比较。* 意味着我们的重新实施方法最大位移最大平均接入点(%)运行时(fps)参数(M)我们的视频检测框架中的不同方法,非本地S-72.1 40(V)62.7MatchTrans S 2 71.4 41.2(V)62.7DensePSLA S 2 72.9 41.2(V)62.7MatchTrans S 4 72.5 40.6(V)62.7DensePSLA S 4 73.6 40.6(V)62.7我们的方法(a)474.4 42.0(V) 62.7MatchTrans S 5 72.4 40.2(V)62.7DensePSLA S 5 73.0 40.2(V)62.7我们的方法(a)573.8 41.4(V) 62.7表3.不同特征传播方法的比较可以隐式地建立。为了更好地分析使用渐进稀疏局部区域的有效性,我们实现了PSLA的密集版本(表示为DensePSLA),其使用局部区域中的所有位置,如MatchTrans所做的那样,但是以与PSLA相同的方式计算传播权重(即,在softmax中,Equ.(四))。此外,为了展示不同特征传播方法的性能,实现了一个简单的目标检测框架,仅通过将前一关键帧的特征传播到非关键帧。这些方法通过将S添加到传播方法来表示,例如Nonlocal S,MatchTrans S。相比之下,F意味着在我们的视频检测框架中使用RFU和DenseFT模块。表2总结了消融研究中的所有这些评价方法。请注意,所有这些方法都使用了Transform Net,因为它可以根据我们的实验进行稳定的训练不同特征传播方法的性能表中列出了使用不同特征传播方法的结果。3 .第三章。通过关注局部区域而不是所有位置,我们的方法(a)大大优于Nonlocal S。此外,与MatchTrans S和DensePSLA S相比,我们的方法(a)在所有最大位移设置下都能获得更好的结果,并且运行时间也更少,这证明了在PSLA中引入渐进稀疏性的有效性和重要性。图6显示了速度和精度之间的权衡方法特征传播变换净RFU质量净非局部S非局部F非本地[36]非本地[36]✓✓✗✓✗✓MatchTrans SMatchTrans FMatchTrans [37]MatchTrans [37]✓✓✗✓✗✓DensePSLA SDensePSLA F致密PSLA致密PSLA✓✓✗✓✗✓我们的方法(a)我们的方法(b)我们的PSLAPSLAPSLA✓✓✓✗✓✓✗✗✓我们的方法(a)273.642.7(五)62.7MatchTrans S371.540.8(五)62.7DensePSLA S373.740.8(五)62.73917不同的最大位移2.基本上,更大的关键帧间隔意味着大量的非关键帧,其特征提取显著减少,因此运行时间更快。因此,通过为不同的方法设置不同的关键帧间隔,我们可以获得不同的mAP与不同的速度。 很明显所提出的方法在所有被评估的关键帧间隔上始终优于其它竞争方法。我们也可以从图中观察到。图6示出,mAP随着开始时的速度而增加(即,小的关键帧间隔),但是当关键帧间隔达到大的数字时减小。一方面,小的关键帧间隔只会引起关键帧和非关键帧之间的小的物体运动,这在感受野为16×16的高级特征图中很难捕捉到。因此,特征传播可能会聚集有害信息并伤害用户。另一方面,过大的关键帧间隔导致对象的非常大的运动,在这种情况下,建立空间对应是相当具有挑战性的。结果,当关键帧间隔被设置得太小或太大时,精度降低。为了验证PSLA在捕获特征图上的空间对应性方面的优势,我们将PSLA与DFF [43]进行了比较,DFF是利用光流进行视频对象检测的先驱工作。结果如表4所示,其中DFF的结果是通过我们自己的实现获得的。显然,我们的方法(a)比DFF执行得更好。关键帧间隔越大,相对改善越显著.它验证了通过直接建立特征图的空间对应关系,PSLA比基于光流的像素级对应关系更好地对齐两个特征图。所提出的框架的有效性表5给出了当逐渐添加RFU和DenseFT模块时我们的方法的结果。首先,仅使用PSLA从附近的关键帧传播特征实现了74.4%的mAP。2非局部方法是一种全局方法,因此它没有最大位移参数。因此,非局部F的四条曲线在图中是相同的。43918图6.mAP与运行时不同的方法。从左到右的结果对应于从2到5的最大位移d方法mAP(%)运行时间(fps)我们的方法(a)74.4 42.0我们的方法(b)75.8 31.2我们的方法(c)77.130.8非本地S 72.1 40.0非本地F 74.1 28.3MatchTrans S 72.5 40.6MatchTrans F 75.2 30.1DensePSLA S 73.6 40.6DensePSLA F 75.7 30.1表5.所提出的视频检测框架有利于各种特征传播方法。最大位移设置为4。所有结果均在TITAN V上进行测试。然后,通过利用RFU来建模用于特征传播的时间出现(即,方法(b)),我们的方法(a)的性能提高了1.4%。最后,通过添加DenseFT来增强非关键帧的特征表示,结果进一步提高到77.1%。RFU和DenseFT也被用于其他特征传播方法,我们可以从表5中观察到一致的性能改善。4.4. 扩展到其他任务图中所示的框架。2实际上可以用于本文所研究的目标检测之外的其他视觉任务。在这里,我们进行了一个简单的实验,视频对象分割,以证明我们的方法可能的扩展。具体来说,我们将本文中使用的R-FCN替换为deeplab [5],用于视频中的语义分割。 在这种情况下,我们的方法类似于低延迟[25]。不同之处在于,低延迟预测位置自适应内核权重来生成非关键帧的特征,而我们利用无参数PSLA来执行特征对齐。该实验在CityScapes上进行[6],其中包含来自50个不同城市的街道场景片段。我们在训练集上训练我们的框架,并在验证集上评估像素级的平均交集(mIoU)。更多的培训细节在补充材料中给出。结果总结于表6中。为了进行公平的比较,我们重新实现了帧基线和DFF,设置与我们的方法相同。我们的方法实现了非常方法mIoU(%)运行时(fps)DVS [38] 70.4 19.8(钛)DFF [43] 69.2 5.6(K)帧基线[43] 71.11.52(K) DFF(*)69.815.4(V)帧基线(*)72.1 6.2(V)我们的71.911.6(V)表6.城市景观不同方法的比较。* 意味着我们的重新实施以更高的fps接近帧基线的性能,验证了所提出的PSLA的有效性。与DFF和DVS相比,它还以合理的速度实现了最佳的mIoU。相比之下,DFF的运行时间比基线更快,但精度损失很大。与DVS [38]相比,我们实现了更好的mIoU。虽然速度更快,但DVS依赖于FlowNet来推广功能,因此具有更多的参数,并且不太适合实际场景。至于低延迟,由于其分段头未指定,因此很难直接比较。视频语义分割的良好结果表明了该方法在视频识别中的通用性。5. 结论在本文中,我们提出了一个新的框架,视频对象检测。在其核心,一个新的模块PSLA提出了有效地传播功能。此外,设计了RFU和DenseFT两种技术来建模时间外观和增强特征表示。我们在ImageNet VID上进行了消融研究,以证明我们的框架在视频对象检测上的有 效 性。 该 框 架 在ImageNet VID上 实 现了 81.4%的mAP,并且优于最先进的方法。在CityScapes上进行的视频语义分割实验验证了该框架的泛化能力。确认这项工作得到了中国国家自然科学基金61573352,61876180,91646207,61773377,CAST青年精英科学家资助计划(2018QNRC001)和北京自然科学基金L172053的支持。3919引用[1] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。CoRR,abs/1409.0473,2014。三、四[2] Antoni Buades,Bartomeu Coll,and J-M Morel.一种非局部图像去噪算法。在CVPR,2005年。3[3] Harold Christopher Burger,Christian J Schleman,StefanHarmeling。使用多层感知器的图像去噪,第2部分:培训权衡和分析其机制。CoRR,abs/1211.1552,2012年。3[4] Kai Chen,Jiaqi Wang,Shuo Yang,Xingcheng Zhang,Yuan-jun Xiong,Chen Change Loy,and Dahua Lin.通过尺度时间网格优化视频对象检测。在CVPR,2018年。二、三、六[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille. Deeplab:使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。T-PAMI,40(4):834-848,2018年。8[6] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。二、八[7] 戴纪峰,易力,何开明,孙建。R-fcn:通过基于区域的全卷积网络的目标检测。在NIPS,2016年。一、二、六[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流在ICCV,2015年。二、三、四[9] AA Efros和TK Leung。基于非参数
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功