没有合适的资源?快使用搜索试试~ 我知道了~
9217基于序列级语义聚合的视频对象检测吴海平1陈云涛3,4王乃艳2张兆祥3,4,51麦吉尔大学2TuSimple3中国科学4中国科学院智能感知与计算研究中心5中国科学院脑科学与智能技术卓越中心mail.mcgill.ca{chenyuntao2016,zhaoxiang.zhang}@ ia.ac.cnwinsty@gmail.com摘要视频目标检测是近年来一个新兴的研究方向. VID的核心问题是由快速运动引起的视频帧的外观降级。这个问题对于单个框架来说基本上是不适定的。因此,聚合来自其他框架的特征成为一种自然的选择。现有的方法严重依赖于光流或递归神经网络的特征聚合。然而,这些方法更多地强调时间上邻近的帧。在这项工作中,我们认为,聚集功能在全序列水平将导致更多的歧视性和强大的视频对象检测功能。为了实现这一目标,我们设计了一个新的序列级语义聚合(SELSA)模块。进一步证明了该方法与经典谱聚类方 法 之 间 的 密 切 关 系 我 们 在 ImageNet VID 和 EPICKITCHENS数据集上测试了所提出的方法,并获得了新的最先进的结果。我们的方法不需要复杂的后处理方法,如Seq-NMS或Tubelet重新评分,这使管道简单而干净。1. 介绍近年来,使用深度卷积网络的对象检测取得了快速进展。更新的检测范式[8,25,11],强大的骨干[12,34]和大规模数据集[18,16]共同推动了目标检测的极限。视频对象检测(VID)已经成为一个新的挑战,超越了静止图像中的对象检测由于静止图像对象检测的快速发展,视频对象检测中检测器现在的主要挑战在于物体或相机在快速图1.视频对象检测的挑战。运动模糊,相机散焦和姿态变化.议案快速运动会带来静态图像设置中看不到的图像退化,如运动模糊,相机散焦和大姿态变化,如图1所示。静止图像检测器在这些情况下经常失败另一方面,视频提供比静止图像丰富得多的视觉信息。当对象的外观在帧中恶化时,自然包括来自视频的信息(例如,附近的帧)以减轻这种降级。图1中的第二列和第三列显示VID中的各种困难序列。虽然在这些困难的情况下,仍然有一些框架比其他框架更突出。一个好的视频对象检测器应该能够识别显着的意见,以改善其信念对这些退化的意见,如果他们是(语义)相似,无论是支持或否认他们的信念。注意,有用的信息不一定来自时间附近的帧,任何对象与任何帧中的感兴趣对象(甚至在同一帧内)共享高相似性都可能有贡献。后处理方法试图通过设计复杂的规则集来连接静态图像检测器生成的边界框,从而将视频级信息结合起来。这些9218两阶段方法不是联合优化的,并且可能导致次优结果。相反,端到端特征聚合利用从光流[37]或实例跟踪[29]估计的运动信息进行对象特征校准。特征校准方法严重依赖于精确的运动估计,这有点矛盾。在快速运动的情况下,物体的外观急剧退化。因此,在这种情况下,光流的结果通常是不令人满意的,这使得它对VID任务的帮助不大。为了以原则性的方式解除这种限制,我们需要更深入地研究视频本身。现有的工作一般都是将视频作为连续帧,因此主要利用时间信息来提高检测器的性能。例如,流引导特征聚合(FGFA)[36]在训练和测试期间最多使用21帧,这小于平均视频长度的5%。而不是采取连续的观点,我们建议将视频视为一袋无序的帧,并尝试在全序列水平上学习每个类的不变表示。这将视频对象检测从顺序检测任务重新解释为多镜头检测任务。在多镜头视图中,视频由对象的集群组成,每个集群包含数百甚至数千个镜头。对象的外观退化是类内特征方差较大的表现。因此,减少特征方差是解决外观变化的核心如前所述,时间特征聚合是一种用于特征方差减少的成熟方法。然而,它未能利用丰富的信息超过一个固定的时间窗口。我们通过在整个序列水平上聚类和增强特征来进一步。在这项工作中,我们提出了序列级语义聚合(SELSA)方法。本文介绍了受谱聚类启发的SELSA模块。感兴趣区域(ROI)的特征提取从整个视频采样帧,然后通过我们的聚类模块和变换模块。增强的特征被交给检测头,以获得最终的检测结果。我们的方法在大规模ImageNet VID和EPIC KITCHEN数据集上进行了全面测试。我们还设计了烧蚀实验来证明所提出的方法的有效性。我们使用Faster-RCNN检测器和ResNet- 101主干实现了82.7 mAP,使用ResNeXt-101主干实现了84.3 mAP,大大提高了最先进的结果在EPICKITCHENS [4]数据集上的实验表明,该方法可以推广到更复杂的场景.总之,我们的贡献有三个方面:1. 我们首先将视频检测问题视为一个序列级的多镜头检测问题,然后首次引入了VID任务的全局聚类观点。2. 为了将这样的视图结合到当前的深度对象检测流水线中,我们引入了一个简单但有效的序列级语义聚合(SELSA)模块来充分利用视频信息。3. 我们测试了我们提出的方法在大规模的ImageNetVID和EPIC KITCHEN数据集和demonstrate显着改善了以前的方法。2. 相关工作在本节中,我们简要回顾了与我们的方法密切相关的几个工作。2.1. 静止图像由于深度神经网络的成功,最先进的检测系统[25,3]基于深度卷积神经网络(CNN)。典型的两阶段检测器R-CNN [9]首先基于深度CNN从骨干网络中提取区域特征,然后对相应的边界框进行分类Fast R-CNN [8]提出了RoIPooling操作来加速区域特征提取过程。传统上,区域建议是通过选择性搜索生成的[28]。Faster R-CNN [25]中提出了区域支持网络(RPN),以使用与Fast R-CNN共享的骨干网络R-FCN [3]引入了位置敏感的RoIPooling操作,通过共享区域特征的计算来提高检测效率。另一方面,一阶段对象检测器基于来自CNN的前向特征图直接预测感兴趣的边界框。在没有额外的级的情况下,一级检测器通常比两级检测器更快代表作品包括YOLO [22]及其变体[23,24],SSD [19]及其变体[7,17]。然而,单级检测器很难扩展到更复杂的任务,如关键点检测和实例分割。同样,在我们的工作中,它很难扩展到提取命题级对象语义特征。因此,我们选择Faster R-CNN作为基本的静态图像检测器。最近,在[13,30]中研究了对象检测中对象之间的高级关系。这些工作模型的外观和几何关系的对象之间的proximations在一个单一的图像。这使得能够进行对象的联合推理并提高精度。由于嵌入了几何关系,因此它也可以用作重复删除步骤而不是NMS同样,我们的工作也捕捉对象之间的关系然而,我们特别捕获了通过语义相似性(视频中相同类别的对象)而不是对象之间的高级交互(例如[13]中的人与手套我们使用这些相似性来指导我们的特征聚合,并减轻视频(快速运动)引入的问题。92192.2. 视频中的目标检测对于视频中的对象检测,主要的挑战在于如何利用视频的丰富信息(例如,时间连续性)以提高静止图像检测器的精度和速度。先前的几项工作设计了各种后处理技术,通过利用时间信息应用于静止图像检测器的结果:Kang等人[15,14]提出了通过多上下文抑制(MCS)来抑制假阳性检测,并使用由光流计算的运动来跨帧传播预测的然后训练一个时间卷积神经网络对视觉跟踪产生的小块进行再核。Feichtenhofer等[6]以多任务方式执行单帧对象检测和跨帧对象移动回归(跟踪)。然后,它使用预测的运动将跨帧的检测链接到对象小块,并重新加权小块中的检测分数。Han等人[10]提出Seq-NMS使用跨帧的边界框IoU来形成高得分链接,然后将与每个链接相关联的框重新评分为链接的平均或最大得分。这些方法在静止图像检测时执行框级后处理,这可能是次优的,因为它们没有被联合优化。相比之下,我们的方法设法利用视频级的信息,在提案级的端到端的优化,没有后处理步骤。另一条工作线[14]集中于利用光流来提取运动信息以促进对象检测。然而,这种预先计算的光流既不高效也不与任务相关。深度特征流(DFF)[37]是第一个采用网络内微调光流计算的工作。它利用FlowNet [5]生成的光流将选定关键帧的特征传播并对齐到附近的非关键帧,从而减少冗余计算并加快系统速度。FGFA[36]建立在DFF [37]之上。然而,它的目标是通过使用光流对齐和聚合来自关键帧的特征来提高准确性。在DFF和FGFA的基础上,MANET [29]在FGFA的像素级特征标定和聚合模块之外增加了实例级特征标定和聚合模块,并通过运动模式推理模块将这两个层次结合起来此外,[35]和[1]设计了更先进的特征传播和关键帧选择机制,以提高准确性和速度。使用光流来校准跨帧的特征可能是容易出错的,因为对象的位置,外观和姿态可能会发生显着变化,其中光流估计,完善其初步检测结果。Lu等人[20]使用as-associationLSTM来解决连续帧之间的对象关联。STMN [33]使用时空记忆模块作为循环操作,通过视频传递信息与[33]不同的是,我们的方法不需要按时间顺序使用内存模块传递信息。我们在多镜头视图中形成聚类和聚合特征,以代替捕获视频的丰富信息。此外,我们的聚类和特征聚合是在实例级特征上进行的,其中冗余的像素级计算是不必要的。此外,它更侧重于感兴趣的主题。3. 方法在本节中,我们首先描述我们的序列级语义聚合(SELSA)方法的动机第3.1条然后,我们详细阐述了我们的SELSA模块的细节。3.2.我们进一步解释我们的方法从第二节的聚类视图。三点三最后,我们讨论了我们的方法和现有的工作之间的关系,在第二节。三点四分。3.1. 动机在视频检测中,特征聚合是一种有效的抑制外观退化的方法。该方法的关键是选择合适的特征进行聚合。先前的方法[29,36]通常利用来自短时间窗口的特征。但是,外观恶化可能跨越很宽的时间窗口,从而使基于时间的方法不太有效。此外,帧在短时间窗口内可能是高度冗余的,从而削弱了特征聚合的优势。为了解决这个问题,我们建议从语义邻域中聚合特征,这是不容易受到持续的外观退化的时间。3.2. 序列级语义聚合功能聚合的理想方式是在地面实况tracklet内聚合。但在测试阶段,跨帧提案的黄金关联不可用。受多对象跟踪系统中流行的基于ReID的关联的启发[32],我们提出将跨时空的提议与它们的语义相似性联系起来。这种基于语义特征的关联方法以其对外观变化的鲁棒性而闻名。语义引导对于每个帧f,令Xf={xf,xf,···}是RPN网络生成的建议1 2它变得不可靠。与这些方法不同,我们的方法不打算按时间顺序来自Faster-RCNN的工作对于特定的一对提案,(xk,xl),我们度量它们之间的语义相似度I j信息. 我们在提案层面上聚合功能,这使得我们的方法更鲁棒和优越。Tripathi等人[27]训练一个递归神经网络,用广义余弦相似度:wkl=φ(xk)T(xl),(1)i j i j9220AA=0图2.提出的模型的总体架构。我们首先从视频中提取不同帧中的建议,然后跨帧计算建议最后,我们根据这些相似性聚合来自其他建议的特征,以获得更具鉴别力和鲁棒性的目标检测特征。其中φ(·)和φ(·)是一些一般的变换函数。相似性越高,表明提案在同一类别中的可能性越高。特征聚合在定义提议之间的相似性之后,语义相似性现在用作参考提议聚合来自其他提议的特征的指导。通过跨多个pro-task进行聚合,新的proposal功能包含更丰富的信息,并且应该对姿态变化、运动模糊和对象变形等外观变化具有鲁棒性。此外,由于相似性是建立在建议的水平上,他们是更强大的光流相比,在特征图中的每个位置上计算。为了保持聚合后特征的大小,我们使用softmaxSIC谱聚类算法这揭示了SELSA如何从类内方差减少的角度工作。以提案X为节点,相似度W为边,我们可以在提案上定义语义相似度图G=(X,W)从概率的角度来看,图G上的随机游动由随机矩阵T控制,该随机矩阵T通过将W中的每一行归一化为和而1. Tij描述在随机游走期间从提议i到提议j的转移概率属于同一类的建议应该形成一个子图AX。对于特征聚合,我们特别感兴趣的是最大限度地减少错误聚合产品特征的风险不属于引用类的对象这种风险可以用从子图A<$=X-A到子图A的转移概率PA<$A来衡量。子图之间的转移概率形式上是在所有提案中发挥作用形式上,假设我们从视频中随机挑选的F个帧中聚合,每个帧中产生N个建议,聚合的定义为,πTP<$i∈A,j∈A我ij,(3)i∈A<$πi参考建议的特征定义为:其中πi=ΣkWjk/ Σj,kWjk表示平稳的x÷k= ΣΣNwklxl,(2)图的分布πi表示连接一个提案与其他提案之间的强度iij jl∈Nj=1其中,帧索引是为聚合随机选择的帧索引的集合。SELSA模块是完全可区分的,可以使用标准SGD进行端到端优化。在聚合之后,增强的建议特征被进一步馈送到检测头网络中用于分类和边界框回归。图2显示了建议的SELSA模块的工作方式。3.3. 谱聚类观点graph.如[21]中所证明的,转移概率等价于归一化最小割,NCut(A,A<$)=PA A <$+PA<$A。(四)从传统谱聚类的观点来看,随机矩阵T是固定的,通过寻找最优分割点A,A′来最小化转移概率. 然而,从监督式深度学习的角度来看,从提案特征中导出的随机mart-marts是要操作的变量,除了简单直观的公式,timize,最优分割A,A′给出了 最佳-方法,我们进一步揭示了它与类的密切联系T的最小化被进一步传播到建议特征9221和用于区分特征学习的骨干网络。此外,[21]给出了T的期望形式,即块对角矩阵w。r.tA,A′,它是建议功能聚合的理想指南。3.4. 连接到图形卷积网络最近,Wanget al. [31]已经将GCN应用于视频分类任务。他们建立了一个时空图,使用了与我们相似的亲和力测量。在他们的工作中,他们将图的边作为时空中的一般关系,主要关注视频中对象的高阶交互建模。然而,在我们的工作中,我们设计的SELSA模块,以细化的参考建议,它们之间的关系,这导致了不同的动机和优化目标的功能。4. ImageNet VID在本节中,我们首先介绍了数据集和评估指标用于VID在秒。4.1,然后是我们的方法的实现细节,在第4.1节。四点二。接下来,我们将在第2节中对SELSA模块的设计选择进行论证。4.3通过消融研究。我们还研究了现有的后处理技术对我们的方法的影响最后,我们比较我们的方法与其他国家的最先进的方法。4.1. 数据集和评价设置组件(一)(b)第(1)款(c)第(1)款语义聚合序列级信息CCC最大平均接入点(%) 73.6275.26 ↑1. 64 80.25↑6.63mAP(%)(缓慢)82.1283.59 ↑1. 47 86.91↑4.79mAP(%)(中)70.9672.88 ↑1. 92 78.94↑7.98mAP(%)(快速)51.5351.43 ↓0. 10 61.38↑9.85表1. ImageNet VID验证集上的检测结果。对于序列级方法,测试时使用21帧。不使用后处理技术。与基线相比的绝对增益显示在下标中。165k次迭代。对于训练,一个训练帧与来自同一视频的两个随机帧(DET数据集的相同帧)一起被采样。对于推断,来自同一视频的K帧与推断帧一起被采样。在训练和推理中,图像的大小都被调整为600像素的短边。4.3.消融研究在本小节中,我们将研究每个设计选择和参数设置的影响。我们使用ImageNet VID和DET数据集的混合来训练我们的模型,其中FGFA [36]中提供了分割。我们在ImageNet VID数据集上评估了我们提出的方法[26]。我们在验证集上报告了IoU=0.5时的mAP和运动特异性mAP。4.2.实现细节我们使用ResNet-101 [12]作为消融研究的骨干网络。ResNeXt-101-32×4d [34]也用于最终结果。conv5块的总步幅从32变为16,卷积扩大。检测网络RPN应用于conv4的输出。使用3个尺度和3个纵横比的缩放器。后快R-CNN应用于conv 5的输出。我们应用两个完全连接(FC)层的ROI汇集功能,然后进行分类和边界框回归。SELSA模块我们在网络中插入两个SELSA模块。每一个都被插入到Faster R-CNN中的一个全连接层之后(FC→ SELSA→ FC→ SELSA)。方程中的一般变换函数。1、即时作为一个完全连接的层。训练和测试细节骨干网络使用ImageNet预训练的权重进行初始化。SGD训练的总共220 k次迭代是用一个to-在4个GPU上处理4批大小。初始学习率为2.5×10−4,在110k处除以10,9222SELSA的有效性 表1比较了我们提出的方法与单帧基线。列(a)显示了我们的单帧基线的结果。它使用ResNet-101作为主干,并实现了73.62的合理mAP[36]。列(b)在单个帧内执行语义聚合(SA)更具体地说,只有从同一帧获得的建议被认为是可能的语义邻居的聚合。与基线相比,这导致1.64 mAP的增益。当具有相同语义的多个对象或对应于同一对象的多个建议出现在同一帧中时,因此,语义聚合的建议特征被增强为上下文信息,如[13,2]中所述,从而导致性能改进。注意,对于快速运动下的对象,mAP(快速)没有接收到超过基线的改善这表明,由快速运动引起的外观退化不能通过上下文或对象交互信息来补救。列(c)是所提出的SELSA方法。它利用SELSA模块,以提高建议的功能,从完整的视频序列的采样语义邻居。它给出了80.25的mAP,与基线方法相比有6.63 mAP的大改进。请注意,它将快速运动中的运动特定性能提高到61.38 mAP,与922378.077.577.076.576.075.580.079.579.078.578.077.577.076.581.080.580.079.579.078.575.05 9 13 1721#测试帧76.012 4 6 8 10步幅78.059131521#测试帧(一)(b)第(1)款(c)第(1)款图3.不同测试设置的消融分析。(a)不同帧数对序贯测验成绩的影响。(b)不同取样步幅对序贯测验绩效之影响(c)不同帧数对混洗测试性能的影响与基线。与列(b)和(c)相比,很容易看出,我们的方法直接从聚集序列水平特征而不是图上的高阶相互作用信息中收获高质量特征三点四分。特征聚合的采样策略帧采样策略对于视频检测至关重要。正如以前的作品[33,36]所指出的,在测试期间在特征聚集中使用更多的帧此外,[33]在测试过程中以均匀的步幅对帧进行采样,以提高性能。我们研究的影响,使用的帧数和采样步幅时,测试我们的方法。具体地,通过使用采样步幅S,每S帧中的一个帧被用于测试,而不是连续的帧。首先,我们使用采样步幅1并改变聚合中使用的帧的数量如图3(a)所示,随着更多的帧用于测试,性能不断提高。例如,使用21个帧而不是5个帧进行聚合有助于1.04 mAP的改进。然后,我们将聚合的帧数固定为21,并检查采样步幅的影响。图3(b)显示了不同样本步幅的性能。将采样步幅从1增加到10进一步将性能从77.02提高到79.36 mAP(2.34 mAP的增益)。请注意,采样步长对性能的影响通常大于测试帧的数量,这与我们的假设一致,即我们的序列级方法可以从样本多样性中受益更多。使用光流或RNN的其他特征聚合方法可能不会受益于较大的步幅,因为它违反了这些方法的时间连续性假设如前所述,VID中用于聚合的良好特征应该在外观和姿势方面更加多样化这一点-语义邻居的使用,而不是时间的邻居。因此,采取进一步的步骤,我们采样语义邻居均匀地从完整的视频序列,而不管时间顺序(混洗测试集)。 这是可行的,因为我们的方法不依赖于任何时间信息(例如,光流),并且也不执行跨帧的特征对准操作。我们的方法是免除可能的不准确预测的时间信息(例如,光流估计[36]、边界框移位预测[6])和特征对准过程[37,29],这在运动较大时很重要。事实上,在基于光流的方法[29]中已经显示出性能下降,因为当超过某个阈值([29]中的12帧)时帧的数量相反,我们的方法在图3(c)中示出了其在整个视频序列级别中执行特征聚合的能力。正如我们所看到的,在混洗测试中仅使用5帧已经达到了与在跨步测试中使用21帧相同的性能水平。使用21帧和混洗测试得到的mAP 为80.25。这引入了0.89 mAP的改进,相对于79.36 mAP,其中使用10个采样步幅和总共21个帧。这种增益来自于在语义邻居而不是时间邻居中采样更多的不同特征,这进一步显示了SELSA用于捕获用于特征聚合的完整序列级信息的有效性这是以下实验中的默认测试设置。数据增强现有的VID数据集通常缺乏语义多样性。视频中的帧彼此高度相似,因此导致潜在的过拟合。因此,我们采用数据增强来缓解这个问题。除了原始的随机翻转操作之外,还使用了[19]中的光度失真、随机扩展和随机裁剪。这给我们带来了2.44 mAP的改进,当使用ResNet-101骨干时,导致82.69 mAP。最大平均接入点最大平均接入点最大平均接入点9224骨干ResNet-101ResNeXt-101方法骨架mAP(%)Seq-NMSCC最大平均接入点(%)82.6982.48↓0. 2184.3083.73 ↓0.57表2.后处理对我们方法的影响。绝对-与没有Seq-NMS的方法相比的鲁特增益在下标中示出。4.4. 视频级后处理技术我们的方法的一个优点是,它不依赖于后处理方法(例如Seq-NMS),以纳入全序列水平的信息。几乎所有最先进的视频检测系统[36,29,6,1,33]都采用了后处理方法,这在性能上有很大的提高为了说明我们的方法已经捕获了全序列水平信息,我们进一步对我们的方法应用Seq-NMS后处理表2显示了使用不同骨干网络时Seq-NMS如何影响我们的方法的结果。很容易看出,添加Seq-NMS对结果的影响很小特别地,将Seq-NMS添加到ResNet-101/ResNext-101骨干网络产生0.21/0.57mAP下降。参考表3,后处理方法已经在现有的最先进的方法上引入了大的性能改进:对于FGFA [36]为2.1 mAP,对于具有Seq-NMS的MANET [ 29 ]为2.2 mAP,对于具有tubelet rescore的D(&T损失)[6]为4 mAP。 相比之下,几乎Seq-NMS在我们使用ResNet的方法中没有任何收益101作为骨干网络的实验结果表明,该方法已经通过SELSA模块捕获了大量的全视频级信息,而无需任何后处理技术。此外,与Seq-NMS等涉及两个单独阶段的后处理方法不同随着主干特征网络变得更强,我们的方法甚至可以更好地利用这样的序列级信息,从而显示出比Seq-NMS更好的结果,其中单独的后处理步骤可能导致次优结果。4.5. 与最新方法的比较表 3 总 结 了 我 们 的 方 法 和 其 他 最 先 进 的 方 法 在ImageNet VID验证集上的性能我们的方法在各种测试设置中达到最佳性能。在没有视频级后处理技术的情况下,与FGFA [36](76.3 mAP)和MANET [29](78.1 mAP)相比,我们的方法明显更好(80.25 mAP),分别比这两种方法高出3.95和2.15 mAP。它还以4.45 mAP的大幅度优于D(T损失)[6]D T*[6]ResNeXt-10181.6D T*[6]inception-V482.1我们ResNeXt-10183.11我们的△ResNeXt-10184.30表3.在ImageNet VID验证集上与最先进的系统进行性能比较*表示使用视频级后处理方法(例如Seq-NMS、tubelet重新评分)。+ in-表示使用模型emsembling。△表示使用数据扩充。表3的中间部分显示了与利用序列水平后处理技术的方法的比较。FGFA*、MANet* 和STMN*+[33]使用Seq-NMS,而DT * [6]、ST-Lattice* [1]使用tubelet重新评分。我们的方法,通过使用Seq-NMS作为后处理方法,实现了80.54 mAP,这略优于以前的最先进的方法STMN*+。此外,通过插入存储器ResNeXt-101,我们的方法在没有任何后处理技术(例如Seq-NMS)的情况下实现了83.11 mAP的性能,这大大超过了具有相同主干和小管重排序的DT(1.15 mAP)。我们的方法优势从更好的骨干网络引入的更强的代表性力量当配备训练数据增强时,我们的方法显示ResNet-101/ResNeXt-101的显著增益为这表明SELSA可以在聚合期间从提案功能的多样性中受益。这些结果揭示了我们提出的方法的潜力。5. Epic Kitchen的其他实验ImageNet VID数据集在对象的密度和多样性方面不足。在这里,我们在EPIC KITCHENS数据集上评估SELSA [4]。5.1. 数据集和评价设置EPIC KITCHENS [4]是一个大规模的以自我为中心的 数 据 集 , 捕 捉 厨 房 里 发 生 的 日 常 活 动 在 EPICKITCHENS数据集中,每帧包含avg/max 1.7/9 ob-FGFA [36]76.3D(T损失)[6]MANet [29]ResNet-10175.878.1我们80.25FGFA*[36]78.4MANet*[29]80.3ST-Lattice*[1]D T*[6]ResNet-10179.679.8STMN*+[33]80.5我们的 *80.54我们的△82.699225图4.我们的方法在EPIC KITCHENS上的可视化结果这是一个更加复杂和具有挑战性的问题。视频对象检测任务由32个不同的厨房组成,具有跨越290个类的454,255个对象边界框。在28个厨房中捕获的272个视频序列用于训练。在相同的28个厨房(S1)中收集的106个序列和在其他4个未看见的厨房(S2)中收集的54个序列用于评估。视频以1秒间隔进行注释。5.2. 实现细节大多数情况下,我们采用与Ima-geNet VID数据集相同的网络设置。除了随机水平翻转之外,不使用数据增强。总共60万次SGD迭代训练在4个GPU上进行。初始学习率为2。5×10−4,并在300k次迭代时除以10。对于训练和推理,我们在一个SELSA模块的±105.3. 结果和分析S1方法mAP@.05mAP@.5mAP@.75EPIC [4]45.9934.188.49Faster R-CNN53.1236.579.97我们54.6737.979.81S2方法mAP@.05mAP@.5mAP@.75EPIC [4]44.9532.017.87Faster R-CNN48.9131.867.36我们50.2534.808.10表4. EPIC KITCHENS测试集的性能比较。S1和S2表示可见和不可见的分割。在这里,我们介绍了EPIC KITCHENS数据集的一些初步结果。如表4所示,SELSA相对于更快的R-CNN基线改进了1.4/2.94 mAP,用于可见/不可见分裂。虽然培训计划和超参数选择远不是最优,我们的方法仍然取得了有希望的结果。这表明SELSA适用于更复杂的视频检测任务。图4显示了我们的方法的一些结果。6. 结论在这项工作中,我们提出了一个新的视角VID问题,采取全序列级的特征聚合。我们没有使用光流或RNN等方法,而是提出了一个简单而有效的SELSA模块,用于跨帧聚合语义特征。由于聚合是在建议级别而不是特征图甚至像素级别上进行的,因此我们的方法对运动模糊和大姿态变化更鲁棒。此外,我们推导出我们的方法和经典的谱聚类方法之间的联系,提供了一个新的聚类我们的方法。广泛的消融分析证明了所提出的SELSA模块的有效性当与以前的方法相比,我们的方法实现了优越的性能,没有复杂的后处理方法。承认这项工作得到了中国国家重点&研发计划(No.2018YFB1402605 ) 、 北 京 市 自 然 科 学 基 金 ( No.Z181100008918010 ) , 国 家 自 然 科 学 基 金 ( No.61836014号61761146004号61773375号61602481)。作者要感谢NVAIL的支持。引用[1] Kai Chen,Jiaqi Wang,Shuo Yang,Xingcheng Zhang,Yuan-jun Xiong,Chen Change Loy,and Dahua Lin.通过尺度时间网格优化视频对象检测。在CVPR,2018年。三、七9226[2] 陈哲,黄少立,陶大成。用于对象检测的上下文细化。在ECCV,2018。5[3] 戴纪峰,易力,何开明,孙建R-FCN:通过基于区域的全卷积网络进行对象检测。在NIPS,2016年。2[4] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al.缩放自我中心的愿景:epic-kitchens数据集。在欧洲计算机视觉会议(ECCV)的论文集,第720-736页二七八[5] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。FlowNet:使用卷积网络学习光流。CVPR,2015。3[6] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。InICCV,2017. 三六七[7] Cheng-Yang Fu , Wei Liu , Ananth Ranga , AmbrishTyagi,and Alexander C Berg. DSSD:DeconvolutionalSingle Shot Detector。arXiv:1701.06659,2017。2[8] 罗斯·格希克。快速R-CNN。CVPR,2015。一、二[9] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。2[10] Wei Han , Pooya Khorrami , Tom Le Paine , PrajitRamachan-dran , Mohammad Babaeizadeh , HonghuiShi , Jianan Li , Shuicheng Yan , and Thomas SHuang.Seq-NMS 用 于 视 频 对 象 检 测 。 arXiv :1602.08465,2016年。3[11] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面罩R-CNN。InICCV,2017. 1[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。一、五[13] Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,andYichen Wei.用于对象检测的关系网络在CVPR,2018年。二、五[14] Kai Kang,Hongsheng Li,Junjie Yan,Xingyu Zeng,BinYang,Tong Xiao,Cong Zhang,Zhe Wang,RuohuiWang,Xiaogang Wang,et al. T-CNN:使用卷积神经网络的Tubelets用于视频中的对象检测。TCSVT,2017年。3[15] Kai Kang,Wanli Ouyang,Hongsheng Li,and XiaogangWang. 用 卷 积 神 经 网 络 从 视 频 管 中 检 测 目 标 。 在CVPR,2016年。3[16] Alina Kuznetsova 、 Hassan Rom 、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放图像数据集v4:统一的图像分类,对 象检测,和视 觉关系检测 的规模。 arXiv:1811.00982,2018。1[17] Tsung-YiLin , Priyal Goyal , Ross Girshick , KaimingHe,and PiotrDol la'r. 密集目标检测的焦面损失。TPAMI,2018年。2[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。2014年,在ECCV。19227[19] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy,Scott Reed,Cheng-Yang Fu,andAlexander C Berg. SSD:单次触发多盒探测器。在ECCV,2016年。二、六[20] 卢永义,卢策武,唐志强。使用关联LSTM进行在线视频对象检测。InICCV,2017. 3[21] Marina Meila和Jianbo Shi。频谱分割的随机游走视图AISTATS,2001年。四、五[22] Joseph Redmon ,Santosh Divvala,Ross Girshick,and Ali Farhadi.你只看一次:统一的实时对象检测。在CVPR,2016年。2[23] 约瑟夫·雷德蒙和阿里·法哈迪YOLO9000:更好、更快、更强。ICCV,2017年。2[24] 约瑟夫·雷德蒙和阿里·法哈迪YOLOv3:渐进式改进。arXiv:1804.02767,2018。2[25] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN:用区域建议网络进行实时目标检测。2015年,在NIPS中。一、二[26] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang ,Andrej Karpathy ,Aditya Khosla, MichaelBernstein,Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。IJCV,2015年。5[27] SubarnaTripathi , ZacharyCLipton , SergeBelongie,and Truong Nguyen.背景很重要:使用递归 神 经 网 络 改 进 视 频 中 的 对 象 检 测 。 arXiv :1607.04648,2016年。3[28] Jasper RR Uijlings、Koen EA Van De Sande、TheoGev ers和Arnold WM Smeulders。目标识别的选择性搜索。International Journal of Computer Vision,104(2):154-171,2013。2[29] Shiyao Wang , Yucong Zhou , Junjie Yan , andZhidong Deng.用于视频对象检测的完全运动感知网络。在ECCV,2018。二三六七[30] 王晓龙,Ross Girshick,Abhi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功