没有合适的资源?快使用搜索试试~ 我知道了~
....................................103370增强记忆的全局局部聚合用于视频目标检测0陈一宏1,4 � 曹越3 胡晗3 王立伟1,201 数据科学中心,北京大学 2机器感知教育部重点实验室,北京大学电子工程与计算机科学学院 3微软亚洲研究院 4 浙江实验室0chenyihong@pku.edu.cn { yuecao,hanhu } @microsoft.com wanglw@cis.pku.edu.cn0摘要0人们如何在视频中识别物体?由于单帧的质量下降,人们可能很难仅通过一幅图像内的信息来识别遮挡的物体。我们认为,人们在视频中识别物体有两个重要线索:全局语义信息和局部定位信息。最近,许多方法采用自注意机制来增强关键帧中的特征,其中包括全局语义信息或局部定位信息。在本文中,我们介绍了增强记忆的全局局部聚合(MEGA)网络,这是首次充分考虑全局和局部信息的尝试之一。此外,通过一种新颖且精心设计的长程记忆(LRM)模块的支持,我们提出的MEGA能够使关键帧获得比任何先前方法更多的内容。通过这两种信息的增强,我们的方法在ImageNetVID数据集上实现了最先进的性能。代码可在https://github.com/Scalsol/mega.pytorch找到。01. 引言0在视频中检测对象与在静态图像中检测对象有何不同?一个快速的答案是信息存在于时间维度中。当孤立的帧可能遭受运动模糊、遮挡或失焦等问题时,人们自然而然地会从整个视频中寻找线索来识别物体。当人们对一个物体的身份不确定时,他们会试图从其他帧中找到与当前物体具有高语义相似性的不同物体,并将它们归为一类。我们将这个线索称为每个帧中的全局语义信息。0� 本工作是陈一宏在微软亚洲研究院实习期间完成的。0(a) 具有完全连接的视频目标检测。0(b) 局部聚合方法的聚合大小。0(c) 全局聚合方法的聚合大小。0基础模型0MEGA0(d) 我们提出的方法的聚合大小。0关键帧 局部帧 全局帧 候选框集合0局部语义和定位连接 全局语义连接0由长程记忆(全局和局部)增强的连接0图1. 解决视频目标检测的不同方法的聚合大小。0参考。但是,仅凭语义信息无法解决我们不确定一个物体是否存在的情况,例如,在黑暗中行走的一只黑猫。我们无法依靠语义信息告诉我们它在哪里,因为实例的存在在关键帧中尚未得到证实。如果有附近的帧,这个问题可以得到缓解。通过计算的运动等信息,我们可以在附近的帧中找到线索,从而确定物体的位置。我们将这种信息来源称为局部定位信息。为了更好地利用这两种信息,我们引入了增强记忆的全局局部聚合(MEGA)网络。MEGA通过有效地聚合全局和局部信息来增强关键帧的候选框特征。MEGA被实例化为一个多阶段结构。在第一阶段,MEGA旨在通过聚合全局和局部信息到关键帧来解决无效问题。然而,正如图1(d)的上半部分所示,可用内容仍然非常有限。因此,在第二阶段,我们引入了一种新颖的长程记忆(LRM)模块,使关键帧能够获得比任何先前方法更多的内容。特别地,我们不是为当前关键帧从头计算特征,而是重用在先前帧的检测过程中获得的预计算特征。这些预计算特征被缓存在LRM中,并在当前帧和先前帧之间建立起一个循环连接。请注意,与传统的内存不同,这些缓存的特征首先通过全局信息进行增强,这意味着当前关键帧能够不仅在局部范围内,而且在全局范围内访问更多信息。聚合大小为103380通过比较相邻帧之间的差异,我们可以在关键帧中定位物体。我们将这种信息来源称为局部定位信息。一般来说,人们主要通过这两种信息来识别物体。因此,直接借鉴这种思想,利用整个视频中的信息来增强视频目标检测方法,如图1(a)所示,是很直接的。然而,由于整个视频中存在大量的边界框,使用整个视频中的信息进行增强是不可行的。这激发了我们在保持效率和准确性之间进行近似的想法。近期解决视频目标检测问题的方法可以看作是不同的近似方法,并可分为两大类:局部聚合方法和全局聚合方法。像[36, 9, 27,1,7]这样的方法考虑在短的局部范围内利用语义和定位信息,如图1(b)所示。另一方面,[30, 6,23]只考虑边界框之间的语义影响,如图1(c)所示。不幸的是,这些方法都没有综合考虑局部和全局信息。我们将这称为无效问题。近期工作中存在的另一个问题是聚合的帧大小,即关键帧可以从中收集信息的数量。在之前的最先进方法[36, 9, 27, 1, 7,30]中,只选择了20-30个参考帧,持续时间只有1-2秒,用于特征聚合。这也在图1(b)和1(c)中有所说明。我们认为,在这个尺度上聚合的大小对于局部影响或全局影响的近似是不足够的,更不用说图1(a)了。在本文中,我们提出了增强记忆的全局局部聚合(MEGA)来解决上述无效和不足问题。具体而言,MEGA通过有效地聚合全局和局部信息来增强关键帧的候选框特征。MEGA被实例化为一个多阶段结构。在第一阶段,MEGA旨在通过聚合全局和局部信息到关键帧来解决无效问题。然而,正如图1(d)的上半部分所示,可用内容仍然非常有限。因此,在第二阶段,我们引入了一种新颖的长程记忆(LRM)模块,使关键帧能够获得比任何先前方法更多的内容。特别地,我们不是为当前关键帧从头计算特征,而是重用在先前帧的检测过程中获得的预计算特征。这些预计算特征被缓存在LRM中,并在当前帧和先前帧之间建立起一个循环连接。请注意,与传统的内存不同,这些缓存的特征首先通过全局信息进行增强,这意味着当前关键帧能够不仅在局部范围内,而且在全局范围内访问更多信息。聚合大小为0如图1(d)的下半部分所示。通过引入LRM,我们在保持简单和快速的同时,实现了解决不足问题的巨大飞跃。由于MEGA通过LRM实现的巨大聚合规模,我们在ImageNetVID数据集上实现了85.4%的mAP,这是迄今为止报道的最佳结果。02. 相关工作0图像中的目标检测。当前领先的目标检测器是基于深度卷积神经网络(CNNs)[17,24,25,14,3]构建的,并且可以分为两个主要类别,即基于锚点的检测器(例如R-CNN[11],Fast(er) R-CNN [10,21],Cascade R-CNN[2])和无锚点的检测器(例如CornerNet[18],ExtremeNet[34])。我们的方法是基于Faster-RCNN和ResNet-101构建的,它是最先进的目标检测器之一。视频中的目标检测。由于视频变化的复杂性,例如运动模糊,遮挡和失焦,将图像检测器的成功推广到视频领域并不是一件容易的事情。最近的方法[16,12,37,36,35,9,27,1,31,7,30]的主要关注点是通过利用时间维度中的信息来改进逐帧检测的性能。这些方法可以分为局部聚合方法和全局聚合方法。局部聚合方法[37,36,35,9,27,1,31,7]主要利用局部时间范围内的信息来辅助当前帧的检测。例如,FGFA[36],MANet [27]利用FlowNet[8]预测的光流在帧之间传播特征。像STSN [1],STMN[31]这样的方法直接学习对齐和聚合特征而不使用光流。除了这些像素级聚合方法之外,基于关系网络[15]的RDN[7]直接学习不同帧的候选框之间的关系,以增强框级特征。全局聚合方法[30,6,23]旨在直接利用语义信息增强像素或框特征。与在某种程度上依赖于时间范围内的局部性的光流或框之间的位置关系不同,语义相似性在一定程度上是独立于时间距离的。然而,一方面,摆脱局部性可以使模型利用超出固定时间窗口的丰富信息,另一方面,缺乏局部性信息会在定位时引入弱点。与那些单独将视频目标检测视为全局或局部的方法不同,MEGA旨在充分利用局部和全局聚合来增强特征表示。此外,通过内存的支持,可以利用更长内容的信息。超出局部范围的信息聚合。像我们的方法一样,试图聚合超出小范围的信息,[29,20,28,33]具有类似的思路和Lg = Ng(L, G),(3)Lg,k = f Nrm(Lg,k−1, G),k = 1, ..., Ng,(4)103390在不同领域中显示出优越的结果。[29]也尝试在全局和局部两方面聚合信息,然而他们的“全局”只是一个更大的局部范围,而我们的“全局”是整个视频。[20]保留了一个精心设计的内存来辅助视频分割,而我们的内存更简单且已经高效。[28]与我们共享了一个类似的关系聚合模块。然而,这个模块如何实例化并不是我们工作的主要关注点。03. 方法0在本节中,我们将详细阐述如何设计MEGA以使整个架构充分利用全局和局部信息。具体来说,MEGA首先将选定的全局特征聚合到局部特征中,然后,这些全局增强的局部特征与一种新的长程记忆(LRM)模块一起将更长的全局和局部信息聚合到关键帧中,以实现更好的检测。图2(b)中显示了一个概述。03.1.初步0视频目标检测的目标是为每一帧视频{It}Tt=1提供检测结果。假设要检测的当前帧是Ik,Bt ={bit}表示RPN在每一帧It上生成的候选框。将相邻帧{It}k+τt=k−τ中的所有候选框组合在一起形成局部池,即L ={Bt}k+τt=k−τ。对于全局特征,我们随机洗牌有序索引序列{1, ...,T}以获得洗牌后的索引序列S,然后顺序选择Tg帧并将其中的所有框组合在一起形成全局池。可以表示为G ={BSi}k+Tg−1i=k。最后,引入了一种新颖的长程记忆模块M,用于存储在前一帧的检测过程中产生的中间特征,使关键帧能够利用缓存的信息,从而具有建模长期全局和局部依赖性的能力。我们的最终目标是在L、G和M的帮助下为关键帧中的所有候选框Bk提供分类和回归结果。此外,我们用语义特征fi和定位特征gi表示每个框bi。gi表示空间信息(即高度、宽度、中心位置)和时间信息(即帧编号)。关系模块。我们选择用于挖掘框之间关系的运算符是[15]中引入的关系模块,受到多头注意力[26]的启发。给定一组框B ={bi},对象关系模块被设计为通过计算来自其他框的语义特征的加权和来增强每个框bi,其中M表示头的数量。从技术上讲,bi的第m个关系特征计算如下:0fm,�R(bi, B) = �0jωm,�ij ∙ (WmV ∙ fj), m = 1, ∙ ∙ ∙ , M, (1)0其中WmV是一个线性变换矩阵。关系权重ωm,�ij表示bi和bj之间的影响,用语义特征f和可能的定位特征g来衡量。这里�∈{L,N}表示是否将定位特征g合并到ω中,其中L表示合并,N表示不合并。由于在时间维度上两个远距离框之间的定位特征是冗余的,可能会损害整体性能,因此我们设计了无位置信息的版本,促使关系模块仅关注语义特征。请注意,与[15,7]不同,我们的定位特征中也包含时间信息,以区分来自不同帧的框的影响。这种时间信息以相对方式在ω中被纳入,如[5]中所述。最后,通过连接所有M个关系特征及其原始特征,我们获得输出的增强特征:0f�rm(bi, B) = fi + concat �� fm,�R(bi, B)� Mm=10�, (2)0其中�∈{L,N},含义与之前相同。生成增强特征后,我们还附加了一个非线性变换函数h(∙),实现为全连接层和ReLU。此外,我们可以扩展关系模块以建模两组框之间的关系。为了方便起见,我们使用符号f�rm(B,P)表示所有增强的候选框特征的集合,即{f�rm(bi,P)},其中B中的所有边界框通过P中的边界框的特征进行增强。03.2.增强的全局-局部聚合0全局-局部聚合对无效问题的处理。首先,我们将详细介绍如何通过将全局和局部特征聚合在一起来设计网络,以解决无效问题,即分别考虑全局或局部信息。我们将这种架构称为基础模型,并在图2(a)中描述。具体而言,首先将全局特征从G聚合到L中。更新函数可以表示为:0其中L l表示局部池的最终增强版本。我们将N l ( ∙ )的整个过程分解如下。第k个关系模块中的计算流程与N g (∙ ) 中的对应模块类似:0其中 f N rm ( ∙ ) 表示无位置关系模块,定义在公式(2)中,L g, 0 = L表示第一个关系模块的输入。后续的关系模块从前一个关系模块的输出中获取输入。最后,第Ng个关系模块的输出被作为Lg。在将全局特征聚合到局部特征中之后,我们进一步利用这些局部特征中的语义和定位信息来增强它们自身。为了实现这一点,我们采用了一堆N l个基于位置的关系模块。从技术上讲,整体函数可以总结为:global aggregation��(�, �)local aggregationrelation×��global aggregation��(�, �)enhanced lo(b) MEGALl = Nl(Lg),(5)Ll,k = f Lrm(Ll,k−1, Ll,k−1),k = 1, ..., Nl,(6)103400... ... 有序的视频帧0... ... 打乱的视频帧0全局池 c0局部池 h0回归0� � (h) 分类0关键帧0(a) 基础模型0... ... 有序的视频帧0... ... 打乱的视频帧0全局池 c0局部池 h0回归0� a� (h, i) 分类0关键帧0记忆 i0Figure 2. 基础模型和我们提出的MEGA的概述。为了方便说明,关键帧放在最右边。(a) 基础模型,局部池大小T l = 4,全局池大小T g =4,局部聚合阶段N l = 2:我们首先将全局信息从G聚合到L中(蓝色框中)。在实践中,这个阶段被实例化为一堆Ng个无位置关系模块。之后,利用N l个基于位置的关系模块来挖掘L中潜在的复杂时空信息(橙色框中)。可以看到,一个帧只能从Tl个局部参考帧和T g个全局参考帧中收集信息。(b) 我们提出的MEGA,记忆大小T m =3:引入的新型长程记忆模块M(灰色框中)使得关键帧能够从比基础模型更多的帧中获取信息。M缓存了之前帧的局部聚合堆栈的预计算中间特征。通过利用这些缓存的信息和M赋予的循环连接,一个帧能够在这个时间点上访问来自完全N l × T m + T l = 10个局部参考帧和N l ×T m + T g = 10个全局参考帧的信息,这是对基础模型中T l = 4和T g =4的巨大改进。此外,由于缓存的信息不需要任何更新,这使得引入的计算开销很低。在产生当前帧的最终增强特征之后,它们将传播到传统的RCNN头部以给出分类和回归结果。0以前的关系模块作为输入。最后,第Ng个关系模块的输出被作为Lg。在将全局特征聚合到局部特征中之后,我们进一步利用这些局部特征中的语义和定位信息来增强它们自身。为了实现这一点,我们采用了一堆Nl个基于位置的关系模块。从技术上讲,整体函数可以总结为:0其中L l表示局部池的最终增强版本。我们将N l ( ∙ )的整个过程分解如下。第k个关系模块中的计算流程与N g (∙ ) 中的对应模块类似:0其中f L rm ( ∙ ) 表示基于位置的关系模块,我们将Lg(L的全局增强版本)作为第一个基于位置的关系模块的输入。L l,N l被作为输出增强池Ll。完成最终更新后,属于关键帧的所有框特征将被提取并通过传统的RCNN头部传播,以给出分类和回归结果。这些提取的特征被表示为C。长程记忆用于不足问题。使用基础模型,单个帧能够聚合总共T g个全局参考帧的信息。0全局特征的帧和 T l 帧局部特征,如图 2(a)所示,这是解决“无效”问题的一大步。但是,“不足”问题仍然存在,即用于聚合关键帧的帧数太少。如果有无限的内存和计算资源,可以通过增加 T g 和 T l的值来解决这个问题,使其接近视频的长度。然而,在实践中,这是不可行的,因为资源是有限的。那么,在保持计算成本可承受的情况下,我们如何解决“不足”问题呢?受[5]中引入的循环机制的启发,我们设计了一个名为“长程记忆(LRM)”的新模块,以实现这个目标。总结一下,LRM通过充分利用预计算的特征,使基本模型能够捕捉到更长的全局和局部内容。我们将这个增强的版本称为 MEGA。有关MEGA 工作原理的概述,请参见图2(b)。为了看到基本模型的缺陷,假设 I k − 1 和 I k是两个连续的帧。当我们将检测过程从 I k − 1 移动到 I k时,我们丢弃了由 I k − 1上的检测产生的所有中间特征。因此,I k的检测过程无法利用 I k − 1的检测过程的任何优势,尽管它们在时间维度上是连续的。每次移动到一个新帧时,我们需要103410MEGA 推理算法01: 输入: 视频帧 { I t } ,长度为 T 2: 初始化: 长程记忆 M 为空 3: 对于 t = 1到 τ + 1 循环 4: B t = N RP N ( I t ) // 生成 I t 的候选框 5: 结束循环 6: //对于随机全局特征选择,对帧索引进行洗牌 7: S = 洗牌 (1 . . . T ) 8: 对于 t= 1 到 T g 循环 9: B S t = N RP N ( I S t ) // 生成 I S t 的候选框 10:结束循环 11: 对于 k = 1 到 T 循环 12: L = { B t } k + τ t = k − τ //用相邻帧形成局部池013: G = { B S t } k + T g − 1 t = k // 用随机帧形成全局池 14: L g = N g (L , G ) // 使用 Eq ( 3 ) 进行全局聚合阶段 15: L l = N El ( L g , M ) // 使用Eq ( 7 ) 进行增强的局部聚合阶段 16: C = Select- I k ( L l ) // 提取关键帧 Ik 的增强特征 17: D k = N RCNN ( C ) // 对关键帧进行检测 18: Update (M , L l, � k − τ ) // 更新长程记忆 19: B k + τ +1 = N RP N ( I k + τ +1 )20: B S k + Tg = N RP N ( I S k + Tg ) 21: 结束循环 22: 输出:视频的最终检测结果: { D k }0重新计算从一开始的所有内容。这激励我们记忆预计算的特征,以允许当前帧利用历史中的更多信息。在实践中,除了利用相邻帧 { I t } k + τ t = k − τ 的信息外,大小为 T m的长程记忆 M 还会额外提供相邻帧之前 T m 帧的特征,即{ I t } k − τ − 1 t = k − τ − T m ,以帮助检测 I k。具体来说,在完成对 I k − 1的检测过程后,与基本模型不同的是,我们不会丢弃在检测过程中计算的所有特征,而是将相邻帧 I k − 1的中间特征(即相邻帧 I k − 1 的第一帧)缓存在长程记忆M 中。这意味着,当我们的局部聚合函数 N l ( ∙ ) 定义为Eq ( 5 ) 中的一堆 N l 关系模块和 L l,i ,其中 i ∈ { 0 , N l }是第 i 个关系模块增强后的特征( i = 0表示输入),我们将提取并存储相邻帧 I k − τ − 1的所有层级特征,即 L l,i k − τ − 1 ,其中 i ∈ { 0 , N l },存储在 M 中。具体而言,M 共有 N l + 1 个层级,其中M i 缓存 L l,i k − τ − 1。每当对新帧完成检测过程时,将与该新帧的相邻帧的第一帧对应的特征添加到 M 中。通过引入 M并重复使用其中缓存的预计算特征,我们可以增强局部聚合阶段,以将 M 中的信息纳入 I k和后续帧的检测中。局部聚合的增强版本可以总结为0L l = N El ( L g , M ) (7)0与 N l ( ∙ ) 类似,N El ( ∙ ) 也是基于 N l基于位置的关系模块构建的,同时考虑了0M 考虑到:0L l,k = f L rm ( L l,k − 1 , [ L l,k − 1 , M k − 1 ]), k = 1, ..., N l, (8)0其中 [ ∙ , ∙ ]表示两个信息池的连接。与标准的更新函数相比,关键区别在于参考池的形成。与基本模型中一样,在最终更新完成后,将提取并传播C通过传统的RCNN头部,以给出当前关键帧的分类和回归结果。MEGA的详细推理过程在算法1中给出。LRM在多大程度上解决了无效和不足的近似问题?通过附加大小为Tm的长程记忆M,显然特征数量直接增加了Tm。但视野的增加远远超出了这个数字。请注意,我们增强的局部阶段由Nl堆栈组成,由于M引入的循环连接,关键帧可以每次迭代关系推理时从额外的Tm帧中收集信息,如图2(b)所示。最后但最重要的是,由于每帧的缓存特征首先通过不同的全局特征集进行增强,长程记忆不仅在局部上增加了聚合大小,而且在全局上也增加了。总结起来,具有Nl级增强的局部聚合阶段的模型可以从完全Nl×Tm +Tl个局部参考帧和Nl×Tm +Tg个全局参考帧中收集信息,其中Tl,Tg,Tm分别表示局部池、全局池和内存的大小。这是对基本模型中Tl和Tg的巨大跃迁。通过我们的模型更好地解决了无效和不足的问题,同时不会显著增加运行时间。这在第4节的表1中的优越实验结果进一步证明了这一点。04. 实验04.1. 数据集和评估设置0我们在ImageNetVID数据集[22]上评估我们提出的方法。ImageNetVID数据集是一个用于视频目标检测任务的大规模基准,包含训练集中的3,862个视频和验证集中的555个视频。该数据集包含30个物体类别。按照[36, 37, 27,35]广泛采用的协议,我们在验证集上评估我们的方法,并使用平均精度(mAP)作为评估指标。04.2. 网络架构0特征提取器。我们主要使用ResNet-101[14]和ResNeXt-101 [32]作为特征提取器。根据[36, 27, 7,30]的常见做法,我们通过修改卷积的最后一个阶段中第一个卷积块的步幅,即conv5,将特征图的分辨率放大。将步幅从2改为FGFA [36]ResNet-101✓76.3MANet [27]ResNet-101✓78.1THP [35]ResNet-101+DCN✓78.6STSN [1]ResNet-101+DCN✓78.9OGEMN [6]ResNet-101+DCN✓80.0SELSA [30]ResNet-101✓80.3RDN [7]ResNet-101✓81.8RDN [7]ResNeXt-101✓83.2FGFA [36]ResNet-10178.4ST-Lattice [4]ResNet-10179.6MANet [27]ResNet-10180.3D&T [9]ResNet-10180.2STSN [1]ResNet-101+DCN80.4STMN [31]ResNet-10180.5SELSA [30]ResNet-10180.5OGEMN [6]ResNet-101+DCN81.6RDN [7]ResNet-10183.8FGFA [36]Inception-ResNet80.1D&T [9]Inception-v482.0RDN [7]ResNeXt-10184.71034201.为了保持感受野的大小,这些卷积层的膨胀率设置为2。检测网络。我们使用Faster R-CNN[21]作为我们的检测模块。RPN头部添加在conv4阶段的顶部。在RPN中,锚点具有3个宽高比{1:2, 1:1,2:1}和4个尺度{64 2, 128 2, 256 2, 5122},每个空间位置产生12个锚点。在训练和推理过程中,每帧生成300个候选框,NMS阈值为0.7IoU。生成框后,我们在conv5阶段应用RoI-Align[13]和一个1024-D全连接层,为每个框提取RoI特征。MEGA。在训练和推理阶段,本地时间窗口大小设置为Tl =25(τ =12)。请注意,实际上关键帧两侧的时间跨度可能不同。为了提高效率,我们不保留RPN为每个局部参考帧生成的所有候选框,而是选择具有最高物体性得分的80个候选框。在局部聚合阶段的后面堆栈中,框的数量进一步减少到20。至于全局参考帧,我们总共选择了Tg =10帧和每帧具有最高物体性得分的80个提议。长程记忆的大小Tm设置为25。至于全局和局部聚合阶段,关系模块的数量分别设置为Ng = 1和Nl =3。对于每个关系模块,超参数设置与[15]相同。04.3. 实现细节0按照[ 36 , 27 , 7 , 30]中的常见协议,我们将模型训练在ImageNetVID和DET数据集的组合上。对于DET数据集,我们选择与VID数据集中相同的30个类别的图像。我们主要在maskrcnn-benchmark [ 19]上实现MEGA。输入图像的较短边被调整为600像素。整个架构在4个RTX 2080tiGPU上进行训练,使用SGD优化算法。每个GPU处理一个mini-batch,每个mini-batch包含一组图像或帧。我们总共训练网络120K次迭代,学习率在前80K次迭代中为10^-3,在后40K次迭代中为10^-4。推理时,采用0.5IoU阈值的NMS来抑制重复的检测框。训练。由于检测框的数量限制了训练过程与推理过程的一致性,我们采用了时序丢失策略[ 36 ]来训练我们的模型。给定关键帧I_k,我们从{I_t }_k+τt=k-τ中随机采样两帧,从整个视频中随机采样两帧,近似构成L,G。从{ I_t }_k-τ-1t=k-τ-T_m中选择额外的两帧构成M。为了方便起见,我们将它们命名为ˆL,ˆG和ˆLM。我们首先在ˆG和ˆLM上应用基础模型,并将生成的所有中间特征存储为ˆM。然后,ˆL,ˆG,ˆM通过完整的MEGA进行传播,生成C。最后,整个模型0方法 主干局部 全局 mAP(%)0MEGA (我们的方法) ResNet-101 � � 82.90表1. 与最先进的端到端视频目标检测模型在ImageNetVID验证集上进行性能比较。0方法 主干 mAP(%)0MEGA (我们的方法) ResNet-101 84.50MEGA (我们的方法) ResNeXt-101 85.40表2.与最先进的视频目标检测模型进行性能比较,包括后处理方法(例如Seq-NMS,Tube Rescoring,BLR)。0通过对C进行分类和回归损失的训练。需要指出的一点是,在构建ˆM时,我们停止了梯度流。这种行为类似于[ 5],但动机不同:我们希望模型更加关注最邻近的帧。04.4. 主要结果0表1显示了与最先进的端到端模型在没有任何后处理的情况下的结果比较。在所有方法中,MEGA取得了最佳性能,并且是唯一一种充分利用全局和局部信息的方法。使用ResNet-101主干,MEGA可以达到82.9%的mAP,相对于最强竞争对手RDN提高了1.1%。通过将主干特征提取器从ResNet-101替换为更强大的主干ResNeXt-101,我们的方法达到了预期的更好性能,84.1%的mAP。在所有竞争对手中,RDN是局部聚合方案中最具代表性的方法,而SELSA是全局聚合方案中的方法。RDN仅对短暂的局部时间范围内的关系进行建模,而SELSA仅建立稀疏的全局连接。如第1节所讨论的,这些方法可能受到近似不够有效和不足的影响。To examine the impact of the key components in ourMEGA, we conduct extensive experiments to study howthey contribute to our final performance.Long Range Memory. We would first explore the effectof LRM as it plays the key role in our full model. We showthe performance comparison results between base modeland MEGA in Table 3. As shown in the table, a gap of1.5% mAP exists between these two models, which is a sig-nificant improvement. Gap of 1% mAP still exists after in-creasing base model’s local span τ to τ + Tm2 , while runningat a much slower speed. We argue the superior performanceof MEGA is brought by the novel LRM module which en-ables one frame could gather information efficiently frommuch longer content, both globally and locally.Table 4 shows the results of removing global or local in-formation from MEGA. In the default setting, the numberof relation modules in the global aggregation stage and lo-cal aggregation stage is Ng = 1 and Nl = 3, respectively.To study the effect of global features, We simply set Ng to0 to remove the influence from it. As shown in the table,MEGA experiences a sheer performance loss of 1.6% mAPby removing the global features. We also conduct an exper-iment by setting Nl to 4 which means to keep the numberof parameters as the same as MEGA though it is not fullycomparable (the local range is larger). And this experimentgives 81.6% mAP which is still lower. The above resultsshow the importance of global feature aggregation.To see the importance of local information, we conductan experiment by setting Ng to 4 and Nl to 0, also the localtemporal window size Tl and the number of global refer-ence frames Tg is changed to 1 and 25, respectively. Underthis setting, one frame could only enhanced by global infor-mation while keeping the number of parameters the same asMEGA. The result is given in the last row of Table 4. As103430单帧 � 75.4 64 基础模型 � � 81.4 105.6 + 更大的本地范围 � � 81.9 1300MEGA � � � 82.9 114.50表3. 基础模型和MEGA的性能。0我们的方法在处理视频目标检测问题上表现出色,相比其他方法,我们的方法能够更好地解决遮挡和尺度变化等问题,取得了比其他方法更好的结果。与许多之前的方法一样,我们的方法也可以通过后处理获得进一步的改进。我们采用的后处理技术是BLR[7],它通过在整个视频中找到最优路径,然后重新评分每个路径中的检测框来完成。表2总结了使用不同后处理技术的最先进方法的结果。毫无疑问,我们的方法仍然表现最好,使用ResNet-101和ResNeXt-101作为骨干网络,分别获得84.5%和85.4%的mAP。04.5. 消融研究0方法 Ng Nl mAP(%)0MEGA 1 3 82.90MEGA(无全局阶段)0 3 81.30MEGA(无本地阶段)4 0 81.80表4.关于全局和本地特征聚合的消融研究。Nl和Ng分别是本地聚合阶段和全局聚合阶段的关系模块数。通过将Nl或Ng设置为0,可以消除本地或全局信息的影响。0从结果可以看出,这个结果比我们的完整模型低1.1%,说明了本地特征的必要性。从表3和表4可以得出一个有趣的结论。MEGA之所以能够获得更好的结果,是因为本地特征、全局特征和记忆的结合赋予了它优越的性能,而单独的三个组件是不够的。有了记忆,一个帧可以获取更多的全局和本地特征,反过来,这个增强的帧可以为我们提供一个更紧凑的记忆。这种方式证明了我们的直觉,即更好地逼近图1(a)是提高视频目标检测性能的一个有希望的方向。图3展示了视频目标检测中的一个难例。由于蜥蜴在一个罕见的姿势下呈现了相当长的时间,只利用本地信息无法告诉我们它是什么。前两行显示了单帧和本地聚合的结果。它们只利用本地信息无法识别出对象。通过考虑全局特征,模型通过从全局帧中聚合来自不同对象的特征克服了这个困难情况。最后两行显示了基础模型和MEGA的结果。随着更多信息的融合,结果变得更好,正如预期的那样。聚合规模。这里的聚合规模指的是一个帧可以从全局或本地收集的内容。总共有四个超参数,全局参考帧数Tg,本地参考帧数Tl,本地聚合阶段的关系模块数Nl和记忆大小Tm会影响聚合规模。结果见表5。(a)不同Tg的结果。可以看出,它们之间只有很小的差异。正如第3.2节所讨论的,一个帧可以看到的全局参考帧数是Nl×Tm+Tg,这表明Tg的影响与Nl和Tm相比很小。(b)对于Tl,结果与Tg类似。(c)(d)Nl和Tm的结果。这两个参数共同影响MEGA的全局和本地范围。当Nl或Tm较小时,MEGA的性能变差,这意味着较大的聚合规模很重要。当Nl或Tm变大时,改进趋于饱和,这可能表明适当的近似已经足够。关系模块的类型。正如我们之前讨论的,我们通过是否将位置信息纳入关系模块来区分两种类型的关系模块。........................lizard 0.302lizard 0.245lizard 0.637lizard 0.786103440单帧FasterR-CNN0仅本地聚合0基础模型0MEGA0图3. 各种不同数量的本地和全局信息的方法的示例检测结果。0(a)全局参考帧数Tg0Tg 5 10* 15 20 mAP(%)82.7 82.9 82.983.0运行时间(毫秒)111.6 114.5 117.4 124.20(b)本地参考帧数Tl0Tl 13 17 21 25* 29 mAP(%)82.6 82.7 82.8 82.982.9运行时间(毫秒)99.2 105.9 109.7 114.5 122.10(c)本地聚合阶段中的关系模块数目Nl Nl 1 2 3* 4mAP(%)82.1 82.5 82.9 83.0运行时间(毫秒)100.6108.7 114.5 122.30(d)内存大小Tm0Tm 5 15 25* 35 45 mAP(%)82.0 82.3 82.9 82.983.0运行时间(毫秒)111.3 113 114.5 115.4 116.10表5.对不同的全局参考帧数Tg,本地参考帧数Tl,本地聚合阶段中的关系模块数目Nl和内存大小Tm进行消融研究。*表示默认参数。0通过在全局聚合阶段加入位置信息,我们获得了82.5%的mAP的较差结果,这证实了将位置信息纳入全局聚合阶段会损害整体性能。在
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功