基于TubeletProposal网络的视频目标检测

37 浏览量更新于2023-10-16 收藏 2.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于Tubelet Proposal网络的视频目标检测康凯1，2李洪生2，肖彤1，2欧阳万里2，5严俊杰3刘锡辉4王晓刚2，王伟1深圳市计算机科学重点实验室目视专利建议：中国科学院深圳先进技术研究院2香港中文大学3商汤科技集团有限公司4清华大学5悉尼大学@ ee.cuhk.edu.hkyanjunjie@sensetime.comxh-liu13@mails.tsinghua.edu.cn摘要随着大规模ImageNet VID数据集的引入，视频中的对象检测最近引起了越来越多的关注。与静态图像中的目标检测不同，视频中的时间信息对目标检测至关重要。为了充分利用时间信息，现有技术的方法[15，14]基于时空小块，其基本上是跨时间的关联边界框的序列。然而，现有的方法在产生小管的质量和效率方面具有很大的局限性。基于运动的[14]方法能够有效地获得密集的tubelet，但长度通常只有几个帧，这对于合并长期时间信息不是最佳的。基于外观的[15]方法通常涉及通用对象跟踪，可以生成长的tubelet，但通常计算成本很高。在这项工作中，我们提出了一个用于视频中对象检测的框架，该框架由一个新的tubelet建议网络和一个长短期记忆（LSTM）网络组成，前者用于有效地生成时空建议，后者将tubelet建议中的时间信息整合在一起，以实现视频中的高对象检测准确性。在大规模ImageNet VID数据集上的实验证明了所提出的视频对象检测框架的有效性。1. 介绍随着深度神经网络的出现，目标检测的性能最近得到了显著的提高。提出了新的神经网络结构，如GoogLeNet [29]，VGG [27]和ResNet [8]，以提高各种计算机视觉任务的大规模计算机视觉数据集的学习能力，如对象检测[5，24，23，21]，语义分割[5，24，23，21]，语义分割[5，24，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，23，2站[20，2，16]，跟踪[31，1，33]，场景理解[25，26，19]、人员搜索[18，32]等。 State-of-the-art通讯作者（一）（b）第（1）款（c）第（1）款（d）其他事项图1. 提出了视频对象检测的方法。(a)原始帧。(b)静态提案没有时间关联，这很难将时间信息用于提案分类。(c)边界框回归方法将集中在主要对象上，失去建议多样性，并且还可能导致召回率下降，因为所有建议倾向于聚集在主要对象上。(d)理想的建议应该具有时间关联，并且具有与对象相同的运动模式，同时保持它们的多样性。静态图像的对象检测框架基于这些网络，并且包括三个主要阶段[6]。首先根据每个位置包含感兴趣对象的可能性从输入图像生成绑定框建议。然后，从每个框提案中提取外观特征这样的边界框及其相关联的类分数通过后处理技术（例如，非最大抑制）以获得最终检测结果。多种框架，如Fast R-CNN [5]和Faster R-CNN [24]，遵循了这一研究方向，并最终将对象检测问题模拟为训练端到端深度神经网络。虽然在静态图像上的目标检测已经取得了很大的成功，但是视频目标检测仍然存在着许多问题。一个具有挑战性的问题。有几个因素导致了这个问题的困难，其中包括同一对象随着时间的推移而发生的剧烈外观和尺度变化、对象间的遮挡、运动模糊和不匹配727728在静态图像数据和视频数据之间。2015年ImageNet挑战赛引入的视频中检测对象（VID）的新任务提供了一个大规模的视频数据集，需要标记视频中每帧中30个类的每个对象。在这个新数据集的驱动下，提出了多个系统[7，14，15]来扩展视频的静态图像对象检测器类似于静态对象检测中的边界框提议，视频中的对应物被称为小块，其本质上是边界框提议的序列。用于视频对象检测的现有技术的算法在某种程度上利用小块来并入时间信息以获得检测结果。然而，小块的产生通常是基于逐帧的检测结果，这是非常耗时的。例如，[14，15]使用的跟踪算法需要0。5秒来处理每个帧中的每个检测框，这阻止了系统在可允许的时间量内生成足够的用于分类的小块建议，因为视频通常包含数百个帧，每个帧上具有数百个检测框。基于运动的方法，例如光流引导传播[14]，可以有效地产生密集的小管，但是长度通常限于仅几个帧（例如，[14]中的7帧），因为它们在长期跟踪方面的性能不一致。用于视频对象检测的理想tubelet应该足够长，以包含时间信息，同时足够多样，以确保高召回率（图1）。为了缓解这些问题，我们提出了一个视频中对象检测的框架。它由一个Tubelet建议网络（TPN）和一个长短期记忆（LSTM）子网络组成，TPN从静态建议开始同时获得数百个不同的Tubelet，LSTM子网络用于根据Tubelet的时间信息估计对象置信度。我们的TPN可以通过特征映射池有效地生成tubelet propos- als。给定起始帧处的静态框提议，我们将来自多个帧中的相同框位置的特征进行池化，以训练高效的多帧回归神经网络作为TPN。它能够学习前景对象的复杂运动模式，以生成鲁棒的tubelet建议。视频中的数百个提案可以同时跟踪这样的tubelet建议被证明是更好的质量比在每个帧上独立获得的，这表明了时间信息在视频中的重要性。从tubelet框中提取的视觉特征被自动对齐到特征序列中，并且适用于使用以下LSTM网络学习时间特征，该网络能够捕获长期时间依赖性以进行准确的预测分类。本文的贡献是，我们提出了一个新的深度学习框架，将tubelet建议生成和时间分类与视觉-时间特征相结合。提出了一种有效的Tubelet建议生成算法，用于生成能够捕获视频中对象时空位置的一种节奏-采用了一种具有视觉特征和时间特征的LSTM模型对Tubelet命题进行分类。这种高级时间特征通常被现有的检测系统忽略，但对于视频中的对象检测至关重要。2. 相关工作静态图像中的目标检测。最先进的对象检测系统都基于深度CNN。Girshick等人[6]提出了R-CNN将对象检测问题分解为多个阶段，包括区域生成，CNN微调和区域分类。为了加速R-CNN的训练过程，Fast R-CNN[5]是为了避免将每个图像块从边界框建议中耗时地馈送到CNN中以获得特征表示。同一图像内的多个边界框的特征通过ROI池化操作从同一特征图有效地变形为了加速候选边界框建议的生成，Faster R-CNN将区域建议网络集成到Fast R-CNN框架中，并且能够直接使用神经网络生成框视频中的对象检测。自从ImageNet挑战引入VID任务以来，已经有多个对象检测系统用于检测视频中的对象。这些方法集中于通过静态图像检测器对类分数进行后处理，以加强分数的时间Han等人[7]将初始检测结果关联到序列中。沿着同一视频内的序列的较弱类别分数被提升，以改善初始逐帧检测结果。Kang等人[15]通过将跟踪算法应用于静态图像边界框建议来生成新的小块建议。首先通过静态图像对象检测器评估沿着小块的类分数，然后通过1D CNN模型重新评分。同一组[14]还尝试了不同的tubelet分类和重新评分策略。此外，根据帧间的光流将初始检测框传播到邻近帧，并抑制不属于顶级类的类分数，以增强类分数的时间一致性。视频中的对象定位。已经有关于视频中对象定位的作品和数据集[3，13，22然而，它们具有简化的问题设置，其中假设每个视频仅包含一个已知或未知的类，并且仅需要注释每个帧中的对象中的一个3. Tubelet提案网络视频中的对象检测的现有方法产生了tubelet建议，其利用从几个关键帧开始的通用单对象跟踪器[15]或数据关联方法（即，跟踪检测方法）对每帧对象检测结果的影响[7]。这些方法要么计算量太大，无法生成足够密集的729不1112Wy分类CNN移动预测Tubelet特点编码器LSTM解码器LSTM类标签在时间t的第i个静态框提议，其中x、y、w和h表示框提议的框中心、宽度和高度的两个坐标。ROI池获得视觉效果特征为ri∈Rf在盒bi处。t tXyTubeletCNNX不Tubelet提案网络空间坐标t每个对象边界框提议的ROI池化特征ri可以用于对象分类，并且更有趣的是，用于边界框回归，这表明通过特征图池化获得的视觉特征包含描述对象位置的必要信息受此技术的启发，我们建议提取多个-TubeletProposalNetwork编码器-解码器LSTM图2. 提出的目标检测系统，它由两个主要部分组成。第一个是一个tubelet建议网络，以有效地产生tubelet建议。小块建议网络提取空间锚点内的多帧特征，预测相对于空间锚点的对象运动模式并生成小块建议。灰色框表示视频剪辑，不同颜色表示不同空间锚的提议过程。第二部分是编码器-解码器CNN-LSTM网络，用于提取tubelet特征并将每个提案框分类为不同的类。tubelet特征首先通过前向传递被馈送到编码器LSTM中，以捕获整个序列的外观特征。然后，状态被复制到解码器LSTM，以使用tubelet特征进行反向传递编码器-解码器LSTM在输出每个帧的类概率之前处理整个剪辑。小管，或可能漂移并导致跟踪故障。即使对于100 fps的单对象跟踪器，也可能需要大约56GPU天才能为大规模ImageNet VID数据集生成每帧300个我们提出了一个Tubelet建议网络（TPN），它能够有效地生成视频的Tubelet建议。如图2所示，Tubelet提案网络包括通过ROI池化框架视觉特征，并使用这些特征通过回归生成tubelet建议。3.2. 作为空间锚点的静态对象建议静态对象提案是指示对象的可能位置的无类别边界框，可以通过不同的提案方法有效地获得，例如SelectiveSearch[30]，Edge Boxes [34]和Region ProposalNetworks [24]。然而，对于视频中的对象检测，我们需要对象的空间和时间位置，这对于将时间信息用于准确的对象建议分类至关重要。对于视频中的一般对象，运动通常是复杂且难以预测的。静态对象的命题通常有很高的召回率（例如. >90%），这是重要的，因为它是对象检测性能的上限。因此，很自然地使用静态提议作为起始锚点，用于估计它们在后续帧处的移动以生成tubelet提议。如果它们的运动可以被鲁棒地估计，则可以保持在以下时间的高对象召回率。令bi表示在时间t= 1时感兴趣的静态提议1.一、特别地，为了生成开始于bi，w-帧时间风ow内的视觉特征在两个主要分量中，第一子网络提取vi-1i基于静态区域建议的跨时间的综合特征.从帧1到W被汇集在相同的位置B1，r1，r1，...，r1，以便生成小块提议。我们一帧我们的主要观察是，由于re-12WCNN的感知场（RF）通常足够大，我们可以在同一个边界框位置跨时间简单地执行特征图池化，基于合并的视觉特征，第二组件是用于估计边界框3.1. 关于回归的ROI池的说明存在利用特征图池进行对象检测的现有工作。FastR-CNN框架[5]利用视觉特征图上的ROI池进行对象分类和边界框回归。输入图像被馈送到CNN中并向前传播以生成视觉特征图。给定不同的对象建议，它们的视觉特征直接从根据框坐标的特征图中提取。这样，CNN只需要对每个输入图像进行一次前向传播，节省了大量的计算时间。设bi=（xi，yi，wi，hi）表示将B1称为“空间锚点”。汇集的回归特征编码对象的视觉外观。恢复视觉特征（ri，ri，...，ri）之间的对应关系导致准确的小块建议，其由下一小节中详细描述的回归层建模。我们能够将来自相同空间位置的多帧特征池化用于tubelet建议的原因即使视觉特征是从一个小的边界框中汇集的，它的视觉上下文也远远大于边界框本身。因此，跨时间在相同框位置处进行池化能够捕获对象的大的可能移动。在图2中，我们展示了用于tubelet提议生成的“空间锚点”。将相同位置的特征对齐以预测对象的移动。我们使用GoogLeNet和批量归一化（BN）[12]《易经》中的“道”。在我们的设置中，ROI池化层连接到因此ttttt730不不不不不不11周1周ttttt网络能够处理高达363像素的移动时，ROI池相同的框位置跨时间，这是绰绰有余，以捕捉短期的对象运动。为了生成遵循其相关联的地面实况框的移动模式的N个tubelet所有xi，yi，wi，hi，每个静态建议被认为是时间窗口w内的特征提取的锚点。3.3. Tubelet提案生成的监督L（{M}，{M}）=t t t1NwN不d（krki），（5）我们的目标是生成tubelet建议，在每一帧都有很高的对象召回率，并且可以准确地跟踪目标。对象。基于池化视觉特征ri，ri，···，ri，i=1t=1k∈{x，y，w，h}其中，{M}和{M}是所有归一化的运动目标和网络输出的集合12W框位置bi，我们训练回归网络工作R（·），其有效地估计相对移动w.r.t.空间锚，d（x）=.0的情况。5 x2 如果|X|<1、|-0。| − 0. 5否则（六）mi，mi，···，mi=R（ri，ri，···，ri），（1）12周12W是[5]中稳健箱回归的平滑L1其中，相对运动mi=（xi，yi，wi，hi）净工作输出msteci被映射回真实的相关性，计算为t t t t t t不动作动作mibyxi=（xi−xi）/wi，mi=（msteci+m）<$σ。（七）t t11t t11t t tt t twi= log（wi/wi），t t1t t1一旦我们获得这样的相对运动，就可以很容易地推断出小管的实际盒我们采用了一个完全连接的层，它将连接的视觉有限元-将[ri，ri，···，ri]T作为输入，并输出4w移动。根据我们的定义，如果一个静态对象提案覆盖了对象的某些区域，那么它应该在后面的框架中覆盖对象的相同部分（参见图1（d）的示例）。3.4. 多框架回归层的建模12W通过以下方式对Tubelet方案的值进行分段：[mi，···，mi]T=Ww[ri，···，ri]T+bw，（3）其中Ww∈Rfw×4w和bw∈R4w是可学习的时间窗的大小也是TPN中的关键因素。最简单的模型是2帧模型。对于给定的帧，提取当前帧和下一帧的空间锚点内的特征并进行关联。层的参数nated，[ri，ri]T，以估计bi的运动上12 1剩下的问题是如何设计合适的超-学习相对运动的视觉。我们的关键假设是，tubelet建议应该与地面实况对象具有一致的运动模式然而，给定静态对象建议作为tubelet生成的起始框，它们通常不具有与地面实况对象框的完美的100%交因此，我们需要接近地面实况框的静态框提案，以遵循地面实况框的移动模式。更具体地说，如果静态对象建议bi具有大于0的r。5IoU值具有地面真值框i，并且IoU值大于对于其他地面真值框，我们的回归层尝试按照相同的运动模式生成tubelet框尽可能多地了解地面真相。的下一帧然而，由于2帧模型仅UTI-在非常短的时间窗口内使用最少的时间信息增加时间窗口利用更多的时间信息，以便估计更复杂的运动模式。给定时间窗口大小W，所提取的特征的维度是fw，其中f是空间锚内单个帧中的视觉特征的维度（例如，1024-在我们的设置中，来自BN模型的三维“inception5b”特征）。因此，回归层的参数大小为Rfw×4w，并随时间窗口大小w二次增长。如果时间窗口大小较大，则随机初始化-这样一个大的矩阵很难学习一个很好的重新定义，t t相对运动ta r得到mi=（xi，yi，wi，hi）可以定义为w。r. t.在时间1处的地面真值box，以类似于Eq. （二）、这是一个有趣的发现，mi=（0，0，0，0）。因此，我们只需要预测mi到mi。注意到通过退化层我们提出了一种使用从2帧模型学习的特征来初始化多帧模型。在图3中，我们展示了如何使用预训练的2帧2w模型学习相对于空间锚点的相对运动，在第一帧，我们可以在一定程度上避免传统跟踪算法中的累积误差。运动目标通过它们的平均值mt和标准差σt作为回归目标，模型由于等式（2）中的tagetm_i是lways（0，0，0，0），因此我们仅需要估计后面帧的运动参数矩阵W2的大小为R2f×4，因为输入特征是两个帧的级联，并且偏置项b2的大小为R4。对于5帧回归图层，731mi=（mi−mt）/σt，对于t=1，. . . 、w.（4）参数矩阵W5的大小为R5f×（4×4），t t7324 16W2W52fb2b5L5f（a）（b）第（1）款图3. “块”初始化方法的说明。2帧模型的回归层具有权重W 2和偏置b 2，W 2由对应于第一帧和第二帧的特征的两个然后，可以使用如图所示的子矩阵初始化5帧模型的回归层。偏置项b5是b2的简单重复。b5是R（4×4）。从本质上讲，我们利用帧1 - 2的视觉特征&来估计帧2中的运动，帧1 &-3估计帧3中的运动，等等。因此，矩阵 W2被分成两个子矩阵 A∈Rf×4 和B∈Rf×4，以填充矩阵W 5的相应条目。偏置项b5是b2的重复4次。在我们的实验中，我们首先训练一个随机初始化的2帧模型，然后使用2帧模型来初始化多帧回归层。4. 具有Tubelet生成和Tubelet分类的基于Tubelet建议网络，我们提出了一个框架，是有效的视频中的对象检测。与最先进的单对象跟踪器相比，我们的 TPN9 GPU 只需要几天时间就可以在ImageNet VID数据集上生成密集的tubelet pro-map。它还能够利用有用的时间信息，从tubelet propos- als，以提高检测精度。如图2所示，该框架由两个网络组成，第一个是用于生成候选对象tubelet的TPN，第二个网络是CNN-LSTM分类网络，它将tubelet上的每个边界框分类为不同的对象类别。图4. 有效地生成tubelet方案。(a)TPN生成时间窗口w的小块建议，并使用该建议的最后一帧输出作为下一迭代的静态锚此过程迭代，直到覆盖整个轨道长度(b)帧中的多个静态锚点通过单个前向传递被馈送到Fast R-CNN网络，用于同时生成多个tubelet提议。不同的颜色表示不同的空间锚图用作下一次迭代的空间锚点。这个过程可以生成任意长度的tubelet建议对于同一起始帧中的N个静态对象提议，底部CNN仅需要进行一次前向传播以获得视觉特征图，从而能够高效生成数百个tubelet提议（参见图4（b））。与以前采用通用单对象跟踪器的方法相比，我们提出的方法在生成大量tubelets时速度明显更快。[ 15 ]中使用的跟踪方法报道了0. 5fps的运行速度为一个单一的对象。对于具有300个空间锚的典型帧，每帧花费150s。我们的方法有一个av-速度为0。每帧488s，大约快300倍即使与[ 9 ]中最近的100 fps单对象跟踪器相比，我们的方法也约为6。快14倍4.2.用于时间分类的在生成长度为l的小管方案后，进行了可视化有限元分析。图u1、···、ui、···、ui可从小试管盒中汇集t tl4.1. 高效的tubelet建议生成TPN能够估计每个静态对象提议在时间窗口w内的移动。对于大规模数据集中的视频中的对象检测，我们不仅需要高效地并行生成数百个空间锚的tubelet，而且还需要生成具有足够长度的tubelet以包含足够的时间信息。为了生成长度为l的tubelet（参见图4（a）中的图示），我们利用第一帧上的静态对象提议作为空间锚，然后迭代地应用具有时间窗口w的TPN，直到tubelet覆盖所有l帧。上一个迭代的最后估计位置-具有时间信息的对象分类的位置第现有方法[15，7，14]主要在后处理中使用时间信息，将检测传播到相邻帧或在时间上平滑检测分数。检测结果的时间一致性是重要的，但是为了捕获tubelet中的复杂外观变化，我们需要在tubelet框位置处学习有区别的如图2所示，所提出的分类子网络包含一个CNN，它处理输入图像以获得特征图。从每个tubelet提案中跨时间汇集的分类特征ROI然后被馈送到一个单层长短期记忆（LSTM）网络[11]，B一Iter1Iter2Iter3Iter 4Iter5一一一一BBBB733t−1t−1不不不小管分类它是一种特殊类型的递归神经网络（RNN），近年来被广泛研究用于时空特征的学习每个LSTM单元都有一个存储器单元，用于在整个时间内传递视觉信息，以整合时间信息。第i个LSTM的每个时间步t的输入LSTM模型之间不共享权重。BN模型使用ImageNet分类数据进行预训练，并在ImageNet VID数据集上进行微调静态对象提案由在ImageNet VID数据集上训练的RPN网络生成VID验证集上每帧RPN建议的召回率为95。92比300tubelet是细胞状态ci，隐藏状态hi前-每一帧上的盒子。viewed帧，并且分类特征ui在当前时间t汇集。LSTM的起始状态（ci，hi）为了与Fast RCNN框架集成，我们将ROI池层在“盗梦空间4D”之后，0 0设置为零。输出是隐藏状态hi，其连接到用于预测类置信度的全连接层和用于盒回归的另一个FC层。vanilla LSTM的一个问题是，初始状态可能会极大地影响前几帧的分类。受[28]中序列到序列LSTM的启发，我们提出了一个用于视频中对象检测的编码器-解码器LSTM模型，如图2所示。输入特征首先被馈送到编码器LSTM中，以将整个tubelet的外观特征编码到存储器中。然后将隐藏状态和隐藏状态馈送到解码器LSTM中，解码器LSTM然后使用从最后一帧返回到第一帧的反向输入以相反的顺序对tubelet进行分类通过这种方式，可以通过利用过去和未来的信息来实现更好的分类精度。该方法可以避免由于初始存储状态为零而导致的预测置信度低的问题。5. 实验5.1. 数据集和评价指标该框架在ILSVRC 2015挑战中引入的ImageNet视频对象检测（VID）数据集数据集中有30个数据集分为三个子集：包含3862个视频的训练集，包含555个视频的验证集，以及包含937个视频的测试集。30个类中的Ob-1在所有视频帧上用地面实况绑定框标记。由于测试集的地面真实标签不是公开的，因此我们报告验证集上的所有结果，作为ImageNet检测任务的常见做法。使用30个类的平均精度（Mean AP）作为评价指标。此外，我们还在YouTubeObjects（YTO）[22]数据集上评估了我们的系统，用于对象本地化任务。YTO数据集有10个对象类，它们是ImageNet VID数据集的子集。YTO数据集在视频中仅用一个地面真值类的一个对象进行弱注释。我们只使用这个数据集进行评估，评估指标是[3]中使用的CorLoc性能指标，即，IoU高于0的地面实况框的召回率。五、5.2. 基本CNN模型训练我们选择GoogLeNet与批量归一化（BN）[12]作为我们的TPN和CNN的基本CNN模型-Inception模块（ROI池的输出大小为14 ×14，我们保留了后面的初始模块和最终的全局在“初始5b”之后合并。然后，我们为不同的任务添加一个FC层，包括Tubelet建议，分类或边界框回归。BN模型在4个Titan X GPU上训练200，000次迭代，每次迭代中每张卡上的2张图像有32个ROI初始学习率为5×10−4，每60，000次迭代，学习率降至之前值的1/10所有BN层在微调期间被冻结。通过对DET数据的微调，BN模型的精度达到50. ImageNet DET数据上的平均AP为3%微调BN后在VID数据上用相同的超参数设置进行90，000次迭代，它达到了63。VID验证集的平均AP为0%5.3. 主题方案网络培训和评价使用微调的BN模型，我们首先在ImageNet VID数据集上训练一个2帧模型。由于TPN需要根据地面实况对象的移动来估计对象提议的移动，因此我们仅选择具有大于0的静态提议。5IoU与地面实况注释重叠，作为第3.3节之后的空间锚点。对于那些没有大于0的建议。与地面实况箱重叠5圈，它们不用于训练TPN。然而，在测试阶段期间，每20帧中的所有静态对象提议被用作用于tubelet提议生成的空间锚所有tubelets是20帧长。从负静态提议开始的那些可能停留在背景区域中，或者当前景对象出现在其附近区域时跟踪前景对象。我们研究了不同的时间窗口大小w和第3.4节中描述的初始化方法。由于可以从地面实况注释中获得地面实况运动m_i，因此每个正静态提议具有符合其相关联的使用三个度量来评估由不同模型生成的tubelet的准确性（表1）。一个是预测坐标及其地面实况的平均绝对像素差（MAD）。第二个是平均相对像素差异（MRD），x差异由宽度归一化，y差异由高度归一化。第三个指标是预测值734不方法窗口疯MRD平均IOU移动Tubelets随机215.500.07300.7966移动Tubelets随机526.000.13190.6972MoveTubelets RNN513.870.06830.8060MoveTubelets块512.980.06160.8244MoveTubelets块1115.200.07610.8017MoveT ubelets块2018.030.08740.7731表1.对不同窗口大小和不同初始化方法获得的tubelet建议进行评估。因为参数大小与时间窗口成二次方增长。与所提出的变换初始化相比，具有随机初始化的5帧模型具有差得多的精度。随着时间窗的增大，运动模式变得更加复杂，并且运动位移也可能超过接收场，这也导致精度降低。盒子和目标盒子。从表中可以看出，2帧基线模型的MAD为15。50，MRD为0。0730，平均IOU为0。七九六六。对于5帧模型，如果我们随机初始化全连接回归层而不使用初始化技术（其他层仍然由微调BN模型初始化），则与2帧模型相比，性能显著下降。原因可能是5帧模型的参数大小增加了10倍（如图3所示），这使得在没有良好初始点的情况下更难以训练然而，利用所提出的技术，具有2帧模型的多帧回归层，由于更大的时间上下文，所生成的小管具有比2如果时间窗口继续增加，即使使用所提出的初始化技术，性能也会下降。这可能是因为如果时间窗口太大，则对象的移动对于TPN来说可能太复杂而无法恢复远处帧之间的视觉对应。在后面的实验中，我们使用5帧TPN生成20帧长的tubelet建议。与我们提出的方法相比，通过将Tubelet回归层替换为1024个隐藏神经元的RNN层和回归层来实现RNN基线，以预测4个运动目标。如表1所示，RNN基线的性能比我们的方法差。5.4. LSTM培训在生成tubelet提议之后，所提出的CNN-LSTM模型利用微调的BN模型在tubelet框位置处提取分类特征ui每个时间步的特征维数为1024。LSTM有1024个细胞单元和1024个隐藏输出。对于每次迭代，从4个视频中随机选择128个tubeletsCNN-LSTM使用动量为0的随机梯度下降（SGD）优化进行训练。20000次迭代为9。参数初始化为标准差0。0002，初始学习率为0。1.一、对于每2000次迭代，学习率下降0倍。五、5.5. 结果基线方法。最基本的基线方法是快速R-CNN静态检测器[5]（表示为该基线使用来自我们使用的相同RPN的静态propos- als，并且Fast R-CNN模型与我们的基础BN模型相同为了验证tubelet回归目标的有效性，我们将它们更改为每个帧上地面实况的精确位置，并生成tubelet建议（参见图1（c））。然后我们在这些tubelet提案上应用vanilla LSTM，并将结果表示为我们的tubelet提议方法被表示为“MoveTubelets”。我们还比较了一种最先进的单目标跟踪方法[10]，表示为“KCF”。至于CNN-LSTM分类部分，基线方法是vanilla LSTM（表示为ImageNet VID数据集上的结果。ImageNet VID数据集的定量结果如表2和表3所示。作为ImageNet数据集上检测任务的惯例，我们报告验证集上的结果。在ImageNetVID数据集上微调的基线Fast R-CNN检测器的平均AP为0。630（表示为与[ 14 ]中的最佳单一模型性能进行比较，其平均AP为0。615，基线检测器具有1. 5%的性能提升。将基线静态探测器直接应用于TPN小管，时间窗为5，结果平均AP为0。623（表示为“MoveTubelets+FastRCNN”）。在比较中，具有基线静态检测器（“KCF+快速RCNN”）的最先进的跟踪器[10]的0的情况。567.此外，虽然KCF跟踪器以50fps的速度运行单个对象跟踪，但处理一帧300个建议需要6秒。我们的方法快了12倍在tubelet propos- als上应用vanilla LSTM将平均AP增加到0。678（表示为“Move- Tubelets+LSTM”），它有5个。5%的性能增益超过tubelet的结果和4。比静态基线结果增加了8%。这表明LSTM能够从tubelet建议中学习表观和时间特征，以提高分类准确性。特别是对于“鲸鱼”类探测器必须观察整个过程才能正确分类与边界框回归tubelet建议基线相比，我们的tubelet建议模型具有2。5%的改进，这表明我们的tubelet建议具有更多的多样性，以纳入时间信息。更改为编码器-解码器 LSTM 模型的平均 AP 为 0 。 684 （表示为“MoveTubelets+ED-LSTM” ），具有 0. 比 vanillaLSTM模型的性能提高了6%，超过一半的类的性能提高了。需要注意的一点是，我们的编码器-解码器LSTM模型在所有方面的性能都优于或等于tubelet基线结果。735方法静态（快速RCNN）0.8210.7840.6650.6560.6610.7720.5230.4910.5710.7200.6810.7680.7180.8970.6510.201MoveTubelets+快速RCNN0.7760.7780.6630.6540.6490.7660.5140.4930.5590.7240.6840.7750.7100.9000.6420.208LocTubelets+LSTM0.7590.7830.6600.6460.6820.8130.5380.5280.6050.7220.6980.7820.7240.9010.6640.212MoveTubelets+LSTM0.8390.7940.7150.6520.6830.7940.5330.6150.6080.7650.7050.8390.7690.9160.6610.158MoveTubelets+ED-LSTM0.8460.7810.7200.6720.6800.8010.5470.6120.6160.7890.7160.8320.7810.9150.6680.216方法静态（快速RCNN）0.6380.3470.7410.4570.5580.5410.5720.2980.8150.7200.7440.5570.4320.8940.630MoveTubelets+快速RCNN0.6460.3200.6910.4540.5820.5400.5670.2860.8060.7300.7370.5430.4140.8850.623LocTubelets+LSTM0.7430.3340.7270.5130.5550.6130.6880.4220.8130.7810.7600.6090.4290.8740.653MoveTubelets+LSTM0.7460.3470.7710.5250.7100.6090.6370.4060.8450.7860.7740.6020.6370.8900.678MoveTubelets+ED-LSTM0.7440.3660.7630.5140.7060.6420.6120.4230.8480.7810.7720.6150.6690.8850.684表2.在ImageNet上对AP列表VID进行验证，通过所提出的方法与其他方法进行比较.静态（快速RCNN）0.630TCNN [14]0.615Seq-NMS [7]0.522闭环系统[4]0.500KCF Tracker [10] + Fast R-CNN0.567MoveTubelets +快速R-CNN0.623MoveTubelets+LSTM0.678MoveTubelets+ED-LSTM（建议）0.684表3.基线模型和拟议方法的平均AP图5. ImageNet VID数据集上的定性结果。边界框是紧密的，并且稳定地集中在对象上，因为每个帧的ROI基于前一帧上的预测位置。最后3行显示了处理具有多个对象的场景的鲁棒性。类，这意味着学习时间特征一致地改善检测结果。ImageNet VID数据集上的定性结果如图5所示。边界框与物体紧密相连，我们能够在很长一段时间内跟踪和检测多个物体YouTubeObjects数据集上的本地化。除了ImageNetVID数据集上的视频任务中的对象检测之外。我们还使用YouTubeObjects（YTO）数据集对我们的系统进行了视频对象本地化任务的评估。对于每个测试视频，我们生成tubelet提案，并应用编码器-解码器LSTM模型对tubelet提案进行分类。对于每个测试类，我们选择在测试帧上具有最大检测分数如果盒子里有0。5IOU与地面实况框之一重叠，该帧被准确定位。该系统在ImageNet VID数据集上进行训练，并直接应用于测试，而无需对YTO数据集进行任何微调并与YTO上的几个最新结果进行了比较方法Aero鸟船车猫牛狗马姆比凯火车Avg.Prest等人[22日]51.717.534.434.722.317.913.526.741.225.028.5Joulin等人[13个国家]25.131.227.838.541.228.433.935.623.125.031.0Kwak等人[17个]56.566.458.076.839.969.350.456.353.031.055.7Kang等人[第十五条]94.169.788.279.376.618.689.689.087.375.376.8MoveTubelets+ED-LSTM91.299.493.194.894.399.390.287.889.784.292.4表4. YouTubeObjects数据集上的本地化结果。我们的模型比以前的方法有很大的差距。数据集，并且我们的系统以较大的幅度优于它们与[ 15]中的第二好结果相比，我们的系统有15个。6%的改善。6. 结论在这项工作中，我们提出了一个视频中的对象检测系统。该系统由一个新的tubelet建议网络和一个编码器-解码器CNN-LSTM模型组成，前者可以有效地生成tubelet建议，后者可以从tubelet中学习时间特征。我们的系统进行评估的Im-ageNet VID数据集的视频中的对象检测和YTO数据集的对象定位。实验证明，我们提出的框架的有效性。致谢。这项工作得到商汤科技集团有限公司的部分支持，部分由香港研究资助局的一般研究基金资助，资助额为CUHK14207814，CUHK14206114，CUHK14205615，CUHK14213616，CUHK14203015，香港中文大学14239816及香港中文大学419412，部分由香港创新及科技支援计划ITS/121/15 FX资助，部分由国家自然科学基金61371192资助，部分由香港中文大学博士研究生院资助。中国博士后科研工作站项目资助20130185120039，部分项目资助2014M552339。736引用[1] S.- H.小比和K J. Yoon.基于tracklet置信度和在线区分性外观学习的鲁棒在线多目标CVPR，2014年。1[2] L- C. Chen，G.帕潘德里欧岛科基诺斯

下载后可阅读完整内容，剩余1页未读，立即下载