基于时空记忆对齐的视频对象检测

107 浏览量更新于2023-10-13 收藏 2.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于时空记忆对齐的肖凡一[0000−0002−9839−1139]、李勇在[0000−0001−9863−1270]加州大学戴维斯{fyxiao，yongjaelee} @ ucdavis.edu抽象。我们介绍了时空记忆网络的视频对象检测。在其核心，一种新的时空记忆模块（STMM）作为循环计算单元，以模拟长期的时间复杂性和记忆。STMM的设计可以完全集成预训练的此外，为了解决视频中的对象运动，我们提出了一种新的MatchTrans模块对齐的时空记忆从帧到帧。我们的方法在基准ImageNet VID数据集上产生了最先进的结果，我们的消融研究清楚地表明了我们不同设计选择的贡献。我们在 www.example.com 上发布我们的代码和模型http://fanyix.cs。ucdavis.edu/project/stmn/project.html网站。关键词：排列时空记忆;视频对象检测1介绍目标检测是计算机视觉中的一个基本问题。虽然在静态图像中检测对象已经有很长的历史，但是在视频中检测对象的研究却少得多。然而，机器人、监控系统、车辆、可穿戴设备等上的摄像头接收视频而不是静态图像。因此，对于这些系统识别关键对象及其相互作用，它们配备精确的视频对象检测器是至关重要的。检测视频中对象的最简单方法是在每一帧上独立运行基于静态图像的检测器。然而，由于视频的不同偏差和挑战（例如，运动模糊、低分辨率、压缩伪像），图像检测器通常不能很好地概括更重要的是，视频提供了丰富的时间和运动信息，检测器在训练和测试期间应当利用这些信息。对于放大器，在Fig中。1中，因为相机的轮廓视图（帧1-2）比后面帧中的挑战性视点/姿态更容易检测，所以图像检测器仅成功检测序列的前导帧。另一方面，通过学习随时间聚合有用信息，视频对象检测器可以在极端视点/姿势下鲁棒地检测对象。因此，近年来，人们对设计视频对象检测器越来越感兴趣[18，19，29，25，14，51，50]。但不少2F. Xiao和Y. J. 李STMN（我们的）静像探测器Fig. 1. 静态图像检测器（如Fast-RCNN [17]或R-FCN [9]）往往会在遮挡或极端姿势下失败（错误检测以黄色显示通过学习跨时间聚集信息，我们的STMN视频对象检测器可以在具有挑战性姿势/视点的帧中产生正确的检测在该示例中，它从仓鼠的较容易的轮廓视图（前两个帧）聚集信息，以帮助检测仓鼠的遮挡或极端视图（第三帧至第五帧）。现有方法以自组织后处理方式利用时间信息-虽然这些方法显示出对静态图像检测器的改进，但是利用时间信息作为后处理是次优的，因为在检测器训练期间忽略了时间和运动信息。因此，它们难以克服静态检测器的连续故障，例如，当感兴趣对象长时间具有大的遮挡或不寻常的外观时。最近的作品[14，51，50]通过学习跨相邻帧组合特征或预测跨帧检测框的位移来学习在训练期间然而，这些方法在固定长度的时间窗口上操作，因此难以对可变和长期时间信息进行建模。虽然TubeletProposal Network [24]确实对长期依赖关系进行了建模，但它使用向量来表示递归单元的记忆，因此丢失了空间信息。为了补偿，它计算每个管（建议序列）的区域级的记忆向量，但这可能非常慢，并且强烈依赖于具有准确的初始管。为了解决这些限制，我们引入了时空存储器网络（STMN），其以端到端的方式来以端到端的方式对视频对象检测进行实时地存储和校准对象的长时间外观和运动动态。其核心是时空记忆模块（STMM），其是卷积递归计算单元，其完全集成从静态图像学习的预训练权重（例如，ImageNet [11]）。这种设计选择在解决从当代视频数据集学习的实际挑战方面是至关重要的，当代视频数据集在很大程度上缺乏类别内对象多样性;即，由于视频帧是高度冗余的，因此例如，100万帧的多样性远远低于具有100万个图像的图像数据集。通过将我们的存储器单元设计为与来自其前面的基于时空记忆对齐的视频目标检测3和后续层，我们表明它优于标准ConvGRU [4]递归模块用于视频对象检测。此外，为了考虑视觉数据的2D空间性质，STMM在其存储器中保留每个帧的空间信息。特别是，随着时间的推移，以实现准确的像素级空间对齐，STMM使用一种新的MatchTrans模块，明确地模拟跨帧的运动所引入的位移由于每个帧的卷积特征在空间存储器中被对齐和聚合，因此任何特定对象区域的特征被很好地定位并且包含跨多个帧的信息。此外，可以经由来自存储器的ROI池化来平凡地提取每个区域特征总之，我们的主要贡献是一个新的时空记忆网络的视频对象检测。我们的消融研究显示了STMM和MatchTrans模块提供的优势-这些设计选择导致了ImageNet视频对象检测数据集（VID）[1]在不同的基础检测器和骨干网络上的最新结果2相关工作静态图像目标检测。最近采用深度神经网络的工作显著推进了静态图像对象检测的最新技术[16，39，17，38，37，31，9，40，7]。我们的工作还建立在深度网络的成功基础上，以在端到端框架中学习特征、分类器和边界框定位器然而，在大多数现有的工作，专注于检测静态图像中的对象，本文的目的是检测视频中的对象。视频对象检测。与基于静态图像的目标检测相比，视频中目标检测的研究较少早期的工作处理从静态相机捕获的视频或对场景的类型做出强有力的假设（例如，高速公路交通摄像机用于检测汽车或室内房间用于检测人）[46，8]。后来的工作通过聚合简单的运动线索（基于光流，时间差异或跟踪）使用手动设计的功能，并主要集中在行人检测[45，10，23，35]。随着ImageNet VID [1]在2015年的引入，研究人员已经专注于更通用的类别和真实的视频。然而，许多现有方法经由两级流水线中的跟踪来组合来自静态图像检测器的每帧检测[19，43，25]。由于运动和时间线索仅在测试期间用作后处理步骤，因此需要许多启发式选择相比之下，我们的方法直接学习在训练过程中整合运动和时间依赖性。我们的端到端架构还带来了干净、快速的运行时。分享我们的目标是在训练过程中利用时间信息，最近的工作朱等人。[51，50]学习将不同帧的特征与前馈网络相结合，以提高检测精度。我们的方法的不同之处在于它产生了一种可以携带信息的时空存储器4F. Xiao和Y. J. 李跨长且可变数量的帧，而[51，50]中的方法只能在小且固定数量的帧上聚合信息节中4.3，我们展示了从这种灵活性中获得的好处。虽然Kang et al.[24]使用内存来聚合时间信息，它使用矢量表示。由于空间信息丢失，它为每个区域管（建议序列）计算单独的存储器向量，这可能使该方法非常慢。相比之下，我们的方法只需要计算一个单一的帧级空间内存，其计算是独立的建议的数量最后，检测和跟踪[14]旨在统一检测和跟踪，其中连续两帧之间的相关性用于预测检测框的移动与[14]不同，我们的时空记忆跨t>2帧聚合信息此外，虽然我们的方法还使用所提出的MatchTrans模块来计算相邻帧之间的相关性在粗像素级），而不是使用它来预测框的位移。总的来说，这些选择可以在ImageNet VID上实现最先进的检测精度。用视频学习除了视频对象检测之外，其他最近的工作使用卷积和/或递归网络进行视频分类[26，42，4]。这些方法倾向于对整个视频帧而不是像素进行建模，这意味着定位对象所需的细粒度细节往往会丢失。对象跟踪（例如，[30，33]），这需要准确的定位，也是密切相关的。关键的区别在于，在跟踪中，第一帧的边界框是给定的，跟踪器不一定需要知道被跟踪对象的语义类别。用RNN建模序列数据在计算机视觉中，RNN已用于图像字幕[27，44，12]，视觉注意力[2，32，47]，动作/对象识别[12，4]，人体姿势估计[15，6]和语义分割[49]。最近，Tripathi et al.[43]采用RNN进行视频对象检测。然而，在他们的流水线中，首先训练基于CNN的检测器，然后训练RNN来改进CNN的检测输出。尽管RNN在各种视觉任务中被广泛采用，但大多数方法都使用矢量形式的内存单元（如标准LSTM/GRU）。考虑空间局部性，Ballas etal.[4]提出了卷积门控递归单元（ConvGRU），并将其应用于动作识别任务建立在[4]，Tokmakov et al.[41]使用ConvGRUs进行视频对象分割任务我们的工作在三个方面有所不同：（1）我们对边界框而不是帧或像素进行分类;（2）我们提出了一个新的循环计算单元，称为STMM，它可以更好地利用在像ImageNet这样的大规模图像数据集上预先训练的静态图像检测器权重;以及（3）我们的时空存储器通过我们的MatchTrans模块逐帧对齐。我们表明，这些属性导致更好的结果比ConvGRU视频对象检测。基于时空记忆对齐的视频目标检测5t−1不t−1CONVSTMMCONVCONVCONVCONVSTMMSTMMSTMMSTMMROIs位置敏感型RoIPooling类Boxreg图二、我们的STMN架构。通过卷积堆栈转发连续帧以获得空间保持卷积特征图，然后将其在该示例中，为了检测中心帧上的对象，信息从所有五个帧流入中心STMM然后将来自中心帧的STMM输出馈送到分类和框回归子网络中3方法我们提出了一种新的RNN架构，称为时空记忆网络（STMN），以用于视频对象检测的改进的Lanobjet的chan gi n g ap e a n ce和mo3.1概述总体架构如图所示二、假设长度为T的视频序列，每个帧首先通过卷积网络转发以获得卷积特征图F1、F2、… F T作为外观特征。为了沿着时间轴聚合信息，每个帧的外观特征被馈送到空间-时间轴中。时间记忆模块（STMM）。时间步t处的STMM接收当前帧Ft的外观特征以及时空存储器M-，其携带所有先前帧的信息直到时间步t-1。STMM然后更新用于当前时间的时空存储器。时间步长M→以Ft和M→为条件。为了获取信息-为了从先前帧和稍后帧两者获得信息，我们使用两个STMM，每个方向一个，以获得M→和M←两者。然后，这些被级联以产生用于每个帧的时间调制存储器M然后，还保留空间信息的级联存储器M被馈送到后续的卷积/全连接层中，用于类别分类和边界框回归。这样，我们的方法在进行检测时结合了来自当前帧以及时间相邻帧的信息例如，这有助于检测6F. Xiao和Y. J. 李前视图自行车在图的中心框架2.如果我们从附近的帧中看到它的侧视图（这更容易），则会很难相比之下，静态图像检测器在进行其检测时将仅看到正视自行车。最后，为了训练检测器，我们使用与R-FCN [9]中相同的损失函数。具体地，对于训练序列中的每个帧，我们在预测的类标签和地面实况标签之间强制执行交叉熵损失，并且在预测的边界框回归系数上强制执行平滑的L1损失在测试期间，我们滑动测试窗口并在每个滑动窗口内的所有帧上进行检测，以与我们的训练过程保持一致。3.2时空记忆模块接下来，我们解释STMM如何跨帧对对象的时间相关性进行建模。在每个时间步，STMM将Ft和Mt−1作为输入，并计算以下内容：zt=BN*（ReLU（Wz*Ft+Uz*Mt−1）），（1）rt=BN*（ReLU（Wr*Ft+Ur*Mt−1）），（2）M~t=ReLU（W*Ft+U*（Mt−1⊙rt）），（3）Mt=（1−zt）⊙Mt−1+zt⊙M~t，（4）其中⊙是逐元素乘法，*是卷积，U，W，Ur，Wr，Uz，Wz是2D卷积核，其参数是端到端优化的。门rt屏蔽Mt-1的元素（即，它允许先前的状态被遗忘）以在存储器 M~t 处被读取和存储。然后，gateztdeterminehweht，并将上一步骤Mt-1的内存与候选内存M~ t，以生成新的内存Mt。为了生成rt和zt，STMM首先计算Mt−1和Ft的仿射变换，然后将ReLU [28]应用于产出由于rt和zt是门，它们的值需要在[0， 1]的范围内。因此，我们对标准BatchNorm [22]进行了两次更改（并将其表示为BN*），以便将其输入归一化为[0， 1]，而不是零均值和单位标准差。首先，我们的BatchNorm com变体-计算输入批次X的平均值μ（X）和标准差σ（X），然后使用图1所示的线性压缩函数S（X;μ，σ）对X3.第三章。其次，我们计算平均值和图3.第三章。S（x;µ，σ）压缩任何值在[0， + inf]中进入范围[0，1] ，线性缩放函数阈值为µ+K·σ。我们设K= 3。每个批次的标准偏差独立，而不是保持训练批次之间的运行平均值。通过这种方式，我们不需要为不同的时间步长存储不同的统计数据，这允许我们为基于时空记忆对齐的视频目标检测7在训练期间看不到的序列长度（例如，我们可以在比训练期间看到的更长的序列上计算检测，如第2节所示。4. （3）第三章。请注意，BN*和实例/层归一化[21，3]之间的关键区别在于BN*保证其输出中的每个值都在[0， 1]内归一化（这对于门控变量是必要的），而实例和层归一化都不能确保此属性。虽然很简单，但我们发现BN*很适合我们的目的。与ConvGRU的差异[4]学习视频对象检测器的一个关键实际挑战是当代视频数据集中缺乏类别内对象多样性;也就是说，由于视频帧是高度冗余的，因此例如，100万帧的多样性远远低于具有100万个图像的图像数据集。在视频中，注释的成本要高得多，这使得它难以具有与图像数据集相同的多样性水平因此，将有用的信息从像ImageNet [11]这样的大规模图像数据集中转移到内存处理单元本身，将通过提供额外的多样性使我们的视频对象具体来说，我们希望使用最先进的基于静态图像的RFCN检测器[9]的权重来初始化我们的STMN检测器，该检测器已经在ImageNet DET图像上进行了预训练，并继续在ImageNet VID视频上对其进行微调。在实践中，这将需要将RFCN中位置敏感ROI池化之前的最后一个卷积层转换为我们的STMM内存单元（见图1）。2）的情况。然而，该转换对于标准递归单元如Sigmoid/Tanhnon线性代数的LSTM/GRU是不平凡的，因为它不同于R-FCN卷积层中采用的ReLU非线性因此，为了将预训练的RFCN静态图像检测器的权重转移到我们的STMN视频对象检测器中，我们对ConvGRU进行了两次更改[4]。首先，为了充分利用预训练的权重，我们需要确保递归计算单元的输出与它之前和之后的预训练权重兼容。作为说明性示例，由于标准ConvGRU的输出在[-1，1]中（由于Tanh非线性），因此将存在与由随后的预训练卷积层预期的输入范围的失配（由于ReLU，预期值应该全部为正）。为了解决这种不兼容性，我们将标准ConvGRU中的非线性从Sigmoid和Tanh更改为ReLU。第二，我们在等式1中初始化Wz、Wr和W1-3的卷积层的权重被换出，而不是用随机权重初始化它们。从概念上讲，这可以被认为是一种用预训练的静态卷积特征映射初始化内存的方法。节中4.3，我们表明，这些修改使我们能够更好地利用的预训练权重，并实现更好的检测性能。3.3时空记忆对齐接下来，我们解释如何跨帧对齐内存因为物体会移动在视频中，它们的空间特征可能跨帧未对准比如说，8F. Xiao和Y. J. 李MatchTrans对齐无配向图4.第一章对齐对时空记忆的影响在第一行和第二行中，我们分别使用MatchTrans对齐显示了时空记忆的检测和可视化（通过计算每个空间位置处的特征通道的L2范数以获得显着第3行和第4行分别示出了没有对准的检测和存储。在没有适当的对齐的情况下，在对象已经移动到不同的空间位置（第三行）之后，记忆很难忘记对象，这通过由于重叠多个未对齐的图（第四行）而导致的记忆图上的显著性的踪迹来与MatchTrans的对齐有助于生成更干净的存储器（第二行），这也导致更好的检测（第一行）。最好在pdf中查看。帧t-1中的自行车的位置可能不与帧t中的自行车的位置对齐（如图2中所示）。在我们的情况下，这意味着空间-时间存储器Mt-1可能不与当前帧Ft的特征图在空间上对齐。这可能是有问题的，例如在图1B的情况4个;在没有适当的对准的情况下，在对象移动到不同的空间位置之后，时空存储器可能很难忘记该对象。这是由图4的第四行中的显着性的踪迹所4，由于叠加多个未对齐的特征图的效果这种幻觉特征可能导致假阳性检测和不准确的定位，如图1B的第三行所示。4.第一章为了缓解这个问题，我们提出了MatchTrans模块跨帧对齐的时空记忆。对于Ft中位置（x，y）处的特征像元Ft（x，y）∈1× 1×D，MatchTrans计算Ft（x，y）与Ft−1中位置（x，y）周围的小邻域中的特征像元之间的亲和度，顺序为变换时空存储器Mt-1以与帧t对齐。更形式上，变换系数Γ被计算为：Γx，y（i，j）=ΣFt（x，y）·Ft−1（x+i，y+j），i，j∈{−k，…，k} Ft（x，y）·Ft−1（x + i，y + j）其中i和j都在[−k，k]的范围内，这控制了匹配邻域的大小。使用Γ，我们将未对齐的存储器Mt−1转换为基于时空记忆对齐的视频目标检测9t−1t−1t−1t−1匹配内插图五、位置（x，y）的变换系数Γ通过匹配Ft（x，y）到Ft−1（i，j），其中i，j索引（x，y）周围的空间邻域的变换系数然后被用于通过对M ′（x，y）进行插值来合成M′对应Mt-1（i，j）个特征向量。对齐M′如下所示Σ′t−1（x，y）=i，j ∈{−k，…，k}Γ x，y（i，j）·M t−1（x + i，y + j）.这里的直觉是，给定变换Γ，我们重建空间记忆M′（x，y）作为空间存储器单元的加权平均，在M t −1上围绕（x，y）的（2 k +1）×（2 k + 1）附近;见图5。在这一点上，我们可以简单地将Mt−1的所有出现替换为空间的对准存储器M′在方程式中1-4 通过适当的排列，我们产生的记忆更干净（图的第二行4）并且导致更准确的检测（图1的第一行）。4）.由于计算成本是k的二次方，因此我们为所有实验设置k= 2，因为这种选择提供了性能和计算之间的良好权衡我们的MatchTrans与[51，50]在最近的视频对象检测工作中使用的对齐模块有关。然而，[51，50]使用光流，其需要在外部计算，例如，使用[5]，或通过另一个大型CNN的网络内，例如，FlowNet [13].相比之下，我们的MatchTrans效率更高例如，它的计算速度几乎快了一个数量级（平均为2.9ms，而不是对于337x600帧为24.3ms），而FlowNet [13]是最快的光流方法之一此外，在[14]中使用了用于计算变换系数的类似过程。然而，在[14]中，系数作为输入被馈送到另一个网络，以回归边界框的位移进行跟踪，而我们使用它来扭曲整个特征图以对齐内存。换句话说，我们不是使用变换系数来跟踪和连接检测，而是使用它们来随着时间的推移对齐内存，以便为每个候选对象区域生成更好的特征。我们在Sec中显示。4.1，这导致ImageNet VID的性能更好。3.4测试期间的时间关联最后，即使我们在我们的时空记忆中强制时间平滑（即，在特征水平上），我们没有明确的平滑度控制。M10F. Xiao和Y. J. 李在输出空间中进行约束以确保相邻帧中的检测在空间上是平滑的。因此，在[51，14]之后，我们将标准Seq-NMS [19]应用于我们的每帧检测。3.5方法总结通过专门设计的时空记忆和MatchTrans模块，我们的STMN检测器聚合和对齐有用的信息，从tempo- rally附近的视频对象检测帧。4结果我们展示了我们的STMN视频对象检测器的定量和定性结果，并与最先进的静态图像和视频检测器进行比较我们还进行消融研究，以分析我们模型的不同组成部分数据集。我们使用ImageNet VID [1]，它有3862/555/937个视频用于30个类别的训练/验证/测试。为所有帧提供边界框注释。我们选择ImageNet VID是因为它相对较大的尺寸以及以便于与现有技术方法[1，9，25，24，14，51，50]进行比较。实作详细数据。对于对象提案，我们使用DeepMask [36]作为我们的方法和我们自己的基线。我们使用R-FCN检测器[9]与ResNet-101 [20]作为骨干网。在[14]之后，我们首先在ImageNet DET上训练R-FCN，然后转移其权重（使用第2节中描述的方法）。3. 2）初始化我们的STMN检测器并继续在ImageNet VID上对其进行微调。我们在训练期间设置序列长度T= 7。对于测试，当使用较长的序列长度时，我们观察到更好的性能;特别地，T = 11帧提供了性能和GPU存储器/计算之间的良好平衡（我们稍后示出性能和测试序列长度之间的关系）。我们将空间存储器的通道数设置为512。为了减少序列内的冗余，我们通过以均匀步幅在每10个视频帧对于训练，我们从SGD的1 e-3学习率开始，当训练损失达到平台时，在测试过程中，我们将STMN检测器的检测结果与初始R-FCN检测器进行集成，因为它作为训练过程的副产品免费提供。我们采用标准的左右翻转增强。4.1与最新技术水平的表1显示了与现有最先进的图像和视频检测器的比较。首先，我们的STMN检测器优于基于静态图像的R-FCN检测器，具有较大的裕度（+7.1%）。这证明了我们提出的时空记忆的有效性。我们的STMN检测器还实现了最佳性能相比，所有现有的视频对象检测方法与基于时空记忆对齐的视频目标检测11基础网络碱基检测器测试ValSTMN（我们的）ResNet-101R-FCN-80.5D T [14]ResNet-101R-FCN-79.8Zhu等人[50个]ResNet-101+DCNR-FCN-78.6FGFA [51]ResNet-101R-FCN-78.4T-CNN [25]DeepID+Craft [34，48]RCNN67.873.8R-FCN [9]ResNet-101R-FCN-73.4TPN [24]GoogLeNetTPN-68.4STMN（我们的）VGG-16Fast-RCNN56.5 61.7Faster-RCNN [1，19]VGG-16Faster-RCNN 48.252.2[1]第一次见面VGG-16Fast-RCNN51.5-表1. mAP与ImageNet VID上的最新技术的比较。对于“R-F C N + R e s N e t-101”和“F a s t - R C N N N + V G G-16”设置，或S T M N检测器优于具有相同基本检测器和骨干网络的所有现有方法。此外，在这两种情况下，我们的STMN优于相应的静态图像检测器的大幅度。ResNet-101作为基础网络。此外，为了与使用Fast/Faster-RCNN +VGG-16作为基础检测器和骨干网络的旧方法进行更公平的比较，我们还使用Fast-RCNN作为基础检测器和VGG-16作为骨干特征网络来训练STMN模型具体来说，我们首先训练静态图像Fast-RCNN检测器并初始化STMN使用与第2节中所述类似的程序3.2. 1有了这个设置，我们的STMN达到61.7%val mAP，这远高于其基于静态图像的对应物（52.2%）。这一结果表明，我们的方法可以推广到不同的基础检测器和骨干网络。当检查每个类别的结果时，我们的方法显示出对诸如“s hee p”、“rab bi t”和“domestic ic at”等类别的最大改进，与[ 14]等方法相比。在这些情况下，我们看到了跨多个帧聚合信息的明显优势（与2个帧，如[14]中），因为可以存在连续的“har d”帧，其跨越多个（> 2）帧（例如，G. 从照相机拍摄若干帧）。另一方面，我们发现我们表现最差的三个猫-egories是“猴子”，“蛇”和“松鼠”。这些是具有大变形和强运动模糊的类别。当每帧外观特征由于这些挑战而无法准确地对这些对象建模时，随着时间的推移使用我们的STMM聚合这些特征并没有帮助。尽管如此，总的来说，我们发现我们的模型在广泛的挑战中产生了稳健的检测结果，如接下来的定性结果所示4.2定性结果图6示出了我们的STMN检测与静态图像R-FCN检测之间的定性比较。我们的STMN检测对mo-1具体地，我们通过在等式1中初始化Wz、Wr和W，将VGG-16中的conv 5层转换为STMM模块。1-3 ，权重为conv 5。12F. Xiao和Y. J. 李STMN（我们的）R-FCNSTMN（我们的）R-FCNSTMN（我们的）R-FCNSTMN（我们的）R-FCNSTMN（我们的）R-FCN见图6。我们的STMN视频对象检测器与R-FCN图像检测器。绿色和红色框分别表示正确和不正确的检测。对于由于错误分类或错误定位引起的任何假阳性检测，预测的类别标签被示出在框的左上角。引用的基本事实是：“squ irre l”、“ra bb it”、“ham ster”、“dog”和“a irp l an e”。Best以pdf格式查看，放大。基于时空记忆对齐的视频目标检测13STMNSTMNNo-MatchTransConvGRU预训练ConvGRUFreshFC测试映射50.749.048.044.8表2.ImageNet VID上的消融研究我们对基线的改进显示使用 MatchTrans 跨帧进行内存对齐的重要性（与 STMN-No-MatchTrans），以及在标准ConvGRU（vs. ConvGRU-Pretrain和ConvGRU-FreshFC）。tionblur;e. G. 在“ham_ster”序列的框架中，由于大的运动模糊，R-F_CN关于对象的类别标签进行了查询，而我们的STMN检测器正确地检测到对象。在困难视点和遮挡（“dog”和“r ab bi t”，特别是）的情况下，我们的STMN通过利用来自相邻较容易帧的信息（即，“dog”和“r ab bi t”）来实现目标。“随机”序列中的中心帧和“动态”序列中的第一帧）。此外，与同步检测器相比，我们的模型输出跨帧更一致的检测，因为可以看到“序列“和”随机“的情况。最后，我们的STMN检测器在拥挤的场景中也更鲁棒，如“空气平面”等式中所示。4.3消融研究接下来，我们进行消融研究，通过将其与缺乏一个或多个组件的多个基线进行比较来分析模型为此，我们使用Fast-RCNN作为基本检测器，VGG-16作为骨干网络，因为与RFCN + ResNet-101相比，它的训练速度要快得多。为了确保清晰的分析，我们特意在本消融研究的训练期间不采用任何与我们的模型相比，第一基线缺少MatchTrans模块，因此不从帧到帧对齐存储器（STMN-No-MatchTrans）。第二个基线使用ConvGRU [4]计算内存，而不是我们提出的STMM。与我们的一样，这个基线（ConvGRU-Pretrain）也为特征堆栈和预测层使用了预训练的ImageNet权重。我们的最终基线是ConvGRU，没有预先训练的权重，用于随后的预测FC（ConvGRU-FreshFC）。表2示出了结果。首先，将我们的STMN与STMN-No- MatchTrans基线进行比较，我们观察到由跨帧的空间对准带来的1.7%的测试mAP改进这个结果显示了我们的MatchTrans模块的价值。为了将我们的STMM与ConvGRU进行比较，我们首先用ConvGRU替换STMM，并且与标准实践一样，在ConvGRU之后随机初始化FC层的权重。使用此设置（ConvGRU-FreshFC），由于缺乏数据来训练，我们获得了44.8%的相对较低的测试mAPFC中的大量重量此结果表明初始化14F. Xiao和Y. J. 李通过仅部分地转移预先训练的ImageNet权重来存储是次优的。如果我们在ConvGRU之后使用预训练的权重（ConvGRU-Pretrain）初始化FC的权重，我们将测试mAP从44.8%提高到48.0%。最后，通过用ReLU（我们的完整模型（STMN））替换Sigmoid和Tanh，我们将性能进一步提高到50.7%。这示出了在特征栈和预测头两者中利用预先训练的权重的重要性，以及适当形式的递归计算的必要性，该递归计算使其输出与预先训练的权重所期望的输入最佳测试窗口大小的长度我们接下来分析检测性能和测试窗口大小的长度之间的关系。具体地，我们在ImageNet VID验证集上测试了我们的模型在测试窗口大小为3、7、11和15的情况下相对于窗口大小为7的相应mAP差异分别为-1.9%、0.0%、+0.7%、+1.0%;随着我们增加窗口大小，性能趋于保持增加。这表明了我们记忆的有效性：序列越长，存储在记忆中的有用信息越长，从而导致更好的检测性能。然而，增加测试窗口大小也增加计算成本和GPU存储器消耗。因此，我们发现将测试窗口大小设置为11提供了良好的平衡。4.4STMN的计算开销最后，我们勾勒出我们的内存模块的计算开销。为了形成一批大小为337 x600的11帧，在Titan X GPU上，R-FCN和STMN分别花费0.52和0.83秒增加的0.028（=0.31/11）秒/帧用于STMM计算，包括MatchTrans比对。5结论提出了一种新的时空记忆网络（STMN）的视频对象检测。我们的主要贡献是一个精心设计的循环计算单元，它将预先训练的图像分类权重集成到内存中，以及一个网络内对齐模块，它可以在时间上对内存进行空间对齐。总之，这些导致了ImageNet VID上最先进的结果。最后，我们相信我们的STMN也可以用于其他需要精确空间信息的视频理解任务，如动作检测和关键点检测。鸣谢本工作得到ARO YIP W 911 NF 17 - 1-0410、NSF CAREER IIS-1751206、AWS Cloud Credits for Research Program和NVIDIA捐赠的GPU的部分支持本文件中包含的观点和结论是作者的观点和结论，不应被解释为代表ARO或美国的官方政策，无论是明示还是暗示政府的美国政府有权为政府目的复制和分发重印本，尽管此处有任何版权标记。基于时空记忆对齐的视频目标检测15引用1. http://image-net.org/challenges/LSVRC/2015/results#vid2. Ba，J.，Mnih，V.，Kavukcuoglu，K.：多目标识别与视觉注意。arXiv预印本arXiv：1412.7755（2014）3. BA J.L. Kiros，J.R. Hinton，G.E.：层归一化。arXiv预印本arXiv：1607.06450（2016）4. 北卡罗来纳州巴拉斯姚湖帕尔角Courville，A.：深入研究卷积网络用于学习视频表示。In：ICLR（2016）5. Brox，T.，Malik，J.：大位移光流：在各种不同的运动中进行描述符匹配。PAMI33（3），5006. 卡雷拉，J.，阿格拉瓦尔，P.，Fragkiadaki，K.，Malik，J.：迭代误差反馈人体位姿估计见：CVPR（2016）7. 陈旭，Gupta，A.：用于对象检测中上下文推理的空间记忆In：ICCV（2017）8. Coifman，B.，Beymer，D.，Mclauchlan，P.，Malik，J.：用于车辆跟踪和交通监控的实时计算机视觉系统。Transportation Research C 6C4，2719. Dai，J.，李，Y.，他，K.，孙杰：R-fcn：通过基于区域的全卷积网络的目标检测。在：NIPS（2016）10. Dalal，N.，Triggs，B.，Schmid，C.：使用流量和外观的In：ECCV（2006）11. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）12. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。参见：CVPR（2015）13. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazrba，C.，戈尔科夫Smagt，P.，Cremers，D. Brox，T.：Flownet：使用卷积网络学习光流。In：ICCV（2015）14. Feichtenhofer，C.，Pinz，A.，齐瑟曼，A.：检测跟踪和跟踪检测。In：ICCV（2017）15. Fragkiadaki，K.，Levine，S.，Felsen，P. Malik，J.：人类动力学的循环网络模型。In：ICCV（2015）16. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次，用于精确的对象检测和语义分割。在：CVPR（2014）17. Girshick，R.：快速R-CNN。In：ICCV（2015）18. Han，P.，Yuan，W.，吕志，Wen，J.R.：通过深度表示和时空上下文学习的视频检测（2015）19. 汉，W.，Khorrami，P.Paine，T.L.，Ramachandran，P.，Babaeizadeh，M.，施，H.，李杰，Yan，S.，Huang，T.S.：用于视频对象检测的Seq-nms。arXiv预印本arXiv：1602.08465（2016）20. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）21. 黄，X.，Belongie，S.J.：实时任意样式传输，具有自适应实例归一化功能。In：ICCV（2017）22. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167（2015）23. 琼斯，M.，斯诺，D.：在多帧上使用增强特征的行人检测In：ICPR（2008）16F. Xiao和Y. J. 李24. Kang，K.，Li，H.，Xiao，T.，欧阳，W.Yan，J.，Liu，X.，中国科学院院士，Wang，X.：使用tubelet建议网络进行视频中的对象在：CVPR（2017）25. Kang，K.，Li，H.，Yan，J.，Zeng，X.，Yang，B.，Xiao，T.，张，C.，王志，王，R.，王，X.，等：T-cnn：使用卷积神经网络的Tubelets，用于视频中的对象检测。TCSVT（2017）26. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类在：CVPR（2014）27. 基罗斯河Salakhutdinov河Zemel，R.S.：统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539（2014）28. Krizhevsky，A.，萨茨克弗岛Hinton，G.：使用深度卷积神经网络的图像网分类。在：NIPS（2012）29. Lee，B. Erdenee，E.，Jin，S.，南，M. Y.，Jung，Y.G.，Rhee，P.K.：基于变化点检测的多类多目标跟踪。In：ECCV（2016）30. 李，Y.，Zhu，J.，Hoi，S.C.：可靠的补丁跟踪器：通过利用可靠的补丁进行鲁棒的视觉跟踪。参见：CVPR（2015）31. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。In：ECCV（2016）32. Mnih，V.，Heess，N.格雷夫斯，A.，等：视觉注意的循环模型。在：NIPS（2014）33. Nam，H.，汉，B.：视觉跟踪的多域卷积神经网络学习。见：CVPR（2016）34. 欧阳，W.Luo，P.，Ze

下载后可阅读完整内容，剩余1页未读，立即下载