深度学习驱动的视频MOT：现状与未来

163 浏览量更新于2024-06-19 收藏 2.84MB PDF 举报

视频多媒体播放器的深度学习调查是一篇探讨深度学习在多目标跟踪（MOT）领域的应用研究论文。该文章着重于单摄像机视频环境下的MOT问题，即在连续视频帧中追踪不同对象的轨迹。近年来，随着深度学习技术的飞速发展，研究人员利用深度模型解决MOT问题的能力得到了显著提升。文章首先定义了MOT的基本概念，它涉及到在没有预先设定目标类别或数量的情况下，通过计算机视觉技术自动识别并跟踪视频中的对象。对象被检测出来后，通过坐标、尺寸信息以及个体标识符（ID）关联起来，形成完整的跟踪路径。这对于诸如行为识别、安全监控、自动驾驶等应用场景至关重要。论文详细阐述了MOT算法的四个关键步骤，包括目标检测、目标初始化、目标跟踪和目标关联。深度学习在此过程中发挥着核心作用。深度学习模型，如卷积神经网络（CNN）和长短时记忆网络（LSTM），被用来提高目标检测的准确性和鲁棒性，从而为后续跟踪提供高质量的输入。强化学习也被提及作为一种潜在的增强手段，用于优化跟踪策略。作者进行了一项详尽的实验比较，选取了多个MOTChallenge数据集进行评估，这些数据集是评估MOT算法性能的标准平台。通过对这些作品的分析，论文揭示了最佳方法之间的共性和差异，指出了一些潜在的改进方向。尽管该文最初是在2019年7月作为预印本发布，但直到同年11月进行了修订，并可能在同年12月获得了进一步的认可。这篇论文不仅提供了深度学习在视频多媒体播放器中的具体应用案例，还为MOT领域的研究者们提供了宝贵的参考框架，展示了深度学习如何推动多目标跟踪技术的发展，并为未来的研究指明了新的探索方向。

不是他预印本具有被接受在北欧

2019

年

月。

THI SMANUSCRIPTVERSIO NISMADEAVAILABL EUNDE RTHECC-BY-NC-N D4. 0

许可证

Yu等人在[38]中使用修改后的Faster R-CNN得出了相同的结论，其中包括跳过池[39]和多区域特征[40]，并

且在多个行人检测数据集上进行了微调。通过这种架构，他们能够将他们提出的算法的性能（见第3.2.2

节）提高30%以上（绝对变化，以MOTA测量），在MOT16数据集上达到最先进的性能[16]。他们还表明，

具有更高质量的检测减少了对复杂跟踪算法的需求，同时仍然获得类似的结果：这是因为MOTA分数受到

假阳性和假阴性数量的严重影响，使用准确的检测是减少两者的有效方法[38]在MOT16数据集上计算的检测

也已向公众提供

，许多MOT算法已经利用了它们[41，42，43，44，45，46，47，48，49，50，51]。

在接下来的几年里，其他工作利用了Faster R-CNN的检测准确性，该算法已被应用于MOT算法的一部分，

以检测运动员[52]，细胞[53]和猪[54]。此外，例如Zhou等人已经使用了添加分割分支的FasterR-CNN的改

编，Mask R-CNN [17][55]为了检测和跟踪行人，

3.1.2

SSD

SSD [5]检测器是检测步骤中另一种常用的网络特别地，Zhang et al.[54]在猪跟踪管道中将其与Faster R-CNN

和R-FCN [18他们采用了基于判别相关滤波器（DCF）的在线跟踪方法[56]，使用HOG [57]和颜色名称[58]特

征来预测所谓的

标签盒

的位置，即每个动物中心周围的小区域匈牙利算法用于跟踪的标签框和检测之间的关

联，并且在跟踪失败的情况下，DCF跟踪器的输出用于细化边界框。Lu等人[59]也使用了SSD，但在这种情

况下要检测各种对象类来跟踪（人、动物、汽车等），见第3.2.4节）。

一些作品试图通过考虑在跟踪算法的其他步骤中获得的信息来改进用SSD获得的检测。Kieritz等人。[60]在

他们的联合检测和跟踪框架中，使用在跟踪和检测之间计算的亲和度得分来取代SSD网络中包含的标准非

最大抑制（NMS）步骤，该版本基于它们与跟踪目标的对应关系来细化检测置信度得分。

Zhao等人[61]采用SSD检测器来搜索场景中的行人和车辆，但他们使用基于CNN的相关滤波器（CCF）来允

许SSD生成更准确的边界框。CCF利用PCA压缩的CNN特征来预测目标在后续帧中的位置;然后使用预测的

通过这种方式，网络能够使用更深的层来计算小的检测，提取更有价值的语义信息，从而产生更准确的边

界框和更少的假阴性。然后，该算法将这些检测结果与通过NMS步骤在完整图像上获得的检测结果相结

合，然后使用匈牙利算法执行轨迹和检测结果之间的关联，其中成本矩阵考虑了几何（IoU）和外观（平均

峰值-相关能量- APCE [63]）线索。APCE还用于对象重新识别（ReID）步骤，以从遮挡中恢复。作者表

明，使用多尺度增强训练检测器可以带来更好的跟踪性能，并且该算法达到了与KITTI和MOT15上最先进的

在线算法相当的精度。

3.1.3

其他检测器

在MOT中用作检测器的其他CNN模型中，我们可以提到YOLO系列检测器[64，6，65];特别是Kim等人使用

YOLOv 2。Sharma等人。[67]使用递归滚动卷积（RRC）CNN [68]和SubCNN [69]来检测自动驾驶背景下移

动摄像机上记录的视频中的车辆（见第3.2.4节）。Pernici等人[70]在他们的面部跟踪算法中使用了Tiny CNN

检测器[71]，与不使用深度学习技术的可变形部位模型检测器（Deformable Parts Model detector，简称

DEEP）[25

3.1.4

CNN在检测步骤

有时，CNN已经在MOT检测步骤中用于除了直接计算对象边界框之外的用途

例如，CNN已被用于减少[72]中的误报，其中车辆检测是通过对输入执行背景减除的ViBe算法[73]的修改版

本获得这些发现是

https://drive.google.com/file/d/0B5ACiy41McAHMjczS2p0dFg3emM/view

不是他预印本具有被接受在北欧

2019

年

月。

THI SMANUSCRIPTVERSIO NISMADEAVAILABL EUNDE RTHECC-BY-NC-N D4. 0

许可证

首先作为SVM的输入[74]，并且如果SVM没有足够的信心来丢弃或确认它们，则基于Faster-CNN的网络[75]

将用于决定是否保留或丢弃它们中的每一个。通过这种方式，CNN只需要分析几个对象，从而使检测步骤

更快。

Bullinger等人在[76]中探索了一种不同的方法，其中不是在检测步骤中计算经典的边界框，而是采用多任务

网络级联[77]来获得实例感知的语义分割图。作者认为，由于实例的2D形状不同于矩形边界框，不包含背景

结构或其他对象的部分，因此基于光流的跟踪算法将执行得更好，特别是当图像中的目标位置除了对象自

身的运动之外还受到相机运动的影响时。在获得当前帧中存在的各种实例的分割图之后，应用光流法

（[78，79，80]）来预测下一帧中每个实例的位置和形状。然后计算预测和检测实例之间的亲和矩阵，并将

其作为匈牙利算法的输入进行关联。虽然与SORT相比，该方法在整个MOT15数据集上获得的MOTA分数略

低，但作者表明它在移动摄像机的视频上表现更好。

3.2

特征提取和运动预测

特征提取阶段是使用深度学习模型的首选阶段，因为它们具有强大的代表性，这使得它们善于提取有意义的

高级特征。这一领域最典型的方法是使用CNN来提取视觉特征，如第3.2.2节所述。与使用经典的CNN模型

不同，另一个反复出现的想法是使用对比损失函数将它们训练为暹罗CNN，以便找到最能区分受试者的特

征集第3.2.3节对这些方法进行了解释。此外，一些作者探索了CNN在基于相关滤波器的算法中预测对象运

动的能力：这些在第3.2.5节中进行了评论。最后，其他类型的深度学习模型也被采用，通常包括在更复杂

的系统中，将深度特征与经典特征相结合。它们在3.2.4节（专门针对视觉功能）和3.2.6节（针对不适合其

他类别的方法

3.2.1

自动编码器：在MOT管道中首次使用DL

据我们所知，在MOT中使用深度学习的第一种方法是由Wang等人提出[81] 2014年他们提出了一个自动编码

器网络，堆叠在两层中，用于改进从自然场景中提取的视觉特征[82]。在提取步骤之后，使用SVM执行亲和

度计算，并且关联任务被公式化为最小生成树问题。他们表明，特征细化大大提高了模型性能。然而，测试

该算法的数据集并不常用，结果很难与其他方法相比。

3.2.2

CNN作为视觉特征提取器

最广泛使用的特征提取方法是基于卷积神经网络的细微修改这些模型的第一次使用可以在[83]中找到在这

里，金等人。将视觉特征纳入一种称为多假设跟踪的经典算法中，使用预训练的CNN从检测中提取4096个

视觉特征，然后使用PCA将其减少到256个。这一修改将MOT15的MOTA评分提高了3分以上到论文提交的

时候，它已经是该数据集上排名最高的算法Yu el al.

[38]使用GoogLeNet的修改版本[2]，在自定义重新识别数据集上进行预训练，通过结合经典的个人识别数据

集（PRW [84]，Market-1501 [85]，VIPeR [86]，CUHK 03 [87]）构建。将视觉特征与空间特征相结合，利

用卡尔曼滤波器进行特征提取，然后计算相似度矩阵

使用CNN进行特征提取的其他示例可以在[88]中找到，其中自定义CNN用于在多假设跟踪框架中提取外观

特征，在[89]中，其跟踪器采用了预训练的基于区域的CNN [90]，或者在[91]中，CNN从鱼头提取视觉特

征，随后与卡尔曼滤波器的运动预测相结合

SORT算法[35]在第3.1.1节中提出，后来使用深度特征进行了改进，这个新版本被称为DeepSORT [41]。该模

型结合了自定义残差CNN提取的视觉信息[92]。CNN提供了一个具有128个特征的归一化向量作为输出，这

些向量之间的余弦距离被添加到SORT中使用的亲和力分数网络结构图见图4。实验结果表明，这种改进克

服了SORT算法的主要缺点，即ID开关数量过多。

Mahmoudi等人。[42]还结合了CNN提取的视觉特征以及动态和位置特征，然后通过匈牙利算法解决了关联

问题在[93]中，在ImageNet上预训练的ResNet-50 [3]被

剩余47页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习驱动的视频MOT：现状与未来

最新资源