深度学习驱动的多目标视频跟踪技术探究

160 浏览量更新于2024-06-16 收藏 2.85MB PDF 举报

"这篇论文是关于视频多媒体播放器中应用深度学习进行多对象跟踪的全面调查。" 在视频多媒体播放器中，深度学习已经成为解决多对象跟踪（MOT）问题的关键技术。MOT是一个计算机视觉领域的核心任务，它涉及在视频序列中识别并追踪多个不同对象，无需预先了解目标的外观或数量。这一技术广泛应用于视频监控、自动驾驶、动作识别以及人群行为分析等场景。近年来，随着深度学习的发展，尤其是卷积神经网络（CNN）和长短期记忆网络（LSTM）等模型的应用，MOT算法的性能显著提升。CNNs擅长图像特征提取，而LSTMs则在处理时序数据和维持对象身份方面表现出色。深度学习模型在MOT中的作用可以分为四个主要步骤：对象检测、关联、状态预测和后处理。首先，对象检测阶段，深度学习模型如YOLO、Faster R-CNN等用于生成目标边界框，这些模型能高效准确地定位视频帧中的物体。其次，关联阶段，深度学习模型通过学习对象特征，帮助将不同帧中的检测结果匹配到同一目标的连续轨迹。接着，在状态预测阶段，LSTM等模型利用历史信息预测对象在未来帧的位置，增强了跟踪的连贯性。最后，后处理步骤通常包括解决身份交换和分割错误，这也可以借助深度学习模型进行优化。为了评估各种方法的有效性，论文对多个基于深度学习的MOT算法在MOTChallenge数据集上的表现进行了比较。这些数据集包括复杂的现实世界场景，如行人密集区域，为算法提供了严峻的测试。实验结果显示，最佳方法往往结合了多种深度学习技术，如结合CNN和LSTM，或者采用强化学习策略进行优化。通过对比分析，论文揭示了高性能算法的一些共性，比如强大的特征表示能力、有效的轨迹管理策略以及对不确定性处理的敏感性。同时，它还提出了未来研究的一些可能方向，如开发更高效的模型结构、改进在线学习机制以及应对大规模多目标跟踪的挑战。深度学习在视频多媒体播放器中的应用极大地推动了MOT技术的进步，使得在复杂环境下的目标追踪成为可能。随着技术的不断发展，深度学习将继续在这一领域发挥关键作用，为视频分析和理解带来更多的创新解决方案。

不是他预印本具有被接受在北欧

2019

年

月。

THI SMANUSCRIPTVERSIO NISMADEAVAILABL EUNDE RTHECC-BY-NC-N D4. 0

许可证

Yu等人在[38]中使用修改后的Faster R-CNN得出了相同的结论，其中包括跳过池[39]和多区域特征[40]，并

且在多个行人检测数据集上进行了微调。通过这种架构，他们能够将他们提出的算法的性能（见第3.2.2

节）提高30%以上（绝对变化，以MOTA测量），在MOT16数据集上达到最先进的性能[16]。他们还表明，

具有更高质量的检测减少了对复杂跟踪算法的需求，同时仍然获得类似的结果：这是因为MOTA分数受到

假阳性和假阴性数量的严重影响，使用准确的检测是减少两者的有效方法[38]在MOT16数据集上计算的检测

也已向公众提供

，许多MOT算法已经利用了它们[41，42，43，44，45，46，47，48，49，50，51]。

在接下来的几年里，其他工作利用了Faster R-CNN的检测准确性，该算法已被应用于MOT算法的一部分，

以检测运动员[52]，细胞[53]和猪[54]。此外，例如Zhou等人已经使用了添加分割分支的FasterR-CNN的改

编，Mask R-CNN [17][55]为了检测和跟踪行人，

3.1.2

SSD

SSD [5]检测器是检测步骤中另一种常用的网络特别地，Zhang et al.[54]在猪跟踪管道中将其与Faster R-CNN

和R-FCN [18他们采用了基于判别相关滤波器（DCF）的在线跟踪方法[56]，使用HOG [57]和颜色名称[58]特

征来预测所谓的

标签盒

的位置，即每个动物中心周围的小区域匈牙利算法用于跟踪的标签框和检测之间的关

联，并且在跟踪失败的情况下，DCF跟踪器的输出用于细化边界框。Lu等人[59]也使用了SSD，但在这种情

况下要检测各种对象类来跟踪（人、动物、汽车等），见第3.2.4节）。

一些作品试图通过考虑在跟踪算法的其他步骤中获得的信息来改进用SSD获得的检测。Kieritz等人。[60]在

他们的联合检测和跟踪框架中，使用在跟踪和检测之间计算的亲和度得分来取代SSD网络中包含的标准非

最大抑制（NMS）步骤，该版本基于它们与跟踪目标的对应关系来细化检测置信度得分。

Zhao等人[61]采用SSD检测器来搜索场景中的行人和车辆，但他们使用基于CNN的相关滤波器（CCF）来允

许SSD生成更准确的边界框。CCF利用PCA压缩的CNN特征来预测目标在后续帧中的位置;然后使用预测的

通过这种方式，网络能够使用更深的层来计算小的检测，提取更有价值的语义信息，从而产生更准确的边

界框和更少的假阴性。然后，该算法将这些检测结果与通过NMS步骤在完整图像上获得的检测结果相结

合，然后使用匈牙利算法执行轨迹和检测结果之间的关联，其中成本矩阵考虑了几何（IoU）和外观（平均

峰值-相关能量- APCE [63]）线索。APCE还用于对象重新识别（ReID）步骤，以从遮挡中恢复。作者表

明，使用多尺度增强训练检测器可以带来更好的跟踪性能，并且该算法达到了与KITTI和MOT15上最先进的

在线算法相当的精度。

3.1.3

其他检测器

在MOT中用作检测器的其他CNN模型中，我们可以提到YOLO系列检测器[64，6，65];特别是Kim等人使用

YOLOv 2。Sharma等人。[67]使用递归滚动卷积（RRC）CNN [68]和SubCNN [69]来检测自动驾驶背景下移

动摄像机上记录的视频中的车辆（见第3.2.4节）。Pernici等人[70]在他们的面部跟踪算法中使用了Tiny CNN

检测器[71]，与不使用深度学习技术的可变形部位模型检测器（Deformable Parts Model detector，简称

DEEP）[25

3.1.4

CNN在检测步骤

有时，CNN已经在MOT检测步骤中用于除了直接计算对象边界框之外的用途

例如，CNN已被用于减少[72]中的误报，其中车辆检测是通过对输入执行背景减除的ViBe算法[73]的修改版

本获得这些发现是

https://drive.google.com/file/d/0B5ACiy41McAHMjczS2p0dFg3emM/view

不是他预印本具有被接受在北欧

2019

年

月。

THI SMANUSCRIPTVERSIO NISMADEAVAILABL EUNDE RTHECC-BY-NC-N D4. 0

许可证

首先作为SVM的输入[74]，并且如果SVM没有足够的信心来丢弃或确认它们，则基于Faster-CNN的网络[75]

将用于决定是否保留或丢弃它们中的每一个。通过这种方式，CNN只需要分析几个对象，从而使检测步骤

更快。

Bullinger等人在[76]中探索了一种不同的方法，其中不是在检测步骤中计算经典的边界框，而是采用多任务

网络级联[77]来获得实例感知的语义分割图。作者认为，由于实例的2D形状不同于矩形边界框，不包含背景

结构或其他对象的部分，因此基于光流的跟踪算法将执行得更好，特别是当图像中的目标位置除了对象自

身的运动之外还受到相机运动的影响时。在获得当前帧中存在的各种实例的分割图之后，应用光流法

（[78，79，80]）来预测下一帧中每个实例的位置和形状。然后计算预测和检测实例之间的亲和矩阵，并将

其作为匈牙利算法的输入进行关联。虽然与SORT相比，该方法在整个MOT15数据集上获得的MOTA分数略

低，但作者表明它在移动摄像机的视频上表现更好。

3.2

特征提取和运动预测

特征提取阶段是使用深度学习模型的首选阶段，因为它们具有强大的代表性，这使得它们善于提取有意义的

高级特征。这一领域最典型的方法是使用CNN来提取视觉特征，如第3.2.2节所述。与使用经典的CNN模型

不同，另一个反复出现的想法是使用对比损失函数将它们训练为暹罗CNN，以便找到最能区分受试者的特

征集第3.2.3节对这些方法进行了解释。此外，一些作者探索了CNN在基于相关滤波器的算法中预测对象运

动的能力：这些在第3.2.5节中进行了评论。最后，其他类型的深度学习模型也被采用，通常包括在更复杂

的系统中，将深度特征与经典特征相结合。它们在3.2.4节（专门针对视觉功能）和3.2.6节（针对不适合其

他类别的方法

3.2.1

自动编码器：在MOT管道中首次使用DL

据我们所知，在MOT中使用深度学习的第一种方法是由Wang等人提出[81] 2014年他们提出了一个自动编码

器网络，堆叠在两层中，用于改进从自然场景中提取的视觉特征[82]。在提取步骤之后，使用SVM执行亲和

度计算，并且关联任务被公式化为最小生成树问题。他们表明，特征细化大大提高了模型性能。然而，测试

该算法的数据集并不常用，结果很难与其他方法相比。

3.2.2

CNN作为视觉特征提取器

最广泛使用的特征提取方法是基于卷积神经网络的细微修改这些模型的第一次使用可以在[83]中找到在这

里，金等人。将视觉特征纳入一种称为多假设跟踪的经典算法中，使用预训练的CNN从检测中提取4096个

视觉特征，然后使用PCA将其减少到256个。这一修改将MOT15的MOTA评分提高了3分以上到论文提交的

时候，它已经是该数据集上排名最高的算法Yu el al.

[38]使用GoogLeNet的修改版本[2]，在自定义重新识别数据集上进行预训练，通过结合经典的个人识别数据

集（PRW [84]，Market-1501 [85]，VIPeR [86]，CUHK 03 [87]）构建。将视觉特征与空间特征相结合，利

用卡尔曼滤波器进行特征提取，然后计算相似度矩阵

使用CNN进行特征提取的其他示例可以在[88]中找到，其中自定义CNN用于在多假设跟踪框架中提取外观

特征，在[89]中，其跟踪器采用了预训练的基于区域的CNN [90]，或者在[91]中，CNN从鱼头提取视觉特

征，随后与卡尔曼滤波器的运动预测相结合

SORT算法[35]在第3.1.1节中提出，后来使用深度特征进行了改进，这个新版本被称为DeepSORT [41]。该模

型结合了自定义残差CNN提取的视觉信息[92]。CNN提供了一个具有128个特征的归一化向量作为输出，这

些向量之间的余弦距离被添加到SORT中使用的亲和力分数网络结构图见图4。实验结果表明，这种改进克

服了SORT算法的主要缺点，即ID开关数量过多。

Mahmoudi等人。[42]还结合了CNN提取的视觉特征以及动态和位置特征，然后通过匈牙利算法解决了关联

问题在[93]中，在ImageNet上预训练的ResNet-50 [3]被

剩余47页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习驱动的多目标视频跟踪技术探究

易语言多媒体播放器模块1.1源码学习参考

多媒体播放器引擎系统使用方法详解

设计与实现多媒体播放器应用

深度学习驱动的视频MOT：现状与未来

湖北网络广播电视台页面深度分析报告

【Java AWT多媒体应用开发】：音频视频集成的高级技巧

【整合多媒体与外部资源】：掌握Obsidian嵌入内容技巧

DXVA2与视频编解码性能优化的最佳实践

华南理工大学多媒体技术大作业

多媒体播放器模块设计指南

最新资源