没有合适的资源?快使用搜索试试~ 我知道了~
视频多媒体播放器的深度学习调查A PREPRINTGioele Ciaparrone1,2,Francisco Luque Sánchez2,Siham Tabik2,Luigi Troiano3,Roberto Tagliaferri1,Francisco Herrera21管理与创新系统系,萨莱诺大学,84084 Fisciano(SA),意大利2安达卢西亚数据科学和计算智能研究所,格拉纳达大学,18071格拉纳达,西班牙3工程系,Sannio大学,82100 Benevento,意大利{gciaparrone,robtag}@unisa.it,{fluque,herrera}@decsai.ugr.es,siham@ugr.estroiano@unisannio.it,www.example.com2019年11月20日A抽象多对象跟踪(MOT)的问题在于跟踪序列中不同对象的轨迹,通常是视频。近年来,随着深度学习的兴起,为这个问题提供解决方案的算法已经受益于深度模型的代表性本文对采用深度学习模型来解决单摄像机视频MOT任务的作品进行了全面的调查。MOT算法中的四个主要步骤被确定,并对深度学习如何在每个阶段中使用进行了深入的回顾还提供了三个MOTChallenge数据集上所呈现的作品的完整实验比较,确定了性能最好的方法之间的一些相似之处,并提出了一些可能的未来研究方向。多目标跟踪·深度学习·视频跟踪·计算机视觉·卷积神经网络·LSTM·强化学习arXiv:1907.12740v4 [cs.CV] 2019年11月不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E21介绍多目标跟踪(MOT),也称为多目标跟踪(MTT),是一种计算机视觉任务,旨在分析视频,以识别和跟踪属于一个或多个类别的对象,如行人,汽车,动物和无生命物体,而无需任何关于目标外观和数量的先验知识。对象检测算法的输出是由其坐标、高度和宽度标识的矩形边界框的集合,而MOT算法也将目标ID与每个框相关联(称为检测),以便区分类内对象。MOT算法的输出示例如图1所示。MOT任务在计算机视觉中起着重要作用:从视频监控到自动驾驶汽车,从动作识别到人群行为分析,许多问题都将受益于高质量的跟踪算法。图1:MOT算法的输出图示。每个输出边界框都有一个数字,用于标识视频中的特定人物。在单目标跟踪(SOT)中,目标的外观是先验已知的,而在MOT中,需要检测步骤来识别可以离开或进入场景的目标。同时跟踪多个目标的主要困难来自对象之间的各种遮挡和相互作用,有时也可能具有相似的外观。因此,简单地直接应用SOT模型来解决MOT会导致结果不佳,通常会导致目标漂移和大量的ID切换错误,因为这些模型通常难以区分相似的类内对象。近年来,为了解决这些问题,开发了一系列专门针对多目标跟踪的算法,以及一些基准数据集和竞赛,以简化不同方法之间的最近,越来越多的此类算法开始利用深度学习(DL)的表征能力深度神经网络(DNN)的优势在于它们能够学习丰富的表示,并从输入中提取复杂和抽象的特征卷积神经网络(CNN)目前构成了空间模式提取的最新技术,并用于图像分类[1,2,3]或对象检测[4,5,6]等任务,而循环神经网络(RNN)如长短期记忆(LSTM)用于处理顺序数据,如音频信号,时间序列和文本[7,8,9,10]。由于DL方法已经能够在许多这些任务中达到最佳性能,我们现在逐渐看到它们用于大多数性能最佳的MOT算法,帮助解决一些子任务,其中问题被划分。MOT算法212121不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E3这项工作提出了一个利用深度学习模型的能力来执行多目标跟踪的算法的调查,重点是用于MOT算法的各个组件的不同方法,并将它们放在每个提出的方法的上下文虽然MOT任务可以应用于2D和3D数据,以及单相机和多相机场景,但在本调查中,我们专注于从单相机记录的视频中提取的2D数据一些评论和调查已经出版了关于MOT的主题它们的主要贡献和局限性如下:Luo等人[11]提出了第一个专门关注MOT的全面综述,特别是行人跟踪。他们提供了MOT问题的统一表述,并描述了MOT系统关键步骤中使用他们将深度学习作为未来的研究方向之一,因为当时它只被很少的算法使用。Camplani等人。[12]提出了一项关于多行人跟踪的调查,但他们专注于RGB-D数据,而我们的重点是2D RGB图像,没有额外的输入。此外,他们的评论不包括基于深度学习的算法。Emami等人。[13]提出了一种将单传感器和多传感器跟踪任务作为多维分配问题(MDAP)的公式。他们还提出了一些利用深度学习来跟踪问题的方法,但这Leal-Taixé等人。[14]对MOT 15 [15]和MOT 16 [16]数据集上的算法获得的结果进行了分析,提供了研究趋势线和结果统计数据的总结。他们发现,在2015年之后,方法已经从试图为关联问题找到更好的优化算法转变为专注于改进亲和力模型,他们预测更多的方法将通过使用深度学习来解决这个问题。然而,这项工作也没有关注深度学习,也没有涵盖最近几年发表的MOT算法。在本文中,基于所讨论的局限性,我们的目的是提供一个调查,主要贡献如下我们提供了关于深度学习在多目标跟踪中的使用的第一个全面调查,重点关注从单摄像机视频中提取的2D数据,包括过去调查和评论中未涵盖的最新作品。事实上,深度学习在MOT中的应用是最近才出现的,在过去的三年中已经发表了许多方法我们确定了MOT算法中的四个常见步骤,并描述了每个步骤中采用的不同DL模型和方法,包括使用它们的算法上下文。每个分析工作所使用的技术也总结在一个表中,连同链接到可用的源代码,作为未来研究的快速参考。我们收集了最常用的MOT数据集上的实验结果,对它们进行了数值比较,并确定了性能最佳算法的主要趋势。• 最后,我们讨论了未来可能的研究方向调查是以这种方式进一步组织我们首先在第2节中描述MOT算法的一般结构以及最常用的度量和数据集。第3节探讨了MOT算法的四个确定步骤中的第4节给出了所提出的算法之间的数值比较,并确定了当前方法的共同趋势和模式,以及一些限制和未来可能的研究方向。最后,第5节总结了前几节的调查结果,并提出了一些最后意见。2MOT:算法、指标和数据集在本节中,提供了关于MOT问题的一般描述。MOT算法的主要特征和常见步骤在第2.1节中进行了识别和描述。通常用于评估模型性能的指标在2.2节中讨论,而最重要的基准数据集在2.3节中介绍。·······不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E4(三)特征提取器特征提取器特征提取器(四)(一)特征提取器(二)212.1MOT算法MOT算法中采用的标准方法是检测跟踪:一组检测(即,标识图像中的目标的边界由于这个原因,许多MOT算法将任务表述为分配问题。现代检测框架[4,17,18,5,6]确保了良好的检测质量,大多数MOT方法(我们将看到,除了一些例外)一直专注于改善协会;实际上,许多MOT数据集提供了一套标准的检测方法,可供算法使用(从而可以跳过检测阶段)为了专门比较它们在关联算法的质量上的性能,因为检测器性能会严重影响跟踪结果。MOT算法也可以分为批处理和在线方法。当尝试确定某个帧中的对象身份时,允许批跟踪算法使用未来信息(即来自未来帧)。它们通常利用全局信息,从而获得更好的跟踪质量。相反,在线跟踪算法只能使用现在和过去的这是某些场景的要求,例如自动驾驶和机器人导航。与批处理方法相比,在线方法的性能往往更差,因为它们不能使用未来的信息来修复过去的错误需要注意的是,虽然实时算法需要以在线方式运行,但并不是每个在线方法都必须实时运行;实际上,除了极少数例外,在线算法仍然太慢,无法在实时环境中使用,特别是在利用深度学习算法时,这通常是计算密集型的。尽管文献中提出了各种各样的方法,但绝大多数MOT算法都共享以下部分或全部步骤(如图2所示):检测阶段:对象检测算法分析每个输入帧,以使用边界框识别属于目标类的对象,在MOT的上下文中也称为特征提取/运动预测阶段:一个或多个特征提取算法分析检测和/或轨迹片段以提取外观、运动和/或交互特征。可选地,运动预测器预测每个被跟踪目标的下一个位置;亲和度阶段:使用特征和运动预测来计算检测和/或轨迹片段对之间的相似性/距离分数关联阶段:相似性/距离度量用于通过将相同ID分配给识别相同目标的检测来关联属于相同目标的检测和轨迹片段(五)21图2:MOT算法的基本工作流程:给定视频的原始帧(1),运行对象检测器以获得对象的边界框(2)。然后,对于每个检测到的对象,计算不同的特征,通常是视觉和运动特征(3)。之后,在亲和度计算步骤中计算两个对象属于同一目标的概率(4),最后在关联步骤中对每个对象分配数字ID(5)。虽然这些阶段可以按照这里所呈现的顺序顺序依次执行(对于在线方法,通常每帧一次,对于批处理方法,对于整个视频一次),但是有许多算法将这些步骤中的一些合并在一起,····不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E5≥−或者将它们相互交织,或者甚至使用不同的技术(例如,在两个阶段中工作的算法中)多次执行它们。此外,有些方法并不直接将探测联系在一起,而是使用它们来改进轨迹预测,并管理新轨迹的初始化和终止;尽管如此,正如我们将看到的,即使在这种情况下,许多提出的步骤通常仍然可以识别。2.2度量为了提供一个共同的实验设置,算法可以公平地测试和比较,一组指标已被事实上建立为标准,他们几乎在每一个工作中使用最相关的是Wu和Nevatia定义的度量[19],所谓的CLEAR MOT度量[20],以及最近的ID度量[21]。这些指标集旨在反映测试模型的整体性能,并指出每个模型可能存在的因此,这些指标定义如下:经典度量Wu和Nevatia [19]定义的这些指标突出了MOT算法可能产生的不同类型的错误为了显示这些问题,计算以下值:大多数跟踪(MT)轨迹:在至少80%的帧中正确跟踪的地面实况轨迹的数量片段:轨迹假设,覆盖最多80%的地面真实轨迹。观察到一个真实的轨迹可以被多个碎片覆盖。大多数丢失(ML)轨迹:在不到20%的帧中正确跟踪的地面实况轨迹的数量假轨迹:不对应于真实对象的预测轨迹(即,地面真实轨迹)。ID切换:正确跟踪对象,但错误更改对象的关联ID的次数。CLEAR MOT指标CLEAR MOT指标是为2006年[22]和2007年 [23]举行的事件、活动和关系分类(CLEAR)研讨会研讨会由欧洲CHIL项目、美国VACE项目和美国国家标准与技术研究所(NIST)联合组织这些指标是MOTA(多目标跟踪精度)和MOTP(多目标跟踪精度)。它们作为组成它们的其他简单指标我们将首先解释简单的指标,然后在它们之上构建复杂的指标关于如何将真实对象(地面实况)与跟踪器假设相匹配的详细描述可以在[20]中找到,因为如何考虑假设何时与对象相关并不是微不足道的,并且它取决于要评估的精确跟踪任务在我们的情况下,由于我们专注于使用单个摄像机进行2D跟踪,因此决定对象和预测是否相关的最常用度量是边界框的交集(IoU),因为它是MOT15数据集的演示文稿中建立的度量[15]。具体地,如下建立基础事实和假设之间的映射:如果基础事实对象o i和假设h j在帧t 1中匹配,并且在帧t中匹配,则IoU(o i,h j)0。5,则oi和hj在该帧中匹配,即使存在另一假设hk使得IoU(oi,hj)IoU(oi,hk),考虑到连续性约束。<在已经执行了来自先前帧的匹配之后,仍然使用假设来尝试将剩余的对象与剩余的假设进行匹配。0.5 IoU阈值。不能与假设相关联的地面实况边界框被计数为假阴性(FN),并且不能与真实边界框相关联的假设被标记为假阳性(FP)。此外,每次地面实况对象跟踪被中断并且随后恢复时被计数为碎片,而每次跟踪的地面实况对象ID在跟踪持续时间期间被不正确地改变时被计数为ID切换。然后,计算的简单度量如下:• FP:整个视频中的误报数量;• FN:整个视频中的假阴性数量• Fragm:碎片总数;• IDSW:ID交换机的总数。MOTA评分定义如下:·····不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E6ΣΣIDTPIDTP+MOTA= 1−(FN+FP+IDSW)GT∈(−∞,1]其中GT是地面实况框的数量。重要的是要注意,分数可以是负的,因为算法可以犯下比地面实况框的数量更多的错误通常情况下,报告MOTA的百分比,而不是报告MOTA,这只是前面的表达式表示为百分比。另一方面,MOTP计算为:MOTP=t,idt,itct其中ct表示帧t中的匹配数量,并且dt,i是假设i与其所分配的地面实况对象之间的边界框重叠。重要的是要注意,该度量几乎不考虑有关跟踪的信息,而是关注检测的质量。ID评分MOTA评分的主要问题是它考虑了跟踪器做出错误决定的次数,例如ID切换,但在某些情况下(例如,机场安全),人们可能更感兴趣的是奖励能够尽可能长时间地跟踪对象以便不丢失其位置的跟踪器。正因为如此,在[21]中定义了几个替代的新指标,它们应该补充CLEAR MOT指标提供的信息。不是逐帧匹配地面实况和检测,而是全局执行映射,并且分配给给定地面实况轨迹的轨迹假设是最大化针对地面实况正确分类的帧的数量的轨迹为了解决该问题,构造了一个二分图,并将该问题的最小成本解作为问题解。对于二分图,顶点集定义如下:第一顶点集VT对于每个真实轨迹具有所谓的正则节点,并且对于每个计算出的轨迹具有假阳性节点。第二个集合VC对于每个计算出的轨迹都有一个常规节点,对于每个真轨迹都有一个假阴性。设置边缘的成本,以便在选择边缘的情况下计算假阴性和假阳性帧的数量(更多信息可以在[21]中找到)。在执行关联之后,有四个不同的可能对,注意所涉及的节点的性质如果来自VT的规则节点与VC的规则节点匹配(即,真实轨迹与计算轨迹匹配),则对真实正ID进行计数。与来自VC的常规节点匹配的来自VT的每个假阳性计数为假阳性ID。来自VT的每个规则节点与来自VC的假阴性匹配都计数为假阴性ID,最后,与假阴性匹配的每个假阳性计数为真阴性ID。之后,计算三个分数IDTP是被选择为真阳性ID匹配的边缘的权重之和(它可以被看作是在整个视频中正确分配IDFN是所选假阴性ID边缘的权重之和,IDFP是所选假阳性ID边缘的权重之和有了这三个基本度量,计算另外三个度量• 鉴别精密度:IDP=IDTP+IDFP• 识别召回:IDR=IDTP+IDFN• 鉴别F1:IDF1=211IDPIDR2IDTP2IDTP +IDFP+IDFN通常,几乎每一项工作中报告的指标都是CLEAR MOT指标,主要是跟踪轨迹(MT),主要是丢失轨迹(ML)和IDF1,因为这些指标是MOTChallenge排行榜中显示的指标(详见第2.3节)。此外,跟踪器可以处理的每秒帧数(FPS)经常被报告,并且也包括在排行榜中。然而,我们发现这个度量很难在不同的算法之间进行比较,因为一些方法包括检测阶段,而另一些方法则跳过该计算。此外,对所采用的硬件的依赖性在速度方面是相关的。2.3基准数据集在过去的几年里,已经发布了一些MOT数据集在本节中,我们将描述最重要的几个,从MOTChallenge基准测试的一般描述开始,然后重点介绍其数据集,最后描述KITTI和其他不太常用的MOT数据集。MOTChallenge. MOTChallenge1是多目标跟踪最常用的基准测试。除其他外,它还提供了一些目前公开提供的最大的行人跟踪数据集。对于每个数据集,第1https://motchallenge.net/=不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E7提供了训练分割的基本事实以及训练和测试分割的检测。MOTChallenge数据集经常提供检测(通常称为公共检测,而不是私有检测,由算法作者通过使用自己的检测器获得)的原因是检测质量对跟踪器的最终性能有很大影响,但算法的检测部分通常独立于跟踪部分,并且通常使用现有的模型;提供每个模型都可以使用的公共检测使得跟踪算法的比较更容易,因为检测质量从性能计算中考虑通过将结果提交给测试服务器来完成对测试数据集的算法评估。MOTChallenge网站包含每个数据集的排行榜,在单独的页面中显示使用公共检测的模型和使用私人检测的模型在线方法也被标记为如此。MOTA是MOTChallenge的主要评估分数,但也显示了许多其他指标,包括第2.2节中列出的所有指标。正如我们将看到的,由于绝大多数使用深度学习的MOT算法都专注于行人,因此MOTChallenge数据集是使用最广泛的,因为它们是目前可用的最全面的数据集,为训练深度模型提供了更多的数据。MOT15. 第一个MOTChallenge数据集是2D MOT 2015 2[15](通常称为MOT15)。它包含一系列22个视频(11个用于训练,11个用于测试),从旧数据集收集,具有各种特征(固定和移动摄像机,不同的环境和照明条件等),因此模型需要更好地泛化,以获得良好的结果。它总共包含11283帧不同的分辨率,1221个不同的身份和101345个盒子。使用ACF检测器获得所提供的检测结果[24]。MOT16/17。该数据集的新版本于2016年发布,称为MOT16 3[16]。这一次,地面事实是从头开始的,因此它在整个数据集中是一致的。这些视频也更具挑战性,因为它们具有更高的行人密度。该集合中总共包含14个视频(7个用于训练,7个用于测试),使用基于可变形部分的模型(Deformable Part-based Model)v5[25,26]获得了公共检测,他们发现与其他模型相比,在检测数据集上的行人方面获得了这次数据集包括11235帧,1342个身份和292733个盒子。MOT 17数据集4包括与MOT 16相同的视频,但具有更准确的地面真实值,并且每个视频具有三组检测:一组来自Faster R-CNN [4],一组来自Faster R-CNN [ 4 ],一组来自Scale-Dependent Pooling检测器(SDP)[27]。然后,跟踪器必须证明具有足够的通用性和鲁棒性,以使用不同的检测质量获得良好的性能。MOT19. 最近,CVPR 2019跟踪挑战赛5的新版本数据集已经发布,包含8个视频(4个用于训练,4个用于测试),具有极高的行人密度,在最拥挤的视频中平均每帧高达245该数据集包含13410帧,6869个轨道和2259143个盒子,比以前的数据集多得多虽然该数据集的提交只允许在有限的时间内进行,但这些数据将成为2019年底发布MOT19的基础[28]。凯蒂虽然MOTChallenge数据集专注于行人跟踪,但KITTI跟踪基准6[29,30]允许跟踪人和车辆。该数据集是通过在城市周围驾驶汽车收集的,并于2012年发布。它由21个训练视频和29个测试视频组成,总共约19000帧(32分钟)。它包括使用Rector7和RegionLets8 [31]探测器获得的探测结果,以及立体和激光信息;然而,如前所述,在本调查中,我们只关注使用2D图像的模型通过CLEAR MOT度量、MT、ML、ID开关和碎片化对方法进行了评价。可以只提交行人或汽车的结果,并为两个类别维护两个不同的排行榜。其他数据集。除了前面描述的数据集之外,还有一些较旧的,现在不太常用的数据集。在这些数据集中,我们可以找到UA-DETRAC跟踪基准9[32],它专注于从交通摄像头跟踪的车辆,以及TUD10 [33]和PETS200911 [34]数据集,它们都专注于行人。他们的许多视频现在都是MOTChallenge数据集的一部分。2数据集:https://motchallenge.net/data/2D_MOT_2015/,排行榜:https://motchallenge.net/results/2D_MOT_2015/。3数据集:https://motchallenge.net/data/MOT16/,排行榜:https://motchallenge.net/results/MOT16/。4数据集:https://motchallenge.net/data/MOT17/,排行榜:https://motchallenge.net/results/MOT17/。https://motchallenge.net/workshops/bmtt2019/tracking.html第http://www.cvlibs.net/datasets/kitti/eval_tracking.php7该网站称,检测是使用基于潜在SVM或L-SVM的模型获得的该模型现在被称为可变形零件模型(Deformable PartsModel,简称DEEP)。9http://www.xiaoyumu.com/project/detection10https://www.d2.mpi-inf.mpg.de/node/428https://detrac-db.rit.albany.edu/Tracking第11http://www.cvg.reading.ac.uk/PETS2009/a.html不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E8网络匹配最终检测3MOT中的深度学习由于本调查的重点是深度学习在MOT任务中的使用,因此我们将本节分为五个小节。前四个小节中的每一个小节都回顾了深度学习如何在前面定义的四个MOT阶段中的每一个阶段中得到利用。第3.4小节除了介绍深度学习在关联过程中的使用外,还将包括其在整个跟踪管理过程中的使用(例如,跟踪的初始化/终止),因为它与关联步骤严格相关。第3.5小节最后将描述深度学习在MOT中的使用,这些使用不适合四步方案。我们在A中包含了一个汇总表,显示了本调查中每篇论文的四个步骤中使用的主要技术。操作模式(批次与在线),并且还包括指向源代码或其他提供的材料的链接(如果可用)。3.1检测步骤虽然许多作品都使用由各种检测器生成的网络提供的检测作为其算法的输入(例如MOT 15的聚合通道特征[24][15]或MOT 16的可变形部件模型[25][16]),但也有集成自定义检测步骤的算法,这通常有助于通过提高检测质量来提高整体跟踪性能。正如我们将看到的,大多数采用自定义检测的算法都使用了Faster R-CNN及其变体(第3.1.1节)或SSD(第3.1.2节),但也存在使用不同模型的方法(第3.1.3节)。尽管绝大多数算法都使用深度学习模型来提取矩形边界框,但也有一些算法在检测步骤中使用了不同的深度网络:这些算法是第3.1.4节的重点。拟议区域区域提议区域和形象CONV层特征地图图3:基于深度学习的检测器示例(更快的R-CNN架构[4])3.1.1Faster R-CNN简单在线和实时跟踪(SORT)算法[35]是第一个利用卷积神经网络检测行人的MOT管道之一Bewley等人显示使用聚合通道特征(ACF)[24]获得的检测结果替换由Faster R-CNN [4]计算的检测结果(如图3所示)可以将MOT 15数据集上的MOTA评分提高18.9%(绝对变化)[15]。他们使用了一种相对简单的方法,包括使用卡尔曼滤波器[36]预测对象运动,然后在匈牙利算法[37]的帮助下将检测关联在一起,使用交集(IoU)距离来计算成本矩阵。在发布时,SORT被评为MOT15数据集上性能最好的开源算法12请注意,模型的分类不应被视为严格的分类,因为其中一个模型被用于多种目的并不罕见,有时很难画出一条例如,一些深度学习模型,特别是暹罗网络,通常被训练为输出亲和度得分,但在推理时,它们仅用于提取“关联特征”,然后使用简单的硬编码距离度量来计算亲和度。在这些情况下,我们决定将网络视为执行特征提取,因为相似性度量不是直接学习的。然而,这些模型也可以被认为是使用深度学习进行亲和度计算。不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E9Yu等人在[38]中使用修改后的Faster R-CNN得出了相同的结论,其中包括跳过池[39]和多区域特征[40],并且在多个行人检测数据集上进行了微调。通过这种架构,他们能够将他们提出的算法的性能(见第3.2.2节)提高30%以上(绝对变化,以MOTA测量),在MOT16数据集上达到最先进的性能[16]。他们还表明,具有更高质量的检测减少了对复杂跟踪算法的需求,同时仍然获得类似的结果:这是因为MOTA分数受到假阳性和假阴性数量的严重影响,使用准确的检测是减少两者的有效方法[38]在MOT16数据集上计算的检测也已向公众提供13,许多MOT算法已经利用了它们[41,42,43,44,45,46,47,48,49,50,51]。在接下来的几年里,其他工作利用了Faster R-CNN的检测准确性,该算法已被应用于MOT算法的一部分,以检测运动员[52],细胞[53]和猪[54]。此外,例如Zhou等人已经使用了添加分割分支的FasterR-CNN的改编,Mask R-CNN [17][55]为了检测和跟踪行人,3.1.2SSDSSD [5]检测器是检测步骤中另一种常用的网络特别地,Zhang et al.[54]在猪跟踪管道中将其与Faster R-CNN和R-FCN [18他们采用了基于判别相关滤波器(DCF)的在线跟踪方法[56],使用HOG [57]和颜色名称[58]特征来预测所谓的标签盒的位置,即每个动物中心周围的小区域匈牙利算法用于跟踪的标签框和检测之间的关联,并且在跟踪失败的情况下,DCF跟踪器的输出用于细化边界框。Lu等人[59]也使用了SSD,但在这种情况下要检测各种对象类来跟踪(人、动物、汽车等),见第3.2.4节)。一些作品试图通过考虑在跟踪算法的其他步骤中获得的信息来改进用SSD获得的检测。Kieritz等人。[60]在他们的联合检测和跟踪框架中,使用在跟踪和检测之间计算的亲和度得分来取代SSD网络中包含的标准非最大抑制(NMS)步骤,该版本基于它们与跟踪目标的对应关系来细化检测置信度得分。Zhao等人[61]采用SSD检测器来搜索场景中的行人和车辆,但他们使用基于CNN的相关滤波器(CCF)来允许SSD生成更准确的边界框。CCF利用PCA压缩的CNN特征来预测目标在后续帧中的位置;然后使用预测的通过这种方式,网络能够使用更深的层来计算小的检测,提取更有价值的语义信息,从而产生更准确的边界框和更少的假阴性。然后,该算法将这些检测结果与通过NMS步骤在完整图像上获得的检测结果相结合,然后使用匈牙利算法执行轨迹和检测结果之间的关联,其中成本矩阵考虑了几何(IoU)和外观(平均峰值-相关能量- APCE [63])线索。APCE还用于对象重新识别(ReID)步骤,以从遮挡中恢复。作者表明,使用多尺度增强训练检测器可以带来更好的跟踪性能,并且该算法达到了与KITTI和MOT15上最先进的在线算法相当的精度。3.1.3其他检测器在MOT中用作检测器的其他CNN模型中,我们可以提到YOLO系列检测器[64,6,65];特别是Kim等人使用YOLOv 2。Sharma等人。[67]使用递归滚动卷积(RRC)CNN [68]和SubCNN [69]来检测自动驾驶背景下移动摄像机上记录的视频中的车辆(见第3.2.4节)。Pernici等人[70]在他们的面部跟踪算法中使用了Tiny CNN检测器[71],与不使用深度学习技术的可变形部位模型检测器(Deformable Parts Model detector,简称DEEP)[253.1.4CNN在检测步骤有时,CNN已经在MOT检测步骤中用于除了直接计算对象边界框之外的用途例如,CNN已被用于减少[72]中的误报,其中车辆检测是通过对输入执行背景减除的ViBe算法[73]的修改版本获得这些发现是13https://drive.google.com/file/d/0B5ACiy41McAHMjczS2p0dFg3emM/view不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E10首先作为SVM的输入[74],并且如果SVM没有足够的信心来丢弃或确认它们,则基于Faster-CNN的网络[75]将用于决定是否保留或丢弃它们中的每一个。通过这种方式,CNN只需要分析几个对象,从而使检测步骤更快。Bullinger等人在[76]中探索了一种不同的方法,其中不是在检测步骤中计算经典的边界框,而是采用多任务网络级联[77]来获得实例感知的语义分割图。作者认为,由于实例的2D形状不同于矩形边界框,不包含背景结构或其他对象的部分,因此基于光流的跟踪算法将执行得更好,特别是当图像中的目标位置除了对象自身的运动之外还受到相机运动的影响时。在获得当前帧中存在的各种实例的分割图之后,应用光流法([78,79,80])来预测下一帧中每个实例的位置和形状。然后计算预测和检测实例之间的亲和矩阵,并将其作为匈牙利算法的输入进行关联。虽然与SORT相比,该方法在整个MOT15数据集上获得的MOTA分数略低,但作者表明它在移动摄像机的视频上表现更好。3.2特征提取和运动预测特征提取阶段是使用深度学习模型的首选阶段,因为它们具有强大的代表性,这使得它们善于提取有意义的高级特征。这一领域最典型的方法是使用CNN来提取视觉特征,如第3.2.2节所述。与使用经典的CNN模型不同,另一个反复出现的想法是使用对比损失函数将它们训练为暹罗CNN,以便找到最能区分受试者的特征集第3.2.3节对这些方法进行了解释。此外,一些作者探索了CNN在基于相关滤波器的算法中预测对象运动的能力:这些在第3.2.5节中进行了评论。最后,其他类型的深度学习模型也被采用,通常包括在更复杂的系统中,将深度特征与经典特征相结合。它们在3.2.4节(专门针对视觉功能)和3.2.6节(针对不适合其他类别的方法3.2.1自动编码器:在MOT管道中首次使用DL据我们所知,在MOT中使用深度学习的第一种方法是由Wang等人提出[81] 2014年他们提出了一个自动编码器网络,堆叠在两层中,用于改进从自然场景中提取的视觉特征[82]。在提取步骤之后,使用SVM执行亲和度计算,并且关联任务被公式化为最小生成树问题。他们表明,特征细化大大提高了模型性能。然而,测试该算法的数据集并不常用,结果很难与其他方法相比。3.2.2CNN作为视觉特征提取器最广泛使用的特征提取方法是基于卷积神经网络的细微修改这些模型的第一次使用可以在[83]中找到在这里,金等人。将视觉特征纳入一种称为多假设跟踪的经典算法中,使用预训练的CNN从检测中提取4096个视觉特征,然后使用PCA将其减少到256个。这一修改将MOT15的MOTA评分提高了3分以上到论文提交的时候,它已经是该数据集上排名最高的算法Yu el al.[38]使用GoogLeNet的修改版本[2],在自定义重新识别数据集上进行预训练,通过结合经典的个人识别数据集(PRW [84],Market-1501 [85],VIPeR [86],CUHK 03 [87])构建。将视觉特征与空间特征相结合,利用卡尔曼滤波器进行特征提取,然后计算相似度矩阵使用CNN进行特征提取的其他示例可以在[88]中找到,其中自定义CNN用于在多假设跟踪框架中提取外观特征,在[89]中,其跟踪器采用了预训练的基于区域的CNN [90],或者在[91]中,CNN从鱼头提取视觉特征,随后与卡尔曼滤波器的运动预测相结合SORT算法[35]在第3.1.1节中提出,后来使用深度特征进行了改进,这个新版本被称为DeepSORT [41]。该模型结合了自定义残差CNN提取的视觉信息[92]。CNN提供了一个具有128个特征的归一化向量作为输出,这些向量之间的余弦距离被添加到SORT中使用的亲和力分数网络结构图见图4。实验结果表明,这种改进克服了SORT算法的主要缺点,即ID开关数量过多。Mahmoudi等人。[42]还结合了CNN提取的视觉特征以及动态和位置特征,然后通过匈牙利算法解决了关联问题在[93]中,在ImageNet上预训练的ResNet-50 [3]被不是他 预印本 具有 被 接受 在北欧2019年12月。 THISMANUSCRIPTVERSIONISMADEAVAILABLEUNDERTHECC-BY-NC-N D4. 0许可证E11残余块(64x32x32)残留块(32x16x64)残余块(16x8x128)CONV LAYERS(128x64x32)图4:DeepSORT [41]基于CNN的特征提取器图红色块是简单的卷积层,黄色块是最大池化层,蓝色块是残差块,每个块由三个卷积层组成[3]。最后一个绿色块表示具有批归一化和L2归一化的全连接层每个块的输出大小在括号中表示。用作视觉特征提取器。关于如何使用CNN来区分行人的广泛解释可以在[94]中找到在他们的模型中,Bae等人将CNN的输出与形状和运动模型相结合,并计算每对检测的聚合亲和度得分;然后通过匈牙利算法解决关联问题。同样,Ullah等人。[95]应用现成版本的GoogLeNet [2]进行特征提取。Fang等人。[96]选择InceptionCNN [97]的隐藏卷积层的输出作为视觉特征。Fu等人。[98]采用DeepSORT特征提取器,并使用判别相关滤波器测量特征的相关性之后,将匹配分数与时空关系分数相结合,最终分数用作高斯混合概率假设密度过滤器中的可能性[99]。[100]中的作者在ILSVRC CLS-Risk [101]数据集上使用了微调的GoogLeNet进行行人识别。在[70]中,作者重用了基于CNN的检测器提取的视觉特征,并使用反向最近邻技术进行关联[102]。Sheng等人。[103]采用GoogLeNet的卷积部分来提取外观特征,使用它们之间的余弦距离来计算检测对之间的亲和度得分,并将该信息与运动预测合并,以计算整体亲和度,作为图形问题中的边缘成本Chen等人[104]利用ResNet的卷积部分来构建自定义模型,在卷积之上堆叠LSTM单元,以便同时计算相似性得分和边界框回归。在[53]中,模型学会了区分快速移动的细胞和缓慢移动的细胞。在计算分类后,慢细胞仅使用运动特征进行关联,因为它们几乎是静止的,而快细胞使用基于VGG-16 [1]的快速R-CNN提取的运动特征和视觉特征进行关联,专门针对细胞分类任务进行微调。此外,所提出的模型包括跟踪优化步骤,其中通过组合被错误中断的可能的tracklet来减少假阴性和假阳性Ran等人[52]提出了用于视觉特征提取的经典CNN和用于姿态估计的AlphaPose CNN的组合然后,这两个网络的输出与tracklet信息历史一起被馈送到LSTM模型中,以计算相似性,如第3.3.1节所述。CNN在特征提取中的有趣应用可以
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BangBang教育:家庭作业
- 145026,c语言种子解析下载源码,c语言
- AutoSplitterJourney
- 一个个人文件管理系统的源码脚手架r-pan基于此脚手架搭建快速搭建个人文件管理系统
- gchisto:GC日志分析工具,网上不容易找到原始码,这里备份一个。不确定工具是否正确,不确定是否有时间研究
- H5手机端免费问卷调查平台系统aspnet源码
- assistant:自动化的个人助理,可帮助您前进并跟踪您的成绩,以获得良好生活
- 虚拟DVD精灵 VirtualDVD 9.2 中文.zip
- evikd,c语言项目文档以及源码,c语言
- tts-40k-roller:台式模拟器上用于战锤40k的压模辊
- 【ssm管理系统】实现的在线考试系统.zip
- 音听故事个人网站
- cacheman-file:Node.JS的文件缓存库,还有cacheman的缓存引擎
- OLML:各种日常的自动化办公工具
- nix-container-perfzero:在XSEDE环境中运行perfzero基准测试的容器
- TORZ,c语言开源软件源码下载,c语言
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功