多目标跟踪的统一框架及时空关系网络（STRN）的相似性度量

60 浏览量更新于2023-10-12 收藏 1.03MB PDF 举报

多目标跟踪

统一框架

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于多目标跟踪的徐家瑞13岁，曹跃23岁，郑章3岁，韩虎3岁1香港科技大学2清华大学软件学院3微软亚洲研究院jxuat@ust.hk，caoyue10@gmail.com，{zhez，hanhu}@ microsoft.com摘要框架1帧t-k帧t多目标跟踪（MOT）的最新进展表明，鲁棒的相似性得分是跟踪器成功的关键。预期良好的相似性分数反映多个线索，例如，外观，位置和拓扑结构，在很长一段时间内。然而，这些线索是异构的，使得它们难以组合在一个统一的网络中。因此，现有的方法通常将它们编码在单独的网络中或需要复杂的训练方法。在本文中，我们提出了一个统一的框架之间的相似性度量的tracklet和一个对象，同时编码不同的线索在不同的时间。我们展示了实现这个统一框架的一个关键原则是为不同的线索和不同的源（轨迹和对象）设计兼容的特征表示这一原则背后的关键技术由此产生的方法，命名为时空关系网络（STRN），运行在前馈的方式，并可以在一个端到端的方式训练。在所有测试中，使用公共检测和在线设置的MOT 15- 20171. 介绍多对象跟踪（MOT）旨在在视频帧中定位对象并保持其身份。由于其在监控、体育比赛分析、自动驾驶等方面的广泛应用，它引起了人们的广泛关注。最新的方法遵循流行的这种解耦的流水线降低了整体复杂性，并将MOT的主要注意力转移到更单一的问题上：对象关联这项工作是在Jiarui Xu和Yue Cao在微软亚洲研究院实习时完成的图1.建议的时空关系网络（STRN）计算轨迹和对象之间的相似性分数。网络可以组合各种线索，例如外观、位置和拓扑，以及随时间的聚合信息。橙色框和蓝色框表示不同帧中的同一个人。该范例还受益于物体检测领域的快速进步[15，42，60，13]，并且多年来已经领先几个流行的基准，即MOT15 17 [28，34].一般来说，对象关联的性能高度依赖于鲁棒的相似性得分。大多数现有方法中的相似性仅基于从裁剪对象块中提取的外观特征[29]。由于以下原因，这种相似性的表现受到限制：首先，在跟踪场景中，对象通常来自相同类别，例如：人MOT 15 - 17基准，外观难以分辨。其次，跨帧的对象也会受到频繁的遮挡和姿态变化，这进一步增加了建立鲁棒的相似性分数的难度。探索不同线索以建立相似性分数的开创性工作已被证明是有效的[46，12，63，58]。卷积神经网络已经被很好地研究并用于编码外观线索[56，63]。3988时间关系空间关系丰富的关系特征丰富的位置功能相似性分数，w，h，wx，y，hx为oh3989并且在最近的作品中将手工制作的位置提示与感知提示集成[46，12，63]。边界框之间的拓扑结构[46]对于判断不同帧中的一对边界框是否指示同一对象至关重要，特别是对于遮挡。如图所示在图1中，帧1和帧t-k中的橙色边界框和帧t中的蓝色边界框表示同一个人。虽然画面t中的人是ob-t，当被遮挡的图像与前一帧图像有较大差异时，拓扑信息保持一致，使被遮挡的图像具有可识别性。此外，跨帧的聚合信息也被验证有利于测量相似性[46，26，35]。然而，由于不同线索的异构表示，导致难以将所有线索处理到一个统一的框架中，这些工作通常基于线索特定的机制[46，26，35，26]，需要复杂的学习方法[46]。例如，[46]使用占用图来建模拓扑信息，[26]使用RNN中的专用门控机制来随着时间的推移聚合信息。我们的工作受到关系网络在自然语言问题[55]和视觉问题[21，57，3，48]中的成功的激励。在关系网络中，每个元素通过内容感知的聚合权重聚合来自其他元素的特征，该聚合权重可以根据任务目标自动学习，而无需显式监督。由于对数据形式没有过多的假设，因此关系网络被广泛用于对遥远的、非网格的或不同分布的数据之间的依赖关系进行建模，例如词-词关系[55]、像素-像素关系[57]和对象-对象关系[21，3，48]。这些数据形式很难用常规卷积或序列网络建模。在本文中，我们通过将对象-对象关系网络[21]从空间域扩展到时空域，以端到端的方式整合多个线索，提出了一个用于相似性测量的统一框架。随着关系网络的扩展，我们优雅地编码对象和轨迹的外观和拓扑线索。通过将原始坐标嵌入到更高维度的特征中，还使基于位置的线索整个模块如图1所示。该方法被称为时空关系网络（STRN），它是完全前馈的，可以在以端到端的方式，实现最先进的性能，在MOT 15 - 2017基准上管理所有在线方法2. 相关工作最近的多目标跟踪（MOT）方法大多是基于跟踪检测范式，主要集中在对象关联问题。根据使用何种信息来建立不同帧中的对象之间的关联，现有方法可以分为在线方法[2，12，19，27，33，35，38，47，50，58，59，9]和离线方法[7，14，36，39，40，44，51、52、53、62]。以往的方法仅限于在关联部分利用过去的帧，这与实时应用是一致的。后一种方法可以将过去和未来的帧合并，以执行更准确的关联。我们的方法也遵循检测跟踪的范例，主要集中在改善对象相似性的测量为了更好地说明和比较与其他方法，我们只例示了在线设置在本文中，但所提出的方法也适用于离线和在线关联。计算相似性的主要线索包括外观、位置和拓扑结构。外观特征提取器的演变是从手工[2，38，50，59]到深度网络[63，46，12，41，26]。在本文中，我们还利用深度网络作为我们的基本外观特征提取器。以前的方法之间的一个关键区别在于从外观建立相似性的方式。我们利用一个混合的特征拼接，余弦距离，位置/运动先验来计算最终的相似性。位置/运动特征的利用也是常见的。大多数现有方法假设先验运动模型，例如慢速度[5]和线性/非线性运动模型[63]。例如，IoU跟踪器[5]依赖于这样的假设，即连续帧中的对象预计具有高重叠，这通常不被快速移动的对象所保持。其他硬运动模型也面临类似的问题，导致应用受限。在这篇文章中，而不是使用硬位置/运动先验，我们integrate一元的位置和运动信息，并从数据中学习软位置/运动表示。对多个基准测试的实验研究证明了可学习位置表示的有效性。拓扑信息对于测量相似性也是至关重要的[46]。然而，利用多个对象的这种非网格拓扑是具有挑战性的。只有少数工作成功地编码的拓扑信息，例如。[ 46 ]中的占有率网格。然而，该占用网格仅计算对象的分布，而不区分个体对象。本文利用关系网络对拓扑信息进行编码，使个体对象可区分、可识别。大多数现有方法利用一个或两个线索进行相似性计算，而只有少数作品试图同时联合学习所有这些线索[46]。跨时间聚合信息[12，46，26，63]也很罕见。此外-3990输入BBox时空相似性视频提取关系网络得分BBox对二分图跟踪输出匈牙利算法我年代我不{}、不我我我然而，为了学习不同线索的表征，这些工作通常采用单独的网络和复杂的训练策略，例如，[ 46 ]四个阶段的训练。在本文中，我们通过使用一个统一的框架将所有提到的线索跨时间进行相似性测量，该框架是完全前馈的，并且可以端到端进行训练。这个统一框架背后的关键原则是不同线索（外观，位置和拓扑）和不同来源（轨迹和对象）之间的兼容功能设计最近，关系网络已成功应用于自然语言处理，视觉和物理系统建模领域[21，55，57，3，48]，以捕获元素之间的长期，非网格和异构依赖关系。我们的方法是由这些作品的动机，通过扩展的关系网络多目标跟踪。为了在空间域中建模对象的拓扑信息并在时间域上进行信息聚合，我们提出了一种时空关系网络。虽然最近的一些作品[12，63]试图将注意力机制纳入多对象跟踪问题，但它们主要旨在恢复边界框内的显著前景区域，从而减轻图2.用于多目标跟踪的在线检测跟踪流水线。线索和随时间聚集信息都可用于计算相似性分数。在本文中，我们提出了一种新的方法，时空关系网络的基础上，同时编码所有上述线索和跨时间执行推理。图3总结了相似性计算的整个过程。首先，通过深度神经网络提取基本表观特征即本文中的ResNet-50，用于当前帧上的对象和先前帧中已经获得的轨迹线上的对象，表示为φt（帧t上的对象i）。然后通过时空关系模块（STRM）对对象的时空感知特征进行了解析，从而实现了对象的空间增强表征和时间节奏表征。遮挡和忽略对象之间的拓扑。ral加强表示，记为φtST，i，3. 方法多目标跟踪（MOT）的目标是预测多个目标随时间的轨迹，表示为T=分别通过这两个强化功能，我们通过将两种类型的关系特征φR和φC连接在一起并分别计算它们之间的余弦距离来进一步开发它们。最后，我们将关系特征与一元位置特征相结合，{Ti}N.第i个物体的轨迹可以表示为真φ L和运动特征φ。作为代表，i=1轨迹片段-对象对Tt−k，bt. 因此由一系列边界框表示，表示为Ti=i jbtTbtit=1i=[x t，y t，w t，h t]。xt和yt表示中心，t t相似性是通过应用两层网络获得的，一个sigmoid函数的串联的四个特征称为目标i在帧t处的位置。 wi和hi表示目标对象i的宽度和高度。我们的方法遵循在线检测跟踪范式[58]，该范式首先检测每个帧中的多个对象，然后将其身份跨帧关联。管道如图2所示。给定具有检测到的边界框的新帧，跟踪器计算已经获得的轨迹片段和新检测到的对象之间的相似性分数，从而产生二分图。然后采用匈牙利算法[37]来获得最优分配。当逐帧运行分配过程时，产生对象轨迹。本文主要致力于在前一帧中提取的轨迹与当前帧上的对象之间建立鲁棒的相似性分数，这对于多目标跟踪[.29]。将第一个tracklet表示为frame t−1 as Tt−1=b1，b2，.，bt−1和提取的关于轨迹片段-对象对，φR、φC、φL和φM：ij=sigmoid（Ws2· ReLU（Ws1·[φR;φC;φL;φM]）），（1）应用Eqn的主要困难是：（1）对于轨迹片段-对象相似性计算在于不同线索（外观、位置和拓扑）之间以及不同源（轨迹片段和对象）之间的不兼容性我们提出了几种解决这一问题的技术：1）通过空间关系网络对拓扑线索和外观线索进行联合编码; 2）引入“余弦”距离Φ C，以方便相容特征的学习;3) 对于位置/运动线索采用不同于原始坐标的高维嵌入特征，以便与其他线索更兼容地表示; 4）通过对跨帧的特征进行加权平均来实现时间响应，从而产生与之兼容的tracklet特征。我我我I.ΣN一个单一的物体。对象在当前帧t作为Dt=bt不 . 每对.Σjj=1在下面的小节中，我们首先介绍Tt−1，bt被分配相似性得分ST。时空关系模块（STRM），对应于-i j ij如前所述，外观、位置、拓扑结构响应于上述技术1）和4）。然后，我们提出。和φS3991j=1j=1IJIJIJωω=√。（四）|xi−xj|、|yi−yj|，wi，hiST，i我·年代我IJ⟨⟩遵循“增加兼容性“的原则，详细设计了轨迹-物体对的四个特征：φR、φC、φL和φM3.1. 时空关系模块我们首先回顾了基本对象关系模块，该模块在[21]中被引入以对用于对象检测的上下文信息进行编码。对象关系模块（ORM）基本对象关系模块[21]旨在通过聚合静态图像（静态图像是单个帧，视频）。我们用oi=（φi，bi）表示对象，其中φi是输入外观特征，bi=（xi，yi，wi，hi）是对象位置。对象关系模块通过聚合来自对象集合的信息来计算对象的细化特征O={oj}N={（φj，bj）}N：在对象之间建模拓扑方面的优势。这种时间关系适合于多帧信息的聚合，可以避免偶然的低质量包围盒所带来的退化问题。关于空间和时间关系的不同影响，我们提出了一个可分离的时空关系模块，如图1所示。它首先在空间域中对每一帧进行关系推理空间推理过程通过自动学习的拓扑信息来增强输入的外观然后对多帧图像上的增强特征进行聚合通过时间关系推理过程。空间关系推理过程严格遵循公式1对拓扑线索进行编码，其输出特征表示为p，其编码的拓扑结构在目标检测领域被证明是有效的。这两种关系遵循不同的公式-′φi=φi+ Σωij·（WV·φj），（2）J选项。空间关系推理过程严格遵循Eqn。（2）对拓扑线索进行编码，并且该过程的所得输出特征被表示为φS，i，其已经被其中ωij是从对象oj控制的注意力权重是输入特征的变换矩阵。考虑投影外观相似性ωA和几何调制项ωG计算注意力权重ωij被证明在编码拓扑信息以改进对象检测方面是有效的[21]。图5示出了跨帧的学习的空间注意力权重。一般来说，注意力权重在不同的帧上是稳定的，这表明确实捕获了拓扑表示。它.应该注意的是，一个物体本身的注意力权重ωGexpAω=ij.（三）不一定比别人高，因为WQ而WK在ijN ωG·exp（ωA）等式（2）不同的预测。也是如此伊伊k=1ωA表示为投影外观特征的缩放点积（WQ、WK是投影矩阵，d是投影特征的维数）[55]，公式为AWQφi，WKφjijD几何权重紧接着空间关系推理1之后进行时间关系推理处理。而不是在空间关系建模中加强每个帧上的特定对象特征，我们通过聚合来自多个帧的特征来计算整个轨迹的表示。由于内存的限制，聚合仅在最新的τ1帧上执行（默认情况下τ1=10ωG通过在关系式τ1−1上应用小网络来获得i j.Σ位置日志φt=ωt-k·φt-k。（五）wjhjWJHJk=0[21]中的关系模块只在空间域为了更好地发挥注意力权重在单个输入要素上定义为.tΣtexp（wT，φS，i）多目标跟踪中的目标关系模块，ωi= π。kΣ。（六）本文将该模块应用于时域扩展到时空域对象关系模块可以通过丰富对象集直接扩展到时空域O由前一帧中的所有对象。这种解决方案显然是次优的：首先，由于理性所涉及的对象更多，复杂性显著增加，第二，空间和时间关系是无差别的。事实上，空间和时间的关系，一般预计有助于不同的编码线索。空间关系可以借鉴exp（wT，φS，i）K其中wT是时间关系的权重向量。等式（5）实质上是来自最近帧的对象特征的加权平均学习的时间注意力权重如图4所示。模糊、错误裁剪或部分遮挡的检测被分配有低注意力权重，指示特征质量被自动学习，并且轨迹片段的表示将较少受到这些低质量检测的影响。1注意，时间关系推理仅针对tracklet执行。当前帧上的对象的编码仅包括空间推理。.原始对象3992ResNet-50+FC特征模块关系位置运动一元余弦一元φtJ+φtS、时空关系模块1 2 3 4 5 6 78 9φRS，jbt−k我t−kit−k+ST，iTt−k我BtJJDt图3.时空关系网络（STRN）的架构，以计算轨迹和对象之间的相似性分数φ=WΣ· φt−k;φtΣ，1≤k≤τ（七）0.1390.0980.1270.1480.1010.1750.104 0.141 0.129 0.096 0.1130.0500.138 0.089 0.070 0.050 0.0930.139其中WR是用于特征融合的线性变换。直接使用级联关系特征使得能够计算不同模式的相似性然而，表示的自由度是双刃剑，它也增加了学习紧凑个体特征的难度。为了解决这个问题，我们建议显式计算两个关系特征之间的余弦相似度：图4. 学习时间注意力权重。.Σt−k tφC=cosWC·φST，i，WC·φS，j，1≤k≤τ2（8）3.2. Tracklet对象对特征设计如前所述，设计轨迹片段-对象特征（φR、φC、φL、φM）的关键原则在于使不同线索（外观、拓扑和位置）和不同来源（轨迹片段和对象）的表示兼容。虽然前一小节主要讨论了单独对象或轨迹片段的外观和拓扑线索的联合编码，但本节给出了表示轨迹片段-对象对关系的详细特征设计，包括说明外观和拓扑线索相似性的关系特征φR、φC，以及说明位置和运动关系的位置/运动特征φL、φM3.2.1关系特征空间关系模块耦合了物体的外观线索和拓扑线索。时间关系模块跨帧聚合信息。由于对象对应的轨迹可能超出图像边界，或者由于系统的不完善而失去跟踪，因此轨迹不一定出现在最后一帧。我们需要将候选轨迹从最后一帧放大到多帧。由于内存限制，仅涉及最近的τ2帧（默认情况下τ2我们直接对输入的关系特征进行线性变换，将其作为基本特征类型。其中WC是将原始关系特征投影到低维表示中的线性层，例如128-D.注意，我们对φST和φS都采用共享的WC，使得这两项是余弦值作为一个额外的一维特征，并提供给下面的网络进行最终的相似性计算。混合关系特征的生成在图6（顶部）中总结。通常，余弦值仅在两个输入特征在表示上兼容的情况下才有效乍一看，它并不适用于我们的尽管如此，tracklet和对象的特性Eqn中的时间关系（5）基本上是来自多个帧的特征的加权对象特征和轨迹片段特征之间没有投影因此，它们仍然位于一个封闭的空间，适合于用余弦值来建模。在实验中，对关系特征的混合表示比单独使用每个公式的方法实现了更高的准确性3.2.2位置特征位置/运动特征是在构建相似性分数中另一个广泛使用的线索。我们把位置/动作φRφCφLφM相似性分数帧tφRST，i23993我我我我我我我我我JΣ0.2300.2210.2960.2530.2070.2350.2550.3030.1560.2520.3130.279图5. 学习跨帧的空间注意力权重。连续帧中的对象的运动信息：.Σ |xt−k− xt||yt−k− yt|wtht，fbt−k， bt=logij，ij，j，j。MiJkwt−kkht−kkwt−kkht−k图6. tracklet对象特征表示的设计。φR、φC、φL和φM分别表示关系特征、余弦相似度、位置特征和运动特征。所有的特征将通过一个带有sigmoid函数的两层网络连接起来，以产生最终的相似性分数跟踪片段的最后一帧中的特征来表示整个跟踪片段，因为远处帧中的位置/运动模型可能会从当前帧漂移很多。位置功能可以方便地纳入我们的管道。首先将裸位置特征嵌入并投影到高维空间，然后与关系特征连接以产生最终的相似性得分。我们嵌入和项目的裸位置功能如下-（十一）该位置（运动）特征涉及对象的恒定速度假设，这被证明是用于鲁棒相似性得分的有效信息。4. 实验4.1. 数据集和评估指标我们使用三个MOT基准[28，34]进行评估。由于帧速率、分辨率、视点、天气、相机运动等方面的巨大变化，基准测试具有挑战性。这些基准被广泛用于多目标跟踪领域，以评估不同的跟踪器。2D MOT2015由11个训练序列和11个测试序列组成[28]。在[46]之后，我们将训练序列分为两个子集，即4个训练序列和6个验证序列，用于消融研究。MOT16由7个训练序列和7个测试序列组成。场景大多是人群行人，被认为更具挑战性。MOT17使用与MOT16数据集相同的视频，但低[55，21]作为φ=W·E.f（bt−k，bt）Σ、（9）更好的注释和公共探测器。所有序列都提供有三组检测结果（图15），其中，n ∈ {L，M}表示所研究的两类位置特征：位置和运动。第一个是边界框的归一化绝对位置：Faster-RCNN [42]和SDP [60]），以更全面地比较不同的多对象跟踪器。为了公平比较，我们使用公共检测结果.Σ∫xtytwtht，提供数据集作为我们方法的输入。f′bt=j，j，j，j、（10）评估指标我们采用的标准指标我是我是我MOT评估基准[28，34]，包括Mul-其中It和It是帧t的宽度和高度。fLin三倍目标跟踪精度（MOTA）[4]，多个Ob-wh. t−kt't-k't等式9被定义为bi，bj=fL（bi）;fL（bj）.对象跟踪精度（MOTP）[4]，ID F1评分（IDF1，上述位置特征与低速在最近的工作[6]中，这一假设已被证明是非常有效的。而不是使用硬约束，连续帧上的相同对象应该有重叠，我们将约束软到特征表示，和位置模式从数据中学习。另一个位置特征描述了正确识别的检测与平均值地面实况和计算检测的数量）[43]，ID精度（IDP，正确识别的检测身份的比例），[43]，ID召回（IDR，正确识别的地面实况身份的比例），[43]，主要跟踪目标（MT，至少80%地面实况的输出轨迹覆盖的φt−k特征模块ST，iWRφRφtS，jWCφCbt−k我fLELWReL陆φLBtfMEMWM吕若φMJ39943长度），大部分丢失目标（ML，输出轨迹覆盖至多20%地面实况长度的地面实况轨迹的比率），假阳性（FP）的数量，假阴性（FN）的数量，身份转换（IDS）的数量[31]，碎片错误（Fragment Error）的数量。还报告了 MOT 基准网站上的最新平均排名（AR），该排名是通过取上述所有指标的基准排名的平均值来计算的。4.2. 实现细节网络架构我们使用ResNet-50 [17]作为我们的骨干网络。我们首先在ImageNet Image Classification任务[45]上训练它，然后在MOT训练数据集上微调模型。给定公共检测的边界框，我们将其裁剪并调整大小为128×64的分辨率。裁剪后的图像被送入主干网络，生成分辨率为4×2的特征图。在该特征图上应用新的256-d1×1卷积以减少通道维度在新的1×1conv层之后应用一个维度为1024的全连接层，它被用作代表外观特征φi（见3.1节）。在时空关系模块中，我们主要遵循[21，55]空间关系推理的超参数对于时间关系，来自最近9帧的对象特征被聚合。在关系模块之后，提取配对关系特征和位置特征。线性层Wr、Wc的尺寸分别为32和128。函数EL将4-d裸位置特征嵌入到64-d，随后是线性层WL以将特征投影到16-d。所有连接关系特征和位置特征，形成65-D特征，并将其馈送到具有S形函数的两层网络。训练在训练过程中，输入帧中的所有检测边界框都将被裁剪并输入到网络中。平均而言，每个小批量包含45个裁剪图像。总共进行了437k、425k和1，275k次迭代，分别为2DMOT 2015、MOT 16、MOT 17。学习率初始化为10−3，然后在最后1次训练中衰减到10 −4。在线硬示例挖掘（OHEM）解决积极/消极问题的严重不平衡推理在推理中，根据第3.2节计算当前帧上的轨迹片段和对象然后通过求解二分图来实现关联，如图2所示。按照在线跟踪方法的常见做法[58，63，12，46]，我们认为太短的tracklet是假警报。具体来说，对于帧速率为F的序列，如果匹配小于0，则我们将删除短轨迹。初始匹配后过去F帧中的3个F特征MOTA MOTP IDF MT（%）ML（%）FPFN IDS一个u19.872.326.24.753.41，800 14，3092，177一个c25.272.532.58.155.12,474 14368726一29.872.238.69.849.62,734 12956515A+Lu31.772.740.88.554.21，477 13，946355A+Lm31.072.544.19.054.3一千九百七十一一万三千八百零一167A+L32.372.347.18.152.62,004 13496129表1.烧蚀研究了各种特征表示的设计Au和Lu表示单个关系和位置特征的级联。在图3中，Ac和Lm分别代表余弦外观特征和运动特征。模块MOTA MOTP IDF MT（%）ML（%） FPFN IDSA+L32.372.3 47.18.152.62，004 13，496129A+L+S34.872.4 46.59.053.0947 13，966151A+L+S+T36.272.2 46.69.051.7 1799 13，079 94A+L+S+平均值33.172.2 37.16.454.7888 14，386176A+L+S+Max 33.972.4 43.48.554.7848 14，268140表2.时空关系网络的消融研究此外，我们只保留出现在最近的1中的序列。25个F帧，用于实现有效的推理。4.3. 消融研究我们按照[46]将11个训练序列分为训练/验证集进行消融研究。特征表示的设计我们首先检查表1中的特征表示的各种设计的效果。所有的实验都是基于原始的外观特征，没有时空推理。前三行比较了没有关系模块的不同表观特征的效果。通过只使用一元外观表示，它达到了 19.8 的MOTA。单独使用余弦值，在MOTA中得到25.2通过使用一元出现和余弦值的混合特征，准确率明显更高，在MOTA中达到29.8。最后三行比较了不同位置特征的影响通过仅利用等式11中的一元位置特征，（10），观察到1.9 MOTA改善利用Eqn.（11），1.2观察到MOTA的改善通过将两者结合起来，我们实现了2.5 MOTA增强。还请注意，通过位置功能，ID开关显著减少，从515减少到129。时空关系模块的效果表2检验了时空关系模块在提高跟踪精度方面的效果在空域上作相关处理后，以MOTA计，跟踪精度提高了2.5倍观察到FP的显著降低进一步进行时序关系推理，得到了1.4MOTA的改进.注意，我们的时间关系推理本质上是所有帧fea的加权平均。3995表3.在2DMOT 2015基准数据集上跟踪性能模式方法MOTA↑ MOTP↑ IDF↑ IDP↑ IDR↑MT（%）↑ML（%）↓FP↓FN↓IDS↓ 碎片↓ AR↓MHT DAM [25]32.471.845.358.936.816.043.89,064 32,06043582621.7线下NOMT [11]QuadMOT [51]33.733.871.973.444.640.459.653.535.632.512.212.944.036.97,7627,89832,54732,0614427038231,43018.723.5[23]第二十三话35.671.945.154.438.523.239.310,580 28,50845796919.3SCEA [20]29.171.137.255.927.88.947.360,60 36,9126041,182 30.4MDP [58]30.371.344.757.836.413.038.49,717 32,4226801,500 25.9在线CDA DDAL [1]32.870.738.858.229.19.742.24,983 35,6906141,583 24.2AMIR 15 [46]37.671.746.058.438.015.825.87,933 29,397 1,026 2,024 19.6我们38.172.146.663.936.711.533.45,45131,571 1,033 2,665 16.1表4.在MOT16基准数据集上跟踪性能模式方法MOTA↑ MOTP↑ IDF↑ IDP↑ IDR↑MT（%）↑ML（%）↓FP↓FN↓IDS↓ 碎片↓ AR↓NOMT [11]46.476.653.373.241.918.341.49,753 87,56535950418.6MCjoint [23]47.176.352.373.940.420.446.96,703 89,36837059819.8线下NLLMPa [30]FWT [18]47.647.878.575.547.344.367.260.336.53517.019.140.438.25,8448,88689,09385,4876298527681,53418.824.8GCRA [32]48.277.548.669.137.412.941.15,104 88,5868211,117 21.9LMP [54]48.879.051.371.140.118.240.16,654 86,24548159517.8OICF [24]43.274.349.373.337.211.348.56,651 96,5153811,40431.8STAM [12]46.074.95071.538.514.643.66,895 91,1174731,422 29.3在线DMAN [63]AMIR [46]46.147.273.875.854.846.377.268.942.534.817.414.042.741.67,9092,68189,87492,8565327741,6161,67523.422.9MOTDT [10]47.674.850.969.240.315.238.39,253 85,4317921,858 23.5我们48.573.753.972.842.817.034.99,038 84,1787472,919 15.4表5.在MOT17基准数据集上跟踪性能模式方法MOTA↑ MOTP↑ IDF↑ IDP↑ IDR↑MT（%）↑ML（%）↓FP↓FN↓IDS↓ 碎片↓ AR↓借据[5]45.576.939.4 56.430.315.740.519,993 281,643 5,988 7,404 36.5[26]第二十六话47.577.551.9 71.440.818.241.725,981 268,042 2,069 3,124 28.8线下EDMT [8]MHT DAM [25]50.050.777.377.551.347.26763.441.537.621.620.836.336.932,27922,875247,297252,8892,2642,3143,2602,86524.025.4[22]第二十二话51.275.954.572.243.820.93725,937 247,822 1,802 2,984 20.3FWT [18]51.37747.6 63.238.121.435.224,101 247,921 2,648 4,279 24.2[16]第十六话48.077.249.6 68.43917.135.623,199 265,954 3,998 8,886 32.5AM ADM [49]48.176.752.1 71.44113.439.725,061 265,495 2,214 5,027 27.3在线DMAN [63][61]第六十一话48.248.375.977.255.751.175.971.24439.919.317.138.341.726,21820,967263,608269,0382,1941,8715,3783,02026.625.2MOTDT [10]50.976.652.7 70.442.117.535.724,069 250,768 2,474 5,317 23.1我们50.975.656.574.545.520.137.027,532 246,924 2,593 9,622 18.2真的。因此，我们还将其与一些直接聚合方法进行了比较，例如沿帧维的平均求和和最大池化这些方法的性能明显不如我们的，证明了我们的时间关系推理方法的有效性。4.4. MOT基准测试结果我们在表3、4和5中报告了所有三个MOT基准的跟踪精度。我们使用公共检测进行了公平的比较。我们的方法在所有三个基准测试中，考虑到MOTA和AR（平均排名）的主要指标，在在线设置下实现了最先进的跟踪精度。5. 结论研究了多目标跟踪中的目标关联问题。为了建立一个强大的相似性度量，我们结合了各种线索，包括外观，位置和拓扑线索，通过利用空间域中的关系网络，并进一步扩展到时间域的关系网络聚合跨时间的信息。由此产生的方法被称为时空关系网络（STRN），它运行前馈和端到端。它实现了国家-使用公共检测，在所有MOT 15 - 17基准测试中，所有在线方法都具有最先进的准确性。3996引用[1] 裴承焕和尹国珍基于置信度的数据关联和判别式深度外观学习，用于鲁棒的在线多目标跟踪。IEEE传输模式分析马赫内特尔，40（3）：595-610，2018. 8[2] 裴承焕和尹国珍基于tracklet置信度和在线判别外观学习的鲁棒在线多目标跟踪。在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 1218-1225，2014中。2[3] 彼得巴塔利亚Razvan 帕斯卡努马修 Lai，DaniloJimenez Rezende，等. 交互网络，用于学习物体，关系和物理。神经信息处理系统的进展，第4502-4510页，2016年。二、三[4] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多对象跟踪性能：明确的mot指标。 J. 图像视频处理。，2008：1：1-1：10，Jan. 2008. 6[5] Erik Bochinski、Volker Eiselein和Thomas Sikora。不使用图像信息的高速检测跟踪。在第14届IEEE高级视频和基于信号的监控国际会议上，AVSS 2017，意大利莱切，2017年8月29日至9月1日，第1-6页，2017年。二、八[6] Erik Bochinski、Volker Eiselein和Thomas Sikora。不使用图像信息的高速检测跟踪。高级视频和基于信号的监控（AVSS），2017年第14届IEEE国际会议，第1-6页IEEE，2017年。6[7] William Brendel，Mohamed Amer，and Sinisa Todorovic.最大权独立集多目标跟踪。在计算机视觉和模式识别（ CVPR ）， 2011 IEEE 会议上，第 1273-1280 页。IEEE，2011年。2[8] 陈嘉辉，郝胜，张阳，张雄。多假设跟踪的增强检测模型在IEEE计算机视觉和模式识别研讨会会议上，第2143-2152页，2017年。8[9] 龙辰、艾海洲、崇尚、庄子杰、白波。卷积神经网络在线多目标跟踪。在ICIP，2017年。2[10] 龙辰、艾海洲、庄子杰、崇尚。实时多人跟踪，具有深入学习的可识别选择和人员重新识别。在IEEE国际多媒体会议和博览会，ICME 2018，第1-6页，2018年。8[11] 崔元君用聚集局部流描述符的近在线多目标跟踪。在IEEE International Conference on Computer Vision ，ICCV 2015，第30298[12] Qi Chu ， Wanli Ouyang ， Hongsheng Li ， XiaogangWang，Bin Liu，and Nenghai Yu.基于cnn的单目标跟踪器与时空注意机制的在线多目标跟踪。2017年IEEE计算机视觉国际会议（ICCV）。(Oct 2017），第4846-4855页，2017。一、二、三、七、八[13] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络.在IEEE计算机视觉国际会议集，第764-773页，2017年。1[14] Afshin Dehghan ， Shayan Modiri Assari ， and MubarakShah.Gmmcp跟踪器：多目标跟踪的全局最优广义最大多团问题。在IEEE计算机视觉和模式识别会议的论文集，第4091-4099页，2015年。2[15] 佩德罗 ·F. 罗斯？费尔岑斯瓦尔布 Girshick ， DavidMcAllester，and Deva Ramanan.使用区分性训练的基于部分的模型进行对象检测。 IEEE Trans. 模式分析马赫内特尔，32（9）：1627-1645，Sept. 2010. 1、6[16] 傅泽宇，冯鹏明，费德里科·安杰利尼，乔纳森·A.Chambers和Syed Mohsen Naqvi。基于粒子PHD滤波器的在线组结构字典学习多人跟踪IEEE Access，6：14764-14778，2018。8[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。7[18] Roberto oHenschel ， LauraLeal-Taixe' ， DanielCremers ，andBodo Rosen

下载后可阅读完整内容，剩余1页未读，立即下载