多目标跟踪中使用的新的自我质量评价度量SQE参数优化方法

192 浏览量更新于2023-10-23 收藏 1.13MB PDF 举报

多目标跟踪

数据关联算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8306SQE：一种多目标跟踪黄燕茹1朱飞宇2 曾哲妮1邱曦2袁申1 <$吴佳楠21清华大学2迈谷科技{huangyr18，zengzn16}@ mails.tsinghua.edu.cn shenyuanee@tsinghua.edu.cn{zhufeiyu，qiuxi，wjn}@ megvii.com摘要我们提出了一种新的自我质量评价度量SQE参数优化的挑战性，但关键的多目标跟踪任务。目前的评估指标都需要注释的地面真相，因此将失败的测试环境和现实的情况下，禁止进一步优化训练后。相比之下，我们的度量反映了轨迹假设的内部特征，并在没有地面实况的情况下测量跟踪性能。我们证明了具有不同质量的轨迹在特征距离分布上表现出不同的单峰或多峰，这启发我们设计了一种简单而有效的方法来使用两类高斯混合模型评估轨迹的质量。在MOT16Challenge数据集上的实验验证了该方法在与已有指标关联和参数自优化方面的有效性。我们相信，我们的结论和方法是启发未来的多目标跟踪在实践中。1. 介绍多对象跟踪（MOT）旨在跟踪视频序列中所有感兴趣类别的对象[18，26]。它在视频监控和自动驾驶等应用中至关重要，其中需要同时跟踪多个行人和车辆近年来，跟踪-通过检测[9，18，23，6，1，5]已成为MOT的主要范例。该方法首先在每帧中检测目标，然后提取判别特征以量化目标之间的相似性，最后执行数据关联以将检测分配到它们最可能的轨迹。在此过程中，需要手动设置几个有影响的参数，例如确定是否建立关联的阈值。为了找到最佳路径-这一工作是在Zheni Zeng在Megvii Inc.实习期间完成的。†通讯作者。图1.不同的内部和内部距离分布的示例。理想情况下，同一轨迹内或两个不同轨迹之间的距离分布呈现具有小噪声的单峰。如果发生错误识别，例如假设身份2首先跟随目标B，然后切换到另一个目标C，则距离分布将呈现多个可区分的峰。详细解释见第3.2节。参数，需要评估程序来测量跟踪性能。然而，现有的评估指标，如基于事件的措施CLEAR MOT [3]或基于身份的措施IDF1[16]，都需要地面实况注释，限制了对训练数据的优化。由于优化后的参数在测试场景中可能是次优的，因此迫切需要一种能够在没有地面实况的情况下进行参数优化的自评估度量。为了评估跟踪器的准确性和稳定性，我们设计了一个自我质量评估指标SQE，该指标综合考虑了轨迹假设的数量、长度和特征距离信息。我们的方法可以评估轨迹的质量，由于独特的距离分布形式，如图1所示帧内距离表示同一轨迹中每两个检测框之间的特征距离，并且所有对构成帧内距离分布。类似地，间距表示来自不同轨迹的每两个检测框之间的特征距离直觉上，当一个弹道包含不同的目标时，距离是不同的。8307不结果表明，该模型具有多峰的一般特征。SQE支持自动参数自适应以适应不同的场景。设计一个在各种视频场景下都能表现良好的跟踪算法是很困难的，然而在现有的跟踪算法中调整参数可以以一种更容易的方式达到同样出色的性能。据我们所知，迄今为止，在这一领域还没有开展过我们相信我们的方法是非常有指导意义的，并为未来的研究提供了新的思路概括而言，我们的贡献如下：（1）证明了特征距离分布能够反映轨迹假设的质量;（2）提出了一种基于两类高斯混合模型的自质量评价度量SQE，初步满足了自评价的要求;（3）在不同的数据集上测试了该方法的有效性，并指出了其不足之处。使用分布最后讨论了估计错误帧的方法2. 相关工作2.1. MOT算法在通过检测进行跟踪的范例中，跟踪器首先检测每个帧中的对象，然后随着时间的推移将检测相关联，以形成目标个体的轨迹[9，26，12]。在线方法[14，24，4，23]仅使用先前和当前帧，因此适用于实时应用。一个简单的实现是简单的在线和实时跟踪（SORT）[4]，它使用卡尔曼滤波器预测边界框的新位置，然后使用交集（IOU）计算成本矩阵的数据关联过程。虽然SORT图2.比较MOTA和IDF1.追踪器1和追踪器2都追踪目标A，持续10帧。跟踪器1正确跟踪2帧，其余帧分配给其他错误的目标，有4个身份开关，而跟踪器2跟踪8个帧有2个错误，具有相同数量的身份切换。IDF1对识别的正确时间进行度量，给出不同的分数，能更好地反映跟踪器实施跟踪框架。我们使用REID特征来计算当前对象检测和前一个tracklets之间的成本在所有需要设置的参数中，REID阈值和合并阈值是两个最主要的参数，其分别允许建立关联和合并轨迹2.2. 评估指标由于多目标跟踪任务的复杂性，对跟踪性能的定量评估具有已经提出了大量的度量[10，17，20，13]，包括两个主要的通用度量服务于不同的目的。其中之一是CLEAR MOT指标[3，11]，它包含多目标跟踪精度（MOTA）和多目标跟踪精度（MOTP）：同时达到良好的速度和精度，Σ （FN+FP+ IDS）由于短期运动信息而遭受沉重的身份切换。另一方面，深度SORT [23]引入了对象重新识别（REID）作为外观信息，MOTA = 1−ttΣΣ不tGTtDi（1）信息处理长期闭塞，导致更强大和有效的算法。由于快速发展-MOTP=塞里岛tct（2）作为深度神经网络（DNN）的一部分，具有强大区分能力的REID特征已在MOT算法中推广此外，逐帧关联问题通常被视为匈牙利算法解决的二分图匹配[8]。相比之下，离线方法[27，9，2]可以访问整个序列，并且可以对数据关联进行全局优化这些批处理方法通常将MOT表示为网络流问题[27，15]。K-最短路径（KSP）[2]、连续最短路径（SSP）[9]和动态路径其中Ct表示帧t中匹配目标的数量，并且di表示目标i的匹配距离。与主要受检测定位精度影响的MOTP相比，MOTA汇总了各种错误源，包括假阴性、假阳性和身份切换，提供了更好的总体性能度量。另一个是ID度量[16]，它包含识别精度（IDP）、识别召回率（IDR）和相应的F1得分IDF1：2IDTP[15]可以用来寻找最优解。溶液。离线方法能够纠正早期错误，IDF1= 2IDTP + IDFP +IDFN、（3）在线方法，往往表现出更好的性能，但不适用于时间紧迫的应用程序。在本文中，我们专注于一个简单，高效，容易-其中，IDTP、IDFP和IDFN通过真值-结果匹配来计算，即，真实轨迹和假设轨迹之间的二分图匹配。之后，每8308NNK+σKN.假设被分配给唯一的目标。所有具有小重叠的假设框架被视为假阳性，而地面真实被视为假阴性。与MOTA相比，IDF1更好地测量了孔-身份匹配的标准。图2中给出了一个简单的例子来说明其有效性。在本文中，我们专注于识别的性能，从而使用IDF1作为我们的自我评价度量的参考。3. 自我素质评价我们设计了一种新的自我质量评价指标SQE来衡量跟踪性能没有地面实况注释，可以使参数优化，以获得更好的跟踪性能在现实中。该度量应该与通常最好地测量跟踪性能的IDF1下面提供了指导性设计标准，其中我们强调了理想跟踪器应具备的一些从理论和实践两个方面都表明，高质量的计算机辅助设计，对于对象表示，通常低质量的输入将导致不确定的估计，导致计算的REID特征在理想值附近波动我们遵循[19]中的假设，将特征分布建模为多元高斯分布：p（z）=N（z;μ，σ2I），（5）其中z是N维特征向量，μ和σ2分别表示理想值和每个维度的不确定性。每个维度都服从独立的高斯分布。我们测量一对特征（zi，zj）之间的欧几里得距离：‚‚....d（zi，zj）=，（z ik−zjk）2 =， d2.（六）k=1k =1根据独立高斯随机的性质变量，我们有p（d）=N（d; µ−µ，σ2+ σ2）。RIES在特征距离分布中呈现单峰克克克jkik jk而低质量轨迹呈现多个峰值。如果（zi，zj）来自同一目标，则µik−µjk= 0，2 2伊克JK= 2σ2。故后，后。3.1. 设计标准为了更好地理解所提出的指标，dardization服从具有自由等于N：.N我们首先解释理想的MOT跟踪器应该满足以下标准。它应该能够：（1）对所有目标从出现到离开跟踪区域进行连续跟踪;.Σ、k=1dk2（102）N×N，（7）2σk(2)一致地跟踪每个目标，也就是说，随着时间的推移，每个目标应被分配一个且仅一个跟踪ID;（3）尽可能精确地定位每个目标的位置。如第2.2节所述，（3）定量检测如果（zi，zj）来自不同的目标：‚.. d k −（µ ik −µ jk）2（ .）N× N，（8）、2 2性能的跟踪检测范式，因此它不是我们的主要重点。对于自我评价指标设计，k=1σik+σjk(1) 启发了轨迹的数量和长度应该是适当的。（2）导致假设对于优秀的跟踪器，如果来自相同的轨迹，则REID特征尽可能相似，否则尽可能不同这可以通过轨迹的内部和内部距离来表征我们将两个特征f和g之间的距离定义为它们的欧几里得距离：因此，理想轨迹假设的内部和内部距离分布呈现单峰。接下来，我们考虑包含目标A和B之间的身份切换的低质量轨迹。为了便于分析，我们假设每个目标和特征维度具有相同的方差。因此，特征的距离（zAi，zBj）obeyy s non-central chiangdistrict with a non-central-质量参数λ =N （µ Ak−µ Bk）2. 同时，距离=f − g2。（四）基于上述考虑，我们的自我评价指标应该综合考虑数量、长度和特征距离信息由于识别质量与距离绝对值之间的关系难以建立，距离分布分析被认为是一种更合理的解决方案。3.2. 距离分布分析从理论上证明了同一目标的内部距离和不同目标之间的距离服从χ分布。k=1i j每个目标内的距离服从中心χ分布如上证明。最终的距离分布实际上是中心和非中心chi分布的总和，因此显示出双峰形式。可以推断，具有错误识别的低质量轨迹将在帧内和帧间距离分布中呈现多个峰值。3.3. 实际验证我们实际上通过可视化图3中几种不同跟踪情况的内部和内部距离分布来验证上述结论。结果表明，高质量的轨迹，如标记为σ8309(a) ID 0（b）ID 0(c)ID 9（d）ID 3 ID 220图3.几种不同跟踪情况下的距离分布和相应的可视化结果。ID 0始终跟踪向前移动的人，同时与ID 1的人分开，呈现单峰。相比之下，低质量轨迹（诸如包含具有ID 9的身份切换的轨迹以及具有ID 3和ID 220的重叠轨迹）呈现多个峰值。为了量化我们在第3.2节中高斯假设的有效性，我们使用[21]中提供的描述符对MOT16训练集的地面真值进行正态性检验，发现74%的轨迹可以近似为高斯分布，显著性水平为0.1。在MOT 16 -05这样的低密度场景下，该百分比提高到88%。考虑到反例可能发生在实践中，如两个穿着相似的人，我们还测试了描述符在MOT16的检测框中分类唯一的人ID的性能当精度设置为0.95时，召回率和mAP分别可以达到0.94和0.98。因此，我们认为反例只占一小部分。然而，由于非理想因素，最终的距离并不完全服从理论的chi分布。以ID 0为例。尽管显示了相似的总体形状，但假设检验的p值极低，为0，表明存在统计学显著差异。这可能有两个原因：（1）在用样本统计量代替真实均值和方差进行标准化时引入了偏倚(2) 由REID模型提取的特征在每个维度上不是独立的。第二个原因非常常见，因为深度神经网络往往会在多个维度之间产生强烈的令人鼓舞的是，不同质量的轨迹仍然保留了独特的单峰或多峰。错误识别的帧越多，两个峰值越明显，它们之间的间隔越大。在实践中，我们发现，拟合两类高斯分布-分配和设置平均差的阈值可以定性地检测那些显著影响跟踪性能的低质量轨迹根据可视化结果，我们还发现虚警轨迹通常长度较短，方差较大，并且可能干扰间距而产生多个峰值。不存在真实目标的这些轨迹也被归类为低质量轨迹。3.4. 度量基于上述准则和距离分布分析，我们提出了一种新的自我质量评价度量SQE，它可以表示为：n×LSQE =（9）n+k1×L+k2×（fp+dif+sim）具体解释详见下文。评估过程总结在算法1中，并主要分为四个步骤：(1) 对于长度较短且标准差较大的轨迹，我们将其标记为虚警并累积fp。(2) 对于其余的轨迹，我们利用两类高斯混合模型拟合内部距离，并根据均值差判断其是否为低质量轨迹。如果它超过某个阈值，我们断言该轨迹包含多个目标，并累积差异误差，表示为dif。(3) 类似地，每两个非虚警轨迹的间距也被拟合。它们被认为是以较大的均值差匹配同一目标，相似性误差用sim表示。(4) 其他内部特征，如轨迹的数量n和平均长度L也被嵌入。当REID阈值设置得太严格时，存在如此多的检测框被排除，使得n和L都8310算法一：自我质量评价输入：轨迹假设集合T={Tk}输出：自评结果1 n=T中的轨迹数;2 L=轨迹的平均长度，单位为T;3初始化;4 对于每个Tk∈ Tdo5通过公式4计算内部距离;6如果LTk δL和Std > δD，则7将航迹标记为虚警;8fp=fp+1;9其他10拟合两类高斯混合模型;11如果Δmean> δm，则12dif=dif+1;13端部14的端15末端16 对于每个Tl，Tm∈Tdo17通过等式4计算间距;18如果不是假警报跟踪，19拟合两类高斯混合模型;20如果Δmean> δm，则21sim=sim+1;22端部23端部24端部25 通过公式9计算SQE26 returnSQE;小;当n×L几乎保持恒定时，两个变量具有相反的趋势，极端情况下，包括过度碎片化或串联的轨迹，导致它们之间不平衡。为了降低跟踪效果，我们采用调和平均的形式，并设置k1以适应跟踪对象的运动速度和密度。对于街道视频上的行人跟踪任务，n和L的大小近似相等，因此可以将k1简洁地设置为1基于该粗略约束形式，将校正项添加到分母。我们已经证明，累积的dif，sim和fp可以反映低质量轨迹的数量。因此，它们的总和预计是小的，同时SQE的值是大的。在n和L的中等值范围内，校正项实际上起着关键作用。k2用于调整n、L与误差之和之间的比率。SQE中的参数并不难设置。δL可与视频的帧速率进行比较。使用高精度ReID模型，从参考视频中随机选择假警报和ID切换示例足以观察Std和δm，以便相应地设置δD和δm。此外，当给定跟踪器和任务（车辆/行人）时，可以根据经验设置k1和k24. 实验实作详细数据。我们主要在MOT16 Challenge数据集[11]上评估我们的自我评估方法，该数据集包含14个视频序列（7个用于训练，7个用于测试），由静态和移动摄像机从不同场景的不同角度拍摄。我们将研究重点放在行人跟踪上，并利用[21]提供的人ReID所有实验均采用相同的参数设置完成：δ L= 15，δ D=0。2，δ m= 0。3，k1= 1，k2分别取2和10作为REID阈值和合并阈值。REID阈值在0.3到1.6之间变化，超过该阈值，IDF1保持不变。类似地，合并阈值从0.5变化到1.5。参数优化过程是基于网格搜索。本节的其余部分证明了我们的自我质量评估指标SQE的准确性，普适性和有效性。与监督指标的比较。为了证明我们的自我评估指标在评估跟踪性能方面的有效性，我们将其得分与现有的MOT 16 -02培训视频中常用的监督指标，并在图4中可视化IDF1和SQE随着REID阈值的升高，SQE和IDF1均先增大后减小，在IDP、IDR和MOTA相对较高的情况下，SQE和 IDF1达到最大值0.8。这两个项目呈现出非常相似的趋势，这表明我们设计的指标基本上可以满足与IDF 1的期望正相关，IDF1通常测量识别性能最好。(a)（b）第（1）款图4.当更改REID阈值时，在MOT 16 -02（复杂场景）上显示IDF 1和SQE。MOT 16 -02视频记录了一个复杂的场景，大量的人在一个大广场周围走动。我们进一步分析了MOT 16 -09视频的结果，这是一个低密度的简单良好的相似性表明，我们的自我评价方法可以推广到不同的观点和场景。其他录像的详细结果见补充材料。8311视频方法参数IDFIDPIDFIDRMOTAIDFIDSMOTA1∆(IDF第一章02基线0.8058.379.346.051.9690.0SQE（我们的）0.8058.379.346.051.96904基线1.0582.093.573.077.3211.1SQE（我们的）0.8080.993.071.576.23205基线0.9071.279.264.662.0230.1SQE（我们的）1.0071.178.365.261.53209基线1.2076.088.866.473.581.3SQE（我们的）0.8074.788.664.672.2710基线0.9572.476.668.771.5791.9SQE（我们的）0.9070.574.566.871.28111基线0.8580.189.772.475.0294.6SQE（我们的）1.0075.583.868.773.53413基线0.7558.274.647.747.0732.3SQE（我们的）1.0555.968.947.045.690* 表示仅在SQE确定参数后计算SQE参数的分数，但不用于调整参数。表1.在MOT 16 -02上通过地面实况和我们的自我评估方法确定的最佳REID阈值的比较。(a)（b）第（1）款图5.更改REID阈值时，MOT 16 -09上的IDF1和SQE的可视化（简单场景）。(a)（b）第（1）款图6.在深度SORT算法中改变匹配余弦阈值时，MOT 16 -02上的IDF 1和SQE的可视化。我们在表1中总结了由IDF1和SQE我们的自评估方法可以近似量化跟踪性能，具体地说，85%的最优参数差不超过0.25，85%的对应的IDF1差不超过3。推广到其他跟踪算法。敬伊-为了验证该方法的鲁棒性和通用性，对其他跟踪算法进行了补充性实验。我们选择Deep SORT，这是近年来备受认可的开源MOT算法之一。REID阈值对应于深度SORT中的匹配余弦阈值。该算法用IOU匹配代替插值逻辑，使得遮挡时间段内的特征在距离分布中呈现出一个小的干扰峰;因此，当执行自评估时，我们去除这些帧的特征信息。如图6所示，IDF1和SQE之间存在很强的相关性，证明了我们的方法在其他跟踪器上的成功。推广到其他参数。我们进一步测试了我们的方法对其他参数的普适性。除了REID阈值外，合并阈值是影响最终跟踪性能的另一个主要因素类似地，我们在图7和图8中可视化了复杂和简单场景的IDF1和SQE的比较结果仍然保持正相关。表2示出了高精度，7个视频中有5个具有低于0.1的最佳参数差，并且几乎所有对应的IDF1差不超过3。实际测试。我们的最终目标是找到最佳的参数，在现实场景中，地面真理是不可用的。此外，实际上，与未知的测试环境相比，训练数据的规模相对较小。为了以务实的方式测试我们的方法，我们将前4个训练视频作为我们的测试集，最后3个训练视频作为我们的训练集。常规地，参数在训练集上被调谐并且在测试期间保持恒定。在我们的模拟中，我们将这些命名为pa-8312视频方法参数IDFIDPIDFIDRMOTAIDFIDSMOTA1∆(IDF第一章02基线1.0057.972.746.151.7820.0SQE（我们的）1.0057.972.746.151.78204基线1.0582.394.273.176.8230.6SQE（我们的）1.0081.793.772.476.52705基线0.8573.682.566.561.9340.5SQE（我们的）0.7573.182.865.561.44609基线1.0075.989.266.073.273.1SQE（我们的）0.7072.885.863.272.81210基线1.0571.575.168.270.8771.6SQE（我们的）0.9569.974.565.971.58211基线1.1078.287.670.575.0302.8SQE（我们的）0.8575.484.768.073.93513基线1.0556.770.747.346.2680.6SQE（我们的）1.1056.169.247.145.472表2.在MOT 16 -02平台上比较了由地面实况和我们的自评估方法确定的最佳合并阈值。(a)（b）第（1）款图7.在MOT 16 -02（复杂场景）上更改合并阈值时的IDF 1和SQE可视化。(a)（b）第（1）款图8.在MOT 16 -09（简单场景）上更改合并阈值时，IDF 1和SQE的可视化。参数作为基线参数。相反，我们的SQE度量可以指导参数的自我优化，而无需地面实况。因此，它直接用于单独调谐4个测试视频实际上我们可以先在小规模训练数据上获取基线参数作为参考，然后进行自我评估，在相对较小的测试视频，参考基线固定一个参数，然后根据SQE交替调整另一个参数;（3）将它们组合为定制参数。如果使用定制参数的跟踪器优于使用固定训练集调谐参数的跟踪器，则我们的方法被认为是有效的结果如表3所示，其中gt表示每个视频上的真正最佳参数。为了严格起见，我们使用网格搜索在3个假设的训练视频上找到的最佳参数作为基线。很明显，通过SQE调整的参数实现了相当大的改善，与基线相比，结果更接近真正的最优值，显示了我们的方法在实际实施时的有效性。为了进一步说明使用SQE的自优化性能，我们在MOT16测试集和KITTI训练集上进行了实验[7]。基线参数是在MOT16训练集上通过网格搜索找到的最佳参数，其已经超过经验参数5.8%IDF1。此设置基于KITTI1的更新提交策略，我们相信它可以模拟现实中的行人跟踪，其中测试场景与注释视频相比变化很大。如表4所示，SQE启用的参数自优化提高了跟踪器在这些数据集上的性能。缺点和前景。上述实验反映了我们提出的SQE度量的有效性，但仍有一些值得注意的缺点。首先，由于模型拟合过程中的随机性，dif和sim具有几个单位的不确定性，导致对IDF1的微小变化的敏感性不足。其次，现有的度量标准缺乏物理一致性解释。IDF1的计算公式如下：8313范围计算定制参数的过程（1）查找基线参数;（2）对于每个1http://www.cvlibs.net/datasets/kitti/evaltracking.php8314视频方法参数以色列国防军1IDPs印尼盾MOTAIDS系统02GT0.85，0.9559.279.947.052.880基线0.75，1.0056.278.343.850.161SQE（我们的）0.90，1.0057.975.547.052.88204GT0.85，1.0582.694.673.376.723基线0.75，1.0580.992.971.676.325SQE（我们的）0.75，1.1082.394.472.976.62105GT0.90，0.8573.682.566.561.934基线0.75，1.0568.480.159.757.624SQE（我们的）1.00，0.9572.281.165.162.62509GT1.20，0.7076.088.866.473.58基线0.75，1.0571.484.761.772.26SQE（我们的）0.85，0.9073.087.162.871.210整体GT-76.490.366.269.7145基线-74.088.563.568.4116SQE（我们的）-75.588.865.669.5138表3.不同REID和合并阈值选择的比较，基于地面实况，剩余3个视频的最佳值和我们的SQE指标。同时调整两个参数。** 我们使用KITTI火车组中行人最多的5个视频。表4.在MOT16测试仪和KITTI列车组上进行实际测试IDTP，IDFP和IDFN，而我们的方法只是记录低质量轨迹的数量。更精确的思路是依靠数量信息估计IDTP和IDFP假设对于发生身份切换的轨迹，目标A出现n1帧，而目标B出现n2帧。总长度为L，类中具有较大值的距离的数量为N。则A和B满足以下条件：.n1+n2=L，（十）n1×n2=N，这很容易解决。我们可以通过以下方式进行估计：IDTP，IDFP = max（n1，n2），min（n1，n2）.（十一）这种对帧内距离分布的处理可以准确地估计错误帧的数量。此外，间距分布可以帮助改进估计。例如，如果有另一条轨迹也跟踪A，则根据IDF1的计算规则，我们只保留较长的一条作为IDTP。然而，需要更详细的考虑来进行全局精确估计。此外，对低质量轨迹进行数据集方法以色列国防军1IDPs印尼盾 IDS系统MOT16测试基线66.675.859.4442我们68.383.457.8456KITTI列车基线67.467.267.737我们68.567.969.1448315并且估计错误帧还可以有助于跟踪器的后处理，从而提高跟踪性能。最后，需要更严格地定义可调参数k1和k2我们计划在未来调查这些5. 结论在本文中，我们提出了一个自我质量评价指标SQE，使参数优化的测试环境和现实场景中，地面真理是不可用的。这种新的视角可以绕过设计在各种场景中表现良好的算法的困难我们证明了具有不同质量的轨迹在特征距离分布中表现出不同的单峰或多峰，启发我们使用两类高斯混合模型来估计识别误差。在MOT16 Challenge数据集上进行的实验表明，该方法不仅能有效地与实验指标相关联，还能实现参数自优化，从而获得更好的跟踪性能。最后总结了本文的不足之处，并对今后的工作进行了展望.我们相信，我们的工作对MOT的进一步研究具有指导意义6. 确认本研究得到了国家重点科技攻关项目（2004年第10号）的资助2017YFA0700800）。引用[1] 安东·安德里延科，康拉德·辛德勒，斯特凡·罗斯。多目标跟踪的离散-连续优化。2012年IEEE计算机视觉和模式识别会议，第1926-1933页。IEEE，2012。8316[2] Jerome Berclaz，Francois Fleuret，Engin Turetken，andPas cal Fua.使用k-最短路径优化的多目标跟踪。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（9）：1806[3] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多对象跟踪性能：明确的MOT指标。Journal on Image and VideoProcessing，2008：1，2008.[4] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。2016年IEEE图像处理国际会议（ICIP），第3464-3468页。IEEE，2016.[5] Michael D Breitenstein 、 Fabian Reichlin 、 BastianLeibe、Ether Koller-Meier和Luc Van Gool。在线多人跟踪检测从一个单一的，未校准的相机。 IEEEtransactionsonpatternanalysisandmachineintelligence，33（9）：1820[6] Weitao Feng，Zhihao Hu，Wei Wu，Junjie Yan，andWanli Ouyang. 多目标跟踪与多线索和切换器感知分类。arXiv预印本arXiv：1901.06129，2019。[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。[8] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊，2（1-2）：83-97，1955年。[9] Philip Lenz，Andreas Geiger，and Raquel Urtasun. Fol-lowme：高效的在线最小成本流跟踪与有限的内存和计算。在Proceedings of the IEEE International Conferenceon Computer Vision，第4364[10] 袁力、常晃、拉姆·内瓦蒂亚。学习关联：用于拥挤场景的混合增强型多目标跟踪器2009年IEEE计算机视觉和模式识别会议，第2953-2960页。IEEE，2009年。[11] 安东·米兰，劳拉·里尔-塔克斯，伊恩·里德，斯特凡诺·罗斯和康拉德·辛德勒。Mot16：多目标跟踪的基准测试。arXiv预印本arXiv：1603.00831，2016。[12] Anton Milan、S Hamid Rezatofighi、Anthony Dick、IanReid和Konrad Schindler。基于递归神经网络的在线多目标跟踪。2017年第31届AAAI人工智能会议[13] Anh-TuanNghiem ， FrancoisBremond ， MoniqueThonnat，and Valery Valentin. Etiseo，视频监控系统的性能评估。在2007年IEEE高级视频和基于信号的监控会议上，第476- 478481. IEEE，2007年。[14] 吴松怀，斯图尔特·罗素，尚卡尔·萨斯特里.一般多目标跟踪问题的马尔可夫链蒙特卡洛数据关联。2004年，第43 届 IEEE 决策与控制会议（ CDC ）（ IEEE Cat.No.04CH37601），第1卷，第735-742页。IEEE，2004年。[15] Hamed Pirsiavash ， Deva Ramanan ， and Charless CFowlkes.用于跟踪可变数量对象的全局最优贪婪算法。参见CVPR 2011，第1201-1208页。IEEE，2011年。[16] Ergys Ristani ， Francesco Solera ， Roger Zou ， RitaCucchiara，and Carlo Tomasi.多目标、多相机跟踪的性能测量和数据集。欧洲计算机视觉会议，第17-35页施普林格，2016年。[17] Dominic Schuhmacher、Ba-Tuong Vo和Ba-Ngu Vo。多目标滤波器性能评估的一致性度量IEEE信号处理学报，56（8）：3447[18] 萨缪尔·舒特，保罗·韦尔纳扎，崔元根，还有曼莫汉·钱德拉克.用于多目标跟踪的深度网络流。在IEEE计算机视觉和模式识别会议论文集，第6951-6960页[19] Yichun Shi和Anil K.贾恩。概率面部嵌入。在IEEE计算机视觉国际会议（ICCV），2019年10月。[20] Kevin Smith，Daniel Gatica-Perez，Jean-Marc Odobez，and Sileye Ba.评估多目标跟踪。 2005年IEEE，2005年。[21] 孙一凡、郑良、杨毅、齐天、王胜金。超越零件模型：使用改进的部分池（和强大的卷积基线）的人员检索。在欧洲计算机视觉会议（ECCV）的Proceedings中，第480-496页[22] Siyu Tang，Mykhaylo Andriluka，Bjoern Andres，andBernt Schiele.多人跟踪通过解除多切割和每个人的重新识别。在IEEE计算机视觉和模式识别会议论文集，第3539- 3548页[23] Nicolai Wojke，Alex Bewley，and Dietrich Paulus.简单的在线和实时跟踪与深度关联度量。2017年IEEE图像处理国际会议（ICIP），第3645-3649页IEEE，2017年。[24] Yu Xiang，Alexandre Alahi，and Silvio Savarese.学习跟踪：通过决策进行在线多对象跟踪。在IEEE计算机视觉国际会议论文集，第4705-4713页[25] 尹永哲，金杜勇，尹光进，宋永民，和全孟古。使用深度时间外观匹配关联的在线多行人跟踪。arXiv预印本arXiv：1907.00831，2019。[26] Jimuyang Zhang ， Sanping Zhou ， Jinjun Wang ， andDong Huang.实时多目标跟踪的逐帧运动和外观。arXiv预印本arXiv：1905.02292，2019。[27] 李章、袁力、拉玛坎特·内瓦蒂亚。使用网络流进行多目标跟踪的全局数据关联。2008年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2008年。

下载后可阅读完整内容，剩余1页未读，立即下载