多目标跟踪中基于网络流的全局目标学习

184 浏览量更新于2023-10-26 收藏 2.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8855多目标跟踪中网络流全局目标学习李帅1孔宇1哈米德·雷扎托维奇21罗切斯特理工学院2莫纳什大学{sl6009，Yu.Kong} @ rit.eduhamid. monash.edu摘要本文研究了基于最小费用流（MCF）公式的多目标跟踪问题，传统上该问题是作为线性规划的一个实例来研究的。鉴于其计算上易于处理的推理，MCF跟踪的成功在很大程度上依赖于底层线性规划的学习成本函数。大多数先前的研究集中于通过在训练期间仅考虑两个帧来学习成本函数，因此学习的成本函数对于MCF是次优的，其中在推断期间必须考虑多帧数据关联。为了解决这个问题，在本文中，我们提出了一种新的可微框架，通过解决一个双层优化问题，在学习过程中将训练和推理通过经由梯度下降通过可微层反向传播损失，全局参数化成本函数被显式地学习和正则化。通过这种方法，我们能够为全球MCF跟踪学习更好的目标。因此，我们实现了竞争力的表现相比，目前国家的最先进的方法对流行的多目标跟踪，ING基准，如MOT16，MOT17和MOT20。1. 介绍虽然是一个经典的问题，但多目标跟踪（MOT）[37，52]一直是计算机视觉中最活跃的研究领域之一，因为它是许多现实世界问题的基本基本感知任务，例如，视觉监控和自动驾驶[20]。由于目标检测[18，42]技术的巨大进步，给定一个输入视频，首先为每一帧生成一组检测假设，跟踪的目标是将这些检测响应跨时间、局部或全局地关联起来，以形成所有的轨迹。在以前的各种工作中，基于最小成本网络流[4，41，60]的方法越来越多，由于其快速推理特性而引起注意。在这项工作中，我们特别关注基于网络流的跟踪。多目标跟踪问题的最小成本网络流公式实际上是具有单模约束矩阵的约束整数线性规划（ILP）的实例[60]。因此，这样的ILP问题的解可以通过求解其松弛形式，即，一个约束线性规划（LP），它有一个与它的ILP对应部分相同的最优整数解[2]。考虑到其计算上易处理的推理，基于网络流的多目标跟踪方法的成功在很大程度上取决于设计适当的成本函数。许多先前的工作集中在学习一个鲁棒的目标函数，例如。利用使用，例如，[ 53]二进制交叉熵[53 ]，三重态[11]或对比[34]损失。这些方法的主要缺点是它们在训练期间只考虑有限的时间上下文，两三帧因此，学习的目标函数可能是次优的，因为它忽略了长期的时间上下文和关联。最近的几项工作采用图神经网络[8，14，39]，以便为时空图制定多目标跟踪问题学习更好的特征表示。然而，他们的培训目标仍然受到当地的限制，例如，在训练阶段期间采用二进制交叉熵作为局部边缘损失，因此，关于全局跟踪结果的知识还没有被适当地结合。最近，很少有人尝试学习表示MOT中全局数据关联的LP问题的适当目标函数[19，50]。[50]的工作在目标函数中加入了对数障碍项，并采用了基变换技术来处理线性规划中的等式约束，因此，在内部方法的优化过程中，在选择最佳温度参数时涉及到数学[19]的工作与他们的作品相比，我们8856提出了一个通用框架，该框架采用包含隐函数理论[22]的双层优化技术来执行基于LP的跟踪的全局成本函数的端到端学习。在我们的优化的较低级别，我们的框架解决了一个线性规划，上层包含一个通用的损失函数，它可以调节跟踪解决方案。通过在向前传递期间将原始线性规划近似为连续二次规划，可以通过松弛凸二次问题的最优KKT条件来区分。通过这种方式，数据关联的成本可以通过将损失的梯度反向传播通过可微层来端到端地训练。此外，与[50]相比，我们集成了一个更强大的观察模型[5]，以及学习到的数据关联的最佳成本函数。与MOT16、MOT17和MOT20基准测试的当前最先进方法综上所述，我们的主要贡献如下：• 本文采用经典的最小代价网络流公式来解决多目标跟踪问题，并提出了一种新的双层优化技术，该技术能够直接从多帧数据关联结果中学习跟踪的全局代价。• 在秩序到地址的不可微概率针对约束线性规划问题，提出了将原整数线性规划问题近似为一个连续二次规划问题，并将二次规划问题解模型• 所提出的跟踪方法实现的结果比较，能够在流行的MOT16、MOT17和MOT20基准测试中使用当前最先进的跟踪器，证明了其有效性。2. 相关作品多目标跟踪多年来一直是计算机视觉中的一个活跃领域。解决多目标跟踪的方法大致可以分为两种主流方法，即在线方法和离线方法。在线方法，根据当前帧的观测结果进行决策。[55]的流行方法采用匈牙利算法[33]首先将观测与跟踪对象相关联，然后使用卡尔曼滤波器以递归方式更新对象JPDAF [44]通过允许所有观测跟踪某些门控区域内的关联来扩展全局最近邻匹配原则，从而以繁重的计算为代价使解决方案更加稳健基于MCMC的数据关联方法[9，29]提供了数据关联的概率公式，因此包含任意先验。还有一些跟踪方法利用了深度神经网络。Milan等人的种子工作。[38]使用LSTM来联合处理状态估计和数据关联。后来的工作，如Fang虽然在线方法可以用于时间紧迫的情况下，但由于数据关联步骤中的贪婪方式，它们会做出不可逆的MOT的离线方法[26，51]通常构建一个图，其节点是检测假设，边是检测假设之间的潜在联系，通过优化具有物理合理约束的精心设计的目标函数，可以找到最终的跟踪解决方案。其中，基于网络流[4，41，60]的方法由于其快速推理和全局最优解特性而变得流行。而更鲁棒的解决方案可以通过采用高阶项[12，26，46，54]以繁重的计算为代价来实现。用于MOT多目标跟踪的图神经网络本质上是一个图优化问题，并且有几项工作试图通过采用图神经网络来解决跟踪[21，32]。[27]的早期工作将CNN和LSTM结合起来，一起学习外观和运动特征，然后使用GCN[32]进行特征细化。Li等[35]设计了一个外观和运动图网络，分别用于使用改进的消息传递网络进行特征学习，用于在线跟踪。Daiet al. [14]通过图形卷积网络对轨迹进行聚类和排名，并显示出有希望的结果。Braso和Leal-Taxie [8]利用消息传递网络进行基于网络流的跟踪，但他们的工作优化了训练期间的二进制交叉熵损失，并且不允许直接从数据关联中学习，还应用了启发式舍入步骤以确保不相交的路径约束。相比之下，我们的方法直接从数据关联执行反向传播，并且在推理阶段不需要MOT中的端到端学习存在尝试以端到端的方式学习用于跟踪的亲和度度量的若干作品。 [57]中的框架利用GRU近似区分匈牙利算法并实现下降性能。Burke和Ramamoor- thy [10]采用卡尔曼滤波框架内的Sinkhorn网络，使用EM算法学习关联成本，但只能跟踪固定对象。与我们的工作类似，Papakiset al.[39]提出了一种使用Sinkhorn网络的可微匹配层，而我们的工作是他们在多帧情况下工作的一般化。Peng等人。 [40]使用深度CNN执行联合检测和数据关联。He等人[23]提出了一种端到端可学习的图匹配方法，但由于其指数复杂性，其二次公式大大降低了推理速度所有这些作品都以在线方式进行学习相比之下，我们的工作是从多个帧中进行全局数据关联的端到端学习，并且在推理过程中比在线方法更鲁棒。8857L.YD{}T||不Y·Y|不CNNCNNCNNSCNNCNNCNNCNNCNNCNN不反向传播S不MLP微分层输入检测提取的特征流图有学习成本最优LP解图1.拟议跟踪方法的说明。给定帧序列和一组检测假设作为输入。由预先训练的人员重新识别网络提取的检测一个MLP是用来回归检测之间的连接概率。在训练期间，较低级别的线性程序生成预测x，其通过可微层以产生来自较高级别的损失，损失通过先前的层反向传播，以便学习最佳参数化成本c（f;w）。在推理时，模型通过求解线性规划输出数据关联，实现跟踪。A，b，G，h表示线性规划3. 方法在本节中，我们简要回顾了用于解决多目标跟踪问题的最小成本网络流公式，然后提出了我们提出的端到端学习策略，该策略通过学习合适的成本函数p（Tk）=pen（d1）l−1i=1ptran（di+1|di）前（dl）（2）跟踪任务。3.1. 最小费用网络流问题给定一组检测假设=di，其中di=（ti，xi，yi，wi，hi，si）表示分别位于位置xi，yi处的帧ti处的检测，边界框大小为wi，hi，置信度得分为si，跟踪的目标是根据贝叶斯规则寻找一组K个轨迹=Tk，其最大化数据的后验概率为-给定输入检测的关联：P（T |D）= P（D| T）P（T），具体地，y，pen（d1），pex（d1）表示轨迹具有长度L的流在检测点D1处进入，在检测点D1 处离开。Pt ran（D1+ 1D1）模拟了在检测点D1+ 1在某一轨迹内沿D1流动之前的时间转变。我们将上述跟踪问题公式化为最小成本网络流问题，通过取方程1的负对数，并结合不相交路径约束以及流守恒约束，即到达节点的流等于从节点出来的流[60]。因此，上述问题可以转换为约束整数线性规划：哪里P（D）P（D）是一个归一化常数，不影响解决方案。假设轨迹彼此独立，并且检测在给定轨迹的情况下是条件独立的，我们的目标是优化：xx= arg minc（f;w）Txx∈XS.T. Ax=b，Gx≤h（三）T= arg max p（T）·Yp（di|T）其中x∈ {0，1}n是由所有中国（1）= arg maxp（Tk）p（di）TKI流图中的边。c（f;w）是参数化成本函数，其中f表示图中的所有特征， w 是 MLP 的权重 A∈R2m×n ，b∈R2m，G∈R2m×n，h∈R2m表示等式和不等式其中p（di）是在轨迹内观察到检测di的可能性，用行人检测的输出对伯努利分布进行建模。p（Tk）表示为轨道Tk选择检测序列的概率。一阶马尔可夫假设被放置用于特定的轨迹Tk，概率可以被分解为：其中，m是流图中的检测次数。注意，尽管我们采用内点法来求解线性规划，但在给定设计的代价函数的情况下，在推理过程中可以采用其他优化技术，例如最大加权团、K8858LX∇联系我们Dc−2|||| −我D=L.DcX∇Dc2我我我DxDwDcDc我i=1XDcDc我我diag（λ）Gdiag（Gx−h）0我6：计算L的梯度：dLdwtM这里，diag（·）运算将向量转换为对角线i=1dwi1步长：wt+1=wt-αdL=DcDc3.2. 最小成本流因此，方程中的原始线性规划。3本质上变成了一个连续的二次规划（QP）：图1展示了我们提出的培训管道。在较低层次上，我们求解一个线性规划，其中成本c= [cdet，cen，cex，ctran]。具体地，对于检测di，x=argminXTx∈X2Qx+cTx（六）c_det是检测成本，c_en、c_ex被设计为使得轨道在该检测处开始或结束。c_TRAN是由两个检测之间的转换成本组成的向量。上层的损失表征了LP在前向传递期间产生的解与相应的地面真实值之间的差异。为了学习等式（1）中的参数化成本函数c（f;w），3、我们需要计算损失梯度w.r.t. w：dL=dLdxdc.因此，我们认为，S.T. Ax=b，Gx≤h特别地，QRn×n，和Q0，所以二次目标是严格凸的。由于2f（x）=Q，新的线性系统可以写为等式2。7 .第一次会议。通过在前向传递期间求解该KKT方程，我们可以获得期望的雅可比矩阵dxk，并反向传播QP，以便执行基于梯度的端到端训练。d wd x dc dw我们的公式需要在训练期间通过最优线性规划的解进行微分dL和dc是易于计算，同时计算dxQGTAT<$−d<$xL（x，λ，ν）<$需要通过Dc 是困难的，arg min运算符。毛皮-diag（λ）Gdiag（Gx h）0dλ0A0 0dν0然而，线性规划的解本质上是离散的，并且需要满足某些约束，这进一步使问题复杂化。线性规划的反向传播受Amos [1]工作的启发，我们提出了在最优KKT条件下通过线性规划解的反向传播具体来说，对于我们在Eq. 3，其La- grangian由下式给出：L（x，λ，ν）=f（x）+λT（Gx-h）+νT（Ax-b）（4）其中f（x）=cTx是线性目标，λ≥0，Dc（七）至于较低级别的损失，我们采用L2损失，它直接测量预测数据关联x和地面实况分配x g t之间的差异为x x gt 2。注意，两个二元向量之间的其他损失函数，例如，汉明损耗也可以用在这里。我们的实验表明，只要γ很小，我们的框架对γ的调谐值不是很敏感。因此，我们设γ= 0。1.一、完整的训练算法详见算法1。算法1梯度下降用于网络流的成本函数的端到端学习。输入：训练集Dtrain={（fi，xgt）}N，其中Nν是对应于不等式的对偶变量，相等的约束。考虑凸问题的KKT条件的平稳性条件、互补松弛性和原始可行性，流图，每个流图与特征表示fi配对，地面实况数据协会xgt输出：具有学习的最佳模型参数的MLP，1：初始化学习率α，MLP，w0第二章： repeat（对于每次迭代t）3：从训练中随机抽取M个图。4：对于i= l至M，do5：将fi转发到MLP以获得成本ci，并求解f（x）GTATdxDc<$−d<$xL（x，λ，ν）<$当量6得到x，计算损失：L（x，xgt）dwiA0 0dν0（五）7：结束8：设置dL =1μMdL，执行梯度下降矩阵通过求解Eq. 5，期望的雅可比矩阵dx可以是9：直到收敛dwt获得的然而，直接这样做是不可行的，因为由于线性目标，2f（x）将变为0。因此，Eq.5会变成单数，dx是平凡的为了解决这个问题，我们建议在原线性目标中加入一个Tikhonov阻尼项γ，使f（x）= cTx+γ||X||2、进一步放宽x使得x∈[0，1]以实现基于梯度的优化。返回学习的MLP，由w参数化3.3. 网络流成本函数考虑到训练的MLP具有参数w，可以设计流图中定义的一元和二元势用于推理。0Ddxidcidxidcidwi8859我−-|i j i jij−-||∈ {}TranJ我IJhi+h jhi+h jHJWJ|检测成本。给定检测di，一元成本cdet被定义为si，其中si是由类特定分类器输出的检测置信度。该术语有利于在跟踪结果中选择高置信度的人检测。进入/退出成本。这些成本是学习标量，使得在线性规划的推理期间，更可能选择较长的轨迹。我们在训练集上进行了交叉验证，发现标量1在实践中效果良好。注意，高的进入/退出成本微不足道地产生LP的全零解，因为它增加了总成本/能量。转换成本。Giv enapari rofdetectiondtanddt+1除了上述时空特征，我们还将外观特征的人检测。为此，我们采用预训练的深度ReID [61]架构，这是人员重新识别文献中最先进的模型，并使用预训练的模型为每个检测提取准确的外观特征。由ReID网络φ输出的两个检测的外观特征之间的归一化余弦距离I j和它们的边缘特征表示fij，它们的匹配概率为：p（d d）=MLP （f;w）。ct ran中的相应项设置为logpt ran（djdi），这意味着具有高匹配概率的检测对应该被连接。4. 实验4.1. 数据集我们在MOT16，MOT17 [37]和MOT20 [15]行人跟踪数据集上进行了实验。MOT16和MOT17包含相同的视频，除了MOT16将双绞线[18]检测作为跟踪输入，而MOT17在三个不同的检测输入下评估跟踪性能，即双绞线[18]，FRCNN [42]和SDP [58]。此外，MOT20已经被设计成挑战跟踪算法F=（2（xj−xi），2（yj−yi），loghi，logwi，φ（d）Tφ（d），GIoU（d，d））.（八）训练为了生成训练样本，我们将每个训练序列等分成（重叠的） T帧，其中我们设置T= 15。请注意，我们只考虑两个相邻帧中节点的连接，以避免大量的内存消耗和加速计算。我们利用可用的地面实况注释，它定义了跨帧对象之间的理想数据关联。特别地，对于ctran中的每个项，我们将其定义为logptran（djdi），其中ptran（djdi） 0，1是地面实况边界框di和dj的匹配概率。1用于cdet中的条目，因为每个注释框都是真阳性。对于每个地面实况框di，其对应的进入/退出成本被设置为：我我场景[15]。由于MOT16和MOT17具有几乎相似的地面实况注释，因此我们在MOT16训练集上训练模型我们使用MOT 16 -09，MOT 16 -13序列形成我们的验证集，其余5个序列作为训练集。为了与其他方法进行公平的比较，使用提供的公共检测在 MOT16 ， MOT17 和MOT20测试集中报告了跟踪性能。4.2. 实现细节侦查由于基于网络流的方法对误报非常敏感。我们首先使用[5]提供的检测对原始输入检测进行预处理，如[25]所建议的，以便获得一组高质量检测。功能. 假设我们有一对检测di和dj，分别具有（ti，xi ， yi ， wi ， hi ， si ）和（tj ，xj ， yj ， wj ， hj ，sj），我们遵循[8]的工作将时空约束编码为几何功能：（2（xj−xi），2（yj−yi），loghi，logwi）.轨道可以在任何检测处开始和终止。我们实验了不同的网络架构来对成本函数进行评分，例如。线性分类器，MLP，并发现一个两层多层感知器在实践中更好地工作。因此，我们采用了一个具有ReLU非线性的双层MLP，它输出0和1之间的概率分布作为亲和度度量，使用Adam优化器，初始学习率为 10−3 ，权重衰减为 10−4 ，持续约 10 个epoch。我们选择在验证集上表现最好的模型，以便在测试时进行跟踪推理。根据特定视频中的检测密度，在50-150帧长度的批次（重叠）上执行跟踪。在每个批次内，允许检测之间的最大间隔为10 = 5帧，以加入检测，从而处理假阴性和短期遮挡。我们利用Guidelines的求解器来解决每个批次中的每个ILP，以获得轨迹。最后，将轨道跨相邻批次缝合，以形成最终轨道。长期闭塞处理。由于长期处于封闭状态，在现实中，轨道通常是支离破碎的，hi+hjhi+hjhjwj该约束对两次检测之间的重要相对位置信息进行编码，直觉上是在小的时间间隔下，行人不能移动得很远，并且由于马尔可夫性质，行人的大小不应改变太多。开关发生。作为回应，我们建议使用第二轮网络流跟踪器来处理这些问题，除了节点现在是tracklet（短轨道）而不是第一轮中的节点，具有外观和运动约束。具体来说，给定trackletTi，我们使用[61]来8860↓↑我Ld=1D我JΣappT app−图2.应用单目标跟踪器的效果。左：跟踪目标。中：由于检测缺失，跟踪器无法跟踪目标。右：SOT跟踪器能够跟踪目标几帧。提取外观特征，例如，fapp=1Lfapp去注释其最终表示。因此，对于轨迹Ti和Ti，1FF是他们最终的匹配成本。关于运动约束，我们估计每对时间上不重叠的轨迹段的平均速度，使得τdist用于拒绝物理上不合理的连接。因此，轨迹片段被连接，并且轨迹内的长期遮挡可以通过双线性插值来恢复。后处理。这是可能的，我们的跟踪器失去了几个对象在跟踪过程中，由于剧烈的外观变化/照明等，为了解决这个问题，我们添加了一个单一的对象跟踪器（SOT），以保持跟踪丢失的具体来说，对于在视频到达最后一帧之前消失的轨迹，我们利用跟踪器的最后位置来初始化单个对象跟踪器[36]并执行跟踪。为了在被跟踪对象与其他对象混淆的情况下杀死跟踪器，我们将被跟踪对象的外观与初始化对象进行比较从图2中可以看出，通过添加SOT，我们的方法成功地跟踪了丢失的对象，并且当发生完全遮挡时，SOT跟踪器结束。4.3. 评价为了验证所提出的端到端学习方法的有效性，我们将我们学习的MLP与基线方法进行比较，该基线方法使用注释数据关联以二进制交叉熵（BCE）目标进行训练，该方法不允许从关联进行反向传播。L1和L2是分别采用L1和L2作为损失的IDF1 [ 45 ]反映了跟踪器随着时间的推移保持身份的能力，因此更多地此外，多目标跟踪精度（MOTP）、大部分跟踪（ ML ）目标的百分比和大部分丢失（ML）目标的百分比以及轨迹内的总碎片数（Frag）构成了跟踪的主要评价指标学习亲和力测量的有效性。曲线下面积（AUC）适合于测量二元分类器的性能，因此更强的MLP应该获得更高的AUC得分。采用均方误差（MSE）来将QP的输出x t（包括检测、进入/退出成本）与地面实况注释xgt进行比较MSE边缘只考虑到预测数据关联与地面实况关联相比。从表1中可以清楚地看出，通过多帧数据关联的反向传播，我们提出的方法无论使用的损失如何，在所有使用的度量中都优于使用BCE目标训练的基线方法。总的来说，L1和L2损失实现类似的性能.损失AUC↑BCE↓MSE↓MSEEdge↓公元前0.9960.0640.0260.017L10.9970.0470.0130.008L20.9970.0050.0100.006表1.在MOT16验证集上使用所提出的训练策略与基线方法评价亲和力度量和数据关联结果方法MOTA↑ IDF 1↑ IDS↓ MT↑ ML↓ w/o第二轮MCF 38.943.5 134 22 57w第二轮MCF42.955.1732851表2.MOT16确认集的消融研究，第一轮MCF实现了不错的性能，由于长期闭塞处理，添加第二轮MCF进一步提高了性能。方法MOTA ↑IDF1 ↑MT ↑ML ↓FP ↓FN↓ IDS↓基线49.33 58.91 100 163 822 24814157123 151810 23715 186L251.54 60.15 124 14783123641193表3.在MOT17验证集上评估不同方法下的跟踪性能，端到端学习成本性能优于使用BCE损失训练的基线。所有方法都采用相同的边缘特征作为公平的对比跟踪评估。多目标跟踪准确度（MOTA）[6]和IDF 1[45]是跟踪性能评估的两个广泛两人相遇--方法MOTA↑ REC↑ PREC↑ MT↑ IDS↓ FRAG↓ DNF [50]（线性） 28.25 38.0180.099.67 342 1620丹麦国家足球队[50]（MLP）31.10 37.5385.88 八点五一 289 1562建议方法44.2745.0398.84 十四点九 260 365rics定义为：MOTA=1−FPt+FNt+IDSt，表4.不同列车下的跟踪性能评估-2IDTPGTtIDF1 = 2IDTP + IDFP + IDFN。交通运输署测量了跟踪器-错误率（以假阳性（FP）、假阴性(FN)和身份交换机（IDS），它更侧重于去，在MOT16训练集上执行策略，意味着高的数字是赌注-，则相反。每个指标下的最佳性能以粗体显示。8861第二阶段网络流数据关联的有效性为了说明第一阶段数据关联对最终跟踪性能的贡献，我们在MOT16验证集上测试了所提出的方法。根据表2中的结果，第一阶段NF数据关联为第二轮网络流量跟踪器提供了不错的结果（作为良好的tracklet初始化），其中必须处理长期阻塞。我们还可以看到，与仅使用第一阶段跟踪相比，第二阶段网络流跟踪的性能有所改善。在MOTA方面，改善不如IDF 1/IDS显著因此，核心方法（即，第一阶段）对最后的表演起着至关重要的作用。所提议的方法在跟踪基线方面的有效性。在表3中，我们在跟踪指标方面将我们的方法与使用BCE目标训练的NF基线进行了比较。请注意，对于所有三种方法，我们使用相同的第二轮MCF策略进行长期遮挡处理，因此最终跟踪性能的差异仅源于第一阶段的关联结果。虽然我们的方法在IDS度量方面略逊一筹，但我们提出的方法在MOTA和ML度量方面超过了基线，这表明数据关联的反向传播对比[50]。我们将我们提出的学习方法与Schul- ter等人提出的方法进行比较。[50]表4。我们遵循与他们的工作相同的train/val分割，并在MOT 16训练集上进行交叉验证对于所有跟踪指标，我们都优于他们的端到端学习方法。更高的查全率和查准率可以归因于我们拥有更强大的观察模型，以及我们更好地学习数据关联的亲和力度量。我们比基线MOTA提高了44%，并显著提高了MT/FRAG指标。法模式 MOTA ↑ IDF1 ↑ MT ↑ ML ↓ FP ↓FN ↓IDS↓[49]第四十九话38.842.47.949.18114 102452 965[17]第十七话在线45.948.813.241.9687191713648AMIR [47]在线47.246.314.041.6268192856774MOTDT [11]在线47.650.915.238.3925385431792[35]第三十五话在线47.743.216.134.39518838751907UMA [59]在线50.552.817.833.7758781924685Tracktor++[5]在线54.452.519.036.9328079149682LINF1 [16]线下41.545.711.651.3789699224430BiLSTM [31]线下42.147.814.944.4 11637 93172753NOMT [12]线下46.453.318.341.4975387565359LMP [54]线下48.851.318.240.1665486245481MPNTrack [8]线下58.661.727.334.0494970252354LPT（我们的）线下57.458.722.737.2420173114427表5.跟踪MOT16测试集上的结果，并将测试[18]检测作为输入。粗体和下划线数字表示最佳和第二佳性能。法模式 MOTA ↑ IDF1 ↑ MT ↑ ML ↓FP ↓FN ↓IDS↓[62]第六十二话48.255.719.338.326128 2636082194[11]第十一话50.952.717.535.724069 2507682474[56]第五十六话50.956.520.137.0 27，5322469242593[13]第十三话52.048.719.133.414138 253616 3072[57]第57话53.753.819.436.611731 247447 1947[5]第五届全国人大代表56.355.121.135.38866235449 1987[39]第三十九话57.356.324.233.414100 225042 1911[30]当前离线50.747.220.836.922875 252889 2314表6.使用公共检测[18，42，58]作为输入跟踪MOT17测试集的结果。最佳和第二佳性能分别以粗体和下划线数字显示。方法模式MOTA↑ IDF1↑ MT↑ ML↓ FP↓ FN↓IDS ↓SORT 20 [7]在线42.745.116.726.2 27521 264694 4470Tracktor++V2在线[5]52.652.729.426.76930 2366801648[48]第四十八话53.651.031.628.17765 2305761531[39]第39话[26]第二十六话54.558.949.056.532.825.59522 223611 203841.321.3 17739192736 2241LPT（Ours）收藏57.953.539.022.89980 2059491827表7. MOT20测试序列的公共检测跟踪结果。粗体和下划线数字表示最佳和第二佳性能。与其他国家的艺术比较。我们比较我们的跟踪器在我们的最终结果中，我们选择了使用L2损失训练的模型进行基准评估。我们在最终实现中不应用SOT，因为改进是微不足道的。表5、6和7比较了我们的方法，即线性程序跟踪器（LPT）与现有方法。在MOT16基准测试中，我们的方法在MOTA、IDF1、MT和FN上的性能都是第二好的。请注意，[8]的工作使用消息传递网络来学习时间连接的更好特征表示，而我们的方法没有使用图网络，我们的结果仍然与他们的方法相当。在MOT17基准测试中，DeepMOT [57]的工作使用MOT度量以端到端的方式训练神经网络然而，他们的方法主要是为了改善两帧数据关联而优化的与他们的方法相比，我们的方法以离线的方式工作，在训练和推理过程中都包含较长时间的上下文信息结果表明，与[57]相比，我们的方法实现了更好的MOTA和IDF1一个值得注意的强基线是[39]，它利用图卷积网络和Sinkhorn网络来执行数据关联的端到端训练，与他们的方法相比，我们在MOTA方面实现了类似的性能，但由于[第28话]线下51.254.520.937.025937 247822 1802JBNOT [24]线下52.650.819.735.831572 232659 3050MPNTrack [8]线下58.861.728.833.517413 213594 1185[25]第二十五话线下60.565.627.033.614966 206619 1189LPT（我们的）线下57.357.723.336.915187 224560 14248862图3.我们的跟踪算法在MOT17测试分裂的定性结果。我们的方法能够通过长期遮挡来跟踪人，并且在拥挤的场景中也表现良好，最好用彩色观看。准确学习成本以及多帧数据关联公式化的优点。通过进一步将图卷积网络（GCN）引入到特征学习中，可以得到更好的性能。图3显示了一些定性结果，我们的方法能够通过长期遮挡跟踪对象并恢复丢失的检测。与当前的SOTA方法LifT [25]相比，我们的方法实现了略差的MOTA和IDS度量。应当指出，Lift的工作考虑到跨越超过50帧的检测之间的提升的连接，使得公式化NP困难并且计算繁重。相比之下，我们的方法具有多项式时间复杂度。虽然我们的方法在性能方面稍差，但我们实现了更快的推理速度：我们的跟踪器消耗1-5分钟，而他们的ILP求解器平均每个序列需要26.6分钟。我们相信，通过在推理过程中使用更强大的优化技术，如多切割，多假设跟踪，我们的性能可以进一步发挥作用。最后，我们在MOT20 [15]上测试了我们的方法，该方法旨在跟踪人群。值得一提的是，在最先进的方法[26]中应用了各种修剪算法，以使其NP难问题易于处理，而我们的方法不需要复杂的预处理步骤来稀疏化图。总的来说，我们的方法在MOTA和IDF1指标上取得了第二好的成绩，略低于[25]，但比他们的结果有更好的ID指标。由于在训练/推理过程中使用了多帧数据关联，我们的性能大大超过了MOTA和MT指标[5，39，48]5. 结论总之，我们提出了一个通用的框架和一种新的训练方法来学习最小成本流多目标跟踪问题的成本函数。通过求解一个可微的连续二次规划（QP），我们的方法能够结合多帧数据关联结果以及跟踪特定的约束条件，以获得更好的跟踪全局目标虽然我们使用网络流线性程序推理来执行跟踪我们的方法的一个主要限制是，只有数据关联是端到端学习的，而对象检测的部分与训练分离。由于这个跟踪器的成功很大程度上取决于输入检测的质量，未来我们计划与我们的网络流框架一起探索训练对象检测我们还旨在考虑高阶优化目标的端到端学习是否可以进一步提高跟踪性能。8863引用[1] 布兰登·阿莫斯和J·齐科·科尔特。Optnet：作为神经网络层的微分优化。国际机器学习会议，第136-145页。PMLR，2017年。4[2] 安东·安德里延科和康拉德·辛德勒。六边形网格上的全局最优多目标跟踪。欧洲计算机视觉会议，第466-479页。施普林格，2010年。1[3] 谢恩·巴拉特。解的可微性凸优化问题。arXiv预印本arXiv：1804.05098，2018。4[4] Jerome Berclaz，Francois Fleuret，Engin Turetken，andPas cal Fua.使用k-最短路径优化的多目标跟踪。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（9）：1806-1819，2011. 一、二[5] Philipp Bergmann，Tim Meinhardt，and Laura Leal-Taixe.没有铃铛和哨子的跟踪。在IEEE/CVF计算机视觉国际会议论文集，第941-951页，2019年。二、五、七、八[6] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。多目标跟踪性能评估：清晰的mot度量。EURASIP Journal on Image andVideo Processing，2008：16[7] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在2016年IEEE图像处理国际会议（ICIP）上，第3464-3468页。IEEE，2016. 7[8] GuillemBras o'和LauraLeal-T ai xe'。学习多目标跟踪的一个普通在IEEE/CVF计算机视觉和模式识别会议论文集，第6247-6257页，2020年。一、二、五、七[9] Ernesto Brau 、 Jinyan Guan 、 Kyle Simek 、 Luca DelPero、Colin Reimer Dawson和Kobus Barnard。单目视频贝叶斯三维跟踪。在IEEE计算机视觉国际会议论文集，第3368- 3375页2[10] Michael Burke和Subramanian Ramamoorthy。没有数据关联的学习数据关联：神经分配预测的emapproach。arXiv预印本arXiv：2105.00369，2021。2[11] 龙辰、艾海洲、庄子杰、崇尚。实时多人跟踪，具有深入学习的可识别选择和人员重新识别。在2018年IEEE多媒体和博览会国际会议（ICME）上，第1-6页。IEEE，2018年。1、7[12] 崔元君用聚集局部流描述符的近在线多目标跟踪。在IEEE计算机视觉国际会议论文集，第3029- 3037页二、七[13] 楚鹏和凌海滨。Famnet：联合学习的特征，亲和力和多维分配在线多目标跟踪。在IEEE/CVF计算机视觉国际会议论文集，第6172- 6181页7[14] Peng Dai，Renliang Weng，Wongun Choi，ChangshuiZhang，Zhangping He，and Wei Ding.学习多目标跟踪的建议分类器InProceedings of theIEEE/CVF计算机视觉和模式识别会议，第2443-2452页，2021年。一、二[15] Patrick Dendorfer，Hamid Rezatofighi，Anton Milan，Javen Shi， Daniel Cremers ， Ian Reid ， Stefan Roth ，Konrad Schindle r和LauraLeal-T ai xe'。Mot20：拥挤场景中多目标跟踪的基准测试 arXiv 预印本 arXiv ：2003.09003，2020。五、八[16] 洛伊克·法戈-布凯，罗马里克·奥迪吉耶，约安·多姆和弗雷德里克·勒拉斯勒。利用稀疏表示改进多帧数据关联，在欧洲计算机视觉会议上，第774-790页。施普林格，2016年。7[17] Kuan Fang ， Yu Xiang ， Xiaocheng Li ， and SilvioSavarese.用于在线多目标跟踪的递归自回归网络。IEEEWinter Conference on Applications of ComputerVision（WACV），2018年。二、七[18] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence ， 32 （ 9 ）： 1627

下载后可阅读完整内容，剩余1页未读，立即下载