没有合适的资源?快使用搜索试试~ 我知道了~
6787如何训练你的深度多对象跟踪器Yihong Xu1Aljos PutaOs Puteep2YutongBan1,3Radu Horaud1LauraLeal-Taixe'2Xa vierAlameda-Pineda11 Inria,LJK,Univ.法国格勒诺布尔阿尔卑斯2德国慕尼黑工业大学3分布式机器人实验室,CSAIL,麻省理工学院,美国1{firstname.lastname}@ inria.fr2{aljosa.osep,leal.taixe}@tum.de3yban@csail.mit.edu摘要基于视觉的多对象跟踪(MOT)的最新趋势是利用深度学习的代表性能力来联合学习检测和跟踪对象。然而,现有的方法仅使用损失函数训练某些子模块,这些损失函数通常与建立的跟踪评估措施(诸如多目标跟踪)不相关图1.我们提出了DeepMOT,一个通用的火车框架目标跟踪精度(MOTA)和精确度(MOTP)。由于这些度量是不可微的,因此选择合适的损失函数用于多目标跟踪方法的端到端训练仍然是一个开放的研究问题。在本文中,我们通过提出MOTA和MOTP的可扩展代理来弥合这一差距,我们将其结合在适合于深度多目标跟踪器的端到端训练的损失函数作为一个关键成分,我们提出了一个深度匈牙利网(DHN)模块,近似匈牙利匹配算法。DHN允许估计对象轨迹和地面实况观测之间的对应关系,以计算MOTA和MOTP的可微分代理我们的实验表明,所提出的不同的框架提高了现有的多目标跟踪器的性能,我们建立了一个新的国家的最先进的MOTChallenge基准。我们的代码可从https://github.com/yihongXU/deepMOT公开获取。1. 介绍基于视觉的多目标跟踪(MOT)是一个长期的研究问题,在移动机器人和自动驾驶中有着广泛的应用。正是通过跟踪,我们意识到周围的对象实例,并预测它们未来的运动。大多数现有的行人跟踪方法遵循检测跟踪范式,并且主要关注检测器响应随时间的关联大量的研究调查了这种挑战性数据关联问题的组合优化技术[37,36,41,49,8,7]。MOT中最近的数据驱动趋势利用深度网络的代表性力量来学习身份-使用深度多目标跟踪器,包括与已建立的跟踪评估措施直接相关的DeepMOT损失[6]。在我们的方法中的关键组成部分是深Hungar- ian网络(DHN),它提供了一个软近似的最佳预测地面实况分配,并允许提供梯度,从近似的跟踪性能的措施,需要更新跟踪器的权重反向传播保留用于数据关联的嵌入[24,43,46],学习单个目标的外观模型[12,50]以及学习回归检测到的目标的姿态[4]。然而,这些方法使用代理损失(例如,三重损失[40]学习身份嵌入),这只是间接相关的MOT评估措施[6]。定义类似于标准跟踪评估措施的损失函数的主要困难是由于需要计算预测对象轨迹和地面实况对象之间的最佳匹配。这个问题通常通过使用匈牙利(Munkres)算法(HA)[23]来解决,该算法包含不可微运算。本文的重大贡献是一个新的,可区分的框架,训练多目标跟踪器(图。1):它提出了标准CLEAR-MOT[ 6 ]评估措施的可微变体,我们将其组合成一个新的损失函数,适用于MOT方法的端到端训练。特别是,我们介绍了一个可微的网络模块-所提出的近似基于双向递归神经网络(Bi-RNN),该网络基于预测计算(软)分配矩阵,RGB图像边界框梯度DeepMOT深度多目标跟踪器深匈牙利网DeepMOT损失6788到地面真值距离矩阵。然后,我们将MOTA和MOTP[6]表示为计算的(软)分配矩阵和距离矩阵的可微函数。通过DHN,从近似跟踪性能测量的梯度被反向传播以更新跟踪器权重。通过这种方式,我们可以使用与标准MOT评估措施直接相关的损失以数据驱动的方式训练对象综上所述,本文做出了以下贡献:(i) 我们提出了新的损失函数,这些损失函数直接受到标准MOT评估措施的启发[6],用于多目标跟踪器的端到端训练。(ii) 为了通过网络反向传播损失,我们提出了一个新的网络模块-深度匈牙利网-它学习以可微的方式将预测的轨迹与地面真实对象相(iii) 我们通过使用我们提出的框架训练最近发布的Tracktor [4]来我们展示了在基线上的改进,并在MOTChallenge基准数据集上建立了一个新的最先进的结果[32,25]。2. 相关工作跟踪作为离散优化。 随着可靠的目标检测器的出现[13,15,26],检测跟踪已成为领先的跟踪范式。这些方法首先在每个图像中执行对象检测,并随着时间的推移关联检测,这可以通过轨道和检测之间的帧到帧二分匹配在线执行[23]。由于早期的检测器有噪声且不可靠,因此有几种方法以离线或批处理方式搜索最佳关联,通常被视为网络流优化问题[36,41,49,8,7]。或者,跟踪可以作为一个最大后验概率(MAP)估计问题,寻求一个最佳的一组跟踪作为一个条件分布的顺序跟踪状态。几种方法使用连续随机场(CRF)[33,10,35]、马尔可夫链蒙特卡罗(MCMC)[34]或变分期望最大化[1,2,3]进行推断。这些方法通常使用手工制作的外观模型描述符,例如颜色直方图[33,9],基于光流的描述符[10]和/或运动模型[26,35]作为关联线索。因此,通常只有少数参数是可训练的,并且通常使用网格/随机搜索或parzen窗口估计树来学习[5,35]。在基于CRF的方法的情况下,可以使用结构化SVM训练权重[45,47]。深度多目标跟踪。 MOT中最近的数据驱动趋势利用了深度神经网络的代表性力量Xiang等[48]通过将它们建模为马尔可夫决策过程来(MDP)。由于标准评估措施[6]是不可区分的,因此它们通过强化学习来学习策略几种现有的方法使用损失来训练其跟踪方法的部分,而不直接与跟踪评估措施相关[6]。Kim等人[21]利用预先学习的CNN特征或双线性LSTM [22]来学习长期外观模型。两者都被纳入(多假设跟踪)MHT框架[37]。其他方法[16,24,46,43]使用深度神经网络学习用于数据关联的身份保留嵌入,使用对比[17],三重[40]或四重损失[43]进行训练。在推理时,这些用于计算数据关联亲和力。[12,50]的方法使用共享卷积骨干的单对象跟踪器的集合来学习单个目标的外观模型时空机制(使用交叉熵损失在线学习)指导在线外观适应并防止漂移。所有这些方法都只是部分训练,有时处于不同的阶段。此外,目前还不清楚如何训练这些方法,以最大限度地提高既定的跟踪指标。与我们的目标最相似的是Wanget al. [47]提出了一种学习线性成本关联函数参数的框架,适用于基于网络流优化[49]的多目标跟踪器。他们使用结构化SVM训练参数。与我们的方法类似,他们设计了一个类似于MOTA的损失函数:帧内丢失使假肯定(FP)和丢失目标成为可能,而帧间丢失分量惩罚错误关联、ID切换和丢失关联。然而,它们的损失是不可区分的,并且仅适用于所提出的最小成本流框架内的训练参数。Chu等人[11]提出了一个端到端的训练框架,可以联合学习特征,亲和力和多维分配。然而,它们的损失并不直接基于交通运输部和交通运输部。Schulter等人[41]用神经网络参数化(任意)成本函数,并通过相对于最小流训练目标优化它们来端到端地与[41]不同,我们的方法超越了学习关联函数,并且可以用于任何可学习的跟踪方法。Bergmann等人[4]提出了一种基于回归的MOT跟踪方法该方法是训练的对象检测任务,使用平滑的L1损失的边界框回归。从经验上讲,他们的方法能够在没有显著相机运动的情况下回归高帧率视频序列中的边界框除了轨道出生和死亡管理,这种方法是完全可训练的,因此它是展示我们的培训框架优点的完美方法使用我们提出的损失在序列级数据上训练这种方法进一步提高了性能,并在MOTChallenge基准上建立了新的最新技术水平[25]。6789tl228TNM2TNMt tt3. 概述和符号任何MOT方法的目标是预测视频序列中的轨道。每个轨道Xi与标识i相关联,并且由Li个图像边界框Xi组成R4(2D位置和尺寸),l=1. .,李岛多目标跟踪器的任务是准确地估计边界所有身份的盒子在评估时,标准度量逐帧操作在帧t处,Nt个预测的边界框xi1,. ......、 xiNt必须与M地面实况观测值进行比较。,yj1,. ..,yjMt. 我们首先需要计算相应的-当分配给地面实况对象的值发生变化时,我们增加IDS的数量并更新分配结构。由于这些评估措施是不可区分的,现有的策略只优化 跟 踪器 随 机 或 网格 搜 索 ) , 其最 大 化MOTA或MOTP或两者的组合。在当前版本中,MOTA和MOTP不能直接用于梯度下降技术的跟踪器优化。4. DeepMOT计算CLEAR-MOT [6]轨迹的第一步t t预测边界框和地面之间的响应,真理对象这是一个重要的问题,因为多个地面实况框可能重叠,因此可以适合几个轨道假设。在下文中,我们将省略时间索引t以便于阅读。除非另有说明,否则所有表达式都将根据时间索引t在[6]中提出的标准度量使用二分匹配来解决这个关联问题首先,预测到地面实况距离矩阵DRN×M,1dnm [0,1]计算。对于基于视觉的跟踪,通常使用基于交并(IoU)的距离然后,通过使用匈牙利算法(HA)[23]求解以下整数规划来获得最佳预测-地面实况分配二进制矩阵评估措施是在地面实况对象和预测轨迹的集合之间执行二分匹配。一旦建立了两个集合之间的对应关系,我们就可以计算表达MOTA和MOTP所作为本文的主要我们首先提出使用可微函数在两个集合之间执行软匹配,该可微函数被参数化为深度神经网络。一旦我们建立了匹配,我们设计一个损失,近似CLEAR-MOT测量,作为(软)分配矩阵和距离矩阵的可微函数的组合。诸如IDF1 [39]等其他本地措施关注的是A*=argminXdnmanm,s.t. Xanm1.8n;跟踪器正确识别目标,而不是错误识别的频率比赛发生。 然而,MOTA和IDF1具有强大的A∈{0,1}N×Mn,mXanm1,m;nXm,nManm= min{N,M}。相关性这反映在我们的结果中-通过优化我们的损失,我们还改进了IDF 1度量(参见第2节)。5.3)。在下面,我们讨论了两个可微匹配-通过解决这个整数规划,我们获得了地面实况对象和跟踪预测之间的相互一致的关联。这些约束确保赋值的所有行和列的和都应为1,从而避免两个集合之间的多次赋值。在找到最佳关联A之后,我们可以使用A和D计算MOTA和MOTP度量:2Pt(FPt+ FNt+ IDSt)ing模块(Sec. 4.1)和CLEAR-MOT措施的可微版本[6](第4.1节)。4.2)。4.1. 深匈牙利网:DHN在本节中,我们介绍了DHN,这是我们DeepMOT框架中的一个基本块。DHN产生相对于w.r.t.可区分的代理A~D.因此,DHN提供了一个桥梁,以将梯度从损失(稍后描述)传递到追踪器 我们用非线性映射MOTA= 1-P PP,(1)tMt其输入D并输出代理软分配矩阵MOTP=不Pn,mdtnma、(二)A~。DHN是由一个神经网络工作A=g(D,ωd)其中a*不|TPt|是时间t时A的第(n,m)个条目。 的参数ωd。 重要的是,DHN映射必须满足以下几个性质:(i)输出A必须是好的最优分配矩阵A的近似,(ii)真阳性(TP)对应于匹配的预测轨道和假阳性(FP)对应于非匹配预测轨道的数量。假阴性(FN)表示没有匹配的地面实况对象的数量。最后,为了计算ID开关(IDS),我们需要跟踪过去的帧分配。 每当赛道考虑距离矩阵D而不考虑那些被阈值化的对象/轨迹,即,远离任何可能的任务。2还考虑了遗漏的对象/轨迹。该近似必须是相对于R.T.可微的D、(三)两者输入和输出矩阵相等,但大小不同,(iv)g必须像医管局一样作出全局决定而(i)将通过在训练DHN时设置适当的损失函数来实现(参见第5.1),(ii)是确保通过设计DHN作为一个复合的可微功能。需求(iii)和(iv)促使我们设计一个可以处理可变(但相等)输入和输出大小的网络,其中每个输出神经元都有一个感受野6790k-k2⇥⇥⇥⇥⇥-FP=CFN=Cn,M+1布雷尔距离矩阵(预测到地面实况)第一阶段隐藏表示第二阶段隐藏软分配矩阵逐行展平重塑逐列重塑S形D2×隐藏单位2×隐藏单位2×隐藏单位FC layersà图2.深度匈牙利网的结构行方向和列方向的扁平化受到原始匈牙利算法的启发,而Bi-RNN允许全局地做出所有决策,因此考虑了所有输入条目。等于整个输入。 我们选择双向递归-f是欧几里德距离归一化w.r.t.图像大小:租金神经网络(Bi-RNNs)。 另一种方法是,可以n m考虑使用全卷积网络,因为这些将能够处理可变的输入/输出大小。怎么-f(xn,ym)=c(x)c(y)pH2+W2,(4)然而,大的分配问题会导致部分接收域,从而导致局部分配决策。我们在图中概述了我们提出的架构二、为了使用RNN处理2D距离矩阵D,我们执行D的行(列)扁平化。这是受到原始HA的启发,原始HA执行顺序的行和列约简以及零条目验证,并将其馈送到Bi-RNN(参见下面的详细信息),从而为g(·)做出全局分配决策提供了可能性。准确地说,我们顺序地执行平坦化,即,首先是行,然后是列。 行平坦化的D被输入到输出大小为N的第一级隐藏表示的第一Bi-RNNM2h,其中h为Bi-RNN隐藏层的大小。直观地,第一阶段隐藏表示对逐行中间分配进行编码。然后,我们将第一阶段隐藏表示按列扁平化,以输入到第二个Bi-RNN,该第二个Bi-RNN产生大小为NM的第二阶段隐藏表示。2小时两个Bi-RNN具有相同的隐藏大小,但他们不分享重量。直观地说,第二阶段隐藏表示对最终赋值进行编码.为了将这些编码转换为最终的赋值,我们通过三个完全连接的层(沿着2h维,即,对于原始D的每个元素独立地)。 最后,S形激活产生最佳的N M软-分配矩阵A 注意,与二进制相反,作为匈牙利算法的输出,DHN输出(软)分配矩阵A<$2[0,1]N×M。距离矩阵计算用于测量两个边界框之间的相似性的最常见的度量是Intersection-over-Union(IoU)。注意,原则上,输入D可以是任何(可微的)距离函数。但是,如果两个边界框没有交集,其中函数c(·)计算边界框的中心点,并且H和W分别是视频帧的高度和宽度。归一化的欧几里得距离和Jaccard距离都具有在[0,1]范围内的值,所有条目dnm也是如此。我们的框架允许任何距离表示为可微距离函数的组合在实验部分,我们演示了添加一个测量两个学习的外观嵌入之间的余弦距离的项的好处在下文中,我们解释如何计算可微MOT A和MO TP的代理作为D和A的功能。4.2. 可区分的MOTA和MOTP在本节中,我们详细介绍了所提出的DeepMOT损失的两个组成部分的计算:可微MOTA(dMOTA)和MOTP(dMOTP)。如第3、为了计算经典的MOTA和MOTP评估测量,我们首先找到预测航迹和地面真实目标之间的最佳匹配基于A*,我们计算FN、FP和IDS。后者是通过比较当前帧和先前帧之间的平均值来计算的。为了计算建议的dMOTA和dMOTP,我们需要将所有这些表示为D和A的可微分函数,使用DHN计算(参见第4.1)。在图1中示出了以下描述的操作。3.第三章。首先,我们需要计算FN和FP。因此,我们需要获得非匹配轨迹和非匹配地面实况对象的计数。为此,我们首先从-构造一个矩阵Cr,在Ar上附加一列,填充具 有 阈 值 δ ( 例 如 , δ=0 。 5 ) , 并 执 行 row-wisesoftmax(图.3 a)。类似地,我们通过将r w附加到Ac中来构造Cc,并执行列式softmax(Fig.3b)。然后,我们可以表示一个软近似的FP和FN的数量为:距离1IoU将始终为常数值1。在这种情况下,损失的梯度将为0,并且没有信息将被反向传播。因此,我们的距离Xn,M+1,nX布拉奇N+1,mM.(五)是欧几里得中心点距离和直观地说,如果A中的所有元素都小于阈值,Jaccard距离J(定义为1 -IoU):旧δ,则Cr的条目CN +1,m将接近dnm= f(xn,ym)+J(xn,ym)2.(三)到1,表示我们有FP或FN。否则,el-在Cr的每一行/列中具有最大值的元素,变平Seq-to-seqBi-RNNSeq-to-seqBi-RNN和C6791dMOTP= 1-kD Bk.(八)TPK K-一个-一个IDS=kCK KXt1Xt2Xt3Xt1Xt2Xt3图4.所提出的MOT训练策略(底部)考虑了由所提出的DHN解决的跟踪到对象分配问题,并且近似于标准MOT损失,这与使用不可微HA的经典训练策略(顶部)相反。将dMOTP表示为:图3. DeepMOT损失:dMOTP(顶部)计算为匹配轨迹的平均距离,dMOTA(底部)由FP、IDS和FN组成。Cc(分别)将接近1,表明我们有一个匹配。因此,Cc的第N+1行的和(图11)。3b)和M+1-th列的Cr(图。3a)分别提供FN数目和FP数目的软估计我们将这些称为F N和FP。为了计算软近似I_D_ S和d_M_O_T_ P,TP1kBk0直观地说,L1范数表示匹配的轨迹和地面实况对象之间的距离,而零范数表示匹配的轨迹和·0计算匹配的数量。由于我们应该训练跟踪器以最大化MOTA和MOTP,因此我们提出以下DeepMOT损失:LDeepMOT=(1-dMOTA)+ λ(1-dMOTP),(9)其中λ是损耗平衡因子。通过减少我们的亲-我们还需要构造两个二进制矩阵BTP和BTP,其非零条目在设定损失函数LDeepMOT ,我们正在惩罚FP,FN和-一个当前帧和先前帧。行索引这些矩阵对应于分配给我们的轨道的索引,而列索引对应于地面实况对象标识。我们需要填充BTP进行元素乘法,因为轨道和对象的数量随帧而变化。我们通过填充BTP的行和列来实现这一点,以通过从BTP复制它们对应的行和列来适应当前帧处新出现的对象的矩阵大小。请注意,我们不需要修改BTP来补偿新出现的对象,因为这些对象不会导致IDS。 通过这种结构,IDS-相同对于标准CLEAR-MOT测量,必须在每个时间帧t计算dMOTA、dMOTP。4.3. 如何训练你的深度多对象跟踪器整个跟踪器训练过程如图所示4.第一章我们从训练视频序列中随机抽取一对连续的帧。这两个图像与它们的地面实况边界框一起构成一个训练实例。对于每个这样的实例,我们首先用地面实况边界框(在时间t)初始化轨迹,并运行向前传递以获得轨迹C1:N,1:MTPB-1(其中B是B的二进制补码)在接下来的视频帧中的时间(时间t+1)。模仿”(注1)“数”是“数”的意思。3c):由于不完美检测的影响,我们将随机扰动添加到地面实况边界框(参见补充MA)。布拉奇1:N,1:MTP(6)材料详情)。然后,我们计算D并使用我们提出的DHN来计算A(Sec. 4.1)。最后,我们计算我们的其中·1是平坦矩阵的L1范数。有了这些成分,我们可以评估dMOTA:FP+FN+γ ID SdMOTA= 1 -M。(七)γ控制我们分配给I DS的惩罚。同样,我们可以基于D和A的代理损失(第 4.2)。这位公关人员告诉我们有一个梯度来解释这个分配,用于更新跟踪器的权重。5. 实验评价在本节中,我们首先通过实验验证了我们提出的DHN是双-HA [23]的良好近似。按元素相乘*Xt1 0.0 0.00.2ΣXT2 0.00.10.0dMOTP = ||BTP||0Xt3 0.0 0.00.0DyyyT1T2T30.5 0.30.20.7 0.10.6∞∞ ∞yt1yt2YT3|| BTP|| = Σ0使用TPCra)Xt1 0.1 0.10.9ð逐行Xt1 0.0 0.01.00.0Xt20的情况。20 八点零分2ðSoftmaXX t20的情况。00。九点零分00。1FP=Xt3 0.3 0.30.2X t3 0.1 0.1 0.00.8yt1yt2yt3yt1yt2YT3C、对b)Xt1 0.10.10.9 逐列Xt1 0.00.01.0SoftmaxÃ0.1 0.10.90.2 0.80.20.3 0.30.2yt1yt2YT3Xt2 0.2 0.80.2Xt3 0.3 0.30.2ðð ðyt1yt2YT3Xt2 0的情况。0个1. 00。0 FN=Xt30.9 0.00.0yt1yt2YT3敷面膜c)Xt-1,1Xt-1,2100Xt-1,3010yt-1,1 yt-1,2y t-1,3Xt1 0.0 0.01.0Xt2 0.0 1.00.0Xt3 0.1 0.00.0yt1yt2yIDS = 0100000100深匈牙利网梯度RGB图像深层多目标跟踪器HA+光滑L1丢失边界框(i)无分配后支撑基线梯度A~(ii)建议的全MOT后支撑;梯度通过DHNDeepMOT损失深匈牙利网深层多目标跟踪器DC6792-10根据MOT评估措施的要求,部分匹配(第5.1)。为了显示所提出的框架的优点,我们对几个数据集进行了几次实验,以评估行人跟踪性能(第二节)。5.2)。5.1. DHN实施细节在本节中,我们将深入了解可微匹配模块的性能,并概述训练和评估细节。DHN培训。为了训练DHN,我们创建了一个包含成对矩阵(D和A)的数据集,分为114,483个矩阵用于训练,17,880个矩阵用于测试。我们使用由MOT挑战数据集提供的地面实况边界框和公共检测来生成距离矩阵D[32,25]。我们使用[6]中描述的HA生成相应的分配矩阵A**(作为训练的标签我们将DHN训练作为使用焦点损失的2D二元分类任务[28]。我们通过使用w0=n1/(n0+n1)对主导零类进行加权来补偿类不平衡(在A中零的数量n0和1的数量n1之间)。我们用w1=1w0来加权一个类。我们通过计算加权准确度(WA)来评估DHN的性能:w1n+w0nWA=,(10)w1n1+w0n0其中,n=1和n= 2是真阳性和假阳性的数量,在真实世界的室外和室内场景中捕获的行人视频序列。对于消融研究,我们将训练序列分为训练和验证。分裂的细节可以在补充材料中找到除了标准的MOTP和MOTA测量[6]之外,我们还使用IDF1 [39]测量报告了性能,该测量定义为正确识别的检测与地面真实物体和物体轨迹的平均数量之比。我们还报告了大部分跟踪(MT)和大部分丢失(ML)的目标,定义为跟踪假设覆盖的地面真实轨迹的比例分别超过其寿命的80%和不到20%追踪器Tracktor [4]是Faster RCNN [38]对象检测器对MOT任务的适应。它使用区域建议网络(RPN)和检测器的分类/回归头来(i)检测对象,以及(ii)使用边界框回归头跟踪连续帧中检测到的目标。由于Tracktor的大部分部分都是可训练的,这使得该方法成为展示我们框架好处的完美候选者。请注意,Tracktor最初仅在MOTChallenge检测数据集上进行训练,并且仅在推理期间应用于视频序列。在下文中,我们将把在此设置中训练的跟踪者称为香草基地跟踪者。借助DeepMOT , 我 们 可 以 直 接 在 视 频 序 列 上 训 练Tracktor,针对标准MOT措施进行优化。我们将此变体称为DeepMOT BaseTracktor。10Tracktor+ReID。 香草追踪者没有追踪的概念分别由于DHN的输出在0和1,我们将输出阈值设置为0。五、在这些条件下,图中的网络。2分,WA为92分。百分之八十八在补充材料中,我们提供了(i)消融研究,递归单元的选择,(ii)替代体系结构的讨论,(iii)距离矩阵大小对匹配精度的影响的分析,以及(iv)我们实验性地评估DHN如何保持分配矩阵的属性。DHN使用。一旦DHN用上述策略训练,其权重就固定了:它们在深度跟踪器的训练期间不以任何方式更新。5.2. 实验设置我们通过评估现有(深度)多对象跟踪器在使用建议的框架对多个行人跟踪数据集进行训练时的性能,证明了建议的框架的实际意义。我们首先去除损失项和跟踪架构。我们还评估了该框架对其他培训方案的影响。最后,我们在MOTChallenge基准上建立了一个新的最数据集和评估指标。我们使用MOT15、MOT16和MOT17数据集,这些数据集提供了拥挤的身份因此[4]建议在推理期间使用外部训练的该外部ReID模块是一个具有ResNet-50主干的特征提取器,使用MOTChal- lenge视频序列上的三重丢失[40]进行训练我们将这个变量称为+ReI-Dext。请注意,这不会在训练期间给Tracktor任何身份概念。这意味着惩罚IDS数量的DeepMOT损失将对最终性能没有出于这个原因,我们提议用一个轻量级的ReID头来取代ReIDext,我们可以使用DeepMOT与Tracktor联合训练这反过来又要求我们利用IDEQUIPRS,并充分优化CLEAR-MOT措施所有组件的性能。我们将此变体称为+ReIDhead。它 采 用 完 全 连 接 层 的 形 式 , 有 128 个 单 元 插 入Tracktor。在补充材料中,我们提供了关于如何将ID信息嵌入到距离矩阵D中的细节。即使这样的网络头之前已经在[46]中使用过,它也是使用三重损失进行外部训练的[40]。据我们所知,我们是第一个通过直接优化整个网络来优化这种外观模型以跟踪评估措施的公司。一字一句为了证明我们的方法的通用性,我们提出了两个额外的简单的可训练的基础-6793DeepMOT货车----”方法MOTA“ MOTP“ IDF1“ MT“ ML# FP# FN# IDS#基础59.97 89.50 70.8435.13 27.6627631827 326+ReIDext60.2089.5071.1535.1327.8027631827 152基数60.43 91.82 71.4435.41 27.2521831545 309+ReIDext 60.62 91.82 71.6635.41 27.3921831545 149+ ReID头60.6691.8272.3235.4127.2521831545 118表1.两种训练策略的不同ReID策略对Tracktor性能的影响通过利用两个现有的现成的(可训练的)单对象跟踪器(SOT)来执行MOT:[27]第28话:“你是谁?”在推理过程中,我们根据对象检测初始化和终止跟踪。对于每个对象,SOT将人在时间t1的参考图像和图像t中的搜索区域作为输入。基于该参考框和搜索区域,SOT然后独立地为每个对象回归边界框跟踪管理。在所有情况下,我们使用一个简单的(不可训练的)赛道管理程序. 我们(i)使用检测器响应来初始化未被现有轨迹覆盖的区域中的对象轨迹(在Tracktor的情况下,可以是公共检测或更快的RCNN检测响应);(ii)我们使用SOT或Tracktor将轨道从帧t1回归到帧t,以及(iii)我们终止与检测(SOT基线)没有重叠的轨道,或者调用Tracktor的分类头,其用信号通知轨道是否覆盖对象。作为直接终止的替代方案,我们可以将轨迹设置为对于K帧不可见。5.3. 结果和讨论超越边界框回归。在选项卡中。首先,我们在验证集上建立Vanilla Base Tracktor性能该实验(i)验证了我们提出的基于DHN的训练管道将梯度传递给跟踪器并提高了整体性能,以及(ii)证实了我们的直觉,即使用与跟踪评估措施直接相关的损失来训练对象跟踪器具有积极的影响。请注意,对IDS的影响是最小的,这可能是令人惊讶的,因为我们提出的损失除了FP,FN和边界框未对齐之外还惩罚IDS我们首先评估应用外部ReID模块的影响,即,+ReIDext.可以在Tab中看到。1,正如预期的那样,ReIDext对MOTA(+0。23%+0。19%)和IDS(174和160)分别与Base进行Vanilla和DeepMOT训练。为了进一 步 展 示 ReID 模 块 的 兴 趣 , 我 们 还 报 告 了 使 用DeepMOT训练的+ReIDhead重要的是,+ReID- head不能在Vanilla环境中训练,因为缺乏惩罚IDS的机制。值得注意的是,+ReIDhead训练端到端与Tracktor不仅提高了基础性能(MOTA +0。23%,IDS#191),训练损失MOTA“MOTP“IDF1“MT“ML #FP #FN编号IDS编号香草60.2089.5071.1535.13 27.8027631827152平滑L160.3891.8171.2734.99 27.2529431649164dMOT P60.5191.7471.7535.4126.8329131574142dMOT A60.5288.3171.9235.41 27.3925431597142dM OTA+dM OTP-IDS60.6192.0372.1035.41 27.2522231579124dMOT A+dMOT P60.6691.8272.3235.4127.2521831545118表2.训练缺失对Tracktor影响的消融研究但它也优于+ReIDext(MOTA“0. 04和IDS#31)。非常重要的是,与外部ReID模块(250M)相比,轻量型ReID头包含的参数数量(131K)显著减少最后,除了改进我们优化Tracktor的性能指标外,DeepMOT还始终如一地改进跟踪指标,如IDF1(1.DeepMOT+ReIDhead优于Vanilla+ReIDext)。 我们的结论是:(i)使用我们提出的损失训练现有的跟踪器明显提高了性能,(ii)我们可以很容易地扩展现有的跟踪器,如Tracktor,以超越简单的边界框回归,并将外观模块直接纳入网络。所有模块都在一次培训中联合优化。DeepMOT消融丢失。接下来,我们进行了几个实验,其中我们研究了我们提出的损失的不同组成部分的影响(等式10)。9)Tracktor(DeepMOT+ReIDhead)的性能。我们在Tab中列出了我们的结果。二、除了Vanilla+ReIDext(代表在Vanilla设置中训练的最佳性能)之外,我们还报告了仅使用Smooth L1损失训练相同架构所获得的结果(见图1)。4).我们使用与DeepMOT类似的训练过程训练具有平滑L14.3),以将预测的边界框回归到它们相关联的轨迹的当前时间步处的边界框。这种方法是有限的,因为我们不能(直接)惩罚FP,FN和IDS。与Vanilla相比,SmoothL1然而,Vanilla和SmoothL1几乎在所有性能指标上都优于DeepMOT损失的各种变体。值得注意的是,当在我们的损失中使用dMOTA项时,我们显着减少了IDS和FP的数量使用dMOTP进行训练对MOTP的影响最大,使用SmoothL1进行训练时也是如此。 当只优化dMOTA时,我们有更高的影响关于MOTA和IDF1的措施。值得注意的是,当训练(dMOTA+dMOTP),我们得到了一致的改善,所有跟踪评估措施相对于香草和光滑L1。最后,我们评估了通过将权重γ设置为0(等式2),7)(线d MOT A+d MOTP-I DAS)。在这种设置下,与使用完全损失相比,跟踪器表现出更高数量的IDS,证实后者是最佳策略。6794跟踪器SiamRPNGOTURN培训MOTA“MOTP“IDF1“MT“ML #FP #FN编号 IDS编号预训练45.99 85.87 49.8322.27 36.51 2927 39271 1577平滑L152.2890.5663.5329.46 34.582026 36180 472DeepMOT54.0990.9566.0928.6335.1392736019 261预训练55.35 87.15 66.9533.61 31.811907 33925 356平滑L156.5190.8868.3833.7532.6492534151167DeepMOT57.1689.3269.4933.4732.7888933667 161香草60.20 89.50 71.1535.13 27.8027631827 152平滑L160.3891.8171.2734.99 27.2529431649 164DeepMOT60.6691.8272.3235.4127.2521831545 118表3.使用MOT-by-SOT基线和Tracktor的DeepMOT与SmoothL 1。方法MOTA“MOTP“IDF1“MT“ML #FP编号FN编号IDS编号DeepMOT-Tracktor53.7 77.253.819.436.611731247447 1947跟踪器[4] 53.5 78.0 52.319.536.612201 248047 2072DeepMOT-SiamRPN 52.178.147.716.741.712132 255743 2271泰国RPN [27] 47.8 76.4 41.417.041.738279 251989 4325DeepMOT-GOTURN48.1 77.913.643.522497 266515 3792Goturn [18] 38.3 75.1 25.7 9.447.155381 282670 10328eHAF[42]51.877.054.723.437.9332122367721834FWT [19] 51.3 77.0 47.621.435.224101 247921 2648[20] 10.2 10.9 10.520.937.025937 2478221802MOTDT 17 [29] 50.9 76.6 52.717.535.724069 250768 2474MHT DAM [21] 50.7 77.5 47.220.836.922875 252889 2314DeepMOT-Tracktor54.877.553.419.1三十七点零295578765645跟踪器[4] 54.4 78.2 52.519.036.9328079149 682DeepMOT-SiamRPN 51.8 78.1 45.516.145.1357683699 641泰国RPN [27] 44.0 76.6 36.615.545.71878482318 1047DeepMOT-GOTURN47.2 78.013.746.1723087781 1206Goturn [18] 37.5 75.4 25.1 8.446.51774692867 3277行政协调会[31] 49.379.050.717.839.9533386795 391LMP [44] 48.879.051.318.240.1665486245 481GCRA [30]12.941.1510488586 821FWT [19] 47.8 75.5 44.319.138.2888685487852MOTDT [29] 47.6 74.8 50.915.238.3925385431 792表4.我们通过使用拟议的DeepMOT在MOT16和MOT17公共基准上建立了一个新的最先进的水平。MOT-by-SOT消融。使用DeepMOT,我们可以通过将可训练的SOT方法与跟踪管理机制相结合,将其转换为可训练的MOT方法(如第二节所述)。5.2)并使用我们的损失优化它们的参数。在选项卡中。3,我们概述 了 两 个 MOT-by-SOT 基 线 ( GOTURN [18] 和SiamRPN [27])的结果。对于两者,我们展示了使用(i)预训练网络,(ii)使用平滑L1损失微调的网络,以及(iii)使用DeepMOT训练的网络时的性能根据表中列出的结果。3,我们得出结论,使用平滑L1损失的训练提高了两种SOT的MOTA(GOTURN:+6。29%,暹罗RPN:+1。16%)。此外,与使用SmoothL1损失,我们进一步改进了MOTA,并在使用DeepMOT训 练 时 减 少 了 IDS 的 数 量 。 对 于 GO-TURN(SiamRPN),我们记录了MOTA改善1。81%(0.65%),同时减少了211个入侵检测系统(6)。我们还概述了使用平滑L1损
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功