没有合适的资源?快使用搜索试试~ 我知道了~
1318通过动画跟踪:多目标注意跟踪器何振1,2,3李健2刘大雪2何 汉根2大卫·巴伯3,41军事医学科学2国防科技3伦敦大学学院4艾伦·图灵研究所摘要视频中的在线多目标跟踪(MOT)是一个具有挑战性的计算机视觉任务,几十年来一直被大多数现有的MOT算法都是基于检测跟踪(TBD)范式,结合流行的机器学习方法,这在很大程度上减少了调整算法参数的人工努力。然而,通常使用的监督学习方法需要标记的数据(例如,边界框),这对于视频来说是昂贵的。此外,TBD框架通常是次优的,因为它不是端到端的,即,它将任务视为检测和跟踪,但不是联合的。为了实现MOT的无标签和端到端学习,我们提出了一个动画跟踪框架,其中一个可区分的神经模型首先从输入帧中跟踪对象,然后将这些对象动画化为重建帧。然后通过反向传播由重建误差驱动学习。 我们进一步提出了一个重新排序的Atten- tive跟踪,以提高数据关联的鲁棒性。在合成和真实视频数据集上进行的实验表明了该模型的潜力。我们的项目页面可以在https://github上公开访问。com/zhen-he/tracking-by-animation1. 介绍我们考虑的问题,在线二维多目标跟踪从视频。给定历史输入帧,目标是从当前输入帧中提取一组2D对象边界框。每个边界框应该与对象一一对应,因此不应该在不同的帧中改变其身份。MOT是一项具有挑战性的任务,因为必须处理:(i) 未知数量的对象,这需要在对象出现/消失时正确地重新初始化/终止跟踪器;(ii)经常有物体遮挡,*与Zhen He的通信(电子邮件:hezhen. gmail.com)。要求跟踪器推理物体之间的深度关系;(iii)突然姿态(例如,旋转、缩放和位置)、形状和外观对于相同对象的变化,或者不同对象之间的类似属性,这两者都使得数据关联困难;(iv)背景噪声(例如,照明变化和阴影),这可能会误导跟踪。为了克服上述问题,可以寻求使用表达特征,或提高数据关联的鲁棒性例如,在一个示例中,在主要的检测跟踪(TBD)范例[1,21,7,8]中,首先应用性能良好的对象检测器来提取对象特征(例如,潜在的边界框),然后采用适当的匹配算法来关联不同帧的这些候选,从而形成对象轨迹。为了减少人工调整对象检测器或匹配算法参数的工作量,许多机器学习方法被集成到TBD框架中,并在很大程度上提高了性能[68,54,53,39]。然而,这些方法大多基于监督学习,而手动标记视频数据非常耗时。此外,TBD框架没有联合考虑特征提取和数据关联,即,它不是端到端的,因此通常导致次优解决方案。在本文中,我们提出了一个新的框架,以实现无标签和端到端的学习MOT任务。总之,我们做出以下贡献:• 我们提出了一个动画跟踪(TBA)框架,其中可微分神经模型首先跟踪对象然后将这些对象动画化为重建帧。然后通过反向传播由重建误差驱动学习。• 我们提出了一个重新优先注意跟踪(RAT),以减轻过拟合和中断跟踪,提高数据关联的鲁棒性。• 我们在两个合成数据集(MNIST-MOT和Sprites-MOT)和一个真实数据集(DukeMTMC [49])上评估了我们的模型,显示了它的潜力。1319t我t我t我^ ^您的位置:t我t我t我t我t我t我t我用于计算比例的对象姿势[sx,sy]=.ΣXyW XH yt我t我t我t我t我t我C2. 通过动画跟踪我们的TBA框架由四个部分组成:(ii)跟踪器阵列,其中每个跟踪器接收输入特征,更新其状态,并发出表示所跟踪对象的输出;(iii)将跟踪器输出渲染成重构帧的渲染器(无参数);(iv)使用重构误差来驱动分量(i)和(ii)的学习(无标签和端到端)的损失。2.1. 特征提取器轨迹有效性(1/0表示有效/无效)。随着时间的推移,yc的增加/减少可以被认为是轨迹的软初始化/终止层yl∈{0,1}K对象拥有的图像层我们认为每一个IM-年龄由K个对象层和一个背景层组成,其中较高层对象遮挡较低层对象,背景是第0层(最低)。例如,在一个示例中,当K = 4时,y 1=[0,0,1,0]表示第三层。pxyxy4为了降低关联时的计算复杂度将跟踪器与当前观察相结合,我们首先使用一个新的Poseyt,i=[s^t,i,s^t,i,^tt,i,^tt,i]∈[−1,1] 归一化Xt我yt我 Xy通过θfeat参数化的ral网络NNfeat,作为特征提取器,用于在每个时间步长压缩t∈{1,2,. . . ,T}:[1+ηs^t,i,1+ηs^t,i]与平移[tt,i,tt,i] = [2tt,i,2tt,i],其中ηconstants.>0人y,ηXCt= N Nfeat. Xt;θfeatθ(1)形状Y s∈{0,1}U× V ×1高度为U、宽度为V、通道大小为1的二进制对象形状掩码。外观Ya∈[0,1]U×V ×D对象外观其中,Xt∈[0,1]H×W ×D是高度H、宽度W和通道尺寸D的输入帧,Ct∈RM×N ×S是高度M、宽度N和通道的大小为S,包含的元素比Xt少得多。2.2. 追踪器阵列跟踪器阵列包括由i ∈{1,2,. . . ,I}(因此,I是被跟踪对象的最大数量)。设h t,i∈RR是跟踪器i在时间t 的状态向量(本文中假设向量为 行 形式),并且Ht={h t,1,h t,2,. . . ,h,I}是所有跟踪器状态的集合。跟踪是通过迭代两个阶段:(i) 状态更新。 跟踪器首先将输入fea-通过神经网络,从Ct更新它们的状态Ht,t我具有高度U、宽度V和通道尺寸D。在NNout的输出层中,yc和Ya由sigmoid函数生成,yp由tanh函数,并且分别从分类分布和伯努利分布中采样yl和Ys由于采样是不可微的,我们使用直通Gumbel-Softmax估计器[26]来重新修正这两个分布,以便仍然可以应用反向传播以上定义的中间级表示不仅是灵活的,而且可以直接用于输入帧重构,强制输出变量被解纠缠(如稍后将示出的注意,通过我们的实验,我们发现,网络NNUPD由θupd:lt,iYs对这个解缠也很重要Ht= NNupdHt−1,Ct;θupd(2)虽然将NNupd设置为递归神经网络(RNN)[52,16,11](所有变量都矢量化)是简单的,但我们引入了一种新的RAT来对NNupd进行建模,以提高数据关联的鲁棒性,这将在第二节中讨论。3 .第三章。(ii) 输出生成。然后,每个跟踪器经由由θout参数化的神经网络NNout从ht,i生成其输出:是的。2.3. 渲染器为了定义一个只有跟踪器输出但没有训练标签的训练目标,我们首先使用可微分渲染器将所有跟踪器输出转换为重建帧,然后通过反向传播最小化重建误差。请注意,我们使渲染器既无参数又具有确定性,以便可以鼓励正确的跟踪器输出以获得正确的重建,强制特征提取器和跟踪器阵列学习生成Yt,i =NN输出。Ht我;θoutθ(3)期望的输出。渲染过程包含三个阶段:(i) 空间转换。我们首先缩放和移动Y其中NNout由所有跟踪器共享,并且输出而Ya根据YPt我通过空间TransformerY=.yc,yl,yp,Ys,Yan是中级代表,t我t我在2D图像平面上的对象表示,包括:置信度yt,i∈[0,1]有上限的概率-一个物体,它可以被认为是一个柔软的标志,y网络(英语:Network)[25]:1320t我t我t我t我t我t我.ΣTs=Ys,yp(4)Ta= 0。Ya,yp(5)1321t我t我Lf^ ^您的位置:Ts ⊙Ta不(t,k不t,k不不不图1:渲染过程的图示,将跟踪器输出转换为时间t的重建帧,其中跟踪器编号I = 4,层数K = 2。图2:TBA框架的概述,其中跟踪器编号I = 4。其中,T∈ {0,1}H×W ×1和Ta∈[0,1]H×W ×D是被遮挡的物体可能很大,遮挡深度通常为空间变换的形状和外观,活泼地(ii) 图层合成。然后,我们合成K个图像层,其中每个层可以包含多个对象。第k层由以下各项合成:Lm=min。1,birthycyl Ts(6)小了因此,可以通过使用较小的层数K(例如,K=3),在这种情况下,每个层将由几个未被遮挡的对象共享2.4. 损失为了驱动特征提取器以及跟踪器阵列的学习,我们为每个时间步定义了一个损失:t,k Σt我我t,i,kt我l=MSE。X^,X+λ·1sxsy(九)t,kt我我t,i,kt我t我我其中,在RHS上,第一项是重建均值其中Lm∈[0,1]H×W ×1是层前景掩模,平方误差和第二项,由常数加权Ft,k∈[0,I]H×W ×D是图层前景,λ >0,紧度约束是否会惩罚大尺度[sx,sy]为了使对象边界框更com-元素乘法广播其操作数的大小不同。(iii)帧合成。最后,我们迭代地逐层重构输入帧,即,对于k=1,2,. . . ,K:X^(k)=.1−LmX^(k−1)+Lf(8)(K)t我t我约定我们的TBA框架的概述如图所示二、3. 注意力追踪(Attention Tracking)在本节中,我们重点设计在(2)中定义的跟踪器状态更新网络NNupd虽然NNupd可以自然地设置为单个RNN,如第2节所述二点二可能存在两个问题:(i)过拟合,因为没有机制,以捕捉数据规律,类似的帕特,其中,Xt是提取的背景,并且Xt是最后的重建。整个渲染过程如图所示1,其中ηx=ηy=1。虽然层合成可以通过人工操作并行化,但它不能对遮挡进行建模,因为重叠对象区域中的像素值只是简单地相加;相反,帧合成很好地模拟了遮挡,但是迭代过程不能并行化,从而消耗更多的时间和存储器。因此,我们将两者结合起来,既降低了计算复杂度,又保持了遮挡建模的能力。我们的主要观点是,尽管t,kL=ycy l(七)我t我t我1322不同的对象通常共享不同的对象;(ii)中断的跟踪,因为没有激励来驱动每个跟踪器关联其相关输入特征。因此,我们提出了RAT,它通过独立地对每个跟踪器进行建模并共享不同跟踪器的参数来解决问题(i)(这也减少了参数数量,并使学习更具跟踪器数量的可扩展性),并通过利用注意力来实现显式数据关联来解决问题第3.1节)。RAT还通过使用存储器来允许跟踪器交互来避免冲突跟踪(第12节)。3.2)和重新确定跟踪器的优先级,以使数据关联更加强大1323不不不)c+WΣθkey,kt,i∈RS是地址singkeyy,β^t,i∈R是t我t,i,m,n是免费的(YC(第二节)3.3),并通过根据场景中呈现的对象数量调整计算时间来提高效率(第3.3节)。第3.4段)。3.1. 使用注意力为了使Trackeri显式地将其相关输入特征与Ct相关联以避免中断跟踪,我们采用了基于内容的寻址。首先,先前的跟踪器状态ht-1,i用于生成关键变量kt,i和βt,i:3.2. 输入作为内存为了允许跟踪器彼此交互以避免冲突跟踪,在每个时间步,我们将输入特征Ct作为跟踪器可以通过充分和传播具体地说,设C(0)= Ct为初始存储器,我们安排跟踪器顺序地读取和写入它,这样C(i)记录了过去i写的所有消息追踪器 在第i次迭代(i = 1,2,. . . ,I),Tracker i优先从C(i-1)读取以更新其状态ht我 通过使用(10),kt,i,β^t,i,=线性。Ht−1,i;θ键锁(10)(其中Ct不用C(i-1)代替)。然后,擦除向量..^ΣΣet,i ∈[0,1]S和一个写向量vt我∈RS由以下方程发射:βt,i= 1 +ln1 +expβt,i(十一){e^t,i,vt,i}=Linear. ht,i;θwrtθ(15)其中,Linear是由下式参数化的线性变换:et,i=sigmoid(et,i)(16)由(12)产生,然后对于密钥强度βt,i∈(1,+∞)的激活。那么,kt,i是用于匹配Ct中的每个特征向量,记为ct,m,n∈其中m ∈{1,2,. . . ,M}且n ∈{1,2,. . . ,N},以得到定义写操作,其中存储器中的每个特征向量被修改为:注意权重:(一)t,m,n=(1−Wt,i,m,net,i(i−1)t,m,nt,i,m,nvt,i(十七)Wt,i,m,n=exp.βm′,n′expt我.K(kt我,ct,m,n)Σ(12)我们在(10)由于跟踪器(控制器)通过外部存储器通过使用接口变量,它们不需要对MES进行将其他跟踪器的信息存储到它们自己的工作存储器中(即,其中K是余弦相似度,定义为K(p,q)=pqT/(<$p<$$>q<$),Wt,i,m,n是atten的元素,#21453;,使跟踪更加有效。权Wt,i∈[0,1]M×N,满足m,nWt,i,m,n= 1。3.3. 重新确定跟踪器的接下来,将读取操作定义为加权组合的所有特征向量:虽然内存用于跟踪器交互,但对于高优先级(小i)但低置信度的跟踪器来说,r=Wc(十三)正确关联数据。例如,在一个示例中,当第一跟踪器(i = 1)t−1,1= 0),它很可能会关联,或者说,m,n其中rt,i∈RS是读取向量,表示Trackeri的关联输入特征。最后,用由θrnn参数化的RNN更新跟踪器状态,取rt,i代替C测试作为其输入功能:ht,i= RNN(ht−1,i,rt,i;θrnn)(14)虽然每个跟踪器现在可以专心地访问Ct,但是如果每个特征向量Ct,m,n的感受野太大,则它仍然不能专心地访问Xt。 在这种情况下,跟踪器仍然很难正确地关联来自X t 的 对 象。因此,我们将特征提取器NNfeat设置为完全卷积网络(FCN)[37,70,61],纯粹由卷积层组成。 通过设计每个卷积/池化层的核大小,我们可以控制c t,m,n的感受野为图像上的局部区C对于注意力权重Wt,iβt,iK(k t,i,ct,m′,n′)t,m,n1324不t−1,it我域,这样跟踪器也可以专心地访问X t。此外,参数共享‘steal’在未修改的初始存储器C(0)中,所有对象被空闲跟踪器同等地关联。为了避免这种情况,我们首先更新高置信度的跟踪器,以便跟踪对象对应的特征可以首先被关联和修改。因此,我们定义优先级pt,i∈{1,2,. . . ,I}作为其前一个(在时间t-1)置信度排名(按降序排列)然后我们可以在pt中更新Trackeri,i-th迭代以使数据关联更鲁棒。3.4. 使用自适应计算时间由于对象编号随时间变化,并且通常小于跟踪器编号I(假设I设置得足够大),因此在每个时间步迭代所有跟踪器是低效的。为了克服这一点,我们将自适应计算时间(ACT)[17]的想法应用于RAT。在每个时间步t,我们在Trackeri处终止迭代(也禁用写操作)。在FCN中,捕获了类似模式的空间规律性,操作)一次yc<0的情况。5和yc<0的情况。5、在这种情况下由不同图像位置上的对象共享作为本地图像区域包含的关于对象平移[tx,ty]的信息很少,我们通过附加不太可能有更多的跟踪/新对象。而对于其余的跟踪器,我们不使用它们来生成输出。RAT的图示如图1A所示。3.第三章。的t,it,i2D图像坐标作为Xt的两个附加通道。完整的TBA框架的算法如图所示。4.第一章1325不(0)^t−1,1t−1,Itt,i不不C不图3:追踪器编号I=4的RAT图示。绿色/蓝色粗线表示对存储器的专注读/写操作。虚线箭头表示复制操作。在时间t,迭代执行3次,并在跟踪器1处终止。1:#2:fori←1toIdo3: h0,i←00,i←05:结束6:#向前传球7:对于t←1到T做8:#(i)特征提取器9:从Xt中提取Ct,参见(1)10:#(二)跟踪器阵列11:C(0)←CtTBAc计算时间恒定的TBA,不使用第2.2节中描述的ACT。三点四分。TBAc-noOcc TBAc,不进行遮挡建模,通过设置层编号K = 1。TBAc-noAttTBAc,通过将存储器Ct重新整形为大小[1,1,MNS],在这种情况下,注意权重退化为标量(Wt,i=Wt,i,1,1=1)。TBAc-noMemTBAc,通过禁止在(15)TBAc-noRepTBAc,无第节中描述的跟踪器重新优先级排序。三点三AIR我们实现了请注意,很难为在线MOT设置我们模型的监督对应物,因为使用地面真实数据计算监督损失本身就是一个优化问题,需要访问完整的轨迹,因此通常是离线完成的[54]。对于目的(ii),我们在具有挑战性的DukeMTMC数据集上评估TBA [49],并将其与最先进的方法进行比较。在本文中,我们只考虑具有静态背景Xt的视频,并使用IMBS算法[6]提取它们用于输入重建。12:使用ycCt−1,2,的。. .,yc计算我们的实验的实施细节在pt,1,pt,2,. . . ,pt,I13:forj←1toIdo14:选择其优先级为p,i=j的第i个跟踪器15:使用ht−1,i和C(j−1)生成W,参见(10)-(12)附录A.1.MNIST-MOT实验报告见附录A.2。附录可以从我们的项目页面下载。16:根据W从C(j−1),并更新4.1.精灵MOT不ht−1,i到ht,i,见(13)和(14)17:使用ht,i来生成Yt,i,参见(3)18:如果yt−1,i<0。yt,i<0. 5那时19:休息20:如果结束t我在这个玩具任务中,我们的目标是测试我们的模型是否可以鲁棒地处理遮挡,并跟踪可以从场景中出现/消失的对象的姿势,形状和外观,提供准确和一致的边界框。21:使用h写入C(j−1)见(15)22:结束(三)第一百二十三章:第一次见面t我Wt,i得到C(j),因此,我们创建了一个新的Sprites-MOT数据集,包含2M帧,其中每个帧的大小为128×128×3,包括黑色背景和最多三个移动24:使用Yt,1,Yt,2,. . . ,Yt,I来渲染Xt,参见(4)25:#(四)损失26:计算lt,参见(9)27:结束图4:TBA框架的算法。4. 实验我们实验的主要目的是:(i)验证模型中每个组件的重要性,以及(ii)测试我们的模型是否适用于真实视频。对于目的(i),我们创建两个合成数据集(MNIST-MOT和Sprites-MOT),并考虑以下配置:TBA完整的TBA模型,如第2、第二。3 .第三章。图5:Sprites-MOT上不同配置的训练曲线。4:是,y1326t我t我t我图6:Sprites-MOT上不同配置的定性结果对于每种配置,我们显示了重建帧(顶部)和跟踪器输出(底部)。对于每一帧,从左到右的跟踪器输出对应于跟踪器1到I(这里I = 4)。 每个跟踪器输出Yt,i被可视化为。ycY s<$Y a<$∈ [0,1]U× V × D.表1:Sprites-MOT上不同配置的跟踪性能配置IDF1↑IDP↑IDR↑MOTA↑MOTPFAF↓MT↑ML↓FP↓FN↓IDS↓碎片↓TBA99.299.399.299.279.10.01985160803022TBAc99.099.298.999.178.80.01981072833629TBAc-noOcc93.393.992.798.577.9096904822764105TBAc-noAtt43.241.445.152.678.60.1998201,8621988,42589TBAc-noMem0–00–00987022,09600TBAc-noRep93.092.593.696.978.80.02978023218526794可以互相遮挡的精灵。每个精灵都是从一个21×21×3的图像块随机缩放,具有随机形状(圆形/三角形/矩形/菱形)和随机颜色(红色/绿色/蓝色/黄色/洋红色/青色),向一个随机的方向移动,dom方向,并且只出现/消失一次。为了解决这个任务,对于TBA配置,我们设置跟踪器编号I=4,层编号K=3。训练曲线如图所示。五、TBAc-noMem具有最高的验证损失表明它不能很好地重构输入帧,而其它配置表现类似,并且具有显著更低的验证损失。然而,TBA收敛最快,我们推测这得益于ACT引入的正则化效应为了检查跟踪性能,我们在几个采样序列上将TBA与其他配置进行比较,如图所示。六、我们可以看到,TBA始终-在所有的情况下,在Seq. 1 TBAc的表现与TBA一样好然而,TBAc-noOcc未能跟踪来自被遮挡图案的对象(在Seq.2,红色钻石被Tracker 2丢失)。我们推测其原因是将被遮挡像素的值添加到单个层中会导致高的重建误差,从而模型仅在遮挡发生时学习抑制跟踪器输出。中断的跟踪经常发生在TBAc-noAtt上,其不显式地使用注意力(在Seq. 3、跟踪者经常更换目标)。对于TBAc-noMem,所有跟踪器彼此一无所知,并且竞争同一对象,导致具有低置信度的相同跟踪。对于TBAc-noRep,空闲跟踪器错误地关联由随访跟踪器跟踪的由于AIR没有考虑序列数据的时间依赖性,因此无法跨不同的时间步跟踪对象。1327t我t+1, 1我们使用标准CLEAR MOT指标(多目标跟踪精度(MOTA)、多目标跟踪精度(MOTP)等)进一步定量评估不同配置。[4]计算跟踪器做出错误决策的频率,以及最近提出的ID度量(识别F-测量(IDF 1),识别精度(IDP)和识别召回(IDR))[49],即4.3.可视化RAT为了更深入地了解模型是如何工作的,我们将RAT在Sprites-MOT上的过程可视化(见图11)。(八)。在时间t,跟踪器i在第pt,i次迭代中更新,使用其注意力权重Wt,i从存储器读取和写入C(pt,i−1),得到C(pt,i)。我们可以看到,t t确定跟踪器正确跟踪目标的时间。注意,我们仅考虑具有置信度的跟踪器输出Yt,i与关联对象相关的内容(亮区域)被通过写操作被仔细擦除(变暗)Ct我 >0。5,并将相应的姿势yp成从而防止下一个跟踪器再次读取它用于评估的对象边界框。 表1报告了跟踪性能TBA和TBAc都获得了良好的表现,TBA表现略好于TBAc。对于TBAc-noOcc,它具有显著更高的假阴性,注意,在时间(t+1),跟踪器1以优先级pt+1,1=3被重新优先化,并且因此在第3次迭代被更新并且存储器值在第三ITER中没有被修改跟踪器1的迭代终止(因为tive(FN)(227)、ID Switch(IDS)(64)和Fragmentation(Frag)(105),这与我们从ct,1 <0的情况。5和yc<0的情况。(五)。使用单层的定性结果有时会TBAc-noAtt在大多数指标上表现不佳,特别是在可能由中断跟踪引起的非常高的IDS注意,TBAc-noMem没有有效输出,因为所有跟踪器置信度都低于0.5。在没有跟踪器重新优先级的情况下,TBAc-noRep的鲁棒性不如TBA和TBAc,具有更高 的 假 阳 性 ( FP ) ( 232 ) , FN ( 185 ) 和 IDS(267),我们推测这主要是由冲突跟踪引起的。4.2. DukeMTMC为了测试我们的模型是否可以应用于涉及高度复杂和时变数据模式的实际应用,我们在具有挑战性的DukeMTMC数据集上评估了完整的TBA [49]。它由8个分 辨 率 为 1080×1920 的 视 频 组 成 , 每 个 视 频 分 为50/10/25分钟渴望训练/考试(难)/考试(易)。录像是在从8个固定摄像机记录在杜克大学校园的各个地方的人在60 fps的运动。 对于TBA配置,我们设置跟踪器编号I = 10和层编号K = 3。输入帧被下采样到10fps,调整为108×192以便于处理。由于硬测试集包含与训练非常不同的人统计数据,我们只在简单的测试集上评估我们的模型。图7示出了采样的定性结果。TBA在各种情况下表现良好:(i)频繁的对象出现/消失;(ii)高度变化的对象数量,例如,一个人(Seq.4)或10人(帧1在Seq.(iii)频繁的对象遮挡,例如,当人们互相走近的时候,1);(iv)视角尺度变化,例如,当人们走近相机时(Seq.3);(v)频繁的形状/外观变化;(vi)不同对象的相似形状/外观(Seq. (六)。定量性能见表2。我们可以看到,TBA获得了82.4%的IDF1, 79.6%的MOTA和最高的80.4%的MOTP,在性能上与最先进的方法非常有然而,与这些方法不同的是,我们的模型是第一个没有任何训练标签或提取特征的模型。5. 相关工作用于视觉数据理解的无监督学习有许多作品专注于使用无监督学习从视觉数据中提取可解释的表示:一些试图找到低级别的分解因子([33,10,51]用于图像[43,29,20,12,15]用于视频),一些旨在提取中级语义([35,41,24]用于图像[28,63,67,22]对于视频),而其余的寻求发现高级语义([13,71,48,57,66,14]用于图像和[62,65]用于视频)。然而,这些作品都没有处理MOT任务。据我们所知,该方法首先实现了MOT的无监督在线MOT的数据关联在MOT任务中,数据关联可以是离线[73,42,34,3,45,9,40]或在线[59,2,64],确定性[44,23,69]或概率-tic [55,5,30,60]、greedy [7,8,56]或global [47,31,46]。由于提出的RAT处理在线MOT,并使用基于跟踪器置信度排名的贪婪关联数据的软注意,因此它属于概率和贪婪在线方法。然而,与这些传统方法不同,RAT是可学习的,即,跟踪器阵列可以学习生成匹配特征、演化跟踪器状态以及修改输入特征。此外,由于RAT不基于TBD并且是端到端的,因此特征提取器还可以学习提供区别性特征以简化数据关联。6. 结论我们介绍了TBA框架,它实现了MOT任务的无监督端到端学习。我们还引入了RAT来提高数据关联的鲁棒性我们在不同的任务上验证了我们的模型,显示了它在视频监控等实际应用中的潜力。我们未来的工作是扩展该模型以处理具有动态背景的视频。我们希望我们的方法可以为更一般的无监督MOT铺平道路。yy1328Ss=1Σ图7:DukeMTMC上TBA的定性结果 对于每个序列,我们显示了输入帧(顶部),重建帧(中间)和跟踪器输出(底部)。对于每一帧,从左到右的跟踪器输出对应于跟踪器1到I(这里t我差异性t我t我* 结果托管在www.example.com上https://motchallenge.net/results/DukeMTMCT,我们的TBA跟踪器被命名为“MOTTBA”。引用图8:大鼠在Sprites-MOT上的可视化 记忆C t和注意力权重W t,i都被可视化为M ×N(8×8)矩阵,其中对于C t,矩阵表示其信道均值1SC t,1:M,1:N,s在[0,1]中归一化。[1] Mykhaylo Andriluka Stefan Roth和Bernt Schiele通过检测进行人员跟踪和通过跟踪进行人员检测。CVPR,2008。1[2] 裴承焕和尹国珍基于tracklet置信度和在线判别外观学习的鲁棒在线多目标跟踪。CVPR,2014。7[3] Jerome Berclaz,Francois Fleuret,Engin Turetken,andPascal Fua. 使 用k- 最 短 路径 优 化 的多 目 标 跟踪 IEEETPAMI,33(9):1806-1819,2011年。7[4] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。 评估多对象跟踪性能:明确的MOT指标。Journal on Image and VideoProcessing,2008:1,2008. 7[5] 塞缪尔·布莱克曼。多目标跟踪的多假设跟踪IEEEAerospace and Electronic Systems Magazine,19(1):5-18,2004. 7I= 10)。每个轨道表er输出Yt,i2:跟踪pe被可视化为。ycYs<$Y a<$∈ [0,1]U× V × D.在DukeMTMC上使用不同的方法。方法IDF1↑IDP↑IDR↑MOTA↑MOTPFAF↓MT↑ML↓FP↓FN↓IDS↓碎片↓DeepCC [50]89.291.786.787.577.10.051,1032937,28094,399202753[27]第二十七话83.887.680.483.375.50.061,0511744,691131,2203832,428TBA(我们的)*82.486.179.079.680.40.091,0264664,002151,4838751,481MYTRACKER [72]80.387.374.478.378.40.059147235,580193,2534061,116MTMC CDSC [58]77.087.668.670.975.80.0574011038,655268,3986934,717[38]第三十八话71.284.861.459.378.70.0966623468,634361,589290783[第49话]70.183.660.459.478.70.0966523468,147361,6723008011329[6] 多梅尼科·布洛伊斯和卢卡·约基。独立的多模态背景减除。InCompIMAGE,2012. 5[7] Michael D Breitenstein、Fabian Reichlin、Bastian Leibe、Ether Koller-Meier和Luc Van Gool。使用检测器置信度粒子滤波器的鲁棒检测跟踪ICCV,2009年。1、7[8] Michael D Breitenstein、Fabian Reichlin、Bastian Leibe、Ether Koller-Meier和Luc Van Gool。在线多人跟踪检测从一个单一的,未校准的相机。IEEE TPAMI,33(9):1820-1833,2011年。1、7[9] Asad A Butt和Robert T Collins。基于拉格朗日松弛法的最小代价网络流多目标跟踪。CVPR,2013。7[10] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS,2016年。7[11] KyunghyunCho,BartVanMerrieünboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv:1406.1078,2014。二、十一[12] Emily L Denton等.从视频中分离表示的无监督学习在NIPS,2017年。7[13] SM Ali Eslami , Nicolas Heess , Theophane Weber ,Yuval Tassa,David Szepesvari,Geoffrey E Hinton,et al.Attend ,in- fer ,repeat : Fast scene understanding withgenerative models.在NIPS,2016年。五、七[14] SM Ali Eslami , Danilo Jimenez Rezende , FredericBesse , Fabio Viola , Ari S Morcos , Marta Garnelo ,Avraham Ru- derman,Andrei A Rusu,Ivo Danihelka,Karol Gregor,et al.神经场景表示和渲染。Science,360(6394):1204-1210,2018. 7[15] 马可·弗拉卡罗西蒙·卡姆龙乌尔里希·帕奎特和奥勒·温瑟无监督学习的解纠缠识别和非线性在NIPS,2017年。7[16] FelixAGers,JürgenSchmidhube r,andFredCummin s. 学会忘记:用lstm进行连续预测。神经计算,12(10):2451-2471,2000。2[17] 亚历克斯·格雷夫斯递归神经网络的自适应计算时间arXiv预印本arXiv:1603.08983,2016。4[18] Alex Graves Greg Wayne和Ivo Danihelka神经图灵机。arXiv预印本arXiv:1410.5401,2014。4[19] 亚历克斯·格雷夫斯,格雷格·韦恩,马尔科姆·雷诺兹,蒂姆·哈雷,我和丹尼赫尔卡,阿格涅斯卡·格拉布,塞尔·吉奥·戈麦斯·科尔梅纳雷霍,爱德华·格雷芬斯特,蒂亚戈·拉马略,约翰·阿加皮乌,等。使用具有动态外部存储器的神经网络的混合计算。Nature,538(7626):4714[20] Klaus Gref f , Sjoerdv an Steenkiste , and Jür genSchmidhuber.神经期望最大化。 在NIPS,2017年。7[21] 乔·F·亨里克斯,鲁伊·卡斯滕斯,佩德罗·马丁斯和乔·巴蒂斯塔。利用核函数的检测跟踪的循环结构。ECCV,2012年。1[22] Jun-Ting Hsieh,Bingbin Liu,De-An Huang,Li F Fei-Fei,and Juan Carlos Niebles.学习分解和解开视频预测的表示。NeurIPS,2018。7[23] 常晃、吴波和拉玛坎特·纳瓦提亚。通过检测响应的分层关联的鲁棒ECCV,2008年。71330[24] 乔纳森·黄和凯文·墨菲图像的遮挡感知生成模型在ICLRWork-shop,2016年。7[25] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。 2015年,在NIPS中。2[26] Eric Jang ,Shixiang Gu , and Ben Poole. 使用gumbel-softmax进行分类在ICLR,2017。2[27] 纳江、司尘白、乐絮、长兴、中州、武卫。在线摄像机间轨迹关联利用人重新识别和摄像机拓扑。2018年ACM国际多媒体会议。8[28] Nebojsa Jojic和Brendan J Frey。学习视频层中灵活的精灵。载于CVPR,2001年。7[29] 马克西米利安·卡尔,马克西米利安·索奇,贾斯汀·拜尔,帕特里克·范·德·斯马格特。深度变分贝叶斯滤波器:从原始数据中进行状态空间模型的无监督学习。在ICLR,2017。7[30] 齐亚·可汗,塔克·鲍尔奇,弗兰克·德拉特。基于mcmc的粒子滤波跟踪可变数目的相互作用目标。IEEETPAMI,27(11):1805-1819,2005年。7[31] Suna Kim , Suha Kwak , Jan Feyereisl , and BohyungHan.基于大间隔结构化学习的在线多目标跟踪InACCV,2012. 7[32] 迪德里克·金马和吉米·巴。Adam:随机最佳化的方法。2015年,国际会议。11[33] Tejas D Kulkarni , William F Whitney , PushmeetKohli,and Josh Tenenbaum. 深度卷积逆图形网络。2015年,在NIPS中。7[34] Cheng-Hao Kuo,Chang Huang,and Ramakant Nevatia.基于在线学习判别模型的多目标跟踪。CVPR,2010。7[35] Nicolas Le Roux,Nicolas Heess,Jamie Shotton,andJohn Winn.通过分解外观和形状来学习图像的生成模型。Neural Computation,23(3):593-650,2011. 7[36] YannLeCun,Le'onBottou,YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278-2324,1998.11[37] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络CVPR,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功