没有合适的资源?快使用搜索试试~ 我知道了~
基于双匹配注意网络的在线多目标跟踪Ji Zhu1,2,Hua Yang1,Nian Liu3,Minyoung Kim4,Wenjun Zhang1,and Ming-Hsuan Yang5,61上海交通大学2Visbody Inc3西北工业大学4麻省理工学院加州大学伯克利分校6谷歌公司{jizhu1023,liunian228}@ gmail.comminykim@mit.edu{hyang,zhangwenjun}@ sjtu.edu.cnmhyang@ucmerced.edu抽象。在本文中,我们提出了一种在线多目标跟踪(MOT)的方法,它集成了单目标跟踪和数据关联方法的优点,在一个统一的框架来处理噪声检测和频繁的目标之间的相互作用具体来说,对于在MOT中应用单个对象跟踪,我们引入了基于最先进的视觉跟踪器的成本敏感的跟踪损失,这鼓励模型在在线学习期间专注于硬负面干扰物。对于数据关联,我们提出了双匹配注意力网络(DMAN)的空间和时间的注意力机制。空间注意力模块生成双注意力图,其使网络能够关注输入图像对的匹配模式,而时间注意力模块自适应地将不同级别的注意力分配给轨迹片段中的不同样本以抑制噪声观测。在MOT基准数据集上的实验结果表明,该算法在身份保持指标方面对在线和离线跟踪器都有较好的关键词:多目标跟踪·代价敏感跟踪丢失·双匹配注意网络1介绍多目标跟踪(MOT)的目的是通过寻找目标位置并在帧间保持目标身份来估计多个目标的轨迹。通常,现有的MOT方法可以被分类为离线和在线方法。离线MOT方法使用过去帧和未来帧两者来生成轨迹,而在线MOT方法仅利用直到当前帧可用的信息。虽然离线方法在处理模糊跟踪结果方面具有一定的优势,但它们不适用于实时视觉任务。最近的MOT方法主要采用检测跟踪策略,并通过使用数据关联算法跨帧链接检测来处理任务。然而,这些方法严重依赖于检测的质量通讯作者。2J. Zhu,H.Yang,N.Liu,M.金,W。Zhang,M.H. 杨结果如果检测缺失或不准确,则容易丢失目标对象。为了缓解这些问题,最近的方法[53,10]利用用于MOT的单对象单个目标跟踪器使用第一帧中的检测并在线更新模型以在后续帧中找到目标。然而,当目标被遮挡时,它易于漂移。在本文中,我们结合了单目标跟踪和数据关联在一个统一的框架的优点。在大多数帧中,使用单个对象跟踪器来跟踪每个目标对象。当跟踪分数低于阈值时应用数据关联,这指示目标对象可能被遮挡或经历大的外观变化。使用单个对象跟踪器进行MOT的主要挑战是应付目标和类内干扰物之间的频繁交互。现有的单目标跟踪方法通常遭受的数据不平衡的问题之间的正样本和负样本的在线模型更新。在跟踪器的搜索区域中,只有靠近目标中心的少数位置对应于正样本,而在其他位置处绘制的所有样本都是负样本。来自背景区域的大多数位置是容易否定的,这可能导致低效的训练并且削弱模型的区分强度这个问题在MOT任务的背景下加剧。如果一个模型被简单的背景底片所淹没,当类似的干扰物出现在搜索区域时,跟踪器很容易漂移。因此,在在线更新期间,必须关注少量的硬示例,以减轻漂移问题。对于数据关联,我们需要将当前检测到的目标与轨迹中的先前观测的序列。MOT中最常见的跟踪对象之一是行人,其中数据关联问题也被称为具有挑战性因素的重新识别,包括姿态变化、相似外观和频繁遮挡。在许多公共个人重新识别数据集(例如,[31,30,32]),由手动注释的边界框给出的行人被很好地分离。然而,在MOT的上下文中检测到的区域可能是有噪声的,具有大的未对准误差或丢失的部分,如图2所示。第1(a)段。此外,先前轨迹中的不准确和被遮挡的观察可能导致噪声更新,并使外观模型不太有效。这些因素促使我们从两个方面设计一个有效的数据关联的外观模型首先,为了处理检测中的未对准和丢失部分,所提出的模型应该关注观察之间的对应局部区域,如图1B所示。第1(a)段。其次,为了避免受污染样本的影响,所提出的模型应该为轨迹中的不同观测值分配不同的权重,如图所示。第1段(b)分段。我们在这项工作中做出了以下贡献• 我们 提出了 一个空 间注 意力网 络来处 理噪声 检测和 occlusionsMOT。 当比较两个图像时,所提出的网络生成双空间注意力图(如图所示)。图1(a))中所示的方法,其基于图像对的每个位置之间的交叉相似性,这使得模型能够专注于配对图像之间的匹配区域,而无需任何部分级对应性注释。• 我们设计了一个时间注意力网络,以自适应地分配不同程度的注意到不同的观察轨迹。本模块基于双匹配注意网络的在线MOT3(a)(b)第(1)款Fig. 1. MOT16数据集中的样本检测[35]。(a)顶行:具有未对齐、缺失部分和遮挡的图像对。底行:每个图像对的空间注意力图。(b)顶行:包含噪声样本的目标轨迹。底行:轨迹中对应图像的时间注意力权重不仅考虑了目标检测与轨迹中的观测之间的相似性,而且还考虑了所有观测的一致性,以滤除轨迹中的不可靠样本。• 我们将单目标跟踪器应用于MOT中,并在现有跟踪器的基础上,提出了一种新的代价敏感的跟踪丢失算法。建议的损失使跟踪器集中训练的稀疏集的硬样本这增强了在MOT场景中对附近干扰物的鲁棒性。• 我们进行了广泛的实验,对国家的最先进的MOT方法的MOT基准数据集与消融研究,以证明所提出的算法的有效性。2相关工作多目标跟踪。现有的MOT方法通过基于检测跟踪范例的跨连续帧的检测来解决该任务。许多方法[37,39,58,47,45,51,48]使用来自过去和未来帧的检测进行批处理。通常,这些方法将MOT任务建模为各种形式的全局优化问题,例如网络流[58,51,14]和多切割[47,48,46]。相比之下,在线MOT方法[53,10,27]不依赖于来自未来帧的检测,并且当目标对象被严重遮挡或误检测时可能表现不佳。因此,一个强大的外观模型是至关重要的关联检测在线MOT。最近,已经提出了使用深度学习模型的几种在线方法[10,27,36,42,2]他是我的儿子。 [27]采用SiameseCNN从RGB图像和光流图中提取局部特征。在[42]中,Sadeghian et al.我建议利用LSTM网络来解释外观建模,它一步一步地在tracklet中获取图像并预测相似性得分。在这项工作中,我们引入注意机制来处理不准确的检测和遮挡。我们表明,所提出的在线算法实现了良好的身份保护性能对国家的最先进的离线方法,即使离线方法具有利用跨帧的全球信息的优势。4J. Zhu,H.Yang,N.Liu,M.金,W。Zhang,M.H. 杨跟踪失检测单目标跟踪数据关联图二. 拟议的在线MOT管道。该管道主要包括三个任务:检测、单目标跟踪和数据关联。每个目标的状态根据跟踪可靠性在跟踪和丢失单目标跟踪应用于生成跟踪目标的轨迹,而数据关联将轨迹与候选检测进行比较,以分配丢失的目标。注意力模型。许多方法采用注意力机制用于各种任务,例如图像字幕[8,17,55],视觉问答[54,57]和图像分类[50]。视觉注意机制使模型能够关注输入的最相关区域以提取更具区分性的特征。在这项工作中,我们将空间和时间的注意力机制到建议的MOT算法。我们的方法与最先进的STAM方法[10]不同,STAM方法在三个方面采用了在线MOT的时空注意力机制首先,STAM中的空间注意对应于可见性图。由于直接从检测到的图像块估计可见性图而不与轨迹片段中的观察进行比较相比之下,我们利用检测和轨迹的相互作用来生成双空间注意力图,这被证明对噪声检测和遮挡更鲁棒。其次,STAM需要综合生成包含的样本和相应的地面实况以初始化模型训练,而我们的空间注意力图可以在没有任何像素级注释的情况下隐式地学习。第三,由于[10]中的时间注意力值是基于估计的遮挡状态针对轨迹片段中的每个样本独立地生成的,因此当干扰物出现在轨迹片段中时,其效果较差我们考虑到整体轨迹的一致性,并将较低的注意力权重分配给与轨迹中的大多数样本不同的噪声样本数据不平衡。数据不平衡存在于许多计算机视觉任务中,其中一个类包含的样本比其他类少得多,这会导致训练分类器或模型更新的问题一个常见的解决方案[18,44]是在训练期间采用硬负挖掘最近,几种方法[6,34]根据观察到的损失重新加权每个样本的贡献,并在分割和检测任务上表现出显着的改进。在这项工作中,我们提出了一个成本敏感的跟踪损失,把更多的重点放在硬样本大的损失,以减轻漂移问题。基于双匹配注意网络的在线MOT513提出的在线MOT算法我们利用单对象跟踪和数据关联来维护目标身份。图2示出了所提出的在线MOT流水线。在每帧中给定目标检测,我们应用单个对象跟踪器来保持跟踪每个目标。目标状态被设置为被跟踪,直到跟踪结果变得不可信赖(例如,跟踪得分低或跟踪结果与检测结果不一致在这种情况下,目标被视为丢失。然后,我们暂停跟踪器,并执行数据关联,以计算tracklet和未被任何跟踪目标覆盖的检测之间的相似性。一旦丢失的目标通过数据关联与检测相关联,我们就更新跟踪的状态并恢复跟踪过程。3.1单对象跟踪由于近年来在单目标跟踪方面取得了重大进展,我们将最先进的单目标跟踪器应用于MOT。然而,由于不同对象之间的频繁交互,跟踪器容易漂移为了缓解这个问题,我们提出了一个成本敏感的跟踪损失。基线跟踪器。我们采用基于高效卷积算子(ECO)[12]的方法作为基线跟踪器。ECO跟踪器在视觉跟踪基准测试[25,52,38,33]上实现了最先进的性能,并且其基于手工制作功能(HOG [11]和颜色名称[49])的快速变体ECO-HC在单个CPU上以每秒60帧(FPS)的速度运行,这适用于在线MOT任务。我们首先简要回顾ECO配方,因为它是作为建议的MOT算法的一部分。为了清楚起见,我们提出了一维域公式,如[12,13]。将x={(x1)n,· · ·,(xD)n}表示为具有从图像块提取的D个特征通道的特征图。每个特征通道xd∈RNd具有分辨率Nd。与传统的基于相关滤波器的跟踪器不同,ECO跟踪器将离散特征通道Xd内插到连续域[0,T),并且旨在学习连续的T周期多通道卷积。·· ·,fD}的一批M个训练样本{xj}M,通过最小化以下目标函数:ΣMΣD¨ ¨E(f)=αS{x}(t)−y(t)+ ¨w(t)fd(t)¨, t∈ [0,T)。(一)j f jj=1jL2L2d=1这里,因子αj表示样本Xj的权重。 卷积运算器Sf将样本Xj映射到得分函数Sf{Xj}(t),其预测图像中的位置t ∈ [0,T)处的目标的置信度得分。实验室函数yj(t)是对x j的操作或S函数的 输 出。正则化项使用权重函数w(t)来抑制边界效应。目标函数(1)可以被变换为傅立叶域中的最小二乘问题,其等效于求解以下法方程:(AHΓA+WHW)(f=AHΓy(.(二)6J. Zhu,H.Yang,N.Liu,M.金,W。Zhang,M.H. 杨1(a)(b)第(1)款图三.置信图的可视化。(a)中的热图呈现底部图像块的所要置信度图,而(b)中的热图展示由ECO跟踪器预测的分数图。这里,上标H表示矩阵的共辄转置我们让f=[(边形函数rixr=α1I···αMI包含αj的表达式,用于对xj进行 采 样。矩阵A=[(A1),···,(AM)]由样本的值计算{xj}M,而块对角矩阵W=W1·· ·WD对应于⑴中的惩罚函数w。更多的细节可以在[12,13]中找到。成本敏感的跟踪丢失。给定图像块,ECO跟踪器使用块的所有循环移位版本来训练滤波器。所有移位样本的检测图3(a)示出了底部图像块的期望置信度图。面片中的红色边界框贴片中的大多数位置被标记为接近零,而仅靠近目标中心的少数位置构成阳性样本。图3(b)示出了由ECO跟踪器预测的分数图。除了目标位置之外,目标旁边的对象的中心在中间热图中也获得高置信度得分。因此,这些集中在类内干扰项的负样本被认为是硬样本,并且应该被更重地惩罚,以防止跟踪器漂移到干扰项。然而,在ECO公式(1)中,相同搜索区域中的所有移位样本的贡献被相等地加权。由于大多数负样本来自背景,训练过程可能由大量背景信息主导,从而降低模型对以类内干扰项为中心的硬样本的区分能力。为了减轻数据不平衡,我们提出了一个成本敏感的损失,把重点放在硬样本。具体地,我们在(1)的数据项中添加因子q(t)为ΣMΣD¨ ¨E(f)=αq(t)(S{x}(t)−y(t))+¨w(t)fd(t)¨.(三)j f jj=1jL2L2d=1这里,我们将调制因子q(t)定义为:.. 2.Sf{xj}(t)−yj(t)。q(t)=... m axt|Sf{xj}(t)−yj(t)|. .(四)基于双匹配注意网络的在线MOT71因此,调制因子q(t)基于循环移位样本的损耗对循环移位样本的贡献重新加权为了使这个损失函数易于求解,我们使用在最后一个模型更新步骤中学习的滤波器来计算q(t)。因此,可以在每个训练步骤之前预先计算q(t)。类似于(1),我们将(3)变换为傅立叶域中的目标函数,并通过求解以下等式来执行优化(QA)HΓ(QA)+WHWΣf=(QA)HΓQy,(五)其中Q表示傅立叶域中的运算矩阵,其对应于因子q(t)。与(2)类似,该方程也可以通过共轭梯度(CG)方法以与原始ECO公式相同的效率迭代求解。由于篇幅所限,在补充资料中给出了所提出的成本敏感损耗的具体推导和求解方法。3.2基于双匹配注意网络的数据关联当跟踪过程变得不可靠时,我们暂停跟踪器并将目标设置为丢失状态。然后,我们利用数据关联算法,以确定是否保持目标状态为丢失或转移到跟踪。它使用跟踪分数S是直观的(即,置信度图中的最高值)来测量跟踪可靠性。然而,如果我们仅仅依靠跟踪分数,在背景上的虚警检测是容易发生的以高置信度持续跟踪。由于跟踪的目标,没有得到任何检测的几个帧很可能是一个错误的警报,我们利用由跟踪器和检测器给出的边界框之间的重叠过滤掉错误的警报。具体地,如果所跟踪的目标tl∈Tl与之前的l帧中的检测Dl之间的最大重叠比高于0.5,则将〇(tl,Dl)设置为1否则,o(t1,D1)被设置为0。我们考虑平均值在过去的L个跟踪帧o中的{o(t_l,D_l)}L表示作为另一测量以决定跟踪状态。因此,目标的状态被定义为:.state =跟踪, 如果s > τs且o表示> τo,失去,否则。(六)在计算数据关联的外观相似性之前,我们利用运动线索来选择候选检测。当目标丢失时,我们首先将边界框的比例保持在最后一帧k-1,并使用线性运动模型来预测其在当前帧k的位置。将ck−1=[xk−1,yk−1]表示为目标在第k − 1帧的中心坐标,目标在第k−1帧的速度vk−1计算为:vk−1 =1(ck−1− ck−K),(7)K其中K表示用于计算速度的帧间隔 然后,在计算框架中的目标c 〇ordinate被表示为c〜k=ck−1+vk−1。.8J. Zhu,H.Yang,N.Liu,M.金,W。Zhang,M.H. 杨ResNet50666666666666666SBi-LSTMSanBi-LSTMSanBi-LSTMSan1相同不同╳╳╳a1a 2aTSoftmaxθhθhBi-LSTMBi-LSTMBi-LSTMxcxcxc12不SanSanSan谭7x7x2048XαID1ID2ID3╳2048ResNet50……Xα512IDNSx¯α轨迹片段7x7相同7x7x49θsconv1x1不同7x7x¯βXβSID1ID2ID3ResNet50╳2048Xβ……检测7x7x2048IDNSanXC匹配层加权平均池见图4。建议的DMAN的网络架构。它由空间注意网络(SAN)和时间注意网络(TAN)组成。给定候选检测和目标轨迹片段的序列作为输入,SAN重复地将检测与轨迹片段中的每个样本进行比较,以提取组合特征{xc}T。以这些特征作为输入,TAN将来自整体tracklet以推断检测和tracklet是否属于同一目标。给定目标的预测位置,我们考虑预测位置周围未被任何跟踪目标覆盖的检测距离小于阈值τd)作为候选检测。我们测量这些检测和目标轨迹中的观察之间的外观亲和力。然后,我们选择具有最高亲和度的检测,并设置亲和度阈值τa以决定是否将丢失的目标链接到该检测。挑战在于轨迹片段中的检测和观察两者可能经历未对准和遮挡。为了解决这些问题,我们提出了双匹配注意力网络(DMAN)与空间和时间注意机制。图4示出了我们的网络的架构。空间注意力网络我们提出了一个空间注意力网络,使用暹罗架构来处理噪声检测和遮挡,如图所示。4.第一章在这项工作中,我们使用截断的ResNet-50网络[20]作为共享基础网络,并将L2归一化应用于沿通道维度的输出特征。空间注意力图被应用于ResNet-50的最后一个卷积层的特征,因为来自顶层的表示可以捕获对匹配语义区域有用的高级信息。我们将提取的特征图表示为X∈RH×W×C,并将X视为一组L2归一化的C维特征向量:X={Xl,···,XN},xi ∈ RC,(8)其中N=H×W。每个特征向量x,i对应于在u_map上的空间位置。新版本不需要从内存对中删除任何内存项X α={X α,· · ·,X α}且X β=xβ,· · ·, xβ分别表示。直觉是1N1N基于双匹配注意网络的在线MOT9我1·=N我SS我.J.我们应该更多地关注两个特征图的共同局部模式然而,由于两个图像通常由于不准确的边界框和姿态变化而没有很好地对准,因此位于Xα中的对应特征可能不会出现在Xβ中的相同位置处。因此,我们分别为每个输入生成注意力图。为了推断特征图Xα中第i个位置的关注值,我们需要将xα∈ Xα与所有特征切片进行出现在配对特征图Xβ中。我们利用一个非参数匹配层来计算余弦相似度Sij=(xα)xβ,并输出相似度矩阵S∈我RN×C作为JS=我(xα)JΣΣxβ,···,xβ(s1),(9).1(xα)N.(sN)其中向量si=[Si1,···,SiN] ∈ RN包含S的第i行元素,表示x α∈X α与Xβ中所有特征向量之间的余弦距离.相似矩阵S∈RN×C被重塑为H×W×C特征立方体X α∈RH×W×C,形成特征的相似表示映射Xα。然后我们输入Xα到具有1× 1内核的卷积层,以及对输出执行softmax以生成注意力图Aα∈RH×W对于X αXα中第i个位置的 Aα中的关注值aα定义为:expα.ΣθsSa我 =ΣNi=1exp.θsSΣ,(10)其中θs∈RN表示1×1卷积层的权重在对由注意力映射Aα加权的Xα应用平均池化之后,我们获得在urex¯α∈RC处的atteion-masskedfe为:ΣNx<$α=aαxα。(十一)我我i=1对于特征映射X β,我们将相似度矩阵S转置为S,使得S的第j行包含x β∈X β与X α中所有特征向量之间的余弦距离。我们在S上执行相同的操作,以生成映射Aβ∈RH×W上的at t i和在urex¯β∈RCf或Xβ上 的掩 码f e。F或对称性,对相似性执行的1×1卷积层的权重表示Xα、 Xβ是共享的。S s我们利用识别损失和验证损失来联合训练网络,以便网络需要同时预测输入对中每个图像的身份以及训练期间两个图像之间的相似性得分 为了识别,我们在uresx¯α和x¯β 处 对 掩 码 f e 应 用 交 叉 熵 损 失 ,respectively。对于verif icion,wecicenatexfa和dxfb到单个特征,并将其输入到512维全连接层,其输出组合特征xceR512。然后对xc执行具有交叉熵损失的二元分类器以进行预测。我我10J. Zhu,H.Yang,N.Liu,M.金,W。Zhang,M.H. 杨我我不 不⊤时间注意力网络当将候选检测与轨迹片中的观察序列进行比较时,直接对轨迹片中的所有观察的特征向量应用平均池化以用于验证。然而,如图在图1(b)中,轨迹片段可以包含噪声观测。 简单地为所有观测值分配相等的权重可能会降低模型性能。为了处理不可靠的样本中的轨迹,我们利用时间的注意力机制,自适应地分配不同程度的重要性不同的样本中的轨迹。图图4示出了所提出的时间注意力网络的结构时间注意力网络将特征集{xc,· · ·, xc}取为1T从空间注意力网络提取作为输入。这里,通过将候选检测与T长度轨迹片段中的第i个样本进行比较来获得特征向量xc为了确定轨迹中的噪声样本,模型不仅应该依赖于检测与轨迹片段中的每个样本(其已经被编码在每个xc中)之间的相似性因此,我们利用双向长短期记忆(Bi-LSTM)网络来预测注意力值at:exp.θ⊤ΣHΣΣhl; hrat=ΣT.Σ LΣΣ,t=1,···,T,(12)Rt=1expθh ht; ht其中hl、 hr是Bi-LSTM模型的双向隐藏表示t t并且θh是用于生成注意力值的层的权重关注分数是标量值,其用于对的隐藏表示h_l、 h_r进行加权。t t特征池的每个观察结果如下:ΣTh<$=aΣhl; hrΣ.(十三)t ti=1如果输入的是Pooledfe,则双线性分层将提供输入检测和配对轨迹片段之间的最后,我们根据检测和tracklet的成对相似性得分在候选检测和丢失目标之间进行分配培训战略。我们利用MOT16训练集中提供的地面实况检测和身份信息来生成用于网络训练的图像对和检测轨迹对然而,训练数据仅包含有限的身份,并且每个身份的序列由具有大冗余度的连续样本组成。因此,所提出的网络易于过拟合训练集。为了缓解这个问题,我们采用了两步训练策略。我们首先在随机生成的图像对上训练空间注意力网络然后,我们固定的空间注意力网络的权重,并使用提取的特征作为输入来训练时间注意力网络。此外,我们通过随机裁剪和重新缩放输入图像来增加训练集到不基于双匹配注意网络的在线MOT11在实践中,我们还通过用来自其他身份的图像随机替换轨迹片段中的一个或两个图像来向训练轨迹片段序列由于训练集中的一些目标只包含少量样本,我们以相等的概率随机抽取每个身份,以减轻类别不平衡的影响。轨迹管理。 对于轨迹初始化,我们设置阈值τi,并丢弃丢失或未被前τi帧中的任何帧中的检测覆盖的目标。对于轨迹终止,如果目标保持丢失超过τt个帧或只是退出视图,则结束目标。此外,我们收集目标的M个最近的观测,并通过从所收集的样本中均匀采样来生成用于数据关联的T长度轨迹片段以减少数据冗余。4实验数据集。 我们评估建议的在线MOT算法上MOT16[35]和MOT17基准数据集。MOT16数据集由14个视频序列组成(7个用于训练,7个用于测试)。MOT 17数据集包含与MOT 16数据集相同的视频序 列 ,同 时 还 提 供 了三 组 检 测 (RNN [19] , Faster-RCNN [40] 和SDP[56]),以更全面地评估跟踪算法。评估指标。我们考虑由MOT基准[35,28]用于评估的度量,其包括多对象跟踪精度(MOTA)[4]、多对象跟踪精度(MOTP)[4]、ID F1得分[41](IDF,正确检测与地面实况和计算检测的平均数量的比率)、ID精度[41](IDP,被正确识别的检测的分数)、ID召回[41](IDR,被正确识别的地面实况检测的分数)、大部分跟踪目标的比率(MT)、大部分丢失目标的比率(ML)、假阴性的数量(FN)、假阳性的数量(FP)、ID切换的数量(FN)。es(IDS),片段数(Frag)。请注意,IDF、IDP和IDR最近由Ristani等人引入[41]并被添加到MOT基准以测量跟踪器的身份保持能力我们还显示了MOT基准测试所建议的平均排名(AR)得分它是通过平均所有指标排名来计算的,这可以被认为是比较整体MOT性能的参考。实施详情。所提出的方法使用MAT-LAB和Tensorflow [1]实现。对于单对象跟踪,我们利用与ECO-HC [12]相同的特征(即,HOG和颜色名称)。对于数据关联,我们使用在ImageNet数据集上预训练的ResNet-50的卷积块[15] 作为共享基础网络。所有输入图像的大小均调整为224× 224。轨迹片段的长度被设置为T= 8,并且轨迹中收集的样本的最大数量被设置为M= 100。我们使用Adam [24]优化器12J. Zhu,H.Yang,N.Liu,M.金,W。Zhang,M.H. 杨(a)空间注意力图(b)时间注意力值图五. 空间和时间注意力的可视化。训练空间注意网络和时间注意网络。两个网络的学习率都设置为0。0001.设F表示视频的帧速率,用于计算目标速度的间隔被设置为K =0。3F。轨迹初始化阈值被设置为τi= 0。2F,而终止阈值设置为τt=2F。跟踪分数阈值被设置为τs= 0。2,并且外观亲和度分数阈值被设置为τa= 0。6.这些阈值参数的所有值根据MOT 16训练集上的MOTA性能来设置。源代码将向公众开放。4.1空间和时间注意的可视化图图5示出了所提出的空间和时间注意力机制的可视化结果在图5(a)中,每个组由四个图像组成。每组的顶行示出来自相同目标的图像对,而底行呈现对应的空间注意力图。虽然这些图像对undergo错位,规模变化,和闭塞,建议的空间注意力网络仍然能够定位每对的匹配部分。与[10]中所示的可见性图相比,我们的注意力图更明确地关注目标区域,并抑制干扰物和背景,这增强了模型对硬阳性对的区分能力。图5(b)显示了由所提出的时间注意力网络预测的注意力分数。每行左侧的序列是用于关联的轨迹片段,而每行右侧的图像对应于候选检测。Tracklet下方的条形图显示每个观测的注意力值。在顶行中,检测和轨迹片段属于同一目标。然而,轨迹片段包含由遮挡引起的噪声观测如条形图所示,所提出的时间注意力网络分配相对较低的注意力分数闭塞的意见,以抑制其对数据关联的影响。在底行中,检测和轨迹片段属于不同的目标。虽然tracklet中的最后两幅图像包含检测到的补丁中的相同目标,但所提出的网络通过考虑整体序列来正确地将低注意力分数分配给最后两幅图像这两基于双匹配注意网络的在线MOT1334.138.339.140.6Mota45403530B1 B2 B3 B4见图6。各组成部分的贡献。图中的示例图5(b)证明了所提出的时间注意机制对硬正样本和硬负样本的有效性。4.2消融研究为了证明我们的算法中的每个模块的贡献,我们设置了四个基线方法,禁用每个模块在同一时间。每种基线方法描述如下:B1:我们禁用拟议的DMAN,并依赖于成本敏感的跟踪器来链接检测。具体来说,我们将跟踪器的卷积滤波器应用于候选检测,并直接使用置信图中的最大得分作为数据关联的外观亲和力。B2:我们禁用空间注意力模块,并使用标准的Siamese CNN架构进行图像对的身份验证。B3:我们用平均池化替换我们的时间注意力池化,以在多个时间步长中整合Bi-LSTM的隐藏表示。B4:我们使用基线跟踪器,没有成本敏感的跟踪损失。图6显示了每种基线方法的MOTA得分与我们在MOT16训练数据集上的完整模型(41.2%)的比较。正如我们所看到的,所有提出的模块都对性能做出了贡献。当我们直接使用跟踪分数进行数据关联时,MOTA分数显著下降7.1%,这显示了所提出的DMAN的优点B2和B3中的退化证明了所提出的注意机制的有效性最后,对成本敏感的跟踪损耗在MOTA方面略有改善4.3在MOT基准数据集我们评估我们的方法对测试集的MOT16和MOT17基准对国家的最先进的方法。表1和表2分别显示了MOT16和MOT17数据集的定量性能如表1所示,我们的方法实现了可比较的MOTA评分,并且在MOT16数据集上的IDF、IDP、IDR、MT和FN方面与最先进的方法相比表现良好与第二好的文献相比,我们在IDF中提高了4.8%,IDP中提高了3.9%全模型(41.2%)B1:使用关联的跟踪分数禁用空间注意力B3:禁用时间注意B4:禁用成本敏感损失14J. Zhu,H.Yang,N.Liu,M.金,W。Zhang,M.H. 杨表1.MOT16数据集上的跟踪性能模式方法MOTA ↑ MOTP ↑ IDF ↑ IDP ↑ IDR ↑ MT ↑ML ↓FP ↓FN↓IDS↓碎片↓AR↓OVBT [3]38.475.437.855.428.77.5% 47.3%11,51799,463 1,321 2,14049.8EAMTT [43]38.875.142.465.231.57.9% 49.1%8,114102,452965 1,65737.4oICF [22]43.274.349.373.337.211.3% 48.5%6,65196,515381 1,40433.3在线CDA DDAL [2]43.974.745.166.534.110.7% 44.4%6,45095,175676 1,79531.8STAM [10]46.074.950.071.538.543.6%6,89591,117473 1,42229.6AMIR [42]47.275.846.368.934.814.0%41.6%2,68192,856774 1,67521.8我们46.173.854.877.242.5 17.4%42.7%7,90989,874532 1,616 19.3QuadMOT [45]44.176.438.356.329.014.6% 44.9%6,38894,775745 1,09631.9EDMT [7]45.375.947.965.337.817.0% 39.9%11,12287,89063994620.3MHT DAM [23]45.876.346.166.335.316.2% 43.2%6,41291,75859078123.7JMC [47]46.375.746.366.335.615.5%39.7%6,37390,914657 1,11421.1线下NOMT [9]46.476.653.373.241.9 18.3% 41.4%9,75387,56535950416.3MCjoint [21]47.176.352.373.940.446.9%6,70389,36837059818.6NLLMPa [29]47.678.547.367.236.517.0% 40.4%5,84489,09362976816.8LMP [48]48.879.051.371.140.118.2% 40.1%6,65486,245481595 14.8表2.MOT17数据集上的跟踪性能模式方法MOTA ↑ MOTP ↑ IDF ↑ IDP ↑ IDR ↑ MT ↑ML ↓FP ↓FN ↓IDS↓碎片↓AR↓通用汽车PHD [16]36.476.233.954.224.74.1% 57.3%23,723330,767 4,607 11,31723.0[26]第二十六话39.674.536.649.629.18.8% 43.3%50,903284,228 5,811 7,41423.5在线E2EM47.576.548.868.437.916.5%37.5% 20,655272,187 3,632 12,71213.1我们48.275.955.775.944.0 19.3%38.3%26,218263,608 2,194 5,37811.4借据[5]45.576.939.456.430.315.7% 40.5%281,643 5,988 7,404 16.4线下EDMT [7]50.077.351.367.041.5 21.6% 36.3%32,279247,297 2,264 3,2609.9MHT DAM[23]50.777.547.263.437.6百分之二十点八百分之三十六点九22,875252,889 2,3142,865 10.8在线MOT跟踪器,并取得了最好的性能在IDF和IDP之间的在线和离线的方法,这表明我们的方法在维护身份的优点类似地,表2示出了所提出的方法与MOTA中的其他在线跟踪器相比表现良好,并且在MOT17数据集上的所有方法中在身份保留度量(IDF、IDP、IDR、IDS)方面实现了最佳性能。此外,我们在MOT16和MOT17数据集上的所有在线跟踪器中获得了最好的AR分数。5结论在这项工作中,我们集成了单一对象跟踪和数据关联的优点,在一个统一的在线MOT框架的方法。对于单对象跟踪,我们引入了一种新的成本敏感的损失,以减轻数据不平衡的影响对于数据关联,我们利用空间和时间的注意机制来处理噪声检测和遮挡。在公共MOT基准数据集上的实验结果表明了该方法的有效性。致谢。本工作得到了国家自然科学基金(NSFC,批准号:61771303、61671289、61521062)、上海市科学技术委员会(STCSM,批准号:17 DZ 1205602 、 18 DZ 1200102 和 18 DZ 2270700 ) , SJTU-YITU/Thinkforce可视化计算与应用联合实验室。J. Zhu和N.刘先生获中国国家留学基金管理委员会奖学金资助。M. Kim由松下硅谷实验室提供支持。M.-H. Yang感谢NSF的支持(批准号:1149783)以及Adobe和NVIDIA的礼品基于双匹配注意网络的在线MOT15引用1. Abadi,M.,Agarwal,A.,Barham,P.,Brevdo,E.,陈志,西特罗角科罗拉多州科拉多戴维斯,A.,迪恩J Devin,M.,等:Tensorflow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467(2016)2. 裴S.H.Yoon,K.J.:基于置信度的数据关联和判别式深度外观学习,用于鲁棒的在线多目标跟踪。TPAMI(2017)3. Ban,Y.,Ba,S.,Alameda-Pineda,X.,Horaud,R.:基于变分贝叶斯模型的多人跟踪。在:ECCV研讨会(2016)4. Bernardin,K.,Stiefelhagen,R.: 评估多对象跟踪性能:CLEAR MOT指标。JIVP(2008)5. Bochinski,E.,Eiselein,V.,Sikora,T.:不使用图像信息的高速检测跟踪在:AVSS研讨会(2017)6. Bulo,S.R.,Neuhold,G.Kontschieder,P.:损失最大池的语义图像分割。在:CVPR(2017)7. 陈杰,Sheng,H.,张玉,Xiong,Z.:多假设跟踪的增强检测模型在:CVPR研讨会(2017)8. C hen,X., Law re nceZitni ck,C. 图像字幕:再现视频代表图像字幕生成。参见:CVPR(2015)9. Choi,W.:基于聚集局部流描述符的近在线多目标跟踪。In:ICCV(2015)10. Chu,Q.,欧阳,W.Li,H.,王,X.,刘,B.,Yu,N.:基于cnn的单目标跟踪器与时空注意机制的在线多目标跟踪。In:ICCV(2017)11. Dalal,N.,Triggs,B.:用于人体检测的定向梯度直方图。载于:CVPR(2005年)12. Danelljan,M.,Bhat,G.,Khan,F.S.,Felsberg,M.:ECO:用于跟踪的高效卷积运算符。在:CVPR(2017)13. Danelljan,M.,Robinson,A.,Khan,F.S.,Felsberg,M.:超越相关滤波器:学习用于视觉跟踪的连续卷积算子。In:ECCV(2016)14. Dehghan,A.,田,Y.,托,pH值,Shah,M.:用于在线多目标跟踪的目标身份感知网络流参见:CVPR(2015)15. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。在:CVPR(2009)16. E i s e l e in,V., Arp、D. ,Patétzold,M., Sikora、T. :使用概率假设密度滤波器和多个检测器进行实时跟踪。电影AVSS(2012)17. Fang,H., 去吧S I和ola,F., Srivastava,R. K., 登湖 做吧,P 乔,他,X.,Mitchell,M.Platt,J.C.,等:从标题到视觉概念再到后面。参见:CVPR(2015)18. Felzenszwalb,P.F.,Girsh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功