没有合适的资源?快使用搜索试试~ 我知道了~
1基于提升多割和身份重识别的Siyu Tang1,2Mykhaylo Andriluka1Bjoern Andres1BerntSchiele11马克斯·普朗克信息学研究所,德国萨尔布吕肯2德国图宾根马克斯·普朗克智能系统研究所摘要在拥挤场景的单目视频中跟踪多个人是一项具有挑战性的任务。人类可以掌握它,即使他们失去了一个人的跟踪本地重新识别同一个人的基础上,他们的外观。长距离接触时一定要小心,因为长相相似的人不一定一模一样。在这项工作中,我们提出了一种新的基于图形的公式,通过解决一个最小成本提升多分割问题的实例,随着时间的推移链接和聚类人的我们的模型通过引入一种机制来推广以前的工作,该机制这允许我们以不引入不合理的解决方案的方式将相似外观的检测分配给同一个人的跟踪。为了在更长的时间间隔内有效地匹配假设,我们开发了新的深度架构来重新识别人。它们结合了使用深度网络提取的整体表示和使用最先进的姿势估计模型获得的身体姿势布局。我们通过报告MOT16基准的新的最先进水平来证明我们的制剂的有效性。代码和预训练模型是公开的1。1. 介绍在过去的两年里,多人跟踪有了很大的改进,这也是由MOT挑战所推动的[18,20]。这一研究领域的一个趋势是为人的外观开发基于CNN的特征表示,以有效地建模检测之间的关系[14,17]。这种趋势有两个好处:首先,可以针对不同的相机位置和运动来学习人的外观的表示,这是利用简单的运动模型不太容易实现的目标,特别是对于单目视频,这是由于透视投影下的运动的复杂性。第二,外表有助于人们在长期的这项工作是在S.唐在马克斯·普朗克信息学研究所工作。1http://mpi-inf.mpg.de/multicut_tracking图1. MOT16基准的定性结果。每个边界框下的实线指示轨迹的寿命。提升的多切割跟踪模型能够通过遮挡将人联系起来,并产生持久的长寿命轨迹。距离,不像运动模型变得渐近不相关。然而,将远程重新识别纳入跟踪算法仍然具有挑战性。原因之一是一个简单的事实,即长相相似的人不一定完全相同。为了解决这些挑战,在本文中,我们概括了[28]的数学模型,以便表达这样一个事实,即只有当他们通过至少一个可行的轨迹(可能跳过遮挡)连接时,相似的人才被认为是同一个人更具体地说,每个检测都由图中的节点表示;边连接时间帧内和跨时间帧的检测,并且分配给边的成本可以是正的,以鼓励事件节点在相同的轨迹中,或者是负的,以鼓励事件节点在不同的轨迹中。这种数学抽象有几个优点。首先,人数不是固定的或有偏的问题的定义其次,在同一帧中的同一个人的多个检测有效地聚类,这消除了启发式非极大值抑制的需要。为了避免不同但看起来相似的人被分配到相同的轨道,必须在定义可能的连接的边缘之间进行区分(即,可行集)和定义分配35393540关联节点到不同的轨迹(即,目标函数)。我们实现了这一点,同时保持了[28]的优点,通过将多人跟踪问题转换为最小成本提升的多割问题[1]。具体而言,我们做出三项贡献:首先,我们设计和训练深度网络,通过融合人体姿势信息来重新识别人这提供了一种用于关联时间上遥远的人假设的机制,并且允许在遮挡之前和之后获得对应性。其次,我们提出将多人跟踪问题转化为最小代价提升多割问题。我们介绍了两种类型的边缘(定期和解除边缘)的跟踪图。规则边定义了图中可行解的集合,即哪对节点可以被连接/切割。提升的边将附加的长范围信息添加到目标,在该目标上节点应当被接合/切割,而不修改可行解的集合。我们的公式编码长距离信息,但惩罚长期假关节(例如,相似长相的人)通过以统一和严格的方式强制可行解中的有效路径。第三,我们证明了由该优化问题的局部最优值定义的轨迹为MOT16基准定义了一个新的最先进的轨迹[20]。相关工作。最近关于多人跟踪的工作集中在检测跟踪方法上[21,36,35,29,30]。跟踪要么直接在人员检测[21,23,34]上执行,要么在通过第一分组检测[6,27,33]获得的一组置信轨迹上执行。引入小轨迹可以减小状态空间;然而这种方法需要单独的轨迹片段生成步骤,并且轨迹片段生成所引入的任何错误都可能传播到最终解决方案。在这项工作中,我们的模型将检测作为输入。由于检测在空间和时间上是联合聚类的,因此我们的模型能够处理同一目标在每帧上的多个检测假设。多人跟踪的一个常见公式是基于网络流的方法[3,7,31]。[3]建议对所有潜在位置随时间的变化进行建模,并找到产生最小成本的轨迹。[31]扩展了工作[3],通过使用交织流和施加线性流约束来同时跟踪交互对象[23]表明,它们的网络流公式可以通过连续最短路径算法在多项式时间内求解在[5]中,提出了一种最大权重独立集公式,然后进行最近,已经提出了最小成本多切割公式来解决多人跟踪[13,27,28,25,15]。[27,28]建议在空间和时间上联合聚类检测利用吸引项和排斥项对图进行划分,得到了最优人数和[15]建议通过考虑点轨迹,速度,外观和轨迹平直度。优化是通过消息传递和移动决策算法的组合来执行的。[25]提出通过具有时间滑动窗口的多级级联来解决最小我们的工作是不同于以往的多切割为基础的作品;我们的提升的多切割公式在图中引入了附加的边,以将长距离信息结合到跟踪公式中。已经提出了许多工作来利用外观信息。[14]提出了一种特定于目标的外观模型,该模型集成了长期信息,并利用了通用深度卷积神经网络的特征。[34]提出将跟踪公式化为马尔可夫决策过程,并在标记的训练数据上估计策略,并提出了依赖于跟踪目标外观的时间演变的新颖外观表示。最近,[17]提出通过CNN对检测对之间的相似性进行建模。已经探索了几种架构,它们与我们的工作呈现出类似的发现我们的工作还结合了人体姿势信息,这提高了显着的利润率的相似性措施有几个多人跟踪工作,旨在通过在检测假设之间合并较长范围的连接来恢复人的轨迹[35,21,7,33]。[21]采用了一个简单的颜色外观模型,并提出了一个连续的公式,其中相互遮挡,动态和长距离轨迹连续性有效地建模。[35]提出了一种广义最小团公式,该公式通过一次找到一个轨道的贪婪迭代优化方案来求解。在[7]中,他们的目标外观模型是在线学习的,并且它依赖于启发式程序来确定哪个轨迹段是有效的以及轨迹的创建/终止。[33]依赖于首先将检测分组为tracklet,然后在后续阶段中使用贪婪启发式方法将其分组为长距离轨迹。在我们的方法中,帧到帧和长距离的相似性被纳入到一个统一的方式的目标函数2. 模型我们现在转向多人跟踪的数学抽象,将其作为最小成本提升的多分割问题(LMP)。LMP是一个优化问题,其可行解可以通过图的分解来识别。最小成本多割问题(MP)[28]定义为w.r.t.一种图,其边定义了将节点直接连接到同一轨迹的可能性。 定义了LMP,此外,w.r.t.不限定直接连接节点的可能性的附加提升我们对提升边缘进行建模的动机来自于一个简单的事实,即具有相似外观的人不一定是相同的。考虑到两次检测在时间上相距甚远且外观相似,3541•∈∈联系我们−\EΣΣ′<$vw∈E\E<$C∈vw-cuts(G):′′VWE联系我们GG′ {} ∈ {}(a) MP3(b) LMP3参数给定一个图像序列,我们考虑LMP关于下面定义的参数的实例。在下一节中讨论从图像序列估计这些参数。- 有限集合V,其中每个元素v V表示在一个图像中检测到一个人,即,边界框。对于每一个检测点v∈V,我们还定义了它的高度hv∈R+,图像坐标xv,yv∈R+,-0.5V40.5-0.5V40.5以及它的帧数tv∈N。-0.5v1v3v2(c) MP-0.5v1v3v2(d) LMP• 对于每一对v,w∈V:条件概率v和w的pvw(0,1)表示不同的人,给定他们的身高,坐标和外观。图2.多割问题(MP)与提升多割问题(LMP)的比较每个人的地面实况轨迹用灰色表示。规则边用黑色表示,提升边用绿色表示。实线表示接头,虚线表示切口。切削刃的成本由相应刃上的数字表示(Best彩色视图)• 图G=(V,E)的边是正则边,连接同一图像tv=tw中的检测v,w,并且还连接在时间上接近的不同图像tvtw中的检测v,w,即,对于某些固定的上界δt∈N:|tv−tw|≤ δt。• 图G=(V,E),E∈E,其附加边v,w E′E是连接在时间上相距很远并且在外观上相似的检测v、w,即, 对于某个固定的p0∈(0,1):|tv−代表同一个人。 与此同时,这一决定必须通过连接两者的轨道进行事后认证。我们正是通过引入两类边:规则边和提升边来实现这一点为了将两个在时间上相距很远并且在外观上相似的检测分配给同一个集群(人),必须存在沿着规则边缘的路径(轨迹),其证明该决定。图中给出了两个直观的例子二、在(a)和(b)中,场景中有三个人,v1是对第一个人的检测,v2和v3是对第二个人的检测,v4是对第三个人的检测。边缘v1v2和v3v4的成本是3,这表明切割边缘的回报很高,这是正确的。然而,边缘v1v4的成本表明,第一个人和第三个人看起来很相似,并为连接他们引入了强大的奖励结果,MP错误地将v1和v4连接为同一个人;LMP不连接v1和v4,因为局部边不支持这种长距离连接。(c)和(d)是另一个例子,其中所有检测都是关于同一个人的,即,连接图中所有节点的轨迹是期望的。由于部分遮挡或不准确的边界框定位,局部边缘上的成本v1v2和v3v42tw|>δt和pvw≤p0。图G定义了分解空间,图G′在G的顶部添加提升边E′E,并定义了代价函数的结构。对于在时间上相距很远并且在外观上相似的检测,引入提升边缘,因为这样的检测对潜在地指示在长期遮挡之后重新出现的同一个人。可行集LMP的可行解可以通过图的分解(聚类)G.这里,在跟踪的上下文中,检测的每个分量(聚类)定义一个人的轨迹因此,将我们的方法视为通过聚类进行跟踪是形式上,LMP的任何可行解都是01向量′X0、1其中x=1表示节点v和w是不同的分量。为了确保x很好地定义了G的一个分解,它进一步被约束到满足下面所写的线性不等式组的那些x0,1E′的集合X0,1′<$C∈cycles(G)<$e∈C:可能是模棱两可的,有时甚至是相反的。远程边缘v1v4正确地重新识别了人。然而,MP为单个人产生两个聚类,因为长距离边缘不引入额外的约束xe≤vw∈Exe′(1)e′∈ C\E∈P∈vw-路径(G):在当地的连接。相比之下,LMP允许我们影响人与人之间的整个联系链,xvw≤e∈Pxe(2)假设与一个单一的信心长期观察。′Σ在下文中,我们首先详细讨论参数,然后是可行集,最后是目标函数。1−xvw≤e∈C(1−xe)(3)3-31v4-3v3v1v23-31v4-3v3v1v2′3542∈\∈ ∈\联系我们||| |约束(1)是广义传递性约束,这意味着:对于任何相邻节点v和w,如果G中存在从v到w的路径,沿着该路径所有边都被标记为0,则边vw只能被标记为0。对于每个可行解和每个提升的边vw E′E,约束(2)和(3)保证该边的标签xvw是0(指示v和w属于同一轨道),如果(2)且仅当(3)v和w在较小图G中通过标为0的边的路连通通过分配一个成本或报酬,R到提升边缘vwE′因此,我们可以将这个成本或回报精确地分配给那些v和w属于不同轨道的可行解,而不引入直接连接v和w目标函数我们考虑以下形式的LMPΣ3. 人员重新识别以进行跟踪传统上,人的重新识别是在非重叠的摄像机视图中关联观察到的行人在多人跟踪的背景下,在整个视频中链接检测到的行人可以被视为具有特殊挑战的重新识别:遮挡、杂乱的背景、图像分辨率的大差异和不准确的边界框定位。在本节中,我们研究了几种CNN架构,用于多人跟踪任务的重新识别。我们的基本CNN架构是VGG-16 Net [26]。特别是,我们提出了一种新的人重新识别模型,结合了国家的最先进的姿态估计方法获得的身体姿态布局。数据收集。深度CNN的关键因素之一是大量训练数据的可用性为了将重新识别应用于跟踪,我们从minx∈XGG′e∈E′其中成本ce定义为cexe(4)MOT15基准[18]训练集和5个序列MOT16基准[20]训练集。我们还从CUHK 03 [19],Market-1501 [37]数据集中收集了由6个监控摄像头捕获的个人身份示例我们使用c=log1−peepe.(五)来自MOT 16训练集的MOT 16 -02和MOT 16 -11序列总共有2511个身份目标函数被选择为使得解是G分解为最大化表示相同或不同人的检测概率的轨迹更具体地说,我们将pe定义为逻辑形式:1用于训练和123个用于测试的身份。3.1. 架构在这项工作中,我们探讨了三种架构,即ID- Net,SiameseNet和StackNet。pe:=1 + exp(−θ那么成本ce具有以下形式:1−pe,f(e))。(六)(e)ID-Net。我们首先学习一个VGG网Φ,从我们的数据集合中识别N=2511个唯一身份,作为N路分类问题。我们将训练图像的大小调整为112×224×3。每个图像xi,i=1,.,M关联到ce:= loge=−θγ,f。(七)地面真实身份标签yi1,...,N. 了VGG估计每个图像是每个标签的概率为通过逻辑回归在训练集上估计模型参数θγγ是检测对之间的时间间隔的长度。我们为检测之间的每个时间间隔估计一组单独的边缘成本参数θγ特征f(e)描述检测之间的在这项工作中,f(e)被定义为个人重新识别置信度的组合(第二节)。3),深对应匹配,和时空关系,这是在节讨论。4优化. 由(4)定义的最小成本提升多割问题是APX困难的[8]。考虑到我们跟踪问题的实例的大小,使用分支和切割来解决最优性或在紧边界内是不可行的。在这项工作中,我们利用[12]提出的原始启发式,其中子图的双划分由一组变换序列更新更新具有O(V E)的最坏情况复杂度,这在实践中几乎从未达到。详细的运行时间分析可以在[12]中找到。pi=Φ(xi)bya对于wardpass. 网络由softmax损失训练。在测试过程中,给定一个来自不可见身份的图像,最终的softmax层被删除,全连接层Φf7的输出被用作身份特征。给定一对图像,可以使用两个身份特征之间的欧几里得距离来决定这对图像是否包含相同的身份。在实验中,我们观察到这个身份特征已经提供了良好的准确性。然而,性能通过转向Siamese架构和StackNet而得到提升,下面将进行解释。SiameseNet. Siamese架构意味着网络包含两个共享参数的对称CNN。我们从一个常用的暹罗建筑开始,如图所第3(a)段。为了模拟相似性,我们在双CNN之上使用完全连接的层。 更具体地,来自一对图像的特征FC6(xi)和FC6(xj)从共享权重的基于VGG的Siamese网络的第一全连接层来表示。然后,γp3543× × ××××模型Acc.(%)ID-Net80.4SiameseNet84.7StackNet86.9StackNetPose90.0(a)(b)第(1)款(c)第(1)款(d)其他事项(e)图3. (a)SiameseNet. (b)StackNet。(c)StackNetPose。红色矩形表示VGG16的卷积层、relu层和池化层。蓝色矩形表示完全连接的层。每个网络顶部的灰色矩形是损失层。绿色框是堆叠的身体部位评分图。(d)示例结果来自StackNetPose。(e)人员再识别模型的比较。通过两个完全连接的层(FC7,FC8)进行级联和转换,其中FC7后面是ReLU非线性。FC8使用softmax函数来产生二元决策的概率估计,即相同身份或不同身份。StackNet。我们探索的最有效的架构是StackNet,我们将一对图像沿着RGB通道堆叠在一起。网络的输入变为112 224 6.然后,第一卷积层的滤波器大小从333至336、对于网络的其余部分遵循VGG架构。最后一个全连接层建模一个双向分类问题,即相同身份或不 同身份。在测 试过程中, 给定一对图 像,SiameseNet和StackNet都通过正向传递产生这对图像是相同/不同身份的概率。StackNet允许一对图像在网络的早期阶段进行通信,但它仍然受到缺乏将图像之间的身体部位对应关系合并的能力的限制。接下来,我们提出了一个身体部位融合方法,明确允许在网络中的语义身体部位信息建模3.2. 融合身体部位信息该网络的一个理想特性是定位身体部位的对应区域,并基于局部区域和完整图像来推理一对行人图像的相似性。我们通过将身体部位检测融合到CNN中来实现这种模型。更具体地说,我们利用身体部位检测器[24]为14个身体部位(即,头部、肩部、肘部、手腕、臀部、膝盖和脚踝)产生单独的评分图,每个身体部位具有左/右对称的身体部位,除了由头顶和头底部指示的头部我们将每两个对称身体部位的得分图组合起来,得到7个得分图;每个得分图的大小与输入图像相同我们将这对图像以及14个评分图堆叠在一起,形成一个112×224×20的输入体积。现在第一个卷积层的滤波器大小设置为3×3×20,其余的该网络采用VGG16结构,最后采用双向在图3(d)中,我们展示了我们数据集上估计的身体姿势的几个例子。请注意,用身体布局信息来增强网络可以被解释为一种注意力机制,它允许我们关注输入图像上的相关部分。它也可以被看作是一种机制,以突出前景,并使网络能够建立输入图像之间的对应区域3.3. 实验分析训练我们的实现基于Caffe深度学习框架[11]。为了学习ID-Net,我们的VGG模型在ImageNet分类任务上进行了预训练。遵循人脸识别/验证文献中的常见做法[22],我们使用我们的ID-Net作为学习SiameseNet,StackNet和StackNetPose的初始化,这使得训练速度更快并产生更好的结果。Setup. 我们从MOT 16 -02和MOT 16 -11中收集了123个人物身份作为测试示例。 更具体地,在这两个序列上,对于某一身份被认为是真阳性的检测是与身份的基础真值的交并大于0的那些。五、给定所有身份的真阳性检测,我们从分配给相同身份的检测中随机选择1,000个阳性对,从分配给不同身份的检测中随机选择4000个阴性对测试集中负对的较大比例是为了模拟跟踪过程中的正/负分布。对于每个测试对,我们估计图像对包含同一个人的概率。 对于正(负)对,如果估计的概率大于(小于)0。5、它们被认为是正确分类的例子。度量标准是验证精度,即正确分类对的比率。对于ID-Net,通过测试提取的特征之间的距离是否小于阈值来获得图像对的阈值是在单独的验证数据上获得的,以最大限度地提高验证准确性。3544STDMRe-ID梳√2|∩|St−⟨⟩min10的情况。9具有时空位置(x,y,t)和高度h。 的(xv−xw)2+(yv−yw)2ST特征定义为fst=h,其中0的情况。80的情况。70的情况。60的情况。50的情况。410的情况。90的情况。80的情况。70的情况。60的情况。50 10 30 50 100 150200时间距离(帧)(a) MOT16-02h<$=(hv+hw)。 直观上,ST特征能够在短时间窗口内提供有用的信息。他们对边界框之间的几何关系建模,但不考虑图像内容。DM。 DeepMatching [32]是[ 28 ]引入的用于多人跟踪的强大的成对亲和力。 我们也将其应用于这项工作。给定两个检测v和w,每个检测具有一组匹配的关键点M。 我们定义MU = |MvMw|,并且MI=MvMw 在集合Mv和Mw之间。然后,两个检测之间的成对特征被定义为fdm=MI/MU。重新鉴定。DM特征是基于局部图像块匹配的,这使得它对不规则的摄像机运动和短时间距离内的部分遮挡具有鲁棒性。如[28]和我们工作的实验部分所示,当0的情况。40 10 30 50 100 150 200时间距离(帧)(b) MOT16-11图4.MOT 16 -02上成对亲和力测量的准确度(a)和MOT 16 -11(b)序列。增加时间距离。 ReID针对人员重新识别任务进行了明确培训。它对于大的时间和空间距离是鲁棒的,并且允许长距离关联。在这项工作中,我们利用我们的深度重新识别模型(StackNetPose)的建模远程连接。我们的最终成对特征f(e)被定义为作为(fst,fdm,freID,fremin,f2,fst·fdm,. . . ,2002),其中结果从图中可以看出。3(e)Φf7特征与ID网络的l2距离已经产生了合理的准确性。 通过应用SiameseNet,从80. 4%至84。百分之七。在使用StackNet时,准确率进一步提高,达到86。9%的准确率。融合身体部位信息(StackNetPose)的性能大大优于所有其他模型,达到90。0%的准确度。对于我们的跟踪任务,我们使用StackNet-Pose模型来生成人员重新识别置信度。我们在图中展示了三对由StackNetPose正确估计的检测。第3段(d)分段。可以看出,身体部位图使网络能够定位人,尽管边界框不准确(第一/第二对)和背景混乱(第三对)。4. 成对势如第 2中,目标函数(4)中的成本ce被定义为ce=θγ,f(e)。 在本节中,我们介绍基于三个信息源的特征f(e):空间-时间关系(ST)、密集对应匹配(DM)和前一节中描述的人员重新识别置信度(Re-ID)。圣基于时空关系的特征通常用于许多多人跟踪工作[23,34,6],因为它是非常接近的检测对的良好亲和力度量。给定两个检测v和w,StDMRe-ID梳精度精度3545最小检测置信度是该对内的较低检测置信度,freID是我们的StackNetPose估计的概率二次项引入了从特征空间到成本空间的非线性映射总的来说,成对特征具有14个维度。4.1. 实验分析在本节中,我们将对我们的成对特征进行分析。我们还从MOT 16训练集中选择MOT 16 -02和MOT 16 -11进行分析,因为这两个序列之间的成像条件和相机运动有很大不同测试样本集和评估度量与评估人员重新识别网络相同,即对于每个测试对,我们估计图像对包含相同人员的概率对于正(负)对,如果估计概率大于(小于)0。5、它们被认为是正确分类的例子。任何偏向于切割或接合都会降低跟踪性能。更高的精度导致更好的跟踪性能。我们进行比较功能作为时间距离的函数我们展示了长时间距离(200帧),因为我们的模型能够包含这样的信息。结果从图中可以看出。4的DM功能实现了良好的精度高达10帧,但其性能恶化的连接在较长的时间跨度。ST功能的性能在5帧后迅速下降。这3546565452(a)变化δmax5015 30 45 60 75 90时间距离(δt)(b) 变化δt图5. 具有不同δmax值(a)和不同δt值(b)的多割模型(MP)和提升多割模型(LMP在具有快速相机运动的MOT 16 -11序列上尤其明显。相比之下,Re-ID特征是有效的,并且随着时间的推移保持高精度例如,在MOT 16 -11序列上,对于大于50帧的时间距离,Re-ID(红线)比DM(黑线)改善了显著的裕量。当我们结合这三个功能(梳子,图中的绿线。4),我们在所有的时间距离获得最佳的精度。原因在于,在不同的时间距离,我们的组合特征能够利用不同的信息源。例如,在一个示例中,当时间距离小于30帧(1秒)时,对于这两个序列),DM和ReID特征组合低级别(局部图像块匹配)和高级别(人特定的外观相似性)以产生高精度成对亲和性度量。当节奏距离逐渐增加时,ReID特征变得越来越有信息性。然而,仍然添加ST和DM特征提高了整体准确性,因为它们充当正则化器,禁止物理上不可能的关联。基于这些结果,我们使用的组合功能在我们的跟踪实验。5. 跟踪实验和结果我们进行了跟踪实验,并与MOT16 Benchmark [20]上的先前工作进行了比较。测试集包含7个序列,其中摄像机运动、摄像机角度和成像条件有很大不同。对于每个测试序列,基准测试还提供了在类似设置中捕获的训练序列。因此,我们学习模型参数θγ(定义在等式中)。(7)对测试序列进行相应的训练序列。为了分析我们的跟踪模型,我们使用来自训练集的MOT 16 -02和MOT 16 -11作为验证序列,与前面的部分相同在MOT 16 -02上训练的模型参数θγ为了从MP或LMP生成的聚类中获得最终轨迹,我们通过使用[21]中的代码从属于同一聚类当由于闭塞或检测失败,我们沿着估计的轨迹填充缺失的检测在所有的实验中,我们不考虑任何大小小于5的簇评估指标。我们遵循标准CLEAR MOT指标[4]来评估多 人 跟 踪 性 能 。 度 量 包 括 多 对 象 跟 踪 准 确 度( MOTA) , 其 组 合 了 身 份 切 换 ( ID ) 、 假 阳 性(FP)和假阴性(FN)。此外,我们还报告了多目标跟踪精度(MOTP),主要跟踪(MT),主要丢失(ML)和碎片(FM)。5.1. 提升边缘与规则边缘提升多割(LMP)的图形包括两种类型的边:规则边缘和提升边缘。规则边定义了图的分解。提升的边引入了关于哪些节点应该被接合/切割的长距离信息,而不修改可行解的集合。他们惩罚长期假关节(例如,通过在可行解中强制有效路径,如图4.即使超过50帧,我们的成对亲和力测量的准确率仍然在90%以上,这种良好的成对亲和力应该被利用到跟踪模型中。然而,如果我们用规则的边缘对它们进行编码,我们有10%的机会产生假关节,这样的错误直接产生长的假阳性轨迹。如果它们是提升边缘,则连接这些检测必须通过局部规则边缘来认证两个直观的例子显示在图。二、在本节中,我们对两种图变体:多割(MP)和提升多割(LMP)进行实验分析,以验证所提出的方法的 注意,我们使用相同的成对特征(Comb.图4)的MP和LMP问题。在给定跟踪实例的情况下,直观地,我们将连接具有规则边缘的检测到一定的时间距离,以克服由于遮挡而导致的潜在的丢失检测对于更远距离的检测,我们将用提升的边缘将它们连接起来,以将人员重新识别信息纳入模型中,从而获得更好的跟踪性能。根据直觉,我们的MP是在MPLMP ( δmax=60)LMP(δmax=90)LMP(δmax=120)MotaMOT16-11δmax306090120150MP54.254.149.443.932.1LMP54.5(+0.3)55.1(+1) 55.3(+5.9)55.0(+11.1)51.1(+19.1)MOT16-02δmax306090120150MP19.921.521.219.117.2LMP21.3(+1.4)22.4(+0.9)21.3(+0.1)22.3(+3.2)19(+1.8)3547方法MotaMOTPFAFMtMLFPFNID SwFragHz检测器[第21话]33.275.81.2百分之七点八54.4%68371143226427310.3公共TBD [10]33.776.51.0百分之七点二百分之五十四点二5804112587241822521.3公共LTTSC-CRF [16]37.675.92.0百分之九点六55.2%11,969101,3434811,0120.6公共OVBT [2]38.475.41.9百分之七点五百分之四十七点三11,51799,4631,3212,1400.3公共LINF1 [9]41.074.81.3百分之十一点六百分之五十一点三7896992244309634.2公共MHT [14]42.976.61.0百分之十三点六46.9%5668979194996590.8公共NOMT[6]46.476.61.618.3%41.4%9753875653595042.6公共[第28话]46.375.71.115.5%百分之三十九点七63739091465711140.8公共提升式多点切割(LMP)48.879.01.1百分之十八点二40.1%6654862454815950.5公共表1.MOT16测试集的跟踪性能最好是粗体,第二好是蓝色。除了相邻帧之间的规则边缘外,我们还在时间距离达到δmax的所有检测对之间引入规则边缘。LMP具有规则边缘和提升边缘的组合,我们将开始将规则边缘改变为提升边缘的时间距离表示为δt。变化δmax。在我们的第一个分析中,我们逐渐将δmax的值从1帧更改为150帧。如图5(a),在MOT 16 -11序列上,MP实现了具有竞争力的MOTA(54。2%),但当δmax增加到150帧(MOT 16 -11上为5秒其原因是长程规则边改变了MP的可行集。虽然在150帧时的成对相似度的准确率接近90%,但该模型仍然会产生灾难性的假连接,这会引入长期的假阳性轨迹。 在MOT 16 -02序列上获得了类似的结果,MOTA降至17。当δmax=150时,2%。对于LMP,我们还将δmax从1帧改变为150帧,并且我们设置δt=δmax/2。与MP相比,LMP在MOT 16 -11序列上获得最佳MOTA(55。3%)以及MOT 16 -02序列(22.4%)。此外,它在所有设置中都具有卓越的性能。Partic-特别是对于远程连接,在MOT 16 -11序列上,MP和LMP之间的裕度大于10%。注意,这些实验结果揭示了LMP的一个非常理想的特性:相对于连接范围的稳定性。给定一个新的跟踪实例,由于未知的摄像机运动和成像条件,这是不平凡的建立一个适当的图的MP。至于LMP,由于其鲁棒性和稳定性,我们可以自由选择任何合理的连接范围。在接下来的实验中,我们通过改变δt进一步揭示了LMP的稳定性。变化δt。如图5(b)中,我们评估了在3种不同的δmax设置下,即δmax= 60,90,120,δ t对LMP的影响。作为基线,图中还示出了具有δmax=15、30、45、60、75、90的MP的跟踪5(b),用绿线表示可以看出,在所有的时间距离处,添加提升边缘改善了图像质量。任务此外,对于较长的时间距离(例如,δmax=90),MP 的 MOTA 显 著 下 降 ( 49. 然 而 , 对 于 δmax=90 的LMP,MOTA在δt=15、30、45、60时保持在较高水平(黑线),表明LMP对大范围的δt也是稳健的。总体而言,结果表明,我们的LMP能够以更严格的方式编码远程信息,从而产生更稳定和鲁棒的跟踪结果。5.2. MOT16基准测试结果在这里,我们展示了MOT16测试集上的结果。我们将我们的方法与基准上最好的已发表结果进行了比较 ,包 括NOMT[6], MHT-DAM [14], OVBT [2],LTTSC-CRF [16],CEM [21],TBD [10]和Multicut[28]第10段。[28]是与我们的模型相比最相关的方法,其中采用深度匹配功能,跟踪被视为最小成本多切割问题。从Tab可以看出。1,我们的方法在MOTA,MOTP和假阴性(FN)方面建立了一个新的最先进的性能与以前的最佳结果相比,我们提高了2。4%,MOTP为3。百分之一。对于FAF,MT,ML和FM,我们的方法实现了第二个最好的每-表演。对Multicut [28]的改进证明了将远程人员重新识别信息与提升的Multicut公式相结合的优势完整的指标和可视化显示在MOT16基准测试网站2上。6. 结论为多人跟踪提供远程信息是一项挑战。在这项工作中,我们建议通过姿势辅助深度神经网络来对这种远程信息进行建模。鉴于事实上,相似的人不一定是相同的,我们提出了一个最小成本提升多分割公式,其中长距离的人重新识别信息的编码方式,它迫使有效路径沿局部边缘。最后,我们表明,所提出的跟踪方3548法优于以前的作品具有挑战性的MOT16基准。跟踪性能超过MP,表明远程个人重新识别信息对跟踪有用2https://motchallenge.net/results/MOT16/3549引用[1] B. 安德烈斯提升多个接头。CoRR,abs/1503.03791,2015年。2[2] Y. Ban,S.Ba,X.Alameda-Pineda和R.霍罗德基于变分贝叶斯模型的多人在ECCV研讨会上对多对象跟踪进行基准测试,2016年。8[3] J. Berclaz,F. Fleuret,E. T uéret k en和P. 呸使用k-最短路径优化的多IEEE Transactions on Pattern Analysis andMachine Intelligence(TPAMI),2011年。2[4] K. Bernardin和 R.Stiefelhagen 评估 多目 标跟 踪性 能:CLEAR MOT指标。图像和视频处理,2008年。7[5] W. 布伦德尔M.Amer和S.托多洛维奇最大权独立集多目标在IEEE计算机视觉和模式识别会议(CVPR)上,2011年。2[6] W.崔基于聚集局部流描述符的近在线多目标跟踪。IEEEInternationalConferenceonComputerVision(ICCV),2015年。二、六、八[7] A. Dehghan,Y.田,P.H. Torr和M.Shah. 在线多目标跟踪的目标IEEE计算机视觉与模式识别会议(CVPR),2015年。2[8] E. D. Demaine,D.Emanuel,A.Fiat和N.Immorlica 一般赋权图中的核-关系聚类。计算机科学,2006年。4[9] L.法戈布凯河Audigier,Y. Dhome和F.勒拉索利用稀疏表示改进多帧数据关联,实现稳健的近在线多目标跟踪。欧洲计算机视觉会议(ECCV),2016年。8[10] A. Geiger,M.劳尔角沃耶克角Stiller和R.乌塔松可移动平 台 的 三 维 交 通 场 景 理 解 。 IEEE Transactions onPattern Analysis and Machine Intelligence(TPAMI),2014年。8[11] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构arXiv预印本arXiv:1408.5093,2014。5[12] M. Keuper,E.Levinkov,N.Bonneel,G.Lavoue,T.布洛克斯,还有B. 安德烈斯提升多重割的图像和网格图的有效分解IEEEInternationalConferenceonComputerVision(ICCV),2015年。4[13] M. Keuper,S.唐,Z.于湾,澳-地Andres,T.Brox和B.席勒多目标联合分割和跟踪的多切割公式。在arXiv:1607.06317,2016。2[14] C. Kim,F.Li,长穗条锈菌A.Ciptadi和J.M. 瑞格多假设跟踪再访。IEEE International Conference on ComputerVision(ICCV),2015年。一、二、八[15] R.库马尔湾,澳-地Charpiat和M.托纳特通过有效的图分割进行多目标跟踪。2014. 2[16] N. Le,A.Heili和J. -M. 奥多贝兹基于crf的检测跟踪的长期时间敏感成本在ECCV研讨会上对多对象跟踪进行基准测试,2016年。8[17] L. Leal-Taix e′,C. Canton-Ferre r和K. 申德尔河通过跟踪学习:Siamese CNN用于强大的目标关联。arXiv:1604.07866,2016年。一、二[18] L. Leal-Taix e′,A. 米兰岛Reid,S. Roth和K. 申德尔河MOTChallenge 2015:迈向多目标跟踪的基准arXiv:1504.01942,2015。1、4[19] W.利河,巴西-地Zhao,T.萧,还有X。王. Deepreid:深度过滤配对神经网络,用于人员重新识别。在IEEE计算机视觉和模式识别会议(CVPR)上,2014年6月。4[20]A. 米兰湖 莱亚尔岛。D. Reid,S. Roth和K. 辛德勒MOT16:多目标跟踪的基准arXiv:1603.00831,2016。一、二、四、七[21] A. Milan,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功