基于几何投影的多摄像头多目标跟踪方法

59 浏览量更新于2023-10-25 收藏 17.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Duy M. H. Nguyen1,4, Roberto Henschel2, Bodo Rosenhahn2, Daniel Sonntag3,4, Paul Swoboda 188660LMGP：基于几何投影的提升多切割用于多摄像头多目标跟踪0多目标跟踪01 Max Planck计算机科学研究所，Saarland计算机科学校园， 2 信息处理研究所，莱布尼兹大学汉诺威03 Oldenburg大学 4 德国人工智能研究中心，萨尔布吕肯0摘要0由于其在拥挤场景或广阔空间等实际应用中的出色性能，多摄像头多目标跟踪目前在计算机视觉领域引起了关注。在这项工作中，我们提出了一种基于时空提升多切割的数学优雅的多摄像头多目标跟踪方法。我们的模型利用了0将由单摄像头跟踪器生成的最先进的轨迹作为提议。由于这些轨迹可能包含ID切换错误，我们通过从3D几何投影中获得的新颖的预聚类来对其进行改进。因此，我们可以得到更好的跟踪图，避免ID切换错误，并获得更精确的数据关联阶段的亲和力成本。然后，通过解决一个全局的提升多切割问题，将轨迹与多摄像头轨迹进行匹配，该问题结合了位于同一摄像头以及跨摄像头的短程和长程时间交互作用。在WildTrack数据集上的实验结果表明，该方法表现接近完美，在Campus数据集上优于最先进的跟踪器，与PETS-09数据集相当。我们将在此链接https://github.com/nhmduy/LMGP上发布我们的实现。0通过推导出更好的跟踪图，避免ID切换，并为数据关联阶段提供更精确的亲和力成本。然后，通过解决一个全局的提升多切割问题，将轨迹与多摄像头轨迹进行匹配，该问题结合了位于同一摄像头以及跨摄像头的短程和长程时间交互作用。在WildTrack数据集上的实验结果表明，该方法表现接近完美，在Campus数据集上优于最先进的跟踪器，与PETS-09数据集相当。我们将在此链接https://github.com/nhmduy/LMGP上发布我们的实现。01. 引言0多目标跟踪（MOT），即从场景中提取物体运动，是视频中高级理解信息的基本方法。0物体多目标跟踪（MOT）是从场景中提取物体运动的基本方法，对于视频中的高级理解信息至关重要。MOT最常见的方法是通过分配范式进行跟踪，其中首先在每个时间帧为感兴趣的物体计算检测框，然后通过将相同物体的检测连接起来执行数据关联。在最常见的设置中，单个摄像头面对一个场景，数据关联将不同时间帧的检测相互连接起来[1, 3,9,43]。然而，尽管已经有大量的研究致力于单摄像头的MOT，大规模和0图1.使用四个重叠摄像头的多摄像头跟踪。目标物体（红色矩形）在Cam 3被遮挡，但仍然在Cam 1，Cam 2和Cam4中被观察到。考虑到这个对应关系（红色箭头），我们可以在Cam 3中恢复一个缺失的边界框（红色虚线箭头）。0拥挤场景仍然无法被准确跟踪，错误主要发生在数据关联步骤中。这些错误通常是由于物体的部分可见性（甚至遮挡）和不可区分性引起的。0改善性能的一种可能性是使用多个摄像头面对同一场景，从不同角度拍摄。0使用多个摄像头从不同角度拍摄同一场景（图1）。在这种设置下，部分可见性和不可区分性不太严重，因为一个物体可能在一个摄像头中被遮挡，但仍然可以被另一个摄像头完全观察到。利用这个特性，最近的论文追求了两种主要方法：基于单视图和集中表示的方法。在第一种策略中[16, 28,33,45]，遵循两个步骤的过程：1）在每个摄像头内生成所有目标的局部轨迹；2）通过计算亲和力成本并使用全局优化框架来匹配属于同一目标的局部轨迹跨摄像头。虽然这个框架通过减少假设空间并允许设计基于运动的特征带来了好处，但它的主要缺点在于局部轨迹中包含的ID切换错误，即将不同对象的检测分组到同一轨迹中（图3a）。因此，这些错误将在整个跟踪图中传播，影响总体性能。集中表示方法[47,49]Centralized Representation-Based Methods To estimatethe occupancy map (2D) or occupancy volume (3D), oc-clusion relationships among different detections have beenexplicitly modeled. The works in [14, 31] construct oc-cupancy maps by using the foreground map after a back-ground subtraction step. Ground plane homographs are an-other technique introduced in [26], that generates a vot-ing map from the foreground pixels in each view for occu-pancy map construction. Toward the probabilistic approach[13], GMLP [32] jointly uses CNNs and Conditional Ran-dom Fields to model explicitly an occupancy volume mapgiven detections estimated from multiple cameras. Morerecently [47] (DMCT) propose deep learning to directlycompute the occupancy volume by fusing feature maps ex-tracted from CNNs at multi-camera views.88670另一方面，由于跟踪图中的每个节点都是占用图（而不是轨迹片段），因此它不会受到这些障碍的困扰，占用图是从每个时间帧的所有检测中估计出来的。不幸的是，由于变量的巨大状态空间和整合来自单摄像机方法的进展更加复杂，数据关联步骤的成本增加了。0在这项工作中，我们提出了一种遵循单视图方法的方法-0但是，我们的方法不受此类障碍的困扰，因为跟踪图中的每个节点都是占用图（而不是轨迹片段），占用图是从每个时间帧的所有检测中估计出来的。不幸的是，由0这种设计选择的目的是利用单摄像机跟踪取得的巨大进展，同时有效解决先前研究中遇到的诸如ID-Switch错误等限制，通过我们的新型预聚类步骤利用集中表示思想。具体来说，预聚类步骤（即我们的占用图）中的相应图像允许我们在ID-Switch错误处打破由单摄像机跟踪器生成的初始轨迹片段，并为时间和空间关联性（第4.5节）建立精确的亲和力成本。在此基础上，采用了一种新颖的空时优化模型用于数据关联，该模型考虑了单个摄像机检测到的对象的短程和长程时间相互作用以及单个框架中摄像机之间的空间相互作用（表4）。实验结果表明，在适当的条件下，通过多摄像机环境和精确的边界检测，我们的方法可以在多摄像机上使用多个摄像机进行多目标跟踪，得到几乎最优的解决方案（表1）。0贡献我们的主要贡献可以总结如下。首先，我们引入了一种新的预聚类算法，通过3D几何投影来分组每个时间步的摄像头检测。这有效地消除了来自单摄像机跟踪器的轨迹片段错误，并为数据关联步骤提供了高度准确的亲和力成本。其次，我们提出了一种新颖的空时提升多切割公式，用于多摄像机设置，同时在单个全局公式中优化了摄像机内部和摄像机间以及短程和长程交互。最后，我们在大规模WILDTRACK[7]数据集上获得了几乎完美的性能，在Campus[44]上超越了最新技术，并与PETS-09 [12]数据集持平。02. 相关工作0关于单摄像机的研究已经有很多-0MOT。这些方法侧重于数据关联步骤，其中使用了（提升的）多切割问题[38,39,40]，提升的不相交路径问题[21,22]，最大团[10,48]，多图匹配[23]和二次二次优化[17,18,19,41]。另一个领域是构建端到端可微分的框架，用于检测器和0数据关联[1,9,43,50,53]。有关MOT的详尽调查，请参阅[11]。0多摄像机MOT最近受到越来越多的关注-0关注。相关工作可以分为两种不同的方法：0基于单视图的方法[44]提出了一个层次-0基于单视图的方法[45]提出了一种层次匹配的方法，通过利用对象的多个线索（如外观和它们的3D位置）来匹配局部轨迹片段。在[45]中，匹配-0使用基于贝叶斯公式的空时解析（STP）跟踪图来修剪匹配候选项，通过利用语义属性目标。类似地，[42]使用基于采样的方法在时空视图图上制定了密集的子超图搜索（SVTH）。最近的方法包括一个0半在线多标签马尔可夫随机场（MLMRF）方法[28]，通过alpha扩展[4]和用于跨摄像机分组轨迹片段的非负矩阵分解方法（TRACTA）解决了单个检测的优化问题[16]。另一方面，DyGLIP[33]将多摄像机的数据关联问题形式化为一个图上的链接预测，其节点是轨迹片段。虽然这些方法已经证明了-0集中表示方法为了估计占用地图（2D）或占用体积（3D），不同检测之间的遮挡关系已被明确建模。[14,31]中的工作通过在背景减除步骤之后使用前景图构建占用地图。[26]中引入的地面平面同态是另一种技术，它通过在每个视图中的前景像素上生成一个投票图来构建占用地图。向概率方法[13]迈进，GMLP[32]联合使用CNN和条件随机场来明确建模给定从多个摄像头估计的检测的占用体积地图。最近的工作[47]（DMCT）提出使用深度学习直接计算占用体积，通过融合从多摄像头视图中提取的特征图。0LMGP与单视图和集中表示方法相交。我们使用单摄像头轨迹片段，但通过使用从新颖的基于3D几何的占用地图中得出的多摄像头信息来消除ID切换错误并改进它们。这一因素使我们与竞争方法（表5附录）有所区别。此外，我们是第一个为多摄像头设置制定全局抬升多切割方法。到目前为止，抬升多切割仅应用于单摄像头设置[38, 39,40]。我们认为我们的模型是一个优雅的抽象，捕捉了多摄像头MOT中的各种交互。tions at timestep t observed by camera j.Each detec-tion b 2 B is observed by camera cam(b) and in time-frame time(b). Each single camera tracklet ⌧ consists ofa set of bounding boxes at speciﬁc timepoints, i.e. ⌧ =(b⌧, b⌧, ..., bis the l-th detection of trajectorytions cam and time to tracklets b1time(⌧) = {time(b1), time(b2), . . . , time(b|⌧|)}. Detec-tions of two tracklets that cover the same timepoint are de-noted asO(⌧, ⌧ 0) = {(b, b0) 2 ⌧ ⇥ ⌧ 0 : time(b) = time(b0)} . (1)We denote by f a feature extractor that, given a boundingbox b, produces an embedding vector f(b) representing itsappearance features. h denotes a map that takes a bound-ing box and computes the 3D coordinates of the foot point(center of bottom edge) on the ground plane (z = 0) [15](Section B Appendix).The pre-clustering step aims at bringing into correspon-6()88680我们的模型是一个优雅的抽象，捕捉了多摄像头MOT中的各种交互。03.方法0我们的跟踪流程如图2所示。下面我们详细介绍每个步骤，即用于消除ID切换错误并改进用于计算多摄0在详细描述每个步骤之前，我们介绍本文中使用的符号。设B 为检测集合， B t,j 为摄像头 cam( b ) 在时间帧 time(b ) 观察到的检测。每个单摄像头轨迹片段 �包含特定时间点的一组边界框，即 � = ( b �0Notation 在详细描述我们的方法的每个部分之前，我们介绍本文中使用的符号。设 B 为检测集合， B t,j 为摄像头cam( b ) 在时间帧 time( b ) 观察到的检测。每个单摄像头轨迹片段 � 包含特定时间点的一组边界框，即 � = ( b �0在详细描述每个步骤之前，我们介绍本文中使用的符号。设 B 为检测集合， B t,j为摄像头 cam( b ) 在时间帧 time( b ) 观察到的检测。每个单摄像头轨迹片段 �包含特定时间点的一组边界框，即 � = ( b �0| � | ) ，其中 b �0� .轨迹片段仅包含来自单个摄像头的检测，即 cam( b �0| � | ) .我们扩展了该函数-03.1.基于3D几何的预聚类0不同摄像头在每个时间帧上观察到相同物体的密集检测（图2-b）。这使我们能够克服单个摄像头观察到的遮挡。特别是，如果某个物体被遮挡，我们将能够在不同视角下继续跟踪同一物体（图1）。与先前的工作[14, 31,47]不同，这些工作应用前景减除或融合多个摄像头的图像特征，我们的算法利用了相同物体的检测投影的三维几何约束。特别地，我们将每个边界框的底部边缘中心投影到地图h上以获得其三维坐标（地面点）。如果通过3D变换后，不同摄像头观察到的两个检测的地面点的欧氏距离小于一个典型人的直径，即大约是人的平均宽度（图6-a附录），则这两个检测可能属于同一个人。0b，我们考虑附近检测的集合Bt,j(b) = {b0 ∈0Bt,j: dist(h(b), h(b0)) ≤ r}，由相同摄像头j = cam(b)在相同时间点t =time(b)观察到，其中dist(,)和r分别是欧氏距离和扫描半径。同样，对于摄像头j0 ≠cam(b)，我们考虑由摄像头j0观察到的检测集合Bt,j0(b)。0接近3D位置h(b)。然后，我们通过线性分配问题[6]计算Bt,j(b)和Bt,j0(b)之间的匹配，其中成本是欧氏距离。如果b通过Bt,j(b)和Bt,j0(b)之间的匹配与Bt,j0(b)中的检测b0匹配，反之亦然，如果b0通过Bt,j0(b0)和Bt,j(b0)之间的另一个匹配与Bt,j(b0)中的检测b匹配，我们记录该匹配，因为它表示一个可信的连接。我们将每个检测b的结果簇表示为Cb。整个算法的详细步骤见附录中的算法1。0可见检测聚类。设b ∈ B是一个检测。0并且Cb是在预聚类之后获得的簇。由于我们的算法仅使用边界框的几何坐标，簇Cb可以包含可见和遮挡的检测（图3-b）。设hj是相机j的3D相机位置（附录B中的方程（19））。首先，给定检测b，我们通过计算最接近相机的检测visible(b)来计算一个检测。0visible(b) =0arg min b0 dist(h(b0), hj) s.t. b0 ∈ Btime(b), cam(b): IoU(b0, b) ≥ 0.60然后使用它来优化预聚类，只包含可见检测，通过以下方式：0C0b = {b0 ∈ Cb: b0 = visible(b0)}。 (3)03.2. 空间-时间跟踪图0我们制定了一个全局的空间-时间跟踪图0G = (V, E)，其中每个节点v ∈V对应于单个摄像头中的轨迹�，边表示跨空间和时间的轨迹之间的数据关联（图2-c）。轨迹输出将对应于跟踪图G中的一组节点。为了从当前单摄像头MOT的最新进展中受益，每个摄像头上的每个节点（轨迹）都来自于最先进的跟踪器。我们在实验中使用Center-Track[53]，但也可以使用其他跟踪器替代。0最近的研究[16, 28, 45]直接计算仿射变换0为了解决数据关联问题并解决由单摄像头跟踪器生成的图中的数据关联，我们进一步纠正了轨迹提议中的ID切换错误（图3-a）。原始轨迹中的ID切换严重影响了总体性能，特别是在拥挤或杂乱的场景中。为此，我们利用了预聚类的边界框对应关系，并进行以下步骤。0在潜在的不同时间点上，检测到的b、b0和B的数量tially the same object and an embedding feature f (weuse DG-Net [52]), we aim to obtain robust association fea-tures by considering relations between detections in the vis-ible cluster C0b (Equation 3). To this end, we ﬁrst com-pute for all pairs of detections in (¯b,¯b0) 2 C0b ⇥ C0b0their cosine similarity w.r.t. features extracted by f, thatis D¯b,¯b0 = hf(¯b), f(¯b0)i. Next, we solve a linear assign-ment problem between C0b and C0b0 with costs D¯b,¯b0 foreach pair (¯b,¯b0) 2 C0bM = {(¯b,¯b0) 2 C0b ⇥ Cmatches we estimate thcbestb,b0 =min(¯b,¯b0)2C0b⇥C0b0D¯b,¯b0,cminb,b0 =min(¯b,¯b0)2M D¯b,¯b0,cmaxb,b0 =max(¯b,¯b0)2M D¯b,¯b0,cmeanb,b0=P(¯b,¯b0)2M D¯b,¯b0|M|,cvarb,b0 =X(¯b,¯b0)2M(D¯b,¯b0 � cmeanb,b0 )2 .(4)Splitting TrackletsWe now construct a network fsplit(see Appendix D.2 for the architecture details) for correct-ing ID-Switch errors. Speciﬁcally, for each tracklet ⌧, fsplitscans over all consecutive detections (b, b0) ⇢ ⌧ (Figure 3-a), takes their respective similarity values from Equations 4using the visible detections C0b, C0b0 (Figure 3-b) and returnsa probability score indicating whether or not they belong tothe same tracklet. ⌧ is split into sub-tracklets at the pre-dicted ID-switch error positions that become new nodes inour spatial-temporal tracking graph (Figure 3-c).Figure 3. (a) A tracklet (node) ⌧ with ID-Switch error (two reddashed rectangles) in an initial tracking graph, (b) Using visibleclusters of detections at two consecutive frames, we can cut at theerror positions, (c) Two new sub-tracklets ⌧ 0, ⌧ 00 of distinct objectsare generated.3.3. Learning Afﬁnities with Multi-Camera SettingGiven the tracking graph G=(V, E) after pre-processing for ID-Switch error removal, we compute for88690图2. 我们的LMGP框架示意图。 (a) 在每个摄像头和每个时间点给出输入边界框。 (b)在相同时间点从不同摄像头观察到的边界框通过我们基于3D几何的预聚类步骤初步进行对应。 (c)构建了一个空间-时间跟踪图。图中的节点对应于由单摄像头跟踪器生成的轨迹，根据从步骤(b)中估计的特征通过ID-Error预测器fsplit在可能的ID切换位置进行分割。边对应于可能的轨迹关联，其中有时序边et（在同一摄像头中的短程和长程交互的基本和提升版本）、空间边es（不同摄像头，重叠的时间帧）和轨迹约束边ec（相同摄像头，重叠的时间帧）。 (d)在跟踪图中预处理轨迹之间计算节点之间的关联成本，使用f temporal和fspatial两个网络分别计算跟踪图中的摄像头内和摄像头间的边的相似度成本。 (e)通过我们的提升多切割优化问题，将跟踪图中的轨迹聚类在一起，使用(d)中的相似度成本。 (f) 生成(e)中的轨迹的3D坐标。0b 0 : ¯ b and ¯ b 0 arematched } . On thepairs of tracklets ⌧ = (b1, . . . , b|⌧|) and ⌧ 0 = (b01, . . . , b0|⌧ 0|)afﬁnities representing the probability that both ⌧ and ⌧ 0track the same object. To this end, we consider standardcues based on motion information as in [32, 42, 45]. We ad-ditionally propose novel appearance and 3D position-basedsimilarity costs which harness image correspondences fromour 3D pre-clustering step.3.3.1Temporal AfﬁnitesLet ⌧ and ⌧ 0 be two tracklets, observed by the same cameraand with time(b|⌧|) < time(b01), i.e. following each othertemporally. We compute their similarity based on motionand appearance.Forward/Backward Motion AfﬁnitiesMotion extrapo-lation of ⌧ to subsequent or extrapolation of ⌧ 0 to previ-ous timeframes can provide evidence of whether the twotracklets belong to the same object.We adopt featuresfrom [42, 45] for our settings by using the ﬁrst/last mframes from each tracklet to estimate an average velocityand then predict the forward velocity ~v⌧ of ⌧ and the back-ward velocity �v ⌧ 0 of ⌧ 0. The forward cfw,t and backwardcbw,t afﬁnity are computed by:cfw,t(⌧, ⌧ 0) = kh(b|⌧|) + disp(⌧, ⌧ 0) � h(b01)k .cbw,t(⌧, ⌧ 0) = kh(b01) � disp(⌧, ⌧ 0) � h(b|⌧|)k .(5))cappindex(⌧, ⌧ 0) =Xb2⌧Xb02⌧ 0b,b0cfw,s(⌧, ⌧ 0) = h(b ⌧ ) + ~v⌧h(bcavg3D(⌧, ⌧ 0) =X(b,b0)2O(⌧,⌧ 0)khcpc(⌧, ⌧ 0) =X(b,b0)2O(⌧,⌧ 0)p ·[Cb=Cb0] + (1 � p)[Cb6=Cb0]|O(⌧, ⌧ 0)|(9)6miny2{0, 1}EXe2EX¯e2C\{e}88700其中 disp ( �, � 0 ) = ~v � ∙ t ( �, � 0 )； t ( �, � 0 ) = (time( b 00time( b | � | )) . 多视角外观亲和力属于同一物体的轨迹在时间和摄像机之间应该具有相似的外观。我们通过计算来衡量这一点0index | � || � 0 |，（6）0其中 index 属于 { best , min , max , mean , std }，每个得分 c index ( b, b 0 ) 的计算方式如方程（ 4）所示。请注意，我们将每个检测与其从预聚类步骤中派生的可见图像对应关系相关联，这使我们与之前的工作 [ 28 ,32 , 42 ]不同，因为我们可以同时关联内部和跨摄像机信息。在附录的表 6 中可以找到展示这种新成本的好处的消融研究。03.3.2 空间亲和力0对于每对在不同摄像机中观察到且在时间上重叠的轨迹 � 和 � 0，我们根据它们的运动相似性和投影检测的平均3D距离计算亲和力，就像 [ 42 , 45 ]中所做的那样。此外，我们还提出了基于预聚类一致性的相似度分数，用于它们重叠的每个时间步。0前向/后向运动亲和力类似于时间上的前向和后向亲和力，我们还将在空间上利用运动信息。例如，如果 max { time( � )} < max { time( � 0 ) } ，我们将 ~v � 定义为 � 的前向速度。空间前向亲和力定义为0空间设置中的运动信息。例如，如果 max { time( � ) }

下载后可阅读完整内容，剩余1页未读，立即下载