检测隐形人员的在线跟踪方法与单目深度估计的有效性

152 浏览量更新于2023-10-14 收藏 62MB PDF 举报

卡内基梅隆大学

Argo

身份认证购VIP最低享 7 折!

30元优惠券

31740探测隐形人员0Tarasha Khurana 1 Achal Dave 1 Deva Ramanan 1 , 201 卡内基梅隆大学 2 Argo AI0{ tkhurana, achald, deva } @cs.cmu.edu0t = 0 t = 10 t = 15 t = 200图1：我们从Argoverse[9]中可视化了一个在线跟踪场景，该场景需要通过完全遮挡来跟踪行人。这样的应用程序不能等待对象重新出现（例如，重新识别方法）：自主代理必须在遮挡期间正确反应。我们将遮挡人员的在线检测视为短期预测挑战。0摘要0单目物体检测和跟踪在最近几年取得了巨大的进步，但依赖于一个关键假设：对象对相机可见。许多离线跟踪方法通过在对象重新出现后链接轨迹来推理遮挡对象，使用重新识别（ReID）方法。然而，在具有体验的机器人代理（如自动驾驶车辆）的在线跟踪中，基本上需要对象的永久性，即在对象重新出现之前推理遮挡对象的能力。在这项工作中，我们重新利用跟踪基准并提出了用于检测隐形对象的新度量标准，重点关注人的示例。我们证明了当前的检测和跟踪系统在这个任务上表现出了明显的下降。我们引入了两个关键创新来恢复这种性能下降的大部分。我们将时间序列中的遮挡对象检测视为短期预测挑战，利用了动态序列预测的工具。其次，我们构建了动态模型，通过单目视频而无需校准来明确推理三维观察，使用单目深度估计器产生的观察结果。据我们所知，我们的工作是首次证明单目深度估计在跟踪和检测遮挡对象任务中的有效性。我们的方法在消融实验中比基线提高了11.4％，在F1得分上比现有技术提高了5.0％。01. 引言0目标检测取得了巨大的进展，尽管在一个看似无害的假设下：图像中的对象对相机可见。然而，完全遮挡（因此不可见）的对象继续存在并在世界中移动。事实上，对象永久性是婴儿在3个月大时就展示出的基本视觉线索[3，26]。实际的自主系统必须类似地推理这样的对象，这些对象经历完全遮挡以确保安全操作（图1）。有趣的是，现有的对象检测和跟踪工作倾向于忽视这种能力，要么选择完全忽略高度遮挡的实例进行评估[15，37，50，58]，要么仅仅降低它们的权重，因为它们发生得如此罕见，以至于无法对整体性能产生实质性影响[41]。不可见对象检测可能被跟踪社区低估的一个原因是，在离线分析中，可以在对象重新出现后重新链接检测来事后推理出遮挡对象的存在。这种方法产生了重新识别（ReID）的大型子领域。然而，在在线设置（例如，必须根据可用的传感器信息做出决策的自动驾驶车辆）中，智能代理必须能够在对象重新出现之前即时推理遮挡对象。0问题阐述：我们首先介绍了用于评估检测和跟踪掩蔽对象任务的基准和度量标准。31750跟踪隐形人员。为此，我们重新利用现有的跟踪基准，并引入适当奖励检测遮挡人员的评估此任务的度量标准。为了确保基准在线，我们禁止算法在报告当前帧的对象状态时访问未来帧。尽管这个任务需要推理对象的轨迹，但它可以作为检测问题和跟踪问题来评估。对于后者，我们在补充材料中引入了对跟踪度量的扩展。当分析我们的度量标准时，很容易发现人工标注的真实遮挡对象是具有挑战性的。我们在第4节中提供了初步的人类视觉实验，显示注释者仍然是一致的，但在标记遮挡实例的像素位置上存在较大的变化。这表明，用于遮挡对象检测的算法应该报告对象位置的分布而不是精确的离散（边界框）位置。受预测文献中用于评估多模态分布的度量标准的启发[9]，我们探索了通过Top-k准确性评估的概率算法，该算法进行k次预测。分析：也许并不令人惊讶的是，我们的第一个观察结果是，最先进的检测器和跟踪器在遮挡人员上的性能从68.5％下降到28.4％；检测可见对象比检测不可见对象要容易得多！这凸显了社区需要关注这个未被充分开发的问题。我们引入了两个简单但关键的创新来解决这个任务，将性能从28.4％提高到39.8％。（a）我们将在线跟踪遮挡对象的问题重新定义为短期预测挑战。我们探索了最先进的深度预测网络，但发现经典的线性动力学模型（卡尔曼滤波器）表现得非常好。（b）由于建模遮挡是非常重要的，我们将问题描述为给定2D图像测量的3D跟踪问题。新颖性：虽然存在大量关于从2D跟踪的3D的经典工作[48，7，52，10]，但大部分关注的是跟踪对象的3D建模。相反，我们发现场景遮挡物的3D结构对于理解跟踪对象的“隐藏”位置很重要。通常，这种密集的3D理解需要校准的多视图传感器[53，13]。相反，我们展示了最近在非校准单目深度估计方面的进展提供了“足够好”的相对深度估计，仍然能够进行密集的自由空间推理。这是至关重要的，因为单目深度具有更高的可扩展性[55]。据我们所知，我们的工作是首次使用非校准深度估计来进行多对象跟踪和检测遮挡对象。概述：在回顾相关工作之后，我们提出了我们的核心算法贡献，包括对经典线性动力学模型的简单但关键扩展，以（a）将来自单目网络的假设深度观测融入其中和（b）在遮挡期间预测对象状态。我们最后在三个数据集上进行了广泛的评估[41，054，11]被重新用于检测遮挡的对象。02. 相关工作0Amodal目标检测旨在分割可能部分（但不完全）遮挡的对象的完整范围。[66]引入了这个任务，并使用多个标注者标记了一个数据集，后来由[65]扩展。最近，[46]在KITTI[20]数据集上引入了一个更大的amodal注释数据集。在这种设置下，方法主要依赖于在模态数据集[35，12，63，60]上从合成的amodal注释中训练标准检测器的变体（例如[23]）。由于这一工作线路解决的是从单个图像中进行检测的问题，因此要求对象至少部分可见。相比之下，我们的目标是完全遮挡的人，无法从单帧中恢复。多目标跟踪需要跟踪部分和完全遮挡的对象。这个任务的方法在离线方式下处理遮挡，使用基于外观的重新识别模型在对象变得可见后识别遮挡的对象。这些基于外观的模型可以作为图优化问题的一部分[4，45，62]或在线链接[56，5]的一部分，纳入到跟踪方法中。在这项工作中，我们指出一些方法在内部维护遮挡人的位置的在线估计[5，6，56]，但明确选择不报告这些内部预测，因为它们往往噪声较大，并且受到当前基准测试的严重惩罚。我们对这些内部预测提供了两个简单的扩展，这些扩展在保持可见人的准确性的同时，显著提高了对遮挡人的检测能力。[21]使用上下文的“支持者”跟踪遮挡的对象，但需要用户在无杂乱场景中初始化一个要跟踪的单个对象；相比之下，我们可以在拥挤的人群中同时检测和跟踪人。其他工作也有在3D中进行跟踪的动机，但依赖于额外的深度传感器[19]或立体设置[28，8]。最后，许多基于监视的跟踪系统明确推理对象占用和遮挡，但需要校准的相机来计算地平面坐标[1，18，27，30，31]。相比之下，我们的工作强调在未校准的单目视频中检测被遮挡的人。为此，我们使用单目深度估计器通过解决预测深度估计中的噪声问题的技术创新。我们的方法可以推广到任意视频，因为估计单目深度比为任何视频检索额外的传感器信息更具可扩展性。预测方法预测未来未观察到的帧中的行人轨迹。这些方法利用附近行人的社交线索或语义场景信息来更好地建模人的轨迹[51，34，59，44，40，32]。最近，还提出了用于学习社交线索的数据驱动方法[2，49]。我们注意到，完全遮挡的人的检测可以被形式化为预测可见人在未来帧中的轨迹，其中We build an online approach for detecting invisible peoplestarting with a simple tracker, using estimated trajectoriesof visible people to forecast their location during occlusions.We describe our tracking mechanism, building upon [57].While such trackers internally forecast the location of oc-cluded people for improved tracking, these forecasts tend tobe noisy and cannot directly localize occluded people. Toaddress this, we incorporate depth cues from a monoculardepth estimator to reason about occlusions in 3D.We extend the commonly used constant velocity modelwith Gaussian noise from 2D [6, 56] to 3D:Xt = Xt−1 + ˙Xt−1 + ϵX,ϵX ∼ N(0, σX),(2)where similar equations hold for Yt, Zt and At. Let theobserved (inverse) depth from a depth estimator associatedwith an object be 1/zt. Since image measurements are givenby perspective projection of real world coordinates, we havethe following equations (assuming Gaussian image noise):xt = f XtZt+ ϵx,ϵx ∼ N(0, σx)(3)1zt= 1Zt+ ϵz,ϵz ∼ N(0, σz)(4)with similar equations for yt, ht, and at. Note that inversedepth naturally assumes a large uncertainty in far away re-gions, and a small uncertainty in nearby regions. Deﬁning a31760遮挡人的位置是未观察到的，但帧的其余部分是可观察到的。一些方法确实使用预测来跟踪对象[17，39]，但我们使用恒定速度模型来预测轨迹，并利用观察到的帧中的深度线索，以提高对遮挡人的检测能力。在第4.3节中，我们展示了虽然这种方法可以使用更强大的预测模型，但在我们的设置中，恒定速度近似已足够。03. 方法03.1. 背景0为了在遮挡情况下检测人员，我们基于一个简单的在线跟踪器[57]来估计可见人员的轨迹。我们简要描述与我们方法相关的方面，但是更详细的解释请参阅[57]。在第一帧中，该跟踪器为每个检测到的人员实例化一个轨迹。跟踪器将每个轨迹添加到其“活动”集合中，表示到目前为止已经看到的人员。每个轨迹维护一个卡尔曼滤波器，其状态空间编码人员的位置（x，y），纵横比（a），高度（h）和相应的速度（˙x，˙y，˙a，˙h）。滤波器的过程模型假设具有高斯噪声的恒定速度模型（即，xt = xt-1 + ˙xt-1 +ϵx）。在每个连续的帧中，跟踪器首先运行滤波器的预测步骤，使用过程模型预测轨迹在新帧中的位置。接下来，根据外观特征和到轨迹预测位置的距离（由滤波器估计）将当前帧中的每个检测与此集合中的活动轨迹匹配。对于所有未匹配的检测，创建一个新的轨迹。如果轨迹与检测匹配，将检测用作更新轨迹滤波器的新观测，并将检测报告为轨迹的一部分。重要的是，如果轨迹与任何检测都不匹配，则不报告其预测的框。当轨迹连续N个帧未与检测匹配时，将删除该轨迹。03.2. 遮挡情况下的短期预测0尽管此跟踪器在每个步骤内部预测所有轨迹的位置，但其估计值仅用于改善轨迹与检测之间的关联，并且不会外部报告。然而，这些内部预测的轨迹位置非常重要，因为它们可能对应于遮挡的人员。我们证明了简单地报告这些轨迹位置0导致遮挡人员的显著召回，但是这些估计值中的噪声导致精度较差。此外，这些嘈杂的估计值导致整体准确性略微降低，因为标准基准主要关注可见人员。我们通过使用3D信息来改进这些估计值。具体而言，我们使用单目深度估计器[36]获取场景的每个像素深度估计。然后，我们使用逆深度增强我们的卡尔曼滤波器状态空间。逆深度是由深度估计器[36，33]预测的常用表示形式，具有重要的优点，包括能够表示无限远的点以及能够在像素视差空间中建模不确定性（用于基于立体的深度估计[42]常用）。因此，我们的状态空间还包括1/z变量。03.3. 使用2D图像坐标在3D相机坐标中进行跟踪0配备深度估计，我们使用2D测量在3D中使用恒定速度模型进行跟踪。与先前的工作不同，先前的工作假设（投影）2D图像测量中的线性动力学，我们的动力学模型使用深度线索在3D中操作，从而得到更加真实的人物轨迹。我们通过证明未知的相机焦距f可以折叠成一个运动噪声参数，可以在训练集上轻松调整，从而推导出我们的非校准跟踪器。因此，我们的最终方法可以在任意视频上进行无校准运行。让我们将物体建模为具有质心（X t，Y t，Zt），高度H和纵横比At的圆柱体。我们将物体高度建模为恒定值，但允许纵横比变化，因为人是非刚性的。然后，我们可以计算图像测量的边界框，其中质心（xt，yt）和尺寸（ht，at）如下：0xt = f Xt0Z t，y t = f Y t0Z t，h t = f 0Z t，a t = A t（1）PredictCorrecttt+1124(a) past t-1(d) depth t(c) matcht(e) filtert(b) predictt123413yxz2xyz24velocity statebox stateforecastsray from cameraobserved detectionsfreespace horizonfarnear1342134Figure 2: (a) Frame t − 1 has active tracks {1, 2, 3, 4}, each with an internal state of its 2D position, size, velocity, and depth(see text). (b) We forecast tracks in 3D for frame t. (c) Tracks are matched to observed detections at t using spatial andappearance cues. Matched tracks are considered visible (e.g. 1, 3). Tracks which don’t match to a visible detection (e.g. 2, 4)may be occluded, or simply incorrectly forecasted. (d) To resolve this ambiguity, we leverage depth cues from a monoculardepth estimator, to compute (e) the freespace horizon. The region between the camera and the horizon must be freespace,while the area beyond it is unobserved, and so may contain occluded objects. Tracks lying beyond the freespace horizonare reported as occluded (e.g. 2). Tracks within freespace (e.g. 4) should have been visible, but did not match to any visibledetections. Hence, we assume these tracks are incorrectly forecasted, and we delete them.3D state space leads us to a modiﬁed formulation, written as�f XtZt , f YtZt , 1Zt , At, f HZt , f˙XtZt , f˙YtZt , ˙At�. We can thereforerewrite Equation (2) as:f XtZt≈ f XtZt−1= f Xt−1Zt−1+ f˙Xt−1Zt−1+ f ϵXZt−1(5)xt ≈ xt−1 + ˙xt−1 + f ϵXZt−1(6)where the approximation holds if depths are smooth overtime (Zt ≈ Zt−1). Technically, the above is no longer alinear dynamics model since the noise depends on the state.But the equation suggests that one can approximately ap-ply a Kalman ﬁlter on 2D image measurements augmentedwith a temporal noise model that is scaled by the estimatedinverse-depth of the object. Intuitively, this suggests that oneshould enforce smoother tracks for objects far away. Ourapproach thus scales the process noise (ϵX) for far awayobjects, leading to more accurate predictions. Algorithmi-cally, [57] by default scales process and observation noisecovariances according to the person’s height; our approachinstead multiplies the process covariance by the person’sestimated depth, computed by aggregating past monoculardepth observations and state estimates over time.Assumptions. Because we do not assume calibrated cam-eras, we do not know f. Rather, we make use of trainingvideos provided in standard tracking benchmarks and simplytune scaled variances σ′X = fσX directly on the training set.We make two additional assumptions: that people move withconstant velocity in 3D, and that depth estimates are smoothover time. Although these do not always hold in real worldscenarios, we empirically ﬁnd that our method generalizesto diverse scenarios.Filtering estimates lying in freespace. Equipping our31770具有深度信息的状态空间使我们能够预测3D轨迹。同时，应用单目深度估计器可以确定在不需要校准的情况下相机对于3D空间中的哪些区域是被遮挡的。具体来说，如果我们的方法预测一个人在点P_f = (x_f, y_f,z_f)，我们可以通过估计P_f是否位于相机和最近遮挡物之间的自由空间[13]来确定P_f是否应该对相机可见。在图2的滤波阶段中，我们可视化了“自由空间地平线”的一个切片：地平线之外的点是被遮挡的，而相机和地平线之间的点是可见的。0具体来说，让z_o是（观测到的）地平线在（x_f，y_f）处的深度。如果预测的深度（z_f）比地平线深度（z_o）更接近相机，就像图2（e）中的人物“4”一样，那么这个人就必须在相机和最近物体之间的自由空间中，因此是可见的。如果我们没有检测到这个人，那么我们就认为预测是错误的，并且要么抑制当前帧的预测框（在小误差的情况下，当z_f <α_suppz_o时），要么完全删除该轨迹（在大误差的情况下，当z_f< α_deletez_o时）。这种方法的一个关键优势是能够推理出不仅来自被跟踪人员之间的相互作用，还包括来自树木或汽车等自然遮挡物的遮挡物的遮挡。第4.3节显示了这种修改对于提高轨迹预测的精度至关重要。0相机运动。相机运动是具有挑战性的，因为我们的方法假设轨迹具有线性动力学。为了解决这个问题，我们遵循之前的工作（例如，[5]）中估计相邻帧之间的非线性像素变形W的方法，该变形将一个帧中的像素坐标（x_t−1，y_t−1）映射到下一个帧（x_t，y_t）。然后，我们使用这个变形来对使用t-1帧预测的框与t帧进行对齐。需要注意的是，这种对齐假设动态物体的运动相对于相机来说很小。<0.10.1-0.40.4-0.70.7-1.0Visibility0.00.20.40.60.81.0Average IoUHuman annotator agreement31780场景运动，从而可以使用图像配准算法[14]。尽管这种修改的简单性，但我们在补充材料中显示它对于移动相机序列有很大的帮助。我们还在补充材料中详细介绍了我们的算法的伪代码。我们接下来进行任务和先前方法的实证分析，展示了我们提出的方法的每个组成部分的好处。04. 实验结果0我们首先描述我们提出的基准，包括数据集和我们提出的用于评估检测遮挡人员任务的指标。接下来，在第4.1节中进行了一个oracle研究，分析现有方法在检测遮挡人员方面的表现如何。然后，我们将我们提出的方法与这些最先进的方法在多个设置中进行比较，在第4.2节中进行了详细分析。最后，在第4.3节中进行了详细的消融研究，分析了我们方法的每个组成部分。数据集。评估我们的方法是具有挑战性的，因为大多数数据集没有注释遮挡的对象。MOT-17[41]、MOT-20 [11]和PANDA[54]数据集是关键的例外，它们标记了可见和遮挡的人员，以及一个表示人员对相机可见部分的“可见性”字段。我们发现这些数据集中的大多数注释（每个数据集超过85%）是至少部分可见的人员，导致对这些数据集的标准评估过于强调遮挡的人员。为了解决这个问题，我们单独评估完全遮挡的人员的准确性（由<10%的可见性指示）。MOT-17包含7个具有公开可用的groundtruth的序列和7个具有保留groundtruth的测试序列。我们在这14个序列上进行评估。MOT-20包含8个序列，其中4个具有保留groundtruth。PANDA为其10个训练和5个测试序列正式发布了高分辨率的2FPSgroundtruth。由于在如此低的帧率下进行跟踪和预测是具有挑战性的，我们联系了作者，他们为9个训练视频提供了高帧率（30FPS），低分辨率的groundtruth。我们在MOT-20和PANDA的训练集上报告结果，而没有在这些数据集中的任何视频上调整我们的流程。通过视觉检查，我们发现PANDA中的可见性标签往往是有噪声的（见补充材料），因此我们将可见性高达33%的对象定义为遮挡。我们在MOT-17训练集上进行包括oracle和消融研究在内的分析，并在MOT-17测试集、MOT-20和PANDA数据集上报告最终结果。总的来说，这三个数据集针对不同的应用场景——静态监控摄像头、车载摄像头和手持摄像头。指标。由于大多数基准主要由可见人员组成，现有的衡量所有人员性能的指标会低估检测遮挡人员的准确性。我们提出了检测和跟踪指标（后者见补充材料），用于评估遮挡人员的准确性，如可见性<10%和0图3：我们展示了由多个（4个）内部标注员标注的边界框（左）。在小遮挡时，标注员强烈一致。在大遮挡（可见度低于10%的最后一帧）时，标注员仍然在相当程度上一致（平均IoU重叠为60%，右），但需要时间上下文。我们使用这些来证明我们的Top-k评估并推动我们的概率跟踪方法。0对所有（可见和不可见）人进行评估。由于定位完全遮挡的人比可见人的位置不确定性更高，我们允许算法为每个人预测k个潜在位置。Top-kF1：我们首先修改了标准的检测评估协议[15,37]。对于每个人，我们允许方法报告k个预测，P = {p1,p2, ...,pk}。我们基于交并比（IoU）将这些预测与所有的真实边界框进行匹配。我们定义真实边界框g与P之间的重叠为与预测pi在P中具有最大重叠的重叠，即IoU(g, P) = max i IoU(g,pi)。我们使用这个重叠定义，并对预测和真实边界框之间进行标准匹配，最小重叠阈值为αIoU。在评估所有人的准确性时，匹配的真实边界框是真正例（TP），所有未匹配的真实边界框是假负例（FN，或漏检），未匹配的检测是假正例（FP）。在评估遮挡人员的准确性时，只有匹配的遮挡真实边界框计为TP，只有未匹配的遮挡真实边界框计为FN，所有未匹配的检测计为FP。直观地说，当评估遮挡人员的指标时，我们不会因为检测器正确检测到一个可见人而对其进行惩罚，但我们会因为没有匹配到任何可见或遮挡人员的假正例而对其进行惩罚。我们现在描述如何获得k个预测的向量：除了状态均值（第一个样本）之外，我们的概率方法还维护x和z状态变量的协方差，从而得到一个二维高斯分布。由于这些高斯分布可能会错误地扩展到自由空间，我们执行拒绝抽样来累积符合自由空间约束的k-1个预测。这给我们了P。对于不具有概率性或无法访问深度图的基线方法，我们通过调整两个控制高度函数的尺度因子来人为模拟这个分布。我们在MOT-17训练集上调整这些尺度因子，并在整个实验中使用它们。Top-1 F1：当k=1时，这个指标就是标准的F1指标。我们还报告这个Top-1F1用于31790检测轨迹遮挡策略在线？前5 前1 F10遮挡 F1 遮挡精确率遮挡召回率所有F1 遮挡所有0Groundtruth（可见） Groundtruth 插值 - 87.3 ± 0.1 83.8 ± 0.2 91.1 ± 0.1 98.0 ± 0.0 79.8 96.8 Faster R-CNNGroundtruth 插值 - 46.4 ± 0.1 65.5 ± 0.1 35.9 ± 0.1 70.5 ± 0.0 34.4 68.10Groundtruth（可见） DeepSORT 插值 - 53.3 ± 0.2 86.7 ± 0.1 38.5 ± 0.2 92.3 ± 0.0 44.4 92.0 Faster R-CNNDeepSORT 插值 - 32.2 ± 0.0 60.8 ± 0.2 21.9 ± 0.0 69.9 ± 0.0 23.2 68.40Faster R-CNN DeepSORT 预测 - 29.8 ± 0.2 29.5 ± 0.4 30.2 ± 0.1 69.4 ± 0.0 20.9 66.50表1：使用Faster R-CNN检测，在MOT-17训练集上报告遮挡和所有人的Top-5 F1和Top-1 F1的Oracle消融实验。'Occlstrat'代表遮挡策略。我们报告3次运行的Top-5均值和标准差。0遮挡和所有人。我们不使用标准的“平均精度”（AP）指标，因为MOT和PANDA数据集上的大多数检测器和跟踪器不报告置信度。为了指导评估，我们进行了一项人类视觉实验，由10名内部标注员对59个带有遮挡的轨迹进行标注。图3显示，标注员在标注遮挡人员时的一致性较低，而在标注可见人员时较高。为了解决定位遮挡人员的模糊性，我们在实验中选择了较低的α IoU = 0.5和k =5。实现细节。我们在MOT-17训练集上使用Faster R-CNN[47]检测器对我们的方法进行参数设置。在训练集上过滤预测的最佳阈值为α delete = 0.88，α supp =1.061。在遮挡期间，我们将一个人视为一个点，冻结其宽高比和高度。我们将Nage固定为30。补充材料提供了我们方法、参数及其调整协议的进一步细节，包括通过调整Nage来改进的内容。我们在MOT-17训练集上进行调整，并将这些调整后的参数应用于MOT-17测试集、MOT-20和PANDA。我们发现我们的方法及其在训练集上调整的超参数很好地推广到测试集上。我们使用[36]进行单眼深度估计，已经证明在野外工作中效果很好。虽然这些估计可能存在噪声，但我们在定位中使用的相对深度排序在我们的方法中相当稳健。04.1. Oracle研究0可见检测对遮挡检测的影响是什么？我们首先评估了一种离线方法，该方法使用groundtruth的可见人检测和跟踪来（线性）插值遮挡人的检测结果（表1）。由于该方法完美地定位了可见人，并且该基准中的大多数人都是可见的，因此它实现了高达98.0的整体Top-5F1（表1，第1行）。此外，尽管使用简单的线性插值，这个oracle也为不可见的人实现了高达87.3的Top-5F1。这个结果表明，尽管长期预测行人轨迹可能需要更高级别的推理[ 51 , 34 , 40 ]，但短期遮挡可以线性建模。01 注意，α supp >1允许预测的深度比观测到的深度更接近相机，以考虑深度估计器中的潜在噪声，从而减少被抑制的预测数量。0接下来，我们评估相同的方法，使用Faster R-CNN [ 47]模型的检测结果代替groundtruth（表1，第2行）。这导致整体和遮挡准确性都显著下降，表明改进可见人检测可以提高对不可见人的检测。最后，尽管遮挡Top-5F1下降了，但仍明显高于随机猜测，表明当前配备适当跟踪器的检测器可以检测到不可见的人。0跟踪对遮挡检测的影响是什么？到目前为止，我们假设检测结果的链接是oracle级别的，允许对边界框进行线性插值以检测遮挡的人。我们现在评估使用在线跟踪器和再识别的影响，以检测遮挡的人。去除oracle会导致准确性的大幅下降：使用groundtruth检测结果，遮挡人的Top-5F1得分下降了30多个点（从87.3降至53.3，表1第3行），使用FasterR-CNN检测结果下降了14个点（从46.4降至32.2，表1第4行）。尽管遮挡Top-5 F1显著下降，但整体Top-5F1更加稳定（从98.0降至92.3，使用groundtruth检测结果，从70.5降至69.9，使用FasterR-CNN），表明整体人员检测低估了检测遮挡人的重要性。0在线方法是否有效？这些结果表明，在离线设置中，现有的可见人检测和跟踪方法可以通过插值检测到不可见的人。我们现在评估一个简单的在线方法，该方法使用现成的可见人检测器（FasterR-CNN），配备一个跟踪器（DeepSORT）和线性（恒定速度）预测来检测不可见的人（表1，第5行）。转向在线设置会导致类似的Top-5F1得分，但显著降低了遮挡人员的精确度，从60.8降至29.5。这是预期的，因为即使线性预测召回了更多的框（从21.9增加到30.2），它的天真性质导致了更多的误报，从而降低了精确度，因此得分相似。在第4.3节中，我们提出了对该方法的简单修改，以弥补这种性能差距。Top-5 F1Top-1 F1MOT-17MOT-20PANDATop-5 F1Top-1 F1MOT-17MIFT [24]38.4 77.3 29.7 76.7UnsupTrack [29]35.9 78.1 26.6 77.4GNNMatch [43]35.2 74.3 26.3 73.7GSM Tracktor [38] 35.4 73.8 26.2 73.2Tracktor++ [5]33.3 73.3 24.8 73.0MOT-20Tracktor++ [5]44.2 76.0 34.2 75.3UnsupTrack [29]41.7 71.4 30.9 70.8SORT20 [57]38.5 65.2 27.3 63.631800遮挡全部遮挡全部0DPM [ 16 ] 17.2 46.7 13.2 46.5 + 我们的方法24.6 (+7.4) 49.3 (+2.6) 17.4 48.4 FRCNN [ 47 ]28.4 68.5 20.1 67.4 + 我们的方法 39.8 (+11.4)70.5 (+2.0) 26.7 68.5 SDP [ 61 ] 45.2 80.5 35.879.8 + 我们的方法 51.2 (+6.0) 80.8 (+0.3) 38.579.4 Tracktor++ [ 5 ] 32.4 77.0 22.7 76.8 +我们的方法 45.4 (+13.0) 77.2 (+0.2) 33.2 76.5MIFT [ 24 ] 37.8 75.9 29.9 75.1 + 我们的方法44.9 (+7.1) 75.6 (-0.3) 33.8 74.3 CTrack [ 64 ]38.7 84.8 29.4 84.2 + 我们的方法 47.9 (+9.2)84.4 (-0.4) 36.4 83.40FRCNN 42.5 71.2 27.5 70.7 + 我们的方法 46.1(+3.6) 71.5 (+0.3) 28.6 70.90GT（可见） 45.5 90.6 30.5 90.5 + 我们的方法49.5 (+4.0) 90.5 (-0.1) 34.1 90.30表2：在MOT-17 [ 41 ]，MOT-20 [ 11 ]和PANDA [ 54]训练集上的结果。我们评估使用MOT-17提供的公共检测结果（DPM，FRCNN，SDP），两个基于公共检测结果的跟踪器（Tracktor++，MIFT），以及不使用公共检测结果的CenterTrack。我们在MOT-20和PANDA上使用（公共FR-CNN，可见的）groundtruth检测结果。我们的方法在所有跟踪器上都改进了遮挡人物的检测。04.2. 与之前的工作比较0接下来，我们将我们的方法应用于现有方法的输出，以评估其相对于之前工作的改进。表2显示了在MOT-17训练集上的结果，显示我们的方法在Occluded Top-5F1上的改进范围为6.0到13.0个点，同时保持整体F1。检测不可见人物需要可靠的可视人物的非模态检测器（参考第4.1节）。因此，我们使用PANDA中的可见groundtruth检测结果，类似于第4.1节中的oracle实验，因为PANDA没有提供公共的非模态检测结果（不像MOT-17或MOT-20）。表2显示，我们的方法在使用groundtruth可见检测结果的PANDA上将遮挡人物的检测结果提高了4.0%，在使用Faster-RCNN公共检测结果的MOT-20上提高了3.6%。我们明确地没有针对这两个数据集调整超参数，表明我们的方法对视频数据分布的变化具有鲁棒性。MOT-20和PANDA包含一些自上而下的视图序列，遮挡很少。我们在这些序列上禁用了深度和遮挡推理，请参见补充材料。由于MOT-17和MOT-20测试标签是保密的，我们与MOTChallenge的作者合作，在测试服务器上实现了我们的评估指标。表3显示，MIFT 2[ 24 ]和Tracktor++ [ 5

下载后可阅读完整内容，剩余1页未读，立即下载