大规模3D多相机多人跟踪数据集

187 浏览量更新于2023-10-15 收藏 857KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4860MMPTRACK：大规模密集注释多摄像机多人跟踪基准晓天韩全增尤春雨王志政张鹏储厚东胡江王子成刘微软{xiaothan，quyou，chnuwa，zhizhang，pengchu，houhu，jiangwang，zliu}@ microsoft.com摘要多摄像机跟踪系统在需要高质量跟踪结果的应用中越来越受欢迎，例如无摩擦结账。在杂乱和拥挤的环境中，单目多目标跟踪（MOT）系统经常由于遮挡而失败。多个高度重叠的相机能够恢复部分3D信息。如果使用得当，3D数据可以显著缓解遮挡问题。然而，训练多相机跟踪器需要具有不同相机设置和背景的大规模多相机跟踪数据集。这些要求使得多相机跟踪数据集的收集具有创建此类数据集的成本限制了该领域数据集的可用性和规模。相反，我们呼吁一个自动注释系统，以降低成本，它使用重叠和校准的深度和RGB相机来建立一个3D跟踪器，并自动生成3D跟踪结果。人工检查和纠正结果，以确保标签质量，这比单纯的人工注释便宜得多。接下来，将3D跟踪结果投影到每个校准的RGB相机视图以创建2D跟踪结果。通过这种方式，我们从五个不同的环境中收集和注释大规模密集标记的多相机跟踪数据集我们已经进行了广泛的实验，使用两个实时多摄像头跟踪器和一个人重新识别（ReID）模型在不同的设置。该数据集为杂乱和拥挤环境中的多相机、多目标跟踪系统提供了可靠的基准。我们希望这个基准能够鼓励更多的研究尝试在这个领域。我们的数据集将在接受这项工作后公开发布。1. 介绍多目标跟踪（MOT）[7，31]是计算机视觉的基本研究问题之一。作为投影到RGB相机RGB跟踪标签地面实况图1：自动标注系统由多个校准的深度传感器和RGB摄像头组成，用于构建3D跟踪器，生成伪地面实况3D跟踪结果。跟踪结果被手动校正并作为跟踪标签投射到每个RGB相机视图。随着更有效和更强大的深度神经网络不断被开发，近年来MOT系统的准确性已经得到了实质性的提高。然而，单目MOT系统仍然会在拥挤的环境中产生跟踪误差，其中跟踪对象经常发生遮挡。因此，这样的系统可能不适合需要高度准确和一致的跟踪结果的应用，例如零售商店中的无摩擦结账或自动驾驶。最近，多相机系统已经在这些应用中被广泛地部署[1]。重叠和校准的相机可以相当大地补救遮挡问题。因此，多摄像机跟踪系统比单摄像机跟踪系统实现了更高的精度[48]。然而，由于数据收集和符号挑战，只有少数小型多相机数据集是公开可用的缺乏高质量的训练和评估数据使得难以进一步改进当前的多相机跟踪系统。在本文中，我们收集并标注了一个大规模的多摄像机多目标跟踪数据集，该数据集由全身边界框和跨所有RGB摄像机视图以及共享的自顶向下视图的一致跟踪ID组成。标签由自动注释系统注释，该系统利用深度传感器来构建高性能3D跟踪器。图1说明了概述深度传感器RGB相机相机校准深度跟踪器z世界坐标系xy4861我们的系统。它由多个校准的深度传感器和RGB相机。我们遵循[44]中的设计，其中3D跟踪器在由深度传感器构建的3D空间的投影自上而下视图上工作我们在投影的自顶向下视图上训练每个检测器，并遵循检测跟踪框架[3]来构建3D跟踪器。3D跟踪器在投影的自上而下视图上产生一致且准确的跟踪结果。我们进一步要求人类注释者纠正3D跟踪错误，如ID开关和假阳性跟踪。使用相机参数将经校正的每帧3D跟踪结果投影到所有同步RGB流。实验结果表明，该自动标注系统可以生成高质量的跟踪标注（ 100%IDF1 和99.9%MOTA），并且人工成本降低到传统标注方法的1/800我们在实验室中设置了五个具有挑战性的环境在自动标注系统的帮助下，我们构建了迄今为止最大的多摄像机多人跟踪数据集。数据集被密集地注释，每帧全身边界框和个人身份是可用的。我们在各种设置下对我们的数据集评估了两个最先进的实时多相机个人跟踪器[45，48]和个人重新识别（ReID）模型[50]我们的实验表明，在公开可用的数据集（如MS-COCO[29]或MSMT[40]）上训练的检测器，跟踪器和Re-ID模型在这些具有挑战性的环境中表现不佳，因为视角差异和域间隙。然而，使用数据的训练分割来调整模型可以显着提高准确性。我们期望这种大规模的多摄像机多人跟踪数据集的可用性将鼓励更多的参与者在这个研究课题中。该数据集对于其他任务的评估也很有价值，例如多视图人员检测[20，28]和单目多人跟踪[7]。概括起来，我们的贡献如下：• 我们构建了最大的密集注释的多摄像机多人跟踪数据集，以鼓励更多的研究这个话题。• 我们提出了一种自动注释系统，以快速和经济高效的方式为多相机环境生成高质量的跟踪标签。• 我们进行了大量的实验，以揭示我们的数据集的挑战和特点。2. 相关工作多摄像机多目标跟踪是计算机视觉领域的一个研究热点。在此之前，已经提出了不同的基于图的方法来解决跨不同框架和相机[5，46，18，35，38，11，41，12，17]。再-cent方法[33，43，37，22]尝试将深度ReID特征应用于数据关联。需要额外的努力来处理跨相机的外观变化[23，21]。这些方法可以应用于具有非重叠相机的环境，但是它们不能明确地利用相机参数进行跨相机关联和3D空间定位。其他方法采用摄像机校准来进行航迹合并和跨摄像机关联。概率占有图（POM）[15]是早期的代表性研究之一。POM提供了一个强大的估计地面平面占用，这是关键，以建立一个高性能的跟踪器在拥挤的环境。此外，单应性[13]用于合并来自所有摄像机视图的头部片段后来，深闭塞[4]通过利用卷积神经网络（CNN）和条件随机场（CRF）来推理闭塞，扩展了这一思想最近，3D姿态估计和3D人物检测方法被用于多相机人物跟踪[48]。3D姿态可以通过使用3D回归网络或图形匹配合并来自多个2D相机视图的2D图像估计来估计[36，10]。同时，多视图人员检测方法[20，28，34，19]利用相机校准来合并多个2D检测或特征，以生成更可靠的3D人员检测结果。这些方法严重依赖于2D人物检测或2D姿态估计的质量。这些3D姿态和检测可以用于3D跟踪器。数据集多摄像机跟踪研究中采用了多个摄像机高度重叠的多摄像机跟踪数据集。其中，PETS 2009[14]、Laboratory[15]、 Terrace[15]、 Passage-way[15]、 USCCampus[25]和CamNet[47]已被低分辨率摄像机采集，仅具有少量帧和个人身份（ID）。 EPFL- RLC[9]、CAMPUS[42] 和 SALSA[2] 是最近发布的。然而，EPFL-RLC只有300个注释帧，而CAMPUS没有3D地面实况。WILDTRACK数据集[8]由高质量的注释组成，数据集FPSGT（帧）长度（分钟）南加州大学校园[25] 1330没有没有135,00025CamNet[47]6825是的没有360,00030[32]第三十二话1860没有是的 2,448,00085SALSA[2]1415是的是的1，200英镑60WILDTRACK[8]1760是的是的 107 × 9，51860MMPTRACK（我们的）52315是的是的 2，979，900英镑576表1：代表性的多摄像机人员跟踪数据集。FPS是Frame per second的缩写。4862我我我摄像机视图和3D地面实况的选择，以及更多的人的身份。然而，注释是稀疏的，并且限于 400 帧。DukeMTMC[32]被重新租赁了超过200万帧和超过2700个标识。然而，在不同的相机之间几乎没有重叠。表1将我们的数据集（MMPTRACK）与几个现有的数据集进行了比较。MMPTRACK在室内环境中使用大量校准的重叠摄像机捕获，这与无摩擦结账等应用更好地对齐。MMPTRACK在视频长度和注释帧的数量方面都比现有数据大得多。视频被标记为帧明智的全身边界框和一致的人的身份跨越所有相机。3. 数据集集合深度和RGB流在Azure Kinect内部和之间同步记录。3.3.摄像机标定内部参数我们直接从其SDK获取Azure Kinect内部参数。我们将内在参数记为I。外部参数在我们的设置中，一个摄像机的视场至少与另一个摄像机重叠. 我们使用OpenCV 库 2中的ArUco标记作为世界坐标系中的参考我们建立了一个连通二部图，其中摄像机和ArUco标记是顶点. 如果ArUco标记k ermi在相机cj的视野内，则我们将在它们之间添加边eij。图4显示了一个连通二部群Saph的一个例子产业环境。设P=Pi是de的集合，3.1. 数据集统计数据收集的数据集的统计数据总结见表2。我们的数据集在五个不同且具有挑战性的环境中以每秒15帧（FPS）的速度记录。在-所有标记的角点（Pi是来自第i个标记）。然后，通过优化获得外部参数集合E，Σ|P|ΣC我们总共收集了大约9个。6个小时的视频，超过半个为每个摄像机视图添加100万个逐帧注释。这是迄今为止最大的公开可用的多摄像头多Emax=argmaxE、Mci=1 c=1人跟踪（MMPTRACK）数据集。Envs零售大堂行业咖啡馆办公室总摄像头数量6444523列车（分钟）8465521446261验证（min）4332312819153试验（min）4532323122162总计（min）1721291157387576表2：多相机多人跟踪（MMPTRACK）数据集的统计。图2示出了来自两个不同环境的每个摄像机视图的跟踪标签的示例虽然这两个环境都拥挤和混乱，但我们的地面实况在所有相机视图中展示了高质量的全身边界框和一致的人物ID。3.2. 环境设置我们在实验室中设置了5种不同的环境，咖啡店，工业，大堂，办公室和零售。我们在每个环境中都安装了Azure Kinect摄像头，具有固定的位置和视角。图3示出了每个环境内的地平面上的不同相机之间的视场重叠。Azure Kinect可以同时记录RGB和深度流。它们的RGB流被用作我们数据集的默认RGB相机（见图1）1.1其他RGB摄像头也可以用于数据收集，只要使用现有的AzureKinect摄像头进行校准即可。其中，λ· λ表示欧几里得距离，λc是指示函数，仅当点pi是vis时，其值才等于1在相机视图中，M={m，i=1，···，|P|}在世界坐标系中删除标记的角点。在[26]中提出的图优化方法是解决Eq。（一）.3.4. 数据集集合我们的数据集记录在四个半天的会议。在每一次会议中，我们聘请了七个不同的主题参与。每个主体都可以即兴发挥，只要他们的行动适合环境设置。例如，在零售环境中，他们可以自由地进行任何购物行为，推着购物车，拿着篮子，排队结账;而在咖啡厅的环境中，他们可以坐在一起，喝酒，聊天等。按照这样的指示，收集的数据集涵盖了各种各样的人的行为。我们总共有28名受试者，年龄，性别和种族不同，这为我们的数据集提供了3.5. 三维自动标注系统我们的3D自动注释系统利用深度流来执行高质量的3D人物跟踪。算法1中描述了系统的工作流程。我们使用[44]中发布的数据构建了我们的3D跟踪器，该数据在环境或环境方面与当前数据集没有任何重叠。2https://docs.opencv.org/4.x/d5/dae/tutorial_aruco_detection.html4863i、jIJ图2：我们数据集的图像和跟踪注释示例左、右图像来自工业和大堂环境，分别。咖啡店行业大堂办公室零售整个场景的云从校准和同步的深度相机。给定内参数I和外参数E，点云P计算如下：图3：地平面上每个环境的摄像机视图之间的重叠。每一个红点都代表着...[C]P=（Ec）−1<$（Ic）−1<$Σ ΣTi、j、d、c（二）一个相机的阳离子X轴和Y轴表示大小c=1i j每个环境的像素（每个像素单元是其中i和j索引所有有效位置，并且dc表示20毫米）。图4：在工业环境中校准相机时，相机和ArUco标记的二分图话题吧从合并的3D点云构造自顶向下视图图像。这种设计避免了环境-摄像机C自顶向下视图投影我们将点云P离散为二进制体素集合 V 。每个体素 Vi 、 j 、 k 覆盖体积为20mm×20mm×20mm的立方体。 Vi，j，k= 1当且仅当至少存在一个点Pi′，j′，k′，使得它位于Vi，j，k覆盖的立方体内.我们将世界坐标系的X轴可以通过将V投影到X-Y地平面上来获得自顶向下视图图像Td更具体地，其在位置（m，n）处的值被计算为：诸如照明、摄像机角度等相关因素。因此，3D跟踪器可以容易地推广和应用于不同的环境。Td（m，n）= arg maxVm，n，z，（3）z，V（ m，n，z）=1RGBD自动标注系统的算法1输入：同步RGB和深度流以及相机参数C输出：每个摄像机视图程序AUTO-注释B←list（）Person边界框当所有流没有结束时，R←set（）同步RGB图像D←set（）Synchronized Depth imagesforstream inStreamsdor，d←stream.read（）add（r，R）add（d，D）端P ←PointCloudGen（R，D，C）Td←TopdownViewGen（P）场景的自顶向下视图B ←PersonDetector（Td）Tr ←3DTracker（B，P）3D TrackletsBC ←Projection（Tr，C）摄像机视图边界框append（Bc，B）endwhilereturnB结束程序点云重建我们重建了其可以被感知为内部填充体素的高度每个立方体Vm，n，（·）。我们设计了一个简单的两阶段自顶向下的人检测器。回想一下像素值-D. E.（3））表示每个位置的高度。因此，在建议生成阶段，我们从自顶向下视图图像Td中提取所有局部最大值。对于（i，j）处的每个候选者，我们裁剪以其为中心的50×50正方形区域。lutional Neural Network（ResNet-18的变体），在第二阶段用作个人分类器。3D跟踪器我们的跟踪器的输入是自上而下的视图检测框，具有相应的检测分数和裁剪的点云。在开始帧，当边界的检测分数盒子高于阈值。对于以下帧，我们基于每个轨迹片段与检测到的边界框之间的空间和外观（颜色直方图）距离关联结果通过以下方式获得：4864EnvsIDF1↑MOTA↑FP↓ FN↓ ID ↓咖啡馆100100000行业100100000大堂100100000办公室100100000零售10099.9040表3：我们的3D跟踪器在一个测试序列上的性能。采用匈牙利匹配算法。对于每个不匹配的检测边界框，我们生成一个新的候选轨迹.每个被跟踪的人的高度h可以从其自上而下的边界框的局部最大值来估计。我们在每个自上而下跟踪的人的中心放置一个大小为100cm×100cm×h的三维边界框（立方体）将投影到每个摄影机视图。每个视图中的2D全身边界框是包围该视图中投影的3D边界框的最紧密的矩形。通过这种方式，我们将跟踪结果从3D空间传播到所有RGB相机。3.6. 注释和质量控制3D跟踪器偶尔仍可能引入错误。我们在将结果传播到每个RGB相机视图之前手动修复所有跟踪错误。我们的3D跟踪器中最常见的错误是tracklet ID切换和假阳性人员检测。我们要求注释者纠正ID开关，并从3D跟踪结果中删除假阳性tracklet。请注意，这个过程相对来说是成本有效的，因为不需要边界框标签，并且所有的校正都是在轨迹级别执行的。根据我们的实验，每个注释器每天可以为大约5到6个人的视频标记大约600帧（包括盒子和ID）。如果每10帧注释一次并将跟踪标签内插到剩余帧上，则手动标记数据集中的所有视频将花费414个标记日。相比之下，我们只需要一台贴标机工作不到5个小时，就可以纠正我们3D跟踪仪的所有错误。为了测试自动生成的地面实况的质量，我们从每个环境中抽取了1000个连续的帧表3总结了我们校正后的自动生成的地面实况与手动标签的评估结果。只有四个人类标记的盒子不匹配我们数据集的基本事实，这是可以容忍的，因为人类也会犯错误。4. 基准在本节中，我们将讨论跟踪和ReID任务的评估指标、评估方法和实验结果4.1. 评估指标对于跟踪任务评估，我们遵循广泛采用的MOT指标[7]。我们报告的假阳性（FP）和假阴性（FN）检测，这也被认为是在多目标跟踪精度（MOTA）。MOTA进一步处理身份开关（ID），并广泛用于对不同的跟踪器进行基准测试。此外，我们还报告了IDF1，它使用ID精确度和ID召回来衡量预测轨迹与地面真实值IDF1可以评估跟踪器的tracklet我们在多摄像机跟踪模型的自顶向下视图上报告所有性能指标。我们遵循[8]中的设置，其中一米的半径用作匹配检测和地面实况时的距离阈值。对于ReID任务，我们采用广泛使用的秩1准确度（R-1）和平均精度（mAP）[50]来比较模型4.2. 基线跟踪器我们在我们的数据集上评估了两个最先进的在线实时多相机跟踪器。我们专注于评估在线实时跟踪器，因为它们可以更好地反映核心检测和跟踪性能，并且我们可以在这些评估中更好地观察我们数据集中的挑战。End-to-end深多摄像机跟踪器（DMCT）在该基线中，我们采用[45]中提出的端到端方法（DMCT）。该方法估计每个相机视图处的每个候选者的地面点热图，将来自所有相机视图的地面点热图投影到地平面，并且将所有热图融合成地平面热图。类似于[45]，我们训练了CornerNet[27]的变体，其中像素焦点损失[27]作为我们的地面点估计模型。追踪器在融合的地面飞机热图上工作。给定融合的地平面热图H，利用两种不同的方法来获得自上而下的人员检测。第一种方法是基于规则的。该算法直接对H值应用高斯模糊，提取局部最大值作为跟踪检测. 在这种方法中，来自C个相机视图的{H1，H2，···，HC}使用地平面和地平面之间的单应性被投影到地平面。平面和所有相机视图。对于融合的自上而下热图H中的每个位置，其值是所有相机视图的投影热图上的最大值第二种方法将YOLOV5[24]检测器训练为自顶向下的人员检测器。第二种方法比第一种方法更昂贵，但比[45]中基于序列的深度一瞥网络便宜得多。在该方法中，我们首先找到每个相机视图热图H1处的局部最大值作为候选点。这些点被投影到地平面，每个点在其周围生成高斯分布以减少噪声。我们继续4865咖啡店行业安全大堂办公室零售图5：作为人员检测器输入的融合地平面图像示例边界框是基础事实。从投影的自上而下图像中的每个位置的所有高斯分布的最大值图5示出了来自五个环境的融合的地平面热图的虽然这五个环境配置了不同的RGB相机设置和背景，但它们的自上而下热图看起来相似。我们的实验结果表明，自顶向下的检测器可以很容易地推广到不同的环境。我们还使用OpenImage3中的图像标记了另一个外部数据集。具体地说，我们对OpenIm- age中包含人物的一个子集（大约600，000张图像）进行采样，然后人工标记这些图像中每个人的地面点在我们的实验中，我们还研究了在训练我们的人地面点检测器时添加外部数据对跟踪性能的影响。DMCT方法的变体包括：DMCT在MMPTRACK的训练分割和基于规则的自上而下的人检测方法上训练地面点估计模型;DMCT-TD使用与DMCT相同的地面点估计模型和基于深度学习的自上而下的人员检测器;DMCT-Ext使用与DMCT相同的基于规则的自顶向下的人检测方法，并使用MMPTRACK的训练分割和额外的人工标记的OpenImage数据集来训练地面点估计模型; DMCT-Ext-TD使用与DMCT-Ext相同的地面点估计模型，以及基于深度学习的自顶向下人员检测器。通过3D骨架进行跟踪（VoxelTrack）此基线使用估计的3D身体关节执行跟踪，这些关节包含比单个地面点更多的空间信息。它建立在最先进的3D姿态估计方法VoxelPose [36]之上。它既不需要摄像机视图的二维姿态估计，也不像以前的作品，这是容易出错的跨相机的姿态相反，所有的硬决策被推迟，并在融合来自所有视图的2D视觉特征之后在3D空间中做出，这有效地避免了错误积累。此外，融合表示对遮挡具有鲁棒性在一个相机视图中被遮挡的关节在其他相机视图中可能可见。我们遵循标准管道[49]来跟踪3D姿势。我们将每个估计的3D姿态初始化为轨迹片段.对于下面的帧，我们使用匈牙利算法将3D姿势分配给现有的轨迹，3https://storage.googleapis.com/openimages/web/index.html匹配成本是所有3D关节的欧几里德距离之和。如果轨迹段和3D姿态之间的空间距离太大，则拒绝分配。一个不匹配的3D姿态将被指定为一个新的轨迹.如果一个现有的轨迹片段在超过30帧的时间内没有匹配到任何3D姿势，那么它根据[36]的设置，在COCO数据集上训练2D热图估计模型。由于MMPTRACK缺乏3D姿态标签，我们使用合成数据而不是真实数据来微调3D模型。利用MMPTRACK的标定参数生成伪三维人体位姿。4.3. 基线ReID模型我们在MMPTRACK数据集上评估了FastReID[16]中提出的人员重新识别（ReID）模型，以测试模型的稳健性。我们研究了在多个摄像头下的杂乱和拥挤的环境中学习区分ReID特征的挑战。我们的基线模型建立在常用的基线模型上[30]。我们进一步结合了非局部块[39]，GeM池化[6]和一系列训练策略（详见[16]）。我们每32帧对MMPTRACK数据集进行一次均匀为了测试，我们将每个采样序列分为两半。我们使用前半部分的裁剪人员作为查询集，后半部分的裁剪人员作为图库集。虽然在这个数据集中只有少量的人的身份，不同的相机角度采样杂乱的背景和各种人的行动，使ReID在我们的数据集上的一个挑战任务。在MMPTRACK的测试分割上，我们评估了上述模型的三种训练配置具体来说，对于泛化设置，我们直接评估使用人员ReID数据集MSMT训练的模型[40]。对于自适应设置，我们在MMPTRACK的训练分割上对先前的模型进行监督微调。对于Supervised设置，我们仅使用MMPTRACK训练分割中的裁剪人员从头开始训练人员ReID模型4.4. 基准结果和讨论4.4.1MMPTRACK上的跟踪性能我们在收集的MMPTRACK数据集上评估了两个实时基线跟踪器。4866方法IDF1↑MOTA↑FP↓FN↓ID ↓VoxelTrack55.279.643,776110,2394,365DMCT60.291.534,45041,9202,158DMCT-TD74.893.615,08042,854620DMCT-Ext61.192.530,78936,6311,953DMCT-Ext-TD77.594.819,23528,505567表4：验证分割的跟踪性能。方法IDF1↑MOTA↑FP↓FN↓ID ↓VoxelTrack50.876.849,881142,3804,922DMCT56.088.839,71552,5592,677DMCT-TD68.193.216,02340,606935DMCT-Ext56.689.042,41348,0393,013DMCT-Ext-TD74.194.67,00538,296641表5：测试分割的跟踪性能。表4和表5分别包括不同基线跟踪器对我们数据集的验证和测试分割的结果结果表明，使用深度学习模型训练的自上而下的人员检测器可以显著提高基线DMCT的性能，特别是对于IDF1和ID。通过OpenImage额外的60万张图片，DMCT-Ext在IDF 1和MOTA方面比DMCT略有改进。 DMCT-Ext- TD将IDF 1提高了2。7比DMCT-TD 。然而， MOTA 仅增加1 。 1.一、与仅在MMPTRACK上实际微调的VoxelTrack相比，DMCT的所有变体都表现得更好。我们认为性能差距是由于我们的数据集和其他公共数据集（如MS-COCO）的巨大域差异，VoxelTrack是在这些数据集上训练的。由于我们可以使用我们的自动注释系统轻松地为环境生成大规模多相机多对象跟踪数据集，因此我们可以训练适应给定环境的模型，并提高准确性。然而，基线方法的精度仍然不够高，以满足需求的应用程序，特别是IDF1的要求。在这一领域还需要进一步的研究。消融研究我们研究了不同训练分割对基线性能的影响。由于Voxel- Track只能在我们的数据集上进行虚拟微调，因此我们仅涵盖不同DMCT变体的消融研究结果。我们试图研究特定环境数据的影响。特别是，我们训练地面点esti-mation模型和自上而下的检测器，具有和不具有每个环境特定的数据。然后，我们分别报告每个环境中的表6示出了没有自顶向下检测器的跟踪评估度量。一般来说，如果没有每个环境的数据，跟踪性能显着下降。在IDF1度量方面尤其如此。此外，外部训练数据可以提高跟踪器的性能，在大多数环境中，当环境特定的然而，对于特定环境的数据，外部数据导致有限的性能增益。表7进一步研究了DMCT在配备基于深度学习的自顶向下检测器时的性能。具有基于深度学习的自上而下检测器的跟踪器具有更好的通用性。在没有外部数据的情况下，使用特定环境数据训练的模型在工业和零售业的IDF1方面表现更好。然而，在没有环境特定数据的情况下训练的模型甚至在咖啡馆，大堂和办公室中显示出更好的 IDF1 。此外，当利用额外的OpenImage数据来训练地面点估计模型时，性能增益是有限的，并且在某些环境中，甚至比没有外部数据的结果更差。通常认为，外部数据上的预训练模型可以在训练深度模型时提供良好的初始化然而，MMPTRACK和OpenImage之间的领域差距使得预训练步骤变得微不足道。相反，大规模的域内MMPTRACK数据集可以训练出性能更好的模型。同时，与表6相比，表7中的结果还表明，基于深度学习的自顶向下检测器减少了由外部接地点数据引起的性能差距。4.4.2MMPTRACK上的ReID性能我们报告了ReID模型在第4.3节中讨论的三种不同设置下的结果。MSMT ReID数据集用于预训练我们的泛化和自适应模型，由4000多个室内和室外人员身份组成。评价结果总结见表8。尽管我们的训练数据集只包含14个不同的个人身份，但从头开始的训练仍然优于泛化模型。请注意，在训练和测试分割中，人员身份并不重叠这表明我们的大规模数据集可以帮助学习区分性ReID特征。此外，微调模型（自适应）优于从头开始训练的模型（监督）。同时，所有模型的性能在不同的环境中会有所不同。由于背景杂乱，所有模型在零售环境中的表现都很差。总的来说，实验表明，Re-ID在多相机设置的杂乱和拥挤的环境中非常具有挑战性。我们的大规模数据集可以帮助学习适应给定环境的更具鉴别力的Re-ID特征然而，在充满挑战的环境中，业绩仍远不能令人满意我们认为，需要更多的身份来学习更多的歧视性Re-ID功能，在这些具有挑战性的环境。5. 结论在深度学习中，高质量的标记数据是许多任务的关键。对于多摄像机多人跟踪来说尤其如此，其中跟踪器在这项工作中，4867方法带环境数据Env无外部数据与外部数据IDF1↑MOTA↑FP↓FN↓ID ↓IDF1↑MOTA↑FP↓FN↓ID ↓DMCT✗咖啡馆39.487.712,0127,5891,15856.991.86,7926,382701DMCT✓咖啡馆64.295.92,6914,06316261.396.02,1044,409297DMCT✗行业34.278.418,48620,5481,63742.782.711,70019,858962DMCT✓行业61.790.59,1078,43130664.591.29,1887,155233DMCT✗大堂47.186.413,77412,2231,13650.689.612,5747,425720DMCT✓大堂69.494.53,3437,36131869.295.12,4457,007247DMCT✗办公室50.089.03,2878,57759140.085.82,84912,569735DMCT✓办公室68.093.71,5145,6256766.893.91,4545,304127DMCT✗零售27.760.779,44315,7883,17030.470.750,71320,0602,667DMCT✓零售45.785.817,79516,4401,30549.488.315,59812,7561,049表6：跟踪验证分割时每个环境的性能。比较了使用和不使用特定领域数据训练的检测模型。如果没有任何特定于环境的数据，跟踪器方法带环境数据Env无外部数据与外部数据DMCT-TD✗咖啡馆77.495.75036,6353976.096.84884,88536DMCT-TD✓咖啡馆76.496.97404,3856274.897.17424,11953DMCT-TD✗行业73.887.77,40015,6616274.290.07,71411,03967DMCT-TD✓行业79.091.17,6928,9476479.492.68,0215,81247DMCT-TD✗大堂88.496.45206,5878382.497.21155,41954DMCT-TD✓大堂85.796.2317,5204986.897.31455,30325DMCT-TD✗办公室85.293.77146,4204385.997.6884177038DMCT-TD✓办公室81.397.47872,1824289.098.09941,23747DMCT-TD✗零售56.487.78,62221,54959257.885.91325821397747DMCT-TD✓零售58.589.65,82019,82040365.391.3933312034395表7：使用自顶向下检测器对验证分割时每个环境的跟踪性能我们比较了使用和不使用每个特定领域数据训练的检测模型，它们表现出相似的性能。Env泛化适应监督地图R-1地图R-1地图R-1咖啡馆48.8277.7863.6188.0159.5587.80行业39.4265.8451.3979.1544.7776.26大堂46.0872.6360.3687.4351.6382.79办公室42.8973.4758.7280.6451.2076.79零售28.4649.3333.2558.2931.6457.43表 8 ：每个环境在测试分割上的人员重新识别（ReID）性能。我们报告了三种不同训练设置的性能。我们在自动注释系统的帮助下构建了最大的多摄像机多人跟踪数据集，该系统采用各种校准的深度传感器和RGB传感器来构建鲁棒的3D跟踪器并生成Reli。为每一帧提供高质量、密集的注释。我们在我们的数据集上研究了两个实时跟踪器和一个鲁棒ReID模型的性能结果表明，大规模数据集可以让跟踪系统和ReID模型表现得更好。我们相信这些发现将有利于现实世界的跟踪系统。例如，我们可以部署一个自动注释系统，收集数据并训练适应模型，这将对大型连锁零售商有用，这些零售商的室内设计在商店之间是相似的。另一方面，实验也表明了在杂乱拥挤的环境中设计高精度的多摄像机跟踪系统的挑战，基线方法远远不能满足苛刻应用的精度要求。我们希望我们的数据集可以鼓励更多的研究工作投入到这个主题。致谢我们要感谢Joe Filcik、Thomas Soemo、Yumao Lu和Microsoft Azure多摄像头跟踪地面实况我们的数据集-认知服务团队的支持。IDF1↑MOTA↑FP↓FN↓ID ↓IDF1↑MOTA↑FP↓FN↓ID ↓4868引用[1] 亚马逊加油http://amazongo.com，2017年。[2] Xavier Alameda-Pineda 、 Jacopo Staiano 、 RamanathanSub- ramanian 、 Ligia Maria Batrinca 、 Elisa Ricci 、Bruno Lepri、Oswald Lanz和Nicu Sebe。 SALSA：一多模式群体行为分析的新数据集。 CoRR ，abs/1506.06882，2015年。[3] Mykhaylo Andriluka Stefan Roth和Bernt Schiele通过检测进行人员跟踪和通过跟踪进行人员检测。2008年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2008年。[4] PierreBaqu e´，Fran coisFleuret，andPascalFua. 多摄像机多目标检测的深度遮挡推理在IEEE计算机视觉国际会议论文集，第271-279页[5] Jerome Berclaz，Francois Fleuret，Engin Turetken，andPas cal Fua.使用k-最短路径优化的多目标跟踪。IEEETransactionsonPatternAnalysisandMachineIntelligence，33（9）：1806跟踪和监视的性能评价，第1-6页。IEEE，2009年。[15] Francois Fleuret，Jerome Berclaz，Richard Lengagne，and Pascal Fua.使用概率占用图的多摄像机人跟踪IEEETransactionsonPatternAnalysisandMachineIntelligence，30（2）：267[16] Lingxiao He ， Xingyu Liao ， Wu Liu ， Xinchen Liu ，Peng Cheng，and Tao Mei.Fastreid：一个pytorch 工具箱，用于一般实例的重新识别。arXiv预印本arXiv：2006.02631，2020。[17] 何宇航，魏兴，洪晓鹏，石伟伟，龚怡红.基于航迹到目标分配的多目标多摄像机跟踪。IEEE Transactions onImage Processing-ing，29：5191[18] Martin Hofmann，Daniel Wolf，and Gerhard Rigoll.用于联合多视图重建和多目标跟踪的超图。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第3650-3657页[19] 云中侯、梁政。多视图检测，[6] Maxim Berman，Herve 安德烈·韦达尔迪，亚索纳斯阴影Transformer（和视图相干数据增强）。Kokkinos和Matthijs Douze。多颗粒：一个统一的im-类和实例的年龄嵌入。 arXiv 预印本 arXiv ：1902.05509，2019。[7] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多个对象跟踪性能：明确的MOT指标。EURASIP Journal on Imageand Video Processing，2008：1[8] TatjanaCha vdarov a ， Pi erreBaque´ ， Ste´phaneBouquet ， An-drii Maksai ， Cijo Jose ， TimurBagautdinov，Louis Lettry，PascalFua，LucVanGool，andFran coisFleuret.wild-track：一个多摄像头高清数据集，用于密集无脚本的pedes-trian检测。 In Proceedingsof the IEEE Conference计算机视觉和模式识别，第5030- 5039页，2018年。[9] 这是查雅娜和弗朗索瓦·弗勒雷。深度多摄像头人物检测。 2017 年第 16 届 IEEE 国际机器学习和应用会议（ICMLA），第848-853页。IEEE，2017年。[1

下载后可阅读完整内容，剩余1页未读，立即下载