合成数据如何帮助行人检测和跟踪

176 浏览量更新于2023-10-15 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12MOTSynth：合成数据如何帮助行人检测和跟踪？MatteoF abbri1，3Guillem Braso´2Gianluca Maugeri1Orcun Cetintas2RiccardoGasparini1，3 Aljos a Os ep2 Simone Calderara1Laura Leal-Taixe´2Rita Cucchiara11意大利摩德纳和雷焦艾米利亚大学2德国慕尼黑工业大学{firstname.lastname}@ unimore.it{firstname.lastname}@ tum.de3GoatAI S.r.l.{firstname.lastname}@ goatai.it图1：我们提出了MOTSynth，这是一个用于行人检测，重新识别和多对象跟踪的大型且多样化的数据集。由于高度多样性，我们能够通过仅在合成数据上训练模型来获得最先进的性能摘要基于深度学习的视频行人检测和跟踪方法需要大量的训练数据才能实现良好的性能。然而，在拥挤的公共环境中获取数据会引发数据隐私问题- 未经所有参与者明确同意，我们不得简单地记录和存储数据。此外，用于计算机视觉应用的这种数据的注释通常需要大量的手动工作，特别是在视频域中。在高度拥挤的场景中标记行人的实例即使对于人类注释者也是具有挑战性的，并且可能在训练数据中引入错误在本文中，我们研究了如何使用单独的合成数据来推进多人跟踪的不同方面。为此，我们生成MOTSynth，一个大型的，高度多样化的合成数据集的对象检测和跟踪使用渲染游戏引擎。我们的实验表明，MOTSynth可以作为一个替代的任务，如行人检测，重新识别，分割和跟踪的真实数据1. 介绍在拥挤的现实世界中的目标检测和跟踪是一个具有挑战性和困难的问题，长期以来，长期的研究历史，应用范围从自动驾驶到视觉监控。自从深度学习出现以来，社区一直在研究如何有效地利用神经网络[41，45，54，69，69]。13、65、42、25、75、6、10、78、80、38]以推进场。然而，所有这些方法都是数据饥饿的，并且数据收集和标记是众所周知的困难和昂贵的。此外，公共环境1中的数据集收集引起隐私问题。事实上，欧盟已经通过了《通用数据保护条例》（GDPR [2]）等隐私保护法律，以保护其公民的隐私，禁止未经授权获取个人视觉数据;在美国，关于隐私的道德问题也很关键，在美国，用于训练人员重新识别模块（例如DukeMTMC [62]）的数据集由于隐私问题而离线[33]。上述问题的可能解决方案是采用虚拟世界。社区已经认识到合成数据的潜力，成功地用于基准测试[44]或弥补缺乏训练数据[3，9]。据我们所知，到目前为止，合成数据可以完全取代记录数据，仅用于低级别任务，如光流估计[21]。对于更高级别的任务，例如对象检测、跟踪和分割，1在COVID-19大流行期间，拥挤的公共场景尤其难以记录。108493110850现有的方法通常需要混合的合成数据和真实数据，并采用交替的训练方案[3]或域自适应[9]和随机化[72]技术。在本文中，我们旨在回答一个具有挑战性的问题：我们能否仅使用合成数据推进行人检测和跟踪的最先进方法？为此，我们创建了MOTSynth，这是一个用于足部检测、跟踪和分割的大型合成数据集，旨在替换记录的数据。MOTSynth与时间上一致的边界框和实例分割标签、姿势遮挡信息和深度图捆绑在一起。如机器人强化学习[72]和视觉[73]领域所示，合成数据集应该在照明，姿势和纹理方面显着基于这些见解，我们生成了一个大型且多样化的数据集，该数据集在环境、相机视角、对象纹理、照明条件、天气、季节变化和对象身份方面有所不同（见图11）。①的人。我们的实验评估证实，多样性在弥合合成到真实的差距中起着我们研究的主要重点是MOTSynth如何通过研究这些任务的不同方面如何从我们的数据中受益来帮助我们推进行人检测，重新识别和跟踪。为此，我们首先训练了几种最先进的模型，用于行人检测，分割，重新识别，帧到帧回归和合成数据的关联，并评估其在真实世界行人跟踪数据集MOTChallenge [18]上的性能。我们的实验表明，在合成数据上训练的模型与MOTChallenge MOT17 MOT20上的最新技术不相上下，而极其拥挤的MOT20仍然需要微调。其次，我们表明，先前的合成数据集[24，43]不适合弥合行人检测和跟踪任务的合成与真实差距。此外，我们确认MOTSynth中的多样性是弥合这一差距的关键除了彻底的实验分析外，MOTSynth还为未来的研究打开了大门，研究如何使用不同的组件（如深度和人体姿势）在受控环境中推进多对象跟踪。概括起来，本文的主要贡献如下：（i）我们开源了用于行人检测和跟踪的最大的合成数据集，其中超过1 .一、300万个密集注释的帧和4000万个pedes-trian实例;（ii）我们表明，这样一个多样化的数据集可以完全替代现实世界的数据，用于高层次的任务，如行人检测和跟踪在几个场景，以及重新识别和分段跟踪;（iii）我们提供了关于如何可以使用这样的合成世界来推进行人跟踪和检测的最新技术的全面分析。2. 相关工作计算机视觉的进步是由可用数据集和基准测试的不断增长所推动的，例如Pascal VOC [22]，ImageNet[64]，COCO [49]。[15]第15话：我的天！多目标跟踪（MOT）。在自动驾驶方面，开创性的MOT基准是KITTI基准[28]，其以边界框和分割掩模的形式提供用于对象检测和跟踪的标签[75]。然而，序列是在一个单一的城市在晴朗的天气条件下从安装在汽车上的相机收集的。最近提出的BDD100k [81]覆盖了超过100K的视频，具有高度的地理、环境和天气多样性。最近的几个汽车跟踪数据集和基准是以LiDAR为中心的，以3D边界框的形式提供标签[12，57，70]。最近提出的TAO数据集[17]为超过800个对象类提供了以视觉监控为中心的数据集集中在行人相互作用并且经常彼此包含的拥挤场景中。MOTChallenge [18]基准测试套件在基准测试多对象跟踪方法和提供一致标记的拥挤跟踪序列方面发挥了关键作用特别是，MOT17 [54]提供了拥挤的城市场景的挑战序列，捕获了严重的遮挡和尺度变化。 MOTS [75] 最新版本MOT20 [19]通过提供在极其密集的场景中捕获的标记序列来推动极限在汽车监控方面，UA-DETRAC [77]由100个从高视点记录的序列组成，目标是车辆跟踪。对象跟踪与人员重新识别（ReID）深深地交织在一起，因为几种最先进的跟踪方法[6，10]依赖于学习的ReID特征。由于DukeMTMC数据集因隐私问题而离线[33] ，最常用的 ReID 数据集是 Market1501 [83] 和CUHK03 [47]。通过这项工作，我们的目标是用合成数据取代用于训练对象检测、重新识别和跟踪的记录数据。合成数据集。数据收集通常需要大量的手工工作。随着不断需要更多的数据来训练不断增长的模型，标记这些数据集的成本变得令人望而却步。这种负担可能会限制可用数据的质量或数量，并阻碍进展。上述问题的可能解决方案是采用虚拟世界。这样的模拟环境已经成功地应用于低级任务，例如特征描述符计算[40]、视觉里程计[30，32，82，60]、光学测量[42]。流量估计[5，11，60，52，44，53]和深度估计[44，53]。模拟世界最近也被用于更高级别的任务，如语义分割。10851(a) 边界框和姿态（b）分割掩模（c）深度图图2：MOTSynth标签。从左至右：边界框和姿态、实例分割遮罩和深度。最好在屏幕上观看。站[74，31，63，37，60，44，61，43]，多对象跟踪-[27，24，71，36]，手跟踪[67]，人体姿势估计-的虚拟环境[68，24，29，23]、行人和汽车检测[51，3，39]以及用于机器人强化学习的虚拟环境[72]。上述工作主要利用合成数据在难以获得精确的地面实况数据的情况下进行评估[44]或作为用于预训练数据饥饿的深度学习模型的手段。然而，除了光流[21]之外，使用模拟环境的这些尝试都无法完全取代手动标记的数据。相比之下，我们专注于弥合行人检测，ReID和跟踪的合成与真实差距，并对训练数据量与多样性3. MOTSynth数据集MOTSynth是一个大型的合成数据集，专门设计用于行人检测，跟踪和分割的训练模型。在下文中，我们详细介绍了数据集生成过程（第二节）。3.1），并进行统计分析和比较其他真实世界和合成数据集（第3.1节）。3.2）。3.1. 数据集生成为了生成MOTSynth，我们遵循先前的工作[60，43，24]，并且我们利用侠盗猎车手V（GTA-V）视频游戏，其在三维世界中模拟城市及其居民。更准确地说，我们利用了Script Hook V库[1]准备剧本。录制生成的第一部分是情景（scene）生成。为此，我们人工探索了130平方公里（约八分之一的洛杉矶县）的GTA-V虚拟世界。为了生成屏幕播放，我们手动地将相机视点放置到所选择的场景，并设置与人的行为相关的设置，例如每个场景的行人数量、执行的动作（例如站立、坐着或跑步）以及行进的路径为了模拟最拥挤区域的特定动态我们依赖于碰撞避免算法，以获得自然的行人行为为每个代理。对于该步骤，我们利用[24]中提出的mod来优化该过程。电影剧本生成是MOTSynth创作中唯一的手动程序，总共只花了16个小时。为了获得不同的演员，我们随机改变了579个行人模型的生成属性，由GTA-V游戏提供，例如不同的衣服、背包、包、面具、发型和胡须样式，总共产生了超过9519个独特的行人身份。因此，我们生成的pedestri- ans适合于训练ReID模型。我们手动设置了256个剧本，并将它们与[24]2中的128个剧本合并，总共384个剧本。渲染。设置剧本后，我们可以模拟虚拟世界的动态，并呈现模拟环境的不同视图。为了获得尽可能多样化的渲染，我们随机选择了天气条件和录音的白天时间。在我们的数据集上捕获的天气条件是清晰的，特别晴朗，多云，阴天，下雨，打雷，烟雾，多雾和暴风雪。我们记录了每个屏幕播放两次，一次在白天，一次在晚上，总共768个生成的不同序列。标签生成。每个剪辑都带有可见和被遮挡的身体部位的精确3D注释、时间上一致的2D边界框和行人的分割掩模标签以及深度图（见图11）。2）的情况。虽然我们在这项工作中没有利用深度图，但这些是MOT中经常使用的线索[46，56，36，50]。因此，我们相信它们可以用于进一步推进该领域。在完整性方面，MOTSynth在场景可变性、实体数量和注释类型方面超过了任何其他数据集。3.2. 统计分析MOTSynth序列以25FPS渲染为全高清视频。每个视频序列包含29个。平均每帧5人，最多125人，总计超过40M的边界框超过1. 3M密集注释帧。演员与镜头的距离eas，我们通过定义一组行人必须遵循的轨迹2我们感谢[ 24 ]的作者分享他们的剧本。10852数据集#帧#Inst. 3D姿势分段深度PoseTrack [4] 46k276k ✓MOTS [75] 2k 26k ✓MOT-17 [54] 11k 292kMOT-20 [19] 13k 1，652kVIPER [43] 254k 2，750k✓ ✓GTA [44] 250k3，875k ✓ ✓JTA [24] 460k 15，341k✓ ✓MOTSynth1，382千40，780千✓✓✓✓表1：用于行人检测和跟踪的公开可用数据集的概述。对于每个数据集，我们报告注释帧和实例的数量，以及不同标签的可用性。范围在0到101米之间，导致（投影）边界框高度在0到1，080像素之间。我们分裂成训练和验证集MOTSynth，含576和192剪辑，分别。我们确保这些分裂在天气条件、白天和密度方面大致平衡，并且在这些分裂中没有出现独特的人身份。在表1中，我们总结了与其他真实和合成数据集相关的MOTSynth统计数据。在大小，实例和标签的数量方面，MOTSynth优于所有以前提出的数据集。有关详细比较，请参阅补充材料。与VIPER [43]和GTA [44]相比，MOTSynth专注于拥挤的行人场景。它比以行人为中心的JTA [24]更大，并且还提供了实例分割和场景深度信息。 JTA 和MOTSynth之间的关键区别在于数据量，场景的多样性和人员的可变性，正如我们的实验所示，这使我们能够弥合合成到真实的差距。MOTSynth包含40M个带有跟踪和分割掩码标签的边界框，与手动标记的 MOTChal- lenge 数据集套件（MOT 17中包含292，733个边界框，MOT 20中包含1，652，040个边界框，MOTS 20数据集中包含26，894个分割掩码）相比，多了一到三个数量级。这种差异在MOTS20的情况下最为突出，即使使用半自动化工具，也难以获得行人的像素精确标签[75]。4. 实验评价在本节中，我们通过实验验证了MOTSynth是否可以用作（i）行人检测（第二节）的完整代理。（ii）行人重新识别（ReID）（第4.2节）（iii）多目标跟踪（第4.3节）; 4.4），以及（iv）多对象跟踪和分割（第4.4节）。4.6）。4.1. 实验环境我们在MOTChallenge评估套件上评估所有经过训练的模型。为了评估行人检测和跟踪，我们使用MOT17[18]和MOT20 [19]数据集。我们在MOT17上评估我们的ReID模型。最后，我们使用MOTS20数据集[75]评估多对象跟踪和分割。为了了解使用合成数据训练的模型在MOTChallenge的真实场景中的表现如何，我们使用以下数据集训练模型进行比较。我们使用大规模COCO数据集[49]进行检测和跟踪，并使用CrowdHuman [66]进行跟踪。对于ReID ，我们采用了两个真实世界的 ReID 数据集Market1501 [83]和CUHK03 [47]。我们进一步比较了MOTSynth与其他描述人类的合成数据集，即JTA [24]和VIPER [60]的训练。为了对MOTSynth到MOTChallenge转移能力进行细粒度评估，我们将MOTSynth分成四个（包括）72、144、288和576个序列的子集，命名为MOTSynth-1至MOTSynth-4。这也使我们能够研究弥合合成与真实差距所需的数据量的影响对于本文中报告的所有实验，我们使用Ima-geNet [20]预训练的权重初始化网络。4.2. 人检测为了了解MOTSynth上的训练与大规模真实世界数据集的比较，我们执行了一系列涉及四个异构对象检测器的实验：更快的RCNN [59]和Mask RCNN [34]作为两级检测器，YOLOv3 [58]和CenterNet [85]作为单级检测器。对于每个检测器，我们通过在MOTChallenge上测试来比较MOTSynth我们报告了平均精度（AP）、多对象检测准确度（MODA [7]）和通过每帧错误警报数（FAF）测量的误报率的结果此外，我们还报告了精确度、召回率以及真阳性（TP）、假阳性（FP）和假阴性（FN）的绝对数量。关于这些实验的实施细节，我们参考补充。我们将集中讨论AP，因为这是最广泛使用的检测度量。合成人到真人的转换可以在Tab中看到。2，通过在MOTSynth上训练模型，我们始终优于在COCO上训练的在MOT17上评估这些模型时，我们观察到+2。49与C0 C 0，+3相比，具有MOTSynth -4的Y 0 L0 v3的AP改善。48 AP与中心网，+2。3具有更快R-CNN的AP，以及+1。87AP与Mask R-CNN。我们得出结论，改进是一致的，跨不同的对象检测器。这些差异在M0T20上进一步加重10853MOT20R-CNN CenterNetR-CNN数据集AP↑Moda ↑ FAF↓TP↑FP↓FN↓Rec. ↑PR. ↑数据集AP↑Moda ↑ FAF↓TP↑FP↓FN↓Rec. ↑PR. ↑MOT17YOLOv3Coco69.7662.021.254782466501856972.0387.79Coco42.4235.106.883816356144653060241.8486.13MOTSynth62.6652.361.434237876132401563.8384.77YOLOv3MOTSynth35.8331.152.573071272295660511033.6793.05MOTSynth63.0856.671.224411664892227766.4587.18MOTSynth44.4938.013.253757392903353649841.1992.83MOTSynth63.1360.601.134626460292012969.6888.47MOTSynth44.6842.893.564230293179748920846.3793.01MOTSynth71.9064.511.074850056731789373.0589.53MOTSynth53.6948.872.874713952562144084251.6794.85CenterNetCoco67.0144.383.3747398 17935 1899571.3972.55Coco39.3928.7512.38 372835 110537 53940240.8777.13MOTSynth61.8249.342.0443626 10866 2276765.7180.06MOTSynth43.3530.8416.21 426095 144781 48614246.7174.64MOTSynth62.3254.901.664526988202112468.1883.69MOTSynth43.7640.237.274319326497148030547.3586.92MOTSynth62.4555.821.724617791172021669.5583.51MOTSynth34.0824.296.722815966000263064130.8782.43MOTSynth70.6857.391.814774896461864571.9283.19MOTSynth51.7042.189.724715928678744064551.7084.46Faster R-CNNCoco76.6853.863.4554127 18364 1226681.5274.67Coco43.6740.555.904226495269848958846.3388.91MOTSynth76.8039.025.1953507 27603 1288680.5965.97快MOTSynth52.9646.728.805047907857540744755.3486.53MOTSynth77.4750.623.8253893 20287 1250081.1772.65MOTSynth52.5646.967.914989677060941327054.7087.60MOTSynth78.3149.754.2255474 22441 1091983.5571.20MOTSynth53.3751.386.365255475679938669057.6190.25MOTSynth78.9854.963.5155121 18634 1127283.0274.74MOTSynth53.9056.033.7245444163325936782159.6794.25Mask R-CNNCoco76.9655.553.3154502 17620 1189182.0975.57Coco43.7341.996.394400815704647215648.2488.52MOTSynth77.5838.435.5154817 29299 1157682.5665.17掩模MOTSynth52.7544.9810.28 5021549181941048355.0584.54MOTSynth77.8850.014.0954930 21724 1146382.7371.66MOTSynth53.1350.176.635168965922539534156.6689.72MOTSynth78.0849.854.1455096 21998 1129782.9871.47MOTSynth53.5152.275.765282305140838400757.9091.13MOTSynth78.8356.613.1754461 16874 1193282.0376.35MOTSynth54.0355.694.115447033671536753459.7193.69表2：为了执行合成到真实的对照实验，我们在COCO数据集和四个MOTSynth子集上训练了几个对象检测器模型我们在MOTChallenge MOT17（左）和MOT20（右）检测数据集上评估了所有模型。我们观察到所有物体检测器的明显趋势：通过纯粹在合成数据上训练，与在真实世界数据集上训练相比，我们获得了更好的性能。数据集AP ↑MODA↑ FAF↓TP ↑FP ↓FN↓推荐↑PR. ↑因此，通过降低采样率，当我们从大量不同序列中采样图像时，我们增加了多样性。在对最小MOT-Synth子集进行评价时，我们观察到一个明显的趋势：多样性很重要。当以1/10的速率采样时，我们达到76。8AP并匹配COCO模型的性能（76. 69AP）。然而，在更密集且因此更少多样性的采样情况下，情况并非如此（70AP）。我们在补充中报告了不同对象检测器的详细结果。合成数据集的比较。如图所示，我们表3：M0T17与合成数据集的比较。其中我们观察到+10的一致且显著的改善。97 AP+1231 AP分别在YOLOv3和CenterNet上，和+10。23AP（更快的R-CNN）和+10。3AP（Mask R-CNN）。我们观察到，对于M0 T17和M0 T20两者，单级检测器受益于完整的M0 TSynth数据集，而两级检测器从M0 T-Synth-1到M0 TSynth-4（+0. 12 + 0 62改进MOT17和+0。94+ 1 28对MOT20的改进在具有更快R-CNN和掩码R-CNN的AP方面，重新-分别地）。一种可能的解释是，单级检测器必须学习比两级检测器更复杂的函数，将问题分成两个更简单的任务，因此需要更多的数据来有效地训练。数据量与多样性为了理解增加数据集多样性与增加训练数据量我们保持训练图像的数量固定，并使用两种不同的采样率（1/60和1/10）从序列中采样图像。采样率越高，我们从给定序列中采样的图像就越多，反之亦然。能够使用MOTSynth弥合合成与真实之间的差距。其他合成数据集也是如此为了回答这个问题，我们通过在VIPER [43]和JTA [24]数据集上训练模型进行了类似的实验。可以在Tab中看到。3、基于MOTSynth的训练明显优于替代的合成数据集。特别是，在MOTSynth-full上训练的YOLOv 3比VIPER训练的模型表现好45倍。25名AP和JTA在+18之前接受了培训。72AP.我们观察到一个类似的趋势与中心网。得到+25。MOTSynth的AP改善91-完全训练模型超过VIPER模型和+10。34AP改进JTA模型。最后，使用Faster R-CNN，我们观察到+18。05改进VIPER模型和+18. 第29话JTA模式这些观察结果引出了以下问题：与面向行人的JTA相比，MOTSynth的优势是什么？是数据的多样性还是数据的绝对数量？为了回答这个问题，我们进行了以下实验。我们使用MOTSynth的子集MOTSynthMOTSynthJTA和MOT-SynthFaster R-CNNCenterNet YOLOv3Viper26.6522.020.16154478385091023.2894.85JTA53.1848.770.793657842002981555.0989.70MOTSynth62.9962.310.584445830902193566.9693.50MOTSynth-完整71.9064.511.074850056731789373.0589.53Viper44.5836.921.243112266113527146.8882.48JTA60.1545.382.3242435 12308 2395863.9177.52MOTSynth61.8250.112.0344067 10795 2232666.3780.32MOTSynth-完整70.4955.252.1147883 11204 1851072.1281.04Viper60.9342.872.8743707 15241 1059365.8274.14JTA69.6938.385.1252726 27242 1366765.9379.41MOTSynth78.6158.653.1055441 16504 1095283.5077.0610854合成实数表4：我们在MOTSynth上训练了更快的R-CNN，有和没有微调，并在MOTChallenge MOT 17和MOT 20行人检测测试集上进行了评估。子外观多样性是产生MOTSynth序列时的关键目标之一。可以看出，使用 YOLOv 3 和更快的 R-CNNMOTSynth-256模型，我们获得了+9。81AP和+892个AP改进超过JTA训练模型。这证实了MOTSynth在人员外观方面的多样性是弥合域差距的关键因素。基准结果。最后，我们通过将我们的结果提交给MOTChallenge MOT17 MOT20基准测试来评估我们的MOTSynth训练的检测模型我们评估两个变体：没有微调，即，仅在 MOTSynth 上训练，并在相应的MOTChallenge数据集上进行微调（+ FT）。我们总结了我们的结果表。4.第一章可以看出，在MOT17上，我们优于（FRCNN MOTSynth，0. 8 AP）基线FasterR-CNN（FRCNN，0. 72 AP）+0。08AP.有趣的是，在MOTChallenge训练集上进行微调不会在AP方面显著影响MOTSynth模型然而，它确实在MODA方面有所改善（66。7对微调后的71MODA），需要为其选择特定的阈值在实验过程中，我们保持了原来的阈值。重要的是要注意，最近的对象检测器，ZI- ZOM [48]和SDP[79]仅比我们的MOTSynth 训练的 Faster R-CNN模型（+0）略有改善。01AP）。与MOT17不同，微调对MOT20（+0。1美联社）：我们假设这是因为在MOT- Synth中我们没有作为MOT20焦点的极度拥挤的场景。产生更密集的合成序列可以进一步帮助弥合MOT20上的差距，并且仍然是我们未来的工作。最后，我们注意到，在拥挤场景中的行人检测中专用的检测器 [14 ， 76] 仅比我们微调的MOTSynth Faster R-CNN模型好+0。08AP.4.3. 人员重新识别为了评估重新识别（ReID）模型的性能，我们训练了三个模型，（i）在Market1501 [83]上训练，（ii）在Market1501 [83]和CUHK03 [47]上训练，最后，仅在四个子集 MOTSynth 上训练。我们在 MOTChallengeMOT17数据集上对所有三个模型进行了开箱即用（无需微调）表5：M0T17上的Person ReID实验。通过将每个序列作为单独的数据集来处理。为此，我们随机选择每个轨道一个地面实况框以获得查询集，并使用以IOFPS采样的剩余框集我们为每个序列计算标准ReID度量：平均精密度（mAP）和秩-1准确度，并报告其平均总体序列。所有模型都使用ResNet-50骨干进行训练，然后是完全连接的层和标准的交叉熵损失。有关实施细节，请参阅补充资料。可以在Tab中看到 5，通过使用第一次分割纯粹在MOTSynth数据上进行训练，我们已经在mAP（+6）方面超过了在真实数据上训练的模型。市场1501和+2的9。5用于组合数据集）。对于Rank1，我们得到+1。6相对于Market 1501-only模型。然而，当使用前两个分割（总数据的50%）在MOTSynth上进行训练时，我们注意到+8的改进。6和+4。2在mAP和+3方面。5和+1级，分别这表明可以使用作为ReID数据集的完全替代品，ReID数据集经常是争议的主题[33]。4.4. 多目标跟踪在本节中，我们将分析MOTSynth在行人多目标跟踪任务中的价值我们报告了CLEAR-MOT [7]和IDF 1 [62]指标，并将分析集中在最广泛使用的多目标跟踪准确度（MOTA）和身份F1评分（IDF 1）上。我们使用两种不同的跟踪器进行实验，Tracktor [6]和最近提出的CenterTrack [84]。我们在最广泛使用的行人跟踪数据集MOTChal- lenge MOT 17 [18]上评估了我们的所有模型，在MOT 17训练集上进行了微调（FT）和未进行微调（FT ）根据CenterTrack 验证方案，我们仅使用MOT17序列的前半部分对网络进行微调，并在后半部分进行验证。追踪器我们在（i）COCO数据集[49]和（ii）完整的MOTSynth数据集上训练检测/跟踪[6]模型。我们注意到，对于Tracktor，我们不需要对序列进行任何训练，因为这种方法利用边界框回归功能来跟踪目标。Tracktor还依赖于ReID模型来弥合轨迹差距。为此，我们用两个ReID模型进行了实验，一个是在真实数据（Market 1501 ）上训练的，另一个是在合成数据（MOT-Synth）上训练的数据集AP↑Moda ↑ FAF↓TP↑FP↓FN↓Rec. ↑ PR.↑MOT17ZIZOM [48]0.8172.02.295414129901913983.388.0SDP [79]0.8176.91.39569975991886583.592.6DPM [26]0.6131.27.178007423083655768.164.8FRCNN [59]0.7268.51.788601100812596377.389.8FRCNNMOTSynth0.8066.73.798164217481640081.983.7FRCNNMOTSynth + FT0.8071.03.5102341209891222389.383.0MOT20[76]第76话0.8179.37.1304236316773928888.690.6VIPeD20 [14]0.8046.031.1297101 1391114627786.568.1FRCNNMOTSynth0.6252.06.32069022820213662260.288.0FRCNNMOTSynth + FT0.7263.35.22410562346510246870.291.1数据集分裂地图Rank1市场1501 [83]-64.691.9[47]第一届中国国际汽车工业展览会-69.191.9MOTSynth123471.373.174.275.291.491.892.692.810855∼跟踪器[6]数据集可可可可FT✗✗✓里德✗Market1501Market1501MOTA ↑ MOTP ↑ IDF1 ↑TP ↑FP ↓FN↓ IDS↓43.50.19226783281627259 46744.00.19226783281627259 17948.30.19329218 27259 二四八二四一八五MOTSynthMOTSynthMOTSynth✗✗✗✗Market1501MOTSynth45.00.19728749399225293 45845.50.19756.828749399225293 16145.50.19756.828749399225293160MOTSynthMOTSynthMOTSynth✓✓✓✗Market1501MOTSynth49.80.19953.8305883264二三四五四四一一50.30.19959.83058832642345416750.30.19959.930588326423454165ImageNet✓- 60.7 0.19062.735443217918447 564表6：在M0T17训练集上执行的多对象跟踪结果CenterTrack。对于CenterTrack [84]，我们报告了论文的结果。特别是，我们报告了（i）直接在MOT 17上训练的CenterTrack模型，该模型使用静态图像训练方案在（ii）CrowdHuman数据集[66]上训练，最后，我们（iii）报告了我们在MOTSynth而不是Crowd-Human上训练的CenterTrack获得的结果我们仅使用全序列（每帧）在 MOTSynth 在这种情况下，我们使用CenterTrack论文中相同的train/eval超参数训练四个epoch。微调我们还评估了MOTChallenge的微调如何影响每个模型的最终性能在CenterTrack的情况下，我们采用稍微修改的预训练方案，以充分利用MOTSynth的场景多样性。我们不是只在MOTSynth-1子集上训练，而是然而，由于计算约束，我们仅使用每个序列内的帧的子集（每个视频的1/8这样，我们增加了场景多样性，同时保持训练时间合理。在用MOTSynth的这个子集训练了10个epoch之后，我们在MOT17序列上对网络进行了28个epoch的微调在整个微调和验证过程中，我们使用与[84，6]中报告的相同的训练和评估超参数。虽然[84]报告在CrowdHuman数据集上执行了70个epoch，但我们早些时候停止了对MOT-Synth的训练，因为我们观察到我们的模型开始过度拟合。对于这些实验的进一步实施细节，我们参考补充。结果我们在Tab中报告了我们的发现。六、首先，我们分析Tracktor的性能。当不执行任何微调或使用ReID模型时，我们获得45。0 MOTA和51。2IDF1与我们的MOTSynth训练模型，产生+3。5 MOTA和+1。6 IDF1对COCO训练模型的改进（43. 5 MOTA和49. 6IDF1）。在我们对MOT17上的两个模型进行微调之后，MOTSynth训练的模型（49. 8MOTA，53. 8 IDF1）提高+4。8，在MOTA和+2方面。在IDF1方面，6类似地，微调的COCO训练模型（ 48. 3 MOTA ， 58. 1 IDF1 ）提高 +4 。 8 MOTA 和+85IDF1。微调后，MOTSynth相对于COCO的改进增加了+1。5表7：多对象跟踪和分割。使用在COCO和MOTSynth上训练的Mask R-CNN模型生成掩码。基线：Track R-CNN [75]，Tracktor [6]，Lift T [35]，CenterNet [84]，MPNTrack [10]MOTA +4 3 IDF1，表明MOTSynth与COCO数据集相比更适合用于预训练行人检测和跟踪模型。当使用ReID模型时，我们观察到MOTSynth和COCO模型的一致改进。特别地，我们观察到MOTA方面的一致改善，我们将其归因于IDS数量的显著减少（250有趣的是，我们观察到在MOT-Synth和Market 1501上训练的两个ReID模型的相同改进，并得出结论，在MOTSynth上训练的ReID模型是在真实数据上训练的模型的适当替代品。60 .第六十章7 MOTA和62. 7直接在MOT17和52上训练时的

下载后可阅读完整内容，剩余1页未读，立即下载