MOTS：多目标跟踪和分割任务的新数据集、度量和基线方法

69 浏览量更新于2023-10-19 收藏 25.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

box annotations of objects. These can be too coarse, e.g.,when objects are partially occluded such that their bound-ing box contains more information from other objects thanfrom themselves, see Fig. 1. In these cases, pixel-wise seg-mentation of the objects results in a more natural descrip-tion of the scene and may provide additional informationfor subsequent processing steps. For segmentation masksthere is a well-deﬁned ground truth, whereas many differ-ent (non-tight) boxes might roughly ﬁt an object. Similarly,tracks with overlapping bounding boxes create ambiguitieswhen compared to ground truth that usually need to be re-solved at evaluation time by heuristic matching procedures.Segmentation based tracking results, on the other hand, areby deﬁnition non-overlapping and can thus be compared toground truth in a straightforward manner.In this paper, we therefore propose to extend the well-known multi-object tracking task to instance segmentationtracking.We call this new task “Multi-Object Tracking79420MOTS：多目标跟踪和分割0Paul Voigtlaender 1 Michael Krause 1 Aljo˘sa O˘sep 1 Jonathon Luiten 10Berin Balachandar Gnana Sekar 1 Andreas Geiger 2 Bastian Leibe 101 RWTH Aachen University 2 MPI for Intelligent Systems and University of T¨ubingen0{ voigtlaender,osep,luiten,leibe } @vision.rwth-aachen.de0{ michael.krause,berin.gnana } @rwth-aachen.de andreas.geiger@tue.mpg.de0摘要0本文将流行的多目标跟踪任务扩展到多目标跟踪和分割（MOTS）。为实现这一目标，我们使用半自动标注过程为两个现有的跟踪数据集创建了密集的像素级注释。我们的新注释包括10,870个视频帧中977个不同对象（汽车和行人）的65,213个像素掩码。为了评估，我们将现有的多目标跟踪度量扩展到这个新任务。此外，我们提出了一种新的基线方法，它通过一个卷积网络共同解决了检测、跟踪和分割。我们通过在MOTS注释上进行训练，在性能上取得了改进，从而展示了我们的数据集的价值。我们相信，我们的数据集、度量和基线方法将成为开发超越2D边界框的多目标跟踪方法的有价值的资源。我们将我们的注释、代码和模型提供在https://www.vision.rwth-aachen.de/page/mots。01. 引言0近年来，计算机视觉社区在越来越困难的任务上取得了显著进展。深度学习技术在目标检测、图像和实例分割方面展示出令人印象深刻的性能。然而，跟踪仍然具有挑战性，特别是当涉及多个物体时。特别是，最近的跟踪评估结果[37, 7,25]表明，边界框级别的跟踪性能已经饱和。只有在移动到像素级别时，才能进一步改进。因此，我们提出将这三个任务（检测、分割和跟踪）视为相互关联的问题，需要一起考虑。用于训练和评估实例分割模型的数据集通常不提供视频数据上的注释，甚至不提供不同图像之间的对象标识信息。另一方面，常见的多目标跟踪数据集只提供对象的边界框注释。这些注释可能过于粗糙，例如当物体部分遮挡时，其边界框包含的信息可能来自其他物体而不是自身，参见图1。在这些情况下，对物体进行像素级分割可以更自然地描述场景，并为后续处理步骤提供额外的信息。对于分割掩码，存在明确定义的真值，而许多不精确的边界框可能大致适合一个物体。类似地，具有重叠边界框的轨迹在与通常需要通过启发式匹配过程在评估时解决与真值的歧义。另一方面，基于分割的跟踪结果在定义上是不重叠的，因此可以直接与真值进行比较。因此，在本文中，我们提出将众所周知的多目标跟踪任务扩展到实例分割跟踪。我们将这个新任务称为“多目标跟踪0图1：分割与边界框。当物体相互穿过时，一个物体的边界框的大部分可能属于另一个实例，而逐像素的分割掩码可以精确定位物体。所示的注释是我们的KITTIMOTS数据集的裁剪图像。2. Related WorkMulti-Object Tracking Datasets.In the multi-objecttracking (MOT) task, an initially unknown number of tar-gets from a known set of classes must be tracked as bound-ing boxes in a video. In particular, targets may enter andleave the scene at any time and must be recovered afterlong-time occlusion and under appearance changes. ManyMOT datasets focus on street scenarios, for example theKITTI tracking dataset [13], which features video from avehicle-mounted camera; or the MOTChallenge datasets[26, 37] that show pedestrians from a variety of differ-ent viewpoints. UA-DETRAC [57, 35] also features streetscenes but contains annotations for vehicles only. AnotherMOT dataset is PathTrack [36], which provides annotationsof human trajectories in diverse scenes. PoseTrack [2] con-tains annotations of joint positions for multiple persons invideos. None of these datasets provide segmentation masksfor the annotated objects and thus do not describe complexinteractions like in Fig. 1 in sufﬁcient detail.Video Object Segmentation Datasets. In the video objectsegmentation (VOS) task, instance segmentations for one ormultiple generic objects are provided in the ﬁrst frame of avideo and must be segmented with pixel accuracy in all sub-sequent frames. Existing VOS datasets contain only few ob-jects which are also present in most frames. In addition, thecommon evaluation metrics for this task (region Jaccard in-dex and boundary F-measure) do not take error cases like idswitches into account that can occur when tracking multipleobjects. In contrast, MOTS focuses on a set of pre-deﬁnedclasses and considers crowded scenes with many interactingobjects. MOTS also adds the difﬁculty of discovering andtracking a varying number of new objects as they appearand disappear in a scene.Datasets for the VOS task include the DAVIS 2016dataset [43], which focuses on single-object VOS, and theDAVIS 2017 [45] dataset, which extends the task for multi-object VOS. Furthermore, the YouTube-VOS dataset [59]is available and orders of magnitude larger than DAVIS. Inaddition, the Segtrackv2 [28] dataset, FBMS [40] and anannotated subset of the YouTube-Objects dataset [46, 19]can be used to evaluate this task.Video Instance Segmentation Datasets. Cityscapes [12],BDD [61], and ApolloScape [18] provide video data foran automotive scenario. Instance annotations, however, areonly provided for a small subset of non-adjacent frames or,in the case of ApolloScape, for each frame but without ob-ject identities over time. Thus, they cannot be used for end-to-end training of pixel-level tracking approaches.Methods. While a comprehensive review of methods pro-posed for the MOT or VOS tasks is outside the scope of thispaper (for the former, see e.g. [27]), we will review someworks that have tackled (subsets of) the MOTS task or arein other ways related to TrackR-CNN.Seguin et al. [51] derive instance segmentations fromgiven bounding box tracks using clustering on a super-pixel level, but they do not address the detection or track-ing problem. Milan et al. [38] consider tracking and seg-mentation jointly in a CRF utilizing superpixel informa-tion and given object detections. In contrast to both meth-ods, our proposed baseline operates on pixel rather than su-perpixel level. CAMOT [42] performs mask-based track-ing of generic objects on the KITTI dataset using stereoinformation, which limits its accuracy for distant objects.CDTS [24] performs unsupervised VOS, i.e., without us-ing ﬁrst-frame information. It considers only short videoclips with few object appearances and disappearances. InMOTS, however, many objects frequently enter or leave acrowded scene. While the above mentioned methods areable to produce tracking outputs with segmentation masks,their performance could not be evaluated comprehensively,since no dataset with MOTS annotations existed.Lu et al. [33] tackle tracking by aggregating location andappearance features per frame and combining these acrosstime using LSTMs. Sadeghian et al. [50] also combine ap-pearance features obtained by cropped detections with ve-locity and interaction information using a combination ofLSTMs. In both cases, the combined features are input intoa traditional Hungarian matching procedure. For our base-line model, we directly enrich detections using temporal in-79430“多目标跟踪和分割（MOTS）”。据我们所知，迄今为止还没有针对这个任务的数据集。虽然文献中有许多用于边界框跟踪的方法，但MOTS需要结合时间和掩码线索才能成功。因此，我们提出了TrackR-CNN作为MOTS任务的基线方法，它涵盖了MOTS任务的所有方面。TrackR-CNN通过3D卷积扩展了Mask R-CNN[14]，以融入时间信息，并通过一个关联头来链接物体的身份。总之，本文的贡献如下：（1）我们提供了两个新的数据集，基于流行的KITTI [13]和MOTChallenge[37]数据集，用于训练和评估解决MOTS任务的方法。（2）我们提出了新的软多目标跟踪和分割准确度（sMOTSA）度量，可用于同时评估新任务的所有方面。（3）我们提出了TrackR-CNN作为一个基线方法，它同时解决了检测、跟踪和分割，并将其与现有工作进行了比较。（4）我们证明了新数据集对于像素级多目标跟踪的端到端训练的有用性。特别是，我们展示了使用我们的数据集，分割和跟踪程序的联合训练成为可能，并且相对于仅进行实例分割或边界框跟踪的训练，取得了改进，这在以前是不可能的。79440形成并与检测器一起联合学习关联特征，而不仅仅是“后处理”给定的检测结果。半自动注释。有许多半自动实例分割方法，例如从涂鸦[49]或点击[58]生成分割掩码。这些方法要求对每个要分割的对象进行用户输入，而我们的注释过程可以自动分割许多对象，让标注员专注于改善困难情况下的结果。虽然这与主动学习设置有些相似[11,56]，但我们将决定由人类标注员注释哪些对象，以确保所有注释达到长期基准数据集所需的质量（参见[32]）。其他半自动注释技术包括Polygon-RNN [9,1]，它可以自动预测多边形形式的分割，标注员可以对其进行修正。Fluid Annotation [3]允许标注员操纵由MaskR-CNN[14]预测的分割段，以便注释完整的图像。虽然这些方法加快了对孤立帧中对象的分割掩码的创建，但它们不在轨迹级别上操作，不使用现有的边界框注释，并且不利用已经为其他视频帧中的同一对象注释的分割掩码。03. 数据集0为视频中的每个对象的每个帧注释像素掩码是一项非常耗时的任务。因此，此类数据的可用性非常有限。我们不知道任何现有的MOTS任务数据集。但是，有一些带有MOT注释的数据集，即在边界框级别进行注释的轨迹。对于MOTS任务，这些数据集缺少分割掩码。因此，我们的注释过程为两个MOT数据集的边界框添加了分割掩码。总共，我们注释了65,213个分割掩码。这个规模使得我们的数据集适用于训练和评估现代基于学习的技术。半自动注释过程。为了使注释工作量可控，我们提出了一种半自动方法来通过分割掩码扩展边界框级别的注释。我们使用卷积网络从边界框自动生成分割掩码，然后使用手动多边形注释进行校正。对于每个轨迹，我们使用手动注释作为额外的训练数据对初始网络进行微调，类似于[6]。我们迭代生成和校正掩码的过程，直到达到所有注释掩码的像素级准确性。为了将边界框转换为分割掩码，我们使用基于DeepLabv3+[10]的全卷积细化网络[34]，它以由边界框指定的输入图像裁剪为输入，并添加了一个小的上下文区域，以及一个额外的输入通道。0图2：我们注释的样本图像。KITTIMOTS（顶部）和MOTSChallenge（底部）。0通过将边界框编码为掩码来生成分割掩码。基于这些线索，细化网络预测给定边界框的分割掩码。细化网络在COCO[29]和Mapillary[39]上进行预训练，然后在目标数据集的手动创建的分割掩码上进行训练。一开始，我们在考虑的数据集中为每个对象注释（作为多边形）两个分割掩码。首先，细化网络在所有手动创建的掩码上进行训练，然后针对每个对象进行单独微调。然后，使用这些经过微调的网络生成数据集中各个对象的所有边界框的分割掩码。通过这种方式，网络适应了每个单独对象的外观和上下文。使用每个对象的两个手动注释的分割掩码来微调细化网络，已经为其他帧中对象的外观生成了相对较好的掩码，但通常仍然存在一些小错误。因此，我们手动纠正了一些有缺陷的生成掩码，并在迭代过程中重新运行训练过程。我们的标注员还纠正了原始MOT数据集中不准确或错误的边界框注释。KITTIMOTS。我们对KITTI跟踪数据集[13]的边界框级别注释执行了上述注释过程。图2显示了注释的样本。为了便于训练和评估，我们将KITTI跟踪数据集的21个训练序列分别划分为训练集和验证集。我们的划分在训练集和验证集之间大致平衡了每个类别（汽车和行人）的出现次数。统计数据见表1。01 标注者根据多样性选择每个对象标注的两个帧。2我们目前正在将我们的注释过程应用于KITTI测试集，目标是创建一个公开可访问的MOTS基准。3序列2、6、7、8、10、13、14、16和18被选择为验证集，其余序列用于训练集。c(h) ≠̸̸̸̸,(4)79450KITTI MOTS MOTSChallenge训练验证0# 序列 12 9 4 # 帧数 5,027 2,981 2,8620# 轨迹行人 99 68 228 # 掩码行人总计 8,073 3,34726,894 手动注释 1,312 647 3,9300# 轨迹汽车 431 151 - # 掩码汽车总计 18,831 8,068- 手动注释 1,509 593 -0表1：引入的KITTIMOTS和MOTSChallenge数据集的统计。我们考虑了两个数据集的行人，还考虑了KITTI MOTS的汽车。0所需的相对较高数量的手动注释表明，现有的单图像实例分割技术在这个任务上的性能仍然较差。这是我们提出的MOTS数据集的主要动机，它允许将时间推理纳入实例分割模型中。MOTSChallenge。我们进一步注释了MOTChallenge2017[37]训练数据集的7个序列中的4个，并获得了MOTSChallenge数据集。MOTSChallenge专注于拥挤场景中的行人，并且由于许多遮挡情况，像素级描述尤其有益。图2显示了注释的样本，表1给出了统计数据。04. 评估指标0作为评估指标，我们将广泛使用的CLEARMOT多目标跟踪指标[4]调整为适应我们的任务。对于MOTS任务，需要在评估指标中考虑每个对象的分割掩码。受全景分割任务[23]的启发，我们要求对象的真实掩码和MOTS方法生成的掩码不重叠，即每个像素最多可以分配给一个对象。现在，我们介绍MOTS的评估指标。形式上，具有T个时间帧、高度h和宽度w的视频的真实情况由一组N个非空真实像素掩码M ={m1，...，mN}组成，其中mi∈{0，1}h×w，每个掩码属于相应的时间帧tm∈{1，...，T}并分配一个真实的跟踪ididm∈N。MOTS方法的输出是一组K个非空假设掩码H ={h1，...，hK}，其中hi∈{0，1}h×w，每个掩码分配一个假设的跟踪ididh∈N和一个时间帧th∈{1，...，T}。建立对应关系。对于04个序列2、5、9和11被注释。0CLEARMOT指标[4]，建立真实对象和跟踪器假设之间的对应关系是非常困难的，并且通过二分匹配来执行，因为真实边界框可能重叠，并且多个假设边界框可能很好地适应给定的真实边界框。在MOTS的情况下，由于我们要求每个像素在真实情况和假设情况下都唯一地分配给一个对象，因此建立对应关系大大简化了。因此，最多一个预测掩码可以与给定的真实掩码具有大于0.5的交并比（IoU）[23]。因此，从假设掩码到真实掩码的映射c：H→M∪{�}可以简单地使用基于掩码的IoU定义为0� arg max m ∈ M IoU ( h, m ) , 如果 max m ∈ MIo0� , 否则。(1)0真正例集TP = {h ∈ H | c ( h ) ≠�}由映射到真实掩码的假设掩码组成。同样，假正例是未映射到任何真实掩码的假设掩码，即FP = {h ∈ H | c ( h ) =�}。最后，假阴例集FN = {m ∈ M | c − 1 ( m ) =�}包含未被任何假设掩码覆盖的真实掩码。在接下来的内容中，让pred：M→M∪{�}表示真实掩码的最新跟踪前身，或者如果不存在跟踪前身，则为�。因此，q = pred ( p)是具有相同id（idq = idp）和最大tq

下载后可阅读完整内容，剩余1页未读，立即下载