没有合适的资源?快使用搜索试试~ 我知道了~
209931 2 3 4 5631 25 7 8 4932 17 58 4 9 2 3 175 84 9DanceTrack:均匀外观和多样运动孙培泽1岁,曹锦坤2岁,姜毅3岁,袁泽环3岁,白松3岁,Kris Kitani2岁,罗平1岁香港大学2岁卡内基梅隆大学3岁字节跳动公司。图1 -DanceTrack中视频的示例图像:DanceTrack 0027视频中的第1、66、307和327帧。.该数据集强调的属性是(1)均匀的外观:人类具有高度相似且几乎无法区分的外观。(2)运动方式多样:运动方式和相互作用方式复杂下面的数字显示了它们经历频繁的相对位置切换和遮挡的标识我们期望统一的外观和复杂的运动模式的结合使DanceTrack成为一个平台,鼓励更全面和智能的多目标跟踪算法。摘要用于多对象跟踪(MOT)的典型流水线是使用检测器进行对象定位,并且随后进行对象关联的重新识别(re-ID)该管道部分地由对象检测和re-ID两者中的最新进展所激励,并且部分地由现有跟踪数据集中的偏差所激励,其中大多数对象倾向于具有区别的外观并且re-ID模型足以建立关联。针对这种偏差,我们要再次强调,当对象外观不具有足够的区分性时,多对象跟踪方法也应该起作用。为此,我们提出了一个大规模的多人跟踪数据集,其中人类具有相似的外观,不同的运动和极端的清晰度。由于该数据集主要包含群舞视频,因此我们将其命名为“DanceTrack”。我们希望DanceTrack提供一个更好的平台来开发更多的MOT算法,这些算法更少地依赖于视觉识别,更多地依赖于运动分析。我们在我们的数据集上对几个最先进的跟 踪 器 数 据 集 、 项 目 代 码 和 竞 赛 发 布 于 :https://github.com/DanceTrack。* 表示相等的贡献。1. 介绍物体跟踪已经被研究了很长时间,并且可以有益于诸如自动驾驶、视频分析和机器人规划的应用[1,4,25,35]。多目标跟踪的目的是定位和关联感兴趣的对象随着时间的推移。有趣的是,我们观察到,多目标跟踪的最新发展在很大程度上依赖于一个范例的detec-tion其次是重新ID,其中大多数外观线索被用来关联对象。算法发展中的这种趋势使得现有解决方案在对象共享非常相似的外观的情况下灾难性地失败,例如。集体舞,表演者穿着统一的服装。它启发我们提出更全面的解决方案,通过采取其他线索建模,如对象运动模式和时间动态。与计算机视觉的许多其他领域一样,多目标跟踪的发展受到基准数据集的影响。基于指定的数据集[9,13,22,36],数据驱动的方法有时被认为偏向于某些数据分布。在这项工作中,我们认识到现有的多对象跟踪数据集的局限性在于,许多对象具有不同的外观和对象的运动模式是非常规则的,甚至是线性的。受这些数据集属性的驱动,最近开发的多目标跟踪方法[23,32,33,39]高度依赖于20994×在外观匹配上,以关联检测到的对象,同时很少考虑其他线索。主导范式在偏离偏差分布的情况下会失败。如果我们的目标是建立更通用和智能的跟踪算法,这种现象不是我们所期望的。为了提供一个新的平台,更全面的多目标跟踪研究,我们提出了一个新的数据集在本文。因为它主要包含集体舞蹈视频,我们将其命名为“DanceTrack”。该数据集包含超过10万个图像帧(比MOT17数据集多10个)。如图1所示,该数据集强调的特性是(1)外观一致:视频中的人穿着非常相似甚至相同的衣服,使得他们的视觉特征难以通过re-ID模型区分;(2)运动多样性:人们通常具有非常大范围的运动和复杂的身体姿态变化,对运动建模提出了更高的要求。第二个特性还带来了遮挡和交叉作为一个副作用,即人体之间具有大的重叠率和它们的相对位置频繁交换。利用所提出的数据集,我们建立了一个新的基准,包括现有的流行的多目标跟踪方法。结果证明,当前最先进的算法[23,27,33,37-考虑到该数据集中的案例在现实生活中经常发生,我们认为这表明了现有多目标跟踪算法在实际应用中的局限性。为了为进一步的研究提供潜在的指导方针,我们分析了关联对象的一系列选择,并得出了一些有益的结论:(1)对象的细粒度表示,例如, 分割和姿态,表现出更好的能力比粗包围盒;(2)虽然我们是在解决一个2D跟踪任务,但深度信息对关联物体有积极的影响;(3)时间动力学的运动建模非常重要。总而言之,我们的工作对对象跟踪社区的主要贡献如下:1. 我们建立了一个新的大规模多对象跟踪数据集,DanceTrack,覆盖跟踪suf- fers从对象外观和各种非线性运动模式的低可扩展性2. 我们在这个新建立的数据集上使用各种评估指标对基线方法进行基准测试,显示了现有多目标跟踪算法的局限性。3. 我们提供了全面的分析,以发现更多的线索,以开发更强大的多目标跟踪器,在复杂的现实生活中的情况。2. 相关作品多目标跟踪数据集。许多多目标跟踪数据集已被提出用于不同的场景。与我们提出的数据集类似,许多现有的数据集都集中在人体跟踪上。PETS2009 [11]是该领域最早的数据集之一。最近的MOT15 [17]、MOT17[22]和MOT20 [9]数据集在这个社区中都很受欢迎。这些数据集在外观不明显和运动多样方面受到限制例如,MOT17只包含少数视频和场景。即使MOT20增加了物体的密度,突出了物体之间的遮挡,物体的运动也很有规律,仍然具有可分辨的外观。通过纯外观匹配[23]的关联可以很容易地在这些数据集上取得成功,我们将在第4.2节中展示,给定完美的检测器,这些数据集上的跟踪问题可以通过非常简单的关联策略来解决。此外,许多其他数据集被提出用于不同的目标,例如,WILDTRACK [6]用于多摄像头跟踪,Youtube-VIS [34]用于视频实例分割和跟踪。随着自动驾驶的吸引力越来越大,一些数据集是专门构建的,其中感兴趣的对象是车辆和行人。KITTI [13]是最早的用于驾驶场景的大规模多对象跟踪数据集之最近,BDD100K[36]、Waymo [28]和KITTI360 [18]向公众开放,仍然专注于自动驾驶场景,但提供的数据规模比KITTI大得多由于车道和交通规则的限制,这些数据集中的物体运动模式比只关注运动的人的运动模式更有规律。有许多数据集关注的对象类别比人和车辆更多样化。ImageNet-Vid [10]为超过1000个视频中的30个对象类别提供了轨迹注释,TAO [8]甚至注释了833个对象类别,以研究长尾分布上的对象跟踪。通过匹配外观进行跟踪在多目标跟踪的最新例如,JDE [31]和FairMOT [39]使用共享主干学习对象本地化和外观嵌入,以获得更好的外观表示。QDTrack [23]为对象检测设计了一个对比训练范例和密集定位,并使用高度敏感的外观匹配来匹配跨帧的对象最近,随着在视觉任务中应用变换器[30]的新焦点,TransTrack[27]、TrackFormer [21]和MOTR [37]试图利用注意力机制来跟踪视频中的对象。在这些工作中,先前轨迹片段的特征被传递到后续帧,作为查询,以跨帧关联相同对象。外观20995包含在查询中的信息对于保持Track-let一致性是至关重要的。尽管深度学习模型的兴起带来了比以往任何时候都更强大的视觉表征,但我们仍然目睹了许多现实世界中外观匹配的失败,并期望通过考虑其他线索来提高跟踪性能。目标跟踪中的运动分析。 感兴趣对象的位移为对象跟踪提供了重要线索。通过估计运动来跟踪目标已经激发了一系列研究。这些跟踪算法主要遵循检测跟踪范式。粒子滤波器[14,15]和卡尔曼滤波器[16]等序列分析工具在此类应用中是有效的,例如SORT [3]是在卡尔曼滤波器运动模型上开发的。尽管运动分析已被用于许多对象跟踪方法[31,38,39],但所有这些方法都只能处理简单的线性运动模式,并在更复杂的情况下提供有限的帮助。此外,由于深度网络带来了提取高质量视觉特征的革命性能力,DeepSORT [32]试图将深度视觉特征和运动模型结合起来,以获得每帧增益。从那时起,基于运动的对象跟踪器显示出较弱的竞争力,许多重点是对外观线索。然而,我们认为,一个更全面和智能的跟踪算法应该更多地关注运动分析,因为外观并不总是可靠的。3. DanceTrack3.1. 数据集构建数据集设计。我们关注的场景中,物体具有相似甚至相同的外观和不同的运动模式,包括频繁的交叉,遮挡和身体变形。第一个属性使得通过纯粹比较对象外观的跟踪无效,因为对于不同的对象,前视觉特征不再是可区分的。第二个属性进一步需要更多的信息线索,而不是出现在跟踪,如运动分析和时间动态。我们认为,通过简单地增加物体的密度来“拥挤”并不是我们所期望的。例如,MOT20 [9]包含行人非常拥挤的视频但由于行人的运动是非常有规律的,相对位置和遮挡区域几乎保持一致,这种“拥挤”并不妨碍外观匹配。因此,我们关注的情况下,多个对象是在一个“相对”大的范围内移动这种情况在现实世界中很常见,但天真的线性运动模型不能处理它们了。数据集MOT17 [22]MOT20 [9]DanceTrack视频148100Avg. 轨道964329曲目总数13423456990Avg. len.(s)35.466.852.9全镜头。(s)4635355292FPS302520总图像11,23513,410105,855表1-DanceTrack包含的视频和图像比MOT数据集多得多。视频采集。为了实现上述设计目标,我们从互联网上收集了主要包括群舞的视频。如图2所示,舞者通常穿着非常相似甚至相同的衣服。他们做大范围的运动,不同的手势和频繁的交叉。这些特性极大地满足了我们的动机。我们从不同的搜索引擎中收集视频,关键词包括“街舞”、“嘻哈舞”、“啦啦队舞”、“艺术体操”等。该收集仅适用于公开可用的视频,并在合理使用视频资源的许可下进行。注释。我们使用商业工具来注释收集的视频。注释标签包括边界框和标识。对于部分被遮挡的对象,将注释全身框。对于一个完全被遮挡的物体,我们不对其进行标注;当它再次出现在未来帧中时,当它可见时,它的标识被保持为与在前一帧中相同。为了方便注释过程,我们的工具可以自动将注释框从前一帧传播到当前帧,注释器只需要细化当前帧中的框为了构建高质量的数据集,注释已经由另一组人检查,并且错误被报告回注释器以进行重新注释。3.2. 数据集统计我们提供了DanceTrack数据集的一些分析信息,并与现有的多目标跟踪数据集进行了比较。统计信息有助于理解所提出的数据集的唯一性。数据集拆分。 我们在DanceTrack数据集中收集了100个视频,默认情况下使用40个视频作为训练集,25个作为验证集,35个作为测试集。对于分割,我们保持子集的平均长度,平均包围盒数量,场景和运动多样性方面的距离接近。我们将训练集和验证集的注释公开 , 同 时 保 持 测 试 集 注 释 私 有 以 供 竞 争 使 用 。DanceTrack的一些基本信息是20996·U=1IoU(B t,B t+1).(二)我不N2我JNNT−1(一)(c)第(1)款(b)第(1)款(d)其他事项体育街舞流行大集团古典图2DanceTrack包含多种类型的舞蹈,包括古典舞、街舞、流行舞、大型群舞和体育。DanceTrack中的场景多种多样:(a)户外场景;(b)低照度和远距离摄像机场景;(c)一大群跳舞的人;(d)体操场景中的动作通常更多样化,人的变形也更激进。表1所示与MOT数据集相比,Dance- Track的数据量要大得多(10倍的图像和10倍的视频)。MOT20专注于拥挤的场景,所以它有更多的轨道,但物体的外观非常明显,它们的运动是有规律的。因此,当提供良好的检测结果时,MOT20上的关联仍然需要很少的运动场景多样性。 DanceTrack包含各种场景。图2中提供了所有100个视频的样本。所有视频的一个共享属性是视频中的人的实例通常具有非常相似的外观。这是为了避免单纯的外观匹配跟踪的捷径而设计的.DanceTrack包含多种类型的舞蹈,如街舞、流行舞、古典舞(芭蕾、探戈等)大型集体舞。它还包括一些体育场景,如体操,中国功夫和啦啦队舞蹈。图2(a)示出了室外场景,尽管大多数包括的视频是室内的。图2(b)示出了一些特别困难的情况,例如低照明和远距离相机。图2(c)示出了一大群人在跳舞,包括至多40人。图2(d)显示了人们表现出极其多样化的身体姿势的体操,从其中T是视频序列中的帧的数量,Nt是帧t上的对象的数量,<并且是两个向量之间的我们将Dance-Track中的对象外观相似性与MOT 17数据集中的对象外观相似性进行比较,如图3(a)所示,每个bin表示一个视频序列。DanceTrack的re-ID特征的余弦距离明显低于MOT 17,即共存对象之间的外观相似性更高。这一定量分析表明了DanceTrack对当前流行的外观匹配的挑战动作模式。我们引入了两个指标来分析DanceTrack数据集中的运动模式,并将其与其他多对象跟踪数据集进行比较。相邻帧上的IoU:对象移动范围的自然测量是其在两个相邻帧上的边界框IoU低IoU表示快速移动的对象或视频的低帧率。给定具有N个对象和T个帧的视频,该视频的相邻帧上的平均IoU为N T−1姿态变化频繁,运动模式复杂。外观相似。 我们进行定量分析N(T−1)i我 我t=1通过测量对象之间的外观相似性,了解仅外观匹配在DanceTrack上是不可靠的我们使用预先训练的re-ID模型[24]来提取帧t上对象Bi的外观特征F(Bt),然后计算视频中对象之间的re-ID特征的余弦距离之和为TNt Nt相对位置切换的频率:衡量全局视图中对象运动多样性这可能发生在向左和向右之间或向上和向下之间。相反,具有一致速度的移动倾向于导致相对位置切换的机会较低给定一段视频,相对位置开关定义为V=11(1−cosF(Bt),F(Bt)>),Σ Σ Σt=1tij=i(一)S=Ij=it=1sw(Bi,Bj,Bi,Bj) 、 (3)2N(T−1)(N−1)不不电话+1电话+120997··0.30.20.10.0视频序列1.000.750.500.250.00MOT17MOT20KITTIDanceTrack0.0200.0150.0100.0050.000MOT17MOT20KITTIDanceTrack(a) re-ID特征(b) 相邻帧(c) 相对位置开关图3-虚线表示两个数据集的平均余弦距离相似性DanceTrack的re-ID特征的余弦距离低于MOT 17,换句话说,不同对象之间的外观相似度(b)相邻帧上的IoU。与MOT17和MOT20相比,DanceTrack的分数也差不多。这意味着DanceTrack中的帧速率和对象运动速度仍然合理。(c)相对位置开关频率。该度量交叉的频率,并且与对象之间的遮挡高度相关DanceTrack比其他行人跟踪数据集(如MOT17和MOT20)具有更频繁的相对即使与驾驶数据集KITTI相比,移动的相机自然会导致许多相对位置切换,DanceTrack仍然具有更高的频率。其中sw是指示器函数,其中如果两个对象交换它们在相邻帧上的左右相对位置或上下相对位置,则sw()=1,如果没有交换,则sw()=0我们通过比较它们的边界框中心位置来测量它们的相对位置。考虑到这种交叉只在对象有重叠时才可能造成困难,因此我们只将有重叠的对象纳入计算。从 图 3 ( b ) 所 示 的 结 果 中 , 我 们 可 以 发 现DanceTrack和MOT数据集在相邻帧上具有接近的平均IoU。这表明DanceTrack没有不合理的快速对象移动。另 一 方 面 , 从 图 3 ( c ) 中 , 我 们 可 以 发 现DanceTrack 比 其 他 数 据 集 ( 如 KITTI , MOT17 和MOT20)具有更频繁的相对位置切换。频繁的相对位置切换是由高度非线性运动模式引起的,并且导致频繁的交叉和对象间遮挡。该结果表明,DanceTrack中的运动多样性的挑战。3.3. 评估指标长期以来,多目标跟踪界一直将多目标跟踪精度(MOTA)作为评价多目标跟踪性能的主要然而,最近,社区意识到MOTA过于关注检测质量而不是关联质量。因此,提出高阶跟踪精度(HOTA)[20]来校正这种历史偏差。到目前为止,HOTA已被用作主要指标,以评估BDD100K [36]和KITTI [13]等多个流行基准的跟踪质量我们遵循这一设置DanceTrack的评估指标。在我们的协议中,主要指标是HOTA。我们还使用AssA和IDF1得分来衡量关联性能,DetA和MOTA用于检测质量。对于这些度量的详细定义,我们参考[2,20,26]。为了便于进行细粒度分析,评估工具还提 供 了 以 前 广 泛 使 用 的 统 计 数 据 , 例 如 假 阳 性(FP),假阴性(FN)和ID开关(ID)。3.4. 限制我们讨论了所提出的数据集的一些限制。首先,考虑到上述动机和所提出的数据集,我们没有提供一种算法,高度优于以前的多目标跟踪算法,但保持这作为一个开放的问题,为未来的研究。其次,对于我们在这项工作中强调的情况,人体姿势或分割掩模的注释对于更细粒度的研究应该是重要的。但由于时间和资源的限制,本版本只提供了边界框的标注.4. 实验4.1. 实验装置数据集配置我们将DanceTrack与其最接近的数据集MOT17进行比较。对于MOT 17,由于测试服务器不容易获得,我们遵循CenterTrack [41]中提供的train-val分 割 来 评 估 验 证 子 集 , 除 非 在 第 4.3 节 中 。 对 于DanceTrack,我们遵循上一节中描述的默认拆分。模型配置除非另有说明,我们继承了原始论文或正式发布的代码库中提供的所研究算法的默认训练设置。4.2. Oracle分析为了分解对象本地化和关联的分析,我们在这里执行oracle分析。我们使用具有不同关联算法的地面真值边界框来实现上限性能。这种分析可以帮助我们了解在不同数据集上跟踪的真正瓶颈是什么。我们比较了IoU匹配,运动建模和应用程序匹配的关联。IoU匹配简单地通过计算对象绑定的IoU来执行MOT17DanceTrack外观相似度adjacent_IoU开关20998外观IOU运动MOT17DanceTrack(建议的数据集)HOTADetAASSAMotaIDF1HOTADetAASSAMotaIDF1✓98.198.997.398.097.872.898.953.698.763.5✓✓96.497.195.899.798.169.487.954.899.471.3✓✓✓95.094.795.499.398.859.782.543.297.260.5✓93.399.087.998.990.968.097.747.497.958.7表2检测盒是地面实况盒。结果比较表明,在DanceTrack上执行多目标跟踪的难度比MOT17数据集明显增加DanceTrack0019MOT17-05图4-同一个为了更好的可视化,我们只选择每个视频序列中的前200帧。在相邻帧中填充框。 我们使用预训练的Re-ID模型[24]进行外观匹配,并使用卡尔曼滤波器[16]进行线性运动建模。我们在MOT17和DanceTrack上进行了实验。结果示于表2中。从结果来看,在MOT17上的所有指标方面,性能几乎完美。有趣的是,仅使用IoU匹配实现了最佳性能,这证明MOT17包含具有简单和规则运动模式的对象,并且在大多数情况下瓶颈不在于关联。另一方面,在Dance- Track上只使用IoU匹配,性能比MOT 17低得多。考虑到DetA和MOTA得分已经接近100,瓶颈显然在关联部分。与MOT17相比,所有情况下的所有关联指标得分均大幅下降。Besides, thebest perfor- mance lies in only IoU matching, evencombining a linear motion model or additional appearanceinformation does not help. 当使用外观相似性时,所有指标比不使用任何外表提示更糟糕。这是因为DanceTrack视频中的对象通常具有不可识别的外观,因此简单地使用外观匹配在某些情况下会产生负面影响。在图4中,我们可视化了分别从DanceTrack和MOT17视频中提取的对象的外观特征。我们可以观察到,不同对象的外观特征在MOT17上的特征空间中是非常可区分的,而在DanceTrack上是高度纠缠的。这定性地提供了证据,证明在所提出的DanceTrack数据集中对象的外观高度相似。基于Oracle对象定位的分析结果,我们可以得出一个明确的结论,即现有数据集存在严重的偏差,它只关注检测质量,涉及的简单轨迹模式限制了而Dance-Track则对多目标跟踪器提出了更高的要求,要求提高多目标跟踪器的联想能力。考虑到DanceTrack中包含的场景是我们在现实生活中体验到的,我们认为提供这样一个平台是有意义的。4.3. 基准测试结果我们在MOT17和DanceTrack上对当前最先进的多目标跟踪算法进行了基准测试。评估是在“私有”设置中基准结果报告于表3中。对于由HOTA、IDF1和AssA测量的跟踪质量,所有算法都显示出从MOT17到DanceTrack的显著性能差距。对于所有研究的方法,他们的表现DanceTrack是远远不能令人满意的。值得注意的是,所有算法的检测质量度量MOTA和DetA实际上在DanceTrack上高于MOT17。这表明检测不是DanceTrack上具有良好跟踪性能的瓶颈,并且进一步突出了关联性能的下降。基准测试结果表明,DanceTrack在物体外观一致、运动多样的情况下,实现鲁棒关联具有挑战性20999方法DanceTrack(建议的数据集)HOTADetAASSAMotaIDF1HOTADetAASSAMotaIDF1[40]第四十话52.253.851.067.864.741.878.122.686.835.7FairMOT [39]59.360.958.073.772.339.766.723.882.240.8QDTrack [23]53.955.652.768.766.345.772.129.283.044.8[27]第二十七话54.161.647.975.263.545.575.927.588.445.2[33]第三十三话52.755.250.869.163.943.374.525.486.241.2MOTR [37]57.258.955.871.968.454.273.540.279.751.5ByteTrack [38]63.164.562.080.377.347.771.032.189.653.9表3结果比较表明,在DanceTrack上执行多目标跟踪的难度比MOT17数据集明显增加。DanceTrack对对象检测器来说不是一个严格的挑战,真正的挑战在于对象关联部分。我们进一步使用不同的运动模型在跟踪过程中引入时间动态,以促进更好的关联,如表5所示。显然,卡尔曼滤波器[3]和LSTM [5]都大大优于朴素IoU关联(没有时间动态),表明表4DanceTrack验证集。检测结果由YOLOX [12]检测器输出,在DanceTrack训练集上训练。运动HOTA DetA ASSA MotaIDF1无(IoU)44.779.625.387.336.8卡尔曼滤波器[3]47.874.031.088.248.3LSTM [5]51.678.234.289.250.8表5-不同运动模型在Dance-Track验证集上的比较。检测结果由YOLOX [12]检测器输出,在DanceTrack训练集上训练。4.4. 联想策略上一节中的方法将检测和跟踪模块联系在一起。为了对关联算法进行独立研究,我们使用最新开发的YOLOX [12]检测器在DanceTrack上进行对象检测,并在此之后进行不同的关联算法结果示于表4中。SORT [3]使用卡尔曼滤波器对对象运动进行建模,DeepSORT [32] 增 加 了 外 观 匹 配 。 与 SORT 相 比 ,DeepSORT没有表现出性能提升,反而表现出更差的性能,这表明由于外观匹配而导致的负增益。另一方面,MOTDT [7]使用跟踪结果来帮助检测绑定框。但实际上,在DanceTrack数据集上,检测性能可以很好,而真正的瓶颈是关联部分,因此MOTDT的设计在检测质量和关联质量上表现得更差。最后,BYTE [38]使用高容差策略将检测结果选择到关联阶段。该设计旨在减少跟踪中的轨迹碎片通过这种策略,BYTE在IDF1和AssA度量方面显示出最佳这也运动模型在跟踪对象中的巨大潜力,特别是当外观线索不可靠时。随着多目标跟踪领域中目标模型运动的研究进展相对缓慢,我们期望看到更多的研究。4.5. 更多模态考 虑 到 MOTA 和 DetA 在 DanceTrack 上 的 高 分 ,DanceTrack上的有限性能是跟踪器而不是检测器的确切失败。为了提高性能,一个简单的策略是添加更多的提示,而不是逐帧边界框。由于DanceTrack仅包含边界框和身份标注,因此我们建议使用与其他数据集的联合训练技术,以使模型能够输出更多模态。细粒度表示是否有帮助?我们研究了在模型中加入分割掩码的影响。从表6中,我们观察到通过使用分割掩码的性能提升。首先,引入更细粒度的注释有利于模型进行多任务学习。其次,对于拥挤和遮挡的情况下,遮罩是比包围盒更可靠的信息来关联对象。除了遮罩之外,在训练中添加姿势信息可以更好地提高DanceTrack上的模型性能,并且关联使用输出姿势进一步有助于实现更好的跟踪结果。当人体的大部分区域被遮挡时,包围盒通常不能提供可靠的输出,而聚焦于某些人体关键点的姿态估计模型通常具有较高的鲁棒性。深度信息有帮助吗?我们使用其他深度信息来帮助在DanceTrack上进行跟踪。结果示于表6中。与COCO分割掩码和人体姿势相反,从KITTI数据集学习的深度信息不会提高Dance的性能协会HOTA DetA ASSA MotaIDF1IOU44.779.625.387.336.8SORT [3]47.874.031.088.248.3DeepSORT [32]45.870.929.787.146.8MOTDT [7]39.268.822.584.339.6BYTE [38]47.170.531.588.251.921000图5-在DanceTrack上添加更多信息的可视化效果。音轨按颜色编码第1、2和3列是DanceTrack0007视频的帧20、120和200。数据屁股HOTADetAASSAMotaIDF1DanceTrack框36.963.621.678.839.2+ COCOmask [19]框38.1(+1.2)64.5(+0.9)22.6(+1.0)80.6(+1.8)40.3(+1.1)+ COCOmask+掩模39.2(+1.1)64.9(+0.4)23.9(+1.3)80.7(+0.1)41.6(+0.3)DanceTrack框36.963.621.678.839.2+ COCOpose [19]框40.6(+3.7)65.5(+1.9)25.3(+3.7)82.9(+4.1)42.9(+3.7)+ COCOpose+ pose41.0(+0.4)65.9(+0.4)25.6(+0.3)83.1(+0.3)43.9(+1.0)DanceTrack框36.963.621.678.839.2+ KITTI [13]框34.4(-2.5)57.8(-5.8)20.7(-0.9)72.9(-5.9)38.5(-0.7)+ KITTI+深度35.1(+0.7)57.3(-0.5)21.6(+0.9)72.8(-0.1)40.2(+1.7)表6所有实验均基于CenterNet [41]模型和BYTE [38]关联。(a)分段掩码提高了DanceTrack的跟踪性能。(b)姿态信息以比分割掩模更大的间隙提高跟踪性能(c)虽然在联想中加入深度信息显示出轻微的积极影响,但结果仍然归咎于KITTI和DanceTrack之间的域转移轨道我们解释了COCO分割和姿态估计数据集包含人类作为主要类别,而KITTI主要包含车辆实例。因此,DanceTrack和KITTI中的对象和场景先验发生变化,并且该域偏移使模型退化。然而,如果我们将基线视为在DanceTrack和KITTI的联合数据集上训练的模型,则深度信息确实有助于关联性能。然而,受限于深度注释数据的可用资源,这是我们目前可以尝试的最好方法。我们期望更多的研究深度信息的影响,以关联对象与统一的外观和多样的运动。5. 结论在本文中,我们提出了一个新的多目标跟踪数据集DanceTrack。在DanceTrack中,物体具有统一的外观和多样的运动模式,通过Re-ID算法采取捷径进行通风。其背后的动机是揭示现有数据集中倾向于强调检测质量和仅匹配应用程序的偏差这使得关联对象的其他线索被低估了。我们认为,分析复杂运动模式的能力DanceTrack提供了这样一个平台,以鼓励未来的作品。鸣谢我们要感谢注释器团队和协调员构建DanceTrack数据集。我们感谢翁新硕、张毅夫的宝贵讨论和建议 。 我 们 还 要 感 谢 Vivek Roy 、 Pedro Morgado 和Shuyang Sun对论文的校对和建议这项工作部分由NSFNRI Award IIS2024173赞助。罗平获香港大学基础研究基金27208720及17212120资助.构成深度掩模21001引用[1] Philipp Bergmann,Tim Meinhardt,and Laura Leal-Taixe.没有铃铛和哨子的跟踪。在IEEE/CVF计算机视觉国际会议论文集,第941-951页,2019年。1[2] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多个对象跟踪性能:明确的MOT指标。EURASIP Journal on Imageand Video Processing,2008:15[3] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。IEEE图像处理国际会议,第3464- 3468页,2016年。三、七[4] Jinkun Cao,Xin Wang,Trevor Darrell,and Fisher Yu.多智能体环境中的实例感知预测导航在IEEE机器人和自动化国际会议上,第5096-5102页,2021年。1[5] Mohamed Chaabane,Peter Zhang,Ross Beveridge,andStephen O'Hara. Deft:用于跟踪的检测嵌入。arXiv预印本arXiv:2102.02267,2021。7[6] TatjanaCha vdarov a , Pi erreBaque´ , Ste´phaneBouquet , An-drii Maksai , Cijo Jose , TimurBagautdinov,Louis Lettry,PascalFua,LucVanGool,andFran coisFleuret.wild-track:一个多摄像头高清数据集,用于密集无脚本的pedes-trian检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第5030- 5039页2[7] 龙辰、艾海洲、庄子杰、崇尚。实时多人跟踪,具有深入学习的可识别选择和人员重新识别。在IEEE多媒体和博览会国际会议上,第1-6页,2018年。7[8] Achal Dave 、 Tarasha Khurana 、 Pavel Tokmakov 、Cordelia Schmid和Deva Ramanan。Tao:用于跟踪任何对象的大规模基准。在欧洲计算机视觉会议上,第436-454页。Springer,2020年。2[9] Patrick Dendorfer,Hamid Rezatofighi,Anton Milan,Javen Shi, Daniel Cremers , Ian Reid ,Stefan Roth ,Konrad Schindle r和LauraLeal-T ai xe'。Mot20:拥挤场景 中 多 目 标 跟 踪 的 基 准 测 试 arXiv 预 印 本 arXiv :2003.09003,2020。一、二、三[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。IEEE/CVF计算机视觉和模式识别会议论文集,第248-255页,2009年。2[11] 詹姆斯·费里曼和阿里·沙洛克尼Pets2009:数据集和挑战。IEEE跟踪和监视性能评估国际研讨会,第1-6页,2009年。2[12] Zheng Ge,Songtao Liu,Feng Wang,Zeming Li,andJian Sun. Yolox:2021年超越yolo系列。arXiv预印本arXiv:2107.08430,2021。7[13] Andreas Geiger,Philip Lenz,and Raquel Urtasun. 我们准备好自动驾驶了吗?Kitti视觉基准套件。IEEE/CVF计算机视觉和模式识别会议论文集,第3354- 3361页,2012年。一、二、五、八[14] 弗雷德里克·古斯塔夫松粒子滤波理论与定位应用实践 。 IEEE Aerospace and Electronic Systems Magazine,25(7):53–82, 2010. 3[15] 鲁吉·吉南和塔拉·拉文德兰。多目标跟踪的粒子滤波器Procedia Technology,24:980-987,2016。3[16] 鲁道夫·埃米尔·卡尔曼线性滤波和预测问题的新方法。1960. 三、六[17] 劳拉·里尔-塔克斯,安东·米兰,伊恩·里德,斯特凡·罗斯和康拉德·辛德勒。Motchallenge 2015:多目标跟踪的基准。arXiv预印本arXiv:1504.01942,2015。2[18] 廖依依,谢君,安德烈亚斯·盖格。Kitti-360:一个用于2D和3D城市场景理解的新数据集和基准arXiv预印本arXiv:2109.13410,2021。2[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 8[20] 乔纳森·卢伊滕,阿尔乔萨·奥塞普,帕特里克·登多弗,菲利普·T或r,安德烈亚斯·盖格r,劳拉·莱尔-塔伊xe'和巴斯蒂安·莱贝。HOTA:用于评估多对象跟踪的高阶度量。国际 计算机 视觉杂 志,129 ( 2 ):548-578,2021。5[21] Tim Meinhardt、Alexander Kirillov、Laura Leal-Taixe和Christoph Feichtenhofer。Trackformer:多目标跟踪与变压器。arXiv预印本arXiv:2101.02702,2021。2[22] 安东·米兰,劳拉·里尔-塔克斯,伊恩·里德,斯特凡诺·罗斯和康拉德·辛德勒。Mot16:多目标跟踪的基准测试。arXiv预印本arXiv:1603.00831,2016。一、二、三[23] Pang Jiangmiao,Linlu Qiu,Xia Li,Haofeng Chen,QiLi,Trevor Darrell,and Fisher Yu. 用于多目标跟踪的准稠密相似性学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第164-173页,2021年。一、二、七[24] 裴 自 强 。 Deepsort pytorch https:/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功