Unicorn:一个统一的多任务目标跟踪网络结构和学习范式

112 浏览量更新于2023-11-30 收藏 3.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文arXiv：2207.07078v4 [cs.CV] 2022年8月目标跟踪的大统一严斌1人、江毅2人、<$、孙培泽3人、王东1人、<$、袁泽焕2人、罗平3人、胡川路1人、 4人1大连理工大学信息与通信工程学院2字节跳动3香港大学4彭城实验室抽象的。我们提出了一个统一的方法，称为独角兽，可以用一个单一的网络，使用相同的模型参数，同时解决四个跟踪问题（SOT，MOT，VOS，MOTS）。由于对象跟踪问题本身的碎片化定义，大多数现有的跟踪器被开发为解决单个或部分任务，并且过度专注于特定任务的特征。相比之下，Unicorn提供了一个统一的解决方案，在所有跟踪任务中采用相同的输入、主干、嵌入和头部首次实现了跟踪网络结构和学习范式的统一。Unicorn在8个跟踪数据集中的表现与其特定任务的对手相当或更好，包括LaSOT，TrackingNet，MOT 17，BDD100 K，DAVIS 16 -17，MOTS 20和BDD 100 K MOTS。我们认为独角兽将成为迈向通用愿景模型的坚实一步代码可在https://github.com/MasterBin-IIAU/Unicorn上获得。关键词：目标跟踪1介绍与用于解决特定任务的弱人工智能相比，人工通用智能（AGI）有望理解或学习人类可以完成的任何智力任务。虽然这一雄心勃勃的目标与当今的智能算法之间仍然存在很大的差距，但最近的一些工作[20，51，81，21]已经开始探索建立通用视觉模型以同时解决多个视觉任务的可能性。目标跟踪是计算机视觉的基本任务之一，旨在建立帧之间的像素级或实例级对应关系，以输出通常为框或掩模形式的轨迹。多年来，根据不同的应用场景，对象跟踪问题主要分为四个独立的子任务：单对象跟踪（SOT）[18，42]，多对象跟踪（MOT）[40，80]，视频对象分割（VOS）[46]，这部作品是在严彬在字节跳动实习时完成的。电子邮箱：yanbin@mail.dlut.edu.cn。†通讯作者：jiangyi. bytedance.com，wdice@dlut.edu.cn.+v：mala2255获取更多论文∈∈∈2B. Yan等和多对象跟踪和分割（MOTS）[61，80]。因此，大多数跟踪方法仅针对子任务中的一个或一部分而开发。尽管这种分散的情况对于特定的应用是方便的，但也带来了以下缺点：（1）跟踪器可能过度专注于特定子任务的特征，缺乏泛化能力。(2)独立的模型设计会导致冗余参数。例如，最近基于深度学习的跟踪器通常采用类似的主干架构，但单独的设计理念阻碍了参数的潜在重用。人们很自然地会问这样一个问题：所有主流的跟踪任务都可以通过一个统一的模型来解决吗？虽然一些作品[64，36，62，70，39]试图通过在现有的盒级跟踪系统中添加掩码分支来统一SOT VOS或MOT MOTS，但在SOT和MOT的统一方面仍然进展甚微阻碍这一进程的主要障碍有(1)被跟踪物体的特征各不相同。MOT通常跟踪数十甚至数百个特定类别的实例相比之下，SOT需要跟踪参考系中给定的一个目标，无论它属于什么类。(2)SOT和MOT需要不同类型的通信。SOT需要区分目标和背景。然而，MOT需要将当前检测到的对象与先前的轨迹相匹配。(3)大多数SOT方法[3，29，15，5，9，77]仅将小搜索区域作为输入以节省计算并过滤潜在干扰项。然而，MOT算法[2，74，8，67，85，90，39]通常将高分辨率的完整图像作为尽可能完整地检测实例的输入。为了克服这些挑战，我们提出了两个核心设计：目标先验和像素对应。具体而言，（1）目标先验是检测头的辅助输入，并用作四个任务之间的切换对于SOT VOS，目标先验是传播的参考目标图，使头部能够聚焦于跟踪的目标。对于MOT MOTS，通过将目标先验设置为零，头平滑地退化为通常的类特定检测（2）逐像素对应是来自参考帧和当前帧的所有点对之间的相似性 SOT对应（CSOTRh′w′×hw ）和MOT对应（CMOTRM×N）是逐像素对应（CpixRhw×hw）的子集。(3)在信息丰富的目标先验和精确的逐像素对应的帮助下，搜索区域的设计对于SOT变得不必要，从而导致作为SOT和MOT的完整图像的统一输入。为了实现目标跟踪的统一，我们提出了Unicorn，一个单一的网络架构来解决四个跟踪任务。它以参考帧和当前帧为输入，通过权重共享的骨干产生它们的视觉特征。然后利用特征交互模块来建立两帧之间的像素级对应关系。基于该对应关系，通过将参考目标传播到当前帧来生成目标先验。最后将目标先验信息和视觉特征融合后发送到检测头，得到所有任务的跟踪对象。通过统一的网络架构，Unicorn可以从各种跟踪数据源中学习，并使用相同的模型参数解决四个跟踪任务+v：mala2255获取更多论文目标跟踪的大统一大量的实验表明，Unicorn在四个跟踪任务的8个具有挑战性的基准测试中的表现与特定任务的同行相当或更好。我们总结说，我们的工作有以下贡献：– Unicorn第一次实现了四个跟踪任务的网络架构和学习范式的伟大统一– Unicorn算法通过目标先验信息和像素级对应关系，弥补了四种跟踪算法之间的不足。– Unicorn在8个具有挑战性的跟踪基准测试中使用相同的模型参数提供了最先进的性能。这一成就将成为迈向总体愿景模式的坚实一步。2相关工作2.1特定任务跟踪器SOT通常在第一帧上指定一个具有边界框的跟踪目标考虑到被跟踪目标的唯一性和运动连续性，SOT [3，29，75，15，5，9，77]中的大多数算法都是在一个小的搜索区域而不是整个图像上进行跟踪，以减少计算量和滤除干扰。虽然基于搜索区域的跟踪器在SOT领域取得了巨大的成功，但存在以下缺点：（1）由于视野有限，这些方法难以从暂时的跟踪失败中恢复，特别是在长期跟踪场景中。（2）这些方法的速度随着跟踪实例的数量的增加而急剧下降。低效率问题限制了SOT跟踪器在诸如MOT等场景中的应用，其中有数十个或数百个目标需要跟踪。为了克服第一个问题，一些作品[25，62]提出了一种基于全局检测的跟踪范式。然而，这些方法要么需要对原始检测架构进行大的修改以整合目标信息，要么依赖于复杂的动态规划来选择最佳轨迹。此外，Global-Track [25]和Siam R-CNN [25]都是在两阶段Faster R-CNN上开发的，其检测管道繁琐，依赖于手工制作的锚点和ROI对齐。相比之下，在这项工作中，我们建立了基于一级无锚检测器的方法[19]。此外，我们证明，只有最小的变化，原来的检测器架构，我们可以将一个对象检测器变成一个强大的SOT跟踪器。与SOT不同，MOT在第一帧上没有任何给定的先验。需要MOT的跟踪器来查找和关联特定类的所有实例他们自己。主流方法[67，85，90，44，53]遵循检测跟踪范式。具体而言，MOT系统通常具有两个主要组件，对象检测器和某种关联策略。常用的检测器包括 Faster R-CNN [48] 、 YOLO 系列 [47 ， 19] 、Center- Net [91]、Sparse R-CNN[54]和Deformable DETR [94]等。流行的关联方法包括IoU匹配[4，53]、卡尔曼滤波器[4，67，85]、ReID嵌入[69，44，67，85]、Transformer [53，39，82]或它们的组合[84]。+v：mala2255获取更多论文4 B号文件。Yan等虽然有一些作品[93，12]引入了SOT跟踪器，但这些SOT跟踪器[14，3]与MOT网络完全独立，没有任何权重共享。SOT方法与MOT方法之间仍有很大的差距VOS的目标是根据以下内容预测跟踪实例的掩码：第一帧的高质量掩模注释。该领域现在由基于记忆网络的方法[43，79，10]主导。这些方法虽然取得了很好的性能，但存在以下缺点：（1）记忆网络带来了巨大的时间和空间复杂度，特别是在处理高空间分辨率和长序列时。虽然这些场景在SOT和MOT序列中很常见。具体而言，SOT中的长期跟踪基准[18，59]通常具有数千帧的序列，比DAVIS [46]长20倍以上同时，MOT [80]中的图像大小可以达到720x1280，而DAVIS的图像大小通常只有480x854。(2)SOTA方法假设在第一帧上总是有高质量的掩码注释。然而，高质量的掩模需要昂贵的劳动力成本，并且在现实世界的应用中通常不可用。为了克服这个问题，一些作品[64，36，62]试图开发弱注释的VOS算法，其仅需要第一帧上的框注释。MOTS与MOT高度相关，它将盒子的形式改为掩码的细粒度表示MOTS基准[61，80]通常来自与MOT [40，80]相同的此外，许多MOTS方法都是在MOT跟踪器的基础上发展起来的。代表性的方法包括基于3D 卷积的 Track R-CNN [61] 和 Stem-Seg [1] ，基于 Transformer 的TrackFormer [39]，跟踪辅助检测交易[70]和基于原型的PCAN [28]。2.2一般视觉模型尽管针对不同任务的专用模型取得了巨大成功，但当前的AI与类人、全能的人工智能（AGI）之间仍存在很大差距。实现这一宏伟目标的重要一步是建立一个支持广泛AI任务的通才模型。最近的开创性工作[20，51，81，21]试图从不同的角度接近这一目标。具体来说，MuST[20]引入了一个多任务自我训练管道，它利用独立专业教师模型中的知识来训练单个一般学生模型。INTERN [51]提出了一种新的学习范式，它在多个阶段使用来自多个源的监督信号进行学习。所开发的通用视觉模型可以很好地推广到不同的任务，但对下游数据的要求Florence [81]是一种新的计算机视觉基础模型，它将表示扩展到空间，时间和模态的不同任务。Florence具有很好的可移植性，并在广泛的视觉基准上实现了新的SOTA结果OMNIVORE [21]提出了一种模态不可知模型，可以使用相同的模型参数对图像、视频和单视图+v：mala2255获取更多论文独角兽(b)独角兽目标跟踪的大统一产出产出SOTSOTVOSMOTMOTMOTSMOTS图1：以前的解决方案和独角兽的比较2.3目标跟踪中的统一在文献中，一些作品[64，70，66]试图设计一个统一的框架，以支持多个跟踪任务。具体来说，SiamMask [64]是第一个同时解决SOT和VOS的工作。类似地，Trades [70]可以通过引入额外的掩码头来解决MOT和MOTS。此外，Uni-Track [66]提出了一个高级跟踪框架，该框架由共享外观模型和一系列非共享跟踪头组成它表明，不同的跟踪任务可以共享一个外观模型的传播或关联。然而，跟踪头的大差异阻碍了它利用大量的跟踪数据。因此，其性能远远落后于SOTA特定任务的方法。此外，当用于MOT或MOTS时，UniTrack需要额外的独立物体探测器来提供观测。额外对象检测器和外观模型不共享同一主干，从而在参数方面带来沉重负担相比之下，Unicorn使用一个具有相同参数的统一网络解决了四个跟踪任务此外，Unicorn可以从大量标记的跟踪数据中学习强大的表示，在8个具有挑战性的基准测试中实现卓越的性能图1显示了特定于任务的方法和Unicorn之间的比较。2.4函授学习学习准确的对应关系是许多视觉任务的关键，例如光流[55]，视频对象分割[86，27]，几何匹配[57，58]等。通常通过计算两帧嵌入映射之间的相关性来获得密集对应关系。大多数现有的方法[55，86，27]获得嵌入映射没有考虑两幅图像之间的信息交换。当输入图像上有许多相似的图案或实例时，这可能导致模糊或错误的匹配。虽然一些作品[57，58]试图缓解这个问题，但它们通常需要复杂的优化或不确定性建模。与局部比较不同，Transformer [60]及其变体[94]利用注意力机制来捕获长距离的去SOT网络VOS网络MOT网络MOTS网络(a)先前的解决方案+v：mala2255获取更多论文参考帧参考目标输出SOTVOSSOTP共享目标优先级VOSSOTVOSMOTMOTSMOT当前帧一参考目标MOTSMOT MOTS统一头框实例掩模FCLS统一嵌入E参考我E$ur我相互作用P传播F融合A 协会第6 B. Yan等图2：独角兽由三个主要组成部分：（1）统一的输入和骨干（2）统一的嵌入（3）统一的头部。在输入序列中的悬垂性。在这项工作中，我们证明了这些操作可以帮助学习精确的对应对象跟踪。3方法我们提出了一个统一的解决方案，对象跟踪，称为独角兽，它包括三个主要组成部分：统一的输入和骨干;统一的嵌入和统一的头。三个组件分别负责获得强大的视觉表示，建立精确的对应关系和检测不同的跟踪目标。Unicorn的框架如图2所示。在给定参考坐标系Iref、当前坐标系Icur和参考目标的情况下，Unicorn算法的目标是通过一个统一的网络对当前坐标系下的四个任务进行跟踪目标状态预测。3.1统一输入和主干为了有效地定位多个潜在目标，Unicorn将整个图像（对于参考帧和当前帧）而不是局部搜索区域作为输入。这也赋予了Unicorn对跟踪失败的高抵抗力，以及在消失后重新检测跟踪目标的能力。在特征提取过程中，参考帧和当前帧通过权重共享主干以获得特征金字塔表示（FPN）[32]。为了保持重要的细节并减少计算对应期间的计算负担，我们选择步幅为16的特征图作为以下嵌入模块的输入来自参考帧和当前帧的对应特征分别被称为Fref和Fcur3.2统一嵌入目标跟踪的核心任务是在视频帧之间建立准确的对应关系。对于SOT和VOS，逐像素对应传播+v：mala2255获取更多论文∈∈∈∈∈∈----˜×˜K目标跟踪的大统一从参考帧（通常是第1帧）到第t帧的用户提供的目标，为最终框或掩码预测提供强先验信息。此外，对于MOT和MOTS，实例级对应有助于将第t帧上检测到的实例与参考帧（通常是第t-1帧）上的现有轨迹相关联。在Unicorn中，给定嵌入ErefRhw×c的空间平坦参考系，当前帧嵌入EcurRhw×c，像素级对应CpixRhw×hw通过它们之间的矩阵乘法计算。对于将完整图像作为输入的SOT VOS，对应关系是逐像素对应关系本身。对于MOT& MOTS，假设参考帧上有M个轨迹，当前帧上有N个检测实例，实例级对应关系CinstRN×M是参考实例嵌入erefRM×c和当前实例嵌入ecurRN ×c的矩阵乘积。从实例的中心所在的帧嵌入E中提取实例嵌入eCpix=softmax（EcurErefT）Cinst = softmax（e）cureref（1）可以看出，MOT和MOTS所需的实例级对应关系Cinst是逐像素对应关系C pix的子矩阵。此外，学习高分辨嵌入Eref，Ecur是为所有跟踪任务建立精确对应的关键。功能交互。由于其捕获远程依赖性的优势，Transformer [60]是增强原始特征表示Fref、Fcur的直观选择。然而，当处理高分辨率特征图时，这可能导致巨大的内存消耗，因为内存消耗随着输入序列的长度二次增加。为了缓解这个问题，我们用更高效的记忆变形注意力取代了完全注意力[94]。为了更准确地对应，增强的特征图上采样2倍，以获得步长为8的高分辨率嵌入{Eref，Ecur}=上采样（注意（Fref，Fcur））（2）损失理想的嵌入应该在传播（SOT，VOS）和关联（MOT，MOTS）上都能很好地工作。对于SOT& VOS，尽管没有用于帧之间的密集对应的人类注释标签，但是可以通过传播结果Tcur和地面实况目标映射Tcur之间的差异来监督嵌入。具体地，目标地图T的形状是hw1。被跟踪目标所在的区域等于1，其他区域等于0。在传播期间，逐像素对应Cpix变换参考目标图Tref的估计对应于当前目标图Tcur的估计。Tcur（i，j）=TCpix（i，k）·Tref（k，j）（3）+v：mala2255获取更多论文1K=j.阿利科尔˜对于h×x的检测，我们首先将h×w×1（即， T∈R）。cur∈∈∈第8 B段。Yan等此外，对于MOT和MOTS，实例级对应关系可以通过标准的对比学习范式来具体地，假设来自当前帧的实例i与来自参考帧的实例j匹配，则对应的地面实况矩阵G应当满足：Gi，k=. 0k=j（四）最后，统一嵌入可以通过SOT VOS的Dice Loss [41]或MOT MOTS的交叉熵损失进行端到端优化。L={SOT， VOS}中的Dice（Tcur，Tcur）任务{MOT，MOTS}中的CrossEntropy（Cinst，G）任务3.3统一头（五）为了实现目标跟踪的大统一，另一个重要而又具有挑战性的问题是设计一个统一的头来完成四个跟踪任务。具体而言，交通运输部应检测特定类别的物体。然而，SOT需要检测参考系中给定的任何目标。为了弥补这一差距，Unicorn向原始探测器头引入了额外的输入（称为目标先验）[19，56]。无需任何进一步的修改，Unicorn可以通过这个统一的头部轻松检测四项任务所需的各种物体。关于头部结构的更多细节可以在补充材料中找到。目标普赖尔如SEC所述。 3.2，给定参考目标图Tref，传播的目标图Tcur可以提供关于被跟踪目标的状态的强先验信息。这促使我们在检测SOT VOS目标的原始输入兼容整形h w1曲线同时，在处理MOT MOTS时，我们可以简单地将其设置为零.形式上，目标先验P满足：P=. Treshape{SOT， VOS}中的任务（六）{MOT， MOTS}中的0个任务功能融合。统一头将原始FPN特征F Rh×w×c和目标先验PRh×w×1作为输入。Unicorn将这两个输入与广播sum融合，并将融合后的特征F′Rh×w×c 传递给原始检测头。这种融合策略具有以下优点。(1)融合的功能与四项任务无缝兼容。具体地，对于MOT& MOTS，目标先验等于零。然后，融合特征F′退化为原始FPN特征F以检测特定类别的对象。对于SOTVOS，具有强目标信息的目标先验可以增强原始FPN特征，使网络聚焦于跟踪目标。(2)该体系结构简单，不会对原始检测头进行复杂的更改。此外，一致的架构还使Unicorn能够充分利用原始对象检测器的预训练权重。+v：mala2255获取更多论文×目标跟踪的大统一3.4训练和推理训练整个训练过程分为两个阶段：SOT-MOT联合训练和VOS-MOTS联合训练。在第一阶段，使用来自SOT MOT的数据，利用对应损失和检测损失对网络进行端到端优化。在第二阶段中，添加掩模分支，并使用来自VOS MOTS的数据在其他参数固定的情况下使用掩模损失进行推理。在测试阶段，对于SOT& VOS，参考目标图在第一帧上生成一次，并在随后的帧中保持固定。Uni- corn直接挑选具有最高置信度得分的框或掩模作为最终跟踪结果，而不需要任何超参数敏感的后处理，如余弦窗口。此外，Unicorn只需要运行一次重型骨干和通信，而运行轻量级头部而不是整个网络N次，从而导致更高的效率。对于MOT MOTS，Unicorn检测给定类别的所有对象，并同时输出相应的实例嵌入。后一种关联分别基于BDD 100K和MOT 17的嵌入和运动模型来执行4实验4.1实现细节当与最先进的方法进行比较时，我们选择ConvNeXt-Large [34]作为主干。在消融中，我们报告了使用ConvNeXt-Tiny [34]和ResNet-50 [22]作为主干的方法的结果输入图像大小为800 1280在多尺度训练中，最短边的范围为736 ~ 864。该模型在16个NVIDIATesla A100 GPU上进行训练，全局批量大小为32.为了避免不准确的统计估计，我们将所有批归一化[26]替换为组归一化[71]。两个训练阶段分别从SOT MOT数据集和VOS每个训练阶段由15个epoch组成，每个epoch中有200，000对帧优化器是Adam-W[35]，权重衰减为5 e − 4，动量为0.9.初始学习率为2。5e−4，1 epoch预热和余弦退火时间表。更多细节可以在补充材料中找到。在第4.2-4.5节中，我们在8个跟踪数据集中将Unicorn与特定任务的对应物进行了比较。在每个基准测试中，红色粗体和蓝色字体指示最好的两个结果。Unicorn在四个任务中使用相同的模型参数。4.2单目标跟踪的评价我们在两个流行且具有挑战性的基准LaSOT [18]和TrackingNet [42]上将Unicorn与最先进的SOT跟踪器进行了比较。两个数据集都使用以下指标评估跟踪性能：成功率、精度（P）和归一化精度（P范数）。所有这些措施都是越高越好。+v：mala2255获取更多论文10 B. Yan等表1：LaSOT [18]和TrackingNet [42]的最新技术比较方法源LaSOT [18]跟踪GNET[第四十二届]成功P范数P成功P范数PSiamFC [3]ECCVW201633.642.033.957.166.353.3UniTrack [66]NeurIPS202135.1-32.6---ATOM [15]CVPR 201951.557.650.570.377.164.8[29]第二十九话 CVPR 201949.656.949.173.380.069.4DiMP [5]ICCV 201956.965.056.774.080.168.7[25]第二十五话AAAI202052.1-52.770.475.465.6[75]第75话AAAI202054.462.354.775.480.070.5D3S [36]CVPR 2020---72.876.866.4PrDiMP [16]CVPR 202059.868.860.875.881.670.4[62]第六十二话 CVPR 202064.872.2-81.285.480.0KYS [6]ECCV 202055.463.3-74.080.068.8海洋[88]ECCV 202056.065.156.6---TrDiMP [63]CVPR202163.9-61.478.483.373.1[9]第九话CVPR202164.973.869.081.486.780.3自动匹配[87]ICCV 202158.2-59.976.0-72.6SAOT [92]ICCV 202161.670.8----[38]第三十八话ICCV 202167.177.2 70.2---STARK [77]ICCV 202167.177.0-82.086.9-独角兽我们68.576.674.183.086.4 82.2拉索LaSOT [18]是一个大规模的长期跟踪基准，测试集中包含280个视频，平均长度为2448帧。表1显示，Unicorn分别实现了68.5%和74.1%的最新成功率和精确度同样值得注意的是，Unicorn以更简单的网络架构和跟踪策略（直接选择前1名vs tracklet动态编程）大幅超越了之前最好的基于全局检测的跟踪器Siam R-CNN [62TrackingNet. TrackingNet [42]是一个大规模的短期跟踪基准，在测试集中包含511个视频。如表1所示，Unicorn超越了所有以前的方法，成功率为83.0%，精度为82.2%。4.3多目标跟踪技术评价我们将Unicorn与最先进的MOT跟踪器在两个具有挑战性的基准上进行比较：MOT17 [40]和BDD 100K [80]。常见的度量包括多目标跟踪准确度（MOTA）、身份F1得分（IDF1）、假阳性（FP）、假阴性（FN）、大部分跟踪轨迹（MT）和大部分丢失轨迹（ML）的百分比、身份切换（IDS）。其中，MOTA是衡量整体检测和跟踪性能的主要指标，IDF1用于衡量轨迹识别精度。MOT17. MOT17专注于行人跟踪，包括训练集中的7个序列和测试集中的7个序列在MOT17的测试集上，我们将Unicorn与以前的方法在私有检测协议下进行了比较表2表明，Unicorn实现了最佳MOTA和IDF1，分别超过之前的SOTA方法0.5%和0.4%。+v：mala2255获取更多论文跟踪器MOTA↑ IDF1↑ HOTA↑ MT↑ML↓FP↓FN↓ ID↓目标跟踪的大统一表2：MOT17 [ 40 ]测试集的最新技术水平比较。[45]第四十五话66.657.449.0百分之三十七点八百分之十八点五22284160491 5529中央轨道[90]67.864.752.2百分之三十四点六24.6%18498 160332 3039QuasiDense [44]68.766.353.940.6%百分之二十一点九26589 146643 3378[第70话]69.163.952.7百分之三十六点四百分之二十一点五20892 150060 3555SOTMOT [89]71.071.9-42.7%百分之十五点三39537 118983 5184[第73话]73.262.254.540.8%百分之十八点五23112 123738 4614MOTR [82]73.468.657.842.9%百分之十九点一27939 119589 2439FairMOT [85]73.772.359.343.2%百分之十七点三27507 117477 3303TrackFormer [39]74.168.0---34602 108777 2829CSTrack [30]74.972.659.341.5%百分之十七点五23847 114303 3567[第53话]75.263.554.1百分之五十五点三百分之十点二50157 86442 3603OMC [31]76.372.3-44.8%百分之十五点五---CorrTracker [65]76.573.660.747.6%百分之十二点七29808 99510 3369TransMOT [13]76.775.161.751.0%百分之十六点四36231 93150 2346独角兽77.275.561.7百分之五十八点七百分之十一点二50087 73349 5379+v：mala2255获取更多论文FJ FJ表3：BDD 100 K [80]跟踪确认集的最新技术水平比较方法拆分mMOTA ↑ mIDF 1 ↑ MOTA ↑ IDF 1 ↑ FN ↓ FP ↓ID交换机↓ MT ↑ML↓ mAP↑Yu等人 [80]Val25.944.556.966.8122406 5237283158396 379528.1QDTrack [44] Val36.650.863.571.5108614 4662162629481 303432.6独角兽Val41.254.066.671.395454 416481087610296 250541.4BDD 100K MOT. BDD 100K是一个大规模的视觉驾驶场景数据集为了评估8个类别的平均性能，BDD 100K还引入了两个指标：mMOTA和mIDF 1。与MOT17不同的是，BDD 100K的注释只有5 FPS。低帧率给MOT17常用的运动模型带来了困难。如表3所示，Unicorn实现了最佳性能，在val集合上大大超过了之前的SOTA方法QDTrack [44]。其中mMOTA和mIDF1分别提高了4.6%和3.2%4.4视频对象分割技术评价我们进一步评估了Unicorn在DAVIS [46] 2016和2017上执行VOS的能力这两个数据集评估方法的区域相似性，轮廓精度，以及它们的平均值。戴维斯-16。DAVIS-16在验证集中包括20个视频，每个序列中只有一个跟踪目标。选项卡. 4表明Unicorn在具有边界框初始化的方法中实现了最佳结果，甚至超过了具有掩码初始化的RANet [68]和FRTM [49]同时，在JF方面，Uni- corn的表现超过了其多任务对手SiamMask [64]17.6%的大幅度。+v：mala2255获取更多论文12 B. Yan等表4：DAVIS-2016和DAVIS-2017验证集的最新技术水平比较。OL：在线学习，内存：使用外部存储库。初始化方法OL内存（J&F）16J16 F16（J&F）17J17 F17FAVOS [11]美国 81.0 82.4 79.5 58.2 54.6 61.8OSMN [37]美国73.5 74.0 72.9 54.8 52.5 57.1VideoMatch [23]中国-81.0 - 56.5--UniTrack [66]中国-58.4-RANet [68]中国85.5 85.5 65.7 63.2 68.2[49]法国83.5 83.6 83.4 76.7 73.9 79.6[86]第100话-72.3 69.9 74.7LWL [7]中国-81.6 79.1 84.1STM [43]中国电信89.3 88.7 89.9 81.8 79.2 84.3[79]中国石油天然气总公司89.4 88.3 90.5 81.9 79.1 84.6HMMN [50]美国 90.8 89.6 92.0 84.7 81.9 87.5STCN [10]美国91.6 90.8 92.5 85.4 82.2 88.6SiamMask [64]泰国 69.8 71.7 67.8 56.4 54.3 58.5D3S [36]中国74.0 75.4 72.660.8 57.8 63.8Siam R-CNN [62]泰国-70.6 66.1 75.0独角兽87.486.5 88.269.265.2 七十三点二戴维斯17号。DAVIS-17在验证集中包含30个视频，每个序列中可能有多个跟踪目标。如Tab中所示。4，与之前最好的盒子初始化方法Siam R-CNN [62]相比，Unicorn以更简单的架构实现了有竞争力的结果具体来说，Siam R-CNN [62]使用了一个额外的Box 2Seg网络，它完全独立于基于框的跟踪器，没有任何权重共享。然而，Unicorn可以用统一的头部预测盒子和面具尽管Unicorn的性能与具有掩模初始化的SOTA VOS方法的性能之间仍存在差距，但Unicorn可以使用相同的模型参数解决四个跟踪任务，而HMMN [50]和STCN [10]只能用于VOS任务。4.5多目标跟踪与分割技术的评价最后，我们评估了Unicorn在MOTS 20 [61]和BDD 100K MOTS [80]上执行MOTS的能力。主要的评估指标是sMOTSA和mMOTSA，它们是MOTA的变体，并且基于掩模重叠来计算。其他指标与MOT中的指标相同。MOTS20挑战赛。MOTS 20挑战在训练集中有4个序列，在测试集中有4个如Tab中所示。5，Unicorn实现了最先进的性能，在sMOTSA上超过了第二好的方法PointTrackV2 [76] 3.3%的大幅幅度。BDD100K MOTS挑战赛。BDD100K MOTS挑战包括确认集中的37个序列。选项卡. 6表明独角兽的表现优于bbox掩模+v：mala2255获取更多论文目标跟踪的大统一表5：MOTS [ 61 ]测试集的最新技术水平比较。方法sMOTSA↑ IDF1↑ MT↑ML↓FP↓FN↓ID Sw. ↓独角兽65.365.9 64.9% 10.1%表6：BDD 100K MOTS验证集的最新技术水平比较。方法在线检测mMOTSA↑ mMOTSP↑ mIDF1↑ ID SW。↓mAP↑SortIoU✓10.359.921.81595122.2MaskTrackRCNN [78]✓12.359.926.2911622.0STEM分段[1]✗12.258.225.4873221.8[44]第四十四话✓22.559.640.8134022.4[44]第四十四话✓23.566.344.597325.5PCAN [28]✓27.466.745.187626.6独角兽✓29.667.744.2173132.1前最好的方法PCAN [28]的大幅度（即，mMOTSA +2.2%，mAP+5.5%）。同时，Unicorn没有像PCAN那样使用任何复杂的设计，如时空存储器或原型网络，从而引入了更简单的管道。4.6消融及其他分析在本节中，我们通过一系列变量进行组件分析，并进行可视化以更好地理解我们的方法。对于消融，我们选择Unicorn和ConvNeXt-Tiny [34]主干作为基线。详细结果见表1。第七章骨干我们实现了一个以ResNet-50 [22]为骨干的Unicorn变体虽然该版本的整体性能低于基准，但该变体在四个任务上仍然具有出色的性能。互动除了记忆高效的可变形注意力[94]之外，我们还将完全注意力[60]和卷积运算结合起来，这不会在帧之间交换信息。实验表明，变形注意力比完全注意力获得更好的性能，但消耗的能量要大得多内存更少。此外，卷积的结果低于基线，显示了相互作用对于准确对应的重要性融合。为了将FPN特征与目标先验进行融合，除了广泛传播和融合外，我们还比较了其他两种方法：串联融合和无目标先验融合。实验表明，去除目标先验后，SOT和VOS的性能明显下降，证明了这种设计的重要性。此外，广播求和比级联性能更好。[61]第六十一话40.642.4百分之三十八点七21.6% 1261 12641567+v：mala2255获取更多论文14 B. Yan等表7：消融和比较。我们的基线模型被加了下划线。实验方法SOT MOT VOS MOTSFPS参考帧当前帧目标先前图3：目标先验的可视化。单一任务。我们比较了训练四个独立的模型，用于不同的任务。实验表明，我们的统一模型与独立训练的模型表现相当，同时参数效率更高速度我们开发了一个轻量级的变体，具有640x1024的较低输入分辨率。实验表明，该实时版本不仅实现了具有竞争力的性能，而且可以以超过20 FPS的速度实时运行想象力。在图3中，给定参考帧上的跟踪目标（用绿色框突出显示），我们将当前帧上的预测目标可以看出，即使有许多类似的干扰物，Unicorn也可以在具有挑战性的场景中预测准确的对应关系。5结论我们提出了独角兽，一个统一的方法来解决四个跟踪任务使用一个单一的模型具有相同的模型参数。首次实现了目标跟踪的网络结构和学习范式的统一。大量的实验表明，Unicorn在8个具有挑战性的基准测试中的表现与特定任务的同行相当或更好。我们希望Unicorn可以成为迈向通用愿景模型的坚实一步。LaSOT（AUC）BDD（mMOTA）DAVIS17（JF）BDD（mMOTSA）骨干ConvNeXt-Tiny67.739.968.029.714ResNet-5065.335.166.230.813可变形属性67.739.968.029.714交互完整属性67.138.566.926.713Conv66.837.666.627.015广义和67.739.968.029.714Fusion Concat66.838.366.727.214无既往病史50.937.629.227.814统一67.739.968.029.714单任务SOT67.5---14仅MOT-39.6--14仅限VOS--68.4-14仅MOTS---28.114速度我们的67.739.968.029.714Ours-RT67.137.566.826.223+v：mala2255获取更多论文目标跟踪的大统一致谢。我们要感谢评论者的深刻评论。Huchuan Lu和Dong Wang的部分研究得到了中国国家自然科学基金的资助。62022021、61806037、61725202、U1903215 和 61829102 ，以及部分由大连市科技创新基金（批准号：2020JJ26GX 036）和大连市创新领军人才支持计划（批准号：2018RD 07）资助。罗平获得了香港科学基金27208720号、17212120号、17200622号资助.引用1. A thar，A. ^Mahade van，S.，Osep，A.，Leal-Taix'e，L.， Lei b e，B.：STEm-Seg：用于视频中的实例分割的时空嵌入

下载后可阅读完整内容，剩余1页未读，立即下载