RetinaTrack：自动驾驶中的联合检测和跟踪模型

98 浏览量更新于2023-10-25 收藏 15.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Zhichao Lu∗, Vivek Rathod∗, Ronny Votel, Jonathan HuangGoogle{lzc,rathodv,ronnyvotel,jonathanhuang}@google.com146680RetinaTrack：在线单阶段联合检测和跟踪0摘要0传统上，多目标跟踪和目标检测是使用独立系统进行的，大多数先前的工作都专注于其中一个方面而忽视了另一个方面。跟踪系统明显受益于准确的检测结果，然而，文献中有大量证据表明，检测器也可以从跟踪中受益，例如，可以帮助平滑随时间变化的预测。在本文中，我们专注于自动驾驶的检测-跟踪范式，其中这两个任务都是至关重要的。我们提出了一个概念上简单且高效的检测和跟踪联合模型，称为RetinaTrack，它修改了流行的单阶段RetinaNet方法，使其适用于实例级别的嵌入训练。通过在Waymo OpenDataset上的评估，我们证明了我们的模型优于最新的一种最先进的跟踪算法，同时需要更少的计算。我们相信，我们的简单而有效的方法可以作为未来研究在这一领域的强有力基线。01. 引言0追踪-检测范式如今已成为多目标跟踪（MOT）的主要方法，其通过在每个帧中独立检测对象，然后在视频的帧之间执行数据关联来工作。近年来，由于深度学习的采用，这两个方面（检测和数据关联）都取得了显著的技术进步。尽管这两个任务通常是相互关联的，并且深度学习使得模型易于进行多任务训练，但是即使在今天，将这两个方面分开而不是在一个模型中联合训练它们仍然更为常见，大多数论文通常只关注检测指标或跟踪指标，很少同时关注两者。这种任务分离导致了更复杂的模型和不太高效的方法。这个领域的旗舰基准测试（MOT Challenge[42]）假设模型将使用公开可用的检测结果，并且论文继续声称使用实时跟踪器，而不测量执行检测所需的时间，这一点说明了这种分离的情况。0� 名字按字母顺序列出，贡献相等。0在本文中，我们主要关注自动驾驶领域，其中目标检测和多目标跟踪是至关重要的技术。如果我们无法检测和跟踪，就无法预测车辆和行人的行驶方向（以及速度），因此我们将不知道是否应该在拐角处让行人或者是否应该在街道上全速行驶，尽管有车辆从对向车道驶来。我们特别关注RGB输入，尽管在现代自动驾驶车辆中通常不是唯一的感知模态，但起着重要作用；RGB摄像机没有与激光雷达相同的范围约束，价格更便宜，并且能够检测到更小的物体，这对于高速公路驾驶尤为重要，因为更快的行驶速度使得对远处的车辆或行人做出反应变得重要。在自动驾驶的环境中，速度和准确性都是至关重要的，因此架构的选择至关重要，不能简单地选择最重或最轻的模型，而是要选择性能最佳或准确性最高的模型。我们的模型基于RetinaNet检测器[36]，它是实时的，同时达到了最先进的准确性，并且专门设计用于良好地检测小物体。在这个基础检测器上，我们添加了实例级别的嵌入以进行数据关联。然而，传统的RetinaNet架构不适用于这些每个实例的嵌入 -我们提出了一种简单但有效的修改RetinaNet的后FPN预测子网络以解决这些问题。通过消融实验证明了我们的模型，我们称之为RetinaTrack，从跟踪器和检测器的联合训练中受益。与基础RetinaNet相比，它具有较小的计算开销，因此速度较快 - 由于其简单性，也很容易通过GoogleTPUs进行训练。总之，我们的主要贡献如下：0•我们提出了一种联合训练的检测和跟踪模型——我们的方法简单高效，可以在自动驾驶车辆中实际部署。•我们提出了一种简单的修改单次检测架构的方法，可以提取实例级特征；我们将这些特征用于跟踪，但它们也可以用于其他目的。146690图1：Waymo开放数据集上的示例车辆跟踪结果——轨迹以颜色编码，为了清晰起见，我们用箭头突出显示每个序列中的两个轨迹。该数据集中的挑战包括小物体、由其他交通或行人引起的频繁遮挡、尺度变化和低照明。0•我们在Waymo开放数据集[2]上建立了检测和跟踪的初始强基线（图1），并展示了我们的方法达到了最先进的性能。0我们希望我们的简单模型能够作为一个坚实的基准，并为联合检测和跟踪的未来研究提供便利。2.相关工作0传统上，多目标跟踪和检测在两个独立的文献中被分别处理，跟踪器通常使用检测器作为黑盒模块，但不一定深入地将它们结合起来。近年来，这两个领域都开始严重依赖深度学习，这使得同时建模这两个任务变得自然。然而，除了少数例外，联合训练检测和跟踪仍然是个别而不是规则。很少有论文同时评估跟踪和检测，论文通常只关注其中一种评估。2.1.图像和视频中的物体检测0近年来，物体检测领域的技术进步取得了爆炸性增长，主要受到COCO挑战[37]和OpenImages[31]等社区基准的推动。在检测特定模型架构方面也取得了一些进展，包括基于锚点的模型，既有单阶段模型（如SSD[39]，RetinaNet[36]，Yolo变体[44,45]），也有两阶段检测器（如Fast/FasterR-CNN[19,24,47]，R-FCN[13]），以及较新的无锚点模型（如CornerNet[32,33]，CenterNet[65]，FCOS[55]）。在这些单帧架构的基础上，还有一些方法结合了时间上下文，以实现在视频中更好的检测（特别是为了应对运动模糊、遮挡、物体罕见姿势等）。这些方法包括使用3D卷积（如I3D、S3D）[8,41,62]或循环网络[29,38]来提取更好的时间特征。还有一些工作在某种程度上使用类似跟踪的概念来进行聚合，但它们的主要重点在于检测和0而不是跟踪。例如，有些工作利用光流（或类似光流的量）来聚合特征[6,66-68]。最近也有一些论文提出了基于对象级注意力的聚合方法[14,51,59,60]，从高层次上有效地可以看作是沿轨迹聚合特征的方法。在许多情况下，还使用简单的启发式方法来“平滑”沿时间的预测，包括管道平滑[20]或SeqNMS[22]。02.2. 跟踪0传统上，跟踪器扮演了几种不同的角色。在上述情况下，跟踪器的作用是改善视频中的检测精度（例如通过平滑随时间变化的预测）。在其他情况下，跟踪器还被用于增强（传统上速度较慢的）检测器，允许根据间歇性的检测器更新进行实时更新（例如[3,7]）。最后，在自动驾驶和体育分析等应用中，跟踪输出本身也是独立的兴趣点。例如，典型的行为预测模块以对象轨迹作为输入，以预测特定对象（如汽车或行人）的预测行为，并对其未来轨迹做出反应[9,54,56,63,64]。在这个角色中，“通过检测进行跟踪”的范式已经成为多目标跟踪的主要方法，其中首先在输入序列的每个帧上运行检测，然后将结果链接在帧之间（这个第二步被称为数据关联）。在深度学习时代之前，跟踪-通过-检测方法[11,21,61]往往专注于使用可用的视觉特征，并找到一种方法来解决各种图优化问题[12,17,46]引起的组合爆炸，以确定最佳轨迹。近年来，这种趋势已经逆转，作者们使用简单的匹配算法（如匈牙利匹配[43]）并专注于学习更适合数据关联的特征，例如通过深度度量学习[4,34,48,50,52,53,58]。例如，[58]提出了3.1. RetinaNet146700DeepSort是一个简单但强大的基线，它使用离线检测（由FasterRCNN生成）并使用离线训练的深度ReID模型和卡尔曼滤波器运动模型将它们链接起来。在这个背景下，我们的工作可以看作是与DeepSort相比的简化流程，它依赖于一个更轻量级的检测网络0强大的检测对于强大的跟踪至关重要。这可以通过常用的CLEARMOT指标（MOTA，多目标跟踪准确性）[42]来看出，该指标惩罚假阳性、假阴性和身份切换（前两个术语与检测相关）。最近的Tracktor论文[4]将这一观察推向极限，仅使用单帧FasterR-CNN检测模型就取得了强大的结果。跟踪本身是通过利用FasterR-CNN的第二阶段的行为来实现的，该阶段允许将不精确指定的提议（例如前一帧的检测）“捕捉”到图像中最接近的对象上。通过一些小的修改（包括离线训练的ReID组件），Tracktor目前是MOT17挑战赛的最新技术水平，我们在实验中与这个强大的基线进行了比较。为了解决检测对跟踪指标产生如此巨大影响的问题，MOT挑战等基准试图通过让多种方法使用完全相同的开箱即用的提供的检测结果来使事情“公平”。然而，这种限制不必要地束缚了人们的手脚，因为它假设两者将分别完成，并且可能排除了我们自己这样的联合训练模型。人们不禁想知道联合检测/跟踪文献的匮乏是否部分原因在于对使用黑盒检测的强调。在我们的工作之前，已经有几个最近的尝试训练联合跟踪/检测模型。Feichtenhofer等人[16]运行一个R-FCN（[13]）基础检测架构，并同时计算连续帧的高级特征图之间的相关性图，然后将其传递给第二个预测塔，以预测帧与帧之间的实例运动。与[16]一样，我们同时训练这两个任务。然而，他们专注于ImagenetVid的检测指标，受自动驾驶需求的推动，而我们评估跟踪和检测指标。我们的架构也更简单、更快，并且基于一个更强大的单阶段检测器。还有几个工作预测3D管道[18，026 ]直接使用3D输入通过使用允许通过预测的时间空间偏移的时间序列来“摇摆”的2D锚点网格来直接使用3D输入。然而，这些方法通常更重，需要一种将管道互相关联的机制，通常依赖于将单帧分数和IOU重叠组合的简单启发式方法。我们直接学习关联检测（并且证明这是有用的）。0最后，与我们的方法最相关的工作是Wang等人[57]，他们还将基于FPN的模型（使用YOLOv3）与附加的嵌入层相结合。相比之下，我们使用了RetinaNet的修改版本，它具有更强的检测性能，并且我们证明了如果没有对FPN进行修改，性能会受到影响。03. RetinaTrack架构0在本节中，我们将描述RetinaNet的一种变体的设计，该变体允许我们提取每个实例级别的特征。与其他基于锚点的检测器一样，RetinaNet生成的每个检测都与一个锚点相关联。为了将一个检测与另一帧中的检测链接起来，我们希望能够识别与其对应的锚点相关联的特征向量，并将其传递给一个嵌入网络，该网络将使用度量学习损失进行训练。0首先，我们回顾一下流行的RetinaNet架构[36]，并解释为什么原始模型不适用于实例级别的嵌入。现代卷积目标检测器从图像上排列成规则网格的滑动窗口位置提取特征图。在基于锚点的方法（如RetinaNet）中，我们在每个网格点上放置 K 个不同形状（不同长宽比和大小）的锚框 { A 1 , . . ., A K }，并要求模型相对于这些锚点进行预测（例如，分类逻辑，框回归偏移）。在RetinaNet的情况下，我们使用基于FPN（特征金字塔网络）的特征提取器[35]，它产生具有不同空间分辨率 W i × H i 的多个特征图层 F i（图2a）。然后，每个特征图 F i都传递给两个后FPN任务特定的卷积子网络，预测 K个张量（每个可能的锚点形状一个） { Y cls i,k } k =1: K，每个张量的形状为 W i × H i × N ，表示 N维分类逻辑，以及 K 个形状为 W i × H i × 4 的张量 { Yloc i,k } k =1: K，表示框回归偏移（图2b）。请注意，通常论文将这些输出折叠为单个组合张量，而不是 K个张量，每个锚点形状一个，但出于我们的目的，我们将这些预测分开以提高清晰度（最终结果是等效的）。更正式地，我们可以将RetinaNet的分类和位置预测张量写成以下关于每个特征图 F i 的函数：0Y cls i,k ( F i ) ≡ Sigmoid ( Conv ( Conv (4) ( F i ; θ cls ); φ cls k )) , (1)0Y loc i,k ( F i ) ≡ Conv ( Conv (4) ( F i ; θ loc ); φ loc k ) , (2)0其中 k ∈ { 1 , . . . K } ) 索引到 K 个锚点。我们使用 Conv(4) 来表示4个中间的 3 × 3卷积层（除非另有说明，否则包括批量归一化和ReLu层）。FPN之后的模型参数为 θ cls , { φ cls k } K k =1 , θ loc和 { φ loc k } K k =1 。重要的是，尽管Fi,k = Conv(m1)(Fi; θk),(3)Y clsi,k ≡ Sigmoid(Conv(Conv(m2)(Fi,k; θcls); φcls)),(4)Y loci,k ≡ Conv(Conv(m2)(Fi,k; θloc); φloc).(5)146710(c) 图2：架构图。 (a) 特征金字塔网络（FPN）和后FPN层的（原始）(b) RetinaNet和 (c)RetinaTrack。为了捕捉实例级别的特征，RetinaTrack在RetinaNet的后FPN子网络中的较早阶段将计算路径分割为不同的锚点形状。黄色框 F i表示FPN产生的特征图。在这两个模型中，我们在所有FPN层之间共享卷积参数。在单个FPN层级别上，灰色框表示不共享的卷积层，而彩色框表示共享关系（具有相同颜色的框共享参数）。0图3：为了成功跟踪遮挡物，我们需要能够建模具有相同锚点网格中心的对象具有不同的跟踪特征。这里，绿色框表示两个以相同位置为中心的锚点，它们匹配场景中的汽车。蓝色点表示锚点网格的中心。0分类和框回归子网络在给定的FPN层级上具有不同的参数，但这些参数在FPN层之间共享，这使我们可以将从不同层级提取的特征向量视为属于兼容的嵌入空间。03.2. 修改任务预测子网络以具有锚点级别的特征0从方程1、2可以看出，RetinaNet的所有卷积参数在所有 K个锚点之间共享，直到分类和回归子网络的最后一个卷积。因此，没有明确的方法提取每个实例的特征，因为如果两个检测匹配到具有不同形状的相同位置的锚点，那么它们在网络中唯一区分它们的点就是最终的分类和框回归预测。当通过遮挡进行跟踪时，这可能特别有问题，因为对象更有可能对应于具有相同位置的锚点（图3）。我们的解决方案是在后FPN预测层之间更早地强制分割锚点，从而使我们能够访问中间级别的特征，这些特征仍然可以0与锚点唯一关联（因此也是最终的检测）。我们提出的修改很简单——我们得到了一个类似于RetinaNet的架构，但是与原始架构相比，以不同的方式绑定/解绑权重。在我们的RetinaTrack模型中，我们通过以下参数化方式进行预测（参见方程1、2）：0因此，对于每个后-FPN层 F i ，我们首先并行应用 K个卷积序列（具有 m 1 层）来预测 F i,k张量，我们将其视为每个锚点实例级特征，因为从这一点开始，RetinaNet架构产生的每个检测都将有一个唯一的 F i,k相关联（图2c）。我们将这个模型的第一部分称为任务共享的后-FPN层，它们使用每个 K 个锚点形状的独立参数 θ k，但在FPN层（以及分类和定位这两个任务）之间共享 θ k。F i,k 不是任务特定的特征，但我们接下来对每个 F i,k应用两个并行的任务特定的后-FPN层序列。每个序列由 m2 个 3×3 卷积和一个 3×3 的最终卷积组成，分类 logits的输出通道数为N（N为类别数），盒子回归偏移的输出通道数为4。对于我们的两个任务特定子网络，我们在所有锚点形状和所有 FPN 层之间共享参数 θ cls ，φ cls ，θ loc 和 φ loc，以便在任务共享层之后，所有特征都可以被视为属于兼容空间。03.3. 嵌入架构0现在我们已经获得了实例级特征 F i,k，我们还额外应用了第三个序列的任务特定层Y embi,k≡ Conv(m3)(Fi,k; θemb).(6)LBH(θ; X) =A�j=1SoftPlusm +maxp=1...Atj=tpDjp −minℓ=1...Atj̸=tℓDjℓ ,(7)146720由 m 3 个 1×1卷积层组成，将实例级特征投影到最终的轨迹嵌入空间，每个卷积层映射到256个输出通道：0我们在每个卷积之后使用批归一化[28]和ReLU非线性激活函数，除了在最后的嵌入层之后，我们在所有FPN层和所有 K个锚点形状上使用相同的共享参数（再次参见图2c）。总结一下，RetinaTrack预测每个锚点的实例级特征 F i,k。给定一个检测 d ，有一个唯一的锚点生成了 d ——特征图 F i,k 现在给我们提供了与 d相关联的唯一特征向量。在RetinaNet模型中，每个任务特定子网络运行4个卷积层，而在RetinaTrack中，每个输出张量是 m 1 + m 2 +1（或者在轨迹嵌入的情况下是 m 1 + m3 ）个卷积层的结果，其中 m 1 ， m 2 和 m 3是结构超参数。我们在第4节中进一步讨论了这些设置的消融实验。03.4. 训练细节0在训练时，我们最小化两个标准的RetinaNet损失（分类的Sigmoid Focal Loss和盒子回归的HuberLoss），以及一个额外的嵌入损失，鼓励与同一轨迹对应的检测具有相似的嵌入。具体来说，我们使用三元组损失[10,49]和 BatchHard 策略来采样三元组[25]进行训练。0其中 A 是与groundtruth boxes匹配的锚点数，t y是分配给锚点 y 的轨迹标识，D ab 是锚点 a 和锚点 b的嵌入之间的非平方欧氏距离，m 是边界（在实验中设置为m =0.1）。因此，通过为每个锚点找到一个难例正样本和一个难例负样本，我们生成了三元组。实际上，我们采样64个三元组来计算损失。对于检测损失，我们遵循类似于[36]中描述的目标分配约定。具体来说，如果一个锚点与groundtruthbox的交并比（IOU）大于等于0.5，则将其分配给该groundtruthbox，否则分配给背景。此外，对于每个groundtruthbox，我们强制最近的锚点（相对于IOU）成为匹配，即使该IOU小于阈值。对于三元组损失，我们使用类似的约定将轨迹标识分配给锚点，使用更严格的准则（IOU ≥0.7）进行正样本匹配，发现这种更严格的准则可以提高跟踪结果。只有与轨迹标识匹配的锚点用于生成三元组。此外，三元组始终从同一个剪辑中生成。0我们使用GoogleTPUs（v3）[30]进行训练，使用带有权重衰减0.0004和动量0.9的动量SGD。我们使用128个剪辑构建每个批次，为每个剪辑选择两个相隔8帧的帧（Waymo序列以10Hz运行，因此对应于0.8秒的时间步长）。批次放置在32个TPU核心上，将来自同一剪辑的帧放置在一起，每个核心的批次大小为4个帧对。除非另有说明，图像被调整为1024×1024的分辨率，并且为了适应TPU内存，我们在所有训练运行中使用bfloat16类型的混合精度训练[1]。0我们使用在COCO数据集上预训练的RetinaTrack模型（移除嵌入投影）来初始化模型。接下来（除非另有说明），我们使用线性学习率预热进行训练，前1000个步骤的学习率逐渐增加到0.001，然后使用余弦退火学习率[40]进行9K个步骤的训练。与RetinaNet一样，我们使用随机水平翻转和随机裁剪数据增强。我们还允许所有批归一化层在训练期间独立更新，并且即使相邻的卷积层共享，也不强制它们绑定。03.5. 推理和跟踪逻辑0我们在一个简单的贪婪二分匹配的单假设跟踪系统中使用我们的嵌入。在推理时，我们构建一个保存有状态的跟踪存储，用于保存每个跟踪的先前检测结果（包括边界框、类别预测和分数）、嵌入向量和“跟踪状态”（指示跟踪是否存活或死亡的状态，为简单起见，我们不考虑跟踪是否处于“暂定”状态，参见[58]）。我们将跟踪存储初始化为空，然后对于剪辑中的每一帧，我们从RetinaTrack的前100个得分最高的检测结果中获取嵌入向量。0这些检测结果通过分数阈值过滤，然后我们通过某个指定的相似度函数S将剩余的嵌入向量与跟踪存储中的嵌入向量进行比较，并进行贪婪的二分匹配，不允许余弦距离超过阈值1-ε的匹配。基于这种贪婪匹配，我们将一个检测结果添加到跟踪存储中的现有跟踪中，或者使用它初始化一个新的跟踪。在我们的实验中，相似度函数S始终是IOU重叠（使用截断阈值0.4）和嵌入向量之间的余弦距离的均匀加权和。0对于跟踪存储中的每个活跃跟踪，我们保存其最近H个（检测结果、嵌入向量、状态）三元组，从而允许新的检测结果与所有跟踪的这H个最近观测结果匹配。跟踪被保持活跃的时间最长为40帧，以便进行重新识别。相反，如果一个跟踪在超过40帧中没有被重新识别，我们将其标记为死亡。RetinaNetNo--636.1745RetinaNetYes--635.3540RetinaNetNo--131.4537RetinaNetYes--130.7130RetinaTrack-13635.1183RetinaTrack-22635.5575RetinaTrack-31635.74741https://github.com/cheind/py-motmetrics146730架构共享任务权重 m1 m2 K mAP 推理时间（每帧毫秒）0图4：COCO17消融实验。在COCO17上，普通的RetinaNet和不带跟踪嵌入层的RetinaTrack在单图像目标检测性能方面的表现。m1表示任务共享的FPN后层的数量，m2表示任务特定的FPN后层的数量。04.实验在我们的实验中，我们专注于最近发布的WaymoOpen数据集[2]v1（简称Waymo）。我们还在第4.4节中报告了更大的v1.1版本的结果。该数据集包含在Waymo车辆上以10Hz采集的200K帧的注释，并涵盖了各种地理和天气条件。帧来自5个摄像头位置（前方和侧面）。为了本文的目的，我们只关注2D检测和跟踪，具体而言，只关注“车辆”类别，因为数据集存在严重的类别不平衡，这不是我们的主要关注点。除了Waymo，我们还在COCO17数据集上进行消融实验[37]。最后，我们评估检测和跟踪指标，使用标准的平均AP [15, 18,37]（mAP）以及CLEAR MOT跟踪指标[5,42]，具体使用COCOAP（在0.5到0.95之间的IOU阈值上取平均）和py-motmetrics库。我们还使用Nvidia V100GPU进行基准测试，报告每帧的推理时间（毫秒）。对于所有模型，我们只评估“深度学习部分”，忽略跟踪器所需的任何轻量级的簿记逻辑。同时评估检测和跟踪模型需要一些注意。检测mAP衡量了模型在不需要硬操作点的情况下在精确度和召回率之间平衡的平均能力，因此最好使用低或零分数阈值进行检测mAP。然而，CLEARMOT跟踪指标（如MOTA）需要选择一个单一的操作点，因为它们直接涉及真/假正例，并且在实践中对这些超参数选择非常敏感。为了不引入太多的假正例，通常最好使用较高的分数阈值来报告跟踪指标。在我们的实验中，我们简单地使用不同的阈值进行评估：我们使用接近零的分数阈值评估我们的模型作为检测器，并使用较高的分数阈值评估我们的模型作为跟踪器。4.1. 评估RetinaTrack作为检测器0作为初步的消融实验（表4），我们研究了我们对RetinaNet的架构修改对COCO17上的标准单图像检测的影响。在这些实验中，我们删除了RetinaTrack的嵌入层，因为COCO不是一个视频数据集。0在这些实验中，与我们后来的Waymo实验相比，我们使用Resnet-50作为基础特征提取器（Imagenet初始化），并以b�oat16[1]混合精度在896×896的分辨率下进行训练。我们使用64个大小的批次分配到8个TPUv3核心上进行训练，并进行每个核心批次归一化。我们使用线性学习率预热进行前2K步，增加到基本学习率0.004，然后使用余弦退火学习率[40]进行23K步。请注意，我们可以使用更重的特征提取器或更高的图像分辨率来提高性能，但这些消融实验的主要目标是阐明RetinaNet和RetinaTrack的Post-FPN子网络的变化。回想一下，m1和m2分别指的是任务共享和任务特定的Post-FPN子网络的卷积次数。我们设置m1 + m2 =4，以便与RetinaNet进行比较。K是每个位置的锚点形状的数量，默认设置为6，但为了显示每个位置具有多个锚点形状对于检测的重要性，我们还将其与只使用每个位置1个框的简化RetinaNet进行比较。最后，我们尝试了一个版本的原始RetinaNet，其中任务特定的子网络被强制共享其权重（表4中的“共享任务权重”列），因为这更接近RetinaTrack的任务共享的Post-FPN层。我们首先注意到，每个位置使用K =6的锚点对于COCO的强大性能非常重要，并且拥有单独的任务特定子网络比共享更好，这证实了[36]的观察结果。我们还观察到，通过使用RetinaTrack，我们能够通过设计提取每个实例的特征（我们将在下一步中用于跟踪，但也可能是普遍有用的），同时在COCO上实现类似的检测性能。如果不需要每个实例级别的特征，仍然可以使用RetinaNet的原始预测头布局（类似于SSD[39]和许多论文使用的RPN，例如[23，47]）获得稍微更好的结果。在RetinaTrack的3个设置（m1，m2）中，我们发现使用3个任务共享层（m1 =3）后跟一个单一任务特定层（m2 =1）比其他配置略有优势。我们在表4中报告了运行时间（在500个COCO图像上平均），我们的修改使运行时间超过了原始RetinaNet - 这并不奇怪，因为038.5237.93239.1938.24438.8538.24146740架构共享任务权重 m1 m2 m3 K MOTA mAP 推理时间（每帧毫秒）0RetinaNet 否 - - - 6 - 38.19 34 RetinaNet � 否 - - - 6 38.02 37.43 44 RetinaNet 是 - - - 6 - 37.9530 RetinaNet � 是 - - - 6 37.63 36.75 40 RetinaNet 否 - - 2 1 30.94 35.20 33 RetinaNet 是 - - 2 131.20 35.08 29 RetinaTrack - 1 3 2 6 38.71 37.96 88 RetinaTrack - 2 2 2 6 39.08 38.14 81RetinaTrack - 3 1 2 6 39.12 38.24 700图5：Waymo消融实验。在Waymo开放数据集上，以检测mAP和跟踪MOTA为指标，比较原始RetinaNet和RetinaTrack（包括跟踪嵌入层）的性能。m1表示任务共享的Post-FPN层数量，m2表示任务特定的Post-FPN层数量，m3表示嵌入层数量。RetinaNet �是一个使用跟踪损失训练的原始RetinaNet模型（K =6），其中实例嵌入向量在“碰撞锚点”之间共享。0# 嵌入层 MOTA mAP0图6：跟踪嵌入子网络深度消融实验。我们训练了RetinaTrack的m3 =0、2和4个投影层的版本。0现在，FPN子网络的成本已经乘以了K。在三个RetinaTrack变体中，（m1 = 3，m2 = 1）仍然是最快的。04.2. 架构消融实验0对于我们剩下的实验，我们在Waymo数据集上进行评估，这次包括使用三元组损失训练的嵌入网络，并使用第3.5节中描述的系统评估跟踪性能。我们首先对嵌入网络的深度进行消融实验（见表6），其中我们使用m3 = 0、2和4个投影层进行模型训练（固定m1 =3和m2 =1，因为在COCO消融实验中表现最佳），结果表明使用2个层的模型在检测和跟踪方面表现最佳。将嵌入子网络的层数设置为m3 =2，我们在Waymo数据集上进行消融实验（见表5），通过第3.4节中描述的方法进行训练。为了展示RetinaTrack在跟踪中的锚点级特征的价值，我们评估了两个基线版本的普通RetinaNet架构——（1）使用K =1个锚点形状，因为在这种情况下可以提取每个实例的特征向量，以及（2）标准的K =6设置，在跟踪过程中，我们只是强制要求在相同空间中心“碰撞”的锚点的嵌入向量相同（我们将这个基线称为RetinaNet*）。与COCO消融实验一样，我们发现使用多个（K =6）锚点形状对于检测和跟踪指标都很重要。因此，不足为奇的是，RetinaTrack在很大程度上优于基于RetinaNet（K =1）的跟踪基线，很可能主要是因为它是一个更强大的检测器。然而，RetinaNet*行的MOTA和mAP结果都低于非星号对应的结果，这表明“滥用”普通RetinaNet来忽略碰撞的锚点对于检测和跟踪都是有害的，从而强调了RetinaTrack的每个锚点嵌入的重要性。我们最好的RetinaTrack配置达到了39.12的MOTA和38.24的mAP。与COCO消融实验中普通RetinaNet略优于RetinaTrack的情况不同，这里我们看到RetinaTrack作为一个检测器优于RetinaNet，这表明通过包含跟踪损失，我们能够提高检测性能。最后，每帧的运行时间为70毫秒，我们注意到使用RetinaTrack进行推理比Waymo数据集的传感器帧率（10Hz）更快。与COCO设置相比，RetinaTrack必须运行额外的卷积层来进行嵌入，但由于COCO有80个类别，使得网络的顶部稍微重一些，因此在Waymo设置中，最终的运行时间稍微较低。0忽略碰撞的锚点来执行跟踪对于检测和跟踪都是有害的，这进一步强调了RetinaTrack每个锚点嵌入的重要性。我们最好的RetinaTrack配置达到了39.12的MOTA和38.24的mAP。与COCO消融实验中普通RetinaNet略优于RetinaTrack的情况不同，这里我们看到RetinaTrack作为一个检测器优于RetinaNet，这表明通过包含跟踪损失，我们能够提高检测性能。最后，每帧的运行时间为70毫秒，我们注意到使用RetinaTrack进行推理比Waymo数据集的传感器帧率（10Hz）更快。与COCO设置相比，RetinaTrack必须运行额外的卷积层来进行嵌入，但由于COCO有80个类别，使得网络的顶部稍微重一些，因此在Waymo设置中，最终的运行时间稍微较低。04.3. 联合训练与独立训练0为了展示联合训练检测和跟踪任务的好处，我们现在将RetinaTrack与三个自然基线进行比较，这些基线使用与RetinaTrack相同的跟踪系统，但改变了底层的数据关联相似度函数（表8）：•一个IOU基线，其中仅通过IOU重叠度量检测相似度（没有嵌入）；•无三元组损失的RetinaTrack，在这种情况下我们忽略三元组损失（因此不专门为跟踪训练模型），并通过每个实例的特征向量Fi,k来衡量嵌入相似度；• 使用R-50ReID的RetinaTrack，在这种情况下我们在训练RetinaTrack时忽略三元组损失，并将检测结果输入到一个离线训练的重新识别（ReID）模型中。对于ReID模型，我们训练了一个基于Resnet-50的TriNet模型[25]来在Waymo数据集上进行ReID。0观察到即使仅使用IOU跟踪器，在Waymo数据集上也提供了一个相当强的基准，这很可能是由于具有强大的检测模型——很可能在汽车行驶缓慢时，这个跟踪器更准确（相比如高速公路行驶）。然而，使用视觉146750模型MOTA TP FP ID切换 mAP 每帧推理时间（毫秒）0Tracktor 35.30 106006 15617 16652 36.17 450Tracktor++ 37.94 112801 15642 10370 36.17 26450RetinaTrack 39.19 112025 11669 5712 38.24 700图7：我们将RetinaTrack与MOT17 Challenge上目前最先进的Tracktor/Tracktor++[4]进行比较。0模型MOTA mAP 推理时间（毫秒）0IOU基准35.36 38.53 70 没有三元组损失的RetinaTrack37.92 38.58 70 带有R-50 ReID的RetinaTrack 37.3938.58 80 RetinaTrack 39.19 38.24 700图8：联合训练（RetinaTrack）与其他方法的比较：（1）基于IOU的相似度跟踪器，（2）没有三元组损失的RetinaTrack，（3）带有R-50ReID的RetinaTrack。0嵌入允许我们在所有情况下优于这个简单的基准，并且当与检测和度量学习损失一起训练时，RetinaTrack优于这些基准。4.4.与最先进方法的比较最后，我们将（表7）与最近的Tracktor和Tracktor++算法进行比较，它们目前是MOTChallenge上最先进的方法。对于这些实验，我们使用我们自己的Tensorflow重新实现的Tracktor和Tracktor++，添加了ReID组件和相机运动补偿（CMC）。我们的实现在某些细节上与原始论文中描述的有所不同，它基于Tensorflow Object Detection API[27]，并且不使用FPN。我们使用与第4.3节中相同的ReID模型，这与Tracktor论文中的方法相匹配。为了验证我们的重新实现的竞争力，我们将基于Resnet-101的Tracktor模型的结果提交给官方的MOTChallenge服务器，其MOTA数字与使用FPN的官方提交几乎相同（53.4 vs.53.5）。我们还提交了基于Resnet-152的Tracktor的结果，目前在公共排行榜上表现最好（56.7MOTA）。在Waymo上，我们使用基于Resnet-50的Tracktor，在1024×1024分辨率下与我们的模型相当。如果我们将Tracktor（不包括CMC或ReID）的MOTA得分与表8中的IOU跟踪性能进行比较，我们可以看到这两种方法大致相当。我们相信，由于（1）一开始就具有高度准确的检测结果，以及（2）对Tracktor有害的显著相机运动，IOU跟踪可以与Tracktor达到一致。事实上，我们观察到Tracktor需要“++”才能显著优于基于IOU的跟踪器。然而，它要慢得多 - 除了运行FasterR-CNN外，它还必须运行第二个Resnet-50模型进行ReID，然后是CMC（这是耗时的）。0为了对Waymo上的CMC运行时间进行基准测试，我们使用了[4]作者使用的相同函数（OpenCV的findTransformECC函数）。0模型MOTA mAP 推理时间（毫秒）0IOU基准38.25 45.78 70 Tracktor++ 42.6242.41 2645 RetinaTrack 44.92 45.70 700图9：对Waymov1.1数据集进行评估（该数据集的训练集比v1数据集大4倍）。0RetinaTrack在跟踪和检测方面表现优于两个变种。它通过显著减少误报和ID切换的数量来实现这些改进。尽管比原始的Tracktor慢（其运行时间主要由FasterR-CNN决定），但RetinaTrack比Tracktor++快得多。0对Waymov1.1数据集进行评估。作为未来比较的基准，我们还在Waymo v1.1版本上重现了我们在Waymov1.1发布中的评估结果，其中包含�800K帧进行训练，包含�1.7M个标注车辆。对于这些评估，我们进行了100K步的训练，基本学习率为0.004（以及所有其他超参数固定）。结果显示在表9中，我们再次看到RetinaTrack明显优于基于IOU的基准跟踪器，并且在运行时间上明显优于Tracktor++。05. 结论0在本文中，我们提出了一种简单而有效的模型RetinaTrack，它在检测和跟踪任务上进行联合训练，并扩展了单阶段检测器以处理实例级属性，我们注意到这可能是独立于跟踪的应用的独立兴趣。此外，我们证明了联合训练的有效性，相对于独立训练检测和跟踪模型的主流方法。这种方法

下载后可阅读完整内容，剩余1页未读，立即下载