基于相似度的轨迹预测提高对跟踪误差的鲁棒性

76 浏览量更新于2023-10-25 收藏 13.21MB PDF 举报

轨迹预测

多智能体

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…………65730到底是谁的轨迹？通过基于相似度的轨迹预测提高对跟踪误差的鲁棒性0翁新硕1,3，鲍里斯∙伊万诺维奇3，克里斯∙基塔尼1，马可∙帕沃内2，301卡内基梅隆大学机器人研究所，2斯坦福大学航空航天系，3NVIDIA研究0摘要0多智能体轨迹预测对于人机交互自动系统（如自动驾驶汽车）的规划和决策至关重要。然而，大多数预测模型是与上游感知（检测和跟踪）模块分开开发的，假设输入是地面真实轨迹。结果，当使用真实世界的嘈杂跟踪结果作为输入时，它们的性能会显著下降。这通常是由于从跟踪到预测的误差传播，如嘈杂的轨迹、碎片和身份切换。为了减轻这种误差传播，我们提出了一种新的预测范式，使用跨帧的检测和它们的相似度矩阵作为输入，消除了在跟踪过程中容易出错的数据关联的需求。由于相似度矩阵包含关于跨帧检测的相似性和身份的“软”信息，直接从相似度矩阵进行预测比从数据关联生成的轨迹片段进行预测保留了更多的信息。在大规模的真实世界自动驾驶数据集上的实验证明，我们基于相似度的预测方案相对于使用轨迹片段作为输入的标准预测流程，可以将总体预测误差降低高达57.9%，在具有跟踪误差的挑战性场景中，错误减少更为显著（高达88.6%）。01. 引言0在人机交互自动驾驶系统中，紧密集成多目标跟踪和轨迹预测方法是一个重大挑战，因为大多数先前的工作都是独立开发多目标跟踪[5, 14, 17, 28, 38, 39, 41, 42,49]和轨迹预测[8, 12, 15, 16, 20, 32, 43,46]方法。最近的研究[40, 45]表明，将输出的0我们的项目网站位于https://www.xinshuoweng.com/projects/Affinipred。0物体0过去的轨迹片段0预测0数据0关联0轨迹预测0相似度矩阵0删除检测，不再有过去的轨迹片段0直接使用相似度矩阵作为输入0图1.与标准的跟踪-预测流程相比，我们基于相似度的预测（Affinipred）跳过了数据关联，直接使用检测和相似度矩阵作为预测输入。0将现代跟踪方法的输出直接放入预测模型中，会显著降低性能（例如，预测误差高达28倍），与使用完美输入（即，地面真实轨迹）的理想化预测设置相比。不幸的是，将鲁棒性考虑到跟踪误差中的这一挑战在该领域仍然很少被探索。为什么使用跟踪结果作为输入时，预测准确性会显著下降？之前的研究[40,45]表明，诸如身份切换和碎片等跟踪误差是造成这种情况的原因，这些误差会导致速度或方向估计错误。通常，当两个不同的对象由于模糊性（例如，外观或几何特征相似或非常接近）而被标记为相同对象时，就会发生身份切换。当数据关联无法找到与现有轨迹匹配的检测时，就会发生碎片。那么，有没有一种有效的方法可以避免这些跟踪误差传播到预测中？在这项工作中，我们认为有：完全跳过数据关联，如图1所示，因为它可能导致身份切换和碎片。我们的关键见解可以总结如下：广义上，数据关联通过“硬”匹配将“软”相似度矩阵（由介于0和1之间的标量组成）转换为只包含0或1的布尔矩阵。通过从中删除65740数据关联步骤中，我们的目标是保留在“硬”匹配期间被丢弃的“软”信息。由于我们跳过了数据关联步骤，所以我们的方法在两对物体之间的关联值相似且正确匹配具有歧义、易于产生数据关联错误的情况下可以更准确。贡献。我们提出直接使用原始检测和中间跟踪结果，即关联矩阵，作为预测的输入。为了充分利用原始检测和关联矩阵进行预测，我们提出：（1）一种基于关联矩阵的预测（Affinipred）框架，消除了输入过去轨迹的需求，也消除了容易出错的数据关联步骤。0（2）一种变换器架构，可以模拟所有输入帧上所有检测之间的联合注意力，并且可以处理帧间检测的可变大小。0（3）一种基于关联矩阵的注意机制，直接在时间上整合完整的物体关联信息。0除了上述贡献，Affinipred还利用了先前工作的进展，使用条件变分自编码器（CVAE）[18]生成多模态预测[21,32]，在解码器中进行联合交互建模以生成场景一致的预测[11, 35]，并在输入中加入地图以捕捉环境信息[47, 48]。02. 相关工作0轨迹预测。近年来，在轨迹预测方面取得了重大进展[4, 15,16, 19-21,29-31]。然而，几乎所有这些工作都在理想化的情况下进行轨迹预测，即使用真实的过去轨迹作为训练和评估的输入，没有直接考虑感知误差。因此，将在理想化环境中训练的模型转移到实际环境中变得非常困难，实际环境中我们通常使用嘈杂的跟踪结果作为预测的输入。因此，减少从跟踪到预测的错误传播对于我们的工作至关重要。与以往的工作不同，我们基于关联矩阵的预测不假设真实轨迹作为输入，并且对跟踪错误具有更高的鲁棒性。0跟踪-预测集成。尽管大部分先前的工作都将轨迹预测与跟踪分开处理，但也有一些工作致力于跟踪和预测的集成。例如，[23]提出了一个端到端的级联检测、跟踪和预测网络，这三个任务是联合优化的。类似地，[43]提出了一个并行化的跟踪和预测框架，也可以进行联合优化。尽管这些端到端方法提高了性能，但它们并没有明确考虑跟踪错误。0在预测过程中，如果跟踪结果在帧间累积存在错误，这些错误将对预测产生不利影响，如[40,45]所示。与我们的工作最接近的是[40,45]，它们都确定了跟踪错误对预测的影响并寻求解决方案。[45]提出在每一帧中强制执行预测一致性以修复跟踪错误，从而提高预测准确性。由于数据关联容易出错，[40]提出使用多假设数据关联（MHDA）[10,25]进行预测。与我们的想法类似，MHDA的使用也旨在通过生成多组跟踪结果在关联矩阵中保留更多信息，从而增加将准确的跟踪结果作为预测输入的可能性。简而言之，[40,45]通过提高其输入的质量（即由跟踪生成的轨迹片段）来提高预测的鲁棒性，但不对预测模型进行任何修改。相比之下，我们提出了一种新颖的预测框架，该框架使用关联矩阵而不是轨迹片段作为输入，从而完全消除了数据关联中出现错误的机会，并向预测传递更多信息。0联合社交-时间建模。在涉及许多相互作用代理的场景中，一个代理的未来行为高度依赖于其对其他代理行为的信念。因此，轨迹预测的一个重要方面是代理-代理交互建模，也称为社交-时间建模。先前工作中最流行的方法是按级联顺序建模社交-时间交互，即首先进行时间建模，然后进行社交建模，例如RNN和图神经网络（GNN）[20，32，43]，或者Transformer和RNN[6]。然而，由于社交和时间建模不是同时进行的，因此社交建模失去了对先前帧中代理信息的访问（此信息已在时间建模中压缩）。因此，最近的研究认为，通过允许代理特征在任何帧上直接关注任何帧上的其他代理特征，共同建模社交-时间交互是有益的，例如交错社交和时间Transformer [24，44，46]或GNN[26]。我们使用类似的联合社交-时间建模机制，允许任何帧上的代理特征直接关注任何帧上的其他代理特征。与先前的工作不同，我们在联合社交-时间建模期间没有访问代理身份信息，因此我们使用联合亲和性矩阵来注入“软”身份信息。03D多目标跟踪。在线跟踪的目标是将先前计算的轨迹与当前检测匹配，以形成新的轨迹直到当前帧，然后逐步获得整个序列的轨迹。在此过程中，通常会计算中间的亲和性矩阵，其中每个条目表示过去轨迹和当前检测之间的成对相似性。然后可以使用匈牙利算法[37]等匹配算法执行“硬”匹配，分配检测到的轨迹。65750将检测与轨迹匹配。与使用轨迹作为预测输入的标准跟踪-预测流程相比，我们使用中间的亲和性矩阵作为输入，为预测保留了更多的“软”信息。03. 问题形式化0多代理轨迹预测的目标是学习一个函数F，可以预测场景中每个代理的未来位置序列。设Y=（Y1，Y2，...，YN）∈RN×K×2表示K个代理的N帧未来轨迹。在帧t，Yt=（y1t，y2t，...，yKt）∈RK×2表示K个代理的地面位置，其中每个位置表示为元组yk t=（ukt，vkt）∈R2。在先前的工作中，函数F的输入通常是来自先前M帧的相同K个代理的过去轨迹X=（X1-M，...，X0）和场景的可选地图M。然而，通过跟踪获得完美的过去轨迹是具有挑战性的，并且数据关联错误很容易传播到预测中。因此，我们寻求一种不同的解决方案，它使用一系列原始（未关联）检测D =（D1-M，...，D0）（Sec. 4.1）及其亲和性矩阵A=（A1-M 2-M02. 在每个帧之间计算亲和性矩阵（Sec.4.2），如图2（左上）和（左下）所示。由于未来是不确定的，可以以许多不同的方式发展，因此每个代理的预测也应该是多模态的。因此，我们的目标是学习一个函数F，它可以将（D，A）（和可选的M）和采样的潜变量Z=（z1，...，zK）映射到未来的轨迹Y：0Y = F（D，A，M，Z）。（1）04. 基于亲和性的预测（Affinipred）0我们方法的网络结构如图2所示，它由五个关键组件组成：（1）过去嵌入层，用于编码所有扁平化检测的特征和可选的过去帧地图；（2）亲和性构建模块，将两个帧之间的各个亲和性矩阵转换为所有帧中所有检测之间的一个联合亲和性矩阵；（3）具有基于亲和性的注意力的变压器编码器，用于模拟所有检测之间的交互，输出上下文特征，然后可以用于生成先验pθ；（4）变压器解码器，从嵌入、上下文和采样的潜变量中自回归地预测未来轨迹；（5）另一个变压器解码器，从地面真实（GT）未来轨迹和上下文生成后验qϕ。04.1. 输入表示：检测0为了避免使用可能存在错误的跟踪结果进行预测，我们直接从原始检测中进行操作。虽然这样可以避免数据关联的需要，但也带来了两个挑战：不完整性和身份丢失。02 A 1 − M 2 − M 表示帧 2 − M 和 1 − M 之间的亲和矩阵。0不完整性。由于各种原因（遮挡、大距离、传感器故障、物体尺寸小等），最先进的检测器在所有帧上提供稳定的检测结果往往很困难。这意味着一些物体虽然存在于场景中，但在某些帧中可能未被检测到。例如，在图2（左上角）中，蓝色物体在帧 t = − 2 和 t = 0 中被检测到，但在帧 t =− 1中未被检测到。请注意，图2中的物体颜色（表示身份）仅用于说明，我们的方法使用的检测结果实际上没有身份信息。在这里，我们将帧 t 的原始检测表示为 D t = ( d 1 t , d2 t , ∙ ∙ ∙ , d K t t ) ，其中 K t 是时间 t检测到的物体数量（可能在不同帧之间变化）。0身份丢失。由于跨帧的检测是未关联的，我们没有每个对象的数据序列。因此，无法应用标准的序列建模技术，例如RNN，来提取轨迹级别的特征。此外，相同索引的检测在不同帧中（即 d k t 和 d k t − 1 ）不一定具有相同的身份。0我们的解决方案。为了在考虑上述挑战的同时适当处理检测输入，我们提出了一种联合社交-时间变换器架构（第4.3节和4.5节）和基于亲和性的注意力（第4.4节）。首先，联合社交-时间变换器模型对所有帧中的所有检测之间的相互作用进行建模，因此可以处理每个帧中可变数量的物体。其次，我们将亲和矩阵注入到基于亲和性的注意力模块（第4.4节）中，作为保留所有检测之间的“软”相似性和身份信息的单独输入。04.2. 输入表示：亲和矩阵0由于亲和矩阵提供的信息比“硬”匹配产生的身份估计更多，亲和性是我们方法输入表示的核心要素。给定帧 t − 1上的 K t − 1 个检测和帧 t 上的 K t 个检测，亲和矩阵 A t− 1 t ∈ R K t − 1 × K t 具有表示 d i t − 1 和 d j t之间相似性（或归一化后的对应相同身份的概率）的条目 aij ∈ R ，其中 i ∈ [1 , K t − 1 ] 且 j ∈ [1 , K t ]分别表示 A t − 1 t的行索引和列索引。亲和矩阵通常作为在线多目标跟踪方法的中间结果获得[41,49]。然而，使用它们进行预测存在两个挑战：（1）由于在线跟踪方法旨在逐帧增量地解决数据关联，亲和矩阵仅在连续帧之间计算，例如 A − 2 − 1 和 A − 1 0，如图2（左下角）所示。因此，我们没有非连续帧中检测之间的直接亲和矩阵；（2）亲和矩阵通常在最后一帧的轨迹和当前帧的检测之间计算，因为轨迹已经与最后一帧关联起来。因此，估计的亲和矩阵........"𝒟&65760t =-2 t =-1 t =00时间0检测 �0（仅用于说明颜色）0� !"0地图 �0展平0地图0提取器（可选）0过去嵌入0亲和性0构建0个体两帧0亲和力矩阵�0基于亲和力0注意力0联合社交-时间Transformer编码器0联合社交-时间Transformer解码器0预测嵌入0输出层0预测0在t = 1时0自回归预测0预测0在t = N时0（颜色表示身份）0t = 1 t = 2...0t = N0地图0提取器（可选）0未来嵌入0联合社交-时间Transformer解码器0潜在� CVAE后验�"0CVAE先验�#0KL损失��0重构0损失��0基于亲和力0注意力0基于亲和力0注意力0上下文�0自回归0预测0时间0编码0� $0地图�0� � �0� � �0输入� +0图2.基于亲和力的预测。给定过去数据（原始检测D，地图M和连续帧之间的亲和力矩阵A），我们的目标是预测多个未来轨迹样本Y。为了建模联合社交-时间注意力，所有检测都被展平为Df，然后通过过去嵌入层提取O。为了恢复原始检测中的时间信息顺序，将时间编码τ添加到O中形成输入嵌入E。然后，应用包含一系列自注意块的Transformer编码器来输出上下文嵌入C，通过亲和力注意力将A中包含的“软”对象身份信息注入其中。在训练过程中，未来轨迹Y也通过Transformer解码器进行编码，以计算后验概率qϕ，从而可以在先验概率pθ和后验概率qϕ之间应用KL损失Lkl。为了产生多模态预测，潜在变量Z从先验（在测试过程中）或后验（在训练过程中）中进行采样。通过将Z与t =0（蓝色、灰色、红色物体）的检测相结合，我们可以通过另一个Transformer解码器和一个输出层以自回归的方式预测它们的未来位置Y。最后，还使用重构损失Lres来训练网络中的Y和Y之间的差异。为了说明目的，图中只显示了M = 3个过去帧（t = -2，t = -1和t = 0）。0如果前一帧中的轨迹构建不准确，那么在某一帧上的轨迹可能不准确。我们将在第6节中讨论这些挑战的潜在解决方案。04.3. Transformer编码器0过去嵌入。我们使用Transformer编码器来建模所有帧中所有检测之间的联合社交-时间注意力。由于Transformer操作的是数据序列，我们首先将检测展平为序列Df ∈ R Ksum ×2 = (d11-M, ∙ ∙ ∙ , dK1-M1-M, d12-M, ∙ ∙ ∙ , d100, ∙ ∙ ∙ ,dK00)，其中Ksum =�0t=1-MKt是所有过去帧中检测的数量。然后，使用过去嵌入（全连接）层将Df转换为特征嵌入的列表O = (o11-M, ∙ ∙∙ , oK00) ∈ R Ksum × df。0地图编码。如果可用，我们的模型还可以包含地图作为输入。具体来说，给定一个物体的位置 dkt = (ukt,vkt)，我们从全局地图M中裁剪出一个围绕物体的局部地图Mkt。然后，一个卷积神经网络（CNN）将局部地图编码为向量mkt，在将其与物体的位置连接后输入到过去嵌入层中。0时间编码。在将检测结果沿时间维度展平后，每个对象的时间戳丢失了。为了恢复嵌入的时间信息的顺序，我们应用位置编码，与[36]中的方法类似，但修改为编码时间，以使同一时间戳上存在的对象具有相同的时间编码。将此时间编码τkt添加到每个对象的特征嵌入okt中，形成输入嵌入ekt到Transformer编码器中。0联合社交-时间建模。受原始Transformer[36]的启发，我们将一系列自注意块应用于输入嵌入E =(e11-M, ...,eK00)，其中每个块包含多头注意力、层归一化、前馈网络和另一层归一化。每个输入嵌入ekt也被投影为键、查询和值，用于计算注意力（第4.4节）。经过B个注意力块后，Transformer编码器输出上下文特征C= (c11-M, ...,cK00)。总体而言，我们的Transformer编码器具有两个关键特点：（1）由于输入是来自所有过去帧的对象，我们的Transformer编码器允许任何帧上的对象直接关注任何其他帧中的另一个对象，从而实现了"65770� !"0亲和性0构建0� $0t = -20t = -10t = 00t = -2 t = -1 t = 00图3. 联合亲和构建。为了构建用于基于亲和性的注意力的Ajoint，我们首先用单位矩阵I填充其对角线，因为同一时间戳上的对象身份是固定的。然后，当可用时，我们用各个两帧亲和矩阵填充A joint的非对角块，否则将其保留为零。在此示例中，M =3个过去帧，我们可以填充亲和矩阵A-10（在帧-1和0之间）和A-2-1（在帧-2和-1之间）。0跨时间的社交注意力，即联合社交-时间建模。这与先前的方法不同，先前的方法使用两阶段的方法（例如，先社交再时间或反之亦然）；（2）由于输入被展平，我们的Transformer编码器可以处理不同数量的对象跨帧。04.4. 基于亲和性的注意力0联合亲和构建。为了实现所有过去帧中所有检测之间的联合注意力，我们首先需要从各个两帧亲和矩阵A构造联合亲和矩阵A joint ∈ R K sum × K sum。以M =3（三个过去帧）为例，此时有两个单独的亲和矩阵A =(A-2-1, A-10)。如图3所示，联合亲和Ajoint是由亲和矩阵A-2-1、A-10、单位矩阵I和零组成的（三对角）块矩阵。Ajoint的对角线是单位矩阵，因为同一时间戳t上的相同对象k必须对自身具有相同的身份。Ajoint的非对角块填充有单独的两帧亲和矩阵（用于连续帧），其他位置为零。0基于亲和性的注意力。由于对象的未来轨迹取决于其过去运动和其他对象的运动，我们的基于亲和性的注意力模型同时建模这两种依赖关系。一般来说，这些依赖关系可能对预测产生不同的影响，因此我们使用分别投影键K ∈ R K sum ×df和查询Q ∈ R K sum × df来对它们建模：0K self = KWK self, Q self = QWQ self, (2)0K other = KWK other, Q other = QWQ other, (3)0其中，K self和Qself用于计算对象对自身的注意力（或与其具有高亲和值的对象的注意力），K other和Qother用于计算对象对其他对象的注意力。然后，我们通过使用联合亲和矩阵Ajoint作为掩码以亲和感知的方式组合这些注意力权重：0W = Ajoint⊙(QselfKTself)+(1−Ajoint)⊙(QotherKTother), (4)0其中⊙是逐元素乘积，组合的注意力权重W∈RKsum×Ksum是一个矩阵。最后，我们可以像[36]中那样计算出被关注的输出：0V' = softmax0� W �0df0�0V, (5)0其中输出嵌入V'∈RKsum×df作为注意力块中其余操作的输入。04.5.变压器解码器0与计算所有检测之间的自注意力的变压器编码器不同，我们的变压器解码器计算检测和未来位置之间的交叉注意力。如图2所示，我们的变压器解码器用于两个地方：（1）以自回归方式对检测和预测轨迹之间的注意力进行建模，（2）对检测和GT未来轨迹之间的注意力进行建模以计算后验。在这两个地方，唯一的区别是查询嵌入是通过预测位置通过预测嵌入层还是通过GT未来轨迹通过未来嵌入层进行投影。两个嵌入层都是全连接的，类似于第4.3节中介绍的过去嵌入层。变压器解码器中还使用基于关联性的注意力和时间编码，键和值嵌入是从变压器编码器的上下文特征C进行投影的。04.6.多模态预测0为了产生多模态预测，我们应用标准的CVAE框架，在运行时对潜变量Z进行采样，并使用它们对模型进行条件化，以产生多个可能的代理未来的联合实现。0CVAE后验。根据标准的CVAE轨迹预测工作[9,43]，后验qϕ(zkt|D,M,Y)是通过两层多层感知机和两个独立的全连接层计算每个输入检测dk的均值μkt和方差σkt的高斯分布。在训练过程中，可以为所有检测到的对象采样潜变量Z=(z11-M,...,zK00)，这些潜变量与原始检测Df和（可选地）地图特征连接起来，以在自回归预测期间计算输入嵌入。最后，后验是使用变压器编码器C和GT未来变压器解码器的输出计算的，结合了关于未来（Y，M）和过去（D，M）的信息。0CVAE先验。计算先验的网络与计算后验的网络类似，只是其输入是不包含任何来自未来GT轨迹的信息的上下文特征C。在测试过程中，我们可以从先验pθ(zkt|D,M)中采样多个潜变量Z=(z11-M,...,zK00)来预测多个对象未来轨迹的样本。(6)657804.7.训练细节0预测哪些代理？由于标准轨迹预测中的原始检测与轨迹输入不同，一个关键问题是应该为哪些对象进行预测？例如，可以为过去帧中检测到的所有K个对象预测未来位置。然而，过去帧中的一些检测可能属于同一个对象（尽管事先不知道），因此预测的轨迹可能重复，需要后续的匹配和过滤。另一种方式是仅为当前帧（t =0）中检测到的K0个对象预测轨迹。这样，对于具有相同身份的对象不会进行重复预测，但是如果它们在t =0的帧中未被检测到（由于检测器故障），则可能没有预测。在这项工作中，我们选择使K =K0而不是Ksum，以匹配先前工作（例如[15,40]）和挑战（nuScenes [7]，ETH / UCY [22,27]）中使用的标准数据处理程序，以便进行公平比较。0与GT的检测匹配。为了训练Affinipred，我们使用GT未来轨迹作为每个需要预测的检测的监督信号。因此，需要将t=0帧的K0个检测与GT未来轨迹进行匹配。按照nuScenes挑战赛[7]中用于官方评估的标准匹配方案，我们使用距离阈值dthres和匈牙利匹配[37]。在训练过程中，我们过滤掉与GT未成功匹配的t=0帧的检测结果（很小的比例），即最有可能是误报的对象。0自回归预测。在训练和测试过程中，我们执行自回归预测。对象位置按顺序预测，预测t+1时，t的预测作为输入。以图2为例，我们从t=0帧的检测结果（蓝色、灰色和红色对象）开始作为输入。然后，我们的输出层将变压器解码器的输出转换为在t=1帧的预测位置Y1 = (y11, ...,yK01)。通过迭代应用这个过程，我们可以得到所有N个未来帧的预测Y = (Y1, ..., YN)。0训练目标。我们通过最小化两个损失函数来优化Affinipred网络：（1）K0个预测Y和GT轨迹Y之间的重构损失；（2）每个要预测的对象的CVAE先验和后验之间的KL散度损失：0L = αLres + βLKL = α || Y − Y||20+ β0K00k=1 KL (qϕ(zk0|D, M, Y) || pθ(zk0|D, M)),0其中α，β∈R>0是损失函数的权重。在这里，只使用K0个对象的先验和后验，因为我们只预测这些在t=0帧检测到的对象。05. 实验0我们基于亲和力的预测方案有两个核心目标：（1）在使用跟踪结果作为输入的实际情况下提高整体预测性能，（2）增加对上游跟踪错误的鲁棒性。为了评估我们的方法在解决这些问题方面的有效性，我们使用标准的预测数据集，但使用检测和跟踪结果作为输入，而不是GT过去的轨迹。除了对所有检测到的对象进行预测准确性的评估（“全局评估”），我们还按照[40]的方法对具有某些类型跟踪错误的对象进行预测性能评估（“目标评估”），以评估我们的方法对跟踪错误的鲁棒性。从高层次上看，我们发现与标准的轨迹片段预测相比，我们基于亲和力的预测显著提高了实际世界的预测性能和对跟踪错误的鲁棒性。05.1. 实现细节0超参数。在公式（6）中，我们使用α = β =1，嵌入的维度df = 256，潜变量的维度dz =32，匹配检测和GT轨迹时的阈值dthres = 2。0网络架构。我们使用一个4层CNN来提取32维的地图特征。在所有四个嵌入层（过去、未来、预测嵌入和输出）中，我们使用一个全连接层。在变压器编码器和解码器中，我们使用B=2个注意力块，亲和力多头注意力中使用8个头。0数据预处理。我们对过去的M帧和未来的N帧中的任何缺失数据应用线性插值和外推来填补。我们还应用三种数据增强方法，以增加对跟踪错误的预测的鲁棒性。具体而言，我们注入身份切换（IDS）、片段（FRAG）和噪声。对于IDS，如果两个对象在当前帧内距离小于5米，则以30%的概率交换它们的身份。对于FRAG，我们以30%的概率随机丢弃过去帧的数据。最后，我们扰动每个对象在之前帧中的u、v位置，扰动幅度最大为其宽度和长度的0.4倍。05.2. 评估方法0基准。在所有实验中，我们与由检测器、跟踪器和预测模型组成的标准跟踪-预测流水线进行比较。在KITTI上，它们分别是PointRCNN [34]，AB3DMOT [41]和PTP[43]。在nuScenes上，它们分别是Megvii[50]，AB3DMOT [41]和PTP [43]。我们还与MTP[40]进行比较，这是一项强大的最新工作，解决了改进预测对上游跟踪错误的鲁棒性的相同问题。具体而言，MTP[40]通过多假设数据关联明确考虑了预测中的跟踪错误。为了与这些基准进行公平比较，我们使用相同的检测和跟踪方法来获取输入。K0k=11N kvalid�DatasetsTargetsMethodsminADESminFDES65790数据集。我们使用标准的KITTI [13]和nuScenes[7]自动驾驶数据集进行评估。由于KITTI没有官方的预测评估服务器，我们在KITTI跟踪[1]验证集上进行评估，使用[33]中的标准训练/验证划分。在评估过程中，我们考虑三个主要的对象类别：汽车、行人和骑车者。为了与[40]进行公平比较，我们使用 M = 10 个过去帧来预测 N = 10个未来帧。为了将对象与其GT轨迹匹配，我们计算3D交并比（IoU）并使用标准阈值0.5[41]。对于nuScenes，我们遵循官方的预测挑战指南[2]：（1）使用官方的训练、验证、测试划分[3]；（2）仅对车辆类别进行评估；（3）使用 M = 4 个过去帧来预测 N =12个未来帧；（4）在匹配预测和GT轨迹以计算指标时，使用2米的阈值距离。尽管我们遵循官方的nuScenes评估指南，但需要注意的是，表1到表4中的minADE S，minFDES值与nuScenes排行榜上的值（使用GT过去轨迹进行评估）不可比较。0指标。为了评估预测准确性，我们使用标准的最小平均位移误差和最终位移误差指标（minADE S，minFDE S）进行 S个预测样本的评估：0minADE S = min s 1 K 00t =1 F k m || � y s k t− y k t || 2 ,0minFDE S = min s 1 K 00k =1 || � y s k T k −0其中 K 0 是当前帧检测到的对象数量，� y s k t 是第 t帧中第 k 个对象的预测位置，s 是第 s个样本。由于并非所有对象都有完整的GT未来轨迹（例如，它们可能会提前离开场景），因此使用逐帧掩码 F k m来计算仅在GT存在的帧上的误差。因此，对象 k的总评估帧数为 N k valid ≤ N。类似地，当计算 minFDES 时，T k ≤ N 是对象 k的最后一帧。最后，我们在KITTI上使用 S = 20进行评估，在nuScenes上使用 S = 10进行评估，以与[40]进行公平比较。0跟踪评估。为了分析具有跟踪错误的对象的预测性能，有必要确定哪些对象有跟踪错误。根据[40]，我们考虑两种常见的跟踪错误：身份切换（IDS）和碎片（FRAG）。我们使用[41]中发布的标准3D跟踪评估代码来确定每帧中具有IDS/FRAG错误的对象。05.3. 结果与分析0目标评估。表1总结了所有方法在具有跟踪错误的对象上的性能。我们可以看到我们的方法在每个数据集和跟踪错误类型上都明显优于其他方法。例如，在具有IDS的nuScenes对象上，我们将minADES减少了71.8%（从3.923减少到1.106），将minFDES减少了74.5%。0KITTI IDS PointRCNN+AB3DMOT+PTP，S=20 2.820 4.5140MTP [40]，S=20 0.747 1.173 MTP [40]，S=400 0.707 1.093Affinipred（我们的方法），S=20 0.516 0.7920KITTI FRAG PointRCNN+AB3DMOT+PTP，S=20 1.621 2.1550MTP [40]，S=20 1.335 1.688 MTP [40]，S=400 1.305 1.627Affinipred（我们的方法），S=20 1.063 1.3810nuScenes IDS Megvii+AB3DMOT+PTP，S=10 8.345 13.8920MTP [40]，S=10 3.923 6.210 MTP [40]，S=200 3.321 5.052Affinipred（我们的方法），S=10 1.106 1.5840nuScenes FRAG Megvii+AB3DMOT+PTP，S=10 14.520 21.8150MTP [40]，S=10 8.476 12.105 MTP [40]，S=200 7.697 10.606Affinipred（我们的方法），S=10 4.486 5.6000表1. 具有IDS/FRAG的物体的预测性能。0（从6.210减少到1.584）。重要的是，我们可以直接与MTP[40]进行比较，因为我们的方法使用相同的检测和跟踪输出（包括中间亲和力矩阵）作为MTP[40]。因此，对于这两种方法来说，考虑的IDS/FRAG物体集是完全相同的。当与使用相同的检测[34，50]和跟踪[41]方法的标准检测-跟踪-预测系统进行比较时，我们的方法的性能进一步得到了凸显。例如，在具有IDS的nuScenes物体上，我们将minADES减少了86.7%（从8.345减少到1.106），将minFDES减少了88.6%（从13.892减少到1.584）。所有这些结果都证实了我们的基于亲和力的预测在IDS和FRAG方面显著提高了预测的鲁棒性，这是合理的，因为标准的检测-跟踪-预测系统没有明确考虑跟踪错误。0全局评估。表3总结了所有检测到的物体的方法性能。与定向评估的趋势相似，我们的方法在标准的检测-跟踪-预测流程中明显优于。例如，我们在nuScenes上将minADES减少了57.9%（从2.320减少到0.977）。此外，我们的方法在允许20倍的样本的情况下，也明显优于MTP[40]。表3中我们的方法所实现的误差减少幅度不如表1中大，因为全局评估还包括未来轨迹更容易预测的物体，即没有任何上游检测或跟踪错误的物体。0消融研究。表2总结了结果，最后一行对应我们的完整方法。在倒数第二行，我们用轨迹片段替换了我们方法的核心改进（亲和力和检测输入的使用），观察到定向和全局性能都显著下降。这表明我们的核心贡献在提高整体预测性能和提高模型对跟踪错误的鲁棒性方面是有效的。然后，我们禁用了GT匹配，意味着将来自跟踪的轨迹片段用于替代GT未来轨迹。3.4085.1248.08510.2461.6252.960✓2.7054.0676.8928.2271.2642.136✓✓2.4643.5316.6228.0581.2151.963✓✓✓1.7922.6424.9886.1931.1431.882✓✓✓✓1.1061.5844.4865.6000.9771.628SSSinFDES✓1.3831.9065.1606.264✓2.5773.6956.6107.830✓1.8972.5576.0607.460✓✓✓1.3141.8244.7735.959Affi. + Det.✓✓✓1.1061.5844.4865.60065800方法 IDS FRAG 全局额外/交互增强 GT匹配亲和力 minADE S minFDE S minADE S minFDE S minADE S minFDE S0表2. 在nuScenes预测测试集上的消融实验。使用S = 10个样本来预测N = 12个未来帧。0数据集方法 minADE S minFDE S0KITTI PointRCNN+AB3DMOT+PTP，S=20 0.185 0.2780MTP [40]，S=20 0.162 0.238 MTP [40]，S=400 0.146 0.203Affinipred（我们的方法），S=20 0.129 0.1940nuScenes Megvii+AB3DMOT+PTP，S=10 2.320 3.8190MTP [40]，S=10 1.585 2.512 MTP [40]，S=200 1.325 1.979Affinipred（我们的方法），S=10 0.977 1.6280表3. 所有检测到的物体的预测性能。0在训练过程中，由于tracklets是有噪声的，性能在所有设置中都会明显下降。最后，我们禁用数据增强和插值（线性外推和内插值），结果性能下降证实了这些预处理步骤对于提高预测的鲁棒性也是重要的，特别是对于具有IDS和FRAG错误的对象而言。有趣的是，即使没有这些数据预处理步骤和基于亲和力的输入，我们的基础预测网络的性能与MTP[40]相似。0使用增强的GT进行训练。如表2所示，通过在训练过程中使用IDS、FRAG和噪声增强输入，可以提高预测准确性和对跟踪错误的鲁棒性。看到这一点，人们可能会想知道是否可以将相同的增强应用于使用GT轨迹训练的标准基于tracklet的预测方法。这与我们的Affinipred相比如何？为了回答这个问题，我们在nuScenes上训练了一个基于tracklet的版本的基础预测网络（即表2的第二行），并对GT轨迹应用了不同的跟踪误差增强（如第5.1节所述）。表4总结了结果，并显示即使在所有三个输入数据增强的组合下，使用GT轨迹训练的基于tracklet的方法也被我们的Affinipred超越，这对于具有ID切换和碎片的对象都是如此。0运行时速度。我们的方法的速度取决于每个输入帧中存在的对象数量。在单个GeForce RTX2080上，我们的方法可以以每秒4.7帧的速度运行，每个输入帧平均有30个检测结果。除此之外，还有许多方法可以使我们的方法更快，例如从自回归预测切换到批量预测，优化网络架构以重用计算，并且通常优化我们（目前未优化的PyTorch）的代码库以提高性能。0输入增强 IDS FRAG0GT轨迹 2.878 4.136 7.314 9.1360表4.使用增强的GT轨迹训练的基于tracklet的我们方法与我们的基于亲和力的预测方案在nuScenes上的性能对比。两种方法都使用了额外的数据插值/插补。06. 限制和结论0我们的基于亲和力的预测方法（Affinipred）存在两个主要限制（因此也是未来工作的方向）。首先，如何获得非连续帧之间的亲和力矩阵？此外，如何获得两个检测帧之间的亲和力矩阵，而不是过去的tracklet和当前的检测之间的亲和力矩阵（第4.2节）？在这方面，未来工作的一个有趣领域是设计一个可以直接输出联合亲和力矩阵Ajoint的亲和力估计网络。其次，是否有一种优雅的方式可以预测任何过去帧中存在的所有对象的未来，而不仅仅是在当前帧中检测到的对象？这样的能力对于处理遮挡很有用，可以预测在当前帧中被遮挡的过去帧中的对象。总之，我们提出了一种新颖的基于亲和力的预测方案，只需要检测结果及其帧间的亲和力矩阵作为输入，完全消除了容易出错的数据关联的需求。由于亲和力矩阵包含有关帧间检测结果相似性和身份的“软”信息，使用亲和力矩阵进行预测比使用数据关联生成的tracklet

下载后可阅读完整内容，剩余1页未读，立即下载