PnPNet:自动驾驶汽车的端到端联合感知和预测模型

181 浏览量更新于2023-10-23 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11553PnPNet：端到端感知和预测与跟踪循环Ming Liang1杨斌1，2杨曾文媛1，2陈云1胡锐1塞尔吉奥·卡萨斯1，2拉克尔·乌塔孙1，21优步先进技术集团2多伦多大学{梁明，byang 10，陈文远，陈云，rui.hu，sergio.casas，urtasun}@ uber.com摘要我们在自动驾驶汽车的背景下解决联合感知和运动预测的问题。为了实现这一目标，我们提出了PnPNet，这是一个端到端的模型，它将连续的传感器数据作为输入，并在每个时间步输出对象轨迹及其未来轨迹。关键组件是一个新的跟踪模块，生成对象跟踪在线检测和利用轨迹水平的运动预测功能具体地说，通过解决数据关联问题和轨迹估计问题，在每个时间步更新对象轨迹重要的是，整个模型是端到端可训练的，并受益于所有任务的联合优化。我们在两个大规模驾驶数据集上验证了PnPNet，并在最先进的水平上显示了显着的改进，具有更好的遮挡恢复和更准确的未来预测。1. 介绍我们专注于自动驾驶汽车背景下的联合感知和预测（运动预测）任务。这是一项至关重要的任务，因为为了计划安全的机动，预测周围代理的未来决策与估计其当前状态一样重要。已经提出了不同的范例来解决感知和预测问题，在图1中进行了比较。传统的自动驾驶堆栈[2，9，16]将问题分解为三个子任务：对象检测、对象跟踪和运动预测，并且依赖于顺序执行这些子任务的独立组件。然而，由于每个组件都是单独开发的此外，这些模块之间的接口非常紧凑（通常是对象*同等缴款。(a) 模块感知预测传感器数据检测轨道具有未来预测的规划师预测器跟踪器检测器(b) 端到端感知预测，闭环外跟踪传感器数据具有未来预测的轨迹检测规划师跟踪器检测预测(c) 端到端感知预测、环中跟踪传感器数据具有未来预测的规划师检测→跟踪→预测图1. 感知和预测的三种范式。事务处理方法（a）采用模块化设计，将堆栈分解为子任务，并使用单独的模型来解决它们。像[28]（b）这样的端到端方法使用联合模型来同时解决检测和预测，但将跟踪作为后处理。因此，检测和预测不使用轨迹我们的方法(c)将跟踪带入循环，以便所有任务都受益于丰富的时间上下文。最近，已经提出了用单个神经网络联合解决检测和预测任务的模型[28]，从而提高了计算效率和准确性。该范例随后被扩展以通过在共享骨干网络之上添加相应的模块来进一步解决驾驶员意图[8]和运动规划[50然而，这些方法受到时间历史的有限使用的影响，因为对象跟踪不包括在循环中，并且因此由于有限的模型容量而仅利用多达1秒的过去传感器数据。当处理被遮挡的演员时，这可能会导致问题，并且可能在预测中产生时间不一致。在本文中，我们认为，利用过去是关键的顺序决策过程，如运动预测。为了实现这一目标，我们提出了PnPNet，这是一种新的范式，它结合了多目标跟踪和联合预测模型的思想虽然检测模块处理顺序传感器数据并在每个时间步长生成对象检测，但跟踪模块将这些估计值与时间相关联，以便更好地理解对象。11554对象状态（例如，遮挡推理、轨迹平滑），这又为预测模块提供更丰富的信息以产生准确的未来轨迹。重要的是，所有模块共享计算，因为有一个单一的骨干网络，完整的模型可以端到端训练。我们在PnPNet中做出了两个主要的技术贡献。首先，我们提出了一种新的对象轨迹表示定义的对象检测序列，以充分捕捉演员的时间特性。特别是，对于每个对象，我们首先提取其推断的运动（从过去的检测估计）和原始观测（从传感器特征）在每个时间步，然后使用循环网络建模其动态。重要的是，该轨迹表示被用于跟踪和预测模块。其次，我们提出了一种多目标跟踪器，它通过可学习的函数解决了数据关联的离散问题和轨迹估计的连续问题[33]，这些函数可以处理对象遮挡、轨迹的新生和误报检测。我们在两个大规模驾驶数据集上验证了PnPNet，并通过模块化指标（每个子任务的标准基准）和系统指标（真实环境下的端到端性能）证明了其有效性实验表明，PnPNet在感知和预测任务方面都比以前的最先进范式有了显着的改进。具体来说，PnPNet从遮挡中恢复对象，产生更完整的对象transjectories，并输出更准确的未来预测。2. 相关工作在本节中，我们将回顾分别处理3D对象检测、跟踪和运动预测任务的工作，然后是联合处理这些任务的方法。3D物体检测：虽然有几种方法[11，10，41]试图从图像中执行3D对象检测，但固有的深度模糊性阻碍了它们在安全关键应用中的应用。利用深度传感器的方法（例如，LiDAR）通过点云的各种表示实现卓越的性能[48，52，46，38，49，32]。最近传感器融合方法[12，44，27，34，47，26，31]通过利用来自相机和/或地图的互补信息进一步推动性能。为了提高效率和准确性，PnPNet利用多目标跟踪：大多数方法主要遵循检测跟踪范式[5]，其包括数据关联的离散问题和轨迹估计的连续问题[33]。已经提出了许多框架来解决数据关联问题：例如，马尔可夫决策过程[43]，最小成本流[24，17，36]，线性分配问题[37，42]和图割[30，40]。为了在没有检测可用时处理对象遮挡，已经探索了手工制作的除了关联范式之外，还使用不同的表示来计算亲和力。虽然[42]仅利用3D运动线索，但提取传感器特征的方法[51，14]通常将时间历史限制为3个时间步长。相比之下，PnPNet解决了离散和连续问题，具有捕获传感器观察和动作者运动线索的长期轨迹表示运动预测：已经提出了各种方法来建模运动预测中的多智能体交互和多模态行为。RESTRE [23]使用变分自动编码器来生成轨迹建议，并基于语义场景上下文和代理之间的交互来细化它们。为了更好地模拟相互作用，博弈论被用来制定问题[29]。Social-LSTM [1]引入了社交池来模拟附近代理与不同的预测模型并行，还探索了各种输入除了参与者的过去状态外，还探索了传感器功能以提供更多的上下文[23，25，35]。然而，这些方法通常是在地面实况对象标签上开发的，并且在应用于噪声检测时具有通用化问题[35]。在自动驾驶领域，广泛使用鸟瞰图中的光栅表示相比之下，PnPNet中的预测模块直接重用感知特征以获得丰富的场景上下文，并且还从过去的对象轨迹中显式地提取对象状态。感知和预测的联合模型：FAF [28]提出通过利用来自多扫描LiDAR点云的时间特征来联合推理3D对象检测和运动预测。一个有效的鸟瞰图表示和网络架构用于实时推理。IntentNet [8]通过添加从语义HD地图预测每个代理的高级意图来扩展该方法。SpAGNN [7]利用具有空间推理的图神经网络来建模多智能体交互。NeuralMP [50]通过共享运动规划与预测和预测的功能，进一步虽然所有这些方法都具有用于检测和预测的传感器特征，但它们未能利用沿时间维度的参与者的丰富信息。PnPNet通过结合在线跟踪和提取语义级参与者表示来编码长期历史来解决这个问题，这反过来又改善了所有任务。11555BevBEV特征图物体轨迹内存运算符：从内存中读取t - 5t4 t3t-2 t-1 tt-5 t-4 t-3 t-2 t -1写入内存：t → t +13D对象检测帧t处的轨迹，具有未来预测帧t处的检测帧t帧t轨迹估计被遮挡的物体新生物体航迹检测关联t-5 t-4 t-3 t-2 t-1t图2. 用于端到端感知和预测的PnPNet。该模型由三个模块组成，依次执行3D目标检测，离散-连续跟踪和运动预测。为了提取用于跟踪和预测的轨迹级演员表示，我们还为模型配备了两个显式记忆：一个用于全局传感器特征图，一个用于过去的对象轨迹。这两个存储器在每个时间步都会更新最新的传感器功能和跟踪结果。3. 端到端感知和预测我们介绍了PnPNet（图2），这是一个端到端模型，旨在自动驾驶背景下实现高效准确的联合感知和我们没有为每个子任务设计单独的模型，如运输工程堆栈，而是遵循具有共享特征计算的联合建模的最新进展[28，8]。然而，这一范式的主要弱点是对历史信息的由于这些方法在循环中没有显式跟踪，因此为了执行运动，我们在BEV中使用基于体素的LiDAR数据表示，并通过沿高度维度连接来组合多个扫描（类似于[8]，自我运动补偿了先前的扫描）。我们遵循[47]将HD图的几何和语义信息（如果可用）编码到体素表示中。我们应用基于多尺度特征融合的2D卷积神经网络（CNN）来创建我们的中间特征表示，该中间特征表示将在以后用于跟踪和运动预测。预测对象不Bev（xt）=CNNbev（xt）（1）for occluded闭塞objects对象.因此，模型的性能通常在传感器数据少于1秒时饱和[28，50]。此外，这些方法不能跟踪超过输入时间范围的遮挡，因为没有证据。所有这些缺点阻碍了性能-其中xt是我们的输入，由多个LiDAR扫描（直到帧t）和HD地图组成。继单曲阶段检测器[48]然后，我们使用卷积检测头来输出密集检测，每个检测被参数化为（ut，vt，wi，li，θt），表示其位置，大小和方向。我我我这些方法在运动预测任务中的作用相比之下，PnPNet解决了两个关键问题在帧t处的以自我为中心的BEV空间中的作用。因此组件：一种新颖的轨迹级表示，捕捉演员丰富的时间特性，Dt=CNNdet（Ft）（2）新的在线离散-连续跟踪模块，该模块生成来自跨时间检测的这种轨迹在本文中，我们首先介绍了依次执行检测、跟踪和预测的三个模块，然后展示了如何端到端地训练完整的模型。3.1. 对象检测模块我们采用了一个3D物体检测器，该检测器将多扫描Li-DAR点云（最多0.5秒）和HD地图作为输入，并在鸟瞰图（BEV）中输出物体检测其中检测次数N t=| Dt|每帧变化。虽然检测模块在步骤S104处生成对象检测，每一帧都是独立的，跟踪模块通过时间将它们联系起来，我们接下来会回顾。3.2. 离散连续跟踪模块在多目标跟踪中存在两个不同的挑战：数据关联的离散问题和轨迹估计的连续问题[33]。虽然以前的方法主要集中在离散问题，我们认为，F11556Bev我爱我pairijt−1我我我(1) BEV特征图和物体轨迹(2) 逐帧特征提取（观察+运动）(3) 轨迹表示t-4 t-3 t-2 t-1不双线性插值t-4 t-3 t-2 t-1不有限差分MLP合并htLSTM图3. 建议的轨迹级对象表示。给定一个对象轨迹，我们首先提取每个时间步的传感器观测和运动特征，然后应用LSTM网络来建模时间动态。连续问题在我们的应用中同样重要。从跟踪的角度来看，它有助于防止-引入轨迹层次表示h（Pt）= LSTM（f（Dt0...（6）关联错误（即，身份交换机）从累积ii穿越时间从预测的角度来看，它减少了由检测的定位误差引起的运动历史的方差为了实现这一目标，我们提出了一个两阶段的跟踪框架，其中第一阶段解决了以前的轨道和当前检测之间的关联问题，第二阶段细化相关联的新的轨道，以生成更平滑的轨迹。轨迹级对象表示：我们现在展示如何学习用于跟踪和预测任务的丰富而简洁的表示。我们将表示学习公式化为序列建模问题（图 3 ），并利用长短期记忆（LSTM）网络来捕获相关信息。LSTM成功的关键是拥有知情的输入特征。对于手头的任务，这些功能应该包含对象给予目标轨迹Pt= Dt0. 从帧t0到帧t，设f为v，t我们使用LSTM作为我们的序列模型，因为它能够处理不同的输入长度并捕获长期依赖关系。请注意，PnPNet利用学习的trajec- tory级别表示来执行跟踪和预测任务。数据关联：给定当前帧中的N t个检测和前一帧中的M t-1个对象轨迹，离散跟踪器需要确定前一轨迹和当前检测之间的关联。在实践中，我们发现，当给定3D运动线索时，关联问题得到缓解。然而，正确处理新生物体和遮挡物体可能具有挑战性。不幸的是，这两种情况经常发生在驾驶场景中。为了处理这两个挑战，我们提出了一种混合的方法，利用最好的多目标跟踪和单目标跟踪方法。我我速度，t我们首先通过以下方式确定Nt个检测的身份：和fi是表示观察的特征，每个物体将它们与所有Mt-1个现有轨道相关联。关联问题被公式化为二分匹配问题fbev，t=双线性Interp（Ft，（ut，vt））（3）从而保证了唯一跟踪-检测对应性，伊贝乌伊我f速度，t=（xstect，xstect施特科特自我）（4）蚂蚁新生对象的处理方法是将Nt个虚Mt-1轨道的候选人注意，其中Ft是主干网的BEV特征图-将完全确定关联性，工作，xsteci和xst e c e g o 分别是第i个物体和自我汽车的二维速度，θstecego是角度自我车的速度请注意，我们通过位置上的有限差分来估计速度，并且我们使用每个物体和自我汽车的速度，以便我们可以估计绝对速度。对于新生对象，我们初始化捕获每个检测之间的相似性的方法，轨道这里，我们利用学习对象表示来计算亲和矩阵C∈RNt×（Mt−1+Nt），如下所示最小线性规划（f（Dt），h（Pt−1））如果1≤j≤M，Ci，j=MLPunary（f（Dt））如果j=Mt−1+i，速度为0。对于本车的角速度，我们将其参数化为余弦和正弦值。然后，我们将拉吉吉- inf否则（七）两个要素合并为一个要素制图表达f（Dt）=MLPmerge（fbev，t，fvelocity，t）（5），θ11557从t0到t的每一帧计算组合的对象特征，并将它们馈送到LSTM网络以进行预测。其中f和h是上述单帧对象特征（等式2）。5）和轨迹水平对象特征（等式5）。6）分别。MLP对计算任何检测-跟踪对的亲和度分数，并且MLP一元估计作为新实例的任何检测我们最佳地解决了11558J评分我我我二分匹配问题定义的C与Hungar- ian算法[21]。注意，通过匈牙利匹配处理被遮挡对象是非常困难的，因为不清楚什么对象估计应该被添加到二分图的检测集，为了处理这种情况，我们利用在不匹配的轨道上执行的单对象跟踪（SOT）（这意味着对象在过去存在，但在当前帧处未能找到匹配的对象）。我们的SOT设计继承了暹罗追踪器的理念[4]，但取代了核心，一个可学习的MLP关系过滤器具体来说，对于每个不匹配的轨道Pt-1，我们定义其检测候选~tDi作为局部邻域内的体素，（ut，vt）（通过将（ut−1，vt−1）转换为当前方法AP↑AP@0.5m@1m@2个月@4个月马皮里[39]47.910.236.264.980.1[22]第二十二话70.555.571.876.178.6[53]第五十三话82.372.982.585.987.7PnPNet，仅限82.773.783.386.287.5表1.在nuScenes上评估3D物体检测（汽车）。3.3. 运动预测模块虽然先前的联合感知和预测模型[28，8]使预测模块成为检测骨干网络顶部的另一个卷积头，其与检测头共享相同的特征，但在PnPNet中，我们将预测模块置于显式对象跟踪之后，并将对象轨迹表示作为输入MLPt：t+ MLPT，MLPt：t+ MLPT=MLP预测（h（Pt））（10）jj j ji i ii具有自我运动补偿的帧T）。我们找到最好的~t通过求解最佳匹配的检测候选Dk其中，RQT是预测范围的长度。3.4. 端到端学习k= argmaxMLP（8）i∈j对（f（Di），h（Pj我们用检测、跟踪和预测的多任务丢失来训练我们的PnPNet端到端在实践中，我们根据物体最大速度的先验知识与使用运动模型预测被遮挡对象位置的方法[42]相比，我们的SOT方法利用额外的观察（例如地图上下文）来获得更精确的估计。结合二分匹配和SOT的结果，我们得到最终的轨迹集Pt，它有Nt+Kt个实例，其中Kt是由我们的单对象跟踪器处理的不匹配轨迹的数量注意所有L=L检测+L跟踪+L预测（ 11）对于检测，我们使用交叉熵损失和硬否定挖掘进行分类，并在边界框回归项上对平滑的损失进行求和：大小、位置和方向。对于离散-连续跟踪，我们建议使用亲和矩阵上的最大裕度损失（等式10）。7）、SOT匹配分数（等式7）、SOT匹配分数（等式7）。8）和轨迹分数（等式9）分别：数据关联中的亲和度分数是从学习预测的，L轨道=L亲和力+L轨道+L精炼+L精炼（十二）able表示和匹配函数，可以评分评分评分reg从数据中学习，以捕获用于长期跟踪的时间运动和外观线索中的复杂相关性。L分1=i、jΣi∈pos，j∈negmax（0，m−（ai- （a）（j））（13）轨迹估计：该模块的目标是重新估计每个对象轨迹（根据置信度得分和轨迹航路点），给出当前位置的新观测结果。其中a i是第i个阳性样本的得分，a j是第j个阴性样本的得分，m是裕度阈值，并且N i，j表示阳性-阴性对的数量。对于L亲和力租金框架，这有助于消除误报，sot评分，我们使用正匹配的配对，细化检测器，并减少来自检测或关联的定位误差。具体来说，对于每个对象跟踪，我们根据当前关联更新其LSTM表示，并估计其最近T0帧scorei，ut−T0+1：t，vt−T0+1：t=MLPrefine（h（Pt））（9）T0通常短于全轨迹水平，因为近期历史与当前帧更相关。在将细化应用于所有轨道之后，我们对由新分数排名的当前帧估计执行非最大值抑制（NMS），并保留前Mt个轨道以去除假阳性和重复。N和L11559阴性匹配对于Lscore，我们使用所有对象对（或-其中第一个对象具有较大的IoU，对应的地面实况。通过这种方式，细化分数被训练为由他们的IoU与地面事实进行排序。基于此细化分数的NMS能够在存在重复时保持更高质量的我们将保证金设置为0.2对于所有分数。我们对两个轨迹都使用平滑损失细化（Eq. 9）和运动预测（方程9）。第10段）。优化PnPNet是不平凡的，因为中间结果在任务和时间上的复杂依赖关系。序列模型的常规训练技术如“教师强迫”给模型带来了暴露偏差，导致严重的过拟合。为了解决这一问题，我们通过对小批量视频进行采样来充分模拟测试阶段11560方法AMOTA↑AMOTP↓回顾↑MOTA↑MOTP↓MT↑ML↓FP↓IDS↓FRAG↓TID↓LGD↓斯坦福IPRL-TRI [13]百分之七十三点五0.53百分之七十三点八百分之六十二点三0.261978105363403673410.791.08PnPNet，KF跟踪器76.1%0.5279.1%百分之六十四点八0.24235174575558026280.510.97PnPNet百分之八十一点五0.4481.6%69.7%0.26251880467711523100.300.57表2. 在nuScenes上评估多目标跟踪（汽车）。除了标准的MOT指标[3]，还增加了四个新的指标：AMOTA/AMOTP：不同回忆阈值的平均MOTA/MOTP;TID：平均磁道初始化持续时间，单位为秒;LGD：平均最长间隙持续时间（秒）。感知<$↑预测<$↓AP（%）Max.召回率（%）ADE（m）FDE（m）0.1 IoU0.5 IoU0.1 IoU0.5 IoU60% TP90% TP60% TP90% TPnuScenes汽车PnPNet，无轨道84.979.890.984.60.690.751.091.14PnPNet87.1（+2.2）82.1（+2.3）95.3（+4.4）88.4（+3.8）0.58（-15%）0.68（-9%）0.93（-14%）1.04（-8%）ATG4D车辆PnPNet，无轨道93.990.097.593.40.690.771.121.21PnPNet95.8（+2.0）92.2（+2.2）99.1（+1.6）95.4（+2.1）0.55（-20%）0.65（-16%）0.92（-18%）1.03（-15%）ATG4D行人PnPNet，无轨道77.769.088.378.50.390.410.570.60PnPNet79.5（+1.8）70.9（+1.9）91.0（+2.7）81.0（+2.5）0.34（-13%）0.36（-11%）0.51（-11%）0.54（-10%）表3.在nuScenes和ATG4D上评估端到端感知和预测。基线模型（PnPNet，w/o track）遵循[28]的范例，它在循环中执行联合检测和预测，而不进行跟踪。在训练过程中。在每个帧处，跟踪和预测模块将来自先前模块或先前帧的在线估计作为输入，并且地面实况标签仅用于计算多任务损失。我们使用Adam优化器[20]来训练PnPNet，帧速率为10 Hz。在每帧，我们保持最多M= 50个轨道和N= 50个检测每类。NMS检测和跟踪的阈值为0.1 IoU。我们改进最近的T0= 4帧，并预测未来的T0= 3秒，0.5秒的间隔。为了提高实时效率，我们将轨道长度限制为T= 16帧。4. 实验我们证明了PnPNet在两个大规模真实驾驶数据集上的有效性。我们专注于检测和跟踪的模块度量，以及端到端感知和预测的系统度量。虽然模块化度量将我们的方法与约束设置下的其他最先进的方法进行比较，但系统度量揭示了真实世界设置下的模型性能。我们表明，与建议的轨迹表示和离散连续跟踪，每个子任务以及整个系统的结果显着改善我们还提供了每个组件的烧蚀研究和模型的定性结果。4.1. 数据集和指标nuScenes [6]：该数据集包含1000个20秒日志片段，具有20 Hz的32束LiDAR扫描和相应的3D对象标签（从2Hz注释线性插值）。由于地图和日志之间的版本不匹配，一些日志片段具有非常大的本地化错误-因此，我们不使用地图。我们训练了一个仅限LiDAR的PnPNet模型，并在正式的train/val分割之后对汽车类进行评估。ATG4D：虽然nuScenes数据集包含1000个片段，但它们仅来自84个独特的驾驶旅程。对象标签也被限制在50米范围内，其中63.5%的汽车被停放。为了更好地评估现实世界的表现，特别是在城市地区，我们还评估了更具挑战性的驾驶数据集ATG4D [48]。具体来说，ATG4D包含了来自北美1000个独特旅程的5000个日志片段。每个片段都有64束激光雷达扫描，频率为10 Hz与相应的高清地图（可行驶区域，车道图和地面高度）和100米范围内的3D对象标签（48.1%的汽车停放）。我们将500个片段分离出来进行评估，而不会与训练数据重叠我们训练LiDAR+地图PnPNet模型，并对车辆和行人类进行评估。模块化指标：我们只是遵循nuScenes [ 6 ]定义的检测和跟踪指标，以便与其他最先进的技术进行公平比较。具体来说，我们使用平均精度（AP）进行检测，使用MOT指标[3]进行跟踪。在约束设置下计算距离，其中我们仅对可见对象进行评估（至少有1个LiDAR点观测）。系统指标：我们定义了系统指标来评估端到端感知和预测的性能，其中预测是在检测而不是地面实况标签上进行的。具体来说，对于感知，我们使用AP11561而移除了模块AP（%）↑ MaxRec.（%）↑ADE（m）↓FDE（m）↓表4. 离散-连续跟踪烧蚀研究。我们从完整的PnPNet中删除一个模块，其他模块不变，并报告相对的性能变化。图4. 目标轨迹长度T的烧蚀研究。较长的跟踪实现类似的感知结果，但更好的预测结果。我们在PnPNet中使用T=16。和最大对象召回，并且对于预测，我们使用3秒内的平均位移误差（ADE）（具有1秒间隔）和3秒处的最终位移误差（FDE）。预测指标是在0.5 IoU的真阳性（TP）检测为了模拟真实世界的设置，我们对所有对象进行评估（包括完全遮挡的对象，这对自动驾驶车辆的安全至关重要）。4.2. 主要结果3D物体检测：我们在nuScenes上评估了PnPNet的检测模块，并与其他最先进的3D检测器进行了比较。表1显示，我们的检测器在大多数指标中优于第一等级方法Megvii [53]，在更高的定位精度下具有更大的增益（在0.5米阈值下AP改善0.8%）。多目标跟踪：我们评估了nuScenes上PnPNet的检测和跟踪模块，并与排行榜上的第一级跟踪器[13]（Megvii检测[53]）进行了比较。我们还添加了另一个跟踪基线，它用一个自实现的基于卡尔曼滤波的跟踪器（表示为“PnPNet，KF跟踪器”）替换了我们的跟踪模块。表2 显示，虽然我们的KF 跟踪器基线在排名度量AMOTA中超过[13] 2.6%，但提出的PnPNet优于[13]8.0%。在细粒度度量方面，PnPNet具有更完整的拓扑结构（更少的身份切换和碎片），更快的遮挡恢复（更小的轨迹初始化持续时间和间隙持续时间）以及更精确的轨迹（更小的AMOTP）。端到端感知和预测：现在，我们在nuScenes和ATG4D数据集上评估PnPNet的端到端感知和预测，并在真实世界设置下使用系统指标（包括完全遮挡的对象），评估帧速率为10 Hz。我们与基线模型进行了比较，该模型也执行端到端感知和预测，但没有循环中的跟踪（即，我们去掉追踪模块，加上预测器在检测骨干网络之上的Tion报头）。我们将此基线表示为通过与此基线进行比较，我们可以衡量PnPNet的两个主要贡献的有效性，即轨迹表示和离散-连续跟踪。表3显示，PnPNet在两个对象类和两个数据集上的所有系统指标中始终优于基线，实现了高达2%的AP增益（请注意，这里的PnPNet的AP是在轨道上评估的），高达4%的召回增益和高达20%的预测改进。在不同的对象类和传感器配置的一致性改进展示了所提出的方法的通用性。更具体地说，感知方面，PnPNet能够从长期遮挡中恢复，这要归功于所提出的跟踪模块，该模块可以通过高达4%的提升来揭示在0.1 IoU时召回。除了闭塞恢复之外，PnPNet还受益于轨迹估计（对于置信度分数和路点），这表明在0.5 IoU时 AP的在预测方面，PnPNet实现了8%到20%的相对改进，主要来自两个方面：跟踪产生更好的感知，并且在轨迹级产生更强的对象表示。特别是在较低召回率（60%TP）时，当感知结果更可信和精确时，增益更大，而在90%TP时，感知结果仍有噪声时，增益仍然显著与nuScene相比，我们还观察到ATG4D数据集的增益更大，因为移动对象的比例更大4.3. 消融研究我们对两个关键部件进行消融研究的PnPNet：对象轨迹表示和离散-连续跟踪器。请注意，所有消融均在ATG4D车辆上使用系统指标进行评估。对象轨道长度：我们在图4中使用不同长度的对象跟踪来比较PnPNet。从结果中我们看到，历史长度对感知绩效的影响并不大，这表明感知更多地依赖于短期观察。但较长的航迹确实可以降低预测误差，这表明长期历史对未来的预测有帮助。预测性能@0.5IoU@0.1IoU90%TP90%TP运动特征-0.2-0.1+6.2%+5.5%单目标跟踪-1.7-1.7+2.0%+2.0%弹道再评分-7.9-0.4+4.7%+4.8%弹道精化-2.1-1.6+4.8%+4.7%全轨道模块-2.2-1.6+18%+17%11562图5. PnPNet在ATG4D上的定性结果。我们将车辆和行人的感知和预测结果可视化，最远可达100米，其中自我汽车位于向右行驶的每个帧的中间左侧。在16帧（1.6秒）左右达到稳定，因为现实世界的流量经常变化。外显运动的重要性：PnPNet的一个强有力的发现是，在以前的关节模型中没有利用[28，8]，利用来自显式对象轨迹的运动比从原始传感器数据计算的特征推断运动更准确。我们通过从PnPNet的轨迹表示中删除运动特征来验证这一如表4所示，检测性能几乎保持不变，但预测误差显著增加。（16%）。这表明从跟踪获得的显式运动历史有助于预测。用于遮挡恢复的单对象跟踪：PnPNet通过跟踪随时间变化的现有轨迹来从对象遮挡中恢复。我们用一个单对象跟踪器来实现这一点地图上下文）也被利用如果从PnPNet中删除此功能，我们观察到感知和预测的性能下降（见表4）。特别是，在没有单对象跟踪器的情况下，由于对象遮挡，召回率下降了1.7%，由于不完整的运动历史，预测误差增加了2%。轨迹估计的效果：在此外到解决多目标跟踪中的数据关联问题，PnPNet还通过重新评分和细化其航路点来重新估计轨迹。虽然重新评分不影响最大对象召回率，但它确定了来自多个源（新生对象、匹配对象）的对象射束的顺序跟踪和通过遮挡跟踪），并因此影响依赖于顺序的度量。从表4中所示的结果可以看出，在没有重新评分的情况下，检测AP显著下降。类似的性能下降也发生在预测度量中。对于轨迹细化，由于它减少了在线生成的感知结果的定位误差，因此它有助于建立更平滑和更准确的运动历史。从结果中，我们看到，没有轨迹细化，所有指标退化。4.4. 定性结果在图5中，我们展示了所提出的模型的一些定性结果，这些结果表明，通过学习轨迹表示和显式求解多对象跟踪，PnPNet能够从长期对象遮挡中恢复，并生成更准确的未来轨迹。5. 结论在本文中，我们提出了PnPNet，这是一种用于自动驾驶感知和预测的端到端模型。而不是像传统的工程堆栈为每个子任务设计单独的模型，我们遵循联合建模与共享特征计算的最新进展，并进一步改进了一种新的多对象跟踪器，从检测在线生成对象轨迹，并利用轨迹级特征进行运动预测的范例。我们在两个大规模驾驶数据集上验证了PnPNet，并在识别和预测指标方面都有显着改进在未来，我们计划将我们的方法应用于更复杂的下游任务，如多智能体行为预测和运动规划。11563引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在CVPR，2016年。2[2] Mayank Bansal 、 Alex Krizhevsky 和 Abhijit Ogale 。Chauf- feurnet：学习驾驶是通过模仿最好的和合成最坏的来实现的。arXiv预印本arXiv：1812.03079，2018。一、二[3] Keni Bernardin，Alexander Elbs，and Rainer Stiefeldings.智能房间环境中的多对象跟踪性能指标和第六届IEEE视觉监控国际研讨会，与ECCV合作，2006年。6[4] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV，2016年。5[5] Michael D Breitenstein 、 Fabian Reichlin 、 BastianLeibe、Ether Koller-Meier和Luc Van Gool。在线多人跟踪检测从一个单一的，未校准的相机。TPAMI，33（9）：1820-1833，2010. 2[6] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。6[7] Sergio Casas ， Cole Gulino ， Renjie Liao ， and RaquelUrtasun.空间感知图神经网络用于传感器数据的关系预测。在ICRA，2020年。2[8] Sergio Casas ， Wenjie Luo ， and Raquel Urtasun.Intentnet：学习从原始传感器数据预测意图InCoRL，2018.一二三五八[9] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径：用于行为预测的多概率锚轨迹假设。CoRL，2019年。一、二[10] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR，2016年。2[11] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun. 用于精确对象类别检测的 3D 对象建议。InNeurIPS，2015. 2[12] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。2[13] Hsu-kuang Chiu，Antonio Prioletti，Jie Li，and JeannetteBohg. 自动驾驶的概率三维多目标跟踪arXiv预印本arXiv：2001.05673，2020。六、七[14] 楚鹏和凌海滨。Famnet：联合学习的特征，亲和力和多维分配在线多目标跟踪。在ICCV，2019年。2[15] Henggang Cui ， Vladan Radosavljevic ， Fang-ChiehChou，Tsung-Han Lin，Thi Nguyen，Tzu-Kuo Huang，Jeff Schnei-der，and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模式轨迹预测。在ICRA，2019年。2[16] Nemanja Djuric，Vladan Radosavljevic，Henggang Cui，Thi Nguyen，Fang-Chieh Chou，Tsung-Han Lin，NitinSingh，and Jeff Schneider.自动驾驶交通参与者的不确定性感知短期运动预测在WACV，2020年。一、二[17] 戴维·弗罗萨德和拉奎尔·乌塔松多传感器3d跟踪的端到端检测学习。在ICRA，2018年。2[18] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社交伙伴：具有生成对抗网络的社会可接受的轨迹。在CVPR，2018年。2[19] Hasith Karunasekera，Han Wang，and Handuo Zhang.关注外观、结构、运动和大小的多目标跟踪。IEEEAccess，7：104423-104434，2019。2[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2014年。6[21] 哈罗德·库恩。指派问题的匈牙利方法。海军研究后勤季刊，2（1-2）：83-97，1955年。5[22] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在CVPR，2019年。5[23] Namhoon Lee ， Wongun Choi ， Paul Vernaza ，Christopher B Choy ， Philip HS Torr ， and ManmohanChandraker.欲望：在具有交互代理的动态场景中的遥远未来预测。在CVPR，2017年。2[24] Philip Lenz，Andreas Geiger，and Raquel Urtasun. Fol-lowme：高效的在线最小成本流跟踪与有限的内存和计算。在ICCV，2015年。2[25] Junwei Liang，Lu Jiang，Juan Carlos Niebles，AlexanderHauptmann，and Li Fei-Fei.展望未来：预测未来的人的活动和地点的视频。在CVPR，2019年。2[26] 梁明，杨斌，陈云，胡瑞，拉奎尔·乌塔孙.三维目标检测的多任务多传感器融合。在CVPR，2019年。2[27] Ming Lia

下载后可阅读完整内容，剩余1页未读，立即下载