行人检测和轨迹预测的时空交互网络

37 浏览量更新于2023-10-25 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11346STINet：用于行人检测和轨迹预测的时空交互网络张志帅1，2高纪阳1毛俊华1刘玉凯1DragomirAnguelov1李聪聪1Waymo LLC2约翰霍普金斯大学zzhang99@jhu.edu，{jiyanggao，junhuamao，liuyukai，dragomir，jiangcongli}@ waymo.com摘要检测行人并预测他们的未来轨迹是许多应用的关键任务，例如自动驾驶。以前的方法要么把检测和预测作为单独的任务，要么简单地添加在探测器上的轨迹回归头。在这项工作中，我们提出了一种新颖的端到端两级网络：时空交互网络（STINet）。除了行人的3D几何建模，我们模型的时间信息为每个行人。要做到这一点，我们的方法预测当前和过去的位置在第一阶段，使每个行人可以跨帧连接和全面的时空信息可以在第二阶段被捕获。此外，我们建模的对象之间的交互与一个交互图，收集相邻的对象之间的信息。LyftDataset和最近发布的大型Waymo Open Dataset上的目标检测和未来轨迹预测的综合实验验证了所提方法的有效性。对于Waymo Open Dataset，我们实现了80.73的鸟瞰（BEV）检测AP和33.67cm的行人轨迹预测平均位移误差（ADE），这两项任务都建立了最先进的水平。1. 介绍为了安全平稳地驾驶，自动驾驶汽车（SDC）不仅需要检测物体当前的位置（即，目标检测），而且还需要预测它们将来会去哪里（即，轨迹预测）。其中，行人是一个重要而又困难的类型.这种困难来自于行人外观和行为的复杂特性，如：可变形的形状和人际关系[7]。在本文中，我们解决的问题，联合行人检测和轨迹预测的序列的点云，如图1所示。在Waymo实习期间完成的工作图1.给定当前和过去的点云序列，我们的任务是检测当前帧中的行人，并预测他们的未来轨迹。在此图中，白色点是输入点云序列（堆叠以进行可视化），黄色框是检测到的对象，青色线是预测的未来轨迹。传统上，通过将感知管道划分成多个模块来解决该问题：目标检测[6，13，15，16，20，21，29，30]，跟踪[18]和轨迹预测[2，7，9];后面的模块从前面的模块获得输出。虽然这种策略使得每个子模块易于设计和实现，但它牺牲了联合优化的潜在优势。后一个模块可能会丢失关键信息，这些信息会受到子模块之间接口的瓶颈，例如：行人为此，研究人员最近提出了几种端到端神经网络来同时检测目标和预测轨迹。FaF[17]和IntentNet [4]是两种代表性的方法，它们是基于单级检测器（SSD）[16]设计的;除了SSD的原始锚点分类和回归之外，它们还回归每个锚点的未来轨迹。我们观察到，存在对于联合检测和轨迹预测至关重要的两个主要问题，但是先前的端到端方法没有解决：1）对象级的时域建模：一个物体的存在和未来的轨迹都嵌入了现在和过去11347跳转目前的方法简单地重复使用单级检测器，并通过特征级联或3D CNN以对象不可知的方式融合骨干CNN中的时间信息[4，17]。这种粗级融合可能丢失每个对象的细粒度时间信息，这对于两个任务都是关键的。2)对象间的交互建模：物体的未来轨迹可能受到其它物体的影响。例如，在一组中行走的行人可能倾向于跟随其他人。现有方法[4，17]没有明确地建模对象之间的交互。为了解决上述问题，我们提出了一个端到端的时空交互网络（STINet）的行人的时间和交互信息建模。该网络采用一系列的点云作为输入，检测当前位置并预测行人的未来轨迹。具体而言，STINet中有三个子组件：骨干网、提案生成网和提案预测网。在骨干网络中，我们采用了与PointPillars [13]类似的结构，并将其应用于点云的每一帧，然后将多帧的输出特征图进行组合。建议生成网络从主干网获取特征地图，并生成潜在的行人实例，包括他们的当前和过去位置（即，临时提案）;这样的时间建议允许我们跨不同帧链接同一对象。在第三个模块（即。预测网络），我们使用时间建议明确地收集每个对象的几何外观和时间动态。为了推理行人之间的互动，我们建立了一个图形层来收集周围行人的信息。在为每个建议提取上述时空交互特征之后，检测和预测头使用该特征来回归当前检测边界框和未来轨迹。在Waymo Open Dataset [1]和Lyft Dataset [12]上进行了全面的实验，以证明STINet的有效性。具体而言，它在Waymo Open Dataset上实现了鸟瞰行人检测的平均精度为80.73，轨迹预测的平均位移误差为33.67cm。它实现了实时推理速度，仅需74.6 ms的推理范围为100米100米。我们工作的主要贡献来自四个方面：• 我们建立了一个端到端的网络，可以同时模拟行人的过去、现在和未来。• 我们建议用当前和过去的框生成时间提案。这使得能够学习用于行人的复杂时空表示以端到端的方式将对象与它们的几何形状、动态运动和历史路径关联起来，而不明确地将对象跨帧关联起来。• 我们建议在行人中建立一个图表，以了解-以进一步提高轨迹预测质量。• 我们在Lyft数据集和最近的大规模挑战性WaymoOpen上数据集。2. 相关工作2.1. 对象检测目标检测是计算机视觉和自动驾驶中的一项基本任务。最近的方法可以分为两种：单级检测[15，16，20]和两级检测[6，21]。单级探测器直接对主干特征进行分类和回归，而两级检测器基于主干特征生成建议，并提取建议特征用于第二级分类和回归。单级检测器虽然结构简单、速度快，但不能灵活地处理复杂的对象行为，明确地捕获以不同速度和历史路径在帧上移动的行人。在这项工作中，我们遵循两阶段检测框架，并预测当前和过去帧的对象框作为建议，进一步处理以提取其几何和运动特征。2.2. 临时提案在[10，11]中，时间建议已经被证明在动作本地化中是有益的他们表明，将来自不同视频剪辑的时间提议相关联可以帮助利用视频帧的时间连续性。[25]建议在整个视频中链接时间建议，以改善视频对象检测。在我们的工作中，我们还利用时间的建议和进一步调查，并提出如何建立全面的时空表示的建议，以提高未来的轨迹预测。这是一项艰巨的任务，因为没有可供将来使用的投入。此外，我们调查，学习建议之间的相互作用，我们表明，这些时空特征可以有效地建模对象2.3. 关系推理一个代理近年来，图神经网络在关系建模方面显示出了强大的能力。Wang等人将视频表示为时空图，显示了视频分类任务的有效性[26]。Sun等人设计了一个用于动作检测和预测的相关递归网络[24]。Yang等提出为场景图生成任务构建对象关系图[28]。11348zzz2244支柱特征编码yXyX支柱功能ResUNetT-RPN主干功能临时提案T=0T=-1T=-2...提案STI功能物体检测头轨迹预测头yX图2.所提出方法的概述。它以一系列点云作为输入，检测行人并同时预测他们的未来轨迹。点云通过柱特征编码[13，30]处理以生成柱特征。然后每个支柱特征都被馈送到骨干ResUNet [22]以获得骨干特征。时间区域建议网络（T-RPN）采用骨干特征，并为每个对象生成具有过去和当前框的时间建议空间-时间-交互式（STI）特征提取器学习用于最终检测和轨迹预测的每个时间建议的特征。2.4. 轨迹预测预测物体的未来轨迹是一项重要的任务，特别是对于自动驾驶来说。先前的研究已经基于感知对象作为输入进行 [2 ， 5 ， 7 ， 9 ， 14] 。最近， FaF [17] 和IntentNet [4]专注于从原始点云作为输入的端到端轨迹预测。然而，他们只是简单地重复使用了单阶段检测框架，并添加了新的回归头zy支柱特征编码1x上采样支柱功能ResUNetConcat主干功能在我们的工作中，我们利用时间区域建议网络和显式模型的时空交互（STI）表示的行人，我们的实验表明，提出的STI模型是优越的行人检测和轨迹预测。3. 该方法ResBlockResBlock2x上采样4倍上采样在本节中，我们将详细讨论我们提出的网络。我们提出的方法的概述如图2所示，可分为三个步骤。对于其中的每一个步骤，我们将在下面的小节中进行讨论。3.1. 骨干网我们的网络骨干如图3所示。输入是一系列点云， t′ 帧标记为 [PC− （ t′−1 ）， PC− （ t′−2 ）， ··· ，PC0]，对应于激光雷达传感器也从过去的t′-1帧作为当前帧。所有点云都经过校准，SDC在当前帧的姿势，被丢弃。在保留原有的在可行的内存使用情况下，我们从t′帧输入中生成t个连续t′/t点云图3.拟议网络的主干上图：概述脊梁骨。输入的点云序列被馈送到Voxelization和Point net以生成伪图像，然后由ResNet U-Net处理以生成最终的骨干特征序列。下图：ResNet U-Net的详细设计。因此，柱特征编码的输出是以下序列：t支柱特征[I−（t−1），I−（t−2），···，I0]。接下来，我们采用与[22]中提出的类似的骨干CNN 网络，如图 3 的下半部分所示。每个 PillarFeaturesI j首先由三个ResNet风格的块处理，以生成形状为RH×W×C0、R1H×1W×C1和R1H×1W×C2的中间特征。然后PC- （ j+1 ） t′/t+1 ，···，PC-jt′/t用体素化[13，30]处理，然后连接以生成伪图像I j （即，支柱特征），形状为H×W×C英寸。我们使用去卷积层将它们上采样到与Ij相同的空间形状。上采样特征的级联用作I j的主干特征，记为Bj。XSTI特征提取器11349一0一J0 000 00j j jj3.2. 时态提案生成为了明确地建模对象的当前和过去的知识，我们提出了一个时间区域建议网络（T-RPN）生成对象建议与当前和过去的盒子。T-RPN采用主干特征，是指示器函数，如果x为真，则返回1，0的情况。LT-RPN = λclsLcls + λcur regLcur reg + λpast regLpast reg（六）交叉输入py（sa，sa）（sa≥0）序列[B−（t−1），B−（t−2），···，B0]作为输入，在通道维度中指定它们，并应用1×1连接，Lcls=Σ无菌（sa≥0）（7）SmoothL1（da，da）（sa≥1）卷积以生成时间感知特征图。分类-阳离子、当前帧回归和过去帧回归Lcur reg=aΣ0 0aa（sa≥1）（八）是通过将1×1卷积层应用于t−1SmoothL1（da，d ）n（sa≥1）时间感知特征图，对L=a−j−j（九）预定义的锚点。过去规则j=1aa（sa≥1）时间区域建议网络由地面实况对象对于每个锚点a=（x a，y a，w a，la，h a）（x，y，w，l，h分别对应于框中心的x坐标、框中心的y坐标、框的宽度、框的长度和框的标题），其被分配给具有当前帧框gt =（x gt，ygt，w gt，l gt，h gt）的最大IoU的地面实况对象。与SECOND [27]类似，我们计算回归目标，以了解预定义锚点和相应的地面实况框之间的差异。对于当前帧，我们生成一个5维回归目标da=对于提议生成，通过颠倒等式1-5，将分类分数和回归向量应用于预定义的锚点以生成时间提议。因此，每个时间提议具有置信度分数以及当前帧和过去帧的回归框。之后，对时间提议的当前帧框应用非最大抑制以去除冗余。3.3. 提案预测3.3.1时空交互特征提取（dxa，dya，dwa，dla，dha）：0 00的gt√aa2a2给定骨干特征[B−（t−1），· · ·，B0]和时间建议，时空交互功能的学习dx0=（x0−x）/（x）+（y）（一）每一个临时建议，以捕捉全面的信息-dya=（ygt√aa2a2用于探测和轨迹预测。不同0 0−y）/一（x）wgt+（y）（二）组合用于对对象建模的方式来实现这一点。局部几何体功能：提取对象几何体DWDLA=logwa（3）lgt=logla（4）hgt−ha知识，我们使用第j帧处的建议框（即，xj 、yj 、w、l和hj ）来从Bj 裁剪特征，如图4的左下部分所示。这是Faster-RCNN[21]中使用的传统建议特征裁剪的扩展，dha=sin0（五）从以下位置收集位置丢弃的局部几何要素02使用类似的方程，我们还针对相同的地面实况对象计算锚点a的t−1个过去回归目标：da=（dxa，dya，dha）forj∈ {−1，−2，···，−（t−1）}。由于我们假设对象大小不变，因此在过去的回归中不考虑宽度和长度在不同的框架中。对于每个锚点a，如果所分配的地面实况对象在当前帧处具有大于th+的IoU，则分类目标sa被分配为1如果IoU小于th-，则分配为0。否则，分类目标为-1，并且在计算损失时忽略anchor。对于每个锚点a，T-RPN预测分类得分s_a，电流回归向量d_a=（d_x_a，d_y_a，d_w_a，d_l_a，每一帧为了简化TPU上的实现，我们将5-DoF框（xj，yj，w，l，hj）旋转到最接近的站立框（xmin ，j ， ymin ，j ，xmax ，j ， ymax ，j ），用于ROIAlign [8]。本地动态功能：如图4的中下部所示，我们使用一个Meta框（用黄色绘制），它覆盖了pedes-trian的整个运动，以裁剪所有Bj的特征。Meta盒是包含所有当前和历史亲盒的最小盒。形式上，在将所有旋转的原盒x es（xj ，yj ，w，l，hj）转移到最近的站立盒x es（xmin，j，ymin，j，xmax，j，ymax，j）之后，用以下等式计算Meta盒：xmin=min（xmin，j）;ymin=min（ymin，j）dha）和t−1个过去回归向量da=（dxa，dya，j j0j j jdha）从上述1×1卷积层。T-RPN的目标是分类的加权和，XMax= max（x）Jmax，j）;yMax11350= max（y）Jmax，j）如下面的等式中定义的，当前帧回归损失和过去帧回归损失，其中此功能可捕获对象的方向，曲率和速度，这对未来的轨迹预测很有用。11351其中α和φ在我们的实现中，我们对α和φ使用全连接层给定所有节点对之间的交互得分，我们可以从相邻节点收集每个节点的信息具体地，嵌入gigath-节点i的ered计算如下：exp{vij}gi=JΣγ（[fi;fj]）我其中Vi=jexp{vij}是归一化常数，并且γ是映射函数（全连接层是在我们的实践中）。图4.时空交互特征提取器（STI-FE）：给出了一个时间上的建议，提取了局部几何、局部动态和历史路径特征。对于局部几何和局部动力学特征，黄色区域用于特征提取。在建议的局部特征之间执行关系推理历史路径功能：为了直接编码对象过去的运动，我们利用不同帧的位置位移作为历史路径特征。具体地，giv是以xj ，yj为框中心的时间建议，历史路径特征是MLP（[x0-x-1，y0-y-1，x0 - 1，y0-x−2，y0−y−2，···，x0−x−（t−1），y0−y−（t−1）]）。为了聚合每个建议的空间和时间知识，将局部几何特征和局部动态特征的级联馈送到ResNet块中，然后进行全局平均池化。然后，池化特征与历史路径特征连接，并且用作提议局部特征，对于第i个时间提议记为fi如前所述，行人的未来轨迹可能会受到周围行人的影响为了对行人之间的这种交互进行建模，我们设计了一个交互层，它使用一个图来传播对象之间的信息，如图4的中间部分所示。具体来说，我们将每个时间建议表示为图节点i;节点i的嵌入记为fi，这是相应的建议局部特征。边vij表示节点i和节点j之间的交互核心。从fi和fj 中学习 v i j ，其可以表示如下。vij=α（[φ1（fi）;φ2（fj）]）3.3.2建议分类和回归给定每个时间命题的命题局部特征fi，应用两个全连接层分别对当前帧进行分类和回归。为了与我们的直觉一致，与交互特征gi组合的提议局部特征fi被用于通过具有3t个输出通道的一个完全连接的层来预测未来帧框，其中t是要预测的未来帧的数量，并且3分别代表x坐标、y坐标和在训练期间，时间提议被分配有具有在子章节3.2中讨论的相同策略的分类和回归目标，并且目标是分类损失、当前帧回归损失和未来帧回归损失的加权和，类似于等式6-9。在推理过程中，每个建议都是用分类分数和当前/未来框来预测的。非最大抑制基于它们的当前框之间的IoU应用于它们，以去除冗余。4. 实验4.1. 实验设置数据集：我们在Waymo开放数据集（WOD）[1]和Lyft数据集（Lyft）[12]上进行实验。WOD包含来自5个传感器的激光雷达数据和1000个分段的标签。每个片段包含大约200帧，长度为20秒。训练子集和验证子集分别有为了对历史进行建模并预测未来，我们采用1秒历史帧和3秒历史帧。第二个未来的帧为每个例子，并提取例子从中心16秒（1s × 17s）从每个片段。因此，提取了126，437个训练示例和31，998个验证示例，并且它们中的每一个都包含1秒的历史帧和3秒的未来帧。我们采样6帧，包括5个历史帧和当前帧，其中t输入={−1. 0，-0。8，-0。6，-0。4，-0。2，0}，并且来自这些帧的点云作为输入被馈送到网络中。为了在节省计算量和内存的同时构建更丰富的体素特征，每两帧合并一次局部几何形状当地动态历史路径T-RPNT=0T=-1T=-2提案STI功能主干功能STI-FE关系推理STI-FE建议局部特征V11352|不|模型MFTSDE@1↓DE@2↓DE@3↓ADE↓HR@1↑HR@2↑HR@3↑IntentNetC21.17±0.0239.74±0.0761.60±0.1236.04±0.1293.18±0.0376.50±0.0861.60±0.12MF-FRCNNCC20.87±0.0839.23±0.1460.59±0.2235.57±0.1393.45±0.0576.69±0.1861.57±0.21STINetCC19.63±0.0337.07±0.0857.60±0.1433.67±0.0794.36±0.0578.91±0.0664.43±0.15表1.不同模型在WOD上的轨迹预测性能。MF指示相应的模型是否采用多个帧作为输入。TS表示模型是否具有两阶段框架。↑和↓表示更高/更低的数字对于相应的度量更好。DE和ADE以厘米为单位。对于我们实现的模型，我们对模型进行了五次训练和评估，并计算了表中±模型MFTSBEV AP↑[29]第二十九话68.57MVF [29]74.38[19]第十九话72.50[4]第四章C79.43±0.10MF-FRCNNCC79.69±0.19STINetCC80.73±0.26表2.不同方法对WOD的检测性能。MF指示相应的模型是否将多个帧作为输入。TS表示模型是否具有两阶段框架。BEVAP是用0.5的IoU阈值计算的↑表示数字越大，对应的度量越好。通过连接体素化输出特征，因此我们具有如子部分3.1中所讨论的三个柱特征。对于未来预测，我们预测6个未来帧的轨迹，其中tfuture={0}。五一0，1。五二0，2。五、三。0}。自动驾驶汽车周围的范围是150米乘150米，我们使用一个柱尺寸为31.25cm × 31.25cm，以生成形状为480×480的柱特征。Lyft包含来自1个传感器的激光雷达数据和仅180个段的标签，分别有140个和40个段用于训练和验证在相同的设置下，分别提取了14，840和4，240个样本进行训练和验证。idation每个例子都有1秒的历史和3秒的未来。我们有t个future={0. 六，一。二一八二四三0}，因为它的采样率为5 Hz。评价指标：检测的评估指标是BEV AP（鸟瞰平均精度），IoU阈值设置为0.5。少于5分的对象被认为是硬的，并在评估期间被排除。对于轨迹预测，我们采用[4，9]中使用的度量。对于t∈t 未来，我们计算DE@t（位移误差）和HR@t（命中率），位移误差阈值为-0.5米的老我们还计算了平均位移-我们还在 TensorFlow 中实现了 IntentNet [4]和 Faster-RCNN [21] 作为基线，它们被标记为我们实现的IntentNet（1）采用多帧作为输入，并与STINet共享相同的骨干网络;（2）去除意图分类部分，仅回归未来轨迹。MF-FRCNN是指Faster-RCNN [21]模型，有几个变化：(1)它使用与STINet相同的主干网络，请参阅第3.1节;（2）对于每个对象提案，除了边界框，我们还回归未来的轨迹和航向。请注意，MF-FRCNN和我们的方法的建议之间的区别在于MF-FRCNN只预测对象的当前框，而我们的方法利用了一种新的时间RPN，它还生成与每个当前框相关联的相应历史框。4.2. Waymo Open Dataset数据库Waymo Open Dataset上行人检测和轨迹预测的主要结果总结在表2和表1中。对于检测，我们将我们提出的方法（在最后一行）与当前最先进的检测器[19，29]进行了比较，我们的方法超过了现成的基线，将BEVAP从74.38提高到80.73。为了避免来自多帧输入和不同实现细节的影响，我们还比较了IntentNet和多帧Faster RCNN的实现[21]，它们在表2中被标记为我们提出的方法优于所有基线，它证实了我们的T-RPN和STI建模的建议的有效性。在表1中，我们比较了我们提出的方法IntentNet和MF-FRCNN之间的轨迹预测性能。我们提出的方法超越了所有的竞争对手的一个很大的利润率，提高是大于检测的改善。这与我们的直觉一致，误差）等于1未来t∈t未来 DE@t.T-RPN和STI建模旨在更好地建模，更实施情况：我们的模型在10-sorFlow，我们用Adam优化器在TPUv3上分别为Waymo Open Dataset和Lyft Dataset进行140k和70k次迭代。学习率为4×10−4，每个TPU的批量大小为1我们一起使用32个TPU核心进行训练，因此有效批量大小为 32。1我们实现的没有意图预测头的IntentNet为了详细比较STINet和MF-FRCNN，我们通过基于3s内的未来轨迹长度将对象分解为五个bin来评估检测和轨迹预测。五个箱分别为0 × 2.5m、2.5 × 5m，5 ~ 7.5m、7.5 ~ 10 m和10 m~ ∞。我们报告表3中的BEV AP、ADE和相对改善和4. STINet始终优于MF-FRCNN11353模型2019年12月25日2.5米5500万7.5米1010∼∞MF-FRCNN63.0790.4493.2788.0077.15STINet64.2391.1594.4688.9780.50∆%百分之一点八百分之零点八百分之一点三百分之一点一百分之四点三表3.鸟瞰平均精度（BEV-AP）细分MF-FRCNN和STINet在WOD上的比较基于未来轨迹长度，对象被分成5个仓，仓大小为2.5米。最后一行是STINet的相对改进。表4.MF-FRCNN和STINet在WOD上的平均位移误差（ADE，以厘米为单位）基于未来轨迹长度，对象被分成5个仓，仓大小为2.5米。最后一行是STINet的相对改进模型BEV AP↑DE@3↓ADE↓HR@3↑MF-FRCNN33.9082.6151.1149.74STINet37.1576.1746.0950.73表5.Lyft上的检测和轨迹预测性能LGLDBEV AP↑DE@3↓ADE↓HR@3↑C80.3864.1537.6758.46C79.6959.7134.9662.22CC80.5358.9534.4962.99表6.局部几何结构和局部动态特征的消融研究（在表中分别标记为LG和LD所有条目都是在没有历史路径和交互功能的情况下训练的。表7.历史路径特征的消融研究。†表示对应的特征仅用于检测，在预测轨迹时忽略对于这两项任务。对于移动超过5米的物体的轨迹预测，相对改善是显着的，并始终超过10%。它证实了所提出的方法可以利用历史信息的细节，并提供更好的轨迹预测，特别是对于具有较大运动的行人。4.3. Lyft数据集上的结果Lyft数据集上的检测和轨迹预测结果总结在表5中。实验结果表明，该方法在小规模数据集上的有效性。4.4. 消融研究在本节中，我们进行烧蚀实验，分析每个组件的贡献，并比较我们的表8.相互作用特征的消融研究。'I'表示是否采用建议交互建模。 “All” and “Group” correspond to evaluation on allpedestrians and在Waymo Open Dataset上使用潜在的替代方法。结果总结如下。为了清晰起见，我们只显示DE@3，ADE和HR@3用于轨迹预测。其他指标也有同样的趋势。局部几何形状和局部动态特征的影响：我们进行实验以分析局部几何学和局部动态特征的影响，总结在表6中。局部几何特征具有较好的检测能力，局部动力学特征具有较好的轨迹预测能力。几何特征本身对于轨迹预测不起作用，因为它忽略了动力学以更好地检测。通过结合这两种特征，可以同时获得检测和轨迹预测的益处历史路径效果：虽然对象的几何形状和移动已经由局部几何形状动态特征表示，但是将历史路径作为额外特征可以通过将DE@3 从 58.95提高到 58.04 以及将HR@3从62.99提高到63.87来给出另一性能增益（如表7的前两行所示）。这表明历史路径作为最简单、最直接的对象运动表征然而，历史路径本身远远不足以给出准确的轨迹预测，这由表7的最后一行中的较差性能表明。建议交互建模的效果：为了证明所提出的行人交互建模的有效性，我们测量所有行人以及行人组中的性能。具体来说，我们设计了一个启发式规则（基于位置和速度），发现行人群体，并为每个行人分配一个组标签的评估集。有关分组出租的详情，请参阅补充资料。我们评估了所有行人和属于具有至少5个行人的组的行人的轨迹预测性能，如表8所示。交互建模提高了对“所有行人”的轨迹预测性能4.5. 模型推理速度我们测量我们提出的模型的推理速度，以及基线模型的上下文范围为100米，击穿我DE@3↓ADE↓HR@3↑所有58.0433.9263.87C57.6033.6764.43组49.6730.8564.87C48.8930.4065.55模型2019年12月25日2.5米5500万7.5米1010∼∞MF-FRCNN26.9037.5646.39104.60173.50L+G路径DE@3↓ADE↓HR@3↑C58.9534.4962.99CC58.0433.9263.87†C67.8039.8652.2511354图5. STINet的定性示例。蓝色的盒子是检测到的行人。青色和黄色线分别是STINet的预测未来和历史轨迹。100米和150米乘150米。所有模型都在TensorFlow中实现，推理在单个nVIDA Tesla V100 GPU上执行。对于100 m × 100 m的上下文范围，IntentNet、MF-FRCNN和STINet的推理时间分别为60.9、69.4和74.6ms。两个两阶段模型（MF-FRCNN和STINet）都比单阶段模型慢，STINet比MF-FRCNN稍慢。然而，这三种模型都可以实现高于10Hz的实时推理速度。对于Waymo开放数据集的最大范围，即，150m × 150m时，三种模型的推理时间分别为122.9、132.1和144.7ms4.6. 定性结果STINet预测的可视化如图5所示。蓝色方框是检测到的行人。青色线和黄色线分别是每个检测到的行人的预测未来和历史轨迹。我们展示了两种情况，其中SDC在上部子图中是静止的，而SDC在下部子图中快速移动它表明，我们的模型在这两种情况下都能非常准确地检测和预测。图6显示了STINet和MF-FRCNN与轨迹预测的地面实况之间绿框是地面实况框。黄色，粉色和青色的线条是未来的真实轨迹-图6.MF-FRCNN和STINet的比较黄线是行人未来的真实轨迹。粉色和青色的线分别是MF-FRCNN和STINet预测的未来轨迹。很明显，与基线相比，我们提出的方法对所有三个行人的预测要好得多上图：三个行人的概况下：放大三个行人的可视化。tory以及分别来自MF-FRCNN和STINet的预测未来轨迹。对于左边两个沿直线行走的行人，MF-FRCNN和STINet都相当好地预测了未来轨迹，但与地面实况相比，MF-FRCNN仍然具有小的误差;对于最右边的行人稍微左转，MF-FRCNN无法捕捉其运动的细节，并给出了不令人满意的预测，而STINet给出了更好的轨迹预测。5. 结论在本文中，我们提出STINet执行联合检测和轨迹预测与原始激光雷达点云作为输入。我们建议用行人的当前和过去框来构建时间建议，并为每个时间建议学习丰富的表示，包括局部几何，动态运动，历史路径和交互特征。我们表明，通过明确建模的时空相互作用的功能，检测和轨迹预测质量可以大大提高相比，单阶段和两阶段的基线。这也使我们重新思考引入第二阶段的重要性和建议，特别是对于联合检测和轨迹预测任务。综合实验和与基线和最新技术的比较证实了我们所提出的方法的有效性，我们的方法显着提高了预测质量，同时仍然达到了实时推理速度，使我们的模型实用于现实世界中的应用。结合相机/地图数据和利用更长的历史与LSTM可以研究，以进一步提高预测，我们将在未来的工作中探索它们。11355引用[1] Waymo开放数据集：自动驾驶数据集，2019年。二、五[2] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页，2016年。第1、3条[3] Peter W Battaglia，Jessica B Hamrick，Victor Bapst，Al-varo Sanchez-Gonzalez ， Vinicius Zambaldi ， MateuszMa- linowski，Andrea Tacchetti，David Raposo，AdamSantoro，Ryan Faulkner，et al.关系归纳偏差、深度学习和图网络。arXiv预印本arXiv：1806.01261，2018。2[4] Sergio Casas ， Wenjie Luo ， and Raquel Urtasun.Intentnet：学习从原始传感器数据预测意图。在机器人学习会议上，第947-956页，2018年。一、二、三、六[5] Ming-Fang Chang，John Lambert，Patsorn Sangkloy，Jag-jeet Singh ， Slawomir Bak ， Andrew Hartnett ， DeWang，Pe- ter Carr，Simon Lucey，Deva Ramanan，etal. Argoverse：3D跟踪和预测与丰富的地图。在IEEE计算机视觉和模式识别会议论文集，第8748-8757页，2019年。3[6] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。一、二[7] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年。第1、3条[8] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页4[9] Joey Hong Benjamin Sapp和James Philbin道路规则：用语义交互的卷积模型预测驾驶行为在IEEE计算机视觉和模式识别会议论文集，第8454-8462页一、三、六[10] Rui Hou，Chen Chen，and Mubarak Shah.用于视频中动作检测的管状卷积神经网络。在IEEE计算机视觉国际会议论文集，第5822-5831页，2017年。2[11] Vicky Kalogeiton，Philippe Weinzaepfel，Vittorio Ferrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。在IEEE计算机视觉国际会议论文集，第4405- 4413页，2017年。2[12] R. Kesten，M.Usman，J.休斯顿，T.Pandya，K.娜达穆尼A. Ferreira ， M. 袁湾，澳 - 地 Low ， A. Jain ， P.Ondruska，S. Omari，S.沙阿，A.Kulkarni，A.卡扎科瓦角陶湖，澳-地Platin- sky，W.Jiang和V.谢特Lyft Level 5av dataset 2019. 网址 -https ： //level5.lyft.com/pageet/ ，2019. 二、五[13] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。InProceedings of theIEEE计算机视觉和模式识别会议，第12697-12705页，2019年。一、二、三[14] Namhoon Lee ， Wongun Choi ， Paul Vernaza ，Christopher B Choy ， Philip HS Torr ， and ManmohanChandraker.欲望：在具有交互代理的动态场景中的遥远未来预测。在IEEE计算机视觉和模式识别会议论文集，第336-345页3[15] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年一、二[16] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。一、二[17] Wenjie Luo，BinYang，and Raquel Urtasun.快速和狂热：利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。在IEEE计算机视觉和模式识别会议论文集，第3569-3577页一、二、三[18] Anton Milan、S Hamid Rezatofighi、Anthony Dick、IanReid和Konrad Schindler。基于递归神经网络的在线多目标跟踪。2017年第31届AAAI人工智能会议。1[19] Jiquan Ngiam ， Benjamin Caine ， Wei Han ， BrandonYang ，Yunning Chai， Pei Sun ， Yin Zhou ， Xi Yi，Ouais Al- sharif，Patrick Nguyen，et al. Starnet：点云中目标检测的目标计算。 arXiv 预印本 arXiv ：1908.11069，2019。6[20] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页，2016年。一、二[21] 任少卿、

下载后可阅读完整内容，剩余1页未读，立即下载