分叉路径的花园：未来轨迹的多元预测

200 浏览量更新于2023-10-25 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1分叉路径的花园：走向多未来轨迹预测梁俊伟1蒋璐2凯文·墨菲2于婷3亚历山大·豪普特曼11卡内基梅隆大学2谷歌研究3谷歌云AI{junweil，alex}@ cs.cmu.edu，{lujiang，kpmurphy，yuti}@ google.com图1：人员轨迹预测的图示（1）一个人走向一辆汽车（来自VIRAT/ActEV数据集的数据）。绿线是实际的未来轨迹，黄橙色热图是未来预测的示例虽然这些预测在汽车附近是合理的，但它们在真实的视频数据集中被认为是错误的。(2)为了解决这个问题，我们提出了一个新的数据集，称为“分叉路径”;在这里，我们举例说明了3种可能的未来，由人类注释者在从真实数据中导出的合成世界中控制代理。(3)在这里，我们展示了场景的语义分割。(4-6)在这里，我们展示了从不同视角渲染的同一场景，其中红色圆圈是未来的目的地。摘要本文研究了当人们在不同的视觉场景中移动时，预测他们在多个可能的未来路径上的分布问题。我们有两个主要贡献。第一个贡献是一个新的数据集，创建在一个现实的3D模拟器，这是基于真实世界的轨迹数据，然后由人类annotators外推，以实现不同的潜在目标。这提供了第一个基准模型的定量评估，以预测多个未来的轨迹。第二个贡献是一个新的模型，以产生多个合理的未来网络，其中包含使用多尺度位置编码和卷积RNN在图上的新颖设计。我们将我们的模型称为多元宇宙。我们表明，我们的模型在我们的数据集以及现实世界的VIRAT/ActEV数据集（其中只包含一个可能的未来）上实现了最好的结果。11. 介绍预测未来人类行为是视频理解中的一个基本问题。特别是，未来路径预测，其目的是预测行人该功能是各种应用中的关键组件，例如自动驾驶[4，6]，长期目标跟踪[19，48]，安全监控[30]、机器人规划[42，43]等。在Google的研究实习期间完成了部分1 代码和模型发布于 https://next.cs.cmu.edu/multiverse当然，未来往往是非常不确定的：给定相同的历史轨迹，一个人可能会选择不同的道路，这取决于他们的（潜在）目标。因此，最近的工作已经开始关注多未来轨迹预测[53，6，26，34，54，23]。考虑图中的示例1.一、我们看到一个人从图像的左下角向右上角移动，我们的任务是预测他下一步会去哪里。由于这个人可能遵循许多可能的未来轨迹，我们有兴趣学习一个可以产生多个合理未来的模型然而，由于地面实况数据仅包含一个轨迹，因此难以评估此类概率模型。为了克服上述挑战，我们的第一个贡献是创建一个现实的合成数据集，使我们能够以定量的方式比较模型预测多个可能的未来的能力，而不是像现有研究那样只根据单一的观察轨迹进行评估。我们使用3DCARLA [11]模拟器创建此数据集，其中场景被手动设计为与挑战性真实世界基准VIRAT/ActEV [36，3]中发现的场景相似。一旦我们重新创建了静态场景，我们就会通过将真实世界的数据投影到3D模拟世界来自动重建轨迹。参见图1和图3。然后，我们半自动地选择一组看似合理的未来目的地（对应于场景中语义上有意义的位置），并要求人类注释者创建多个可能的延续的真实轨迹，朝着每个这样的目标。通过这种方式，我们的数据集被1050810509还包含不可能自动模拟的高级人类行为的合理变化我们称这个数据集为2如图所示。不同的人类注释为相同的历史过去创造了未来轨迹的分叉到目前为止，我们已经收集了750个序列，每个序列覆盖约15秒，来自10个注释者，控制7个不同场景中的127个代理每个智能体平均包含5.9个未来轨迹我们从4个不同的视图渲染每个序列，并自动生成密集的标签，如图所示。1和3.总的来说，这相当于3.2小时的轨迹序列，这与最大的人轨迹基准VIRAT/ActEV [3，36]（4.5小时）相当，或者是普通ETH/UCY [24，32]基准的5倍因此，我们相信这将作为评估可以预测多种未来的模型的基准。我们的第二个贡献是提出了一个新的概率模型，多元宇宙，它可以生成多个合理的轨迹给定的位置和场景的过去历史该模型包含两个新颖的设计决策。首先，我们使用位置的多尺度表示。在第一个尺度，粗略的尺度，我们表示在2D网格上的位置，如图所示。1（1）。这捕获了关于可能目的地的高度不确定性，并导致更好地表示多模态分布。在第二个精细尺度中，我们预测每个网格单元的实值偏移，以获得更精确的定位。这种两阶段方法部分受到对象检测方法的启发[41]。我们模型的第二个创新是在空间图上设计卷积RNN [58]，作为对人们运动模式的归纳偏差进行编码的一种方式。此外，我们在具有挑战性的真实世界基准VIRAT/ActEV [36，3]上对我们的模型进行了经验验证，用于单一未来轨迹预测，其中我们的模型达到了最佳结果。在所提出的多未来预测的模拟数据上，实验结果表明，我们的模型在不同的设置下都优于最先进的模型。综上所述，本文的主要贡献如下：（i）我们介绍了第一个数据集和评估方法，使我们能够以定量的方式比较模型预测多个合理未来的能力。（ii）提出了一种新的多未来轨迹预测模型。（iii）我们在具有挑战性的VIRAT/ActEV基准上建立了一个新的最先进的结果，并在我们的多未来预测数据集上比较了各种方法。2. 相关工作单一未来轨迹预测。最近的研究试图为行人或车辆预测一个最佳轨迹早期作品[35，59，62]侧重于建模人2https://en.wikipedia.org/wiki/The_Garden_of_分叉路径通过将它们视为场景中的点来进行运动。这些研究工作[21，60，33，30]试图通过利用视觉特征来预测人的路径。最近Lianget al. [30]提出了一个联合的未来活动和轨迹预测框架，该框架利用了使用焦点注意力的多个视觉特征[29，28]。在车辆轨迹预测方面，已经提出了许多工作[23，50，4，18，64CAR-Net [50]提出了在场景语义CNN之上的注意力网络来预测车辆轨迹。Chauffeur-net[4]利用模仿学习进行轨迹预测。多元化未来轨迹预测.许多作品试图模拟弹道预测的不确定性。变量IIOS文件（例如，[20，43，44]使用反向强化学习（IRL）来预测人类轨迹。Social- LSTM [1]是一种使用社交池来预测未来轨迹的流行方法。其他作品[49，15，26，2]如Social-GAN [15]利用生成对抗网络[14]来生成不同的人轨迹。在车辆轨迹预测中，RESTRE [23]利用变分自动编码器（VAE）来预测未来的车辆轨迹。最近的许多工作[54，6，53，34]也提出了多未来车辆轨迹预测的概率框架。不同于这些以前的作品，我们提出了一个灵活的两阶段框架，结合多模态分布建模和精确的位置预测。轨迹数据集。许多车辆轨迹数据集[5，7]已被提出作为自动驾驶的激增的普及的结果随着3D计算机视觉研究的最新进展[63，27，51，11，45，47，16]，许多研究作品[39，12，10，9，57，66，52]已经研究了3D模拟环境，以获得其灵活性和生成大量数据的能力。我们是第一个提出一个3D仿真数据集，该数据集是从现实世界的场景中重建的，并补充了各种人类轨迹的延续，用于多未来的人的轨迹预测。3. 方法在本节中，我们将描述我们用于预测代理轨迹的模型，我们称之为Multiverse。我们专注于预测一个单一的代理的位置为多个步骤到未来，Lh+1：T，给定一个序列的过去的视频帧，V1：h，和代理的位置，L1：h，其中h是his-tory长度，T-h是预测长度。由于这项任务存在固有的不确定性，我们的目标是设计通过计算多峰分布p（L h +1：T），可以有效预测多个可能的未来轨迹的模型|L1：h，V1：h）。有关模型的高级摘要，请参见图2，有关更多详细信息，请参见以下章节。3.1. 历史编码器编码器根据过去位置L1：h和帧V1：h的历史计算场景的表示。我们通过索引Yt∈G对每个地面实况位置Lt表示大小为H×W的2D网格G中的最近单元，10510不不t−1不H图2：我们的模型概述。模型的输入是地面实况位置历史和一组视频帧，这些视频帧由语义分割模型进行预处理。这是由“历史编码器”卷积RNN编码的。编码器的输出被馈送到卷积RNN解码器以进行位置预测。粗略位置解码器在大小为H×W的2D网格上输出热图。精细位置解码器输出每个网格单元内的矢量偏移。这些被组合以生成预测位置的R2上的多模态分布索引从1到HW。受[22，31]的启发，我们使用两种不同的网格尺度（36×18和18×9）对位置进行编码;我们在第二节中展示了这种多尺度编码的好处。第5.4条。为了简单起见，我们只关注一个H×W网格。为了使模型对低级视觉更不变性，细节，并因此对域移位更鲁棒（例如，在不同场景之间、同一场景的不同视图之间、或者在真实图像和合成图像之间），我们使用预先训练的语义分割模型对每个视频帧Vt进行预处理，其中K=每像素13个可能的类别标签公司现采用国际（被称为“置信状态”）由C t（i）= p（Y t =i）表示|Yh：t−1，H），其中ni∈G且t∈[h+1，T]。对于brevity，我们使用单个索引i来表示2D网格中的单元格。而不是假设一个马尔可夫模型，我们更新使用卷积递归神经网络，隐藏状态HC。然后，我们通过以下方式计算信念状态：Ct=softmax（W<$HC）∈RHW（2）这里我们使用带有一个滤波器的2D卷积，并在应用softmax之前平坦化空间维度。使用以下命令更新隐藏状态HC=ConvRNN（ GAT（HC）， embed（Ct−1））（3）Deeplab模型[8]在ADE 20k [65]数据集上训练，tt−1保持体重不变设St是这个语义分割图，它被建模为大小为H×W×K的张量。然后，我们将这些输入传递给卷积RNN [58，为了计算时空特征历史：其中embed（Ct−1）嵌入大小为H×的3D张量W×de，de是嵌入大小。 GAT（HC）是一个图形注意力网络[55]，其中图形结构对应于G中的二维网格。更准确地说，让hiHe=ConvRNN（ one-hot（Yt））<$（W<$St），He）（1）中的第i个网格单元对应的特征向量。t t−1HC，设h为HC=其中，λ是逐元素乘积，并且λ表示2D。t−1C我高×宽 ×宽t−1GAT（Ht−1）∈Rdec，其中ddec是conv解决方案。函数one-hot（·）投射一个单元格索引x根据下式，将其转化为大小为H×W的独热嵌入：解码器隐藏状态。我们使用以下公式计算GAT的这些输出：其空间位置。我们使用这个编码器He∈RH×W×denc，其中denc是隐藏大小，到ini-确认解码器的状态。我们也使用时间hi=1|Ni|Σj∈Nife（[vi，vj]）+hi（4）语义映射的平均值，S=1hS，在每个期间，其中N是节点v的最大值在G中，每个节点ht=1ti i解码步骤。上下文表示为H =[H e，S]。3.2. 粗定位解码器在得到上下文H之后，我们的目标是预测未来的位置。我们首先集中在预测的位置在网格单元的水平，Yt∈G。在3.3节中，我们讨论了如何预测R2中的连续偏移量，它指定了一个从每个网格单元的中心，以获得细粒度的位置预测。令在时间t的网格位置上的粗略分布10511表示为vi=[hi，Si]，其中Si收集单元i的在S. fe是某个边缘函数（实现为在我们的实验中的MLP），它计算注意力权重。RNN的图形结构更新函数确保概率质量以受控的方式“扩散”到附近的网格单元，反映了人们不会突然在遥远的这种归纳偏差也被编码在卷积10512不不不ti2tt−1结构，但是添加图注意力网络给出了改进的结果，因为权重是依赖于输入的并且不是固定的。3.3. 精细定位解码器2D热图对于捕获多模态分布是有用的，但是不能给出非常精确的位置预测。为了克服这个问题，我们训练第二个卷积RNN解码器H0来计算每个位置的偏移向量。请注意，在训练期间，当更新RNN时，我们输入位置Ct上的预测软分布。参见等式（二）、另一种方法是输入真值C，使用教师强制。然而，这是已知的遭受的问题[40]。3.5. 推理为了生成多个质量上不同的轨迹，我们使用来自[25]的多样波束搜索策略。到使用回归输出的可观察网格单元，Ot=MLP（Ht）∈RH×W×2。此RNN更新使用精确定义，设Bt-1为时间t-1的梁;该组包含K个轨迹（历史选择）Mk=HO=ConvRNN（ GAT（HO），O）∈RH×W×ddect−1tt−1t−1{Yk，. -是的-是的，Yk }，k∈[1，K]，其中Y∈ k是G中的整数x，（五）1t−1tK以及它们的累积对数概率Pt−1。让为了计算最终的预测位置，我们首先将空间维数O到O∈RHW×2。然后我们用Ck=f（Mk）∈RHW是粗定位输出概率，K从Eq.（2）和（3）在时间t给定输入Mt-1。Lt=Qi+Oti（6）其中i是所选网格单元的索引，Qi∈R2为使用以下公式计算新梁：.Σ该单元格的中心，Oti∈R2是f-在时间t为该小区设置。对于单一未来预测，我们Bt=topKKt−1+10 g（Ck（i））+γ（i）|n∈G，k∈[1，K]}（十）使用贪婪搜索，即i=argmaxCt在信念上状态对于多未来预测，我们使用波束搜索，第3.5节。这种将分类和回归相结合的想法部分地受到对象检测方法的启发（例如，[41]）。值得注意的是，在并行工作中，[6]还设计了一个用于轨迹预测的两阶段模型。然而，它们的分类目标是预定义的锚射野。我们不受预定义锚点的限制。3.4. 培训我们的模型在从时间1到h的观测轨迹上进行训练，并预测从时间h+1到T的未来轨迹（在xy坐标中）。我们通过为热图（置信状态）C和回归偏移图O提供基础事实目标来监督此训练。特别是对其中γ（i）是多样性惩罚项，我们从考虑k = 1：K的值产生的集合中取出前K个元素。如果K=1，这就变成了贪婪搜索。一旦我们计算了前K个未来预测，我们就添加相应的偏移向量以通过Lk∈R2得到K个轨迹。这是我们模型的最终输出。4. 分叉路径数据集在本节中，我们描述了我们的人工注释模拟数据集，称为分叉路径，用于多未来轨迹评估。现有数据集。有几个用于轨迹评估的真实世界数据集，例如 SDD [46] ， ETH/UCY [37 ， 24] ， KITTI[13]，nuScenes [5]和VIRAT/ActEV [3，36]。t t然而，它们都有一个基本问题，粗解码器，使用交叉熵损失：只能观测到未来众多可能轨迹中的一条1ΣTLcls=−TΣ柠檬酸（7）从底层分布中抽样的保守党。这在先前的作品中得到广泛承认[34，54，6，15，44，43]。t=h+1i∈G对于精细解码器，我们使用对象检测中使用的平滑L1损失[41]：但是还没有被解决。与我们最接近的工作是[34，54，6]中使用的模拟。然而，这些只包含人工轨迹，1ΣTLreg=Σ smoothL（Oi，Oti）（8）而不是人类制造的。此外，他们还使用了一个非常简单的-Tt=h+1i∈G1ti二维空间，行人被过度简化为点，车辆作为障碍物;不提供其它场景语义。其中O=L−Qi是真实位置蒂特在模拟器中重建现实。在这项工作中，我们使用在i和Lt处的网格单元的中心是地面在Eq中的Lt的真理。（六）、我们将这种损失强加给每个细胞，提高鲁棒性。最后的损失计算如下：CARLA [11]，一个建立在虚幻引擎4之上的近乎真实的开源模拟器。根据先前的模拟数据集[12，47]，我们半自动地从真实场景重建静态场景及其动态元素L（θ）=Lcls+λ1Lreg+λ2<$θ<$2{P10513（九）ETH/UCY和VIRAT/ActEV中的世界视频有其中，λ2控制λ2正则化（权重衰减），λ1=0。1用于平衡回归和分类损失。4个场景在ETH/UCY，5个在VIRAT/ActEV。我们排除了2个我们无法在CARLA中重建的杂乱场景（UNIV0002），在我们的数据集中留下7个静态场景。10514设Y =Y图3：分叉路径数据集的可视化。左边是真实视频的示例，第二列显示了重建的场景。蓝色边界框中的人是受控代理，由人类注释的多个未来轨迹由叠加的人帧显示红色圆圈是定义的目的地。绿色轨迹是重建的不受控制的代理的未来轨迹。场景语义分割基础事实在第三列中示出，并且最后一列示出包括自顶向下视图的所有四个相机视图。对于车辆和行人的动态运动，我们首先使用所提供的单应性矩阵将来自真实世界视频的地面实况轨迹注释然后，我们将真实世界的轨迹人类的未来。我们手动选择序列与一个以上的行人。我们还要求至少一个行人可以有多个可行的替代目的地。我们插入合理的恋童癖-增加场景的多样性。然后，我们选择一个行人作为每个序列的平均而言，每个代理有大约3个目的地移动到-ward。我们总共有7个场景的127个CA。我们将每个CA及其对应的场景称为场景。对于每个场景，平均有5.9个人工annotators来控制代理到定义的目的地。具体地，他们被要求从第一人称视角（相机稍微在行人后面）和/或俯视视角（以给出更多上下文）观看视频的前5秒。然后要求他们控制智能体的运动，使其以“自然”的方式向指定的目的地移动而不与其它移动对象（其运动是从真实视频导出的，因此不知道受控代理）冲突如果代理到达目的地，则认为注释成功在10.4秒的时限内不发生碰撞所有为了预测。(We用10.4秒表示未来，以便我们评估更长期的预测。生成数据。一旦我们收集了人类生成的轨迹，在数据清理后总共750个，我们在四个相机视图（三个45度和一个自上而下的视图）中渲染每个轨迹。每个摄像机视图总共有127个场景，每个场景平均有5.9个未来场景。使用CARLA，我们还可以模拟不同的天气条件，尽管我们在这项工作中没有这样做。除了智能体定位外，我们还从人行道、道路、车辆、行人等13个类别中收集了用于像素精确场景语义分割的地面实况。见图3 .第三章。5. 实验结果本节评估了各种方法，包括我们的Multiverse模型，用于在拟议的Forking Paths数据集上进行多未来轨迹预测。为了与以前的工作进行比较，我们还在具有挑战性的VIRAT/ActEV [3，36]基准上评估了我们的模型，用于单一未来路径预测。5.1. 评估指标单一未来评估。在现实世界的视频中，每个轨迹只有一个未来的样本，因此模型的评估是基于它们对单个轨迹的预测程度。根据先前的工作[30，1，15，49，23，18，6，44]，我们为此设置引入了两个标准度量。我们数据集中的最终轨迹由人类检查，我我t=（h+1）···T是真实的轨迹确保可靠性。请注意，我们的视频长达15.2秒。这是略长比以前的作品（例如[1、15、30、49、26、62，64]），使用3.2秒的观察和4.8秒的观察第i个样本，并且Y= i是相应的预测。然后，我们采用两个基于距离的误差度量：i）平均位移误差（ADE）：地面真实坐标与预测坐标之间的平均欧几里得距离。10515t=（h+1）···T所有时刻的坐标：ΣN ΣTYi−Y编码器-解码器模型，仅输入坐标Social LSTM[1]：我们使用来自ADE=i=1t=h+1t t2N×（T −h）（十一）（https://github.com/agrimgupta92/sgan/）中找到。下一页[30]ii）最终位移误差（FDE）：在最终预测时间预测点与地面实况点之间的欧几里得ΣN Y i−Y是最先进的单一未来轨迹VIRAT/ActEV 数据集上的预测。我们使用（https://github.com/google/FDE=1TT2N多未来评估。设Yij=Yij（十二）是next-prediction/）。社会GAN[15]是一个最近的多-未来轨迹预测模型使用最小N（MoN）损失训练。我们训练两个模型变体（称为PV对于k∈[1，K]，令Y∈ ik是来自轨迹上的预测分布的第k个由于这种设置没有商定的评估指标，我们只需扩展上述指标，如下所示：i）最小平均位移误差给定K个预测（minADE K）：类似于[6，43，44，15]中描述的度量，对于测试样本i中的每个真实轨迹j，我们选择最接近的总体预测（从K个模型预测中），然后测量其平均误差：和V）在论文中使用[15]中的代码详细描述。所有模型都是在真实视频上训练的（来自 VI-RAT/ActEV-大多数模型只是使用轨迹数据作为输入，除了我们的模型（使用轨迹和语义分割）和Next（使用轨迹，边界框，语义分割和RGB帧）。实施详情。我们使用ConvLSTM [58]单元来JiangJiang最小KTYij−Y编码器和解码器两者嵌入大小已设置minADEK 为i=1j=1k=1t=h+1tt2N×（T-h） ×J（十三）到32，编码器和解码器的隐藏大小都是256。场景语义分割特征是前，ii) 给定K个预测的最小最终位移误差（minFDEK）：类似于minADEK，但我们仅考虑最终预测时刻的预测点和地面实况点：[8]《易经》云：“君子之道，焉可诬也？20k [65] dataset.我们使用Adadelta优化器[61]，初始学习率为0.3，权重衰减为0.001。基线的其他超参数与JiangJiang最小KYij−Y在[15，30]中。我们评估了K=20的预测，minFDEK =1j=1k=1T T2N×J（十四）多未来轨迹。对于只输出单个轨迹的模型，包括线性，LSTM，Social-LSTM，iii) 负对数似然（NLL）：类似于NLL指标在[34，6]中使用，我们测量地面真实样本与预测分布的拟合。5.2. 分叉路径数据集设置。第4节中提出的分叉路径数据集用于多未来轨迹预测评估。根据以前的作品[30，1，15，1，15，49，34]中的设置，我们将视频下采样到2.5 fps并使用[30]中发布的代码提取人的轨迹，并让模型在像素空间中输出轨迹坐标之前观察受控代理的3.2秒（8帧）Since the length of the ground truth future trajecto-ries are different, each model needs to predict the maximumlength at test time but we evaluate the predictions usingtheactual length of each true trajectory.基线方法。我们将我们的方法与两个简单的基线和三个最近发布的源代码方法进行比较，包括最近的多未来预测模型和最先进的单未来预测模型：线性是一个单层模型，它使用基于前一个输入点的线性回归量预测下一个坐标。LSTM是一个简单的LSTM [17]接下来，我们在评估之前将输出复制K次。对于Social-GAN，我们使用K个不同的随机噪声输入来获得预测。对于我们的模型，我们使用如第3.5节所述的发散性波束搜索[25，38]。定量结果。表1列出了多个未来评估结果，其中我们根据摄像机的视角（45度与自上而下的视图。我们用随机初始化重复所有实验（除了正如我们所看到的，我们的模型在所有指标上都优于基线，并且在minADE指标上表现得更好，这表明在所有时刻都有更好的预测质量。值得注意的是，我们的模型在所有指标上都优于SocialGAN至少8个点我们还测量了表2中顶级方法的标准负对数似然（NLL）度量。定性分析我们在图中可视化了前4种方法的一些输出。4.第一章在每个图像中，黄色轨迹是每个受控代理的历史轨迹（从真实视频数据导出），绿色轨迹是来自人类注释者的地面真实未来轨迹对于多未来预测方法，预测轨迹以黄橙色热图显示，对于多未来预测方法，预测轨迹以红线显示。10516方法输入类型minADE20minFDE2045度顶向下45度顶向下线性Traj213.2197.6403.2372.9LSTMTraj201.0±2.2183.7±2.1381.5±3.2355.0±3.6Social-LSTM [1]Traj197.5±2.5180.4±1.0377.0±3.6350.3±2.3社交GAN（PV）[15]Traj191.2±5.4176.5±5.2351.9±11.4335.0±9.4[15]第十五话Traj187.1±4.7172.7±3.9342.1±10.2326.7±7.7下一页[30]Traj.+Bbox+RGB+Seg.186.6±2.7166.9±2.2360.0±7.2326.6±5.0我们Traj.+隔离区168.9±2.1157.7±2.5333.8±3.7316.5±3.4表1：分叉路径数据集上不同方法的比较。数字越低越好。标记为“45度”的列的数字对于输入类型还有“Bbox”意味着输入分别是场景中所有对象的xy所有模型都在真实的VIRAT/ActEV视频上进行训练，并在合成（CARLA渲染）视频上进行测试评价指标定量结果。表3（第一栏）示出了评价结果。正如我们所看到的，我们的模型实现了最先进的性能。在最终位移误差（FDE）指标上的改进尤其大，这归因于表2：分叉路径数据集上不同方法的负对数似然比较。对于输出多个轨迹的方法，我们将xy坐标转换到与我们的方法相同的网格中，并得到归一化的概率分布预测。单一未来预测方法正如我们所看到的，我们的模型通常正确地将概率质量放在有数据的地方，而不会误差分析我们在图中显示了我们的模型产生的一些典型错误。五、第一张图显示我们的模型错过了正确的方向，可能是由于我们的采样过程缺乏多样性第二张图显示，我们的模型有时会预测这个人会这可以通过添加更多的“绕过”障碍的训练示例来解决第三张图显示我们的模型预测这个人会走向一辆行驶的汽车。 This is due to the lack of modeling of thedynamics of other far-away agents in the scene.第四张图显示了一个困难的情况，其中人刚刚离开车辆，并且没有指示他们下一步将去哪里（因此我们的模型“后退”到一个合理的我们把这些问题的解决办法留给今后的工作。5.3. VIRAT/ActEV的单一未来预测数据集设置。 NIST 于 2018 年发布了 VIRAT/ActEV[3]，用于流媒体视频中的活动检测研究。这个数据集是VIRAT [36]数据集的新版本，有更多的视频和注释。带有公开注释的视频长度约为4.5小时。接下来[30]，我们使用官方训练集进行训练，使用官方验证集进行测试。其他设置与第5.2节相同，除了我们使用单一未来eval-粗略位置解码器帮助调节长期预测的模型预测。增益表明，我们的模型在单一未来预测（真实数据）和多个未来预测我们的准合成数据。从模拟到现实世界。如第4节所述，我们首先通过从真实世界视频重建来生成模拟数据。为了验证重构数据的质量以及从仿真视频中学习的有效性，我们在从真实数据导出的仿真视频上训练所有模型。然后，我们评估真实的测试集VIRAT/ActEV。正如我们从表3的右栏中看到的，由于合成数据和真实数据之间的差异，我们发现不同方法的性能排名在真实和我们的模拟训练数据之间是一致的。这表明误差主要来自模型，并证实了使用所提出的数据集来比较不同方法的相对性能的合理性错误有两个来源。由于难以在仿真器中重建所有的真实数据，合成弹道数据仅包含约60%的真实弹道数据此外，合成图像不是照片真实的。因此，依赖RGB输入的方法（如Next [30]）显然受到最大的影响，因为它们从未在“真实像素”上训练过我们的方法，它使用的语义加上高层次的语义分割（从合成到真正的更容易）遭受最小的性能下降，显示其鲁棒性的方法间输入源对比见表15.4. 消融实验我们测试了我们的模型在单未来和多未来轨迹预测上的各种消融，以证实我们的设计决策。结果显示在Ta中。方法Tpred=1Tpred=2Tpred=3(PV)[14个]10.08±0.2517.28±0.4223.34±0.47(V)[14个]9.95±0.3517.38±0.4923.24±0.54下一页[27]8.32±0.1014.98±0.1922.71±0.1110517图4：定性分析。红色轨迹是单一未来方法预测，黄色-橙色热图是多未来方法预测。黄色的轨迹是观测值，绿色的是地面实况多未来轨迹。详情见正文方法单一未来多元化未来我们的完整模型18.51 /35.84166.1 /329.5无空间图形28.68 /49.87184.5 /363.2无精细位置解码器53.62 /83.57232.1 /468.6无多尺度网格21.09 /38.45171.0 /344.4图5：错误分析。详情见正文方法在真实在Sim上训练。线性32.19 /60.9248.65 /90.84LSTM23.98 /44.9728.45 /53.01Social-LSTM [1]23.10 /44.2726.72 /51.26[15]第十五话30.40 /61.9336.74 /73.22社交GAN（PV）[15]30.42 /60.7036.48 /72.72下一页[30]19.78 /42.4327.38 /62.11我们18.51/35.8422.94/43.35表3：在VI-RAT/ActEV数据集上不同方法的比较。我们报告ADE/FDE指标。第一列是在真实视频训练集上训练的模型，第二列是在该数据集的模拟版本上训练的模型。表 4 ，其中 ADE/FDE 指标显示在 “ 单未来 ” 列中，minADE 20 /minFDE 20指标（所有视图的平均值）显示在“多未来”列中我们通过从完整模型中删除模块来验证我们的三个关键设计。(1) 空间图：我们的模型是建立在一个空间的2D图形，使用图形注意力模型的场景特征。我们在没有空间图的情况下训练模型。正如我们所看到的，这两项任务的性能都会下降。(2)精细位置解码器：我们在没有精细位置解码器的情况下测试我们的模型，并且仅使用网格中心作为坐标输出。正如我们所看到的，这两项任务的显著性能下降验证了我们研究中提出的这个新模块的有效性。（三）表4：我们模型的消融版本在单一和多未来轨迹预测上的性能。数字越小越好。多尺度网格：如第3节所述，我们在训练中使用两种不同的网格尺度（36× 18）和（18× 9）我们看到，如果我们只使用精细尺度（36× 18），性能会稍微差一些。6. 结论在本文中，我们介绍了分叉路径数据集，以及用于多未来预测的Multiverse我们的研究首次为多未来轨迹预测提供了定量基准和评估方法，通过使用人类注释器在相同的过去下创建各种轨迹延续。我们的模型利用多尺度位置解码器和图注意力模型来预测多个未来位置。我们已经证明，我们的方法在两个具有挑战性的基准上实现了最先进的性能：大规模真实视频数据集和我们提出的多未来轨迹数据集。我们相信，我们的数据集，连同我们的模型，将促进未来的研究和应用的多未来预测。鸣谢本研究得到了NSF基金IIS-1650994、NIST财政援助奖60 NANB 17 D156和百度奖学金的支持。这项工作也得到了IARPA通过DOI/IBC合同号D17 PC 00340的支持。本文所包含的观点和结论是作者的观点和结论，不应被解释为必然代表 IARPA 、 NIST 、DOI/IBC、国家科学基金会、百度或美国政府的官方政策或认可（无论是明示还是暗示）。政府的10518引用[1] 亚历山大·阿拉希、克拉塔斯·戈尔、维格内什·拉马纳坦、亚历山大·罗比克特、李飞飞和西尔维奥·萨瓦雷塞。社会lstm：拥挤空间中的人体轨迹预测。在CVPR，2016年。一、二、五、六、七、八[2] JavadAmirian，Jean-BernardHayet，andJulienPettre´. 社交方式：用gans学习行人轨迹的多模态分布。在CVPRW，2019年。 2[3] George Awad，Asad Butt，Keith Curtis，JonathanFiscus，Afzal Godil，Alan F.斯米顿、伊薇特·格拉哈姆、韦塞尔·克拉伊杰、吉奥·格斯·库埃诺、若昂·马格·阿尔海斯、大卫·塞梅多和萨维里奥·布拉西。Trecvid 2018：对视频活动检测、视频字幕和匹配、视频故事链接和视频搜索进行基准测试。在TRECVID，2018年。一二四五七[4] MayankBansal 、 AlexKrizhevsky 和 AbhijitOgale。Chauffeurnet：通过模仿最好的和综合最坏的来学习驾驶。 arXiv 预印本 arXiv ：1812.03079，2018。一、二[5] Holger Caesar 、 Varun Bankiti 、 Alex H Lang 、Sourabh Vora 、 Venice Erin Liong 、 Qiang Xu 、Anush Krishnan 、 Yu Pan 、 Giancarlo Baldan 和Oscar Beijbom。nuscenes：用于自主驾驶的多模态数据集。 arXiv 预印本 arXiv ： 1903.11027 ，2019。二、四[6] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径：行为预测的多个概率锚轨迹假设。 arXiv 预印本 arXiv ： 1910.05449 ，2019。一二四五六[7] Ming-Fang Chang，John Lambert，Patsorn Sangk-loy ， Jagjeet Singh ， Slawomir Bak ， AndrewHartnett，De Wang，Peter Carr，Simon Lucey，Deva Ramanan，et al.Argoverse：3d跟踪和预测与丰富的地图。在CVPR，2019年。2[8] Liang-Chieh Chen ， George Papandreou ， IasonasKokkinos ， KevinMurphy ， andAlanLYuille.Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割IEEE Transactions onPattern Analysis and Machine Intelligence ， 40（4）：834-848，2017。三、六[9] Abhishek Das，Samyak Datta，Georgia Gkioxari，Ste- fan Lee，Devi Parikh，and Dhruv Batra.具体化的问题回答。在CVPRW，2018年。2[10] Ce'sarRobertodeSouza，AdrienGaidon，YohannCabon和AntonioManuelL o' pez。视频的程序生成，在CVPR，2017年。2[11] AlexeyDosovitskiy，GermanRos， FelipeCodevilla ， Antonio Lopez ， and Vladlen Koltun. 卡拉：10519一个开放的城市驾驶模拟器。 arXiv 预印本arXiv：1711.03938，2017。一、二、四[12] Adrien Gaidon，Qiao Wang ，Yohann Cabon，and Eleonora Vig.虚拟世界作为多目标跟踪分析的代理在CVPR，2016年。二、四[13] Andreas Geiger，Philip Lenz，Christoph Stiller，and Raquel Urtasun.视觉与机器人技术的结合：Kitti 数据集。 The International Journal ofRobotics Research ， 32 （ 11 ）： 1231-1237 ，2013. 4[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对

下载后可阅读完整内容，剩余1页未读，立即下载