LOKI：智能体轨迹和意图预测的大规模数据集及模型评估

31 浏览量更新于2023-10-15 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9803https://usa.honda-ri的网站。LOKI：轨道预测的长期和关键意图Harshayu Girase1，2，*，† Haiming Gang1，† Srikanth Malla1Jiachen Li1，2，† Akira Kanehara3Karttikeya Mangalam2ChihoChoi11本田研究所美国2加州大学伯克利分校3本田研发公司公司{harshayugirase，jiachen li，mangalam}@kanehara@jp.honda akira berkeley.edu{hgang，smalla，cchoi} @ honda-ri.com摘要轨迹预测的最新进展表明，对智能体意图的明确推理是重要的来准确预测它们的运动。然而，目前的研究活动并不直接适用于智能和安全关键系统。这主要是因为非常少的公共数据集是可用的，并且它们仅从受限的自我中心视图考虑针对短时间水平的行人特定意图。为此，我们提出了LOKI（长术语和关键意图），一种新的大规模数据集，旨在解决自动驾驶环境中异构交通代理（行人和车辆）的联合轨迹和意图预测创建LOKI数据集以发现可能影响意图的若干因素我们还提出了一个模型，共同执行轨迹和意图预测，表明重新目前推理的意图，可以协助与trajec- tory预测。我们表明，我们的方法优于国家的最先进的轨迹预测方法高达27%，也提供了一个基线帧明智的意图估计。数据集可在com/loki1. 介绍在过去的几年中，已经有广泛的研究来预测场景中的动态代理的未来轨迹，例如行人和车辆。这对于诸如自主车辆或社交机器人导航之类的安全关键应用来说是一项非常重要且具有挑战性的任务。虽然这些方法在最近几年有了显著的进步，但很少有基准测试专门测试这些模型是否能够准确地推理出关键*共同第一作者。作者顺序是随机确定的†在本田研究所图1：我们表明，对长期目标和短期意图的推理在轨迹预测中起着重要作用。由于缺乏用于此目的的全面基准，我们引入了一个新的意图和轨迹预测数据集。中说明了一个示例用例(a)我们预测目标车辆的轨迹。在（b）中，从代理的自身运动估计长期目标。（c）中的交互和（d）中的环境约束（如道路拓扑和车道限制）影响智能体例如车辆或行人过马路时的突然转弯和变道的操纵。传统的轨迹误差度量可能无法捕获帧级机动的性能，这对于安全规划至关重要。智能轨迹预测系统应该能够理解和建模动态人类行为。人类行为作为目标导向实体的研究在心理学[1]，神经科学[2]和计算机视觉[3]的子领域中具有悠久而丰富的跨学科历史。人类决策过程本质上是分层的，由几个层次的推理和规划机制组成，这些机制协同工作，以实现各自的短期和长期愿望。最近的研究表明，明确地推理长期目标[3，4，5]和短期意图[6，7，8]可以帮助实现目标。9804喷射预测在这项工作中，我们建议将异构（车辆，行人等）的任务。多智能体轨迹预测和意图预测。我们认为，明确地推理智能体的长期目标和短期意图是在我们的工作中，我们将目标定义为智能体在给定预测范围内想要达到的最终位置[9，5]，而意图是指智能体如何实现其目标[10]。例如，考虑十字路口处的车辆。在最高层次上，说他们想达到他们的最终目标，向左转到他们的最终目标点，这反过来可能是一些更高层次的结束（如回家）所必需的。然而，其轨迹的精确运动受许多因素的影响，包括i）代理人自己的意愿，ii）社会交互，iii）环境约束，iv）上下文线索。因此，当推理智能体我们相信，这种复杂的短期意图和长期目标的层次结构是无处不在的，事实上，至关重要的，代理运动规划，因此扩展，运动预测。我们提出了一种架构，其考虑类似于[9，5，3，4]的长期目标，但添加了用于调节轨迹预测模块的逐帧意图估计的关键组件。通过强制模型学习代理的离散短期意图，我们观察到预测模块的性能提高。同样丰富成功的是使用数据集对计算机视觉进行基准测试的当代历史在MNIST [11]和ImageNet [12]等基准测试等开创性工作的指导下，基准测试进展和从数据中学习在现代深度学习的成功中发挥了关键作用。目前，不存在允许在高度复杂的环境中对异构代理进行明确的逐帧意图预测的公共数据集。尽管很少有数据集被设计用于从自我中心的角度研究行人的意图或行为[13，7，6，14]，但这是对自动驾驶任务的广泛研究的固有限制因此，我们提出了一个联合轨迹和意图预测数据集，该数据集包含RGB 图像和对应的LiDAR点云，这些点云具有行人和车辆的详细的逐帧标签。LOKI数据集允许对代理的未来意图进行显式建模它还显示了有前途的方向，共同推理的意图和轨迹，同时考虑不同的外部因素，如代理我们表明，通过建模的短期意图和长期目标与明确的监督，通过意图标签，可以实现更好的轨迹预测精度。此外，在每一帧预测一个特定的意图为我们的模型增加了一层抽象，提高了理解预测决策，这是维护安全关键应用的重要一步最后，我们工作的贡献是双重的。首先，我们提出了第一个公开可用的异构数据集，其中包含逐帧的意图注释，并捕获长达20秒的轨迹，其中包含RGB和LiDAR输入的2D和3D标签。其次，我们通过消融研究说明了分别对长期目标和短期意图进行推理的有效性具体来说，我们强调了意图预测的子任务如何提高预测性能，并提出了一个模型，该模型优于最先进的多模态基准高达27%。我们相信我们高度灵活的数据集将允许轨迹预测社区进一步探索基于意图的预测空间内的主题此外，意图估计的问题本身就是一个复杂的任务，我们的工作提供了一个强有力的基线。2. 相关工作在过去的几年里，由于深度神经网络和更大的公开可用数据集的成功，轨迹预测领域得到了快速在轨迹预测社区内已经存在许多感兴趣的子主题，包括顺应性轨迹预测、多模态轨迹预测和面向目标的预测[21，22，23，24，25，3，9，26，4，27，28，29，30，7，31，5]。2.1. 上下文轨迹预测轨迹预测领域的早期工作集中在单峰轨迹预测-这些作品强调了在进行预测时社会[32，27，33]和场景顺应性[34]的重要性。在过去的几年里，轨迹预测研究已经将这些想法扩展到多模态框架，以解释每个代理可能具有的多个合理的在SocialGAN中，Gupta et al.[23]介绍一个社会感知的多模态框架，该框架使用生成对抗网络来为每个代理采样不同数量的未来轨迹。从那时起，有一个主要的重点和许多有趣的方法与多模态预测[22，35，9，23，36，4，30，37]。2.2. 目标预测当对车辆和人的轨迹建模时，自然地将问题制定为目标导向的任务。因为人类不是完全随机的主体，并且对某些行为有偏好，最近的轨迹预测研究已经显示了目标条件预测的有效性[38，28，9，3，39，7，40，4，5，41]。最近，[9]和[5]表明，考虑智能体9805然而，这两个工作都只考虑位置信息作为他们的目标状态。在我们的工作中，我们提出并证明了考虑长期定位目标和短期预期行动的有效性。2.3. 意向数据集为了更好地理解交通场景中的智能体意图，除了传统的轨迹预测任务之外，一些工作已经提出了包含意图标签的数据集来研究潜在的意图。JAAD [7]，PIE[13]和STIP [6]数据集是最近设计用于研究行人意图的数据集。JAAD数据集侧重于交通场景分析和行人在交叉路口场景下的行为理解。PIE数据集进一步扩展了JAAD，并包含更多的注释，用于intention估计和轨迹预测。PIE [7]仅预测当前时间步的意图，并专注于较短的时间范围预测（1.5秒）。STIP数据集解决了仅能够进行单镜头意图预测的限制，因为它包含长达3秒的逐帧意图标签。然而，该数据集仅包含所有这些数据集仅考虑交叉口处行人的意图，这可能无法捕获在具有车辆和行人的高度复杂的交通环境中的所有代理的意图。IntentNet [8]确实考虑了车辆轨迹预测的意图;然而，它们不考虑逐帧（frame-wise）约束。此外，数据集和标签不是公开可用的。TITAN [14]是从自我中心观点收集的另一个驾驶行为数据虽然它可以潜在地用于交通代理的意图预测，但它仅包含自我视图轨迹片段，并且缺乏对于找到代理的意图可能至关重要的环境和LiDAR信息。这两项工作也只关注短期预测（不到3秒）。与一般的驾驶数据集（如Waymo [42]，Nuscenes[43]和INTERACTION[44]）相比，LOKI扩展了标准的绑定框，跟踪id等。到更丰富的意图、上下文和环境标签。据我们所知，目前没有公开可用的数据集包含详细的逐帧注释以允许在联合相机和激光雷达空间中进行异构多智能体轨迹预测和我们的数据集包含非常多样化的交通场景，通过在不同位置，天气条件，道路和照明的长时间数据收集。表1显示了我们的LOKI数据集与其他最近可用的意图数据集（ PIE，JAAD ，STIP）的详细信息。3. LOKI数据集在大型交通环境中探索预测是一个复杂的问题，因为每个交通PIE [7]JAD [13]科技革新政策[6]LOKI（我们的）场景数量-346556644代理数量1.8K2.8K3.3k28K标记试剂数量1.8K0.6K3.328K类数1118bbox数量740K391K型350k886K代理类型数量1（儿童）1（儿童）1（儿童）8个班Avg.每帧2.55.23.221.6注释频率--2 FPS5 FPS逐帧标签没有333RGB图像3333LiDAR点云没有没有没有32D限位框33333D边界框没有没有没有3车道信息没有没有没有3行人属性没有3没有3表1：LOKI数据集与PIE [7]、JAAD [13]和STIP [6]的比较。图2：根据不同类别FIC参与者不仅表现为过去的行为，而且受到未来目标和意图的高度影响。由于缺乏用于此目的的全面基准，我们引入了一个大规模的数据集，该数据集是为联合意图和轨迹预测的任务而设计的。我们的数据集是从日本东京市中心收集的，使用的是一辆装备有摄像头的仪器化车辆，LiDAR、GPS和车辆CAN总线。记录是郊区和城市驾驶场景，包含不同的动作和异构代理的交互，从一天中的不同时间捕获。从我们的录音中，我们提取了644个场景，平均长度为12.6秒。同步的LiDAR数据和RGB图像被下采样到5HZ用于注释。代理的总数超过28K，包括8个类（即行人、汽车、公共汽车、卡车、货车、摩托车、骑自行车的人、其他），这导致场景中平均有21.6个我们在RGB图像（2D）以及LiDAR点云（3D）中通过与相同的track-ID链接来注释所有这些代理的边界框（总共886 K）。与现有基准的比较如表1所示。LOKI数据集被注释有可以影响代理的意图的独特属性，9806S图3：三种类型标签的可视化：（1a-1b）行人意图标签;（2a-2b）车辆意向标签;和（3a-3b）环境标签。每个图像的左部分来自激光扫描，右部分来自相机。在（1a）中，行人的当前状态是“等待穿越”，并且潜在目的地示出行人的意图。在（3a）中，蓝色箭头表示车辆所在的当前车道的可能动作，红色文字表示与自我车辆相关的车道位置。3.1. 数据集注释考虑到LiDAR点云比RGB图像更好地捕捉智能体之间的位置关系，我们标注了智能体的3D边界框，其中包括智能体的方向、行人的潜在目的地、道路入口/出口、智能体相比之下，在RGB图像空间中，我们利用其上下文清晰度来注释环境标签，例如车道信息（可以从该车道进行什么动作）、车辆的车道号（相对于自主代理的相对位置）、行人的性别和年龄、交通灯的状态以及交通标志的类型请注意，我们还在RGB空间中注释了2D边界框，潜在目的地和道路入口/出口信息，以激发自我中心视图中的潜在研究。通过在3DLi-DAR空间和2D图像空间中的相同代理之间使用一致的跟踪ID，我们的标签可以跨不同的空间共享。为了深入研究更复杂的预测研究，与其他数据集相比，我们的数据集提供了每帧更密集的代理和更精确的意图属性。探索这些如何影响代理的未来行为（详细信息和视觉效果见图2和图3）。意图标签意图被定义为行动者决定通过一系列行动“如何”达到目标[10]。在每一帧中，我们注释了流量参与者的当前动作，然后使用未来的动作来生成我们的意图标签。例如，如果车辆的当前动作是可以探索各种意向视野;我们使用0。8秒，因为我们探索短期意图如何帮助指导轨迹预测。环境标签驾驶场景的环境会严重影响智能体的意图，特别是对于驾驶区域用户，因此我们在LOKI数据集中包括环境信息，如“道路出入口”位置，“交通灯”，“交通标志”，“车道信息”。由道路结构和交通规则确定的那些标签可以应用于场景中的车道信息包括车辆所在的当前车道的允许动作以及其他车辆与自我车辆之间的相对位置。上下文标签还有一些其他因素也可能影响Agent的未来行为。我们定义这些因素是在相似的环境条件下，能够引起不同反应的因素或环境的特性4. 该方法4.1. 问题公式化在这项工作中，我们解决了多智能体轨迹预测的问题，同时预测代理intentions。代理类之间的意图的类型不同我们将问题表述如下。假设在给定场景中，我们有N个代理，A1：N。给定BEV坐标中的轨迹历史的过去t_obs=3s，该问题需要预测自上而下图像空间中的智能体的未来t_pred=5s由于我们的数据集允许根据智能体类型（行人与行人）进行逐帧意图预测。车辆），我们定义了另一个任务来预测每个代理在每个时间步的离散意图，除了传统的轨迹预测问题。4.2. 模型设计4.2.1长期目标建议网络直觉上，代理人有一个预定的，他们想要达到的长期目标许多最近的目标导向的作品都集中在通过估计最终的“结束”来对此进行建模我们在LOKI数据集中有三种类型的标签：点4]中。注意标签、环境标签和上下文标签9,3, 5, 28,9807我L2 NG-vi和vj，如果代理i影响代理j（在某个距离阈值内），则存在有向边eij。静态道路入口/出口节点可以影响代理，但没有传入的边缘。如果道路入口/出口节点i在距代理j的一定距离内，则我们连接有向边e ij。然后，我们通过如下所述的菊花链过程预测代理的未来位置。在每个帧m处，我们的模型首先通过注意力机制[45]：xt+1=ц（xt） +Xij$（xt，eij），图4：我们的模型首先对每个代理的过去观察历史进行编码，以独立地为每个代理提出潜在最终目的地的长期目标分布。然后对目标G进行采样并传递到联合交互和预测模块中。构建场景图以允许代理共享轨迹信息、意图和长期目标。黑色节点表示道路入口/出口信息，其为智能体提供地图拓扑信息。在每个时间步，当前场景信息通过图传播。然后，我们预测每个代理的意图最后，在预测下一位置之前，轨迹解码器以预测的意图、目标、过去的运动和场景为条件。对于视界长度循环地重复该过程。注意，表示串联。在前人工作的成功基础上，我们设计了一个类似于[9]中提出的方法的目标网络对于每个代理Ak，我们使用条件变分自动编码器（CVAE）来估计最终的长期目标Gk，它只是BEV uk=（xk，yk）中的估计位置，其中f表示最终目标G k。ii jxj2N（xi）其中Xt+1表示在与其所有邻居Xj（Xi）的基于注意力的特征聚合之后的更新的节点特征。我们使用代理的速度和相对位置作为边缘特征。这些特征在每个时间步的消息传递之前由2层MLP我们使用缩放的点积注意力[45]公式：f（xi）T（xj，eij）aij=softmax（pd）这里，ij表示两个节点i和j之间的关注系数，d表示节点的度。我们使用单层来表示$、ц、和。消息传递后，允许代理共享其过去的轨迹，目标和意图信息以及通过道路入口/出口节点的道路信息，我们的模型然后预测代理意图，我们将其定义为代理在我们的实验中，我们设置q=4，因此预测短期意图为0。8未来然后，我们条件轨迹预测为f f f最终帧CVAE的输入是来自观察RNN编码器的编码目标网络只考虑代理自己的历史，因为代理具有预定的长期目标，4.2.2场景图+轨迹解码器我们的主要洞察力和有前途的方向，从我们提出的数据集来自代理人如前所述，我们对行人和车辆有不同的意图。在不失一般性的情况下，我们将提及主体A和意图I，而不指定主体的类型。我们相信代理为了说明这一点，我们构建了一个交通场景图，以说明可能影响意图和轨迹预测的社会和环境因素。更具体地说，假设我们有一个场景图G=帧m+1处的代理意图。这种信息共享和意图调节的过程在下一个f个时间步中反复重复，其中f为注意最后的预测帧编号，并且OB表示最后的观察帧。形式上，在每个帧m处，我们首先估计在离散的意图集合（行人与行人的不同意图集合）上的概率分布。车辆），Ai：P（Iim|Ii〇 b：m-1，Ui〇：m-1，Gi，ai〇：ob，[Aj2N（Ai）Ij〇 b：m-1，Uj0：m-1，Gj，aj 0：ob，Ree）其中I是指意图，U是位置，G是长期位置目标，a是动作，并且Ree是指道路入口/出口标签。意图网络是两层MLP，其使用来自最近消息传递的每个行动者的更新的隐藏状态来预测意图在此之后，我们预测每个代理U的下一个位置，条件如下：（V，E）其中顶点， V 代表代理商和道路-P（U）i|Ii，Ui，Gi，ai，[A2N（A）I] ，trances/exits和edges，E，捕获代理-代理和代理-m+1o：m0：m0：objio：m地图影响在给定的场景中，对于相邻的代理Uj0：m，Gj，aj0：ob，Ree）...远景目标建议执行者状态观察编码器编码器解码器预测目标，演员轨迹场景图+预测车辆意向，BTV的1一个k轨迹解码器行人意图一个2一个3一个4输出轨迹98082Xn轨迹解码器模块由GRU组成，其更新每个演员我们的模型概述如图4所示补充材料中将提供具体的模型4.2.3损失函数我们的目标建议网络（GPN）遵循[9]中介绍的方法，并通过以下损失函数进行训练LGPN=1DKL（N（μ，σ）kN（0， I））+2kG-Gk2这里，1和2是用于对KL散度损失和目标重建损失进行加权以训练CVAE的可调参数我们观察到通过条件反射训练地面实况目标位置有助于模型收敛，因为意图取决于长期目标。我们的解码器模块，负责inten- tion和轨迹预测是由单独的损失每个人的条件。我们的意向损失定义如下：对于意图预测，我们评估意图的逐帧分类准确性，并将混淆矩阵可视化以分析分类性能。5. 实验在本节中，我们展示了我们的模型在轨迹意图预测任务上的结果，并在各种设置中展示了相对于现有技术基线（具有公开可用的代码）的卓越性能。我们对PECNet [3]进行了基准测试，PECNet [3]是一种强大的场景不可知轨迹预测方法，在标准意图不可知预测数据集上具有最先进的S-STGCNN [46]和S-GAN [23]是强大的社会感知模型，在各种基准上实现了现有技术水平。我们还报告了注释频率对最终性能的影响的有趣消融，这证实了我们对轨迹预测中详细意图注释的有效性的假设。轨迹预测性能我们报告我们的tfLint=-Xwijyijlog（yij）模型j=tob+1i=0由于严重的类别不平衡，我们不仅增加了罕见的轨迹，如车道变化和转弯，而且还通过wi加权交叉熵损失，这是类别的逆由于我们预测位置（速度）的偏移量，而不是直接预测位置以获得更好的模型收敛性，因此我们的损失是所有时间步的预测速度VLt raj=||V-V ||2我们通过对每个损失项进行加权来训练我们的网络端到端：L最终=λ1LGPN+λ 2Lint+λ 3Ltraj5.1.1评估指标对于轨迹预测评估，我们使用标准平均位移误差（ADE）和最终位移误差（FDE）度量：表2中的多峰预测（N = 20次）和表3中的多峰预测（N= 20次）。我们的消融与Ours（无动作/意图标签）、IC（有动作/意图标签，用于注意力条件反射）、SG（有场景图，用于社会理性和环境线索）相结合。出现了几个有趣的趋势。首先，我们观察到，在单次拍摄设置中，我们的意图条件化模型在ADE中以12%的显着裕度优于现有技术的方法，在FDE中为9%。其次，我们在多镜头预测设置中也看到了类似的趋势，我们的模型在ADE中优于PECNet 33%，在行人的 FDE 中优于 PECNet 9% ，在 ADE 中优于 PECNet26%，在移动车辆的FDE中优于PECNet 13%。第三，请注意，在变道和转弯等硬非线性情况下，性能差距很大，其中我们的模型在ADE和FDE中的性能分别提高了30%同样值得注意的是，条件化预测对意图的关键影响，以及通过场景图纳入社会和我们注意到，意图线索和场景图信息对整体性能至关重要，意图可提高ADE性能到7%和8%（尤其是非线性Ptfkj-ujk2例如车道变换和转弯的轨迹ADE=j=tob+1（tf-tob）FDE =kutf-utfk2和多模式设置。我们注意到，场景图在ADE中将多模态集的性能提高了3%-其中u和u分别是估计位置和地面实况位置此外，我们使用[23]中引入的minADE-N和minFDE-N误差度量进行多模态评估。该指标就是最小ADE以及在测试时预测的N个在所有类型的代理之间。我们注意到行人的一个有趣行为行人意图的条件，如交叉路口与如表2所示，等待交叉有助于单次射击预测。然而，我们没有看到多模态预测的好处9809S-STGCNNEvolveGraphPECNet我们我们的+IC我们的+ IC +SGAdeFDEAdeFDEAdeFDEAdeFDEAdeFDEAdeFDE行人0.961.980.831.490.791.310.611.380.561.240.551.21车辆3.037.013.032.586.636.342.376.202.235.802.245.82变道4.4110.172.967.922.787.602.937.882.476.782.526.71反过来3.488.153.137.852.977.442.767.262.697.032.697.02表2：N=1个样本的轨迹误差度量：各种最先进基线的ADE和FDE以及我们使用单峰（单次激发）评估的方法。报告的误差单位为米。越低越好。我们显示了在不同类别上评估的结果，以获得对预测性能的更多我们报告1）行人，2）车辆（非静态），3）改变车道的代理，以及4）转弯的代理的错误S-GANS-STGCNNEvolveGraphPECNet我们我们的+ IC我们的+ IC +SGAdeFDEAdeFDEAdeFDEAdeFDEAdeFDEAdeFDEAdeFDE行人1.042.180.631.010.550.790.510.700.360.700.370.710.340.64车辆3.578.052.284.461.723.411.593.051.333.091.202.631.182.64变道3.508.413.006.091.863.391.622.851.423.301.262.701.222.71反过来3.759.012.685.712.254.321.964.071.543.591.453.241.403.13表3：N=20个样本的轨迹误差度量：各种最先进基线的ADE和FDE以及我们使用多模态评估的方法。报告的误差单位为米。越低越好。我们在表2中描述的相同类上报告错误。图5：top-1轨迹预测结果的可视化（绿色：过去观察，蓝色：地面实况，红色：预测）和深绿色圆圈中的特定主体在观察时间步长开始时的逐帧意图（GI：真实意图，PI：预测意图）显示在每个场景的底部。补充材料中提供了更详细的我们假设这是因为我们标记为行人的意图类型这在图8中得到验证，图8示出了利用下采样的意图注释的实验我们观察到，对于行人，较低频率的注释不会降低性能(a) 溶媒（N=1）（b）溶媒（N=20）(c)行人（N=1）（d）行人（N=20）图6：意图预测混淆矩阵。(a-b)在单模式和多模式采样下的车辆的结果，（c-d）行人的结果。与车辆相比，由于更不受约束的行为，我们不能具有用于车辆的详细意图标签，这可以解释为什么意图条件反射只对行人的单发情况有帮助的行为。在图5中，我们可视化了模型的20强表现。我们观察到，预测的轨迹是相当准确的，并与潜在的转向意图。虽然在准确的框架意图预测中存在局限性，但我们注意到它可以捕获关键的未来转向动作，并可以帮助指导预测。意图预测：除了轨迹预测之外，我们的数据集还可以更高层次地理解代理意图，以模仿他们如何规划轨迹。图7示出了在25帧（5s）预测时域上的意图预测的性能我们的工作是第一个9810(a)溶媒（N=1）（b）溶媒（N=20）(c)行人（N=1）（d）行人（N=20）图7：准确度与未来地平线（帧）。每个图的x轴是时间，每个图的y轴是精度（从0到1）。针对单峰和多峰预测两者的意图预测准确度在时间范围上的变化。在（a-b）中，我们分别针对N=1和N=20个样本绘制了车辆的意图准确度随时间的变化。在（c-d）中，我们绘制了针对行人的意图准确度随时间的变化，其中N=1和N=20个样本。在逐帧水平上对行人和车辆意图两者进行基线化。我们注意到，预测性能单调恶化的地平线。然而，我们注意到，对于车辆的意图准确性在多模态设置显着提高从单峰的情况。这就解释了为什么意图条件反射在多模态情况下更有帮助，因为代理意图被更准确地理解。相比之下，行人的意图表现只有轻微的改善。我们假设这是因为行人的意图不会频繁地改变，并且不像“左转”那样粒度捕获方向为了更好地理解意图估计，我们将混淆矩阵可视化，如图6所示。对于车辆，我们使用以下一组离散动作：移动、停止、停车、变道、左转和右转。我们观察到多模态目标目的地采样的车辆意图预测的性能提高，表明我们的模型可以将长期目标与短期意图相关联。对于行人，我们使用移动，等待交叉，交叉和停止。行人的意图不会像车辆那样快速变化。因此，我们看到，多模态预测实际上并没有提高行人的意图估计。这些结果证实了表3中的结果，其中具有意图的多模态预测未能优于没有意图的预测。这将在下一节中进一步讨论。注释频率的影响：我们的数据集以5FPS为所有用户提供了非常详细的逐帧意图标签。图8：基于变化的地面实况意图注释频率的ADE性能。剂. 为了检查具有如此详细注释的数据集的重要性我们提供了我们的模型与甲骨文意图在不同的频率。如图8所示，轨迹预测性能随着意图标签的频率降低而大致线性地恶化。这突出了我们高度详细的注释的重要性，因为选择注释其他帧（2.5FPS）显然会影响性能。注意，这种效果主要针对车辆，特别是那些改变车道或转弯的车辆。行人的行为没有受到太大的影响，因为用于行人的意图标签对于每个帧没有急剧变化。这也解释了为什么意图条件反射对行人的多模态评价没有帮助，如表3所示。6. 结论在这项工作中，我们提出了一个大规模的异构数据集详细，帧明智的意图注释。该数据集允许传统的轨迹预测以及理解意图如何在长时间范围内变化。在这样做时，该数据集是第一个可以用作车辆和行人意图理解的基准此外，我们制定了一个联合轨迹和意图预测框架，它优于最先进的轨迹预测指标，并提供了一个强大的基线意图预测。我们弥合了轨迹预测和意图预测之间的差距，并表明将两者结合起来可以更好地模拟智能体的决策过程，从而有助于轨迹预测。我们相信我们的数据集可以激发未来的工作，除了传统的轨迹预测，考虑意图预测这样做可以更深入地了解模型确认我们感谢本田美国研究所的同事-9811引用[1] Susan Carey和Elizabeth Spelke特定领域的知识和概念的转变。映射思维：认知与文化中的域特异性，169：200，1994。[2] Vivian V Valentin ， Anthony Dickinson ， and John PO'Doherty. 确定人脑中目标导向学习的神经基质。Journal of Neuro- science，27（15）：4019[3] Karttikeya Mangalam，Yang An，Harshayu Girase，andJitendra Malik. 从目标、路标到长期人体轨迹预测。arXiv预印本arXiv：2012.01526，2020。[4] Chiho Choi、Srikanth Malla、Abhishek Patil和Joon HeeChoi。Drogon：基于意图制约行为推理的轨迹预测模型。在2020年机器人学习会议上[5] Hang Zhao ， Jiyang Gao ， Tian Lan ， Chen Sun ，Benjamin Sapp，Balakrishnan Varadarajan，Yue Shen，Yi Shen，Yunning Chai，Cordelia Schmid，et al. TNT：目标驱动轨迹预测。arXiv预印本arXiv：2008.08294，2020。[6] Bingbin Liu ， Ehsan Adelli ， Zhangjie Cao ， Kuan-HuiLee，Ab-hijeet Shenoi，Adrien Gaidon，and Juan CarlosNiebles.行人意图预测的时空关系推理，2020年。[7] Amir Rasouli 、 Iuliia Kotseruba 、 Toni Kunic 和 John KTsotsos。Pie：用于行人意图估计和轨迹预测的大规模数据集和模型在IEEE/CVF计算机视觉国际会议论文集，第6262-6271页，2019年[8] Sergio Casas ， Wenjie Luo ， and Raquel Urtasun.Intentnet：学习从原始传感器数据预测意图。在机器人学习会议上，第947-956页。PMLR，2018。[9] KarttikeyaMangalam ， HarshayuGirase ， ShreyasAgarwal ， Kuan-Hui Lee ， Ehsan Adelli ， JitendraMalik，and Adrien Gaidon.这不是旅程，而是目的地：终点条件轨迹预测。欧洲计算机视觉会议，第759-776页。Springer，2020年。[10] 阿米尔·拉苏利行人模拟：审查. arXiv预印本arXiv：2102.03289，2021。[11] 杨乐存。mnist手写数字数据库。http：//yann. 乐村com/exdb/mnist/。[12] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络的图像网分类。神经信息处理系统进展，25：1097[13] Amir Rasouli、Iuliia Kotseruba和John K Tsotsos。他们要过河吗？行人人行横道行为的基准数据集和基线。在IEEE计算机视觉研讨会国际会议论文集，第206-213页[14] Srikanth Malla、Behzad Dariush和Chiho Choi。使用行动先验的未来预测.在IEEE/CVF计算机视觉和模式识别会议论文集，第11186-11196页[15] Andrey Rudenko ， Luigi Palmieri ， Michael Herman ，Kris M Kitani，Dariu M Gavrila，and Kai O Arras.人体运动轨迹预测：综述。国际机器人研究杂志， 39（8）：895[16] Ming-Fang Chang，John Lambert，Patsorn Sangkloy，Jag-jeetSingh ， Slawomir Bak ， Andrew Hartnett ， DeWang，Peter Carr，Simon Lucey，Deva Ramanan，et al.Argoverse：3d跟踪和预测与丰富的地图。在IEEE/CVF计算机视觉和模式识别会议论文集，第8748-8757页[17] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页[18] Parth Kothari，Sven Kreiss，and Alexandre Alahi.人群中的人体轨迹预测：深度学习的视角。arXiv预印本arXiv：2007.03639，2020。[19] 一个罗比凯，一个萨代基安，一个阿拉希，和S萨瓦雷塞。学习社交礼仪：拥挤场景中的人体轨迹预测。欧洲计算机视觉会议（ECCV），2020年。[20] 放大图片作者： Andrey Rudenko ， Luigi Palmieri ，Michael Herman，Kris M.达留·基塔尼Gavrila和Kai O.阿拉斯人体运动轨迹预测：调查。arXiv电子印刷品，2019年。[21] Jiachen Li，Fan Yang，Masayoshi Tomizuka，and ChihoChoi. Evolvegraph：基于动态关系推理的多智能体轨迹预测。在神经信息处理系统的进展，2020年。[22] Amir Sadeghian 、 Vineet Kosaraju 、 Ali Sadeghian 、Noriaki Hirose 、Hamid Rezatofighi 和Silvio Savarese 。Sophie：一个专注的神经元，它能预测符合社会和物理约束的路径在IEEE计算机视觉和模式识别会议论文集，第1349- 1358页[23] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年[24] Hengbo Ma ， Yaofeng Sun ， Jiachen Li ， MasayoshiTomizuka，and Chiho Choi.利用条件生成记忆的连续多智能体交互行为预测。IEEE Robotics and AutomationLetters，2021。[25] Matteo Lisotto，Pasquale Coscia，and Lamberto Ballan.拥挤空间中的社会和场景感知轨迹预测在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页[26] Sumit Kumar，Yiming Gu，Jerrick Hoang，Galen ClarkHaynes，and Micol Marchetti-Bowick.混合交通图上基于交互的轨迹预测。arXiv预印本arXiv：2009.12916，2020。9812[27] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页[28] Nachiket Deo和Mohan M Trivedi。基于网格规划的未知环境中的轨迹预测。arXiv预印本arXiv：2001.00735，2020。[29] Jiachen Li ， Fan Yang ， Hengbo Ma ， MasayoshiTomizuka，and Chiho Choi. Rain：用于运动预测的增强混合注意力推理网络。在2021年国际计算机视觉会议（ICCV）的会议记录中[30] Vineet Kosaraju ， Amir Sadeghian ， Roberto Mart´ın-Mart´ın ， Ian Reid ， S Hamid Rezatofighi ， and SilvioSavarese.社交- bigat：使用自行车-甘和图形注意力网络的多模态轨迹预测。arXiv预印本arXiv：1907.03395，2019。[31] Chiho Choi，

下载后可阅读完整内容，剩余1页未读，立即下载