没有合适的资源?快使用搜索试试~ 我知道了~
97100大规模交互式运动预测自动驾驶:W AYMO O PEN M OTION D ATASET0Scott Ettinger 1,Shuyang Cheng 1,Benjamin Caine 2,Chenxi Liu 1,Hang Zhao 1,Sabeek Pradhan 1,Yuning Chai 1,Ben Sapp 1,CharlesQi 1,Yin Zhou 1,Zoey Yang 1,Aur´elien Chouard 1,Pei Sun 1,Jiquan Ngiam 2,Vijay Vasudevan 2,Alexander McCauley 1,JonathonShlens 2,Dragomir Anguelov 101 Waymo LLC,2 Google Brain0摘要0随着自动驾驶系统的成熟,运动预测作为规划的关键要求越来越受到关注。特别重要的是交互式情况,例如合并、无保护转弯等,单独预测对象的运动是不够的。需要联合预测多个对象以进行有效的路径规划。开发运动规划模型需要富含交互和注释的高质量运动数据。在这项工作中,我们介绍了我们所知道的最多样化的交互式运动数据集,并提供适用于开发联合预测模型的相互作用对象的具体标签。我们的新数据集包含超过100,000个场景,每个场景持续20秒,频率为10Hz,总共包含超过570小时的独特数据,覆盖1750公里的道路。该数据集通过挖掘美国六个城市之间车辆、行人和骑车者之间的有趣交互来收集。我们使用高精度的3D自动标注系统为每个道路代理生成高质量的3D边界框,并为每个场景提供相应的高清3D地图。此外,我们引入了一组新的度量标准,全面评估单个代理和联合代理交互运动预测模型。最后,我们提供了个体代理预测和联合预测的强基线模型。我们希望这个新的大规模交互式运动数据集能为推进运动预测模型提供新的机会。01. 引言0随着自动驾驶系统规划的复杂场景的增加,运动预测作为自动驾驶系统规划的关键要求越来越受到关注[8, 14, 40, 36,28,34]。由于自动系统需要安全处理的场景的复杂性,预测场景中对象的运动是一项困难的任务,适合于机器学习模型。构建有效的运动0(a) 车辆在开始转弯之前等待行人完全穿过人行横道。0(b) 只有在来车转弯后,车辆才加速进入街道。0图1:W AYMO O PEN M OTION D ATASET中场景中代理之间的交互示例。每个示例都突出了预测代理行为的联合有助于预测可能的未来情景。实线和虚线表示道路图和相关车道。每个数字表示场景中的唯一代理。0预测模型需要大量高质量的真实世界数据。创建运动预测数据集的复杂之处在于真实世界数据的分布高度不平衡[4, 18,32,38];在常见情况下,车辆以恒定速度直行。为了开发有效的模型,数据集必须包含并测量在操作中自动驾驶系统将遇到的各种行为和轨迹形状的不同对象类型的性能。我们认为关键情况(例如合并、变道和无保护转弯)需要对一组多个相互作用的对象进行联合预测,而不仅仅是单个对象。图1a中展示了行人和车辆相互作用的示例,其中车辆在转弯之前等待行人完全穿过街道。在图1b中,# unique tracks53.4 m §4.3 k11.7 m ‡40 k7.64 mAvg track length1.8 s §-2.48 s ‡19.8 s ∗7.04 s ††Time horizon5 s6 s3 s3 s8 s# segments170k1k324k-104kSegment duration25 s20 s5 s-20 sTotal time1118 h5.5 h320 h16.5 h ∗574 hUnique roadways10 km-290 km-1750 km††97110橙色车辆在确保蓝色车辆意图减速并离开道路后,才加速进入道路。大多数现有数据集都集中在单个代理的表示上,但在大规模交互建模方面的研究相对较少,这是本研究的动机。本研究的目标是提供一个大规模、多样化的数据集,具有用于交互对象的特定注释,以促进联合预测交互行为模型的发展。此外,我们的目标是在广泛的道路几何形状上提供对象行为,并在各种位置上提供大量注释的交互。为了生成这样的数据集,我们制定了在大量驾驶数据中挖掘交互行为的标准。我们在训练和验证/测试数据中明确注释了一组交互对象,以便开发能够同时预测多个代理的运动以及单个预测模型的模型。我们旨在提供高质量的对象跟踪数据,以减少感知噪声带来的不确定性。手动标记所需大小的数据集成本是不可承受的。相反,我们使用最先进的自动标注系统[26]提供场景中对象的高质量检测和跟踪数据。与许多数据集提供的来自车载自动驾驶系统的跟踪相比,离线自动标注系统提供更高的准确性,因为它不受实时运行的限制。这些高质量的轨迹使我们能够专注于理解对象行为的复杂性,而不是处理感知噪声。交互预测模型的评估需要针对联合预测的度量,这是最近的研究工作所提出的动机[33, 6, 34,28]。在第4节中,我们讨论了关于将度量推广到联合预测情况的现有工作。我们还提出了一种新颖的平均精度均值(mAP)度量,以捕捉模型在不同对象类型、预测时间尺度和轨迹形状桶(例如U型转弯、左转)上的性能。这种方法受到目标检测文献中使用的度量的启发,并克服了当前采用的度量的局限性。我们将我们的大规模交互运动数据集命名为:WAYMO OPEN MOTIONDATASET。它将向研究界公开提供,并希望它能为开发运动预测模型提供新的方向和机会。我们总结我们的工作贡献如下:0•我们发布了一个用于运动预测研究的大规模数据集,其中包含特定标记的交互行为。该数据源于多个城市的丰富场景中的高质量感知输出,并带有丰富的注释。0• 我们提供了用于运动预测分析的新型度量标准,以及具有挑战性的基准测试0Lyft NuSc Argo Inter Ours0采样率 10 Hz 2 Hz 10 Hz 10 Hz 10 Hz 城市覆盖数 1 2 2 6 � 6 对象类型数 3 1 † 1 ‡ 1 32D框 3D框 无 2D框 3D框 3D地图 � � 离线感知 � � 交互 � � 交通信号状态 � �0表1:流行的行为预测和运动预测数据集的比较。具体来说,我们比较了Lyft Level 5 [19],NuScenes[4],Argoverse [9],Interactions[39]和我们的数据集在多个维度上的差异。# objecttypes表示要预测运动轨迹的对象类型数量。虚线“-”表示数据不可用或不适用。§ Lyft Level5的唯一轨迹数和平均轨迹长度是通过私人通信确定的。†nuScenes[4]提供了23种对象类型的注释(去除了静止车辆),但只预测车辆。‡ Argoverse[9]提供了15种对象类型的注释(附录B),但只预测车辆。唯一轨迹数是通过私人通信确定的。平均轨迹长度是根据数据估计的。� Interactions[39]从4个国家的6个城市收集了数据(最后一个统计数据是通过个人交流收集的),整个数据集没有分段。平均轨迹长度是根据数据估计的。††我们的平均轨迹长度是在训练集的20秒段上计算的。我们的总唯一道路距离是通过将我们的自动驾驶车辆姿态哈希为25米体素并计算非零体素的数量来计算的。0边际和联合预测案例。02. 相关工作0运动预测数据集已经开发了几个现有的公共数据集,其主要目标是在现实世界的城市驾驶环境中进行运动预测,如表1所示。这些数据集在场景数量、总时间、总里程、跟踪对象数量和不同时间段数量等方面有所不同。虽然Lyft Level 5[19]拥有最多的数据小时数,NuScenes[4]拥有丰富的对象分类,但它们并不是为了捕捉各种复杂和交互式的驾驶场景而收集的。Argoverse[9]是为了有趣的行为而收集的,通过偏向采样来选择某些观察到的行为(例如车道变换、转弯)和道路特征(例如交叉口)。97120INTERACTION数据集[39]手动选择了一小组特定的驾驶位置(例如环岛)和时间(例如高峰时段),以获得具有高交互复杂性的数据集。我们在第3.1节中解释了我们自己收集交互数据的方法论。另一个显著的数据集属性是预测的时间范围。我们的数据集的预测范围是未来8秒,比其他数据集(3或5秒)要长得多,因为我们认为长期预测对于安全和类似人类的规划是必要的,并且本质上更加困难。最后,大多数数据集都使用行业级的车载3D感知堆栈进行自动标注,使用激光雷达、摄像头和/或雷达,并提供带有噪声状态估计和跟踪误差的原始数据。唯一的例外是INTERACTION数据集[39],它从无人机镜头中收集数据,然后进行离线处理,包括检测、跟踪和轨迹平滑。我们还通过使用离线3D检测和跟踪流水线来努力创建高质量的状态估计和3D轨迹,如第3.3节所讨论的。我们认为感知数据集(例如KITTI[15],Waymo Open Dataset[32])不包含足够的运动数据来构建足够复杂的模型,因此超出了本讨论的范围。生成合成数据[29]是另一种研究方向,但通过收集真实世界的数据,行为没有现实主义的问题,因此对领域适应和迁移的影响较小。我们还注意到,还有许多其他运动预测数据集,虽然很受欢迎,但规模要小得多,只有O(10)个独特位置,或者不专注于驾驶环境,例如斯坦福无人机数据集[30],NGSIM [10],ETH [24],UCY[21],Town Center [2]。0一致的多智能体预测大多数现有模型在场景中为每个对象输出独立的未来分布,例如[1, 3, 7, 5, 8, 12, 11, 14, 17, 20,22, 25,40]。这是受到流行的度量标准的鼓励,这些度量标准只在每个对象的水平上衡量质量,并且数据集只要求在每个场景中预测一个代理。重要的一点是,这些方法确实对对象之间的相互作用进行建模以获得更好的性能,但明确建模联合未来的方法要少得多。有一些例外,它们模拟联合一致的未来:Pre- cog [28]和MFP[34]使用模型逐时间步骤地推出轨迹样本,其中每个代理的下一步样本都取决于所有其他代理的当前和过去步骤。相比之下,ILVM [6](也被Traf�cSim[33]使用)从一个潜在变量中采样,该变量解码出所有代理的多步未来联合样本,而不是对每个推出步骤进行明确的条件化。这些工作都使用了更严格版本的距离误差度量,报告了最佳联合配置的每个代理的误差。需要注意的是,表1中的数据集都不具备这种特性。0与我们的WAYMO OPEN MOTIONDATASET相比,它们的发布中没有提供这些联合度量。03. 数据集0该数据集提供了使用离线感知系统(在第3.3节中描述)生成的高质量物体轨迹,以及静态和动态地图特征,以提供道路环境的上下文。对象轨迹状态以10Hz的采样率进行采样。每个状态包括对象的边界框(3D中心点,航向,长度,宽度和高度)以及对象的速度向量。由于传感器范围或遮挡,某些时间步骤可能不存在对象状态的测量。提供一个有效标志以指示哪些时间步骤具有有效的测量。地图数据以一组由曲线采样而成的折线和多边形形式提供,采样分辨率为0.5米。静态地图特征类型包括车道中心,车道边界线,道路边缘,停车标志,人行横道和减速带。交通信号状态及其控制的车道也包括在内。除了几何数据外,地图特征还包含特定于每个特征类型的其他数据,例如车道边界具有一个字段,指示它们是破碎的白色边界,双黄边界等。从根据第3.1节中描述的交互进行挖掘的20秒段开始,我们创建了9.1秒(10Hz的91个步骤)的场景,将数据分为70%的训练集,15%的验证集和15%的测试集。我们派生了验证集和测试集的两个版本,我们称之为标准版本和交互版本。标准验证集和测试集在每个场景中提供最多8个要预测的对象。选择偏向于需要不遵循恒定速度模型或直线路径的对象。交互版本的验证集和测试集侧重于段的交互部分,只需要预测2个挖掘到的交互对象。原始的20秒段也提供给需要更长时间范围的研究。03.1. 挖掘有趣的场景0我们通过首先手工创建涉及代理关系的语义谓词来挖掘有趣的场景,例如“代理A在时间t改变车道”和“代理A和B在时间间隔t和相对航向差异θ交叉路径”。这些谓词可以组合以在整个数据语料库上检索更复杂的查询,该语料库的规模比结果经过筛选的WAYMO OPEN MOTIONDATASET大数个数量级。借助这个框架,我们特别挖掘了以下成对交互场景:合并,车道01原始视频和传感器数据不包含在发布中,因为包含它们会使数据集的大小变得不切实际(数百TB)。020406080100120Number of Agents0.0000.0050.0100.0150.020Percent of Scenes 12345678Predicted Agents Per Scene0.000.050.100.150.20Fraction of ScenesVehiclesPedestriansCyclists97130总代理数量0验证-预测代理0图2:我们的数据集包含许多代理,包括行人和骑车者。顶部:46%的场景中有超过32个代理,11%的场景中有超过64个代理。底部:在标准验证集中,33.5%的场景需要至少预测一个行人,10.4%的场景需要至少预测一个骑车者。0变更,无保护转弯,交叉口左转,交叉口右转,行人-车辆交互,骑车者-车辆交互,与近距离交互,与高加速度交互。在数据集中的每个场景中,都对交互的对象进行了注释,并且交互发生在20秒片段的10秒标记附近。03.2. 数据集统计0与许多现有数据集提供的每个场景或代理类型数量有限相比,我们提供了更多样化的场景,包括代理数量和代理类型,反映了许多复杂的真实世界驾驶场景,如城市驾驶和繁忙的交叉口。我们展示了每个场景中代理数量的分布(图2,顶部)。所有场景至少有一个车辆,57%的场景至少有一个行人(其中20%有四个或更多),16%的场景至少有一个骑车者。我们的数据集包含车辆,行人和骑车者之间的丰富交互,并且使用此数据集的用户必须能够准确预测所有三类的轨迹,而在以前的数据集中并非如此[9, 4,39]。我们展示了在验证集中我们要求模型预测每个类别的场景的频率(图2,底部)。值得注意的是,验证集中有38.3%的场景要求模型预测多种类型的代理(例如车辆和行人或骑车者),4.9%的场景要求模型预测所有三类的轨迹。最后,在交互验证集中,我们要求模型预测两个交互代理的联合未来轨迹,77.5%的场景涉及两个交互车辆,14.9%的场景涉及车辆与0图3:被选中进行预测的代理具有多样的轨迹。左图:参考帧中每个预测代理的地面真值轨迹,其中所有代理都从原点开始,朝着正X轴(向上)指向。右图:所有代理在其9秒轨迹上达到的最大速度分布。图表展示了轨迹形状和速度配置的多样性。0行人,7.6%的场景涉及车辆与骑车人的交互。最后,运动预测数据集应包含多样的场景、轨迹和代理之间的交互。表1显示了我们收集了跨越大范围道路的数据。图3可视化了我们要求模型预测的代理的未来地面真值轨迹和最大速度。这些代理代表了各种轨迹形状、速度和行为,我们相信这准确地捕捉了每个类别的许多不同行为模式。03.3. 离线感知系统0现代运动预测系统需要大量的训练数据来模仿复杂实际场景中的人类操纵。最近发布的运动预测数据集[9, 18,4]比流行的3D感知数据集[4, 19, 32,15]大几个数量级。然而,以如此大的规模手动注释数据集不仅成本高昂,而且需要大量的时间[26,37]。受到高成本的限制,大多数现有的运动预测数据集[9,18]直接使用车载感知输出作为轨迹预测的地面真值。但受到车载感知的限制。97140系统性能,这些注释的3D对象轨迹可能具有较高的状态估计误差,缺乏时间动力学一致性或过度/欠分割的轨迹。在这项工作中,我们旨在减轻由约束的车载感知系统产生的噪声,缓解现有自动驾驶车辆捕获的运动数据集中的感知质量瓶颈,并提出使用最近引入的离线算法[26,37]自动生成高质量的运动标签,使运动预测算法能够专注于代理的微妙动态和相互作用,而不是克服由约束的车载感知系统产生的噪声。与车载感知相比,离线感知有两个主要优势:1)它可以在充足的计算资源上运行更强大的模型;2)它可以通过利用包括历史和未来的完整点云序列最大限度地聚合不同视图的互补信息。由于这些优势,离线感知系统在感知准确性方面表现出优于车载检测器的性能[26],我们在第5.3节进一步验证了其质量。04. 指标0为了衡量运动预测的准确性,我们使用一套包含五个指标的测试套件,我们根据几个相关的研究工作[34, 6,28]对其进行了扩展,以处理多个代理的联合预测。几个常见的指标报告了轨迹集合中的最小误差;当推广到联合指标时,最佳联合配置的最小值约束了来自一组代理的轨迹。我们报告标准的轨迹集合距离误差指标minADE、minFDE和MissRate(MR),其中MR的匹配定义如下所述。我们还报告重叠率(OR)来衡量预测轨迹的范围与其他轨迹的重叠频率。最后,受检测文献的启发,我们提出了一个平均精度(AP)指标,根据定义的MR来衡量模型在不同置信度值下的精确度和召回率性能。然后,我们通过报告不同语义轨迹运动类型的平均AP(mAP)来考虑不平衡的数据。对于每个评估的示例场景e,模型进行K个可能的联合预测Sk,其中k∈1...K。每个Sk包含一个标量置信度ck和一个轨迹sk={sat}t=1:T,a=1:A,用于A个代理的T个未来时间步长的预测。类似地,地面真值被表示为ˆs={ˆsat}。单个对象预测任务成为此公式的特殊情况,其中每个联合预测仅包含一个单个代理A=1。minADE。最小平均位移误差计算ˆs与最接近的联合预测之间的L2范数。0t || ˆsa,t - ska,t || 2.minFDE.最小最终位移误差等同于在单个时间步骤上评估minADE0A min k � a || ˆsa,T - ska,T || 2重叠率(OR)。重叠率通过从每个多模态联合预测中选择最高置信度的联合预测来计算。如果任何A个代理在任何时间与预测时间步骤(在每个时间步骤上与T进行比较)可见的任何其他对象或联合预测轨迹重叠,那么它被视为单个重叠。重叠率计算为总重叠数除以总预测数。有关详细信息,请参见补充材料。重叠是使用框交叉计算的,其中的朝向是根据连续航点位置差异推断出的。错过率(MR)。对于每个样本航点在时间t上,分配一个二进制匹配/错过指示函数ISMATCH(ˆst,st)。数据集上的平均值创建了该时间步骤的错过率。确定ISMATCH的单一距离阈值是不够的:我们希望对速度较慢且时间较近的预测使用更严格的标准,对横向偏差(例如错误车道)和纵向偏差(例如错误速度曲线)使用不同的标准。我们将其定义为:0IsMatch(ˆst, st) = 1[xkt < λlon] ∙ 1[ykt < λlat] (1)0[xkt, ykt] := (ˆst - skt) ∙ Rt0其中Rt是由时间戳t时代理的真实朝向定义的2D旋转矩阵。参数λlon和λlat是随时间和速度变化的纵向和横向阈值。由于代理在时间0时可以具有不同的速度,因此我们通过其速度对这些阈值进行缩放,以避免对更快的代理进行过度惩罚:λlon = λlon tγ(vx)和λlat = λlat tγ(vy),其中γ(v) =(max(0, min(1, (v - υL) / (υH - υL))) / 2 +0.5。我们将υH设置为11 m/s,将υL设置为1.4m/s。时间相关的阈值如下:0λlatt λlont0T=3秒 1 20T=5秒 1.8 3.60T=8秒 3 60对于特定的联合配置,如果任何轨迹与其真实轨迹不匹配,则在时间t上分配一个错过。MRt = mink∨a¬IsMatch(ˆst,ska,t)。平均平均精度(mAP)。平均精度通过在验证集上应用置信度分数阈值ck,并使用上述错过率的定义来定义真正阳性、假阳性等,计算精度-召回曲线下的面积。与目标检测的mAP指标[23]一致,每个对象只允许一个真正阳性,并分配给最高置信度的预测,其他预测被计为假阳性。受目标检测文献[13]的启发,我们寻求一个在语义桶上平衡的整体指标,其中一些桶是5. Experiments97150这些行为可能更加罕见(例如掉头),因此报告不同驾驶行为的平均AP。最终的mAP指标对八种不同的真实轨迹形状进行平均:直行、直行左转、直行右转、左转、右转、左掉头、右掉头和静止。0在本节中,我们在WAYMO OPEN MOTIONDATASET上评估了各种基准模型,以研究丰富的地图注释(例如3D道路图、交通信号状态)、交互上下文和联合建模的重要性(第5.1节)。然后,我们将条件行为预测指标上的标准验证数据集和交互验证数据集进行比较,以显示交互验证数据集既更具挑战性又更具交互性(第5.2节)。此外,我们还展示了我们的离线感知系统在准确性和感知噪声降低方面与人类标签相似(第5.3节)。最后,为了提供关于运动预测任务性能测量的见解,我们经验性地分析了minADE与mAP在反映置信度得分校准质量方面的能力(第5.4节)。我们明确不与现有数据集进行比较,因为数据的差异(例如感知噪声)可能会极大地影响指标结果。05.1. 基准模型性能0在本节中,我们在提出的数据集上评估了几个基准模型。首先,我们考虑一个恒定速度模型,其中我们假设代理在当前时间戳上将保持其速度直到所有未来步骤。其次,我们考虑一系列使用各种编码器的深度学习模型,其中基本架构是使用LSTM编码1秒观察状态的历史[16,1];这包括代理的位置、速度和3D边界框。为了衡量特定附加特征的重要性,我们有选择地提供额外的信息:0•道路图(rg):使用多段线编码3D地图信息,遵循[14]。0• 交通信号(ts):使用LSTM编码器将交通信号状态作为附加特征进行编码。0•高阶交互(hi):使用全局交互图对代理之间的高阶交互进行建模,遵循[14]。在实验中,这些编码的组合被连接在一起,为每个代理创建一个嵌入。请注意,该模型在很大程度上基于[36]中报告的架构,该架构是Argoverse中排名靠前的模型之一,应被视为接近最先进的模型。我们使用另一个具有最小-k损失的MLP对输出解码为K=6条轨迹[12,35]。详细信息请参见补充材料。在表2和表3中,我们分别报告了标准验证/测试集上的边缘指标和交互验证/测试集上的联合指标。具体来说,minADE,0选择了missrate和8秒时的mAP作为代表,并将这些指标分解为3种物体类型。恒定速度模型表现非常差,例如在车辆上实现了两位数的minADE。这表明我们的数据集包含非平凡的轨迹。然后,我们研究了编码3D地图信息、交通信号状态和代理之间的高阶交互的重要性。直观上,它们都应该有助于运动预测,实验结果确实支持了这一点。例如,在标准验证集上进行车辆轨迹预测时,当按照这个顺序逐步添加更多信息时,minADE从2.63提高到1.34,mAP从0.07提高到0.23。对于行人和骑车者也是如此。我们只在交互集上评估联合指标。由于进行联合预测是一个相对较新的实践,没有成熟的、已建立的基准。在表3中,我们重复使用训练用于进行K个边缘预测的模型;但是在评估2个交互代理时,我们根据预测概率的乘积从K^2个可能性中选择前K个,如[6]所述。表3中的整体低性能可以归因于至少3个因素:挖掘的交互代理的更高难度级别;根据联合版本的指标要求对两个代理都进行良好的预测;预测是事后操作而不是真正联合训练的结果。我们已经论证了联合预测交互行为的重要性。在表4中,我们直接比较了一个基本的LSTM(不包含rg、ts或hi)在对2个交互代理进行边缘或联合预测时的性能。在联合预测模型中,将2个交互代理的神经特征连接在一起,以提供最小的必要上下文;使用它们与地面真值的距离之和(同时联合匹配轨迹对)进行训练;为每对轨迹联合预测置信度分数以确保一致性。在使用联合指标评估交互集时,这个联合模型的性能优于其边缘对应物。我们希望这个初步实验能够激发对我们的数据集,特别是交互集,进行联合模型进一步发展的动力。05.2. 量化交互性0根据[36],我们使用条件行为预测(CBP)来量化数据集中的交互性。[36]引入了一种模型,可以产生无条件预测或以“查询轨迹”为条件的预测,用于场景中的一个代理。如果两个代理不相互作用,则一个代理的行为不会对另一个代理产生影响,因此了解该代理的未来不应该改变对另一个代理的预测。因此,[36]将代理A对代理B的影响程度定义为KL散度。LSTMLSTM97160车辆 行人 骑车者 集合 模型 rg ts hi minADE ↓ MR ↓ mAP ↑ minADE ↓ MR ↓ mAP ↑ minADE ↓ MR ↓ mAP ↑0标准验证0固定速度 11.0 0.95 0.02 1.55 0.60 0.07 4.17 0.82 0.0202.63 0.67 0.07 0.73 0.22 0.15 1.86 0.60 0.07 - 1.67 0.40 0.16 0.74 0.18 0.18 1.50 0.40 0.12 - 1.54 0.32 0.19 0.66 0.140.23 1.36 0.31 0.17 - - 1.36 0.26 0.22 0.63 0.14 0.23 1.29 0.30 0.18 - - 1.52 0.31 0.18 0.65 0.15 0.20 1.34 0.33 0.15 - -- 1.34 0.25 0.23 0.63 0.13 0.23 1.26 0.29 0.210标准测试 固定速度 11.0 0.95 0.02 1.58 0.60 0.06 4.12 0.83 0.030LSTM - - - 1.34 0.24 0.24 0.64 0.13 0.22 1.29 0.28 0.200表2:标准验证和测试集上的边际度量。所有度量值在8秒内计算。rg代表道路图信息。ts代表交通信号状态信息。hi代表代理特征之间的高阶交互作用。恒定速度基线使用K = 1的预测轨迹;所有其他模型使用K = 6。0车辆 行人 骑车者 集合 模型 rg ts hi minADE ↓ MR ↓ mAP ↑ minADE ↓ MR ↓ mAP ↑ minADE ↓ MR ↓ mAP ↑0交互验证0固定速度 10.3 0.98 0.00 3.62 1.00 0.00 6.35 1.00 0.0004.16 0.88 0.01 2.45 0.93 0.02 4.00 0.98 0.00 - 2.89 0.75 0.06 2.22 0.93 0.01 3.75 0.94 0.01 - 2.94 0.75 0.04 2.39 0.860.06 3.30 0.88 0.02 - - 2.45 0.66 0.06 2.22 0.86 0.03 3.02 0.83 0.03 - - 2.92 0.75 0.04 2.69 0.93 0.10 3.24 0.89 0.01 - -- 2.42 0.66 0.08 2.73 1.00 0.00 3.16 0.83 0.010交互测试 固定速度 10.3 0.98 0.01 4.56 1.00 0.00 6.21 1.00 0.000LSTM - - - 2.46 0.67 0.08 2.47 0.89 0.00 2.96 0.89 0.010表3:交互验证和测试集上的联合度量。有关缩写和详细信息,请参见表2。请注意,这些度量指出交互拆分更具挑战性。0车辆 minADE ↓ 车辆 mAP ↑ 模型 3秒 5秒 8秒 3秒 5秒8秒0边际 0.65 1.66 4.16 0.08 0.07 0.01 联合 0.65 1.59 3.810.10 0.06 0.030表4:联合建模在交互代理上具有优势。数字来自交互验证集。0在B的无条件预测和在A的真实未来轨迹条件下的B的预测之间,我们计算了我们的交互式和标准验证数据集中每个查询代理/目标代理对的无条件和条件预测之间的KL散度。我们发现,交互验证数据集中的KL散度要比标准验证数据集中的大得多。特别地,交互数据集中73%的代理对的KL散度大于10,45%的代理对的KL散度大于50;而在标准数据集中,这些数字分别为48%和28%。图4展示了每个代理对的无条件和条件预测之间的KL散度的完整直方图。在以下内容中,我们将根据A对B的影响程度定义A对B的KL散度。0在标准验证数据集中,查询代理的未来轨迹对其他代理的预测几乎没有影响,但在交互验证数据集中有很大的影响,这表明交互数据集中包含更多的多个代理相互作用和相互影响的情况。有关CBP模型的详细信息,请参见补充材料。05.3. 感知数据质量分析0在本节中,我们研究了我们的离线感知系统的质量,并将其与两种替代方案-人工标签和基线检测器框进行比较。根据[26],我们对Waymo开放数据集(WOD)重新标记的相同五个验证集运行段进行了研究,这些数据由额外的三个独立人工标注者重新标记。通过重复的人工标签,我们可以分析人工标签的一致性,以了解标签准确性中的“背景噪声”。我们通过与原始WOD地面真实框进行比较,以米为单位评估盒子距离误差(DE)。图5显示,离线感知实现了与人工标签类似的准确性和距离误差分布。我们还显示了获得的盒子的距离误差。020040060080010001200KL Divergence between conditional and non-conditional Predictions103102101Fraction of all agent pairsInteractiveStandardRecall: 99.29%Mean DE: 0.1849Std DE: 0.2342Recall: 93.50%Mean DE: 0.1958Std DE: 0.2721Recall: 87.31%Mean DE: 0.2738Std DE: 0.38001361218240.51.01.52.02.53.0minADE (Vehicles)minADE@3sminADE@5sminADE@8s136121824Number of Predictions (K)0.10.20.3mAP (Vehicles)mAP@3smAP@5smAP@8s97170图4:交互拆分在条件预测中取得了更大的改进。直方图中的每个元素都是一个查询代理/目标代理对,x轴显示了目标代理上无条件预测与基于查询代理的地面真实未来条件的预测之间的KL散度。标准集中接近零KL散度的示例数量较多,而交互集中具有较大KL散度的示例数量较多,表明交互集中的互动性更高。0图5:车辆边界框的距离误差统计。我们将三组车辆边界框与Waymo开放数据集(WOD)地面真实框进行比较,这些框来自验证集中选择的5个运行段。统计信息包括距离误差的直方图(限制在0.8m),盒子召回率(使用3DIoU阈值为0.03),距离误差的平均值和标准差(std)。只考虑至少有一个点在内部的框。请注意,不同框的DE不能直接进行比较,因为召回率不同。0使用基线检测器(Multi-view Fusion[41])和基于卡尔曼滤波器的跟踪器(与离线感知中使用的相同跟踪器)进行比较。使用基线(机载)检测器会导致显著更高的平均距离误差-这增加的感知噪声表明行为模型可以达到更高的下界minADE。05.4. 将mAP与minADE进行比较0尽管minADE被广泛应用于运动预测任务的性能测量[9, 8,14,40],但它无法衡量轨迹预测中置信度得分校准的质量。相反,第4节中描述的mAP指标提供了对质量的测量。0图6:在不断增加的预测数量下,minADE和mAP的比较。使用第5.1节中的最佳LSTM基线模型,minADE(上)在允许增加的预测数量时人为地提高。相反,mAP(下)在模型必须产生高质量的置信度估计和准确的轨迹时饱和。0通过设计进行置信度得分校准。在本节中,我们对不同时间步长上的预测数量进行minADE与mAP的分析,以显示minADE不能提供模型性能的完整图像,而mAP提供了更多的见解。如图6所示,随着预测数量的增加,minADE人为地提高,而mAP值在3s和5s的3个预测以及8s的6个预测时达到峰值。只要任何一个预测是好的,不管它们的置信度得分如何,minADE分数都可能提高。相反,mAP惩罚高置信度的假阳性预测,并且不会随着预测数量的增加而继续改善。这些实验的精确度-召回曲线在补充材料中显示。06. 讨论0在这项工作中,我们发布了WAYMO OPEN MOTIONDATASET,这是一个大规模的运动预测数据集,包含来自多个城市的多样化道路几何的交互行为数据。数据提供了丰富的3D对象状态和高清地图信息。对象轨迹是通过一种先进的离线自动标注系统生成的,其准确性显著高于典型的车载3D感知堆栈。为了评估,我们提供了一组指标,用于单个和联合轨迹预测,包括一种新的mAP指标,以平衡地衡量各种驾驶行为的性能。我们为个体和交互预测任务提供了基线模型,希望这为推动运动预测研究提供了巨大的机会。97180参考文献0[1] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,Alexandre Robicquet, Li Fei-Fei, 和 Silvio Savarese. SocialLSTM: 在拥挤空间中预测人类轨迹.在IEEE计算机视觉与模式识别大会上, 页961–971, 2016. 3 , 6 ,110[2] Ben Benfold 和 Ian Reid. 稳定的实时监控视频多目标跟踪.在CVPR 2011上, 页3457–3464. IEEE, 2011. 30[3] Thibault Buhet, Emilie Wirbel, 和 Xavier Perrotton. Plop:自动驾驶的概率多项式对象轨迹规划.arXiv预印本arXiv:2003.08744, 2020. 30[4] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan,Giancarlo Baldan, 和 Oscar Beijbom. nuscenes:一个用于自动驾驶的多模态数据集.在IEEE/CVF计算机视觉与模式识别大会上, 页11621–11631,2020. 1 , 2 , 40[5] Sergio Casas, Cole Gulino, Renjie Liao, 和 Raquel Urta-sun. Spagnn:基于空间感知的图神经网络用于从传感器数据中预测关系行为.在2020年IEEE国际机器人与自动化大会(ICRA 2020)上,页9491–9497. IEEE, 2020. 30[6] Sergio Casas, Cole Gulino, Simon Suo, Katie Luo, RenjieLiao, 和 Raquel Urtasun.隐式潜变量模型用于场景一致的运动预测.在欧洲计算机视觉大会(ECCV)上, 页. Springer, 2020. 2 , 3 , 5 ,6 , 110[7] Sergio Casas, Wenjie Luo, 和 Raquel Urtasun. Intentnet:从原始传感器数据中学习预测意图. 在机器人学习会议上,页947–956. PMLR, 2018. 30[8] Yuning Chai, Benjamin Sapp, Mayank Bansal, 和 DragomirAnguelov. Multipath: 用于行为预测的多个概率锚定轨迹假设.在机器人学习会议上, 页86–99. PMLR, 2020. 1 , 3 , 8 , 110[9] Ming-Fang Chang, John Lambert, Patsorn Sangkloy, Jag-jeet Singh, Slawomir
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功