没有合适的资源?快使用搜索试试~ 我知道了~
11525VectorNet:从矢量化表示编码HD地图和代理动力学高继阳1孙晨2赵航 1沈毅1李 聪聪1科蒂利亚·施密德21Waymo LLC2谷歌研究{jiyanggao,hangz,yshen,dragomir,chencongli}@ waymo.com,{chensun,cordelias}@ google.com摘要动态多智能体系统中的行为预测是自动驾驶汽车背景下的一个重要问题,这是由于道路组件的复杂表示和交互,包括移动智能体(例如, 行人和车辆)和道路环境信息(例如,车道、交通灯)。本文介绍了VectorNet,一个层次图神经网络,首先利用空间局部性车道剂车道的各个道路组成部分表示的矢量,然后模型的高阶之间的相互作用的所有组件。与最新的方法(将移动代理的轨迹和道路上下文信息作为鸟瞰图像并使用卷积神经网络(ConvNets)对其进行编码)相比,我们的方法基于矢量表示。通过对矢量化的高清(HD)地图和智能体轨迹进行操作,我们避免了有损渲染和计算密集型ConvNet编码步骤。为了进一步提高VectorNet我们在我们内部的行为预测基准和最近发布的Argoverse预测数据集上评估VectorNet。我们的方法实现了同等或更好的性能比竞争力的渲染方法在这两个基准测试,同时节省了70%以上的模型参数的数量级减少FLOPs。它在Argoverse数据集上的表现也超过了最先进的水平。1. 介绍本文主要研究复杂多智能体系统的行为预测,如自动驾驶汽车。核心兴趣是找到一个统一的表示,集成了代理动态,获得的感知系统,如*同等贡献。轨迹栅格化表示矢量化表示图1. Illustration of the rasterized rendering (left) and vector- izedapproach (right) to represent high-definition map and agenttrajectories.具有场景上下文的对象检测和跟踪通常以高清(HD)图的形式作为先验知识提供。我们的目标是建立一个系统,学习预测车辆的意图,这是参数化的轨迹。用于行为预测的传统方法是基于规则的,其中基于来自路线图的约束来生成多个行为假设。最近,提出了许多基于学习的方法[5,6,10,15];它们提供了对不同行为假设进行概率解释的好处,但需要构建一个表示来编码地图和轨迹信息。有趣的是,虽然高清地图是高度结构化的,或组织为具有位置的实体(例如,通道)和属性(例如,绿色交通灯),这些方法中的大多数选择将HD地图渲染为颜色编码的属性(图1,左),这需要手动规范;并利用具有有限感受野的ConvNets对场景上下文信息进行编码。这就提出了一个问题:我们能直接从结构化HD图学习有意义的上下文表示吗?我们建议学习一个统一的表示多-Crosswalk11526输入向量折线子图全局交互图Crosswalk监理预测图完成代理代理代理特征轨迹预测图2.我们提出的VectorNet概述。观察到的代理轨迹和地图特征表示为向量序列,并传递到本地图网络,以获得折线级的特征。然后,这些特征被传递到一个完全连接的图,以建模高阶交互。我们计算两种类型的损失:根据对应于所述移动主体的所述节点特征来预测未来轨迹,并且当所述节点特征的特征被掩蔽掉时预测所述节点特征。代理动态和结构化场景上下文直接从它们的矢量化形式(图1,右)。道路特征的地理范围可以是地理坐标中的点、多边形或例如,车道边界包含多个建立样条线的控制点;人行横道是由多个点定义的多边形;停止标志由单个点表示。所有这些地理实体都可以近似为由多个控制点及其属性定义的折线。类似地,移动代理的动态也可以基于其运动轨迹通过折线来近似。所有这些折线都可以表示为向量集。我们使用图神经网络(GNNs)来合并这些向量集。 我们将每个向量视为图中的节点,并将节点特征设置为每个向量的起始位置和结束位置,以及其他属性,如折线组id和语义标签。来自HD地图的上下文信息连同其他移动代理的轨迹通过GNN传播到目标代理然后,我们可以采取对应于目标代理的输出节点特征来解码其未来的轨迹。具体来说,为了学习使用GNN的竞争表示,我们观察到基于节点的空间和语义接近度来约束图的连接性是很重要的。因此,我们提出了一个hierarchi- cal图的架构,其中属于相同的折线具有相同的语义标签的矢量连接和嵌入到特征,然后所有折线完全连接彼此交换信息。我们用多层感知器实现局部图,用自关注实现全局图[30]。我们的方法概述如图2所示。最后, 动机 通过 的 最近 成功 自我-从序列语言[11]和视觉数据[27]的监督学习中,我们提出了一个辅助图完成目标,除了行为预测目标。更具体地说,我们随机屏蔽属于场景上下文或代理系统的输入节点特征,并要求模型重建被屏蔽的特征。直觉是鼓励图网络更好地捕获代理动态和场景上下文之间的交互。总的来说,我们的贡献是:• 我们是第一个演示如何直接incor- porate矢量化场景上下文和代理动态信息的行为预测。• 我们提出了层次图网络VectorNet和节点完成辅助任务。• 我们在我们的内部预测数据集和Argoverse数据集上评估了所提出的方法,并表明,我们的方法实现了同等或更好的性能,在竞争激烈的渲染基线与70%的模型大小节省和一个数量级的减少在FLOP。我们的方法也达到了最先进的性能Argoverse。2. 相关工作自动驾驶的行为预测。移动代理的行为预测对于自动驾驶应用变得越来越重要[7,9,19],高保真地图已被广泛用于提供上下文信息。例如,IntentNet [5]提出联合检测车辆并从LiDAR点和渲染的高清地图预测其轨迹。Hong等人[15]假设提供车辆检测,并通过编码与ConvNets的实体交互来关注类似地,MultiPath [6]也使用ConvNets作为编码器,巷巷11527我我J我我而是采用预定义的轨迹锚来回归多个可能的未来轨迹。PRECOG [23]试图通过基于流的生成模型捕捉未来的随机性。与[6,15,23]类似,我们还假设代理检测由现有的感知算法提供然而,与这些方法都使用ConvNets来编码渲染的道路图不同,我们建议直接编码矢量化的场景上下文和代理动态。预测多代理交互。在自动驾驶领域之外,人们对预测交互代理的意图更感兴趣,例如对于pedes-trians [2,13,24],人类活动[28]或体育比赛。ers [12,26,32,33].特别是,Social LSTM [2]将各个代理的轨迹建模为单独的LSTM网络,并基于代理的空间接近度聚合LSTM隐藏状态以建模它们的交互。Social GAN [13]简化了交互模块,并提出了一个对抗性的模型来预测不同的未来。Sun等人[26]将图网络[4]与变分RNN [8]相结合,以模拟各种交互。社交互动也可以从数据中推断出来:Kipf等人[18]将这种相互作用视为潜在变量;图注意网络[16,31]应用自注意机制来对预定义图中的边进行加权。我们的方法更进一步,提出了一个统一的层次图网络来共同建模的多个代理人的相互作用,以及他们与道路图中的实体的相互作用。实体集合的表示学习。传统的机器感知算法主要针对高维连续信号,如图像、视频或音频等.一个例外是3D感知,其中输入接下来,我们提出了层次图网络,它聚集了来自单个折线的局部信息,然后全局地覆盖所有轨迹和地图特征。然后,该图可以用于行为预测。3.1. 表示轨迹和地图来自HD地图的大多数注释都是以样条的形式(例如,通道),封闭形状(例如,交叉区域)和点(例如,交通信号灯),以及附加的属性信息,例如标注的语义标签和它们的当前状态(例如,交通灯的颜色、道路的速度限制)。对于智能体,它们的线性关系是关于时间的有向样条的形式。所有这些元素都可以近似为向量序列:对于地图特征,选取一个起始点和方向,在相同的空间距离上从样条中均匀采样关键点,并将相邻的关键点依次连接成向量;对于轨迹,我们可以从t = 0开始,以固定的时间间隔(0.1秒)对关键点进行采样,并将它们连接成向量。给定足够小的空间或时间间隔,所得到的折线充当原始地图和轨迹的近似。我们的矢量化过程是一个一对一的映射之间的连续轨迹,地图注释和向量集,虽然后者是无序的。这允许我们在向量集之上形成一个图表示,它可以由图神经网络编码更具体-通常,我们将属于一个PUPj的每个向量vi视为图中的一个节点,其节点特征由下式给出:vi=[ds,de,ai,j],(1)通常是无序点集的形式,由i i给出深度传感器例如,Qiet al.提出观点-其中ds和de是起点和终点的坐标Net模型[20]和PointNet++ [21]应用置换不变运算(例如,最大池化)。与点集不同,HD地图和代理轨迹上的实体形成闭合形状或定向,并且它们还可以与属性信息相关联因此,我们建议通过矢量化输入来保持这些信息,并将属性编码为图中的节点特征。自监督上下文建模。最近,NLP领域的许多作品都提出了以自我监督的方式对语言上下文进行建模[11,22]。他们的经验丰富的代表取得了显着的性能改善当转移到下游任务时。受这些方法的启发,我们提出了一个辅助损失的图表示,它学会预测丢失的节点功能,从它的邻居。目标是激励模型更好地捕捉节点之间的交互。3. 向量网方法对于矢量,d本身可以表示为(x,y),坐标或(x,y,z)表示3D坐标; ai对应于属性特征,例如对象类型、传输的时间戳或道路特征类型或车道的速度限制; j是P j的整数id,指示vi∈ Pj。使输入结点要素不随位置的目标代理,我们规范化的坐标的所有向量的目标代理在其最后观察到的时间步长的位置为中心。未来的工作是共享所有交互代理的坐标中心,以便他们的轨迹可以并行预测。3.2. 子图的构造为了利用节点的空间和语义局部性,我们采取分层方法,首先在向量级构建子图,其中属于同一个子图的所有向量节点彼此连接反对具有节点{v1,v2,...,vP},我们将子图传播操作的单层定义为本节介绍我们的VectorNet方法。我们首先描述如何矢量化代理轨迹和高清地图。v(l+1)=单位.genc(v(l)),sweetagg.,genc(v(l)),(二)11528我P P我我我我我Kp我我排列不变聚合器其中{p(l)}是多节点特征的集合,GNN(·)对应于图神经网络的单层,并且A对应于多线节点的集合的邻接矩阵。邻接矩阵A可以被提供启发式,诸如使用节点之间的空间距离[2]。为了简单起见,我们假设A是一个全连通图。我们的图形网络是作为一个自我注意操作实现的,[30]:.GNN(P)= softmaxΣQTPV(5)图3.相同的向量节点上的计算流程其中P是节点特征矩阵,PQ,PK和PV是它的线性投影然后,我们从对应于移动代理的节点解码未来轨迹:折线其中v(l)是子图的第l.vfuture=未来Σ(Lt)我(六)我net工作,并且v(0)是输入特征vi。函数genc(·)转换单个节点的特征,函数gagg(·)聚集来自所有相邻节点的信息,函数l(·)是节点vi与其邻居之间的关系运算符。在实践中,genc(·)是一个多层感知器(MLP),其权重在所有节点上共享;具体来说,MLP包含一个完全连接的层,然后是层归一化[3],然后是ReLU非线性。是最大池化操作,并且是简单的级联。图3中示出了图示。我们堆叠子图网络的多层,其中gen c(·)的权重不同。最后,为了获得高水平的特征,我们计算其中,Lt是GNN层的总数,并且是传输解码r。或者简单地,我们使用MLP作为解码器函数。更先进的解码器,例如来自MultiPath [6]的基于锚点的方法,或变分RNN[8,26]可以用于生成不同的轨迹;这些解码器与我们的输入编码器互补。在我们的实现中,我们使用单个GNN层,因此在推理时,只需要计算与目标代理相对应的节点特征。然而,我们也可以堆叠多层GNN(·)来在需要时对高阶相互作用进行建模为了鼓励我们的全局交互图更好地捕捉不同轨迹之间的交互,并绘制多边形,p =0.,agg,Σ(Lp)我(三)行,我们引入一个辅助图完成任务。在训练期间,我们随机屏蔽掉一个子集的特征,例如。皮岛然后我们试图其中,gagg(·)是gain maxpooling。我们的子图网络可以被看作是一个通用的-恢复其屏蔽功能为:.Σ(L)PointNet的化[20]:当我们设置ds时= de 让Api=nodet(七)而l为空,我们的网络具有相同的输入和com-将流设置为PointNet。 然而,通过嵌入命令-通过将信息转化为向量、基于子图分组约束子图的连通性以及将属性编码为节点特征,我们的方法特别适合于编码结构化地图注释和Agent轨迹。3.3. 高阶相互作用我们现在考虑模拟高阶相互作用其中,节点e(·)是实现为MLP的节点特征解码器这些节点特征解码器在推断时间期间不被使用。回想一下,pi是来自全连通无序图的节点。为了在其对应特征被掩蔽时识别单个的节点,我们从其所有所属向量计算起始坐标的最小值以获得标识符嵌入pid。输入结点要素将变为在节点特征{p1,p2,...,pP}的全局交互图:p(0)=p.p.(八)、、、(1+1)我.,=GNN, Σ(l)我(四)我们的图完成目标与广泛成功的自然语言输出节点特征Concat节点编码器输入节点特征pvpp、A11529处理,其基于来自离散和顺序文本数据的双向上下文来我们将此训练目标推广到无序图。与最近的几种方法(例如,[25])将BERT目标一般化为具有预先计算的视觉特征的无序图像块,我们的节点特征在端到端框架中联合优化。3.4. 总体框架一旦构建了层次图网络,我们就针对多任务训练目标进行L=Ltraj+αLnode(9)其中Ltraj是地面实况未来轨迹的负高斯对数似然,Lnode是预测节点特征和地面实况掩蔽节点特征之间的Huber损失,并且α=1。0是平衡两个损失项的标量。为了通过降低节点特征的幅度来避免L节点的平凡解,我们对多边形进行L2归一化,线节点要素,然后将其馈送到全局图形网络。我们的预测轨迹参数化为每一步的坐标偏移,从最后观察到的位置。我们根据目标车辆在最后观察到的位置的航向旋转坐标系4. 实验在本节中,我们首先描述实验设置,包括数据集、指标和栅格化+ Con- vNets基线。其次,对光栅化基线和VectorNet进行全面消融研究。第三,我们比较和讨论了计算成本,包括FLOP和参数的数量最后,我们将性能与最先进的方法进行比较。4.1. 实验装置4.1.1数据集我们报告了两个车辆行为预测基准的结果,即最近发布的Argoverse数据集[7]和我们的内部行为预测数据集。Argoverse运动预测[7]是设计用于具有轨迹历史的车辆行为预测的数据集。有333K个5秒长的序列被分成211K个训练,41K验证和80K测试序列。 创建者通过挖掘有趣的和不同的场景来创建这个数据集,例如合并车辆的让步,穿越交叉口等。以10Hz对轨迹进行采样,其中(0,2]秒用作观察,并且(2,5]秒用于轨迹预测。每个序列都有一个“感兴趣”的代理,其轨迹是预测目标。除了车辆轨迹之外,每个序列还与地图信息。测试集的未来轨迹被提出。除非另有说明,否则我们的消融研究报告了验证集的性能。内部数据集是为预测或预测而收集的大规模数据集。它包含高清地图数据、边界框和来自自动内部感知系统的跟踪注释,以及手动标记的车辆轨迹。列车和测试集的车辆轨迹总数分别为2.2M和每个轨迹具有4秒的长度,其中(0,1]秒是用作观察的历史轨迹,并且(1,4]秒是待评估的目标未来轨迹。这些轨迹是从真实世界车辆对于高清地图功能,我们包括车道边界,停止/屈服标志,人行横道和减速带。对于这两个数据集,输入历史轨迹是从自动感知系统导出的,因此是有噪声的。Argoverse4.1.2度量为了进行评估,我们采用了广泛使用的整个轨迹上计算的平均位移误差(ADE)和t时的位移误差(DE@ts)度量,其中t∈ {1. 0,2。0,3。0}秒。位移是指-以米为单位。4.1.3光栅化图像我们渲染N个连续的过去帧,其中N对于内部数据集为10 , 对 于 Argoverse 数 据 集 为 20 。 每一 帧 是 一 幅400×400×3的图像,其中包含道路地图信息和检测到的对象边界框。400个像素对应于内部数据集中的100米,以及Argoverse数据集中的130米。 渲染基于自动驾驶车辆在最后观察帧中的位置;自动驾驶车辆被放置在内部数据集中的坐标位置(200,320)处,以及Argoverse数据集中的坐标位置(200,200)处。所有N个帧堆叠在一起以形成400×400×3N图像作为模型输入。我们的基线使用ConvNet对栅格化的images,其架构与IntentNet相当[5]:我们使用ResNet-18 [14]作为ConvNet骨干。不像IntentNet,我们不使用激光雷达输入。为了获得以车辆为中心的特征,我们从卷积特征图中裁剪目标车辆周围的特征块,并对裁剪后的特征图的所有空间位置进行平均,以获得单个车辆特征向量。我们从实验上观察到,使用更深的ResNet模型或基于目标车辆航向旋转裁剪特征 车辆特征为11530然后馈送到全连接层(如IntentNet所使用的)以并行地预测未来坐标。该模型在8个GPU上进行了优化,并具有同步训练。我们使用Adam优化器[17],每5个时期将学习率衰减0.3倍。我们总共训练了25个epoch,初始学习率为0.001。为了测试卷积感受野和特征裁剪策略如何影响性能,我们对网络感受野、特征裁剪策略和输入图像分辨率进行了消融研究。4.1.4具有矢量化表示的VectorNet为了确保公平的比较,矢量化表示采用与栅格化表示相同的信息作为输入。具体来说,我们提取与渲染时完全相同的地图特征我们还确保目标代理的可见道路特征向量与栅格化表示中的相同。然而,矢量化表示确实享有并入更复杂的道路特征的益处,所述道路特征对于渲染来说是重要的。除非另有说明,我们使用三个图形层的子图,和一个图形层的全局交互图。所有MLP中隐藏单元的数量固定为64。MLP之后是层归一化和ReLU非线性。我们将矢量坐标归一化为以最后观测到的时间步长处的目标车辆的位置为中心。与栅格化模型类似,VectorNet在8个GPU上同步使用Adam优化器进行训练学习率每5个epoch衰减0.3倍,我们总共训练了25个epoch,初始学习率为0.001。为了理解组件对VectorNet性能的影响,我们对上下文信息的类型进行了消融研究,即。是仅使用地图还是还使用其他代理的轨迹以及折线子图和全局交互图的图层数的影响。4.2. ConvNet基线消融研究我们对ConvNet感受野、特征裁剪策略和光栅化图像的分辨率的影响进行了消融研究。感受野的影响。由于行为预测通常需要捕获长距离道路环境,因此卷积感受野可能对预测质量至关重要我们评估不同的变体,看看接收字段的两个关键因素,卷积核大小和特征裁剪策略,如何 再-结果示于表1中。通过在400×400分辨率下比较内核大小3、5和7,我们可以看到更大的内核大小会导致轻微的性能改善。然而,它也导致计算成本的二次增加我们还比较了不同的裁剪方法,通过增加裁剪尺寸或在所有观察到的时间步长沿飞行器轨迹裁剪。从表1的第3行到第6行,我们可以看到,较大的裁切尺寸(3对5)可以在更大的裁切尺寸(3对5)之间变化。1)可以显著地提高性能,并且沿着观察到的轨迹裁剪这一观察结果证实了光栅化图像用作输入时感受野的重要性它还强调了它的局限性,需要精心设计的裁剪策略,以增加计算成本为代价。渲染分辨率的影响。我们进一步改变栅格化图像的分辨率,看看它如何影响预测质量和计算成本,如表1的前三行所示我们测试了三种不同的分辨率,包括400×400(每像素0.25米),200 ×200(每像素0.5米每像素)和100×100(每像素1米)。可以看出性能通常随着分辨率的提高而提高,上升。然而,对于Argoverse数据集,我们可以看到,将分辨率从200×200增加到400×400会导致性能略有下降,这可以通过使用固定的3×3内核减少有效感受野大小来解释。 我们讨论了计算成本的影响这些设计选择见第4.4节。4.3. VectorNet消融研究输入节点类型的影响。我们研究它是否是有帮助的,将地图功能和代理系统的RIES为VectorNet。表2中的前三行对应于仅使用目标车辆的过去轨迹(“无”上下文),仅添加地图多段线(“地图”),最后添加轨迹多段线(“地图+智能体”)。我们可以清楚地观察到,添加地图信息显著提高了轨迹预测性能。结合轨迹信息进一步提高了性能。节点完工损失的影响。表2的最后四行比较了添加节点完成辅助目标的影响。我们可以看到,添加此目标始终有助于提高性能,特别是在较长的时间范围内。对图形架构的影响。在表3中,我们研究了图形层的深度和宽度对轨迹预测性能的影响。我们观察到,对于折线子图,三层给出了最好的性能,而对于全局图,只需要一层。使MLP更宽并不会带来更好的性能,并且会伤害Argoverse,可能是因为它的训练数据集较小。在图4中示出了关于预测轨迹和车道注意的一些示例可视化。与ConvNets比较最后,我们将VectorNet与表4中的最佳ConvNet模型进行了对于内部数据集,我们的模型与最好的ResNet模型具有同等的性能,同时更加环保。11531决议内核作物内部数据集Argoverse数据集DE@1sDE@2sDE@3sAdeDE@1sDE@2sDE@3sAde100×1003×31×10.630.941.320.821.142.805.192.21200×2003×31×10.570.861.210.751.112.724.962.15400×4003×31×10.550.821.160.721.122.724.942.16400×4003×33×30.500.771.090.681.092.624.812.08400×4003×35×50.500.761.080.671.092.604.702.08400×4003×3traj0.470.711.000.631.052.484.491.96400×4005×51×10.540.811.160.721.102.634.752.13400×4007×71×10.530.811.160.721.102.634.742.13表1. ConvNet的感受野(由卷积核大小和裁剪策略控制)和渲染分辨率的影响基线我们在内部数据集和Argoverse数据集上报告DE和ADE(以米为单位)上下文节点补偿内部数据集Argoverse数据集DE@1sDE@2sDE@3sAdeDE@1sDE@2sDE@3sAde没有一-0.770.991.290.921.292.985.242.36地图地图+代理没有没有0.570.550.810.781.111.050.720.700.950.942.182.143.943.841.751.72地图地图+代理是的是的0.550.530.780.741.071.000.700.660.940.922.112.063.773.671.701.66表2.具有不同输入节点类型和训练目标的VectorNet消融研究这里,当“节点补偿”启用时,除轨迹预测外,还使用图形完成目标训练模型。DE和ADE以米为单位报告。折线子图全局图DE@3s深度宽度深度宽度内部阿尔戈沃斯1641641.093.893641641.003.6731281641.003.933642640.993.6936422561.023.69表3.烧蚀对子图和全局图的深度和宽度的影响子图的深度对DE@3s的影响最大。在模型大小和FLOP方面,这是名义上的。对于Ar-goverse数据集,我们的方法显着优于最好的ConvNet模型,DE@3降低了12% 我们观察到,由于驾驶场景的自然分布,内部数据集包含大量的静止车辆;这些情况可以很容易地解决的ConvNets,善于捕捉局部模式。然而,对于仅保留“有趣”案例的Argoverse数据集,Vec- torNet的性能大大优于最佳ConvNet基线;可能是由于其经由分层图形网络捕获长范围上下文信息的能力。4.4. FLOP和模型尺寸的比较我们现在比较ConvNets和VectorNet之间的FLOP和模型大小,以及它们对性能的影响。结果示于表4中。预测解码器不计算FLOP和参数数量。我们可以看到ConvNets的FLOP增加了quadrati-表4. ResNet和VectorNet的模型FLOP和参数数量比较R18-kM-c N-rS代表ResNet-18模型,内核大小为M×M,作物斑块大小为N×N,输入分辨率为S×S。预测解码器不针对FLOP和参数计数。与内核大小和输入图像大小一致;参数的数量随着核大小二次方地增加。当我们渲染以自动驾驶车辆为中心的图像时,特征图可以在多个目标之间重用,因此骨干部分的FLOP是一个常数。然而,如果渲染的图像是以目标为中心的,则FLOP随着目标的数量线性增加。对于矢量网络,FLOP取决于场景中矢量节点和折线的数量对于内部数据集,道路地图多段线的平均数量为17,包含205个矢量;道路代理多段线的平均数量为59,包含-模型FLOPs#参数DE@3s内部ArgoR18-K3-C1-R1000.66G246K个1.325.19R18-K3-C1-R2002.64G246K个1.214.95R18-K3-C1-R40010.56G246K个1.164.96R18-K5-C1-R40015.81G509K1.164.75R18-K7-C1-R40023.67G902K1.164.74R18-K3-C3-R40010.56G246K个1.094.81R18-K3-C5-R40010.56G246K个1.084.7011532模型DE@3sAde恒速[7]7.893.53最近的邻居[7]7.883.45LSTM ED [7]4.952.15挑战获胜者:uulm-mrm4.191.90挑战赛获胜者:Jean4.171.86向量网4.011.81表5.Argoverse Fore上的轨迹预测性能当采样轨迹数K=1时,铸造测试集结果于2020年3月18日从Argoverse排行榜[1]中检索图4.(左)预测的可视化:车道以灰色显示(右)道路和代理的注意力可视化:更亮的红色对应于更高的注意力分数。可以看出,当智能体面临多个选择时(前两个例子),注意力机制能够专注于正确的选择(第二个例子中的两个右转车道)。第三个例子是变道代理,关注的车道是当前车道和目标车道。在第四个例子中,虽然预测不准确,但注意力仍然在正确的车道上产生合理的分数。共590个载体。我们根据这些平均数计算FLOP。请注意,由于我们需要重新规范化矢量坐标并重新计算每个目标的VectorNet特征,因此FLOP随预测目标的数量(表4中的n将 R18-k3-t-r400 ( Con-vNets 中 的 最 佳 模 型 ) 与VectorNet进行比较,VectorNet的性能明显对于计算,对于单个代理,ConvNets消耗的FLOP比VectorNet多200倍(10.56G vs 0.041G);考虑到场景中车辆的平均数量约为30(从内部数据集计算),VectorNet的实际计算消耗仍然比ConvNets小得多。同时,VectorNet需要ConvNets的29%的参数(72K vs 246K)。基于比较,我们可以看到,VectorNet可以显着提高性能,同时显着降低计算成本。4.5. 与现有技术方法的最后,我们在Ar- goverse [7]测试集上将VectorNet与几种基线我们在表5中报告了K=1的结果(最可能的预测)。基线方法包括恒定速度基线、最近邻检索和LSTM编码器-解码器。最先进的方法是Argoverse预测挑战赛的获胜者。可以看出,当K=1时,VectorNet将DE@3s度量的最先进5. 结论和今后的工作我们建议用矢量化表示来表示HD地图和代理我们设计了一种新的层次图网络,其中第一层聚集了一个节点内的向量之间的信息,第二层建模了折线之间的高阶关系。在大规模内部数据集和公共可用的Argoverse数 据 集 上 的 实 验 表 明 , 所 提 出 的 VectorNet 优 于ConvNet,同时大幅降低了计算成本。VectorNet还在Argoverse测试集上实现了最先进的自然的下一步是将VectorNet编码器与多模态轨迹解码器(例如,[6,29]),以创造不同的未来轨迹。谢谢。我们要感谢Benjamin Sapp和Yuning Chai对本文的有益评论。11533引用[1] Argoverse运动预测竞赛,2019年。https://evalai.cloudcv.org/web/challenges/challenge-page/454/leaderboard/1279.[2] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,AlexandreRobicquet , LiFei-Fei , andSilvioSavarese.Social LSTM:拥挤空间中的人类轨迹预测在CVPR,2016年。[3] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。[4] Peter W Battaglia,Jessica B Hamrick,Victor Bapst,Al-varo Sanchez-Gonzalez , Vinicius Zambaldi , MateuszMa- linowski,Andrea Tacchetti,David Raposo,AdamSantoro , RyanFaulkner , Caglar Gulcehre , FrancisSong,Andrew Bal- lard,Justin Gilmer,George Dahl,Ashish Vaswani,Kelsey Allen,Charles Nash,VictoriaLangston , Chris Dyer , Nico- las Heess , DaanWierstra , Pushmeet Kohli , Matt Botvinick , OriolVinyals,李宇嘉和拉兹万·帕斯卡努。关系归纳偏差、深度学习和图网络。arXiv预印本arXiv:1806.01261,2018。[5] Sergio Casas , Wenjie Luo , and Raquel Urtasun.Intentnet:学习从原始传感器数据预测意图InCoRL,2018.[6] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径:用于行为预测的多概率锚轨迹假设。在CoRL,2019年。[7] Ming-Fang Chang,John Lambert,Patsorn Sangkloy,Jag-jeetSingh , Slawomir Bak , Andrew Hartnett , DeWang,Peter Carr,Simon Lucey,Deva Ramanan,et al.Argoverse:3d跟踪和预测与丰富的地图。在CVPR,2019年。[8] Junyoung Chung、Kyle Kastner、Laurent Dinh、KratarthGoel、Aaron C Courville和Yoshua Bengio。序列数据的递归潜变量模型。InNeurIPS,2015.[9] 詹姆斯·科利尔和哈尔基亚斯·约翰美国高速公路101数据集。FHWA-HRT-07-030,2007年。[10] Henggang Cui , Vladan Radosavljevic , Fang-ChiehChou,Tsung-Han Lin,Thi Nguyen,Tzu-Kuo Huang,Jeff Schnei-der,and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模式轨迹预测。在ICRA,2019年。[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[12] 潘纳·菲尔森,普尔基·阿格拉沃,和吉坦德拉·马利克.接下来会发生什么预测运动员在体育视频中的移动。InICCV,2017.[13] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。Social GAN:具有生成对抗网络的社会可接受的传输。在CVPR,2018年。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。11534[15] Joey Hong Benjamin Sapp和James Philbin道路规则:用语义交互的卷积模型预测驾驶行为在CVPR,2019年。[16] Yedid Hoshen注意力多智能体预测建模(AttentionalMulti-Agent Predictive Modeling ) arXiv 预 印 本arXiv:1706.06122,2017。[17] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[18] Thomas Kipf 、 Ethan Fetaya 、 Kuan-Chieh Wang 、Max Welling和Richard Zemel。交互系统的神经关系推理。在ICML,2018。[19] 罗伯特·克拉维斯基,朱利安·博克,劳伦特·克洛克,卢茨·埃克斯特因。highd数据集:德国高速公路上自然车辆轨迹的无人机数据集,用于验证高度自动驾驶系统。在ITSC,2018年。[20] Charles R Qi,Hao Su,Kaichun Mo,and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在CVPR,2017年。[21] Charles Ruizhongtai Qi , Li Yi , Hao Su , andLeonidas J Guibas. Pointnet++:度量空间中点集的深度层次特征学习。在NIPS,2017年。[22] Alec Radford , Jeff Wu , Rewon Child , DavidLuan,Dario Amodei,and Ilya Sutskever.语言模型是无监督的多任务学习器。2019年。[23] Nicholas Rhinehart,Rowan McAllister,Kris Kitani和Sergey Levine。PRECOG:在视觉多智能体设置中以目标为条件的预测。在ICCV,2019年。[24] Alexandre Robicquet , Amir Sadeghian , AlexandreAlahi,and Silvio Savarese.学习社交礼仪:拥挤场景中的人的轨迹理解。在ECCV,2016年。[25] Weijie Su,Xizhou Zhu,Yue Cao,Bin Li,LeweiLu,Furu Wei,and Jifeng Dai. Vl-bert:通用视觉语言表征的预训练。arXiv预印本arXiv:1908.08530,2019。[26] Chen Sun , Per Karlsson , Jiajun Wu , Joshua BTenenbaum,and Kevin Murphy.基于部分观测的多主体交互作用的随机预测。2019年,在ICLR[27] Chen Sun , Austin Myers , Carl Vondrick , KevinMurphy,and Cordelia Schmid.VideoBERT:视频和语言表示学习的联合模型。在ICCV,2019年。[28] Chen
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功