空间相互作用建模的二维卷积方法及其性能改进

43 浏览量更新于2023-10-25 收藏 19.34MB PDF 举报

图神经网络

运动预测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Zhaoen Su, Chao Wang, David Bradley, Carlos Vallespi-GonzalezCarl Wellington, Nemanja Djuric{suzhaoen, chao.wang, dbradley, cvallespi, cwellington, ndjuric}@aurora.tech65830用于空间相互作用建模的卷积0摘要0在许多不同领域，对象之间的相互作用在决定其行为方面起着关键作用。图神经网络（GNN）已经成为一种强大的模拟相互作用的工具，尽管通常会增加相当复杂性和延迟。在本文中，我们考虑在预测自动驾驶车辆周围的行为者运动的背景下，空间相互作用建模的问题，并研究GNN的替代方法。我们重新审视了二维卷积，并展示了它们在模拟空间相互作用方面与图网络具有可比性的性能，同时具有更低的延迟，从而在时间关键的系统中提供了一种有效且高效的替代方法。此外，我们提出了一种新颖的相互作用损失来进一步改善所考虑方法的相互作用建模。01. 引言0对象之间的相互作用或关系对于理解许多系统的个体行为和集体属性至关重要。从概念上讲，这些相互作用可以用包含一组对象（节点）及其关系（边）的图结构来建模。通过应用深度学习技术，图神经网络（GNN）在各个领域中模拟相互作用方面展现出了强大的表达能力，包括物理科学[3,12, 30, 33]、社会科学[17,23]、知识图谱[16]和其他研究领域[20, 26, 28,37]。其中一些相互作用在很大程度上依赖于几何特征，例如欧几里得距离和对象之间的相对方向，在本文中被称为空间相互作用。空间相互作用至关重要的一个问题是运动预测，这是计算机视觉、机器人学以及自动驾驶（AD）等领域的一个关键任务。具体而言，预测对象的未来运动不仅需要理解其历史，还需要理解对象与其他对象及其环境的相互作用。这些相互作用在很大程度上依赖于对象之间的相对空间特征，例如它们的相对位置、方向和速度。0图在模拟空间相互作用方面取得了成功[22, 31, 32,34]。个体对象的特征通常被编码为图节点的属性，并通过传递节点对的相对几何关系和节点属性通过映射函数来构建图边。GNN遵循一种消息传递方案，每个节点聚合其相邻节点的特征以计算其新的节点属性。正如实验部分所示，这些方法具有两个特点：（1）相对空间特征在图中没有隐式表示，需要手工制作成图边特征；（2）即使是单次迭代的GNN也可能比卷积神经网络（CNN）更慢，这使得GNN在快速推理对安全至关重要的应用领域中不太适用。0另外，二维或三维卷积操作的数据结构通常以常见的网格形式呈现，例如三维体素化、二维鸟瞰图的光栅化，或者作为中间CNN特征。重要的是，这些欧几里得空间中内在地表示了空间关系。因此，它们在理论上允许CNN通过具有足够大感受野的方式学习对象之间的空间关系[11]。换句话说，CNN具有模拟空间交互的潜力。然而，尽管在轨迹预测模型中广泛使用具有大感受野的深度CNN骨干，但研究表明，在CNN骨干之后添加GNN仍然可以改善交互建模[4, 31,32]。这表明CNN骨干通常无法充分发挥它们在交通参与者之间建模空间交互方面的理论潜力。0在这项工作中，我们考虑通过2D卷积来进行空间交互建模，并将其与GNN在AD的运动预测背景下进行比较。对于其他驾驶员未来的运动来说，避免碰撞是一个关键因素，这代表了我们明确建模的一个关键交互。碰撞可以近似为几何重叠，这为交互度量提供了明确的定义。我们在大规模实际AD数据上评估这些方法，以得出一般性结论。我们的贡献总结如下：65840•我们确定了三个组成部分，以便使用卷积来促进空间交互建模：(1)大的以参与者为中心的交互区域，(2)将特征图投影到参与者的参考框架中，以及(3)使用卷积对每个参与者的特征图进行聚合；0•我们进行实证研究，比较使用卷积和图形进行交互建模，并发现(1) CNN可以表现得与或优于GNN；(2)即使使用GNN，添加CNN也可以显著改善交互建模；(3)当已经使用卷积方法时，添加GNN只能带来轻微的额外收益。0• 我们提出并研究了一种新的交互损失。02. 相关工作02.1. 运动预测0已经有大量关于预测交通参与者运动的研究。预测模型的输入可以是过去参与者状态的序列，如位置、朝向或速度[7, 8,10, 13, 19,31]，或者是原始传感器数据的序列，如LiDAR或雷达返回[5,25]，其中在自动驾驶车辆的参考框架中执行联合目标检测和运动预测。虽然后一种方法可以通过在所有参与者之间共享公共CNN特征来加速推理和联合学习，但这些单阶段模型可以从以参与者为中心的特征中受益。两阶段模型[4,9]通过使用第一阶段来检测参与者并提取特征，然后在检测到的参与者的参考框架中添加第二阶段来解决这个问题。然后以端到端的方式联合学习这两个阶段。本文中的交互建模研究采用了两阶段架构。请注意，本研究中使用的设计，包括旋转感兴趣区域（RROI）[27]和以参与者为中心的设计[4, 9,10]，已经在与交互建模不同的上下文中开发和应用。然而，我们的实证研究表明，利用这些思想可以使卷积有效地建模空间交互。02.2. 交互建模0最近已经将GNN应用于明确表达运动预测中的交互。NRI[22]通过使用GNN来推断交互并同时学习动力学来模拟参与者之间的交互。Vector-Net [13]和CAR-Net[32]模拟参与者-上下文交互。与我们的工作密切相关，SpaGNN[4]也是一个两阶段的检测和预测模型，在第二阶段为车辆构建图形以模拟车辆-车辆交互。本文研究中用于比较的GNN模型遵循相同的设计。0除了图模型之外，还可以使用基于网格的空间关系来探索社交汇聚方法[1, 7,15]，其中汇聚用于捕捉循环架构中周围参与者的影响。在社交LSTM[1,15]中，LSTM单元接收来自嵌入到网格中的邻居的LSTM单元的汇聚空间隐藏状态。除了无参数汇聚之外，还探索了卷积层[7]。相比之下，我们的提议是完全卷积的。此外，这些方法汇聚了相互作用参与者的空间上下文，而排除了参与者本身，因此在过程中未直接建模参与者-上下文交互。02.3. 交互度量0有趣的是，尽管已经开发了各种建模空间交互的技术，但大多数先前的工作报告了运动预测的位移误差。正如本研究所示，减少位移误差并不一定意味着在运动预测任务中改进了交互建模。另一个可以更明确地指示交互建模水平的度量标准是测量车辆运动预测是否错误地预测了与其他车辆的重叠[4,31]。在这项工作中，我们还提出了运动预测中车辆-障碍物重叠率作为另一种交互建模的度量标准。03. 方法论0在本节中，我们制定了运动预测问题的公式，然后讨论了两种交互建模方法：通过2D卷积隐式建模和通过图形显式建模。图1说明了考虑的端到端模型的架构，它们共同解决目标检测和运动预测的任务，以BEV表示传感器数据作为输入，并输出目标检测和它们的未来轨迹。我们强调，我们有意选择了常用的输入表示、神经网络设计和损失函数，以便专注于理解这些方法中的交互建模方面。此外，为了量化分析，我们将讨论限制在车辆角色上（有关其他角色类型的分析，请参见附录）。03.1. 问题定义0给定包括V个交互角色和环境的过去和当前信息的输入数据，模型输出它们的当前和未来状态x，表示为X0:H = {xvt, v= 1, ..., V, t = T0, ...,TH}。如前所述，我们的研究将原始传感器数据作为模型的输入。根据联合检测和预测架构[5,9]，我们通过对当前和P个过去的序列进行体素化和堆叠来编码传感器数据。ICNNICNNICNNICNNICNNICNNLdet =ℓ1(ˆlv − lv)11x0 − cvx0) + ℓ1(ˆcvy0 − cvy0)+ ℓ1(cos ˆθv0 − cos θv0) + ℓ1(sin ˆθv0 − sin θv0)�,(1)65850体素化的LiDAR点云0特征图0特征提取器0栅格化地图0特征向量0角色框架中的交互区域0（a）单阶段0（b）+ 交互0交互卷积模块（ICM）0（c）+ GNN04倍下采样0图1.在场景中用三个车辆角色和一个障碍物（用白点表示）说明的三种模型架构。所有模型共享相同的第一阶段设计，从左到中显示：输入是一个BEV栅格图像，包括过去和当前的点云以及AV框架中的语义地图。通过CNN特征提取器，我们在AV框架中获得一个4×下采样的特征图。（a）单阶段基线：目标检测和轨迹预测在像素级别上执行。（b）添加了提出的交互卷积模块（ICM）。对于每个角色，我们在角色框架中定义一个交互区域（IR），用于从特征图中裁剪一个区域。通过权重共享的交互CNN（ICNN），为每个角色聚合一个特征向量，然后利用它来预测其框架中的未来轨迹。（c）在（b）中的架构中添加GNN。0在BEV表示中，AV在时间T0周围的LiDAR点云，以及提供额外环境先验的栅格化语义地图，被用作模型的输入。每个角色在时间T0的2D检测由表示为(cx, cy, cosθ, sinθ, w,l)的边界框参数化，表示角色的质心的x和y坐标，其航向角的余弦和正弦，以及框的宽度和长度。假设刚性SE2变换，未来轨迹可以表示为元组序列（cxt, cyt, cosθt,sinθt），其中t∈{T1, ..., TH} [35]。03.2. 特征提取和损失函数0如图1a所示，联合模型的第一阶段检测对象并提取特征。从输入的BEV栅格中，通过一个遵循常见设计的深度CNN提取一个4×下采样的特征图（完整网络设计请参见附录）。它由3个操作组成：（1）卷积块（ConvB），包括卷积（核大小为3×3）、批归一化和ReLU（可选）；（2）ResNetv2块（ResB）[18]；（3）使用双线性插值进行上采样。特征在多个尺度上进行处理，以提供更大的感受野，以捕捉更广泛的上下文和参与者的过去运动。在计算BEV特征图之后，0对于每个网格单元格，对1D特征向量进行分类和回归。通过全连接（FC）层和softmax函数，我们获得车辆参与者存在的概率p c ，其中心位于单元格c中。我们使用focal loss ℓ f[24]来解决前景/背景不平衡问题。通过一个单独的FC层，网络同时回归检测边界框X 0。质心和航向相对于单元格中心和AV航向。然后，第一阶段的检测损失如下所示（帽子符号ˆ*表示目标的真实值）0c ∈ 所有 ℓ f (ˆ p c , pc ) + �0v ∈ 车辆0其中all和veh分别表示所有网格单元格和车辆前景网格单元格，ˆ p c 对于前景单元格等于1，否则等于0，ℓ 1是平滑L1损失（过渡值设为0.1）。除了检测损失，端到端模型还优化仅应用于参与者未来航点的预测损失。此外，我们通过对预测进行多模态建模[9]，将三种模式进行分类Lpred =M=3�m=1�ℓf(ˆpvm, pvm)+ 1 ˆm=mHTH�t=T1�ℓ1(ˆcvxt − cvxmt) + ℓ1(ˆcvyt − cvymt)+ ℓ1(cos ˆθvt − cos θvmt) + ℓ1(sin ˆθvt − sin θvmt)��,(2)3.4. Interaction using graphs explicitly65860对于每个参与者（即左转、右转或直行），为每个模式回归一个单独的轨迹，同时基于focalloss计算相应的模式概率[6]。此外，仅对最接近观察到的轨迹的轨迹模式应用回归损失。然后，预测损失如下所示：0v ∈ 车辆0其中p v m表示参与者v的第m个轨迹模式的概率，1 c是一个指示函数，如果条件c成立则等于1，否则等于0，ˆ m表示最接近真实值的模式的索引。未来质心和航向相对于单元格中心和AV航向（见图1a），而在两阶段模型中它们是相对于参与者框架的（见图1b-c）。然后，L det 和 L pred可以在联合训练中一起优化。对于单阶段模型，检测和预测值都在第一阶段进行优化（图1a）。另一方面，当第一阶段作为两阶段架构的一部分时（图1b-c），L det作为第一阶段输出的一部分进行优化，而 L pred在本节的其余部分进行优化。03.3. 使用卷积进行交互隐含0在前一节中，我们讨论了第一阶段的特征提取，它计算每个参与者的网格特征，然后将其作为第二阶段模型的输入来预测未来运动。在本节中，我们讨论如何更好地计算捕捉交互的每个参与者特征：0•为了捕捉预测未来轨迹的参与者（称为感兴趣的参与者）与附近参与者的关系，预测模块的输入可以是覆盖特征图上相互作用参与者和物体的区域，而不仅仅使用特征像素。对于交通用例，这个交互区域（IR）应该覆盖对象应该受到关注的区域。我们的结果表明，对于车辆参与者，车辆前方的大区域提供了良好的上下文来建模交互。0•为了克服卷积的旋转不变性，我们不是在原始BEV网格的坐标框架中裁剪IR特征，而是在感兴趣的参与者的框架（即参与者框架）中定义IR，在其中也定义了输出轨迹（通常称为0如RROI[27]所述）。我们的结果证实了在建模交互中旋转不变性的重要性。0•为了有效地传播相互作用参与者对感兴趣的参与者的非局部信息，我们可以使用一个交互式CNN（ICNN），它由几个下采样卷积层组成，最终将包括感兴趣的参与者本身、周围参与者和环境的IR压缩成一个特征向量，用作该参与者的最终特征。0如前所述，参与者中心特征图和RROI技术已经在许多应用中使用[4, 9,10]，在轨迹预测任务中降低了位移误差。在本文中，我们证明了通过结合这些思想，卷积在建模空间交互方面也是有效的。此外，通过我们的实验证明，通过改变这些组成部分的参数，可以控制交互建模的程度，进一步证明了卷积可以有效地捕捉空间交互。这三个组件的实现如图1b中的虚线框所示，我们称之为交互卷积模块（ICM）。对于每个参与者，我们定义一个围绕其周围的正方形IR，然后使用双线性插值从全局特征图中裁剪参与者中心的特征。我们改变IR中的参与者的大小、方向和位置，以研究它们对交互建模的影响（例如，在IR没有面积的极端情况下，裁剪的特征只是特征图上的特征像素）。我们选择正方形IR来简化讨论。正方形边长在以下讨论中被称为IR大小。类似地，ICNN模块始终由六个ConvBs和一个ResB组成，逐渐将裁剪的特征图减少到一个1D特征向量fc（例如，如果裁剪大小为32×32，将最后五个ConvBs的步幅设置为2可以得到一个1D向量；有关裁剪大小和ICNN设计的详细讨论，请参见附录）。最终在参与者框架中获得的多模态分类和未来轨迹回归是通过一个单独的FC层获得的，每个任务都有一个。0在前一节中描述的纯卷积方法提供了隐式的交互建模。为了明确考虑交互作用，常见的方法是使用图神经网络（GNNs），本节将对其进行讨论。由于存在许多变体，我们选择了一种更通用的方法，即消息传递神经网络[14,36]，该方法也已经适应了运动预测问题[4]。如图1c中的虚线框所示，一个完全连接的图包括所有的V个参与者（表示为节点），每两个参与者之间都有双向边。n0i = MLPinit(fci),(3)mkj→i = MLPke([nki , relj→i, nkj , reli→j]),(4)relji = MLP([xji, yji, cos θji, sin θji]).mki = Poolj(mkj→i).(6)ni=(ni , mi ).Lcol =13V HV�vN�nH�t=1L=3�l=1max(0, Rvl − dvntl), (8)65870图2.交互损失的示意图。演员（蓝色）用3个成本圆（绿色）近似，与障碍物（灰色）的最小距离（黑色）和结果梯度（红色）。0第i个节点的特征属性n i由以下方式初始化：0其中fci是前一节中计算的第i个演员的最终特征向量。这个GNN中的所有多层感知机（MLP）都有两层。第k次迭代通过从节点j到i的边进行消息传递，给出如下：0其中[∙]表示连接。与前一节中的隐式卷积方法不同，在图表示中还需要考虑演员之间的相对空间关系。演员i帧中的演员j的相对几何特征rel j →i由演员j的坐标和朝向组成，计算如下：0(5)发送到第i个图节点的所有消息通过最大池化操作进行聚合，表示为0最后，节点属性使用门控循环单元（GRU）[4, 14,36]进行更新，其隐藏状态为n k i，输入为m k i。0一般来说，更新迭代K次。最后，从n k +1i计算出行为者的多模态分类和未来轨迹，如3.3节所讨论的。03.5. 交互损失0在本节中，我们引入了一种新的交互损失来提高模型的交互意识，该损失直接惩罚与静态交通物体（定义为速度小于0.2m/s的物体）重叠的预测行为。交通物体包括车辆、自行车、行人、施工围栏等车辆应该避免的物体。在每个预测时刻，预测的行为者用3个内切成本圆来近似，如图2所示。然后计算损失如下：0其中V，N，H和L分别是演员、非移动障碍物、预测时间范围和成本圆的数量。Rvl是成本圆的半径（由地面真实边界框的大小确定），而dvntl是第v个演员的第l个成本圆心与第n个障碍物边界框在时间t时的有符号最小距离。当圆心在障碍物边界框内部时，距离为负。注意，该损失仅考虑预测轨迹与静态障碍物的真实边界框之间的重叠。移动演员可能具有多模态轨迹分布，不清楚两个移动演员的轨迹何时应该受到损失的惩罚。总之，当成本圆与障碍物边界框重叠时，交互损失只会通过预测的质心和朝向进行梯度反向传播。该损失添加到预测损失Lpred 中，在端到端训练中一起优化。04. 实验0输入和输出。考虑的区域大小为150×100×3.2m，以AV为中心，离散化为960×640×16的网格，其中编码了LiDAR扫描信息。输入包含以0.1s间隔收集的10个LiDAR扫描，以及当前时间戳的语义HD地图。模型在当前时间步检测车辆演员，并在未来时间范围t∈{0.1, 0.2, ...,4.0s}内预测它们的轨迹。为了消除重复检测，应用了交并比（IoU）阈值为0.1的非极大值抑制（NMS）[29]。指标。研究重点是预测准确性和交互性能。对象检测匹配的IoU阈值设置为0.5。我们观察到，在论文中报告的所有考虑的模型中，检测性能变化很小，平均精度为94.0±0.4。此外，我们通过将检测概率阈值调整为固定召回率0.8，确保在指标中考虑相等数量的轨迹。每个演员有3个预测的轨迹模式，我们将最可能的模式的轨迹分配给演员，用于以下指标计算。我们使用4秒的位移误差（DE）来衡量预测准确性，对所有演员进行平均。为了量化模型的交互性能，我们在实验中考虑了两个重叠度量（其他指标的结果在附录中提供）：65880图3.ICM组件（交互区域（IR）、交互CNN（ICNN）和演员框架（AF））的影响。Extractor是单阶段模型；+IR+ICNN代表在AV框架中定义IR的两阶段模型；+ICM（即+IR+ICNN+AF）是在演员框架中定义IR的提出的两阶段模型。除非另有说明，所有IR都具有固定的5:1前后比例。插图：具有固定60米IR尺寸和不同前后比例的模型。0•演员演员重叠率是检测到的演员预测轨迹与其他检测到的演员预测轨迹重叠的百分比。0•演员静态重叠率是检测到的演员预测轨迹与地面真实静态交通物体重叠的百分比。0演员重叠被定义为4秒轨迹中任意点的交叠-障碍物多边形超过0.05，将该值设置为消除标记边界框中的小噪声引起的误报交叠。数据。我们在一个大型内部数据集上进行了评估，该数据集包含每个场景25秒的19,000个场景，并在北美的几个城市进行了高质量的10Hz注释。为了减少稀疏重叠的度量差异，（1）留出了5,000个场景进行测试；（2）场景中的测试帧具有2秒的时间间隔，以避免多次计数相同的重叠；（3）训练集和测试集在地理上分割，以防止模型记忆相同的静态障碍物和环境。使用这个较大的数据集，而不是使用明显较小的流行开源数据集，可以降低度量差异并得出更一般的结论。最后，通过使用相同的输入、骨干网络、损失函数和训练设置，我们的研究对比了交互建模方法。这使我们能够专注于这些方法的相对性能，而不是比较独立模型，其中确保相似的网络容量和同样调整良好的超参数通常是具有挑战性的任务。在附录中，我们提供了关于数据集、度量差异以及与公开数据集上其他运动预测模型的比较的详细信息。04.1. 结果0使用卷积进行交互。图1a中仅包含特征提取器的单阶段模型的性能显示在图3中（Extractor，黑色）。0+IR+ICNN（绿色）曲线显示了两阶段模型在不将交互区域旋转到演员框架中的情况下的性能。特别地，从1D每个演员特征图向量（0米）开始，我们将IR大小增加到80米。通过裁剪包含更多交互演员和周围上下文的较大特征图区域，位移误差和预测重叠率减少。然后，我们将IR旋转以匹配估计的演员方向，而不是使用常见的AV框架（+ICM，蓝色）。对于零大小的IR（即，裁剪的特征仍然是特征像素），与使用零大小IR的AV框架的模型相比，我们观察到DE显著下降。这在先前的研究中已经解释为标准化输出表示的好处[9]。尽管在演员框架中定义IR减少了旋转方差，但零大小的IR不包含任何交互演员，因此我们观察到演员重叠率几乎没有变化。在这里，较低的DE与更好的交互建模并不相关。随着IR的增大，DE和交互度量指标都得到了显著改善。超过60米的裁剪尺寸不再改善，可能是因为大多数交互演员和障碍物已经包含在60米的区域内。在上述所有IR中，我们将前后比例固定为5:1，即60米的IR包括演员前方50米和后方10米。在图3的插图中，我们将总尺寸固定为60米，并改变前后比例（蓝色）。由于绝大多数演员都在向前移动，我们可以看到将更多的IR放在演员前方可以改善交互建模。有趣的是再次注意到DE和重叠率之间的差异：在前后比例超过1:1之后，重叠率继续略微下降，而DE的改善停止。即使对于以演员为中心的IR（插图，绿色），不将IR旋转以匹配演员方向也会导致更差的DE和重叠率，这进一步证实了使用卷积去除旋转方差对于交互建模的重要性。从图3中，我们观察到通过裁剪特征图的演员框架定义区域，然后应用卷积的效果。65890图4. 在不同的ICM交互区域尺寸上添加GNN（图1c）的性能。+GNN（仅属性）仅在图形边缘中编码节点属性；+GNN（仅相对）仅在图形边缘中编码相对位置和方向。0图5.ICM和GNN（包括ICM）的比较。+GNN（无边缘）与+GNN相同，只是将图形边缘切断。+IL表示使用额外交互损失进行训练的模型。请注意，在大IR（由ICM建模的交互）上比较+ICM与小IR（由GNN建模的交互）的+GNN，纯ICM可以在建模交互方面胜过纯GNN。0解决方案显著改善了预测和交互建模。重叠率对IR尺寸的强依赖性提供了证据，即一旦其他参与者进入IR，卷积就能有效地捕捉到交互。使用图形进行交互。如图1c所示，对于这些实验，我们在ICM之后添加了一个GNN。请注意，如前所述，将IR尺寸设置为0m会关闭ICM，同时保留减少旋转方差的好处。对于零IR尺寸（图4，+GNN，红色），我们看到GNN确实显著改善了DE和重叠率，与图3中没有指定交互建模能力的模型（+ICM，0m）相比。值得注意的是，即使使用了GNN，我们观察到ICM仍然可以通过逐渐增加ICM的交互建模来提供额外的性能改进，即扩大IR尺寸。我们还研究了在图形边缘中使用手工制作的相对几何形状的好处。当IR较小（即ICM受限）时，仅保留节点属性n_i（蓝色）或相对几何形状rel_i,j（绿色）会严重破坏图形建模。对于大IR尺寸，三种图形模型之间的差异变得很小，这表明随着更大的特征裁剪，ICM已经有效地弥补了缺失的GNN特征。上述模型中的GNN是单次迭代。我们还评估了将GNN迭代次数增加到K=2的效果。额外的迭代（即K=2）减少了DE0当IR尺寸较小时，GNN的重叠率会进一步降低一小部分，这可以通过GNN的瓶颈现象[2]和图形完全连接的事实来解释。对于除了最小的IR之外的所有情况，这种改进都是微不足道的，并且下面没有进一步探索额外迭代的内容。卷积与图形的交互比较。在图5中，我们比较了隐式ICM（蓝色）和显式GNN（红色）的方法。当IR尺寸为零时（ICM实际上关闭时），添加GNN的收益是显著的。然而，随着IR的增长，我们观察到性能差距逐渐缩小。换句话说，虽然通过打开ICM（增加IR尺寸）可以进一步提高GNN模型的性能，但是在具有足够大的IR的ICM中添加图形只能带来微小的好处。为了理解具有大IR尺寸的+ICM和+GNN之间的差距，我们研究了一个无图形模型（+GNN（无边缘），黑色），该模型通过去除+GNN中的图形边缘而创建。对于大IR，无图形模型与+GNN的性能相匹配，这表明GNN的显式交互图对性能的贡献很小。因此，+ICM和+GNN之间的大IR尺寸差距主要是由于GNN的额外网络容量造成的。最后，我们看到，在大IR（即由ICM建模的交互）上比较+ICM与小IR（即由GNN建模的交互）的+GNN，纯ICM可以在建模交互方面胜过纯GNN。65900图6.基线（顶部）和ICM（底部）的2Hz采样预测轨迹。红色：重叠障碍物；蓝色：感兴趣的参与者的预测；灰色：其他参与者的预测；绿色：标签（附录中还有附带的视频）。0交互损失。我们还可以看到，添加交互损失（方程8）减少了两种交互建模方法（图5中的绿色和品红色）中演员预测轨迹的重叠。对于较小的IR，改进是显著的，这可能是因为较小的IR没有提供足够的信息来有效地建模交互，因此更多地受益于这种额外的监督。另一方面，当通过较大的IR更有效地建模交互时，损失更稀疏，因此贡献较小。有趣的是，交互损失对DE结果没有影响，除了在IR较小的ICM模型中，交互建模受到限制。特定机动性的定性结果。在图6中，我们对基线ICM模型（大小为0m，没有指定的交互建模）和ICM模型（大小为60m）在交互场景中观察到的三种典型机动性进行了比较：自适应巡航控制（ACC）、转弯和轻推。我们注意到，在所有情况下，0m模型都错误地预测了重叠的轨迹。在ACC情况下，ICM模型正确地预测车辆会减速并排队，而在转弯情况下，它输出了一个沿车道行驶并避免与转弯后的车辆重叠的轨迹。在轻推情况下，车辆运动以相当大的曲率开始，预测正确地减小了曲率并使轨迹变直以避免停放的车辆。我们还研究了在这些机动性上添加GNNs对+ICM（60m）的结果，并观察到没有显著差异。推理时间。包括特征提取器和其他部分（如输入预处理和输出后处理）的基线模型每帧需要45.6毫秒。接下来，我们测量将ICM和GNN模块添加到基线模型中的额外时间成本，如表1所示。零IR尺寸的ICM增加了额外的5.2毫秒，其中包括特征像素的处理和最终输出的计算。具有非零尺寸的ICM使用了卷积和双线性特征裁剪，这些操作在当前GPU软件和硬件中已经进行了优化。因此，即使是最大的80 m ICM也只比0 mICM慢几毫秒。最后，GNN本身需要0表1. 模块的推理时间（在Nvidia Titan RTX上测试）0模块IR尺寸[m] 推理时间[ms]0ICM 0 5.2 ICM 80 8.10GNN - 46.9046.9毫秒，比最慢的ICM慢多次。这与早期的结果一致，显示GNN推理可能效率低下，导致更高的延迟[21]。结合早期的结果，表明使用卷积来建模交互可以与GNNs相比具有竞争性的性能，我们可以看到卷积方法是GNNs的一种高效实用的替代方法。05. 限制和社会影响0虽然图表示了一种模拟各种关系的通用方法，但这项工作表明，当涉及到建模空间交互时，卷积也是有效的。然而，在欧几里得空间中应用CNNs时，一些信息，如驾驶员之间的语音交互，目前尚未被表示。此外，由于我们的研究仅限于2DAV应用，尚不清楚卷积在捕捉3D空间中的交互（例如建模人体运动）方面是否仍然有效。此外，轨迹上的重叠率使我们能够明确评估交互建模的质量。然而，指标的稀疏性要求具有更大的测试数据，以确保所获得的结果具有意义，这限制了指标的更广泛使用。最后，考虑的两种方法都不能保证轨迹上的零重叠，并且CNN模型的可解释性通常较低于GNN方法。06. 结论0我们比较了2D卷积和图神经网络在空间交互建模任务中的差异，提供了实证证据表明，在某些条件下，卷积网络可以达到与最先进的GNNs相当的性能（例如通过修改IR），从而在保持模型的低延迟和模型复杂性的同时，实现类似的运动预测准确性和交互建模。我们分析了交互方法的共同组成部分，从而更好地理解每种方法对交互建模的益处。此外，我们引入了一种新的交互感知损失并展示了它对考虑的方法的影响。我们的工作为卷积层在空间交互任务中的更广泛应用提供了基础，提供了证据表明卷积模型与更复杂和计算开销更大的GNN模型之间的差距可能没有之前想象的那么大。65910参考文献0[1] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,Alexandre Robicquet, Li Fei-Fei和Silvio Savarese. SocialLSTM: 在拥挤空间中预测人类轨迹.在《计算机视觉和模式识别IEEE会议论文集》中，页码961-971，2016年。20[2] Uri Alon和Eran Yahav. 图神经网络的瓶颈及其实际应用影响.《arXiv预印本arXiv:2006.05205》，2021年。70[3] Peter W Battaglia, Razvan Pascanu, Matthew Lai, DaniloRezende和Koray Kavukcuoglu.用于学习对象、关系和物理的交互网络.《arXiv预印本arXiv:1612.00222》，2016年。10[4] Sergio Casas, Cole Gulino, Renjie Liao和Raquel Ur- tasun.基于传感器数据的空间感知图神经网络用于关系行为预测.《arXiv预印本arXiv:1910.08233》，2019年。1，2，4，50[5] Sergio Casas, Wenjie Luo和Raquel Urtasun. IntentNet:从原始传感器数据中学习预测意图.在《机器人学习会议》中，页码947-956，2018年。20[6] Henggang Cui, Vladan Radosavljevic, Fang-Chieh Chou,Tsung-Han Lin, Thi Nguyen, Tzu-Kuo Huang, Jeff Schnei-der和Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模态轨迹预测.在《2019国际机器人与自动化会议(ICRA)》中，页码2090-2096。IEEE，2019年。40[7] Nachiket Deo和Mohan M. Trivedi.用于车辆轨迹预测的卷积社交池化.《CoRR》，abs/1805.06771，2018年。20[8] Frederik Diehl, Thomas Brunner, Michael Truong-Le和Alois C.Knoll. 用于建模交通参与者相互作用的图神经网络.《CoRR》，abs/1903.01254，2019年。20[9] Nemanja Djuric, Henggang Cui, Zhaoen Su, Shangxuan Wu,Huahua Wang, Fang-Chieh Chou, Luisa San Martin, Song Feng,Rui Hu, Yang Xu等. Multinet: 多类多阶段多模态运动预测.在《IEEE智能车辆研讨会(IV)会议论文集》中，2020年。2，3，4，60[10] Nemanja Djuric, Vladan Radosavljevic, Henggang Cui, ThiNguyen, Fang-Chieh Chou, Tsung-Han Lin和Jeff Schnei- der.使用深度卷积网络进行自动驾驶交通参与者短期运动预测.《arXiv预印本arXiv:1808.05819》，2018年。2，40[11] Francis Engelmann, Theodora Kontogianni和BastianLeibe. 扩张点卷积: 3D点云上点卷积的感受野大小.在《2020年IEEE国际机器人与自动化会议(ICRA)》中，页码9463-9469。IEEE，2020年。10[12] Alex Fout, Jonathon Byrd, Basir Shariat和Asa Ben-Hur.使用图卷积网络进行蛋白质界面预测.在《神经信息处理系统进展》中，页码6530-6539，2017年。10[13] Jiyang Gao, Chen Sun, Hang Zhao, Yi Shen, DragomirAnguelov, Congcong Li和Cordelia Schmid. Vectornet:从矢量化表示中编码高清地图和代理动力学.arXiv预印本arXiv:2005.04259 , 2020. 20[14] Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, OriolVinyals和George E Dahl. 神经消息传递用于量子化学.0量子化学. arXiv预印本arXiv:1704.01212 , 2017. 4 , 50[15] Agrim Gupta, Justin Johnson, Li Fei-Fei, SilvioSavarese和Alexandre Alahi. Social GAN:使用生成对抗网络生成社交可接受的轨迹. CoRR ,abs/1803.10892, 2018. 20[16] Takuo Hamaguchi, Hidekazu Oiwa, MasashiShimbo和Yuji Matsumoto. 对于知识库之外的实体的知识迁移:一种图神经网络方法. arXiv预印本arXiv:1706.05674 , 2017. 10[17] Will Hamilton, Zhitao Ying和Jure Leskovec.大规模图上的归纳表示学习. 在神经信息处理系统进展中,第1024-1034页, 2017. 10[18] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差网络中的身份映射. 在欧洲计算机视觉大会上,第630-645页. Springer, 2016. 30[19] Boris Ivanovic和Marco Pavone. 建模多模态动态时空图.CoRR , abs/1810.05993, 2018. 20[20] Elias Khalil, Hanjun Dai, Yuyu Zhang, Bistra Dilkina和LeSong. 在图上学习组合优化算法. 在神经信息处理系统进展中,第6348-6358页, 2017. 10[21] Kevin Kiningham, Christopher Re和Philip Levis. Grip:一种图神经网络加速器架构. arXiv预印本arXiv:2007.13828 ,2020. 80[22] Thomas Kipf, Ethan Fetaya, Kuan-Chieh Wang, MaxWelling和Richard Zemel. 用于交互系统的神经关系推理.在国际机器学习大会上, 第2688-2697页. PMLR, 2018. 1 , 20[23] Thomas N Kipf和Max Welling.带有图卷积网络的半监督分类. arXiv预印本arXiv:1609.02907 ,2016. 10[24] T.-Y. Lin, P. Goyal, R. Girshick, K. He和P. Dollar.密集目标检测的焦点损失. 在ICCV会议上, 2017. 30[25] Wenjie Luo, Bin Yang和Raquel Urtasun. 快速而狂野:使用单个卷积网络进行实时端到端3D检测, 跟踪和运动预测. 在IEEECVPR会议上, 第3569-3577页, 2018. 20[26] Sindy L¨owe, David M

下载后可阅读完整内容，剩余1页未读，立即下载