自动驾驶车辆中的多智能体交互预测模型

100 浏览量更新于2023-10-12 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2821预测轿厢2轿厢3轿厢1条件预测：设置汽车1目标=提前轿厢3轿厢1目标=前进条件预测：设置轿厢1目标=停止轿厢31号车目标=停止PRECOG：视觉多智能体环境尼古拉斯·莱因哈特1罗文·麦卡利斯特2克里斯·基塔尼1 谢尔盖·莱文21卡内基梅隆大学{nrhineha，kkitani}@cs.cmu.edu2加州大学伯克利{rmcallister，svlevine}@berkeley.edu摘要为了使自动驾驶车辆（AV）在人类驾驶车辆居住的道路上适当地运行，它们必须能够从丰富的感知信息中推理出其他驾驶员的不确定意图和决策。对于这些能力，我们提出了一个概率预测模型的未来互动的可变数量的代理。我们执行标准预测和条件预测的新任务，这是关于所有代理将可能如何我们在真实和模拟数据上训练模型，以预测给定过去位置和激光雷达的车辆轨迹。我们的评估表明，我们的模型是更准确的多智能体驾驶场景相比，现有的最先进的。除了它的一般能力，执行条件预测查询，我们表明，我们的模型的预测，所有代理改善条件时，知识的AV的目标，进一步说明其capa- bility模型代理的相互作用。1. 介绍自动驾驶需要对智能体在各种情况下的未来行为进行推理：在停车标志、环形交叉路口、人行横道、停车时、合并时等。在多代理设置中，每个代理的行为影响其他代理的行为。出于人们在这些环境中推理的能力，我们提出了一种从感知数据（如图像和激光雷达）预测多智能体交互的方法。除了预测所有代理的行为之外，我们希望我们的模型能够有条件地预测其他代理可能如何响应每个代理可能做出的不同决策我们希望预测其他智能体在响应机器人实现目标的意图时可能会做这种推理对于智能体在多智能体环境中做出正确的决策是必不可少的：他们必须推理他们未来的决策如何影响他们周围的多智能体系统。机器人目标的预测和条件预测示例如图所示。图1和图2。我们的方法的输出视频可在https://sites.google.com/view/precog上获得。图1：nuScenes上的预测[4]。我们的模型的输入是一个高维激光雷达观测，它通知所有代理的未来轨迹的图2：根据不同的Car 1目标调节模型会产生不同的预测：在这里，如果轿厢1让出空间，则预测轿厢3移动，或者如果轿厢1保持停止，则预测轿厢3保持停止。权前左2822在整个论文中，我们使用目标来表示智能体期望的未来状态。规划意味着产生一系列可能满足目标的未来决策（在我们的模型中，潜在价值的选择）的算法过程预测是指对一系列可能的未来状态的预测;预测可以是单代理或多代理。最后，条件预测意味着通过对一个或多个代理目标进行条件化来进行预测。通过规划一个智能体虽然我们计划未来的决策以执行条件预测，但在机器人上执行这些计划超出了这项工作的范围。对于有条件的预测，我们提出了一个基于因子分解流的生成模型，预测所有代理的联合状态我们的模型的原因概率约plau-sible未来的互动代理商给予丰富的观察他们的环境。它使用潜变量来捕捉其他代理决策中的不确定性我们的主要思想是使用因子分解的潜变量模型解耦代理决策，即使代理动态耦合。跨代理和时间的因子分解使我们能够查询在任意时间步改变任意代理的决策的影响。我们的贡献是：1. 最先进的多智能体车辆预测：我们开发了一种称为Esti- mating Social-forecast Probabilities（ESP）的多智能体预测模型，该模型使用精确的似然推理（与VAE或GAN不同），在真实和模拟车辆数据集上优于三种最先进的方法[4，8]。2. 目标条件多智能体预测：我们提出了第一个生成式多代理预测方法，能够对代理目标的条件，称为预条件目标（PRECOG）。在对智能体相互作用进行建模之后，对一个智能体的目标进行调节会3. 多智能体模拟规划目标：我们在多智能体环境中为运动规划设计了一个数据驱动的目标。它平衡了达到目标的可能性和专家恶魔执行相同计划的可能性我们使用这个目标离线规划已知的目标，这提高了预测性能。2. 相关工作多智能体建模和预测是一个具有挑战性的问题，在控制应用中，代理相互反应并发。安全控制需要忠实的现实模型，以便在危险情况发生之前预测到它们。代理之间的依赖关系建模在紧密耦合的场景（如交叉点）中尤其重要。博弈论规划：传统上，多代理计划和博弈论方法显式地对多个代理的策略或内部状态进行建模，通常通过将马尔可夫决策过程（MDP）推广到多个决策者[5，35]。这些框架促进了关于协作策略的推理多智能体预测：数据驱动的方法已被应用于预测多个行人[1，3，10，14，21]，车辆[6，19，26]和运动员[9，18，20，34，36，37]。这些方法试图从以前观察到的相互作用来预测新情况下的多智能体行为。预测与模仿学习有关[25]，它学习一个模型来模仿演示的行为。与一些模仿学习方法相比，例如，行为克隆[29]，预测模型不是在被观察的代理的环境中执行的-它们是代理的预测模型。从这个意义上说，预测可以被认为是没有执行的非交互式模仿学习。预测控制和规划：提出了多智能体预测和控制的生成模型。在多智能体预测方面，我们的工作与[33]有关，它使用多个智能体的联合状态的条件VAE [17]编码以及循环细胞来预测未来的人类行为。然而，我们的工作在三个关键方面有所不同。首先，我们对代理之间的持续共同影响进行建模，而不是其次，我们的方法使用上下文视觉信息有用的泛化到许多新的场景。第三，我们对两辆以上车辆之间的交互进行联合建模。而[15]由于计算原因假设条件独立，我们不这样做，因为它们带来的开销最小。我们考虑的情况下，该模型可能会控制的代理之一（“机器人”）。在计划控制方面，我们的方法推广了模仿模型[31]。在[31]中，单智能体预测模型用于确定性单智能体规划。相反，我们的工作考虑多智能体预测，因此必须计划可能路径的分布：从我们的机器人的角度来看，其他人类驾驶员的未来行为是不确定的。通过建模的共同影响，我们的机器人因此，我们的工作为模仿模型提出了一个非平凡的扩展：我们考虑未来路径规划的不确定性引起的不确定性的其他代理在多智能体设置。虽然[31]可以通过其视觉条件反射隐式地对其他代理进行建模，但我们表明，其他代理的显式建模会产生更好的预测结果，此外还为我们提供了预测对代理计划的响应的工具2823∈。联系我们不不1：Tq（S|SN（Sa;µa，a），（3）3. 深度多智能体预测在本节中，我们将描述我们的基于似然的多智能体预测模型，然后描述如何将R2P2我们用它来执行规划和多智能体条件Sa=µa（S1：t−1，φ）+σa（S1：t−1，φ）·Za∈RD，（2）tθ θt预测首先，我们定义我们的符号和术语-奥吉我们把我们的多智能体系统当作一个连续的-其中μa（·）和σa（·）是神经网络函数（其中θ θ空间、离散时间、部分可观测马尔可夫过程由在T时间内相互作用的A个代理（车辆）组成可训练权重θ）输出一步平均预测的标准差矩阵σa∈RD×Dt t步我们将时间t的所有代理位置建模为St∈ RA×D，其中D = 2。Sa表示代理a代理a，将系统的转换函数q定义Q地平面。我们假设有一个不1 ：t−1a=1t t t(e.g.AV）和A-1人类驾驶员其中，Σa=σa σaσ。注意，（2）预测了第a个代理我们的模型无法控制）。我们定义Sr=。S1∈RDtt不一以index机器人状态，并且Sh=.t tS2：A R状态St给定先前的多智能体状态S1：t-1。我们t t∈（A−1）×D至可以看出，给定S，则（2）中的一步预测为索引人类状态。粗体字区分变量和函数。大写英文字母表示随机变量。我们定义t=0为当前时间。下标1：t−1单峰高斯然而，多步预测是一般多峰给定递归非线性条件，神经网络输出μa和σa的排序缺席表示所有未来时间步，上标ab-t tsence表示所有代理，例如 S =.S1：A RT×A×D1：T.预测这个模型的最终节点可以写成QT每个代理都可以访问环境感知φ={s-τ：0，χ}，其中τ是我们所处的过去多智能体位置的数量，χ是场景的高维观测。X可以表示LIDAR或摄像机图像，并且是机器人在q（S|φ）=t=1q（St|S1：t−1，φ）。（四）3.2.模型实现为了实现我们的模型q（S|φ），我们设计了神经网络-，则是一种“一”与“一”的关系。与[30]类似，我们扩展我们的设置，LIDAR提供为χ=R200×200×2，其中ttXij表示上方和下方的点的2箱直方图µθ（·）表示ma=ma（S1：t−1，φ）= 0时的速度平均值：地面0.5m2细胞。虽然我们的感知是tθ以机器人为中心，每个代理被建模为可以访问X。Sa=2Sa−Sa +m a（S1：t−1，φ）+σ a（S1：t−1，φ）·Za. （五）3.1. 社会预测概率（ESP）t t−1`t−2θ的tθ t`σax我们提出了一个数据驱动的基于似然的多智能体交互生成模型，多智能体系统的T步动力学：Sq（S|其中D是观察到的多智能体状态轨迹的训练数据。我们的模型通过以下方式学习映射潜在变量Z：一个可逆函数f到多智能体轨迹S的条件φ。 f的可逆性诱导q（S|[23 ]一种是一个逆分布（pushfor-warddistribution ），也被称为一个逆分布（ invertiblegenerator）。一个高层次的图表，我们的实现显示在图。3c.回想一下φ={s−τ：0，χ}：上下文包含所有智能体的过去位置，s−τ：0，以及一个特征图χ，实现为由机器人观察的激光雷达。我们...用GRU编码s−τ：0CNN以与X相同的空间分辨率将X处理为Γ。每个智能体的预测位置Sa的特征Γ（Sa）. 代理A的位置不假设：Sa−Sb<$b∈A\{a}，以及视觉模型[7，12，13，16，30]。可逆生成模型t tγa=Γ（s1）···Γ（sA）。社会特征，过去的encod-可以高效准确地计算出sam-t t t例。在这里，它意味着我们可以计算出ing和CNN特征被馈送到每个代理GRU，在（5）中产生ma和σa 我们通过观察多智能体轨迹，对我们用t t规划的目标至关重要该模型我们将该模型S从q采样如下：Z<$N（0，I）;S = f（Z; φ）;S，Z ∈ RT×A×D.（一）我们的潜在变量Z=。A在时间和主体间的因子化通过设置Za←za，稍后讨论。我们的模型与不，φ）=一µ2824专家多智能体交互系统|φ）通过最大化关于我们的模型参数θ的可能性。我们使用共享参数来产生r和过去的编码。有关体系结构表和其他详细信息，请参见附录C。可伸缩计数实现：虽然到目前为止描述的实现仅限于预测场景中代理的固定计数，但我们还实现了灵活计数版本。有两种灵活的模型，t tR2P2单智能体生成模型[30]，其中包括：构建了一个基于深度似然的单智能体车辆预测生成模型对于多步预测，我们实践(1)一个完全灵活的模型，适用于任何场景的代理计数A测试∈N。(2)一个适用于任何场景的部分柔性模型，其中Agent计数Atest∈{1..一列火车，28252：T1：T不不t>1不························(a) ESP预测（b）PRECOG规划（c）ESP模式实施图3：我们的预测和规划的因子分解潜变量模型显示为2个代理。在图3a中，我们的模型使用潜在变量at+1表示智能体a对所有智能体S t的合理场景条件反应的statesS. 由于未知的驾驶员目标和在训练数据中观察到的不同驾驶风格，存在变化。除了预测，我们的模型允许通过决定Zr=Zr来规划机器人决策（图3b）。阴影节点表示观察到的或确定的变量，方形节点表示机器人决策[2]。粗箭头表示“向前推进”的非马可夫St的分组依赖性（由粗边链链接的任何一对节点之间存在规则边）。注意Z在代理之间进行因子分解人类的反应仍然是不确定的（Zh是不可观察的）和不可控的（机器人不能决定Zh），然而机器人决策zr仍将影响人类驾驶员Sh（反之亦然）。图3c显示了我们的实现。详见附录C。由超参数上限控制训练时的训练为了实现（1），模型参数的计数必须独立于A测试，以便相同的体系结构适用于具有不同代理计数的场景为了实现（2），在我们的框架中，存在的/缺失的=0我们通过使用掩码M∈{0，1}A训练来屏蔽缺失代理的特征来实现（2）在这个模型中，我们在代理之间共享参数用不同数量的智能体训练它。3.3. 条件预测我们的生成模型的一个显着特点，多步骤，多代理预测是其潜在变量Z=。Z1：对代理和时间进行因子分解的A. 分解使其能够使用高度灵活的控制模型，预测。条件预测预测其他智能体在不同时刻对不同机器人决策的反应。由于机器人不仅仅是被动的观察者，而是潜在的许多代理之一，因此预测它们如何影响他人的能力对于它们计划有用，安全和有效行动的能力至关重要，对于它们在规划和控制框架中的效用至关重要[22]。人类驾驶员的行为看起来非常随机，部分原因是我们无法观察到他们的目标。在我们的模型中，这种不确定性的来源来自于拉-tent变量Z<$N（0，I）。在实际应用中，机器人知道自己的目标，可以选择自己的行动，计划一个行动过程以达到预期的目标。回想一下（2），一步智能体预测在给定先前的多智能体状态的情况下是相互条件独立的。因此，在潜在状态Z中的确定性是正确的。响应于第a个智能体在时间t对多智能体系统历史S 1：t-1的反应的确定性。不同的Za值对应于对相同的反应的不同方式-不阵 Za的决定值对应于控制-代理人A.因此，我们可以通过为其潜变量Zr<$zr赋值来实现对机器人的控制。相反，人类的反应Zh不能由机器人，但从机器人的角度来看仍然不确定。因此，人类只能受到他们在S1：t-1中对机器人先前状态的条件的影响3b.因此，为了生成条件预测，我们决定zr，采样Zh，连接Z=zr<$Zh，并扭曲S=f（Z，φ）。这种潜在变量的分解很容易促进控制。天气预报。为了预测S，我们可以固定zr，从分布p（Zh）= N（0，I）中对人类代理的反应进行采样3.4. 以目标为条件的预测（PRECOG）我们讨论了预测如何以zr的值为条件，但还没有讨论如何找到理想的zr值，例如将安全地将机器人引导到其目标位置的值。我们通过优化客观的Lw.r.t.控制变量zr，它允许我们在L下产生虽然许多目标都是有效的，但我们使用模仿模型（IM），该模型基于先前的专家演示[ 31 ]来估计专家为满足目标而“可能采取”的最可能状态轨迹IM建模的单代理环境中的机器人轨迹规划，而不考虑其他代理。多智能体规划是不同的，因为未来的机器人状态是不确定的（图中的状态Sr）3b），即使以控制变量zr为条件，ZR1ZR2φSR1SR2Sh1Sh2ZH 1ZH2ZR不SR不SR不ZH不zR1zR2φSR1SR2Sh1Sh2ZH 1ZH2zR不SR不SR不ZH不Z2826不的联系我们联系我们周围人类驾驶员的不确定性的原因。我们将IM推广到多代理环境，并计划w.r.t.附近人类驾驶员的不确定性。首先，我们选择了一个给定状态轨迹，机器人到达目标G的S.例如，该路径可以是机器人应该接近的路径点w∈RD：p（G|S，φ）=N（w;Sr，φI）.其次，我们将目标似然与“安全多主体状态轨迹q（S）的“bability”模型|φ），从专家演示中学习。请注意，与许多其他生成式多智能体模型，我们可以计算从q（S）生成S的概率|φ）正是如此，这对我们的规划方法至关重要。这导致“后验”p（S| G，φ）。最后，我们计划了一个目标寻求路径的学习分布的演示多智能体行为在对数后验概率下，推导为：logEZh[p（S| G，φ）]≥EZh[log p（S| G，φ）]（6）=EZh[log.q（S|φ）p（G|S，φ）]−logp（G|φ）（7）L（zr，G）=. EZh[logq（S |φ）+logp（G| S，φ）]（8）=EZh[logq（f（Z）|φ）+logp（G|f（Z），φ）]，（9）从我们的模型中输入χ，以确定其与预测的相关性。附录F和G提供：（1）更多条件预测结果，（2）定位敏感性分析和缓解（3）对更多数据集的评估，以及（4）几页定性结果。nuScenes数据集：我们使用了最近发布的完整nuScenes数据集[4]，这是一个用于多智能体轨迹预测的真实数据集，其中记录了850个20秒的驾驶事件，并以2Hz的频率标记了所有智能体的位置，并与许多传感器同步，包括激光雷达。我们处理了每个示例，以训练、验证和测试拆分。每个例子都有2秒的过去和4秒的未来位置，频率为5Hz，并伴随着从1秒的先前扫描合成的激光雷达地图。我们还试验了将二进制道路掩码连接到X，在我们的评估中表示为CARLA数据集：我们使用CARLA模拟器生成了一个用于多智能体轨迹预测和规划的真实数据集[8]。我们在Town01中运行了900多集自动驾驶仪，每集100秒，有100辆其他车辆在场，并记录了每辆车的轨迹。多主体先验目标似然度车辆和自动驾驶仪的激光雷达观察。我们跑了-domized情节训练，验证，或测试集。我们其中，（6）遵循詹森（7）遵循贝叶斯学习模型q作为先验。在（8）中，我们去掉p（G|φ）是因为它是常数w.r.t. 兹河回想一下，Z=zr<$Zh是机器人和人类控制变量的级联。的机器人可以使用我们的ESP模型通过优化（9）进行规划：zr∈ G= argmaxzrL（zr，G）.（十）可以使用其他目标来代替，例如：仅最大化机器人轨迹的后验概率。这可能将人类代理置于不寻常的、不稳定的驾驶情境中，在“通常驾驶交互”的先验分布之外。（10）鼓励机器人避免可能使关节系统处于意外情况的动作4. 实验创建了60组、701组训练、7586组验证和7567组测试示例，每个示例在10 Hz下具有2秒的过去位置和2秒的未来位置。详情见附录 E ，数据见https://sites.google.com/view/precog。4.1. 度量对数似然：由于我们的模型可以执行精确的似然推理（与GAN或VAE不同），我们可以精确地评估每个模型下保持样本的可能性。检验对数似然由前向交叉熵给出H（p，q）=−ESp（S|φ）logq（S|φ），它对一般p和q是无界的。然而，通过扰动来自p（S）的样本，|φ）与从已知分布η（例如高斯分布）提取的噪声一起产生扰动分布p′，我们可以求一个下界[30]。下界由H（p′，q）≥H（p′）≥H（η）给出.我们使用η=N（0，0. 01·I）（注H（η）是解析已知我们的可能性统计是：. Σ′Σ我们首先将我们的预测模型与现有的最先进的多代理预测方法，包括e=H（p，q）−H（n）/（TAD）≥0，（11）[19]第十四章：一个人的世界我们还包括一个基线模型：R2 P2-MA（改编自R2 P2 [30]，以处理多个代理输入），它不模拟代理将如何对彼此的未来决策做出反应。其次，我们研究了条件预测的新问题。为了量化预测性能，我们研究了sce- narios，其中我们有机器人的真实目标和关节状态序列对。目标的知识应该使我们2827的模型能够更好地预测机器人和每个代理可以做什么。第三，我们消除了高维度的语境其具有nat s/dim。单位我们称e为归一化使得能够跨不同维度的模型进行比较样品质量：对于样本度量，我们必须注意，当它生成不同于专家轨迹的合理样本时，不要惩罚分布。我们扩展了“minMSD”度量对模型进行采样，并根据以下方面2828.†。K=0||Sa=1不R2P2-MAR2P2-MAESPESPMSD与常用的平均位移误差（ADE）和最终位移误差（FDE）度量（计算从一批样本到单个地面实况样本的平均欧几里得误差）[1，6，10，14，28]相比，minMSD具有不惩罚与代理可能做出的决策相对应的合理样本的理想属性，但没有。这可以防止错误地惩罚做出不同行为预测的模型。我们希望其他多模态预测方法也能测量具有minMSD的联合样本的质量，由下式给出因为它不以人类的未来位置为机器人的未来位置的条件，反之亦然。在ESP模型中，机器人能够在生成过程中对人类卡拉和nuScenes：我们从CARLA和nuScenes数据中构建了10个数据集，对应于不同数量的代理{2.. 5}。在t = 0时，智能体按它们到自动驾驶仪的距离排序。当包含1个智能体时，仅对自动驾驶仪进行建模;对于A智能体，自动驾驶仪mK=ESMink ∈{1.. K}||S∗ -S（k）||2/(TA),(12)topilot和A-1最接近的车辆进行建模。对于每一种方法，我们在其中Sp（S|φ），S（k）iq（S|φ）。我们把每个-最好的val-set得分。在R2P2和我们的方法中，最佳关节轨迹的代理误差，是E。在BASINRE和SocialGAN中，值集得分为m，因为姆扎. ESp（S|φ）a— Sa、（k）||2/，他们无法计算出时间。 TA B。1显示了多智能体前-k= argmink∈{1.. K} ||S*— S（k）||2.（十三）铸造结果。在所有10个设置中，我们的模型实现了最好的律师和律师。我们还切除了模型4.2. 基线KDE [27，32]作为所有方法的有用性能边界;它可以计算m和e。我们使用验证数据选择了一个带宽注意KDE忽略φ。BENGRE[19]提出了一种条件VAE模型，可以观察过去的轨迹和视觉背景。我们按照所描述的实现。而BASTRRE是用单智能体证据下限（ELBO）训练的，我们的模型联合建模多个智能体具有确切的似然性。KNORE无法计算关节力或关节力矩。SocialGAN [14]提出了一种条件GAN多智能体预测模型，该模型观察所有建模智能体的过去轨迹，但不观察χ。我们使用了作者的公共实现。与SocialGAN相反，我们对关节轨迹进行建模，并可以计算lik elihoods（因此也可以计算e）。R2P2[30]提出了一种基于似然的单智能体条件生成预测模型。我们扩展了R2P2多代理设置，并将其用作我们的R2 P2-MA模型; R2 P2不联合建模代理。否则，我们将按照所描述的方式执行。我们用前向交叉熵损失训练了它和我们的模型R2P2-MAcess toχ（与SocialGAN，在模型输入方面。视觉上下文在每种情况下都提供了一致的改进。我们预测的定性例子如图所示。五、我们观察到三种重要的多模态：1）沿着共同的特定方向的速度的多模态，2）该模型适当地预测交叉口处的各种可能的路径，以及3）当代理停止时，该模型预测有时代理将保持静止，有时它们将加速前进。该模型还捕捉定性的社会行为，例如预测一辆车在加速前会等待另一辆车。请参阅Ap-penneig以获取其他可视化效果。可能性由q（S）给出|φ）= QA q a（Sa|φ）。4.3. 多智能体预测实验教学实例：在教学示例中，机器人（蓝色）和人类（橙色）都在十字路口导航，人类有一个随机目标：与0。5.他们向左转的概率，否则他们将直行。人类总是直行4个时间步，然后通过直行或左转来揭示其意图。机器人试图直行，但如果人类在机器人前面转弯，机器人会默许人类。我们训练了我们的模型，并在Fig.4.第一章每个轨迹具有长度T=20。虽然这两个模型在可能性方面与训练分布非常匹配，但它们的样本质量却有显著差异。R2 P2-MA模型生成样本图4：教学评估。左图：R2 P2-MA无法对智能体交互进行建模，并生成数据中不存在的联合行为。右侧图：ESP允许智能体相互影响，不会产生不良的联合行为。4.4. PRECOG实验现在我们执行第二组评估。我们调查，如果我们的规划方法使我们能够样本更合理的联合未来的所有代理。与之前的无条件预测场景不同，当机器人使用ESP模型进行规划时，它知道自己的目标。我们可以离线模拟规划，假设目标是机器人在t=T时实际达到的状态，然后模型测试mK=12你好预测崩溃计划崩溃R2P2-MA0的情况。3310的情况。08550块百分之八四十九百分之五2829左不表1：CARLA和nuScenes多智能体预测评估。所有CARLA训练的模型仅使用Town01 Train，并在Town02 Test上进行测试。没有从Town02收集训练数据。报告平均值及其标准误差。破折号（-）表示无法计算e的方法。R2P2-MA模型将[30]推广到多智能体。我们的ESP方法（灰色）的变体优于先前的工作。有关Town01测试和单药设置的其他评价，请参见附录F。方法测试m=12你好测试m=12你好测试m=12你好测试m=12你好CARLA Town02测试2种药物3种药物4剂5剂KDE4.第一章488±0。1458. 179 ±1。523五、964 ±0。099六、029 ±0. 3947 .第一次会议。846 ±0。087五、181 ±0。1729 .第九条。610±0。078五、116 ±0。097欲望[19个]1 .一、159 ±0。027–1 .一、099 ±0。018–1 .一、410 ±0。018–1 .一、697 ±0。017–SocialGAN[14个]0的情况。902±0。022–0的情况。756±0。015–0的情况。932±0。014–0的情况。979±0。015–R2P2-MA[30个]0的情况。454±0。0140的情况。577±0。0040的情况。516±0。0120的情况。640±0。0220的情况。575±0。0110的情况。598±0。0100的情况。632±0。0110的情况。620±0。010我们的：ESP，没有激光雷达0的情况。633±0。0170的情况。579±0。0060的情况。582±0。0140的情况。620±0。0130的情况。655±0。0130的情况。591±0。0060的情况。784±0. 0130的情况。584±0。004我们的：ESP0的情况。393±0。0140的情况。550±0。0040的情况。377±0。0110的情况。529±0。0040的情况。438±0. 0100的情况。540±0。0040的情况。565±0。0090的情况。592±0。004我们的超感知觉柔韧性计数0的情况。488±0。0170的情况。537±0。0020的情况。412±0。0120的情况。508±0。0010的情况。398±0。0100的情况。499±0。0010的情况。435±0。0110的情况。496±0。001nuScenes测试2代理3代理4代理5代理KDE19号。375 ±0。7983 .第三章。760±0。01531岁663 ±0。8944.第一章102±0。02341岁289 ±1。1704.第一章369±0。02652岁071 ±1。4494.第一章615±0。028欲望[19个]3 .第三章。473±0。102–4.第一章421±0。130–五、957 ±0。162–六、575 ±0。198–SocialGAN[14个]二、119 ±0。087–3 .第三章。033±0. 110–3 .第三章。484±0。129–3 .第三章。871±0。148–R2P2-MA[30个]1 .一、336 ±0。0620的情况。951±0。007二、055 ±0. 0930的情况。989±0。008二、695 ±0。1001 .一、020 ±0.0113 .第三章。311±0。1661 .一、050 ±0。012我们的是超感知器没有激光雷达一号496± 0。0690. 920± 0。0082. 240± 0。0840. 955 ±0。0083. 201± 0。1131. 033± 0. 0123. 442± 0。139 1. 107 ±0。018我们的：ESP1。325± 0。065 0. 933± 0。0081. 705± 0。0891. 018± 0. 0112. 547± 0。0951. 053± 0. 0153. 266± 0。1551. 082 ±0。013我们的：ESP，1号公路。081± 0. 0530. 929± 0。0081. 505± 0。0701. 016± 0. 0112. 360±0。0931 .一、013± 0. 0122. 892± 0。1621. 114 ±0。024我们的：ESP，Road，Flex。1 .一、464± 0。067 0. 980± 0。0032. 029± 0. 0791. 001± 0。0032. 525± 0。0991. 015± 0. 0022. 933± 0。1291. 029 ±0. 002前右左前右图5：使用我们学习的ESP模型进行多智能体预测的示例在每个场景中，示出了12个联合样本，并且LIDAR颜色被离散化为近地面和地面以上。左：（CARLA）模型预测1号车可能左转或右转，而其他智能体的未来保持多模态速度。中左：该模型预测2号车可能会等待（它被3号车和5号车挡住了），3号车和5号车有时会一起前进，有时会保持静止。中心右侧：预计2号车将超过1号车，而1号车本身预计将继续等待行人和2号车。右图：预计4号车将等待其他车辆通过十字路口，5号车将开始转弯或继续直行。规划从当前时间步到该目标位置的路径然后，我们可以评估代理的路径和其他代理在此计划下的随机路径的质量。虽然这并没有在完全控制的场景中测试我们的模型，但它确实允许我们评估目标条件是否提供更准确和更高置信度的预测。我们在随机潜在多智能体规划目标（9）中使用我们的模型精细目标似然p（G|S，φ）=N（Sr; Sr，0. 1·I），即可能的联合轨迹下的不确定性的其他代理和近似最大化的目标可能性。请注意，由于我们在潜在空间中进行规划，因此最终的机器人轨迹并不完全确定接下来，我们将举例说明一个场景，其中联合建模对于准确的预测和规划至关重要然后，我们在CARLA和nuScenes数据集上进行规划实验。T T在受控代理的最后一个真实未来位置S_r处的正态分布如前所述，这些知识可能在我们确信可以实现此位置目标的控制场景可以应用其他目标可能性来放松这个假设，但是这个设置允许我们轻松地测量所得到的联合样本的质量。我们使用（9）上的梯度下降来近似zr_n（详见补充）。由此产生的潜在计划收益率很高2830不4.4.1CARLA和nuScenes PRECOG快速规划基线：我们通过将输入目标状态和过去的编码馈送到两层200单元的ReLU MLP来开发一个直接的规划基线，该MLP被训练用于预测给定训练元组的机器人的潜在状态。（x =（HX，Sr）q ） RE（S|φ，zr（ T）），y =zr）. 其他代理的潜伏期是来自它们的优先级的样本。实验：我们使用训练的ESP模型运行PRE-2831KKK表2：我们的模型对CARLATown01测试和nuScenes测试数据的预测评估。规划机器人到目标位置（PRECOG）为所有代理生成更好的预测。报告平均值及其标准误差。见table 6对于所有A={2.. 5}。K=12K=12K=12K=12(a) CARLA，ESP（b）CARLA，PRECOG（c）nuScenes，ESP（d）nuScenes，PRECOG图6：在CARLA和nuScenes中使用我们学习的模型进行计划多智能体预测（PRECOG）的示例。通过使用我们的规划方法并将机器人置于其真实的最终位置，我们对其他智能体的预测发生了变化，我们对机器人的预测变得更加准确，有时我们对其他智能体的预测也变得更加准确。CARLA和nuScenes测试集上的COG在这里，我们使用mK和ma来量化所有代理和每个代理单独的联合样本质量。在选项卡中。2和图6，我们报告我们的规划实验的结果我们观察到，我们的规划方法显着提高了联合轨迹的质量正如预期的那样，预测性能提高最多的计划代理（m1）。值得注意的是，其他代理的预测性能在所有数据集和所有代理上都有所改善。我们看到，非计划代理人的改进通常对汽车2（m=2）最大。这个结果符合我们的直觉：汽车2是最接近计划代理的代理，因此，它是汽车1影响最大的代理。这种规划的定性例子如图所示。六、我们观察到的趋势类似的CARLA规划实验的预测性能提高最多的计划代理，与预测性能的计划外代理提高响应的潜在计划。请参阅Ap-penneig以获取其他可视化效果。5. 结论我们提出了一种多智能体预测方法ESP，它在真实（nuScenes）和模拟（CARLA）驾驶数据上的性能优于最先进的多智能体预测方法。我们还开发了一种新的算法，PRECOG，根据代理人的目标进行预测。我们发现，与先前工作中使用的无条件预测相比，条件预测改善了联合代理和每个代理的预测。条件预测可以用于规划，我们证明了一个新的多智能体模仿规划目标。未来的发展方向包括条件预测。多个代理目标，可用于通过传达的意图进行多AV协调。鸣谢：感谢K。Rakelly，A. Filos，A. Del Giorno，A.Dragan 和评论者的有用反馈。由 IARPA （ D17 PC00340 ）、 ARL DCIST CRA W 911 NF-17-2-0181 、DARPA通过被保证人Autonomy Program、ONR和NVIDIA。数据方法测试mK=12测试时间a=1测试时间a=2测试时间a=3测试时间a=4测试时间a=5K=12[19]第十九话1 .一、837 ±0。0481 .一、991 ±0。0661 .一、683 ±0。050–––CARLAA=2个单位计划1 .一、858 ±0。0460的情况。918±0。044二、798 ±0。073–––ESPPRECOG0的情况。337±0。0130的情况。241±0。0120的情况。196±0。0090的情况。055±0. 0030的情况。478±0。0240的情况。426±0。024––––––[19]第十九话二、622 ±0。030二、621 ±0。045二、422 ±0。048二、七百一十±零。066二、969 ±0。057二、391 ±0。049CARLAA=5米-计划二、329 ±0。0380的情况。194±0。004二、239 ±0。0573 .第三章。119±0。0983 .第三章。332±0。090二、758 ±0。083ESP0的情况。718±0。0120的情况。340±0。0110的情况。759±0. 0240的情况。809±0。0250的情况。851±0。0230的情况。828±0。024PRECOG0的情况。640±0。0110的情况。066±0. 0030的情况。741±0。0240的情况。790±0。0240的情况。804±0。0220的情况。801±0。024[19]第十九话3 .第三章。307±0。0933 .第三章。002±0. 0883 .第三章。613±0。140–––2832引用[1] 亚历山大·阿拉希、克拉塔斯·戈尔、维格内什·拉马纳坦、亚历山大·罗比克特、李飞飞和西尔维奥·萨瓦雷塞。社交LSTM：拥挤空间中的人体轨迹预测。在计算机视觉和模式识别（CVPR），2016年6月。二、六[2] 大卫·巴伯。贝叶斯推理与机器学习。剑桥大学出版社，2012年。4[3] Federico Bartoli ， Giuseppe Lisanti ， LambertoBallan，and Alberto Del Bimbo.上下文感知轨迹预测。arXiv预印本arXiv：1705.02503，2017。2[4] 放大图片作者：Holger Caesar，Varun Bankiti，Alex H.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krish- nan，Yu Pan，GiancarloBaldan，and Oscar Beijbom.nuscenes：用于自主驾驶的多模态数据集。 arXiv 预印本 arXiv ：1903.11027，2019。一、二、五[5] 卡罗琳·克劳斯和克雷格·布提利尔。协同多智能体系统中强化学习的动力学。AAAI/IAAI，1998：746-752，1998年。2[6] Nachiket Deo和Mohan M Trivedi。基于机动的LSTM对周围车辆的多模态

下载后可阅读完整内容，剩余1页未读，立即下载