AgentFormer：基于Agent感知的社会时态多代理预测转换器

110 浏览量更新于2023-10-13 收藏 1021KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9813代理感知Transformer（联合社会时间建模+保留时间代理信息）AgentFormer：基于Agent感知的社会时态多Agent预测转换器叶远1翁新硕1欧洋兰2克里斯·基塔尼11卡内基梅隆大学2宾夕法尼亚州立大学https://www.ye-yuan.com/agentformer摘要预测准确的未来轨迹的多个代理是必不可少的自治系统，但由于代理之间的复杂的相互作用和不确定性，在每个代理的未来行为是具有挑战性的预测多-剂2剂1社会时间代理轨迹需要建模两个关键维度：(1)时间维度，在这里我们模拟过去的代理状态对未来状态的影响;（2）社会维度，在这里我们模拟每个代理的状态如何影响其他代理。大多数现有方法分别对这两个维度进行建模，首先使用时间模型来独立地总结每个代理随时间的特征，然后用社会模型对所总结的特征的交互进行这种方法是次优的，因为在时间或社会维度上的独立特征编码可能导致信息的丢失。相反，我们更喜欢一种方法，允许一个代理为此，我们提出了一个新的Transformer，称为AgentFormer，同时模拟时间和社会层面。该模型利用多智能体轨迹的序列表示，通过扁平化的轨迹特征跨时间和代理。由于标准的注意力操作忽略了序列中每个元素的代理身份，AgentFormer使用了一种新的代理感知注意力机制，该机制通过与其他代理的元素不同地关注同一代理的元素来保存代理身份。基于AgentFormer，我们提出了一个随机的多智能体的轨迹预测模型，可以参加任何代理的功能，在任何以前的时间步时，推断一个代理所有代理的潜在意图也联合建模，允许一个代理的行为的随机性大量的实验表明，我们的方法显着提高了现有技术的完善的行人和自动驾驶数据集。1. 介绍自动驾驶汽车等自动驾驶系统的安全规划需要准确预测未来的交通状况。多智能体轨迹轨迹特征2D中的轨迹特征+标准多智能体轨迹模型t = 1 t = 2 t = 3 t = 4 t = 5我们的多智能体轨迹模型图1.从标准的方法，模型多代理轨迹的时间和社会维度分别不同，我们的AgentFormer允许联合建模的时间和社会维度，同时保留时间和代理信息。周围试剂的存储（例如，行人、车辆）。然而，由于智能体之间的社会交互，即，代理人对他人的行为影响是一个复杂的过程。由于每个智能体未来行为的不确定性每个代理具有其未被系统观察到的潜在意图（例如，向左或向右转动）控制其未来轨迹并进而影响其他代理。因此，一个好的多智能体轨迹预测方法应该有效地建模（1）智能体之间复杂的社会互动和（2）每个智能体的未来行为的潜在意图多智能体社会交互建模涉及两个关键维度，如图所示。1（顶部）：（1）时间维度，其中我们对过去的智能体状态（位置和速度）如何影响未来的智能体状态进行建模;（2）社会维度，我们模拟每个代理的状态如何影响t = 1t = 2t = 3t = 4t = 5剂3时态模型时态模型时态模型社会模式社会模式9814其他代理商的状态。大多数先前的多智能体轨迹预测方法分别对这两个维度进行建模（参见图1）。1（中间））。类似[25，1，15]的方法首先使用时间模型（例如，LSTM [17]或Transformer [46]）来独立地总结每个代理随时间的轨迹特征，然后将总结的时间特征输入到社会模型（例如，图神经网络[23]）来捕获代理之间的社会交互。或者，像[44，18]这样的方法首先使用社会模型在每个独立的时间步为每个代理生成社会特征，然后在社会特征上应用时间模型。在这项工作中，我们认为，建模的时间和社会维度分别可以是次优的，因为独立的功能编码的时间或社会维度是不通知跨其他维度的功能，和编码的功能可能不包含必要的信息建模的其他维度。为了解决这个问题，我们提出了一个新的Transformer模型，称为AgentFormer，同时学习表示从时间和社会维度。AgentFormer允许一个Agent在由于Transformer需要序列作为输入，因此我们通过跨时间和代理的平坦化轨迹特征来利用多代理轨迹的序列表示（参见图1）。1（底部））。然而，直接应用标准变压器到这些多代理序列将导致时间和代理信息的损失，因为标准atten- tion操作丢弃与序列中的每个元素相关联的时间步长和代理身份。我们使用一个时间编码器来解决时间信息的丢失问题，该编码器为每个元素添加了一个时间戳功能。然而，代理身份的丢失是一个更复杂的问题：与时间不同的是，在代理之间没有固有的排序，并且分配基于代理索引的编码将破坏所需的代理置换不变性，并且在模型中创建对代理索引的人为依赖性。相反，我们提出了一种新的代理意识的注意机制，以保存代理信息。具体地说，主体感知注意力通过不同的线性变换生成两组关键字和查询;一组关键字和查询用于计算代理间注意（代理到代理），而另一组被指定用于代理内注意（代理到其自身）。这种设计允许代理感知注意力以不同于其他代理的元素的方式关注同一代理的元素代理感知的注意力可以通过掩码操作有效地实现此外，AgentFormer还可以对代理之间基于规则的连接性进行编码（例如，基于距离）通过屏蔽掉未连接的代理之间的注意力权重。基于AgentFormer，我们提出了一个多智能体轨迹，它允许我们有效地建模预测框架，该框架还对每个代理的未来轨迹对其他代理的社会影响进行建模。该模型的概率公式遵循条件变分自动编码器（CVAE [21]），其中我们对以上下文为条件的生成未来轨迹分布进行建模（例如，过去轨迹、语义图）。我们引入一个潜在的代码，每个代理代表其潜在的意图。为了对每个代理的未来行为（由潜在意图支配）对其他代理的社会影响进行建模由于AgentFormer，轨迹解码器可以在推断代理的未来位置时在任何先前的时间步长处关注任何代理的特征。为了提高采样轨迹的多样性，避免随机采样导致的相似样本，本文进一步采用了多智能体轨迹采样器，通过将上下文映射到所有智能体的潜码的各种配置，生成多样的、可信的多智能体轨迹我们在完善的行人数据集ETH [37]和UCY [28]以及自动驾驶数据集nuScenes [3]上评估了我们的方法。在ETH/UCY和nuScenes上，我们的表现优于最先进的多智能体预测方法，性能大幅提高（41%和42%）。我们进一步进行了广泛的消融研究，以显示AgentFormer优于各种社会和时间模型组合。我们还证明了代理意识的注意力对代理编码的有效性。概括起来，本文的主要贡献是：(1)我们提出了一个新的Transformer，同时建模的时间和社会层面的多智能体传输与序列表示。(2)我们提出了一种新的代理感知的注意机制，保持代理身份的每个元素在多代理的轨迹序列。(3)我们提出了一个多智能体预测框架，模型的所有代理的潜在意图共同产生社会合理的未来轨迹。(4)我们的方法显著提高了完善的行人和自动驾驶数据集的最新水平。2. 相关工作序列建模。序列是诸如视频、音频、价格等数据的重要表示。历史上，RNN（例如，LSTM [17]，GRU[7]）在序列建模方面取得了显著的成功，应用于语音识别[51，35]，图像字幕[52]，MA [54]，以及其他应用。中国平移[32]、人体姿态估计[55，24]等。特别是，RNN已经成为轨迹和运动预测的首选时间模型许多基于RNN的方法对行人的轨迹模式进行建模，以预测他们的2D未来位置[1，19，60]。先前的工作还使用RNN来建模3D人体9815≤X.Σ.Σ|.Σ×12Nn1N1N1Nn ∈∈1 2N姿势[11，57，59]。随着Transformer和位置编码的发明[46]，许多作品开始采用Transformer进行序列建模，因为它们具有很强的捕获远程依赖性的能力Transformer首先在各种任务中主导了自然语言处理（NLP）领域[9，26，53]。除了NLP之外，已经提出了许多视觉变换器来解决视觉任务，例如图像分类[10]，对象检测[4]和实例分割[49]。最近，变形金刚也被用于轨迹预测。Transformer- TF [12]应用标准的Transformer来独立预测每个智能体的未来轨迹。STAR[54]使用单独的时间和空间变换器来预测多智能体轨迹。 Interaction Transformer [30] 结合了 RNN 和Transformer用于多智能体轨迹建模。与以往的工作不同，我们的AgentFormer利用多Agent Trajec-tories的序列表示和一个新的代理感知注意机制，以保存时间和代理信息的序列。轨迹预测轨迹预测的早期工作采用了确定性方法，使用诸如社会力[16]，高斯过程（GP）[48]和RNN [1，36，47]等模型。[42]中提供了对这些确定性方法的全面综述。由于智能体的未来轨迹是不确定的并且通常是多模态的，因此最近的轨迹预测方法开始用深度生成模型[21，13，39]来对轨迹分布进行建模，例如条件变量模型[21，13，39常规自动编码器（CVAE）[27，56，19，45，50，44]，通用积极对抗网络（GAN）[15，43，25，61]和归一化流（NF ）[40，41，14]。这些方法中的大多数遵循seq2seq结构[2，6]，并使用过去轨迹的中间特征来预测未来相反，我们的AgentFormer为基础的轨迹预测框架，工作可以直接参加任何代理在任何以前的时间步长时，推断代理的未来位置的此外，我们的方法模型的未来轨迹的所有代理共同预测社会意识的轨迹。社会交互建模。用于社会交互动作建模的方法可以基于它们如何对时间和社会维度进行建模来分类。虽然RNN [17 ， 7]和 Transformer [46] 是首选的时间模型[18，1，54]，但图神经网络（GNNs）[23，31]通常用作交互建模的社交模型[22，29，25]。一种流行类型的方法[25，1，15]首先使用时间模型来独立地总结每个代理随时间的轨迹特征，然后将时间特征馈送到社会模型以获得社会感知代理特征。或者，像[44，18]这样的方法首先使用社会模型在每个独立的时间步产生每个代理的社会特征，然后应用时间模型来总结每个代理随时间的社会特征这可能是次优的，因为它阻止了一个代理的特征在一个时间直接与另一个代理的特征在不同的时间进行交互，从而限制了模型捕获长期依赖性的能力。相反，我们的方法同时对时间和社会维度进行建模，允许跨时间和代理的直接功能交互。3. 方法我们制定多智能体轨迹预测模型的生成未来的轨迹分布N（可变）代理的条件下，他们过去的轨迹。对于观察到的时间步长t0时，我们将所有N个智能体在时间t处的联合状态表示为Xt=（Xt，Xt，. . .，xt），其中tRds是在时间t处的智能体η的状态，其包括智能体的位置、速度和（可选的）航向角。我们将所有代理的历史表示为 X=X-H ， X-H+1，. . . ，X0其包括在所有H +1个观察到的时间步处的联合代理状态。类似地，所有N个代理在未来时间t（t >0）的联合状态被表示为Yt=（yt，yt，. . .，yt），其中ytRdp是代理η在时间t的未来位置。我们将所有N个智能体在T个未来时间步上的未来轨迹表示为Y=Y1，Y2，. . .，YT.取决于数据，还可以给出可选的上下文信息I，诸如代理周围的语义地图（人行道、道路边界等的注释）。我们的目标是学习生成模型p θ（Y X，I），其中θ是模型参数。在下文中，我们首先介绍了所提出的代理感知的Transformer，AgentFormer，用于社会时间关系的联合建模。然后，我们提出了一个随机的多代理轨迹预测框架，共同模拟所有代理的潜在意图。3.1. AgentFormer：代理感知转换器我们的代理意识的Transformer，AgentFormer，是一个模型，学习表示从多代理轨迹在时间和社会层面上同时，与标准的方法，模型的两个维度，在不同的阶段。AgentFormer有两种类型的模块-编码器和解码器，它们遵循原始Transformer[46]的编码器和解码器设计，但有两个主要区别：（1）它用时间编码器代替位置编码;（2）它采用了一种新的主体感知注意机制来代替缩放点积注意机制。正如我们将在下面讨论的那样，这两个修改是由适合于变形金刚的多智能体轨迹的序列表示激发的。多智能体轨迹作为序列。过去的多智能体轨迹X可以表示为序列X=x-H，。 . . ，x-H，x-H+1，. . . ，x-H+1，. . . ，x0，. . . ，x0的这些先前作品的一个共同特征是它们在不同的层面上对时间和社会维度进行建模长度Lp= N（H+1）。同样，未来的多智能体轨迹也可以表示为一个序列9816nnMnn××∈自我其他n其他其他nQnnnn1··N1N1NnM√d的投影{WQ}和{W其他∈∈∈×Y=. y1，. . . ，y1，y2，. . . ，y2，. . . ，yT，. . . ，yTΣ的长度L f=NT.我们采用该序列表示为与Transformers兼容。乍一看，似乎我们可以直接将标准的变形金刚应用于这些序列，以模拟时间和社会关系。然而，这种方法有两个问题：（1）时间信息的丢失，因为Transformer在计算每个元素的注意力时没有时间概念（例如，xt）w.r.t.序列中的其他元素;例如，xt不知道Xt是相同时间步的特征，而Xt+1是下一时间步的特征;（2）代理信息的丢失，因为Transformer在将注意力施加到每个元素时不考虑代理身份，并且同一代理的元素不与其他代理的元素区分开;例如，当计算Xt的注意力时，Xt+1和Xt+1被相同地处理，且不说图2. 代理感知注意力的图示。掩码M允许基于第i个查询和第j个关键字是否属于同一代理来不同地计算A中的注意力权重查询Q和值V，其中的每一个使用多智能体轨迹的序列表示。作为示例，令键K和值V是过去轨迹序列n mxt+1来自同一代理，而xt+1来自不同代理。下面，我们提出了这两个问题的解决方案-时间编码器。为了告知AgentFormer与轨迹序列中的每个元素相关联的时间步长，我们采用了类似于原始Transformer中的位置编码的时间编码器。而不是编码的posi-基于每个元素在序列中的索引，我们XRLp× ds，设查询Q是未来轨迹序列YRLf× dp.回想一下X的长度Lp= N（H +1），因为X包含H+1个过去时间步的N个智能体的轨迹特征;Y的长度为包含T个未来时间步的轨迹特征的L f=NT。代理感知注意力的输出计算为A，K基于时间步长t计算时间戳特征，元素时间戳使用与A=M（QselfKTQ）+（1−M）（QotherKTK）（2）位置编码。让我们回顾一下过去的轨迹Q自身=QW自身，K自身=KW自身（3）以X为例。对于每个元素xt，时间-Q其他=QWQ， K其他=KWK（四）捣固特征τt.τt（k）=定义为其中表示元素乘积，我们使用两个集合自我，W，Wncos（（t+H）/10000（k−1）/dτ），k是奇数其中τt（k）表示τt的第k个特征，并且dτ是生成投影密钥Kself、KotherRLp×dk和查询Qself，QotherRLf× dk，关键字（查询）维度为d。注意力权重矩阵中的每个元素An nkij时间戳的特征维度。时间编码器输出-把一个时间戳序列X<$和每个元素x<$t∈X ¯中的R d τ计算为x ¯ t = W 2（W 1 x t τ t），其中A表示第i个查询q与第i个查询q之间的注意力权重。以及第j个密钥kj。如示于图2、计算时注意力权重矩阵A∈RLf×Lp，我们也使用一个W1∈Rdτ× ds和W2∈Rdτ×2dτ 是权重矩阵掩码M∈RLf×Lp，定义为并且表示级联。代理感知注意。在中保留座席信息Mij =1（imodN=jmodN）（5）对于轨迹序列，采用与时间编码器类似的策略可能是诱人的，例如代理编码器，其将基于代理索引的编码分配给序列中的每个然而，使用这样的代理编码是无效的，如我们将在实验中示出的。原因在于，与自然排序的时间不同，代理之间没有固有的排序，并且基于代理索引分配编码将打破代理所需的置换不变性，并在模型中创建对代理索引的人工依赖性。我们从不同的角度解决了主体信息丢失的问题，提出了一种新的主体感知注意机制。智能体感知注意力将输入键K，其中Mij表示掩码M内的每个元素，并且I（）表示指示符函数。当mod N计算查询/关键字的代理索引时，如果第i个查询qi和第j个关键字kj属于同一个代理，则Mi j等于1，否则Mi j等于0，如图12所示。二、使用掩模M，Eq. （2）基于代理身份的一致性不同地计算注意力权重矩阵A的每个元素Aij：如果qi和kj具有相同的代理身份，则使用被指定用于代理内关注（代理到其自身）的投影查询Qself和密钥Kself来计算Aij;如果qi和kj具有不同的代理身份，则使用被指定用于代理间关注（代理到其他代理）的投影查询Qother和密钥Kother来计算Aij。在这代理数量N= 3（用于说明）代理1代理2代理3掩模注意力权重矩阵AgentAwareAttention（Q，K，V）=softmaxV（1）sin（（t+H）/10000k/dτ）， k为偶数K自我K其他}到9817MLPMLPMLPMLPMLPMLPMLPMLPMLPMLP MLP（元素方面）（元素方面）MLP（元素方面）智能体池化智能体池化智能体池化CVAE既往轨迹采样器值值AgentFormerAgentFormer解码器关键关键解码器AgentFormer解码器AgentFormer解码器查询查询查询查询时编码器时编码器AgentFormer编码器时编码器时编码器（可选）（可选）（可选）添加上下文添加上下文添加上下文添加上下文（选择性）时编码器添加上下文（选择性）CVAE未来编码器CVAE未来解码器（自回归）代理数量N= 3（用于说明）CVAE过去的编码器剂1特工2特工3：过去的轨迹：潜在代码（代理n）：GT未来轨迹：预测未来轨迹|n=1−∞||∈n=1|Q|Q|||关键查询值图3. 概述我们的基于AgentFormer的多智能体轨迹预测框架。的方式，代理意识的注意力学会参加的元素相同的代理在序列中不同于其他代理的元素，从而保留代理识别的概念在Eq.在公式（6）中，我们使用CVAE中的负证据下限（ELBO）Lelbo作为我们的损失函数：乳房请注意，AgentFormer只使用agent感知注意力来取代原始Transformer中的缩放点积注意力，并且仍然允许多头注意力学习Lelbo= − Eqφ（Z|Y，X，I）[log p θ（Y|Z，X，I）]+KL（q φ（Z|Y，X，I）p θ（Z|X，I）），（七）分布式表示。编码代理连接。AgentFormer还可以通过屏蔽未连接代理之间的注意力权重来编码基于规则的代理连接信息。具体地，我们定义如果两个代理η和m在当前时间（t=0）处的距离Dnm小于阈值η，则它们连接。如果代理η和m未连接，则我们在代理η的任何查询qi和代理m的任何密钥kj之间设置注意力权重Aij=。3.2.基于AgentFormer在介绍了AgentFormer用于建模时间和社会关系之后，我们现在准备将其应用于基于CVAE的多智能体轨迹预测框架中。正如我们在第一节开始所讨论的。3.多智能体轨迹预测的目标是以过去轨迹X和上下文信息I为条件，对未来轨迹分布pθ（Y X，I）进行建模。为了解释每个代理人未来的随机性和多模态行为，我们引入潜变量Z ={z1，. . . ，zN}其中zn∈Rdz表示Agentn的潜在意图。我们其中q φ（Z Y，X，I）=Nqφ（znY，X，I）是一个ap-在代理上分解的近似后验分布和由φ参数化。在我们的概率公式中，后验q φ（ZY，X，I）中所有主体的潜码Z由所有主体的未来轨迹Y共同推断;类似地，条件似然p θ（YZ，X，I）中的未来轨迹Y使用所有智能体的潜码Z来建模。这种设计允许每个代理已经描述了概率公式化，我们现在介绍如图1中概述的详细模型架构。3 .第三章。语义映射（Semantic Map）如前所述，如果由数据提供，我们的模型可以可选地将上下文信息I作为输入。这里，我们假设IRH0×W0×C是当前时间步（t=0）的智能体周围的语义映射，带有注释的语义信息（例如，人行道、人行横道和道路边界）。对于每个智能体n，我们旋转I以与智能体的航向角对齐，然后可以将未来的轨迹分布重写为p θ（Y|X，I）=∫p θ（Y|Z，X，I）p θ（Z|X，I）dZ，（6）其中pθ（Z，X，I）=Npθ（znX，I）是在主体上分解的条件高斯先验，pθ（Y Z，X，I）是条件似然模型。去解决棘手的问题-9818n剂我们用一个手工设计的卷积神经网络-工作（CNN）来从In中提取视觉特征vn，其稍后将由模型中的其他模块使用。CVAE过去编码器。过去编码器以多智能体过去轨迹序列X开始。如果提供语义映射I，则过去的编码器将每个元素xt∈X与对应的视觉特征vn9819nKNΣC1，的。. . cN，c1 ，.. . cN，.. . 、Cl、.. . ，cN基于整个智能体有效地推断未来轨迹1Nnnn1Nnnnnt't'1ˆ1ˆ2（y1，. . . ，y（N，. . . ，y=1，. . . ，y<$N）到输出序列（y1，. . . ，y=1，. . . ，y（t'+1，. . . ，y（t’+1），并且生成输入se。−nΣn联系我们⊕代理人N。然后将新序列馈送到时间编码器中以获得时间戳序列，然后将其作为密钥、查询和值输入到AgentFormer编码器编码器的输出是一个过去的特征序列与用作键和值的过去特征序列CAgentFormer解码器使得未来轨迹能够直接关注在任何先前时间步的任何代理的特征（例如，c−H或y（1），所有都在模型中.− H− H− H+1− H+100 Σ32它总结了过去的代理轨迹X和上下文I。CVAE既往。先验模块首先执行智能体池化，其根据智能体池化的特征计算平均智能体特征Cn。历史我们在AgentFormer de-编码器以强制解码器输出序列的因果关系。然后，输出序列的每个元素通过MLP以生成解码的未来代理位置y（t）。跨时间步的过去特征：C = mean（c-H，. . . ，c0）。nnn n然后，我们使用多层感知器（MLP）将Cn映射到先验分布的高斯参数（µp，σp）因为我们使用高斯模型来模拟条件似然pθ（Y|Z，X，I）=N（Y（，I/β），其中I是单位矩阵。n矩阵，并且β是加权因子，即等式（1）中的第一项（七）p θ（zn|X，I）= N（µp，Diag（σp）2）。1ˆ2n n等于均方误差（MSE）：Lmse=2βY−Y。CVAE未来编码器。给定多智能体未来轨迹序列Y，类似于过去编码器，未来编码器将来自语义映射I的视觉特征附加到Y，并将所得序列馈送到时间编码器以产生时间戳序列。然后将带时间戳的序列作为查询连同用作键和值两者的过去特征序列 C- 起输入到AgentFormer我们在这里使用AgentFormer解码器，因为它允许Y的特征提取通过C对X进行条件化，从而有效地对X条件化进行建模轨迹采样器。我们采用多样性采样技术DLow [58]来适应我们的多智能体轨迹预测设置，并在我们的CVAE模型经过训练后采用轨迹采样器来产生多样化和合理的轨迹。轨迹采样器生成 K 组潜在码 Z（1），. . . 其中，每个集合Z（k）=z（k），. . . ，z（k）包含了所有特工的潜码由 CVAE 解码器转换为多智能体未来轨迹样本 Y（k）。每个潜在码z（k）∈Z（k）由下式生成：高斯噪声sn∈Rdz的线性变换：在后q φ（Z|Y、X、I）。我们再执行一个代理-（k）（k）（k）在AgentFormer解码器的输出序列上跨时间步的明智平均池化，以提取每个时间步的特征。剂然后将每个代理特征输入到MLP以获得zn=Ansn+bn，sn <$N（0，I），（8）其中A（k）∈Rdz×dz是非奇异矩阵，b（k）∈近似位置的高斯参数（μq，σq）Rdz是一个矢量。当量（8）引入高斯采样分布。内部分布n nq诊断Q二、三次迭代r（z（k））|X，I）在z（k）上。分配是有条件的-q φ（zn|Y，X，I）=N（µn，（σn））θnn因为它的内部参数{A（k），b（k）}CVAE未来解码器。不像原来的Transformern解码器，我们未来的轨迹解码器是自回归的，这意味着它一步一步地输出轨迹，并将当前生成的轨迹反馈到模型中，以生成下一个时间步的轨迹。该设计以训练速度为代价减轻了测试时间期间的复合误差从初始序列开始（y∈0，. . . ，y0），其中y0=x0（x0是-由轨迹采样器模块生成（图3）通过过去特征序列C和MLP的智能体池化。轨迹采样器损失定义为Lsamp=min<$Y<$（k）−Y<$2+ΣKL（rθ（z（k））|X，I）θp（zn|X、I））n=1侧x0），则未来解码器模块将输入序列K00+K（K−1）K2k1=1k1.Y（k）−Y（k）σD1N1Nquenceinto（y0，. . . ，y∈0，. . . ，y（t'+1，. . . ，y（t'+1）.由au-其中σd是缩放因子。第一项鼓励1N1N未来轨迹样本Y（k）以覆盖地面真实值Y。为了回归地应用解码器T次，我们获得输出序列Y=（y1，. . . ，y=1，. . . ，y∈T，. . . ，y（T）. 第二KL项鼓励每个潜在码z（k）1N1Nn侧未来的解码器模块（图 3（右）），我们先遵循先验，似是而非;可以计算KL形成特征序列F =（f0，. . . ，f 0，. . . ，f t'，。. . ，f t’），因为内部的两个分布都是高斯分布。的1N1N其中ft=ytzn，从而将当前生成的轨迹与对应的潜在码连接起来。潜码是从近似后验概率但是在测试时间从轨迹采样器（如下所然后，特征序列 F 与语义图特征连接，并在作为查询输入到AgentFormer解码器KC=（九）exp、9820--第三项通过惩罚小的成对距离来鼓励未来轨迹样本Y（k）之间的多样性。当用等式（1）训练轨迹采样器（9）中，我们冻结CVAE模块的权重。在测试时，我们对潜在代码Z（ 1 ），. . . .，Z （K ）使用轨迹采样器而不是从CVAE先验中采样，并解码将潜在代码转换为轨迹样本{Y（1），. . . ，Y（K）}。9821Kn不k=1t=1nnK4. 实验数据集。我们在完善的公共数据集上评估我们的方法：[37]，[38]，[39]。ETH/UCY数据集是行人轨迹预测的主要基准。ETH/UCY中有五个数据集，每个数据集都包含在具有丰富交互的多智能体社交场景中以2.5Hz捕获的行人nuScenes是最近的一个大规模自动驾驶数据集，它由1000个驾驶场景组成，每个场景以2Hz进行注释。nuScenes还提供具有11个语义类的高清语义图。指标. 我们报告了与地面实况相比，每个代理的K个轨迹样本的最小平均位移误差ADEK和最终位移误差FDEKAde=1minKΣTyFDE为k=1nnnETH Hotel Univ Zara1 Zara2平均SGAN [15]0.81/1.52 0.72/1.61 0.60/1.26 0.34/0.69 0.42/0.840.58/1.18[43]第四十三话0.70/1.43 0.76/1.67 0.54/1.24 0.30/0.63 0.38/0.780.54/1.15转换器-TF [12]0.61/1.12 0.18/0.30 0.35/0.65 0.22/0.38 0.17/0.320.31/0.55星级[54]0.36/0.65 0.17/0.36 0.31/0.62 0.26/0.55 0.22/0.460.26/0.53PECNet [34]0.54/0.87 0.18/0.24 0.35/0.60 0.22/0.39 0.17/0.300.29/0.48[44]第四十四话0.39/0.83 0.12/0.21 0.20/0.44 0.15/0.33 0.11/0.250.19/0.41我们的（AgentFormer）0.26/0.39 0.11/0.14 0.26/0.46 0.15/0.230.14/0.240.18/0.29表1. ETH/UCY数据集的基线比较。我们的方法优于具有大的FDE改进的先前技术。MTP [8]2.93-2.93-9.23多路径[5]2.32-1.96-9.19CoverNet [38]1.96-1.48-9.26DSF-AF [33]2.064.671.663.71-DLow-AF [58]2.114.701.783.58-[44]第四十四话1.88-1.51-9.52我们的（AgentFormer）1.593.141.312.486.45T，（k）t，（k）minKy−yT2，其中y表示未来po-第k个样本中代理n在时间t的位置，yT是对应的ground truth。ADEK和FDEK是用于轨迹预测的标准度量[15，43，44，38，5]。评价方案。对于ETH/UCY数据集，我们采用留一策略进行评估，遵循先前的工作[15，43，44，34，54]。我们预测2D未来的轨迹12个时间步（4.8s）的基础上观察到的轨迹8个时间步（3.2s）。与大多数之前的作品类似，我们不使用任何语义/视觉信息来进行公平比较。所有度量都是用 K=20 个样本计算的。对于nuScenes数据集，遵循先前的工作[38，5，8，33]，我们使用nuScenes预测挑战提供的仅车辆训练-验证-测试分割，并基于观察到的4个时间步（2s）的轨迹预测12个时间步（6s）的2D未来轨迹。我们报告使用K=1、5和10个样本计算的度量的结果。实施详情。对于所有数据集，我们表示以场景为中心的坐标中的轨迹，其中原点是t = 0时所有代理的平均位置。图中的未来解码器。3输出到代理的当前位置x~ 0的ofset表2.nuScenes数据集上的基线比较我们该方法对于1、5和10个样品始终优于现有技术的方法符号在ETH/UCY和nuScenes上有100个epoch。我们使用10-4的初始学习率，每10个epoch将学习率减半更多细节，包括用于编码语义映射的CNN和轨迹采样器的训练过程，可以在补充材料中找到4.1. 结果基线比较。在ETH/UCY数据集上，我们将我们的方法与当前最先进的方法-表1总结了所有方法的性能，其中我们使用官方报告的基线结果。我们可以观察到，我们的AgentFormer在通过ADE和FDE测量的预测准确性方面显著优于基线特别是，我们的方法减少了当前状态的FDE，所以x~0相加得到yt对于输出最先进的Trajectron++，从0.41到0.29，达到41%n n顺序根据先前的工作[44，54]，采用场景的随机旋转进行数据增强。Our multi-agent prediction model (Fig. 3)uses two stacks (defined in [46]) of identical layers in eachAgentFormer encoder/decoder with 0.1 dropout rate.AgentFormer中的密钥、查询和时间戳的维度dk、dv、dτ都被设置为256，并且前馈层的隐藏维度为512。用于多头代理感知注意的头的数量是8。模型中的所有MLP具有隐藏维度（512、256）。对于CVAE，潜在码维度dz是32，MSE损失的系数β等于1，并且我们裁剪Lelbo中的KL项的最大值（等式10）。（7）降到2。除Lelbo外，我们还使用SGAN [15]中的品种损失。代理连接阈值η被设置为100。我们使用Adam优化器[20]训练CVAE模型提高性能。由于FDE测量预测轨迹的最终位移误差，因此它比ADE更强调方法我们相信我们的方法在FDE中的强大性能可以归因于AgentFormer的设计，该设计可以通过在推断代理的未来位置时直接关注任何代理在任何先前时间步的特征来有效地建模远程轨迹依赖性与ETH/UCY相比，nuScenes中的轨迹要长得多，因为我们使用更长的时间范围（6s）进行评估，并且车辆比行人快得多。因此，nuScenes对多智能体预测方法提出了不同的挑战在nuScenes数据集上，我们评估了我们的方法与最先进的车辆预测方法-方法ADE20/FDE20↓（m），K=20份样本K=5个样本K=10个样本K=1ADE 5↓FDE 5↓ADE 10↓FDE 10↓ FDE 1↓方法n9822×关注过去0.0 0.2关注未来0.0 0.2目标（正在预测）过去轨迹预测未来轨迹GT未来轨迹表3.ETH/UCY数据集上的消融研究模型K=5个样本K=10个样本社会时间ADE 5↓FDE 5↓ADE 10↓FDE10↓GCN LSTM 1.97 3.97 1.58 2.93GCN TF 1.74 3.52 1.39 2.59TF LSTM 1.79 3.65 1.48 2.76TF TF 1.98 4.20 1.54 3.07社会时间联合ADE 5↓FDE 5↓ADE 10↓FDE10↓我们的无语义映射1.73 3.57 1.46 2.81我们的不含接头潜伏1.66 3.28 1.40 2.60我们的无AA关注1.82 3.70 1.49 2.83我们的w/agent编码1.83 3.70 1.50 2.82我们的（AgentFormer）1.59 3.14 1.31 2.48表4. nuScenes数据集上的消融研究。“TF” means Transformer[38][39]我们在表2中报告了所有方法的性能，其中Trajectron++的结果来自nuScenes预测挑战排行榜，DLow-AF的性能来自[33]，并且我们还使用其他基线的官方报告结果。一些基线的FDE不可用，因为数量尚未报告。我们可以看到，我们的方法，AgentFormer，优于基线一致，在ADE和FDE为不同的设置（K=1，5和10个样本）。值得注意的是，我们的方法将最先进的ADE5从1.88降低到1.59。在报告FDE的方法中，我们的方法实现了6.45的FDE1，这显著低于第二好的方法的9.19，并且实现了42%的性能改进。消融研究。我们进一步对ETH/UCY和nuScenes进行了广泛的消融研究，以调查我们方法中关键技术组件的贡献。第一个消融研究探索了我们的方法的变体，这些变体使用单独的社会和时间模型来替换我们的多智能体预测框架中的联合社会时间模型AgentFormer。我们选择GCN [23]或Trans-former（TF）作为社会模型，LSTM或Transformer作为时间模型。总的来说，有4（22）社会和时间模型的消融结果总结在表3和表4的第一组中。很明显，与我们的方法相比，单独的社会和时间模型的所有组合导致较差的性能，该方法联合建模社会和时间维度。图4. （a，c，d）通过我们的方法预测的多智能体期货（绿色）的三个样本。（b）样品1的注意力可视化。第二个消融研究调查的作用（1）联合潜在意图建模，（2）代理意识的注意，和(3)语义图，并且我们将相应的变体表示为我们进一步测试了一个变体结果报告在表3和4的第二组中。我们可以看到，与我们的完整方法相比，所有变体都会导致相当差的性能。特别地，变体轨迹可视化。图4（a，c，d）示出了通过我们的方法预测的同一场景的多智能体未来的三个样本。我们可以看到，样本对应于社交感知和非碰撞投射的不同模式，并且表现出像跟随（A3-A4）和碰撞避免（（a）中的A1-A2，（c）中的A2-A3）的行为。图4（b）可视化了样本1的注意力，并显示在预测目标（红色）时，模型更关注相邻代理的关键时间步（转折点）5. 结论在本文中，我们提出了一个新的Transformer，代理前，可以同时建模的时间和社会层面的多智能

下载后可阅读完整内容，剩余1页未读，立即下载