多模态轨迹预测的三个步骤：情态聚类、分类与综合

14 浏览量更新于2023-10-13 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13250多模态轨迹预测的三个步骤：情态聚类、分类与综合孙建华，李宇轩，方浩树，陆策武，中国上海交通大学{gothic，yuxuan li，lucewu}@ sjtu.edu.cnfhaoshu@gmail.com摘要多模态预测结果对于轨迹预测任务是必不可少的，因为对于未来没有单一的正确答案。以前的框架可以分为三类：回归、生成和分类框架。然而，这些框架在不同方面都有弱点，使得它们不能全面地对多模态预测任务进行建模。在本文中，我们提出了一个新的见解以及一个全新的预测框架，通过将多模态预测分为三个步骤：模态聚类、分类和综合，并解决早期框架的缺点。在流行的基准测试上进行的出色实验表明，即使没有引入社会和地图信息，我们提出的方法也超越了具体来说，我们达到了19。2%和20. 在ETH/UCY数据集上，ADE和FDE分别提高了8%1. 介绍轨迹预测是自动驾驶和机器人导航的基石之一[22，9，27，28，35，37，12]，其调查交通代理的合理未来状态以用于以下决策过程。考虑到人类行为的不确定性和未来的多模态性质[8，14]，轨迹预测的一个巨大挑战在于预测所有可能的高概率未来轨迹。针对这一问题，以往的研究主要遵循三条主线。第一条线为回归框架增加了额外的随机性[36，18]，而第二条生成线[8，14，21，29]通过学习未来的分布来模拟多模态性质。但两条线都有两个缺陷，如图所示1：i）缺乏概率或§卢策武是通讯作者，中国上海交通大学人工智能研究所、上海启智研究所清源研究院和MoE部人工智能重点实验室成员。响应于每种模态，这可能使决策过程混乱，以及ii）预测结果不是确定的，这可能留下潜在的安全风险。分类框架的第三行[4，26]通过将观察分类到预定义的未来轨迹来消除这两个缺陷，因为分类操作可以给出概率并确保确定性。然而，分类框架仍然面临某些弱点。首先，预定义的轨迹是通过手工制作的原理获得的，因此难以捕获未来行为的全面表示。其次，预测的确定性轨迹对于分类到同一类的不同输入将是相同的，这不能确定性地探索交通代理的细粒度运动。由于这些弱点，分类框架的性能落后于最先进的回归和生成模型。此外，需要高度注释的场景光栅作为分类器的输入，这在许多情况下难以访问。在本文中，我们的目标是探索轨迹预测框架的独特公式，以解决上述缺点。我们提出的洞察力预测通过模态聚类，分类和合成（PCCSNet）解决多模态预测与分类回归的方法。在我们的视野中，未来的模态通常集中在一些不同的行为上，这些行为可以通过一系列学习的模态表征来揭示。我们可以对训练样本应用深度聚类过程[3]，每个聚类中心都可以代表一种模态。自然地，这样的模态可以被公式化为类别，并且可以采用分类网络来根据以这种方式观察到的轨迹来最后，一个合成过程是用来回归预测结果的高度可能的模态与历史状态和模态表示。我们提出了一个模块化设计的框架来模拟图中总结的这种新的见解二、代理的状态首先被馈送到特征编码器以获得更好的聚类、分类和同步的深度历史和未来表示。13251(a)（b）第（1）款图1.为什么预测算法的概率和确定性很重要的例子。在图（a）中，概率预测（由线的粗细表示）将显著降低碰撞的概率。图（b）示出了随机预测的潜在安全危险，因为出于安全目的，应该始终预测红色路径。详细讨论见第二节。二、论文[2]。这些深度特征被聚类用于模态表示，并且用于训练分类器，其中聚类器分配被视为伪标签。分类器将根据测试阶段的历史表示对模态进行评分以进行概率预测。然后引入一个合成模块来回归每种模态的伪未来表示，最后解码历史和合成的未来表示以获得细粒度的确定性预测。此外，我们新提出了一个模态损失，以提高能力的分类器，以确定多个高度可能的未来模态。我们对多个流行的轨迹预测基准进行了详尽的实验。在这些实验中，我们的新预测框架表现出高准确性，强大的鲁棒性和足够的预测未来。具体来说，我们达到了19。2%和20. ETH [25]/UCY [13]的ADE和FDE平均改善8%数据集与最新技术水平的方法进行比较[36]。2. 背景及相关工作轨迹预测[1，8，31，29，14，10，18，36，21，7]被提出来预测智能体的可能轨迹。它利用跟踪[28，24]和人类交互[37，35，16]的优势，并在机器人和自动驾驶领域[9，27，32，33]中有许多应用，因为预测结果是决策的重要指导。观察未来的多模态性质，这可以解释为未来没有单一的正确答案[8]，重要的一点在于如何预测多个高度可能的轨迹。该任务被命名为多模态轨迹预测。请注意，方法[5，17]的一小部分我们主要讨论目前流行的方法，输出多个可能的轨迹的空间坐标系统（米）在现实世界中的本文。多模态预测任务是不平凡的，因为单个输入可以映射到多个输出。早期的作品[1，22，34，12]忽略了未来的多模态性，只着眼于预测最可能的未来轨迹。近年来，大量的研究提出了各种框架来表述这种非功能性关系。它们主要遵循回归、生成和类化三种常见做法。回归框架。回归模型[1，19]首次被提出来解决单峰预测任务，并表现出良好的性能。然而，这些编码-解码结构不能给出多模态预测，并且一些方法通过添加噪声[36]或使用随机初始化[18]来解决该缺陷。虽然通过对模型施加随机性可以获得多个不同的预测，但是随机性难以准确地对未来的多模态性质进行生成框架。一些研究认为未来的多模态分布，制定轨迹预测作为一个分布拟合和采样问题，并引入生成模型来解决它。DE-SIRE [14]首先引入随机模型来学习未来状态的分布，并通过从该分布中采样合理的假设来生成各种预测。根据这一公式，大量研究[8，21，29]旨在设计不同的生成结构，以追求更合理的结果并实现最先进的性能。分类框架。一些研究[4，26]试图使用分类网络通过对预定义的人工模态进行分类来解决这个问题。多路径[4]用均方误差距离聚类一组固定的锚轨迹，CoverNet[26]通过手动设计锚来修改Multipath。这一框架下的办法面临三个主要弱点。首先，预定义的轨迹是通过主观指定的聚类距离或手动设计的锚点获得的，因此难以捕获未来行为的全部范围。其次，这些预定义的轨迹难以捕获细粒度的运动。此外，这两种方法都需要高度注释的场景光栅作为输入，这在许多情况下难以访问。概率和确定性。概率和确定性的属性对于多模态预测方法是重要的。i）概率。未来的概率属性[11]对提高随后的决策过程的有效性非常有帮助。在图1（a）中，概率预测可以告诉行人最不可能采取左侧路径（在读者因此，机器人可以按照左边的路径（在读者13252--··--（，，��∗图2.我们提出的预测管道概述。黄色箭头仅在训练中出现，当历史和未来表示都被连接和聚类以供将来使用时。在测试时，历史表示被馈送到分类器中以对不同的模态进行评分。然后用历史表示处理模态表示以合成多模态预测。尽可能避免碰撞。（二）确定性。随机框架可能会留下巨大的安全隐患。图图1（b）给出了公共汽车（自主车辆）在向前移动时感知到十字路口处的行人的常见情况随机模型不能被证明每次都预测红色的轨迹如果它失败了，交通事故就会发生。但大多数回归和生成模型忽略了这两点，因为引入了等概率随机性。具有分类框架的先前方法可以给出概率性和确定性预测，但是这些框架未能利用如上所述的深度行为表示和细粒度运动。在这项工作中，我们提出了一个概率和确定性的框架，仍然可以捕获深的行为表示，并在细粒度的水平上给出预测。我们提出的框架和以前的分类框架之间的巨大差异将在第二节中讨论。三点七时间步长我们以时间步[1，Tobs]中的坐标序列X作为输入，并预测前k个合理坐标序列YY=1，Y=2，. . . ，Ykin[Tob s+1，Tob s+p re d]以及它们的概率P = p1，p2，. . . ，p k为out-放。3.2. 概述在PCCSNet中，我们引入了一个名为模态表示M的中间变量，将多模态预测框架制定为深度聚类，分类和合成三个步骤。所有可能的模态表示可以通过对训练样本的深度历史表示R_H和未来表示R_F进行聚类来获得，并且被收集到模态集合M中。RH=fH（X），RF=fF（Y）（1）M=g（{[Ri，Ri]|i∈t rainse t}）3. 方法H F={M1，M2，. . . ，Mn}（二）在本节中，我们介绍了新提出的PCCSNet预测流水线，如图2所示。2.我们的主要见解是将多模态预测框架制定为分类回归过程。它旨在通过解决现有框架的缺点，更全面地建模多模态轨迹任务。3.1.问题定义根据以前的作品[1，8]，我们假设每个视频都经过检测和跟踪算法的预处理，以获得每个人在每个位置的空间坐标。其中训练过去编码器fH（）和未来编码器fF（）以学习历史轨迹X和未来轨迹Y的更好表示，遵循[2]。然后，通过情态分类和情态合成，我们可以通过下式获得Y及其概率PP=gM（RH）（3）Y={Yi=h（[RH，Mi]）|其中gM（·）表示M上的模态分类，并且h（·）表示模态合成。通过这种方式，我们可以13253····HF2 12HF确定性地预测概率多模态未来轨迹。请注意，我们经常预测k（k n）未来路径的最高概率在实践中，以减少测试时间。在下面的部分中，我们将介绍如何在第二节中聚类和训练分类网络gM（）3.3. 节中3.4，我们提出了一种新的模态损失，以鼓励分类器识别多个合理的未来综合，而不是只认识到最有可能的一个。最后，我们展示了如何合成一个预测结果的h（）在第。三点五3.3. 使用模态聚类进行下式2和Eq。3，我们需要构造模态集合M和对应的分类器gM（·）。特征编码器。为了捕获更好的表示，用于深度聚类、分类和进一步的合成过程，我们首先对每个代理的历史和未来轨迹进行编码。鉴于轨迹是一个时间序列，并且根据[30]，每个时间步之间具有很强的依赖性和一致性，我们采用BiLSTM架构作为我们的特征编码器。集群。我们相信轨迹的每个模态指示相同种类的行为和运动，并且反过来，我们可以用一系列深度轨迹特征的平均值来表达模态表示M，其可以被写为M=AVG（{[Ri，Ri]|i∈C}）⑸图3.关于如何估计目标路径（红色）的其他合理模态（蓝色）的示意图分类器当量3说明了我们的分类器的功能。gM（）接收输入轨迹X的编码特征RH，并输出每个模态的可能性。在我们的实现中，gM（）是具有tanh激活的三层MLP我们通过将聚类分配视为伪标签来训练分类器。3.4. 在模态损失的情况传统分类任务中的样本只有一个类分配（地面实况）。这违背了多模态分类任务的优化目标，即分类器应该找出一系列发生概率高的未来。在这方面，我们提出了一个统计方法来估计合理和可行的伪未来模态的目标路径。具体而言，图图3示出了一个示例，其中红色curve表示目标路径。我们画一个圆心为o的圆其中C是由轨迹id表示的聚类在我们的实施方式中，我们使用C的聚类中心来表示AV G操作，并且Eq.5可以改写为M= [Rc，Rc]（6）在其被观察部分的末端以半径r计算，并计算在该场景的整个时间段内被该圆截断的其他轨迹。然后，我们将具有与地面实况路径相似的速度和方向的定性路径以蓝色突出显示，并且可以被视为其他路径。HF势运动Y *，Y *，. . . ，Y *.1 2N其中Rc和Rc是聚类中心中这样，我们就可以--然后，每个模态的伪可能性根据这些潜在运动通过以下公式计算：在模态构建和聚类之间架起了一座桥梁。为了生成不同的Cs，我们引入了一个聚类算法-正确考虑到M的定义，我们使用[Ri，Ri]p=|Yi *∈ M j }|（八）|(8)N作为路径ID为i的要素并且我们将模态损失定义为以及用于聚类的加权L2距离具体地，距离被写为：LM=交叉熵（P，P*）（9）D= wH||R-R ||2+女||R − R||第二章（七）其中，P表示从H H FF当量并且P表示从Eq. 3获取的伪标签8.其中，分别表示历史表示和未来表示的权重在这里，我们假设训练集的均值和分布与测试集的均值和分布相似，这通常是它的工作原理。我们构建的模态集M将非常好地覆盖测试样本的不同类型的未来可能性，如图所示。六、这样，我们可以使用这些统计概率来监督分类器，这给我们的模型带来了很大的多样性。3.5. 模态综合预测到目前为止，我们已经计算了输入观察路径的每个模态M和历史表示RH。在这113254·RF我在第一节中，我们将讨论h（）如何在Eq.4合成每个模态的预测结果。每个模态的伪未来表示。为了合成与给定模态一致的未来轨迹，我们需要相应的伪未来表示来指示未来轨迹倾向。我们提出了一个回归模型来拟合伪未来表示RF*以M为中心，对于giv enRH。的底部显示了回归图图二.我们首先从RH中减去Rc，并使用具有具有较强的泛化能力。iii）提出了一个合成步骤，以在细粒度级别为每个模态提供确定性预测轨迹，而确定性轨迹对于[4]中分类为同一类的输入将是相同的，并且预测空间将受到严格限制。由于本研究的重点是预测框架而不是“社会或背景信息”，因此为了清楚起见，我们在本文中只引入历史路径作为过去特征但是，将其他的s形H激活以编码差异。在那之后，我们建议的框架。类似于过去编码器，可以使用社交/地图编码器来编码这些编码的特征与对应的特征并将它们与RH连接起来。c形成一个新的向量，该向量指示未来倾向的平均值以及其对输入轨迹的偏差。最后，向量被馈送到全连接层以提取伪未来表示RF*。每一个RF* 都概括了模态M的一个行为，能够反映未来轨迹的趋势。在训练中，我们只计算输入RH被分配到的集群的RF*相应的RF和L2损失被用来监督RF*的产生。译码器通过不同模态的历史表示RH和伪未来表示RF*，我们可以使用LSTM解码器来合成未来轨迹。我们输入h0=[RH，RF*]并输出模态Mi的预测Yi。所有模态共享相同的参数，我们使用[30]中的指数L2损失以获得更好的性能。3.6. 实现细节在我们的实现中，两个BiLSTM编码器的隐藏大小都是48，而LSTM解码器的隐藏大小是96。我们选择经典的K-Means [20]算法进行聚类，其中超参数K设置为200。对于等式中的权重系数7，我们令w H=w F=0。五、要找到模态丢失的合格路径，如图所示。3，我们设置半径r= 1，并对速度差Δv和a 0采用10%的限制。方向差Δθ的1π限值。3.7. 讨论与以往的分类框架Mul- tiPath [4]相比，我们的见解和方法显示出很大的差异。i）我们对行为和它们上的聚类模态的深度表示进行编码。在我们的视野中，人类的行为太复杂了，不能用简单的坐标序列来表示[4]。这种深度聚类过程可以探索模态的更此外，该过程中隐含了度量学习的思想，而人类行为相当复杂，无法通过手动设计的距离进行聚类[4]。ii）我们的分类器不需要额外的场景光栅作为输入。实际上，我们的框架可以仅使用历史路径作为输入很好地工作，因此我们的方法具有4. 实验4.1. 数据集我们的方法的性能在流行的数据集上进行了评估，包括ETH [25]/UCY [13]数据集和Stan-ford Drone数据集[27]。ETH/UCY数据集广泛用于轨迹预测基准[1，8 ， 18 ，29]，它由五个不同的子数据集（ ETH，HOTEL，UNIV，ZARA 1和ZARA 2）组成。斯坦福无人机数据集是一个包括各种代理的大规模数据集。这些射束由无人机相机以具有足够多样性的鸟瞰图记录在我们的实验中，我们遵循与先前工作相同的数据预处理程序和评估配置[36，21]。为了评估我们的预测结果的准确性，我们使用平均位移误差（ADE）和最终位移误差（FDE）作为度量。我们观察8帧的历史轨迹并预测12帧的未来轨迹。预测未来轨迹的20个样本。4.2. 定量评价ETH/UCY。在ETH/UCY基准测试中针对竞争方法的实验结果如表1所示。1，包括最先进的STAR [36]和PECNet [21]。注意，输入信息从不同的基线变化，其中P表示历史路径，S表示社交信息，M表示地图信息。为了更清楚地展示我们框架的功能，我们只使用历史路径作为信息源。结果表明，我们的PCCSNet框架的轨迹预测的性能进一步提升。ADE和FDE分别改善19.2%（0.05/0.26）和20.8%（0.11/0.53）。与STAR的SOTA性能相比，分别达到平均值。值得注意的是，我们通过使用历史路径作为唯一的输入，而STAR同时使用路径和社会信息来实现这种我们的方法在某些子集上与FDE上的PECNet相比失败。我们把这归因于主要的差异13255方法输入ETH酒店UnivZARA1ZARA2AVGSGAN [8]P+S0.81/1.520.72/1.610.60/1.260.34/0.690.42/0.840.58/1.18苏菲[29]P+S+M0.70/1.430.76/1.670.54/1.240.30/0.630.38/0.780.54/1.15下一页[18]P+M0.73/1.650.30/0.590.60/1.270.38/0.810.31/0.680.46/1.00[23]第二十三话P+S0.64/1.110.49/0.850.44/0.790.34/0.530.30/0.480.44/0.75PECNet [21]P+S0.54/0.870.18/0.240.35/0.600.22/0.390.17/0.300.29/0.48STAR [36]P+S0.36/0.650.17/0.360.31/0.620.26/0.550.22/0.460.26/0.53PCCSNetP0.28/0.540.11/0.190.29/0.600.21/0.440.15/0.340.21/0.42表1.比较ETH和UCY数据集Tobs=8和Tpred=12（ADE/FDE），包括SOTA STAR和PECNet。P表示历史路径，S表示社会信息，M表示地图信息。[18]也使用来自AlphaPose的姿势信息[6，15]。值得一提的是，我们的方法在不使用社交和地图信息的情况下平均优于其他方法。多路径不同于常用的8 [29，21]。我们的方法大大优于MultiPath。基于深度特征的聚类我们的聚类过程是ap-表2.与基线方法的SDD比较（Tobs=8）并且Tpred= 12，包括SOTA PECNet。方法minADE1minFDE1minADE5多路径[4]28.3258.3817.51PCCSNet18.1436.3212.54表3.在Tobs=5和Tpred=12时，与SDD上的MultiPath进行比较。minADEk和minFDEk测量相对于前k个样本中的最近轨迹的位移误差方法KM（无深度）公里HACGMMAdeFDE0.240.450.210.420.210.430.210.42次/分0.60.71890表4. ETH/UCY数据集上不同聚类方法的比较。结果是五个子数据集的平均值。K1002005001000AdeFDE0.220.440.210.420.210.430.220.45表5. ETH/UCY数据集上K-means中不同参数K结果是五个子数据集的平均值我们的方法是ADE优先的，而PECNet是FDE优先的，这意味着PECNet具有实现比较低ADE更低的FDE的趋势。此外，在我们的方法中不存在社会信息。SDD。我们还在Tab中报告了SDD数据集的预测性能。2.与SOTA框架PECNet相比，我们在ADE上实现了13.5%（1.34/9.96）的显著改进。FDE略有下降，为1.8%（0.28/15.88）。考虑到我们上面讨论的差异以及ADE大幅改善和FDE小幅下降之间的权衡，我们相信我们的预测结果是有希望的。4.3. 分析与多路径比较[4]。在Tab中与Mul-tiPath进行了比较3.第三章。请注意，图5中的观察结果5的帧应用于深层特征以探索不同模态的更好表示。表1中轨迹坐标上的k均值（KM w/o deep）和深度特征4证明了我们的深度聚类过程可以有效地捕获模态表示聚类算法我们比较了三种常见的聚类算法的性能时，他们被用来构建M方程。2的聚类方法，包括K-均值（KM）、层次凝聚聚类（HAC）和高斯混合模型（GMM）。选项卡中的结果。4表明，简单的K-means算法在速度上具有巨大的优势，而精度没有下降。因此，我们使用K-means作为我们实现中的聚类算法。K是K的意思。我们还研究了K-means算法中不同K值对结果的影响，如表1所示五、较大的K可以让每个模态M揭示更多的细粒度表示，但它可能导致分类准确性的降低。我们在实验中为K指定200，以获得更好的整体性能。聚类距离的权重。对于如等式（1）中所描述的聚类距离，7、既考虑了历史代表性，又考虑了未来代表性。我们添加权重wH和wF来平衡它们以用于聚类。根据Tab.6，适当的加权比接近1：1将获得更好的性能。如果未来表示的权重增加，则性能会略有下降。而如果历史表征的权重增加，表现就会下降很多。这揭示了两个事实：1）未来特征在模态聚类中起主导作用。2)历史特征起到辅助作用，以区分混乱的情况，以获得更好的聚类结果。模态损失分析。选项卡. 7显示了模态损失的综合分析。在应用它来增强多样性后，我们的性能得到了进一步的改善。一些超参数将决定类似运动的限制的尺度，包括圆的半径r和方法SGAN [8]苏菲[29]PECNet [21]PCCSNet输入P+SP+SP+SPAdeFDE27.2341.4416.2729.389.9615.888.6216.1613256我们的STAR SGAN地面实况(a)(b)（c）第（1）款(d)（e）（f）图4.PCCSNet的准确性分析，其中黄线表示地面实况路径，我们的预测结果为绿色。两个比较模型STAR和SGAN的预测分别用蓝色和红色表示。示例来自不同的场景，包括ZARA（a-c）、HOTEL（d，e）和ETH（f）。（WH：WF）一比三1：2的比例1：1的比例二比一三比一AdeFDE0.220.430.210.420.210.420.230.470.240.49表 6. 等式中聚类距离的不同权重配置之间的比较 7 在ETH/UCY数据集上。结果是五个子数据集的平均值。R/m∆v∆θ/πAdeFDE0000.2210.4431百分之十0.10.2080.4220.52百分之十百分之十0.10.10.2120.2150.4260.43211百分之五百分之二十0.10.10.2130.2160.4260.43811百分之十百分之十0.050.20.2120.2130.4270.427表7. ETH/UCY数据集上不同超参数配置对模态损失结果是五个子数据集的平均值。方法w/o合成PCCSNet∆Ade0.230.21百分之八点七FDE0.450.426.7%表8.模态综合对ETH/UCY的贡献结果是五个子数据集的平均值。速度∆v和角度∆θ的阈值。当这些参数变化时，性能波动，其中速度约束比其他更敏感。13257K模态综合的贡献。模态综合提出了在细粒度水平上优化预测。选项卡.图8示出了合成过程带来了准确度的巨大改进。4.4. 定性评价精度分析。我们比较PCCSNet与其他approaches在各种具有挑战性的情况下，包括转弯和加速。最佳模态的预测结果见图10。4说明我们的模型可以在速度和方向方面捕获更准确的未来模式。(c)和（f）是车削的两个典型情况。我们的模型以适当的速度预测更准确的角度。STAR在这两种情况下都给出了小得多的角度，而SGAN在（f）中预测了错误的转向另一个具有挑战性的情况（e）表明，即使PCCSNet忽略未来的抖动，速度、方向和目的地的预测也是可注意的。其他方法既不能估计速度也不能估计目的地。多模态概率。图5展示了我们提出的框架的概率属性。在这三个特定的场景中，我们的模型不仅可以给出准确的预测，合理的未来的概率也往往比平均水平高得多。因此，我们的模型不太可能预测不可能的轨迹，同时保持最佳匹配的准确性。然而，由生成模型采样的每个预测只能是交互的。假设平均概率为1，当取k预测时，13258PECNet我们地面实况PECNet我们(a)（b）（c）图5.概率多模态预测的图示，其中黄色曲线表示地面实况路径，我们的预测结果为红色（深色表示概率较高PECNet用于比较，其结果表示为相同的深红色，因为它输出的每个我们的方法的概率被标记出来，而它们对于PECNet（1/20）取相同的5%的值。我们只可视化一些代表性的轨迹，以获得清晰的视图。（一）(b)(c)术语算法足够敏感以捕获潜在模态之间的差异。注意，尽管聚类是在遵循等式（1）的高维空间中执行的。2、为了可读性，可视化是在2D空间中。5. 结论在本文中，我们将多模态预测框架制定为模态聚类，分类和合成三个步骤，以解决预测中的主要弱点。图6.集群的可视化。过去的轨迹以黄色显示，未来的轨迹以各种颜色显示，以便清晰查看。每一列指的是具有相似的过去轨迹和不同的未来模态的一对。x、y轴的值是以米为单位的坐标。选项。因此，它们丢失了每个模态的概率信息，这对于随后的决策过程是重要的。聚类分析为了说明聚类算法在探索不同潜在模态中的有效性，我们在图11中将一些不同聚类中的样本可视化。6.对（a）表示两种可能的未来，它们都在缓慢的线性过去轨迹之后。上面的一个仍然很慢，而下面的一个开始加速。在对（b）中，过去的轨迹仍然是线性的，但是更快。我们显示未来可能发生的180°对（c）显示了弯曲的过去轨迹，以前的人相应的未来模式是右转和左转。这些案例有力地证明了我们的俱乐部-提出了一种全新的流水线PCCSNet来解决这一问题。考虑到未来通常集中在几个不同的行为，我们首先聚类编码的历史和未来的表示，以确定潜在的行为模式。然后训练分类器以计算出给定具有新模态损失的历史路径的每种模态的发生概率。此外，模态合成机制，提出了获得细粒度的预测结果的确定性。实验结果表明，即使不引入社会信息和地图信息，我们精心设计的框架在准确性、多样性和合理性方面都具有优越性。致谢这项工作是支持在部分中国国家重点&研发计划，No. 2017 YFA 0700800，国家自然科学基金项目61772332，上海启智研究所，SHEITC（2018-RGZN-02046）=.= .=.=.=.=.= .=.=.=.13259引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页[2] YoshuaBengio ， Gre'goireMesnil ， YannDauphin 和SalahRifai。通过深度表示更好地混合。国际机器学习会议，第552-560页，2013年。[3] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[4] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径：用于行为预测的多个概率锚轨迹假设。arXiv预印本arXiv：1910.05449，2019。[5] Chiho Choi和Behzad Dariush。展望未来的轨迹预测关系。在IEEE国际计算机视觉会议（ICCV）上，2019年10月。[6] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在IEEE计算机视觉国际会议论文集，第2334-2343页，2017年[7] Liangji Fang，Qinhong Jiang，Jianping Shi，and BoleiZhou. TPnet ：用于运动预测的轨迹建议网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第6797-6806页[8] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年[9] TsubasaHirakawa ， TakayoshiYamashita ， ToruTamaki，and Hironobu Fujiyoshi.基于视觉的路径预测研究综述。在分布式，环境和普适交互国际会议上，第48-64页。Springer，2018.[10] 鲍里斯 · 伊万诺维奇和马可· 帕沃内。轨道电子：Probabalistic 多智能体轨迹建模与动态spatiotemporal图。在IEEE国际计算机视觉会议论文集，第2375-2384页，2019年。[11] 詹姆斯·乔伊斯。贝叶斯定理2003年。[12] Kris M Kitani ， Brian D Ziebart ， James AndrewBagnell ， and Martial Hebert. 活动预测。在 EuropeanConference on Computer Vision 中，第 201-214 页。Springer，2012.[13] LauraLeal-Taixe´ ， MicheleFenzi ， AlinaKuznetsova ，BodoRosenhahn，and Silvio Savarese.学习用于多人跟踪的基于图像的运动上下文。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第3542-3549页[14] 放大图片作者： Namhoon Lee ，Wongun Choi， PaulVernaza ， Christopher B. 作者： Philip H.S. Torr 和Manmohan Chandraker。欲望：在具有交互代理的动态场景中的遥远未来预测。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[15] Jiefeng Li，Can Wang，Hao Zhu，Yihuan Mao，Hao-Shu Fang，and Cewu Lu. Crowdpose：高效的拥挤场景姿态估计和新的基准。在IEEE/CVF计算机视觉和模式识别会议论文集，第10863-10872页[16] Yong-Lu Li，Liang Xu，Xinpeng Liu，Xijie Huang，Yue Xu ， Shiyi Wang ， Hao-Shu Fang ， Ze Ma ，Mingyang Chen，and Cewu Lu. Pastanet：Toward HumanActivity Knowledge Engine.在CVPR，2020年。[17] Junwei Liang，Lu Jiang，Kevin Murphy，Ting Yu，andAlexander Hauptmann.分岔小径的花园：多未来轨迹预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第10508-10518页[18] Junwei Liang，Lu Jiang，Juan Carlos Niebles，AlexanderG Hauptmann，and Li Fei-Fei.窥视未来：预测未来的人的活动和地点的视频。在IEEE计算机视觉和模式识别会议的论文集中，第5725-5734页[19] 马跃新，朱新格，张思博，杨瑞刚，王文平，和迪内什·马诺查.Trafficpredict：异构交通代理的轨迹预测。在AAAI人工智能会议论文集，第33卷，第6120-6127页[20] James MacQueen等人多元观测值分类与分析的若干方法。第五届伯克利数学统计与概率研讨会论文集，第1卷，第281-297页。美国加利福尼亚州奥克兰，1967年。[21] KarttikeyaMangalam ， HarshayuGirase ， ShreyasAgarwal ， Kuan-Hui Lee ， Ehsan Adelli ， JitendraMalik，and Adrien Gaidon.这不是旅程，而是目的地：终点条件轨迹预测。arXiv预印本arXiv：2004.02025，2020。[22] Ramin Mehran、Alexis Oyama和Mubarak Shah。Ab-使用社会力模型的正常人群行为检测。2009年IEEE计算机视觉与模式识别会议，第935-942页。IEEE，2009年。[23] Abduallah Mohamed，Kun Qian，Mohamed Elhoseiny，and Christian Claudel.社会-stgcnn：用于人类轨迹预测的社会时空图卷积神经网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第14424[24] 庞波，李一卓，张一凡，李慕辰，卢策武。Tubetk：采用管道在一步训练模型中跟踪多个对象。在CVPR中，第6308-6318页[25] Stefano Pellegrini，Andreas Ess，Konrad Schindler和LucVan Gool。你永远不会独自行走：多目标跟踪的社会行为建模。在2009年IEEE第12届计算机视觉国际会议上，第261-268页。IEEE，2009年。[26] Tung Phan-Minh ， Elena Corina Grigore ， Freddy ABoulton，Oscar Beijbom，and Eric M Wolff. Covernet：使用轨迹集进行多模式行为预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第14074-14083页13260[27] Alexandre Robicquet ， Amir Sadeghian ， AlexandreAlahi，and Silvio Savarese.学习社交礼仪：拥挤场景中的人的轨迹理解。在欧洲计算机视觉上，第549施普林格，2016年。[28] 阿米尔·萨代吉安、亚历山大·阿拉希和西尔维奥·萨瓦雷塞。追踪无法追踪的对象：学习跟踪具有长期依赖性的多个线索。在IEEE计算机视觉国际会议论文集，第300-311页[29] Amir Sadeghian 、 Vineet Kosaraju 、 Ali Sadeghian 、Noriaki Hirose 、Hamid Rezatofighi和 Silvio Savarese 。Sophie：一个专注的神经元，它能预测符合社会和物理约束的路径在IEEE计算机视觉和模式识别会议论文集，第1349- 1358页[30] 孙建华，蒋勤红，陆策武。用于轨迹预测的递归在IEEE/CVF计算机视觉和模式识别会议论文集，第660-669页[31] Anirudh Vemula，Katharina Muelling和Jean Oh。社会关注：在人群中模拟注意力。2018年IEEE国际机器人与自动化会议（ICRA），第1-7页。IEEE，2018年。[32] 王汉庆、王文冠、梁伟、熊彩明用于视觉语言导航的结构化场景记忆。 arXiv 预印本 arXiv ： 2103.03454 ，2021。[33] 王汉卿、王文官、舒天民、魏良、沈建兵。视觉语言导航的主动视觉信息收集。欧洲计算机视觉会议，第307-322页。Springer，2020年。[34] Dan Xie，Sinisa Todorovic，and Song-Chun Zhu.从视频中推断“暗物质”和“暗能量”。在IEEE计算机视觉国际会议（ICCV）中，2013年12月。[35] Kota Yamaguchi 、 Alexander C Berg 、 Luis E Ortiz 和Tamara L Berg。你和谁在一起，你要去哪里？CVPR2011，第1345-1352页。IEEE，2011年。[36] 余存军，小马，任家伟，赵海

下载后可阅读完整内容，剩余1页未读，立即下载