基于神经网络的行人轨迹预测对比学习

145 浏览量更新于2023-11-30 收藏 1.13MB PDF 举报

行人轨迹预测

基于神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于神经网络的弹道预测对比学习Marah Halawa、Olaf Hellwich和Pia Bideau柏林工业大学智能科学卓越集群{marah.halawa，olaf.hellwich，p.bideau} @ tu-berlin.de抽象的。轨迹预测是成功的人机交互的基本任务，例如在自动驾驶中。在这项工作中，我们AD-Dress预测未来的行人轨迹的问题，在第一人称视图设置与移动摄像机。为此，我们建议，一种新的基于动作的对比学习损失，利用行人的动作信息，以提高学习轨迹嵌入。这种新损失背后的基本思想是，执行相同动作的行人的轨迹在特征空间中应该比具有显著不同动作的行人的轨迹更接近彼此。换句话说，我们认为，有关pedes-trian行动的行为信息影响他们的未来轨迹。此外，我们介绍一种新的轨迹采样策略，能够有效地增加负和正对比样本。使用经过训练的条件变分自动编码器（CVAE）生成额外的合成轨迹样本，CVAE是为轨迹预测开发的几个模型的核心。结果表明，我们提出的对比框架采用了行人行为的上下文信息即动作，并且它学习更好的轨迹表示。因此，将所提出的对比框架集成到轨迹预测模型中可以改善其结果，并在三个轨迹预测基准上优于最先进的方法[31，32，26]。1介绍预测行人的未来轨迹在许多应用中是一项重要任务，例如社交机器人交互和自动驾驶。典型地，智能体/行人的未来轨迹是基于其自身的过去运动历史来预测的[33]。尽管如此，整合额外的信息是可能的，例如周围代理的轨迹[1，9]或视觉场景数据[34]。当场景中周围的智能体是汽车或机器人时，仅基于过去的轨迹对运动信息进行建模是解决任务的合理方法。然而，在这项工作中，我们认为，当场景中的其他代理人是行人，然后限制用于预测过去的轨迹的信息是不够的。在这些情况下，关于行人行为（例如动作）的附加信息例如，一个行人一边走一边发短信的未来轨迹arXiv：2207.08664v1 [cs.CV] 2022年7+v：mala2255获取更多论文2M. Halawa等人电话可以不同于携带物体或推婴儿车的行人，即使他们具有相同的先前观察到的轨迹和相同的最终目标。在这项工作中，我们研究观察到的行人的行动对他们的预测轨迹的影响。我们提出了一种新的对比学习损失称为基于动作的对比损失。这种新的损失被用作主轨迹预测损失的正则化器基于动作的对比损失鼓励执行相同动作的主体的轨迹嵌入（称为正样本）在特征空间中彼此靠近，并且嵌入在执行彼此远离的不同动作（称为负样本）时观察到的轨迹。例如，轨迹的表示步行的行人被鼓励在特征空间中变得更接近，但与骑自行车的行人的轨迹的表示更远或如图所示。1.一、对比学习损失，包括我们的（基于动作的对比损失），利用一种称为负采样/挖掘的机制，其目的是选择被认为不同的样本，因此它们相应的特征在嵌入空间中被驱动得更远在我们的例子中，负数是具有不同动作的行人的轨迹。常用的负采样技术包括从同一小批量[5]或固定大小的存储体[14]中选择所有其他样本。尽管如此，虽然这些机制在自然成像数据集上证明是有效的，但我们发现它们在轨迹数据集上没有提供类似的高增益。我们推测，这是由于视觉数据与轨迹数据相比变化更大，最重要的是，更大尺寸的成像数据集，例如，Imagenet[8]包含1.6M图像，而PIE[31]包含738，970个轨迹样本。这导致负样本数量有限，当通过类别信息（例如动作或行为）调节样本时，这个问题变得更加明显。很少有作品试图通过设计特殊的反挖矿算法来解决这个问题[23，38，13]。或者，在这项工作中，我们建议利用条件变分自动编码器（CVAE）学习的数据分布[35]。这避免了为负面挖掘设计特殊的策略。虽然这种形式的采样可能只用于创建负样本，但我们使用它来创建正样本和负样本。这是可能的，因为与传统的噪声对比估计损失（NCE损失）相比，我们的对比损失的定义不同;在我们的情况下，正/负的概念与数据中的不同类别的动作有关如上所述，从该类的角度来看，属于同一动作类的样本是正的，而其他样本是负的。捐款. 本文的主要贡献如下：– 一种新的对比损失，称为基于动作的对比损失，它通过指导学习过程中轨迹嵌入空间的发展，为模型提供了关于智能体动作的额外信息+v：mala2255获取更多论文基于神经网络的轨迹预测对比学习3– 一种新颖的采样/挖掘技术，利用CVAE学习的潜在轨迹分布，避免了基于几何学设计特殊机制的需要。我们提出的对比学习框架提高了三个第一人称视角轨迹预测基准的性能结果。它还提供了证据表明，利用代理行为信息，在这种情况下以动作类型的形式，有利于轨迹预测，与[26]保持一致。然而，我们提出的学习框架只需要在训练过程中的行动信息。图1.一、在培训阶段，我们基于行动的对比学习框架概述。对比损失LAct-Con得到锚（蓝色）的正（绿色）和负（红色）嵌入h作为输入。阳性和阴性样品是批次中除锚钉以外的样品，以及来自CVAE的合成样品。黄色显示的部分是我们新的基于动作的对比学习框架。值得一提的是，该图中所示的基于动作的对比度损失仅更新编码器f的权重，并且其与更新编码器f和解码器g两者的L traj联合优化。图中未示出L traj。2相关工作多模态轨迹预测：人类可以遵循许多可能的轨迹到达期望的因此，多个作品利用多模态轨迹模型，而不是预测单路径解决方案。Leeet+v：mala2255获取更多论文4米Halawa等人等人[21]提出了多模态轨迹模型，将训练的条件变分自动编码器（CVAE）的高斯分布转化为长短期记忆编码器-解码器（LSTMED）模型。 Mangalam等人。[27]通过建模三个因素来预测代理的多模式轨迹：期望的端点目标，与其他代理的社会互动，场景，以及相对于环境约束的计划轨迹在场景中。同样，他们的模型基于CVAE，它将过去轨迹和终点目标的编码 Sadeghian等人[34]还包括所有代理的过去/观察到的轨迹，用于未来轨迹预测。为了提供额外的上下文信息，将顶视图图像合并。在可行的未来路径的分布建模为每个代理使用基于LSTM的GAN模块。类似地，Yao et al. [39]使用双向RNN解码器预测以估计目标为条件的轨迹。虽然我们的方法有可能被添加到任何轨迹预测方法中，但我们的对比框架基于BiTraP[39]，在第一人称视角设置中。使用人类行为来改善轨迹预测：在文献中，许多作品采用视频数据来预测人类活动[30]。Montes等人。[28]使用3D-CNN作为特征提取网络，然后将学习的表示传递给RNN，以有效地利用视频数据中的时间分量。Maet al.[24]通过实施排名损失来改善LSTM在人类活动预测中的性能，该排名损失会对预测模型在序列帧的预测分数中的不一致性进行 Liang等人[22]在多任务学习方案中，预测行人的未来轨迹和未来活动。 Rasouli等人[31]，通过将意图表示与观察到的轨迹坐标相结合，研究了估计的行人意图对预测轨迹的影响，然后将该表示用作解码器的输入。 Malla等人[26]将行人动作信息与轨迹预测模型相结合。它们需要将此信息作为先验信息，并学习观察到的轨迹和行人动作的联合表示。在这项工作中，我们还强调了分析行人然而，我们建议只在训练过程中使用一种新的基于动作的对比损失来结合动作信息。对比轨迹预测：对比学习是一种表征学习方法，首先由[29]提出。这种方法鼓励相似的高维输入向量在低维嵌入流形中彼此紧密映射，而不相似的输入向量彼此远离映射。对比学习已应用于几种无监督[29，15，5，11，41，4，14，6，10，17]和有监督[18]的表示学习方法。目前，将对比学习应用于轨迹预测的研究还很少在多代理设置中。通过使用正样本和负样本来定义对比损失的灵活性解决了训练数据集中关键和具有挑战性的场景中的短缺问题。这种罕见的场景对于模型来说是必要的，因为智能体在现实世界中可能会遇到这些场景 Makansi等人[25日]+v：mala2255获取更多论文基于神经网络的轨迹预测对比学习5利用这一思想，将特征空间中不满足某种有利条件的硬样本和临界样本分离出来，使其远离正的易样本。Liu等人[23]提出了一种社会抽样策略，该策略依赖于使用关于不期望场景的先验知识来增加负样本在多代理设置中。这两种方法都使用对比损失作为未来轨迹预测损失的加权组合，其可以是均方误差（MSE）或负对数似然（NLL）。我们的方法遵循这一系列的算法，并使用一种新的基于动作的对比损失添加上下文信息的行人行动的轨迹预测模型。监督对比损失：Khosla et al. [18]提出了一种监督对比损失，这是三重损失的推广[16]。在每个锚点的这种监督对比损失中，除了许多负样本之外，还有一个以上的正样本。之间有两个主要区别我们提出的基于动作的对比损失和[18]中使用的监督对比损失。首先，他们使用监督对比损失来代替交叉熵损失，用于使用图像标签训练图像分类器。然而，我们利用对比损失来正则化轨迹预测损失，其可以是MSE或NLL。其次，由于我们在本文中使用的数据集的性质与[18]中使用的图像数据之间的差异，从大型数据集中提取许多正样本和负样本更简单，例如ImageNet [8]。然而，在第一人称视角轨迹预测数据集中，具有相同动作的行人的数量是有限的，因此我们通过一种新的采样过程来解决这个问题，该采样过程来自CVAE，该CVAE被训练为基于对短过去轨迹的预测来预测轨迹。该CVAE预测模型确保了观测轨迹和预测轨迹之间的一致性。因此，它允许对属于特定动作的附加正样本和负样本进行采样。使用这种新的采样技术避免了设计硬负挖掘技术，该技术使用领域适应的算法[36，19]3方法在本节中，我们将介绍我们用于行人轨迹预测任务的方法，该方法侧重于整合上下文信息，例如动作，以实现更可靠的未来预测。我们通过采用基于动作的对比损失来解决这个问题，该对比损失增强了具有动作信息的轨迹预测模型。3.1问题公式化对于每个行人，我们有一个观察到的过去轨迹St= [s1，，st−1，st]在时间t处，并且我们预测未来轨迹Yt=[yt+1，yt+2，.，其中s和y分别是观测轨迹和预测轨迹的边界框坐标。T是未来的最大预测轨迹时间长度此外，我们还具有针对每个轨迹的动作类信息a，其中可用动作的集合a ∈ {a1，a2，. }在不同的数据集中可能会有所不同。+v：mala2255获取更多论文∈L联系我们.Σ.Σ6米。Halawa等人然后在训练数据中，我们假设有N个不同的训练样本，其中对于每个样本i [1，.，N]，我们知道Si，Yi和ai。最后，我们在小批量中处理数据集样本，其中每个批次包含B个样本。3.2多模态轨迹预测我们遵循编码器-解码器预测模型的常用方法，其中编码器f在给定观察到的轨迹St作为输入的情况下学习表示h，然后解码器g使用表示h以及采样的潜在变量z来预测未来轨迹Yt。我们采用标准的长短期编码器-解码器模型（LSTMED）[21]。事实上，我们扩展的双向版本的LSTMED，提出姚等人。的BiTraP [39]。CVAE是一种非参数模型，它通过随机潜变量学习目标轨迹的分布，可以为每个观测轨迹绘制多个未来轨迹。CVAE学习到的分布对于我们提出的对比框架是必不可少的，我们将在下面解释。作为轨迹预测损失函数traj，使用预测轨迹和目标轨迹之间的许多（BoM）L2损失[3]。值得注意的是，我们并不限制我们的拟议框架，解释如下，对于这些模型结构或损失函数的选择，我们采用标准和有效的技术来研究其对预测轨迹的影响。我们的学习框架的基本因素是预测未来轨迹模型基于CVAE，类似于[39，27]中的轨迹预测模型。3.3一种基于网络的对比学习框架为了用行人动作的上下文信息来增强模型，我们提出了一种新的损失，称为基于动作的对比损失，它作为轨迹预测损失的正则化器，它们共同训练轨迹预测模型。所提出的基于动作的对比损失是基于图1所示的新颖的基于动作的采样策略。我们首先在简单的情况下描述所提出的对比损失，不包括来自CVAE分布的额外样本，然后我们将其推广。假设B是一个批次中的样本数。对于每个观测到的过去轨迹Si，其中i1，..，B，称为锚，存在多个阳性和阴性样本。正样本Si+是具有与锚相同的动作类的轨迹，其为表示为Si“”。此外，我们还添加了锚的增强版本Si′轨迹作为正样本，遵循[23]，这是通过将小白噪声添加到锚轨迹的边界框坐标来创建的形式上：Si′=Si+Si"=Sj;其中0

下载后可阅读完整内容，剩余1页未读，立即下载