行人意图估计和轨迹预测的大规模数据集和模型

63 浏览量更新于2023-10-16 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6262PIE：用于行人意图估计和轨迹预测的大规模数据集和模型Amir Rasouli，Iuliia Kotseruba，Toni Kunic和John K.加拿大安大略省多伦多市佐佐斯约克大学{aras，yulia k，tk，tsotsos}@ eecs.yorku.ca摘要行人行为预测是设计适合城市环境的辅助和自动驾驶系统智能系统应该能够理解行人的意图或潜在动机，并预测他们即将采取的行动。迄今为止，只有少数公共数据集被提出用于研究智能驾驶背景下的行人行为预测。为此，我们提出了一种新的大规模数据集设计的行人意图估计（PIE）。我们进行了一项大规模的人体实验，以建立交通场景中行人注意力的人体参考数据。我们提出了模型，估计行人过街意图和预测他们的未来轨迹。我们的意图估计模型达到了79%的准确率，我们的轨迹预测算法在所提出的数据集上比最先进的算法高出26%。我们进一步表明，结合行人的意图与观察到的运动，提高轨迹预测。数据集和模型可在www.example.com上http://data.nvision2。eecs.yorku.ca/PIE_dataset/。1. 介绍在过去的十年中，我们见证了辅助和自动驾驶系统的快速发展，a）、b）、c）、图1.理解和预测行人行为所需的不同信息源的处理阶段。显示了三个示例：（a）无意横过马路的行人;（b）有意横过马路但没有横过马路的行人;及（c）有意横过马路而横过马路的行人。观察行人的外观和运动，结合当地的背景，有助于估计他们是否打算过马路。意图可以用于过滤掉不相关的爬行动物（消除对如虚线所示的进一步处理的需要）和/或改进轨迹预测。过去观察到的行人的运动和/或车辆动态，以预测行人的未来位置。然而，这些方法在蜈蚣已经穿越或即将穿越时是有效的，即。这些算法对已经在进行中的动作作出反应，而不是能够执行各种感知、规划控制任务。然而，当在高度动态的城市环境中驾驶时，这些系统仍然面临着重大挑战除了感知环境外，智能驾驶系统还应能够理解其他道路使用者的潜在意图，并预测他们即将采取的行动（图1）[33]。这在处理交叉点处的行人时特别重要，因为他们表现出高度可变的行为模式[26]。目前大多数行人行为预测方法都是基于概率的[16，1，5]，这意味着它们依赖于*表示平等贡献期待它。例如，行人站在十字路口或在过马路之前沿着道路行走的场景对于基于自动驾驶的方法来说可能是具有挑战性的。此外，行人过去的轨迹不一定反映他们的最终目的。例如，一个在公共汽车站等车的行人可能会走到路上去检查公共汽车。该动作可以通过基于概率的方法解释为交叉事件。基于概率的算法的常见缺点的补救措施是通过估计其潜在原因或意图来预测动作。意图估计允许人们使用预期的行为来预测未来的情况，而不仅仅是依赖于场景动态[33]。背景下车速预测轨迹预测意图估计车辆速度预测轨迹预测意图估计车辆速度预测轨迹预测车辆里程计意图估计本地上下文+外观运动6263在智能驾驶中，行人的意图反映了他们过马路的主要目标。行人可能无意横过马路（例如：他们可能正在等巴士，与人交谈或拍照），或打算横过马路，但可能会或可能不会采取行动，视乎交通情况而定。检测行人这也可以赋予这种系统更好的预测行人行为的能力[33]。在本文中，我们提出了第一个大规模的数据集，用于行人意图估计和轨迹预测。该数据集包含数小时的城市环境中行人的自然主义除了边界框和行为注释之外，我们还通过大规模实验建立了行人意图估计的人类参考数据来增强我们提出了行人意图估计和轨迹预测车载摄像头系统的模型。2. 相关作品在文献中，各种术语，如意图，动作和行为被用来描述智能体在场景中正在做什么或将要做什么。在这里，我们将意图区分为无法观察但可以从行为中推断的潜在心理状态。这是反对行动，更一般地说，行为，即。可观察的动作，例如行走或横穿，对于这些动作，存在可用的地面实况。动作预测。在计算机视觉社区中，有大量致力于视频和动作预测的作品[20，19，24，21，7，5，17]。行动（或行为）预测算法可以采取不同的形式，例如生成未来帧[20，19，24，6]，预测动作[15，21，7]，测量事件发生的置信度[27，37，10]，以及预测物体的运动[25，40，43，1，17，5，8]。行为和轨迹估计。预测某些事件发生的算法，例如过马路，使用信息，如道路结构，pede-[27]和姿势[10]，或场景动力学[37]。尽管这些算法对于提供态势感知是理想的，但是它们没有给出关于对象的未来位置的任何信息，这些信息可能有助于轨迹规划。一些算法构建未来场景，从中计算光流和场景运动[19]或直接定位感兴趣的对象[6]。然而，这些算法非常容易受到遮挡的影响，并且随着时间预测持续时间的增加而迅速退化。基于轨迹的算法依赖于对行人过去运动历史的观察未来的行人使用上下文信息，如3D深度[14，34，39]，社会互动[25，42，1，31，41]，自我车辆动力学和场景结构[16，17，5]。然而，在车载相机设置中，在许多驾驶员辅助系统中可能无法获得准确的深度信息。如[5]中所指出的，如果没有场景的自上而下的视图，社会互动也可能难以推断。[5]中的现有技术车载行人轨迹估计使用双流编码器-解码器方案，该方案将观察到的边界框位置的编码与自我车辆的里程计相结合，该方法使用最后观察到的视觉信息来估计车辆的未来里程，然而，不考虑行人的任何视觉特征来预测他们的轨迹。意图估计。在计算机视觉和机器人技术文献中，术语意图经常用于动作分类或路径细化的背景下在[11，27]中，作者假设行人想要穿越并确定穿越是否发生在车辆前方以及何时发生意图被定义为行人的潜在目标（目的地），用于细化预测轨迹[3，29，2，30]。这些方法在很大程度上依赖于行人的运动历史，并预测每个人的轨迹。据我们所知，只有一个以前的工作，定义行人过马路的意图作为他们的主要目标，以跨越[33]。作者建议从行人的运动模式和他们与各种道路元素的接近程度来推断行人的过街意图，例如。路边公交车站自动车道然而，他们的算法并不包含感知机制，而是依赖于地面真实信息进行推理。数据集。许多用于轨迹预测的数据集包含从自上而下视图[18，25，22，31]或监控摄像头视角[23，4，45]收集的视频。从移动车辆的角度来看，专门针对行人行为预测的数据集相对较少公开可用的行人检测数据集[9，12，44]可以潜在地用于这样的目的，然而，它们缺乏必要的特征，例如自我车辆信息[9]，时间对应性[44]或具有长轨迹的足够的行人样本[12]。这些数据集也不包括可用于动作预测的任何形式的行人行为注释。最近提出的数据集JAAD [27]包含大量具有时间对应性的行人样本，其中一个子集用行为信息进行了注释。然而，出于意图估计和轨迹预测的目的该数据集没有自我车辆信息，视频被分成短的不连续块，而主要的6264具有行为注释的行人样本中的大多数具有横穿意图。捐款. 本文提供了以下四个贡献：1）大规模行人意图估计（PIE）数据集，其包括使用经校准的车载相机收集的行人在各种类型的人行横道处的数小时视频镜头。该数据集包含感知和视觉推理所需的注释，包括交通对象的边界框、行人意图和行为、行人属性（例如，性别、年龄）、道路边界和自我车辆信息（例如，GPS、速度、航向角）。2）通过进行实验室内和大规模在线实验建立行人意图估计的人类基线，该实验涉及不同年龄和驾驶背景的人类受试者。这些信息为我们提供了行人过街意图的估计3）提出了一种结合过往轨迹信息和局部视觉背景的行人4）轨迹预测算法，其在PIE和JAAD数据集上实现了最先进的性能，并显示了各种上下文信息如何影响预测轨迹的准确性3. PIE数据集3.1. 数据PIE数据集由超过6小时的驾驶镜头组成，这些镜头是由配备157英寸广角镜头的校准单目仪表盘摄像头Waylens Horizon拍摄的所有视频均以30fps的HD格式（1920×1080 px）录制。摄像机被放置在车内，后视镜。为了方便起见，视频被分为ap- prox。10分钟长的片段，分为6组。整个数据集是在加拿大多伦多市中心的晴天/阴天天气条件下白天记录的。我们的数据集代表了交叉点处各种各样的行人，包括行人流量大、街道狭窄以及行人较少的PIE为广泛的应用提供长的连续序列和注释注释。对于靠近道路的每一个行人，可以潜在地与我们提供的驱动程序进行交互，以下注释：带有遮挡标志的边界框，以及交叉意图置信度和文本标签行人的行动（“行走”、“站立”、“看”、“不看”、“横过马路”、“不横过马路”）。每个行人都有一个唯一的ID，并且可以从出现在场景中的那一刻起一直跟踪到走出帧。如果25%到75%的行人不可见，则遮挡标志被设置为部分遮挡，如果>75%的行人不可见，则被设置为完全遮挡。跨越意图信心是馅饼JAAD帧数911K82K注释帧293K75K行人数量1.8K2.8K行为异常的行人数量。1.8K686行人bbox740K391K型Avg.人行道长度401140行人意向是的没有自车传感器信息是的没有场景对象注释bboxes+文本文本表1：PIE数据集与JAAD数据集的属性比较根据人类参考数据估计的数值评分（见第3.2节）。为场景中的其他相关对象提供空间注释，包括基础设施（例如，标志、交通灯、斑马线、道路边界）和与感兴趣的行人互动的车辆1.使用车载诊断（OBD）传感器与摄像头同步，我们为视频的每一帧提供GPS坐标和车辆信息，如准确的速度和航向角。表1总结了PIE和JAAD数据集的属性。JAAD为所有pedede-strians提供了边界框注释，这使得它适合于检测和跟踪应用。然而，它缺乏准确的车辆信息，交通对象和行人意图的空间注释，这些对于行人行为预测至关重要。3.2. 人体实验如第2节所述，在爬行动物行为理解领域的研究主要集中在行动和行为预测的问题上，而意图估计的主题仍然相对未得到部分原因是，建立交叉意图的地面实况是不可行的，因为它需要在街上采访人们，并在车辆经过他们之后观察他们的行动然而，这些数据对于识别和关注街道上最相关的行人、行人行为理解和预测（包括轨迹估计）是必要的。为了确定PIE数据集中样品的人体参考数据，我们进行了下述人体实验。实验描述。该实验涉及观看PIE数据集中的短视频。我们要求参与者在最初的几秒钟内观察一个突出显示的行人，并在观看每个视频一次后回答以下问题：“这行人是要过马路吗？“.选项设置为5个区间（外部区间表示明确的1 我们使用了CVAT工具（ https://github.com/opencv/cvat）用于所有空间标注和行为标签。6265奥布斯543210 200 400 600 800 1000 1200 1400 1600 1800视频样本图2.对“这个行人想过马路吗？“对于包含单个感兴趣行人的1842个视频样本中的每一个。答案选项5选择为存在，选项1选择为不存在穿越意图。介于两者之间的答案选项代表了不同程度的不确定性。实验室内和AMT响应分别显示为清晰起见，平均响应按降序排序。实验中使用的视频是为PIE数据集中的1842个标记行人中的每一个生成的。使用GPS信息和车辆速度，我们创建了短片段，显示车辆达到1之前的103秒。5-3s事件发生时间。在自我车辆静止的情况下，视频在行人开始穿越前3秒被裁剪。每个视频片段的第一帧和最后一帧都被冻结了4秒，以便让受试者熟悉场景。该pe-在视频的开始和结束处的冻结帧的持续时间内，用向下指向的红色箭头突出显示感兴趣的行人Procedure.我们首先在实验室环境中进行了实验，有5名受试者（年龄在27-62岁之间），每个人都观看了1842个视频。然后，我们在Amazon Mechanical Turk（AMT）上重复了相同的实验，以收集每个视频的额外10个对于AMT实验，对于每个HIT（人类智力任务），将视频分组为10我们的研究仅限于居住在在加拿大和美国，以确保他们熟悉道路规则，标志，道路划定等。和减少任何文化偏见。总的来说，我们从700多名受试者（年龄在19 -88岁之间）中收集了27，630份结果实验室和AMT参与者的汇总响应图如图2所示。由于没有地面实况数据，我们专注于分析同意-来验证我们的结果。首先，我们计算了组内相关系数（ICC），这是一种评价者间一致性的指标，通常用于在缺乏真实数据的情况下分析大量评价者的主观反应[35]。尽管估计行人意图具有固有的主观性，但测得的ICC 2为0。97和0。实验室和AMT受试者分别为93，这表明两组评分者之间的一致性非常高（绝对ICC=12实验室数据和AMT数据分别采用ICC（3，k）和ICC（1，k）。第一个测量假设固定数量的评估者k（在这种情况下，对于实验室参与者，k= 5）对所有目标进行评估，第二个测量假设来自大量人群的k个评估者（k= 10在这两种情况下，评级都是跨评级人汇总的。协议）。AMT工作者之间的一致性略低，可能是由于受试者群体更大，更多样化，以及我们无法控制的因素（例如，观看条件、干扰等）。尽管AMT数据中存在一些噪声，但实验室受试者和AMT受试者的平均响应之间的Pearson相关系数为0。90，这表明两组人的答案相似。例如，15名评分员中有14名在近17%的情况下同意相同的答案。另一方面，在整个数据集中，只有10个所涉及的样本包括接近路边或已经踏上道路但分心的行人，例如：通过他们的电话或通过与另一个人的互动。靠近人行横道的巴士站是另一个混乱的来源，很难区分行人等待-为公共汽车和那些等待过境。然而，这些临界病例的数量非常低（0.3%）。PIE数据集包含898个意图但没有穿越的人，512个最终在车辆前方穿越的意图穿越的行人和430个没有穿越意图的行人。有趣的是，只有2个样本的行人过街但人类受试者的反应并没有表明意图由于这种类型的假阴性是一个潜在的安全问题，令人放心的是，人类参与者特别擅长解释他人4. 方法描述在这项工作中，我们解决了两个层次上的行人行为预测问题：早期预测的形式估计行人前者主要作为一个细化过程，将智能系统的焦点转移到那些重要的行人上，或者潜在地与车辆进行意图估计还可以通过暗示场景中更可能的运动模式的类型来有益于轨迹预测。例如，无意横穿马路的人不会在车辆前方进行横穿街道的横向运动。4.1. 行人意图估计我们将每个样本的行人意图表示为人类实验参与者的平均响应，重新缩放到范围[0，1]并四舍五入。然后，我们将该任务定义为预测行人i是否有横穿街道的意图的二元分类问题，inti∈ {0，1}给出局部视觉对比的部分观察。行人周围的文字C ={ct−m，ct−m+1，.，ct}和平均AMT应答平均实验室内响应响应选项6266轨迹预测日本+1中国+2联系我FCFCFC…LSTMℎ��LSTM��LSTMLSTMXXX…时间注意力FC足球俱乐部.. .F CFCFCFC��−��联系我们+…XXXLSTM…LSTMLSTMFCFCFC+++ℎ��FCFCFCConvLSTMConvLSTMConvLSTMLSTM…LSTMLSTMCNNCNN车辆CNN速度预测时间注意力��简体中文��−��意图正+ +日本+1+FC中国+2+FC联系我们+FC估计FCLSTMLSTM…LSTM图3.提出的意图估计和轨迹预测框架。该系统接收图像序列和自我车辆的当前速度作为输入。意图估计模型速度模型使用编码器-解码器方案预测未来速度，随后是一系列自注意单元。位置预测单元接收位置信息作为编码器输入，并且接收编码器表示、行人表示和行人表示的组合意图和未来速度作为解码器输入，并预测未来的预测器y。在图中，FC表示全连接层，s1：m。n+to concatenation operation ands1：m.×到逐元素乘法。位置、意图和空间分别用l、int和s表示。轨道L={lt−m，lt−m+1，.，It}，其中I是2D，是指自我车辆的预测未来速度，并且奥布斯我左上方定义的行人周围的边界框，右下角点（[（x1，y1），（x2，y2）]）。已经表明，姿势，隐含地编码在外观中（例如，这个人是否身体前倾或转向道路）、直接的本地环境（例如，相对于路缘的位置）和运动，传达关于横穿意图的视觉信息。其他背景元素，例如街道标志、交通信号以及自我车辆的行为，可能会影响行人的行为，例如：他们会否尝试横过马路，但不会影响他们横过马路的原意。对于意图估计的任务，我们采用RNN编码器-解码器架构（参见图 3 ），其中编码器接收与检测到的pedestrian周围的图像区域相对应的特征表示序列。然后，编码器的输出与捕获行人动态的边界框坐标序列连接。我们使用二进制交叉熵损失函数进行训练。4.2. 行人轨迹预测我们将未来轨迹预测问题视为一个优化过程，其目标是学习分布p（Lpred|Lobs，Spred，Inti）多个行人1 ≤我≤n个，其中，Lpred={1t+1，1t+2，...，t + τ}是pe的预测轨迹。是由行人i的横过马路意向，张力估计流。位置1是由左上角和右下角点定义的行人周围的2D边界框[（x1，y1），（x2，y2）]如图3所示，所提出的模型基于RNN编码器-解码器架构，其中编码器的输入是某个时间t内观察到的行人位置，解码器的输出是直到时间t+τ的未来轨迹预测。我们使用两种注意力：应用于编码器输入的时间注意模块和应用于解码器输入的自注意单元。前者侧重于在观察到的序列中找到最相关的信息（关键帧），而后者应用于特征级，并侧重于与当前预测相关的编码表示部分。自注意单元之前是用于编码的降维的嵌入单元。最终的预测是由解码器输出的线性变换生成的车辆速度估计流遵循类似的方案，除了它学习p（Spred|Sobs），其中Sobs是指直到时间t的车辆的观测速度。在训练时间，两个序列预测模型均使用均方我我我t−mt−m+1t误差损失函数定义为MSE=1τ||loct+j−行人，Lobs={li，li，...，i}是观察到的行人的位置，Spred={st+1，st+2，...，st+τ}洛伊奇岛t+j||.Nj=1i62675. 实证评价5.1. 执行意图估计。我们使用具有64个滤波器和2×2内核大小的卷积LSTM作为编码器，对于解码器，使用具有128个隐藏单元的LSTM，tanh激活，dropout为0。4人，经常辍学，0的情况。二、在Ima-geNet [32]上预训练的VGG 16[36]（没有fc层）用于编码图像特征。我们体验-两种不同类型的视觉信息。第一个是imgbbox，它是裁剪到边界框大小的输入图像，调整大小以使较大的维度匹配224×224的VGG输入大小，并填充零以保持纵横比。第二类型输入是行人周围的局部上下文（img上下文），它是裁剪为2×边界框大小的输入图像，方形化并调整大小为224×224。方法输入数据ACCF1LSTMloc0.630.73LSTM边缘loc0.670.76imgbbox0.600.78imgbbox0.690.79PIEintimg上下文imgbbox+lock0.710.730.820.82imgcontext+lock0.790.87表2：输入数据的各种组合的行人意图估计结果：loc-边界框坐标，imgbbox-裁剪为边界框大小的图像，以及img上下文-裁剪为边界框的2×大小以显示局部上下文的图像。步骤（t+τ）。边界框预测的所有结果都以像素为单位。轨迹预测我们使用LSTM与256个隐藏单位和软标志激活我们的轨迹和速度预测流。与tanh激活相比，我们观察到使用软标志激活时训练速度更快，性能提高高达5%。轨迹预测流中的嵌入层是一个具有64个输出节点的全连接网络，没有丢弃。5.2.数据集行人意图估计（PIE）。将1842个行人样本分为训练集、测试集和验证集，训练集、测试集和验证集的比例分别为50%、40%和10%。我们以0的重叠率对轨迹进行采样。五、对于轨迹预测训练，低于2秒的最小长度（观察+预测）的轨迹我们使用OBD传感器读数获取速度信息。JAD [27]. 对于仅使用边界框的轨迹预测评估，我们使用JAAD数据集中的行人轨迹。鉴于此数据集中的样本数量较少且轨迹较短，我们使用重叠率为0的所有行人样本。8.我们使用与[28]中相同的训练/测试分割，从评估中排除低分辨率和低可见性视频（346个中的13个训练模型分别训练和组合在测试时间。意图和轨迹模型使用RMSProp [38]优化器进行训练，学习率分别为10- 5和10- 2意图模型使用128的批量大小和0的L2正则化训练300个epoch。001。我们使用批量大小为64，L2正则化为0，训练了60个epoch的轨迹模型。0001指标. 对于意图估计，我们报告准确度和定义为2·precision ·recalll/ （ precision+recall ）的 F1 分数。以下度量用于评估所提出的轨迹预测算法：MSE超过边界框坐标[5]，CMSE和CFMSE，它们是在整个预测序列上平均的边界框中心的MSE，并且仅是最后一次行人意图估计。表2总结了在输入数据的不同组合上训练的各种模型的结果。五是观察。评价中使用了以下模型：一个在标准化边界框坐标（loc）上训练的vanillaLSTM作为基线，一个在标准化边界框坐标或imgbbox上训练的LSTM编码器-解码器（LSTM ed），以及在4种不同类型的输入数据上训练的所提出的模型PIEint ， imgbbox ， imgcontext ， imgbbox+loc 和 imgcontext+loc。基线LSTM达到63%的准确率。相比之下，LSTM编码器-解码器（LSTMed）使用相同的信息执行得更好，然而，即使它具有更高的F1分数，它也只使用imgbbox这可能是由于在没有动态的情况下行人外观信息不足的事实。PIEint在所有输入类型上的整体性能都优于其他两个模型。它在外观特征（imgbbox）和运动数据（loc）上的性能大约是。4%，高于基准值。添加本地上下文（imgcontext）可以提供一个小的性能改进。这表明，尽管使用不同的表征，运动或表观特征本身可能无法有效地估计意图。正如预期的那样，结合不同的信息来源可以提高性能。我们看到，运动改善了对相对较远或被遮挡的样本的意图估计，其中视觉信息是不可靠的。然而，在这种情况下，当蜈蚣更明显时，它们的姿势和背景元素也非常重要。总体而言，应用程序，本地上下文和运动的组合提供了最大的优势，将最终准确率提高到79%。图4显示了所提出的算法的性能的一些示例轨迹预测。我们开始评估提出的模型只使用位置（边界框）信息。为此，我们报告了以下模型的结果：两个基线模型，一个线性卡尔曼滤波器，6268方法馅饼JAADMSECMSECFMSEMSECMSECFMSE0.5s1s1.5s1.5s1.5s0.5s1s1.5s1.5s1.5s线性12347713659503983223857230315656111LSTM1723309118373352289569155814735766B-LSTM[5]1012968558113259159539153514475615PIEtraj582006365962477110399124811834780表3：不同未来时间步长上的位置（边界框）预测误差。在所有预测的时间步长上计算以像素为单位的MSE，CMSE和CFMSE分别是在整个预测序列和仅最后一个时间步长的边界框的中心上计算的MSE方法MSE0.5s1s1.5s最后线性0.872.284.2710.76LSTM1.501.913.006.89PIE速度0.631.442.656.77表4：PIE数据集上不同时间步长的速度预测误差。Last表示最后一个时间点。结果以km/h为单位报告。图4.行人意图估计的结果覆盖在来自PIE数据集的帧的顶部（为了更好的可见性而裁剪）。边界框的颜色取决于我们的模型检测到的交叉意图的存在（绿色）或不存在（红色）。虚线边界框表示错误估计的意图。ter [13]和一个普通的LSTM模型，最先进的算法，贝叶斯LSTM [5]（B-LSTM），以及提出的模型PIEtraj。每个模型都在0上训练和测试。5秒（15帧）的观察，并预测轨迹超过0。5，1和1。未来5秒表3总结了仅使用边界框信息的预测结果。如表所示，与B-LSTM相比，所提出的方法在所有指标上都实现了最先进的性能，在PIE数据集上高达26%，在JAAD上高达18%。所有模型的性能通常在JAAD数据集上较差，这可以部分归因于样本数量较少，尺度和较短的轨道，所有这些都降低了数据集的多样性。长期预测的线性模型性能的恶化表明人类运动模式的复杂性，不能用简单的线性插值来解释。正如预期的那样，所有型号由于自由度较少，因此通常在边界框中心上更好轨迹预测中的上下文。我们首先通过将该模型与两个基线模型（线性卡尔曼滤波器和vanilla LSTM模型）进行比较来评估所提出的速度预测流PIE速度我们使用MSE度量，并重新-以km/h为单位输出结果。表4显示了我们的实验结果。线性模型在短期内实现了合理的性能，优于0. 5只这表明速度变化在短期内通常是不显著的，特别是在城市环境中，这是在所提出的PIE数据集中的情况然而，从长期来看，基于LSTM的模型表现得更好。所提出的PIE速度比vanilla LSTM模型实现了高达10%前面我们认为，行人的意图可以作为一个早期的预测阶段，除了轨迹预测。在这里，我们研究是否估计行人我们报告了我们的轨迹预测模型PIEtraj的结果，该模型接收由PIE速度和PIE整数。我们在0上报告结果。5s观察和1. 5s预测如表5所示，调节轨迹预测对行人意图的影响可以将结果提高4%。这是因为意图可能意味着某些运动模式。例如，有过街意图的人可能会横向移动过街，而没有意图的人可能会站着不动。正如人们所期望的那样，自我车辆的速度提高了轨迹预测，并且当与行人意图相结合时，仅使用边界框就6269t t+0.5s t+1st+1.5s图5.轨迹预测算法的例子，使用所提出的模型PIEtraj与不同的输入组合。颜色和型号组合为：loc（黄色）、loc+ PIE int（蓝色）、loc+ PIE速度（红色）和loc+ PIE int+ PIE速度（紫色）。地面实况注释显示为绿色。这些序列描述了不同的交通场景。从上到下：一个男人离开他的车，一个女人过马路，一个男人叫出租车，一个女人等着过马路。方法输入MSECMSECFMSEloc6365962477loc+PIEint6115702414PIEtrajloc+PIE速度5725352204loc+PIEint+ PIE速度5595202162loc+int+speed4734351741表5：所提出的模型PIE traj在0上的位置（边界框）预测误差。5s观察和1. 使用不同输入的5s预测loc、int和speed代表位置、意图和车辆速度。PIEint和PIE速度是意图和车辆速度估计模型的输出。MSE以像素为单位报告，并在所有预测的时间步长内计算。CMSE和CFMSE分别是整个预测序列和仅最后一个时间步的边界框中心上的MSE图5说明了我们提出的算法在PIE数据集上使用不同上下文信息的性能。尽管速度在IM中具有主导作用用于视觉推理任务的timodal注释。由于没有交叉意图的地面真实数据，我们进行了大规模的实验，以确定这项任务的人类参考我们的数据表明，大量的人类实验被试在回答问题时具有高度的一致性。我们提出了一个行人意图估计的基线模型，并通过评估各种输入数据组合，我们表明，结合行人运动的局部上下文是很好的预测交叉意图。此外，本文还提出了一种车载摄像机的轨迹预测方法.我们的模型远远优于最先进的模型。我们表明，调节行人意图和自我车辆速度的轨迹预测进一步改善了结果。在未来的工作中，行人意图估计可以通过包括显式姿态和社会交互来进一步改进同样地，轨迹估计可以受益于其他信息源，诸如交通动态、信号和通信。在某些情况下，当车辆静止或当行人无意穿越时，也可能无法证明轨迹预测。6. 结论我们提出了一种新的大规模数据集，用于研究行人过街意图和行为，具有广泛的多功能，道路结构，所有这些都会影响未来的行人行为。鸣谢。这项工作得到了加拿大自然科学和工程研究委员会（ NSERC ）、 NSERC 加拿大机器人网络（NCRN）、空军科学研究办公室（美国）和加拿大研究主席计划（通过向JKT提供赠款）的支持。6270引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会LSTM：拥挤空间中的人体轨迹预测。在CVPR，第961-971页[2] Haoyu Bai ， Shaojun Cai ， Nan Ye ， David Hsu ， andWee Sun Lee.用于在人群中自动驾驶的在ICRA，第454[3] Tirthankar Bandyopadhyay ， Kok Sung Won ， EmilioFraz- zoli，David Hsu，Wee Sun Lee，and Daniela Rus.意图感知运动规划。在机器人学基础X，第475-491页。Springer，2013.[4] 本·本福德和伊恩·里德实时监控视频中的稳定多目标跟踪。在CVPR，第3457-3464页，2011年。[5] Apratim Bhattacharyya，Mario Fritz，and Bernt Schiele.不确定条件下交通场景中人的长期车载预测在CVPR中，第4194-4202页[6] Wonmin Byeon，Qin Wang，Rupesh Kumar Srivastava，and Petros Koumoutsakos. ContextVP：完全上下文感知的视频预测。在ECCV，第781-797页[7] Lei Chen，Jiwen Lu，Zhanjie Song，and Jie Zhou.部分激活的深度强化学习用于动作预测。在ECCV，第421-436页[8] Nachiket Deo和Mohan M.特里维迪用于车辆轨迹预测的卷积社会汇集。在CVPRW，第1581-1589页[9] PiotrDolla'r，ChristianWojek，BerntSchiele，andPietroPerona.行人检测：基准。在CVPR，第304-311页[10] 方志杰和安东尼奥·洛佩斯。行人要过马路吗通过2D姿态估计来回答。在智能车辆研讨会（IV），第1271-1276页[11] Zhiji i eFang，D a vidVa'zquez和AntonioL o' pez。车载检测行人意图。传感器，17（10）：2193，2017年。[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准测试套件。在CVPR，第3354-3361页[13] 鲁道夫·埃米尔·卡尔曼线性滤波和预测问题的新方法。基础工程学报，82（1）：35[14] Christoph G Keller ， Christoph Hermes ， and Dariu MGavrila.行人会过马路吗？基于学习的运动特征的概率路径预测在Joint Pattern Recognition Symposium，第386-395页[15] 余空，陶志强，傅云。用于动作预测的深度顺序在CVPR中，第1473-1481页，2017年。[16] Julian Francisco Pieter Kooij，Nicolas Schneider，FabianFlohr，and Dariu M Gavrila.基于上下文的行人路径预测。在ECCV中，第618-633页[17] 放大图片作者： Namhoon Lee ，Wongun Choi， PaulVernaza ， Christopher B. 作者： Philip H. S. Torr 和Manmohan Chandraker。DE-SIRE：在动态场景中使用交互代理进行遥远未来预测.在CVPR，第336-345页[18] Alon Lerner、Yiorgos Chrysanthou和Dani Lischinski。群众的榜样。计算机图形论坛，26（3）：655[19] 梁晓丹，李丽莎，戴伟，和埃里克P。邢用于未来流嵌入式视频预测的双运动gan。在ICCV，第1744-1752页[20] Chaochao Lu，Michael Hirsch，and Bernhard Scholkopf.用于视频预测的灵活时空网络。在CVPR中，第6523-6531页[21] Tahmida Mahmud，Mahmudul Hasan，and Amit K.罗伊-乔杜里。未修剪视频中活动标签和开始时间的联合预测。在ICCV，第5773-5782页，2017年。[22] 芭芭拉·玛杰卡论坛上行人行为的统计模型硕士[23] Sangmin Oh，Anthony Hoogs，Amitha Perera，NareshCun-toor ， Chia-Chih Chen ， Jong Taek Lee ， SaurajitMukherjee ， JK Aggarwal ， Hyungtae Lee ， LarryDavis，et al.监控视频中事件识别的大规模基准数据集。在CVPR，第3153-3160页[24] 马克·奥留哈维尔·塞尔瓦和塞尔吉奥·埃斯卡莱拉用于未来视频预测的折叠递归神经网络。在ECCV中，第5773-5782页[25] Stefano Pellegrini，Andreas Ess，Konrad Schindler和LucVan Gool。你永远不会独自行走：多目标跟踪的社会行为建模。在ICCV，第261-268页，2009中。[26] Amir Rasouli、Iuliia Kotseruba和John K Tsotsos。同意穿越：司机和行人如何沟通在智能车辆研讨会（IV），第264-269页[27] Amir Rasouli、Iuliia Kotseruba和John K Tsotsos。他们要过河吗？行人人行横道行为的基准数据集和基线。在ICCVW，第206-213页，2017年。[28] Amir Rasouli、Iuliia Kotseruba和John K Tsotsos。这并不全是关于大小：数据属性在行人检测中的作用。在ECCVW，第210-225页[29] 艾克·雷德和霍斯特·克勒登。目标导向的行人预测。ICCVW，第50-58页[30] Eike Eudder ， Florian Wirth ， Martin Lauer ， andChristoph Stiller.使用深度神经网络进行规划的行人预测。在ICRA，第1-5页[31] Alexandre Robicquet ， Amir Sadeghian ， AlexandreAlahi，and Silvio Savarese.学习社交礼仪：拥挤场景中的人的轨迹理解。在ECCV，第549-565页[32] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。IJCV，115（3）：211-252，2015.[33] 弗里德里克·施尼曼和帕特里克·海涅曼。基于上下文的城市自动驾驶行人过街意图检测。在IROS，第2243-2248页6271[34] Andreas Th Schulz和Rainer Stiefelders。使用潜在动态条件随机场的行人意图识别在智能车辆研讨会（IV），第622- 627页[35] 帕特里克E Shrout和约瑟夫L Fleis

下载后可阅读完整内容，剩余1页未读，立即下载