没有合适的资源?快使用搜索试试~ 我知道了~
11186TITAN:未来预测使用行动先验Srikanth Malla Behzad Dariush Chiho Choi Honda研究所{smalla,bdariush,cchoi}@ honda-ri.com摘要我们考虑的问题,预测的未来trajec- tory场景代理从自我中心的意见,从移动平台。这个问题在许多领域都很重要,特别是对于在导航中做出反应性或战略性决策的自主系统。为了解决这个问题,我们引入了TITAN ( Trajectory Infer-ence using Targeted ActionPriors Network),这是一个新的模型,它结合了先前的位置、动作和上下文来预测智能体的未来轨迹和未来的自我运动。在没有合适的数据集用于此任务的情况下,我们创建了TITAN数据集,该数据集由700个标记的视频剪辑(具有里程计)组成,这些视频剪辑是从东京高度交互式城市交通场景中的移动车辆捕获的。我们的数据集包括50个标签,包括车辆状态和动作,行人年龄组和有针对性的行人动作属性,这些属性按层次组织,对应于原子,简单/复杂的上下文,运输和交流动作。为了评估我们的模型,我们在TITAN数据集上进行了广泛的实验,发现与基线和最先进的算法相比,性能有了显著的提高我们还报告了来自我们的代理重要性机制(AIM)的预期结果,该模块通过计算每个代理对未来自我轨迹的相对影响来提供对感 知 风 险 评 估 的 见 解 。 该 数 据 集 可 在https://usa.honda-ri.com/titan1. 介绍能够预测智能体(个人、车辆、骑自行车者等)的未来轨迹在包括自主和协作(共享自主)系统的运动规划和决策制定在内的一系列应用中开发导航策略是至关重要的。我们从观察中知道例如,当沉浸在拥挤的驾驶场景中时,我们能够合理地估计意图,未来的行动,图1. Our goal is to predict the future trajectory of agents fromegocentric views obtained from a moving platform.我们假设先前的行为(和隐含的意图)在未来的轨迹预测中起着重要的作用。为此,我们开发了一个模型,它结合了先前的位置,行动和背景,以预测未来的轨迹代理和未来的自我运动。该图是一个概念性的说明,代表了城市场景中自我车辆的导航我们还试图通过一个代理重要性机制(AIM)来识别影响未来自我运动的代理(由红色边界框表示)。在接下来的几秒中确定交通参与者的未来位置这无疑是由于多年的经验和对人类与现场其他参与者之间互动的观察。为了达到这种人类水平的预测行为的能力是对视觉智能和自主导航圣杯的追求的一部分,需要新的算法,模型和数据集。在行为预测领域,本文考虑了从移动平台(如道路场景中的车辆)获得的自我中心视图的未来轨迹预测问题该问题对于自主智能体在导航中进行反应性或战略性决策时进行风险评估或提前计划具有重要意义。最近报道的几个预测轨迹的模型将社会不确定性的预测未来位置固定参与者移动参与者自我运动自我车辆11187规范、语义、场景语境等。这些算法中的大多数都是从监视应用中的固定摄像机视图或无人机的俯视图开发的。本文的具体目标是开发一个模型,该模型结合了先前的位置,动作和上下文,以模拟预测未来的轨迹代理和未来的自我运动。在一个相关的问题中,基于当前观测预测未来行为的能力已经在[25,47,46,45,50]中进行了深入的研究。然而,据我们所知,行动先验尚未用于预测未来轨迹,部分原因是缺乏适当的数据集。这个问题的解决方案可以帮助解决具有挑战性和复杂的场景,这些场景捕捉可观察到的行动的相互作用及其在未来轨迹预测中的作用例如,当道路场景中的移动主体的自我中心视图捕捉到正在关闭卡车的后挡板的送货卡车工人时,工人的未来行为很可能我们的目标是开发一个模型,使用这样的行动先验预测轨迹。本 文 的 算 法 贡 献 如 下 。 我 们 介 绍 了 TITAN( Trajectory Inference using Targeted Action PriorsNetwork),这是一个新的模型,它结合了先前的位置、动作和上下文,同时预测智能体的未来轨迹和未来的自我运动。我们的框架引入了一个新的交互模块来处理场景中动态数量的对象。在对所有智能体的成对交互行为进行建模的同时,所提出的交互模块除了包含个体的位置之外还包含个体的动作,这有助于系统理解运动行为的上下文含义。此外,我们建议使用具有任意同方差不确定性的多任务损失[22]来提高多标签动作识别的性能对于自我未来,智能体重要性机制(AIM)提出了识别对象,更相关的自我运动预测。除了算法的贡献,我们介绍了一个新的数据集,称为TITAN数据集,它包括700个视频剪辑从一个移动的车辆在东京的高度互动的城市交通场景。每个片段中的行人被标记有各种动作属性,这些动作属性被分层组织,对应于原子、简单/复杂上下文、运输和交流动作。动作属性是基于驾驶场景中通常观察到的动作或对于推断意图重要的动作(例如,等待穿越)。我们还标记了其他参与者类别,包括车辆类别(4轮,2轮),年龄组和车辆状态。数据集包含来自IMU传感器的同步自我运动信息。据我们所知,这是唯一一个全面的大规模数据集,适合研究行动先验,从移动平台获得的以自我为中心的视图此外,我们相信我们的数据集将有助于推进驾驶场景中动作识别的研究。2. 相关工作2.1. 未来轨迹预测基于人类运动历史的人类轨迹预测编码交互已经在文献中被广泛研究。专注于数据的输入输出时序处理,基于递归神经网络(RNN)的架构在过去几年中已被应用于未来预测问题[2,26,17,56,60]。最近,RNN被用于使用图结构来制定代理之间的连接及其交互[54,30]。然而,这些方法的缺点是不了解环境背景,而不考虑场景信息或考虑场景信息最少。为了将人类与环境的互动模式结合起来,[57]考虑了局部到全局尺度的图像特征。最近,[10]可视化地提取了人类与其他代理以及环境交互的关系行为。车辆轨迹预测方法的车辆运动预测的发展,成功的交互建模,使用RNN。 类似于人类的轨迹-保守党预测,[13,35,30,29]只考虑过去的运动历史。这些方法在没有结构化布局指导的复杂道路环境中表现不佳。尽管后续方法[40,28,11]通过使用3DLiDAR信息作为输入来预测未来轨迹,但由于成本较高,其对当前生产车辆的适用性有限最近的方法[3,58,31]从自我中心的角度生成代理的轨迹。然而,他们没有考虑道路代理人在场景中的相互作用和对自我未来的潜在影响。在这项工作中,我们显式地从所有代理的成对交互行为建模,以识别与目标代理更相关的对象。2.2. 动作识别随着2D卷积在图像分类中的成功,帧级动作识别已在[20]中提出。随后,[44]将其框架分为两个流:一个用于编码来自RGB图像的空间特征,另一个用于编码来自相应光流的时间特征。他们的工作激发了对视频中的时间运动特征和空间图像特征进行建模的研究。在[51,52]中已经显示了一个简单的扩展,用3D卷积代替2D卷积。为了进一步提高这些模型的性能,已经提供了几项研究工作,例如I3D [7],它将2D卷积网络膨胀到3D,以受益于使用预训练模型和3D ResNet[18],它添加了残余连接以构建一个非常好的模型。11188图2.根据人员动作、车辆动作/状态以及年龄组和类型等其他标签分类的标签分布深度3D网络除此之外,其他方法捕获了演员和上下文特征之间的成对关系[49]或空间和时间中像素之间的关系[55]。最近,Timeception [19]对长范围的节奏依赖性进行了建模,特别关注复杂的动作。2.3. 数据集未来的轨迹几个有影响力的基于RGB的行人轨迹预测数据集已在文献中报道。这些数据集通常由固定监视摄像机[27,37,34],或从静态无人机安装摄像机获得的鸟瞰图[41]。在驾驶场景中,最初引入基于3D点云的数据集[15,36,23,5,1,9]用于检测,跟踪等,但最近也用于车辆轨迹预测。此外,[58,8]提供了从移动车辆的自我中心视图捕获的RGB图像,并应用于未来轨迹预测问题。JAAD [39],CMU-UAH[33]和PIE [38]数据集与我们的TITAN数据集最相似,因为它们旨在研究车载物体的意图和动作。然而,他们的标签仅限于简单的动作,如行走,站立,观看和穿越。因此,这些数据集没有提供足够数量的动作用作先验,以发现智能体运动行为的上下文含义为了解决这些局限性,我们的TITAN数据集提供了50个标签,包括车辆状态和动作、行人年龄组以及目标行人动作属性,这些标签按照补充材料中的说明进行了分层组织动作识别各种数据集已经被引入到具有单个动作la的动作识别中,bel [24,48,20,32,21]和视频中的多个动作标签[43,59,4最近发布的数据集,如AVA [16],READ[14]和EPIC-KITCHENS [12]包含在人或物体周围具有相应定位的动作。我们的TITAN数据集与AVA相似,为每个代理提供多个动作标签的时空定位。然而,TITAN的标签是分层组织的,从原始的原子动作到复杂的上下文活动,这些活动通常是从驾驶场景中的车载车辆上观察到的。3. TITAN数据集在缺乏适合我们任务的适当数据集的情况下,我们引入TITAN数据集来训练和评估我们的模型,并加速轨迹预测的研究。我们的数据集来自东京市中心以60FPS录制的10小时视频。所有视频都是使用GoPro Hero7相机拍摄的,该相机带有嵌入式IMU传感器,可在100 HZ下记录同步的里程计数据,用于自我运动估计。为了创建最终的注释数据集,我们从原始(原始)记录中提取了700个短视频剪辑每个片段的持续时间在10-20秒之间,图像大小宽度:1920 px,高度:1200 px,并以10 Hz的采样频率进行注释所选视频剪辑的特征包括展现各种参与者动作和交互的场景。数据集中所有标签的分类和分布如图2所示。注释的框架总数约为75,262,其中包括395,770人、146,840辆4轮车辆和102,774辆2轮车辆。这包括8,592名独特的人员和5,504辆独特的车辆。对于我们的实验,我们使用400个剪辑进行训练,200个剪辑进行验证,100个剪辑进行测试。如第2.3节所述,有许多与移动性和驾驶相关的公开数据集,其中许多包括以自我为中心的观点。然而,由于这些数据集不提供动作标签,因此不可能对TITAN数据集与现有移动性数据集进行有意义的定量比较。此外,关于动作定位数据集(诸如AVA)的定量比较是不必要的,因为AVA不包括自我,11189t=1:T不t=1:T图3. TITAN数据集的示例场景:带有跟踪ID的行人边界框显示在中,带有ID的车辆边界框显示在中,未来位置显示在中。操作标签在图2之后以不同的颜色显示。从移动平台捕获的中心视图。在TITAN数据集中,每个参与者(个人,车辆,骑自行车的人等)在每个帧中,agenti在从1到Tobs 的每个过去时间步处,其中(cu,cv)和(lu,lv)分别表示边界框的中心和维度。建议的泰坦框架-一个bounding box 我们标注了3个标签(人,4-工作需要三个输入,如下所示:IiOBS 对于AC-三轮车,2轮车),3个年龄组的每-儿子(儿童、成人、老年人),2轮和4轮车辆的3个运动状态标签,以及4轮车辆的门/行李箱状态标签。对于动作标签,我们创建了5个互斥的人动作集,按层次组织(图2)。在层次结构中的第一动作集中,指示注释器在9个原子全身动作/姿势中精确地分配一个类标签,所述9个原子全身动作/姿势描述诸如坐、站、站、弯曲等的原始动作姿势。第二动作集包括13个动作,其涉及具有简单场景上下文的单个原子动作,诸如乱穿马路、等待穿过等。第三个动作集包括7个复杂的上下文动作,涉及具有更高上下文理解的原子动作序列,例如进入/离开4轮车辆,装载/卸载等。第四动作集包括4个运输动作,描述了通过搬运、拉动或推动来手动运输物体的动作。最后,第五个动作集包括在交通场景中观察到的4个交际动作,例如讲电话、看电话或群体交谈。 在每个动作集2-5中,注释者在-对于相互作用编码器和过去物体位置编码器,xi,对于自运动编码器,et={αt,ωt},其中αt和ωt分别对应于时间t处的自车辆的加速度和偏航率在推断期间,从由噪声参数生成的双变量高斯中采样未来边界框位置的多个模式,并且考虑到未来预测问题的多模式性质,相应地预测未来自我运动事件然而,使用多层感知器(MLP)的特征嵌入函数的符号如 下:Φ没有任 何激活,Φr、Φt和Φs分别与ReLU、tanh和sigmoid函数相关联。4.1. 动作识别我们使用现有的国家的最先进的方法作为骨干的动作检测器。我们微调了在Kinetics- 600 [6]上预训练的单流I3 D [7]和3D ResNet [18]架构。该架构的原始头部被一组新头部(TITAN的8个动作集,除年龄组和类型外)取代,用于多标签动作输出。的行动如果没有标签,则结构化指定这个等级-检测器占用IiOBS 作为输入,cal策略旨在产生唯一(明确)动作标签,同时减少注释者所有本地化对象的跟踪ID在每个视频剪辑内相关联。示例场景如图3所示。4. 方法图4示出了所提出的TI的框图代理人i。然后,每个头输出一个动作标签,包括一个'无'类,如果没有动作显示。从我们的实验中,我们观察到某些动作集比其他动作集收敛得更快。这在一定程度上是因为某些任务在共享表示的情况下相对更容易学习。我们采用[22]中的多任务损失来进一步提高我们的动作检测器的性能,而不是手动调整每个任务的权重。请注意,TITANTAN框架。数据集是互斥的,因此我们认为输出t=1:Tobs从边界框1xi={cu,cv,lu,lv}获得,彼此独立如下:n1我们假设使用过去图像的边界框检测由外部模块提供,因为检测不是本文的范围p(y m,.., y n|f(I))= Yp(y i|f(I))、(1)I=m11190nσ^不不不不ΣΣ不图4.所提出的方法预测未来的运动道路代理和自我车辆在自我中心的观点,使用行动作为一个先验。符号I表示输入图像,X是其他代理的输入轨迹,E是输入电子运动,X是其他代理的预测未来轨迹,E是预测未来电子运动。其中y i是第i个动作集的输出标签,f是动作检测模型。然后,多任务损失被定义为:L=lce(c^lsi,clsi)+l〇gσ,(2)a2ii=mi其中,ce是针对每个标签i=m:n的预测动作clsi和地面实况clsi之间的交叉熵损失。此外,σi是任务相关的不确定性(任意同方差)。在实践中,对车辆和行人的监督是分开进行的,因为它们具有不同的动作集。多任务丢失的有效性详见补充资料材料,以及动作检测器的性能,图5.在时间t,代理i对其他代理的交互编码。xi,并且我们将嵌入Φ(xi)用于GRU。输出隐藏状态编码器的h_p通过h_p=Φ(Hxi_p)更新,其中t t t t t t表1中比较了不同的主链。Hxi= Φr(ai)iΦr(he)是级联信息,t t t t t t第然后,h_p被用作GR U的隐藏状态输入4.2. 未来对象本地化ptp通过h=GRU(h,Φ(xi);WPOL),其中WPOL是t+1t t与现有的方法不同,我们模拟了我们-根据智能体的动作确定智能体的过去位置在每个过去的时间步权重参数我们使用它的最终隐藏状态作为初始状态未来对象位置解码器的隐藏状态输入。使用基于GRU的未来对象位置解码器对目标代理it,给定的边界框xi={cu,cv,lu,lv}t是连续的,从时间步长Tobs+ 1到Tpred。在每一个时间步,我们与多标签动作向量ai连接。我们对目标代理i和所有代理之间的成对交互进行建模,通过MLP的其他代理j,vij= Φr(xi<$ai<$xj<$aj)输出一个10维向量,其中前5个值是中心μc=(cu,cv),方差σc=(σcu,σcv),其相关系数ρc与其余5个值为维数t t t t t t其中,n是串联运算符。通过具有GRU的动态RNN来评估所得到的交互vij,以留下关于µl=(lu,lv),方差σl=(σlu,σlv),以及它的相关性ρl。我们使用两个二元高斯边界框中心和尺寸,使他们可以独立地相同。目标获取代理,hi(j+1)=GRU(vij,hij;WINT),其中恳求我们使用负对数似然损失函数为:t t tWINT是权重参数。注意,我们传递的信息-在时间t与每个代理的即时交互的消息,1L=−T预测值log p(c|µ t,σ t,ρ)p(l|µ t,σt,ρ)。( 三)使我们能够发现他们在那一刻的潜在影响力。然后,我们聚合隐藏状态以生成目标代理i的交互特征OTt=Tobs+1C ccl lltnit在时间t从场景中的所有其他代理获取,如图5所示。以往的自运动编码器以et=(αt,ωt)为输入,利用GRU嵌入自车的运动历史我们使用每个隐藏状态输出he来计算其他代理的未来位置。过去的物体定位编码器4.3. 未来自我运动预测我 们 首 先 嵌 入 所 有 代 理 的 预 测 未 来 边 界 框X={x∈1,.,在每个未来时间步Tobs+ 1到Tpred.我们进一步将其置于特征空间中预先计算的动作标签上,使用GRU将过去运动的历史嵌入到Hei=Φ(ri<$Φr(x<$i)),其中ri= Φr(ai)的情况。通过tTobstTobsTobs特征空间 这个模块的输入是一个使用动作标签作为先验约束的边界框,我们显式地11191不然后,我们将所有特征H t =σiHt每种期货不不不不t tt图6. 代理重要性机制(AIM)模块。引导模型理解位置的上下文含义。每个代理i的结果特征使用AIM模块Hei=wiHei加权,其中表1.TITAN上的动作识别结果(mAP)t t t权重wi= Φt(Hei),类似于自我注意力[53]。5.1. 动作识别tte阿塞伊时间步长图6中详细描述了该过程。 请注意,我们的AIM模块与未来自我运动预测同时学习,这导致基于其他代理对自我车辆的影响/重要性或多或少地加权因此,它提供了洞察评估的感知风险,同时预测未来的运动。我们在Sec中对其进行了定性评估。五、过去ego运动编码器的最后一个隐藏状态he通过H e与He级联=Φ(Hehe),并被馈送到未来的自我运动解码器。中间因此,隐藏状态hf在每个将来由He更新。I3D with InceptionV1和3D ResNet with ResNet50作为主干。这两个模型都在Kinetics-600上进行了预训练,并使用TITAN进行了微调,并在Eqn中进行了多任务损失。二、详见第二节。4.1,我们使用对应于TITAN数据集的8个动作集的新头部修改原始结构表1中比较了每个动作集的每帧mAP结果。我们参阅补充资料,以了解个别行动类别的详细比较。请注意,我们使用基于I3D的动作检测器进行其余的实验。t tGRU的周期性更新的时间步长我们输出ego-future在每个未来时间Tobs+ 1到Tpred使用每个隐藏状态hf到ei=Φ(hf)。对于训练,我们使用具有L2损失的任务相关不确定性来回归加速度和角速度,如下所示:5.2. 未来对象本地化未来对象定位性能的结果如表2所示。使用最后两个观测值计算恒定速度(Const-Vel [42])基线,用于线性内插未来位置。由于边界框LE= αt−α21ωt−ω+22+logσ1σ2。(四)由于ADE或FDE未捕获尺寸误差,我们使用两个基线对FIRST进行评估:1)未缩放注意,预测的未来自我运动在其过程中是确定的。然而,它的多模态来自于对其他智能体的预测未来边界框的采样。通过这种方式,我们捕获了它们对自我车辆的影响,AIM输出与智能体的动作和未来运动一致的重要5. 实验在这项工作中进行的所有实验中,我们预测未来2秒,同时观察1秒的过去观测,如[31]中所提出的。我们 使 用 平 均 距 离 误 差 ( ADE ) , 最 终 距 离 误 差(FDE),和最终交并(FIRST)的未来目标定位的评估 指 标 我 们 在 我 们 的 评 估 中 包 括 FIRST , 因 为ADE/FDE只捕获最终边界框的定位误差,而不考虑其尺 寸 。 对 于 动 作 识 别 , 我 们 使 用 每 帧 平 均 精 度(mAP)。最后,对于自我运动预测,我们使用均方根误差(RMSE)作为评估指标。盒尺寸,以及2)线性缩放盒尺寸,Ssions。Titan vanilla是一个编码器和解码器RNN,没有任何先验或交互。它表现出比线性模型更好的性能。与简单的递归模型(Titan vanilla)或线性方法相比,Social-GAN [17]和Social-LSTM [2]都提高了ADE和 FDE 的 性 能 请 注 意 , 我 们 不 评 估 Social-GAN 和Social-LSTM的FIRST,因为它们的原始方法不是为了预测维度而设计的。Titan AP将动作先验添加到过去的位置,并且比Titan vanilla表现得更好,这表明该模型更好地理解了过去动作的上下文然而,它的性能比泰坦EP,包括自我运动作为先验差。这是因为Titan AP在自我中心的观点中不考虑其他代理的运动行为。Titan IP包括交互pri- ors,如图5所示,没有连接操作。有趣的是,它的性能优于Titan AP(动作先验)和Titan EP(自我先验)以及Titan EP+AP(自我和动作先验)。它验证了我们的交互编码器的有效性,该编码器旨在传递交互σ我们评估了两种最先进的基于3D卷积的方法I3D [7]3D ResNet [18]骨干启动V1ResNet50原子0.92190.7552简单0.53180.3173人复杂0.98810.9880交际0.86490.8648运输的0.90800.9081整体0.84290.7667运动0.99180.7132车辆后备箱1.001.00门1.001.00整体0.99210.9044整体↑0.89460.812811192图7. TITAN数据集的定性评价:地面实况未来轨迹,TITAN预测,最后观察绑定框。检测到的操作标签的颜色表示图2中描述的每个操作集。图像被裁剪以获得更好的可见性。图8.与其他人比较:地面实况,泰坦EP+IP+AP(我们的),Titan EP+IP(无作用),Social-LSTM [2],Social-GAN[17],Const-Vel [42],Tobs处的边界框。图像被裁剪以获得更好的可见性。所有特工这也通过比较Titan IP与两种最先进的方法来证明以自 我先验作为缺 陷输入,交互先 验(TitinEP+IP)最终表现优于Titan IP. Interactions with actioninformation (Titan EP+IP+AP) significantly outperformsall other base- lines, suggesting that interactions areimportantandcanbemoremeaningfulwiththeinformation of actions2.定性结果示于图7中。所提出的方法预测的自然运动的目标与re-moment。注意他们检测到的操作(每个示例下面列出)。在图8中,我们将我们的模型与基线模型进行了比较。Titan EP+IP的性能改进进一步验证了我们使用动作先验进行未来预测。其他结果见补充材料。5.3. 未来自我运动预测未来自我运动预测的定量结果如表3所示。[42]与《易经》的2使用地面实况动作作为先验,我们观察到总体ADE进一步改善了2个像素,总体FDE进一步改善了3.5个像素。表2. 未来目标定位的定量评估。ADE是原始尺寸1920x1200上的FDE像素。Acc(加速度),Const-Vel基线在预测角速度(偏航率)方面表现更好,Const-Acc在预测加速度方面表现更好。Titan vanilla仅将过去的自我运动作为输入,在加速度预测方面比Const-Vel和Const-Acc表现更好。虽然合并其他智能体的方法ADE↓FDE↓第五天↑常数速度(w/o scaling)[42]44.39102.470.1567Const-Vel(w/ scaling)[42]44.39102.470.1692Social-LSTM [2]37.0166.78-[17]第十七话35.4169.41-泰坦香草38.5672.420.3233泰坦AP33.5455.800.3670Titan EP29.4241.210.4010泰坦IP22.5332.800.5589Titan EP+AP26.0338.780.5360Titan EP+IP17.7927.690.565011193图9.每个智能体对自我交通工具未来轨迹的重要性(或影响程度)由智能体边界框顶部宽度上显示的红色条相对于蓝色条的比例来说明。横跨顶部宽度的红色条表示从AIM模块获得的最大重要性,而横跨顶部宽度的蓝色条表示最小重要性。(top行)来自相同序列的图像。(底行)来自不同序列的图像。方法累积RMSE↓横摆率RMSE↓[42]第四十二话常量-访问1.7451.5690.12490.1549泰坦香草1.2010.1416泰坦FP1.2360.1438Titan FP+AP1.1820.1061Titan AIM FP1.1340.0921Titan AIM(我们的)1.0810.0824表3.未来自我运动预测的比较以m/s2为单位的加速度误差和以rad/s为单位的偏航率误差。(Titan FP+AP)在加速度和横摆角速度预测方面表现出更好的性能通过在AIM模块(Titan AIM FP)中添加未来位置,系统可以衡量其他智能体行为对自我未来的重要性最后,通过将AIM模块中的未来位置和动作作为先验知识,泰坦AIM产生最佳性能。为了显示哪个参与者对自我未来更重要的可解释性,我们在图9中可视化了重要性权重。特别地,顶行示出了行人的重要性权重随着未来运动方向(白色箭头)朝向本车辆的未来运动而增加虽然代理更接近自我车辆在稍后的时间步,重要性降低,未来的运动变化。这种机制从自我载体的角度提供了对其他代理人感知风险的评估6. 结论我们提出了一个模型,可以从移动平台上获得的自我中心的意见场景代理的未来轨迹的原因。我们的假设是,行动先验提供了有意义的相互作用,也是做出未来轨迹预测的重要为了验证这一假设,我们开发了一个模型,该模型结合了先前的位置,动作和上下文,同时预测代理的未来轨迹和未来的自我运动。为了评估,我们创建了一个新的数据集,其中包含700多个视频剪辑,这些视频剪辑包含来自移动车辆的城市交通场景中的各种动作的标签。这些行为中的许多都隐含地捕捉了代理的意图。与基线和最先进的预测算法的比较实验表明,当结合动作和交互先验时,性能得到了显着改善。重要的是,我们的框架引入了一个代理重要性机制(AIM)模块,以确定代理,是有影响力的预测未来的自我运动,提供洞察评估感知风险的导航对于未来的工作,我们计划纳入额外的场景上下文,以捕捉参与者与场景或基础设施的交互。致谢我们感谢Akira Kanehara支持我们的数据收集,感谢Yuji Yasui、Rei Sakai和Isht Dwivedi进行了富有洞察力的讨论。11194引用[1] Waymo开放数据集:自动驾驶数据集,2019年。[2] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会lstm:人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集,第961-971页[3] Apratim Bhattacharyya,Mario Fritz,and Bernt Schiele.不确定交通场景中人的长期车载预测。在IEEE计算机视觉和模式识别会议论文集,第4194- 4202页[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中,第961-970页[5] Holger Caesar,Varun Bankiti,Alex H Lang,SourabhVora,Venice Erin Liong,Qiang Xu,Anush Krishnan,Yu Pan , Giancarlo Baldan , and Oscar Beijbom.nuscenes:用于自动驾驶的多模态数据集。arXiv预印本arXiv:1903.11027,2019。[6] Joao Carreira 、 Eric Noland 、 Andras Banki-Horvath 、Chloe Hillier和Andrew Zisserman。关于动力学的简短说明-600。arXiv预印本arXiv:1808.01340,2018。[7] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页[8] Rohan Chandra、Uttaran Bhattacharya、Aniket Bera和Di-nesh Manocha。Traphic:使用加权交互在密集和异构流量中进行轨迹预测。在IEEE计算机视觉和模式识别会议上,第8483-8492页,2019年[9] Ming-Fang Chang,John Lambert,Patsorn Sangkloy,Jag-jeet Singh , Slawomir Bak , Andrew Hartnett , DeWang,Pe- ter Carr,Simon Lucey,Deva Ramanan,etal. Argoverse:3D跟踪和预测与丰富的地图。在IEEE计算机视觉和模式识别会议论文集,第8748-8757页,2019年[10] Chiho Choi和Behzad Dariush。展望未来的轨迹预测关系。在IEEE国际计算机视觉会议(ICCV)的会议记录中,2019年10月。[11] Chiho Choi,Abhishek Patil和Srikanth Malla。Drogon:未来轨迹预测的因果推理框架。arXiv预印本arXiv:1908.00024,2019。[12] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿 景: 史诗 厨房 数据 集。欧 洲 计算 机视 觉会 议(ECCV),2018年。[13] Nachiket Deo和Mohan M Trivedi。基于机动的lstms环境车 辆 多 模 态 轨 迹 预 测 2018年 IEEE 智 能 车 辆 研 讨 会(IV),第1179-1184页。IEEE,2018年。[14] Valentina Fontana , Gurkirt Singh , Stephen Akrigg ,Manuele Di Maio,Suman Saha和Fabio Cuzzolin。从机器人汽车的角度进行动作检测。arXiv预印本arXiv:1807.11332,2018。[15] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集。The InternationalJournal of Robotics Research ,32(11):1231-1237,2013.[16] Chunhui Gu , Chen Sun , David A Ross , CarlVondrick,Caroline Pantofaru,Yeqing Li,SudheendraVijayanarasimhan , George Toderici , Susanna Ricco ,Rahul Sukthankar,et al. Ava:时空局部原子视觉动作的视频数据集。In Proceedings of the IEEE Conference计算机视觉和模式识别,第6047- 6056页,2018年。[17] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴:具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集,第2255-2264页,2018年[18] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史在IEEE计算机视觉和模式识别会议论文集,第6546-6555页[19] Noureldien Hussein,Efstratios Gavves,and Arnold WMSmeulders.复杂动作识别的时间感受。在IEEE计算机视觉和模式识别会议论文集,第254-263页[20] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议的论文集,第1725-1732页[21] Will Kay , Joao Carreira , Karen Simonyan , BrianZhang,Chloe Hillier,Sudheendra Vijayanarasimhan,Fabio Viola,Tim Green,Trevor Back,Paul Natsev,etal. 人 体 运 动 视 频 数 据 集 。 arXiv 预 印 本 arXiv :1705.06950,2017。[22] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议论文集,第7482- 7491页[23] R. Kesten,M.Usman,J.休斯顿,T.Pandya,K.娜达穆尼A. Ferreira , M. 袁 湾 , 澳 - 地 Low , A. Jain , P.Ondruska,S. Omari,S.沙阿,A.Kulkarni,A.卡扎科瓦角陶湖,澳-地Platin- sky,W. Jiang和V.谢特Lyft Level5avdataset2019.https://level5.lyft.com/dataset/,2019年。[24] H. Kuehne,H. Jhuang、E. Garrote,T. Poggio和T. Serre.HMDB:一个用于人体运动识别的大型视频数据库。在2011年国际计算机视觉会议(ICCV)的会议记录中[25] 田兰,陈宗全,西尔维奥·萨瓦雷塞。用于未来动作预测的层次表示。欧洲计算机视觉会议,第689-704页。Springer,2014.[26] Namhoon Lee , Wongun Choi , Paul Vernaza ,Christopher B Choy , Philip HS Torr , and ManmohanChandraker. 欲望:11195具有交互代理的动态场景中的遥远未来预测。在IEEE计算机视觉和模式识别会议论文集,第33
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功