自我中心视图的自动驾驶环境中多模态预测的文件标题

4 浏览量更新于2023-10-20 收藏 26.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4354435543560由于时间序列处理，LSTMs非常受欢迎。最初的研究利用LSTMs来对轨迹进行建模，以模拟物体之间的交互[2, 59,65]，对场景进行语义利用[4,38]，并利用带有注意力的LSTMs来关注相关的语义[46]。另一类研究通过cVAEs[30]、GANs[3, 21, 45, 66,27]和潜在决策分布[31]对未来的多模态性进行处理。Choi等人[12]将未来位置建模为非参数分布，这可能导致多模态性，但往往会坍缩为单一模态。鉴于混合密度网络(MDNs)在无限制环境中的不稳定性，一些研究将解决空间限制在一组预定义的操纵或语义区域[15,24]。Makansi等人[36]提出了一种在无限制环境中学习混合密度的方法。他们的方法首先预测多样的样本，然后在这些样本上拟合混合模型。所有这些方法都应用于从鸟瞰视角记录的静态场景，即具有完全的局部可观测性和无自我运动。我们在Makansi等人[36]的技术基础上，用于估计自我中心视图中的多模态分布。自我中心未来定位。自我中心相机视图是自动驾驶中观察场景的典型方式。由于自我运动和狭窄的视野，它引入了新的挑战。多个研究通过使用3D传感器将视图投影到鸟瞰视图中来解决这些挑战[14, 17, 16, 47, 35,44,13]。这是一种可行的方法，但在LIDAR和立体传感器的情况下，它受到非密集测量或错误测量的影响。替代方法尝试直接在自我中心视图中工作。Yagi等人[62]利用姿势、位置、尺度和过去的自我运动来预测人的未来轨迹。TraPHic[10]利用附近异构对象之间的相互作用。DTP[49]和STED[48]使用光流和对象的过去位置和尺度的编码器-解码器方案。Yao等人[63]添加了计划的自我运动以进一步改善预测。对于自动驾驶来说，了解计划的运动是一个合理的假设[20]，我们也利用了这个假设。所有这些模型都使用确定性模型，并未考虑未来的多模态性和不确定性。我们的实验表明，这种效果是存在的。与我们的方法最相关的工作是Bhattacharyya等人[7]提出的贝叶斯框架，它在自我中心视图上工作并预测多个模态。它使用贝叶斯RNNs来采样具有不确定性的多个未来。此外，他们学习了计划的自我运动，并将其融合到主要的未来预测框架中。NEMO[37]通过学习计划的自我运动的多模态分布来扩展这种方法，从而提高了准确性。0这些方法需要多次运行以采样不同的未来，并且容易出现模式坍缩，即倾向于仅预测最主要的模式，我们的实验证明了这一点。自我中心新出现预测。为了加强自动驾驶的安全性，不仅需要预测观察对象的未来，还需要预测新对象可能出现的位置。预测新出现对象的位置等同于预测未来环境本身。预测未来环境的方法包括预测未来帧[55, 52, 51, 1, 28,32, 61]和未来语义分割[34, 25, 54, 33, 8,6]。这些方法只能以逼真的方式在场景中虚构新对象，但没有一个明确地预测新对象实际上可能出现的结构。Vondrick等人[53]考虑了一个更高级的任务，并预测新对象在自我中心视图中出现的概率。然而，他们只预测“什么”对象会出现，而不是“在哪里”出现。Fan等人[19]建议将当前对象检测特征转移到未来。这样他们就可以预测观察到的对象和新对象。可达性先验预测。环境对导航中的对象施加约束。虽然一些最近的工作使用LSTM从图像中学习环境约束[38,60]，其他工作[4,12]选择了更明确的方法，通过将环境划分为有意义的网格来学习网格-网格、对象-对象和对象-网格的相互作用。软注意机制通常用于关注环境的相关特征[45,46]。虽然这些方法在模型中推理静态环境约束，但我们提出将这个任务分离出来，在动态场景中学习场景先验。Lee等人[29]提出了一个类似的模块，其中每个对象类别的GAN生成多个位置，以逼真地放置一个对象。03.多模态自我中心未来预测0图3显示了我们未来定位任务框架的流程，包括三个主要模块：（1）可达性先验网络（RPN），该网络学习了物体类别成员可能位于语义地图中的先验位置，（2）可达性传输网络（RTN），该网络将可达性先验从当前时间步传输到未来时间步，考虑到计划的自运动，以及（3）未来定位网络（FLN），该网络以物体的过去和当前观察为条件，学习基于RTN的一般解来预测其未来位置的多模态分布。出现预测共享相同的前两个模块，只在第三个网络上有所不同，我们取消了对过去物体轨迹的条件。我们将其称为出现预测网络（EPN）。EPN的目标是学习物体类别在未来出现的多模态分布。4357435843590使用sort[58]来检测和跟踪物体，并使用DSO[18]来估计自运动。该数据集允许测试对噪声输入的鲁棒性（无人工注释）。我们将这些序列和注释公开提供。04.2.评估指标0FDE。为了评估未来定位和出现预测，我们报告了常见的最终位移误差（FDE），它估计了两个边界框中心的像素L2距离。IOU。我们报告了交并比（IOU）指标，以评估两个边界框的重叠程度。上述指标设计用于单个输出，而不是分布。在存在多个假设的情况下，我们将上述指标应用于与真实值最接近的模式之间（称为Oracle[36,30]）。NLL。为了评估多模态分布的准确性，我们根据估计的分布计算了地面真实样本的负对数似然。04.3.训练细节0我们在这项工作的所有部分中都使用了ResNet-50[23]作为采样网络。拟合网络由两个全连接层（每个层有500个节点）组成，中间有一个dropout层（rate =0.2）。在FLN中，我们观察到δt =1秒，并预测未来3秒的∆t。对于EPN，我们只观察到一个帧，并预测未来1秒的∆t。对于所有采样网络，我们使用N =20，FLN和EPN的混合成分数量分别为K = 4和K =8。与未来定位任务相比，出现预测任务需要更多的模式，因为该任务的分布通常具有更多的模式。04.4.基线0由于迄今为止只有一项关于自我中心多模态未来预测的工作[7]，我们还将其与已经更加成熟的单模态基线进行比较。卡尔曼滤波器[26]。这种线性滤波器通常用于通过一组（低维）观测来估计动态过程的未来状态。由于它只考虑过去的轨迹并忽略所有其他信息，因此不被认为具有竞争力。DTP[49]。DTP是一种基于光流获得的运动特征的行人动态轨迹预测器。我们使用了他们最佳的框架，该框架预测与恒定速度解的差异。STED[48]。STED是一种空间-时间编码器-解码器，通过光流建模视觉特征，并通过过去的边界框通过GRU进行时间特征建模。0编码器。然后，它将编码器融合到另一个GRU解码器中，以获得未来的边界框。RNN-ED-XOE[63]。RNN-ED-XOE是一种基于RNN的编码器-解码器框架，类似于STED，模拟了时间和视觉特征。RNN-ED-XOE还在融合所有信息到GRU解码器之前对未来自运动进行编码，以获得未来边界框。FLN-Bayesianusing[7]。Bhattacharyya等人的工作[7]是文献中关于自我中心场景的唯一一项多模态未来预测工作。它使用贝叶斯优化来估计多个未来假设及其不确定性。由于他们使用了不同的网络架构和数据模态，因此我们将他们的贝叶斯优化引入我们的框架中进行公平比较，而不是直接进行方法比较。我们重新训练了我们的FLN，以按照他们的目标通过在训练和测试时进行dropout来创建样本，作为EWTA假设的替代。我们使用了与我们标准方法相同数量的样本N =20。所有这些基线都预测行人[49,48,7]或车辆[63]的未来轨迹。因此，我们在nuScenes[9]上对它们进行了重新训练，以处理行人和车辆类别。此外，一些基线利用了从ORB-SLAM2[40]获得的未来自运动或由其框架预测的未来自运动，如[7]中所示。为了公平比较，我们在重新训练和测试他们的模型时使用了nuScenes数据集中的自运动，从而消除了不同自运动估计方法的影响。FLN w/oreachability。为了衡量可达性先验的影响，我们运行了没有RPN和RTN的版本的框架。FLN +reachability。我们的完整框架，包括所有3个网络：RPN，RTN，FLN。由于迄今为止还没有可比的关于出现预测任务的工作，因此我们对出现预测进行了消融研究，以分析所提出的可达性先验对预测准确性的影响。04.5. 自我中心未来定位0表1显示了我们提出的框架与上述所有基线的定量评估。为了区分可以通过简单外推解决的测试用例和更困难的用例，我们使用卡尔曼滤波器[26]的性能；参见[63]。如果卡尔曼滤波器[26]的位移误差大于平均值，则将测试样本视为具有挑战性。超过平均值两倍的误差被标记为非常具有挑战性。在表1中，我们仅显示整个测试集（全部）和非常具有挑战性的子集（困难）的误差。更详细的结果请参见补充材料。如预期的，深度学习方法在所有指标上都优于卡尔曼滤波器的外推。我们的框架的两个变体在所有指标上都显示出显著的改进FLN + RPN12.82/ 32.680.55/0.3317.90/24.1710.35/ 27.150.58/0.3716.63/22.9515.41/ 32.140.54/0.3919.08/24.7343600nuScenes [9]（全部11k / 困难1.4k）Waymo [50]（全部47.2k / 困难7.1k）FIT（全部1.4k / 困难223）0FDE ↓ IOU ↑ NLL ↓ FDE ↓ IOU ↑ NLL ↓ FDE ↓ IOU ↑ NLL ↓0Kalman [26] 45.02 / 179.92 0.31 / 0.01 − 31.69 / 124.71 0.39 / 0.02 − 38.33 / 146.50 0.36 / 0.03 −0DTP [49] 35.88 / 111.49 0.34 / 0.05 − 28.31 / 82.64 0.38 / 0.10 − 34.99 / 118.36 0.37 / 0.09 −0RNN-ED-XOE [63] 30.47 / 78.54 0.34 / 0.13 − 25.23 / 59.23 0.36 / 0.18 − 35.74 / 88.58 0.36 / 0.17 −0STED [48] 27.71 / 82.71 0.39 / 0.13 − 20.73 / 58.14 0.42 / 0.20 − 31.80 / 86.58 0.35 / 0.16 −0FLN-Bayesian使用[7] 28.51 / 82.23 0.37 / 0.13 19.75 / 28.44 23.75 / 64.67 0.38 / 0.17 18.80 / 27.54 32.64 / 87.63 0.38 / 0.16 20.56 / 28.830FLN w/o RPN 15.91 / 47.15 0.54 / 0.29 19.46 / 26.85 13.20 / 36.57 0.54 / 0.34 18.84 / 26.19 18.12 / 47.92 0.53 / 0.33 20.38 / 27.880表1. nuScenes [9]、Waymo[50]和我们的FIT数据集的未来定位结果。底部三种方法预测多模态分布。其他方法不具有概率性，无法评估NLL。对于每个单元格，我们报告所有测试场景/非常具有挑战性场景的平均值。每个数据集的所有/非常具有挑战性场景的数量用括号表示（顶部）。0FDE和IOU指标的基线。当我们使用FDE或IOU时，我们使用假设的神谕选择（即，与真实值最接近的边界框）。因此，多模态方法优于单模态方法。尽管如此，如此显著的改进表明需要多模态性。为了评估不受神谕选择引入的偏差，我们还报告了负对数似然（NLL）。所提出的框架的两个变体在包括NLL在内的所有指标上都优于贝叶斯框架。事实上，贝叶斯基线与最佳单模态基线非常接近。这表明其对模式坍缩的倾向，我们也从定性上看到了这一点。可达性先验的使用在所有指标和所有难度上都是有优势的。由于网络（我们的网络和所有基线）是在nuScenes上进行训练的，因此Waymo和FIT的结果包括对未见数据集的零射击转移。我们获得了与nuScenes测试集相同的未见数据集排名。这表明对数据集的过度拟合对于这个任务来说不是一个问题。我们建议在未来的工作中也进行跨数据集的实验（正如我们所展示的），以确保这一点保持不变，并且数字上的未来改进确实是由于更好的模型而不仅仅是过度拟合。图5展示了四个具有挑战性的场景中的一些定性示例，其中未来位置有多个选择。（1）行人开始穿过街道，由于不同的速度估计，他的未来是不确定的。（2）行人从左边进入场景，要么继续走过马路，要么停在红绿灯处。（3）从停车区域驶来的三轮车要么继续驶过马路，要么停下来让我们的车辆让路。（4）从左边进入场景的汽车要么减速让行，要么加速超车。对于所有场景，我们观察到可达性先验（显示为一组彩色边界框）定义了感兴趣对象与场景的静态元素之间的一般关系。与我们的定量评估的观察类似，贝叶斯基线预测了一个具有一定不确定性的未来（单模态分布）。我们的框架在不利用可达性先验的情况下（FLN w/oRPN）倾向于预测更多样化的未来0EPN无RPN 21.48 0.18 22.990EPN + RPN 15.89 0.19 21.030表2. nuScenes数据集上出现预测任务的定量结果[9]0但仍然无法预测许多模式。可达性先验有助于该方法覆盖更多可能的未来位置。我们强烈推荐观看补充视频，该视频对结果进行了更详细的定性印象，使观察者能够对情况有更好的感知，而不仅仅是论文中的静态图片。04.6. 自我中心出现预测0表2显示了在预测场景中物体出现任务中使用可达性先验的重要性的消融研究。与未来定位类似，利用可达性先验可以获得更高的准确性并捕捉到更多的模式。图6展示了该任务的两个定性示例。示例包括(1)车辆可能从左侧街道出现，可能经过或可能相向而行；(2)汽车可能从左侧、右侧出现，可能经过或可能相向而行。EPN不仅学习图像中的位置，还学习有意义的尺度。例如，预测经过的汽车具有比预期相向而行的汽车更大的尺度。两个示例的分布不同，因为第二个示例中预期有更多的出现车辆的模式(例如，从右侧出现)。值得注意的是，可达性先验解决方案与出现解决方案不同，前方紧挨着自车的车辆是可达性先验解决方案的一部分，但被排除在外，因为车辆不能突然出现在那里。补充材料中提供了更多结果。05. 结论0在这项工作中，我们介绍了一种在自我中心视图中预测交通对象未来位置的方法，而无需436143620参考文献0[1] Sandra Aigner和MarcoKrner。Futuregan:使用渐进式增长的生成对抗网络中的时空3D卷积来预测视频序列的未来帧。arXiv预印本arXiv:1810.01325，2018年。[2] A. Alahi，K. Goel，V. Ramanathan，A. Robicquet，L.Fei-Fei和S. Savarese。Sociallstm:在拥挤空间中预测人类轨迹。在CVPR，2016年。[3] JavadAmirian，Jean-Bernard Hayet和Julien Pettre。Socialways:使用生成对抗网络学习行人轨迹的多模态分布。在CVPRWorkshops，2019年。[4] Federico Bartoli，GiuseppeLisanti，Lamberto Ballan和Alberto DelBimbo。上下文感知轨迹预测。arXiv预印本arXiv:1705.02503，2017年。[5] Lorenzo Berlincioni，Federico Becattini，LeonardoGalteri，Lorenzo Seidenari和Alberto DelBimbo。通过生成对抗性修复来理解语义道路布局。arXiv预印本arXiv:1805.11746，2018年。[6] Apratim Bhattacharyya，MarioFritz和BerntSchiele。基于重要性采样的贝叶斯预测未来街景。arXiv预印本arXiv:1806.06939，2018年。[7] A. Bhattacharyya，M. Fritz和B.Schiele。在不确定性下长期预测交通场景中的人。在CVPR，2018年6月。[8] Apratim Bhattacharyya，Mario Fritz和BerntSchiele。使用合成似然的贝叶斯预测未来街景。在ICLR，2019年。[9] Holger Caesar，Varun Bankiti，Alex H. Lang，SourabhVora，Venice Erin Liong，Qiang Xu，Anush Krishnan，YuPan，Giancarlo Baldan和OscarBeijbom。nuscenes:用于自动驾驶的多模态数据集。arXiv预印本arXiv:1903.11027，2019年。[10] Rohan Chandra，UttaranBhattacharya，Aniket Bera和DineshManocha。Traphic:使用加权交互作用在密集和异构交通中预测轨迹。在CVPR，2019年6月。[11] Liang-Chieh Chen，YukunZhu，George Papandreou，Florian Schroff和HartwigAdam。具有扩张可分离卷积的编码器-解码器用于语义图像分割。在ECCV，2018年。[12] Chiho Choi和BehzadDariush。为了未来轨迹预测而寻找关系。在ICCV，2019年。[13]Chiho Choi，Abhishek Patil和SrikanthMalla。Drogon:用于未来轨迹预测的因果推理框架。arXiv预印本arXiv:1908.00024，2019年。[14] Henggang Cui，ThiNguyen，Fang-Chieh Chou，Tsung-Han Lin，JeffSchneider，David Bradley和NemanjaDjuric。用于物理现实预测车辆轨迹的深度运动模型。arXiv预印本arXiv:1908.00219，2019年。[15] Henggang Cui，VladanRadosavljevic，Fang-Chieh Chou，Tsung-Han Lin，ThiNguyen，Tzu-Kuo Huang，Jeff Schneider和NemanjaDjuric。使用深度卷积网络的自动驾驶多模态轨迹预测。arXiv预印本arXiv:1809.10732，2018年。0[16] N. Deo, A. Rangesh, and M. M. Trivedi.周围车辆如何移动？一种用于机动分类和运动预测的统一框架。T-IV，2018年6月。[17] Nemanja Djuric，VladanRadosavljevic，Henggang Cui，Thi Nguyen，Fang-ChiehChou，Tsung-Han Lin和Jeff Schnei-der。使用深度卷积网络进行自动驾驶的短期运动预测。arXiv预印本arXiv:1808.05819，2018年。[18] J. Engel，V. Koltun和D.Cremers。直接稀疏测距。在arXiv:1607.02565，2016年。[19]Chenyou Fan，Jangwon Lee和Michael S.Ryoo。预测未来帧中的手和物体。在ECCV，2018年9月。[20] D.Gonzlez，J. Prez，V. Milans和F.Nashashibi。自动驾驶车辆的运动规划技术综述。T-ITS，2016年4月。[21] Agrim Gupta，Justin Johnson，Li Fei-Fei，SilvioSavarese和Alexandre Alahi。Socialgan：使用生成对抗网络的社交可接受轨迹。在CVPR，2018年。[22] K. He，G. Gkioxari，P. Dollr和R. Girshick。Maskr-cnn。在ICCV，页码2980-2988，2017年10月。[23] KaimingHe，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在CVPR，2016年6月。[24]Yeping Hu，Wei Zhan和MasayoshiTomizuka。车辆语义意图和运动的概率预测。arXiv预印本arXiv:1804.03629，2018年。[25] Xiaojie Jin，Huaxin Xiao，XiaohuiShen，Jimei Yang，Zhe Lin，Yunpeng Chen，ZequnJie，Jiashi Feng和ShuichengYan。预测未来的场景解析和运动动力学。在NIPS，页码6915-6924，2017年。[26] R. E.Kalman。线性滤波和预测问题的新方法。ASME Journal of BasicEngineering，1960年。[27] Vineet Kosaraju，AmirSadeghian，Roberto Martn-Martn，Ian Reid，S. HamidRezato�ghi和Silvio Savarese。Social-bigat：使用自行车生成对抗网络和图注意力网络的多模态轨迹预测。arXiv预印本arXiv:1907.03395，2019年。[28] Yong-HoonKwon和Min-GyuPark。使用回顾循环gan预测未来帧。在CVPR，2019年6月。[29]Donghoon Lee，Sifei Liu，Jinwei Gu，Ming-Yu Liu，Ming-Hsuan Yang和JanKautz。上下文感知的对象实例合成和放置。在NIPS，2018年。[30] Namhoon Lee，Wongun Choi，Paul Vernaza，ChristopherB Choy，Philip HS Torr和ManmohanChandraker。Desire：与交互代理在动态场景中的远期预测。在CVPR，页码336-345，2017年。[31] YukeLi。你要去哪里？在动态场景中的路径预测中的模仿决策学习。在CVPR，2019年6月。[32] Yijun Li，Chen Fang，JimeiYang，Zhaowen Wang，Xin Lu和Ming-HsuanYang。从静态图像预测基于流的时空视频。在ECCV，2018年。[33] Pauline Luc，Camille Couprie，Yann Lecun和JakobVerbeek。通过预测卷积特征来预测未来实例分割。arXiv预印本arXiv:1803.11496，2018年。43630[34] Pauline Luc，Natalia Neverova，Camille Couprie，JakobVer- beek和YannLeCun。预测语义分割的未来更深入。在ICCV，2017年。[35]Yuexin Ma，Xinge Zhu，Sibo Zhang，Ruigang Yang，Wen-ping Wang和DineshManocha。Traf�cpredict：异构交通代理的轨迹预测。在AAAI，页码6120-6127，2019年。[36] Osama Makansi，EddyIlg，Ozgun Cicek和ThomasBrox。克服混合密度网络的局限性：一种用于多模态未来预测的采样和拟合框架。在CVPR，2019年6月。[37] SrikanthMalla和ChihoChoi。Nemo：使用嘈杂的自我先验进行未来物体定位。arXiv预印本arXiv:1909.08150，2019年。[38] Huynh Manh和GitaAlaghband。Scene-lstm：人类轨迹预测模型。arXiv预印本arXiv:1808.04018，2018年。[39] P. McCullagh和J.A.Nelder。广义线性模型，第二版。Chapman &Hall/CRC统计与应用概率专著。Taylor & Francis，1989年。[40]R. Mur-Artal和J. D.Tards。Orb-slam2：用于单目，立体和rgb-d相机的开源slam系统。IEEE Transactions on Robotics，2017年。[41] GerhardNeuhold，Tobias Ollmann，Samuel Rota Bul'o和PeterKontschieder。用于街景语义理解的MapillaryVistas数据集。在ICCV，2017年。[42] A.O'Hagan。曲线拟合和预测的最优设计。Journal of the RoyalStatistical Society: Series B (Method-ological)，40(1)：1-24，1978年。[43] Carl EdwardRasmussen和Christopher K. I.Williams。机器学习的高斯过程（自适应计算和机器学习）。MIT出版社，2005年。[44] Nicholas Rhinehart，RowanMcAllister，Kris Kitani和SergeyLevine。Precog：在视觉多代理环境中以目标为条件的预测。在ICCV，2019年。[45] Amir Sadeghian，Vineet Kosaraju，AliSadeghian，Noriaki Hirose，Hamid Rezato�ghi和SilvioSavarese。Sophie：一种关注社交和物理约束的路径预测gan。在CVPR，2019年。[46] Amir Sadeghian，FerdinandLegros，Maxime Voisin，Ricky Vesel，Alexandre Alahi和SilvioSavarese。Car-net：清晰的关注循环网络。在ECCV，2018年。[47] Shashank Srikanth，Junaid Ahmed Ansari，Karnik RamR，Sarthak Sharma，Krishna Murthy J.和Madhava Krishna K.Infer：未来预测的中间表示。arXiv预印本arXiv:1903.10641，2019年。[48] Olly Styles，Tanaya Guha和VictorSanchez。多目标预测：预测不同环境中未来物体的位置。arXiv预印本arXiv:1909.11944，2019年。[49] O. Styles，A. Ross和V.Sanchez。使用机器注释的训练数据预测行人轨迹。在IV，2019年6月。[50] Pei Sun，Henrik Kretzschmar，XerxesDotiwalla，Aurelien Chouard，Vijaysai Patnaik，PaulTsui，James Guo，Yin Zhou，Yuning Chai，BenjaminCaine，Vijay Vasudevan，Wei Han，Jiquan Ngiam，HangZhao，Aleksei Timofeev，Scott Et- tinger，MaximKrivokon，Amy Gao，Aditya Joshi，Yu Zhang，0Jonathon Shlens, Zhifeng Chen, and Dragomir Anguelov.自动驾驶感知的可扩展性：Waymo开放数据集，2019年。[51]Ruben Villegas, Jimei Yang, Seunghoon Hong, Xunyu Lin, andHonglak Lee.分解运动和内容以进行自然视频序列预测。在ICLR，2017年。[52]Ruben Villegas, Jimei Yang, Yuliang Zou, Sungryull Sohn,Xunyu Lin, and Honglak Lee.通过分层预测学习生成长期未来。在ICML，2017年。[53] CarlVondrick, Hamed Pirsiavash, and Antonio Torralba.从无标签视频中预测视觉表示。在CVPR，页码98-106，2016年。[54] Suhani Vora, Reza Mahjourian, Soeren Pirk, and AneliaAngelova.使用3D结构进行未来分割。arXiv预印本arXiv:1811.11358，2018年。[55] J. Walker, A. Gupta, and M. Hebert.未来的补丁：无监督的视觉预测。在CVPR，2014年。[56] J. M.Wang, D. J. Fleet, and A. Hertzmann.用于人体运动的高斯过程动力学模型。TPAMI，30(2)：283-298，2008年。[57] C. K. I. Williams.用高斯过程进行预测：从线性回归到线性预测以及更多。在图形模型中的学习和推理，页码599-621。Kluwer，1997年。[58]Nicolai Wojke, Alex Bewley, and Dietrich Paulus.使用深度关联度量的简单在线实时跟踪。arXiv预印本arXiv:1703.07402，2017年。[59] Y. Xu, Z. Piao, and S. Gao.使用深度神经网络对人群互动进行编码，用于行人轨迹预测。在CVPR，页码5275-5284，2018年。[60] H. Xue, D. Q. Huynh, andM. Reynolds.SS-LSTM：一种用于行人轨迹预测的分层LSTM模型。在WACV，2018年。[61] Tianfan Xue, Jiajun Wu, Katherine Bouman, andBill Freeman.视觉动力学：通过交叉卷积网络进行概率未来帧合成。在NIPS，页码91-99，2016年。[62] T. Yagi, K. Mangalam, R. Yonetani, andY. Sato.第一人称视频中的未来人物定位。在CVPR，2018年6月。[63] Y.Yao, M. Xu, C. Choi, D. J. Crandall, E. M. Atkins, and B. Dariush.基于自我中心视觉的智能驾驶辅助系统的未来车辆定位。在ICRA，2019年5月。[64] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen,Xin Lu, and Thomas S. Huang.具有上下文注意力的生成图像修复。在CVPR，2018年6月。[65]Pu Zhang, Wanli Ouyang, Pengfei Zhang, Jianru Xue, andNanning Zheng.SR-LSTM：用于行人轨迹预测的状态细化LSTM。在CVPR，2019年。[66] Tianyang Zhao, Yifei Xu, Mathew Monfort, WongunChoi, Chris Baker, Yibiao Zhao, Yizhou Wang, and Ying NianWu.上下文轨迹预测的多智能体张量融合。在CVPR，2019年6月。

下载后可阅读完整内容，剩余1页未读，立即下载