没有合适的资源?快使用搜索试试~ 我知道了~
预测多模态期货的方法及其在未来预测中的局限性
7144克服混合密度网络的局限性:多模态期货预测OsamaMakansi,EddyIlg,OüzguünCic ek和ThomasBrox弗莱堡大学makansio,ilge,cicek,brox@cs.uni-freiburg.de摘要预测未来是智能的一个基本原则,有助于计划行动和避免可能的危险。由于未来在很大程度上是不确定的,因此对未来状态的不确定性和多模态性进行建模具有重要意义。现有的方法在这方面是相当有限的在这项工作中,我们提出了一种方法,涉及预测的几个样本的未来与赢家通吃的损失和迭代分组的样本到多个模式。此外,我们讨论了如何评估预测的多峰分布,包括常见的真实情况下,只有一个单一的样本从地面真理分布可用于评估。我们的合成和真实数据表明,所提出的方法触发良好的估计多峰分布,避免模式崩溃。1. 介绍未来预测的核心是根据环境的过去状态来估计环境环境的动力系统越自由落体中的球的未来轨迹几乎完全由确定性物理定律描述,并且可以通过物理公式预测如果球撞到墙上,则会引入额外的依赖性在这种受限的物理实验之外,未来的状态通常是不确定的。考虑图1中的自行车交通场景。每个骑自行车的人都有一个要去哪里的目标另一方面,环境限制骑自行车的人留在车道上,并遵守(大多数)某些交通规则。另外,关于骑自行车的人在过去这一轮中如何移动的统计图1:给定过去的图像,对象的过去位置(红框)以及来自训练数据的经验,该方法预测该对象未来状态的多模态分布(通过叠加的热图可视化)。骑自行车的人最有可能直行(1),但也可以继续在环形交叉路口(2)或右转(3)。关于和潜在的微妙线索,如自行车的方向和速度,可以表明骑自行车的人更有可能去哪里。良好的未来预测必须能够对非确定性系统的多模态和不确定性进行建模,同时考虑所有可用的一致性信息,以使预测的差异远离无信息的均匀分布。现有的未来预测工作大多局限于预测一个单一的未来状态,这往往对应于所有可能结果的平均值[42,57,39,12,10]。在最好的情况下,这种系统预测所有可能的未来状态中最有可能的状态,忽略其他可能性。只要环境保持近似确定性,后者就是一个可行的解决方案。然而,它无法在非确定性环境中模拟其他可能性,从而阻止参与者考虑B计划。Rupprecht等人[44]通过预测具有赢者通吃(WTA)损失的各种假设[ 16 ]来解决多模态,但没有分布和不确定性。条件变分自动编码器(cVAE)提供了一个7145方法对多个期货进行采样[56,4,24],但也不会产生完全分布。许多预测混合分布的工作将混合成分约束为固定的、预定义的动作或道路车道[26,18]。优化一般的,无约束的混合分布需要特殊的初始化和训练过程,并遭受模式崩溃;见[44,8,9,35,15,17]。他们的发现与我们的实验一致。在本文中,我们提出了一种通用的深度学习方法,该方法可以产生无约束的多峰分布作为输出,并展示了其在非确定性场景中用于未来预测的用途。特别是,我们提出了一个策略,以避免不一致的问题,赢家 通 吃 WTA 的 损 失 , 我 们 称 之 为 进 化 WTA(EWTA)。其次,我们提出了一个两阶段的网络架构,其中第一阶段是基于EWTA,和第二阶段适合分布的样本从第一阶段。该方法只需一次前向传递,简单有效.在本文中,我们将这种方法应用于未来的预测,但它适用于混合密度估计一般。为了评估预测的多峰分布,需要地面实况分布。为此,我们介绍了合成的汽车行人交互(CPI)数据集,并使用地球移动器的距离在此数据集上评估各种算法。此外,我们评估真实数据,斯坦福无人机数据集(SDD),其中地面真实分布不可用,评估必须基于真实分布的单个地面真实样本。我们表明,所提出的方法优于所有基线。特别是,它可以防止模式崩溃,并导致更多样化和更准确的分布比以前的工作。2. 相关工作经典的未来预测 未来的预测可以追溯到卡尔曼滤波器[23]、线性回归[34]、自回归模型[53,1,2]、时间序列的频域分析[37]和高斯过程[36,55,40,32]。这些方法是可行的基线,但有高维数据和非确定性的问题。用CNN预测未来 深度学习的可能性已经引起了人们对未来预测的越来越大的兴趣,其中包括来自各种应用的例子:行动来自动态图像的预测[42]、来自单个图像的视觉路径预测[19]、未来语义分割[31]、未来人定位[57]和未来帧预测[28,52,33]。Jin等人[22]利用学习到的运动特征来预测未来的场景解析。Fan等人[13] Luc et al.[30]学习特征到特征的转换,以预测未来的特征。为了利用未来预测中固有的时间依赖性,许多作品使用RNN和LSTM [58,48,50,54,49]。Liu et al. [29]and Rybkin et al.[45]通过自动编码器从视频中的两个连续图像公式化翻译以推断下一帧。Jayaraman等人[21]使用VAE来预测与时间无关的未来帧。由于未来预测的不确定性,许多工作的目标预测的不确定性与预测。Djuric等人[10]预测了交通参与者的单一未来行为及其不确定性,作为预测的学习方差。Radwan等人[39]预测交互行为者的单一轨迹及其不确定性,以实现自主过街的目的。Ehrhardt等人[12]预测物体的未来位置及其非参数不确定性地图,理论上不限于单一模式。然而,它的使用和评估是为了一个单一的未来结果。尽管未来状态具有内在的模糊性和多模态性,但上述所有方法都只能预测一个未来。使用CNN进行多模态预测。一些作品提出了从CNN获得多个解决方案的方法。Guzman-Rivera等人[16]引入 了 具 有 多 个 假 设 作 为 输 出 的 SSVM 的 赢 家 通 吃(WTA)损失。这种损失被应用于CNN的图像分类[25],语义分割[25],图像标题[25]和合成[6]。Firman等人[14]在存在多个地面真实样本的情况下使用假设的多样性也促使Ilg等人。[20]使用WTA损失进行光流的不确定性估计。另一种选择是从网络中估计完整的混合分布,如Bishop的混合密度网络(MDN)[5]。Prokudin等人[38]使用具有von Mises分布的MDN进行姿态估计。Choi等人[7]通过使用混合成分作为dropout的替代样本,将MDN用于自动驾驶中的不确定性[47]。然而,优化一般混合物分布会带来一些问题,例如数值不稳定,需要良好的初始化,以及崩溃到单一模式[44,8,9,35,15,17]。在这项工作中提出的WTA损失和两个阶段的方法解决了这些问题。上述技术中的一些被用于未来的预测。Vondric等人[51]通过编码器-解码器架构学习了物体和人类可能的动作数量以及可能的结果。预测未来状态的分布也接近条件变分自编码器(cVAE)。Xue等人[56]利用cVAE来估计未来帧合成中使用的多个光流。Lee等人。[24]建立在cVAE的基础上,预测相互作用剂的多种长期未来。Li等人[27]提出了用于运动编码的3DcVAEBhat-tacharyya等人[4]将基于脱落的贝叶斯推理集成到cVAE中。7146完全连接与我们最相关的工作是Rupprecht等人的[44],他们提出了一个宽松版本的WTA(RWTA)。他们表明,最大限度地减少RWTA损失能够捕捉到接近交叉路口的汽车的可能未来,即,直走,左转,右转。巴塔查里亚等[3]在一个我法师BoundigBoxes未来对象位置混合分布LSTM网络用于未来位置预测。尽管这些作品捕捉了未来的位置,但并没有提供(a) 从编码器直接输出混合分布参数在可能的位置上的整个分布。很少有方法预测混合分布,但仅在受约束的设置中,其中模式的数量是固定的,并且根据特定的应用场景手动绑定模式。Leung等[26]提出了一个经常性的MDN来预测可能的驾驶行为,我法师BoundigBoxes假设软包装未来对象位置混合分布高速公路上的人类驾驶行为。Hu et al.[18]使用MDN来估计自动驾驶场景中汽车处于另一个自由空间的概率。在我们的工作中,既不需要先验地知道模式的确切数量(仅提供上限),也不假设特殊的问题结构,例如驾驶场景中的驾驶车道。现有的作品的另一个缺点是,没有评价的多模态的质量提出以外的性能在给定的驾驶任务。3. 多模式未来预测框架图2b显示了该方法的概念概述。 网络的输入是过去的图像和感兴趣对象的对象边界框x=( It-h,...,It,Bt−h,.,Bt),其中h是历史到过去的长度,并且边界框Bi被提供为(b) 我们提出的两阶段方法(EWTAD-ESTA)。第一阶段生成用EWTA损失训练的假设,第二部分通过预测假设到混合成分的软分配来拟合混合分布。图2:正常MDN方法(a)和我们提出的扩展(b)的说明。与非参数模型相比,度量模型导致更好的结果。3.1. MDN基线如图2a中的混合密度网络(MDN)将分布建模为参数分布的混合:ΣMp(y|x)=πiφ(y|θi),(1)i=1遮罩图像,其中框内的像素为1,其他像素为0。给定x,目标是预测多峰分布p(y|x)在未来的固定时刻t+tt处的注释对象的位置y。训练数据是一组图像,对象掩模和模糊。其中M是混合成分的数量,φ可以是具有参数θi的任何类型的参数分布,πi是相应成分的权重。在这项工作中,我们使用拉普拉斯和高斯分布,因此,在这种情况下,高斯,θi=(μi,σ2),其中μi=(μi,x,μi,y)是-2i 22真实地面实况位置:D={(x1,y1 ),...,(xN,y<$N)},其中N是数据集中的样本数。注意这不提供p(y)的地面实况条件分布|xi),但是仅来自该分布的单个样本yi。为了具有分布的多个样本,数据集必须包含具有完全相同的输入xi的多个样本,这对于高维输入是非常不可能的。该框架更倾向于从具有不同输入条件的样本中进行概括。这使得它成为一个有趣且具有挑战性的学习问题,它本质上是自我监督的一般来说,p(y|x)可以通过参数或非参数分布来建模。非参数分布可以通过未来可能的直方图来建模位置,其中每个bin对应于一个像素。参数模型可以基于混合密度,诸如高斯的混合在第6节中,我们表明,para-平均值,σi=(σi,x,σi,y)为每个值混合组分我们将x和y分量视为独立分量,悬垂,即φ(x,y)=φ(x)·φ(y),因为这通常更容易优化。任意分布仍然可以通过使用多个混合成分来近似[5]。参数(πi,µi,σi)都是网络的输出,并取决于输入数据x(为简洁起见省略)。当对混合组分使用拉普拉斯分布时,输出变为尺度参数bi而不是σi。为了训练网络,我们最小化负对数似然(NLL)(1)[5,38,26,7,18]。在MDN中联合优化所有参数是困难的,在更高的维度中变得数值不稳定,并且遭受退化预测[44,8]。此外,MDN通常易于过拟合,这需要特殊的正则化技术并导致模式崩溃[9,15,35,17]。我们使用类似的方法[17]CNNCNN......7147并顺序地首先学习均值,然后学习方差,最后联合学习所有参数。即使应用这些技术有助于训练MDN,第6.4节中的实验表明MDN仍然遭受模式崩溃。3.2. 抽样和分布拟合框架由于MDN的直接优化是困难的,我们建议将问题分成子任务:采样与离散;参见图2b。第一阶段实现采样。受WTA损失[16,25,6,44]获得的假设多样性的启发,我们提出了这种损失的改进版本,然后使用它来获得这些样本,我们将继续将其称为假设,以将它们与训练数据D的样本区分开来。给定这些假设,人们通常会继续使用EM算法来拟合混合分布。受[59]的启发,我们宁愿应用第二个网络来执行分布拟合;参见图2b。这产生了更快的运行时间和微调整个网络端到端的能力。与EM算法相比,这相当于一个完美的k-means聚类。然而,在实践中,已知k均值依赖于初始化。此外,在我们的例子中,一次只更新一个假设(与迭代k-means相当),输入条件x不断交替,并且我们在循环中有一个CNN。这使得训练过程非常脆弱,如图3a所示。这里的红点表示基本事实,每次迭代地呈现一个,每次都在其中一个假设(黑叉)上放置一个损失,从而提取它们。 当基本事实不确定时,假设可能会陷入均衡(即,假设被多个基本事实所吸引)。在WTA的情况下,一个地面真值最多与一个假设配对,但一个假设可以与多个地面真值配对。在来自图3a的示例中,这导致一个假设与地面真值3配对,并且一个假设与地面真值1和2两者配对。这最终导致了一个非常糟糕的分布。详情请参见图3的标题。因此,Rupprecht et al.[44]放松了(5)中的argmin运算符,并向所有wi(RWT A)添加了一个小常数εd,而仍然确保iwi= 1。 放松的效果是3.2.1取样-EWTA让hk是我们的网络预测的假设。我们研究了两个版本。首先,我们将每个假设建模为点估计hk=µk,并使用欧氏距离作为损失函数:lED(hk,yk)=||hk−y||.(二)在第二个版本中,我们将hk=(µk,σk)建模为单峰分布,并使用NLL作为损失函数[20]:lNL L(hk,y)=−lo g(φ(y|(hk))。(三)为了获得不同的假设,我们应用WTA Meta损失[16,25,6,44,20]:ΣK如图3b所示。与WTA相比,更多的假设来与事实配对。然而,每个基础事实也与最多一个假设配对,并且所有多余的假设都移动到均衡。因此,RWTA解决了WTA的收敛问题,但仍然会导致假设产生一个人工的,不正确的模式。由此产生的分布也非常糟糕地反映了地面真实样本。我们在第6节中的实验证实了这一效应。因此,我们提出了另一种策略,我们称之为进化WTA(EWTA)。在这个版本中,我们更新了前k名的获奖者。参考(5),这意味着k个权重为1,而M-k个权重为0。我们从k=M开始,然后减少k,直到k= 1。每当k减少时,先前绑定到地面真值的假设有效地从均衡中释放出来,并且可以自由地与地面真值配对。该过程在图3c中示出。EWTALWTA=k=1wkl(hk,yk),(4)提供了另一种放松方式,残余部队仍然存在。 虽然这仍然不能保证wi=δ(i=argmin||k−y||),(5)K其中K是估计的假设的数量,δ(·)是克罗内克增量,当条件为真时返回1,否则返回0 在[20]之后,我们总是基于欧几里德距离选择获胜者;见(5)。我们将l=1ED的WTA损失表示为WTAP(其中P代表点估计),将l=1NLL的WTA损失表示为WTAP(其中D代表分布估计)。Rupprecht等人[44]表明,给定一个固定的输入和多个模糊的地面实况输出,WTA损失理想地导致地面实况的Voronoi镶嵌在奇数情况下,假设留在均衡中,这导致比WTA和RWTA中少得多的未使用的假设在添加第二阶段和对我们的管道进行最终端到端微调之后,稍后将删除由此产生的杂散模式。3.2.2配件-配件在网络的第二阶段,我们将混合分布拟合到估计的假设(我们称此阶段为混合密度拟合(Mixture DensityFitting,简称MDMFitting);参见图2b)。类似于Zonget7148KK(a) WTA(b)RWTA(c)EWTA图3:生成具有WTA损失的不同变体的假设的说明性示例。采样网络生成了八个假设(十字),目的是覆盖三个真实样本(编号的红圈)。在训练期间,在每次迭代中,只有一些地面真实样本在小批量中。对于每一个,WTA损失选择最接近的假设,并且梯度引起吸引力(由箭头指示)。我们还展示了将Parzen估计量应用于最终假设集所产生的分布(a)在WTA变体中,每个地面真实样本选择一个获胜者,导致一个假设与样本3配对,一个假设在样本1和2之间的平衡中,其余的永远不会更新(不一致的假设)。所得到的分布与地面真实样本不匹配。(b)在放松的WTA损失下,所有样本(细箭头)都会轻微地吸引非获胜假设,使它们缓慢地移动到平衡状态。这增加了单个假设与样本配对的机会。所得到的分布在地面真实位置处包含一些概率质量,但在中心具有大的伪模式。(c)随着提议的WTA损失的演变,所有假设首先与所有地面真实样本匹配,将所有假设移动到均衡(前8名)。然后,每个地面真相释放4个假设,并只拉4个赢家,导致2个假设分别与样本1和3配对,2个假设分别移动到样本1/2和2/3之间的平衡(前4个)。该过程继续,直到每个样本仅选择一个获胜者(前1)。所得到的分布具有三种模式,很好地反映了地面真实样本位置。只有小的寄生模式引入。al. [59],我们估计每个假设对混合成分的软分配γk= softmax(zk),(6)其中k= l.. K和zk是每个假设k的M维输出向量。软分配产生混合参数如下[59]:在采样网络之后训练拟合网络。然而,由于EWTA并不确保假设遵循一个定义良好的分布一般,我们最终删除EWTA损失和微调整个网络端到端的NLL损失。4. 汽车行人交互数据集πi=1ΣKKk=1 γk,i,(7)对预测分布质量的详细评估需要具有地面真实分布的测试集。这种分布通常不适用于数据集。Es-ΣK特别是对于真实世界的数据集,真实的底层分布,µ=k=1k,i k,(8)iΣKk=1 γk,i没有,但只有一个样本,从该分布-报应 由于不存在未来预测数据集,ΣKΣΣγ(µ−µ)2+σ2与概率多模态地面真相,我们模拟σ2=k=1 k,iikk.(九)iΣKk=1 γk,i基于静态环境和相互交互的移动对象(汽车和行人)的数据集;请参见在等式9中,遵循总方差定律,我们添加σ2。这只适用于Wyndham。对于WTAPσ2= 0。最后,我们将来自等式(7)、(8)、(9)的估计参数插入到(1)中的NLL中。 首先,我们依次训练网络的两个阶段,即,我们图4.对象根据定义的策略移动,以确保真实的行为和多模态。 由于策略是已知的,因此我们可以在地面实况分布p(y)上进行评估|x)这个数据集。详情请参阅补充材料。71495. 评估指标Oracle错误。为了评估预测假设的多样性,我们报告了常用的Oracle错误。它是通过选择最接近地面实况的假设或模式来计算的。该度量使用地面实况从一组输出中选择最佳,因此它更喜欢产生许多不同输出的方法。不合理的产出不受惩罚。NLL。 负对数似然(NLL)测量地面真实样本与预测分布的拟合,并允许对真实数据进行评估,其中只有来自地面真实分布的单个样本可用。失踪当在整个数据集上平均在合成数据具有完全地面实况分布的情况下,我们从该分布中采样并对所有样本的NLL进行平均EMD 如果完整的地面实况分布是 可用于评估,我们报告了地球移动器作为分布之间的度量,它精确地惩罚预测分布和地面实况分布之间的所有差异。人们可以将其解释为移动一个分布的概率质量所需的能量,使得它与另一个分布相匹配,即它考虑了模式的大小和它们必须移动的距离。EMD的计算复杂度是O(N3logN)的一个N-bin直方图,在我们的情况下,每个像素是一个bin。因此,我们使用小波近似WEMD [46],其具有时间复杂度O(N)SEMD 为了使混合分布的多峰程度显式化,我们使用EMD来测量所有次级模式与主(MAP)模式之间的距离,即,EMD将多峰分布转换为单峰分布。我们将这种度量称为自EMD(SEMD).大的SEMD指示强的多峰性,而小的SEMD指示单峰性。SEMD仅作为除NLL之外的次要度量是可感知的。6. 实验6.1. 培训详细信息我们的采样阶段是Dosovitskiy等人的FlowNetS架构的编码器。[11]然后是两个额外的卷积层。拟合阶段由两个完全连接的层组成(详见补充材料)。我们选择第一阶段来产生K= 40个假设,并且混合成分为M=4。对于采样网络,我们使用EWTA并遵循序列-初步训练程序,即,我们在学习µis之后学习σis。我们一个接一个地训练采样和拟合网络。最后,我们去除EWTA损失并微调每个-东西端到端。单个MDN网络用与上述相同的训练过程切换到具有混合分布的NLL损失的实际训练由于CPI数据集是使用高斯分布生成的,因此在为CPI数据集训练模型时,我们使用高斯混合模型。对于SDD数据集,我们选择拉普拉斯混合而不是高斯混合,因为最小化其负对数似然对应于最小化L1距离[20],并且对离群值更具鲁棒性。6.2. 数据集CPI数据集。训练部分由20 k个随机样本组成,而对于测试,我们从策略中随机选取54个样本。对于未来的时间偏移,我们选择Δt= 20帧。我们首先在这个数据集上评估了我们的方法及其基线,因为它允许对分布进行SDD。我们使用斯坦福无人机数据集(SDD)[41]来验证我们在真实世界数据上的方法。SDD由在斯坦福大学校园拍摄的无人机图像组成,以调查人们在导航和互动时遵循的规则。它包括不同类别的交通因素。我们使用50/10的视频进行训练/测试。对于这个数据集,我们设置了t= 5秒。有关更多详细信息,请参阅补充材料。6.3. 假设预测在我们的两阶段框架中,拟合阶段取决于假设的质量。为此,我们从实验开始,比较假设生成(抽样)的技术:WTA,RWTA与EWTA,其中ε=0.05或者,可以使用dropout [47]来生成多个假设。因此,我们也与此基线进行比较。预测的假设可以被看作是等点概率质量,它们的密度导致分布。为了评估假设如何反映CPI数据集的真实分布,我们将假设视为Dirac分布的均匀混合物,并计算该Dirac混合物和真实分布之间表1中的结果表明,所提出的EWTA在EMD方面明显优于其他变体,表明来自EWTA的假设集合比来自RWTA和WTA的集合WTA和RWTA在oracle错误方面更好来自集合的最佳假设比EWTA中的最佳假设稍好地拟合。显然,WTA非常适合产生不同的假设,其中一个将是非常好的,但它不能产生代表真实分布样本的假设。这个问题是固定的提议不断发展的WTA.图4中的示例显示了该效果。该图还表明,dropout无法产生不同的假设,这导致了一个非常糟糕的预言错误。关于EMD7150GT图4:CPI数据集上的假设生成。数据集始终具有相同的环境,即一个交叉区域(红色矩形)和两个导航和交互的对象(行人和汽车)。在这种情况下,一个行人(黑色矩形)正走向交叉区域(由蓝色箭头指示),一辆汽车(粉红色矩形)正在进入交叉区域。左图显示了行人(黑点)和汽车(粉色点)未来位置(20帧后)的地面实况分布。根据即将获悉的政策,行人应在拐角处等待,直到汽车通过,汽车有三种选择退出十字路口。辍学预测非常相似的假设(模式崩溃),而WTA的所有变体确保多样性。我们不断发展的WTA产生的假设集也近似于地面实况分布。Oracle错误EMD辍学41岁803 .第三章。25WTA [44]6.963 .第三章。94[44]第四十四话7 .第一次会议。94二、82发展中的WTA(我们的)9 .第九条。841.89表1:CPI数据集上假设预测方法的比较。EWTA的总体假设分布与地面实况分布相匹配表2:CPI数据集的未来预测再-好得多,根据地球移动器(EMD)。Dropout的高预言误差表明假设之间缺乏多样性。比WTA好,但比拟议中的EWTA差得多图4显示,只有EWTA和dropout学习了汽车和行人之间的交互。WTA只为汽车提供一般选择(北,东,南和西),WTA和RWTA只提供行人在十字路口某处的一般选择EWTA和辍学者了解到,鉴于汽车正在进入十字路口,行人应该停下来然而,dropout未能估计汽车的未来。6.4. 混合密度估计我们评估了全网络的分布预测,并将其与包括标准混合密度网络(MDN)在内的几种预测基线进行了比较。有关基线实现的详细信息可以在补充材料中找到表2显示了合成CPI数据集的结果,其中完整的地面实况分布可用于评估。结果证实了多模态预测的重要性。虽然标准MDN的性能优于单模式预测,但它们经常受到模式预测的结果表明多峰性在预测模型中的重要性。经典的混合密度网络遭受频繁的模式崩溃,这使得他们不如所提出的方法的基础上EWTA。崩溃,即使它们是按顺序初始化与建议的EWTAP,然后EWTAP。所提出的两级网络避免了这种模式崩溃,明显优于所有其他方法。EWTAD-EWTAP和EWTAD-EWTAP之间的消融研究见附录。表3显示了真实世界斯坦福无人机数据集的相同比较。这里只有一个来自地面实况分布的样本。因此,我们只能计算NLL,而不能计算EMD。结果证实了我们从合成数据集获得的结论:多模态是重要的,所提出的两阶段网络优于标准MDN。SEMD作为一种多模态的措施,并表明,所提出的方法避免了固有的MDN模式崩溃的问题(注意,SEMD是只适用于参数多模态分布)。这也可以在图5所示的示例中观察到。在补充材料中,我们展示了更多定性示例,包括失效案例,并提供了一些设计选择的消融还提供了辍学WTA轻松的WTA发展中的WTA方法NLLEMD卡尔曼滤波二十五297 .第一次会议。03单点−3 .第三章。997151非参数MDN EWTAD-BACK图5:SDD上不同多模态概率方法的定性示例给定目标物体的三个过去位置(红框),任务是预测未来可能的位置。热图覆盖用于显示未来位置的预测分布,而地面实况位置用洋红色框指示所提出的方法的两种变体更好地捕捉多模态,而MDN和非参数方法揭示过拟合和模式崩溃。方法NLLSEMD卡尔曼滤波十三岁17-单峰分布9 .第九条。88-非参数9 .第九条。35-MDN9 .第九条。71二、36EWTAD-EWTAD-EWTAD-EWTAD-EWTAD-EWTAD-ours9.334.35表3:斯坦福无人机数据集的未来预测(K= 20,M=4)。两阶段的方法产生的最佳分布(NLL),并遭受较少的模式崩溃比MDN(SEMD)。来展示预测是如何随着时间的推移而演变的7. 结论在这项工作中,我们有助于未来的预测,通过广告敷料的估计多峰分布。结合抽样假设的赢者通吃损失和混合密度网的一般原理7152的作品(MDNs),我们提出了一个两阶段的采样和拟合框架,避免了共模崩溃的MDNs。这个框架的主要组成部分是学习的新方法与进化策略的假设的生成实验表明,整个框架可以学习对象之间的相互作用,并产生非常合理的估计多个可能的未来状态。尽管未来预测是一项非常有趣的任务,但使用深度网络进行多模态分布预测并不局限于此任务。我们假设这项工作也将在其他领域产生影响,其中分布估计发挥作用。8. 致谢这项工作由IMRA Europe S.A.S.提供部分资金,德国研究和教育部(BMBF)通过Deep-PTL项目和欧盟地平线2020项目Trimbot 2020。7153引用[1] 七.研究周期扰动序列的方法,特别是关于沃尔夫的太阳黑子数。伦敦皇家学会哲学汇刊A:数学,物理和工程科学,226(636-646):267 -298,1927。[2] 赤池裕通基于自回归模型拟合的功率谱估计. 统计数学研究所年鉴,21(1):407[3] Apratim Bhattacharyya,Mario Fritz,and Bernt Schiele.基于多样本最优目标的序列的精确和多样的采样。在2018年第31届IEEE计算机视觉和模式识别会议上[4] Apratim Bhattacharyya,Mario Fritz,and Bernt Schiele.使用合成似然的未来街道场景的贝叶斯预测。arXiv预印本arXiv:1810.00746,2018。[16] AbnerGuzm a'n-R iv era,DhruvBatra和PushmeetKohli。多项选择学习:学习产生多个结构化输出。In F.佩雷拉角,巴西-地J. C.伯吉斯湖Bot- tou和K. Q. Weinberger,编者,《神经信息处理系统进展》25,第1799-1807页。Curran Associates,Inc. 2012年。[17] 拉斯大学Hjorth和Ian T.纳布尼混合密度网络的正则化,第2卷,第521-526页。工程和技术学会,联合王国,第470版,1999年。[18] Yeping Hu,Wei Zhan,and Masayoshi Tomizuka.车辆语义 意 图 和 运 动 的 概 率 预 测 。 arXiv 预 印 本 arXiv :1804.03629,2018。[19] S. Huang,X.Li,Z.Zhang,Z.他,F.吴,W.刘,J.唐和Y. 庄。深度学习驱动的视觉路径预测从单个图像。IEEE Transactions on Image Processing , 25 ( 12 ) :5892[5]克里斯托弗·M·毕晓普。混合密度网络技术[20] E.Ilg,哦。 Ci cek,S. Galesso,A. Klein,O. 马坎西报告,Citeseer,1994年。[6] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。在IEEE国际计算机视觉会议(ICCV),第1卷,第3页,2017年。[7] Sungjoon Choi , Kyungjae Lee , Sungbin Lim , andSonghwai Oh.不确定性感知学习从示范使用混合密度网络与采样自由方差建模。2018年IEEE机器人与自动化国际会议(ICRA),第6915-6922页。IEEE,2018年。[8] Henggang Cui , Vladan Radosavljevic , Fang-ChiehChou,Tsung-Han Lin,Thi Nguyen,Tzu-Kuo Huang,Jeff Schnei-der,and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模式轨迹预测。arXiv预印本arXiv:1809.10732,2018。[9] Curro和J.拉凯特从人工神经网络中获得导航的置信度。在 2018 年 IEEE/ION 位 置 , 位 置 和 导 航 研 讨 会(PLANS),第1351[10] Nemanja Djuric,Vladan Radosavljevic,Henggang Cui,Thi Nguyen , Fang-Chieh Chou , Tsung-Han Lin , andJeff Schnei-der.使用深度卷积网络对自动驾驶的交通参与者进行运动预测。arXiv预印本arXiv:1808.05819,2018。[11] A. Dos o vitski yP. Fische r,E. Ilg,P. Hausse r,C.Hazırba s.,V. Golkov,P. v.d. Smagt,D. Cremers和T.布洛 克 斯 Flownet : 使 用 卷 积 网 络 学 习 光 流 。IEEEInternationalConferenceonComputerVision(ICCV),2015年。[12] Ehrhardt,Aron Monszpart,Niloy J Mitra,and An- dreaVedaldi.学习身体的长期预测。arXiv预印本arXiv:1703.00247,2017。[13] Chenyou Fan,Jangwon Lee,and Michael S.亮预测未来帧中的手和物体,2017年。[14] Michael Firman,Neill DF Campbell,Lourdes Agapito,and Gabriel J Brostow.Diversenet:当一个正确的答案是不够的。在IEEE计算机视觉和模式识别会议论文集,第5598-5607页,2018年。[15] 亚历克斯·格雷夫斯使用递归神经网络生成序列。CoRR,abs/1308.0850,2013。F. Hutter和T.布洛克斯光流的不确定性估计与多假设网络。在欧洲计算机视觉会议(ECCV),2018年。https://arxiv.org/abs/1802.07095.[21] Dinesh Jayaraman,Frederik Ebert,Alexei A Efros,andSergey Levine.时间不可知预测:预测可预测的视频帧。arXiv预印本arXiv:1808.07784,2018。[22] Xiaojie Jin,Huaxin Xiao,Xiaohui Shen,Jimei Yang,Zhe Lin,Yunpeng Chen,Zequn Jie,Jiashi Feng,andShuicheng Yan.预测未来的场景解析和运动动态。神经信息处理系统进展,第6915-6924页,2017年[23] R. E. 卡尔曼线性滤波和预测问题的一种新方法ASME基础工程杂志,1960年。[24] Namhoon Lee , Wongun Choi , Paul Vernaza ,Christopher B Choy , Philip HS Torr , and ManmohanChandraker.欲望:在具有交互代理的动态场景中的遥远未来预测。在IEEE计算机视觉和模式识别会议论文集,第336-345页[25] Stefan Lee 、 Senthil Purushwalkam Shiva Prakash 、Michael Cogswell 、 Viresh Ranjan 、 David Crandall 和Dhruv Batra。训练不同深度集合的随机多项选择学习。神经信息处理系统进展,第2119-2127页,2016年[26] K. Leung,E.Schmerling和M.帕沃尼使用混合密度网络对人类驾驶行为进行分布技术报告,斯坦福大学,2016年。[27] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.基于流的静态图像时空视频预测在欧洲计算机视觉会议(ECCV)上,2018年9月。[28] Wen Liu , Weixin Luo , Dongze Lian , and ShenghuaGao.未来帧预测为异常检测提供了新的基线.在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。[29] Wenqian Liu,Abhishek Sharma,Octavia Camps,andMario Sznaier.Dyan:一个用于视频预测的动态原子网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第170-185页7154[30] Pauline Luc,Camille Couprie,Yann Lecun,and JakobVerbeek.预测未来例如通过预测卷积特征进行分割。arXiv预印本arXiv:1803.11496,2018。[31] Pauline Luc,Natalia Neverova,Camille Couprie,JacobVer-beek , and Yann LeCun. 预 测 语 义 分 割 的 未 来 。ICCV,2017年。[32] Jack M Wang,David Fleet,and Aaron Hertzmann.人体运动的高斯过程动力学模型30:283[33] Michael Mathieu,Camille Couprie,and Yann LeCun.超越均方 误差的深度多 尺度视频预 测。arXiv预印本arXiv:1511.05440,2015。[34] P. McCullagh和J. A. Nelder 广义线性模型。ChapmanHall / CRC,伦敦,1989年。[35] Safa Messaoud、David Forsyth和Alexander G.施温不同颜 色 的 结 构 一 致 性 和 可 控 性 。 In Vittorio Ferrari ,Martial Hebert , Cristian Smin-chisescu , and YairWeiss,editors,Computer Vision施普林格国际出版社.[36] A. O'Hagan和J. F. C.金曼预测的曲线拟合和优化设计。皇家统计学会杂志。Series B(Methodological),40(1):1 -42,1978.[37] M. B.普里斯特利频谱分析和时间序列/ M.B. 普里斯特利伦敦学术出版社; New Yor
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功