HCNAF：超条件神经自回归流在概率职业图预测中的应用

108 浏览量更新于2023-10-23 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14550HCNAF：超条件神经自回归流及其在概率职业图预测中的应用Geunseob（GS）OhUniversity ofMichigangsoh@umich.eduJean-Se'bastienValoisUberATGjsvalois@uber.com摘要我们介绍了超条件神经自回归流（HCNAF）;一个强大的通用分布逼近器，设计用于模拟任意复杂的条件概率密度函数。 HCNAF包括：基于神经网络的条件自回归流（AF）和可以以非自回归方式采用大条件并输出AF的网络参数的超网络。与其他流模型一样，HCNAF执行精确似然推断。我们在玩具实验和MNIST上进行了一些密度估计任务，以证明HCNAF的有效性和属性，包括其在不可见条件下的泛化能力和表现力。最后，我们证明了HCNAF可以扩展到复杂的自驾驶幅度的高维预测问题，并且HCNAF在公共自驾驶数据集中产生了最先进的性能。1. 介绍最近的自回归流（AF）模型[1-它们提供了令人信服的属性，如精确的可能性，推理和表达能力.其中，[3，4]成功地统一了AF模型和神经网络，并展示了捕获复杂多模态数据分布的能力，同时普遍逼近连续概率分布。然而，由于可扩展性限制，现有的神经AF模型在处理具有任意高维条件项的问题时是无效的。自动驾驶的场景预测是这样一项任务，其中，可以利用AF模型的拟合，但是在上下文信息（条件项）太大的情况下（即，C>R1，000，000，这是由于使用了许多多通道时空图）。相比之下，最大的实验神经AF模型-ELS报告的是BSDS 300（R63）[5]。这可能解释了它们在常见问题中的有限使用，尽管在密度估计中表现出图1：HCNAF用于概率占用图（POM）预测，展示了网络a）输入（条件）是时空场景数据。b）HCNAF由两个基于神经网络的模块组成：超网络f H和条件AFf。f H可以采用任意大的输入，并产生f的网络参数，从而产生条件概率p（X|C）精确。c）在t=2秒和t=4秒时代理车辆中心的所得POM。我们提出了一种新的条件密度近似器称为超条件神经自回归流（HCNAF），以解决上述限制。HC-NAF通过精确计算复杂目标分布的概率来实现精确p模型（X|C）Cupp（X|C）任意大的C。通过利用该设计，HCNAF赋予神经AF能力，解决更广泛的科学问题的能力;自动驾驶预测任务证明了这一点。自动驾驶中的预测任务涉及将高维感知数据的历史转换为环境将如何演变的表示[6为了有效，先进的预测-14551（x））det.d=1..tions模型应显示以下属性：1. 概率性：反映未来状态的不确定性，2. 多模态：再现国家的丰富多样性，3. 上下文驱动：交互式上下文推理，以及4. 一般：能够推理看不见的输入。为了结合上述要求，我们利用HC- NAF的强大属性，如表达能力，以模拟任意复杂的分布和泛化能力，在看不见的此外，我们选择了概率占用图（POM）（见图1），而不是更广泛使用的基于概率的预测方法[6由于POM自然地编码不确定性，因此POM表示所有可能的轨迹;从而消除了像基于随机性的方法中那样对轨迹进行随机采样的需要。在展示自动驾驶场景的结果之前，我们首先介绍了HCNAF，并报告了一些密度估计任务的结果，以研究HCNAF2. 背景流，或归一化流，是一种深度生成模型，旨在通过最大似然原理学习数据分布[16]，以便生成新数据和/或估计目标分布的可能性。基于流的模型在潜在变量z和随机变量x之间构建可逆函数f（z）=x，其允许通过变量变化定理使用已知的pdfπ（z）（例如，正态分布）来计算未知数据分布p（x）2. 基于流的模型的表达能力允许模型捕捉复杂的数据分布。最近发表的AF模型称为神经自回归流（NAF）[3]，通过将其仿射变换推广到任意复杂的非线性单调变换，统一了早期的AF模型，包括[1，2相反，默认VAE对先验和后验分布使用单峰高斯。为了增加VAE的表现力，一些人引入了利用流技术的更具表现力的先验[21]和后验[22，23]。一类基于可逆神经网络的自回归流，包括NAF和BNAF[4]，可以逼近丰富的分布族，并被证明普遍逼近连续的PDF。但是，NAF和BNAF不处理外部条件（例如，上下文中的类GAN vs cGAN [24]）。也就是说，这些模型被设计为以先前输入x1：t−1为条件自动回归地计算p（x t），以公式化p（x t|x1：t−1）。该公式不适合于取除自回归的这限制了NAF对使用条件概率p（X）的应用的扩展|C），如POM预测。MAF和cMAF在[2]中提出，用于在有和没有附加外部条件的情况下对仿射流变换进行建模。如等式2所示，zd和xd之间的变换是仿射的，并且C对变换的影响依赖于μ、σ和堆叠多个流。这些可能限制C对变换的贡献。这解释了条件自回归的必要性-..p（x）= π（f−1..d f−1（x）..（一）没有这样的表现力瓶颈。.DX.cMAF：xd =µ（x1：d−1，C）+σ（x1：d−1，C）z d.（二）此外，flow通过对潜在变量z<$π（）进行采样并将其传递给f来提供数据生成功能。随着近似f（z）=x的精度增加，建模的pdfp模型（x）收敛到真实的p（x），并且生成的样本的质量也得到改善。与其他类型的深度生成模型（即VAE [17]和GAN[18]）相比，Flow是一种显式密度模型，并提供了独特的属性：1. 精确概率的计算，这在POM预测任务中至关重要。VAE使用可计算项来推断p（x）;证据下限（ELBO）。然而，由于上限是未知的，因此不清楚ELBO实际上如何近似p（x）以及ELBO如何用于需要精确推理的任务。虽然GAN证明了它在生成用于图像生成和翻译任务的高质量样本[19，20]，获得所生成的样本的密度估计和/或概率计算。规范化流方法的其他风格建立在可逆卷积上，例如（Glow）中的1× 1 [25]和[26]中的d×d[27]中的工作修改了Glow，使其与结构化输出学习的外部条件一起工作，产生了一个非自回归归一化流模型。3. HCNAF我们提出了超条件神经自回归流（HCNAF），这是一种新的自回归流，其中X= [x1，x2，.，xD] ∈RD且Z=[z1，z2，.，zD] ∈RD使用非线性神经网络建模，通过一个单独的神经网络fH（C）=θ，其参数θ由任意复杂条件C∈RDc以非自回归方式确定。fH（C）被设计为计算f（）的参数，因此被分类为超网络[28]。HCNAF对条件联合分布p（x1，x2，...，X D|C）在x1：D上自回归，通过分解它PLES是不平凡的。D上条件分布p（x d|x1：d−1，C）.14552D1 ：d−1DdBAWNAF[3]和HCNAF都使用神经网络，但它们在概率建模，调节器网络结构和流量转换方面有所不同，如下所述：Dp（x 1，x 2，. .. ，x D）=p（xd|x1：d−1），d=1fc（x1：d−1）=θd，θf（xd;θd）=zd，NAF（3）Dp（x 1，x 2，. . . ，x D|C）=p（xd|x1：d−1，C），nd=1fH（ C）=θ，θd∈θ，θf（x;x，θ）=z.HCNAF（4）在等式3中，NAF使用调节器网络fc来获得用于xd和zd之间的变换的参数θd，其由自回归条件参数化x1：d−1。相比之下，在等式4中，HCNAF对要在x1：d-1和非自回归中的任意大的外部条件CFashion通过超网络fH.对于概率模型-图2：HCNAF该图描述了具有n个隐藏层和3个节点的D维条件AF虚线表示从fH到f的参数的连接。红线之间的adja-cent隐藏层hlk−1，hlk（kd，1≤k≤n+ 1）表明，D d两者之间的差别，其实是相似的。W lk是严格正的。层hlk−1，h lk之间的绿色线[17]和条件VAE [29]之间的关系，以及ddab[18]和[24]之间的关系。如图1所示，HCNAF由两个模块组成：1）基于神经网络的条件自回归流，以及2）计算在不同的流动维度（1≤ab≤D， 1≤k≤n+ 1）<没有这样的约束（即，Wlk不受第d个流的Wlk和Blk表示权重矩阵，d博士1）。这些模块将在以下小节中详细介绍。3.1. 基于神经网络的条件自回归流所提出的条件AF是一个双射神经网络f（X;θ）=Z，它模拟了随机变量X和潜变量Z之间的转换。网络参数θ：= [W，B]由超-网络fH（C）=θ。常规与常规的主要区别定义对第d个流的隐藏层Lk的来自第r个流的隐藏层Lk-1，以及定义对第r个流的隐藏层Lk的贡献的偏置矩阵最后，φ（）是一个激活函数。xd和第一个隐藏层之间的连接，以及最后一个隐藏层和zd之间的关系定义为：d−1hl1=φ（ Wl1 xd+∑（ Wl1 xr）+ Bl1），神经网络和流模型是f−1（Z）=X作为规则网络通常不是可逆的。d ddLld−1d博士r=1lll（七）z d= W n+1h n+ ∑（W n+1h n）+B n+1.条件性AF如图2所示。在每一个D-流的mensiond，xd和zd用多层感知器（MLP）dd d drrd r=1hlk是隐藏层lk处的隐藏单元跨所有其中n个隐藏层如下：x参与l1参与l2参与. 参与者ln参与者（= hln+1）。（五）流动尺寸d=1：D，并表示为：hlk=φ（Wlkhlk−1+Blk），（8）DddDdd其中，Wlk和Blk是在两个相邻隐藏层之间的连接hk且hlk−1定义为：d所有流维度上的隐藏层lkDlklklk−1d−1Lk lk−1lk克鲁尔克110的情况。-14553D.WDDB..D是的- 是的0Blk1HD =φ（Wddhd +∑（Wdrhr）+Bd），（6）WlkWLK. - 是的-是的 0Blkr=1Wlk=12122Blk=Blk2英里。（九）其中下标和上标各自表示流编号。。-是的-是的.。BER和层数。具体来说，hlk是隐藏层lklklkD1D2. - 是的- 是的W LKLKW145541：DDXD+1DXD1：d−1DXDDDDDDDDDDDDDDIj同样，W和B表示所有层上所有流维度的权重和偏置矩阵。具体dZ dZn−1dh lk+1ln−1dφ（Alk+1）llWk+1。（十二）最后，Z=f（X）通过计算以下项dX dhnk=0dhkk=0dAk+1根据公式8，对于所有网络层，根据第一个X=hl0到最后一层，Z=hln+1。我们设计了HCNAF，使得隐藏层单元hlk由于我们将W lk+1设计为下三角矩阵，因此下三角矩阵的乘积dZ也是下三角矩阵，其对数确定。NT是TH。是的。把PR。od-被连接到先前层hlk-1的隐藏单元，.法律公报.Ddzd.1：D对角项的选择：log。dX。 = log.dtd=1 dxd. 为受BNAF的启发，而不是将hl0：n+1作为输入，Ddzddzdld∑ d=1log（dxd），如我们的公式所述： >0。Fi-分离超网络以在d=1：D上产生h0：n+1，如NAF中所示。这种方法避免了运行log（dzd）通常通过等式10和11表示。D超网络的D倍;对于大型超网络来说，这是一个昂贵的操作通过设计超网络输出.ΣDZLn−1dφ（Alk+1）ll0：n+1日志D=logW n+1dW k+1。（十三）h1：D一下子，我们减少了计算负荷，而al-降低所有层和所有维的隐藏状态dxdDDk=0dAlk+1dd因为xd不仅取决于x1：d−1，而且取决于所有隐藏层hl0：n+1。所有Flow模型必须满足以下两个性质：1）f（X）=Z的单调性以保证其可逆性，和2）。易处理的e雅可比矩阵deter公式13涉及不同大小的矩阵的乘法;因此不能分解为常规的对数求和。为了解决这个问题，我们在等式13中对矩阵的对数进行对数求和exp运算，因为它通常用于流社区（例如NAF[3]）。.法律公报minant dX。.3.1.1自回归流单调性要求等同于具有：dzd >0，进一步分解为：D和BNAF[4]）的数值稳定性和计算效率。这种计算雅可比行列式的方法类似于BNAF中提出的方法，因为我们的条件AF类似于其流模型。由于HCNAF是基于单调神经网络的自回归流家族（如NAF和BNAF）的成员，因此我们依赖于NAF和BNAF的证明来声称HCNAF也是一个普适分布逼近器。dz dzn−1dhlk+1dhl1ln−1dhlk+1D =ddd= Wn+1d、（10）3.2. 超调节和训练DxDdhlnk=1lk+1dhlkDxDDDk=0 德赫利克公式5-13和图2的关键点是，当涉及到设计时，HCNAF是无约束的。其中DHD大力士k ∈ {0，.，n-1}表示为：超级网络。各节3.1.1和3.1.2不适用于超网络。这dhlk+1dφ（Alk+1）dAlk+1dφ（Alk+1）l使超网络能够任意增长，D=dd=dW k+1。（十一）从而相对于条件的大小按比例放大。dhlkdAlk+1德赫利克dAlk+1dd因此，超网络fH（C）可以是关于条件C的任意复杂的神经网络。Alk表示hlk的预激活。可逆性是D d通过选择严格递增的激活函数来满足（例如tanh或sigmoid）和严格正的Wlk。Lk 通过在元素上在超网络的末尾，对所有条目都是指数的，k：Wlk，受[4]的启发。注意，对于WIk，i=j的非对角元素省略该操作。3.1.2雅可比行列式的易处理计算第二个要求是流动模型。S是。有效我们寻求学习目标分布p（X |C）通过最小化p模型（X）的负对数似然（NLL）使用HC-NAF |C），即两个分布之间的交叉熵，如：L：= −EX p（X |C）[logp模型（X |C）]= H（p，p模型）。（十四）注意，最小化NLL等同于最小化数据和模型分布DKL（p（X））之间的（前向）KL发散|C）、||p 模型（X|（C），如H（p，q）= H（p）+D KL（p||其中H（p）是有界的。.法律公报W14555计算雅可比矩阵行列式。dX。，其中：14556−τ：0−∞−∞t−τ：0−τ：04. 概率职业地图预测在第3节中，我们证明了HCNAF可以适应条件概率密度估计问题的高维条件输入我们利用这种能力来解决自动驾驶任务中参与者的概率占用图（POM）。这个问题在超过一百万个维度上运行，因为时空多演员图像是条件的一部分。本节描述了支持POM预测的HCNAF的设计。我们将问题表述如下：可以通过等式1计算轨迹。然而，它不是平凡的，以获得反向流动，因为封闭形式的解决方案是不可用的。一个解决方案是使用数值近似或修改HCNAF的条件AF;这在本工作中没有讨论。5. 实验在本文中，五个实验（包括三个实验公开可用的数据集）的各种任务和复杂性的评估HCNAF。对于所有人，我们p（X Ai|C）、与 C：={XAi，XAj=fi，f i}，（15）提供定量（NLL，D KL）和定性测量（可视化;除了MNIST，因为维度很大）。其中X Ai∈Rτ×di 是过去的状态，以di为di- 一我们通过展示HCNAF对两个Toy Gaus的密度估计任务在时间跨度τ上观察到的状态的mension。Xj=/i∈sians 然后，我们通过钉-−τ：0Rτ×NA表示所有NA个相邻参与者在相同时间跨度内的过去状态。<$∈RNC×H×W对从地图中提取的上下文静态和动态场景信息进行先验（例如，车道和停车标志）和/或感知模块（例如，演员的边界框）到具有N个C通道的H乘W大小的光栅化图像上。然而，C中的条件列表并不意味着是限制性的;当引入附加提示以更好地定义演员或增强上下文时，这些附加提示被附加到条件。我们表示XAi：= [xAi，yAi]作为演员Ai在为自动驾驶带来更具挑战性的高维（C>R1，000，000）POM预测问题。对于POM预测，我们依赖于两个数据集：1）虚拟SIM卡-模拟器：具有不同道路几何形状的模拟驾驶数据集，包括设计用于模拟人类驾驶员的多个道路参与者。这些场景是基于北美城市收集的真实驾驶日志。2)PRECOG- Carla：使用开源Carla模拟器创建的公开数据集，用于自动驾驶研究[10]。最后，我们运行条件密度估计任务t t t通过调整我们在时间t处的2D鸟瞰有条件的AF在2维上操作。其结果是，通过由p（x t，yt）给出的自回归因子分解获得联合概率|C）= p（y t|x t，C）p（x t|C）的范围内。可以计算p（xt 1：T，yt 1：T|C），一个共同的probabil-通过等式4在多个时间步上计算，但我们选择计算p（xt，y t|C）（即单个时间步长上的边际概率分布），原因如下：1. 计算p（x t1：T，y t1：T|C）意味着p（x t，y t）的计算|x1：t−1，y1：t−1，C）自回归。虽然这个公式的原因是时间依赖性，在历史和未来之间，它被迫对xt，yt做出预测，这取决于未观察到的变量x1：t−1和y1：t−1。未观测变量的不确定性有可能将预测xt，yt推向错误的方向。关于MNIST，补充材料中有详细说明5.1. 玩具高斯人我们进行了两个实验来证明HCNAF用于密度估计的性能。第一个是NAF论文[3]中的一个实验，旨在展示模型在2D网格地图上的分布，p（x，y）。非线性分布是空间上不同的高斯群。在第二个实验，我们演示了HCNAF如何在以前看不见的条件下生成其输出。5.1.1玩具高斯人：实验1表1：图3中描绘的实验的NLL。值越低越好。2. p（xt1：T，yt1：T）的计算|C.难以处理因为它需要一个边缘化的所有variab lest=[0，t−1].我们注意到，p（xt，yt|C）=AAFNAFHCNAF（我们的）2.0563.775 3.896∞... ∞p（x1，y1，.，x t，y t）dx1. dyt-1实际上是无法整合。为了预测所有时间t=0：T的预测，我们简单地将时间变量作为条件的一部分除了POM之外，HCNAF还可用于使用逆变换f−1：Z对轨迹进行N（0D，IDxD）→X. 所生成的5乘5 5.2893.865 3.96610乘10 5.0874.176 4.278图3和表1的结果表明，HCNAF能够重现三种非线性目标分布，并获得与NAF相当的结果，尽管14557图4：用5种不同的离散条件训练的HCNAF模型C train={C1，...，其中Ci表示各向同性双变量高斯pdf的平均值。a）p（x，y|C列车），b）、 p模型（x，y|C列车）C）对以前未见过的预测条件p模型（x，y|C unseen），C unseen：={C6，.，C9}。表2：图4中目标分布和预测分布在交叉熵和KL散度方面的差异。图3：使用三个高斯分布的贡献。为了重现概率分布p（x，y），HCNAF使用单个模型和三个条件，p（x，y）pHCNAF（x，y|Ci）C-Ci∈CtrainCi∈Cunseen而NAF需要三种不同的模型，即单独训练图中，M：模型，C：条件。NLL略有增加。我们强调，HCNAF使用单个模型（具有一维条件变量）来产生3个不同的PDF，而AAF（仿射AF）和NAF使用3个不同的训练模型。在HCNAF中应用的自回归调节与其他两个模型相同。HCNAF的超网络使用C∈ {0， 1， 2}，其中每个值表示一个2乘2的类5乘5和10乘10的高斯型5.1.2玩具高斯人：实验2从图4所示的密度估计实验中，我们观察到HCNAF能够在看不见的条件下泛化，即在训练过程中故意忽略的条件项中的值。该实验旨在验证该模型是否能够内插和/或外推超出其训练条件集的概率分布，并显示HCNAF在再现目标分布和目标分布方面的有效性。点p（x，y|C i）对于C i∈ C列车。和之前一样，我们训练了一个HCNAF模型来学习5个不同的pdf，其中每个pdf代表显示一个高斯分布，其均值（二维高斯分布的中心）用作条件C：=（xc，yc）∈R2，各向同性标准差σ为0.5。对于这个任务，目标函数是对数似然的最大化，这相当于 KLd iv e rgence−E （ x ， y ） <$N （ Ci ， 0. 25·I ）[10gpmodel（x，y|Ci）]哪里 Ci是均匀采样从的组条件C train：= {C1，C2，.，C5}。表2亲国际志愿组织定量结果从的交叉熵H（p）1.452--H（p，p模型）-1.489 1.552D KL（p||p模型）-0.0370.100H（p，p模型）和aKL发散D KL（p||p模型）。注意，由于H（p，p模型）= H（p）+ D KL（p），因此H（p，p模型）由H（p）下界||p模型）。各向同性双变量高斯分布p（x，y）的微分熵H（p）和使用以下公式计算：H（p）= 0。5·ln（ 2πe（σ）2）2.结果表明，HCNAF能够推广其对看不见的条件的预测，如H（p，p模型）与其下限H（p）的小偏差所示。5.2. 预测自动驾驶的POM通过超网络的变化，我们展示了HCNAF如何扩展以解决自动驾驶的POM预测问题。与第5.1节中的实验相比，条件C现在明显更大，如公式15所示。C现在包括从各种传感器（激光雷达、摄像头）、地图（车道、停车标志）和感知对象检测（表示为参与者的边界框）提取的信息，总维度为数百万个参数。根据其设计，HCNAF图5描述了用于POM预测任务的定制超网络。该超网络以随机输入为条件C，输出一组网络参数W和B，用于随后的HCNAF的条件AF f（· ;W，B）：输入来自14558不不不图5：POM预测问题中使用的HCNAF超网络的设计从各种传感器（激光雷达或照相机）通过捕获模块以及从先前的地图信息。具体地，C由1）bev图像形成，其包括2D网格地图中的车道、停止标志、激光雷达数据和演员边界框（参见补充材料和图6中呈现的图），以及2）以演员为中心的像素坐标中的演员的状态。所使用的感知模块反映了用于处理多传感器数据的其他标准方法，例如[30]。超网络由三个主要部分组成：1）LSTM模块，2）编码器模块，以及3）时间模块。三个模块的输出hREF、hActors、hREF、hActors被级联并被馈送到MLP中，层。结果输出为h<$∈Rd<$=64。最后，时间层添加预测时间t∈R1，即，未来t距参考（或当前）时间t=0的时间跨度。为了增加时间条件的贡献，我们应用了一个MLP，它输出一个隐藏变量的时间条件ht∈Rdt=10。用虚拟模拟器数据集预测POM使用POM超网络，HCNAF在我们称为虚拟模拟器的内部数据集上进行训练。数据集由大小为N × 256 × 256的bev图像组成，其中N可以包括以下通道的全部或子集：停车标志，街道车道，参考汽车位置，以及一些演员我们还在像素坐标中添加了参与者状态的历史对于每个车辆/演员，我们应用坐标变换来获得以演员为中心的标签和图像进行训练。车辆数据集包括停放的车辆和不合规的道路行为者，以引入常见和罕见的事件（例如，突然变线或在道路中间突然停车）。我们为所有可见的车辆生产POM，包括停放的车辆和不合规的演员，即使这些人没有被标记为这样。请注意，该数据集是从数百万个示例中创建的，并被切成持续时间为5秒的片段。我们提出了一个图，其中描绘了POM预测的三种情况下，从测试集和消融研究的表中采样，以显示不同的超网络输入的POM预测准确性的影响，在补充材料。如第4节中所讨论的，HCNAF不仅产生POM，而且还通过逆变换产生轨迹样本条件AFf−1的形式。正如我们所倡导的，t t t t t t其输出W和B，如图5所示。LSTM模块获取参与者Ai在POM方法，我们不进一步详细说明使用HCNAF的基于轨迹的方法。场景XAi，其中XAi：=[xAi，yAi，sin（θAi），cos（θAi），vAi]至t−τ：tt t t t t t t对所述状态参数之间的时间依赖性和趋势进行编码。总共有N+1个LSTM模块用于对N个演员和我们所支持的参考车进行建模。预测POM。结果输出为hREF∈利用PRECOG-Carla数据集预测POM我们在PRECOG- Carla Town 01-train数据集上训练HCNAF进行POM预测，并验证了RdREF=20 ，且h个Actors∈R d行为者=18。tTown 01-val数据集[10]。用于此实验与用于虚拟SIM卡的实验相同编码器模块接收被表示为bev的bev图像。该模块的作用是将场景上下文转换为一维张量，该张量与我们的条件AF流模块的其他参数连接。我们使用残差连接来增强编码器的性能，如[ 30 ]所示。由于我们的超网络使用笛卡尔（x，y）空间和像素（图像）空间，因此我们使用坐标卷积（coordconv）层来加强两个数据之间的关联总的来说，编码器网络由4个编码器块组成，每个编码器块由5个coordconv层组成，这些层具有残差连接、最大池化层和批量归一化ulator数据集，除了我们用两个头顶激光雷达通道代替bev图像;地上和地面输入。更新编码器模块输入层，以处理PRECOG-Carla数据集的激光雷达图像大小（200 x200）。总之，C包括激光雷达数据，以及参考车和其他参与者的历史。为了评估训练模型的性能，[10]使用额外的nats-estimate度量来代替NLL进行似然估计e是一个归一化的有界似然度量，定义为e：= [H（p′，p 模型）−H（η）]/（T·A·D）≥0，其中H（p′，p模型），T，A，D各自表示交叉-p′（受各向同性高斯扰动）之间的熵14559图6：使用表3中描述的HCNAF模型（使用激光雷达）对PRECOG-Carla数据集进行可视化POM预测。左：2秒的汽车历史。中间和右边：在t = 2和4秒处的轿厢1的概率占用预测被描绘为红色热图，其中覆盖了演员地面实况（蓝色正方形）。请注意，我们仅预测汽车1的POM，因为激光雷达数据仅适用于汽车1。在示例1中，汽车1进入3路交叉口，HCNAF使用来自激光雷达数据的道路几何形状，并正确地预测存在两种自然模式（左转右转），并将位置的概率描绘为热图。在示例2中，HCNAF使用弯曲道路几何形状并且成功地预测汽车1的占用概率。更多POM可视化的结果在补充材料中提供。噪声）和p模型[10]、预测范围、作用器数量和作用器位置的维数我们应用了相同的η= N（0，0. 01 2·I），其微分熵是用H（η）= 0解析得到的。5·T·A·D·ln（2 πe| Σ|）的情况。我们计算p（x t，y t|C）在数据集中可用的所有时间步长上。结果见表3和图6。值得一提的是，存在包括[8]，[32]使用PRECOG-Carla数据集的作品。然而，大多数报告的基于概率的预测指标（ MSE ， MinMSD 等）。据我们所知，PRECOG 数据集上唯一可用的 NLL 基准是本文（PRECOG-ESP）。由于我们采用基于占用率的方法，因此基于概率的度量标准不适用于我们的方法。表3：PRECOG-CARLA Town 01检测，1种试剂，平均等效性方法测试（e）：越低越好PRECOG-ESP，无激光雷达0.699PRECOG-ESP 0.634HCNAF，无激光雷达（我们的）0.184HCNAF（我们的）0.114（低5倍以上）我们认为，HCNAF的表现优于PRE-COG-ESP是自动驾驶中最先进的预测模型，它利用了HCNAFHCNAF注意，PRECOG利用植根于仿射AF的双射变换f：XParticleZ，类似于cMAF（参见等式2）。我们也相信HCNAF密度取决于以前看不见的背景。6. 结论我们提出了HCNAF，一个新的普适分布近似量身定制的模型条件概率密度函数。HCNAF扩展了神经自回归流[3]，通过确定HCNAF的AF的网络参数的超网络来采用任意大的条件，而不限于自回归条件。通过对超网络进行无约束建模，HCNAF使其能够任意增长，从而相对于非自回归条件的大小进行扩展。我们证明了它的有效性和能力，概括了看不见的条件下的密度估计任务。我们还扩展了HCNAF14560引用[1] Durk P Kingma，Tim Salimans，Rafal Jozefowicz，XiChen，Ilya Sutskever，and Max Welling.用逆自回归流改进变分推断神经信息处理系统的进展，第4743-4751页，2016年一、二[2] George Papamakarios，Theo Pavlakou，and Iain Murray.用于密度估计的掩蔽自回归流。在神经信息处理系统的进展中，第2338-2347页，2017年。一、二[3] 黄钦伟，大卫·克鲁格，亚历山大·拉科斯特和亚伦·库维尔。神经自回归流。在国际机器学习会议上，第2083-2092页，2018年。一二三四五八[4] 尼古拉·德·高伊凡·蒂托夫和威尔克·阿齐兹阻塞神经自回归流。arXiv预印本arXiv：1904.04676，2019。一、二、四[5] David Martin Charless Fowlkes Doron Tal和Jitendra Malik人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用第八届IEEE计算机视觉国际会议论文集。ICCV 2001，第2卷，第416-423页。IEEE，2001年。1[6] Wenjie Luo，BinYang，and Raquel Urtasun.快速和激烈：实时端到端的3D检测，跟踪和运动预测与一个单一的卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）中，2018年6月。一、二[7] Sergio Casas ， Wenjie Luo ， and Raquel Urtasun.Intentnet：学习从原始传感器数据预测意图。在AudeBillard、Anca Dragan、Jan Peters和Jun Morimoto编辑的Proceedings of The 2nd Conference on Robot Learning，Proceedings of Machine Learning Research 第87 卷，第947-956页中PMLR，2018年10月29日至31日。一、二[8] 唐一川查理和鲁斯兰·萨拉胡蒂诺夫。多个未来预测。arXiv预印本arXiv：1911.00997，2019。一、二、八[9] Namhoon Lee ， Wongun Choi ， Paul Vernaza ，Christopher B Choy ， Philip HS Torr ， and ManmohanChandraker.欲望：在具有交互代理的动态场景中的遥远未来预测。在IEEE计算机视觉和模式识别会议论文集，第336-345页一、二[10] Nicholas Rhinehart ， Rowan McAllister ， Kris Kitani 和Sergey Levine。先知：预测调节在视觉多代理设置中的目标上。 arXiv 预印本 arXiv ： 1905.01296 ，2019。一、二、五、七、八[11] Amir Sadeghian 、 Vineet Kosaraju 、 Ali Sadeghian 、Noriaki Hirose 、Hamid Rezatofighi和 Silvio Savarese 。Sophie：一个专注的神经元，它能预测符合社会和物理约束的路径在IEEE计算机视觉和模式识别会议论文集，第1349- 1358页一、二[12] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年。一、二[13] Rohan Chandra、Uttaran Bhattacharya、Aniket Bera和Di-nesh Manocha。Traphic：使用加权交互在密集和异构流量中进行轨迹预测。在IEEE计算机视觉和模式识别会议上，第8483-8492页，2019年。一、二[14] Jiachen Li，Hengbo Ma，and Masayoshi Tomizuka.交互感知多智能体跟踪和通过对抗学习的概率行为预测。arXiv预印本arXiv：1904.02390，2019。一、二[15] Ajay Jain，Sergio Casas，Renjie Liao，Yuwen Xiong，Song Feng，Sean Segal，and Raquel Urtasun.离散剩余流行人行为概率预测。arXiv预印本arXiv：1910.08041，2019。1[16] 伊恩·古德费洛。Nips 2016教程：生成对抗网络。arXiv预印本arXiv：1701.00160，2016年。2[17] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。二、三[18] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672二、三[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。2[20] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页2[21] Aaron van den Oord，Oriol Vinyals，et al.神经离散表示学习。神经信息处理系统的进展，第6306-6315页，2017年。2[22] Durk P Kingma，Tim Salimans，Rafal Jozefowicz，XiChen，Ilya Sutskever，and Max Welling.用逆自回归流改进变分推断神经信息处理系统的进展，第4743-4751页，2016年2[23] 莉安·范登伯格，伦纳德·哈森克莱弗，雅各布·M·汤姆-扎克，马克斯·威林.Sylvester归一化流用于变分推理。arXiv预印本arXiv：1803.05649，2018。2[24] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。二、三[25] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。神经信息处理系统进展，第10215-10224页，2018年214561[26] 作者声明：by J. Hoogeboom，生成正常化流的新兴卷积。arXiv预印本arXiv：1901.11137，2019。2[27] 尤璐和伯特·黄。结构化输出学习与连续生成流。arXiv预印本arXiv：1905.13288，2019。2[28] David Ha，Andrew Dai，and Quoc V Le. 超网络arXiv预印本arXiv：1609.09106，2016。2[29] Kihyuk Sohn，Honglak Lee，and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。神经信息处理系统的进展，第3483-3491页，2015年。3[30] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。7[31] Rosanne Liu 、 Joel Lehman 、 P

下载后可阅读完整内容，剩余1页未读，立即下载