没有合适的资源?快使用搜索试试~ 我知道了~
3254^HPLFlowNet:用于大规模点云场景流估计的HPLP多面体L顾秀烨1、3、王一杰2、吴崇若3、李勇载3、王潘曲2、1斯坦福大学2、TuSimple、3加州大学戴维斯分校摘要我们提出了一种新的深度神经网络架构,用于直接在大规模3D点云上进行端到端场景流估计。受双边卷积层(BCL)的启发,我们提出了新颖的DownBCL、Up-BCL和CorrBCL操作,从非结构化点云恢复结构信息,并融合来自两个连续点云的信息。在离散和稀疏的permutohedral格点上操作,我们的架构设计在计算成本上是节俭的。我们的模型可以有效地处理一对点云 帧 , 每 帧 最 多 86K 个 点 。 我 们 的 方 法 在 Flying-ingThings 3D和KITTI Scene Flow 2015数据集上实现了最先进的性能此外,在合成数据上训练,我们的方法在真实世界的数据和不同的点密度上显示出很强的泛化能力,而无需微调。1. 介绍场景流是点的密集三维运动场。它是光流的3D对应物,并且是更基本和明确的表示-场景流可用于各种领域,包括机器人、自动驾驶、人机交互,并且还可用于补充和改进视觉里程计和SLAM算法[15,30]。直接用点云输入估计3D空间中的场景流是有吸引力的,因为使用立体输入的方法需要从光流和视差进行3D运动重建在这项工作中,我们专注于有效的大规模场景流估计直接在三维点云。场景流估计的问题陈述如下:输入是两个连续帧处的两个点云(PC):PC1在时间t,PC2在时间t +1. 通常,每个点具有关联特征fi=(xi,yi,zi,. -是的- 是的)∈Rdf,其中(xi,yi,zi)是三维坐标,图1:我们的端到端可训练HPLFlowNet将两个连续的点云(PC)帧作为输入,并为第一个PC帧中的每个点输出3D运动场的密集估计。场景流的颜色从蓝色到红色(从小到大)编码幅度/速度。为每一个点标记。也可以包括其他低级特征,例如颜色和法向量输出是PC 1中每个点i的预测场景流:sfi=(dxi,dyi,dzi)。我们使用世界坐标系作为参考系统;目标是估计场景自我运动和动态物体运动的流动;见图1.一、许多现有的用于3D点云处理的深度学习方法[33,35,24,46]专注于准确性,但不太强调最小化计算成本。因此,由于GPU内存有限,这些网络一次只能处理有限数量的点,这不利于大规模场景分析。原因有两个:1)这些方法经常采用除法1在我们的实验中,我们只使用点坐标来证明我们的方法与裸最小几何信息的有效性。PC1PC2场景流HPLFlowNet3255将点云分割成块,由于局部邻域的信息丢失,这可能导致全局信息丢失和边界点的不准确预测;以及2)这些方法有时还求助于点二次采样,这显著影响了具有稀疏点密度的区域的性能。(1)如何在避免上述问题的同时,一次性处理场景的整个点云?此外,在[33,35]中,跨多个点的信息只能通过全局或分层的最大池来聚合,并且[35]每次使用线性搜索来定位邻域。(2)如何从非结构化、无序的点云中更好地恢复结构信息?此外,在大多数3D传感器中,点密度是不均匀的,例如,附近的物体具有较大的密度,而远处的物体具有小得多的密度。(3)如何使该方法在不同的点密度下具有鲁棒性?最后,场景流估计需要结合来自两个点云的信息。(4)如何最好地融合这些信息?我们提出了一种用于场景流估计的新型深度网络架构,可以解决上述四个问题。受双边卷积层(BCL)[23,21]和置换面体晶格[2]的启发,我们提出了三种新的层设计:DownBCL、UpBCL和CorrBCL,可有效处理一般非结构化数据(甚至超出场景流估计)。我们的网络首先从输入点到permutohedral晶格上插入信号。然后,它在网格上执行稀疏卷积,并将滤波后的信号内插到较粗的网格点。这个过程在多个DownBCL层中重复。通过这种方式,我们形成了一个分层的下采样网络。类似地,我们的网络将滤波后的信号从粗网格点插值到更细的网格点,并在更细的网格点上执行稀疏卷积。同样,这个过程在几个UpBCL层(一个拓扑上采样网络)上重复。最后,将来自最细格点的滤波信号内插到第一输入点云中的每个点。通过下采样过程,我们还将来自两个点云的信号融合到相同的晶格中,并执行我们的相关操作(Cor- rBCL)。总的来说,我们形成了一个类似沙漏的模型,在结构化的晶格空间(除了第一个和最后一个操作)上操作非结构化的点。我们在两个数据集上进行实验:FlyingTh-ings 3D[29]包含合成数据,KITTI Scene Flow 2015 [32,31]包含来自LiDAR扫描的真实数据。我们的方法优于最先进的方法。此外,通过仅对合成数据进行训练,我们的模型可以推广到具有不同模式的真实数据。通过一种新的BCL归一化方案,我们的方法在不同的点密度下也具有很好的推广性。最后,我们证明了我们的网络在计算成本方面是有效的,它可以处理一个一次可扫描整对KITTI帧,每帧最多可扫描86K点。代码和型号可在https://github.com/laoreja/HPLFlowNet 上获得。2. 相关工作3D深度学习多视图CNN [39,4,22,9,17][44,13,28,34]和体积网络利用标准,标准的CNN与网格结构的输入,但遭受离散化错误的观点选择和体积表示分别。PointNet [33,35]是第一个直接处理点云的深度学习方法。Qi等人[33]建议对无序输入使用对称函数,并使用最大池来全局聚合信息。PointNet++ [35]是一个后续的分层架构,在本地社区内聚合信息。Klokov和Lempitsky [24]使用kd树来划分点云并基于划分构建架构另一个工作分支[8,14,10,6,46]将3D表面表示为图形,并对其光谱表示进行卷积。Su等人[38]提出了一种基于BCL [23,21]的点云分割体系结构,并实现了2D-3D联合推理。我们的工作受到[38]的启发,但重点不同:[38]侧重于BCL此外,场景流估计需要结合来自两个点云的信息,而[38]则在单个点云上操作。场景流估计。场景流估计与点云输入是探索不足。Dewan等人[11]在假设局部几何恒定性和光滑运动场正则化的情况下,用公式表示能量最小化问题Ushani等人[41]提出了一种实时四步算法,其构造占用网格、过滤背景、解决能量最小化问题,并利用过滤框架进行细化。与[11,41]不同,我们的方法是端到端的。我们还使用深度网络直接从数据中学习,没有明确的假设,例如,我们并不假设刚性运动。Wang等人[43]提出了一个参数连续卷积层,它对非网格结构化数据进行操作,并将该层应用于点云分割和LiDAR运动估计。然而,它的新算子是在每个点上定义的,并且池化是唯一提出的用于聚集信息的方法。FlowNet 3D [25]建立在Point- Net++ [35]的基础上,并使用流嵌入层来混合两个点云,因此它具有[35]的上述缺点。使用其他输入格式(立体声[19],RGBD[20],光场[27])进行场景流估计的工作关系不大,我们参考Yan和Xiang [45]进行调查。3256DD(a)DownBCL(b)UpBCL图2:置换面体晶格上的分层DownBCL和UpBCL。DownBCL用于下采样,并使用Splat-Conv管道。期间下采样时,上一层的非空格点(例如,参见蓝色方块)将作为下一层的输入点对于具有Conv-Slice流水线的UpBCL,反之亦然3. 全面体晶格双边卷积层(BCL)。 BCL [23,21]是我们使用的基本构建块。类似于标准CNN如何赋予传统卷积运算学习能力,BCL扩展了具有可学习权重的快速高维高斯滤波算法[2]。BCL接受一般输入。卷积是在d维空间上进行的,每个输入点有一个位置矢量pin,i∈Rd,信号值vi∈Rdf.的位置向量用于在定义的卷积运算的空间。 在我们的例子中,d=3且vi=pin,i.BCL的卷积步骤在离散的do上操作,主要的,但是输入点位于连续域中(现在,不失一般性,考虑在最常用的整数格Zd上操作的卷积,即,规则网格,其格点是整数的d元组),因此BCL:1)收集来自每个输入的信号点pin,i∈Rd通过插值(splat)到其包围的格点上在网格上;因为不是每个网格点都收集了信号,所以使用散列表,以便为了效率仅在非空网格点上执行卷积。3)通过插值(切片),将每个格点的滤波信号返回到格点最近网格内的输出点上述过程形成BCL的三步流水线:Splat-Conv-Slice。穿面体晶格整数格在低维空间中工作得很好。然而,每个输入点内插到的格点的数量(即,包含每个输入点的Delaunay单元的顶点)是2d,这使得溅射和切片步骤 具 有 在 d 中 呈 指 数 的 复 杂 度 。 因 此 , 我 们 使 用permutohedral lattice2A [2,1,3]代替:d维permuto-2格是欧氏空间的离散加法子群[3]。规则格Zd和全面体格Ad都是特殊格。面体晶格是缩放的规则网格(d+1)Z d+1沿着向量→1=[1,. 1]到hy-全平面Hd:→x·→1=0上,这是Rd+1的坐标和为零的子空间Delaunay细胞置换面体格是d-单形,格的一致单形是镶嵌的。通过用均匀单形代替规则网格和重心插值,使该方法在置换体格上的计算结果与在整数格上的计算结果相同置换面体格的特殊性质使得在O(d2)时间内计算包含任意查询位置的单形的顶点将位置矢量乘以比例因子s,我们可以调整晶格分辨率,即,较大的s对应于较精细的分辨率,其中每个单形包含较少的点。此效果与缩放晶格相同。为了更好地解释,我们将两者互换,并使用术语更细的格点和更粗的格点。4. 方法:HPLFlowNetBCL从非结构化的点云中恢复结构信息,这使得可以执行内核大小大于1的以前的工作[38,21]在其网络中的所有BCL中使用连续域上的相同输入点集。然而,在BCL中的溅射和切片的时间和空间成本都与输入点的数量成线性关系。有没有一种方法可以更有效地堆叠BCL以形成一个深层架构?我们如何结合来自两个点云的信息进行场景流估计?在本节中,我们将解决这些问题并介绍我们的HPLFlowNet架构。4.1. downBCL和upBCL我们首先介绍下采样和上采样运算器,DownBCL和UpBCL。与原BCL中的三步操作相比,DownBCL只有两步:飞溅转化 前一个DownBCL上的非空格点成为下一个DownBCL的输入点。3257位移滤波补丁相关性:(Cin,p)(C in,p)ConvNet(2Cin,p)(C corr_out,1)位移过滤:(ConvNet删除,(滤出、我层,从而节省切片步骤。DownBCL用于下采样:我们以逐渐减小的尺度来堆叠DownBCL,因此来自较细格点的信号被迭代地溅射到较粗格点,具有越来越粗的分辨率和越来越少的输入点。类似地,具有两步流水线Conv-Slice的Up-BCL用于以逐渐增加的尺度进行上采样。来自较粗格点的信号被直接切片到较细格点,从而节省了溅射步骤。见图二、与 原 始BCL 相 比 ,DownBCL 和UpBCL 有 几 个优点:(1) 我们将三步流水线简化为两步流水线,而不引入任何新的计算,这节省了计算成本。(2) 通常,非空格点比输入点云中的要少得多,尤其是在较粗的格点上。所以我们减少了每个Down-BCL的输入大小,除了第一个.类似地,在UpBCL中,切片到下一层 这样,在第一个DownBCL之后和最后一个UpBCL之前,DownBCL和UpBCL必须处理的数据大小与输入点云的大小无关,而是在不同尺度下非空格点的数量上是线性的;也就是说,它只与点云占据的实际体积有关。这是DownBCL和UpBCL的关键优势,使计算效率。(3) 节省的时间和内存允许更深入的架构。我们在每个下BCL和上BCL中的卷积步骤中使用具有非线性激活的多个卷积层,而不是原始BCL中的单个卷积。(4) 重心插值是一种启发式的信号采集和返回方法。溅射和切片步骤是不对称的:对于输入点i,令D(i)表示其封闭单形;对于格点j,设V(j)表示集合对于位于顶点为j的单纯形中的输入点,bij表示当将i溅射到j时使用的重心权重,其与将j切片到i的权重相同,并且令g(·)表示卷积。然后,在原始BCL中,i的滤波信号可以表示为:斑块相关性图3:建议的CorrBCL用于组合来自两个点云的信息,这对场景流估计至关重要。关联层由两个步骤组成:块相关和位移滤波。4.2. CorrBCL由于BCL的插值设计,来自两个连续点云的信息可以被溅射到同一个置换面体晶格上。为了融合来自两个点云的信息,我们提出了一种新的双边卷积相关层(CorrBCL),其灵感来自立体算法的匹配成本计算和成本聚合[47]。我们的CorrBCL包括两个步骤,补丁相关和位移滤波。斑块相关性。与成本匹配类似,补丁相关性混合来自PC1处的补丁(局部邻域)和PC2处的另一补丁的信息,但以更一般和可学习的方式。设F1和F2表示存储两个点云的信号的哈希表,点云由格点位置索引,p表示相关邻域的大小,Oc∈Zp×d表示偏移矩阵,使得格点在坐标x处的第i个邻域位于x+Oc[i]。然后,PC1中位于x的格点和PC2中位于y的格点的块相关性为:c(x,y)=g.γ。F1(x+Oc[i]),F2(y+Oc[i])|i=1,…pΣ(二)其中γ(·,·)是组合来自两个点云的信号的双变量函数,并且g是p变量函数v′=Σj∈D(i)bij ·g(100k∈V(j)bkj ·vk)(1)将每个补丁中的组合信息聚合在一起,小区在传统的视觉算法中,γ通常是元素,当g(·)是恒等映射时,我们可以看到输入信号在“恒等”BCL之后发生了变化此外,由于重心插值,内部每个单形总是平滑的--因此,通过去除用于DownBCL的切片步骤和用于UpBCL的splat- ting步骤,我们减少了由启发式和非对称操作引起的此类错误。明智的乘法,g是平均函数。我们的g是一个convnet,γ是连接函数。通过这种方式,我们可以为两个点云组合不 同通道号的信号(逐 元素乘法 无法做到 这一点):我们将CorrBCL的输出信号和PC 1的信号连接起来作为PC 1的输入,并将PC 2的信号仅用作PC 2的输入,以用于下一个CorrBCL,见图2。4.第一章位移滤波。所有可能的补丁相关结果的蛮力聚合在计算上是禁止的。由于我们考虑的点云来自两个32581C2FC连续的时间实例和运动的l2范数是有限的,给定PC1中的格点x,我们可以在局部邻域内移动它,并将它与PC2中移动位置处的格点进行匹配,然后以滑动窗口方式聚合x的所有这样的配对匹配信息这类似于光流中的翘曲和剩余流[7,36],但我们在邻域内的每个位置都翘曲 令q表示位移滤波邻域大小和Of∈Zq×d表示偏移量ma,特里克斯对于PC1过滤定义为:位于x处,位移f(x)= h. c(x,x + Of[j])|j = 1,…其中c(·,·)是等式(3)中的块相关性。2,且h为aq-变量聚集Convnet注意,整个CorrBCL可以表示为以下通用pq变量函数:φ(x)= φγ(F(x+O[i]),F(x+O[j]+O[i]))| i=1,…p,j=1...,中文(简体)我们使用因式分解技术将参数的数量从O(pq)保存到O(p+q),这类似于[40,16],并且我们的每一步都有物理意义。图图3示出了CorrBCL的示例,其中d = 2并且相关和位移滤波具有相同的邻域大小p=q=7。4.3. 密度归一化由于点云通常是以非均匀密度和稀疏采样的因此,需要一种归一化方案来使BCL更鲁棒。BCL [23,21,38]的所有先前工作都使用以下非可学习滤波算法[2]之后的归一化方案:在第二轮中对输入信号进行滤波,其值被高斯核的1替换,并且滤波值用作归一化权重。然而,这种方案并不适合我们的任务(见消融研究)。与图像滤波不同,我们的滤波权重是学习的,因此相反,我们建议向飞溅信号添加密度归一化项:k∈V(j)bkj·vk图4:HPLFlowNet架构。具有相同名称的层共享权重。S是缩放因子。Rel. POS. 在SEC中解释。4.4采样密度也是一样,但它们的方案大大增加了2)它直接适用于CorrBCL;以及3)实验结果表明,该方法在不需要进行微调的情况下,在不同的点密度下具有很好的4.4. 网络架构HPLFlowNet的网络架构如图所示。4.第一章我们使用沙漏状模型,因为它在2D图像应用中具有良好的性能[26,37]。它有一个Siamese-like下采样阶段与信息融合和上采样阶段。在下采样阶段,具有逐渐减小的尺度的DownBCL被堆叠,使得更高层中的格点具有更大的感受野,并且更大体积内的信息被收集到每个格点。由于PC2对于制作场景很重要,uj=k∈V(j) bkj(五)流量预测,它通过与PC1分享重量。不像以前的工作[25,12],其中,u,j表示格点j的溅射信号,并且其他符号与等式(1)相同1.一、这种设计的优点是:1)在溅射期间执行归一化。与原方案中的三步流水线归一化相比,新方案节省了计算量。值得注意的是,[35]提出了非均匀的融合信号从PC1和PC2只有一次,我们使用多-在不同的尺度上进行CorrBCL,以实现更好的信号融合。在上采样阶段,我们通过堆叠逐渐增加规模的UpBCL来逐渐细化预测,最后切回PC1中的点。对于每个UpBCL,我们使用来自其对应的Down-BCL和CorrBCL的输出的跳过链接PC1(n1xdf)PC2(n2xdf)Rel. POS.Rel. POS.DownBCL 1,s=3 DownBCL 1,s=3Rel.POS.Rel.下BCL 2,s=2下BCL 2,s=2Rel.POS.Rel.DownBCL 3,s=1 DownBCL 3,s=1CorrBCL 1,s=1Rel. POS.Rel. POS.向下BCL 4,s=0.5向下BCL 4,s=0.5CorrBCL 2,s=0.5Rel. POS.Rel. POS.下BCL5,s=0.25下BCL5,s=0.25CorrBCL 3,s=0.25Rel. POS.Rel. POS.下BCL6,s=0.125下BCL6,s=0.125CorrBCL 4,s=0.125Rel. POS.Rel. POS.下BCL 7,s=0.0625下BCL 7,s=0.0625CorrBCL 5,s=0.0625上BCL 7,s=0.0625Rel. POS.上BCL 6,s=0.125Rel. POS.上BCL 5,s=0.25Rel. POS.上BCL 4,s=0.5Rel. POS.UpBCL 3,s=1Rel. POS.UpBCL 2,s=2Rel. POS.UpBCL 1,s=31x1 ConvNet2产品中心 表示输入3259^^^在每个BCL处,我们将输入信号与其相对位置w.r.t.它的封闭单形(它的位置向量减去它的“第一个”封闭单形顶点的晶格坐标)。在图4中,我们使用Rel。POS. 以表示相对位置。通过直接向网络提供相对位置,它可以实现更好的平移不变。我们使用的CNN在一定的量化误差下是平移不变的,但与标准CNN不同的是,我们将信号从连续域插值到离散域,这会导致一些位置信息丢失。通过加入Rel. POS. 输入信号,这种损失是可以补偿的。由于我们模型的大多数层总是在稀疏的格点上操作为了训练HPLFlowNet,我们使用端点误差(EPE3D)损失:在每个点上求平均值,其中sf表示预测的场景流矢量,sf表示地面实况。EPE 3D是EPE的对应物,用于2D光流估计。5. 实验我 们 展 示 了 以 下 实 验 的 结 果 : 1 ) 我 们 在 合 成FlyingTh-ings 3D数据集上训练和评估我们的模型,2)还直接在真实世界的KITTI Scene Flow数据集上测试它,而无需微调。3)我们在具有不同点密度的输入上测试模型,4)在架构和单层水平上的计算成本,以及5)进行消融研究以分析每个组件的贡献。评估指标。 EPE3D(m):我们的主要指标,每个点的平均值为Δsf−sf Δ2。Acc3D Strict:精确度的严格版本,其EPE3D<0的情况。05m或相对误差<5%。Acc3D Relax:精确度的放松版本,其EPE3D<0 的情况。1m或相对误差10%。 0的离群值百分比。3m或相对误差>10%。通过将点云投影回图像平面,我们获得了二维光流。 通过这种方式,我 们 的 方 法 在 光 流 估 计 中 的 效 果 如 何 。 EPE2D( px ) : 2D 端 点 误 差 , 这 是 光 流 的 常 用 度 量 。Acc2D:EPE2D3px或相对误差5%的点的百分比。<<5.1. 关于FlyingThings3DFlyingThings3D [29]是 第一 个大 规 模的 合成 数 据集,可以训练深度神经网络进行场景流估计。据我们所知,它是唯一一个拥有超过10,000个训练样本的场景我们使用所提供的相机参数重建三维点云和地面实况场景流。培训和评估详情。在[29,18,19]之后,我们使用数据集版本,其中删除了一些非常困难的样本3。为了模拟真实世界的点云,我们删除点的视差和光流被包括。 在[25]之后,我们在深度小于35米的点上进行训练。大多数前景移动物体都在这个深度范围内。 我们以非对应的方式从每个帧中随机采样n个点:在第二帧的采样点中不一定能找到第一帧的对应点。我们使用n=8,192进行训练。为了减少训练时间,我们使用了四分之一的训练集(4910对),这已经产生了良好的泛化能力。在FlyingThings 3D/KITTI上,对整个训练集进行微调后的模型达到0.0696/0.1113 EPE 3D我们对整个测试集(3824对)进行了评估。基线。我们比较以下方法:迭代最近点[5]:场景流估计的公共基线,该算法迭代地修改所需的刚性变换以最小化误差度量。FlowNet3D[25]:使用点云输入进行场景流估计的最新技术。由于代码不可用,我们使用自己的实现。SPLATFlowNet:基于SPLAT-Net的强大基线[38];架构是SPLATNet与CorrBCL的Siamese网络它不使用沙漏架构,而是连接不同尺度的BCL和CorrBCL的所有输出来进行预测。原始BCL:我们用以前工作中使用的原始BCL替换DownBCL和UpBCL [23,21,38],同时保持其他所有内容与我们的模型相同。我们还列出了FlowNet3[19]的结果以供参考,因为输入是不同的模态。这是最先进的立体声输入我们删除预测极其错误的点(例如,相反符号的差异)结果定量结果示于表1中。我们的方法在所有指标上都优于所有基线,并且是EPE3D低于10cm的唯一方法。FlowNet 3具有最好的Acc 2D,因为它的光流网络是在2D度量上优化的;但是它具有更差的EPE 2D,因为我们主要对前景对象进行评估,由于投影,前景对象在2D中可能具有大的运动,因此难以预测。它很容易受到极端情况(更差的EPE 3D和EPE 2D)的影响,这一事实也表明,由于其间接的3D表示,使用立体声输入对预测误差更敏感。我们的方法优于FlowNet3D的原因可能是我们更好地恢复了结构信息,并设计了一个更好的架构来组合来自两个点云的信息我们的方法和3https://lmb.informatik.uni-freiburg.de/data/FlyingThings3D_subset/FlyingThings3D_subset_all_download_paths.txt3260表1:FlyingThings3D和KITTI Scene Flow 2015的评估结果我们的方法在所有指标上都优于所有基线方法(FlowNet3不能直接比较)。在KITTI上的良好性能表明了该方法数据集方法EPE3DAcc3D严格Acc3D RelaxOutliers3DEPE2DAcc2D[19]第十九话0.45700.41790.61680.60505.13480.8125ICP [5]0.40620.16140.30380.879623.22800.2913飞行物3D[25]第二十五话0.11360.41250.77060.60165.97400.5692[38]第三十八话0.12050.41970.71800.61876.97590.5512原始BCL0.11110.42790.75510.60546.30270.5669我们0.08040.61440.85550.42874.67230.6764[19]第十九话0.91110.20390.35870.74635.10230.7803ICP [5]0.51810.06690.16670.871227.67520.1056KITTI[25]第二十五话0.17670.37380.66770.52717.21410.5093[38]第三十八话0.19880.21740.53910.65758.23060.4189原始BCL0.17290.25160.60110.62157.34760.4411我们0.11690.47830.77760.41034.80550.5938图5:FlyingThings3D(上)和KITTI(下)的定性结果。 蓝色点是PC1,绿色点是正确预测(由Acc3DRelax测量)的流动点PC1+sf,红色点是未正确预测的地面实况流动点PC1+ sf。请注意,这两个数据集具有非常不同的运动模式,这表明我们的方法的泛化能力。第二行的第三个图显示了一些故障发生在地面上,这表明KITTI的性能可以通过更好的地面清除算法进一步提高SPLATFlowNet具有相似的深度,并使用相同的构建块,因此我们的性能增益可以归功于我们的沙漏状模型和跳过链接,这些链接在下采样和上采样阶段结合了滤波信号。与原始BCL的比较表明,我们提高了性能,减少和验证的启发式和不对称性质的重心插值,使它更好地避免不必要的操作。图5示出了定性结果。我们的模型表现良好的复杂形状,大的运动,也很难的情况下,多个相邻的对象有不同的运动。5.2. 真实世界数据接下来,为了研究我们的模型评估详情。 KITTI场景流2015获得通过使用所有运动车辆的详细3D CAD模型从KITTI原始数据收集中注释动态场景由于测试集没有给出差异,我们使用公开的原始3D数据对训练集中的所有142个场景进行评估,如下[25]。 由于在自动驾驶中,地面的运动是无用的,并且移除地面是常见的步骤[11,41,25],因此我们通过高度(<0. 3米)。我们使用与Sec中5.1除了我们不删除遮挡点。结果我们的方法再次优于所有其他方法在所有指标的大幅度;参见表1。这证明了我们的方法在没有地面移除 的 情 况 下 , 我 们 的 /FlowNet 3D EPE 3D 为0.2366/0.3331,所以我们的仍然更好。定性结果见图。五、 尽管我们的方法是在具有非常不同的模式和不同对象的数据集上训练的,但它在自我运动很大并且多个动态对象具有不同运动的驾驶场景中进行了精确的估计。它还能正确预测网络在训练过程中从未见过的树木和灌木丛。5.3. 经验效率我们的架构针对性能进行了优化。为了展示我们提出的新型BCL变体的效率,3261表2:效率比较:FlyingThings3D在单个Titan V上测量的平均运行时间(ms)我们的和我们的浅的更有效率。表4:FlyingThings3D上的消融研究(EPE 3D)结果表明,每个组件都很重要。方法8,19216,384 32,768NoSkipsOneCorrOriNormEM无相关POS.充分[25]第二十五话130.8279.2770.00.31490.36980.65830.09480.09890.0804我们98.4115.5142.8我们的浅水区50.555.163.7表3:FlyingThings3D和KITTI上不同点密度下的结果(EPE3D)。FlowNet 3D的一些结果缺失,因为在速度和/或内存优化方面没有显著牺牲的情况下,算法运行完毕。我们的密度归一化方案工作良好,并实现了supere- rior性能的所有测试密度不同的训练密度。数 据 集 点 数 Ours No Norm Ours-shallow FlowNet 3D 8 , 1920.08040.0790 0.0957 0.1136FlyingThings3D16,384 0.07822019年12月31日我们通过删除Down/UpBCL 6/7和CorrBCL 4/5,并减少卷积,来制作一个更浅的版本Ours-shallow以取得详细数据)。表2显示了不同模型之间的效率比较结果。我们的比FlowNet3D更快。我们的浅是非常快的,也优于所有其他方法(表。(3)第三章。而且我们的运行时间并不随输入点的数量线性缩放,这从经验上验证了我们的架构设计。并与原BCL w.r.t.层效率。我们测量我们架构中每个BCL变体的运行时间,在FlyingThings3D上取平均值然后,我们用原始BCL替换它们,并做同样的事情。所有层上我们与原始BCL的平均比值:百分之五十六我们在Supp中进行了更详细的分析。5.4. 点密度的推广结果接下来,我们评估我们的模型如何推广到不同的点密度。在训练过程中,我们为每帧采样8,192个点。在没有任何微调的情况下,我们对16,384,32,768,65,536个采样点进行评估。对于KITTI,我们也对所有点进行评估。由于我们的架构设计,我们具有能够一次处理大规模点云的优势,因此不需要像[33,35]那样划分场景并将各部分逐个输入网络。在我们所有的实验中,我们将两个完整的点云一次送入网络。KITTI中一帧的最大点数约为86K。表3显示了两个数据集上各种点密度的性能,其中我们还与没有归一化方案的相同架构进行了比较(NoNorm)。结果表明,归一化方案具有较小的信息损失。在训练我们的架构具有归一化的密度,但我们的架构在不同的密度下是最强大5.5. 消融研究为了研究每个组件的贡献,我们进行了一系列消融研究,每次我们只改变一个组件:NoSkips:我们删除所有跳过链接。OneCorr:为了验证使用不同规模的多个CorrBCL是否可以提高性能,我们只保留最后一个CorrBCL。OriNorm:我们将每个BCL的归一化方案替换为先前工作中使用的原始归一化方案[23,21,38]。• 元素乘法(EM):我们在补丁相关中使用逐元素乘法。由于逐元素乘法不支持不同的输入特征输入两个点云的长度,我们删除从前一个CorrBCL到下一个CorrBCL的• 无相关性。POS. :我们移除与输入信号连接的所有相对位置。我们从表4中看到,原始归一化方案对于场景流估计不起作用。跳过链接和多个CorrBCL都有很大的贡献。我们看到,通过使用级联而不是逐元素乘法,我们能够将先前的CorrBCL链接到下一个CorrBCL,从而提高性能。通过采取全局和局部位置信息,我们的模型获得了更好的性能。6. 结论我们提出了HPLFlowNet,这是一种用于大规模点云场 景 流 估 计 的 新 型 深 度 网 络 。 我 们 提 出 了 新 的DownBCL,UpBCL和CorrBCL和密度归一化方案,这使得我们的网络的大部分在不同尺度的permutohedral晶格上鲁棒地执行。这大大节省了计算成本,而不牺牲性能。通过大量的实验,证明了该方法相对于各种计算方法的优越性。致 谢 。这 项 工 作 得 到 了 部 分 支 持由 NSF IIS-1748387、TuSimple和NVIDIA捐赠的GPU组成。32,768 0.07740.08740.09250.132765,536 0.07720.12670.0925-8,19216,3840.11690.11140.11870.13050.16300.16460.17670.2095·KITTI32,768 0.10870.16630.16710.3110·65,536 0.10870.18420.1674-所有0.10870.18530.1674-·3262引用[1] A.B.亚当斯计算摄影的高维高斯滤波。博士论文,斯坦福大学,2011年。3[2] A. Adams,J. Baek和M.A.戴维斯使用置换面体晶格的快速高维滤波。在Computer Graphics Forum,第29卷,第753-762页,2010中。 二三四五[3] J. Baek和A.B.亚当斯高斯滤波用全多面体格点的一些有用性质。技术报告斯坦福大学,2009年。3[4] S. Bai,X.白氏Z. Zhou,Z. Zhang和L.扬·拉特克。礼物:一个实时和可扩展的3D形状搜索引擎。在CVPR,2016年。2[5] P.J. Besl 和 N.D. 麦 凯 三 维 形 状 配 准 方 法 。 在 SensorFusion IV中:控制范式和数据结构,1992年。六、七[6] D. Boscaini,J. Masci,S. Melzi,M.M.布朗斯坦大学Castel-lani,和P.范德海恩斯使用局部谱卷积网络学习可变形形状的类特定描述符。在计算机图形论坛,2015年。2[7] T. Brox,A. Bruhn,N. Papenberg和J. Weickert基于变形理论的高精度光流估计见ECCV,2004年。5[8] J. Bruna,W.Zaremba、A.Szlam和Y.乐存。图上的谱见ICLR,2014年。2[9] Z.曹湾,加-地Huang和R.卡提克经由球面投影的3D对象分类。在3DV,2017年。2[10] M. Defferrard,X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。在NIPS,2016年。2[11] A. Dewan,T. Caselitz,G.D. Tipaldi和W. Burgard 三维激光雷达扫描的刚性场景流。在IROS,2016年。二、七[12] A. 多索维茨基山口Fischer、E.Ilg,P.豪塞尔角哈齐尔巴斯Golkov,P. Van Der Smagt,D. Cremers和T.布洛克斯Flownet:使用卷积网络学习光流在ICCV,2015年。5[13] B. Graham,M. Engelcke和L.范德马滕。用子流形稀疏卷积网络进行三维空间分割。在CVPR,2018年。2[14] M. Henaff,J.Bruna和Y.乐存。深度卷积网络-适用于图形结构数据。arXiv:1506.05163,2015。2[15] E. Herbst,X. Ren和D.狐狸. Rgb-d流:使用颜色和深度的密集三维运动估计。InICRA,2013. 1[16] A.G.Howard , M.Zhu , B.Chen , 中 国 粘 蝇D.Kalenichenko,W.小王,T. Weyand,M. Andreetto和H. Adam. Mobilenets:用于移 动 视 觉 应 用 的 高 效 卷 积 神 经 网 络 。 arXiv :1704.04861,2017。5[17] H. Huang,E. Kalogerakis,S. Chaudhuri,D. Ceylan,V.G. Kim和E.好极了从多视图卷积网络的部分对应中学习 局 部 形 状 描 述 符 。 ACM Transactions on Graphics(TOG),2017年。2[18] E. Ilg,N. Mayer,T. Saikia、M. Keuper,A. dosovitskiy和T.布洛克斯流动网络2.0:利用深度网络的光流估计的演进。在CVPR,2017年。63263[19] E. Ilg,T.Saikia、M.Keuper和T.布洛克斯遮挡、运动和深度边界,以及用于视差、光流或场景流估计的通用网络。在ECCV,2018。二六七[20] M.哈梅兹角Kerl,J. Gonzalez-Jimenez,and D.克莱姆斯基于几何聚类的rgb-d摄像机快速测距和场景流。在ICRA,2017
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功