没有合适的资源?快使用搜索试试~ 我知道了~
FlowNet3D:点云中学习场景流
1FlowNet3D:在3D点云中学习场景流刘兴宇CharlesR. QiQi 2Leonidas J.Guibas1,21斯坦福大学2Facebook AI Research摘要机器人和人机交互中的许多应用可以受益于理解动态环境中点的3D运动,广泛称为场景流。虽然大多数以前的方法集中在立体和RGB-D图像作为输入,很少尝试直接从点云估计场景流。在这项工作中,我们提出了一个新的点云1:n1 ×3点云2:n2 ×3场景流:n1 ×3一个名为FlowNet3D的深度神经网络,以端到端的方式从点云学习场景流。我们的网络工作同时学习深层次的点云和流嵌入的特点,代表点运动,支持两个新提出的学习层的点集。我们对FlyingThings3D和KITTI的真实激光雷达扫描具有挑战性的合成数据进行了评估。仅在合成数据上训练,我们的网络成功地推广到真实扫描,优于各种基线,并显示出与现有技术竞争的结果。我们还展示了我们的场景流输出(扫描配准和运动分割)的两个应用程序,以显示其潜在的广泛用例。1. 介绍场景流是场景中点的3D运动场[27]。其到图像平面的投影变成2D光流。它是对动态环境的低层次理解,没有任何关于场景的结构或运动的有了这种灵活性,场景流可以服务于许多更高层次的应用。例如,它为对象分割、动作识别、相机姿态估计提供运动提示,甚至可以作为其他3D视觉问题的规则化。然而,对于该3D流估计问题,大多数先前的工作依赖于2D表示。它们将光流估计方法扩展到立体或RGB-D图像,并且通常单独估计光流和视差图[33,28,16],而不是直接优化3D场景流。这些方法不能应用于点云是唯一输入的情况最近,机器人领域的研究人员开始研究直接在3D点上进行场景流估计* 表示贡献相等。图1:从点云进行端到端场景流估计。我们的模型直接消耗来自两个连续帧的原始点云,并输出密集的场景流(作为平移向量)的所有点在第一帧。云(例如[25 ]《易经》[27]但这些工作并没有从深度学习中受益,因为它们基于手工制作的功能构建了多阶段系统,使用了简单的模型,如逻辑回归。通常涉及许多假设,例如假设场景刚性或点对应的存在,这使得这些系统难以适应另一方面,在学习领域,Qi等人。[19,20]最近提出了新的深度架构,直接消耗点云进行3D分类和分割。然而,他们的工作集中在处理静态点云。在这项工作中,我们通过提出一个名为FlowNet3D的深度神经网络来连接上述两个研究前沿,该网络可以端到端地学习3D点云中的场景流。如图所示。1,给定来自两个连续帧(点云1和点云2)的输入点云,我们的网络估计第一帧中的每个点的平移流矢量,以指示其在两帧之间的运动。该网络基于[19]中的构建块,能够同时学习点云的深层层次特征和表示其运动的流嵌入。虽然两个采样点云之间没有对应关系,但我们的网络通过我们新提出的流嵌入层学习将点从它们的空间位置和几何相似性中关联起来。每个输出嵌入隐式表示点的3D运动。从嵌入中,网络通过另一个新颖的设置upconv层以知情的方式进一步上采样和细化它们。与直接特征529FlowNet3D530使用3D插值进行上采样,设置upconv层学习基于点的空间和特征关系对点进行上采样。我们广泛研究了我们的模型中的设计选择,并验证了我们新提出的点集学习层的有用性,与一个大规模的合成数据集(FlyingThings3D)。我们还在KITTI基准测试的真实LiDAR扫描上评估了我们的模型,与非深度学习方法的基线相比,我们的模型显示出明显更强的性能,并且与现有技术相比具有竞争力的结果。更值得注意的是,我们表明,我们的网络,即使是在合成数据上训练,也能够从真实扫描中稳健地估计点云中的场景流,显示出其强大的泛化能力。通过对少量真实数据进行微调,网络可以实现更好的性能。本文的主要贡献如下1:• 我们提出了一种新的架构称为FlowNet3D,估计场景流从一对连续的点云端到端。• 我们在点云上引入了两个新的学习层:一个流嵌入层,它学习将两个点云,以及一个学习将特征从一组点传播到另一组点的setupconv层• 我们展示了如何将所提出的FlowNet3D架构应用于KITTI的真实LiDAR扫描,并在3D场景流中实现大幅改善的结果。与传统方法相比。2. 相关工作来自RGB或RGB-D图像的场景流。 Vedula等人[27]首先引入了场景流的概念,作为三维场世界中的运动矢量。他们认为,summed立体对应的知识,并结合光流和一阶近似的深度图,以估计场景流。自从这项开创性的工作以来,许多其他人已经尝试从立体图像[12,18,34,26,5,33,28,29,1,30,16]联合估计结构和运动,大多数是在具有运动和结构平滑度的正则化的变分设置中[12,1,26],或者假设局部结构的刚性[29,16,30]。随着最近商品深度传感器的出现,通过将变分2D流算法推广到3D [10,14]并利用深度通道提供的更多几何线索[21,11,23],从单眼RGB-D图像[9我们的工作重点是直接从点云中学习场景流,而不依赖于RGB图像或假设。来自点云的场景流。 最近,Dewan et al.[7]提出在3D LiDAR扫描中估计密集刚性运动场。他们将问题表述为因子图的能量最小化问题,并使用手工制作的SHOT [24]描述 符进行 对应 搜索。 后来, Ushani etal.[25]提出了一个不同的管道:他们训练一个逻辑分类器来判断两列occu-可移动网格是否对应,并制定一个EM算法来估计局部刚性和非变形流。与这些以前的工作相比,我们的方法是一个端到端的解决方案,具有深度学习的功能,不依赖于硬对应或刚性假设。与我们的工作同时,[2]估计场景流作为单个对象或背景的刚性运动,并与网络联合学习回归自我运动和检测3D对象。[22]联合估计对象刚性运动并基于它们的运动将它们分段。最近的一项工作[32]也探索了使用新提出的点云学习网络来估计场景流,但其具体实现的细节很少基于深度学习的相关方法。 FlowNet [8]和FlowNet2.0 [13]是两个开创性的作品,它们建议以端到端的方式使用卷积神经网络学习光流,以极高的效率显示出具有竞争力的性能。[15]将FlowNet扩展到同时估计视差和光流。[32]提出了点云中场景流的参数连续卷积。我们的工作受到了基于深度学习的光流预测尝试的成功启发,并且可以被视为它们的3D对应物然而,点云中的不规则结构(没有图像中的规则网格)为新颖建筑的设计提出了新的挑战和机遇,这是这项工作的重点。3. 问题定义我们设计了深度神经网络,从点云的连续帧中估计3D运动流。我们的网络的输入是从一个动态的3D场景,在两个连续的时间帧处:|i=1,. . . ,n1}(点云1)和Q={y,j|j=1,. . . ,n2}(点云2),其中xi,yj∈ R3是各个点的XY Z坐标。注意,由于物体的运动和视角-点改变时,两个点云不一定具有相同数量的点或在它们的点之间具有任何对应关系还可以包括更多的点特征,例如颜色和激光雷达强度。为了简单起见,我们只关注XY Z现在考虑采样点下的物理点xi移动到第二帧处的位置x′,则trans-i刚性和相机运动。i′1代码可在https://github.com/xingyul/ flownet3d上获得。该点的水平运动矢量是di=xi-xi。我们目标是,给定P和Q,恢复第一帧中每个采样点的场景流:|i=1,. . . ,n1}。531i=1j=1i=1JJJ′Ji=1()n1(c3)n2(c3)n()(c)()图2:用于点云处理的三个可训练层。左:设置conv层学习深度点云特征。 中间:流嵌入层,用于学习两个点云之间的几何关系以推断运动。右:设置upconv层,以可学习的方式对点要素进行上采样和传播。4. FlowNet3D架构在本节中,我们将介绍FlowNet3D(图)。3)点云上的该模型有三个关键模块:(1)点特征学习,(2)点混合,和(3)流细化。这些模块下有三个关键的深度点云处理层:set conv层、流嵌入层和setupconv层(图2)。在下面的小节中,我们详细描述了每个模块及其关联层,并在第二节中详细说明了最终的FlowNet3D架构。4.44.1. 分层点云特征学习由于点云是一组不规则且无序的点,因此传统的卷积不适合。因此,我们遵循最近提出的PointNet++架构[20],这是一种学习分层特征的不变性网络。虽然set conv layer2是为3D分类和分割而设计的,但我们发现它的特征学习层对于场景流的任务也很强大。如图2(左),一个集合conv层采用一个具有n个点的点云,每个点pi={xi,fi}具有其XY Z坐标xi ∈ R3及其特征fi ∈ Rc(i = 1,.,n),4.2. 具有流动嵌入层的点混合为了混合两个点云,我们依赖于一个新的流嵌入层(图1)。2中间)。为了激发我们的设计,想象一个点在帧t,如果我们知道它在帧t+1中的对应点,那么它的场景流就是它们的相对位移。然而,在真实数据中,由于视点偏移和遮挡,两帧中的点云之间往往没有对应关系。尽管如此,仍然可以估计场景流,因为我们可以在帧t+ 1中找到多个软对应点并做出我们的流嵌入层学习聚合点的(几何)特征相似性和空间关系,以生成编码点运动的嵌入。与只接受一个点的set conv层相比,云,流嵌入层采用一对点云:{pi=(xi,fi)}n1和{qj=(yj,gj)}n2其中每个点都有其XY Z坐标xi,yj∈ R3,以及特征向量fi,gj∈Rc。 层le为第一帧中的每个点提供流嵌入:{ei}n1其中ei ∈Rc.我们还将点的原始坐标xi传递给第一帧到输出,因此最终层输出为{o i=(x i,e i)}n1.并输出具有n′个点的子采样点云,其中每个点p′={x′,f′}具有其XY Z坐标x′,下面计算ei的操作类似于一个在集合卷积层中。 然而,它们的物理意义j j j j′更新后的点特征f ′∈ Rc(j = 1,. n′)。具体而言,如[20]中更详细描述的,该层首先使用最远点采样(区域中心为x′)从输入点中采样n′个区域,然后对于每个区域(由半径r指定的半径邻域定义),它使用以下对称函数有很大的不同 对于第一帧中的给定点P1该层首先在其半径邻域中找到来自第二帧的所有点Qj(突出显示的蓝色点)。如果特定点q={y∈,g∈}对应于pi,则pi的流仅为y∈−xi。由于这种情况很少存在,我们转而使用神经层来聚合来自所有相邻的qj.Σf′=MAX′ei=MAX{h(fi,gj,yj−xi)}。(二)j{i|n{xi−x′n≤r}h(fi,xi−xj).(一){j|yj −xi <$≤r}其中h是具有可训练参数的非线性函数其中h:Rc+3→Rc′是一个非线性函数(实现为多层感知器),输入为级联的fi和xi− x′,MAX是逐元素的最大池化。2在[20]中称为集合抽象层。我们将其命名为set conv,以强调其空间局部性和平移不变性。类似于集合conv层,MAX是逐元素最大池化。与等式(1),我们将两个点特征输入到h,期望它学习计算另一种表述是明确地规定如何我们通过计算特征距离,设置转(c)嵌入设置转换532JΣjJJJ(一)(2)3点特征学习点混合物流细化图3:FlowNet3D架构。给定两帧点云,网络学习将场景流预测为第一帧中每个点的平移运动矢量。层和Sec. 4.4有关网络架构的更多详细信息。dist(fi,gj). 然后将特征距离馈送到非线性函数h(而不是直接馈送fi和gj)。在消融研究中,我们表明,我们的公式在方程。(2)学习比该替代方案更有效的流嵌入计算出的流嵌入通过几个更多的集合卷积层进一步混合,使得我们获得spa。SetupConv层本身是灵活的,以采用不必要地对应于任何真实点的任何数量的目标位置它是一个灵活且可训练的层,用于将特征从一个点云传播/汇总到另一个点云。与上采样点要素平稳性。 这也有助于解决模棱两可的情况{i|n{xi−x′n≤r}w(x i,x′)f i 与 W 作为 归一化(例如:点的表面上的一个转换表),需要用于流量估计的大的感受野4.3. 使用设置上转换层进行在该模块中,我们将与中间点相关的流嵌入上采样到原始点,并在最后一层预测所有原始点的流。上采样步骤通过可学习的新层–图2(右)示出了设置conv层的过程。图层的输入是源点{pi={x i,f i}|i = 1,. . . ,n},以及一组目标点坐标{x′|j = 1,. . . ,n′},这些位置是我们想要将源点特征传播到的位置。对于每个目标位置 ′逆距离权重函数[20]),我们的网络学习如何加权附近点的特征,就像流嵌入层如何加权位移一样。我们发现,新的设置upconv层的实证结果显示出显着的优势。4.4. 网络架构最终的FlowNet3D架构由四个集合卷积层、一个流嵌入层和四个集合卷积层(对应于四个集合卷积层)以及输出R3预测场景流的最终线性流回归层组成。对于set upconv层,我们也有跳过连接来连接set conv输出功能。每个可学习层对函数h采用多层感知器,其中有几个Linear-BatchNorm-ReLU层pa。x′层输出其点特征f′∈Rc(传播由其线性层宽度来量化详细图层在我们的情况下是流嵌入),震源点有趣的是,就像在图像中的2D卷积中,upconv2D可以通过conv2D来实现一样,我们的集合upconv也可以直接用等式中定义的相同集合conv层来(1),但具有不同的局部区域采样策略。我们不像在集合卷积层中那样使用最远点采样来找到x′,而是计算特征′在指定位置上的目标点{x′}n。参数见表1。5. 使用FlowNet3D进行训练和推理我们采用监督的方法来训练FlowNet3D模型,并使用地面实况场景流监督。虽然这种密集的监督很难在真实数据中获得,但我们利用大规模的合成数据集(FlyingThings3D),并表明我们在合成数据上训练的模型具有良好的泛化j j=1注意,尽管在我们的上采样情况下n′> n,到真正的激光雷达扫描(第二节)。6.2)。跳过连接设置转换层(1/8)6433流嵌入设置转换层设置转换层512设置转换层(1/83)128(1/128)3(一)3(/86423点云1点云2场景流533i=1j=1i=1我i=1表1:FlowNet3D架构规格。请注意,最后一层是线性的,因此没有ReLU和批量归一化。循环一致性正则化的训练损失。我们使用平滑的L1损失(胡贝尔损失)的场景流超pervision,连同一个周期一致性正则化。给定点云P={xi}n1在帧t和一个点云Q={y j}n2在帧t+ 1,网络预测表2:FlyingThings3D数据集上的流量估计结果。场景流的端点误差(EPE),Acc(<0.05或5%,<0.1或10%)。数据集与场景流注释,以我们所知的最好的3。因此,我们转向一个合成的,但具有挑战性的大规模数据集,FlyingThings3D,来训练和评估我们的模型,并验证我们的设计选择。场景流为D=F(P,Q;Θ)={di}n1其中F是FlowNet3D模型,参数为Θ。FlyingThings3D[15]。该 数据集由立体和场景流D={d}n1我们的损失定义为Eq。(三)、从具有多个范围的场景渲染的RGB-D图像i i=1在方程中,d′+di′是循环一致性项,从ShapeNet采样的圆顶移动对象[6]。 那里强制反向流{d′}n1=F(P′,P; Θ),总共有大约32k立体图像,具有地面真实感,i i=1移动点云P′={xi+di}n1到原始奇偶校验和光流图。 我们随机抽样点云P接近正向流的反向其中两万个作为我们的训练集,两千个作为我们的测试集。我们不使用RGB图像,而是通过以下方式预处理数据:L(P,Q,D,Θ)=1分1秒,、di −d(三)弹出视差图到3D点云和光学n1i ii=1随机再抽样推断。 点云回归问题(如场景流)的一个特殊挑战一种简单但有效的减少噪声的方法是随机重新采样点云进行多次推理运行,并对每个点的预测流矢量进行平均。在实验中,我们将看到这种重新采样和平均步骤会带来轻微的性能提升。6. 实验在本节中,我们首先评估和验证第2节中6.1与一个大规模的合成数据集(FlyingThings3D),然后在第二节。6.2我们展示了我们在合成数据上训练的模型如何成功地推广到KITTI的真实激光雷达扫描最后,在第6.3我们展示了场景流在3D形状配准和运动分割上的两个应用6.1. FlyingThings3D的评估和设计验证由于标注或获取稠密场景流需要大量的真实数据,流到场景流。我们将公布我们准备好的数据。评估指标。我们使用3D端点误差(EPE)和流量估计精度(ACC)作为我们的指标。3D EPE测量估计流矢量与地面实况流矢量之间的平均L2流量估计精度测量所有点中低于指定端点误差的估计流量矢量的部分我们报告了两个不同阈值的ACC指标。结果表2报告了测试集的流量评估结果,将FlowNet3D与各种基线进行了比较。在基线中,FlowNet-C是一个CNN模型,[13],其学习从一对深度图像或RGB-D图像(转换为XY Z坐标图以供输入的深度图像)预测场景流,而不是如最初在[13]中那样从RGB图像预测光流(补充中的然而,我们看到,这种基于图像的方法很难预测准确的场景流,这可能是因为2D投影视图中的强烈遮挡和混乱 我们还比较了ICP(迭代3我们在第二节中测试的KITTI数据集。6.2只有200个带注释的帧。[31]提到了一个更大的数据集,但它属于Uber,并没有公开。层类型R采样率MLP宽度设置转换集合卷积流嵌入set convset convsetupconvsetupconvset线性0的情况。51 .一、0五、0二、04.第一章04.第一章0二、01 .一、00的情况。50的情况。5×0的情况。25×1×0的情况。25×0的情况。25×4×4×4×2×-[32、32、 64][64,64,128][128、128、128][128,128,256][256,256,512][128,128,256][128,128,256][128、128、128][128、128、128]∗3方法输入EPEACC ACC(0.05)(0.1)FlowNet-C [8]深度0.78870.20%1.49%RGBD0.7836百分之零点二五1.74%ICP [3]点0.50197.62%21.98%EM基线(我方)点0.58072.64%百分之十二点二一LM-基线(我们的)点0.78760.27%1.83%FlowNet3D(我们的)点0.169425.37% 57.85%534特征距离池化细化多重采样循环-一致性EPE早混晚混共享局部特征局部特征深层混合表3:FlyingThings3D数据集上的消融研究。 我们研究了距离函数的影响,h中的池化类型,流细化中使用的层,以及重新图4:场景流网络的三种元架构。 FlowNet3D(图3)属于深层混合物。采样和周期一致性正则化。最接近点)基线,该基线为整个场景找到单个刚性变换,该刚性变换匹配场景中的大对象,但不能适应输入中的多个独立令人惊讶的是,这个ICP基线仍然能够得到一些合理的数字(甚至比2D FlowNet-C更好)。我们还报告了三个基线深度模型的结果,这些模型直接使用点云(作为三个模型的实例FlowNet3D(我们的)点0.1225.61%-图中的元架构4). 他们混合点云,在早期、晚期或中间阶段的两个帧。EM基线在输入端将两个点云组合成一个集合,并通过为每个点附加长度为2的独热向量来区分它们LM基线首先从每帧计算点云的全局特征,然后将全局特征连接起来作为混合点 的 一 种 方 式 。 DM 基 线 在 结 构 上 类 似 于 我 们 的FlowNet3D(它们都属于DM元架构),但使用更简单的方法来混合两个中间点云(通过连接所有特征和点位移并使用完全连接的层对其进行处理),并且它使用3D插值而不是设置conv层来传播点特征。补充资料中提供了更多详细信息与这些基准模型相比,我们的FlowNet3D实现了更低的EPE以及更高的准确性。消融研究。表3显示了FlowNet3D的几种设计选择的效果。比较前两行,我们看到最大池化比平均池化有显著的优势,这可能是因为最大池化在挑选“对应”点时更具选择性,并且受噪声影响较小。从第2行到第4行,我们将我们的设计与使用特征距离函数的替代方案进行比较(如第2节所述)。4.2)与余弦距离和它的非标准化版本(点积)。我们的方法得到了最好的性能,表4:KITTI场景流数据集上的场景流估计(w/o地面点)。EPE的异常率(>0.3m或5%)。KITTI排名是KITTI场景流排行榜上的方法我们的FlowNet3D模型是在合成的FlyingThings3D数据集上训练的。与使用余弦距离相比,误差减少了11.6%。查看第4行和第5行,我们可以看到我们新提出的set upconv层将流错误显著减少了20%。最后,我们发现在推理(倒数第二行)和使用循环一致性正则化(λ = 0)进行训练期间进行了多次重新采样(10次)。(3)进一步提高业绩。最后一行表示FlowNet3D的最终设置6.2. 在KITTI中推广到实际激光雷达扫描在本节中,我们展示了我们在合成数据集上训练的模型,可以直接应用于从KITTI的真实激光雷达扫描中检测点云中的场景流。数据和设置。我们使用KITTI场景流数据集[17,16],该数据集旨在评估基于RGB立体的为了评估基于点云的方法,我们使用其地面真实标签和跟踪与帧相关联的原始点云。由于没有为独热矢量编码解码器局部特征集合转换共享逐点FC集合全局特征convs串联集合转换集合转换混合特征传播n2 ×3n()+3)n()+3)n1 ×3n2 ×3n1 ×3n1 ×3n1 ×3n1 ×3n2 ×3n1 ×3&n&点avginterp✗✗0.3163点Maxinterp✗✗0.2463余弦Maxinterp✗✗0.2600了解到Maxinterp✗✗0.2298了解到Maxupconv✗✗0.1835了解到Maxupconv✓✗0.1694了解到Maxupconv✓✓0.1626方法输入EPE(米)离群值(0.3m或KITTI排名[4]RGB-D0.49812.61%21OSF [16]RGB-D0.394八点二五厘9PRSM [30]RGB-DRGB立体0.3270.7296.06%6.40%3Dewan等人[七]《中国日报》点0.58771.74%-国际比较方案(全球)点0.38542.38%-535方法PRSM [30] PRSM [30] ICP FlowNet 3D FlowNet 3D + ICP FlowNet 3D(RGB立体)(RGB-D)(全局)(无微调)(无微调)(有微调)图5:KITTI点云上的场景流。我们展示了FlowNet3D在四个KITTI扫描上预测的场景流。激光雷达点被着色以指示来自帧1、帧2的点或作为平移点(点云1+场景流)的点。3D珍珠棉0.6680.3680.2810.2110.1950.1443D离群值6.42%6.06%24.29%20.71%13.41%9.52%表5:KITTI sceneflow数据集上的场景流估计(w/地面点)。前100帧用于微调我们的模型。所有方法都在剩下的50帧上进行了评估测试集(和部分训练集),我们使用可用的点云对来自训练集的200帧中的所有150帧进行评估。此外,为了保持与先前方法[7]的比较公平,我们首先在表4中的具有移除的地面4的激光雷达扫描上评估我们的模型(详见补充资料)。然后,我们报告了另一组完整的激光雷达扫描结果,包括表5中的地面点。基线。LDOF+depth [4]使用变分模型来求解光流,并将深度视为额外的特征尺寸。OSF [16]在超像素上使用离散-连续CRF,并假设物体的刚性运动。PRSM [30]在刚性移动段上使用能量最小化,并联合估计多个属性,包括刚性运动。由于三种基于RGB-D图像的方法不直接输出场景流(而是分别输出光流和视差),因此我们或者使用估计的视差,[4]地面是一大块平坦的几何体,它几乎没有提供运动的线索,但同时占据了很大一部分点,这会使评估结果产生偏差。(第四行)或像素深度变化(前三行)来计算深度方向的流动位移。ICP(全局)估计整个场景的单个刚性运动。ICP(分割)是一个更强的基线,它首先计算地面移除后激光雷达点上的连接分量,然后估计点云每个单独段的刚性运动。结果在表4中,我们将FlowNet3D与针对2D光流优化的现有技术以及点云上的两个ICP基线进行了比较。与基于2D图像的方法[4,16,30]相比,我们的方法在场景流估计方面表现出很大的优势我们的方法也优于两个ICP基线,更依赖于刚性的全球场景或分割的此外,我们的结论是,我们的模型,虽然只训练合成数据,显着地概括以及真正的激光雷达点云。图5可视化了我们的场景流预测。 我们可以看到536输入点云ICP登记现场流程我们的注册图7:激光雷达点云的运动分割。左侧: 彩色激光雷达点和估计的场景流图6:两张椅子扫描的部分扫描配准。 目标是将点云1(红色)配准到点云2(绿色)。变换后的点云1为蓝色。我们展示了一个案例,ICP未能对齐椅子,而我们的方法接地密集的场景流成功。ICP场景流(SF)SF +刚性运动EPE0.3840.2200.125表6:点云扭曲误差。我们的模型可以准确地估计动态对象的流量,如移动的车辆和行人。在表5中,我们报告了地面点云的完整激光雷达扫描结果。我们还将数据分割为100帧,用于在激光雷达扫描上微调FlowNet3D模型,并使用其余50帧进行测试。我们看到,包括地面点对所有方法都产生了负面影响。但我们的方法仍然优于ICP基线。通过在分割的地面上采用ICP估计流量和在其余点上采用净估计流量(FlowNet3D+ICP),我们的方法也可以在EPE中击败现有技术(PRSM)PRSM导致异常率,因为地面流量估计与图像输入方法更友好。通过对激光雷达扫描的FlowNet3D进行微调,我们的模型甚至获得了更好的结果(最后一列)。6.3. 应用虽然场景流本身是理解运动中的低级别信号,但它可以为许多更高级别的应用提供有用的线索,如下所示(有关演示和数据集的更多详细信息包含在补充材料中)。6.3.13D扫描配准点云配准算法(例如,ICP)通常依赖于找到两个点集之间的对应关系。然而,由于扫描的重复性,通常没有直接的对应关系。在本演示中,我们将探索使用FlowNet3D预测的密集场景流进行扫描注册。由我们预测的场景流移位的点云1与原始点云1具有自然的对应关系我们在图中显示6,在部分扫描我们的场景流病毒载体。右:运动分割对象和区域。在ICP停留在局部最小值的情况下,基于配准的方法可以比ICP方法更鲁棒表6定量比较了ICP的3D扭曲误差(从扭曲点到地面实况点的EPE),直接使用我们的场景流和使用场景流,然后进行刚性运动估计。6.3.2运动分割我们在激光雷达点云中估计的场景流也可以用于场景的运动分割-在图7中,我们展示了KITTI场景中的运动分割结果,其中我们基于激光雷达点的坐标和估计的场景流矢量对激光雷达点进行聚类。我们可以看到,不同的移动汽车、地面和静止物体被清晰地分割开来。最近,[22]还尝试从RGB-D输入联合估计场景流和有趣的是,在未来的点云中增加我们的管道用于类似的任务7. 结论在本文中,我们提出了一种新的深度神经网络架构,它直接从3D点云估计场景流,这是第一个成功解决点云端到端问题的工作为了支持FlowNet3D,我们提出了一种新的流嵌入层,它可以学习聚合点的几何相似性和空间关系以进行运动编码,以及一个新的setupconv层用于可训练集特征传播。在具有挑战性的合成数据集和真实激光雷达点云上,我们验证了我们的网络设计,并展示了其与各种基线和现有技术相比具有竞争力或更好的结果我们还展示了两个示例应用程序,使用场景流估计从我们的模型。确认这 项 研 究 得 到 了 丰 田 - 斯 坦 福 AI 中 心 资 助 TRI-00387,NSF资助IIS-1763268,Vannevar Bush教师奖学金和亚马逊AWS的礼物的支持537引用[1] T. Basha,Y. Moses和N. Kiryati。多视图场景流量估计:一种以视图为中心的变分方法。IJCV,2013年。2[2] A. Behl ,D. Paschalidou,S. Don ne'和A. 盖格河点流网络:学习表示三维场景流估计从点云。arXiv预印本arXiv:1806.02170,2018。2[3] P. J. Besl和N.D. 麦凯一种三维形状配准方法TPAMI,1992年。5[4] T.布洛克斯和J·马利克大位移光流:变分运动估计中的描述器匹配。TPAMI,2011年。六、七[5] J. C.J. Sanchez-Riera和R. 霍罗德基于对应种子生长的场景流估计CVPR,2011。2[6]A. X. 张, T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. 苏肖湖,加-地Yi和F. Yu. ShapeNet:一个信息丰富的3D模型库。技术报告arXiv:1512.03012,2015。5[7] A. Dewan,T.卡塞利茨湾D. Tipaldi和W.Burgard 三维激光雷达扫描的刚性场景流。在IROS,2016年。一、二、六、七[8] A.多索维茨基山口Fischery,E.伊尔格角哈兹尔巴斯河谷戈尔科夫,P. van der Smagt,D.Cremers和T.布洛克斯Flownet:使用卷积网络学习光流在ICCV,2015年。二、五[9] S. Hadfield和R.鲍登使点运动:来自深度传感器的基于粒子的场景流。见ICCV,2011年。2[10] E. Herbst,X. Ren和D.狐狸. Rgb-d流:使用颜色和深度的密集三维运动估计。InICRA,2013. 2[11] M. Hornacek,A. Fitzgienic和C.罗瑟Sphereflow:来自rgb-d对的6自由度场景流。CVPR,2014。2[12] F. Huguet和F.德弗奈从立体序列中估计场景流的变分方法。载于ICCV,2007年。2[13] E. Ilg,N. Mayer,T. Saikia、M. Keuper,A. dosovitskiy和T.布洛克斯流动网络2.0:利用深度网络的光流估计的演进。在CVPR,2017年。二、五[14] M. Jaimez,M. Souiai,J. Gonzalez-Jimenez,and D.克雷默斯。一种实时密集rgb-d场景流的原-对偶框架。InICRA,2015. 2[15] N. 迈尔E. Ilg,P.豪塞尔,P. Fischer,D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集,用于训练用于视差、光流和场景流估计的卷积网络。在CVPR,2016年。二、五[16] M. Menze和A.盖革自动驾驶车辆的对象场景流在CVPR2015。一、二、六、七[17] M.门策角Heipke和A.盖革 车辆与场景流的联合三维估计。ISPRS图像序列分析研讨会(ISA),2015年。6[18] J. -蓬斯河Keriven和O.福格拉斯基于全局图像匹配分数的多视点立体重建和场景流估计。IJCV,2007年。2[19] C. R. Qi,H. Su,K. Mo和L.吉巴斯Pointnet:对点集进行深度学习,用于3D分类和分割。CVPR,2017年。1[20] C. R.齐湖,加-地Yi,H. Su和L.吉巴斯Pointnet++:度量空间中点集的深度层次特征学习。arXiv预印本arXiv:1706.02413,2017。一、三、四[21] J. Quiroga,T. Brox,F. Devernay和J.克劳力基于rgbd图像的稠密半刚性场景流估计。2014年,在ECCV。2[22] L. Shao,P.沙阿河Dwaracherla和J.博格基于稠密rgb-d场景 流 的 运 动 目 标 分 割 。 arXiv 预 印 本 arXiv :1804.05195,2018。二、八[23] D. Sun,E. B. Sudderth和H.菲斯特分层rgbd场景流量估计。CVPR,2015。2[24] F. Tombari,S.Salti和L.迪斯蒂法诺用于局部表面描述的直方图的独特签名ECCV,2010年。2[25] A. K.乌沙尼河W.沃尔科特墙和R. M.欧盟。一种从激光雷达 数据 中实 时估 算瞬 时场景 流的 学习 方法 。在ICRA,2017年。一、二[26] L. Valgagalan,A. Bruhn,H.作者:J. Stoll,和C.希奥博尔特从立体序列联合估计运动、结构和几何。ECCV,2010年。2[27] S. Vedula、S.贝克山口兰德河Collins和T.卡纳德三维场景流。载于ICCV,1999年。一、二[28] C. Vogel,K.Schindler和S.罗斯具有刚性运动先验的3D场景流见ICCV,2011年。一、二[29] C. Vogel,K. Schindler和S.罗斯分段刚性场景流。InICCV,2013. 2[30] C. Vogel,K.Schindler和S.罗斯基于分段刚性场景模型的三维场景流IJCV,2015年。二六七[31] S. Wang,S. Suo,W.- C. M. A. Pokrovsky和R.乌塔松深度参数连续卷积神经网络。在CVPR,2018年。5[32] Y. Wang,Y.太阳,Z.Liu,S.E. Sarma,M.M. 布朗斯坦,还有J. M.所罗门点云学习的动态图cnn。arXiv预印本arXiv:1801.07829,2018。2[33] A. Wedel,T. Brox,T.沃什角Rabe,U.弗兰克,还有D. 克莱姆斯用于三维运动理解的立体场景流计算IJCV,2011年。一、二[34] A.韦德尔角Rabe,T.沃什特布罗克斯大学弗兰克,还有D. 克莱姆斯来自稀疏或密集立体数据的高效密集场景流ECCV,2008年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功