2022年欧洲计算机视觉会议：点云场景流估计的双向学习架构

75 浏览量更新于2023-11-30 收藏 1.15MB PDF 举报

计算机视觉

点云分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文2022年欧洲计算机视觉会议（ECCV）Bi-PointFlowNet：基于点云的场景流估计Wencan Cheng1[0000 - 0002 - 7996 - 0236]和Jong Hwan Ko2[0000 - 0003 - 4434 - 4318]1韩国成均馆大学人工智能系，水原164192韩国成均馆大学信息通信工程学院，水原16419{cwc1260，jhko} @ skku.edu抽象的。场景流估计是提取场景间逐点运动信息的一个重要方法。然而，现有的估计方法都只利用了单向特征，限制了准确性和通用性。本文提出了一种新的场景流估计结构，使用双向流嵌入层。所提出的双向层沿前向和后向学习此外，分层特征提取和变形提高了性能，减少了计算开销。实验结果表明，该架构在FlyingThings3D和KITTI基准测试中均以较大幅度优于其他方法，取得了新代码可在https://github.com/cwc1260/BiFlow上获得。关键词：场景流估计，点云，双向学习1介绍场景流估计任务是从两个连续帧捕获逐点运动由于它提供了动态场景的基本底层信息，它已成为各种高级计算机视觉任务（包括目标检测和运动分割）中的重要步骤。因此，准确的场景流估计对于感知自动驾驶和机器人导航等现实应用中的动态环境至关重要[42，16]。早期的场景流估计方法采用RGB图像作为输入。然而，由于可以以三维（3D）点云的形式捕获动态场景的LiDAR传感器的应用越来越多，已经积极地研究了使用点云的 FlowNet3D [21]使用PointNet++ [32]的分层架构提出了第一个基于点云的估计模型。基于该方案，一些研究[37，9]提出了多尺度相关传播结构，以实现更准确的估计。最近，PointPWC[46]使用1arXiv：2207.07522v1 [cs.CV] 2022年7+v：mala2255获取更多论文2W.郑智辉<英>香港实业家。Ko.Fig. 1. 场景流估计的双向学习说明。从每个输入帧中提取的特征被双向传播，以生成有益于场景流估计的增强特征表示。估计的场景流与源帧一起变形，以便与目标帧进行清晰的比较以由粗到细的方式回归多尺度流另一项研究[30]提出了在神经网络中集成最佳运输解决模块，以估计场景流量。所有这些现有方法仅利用单向特征传播（即，将源点特征传播到目标点），用于计算流相关性。同时，各种自然语言处理（NLP）任务的模型[33，8，6，18]表明，由于其强大的上下文信息，双向学习的特征可以由于场景流估计也是一个时间序列处理任务，双向学习可以提高估计性能。双向卷积已经证明了它在光流估计上的有效性，这与场景流估计类似[11，43，14，12，20]。然而，据我们所知，没有先前的工作，利用双向学习的场景流在3D空间中的估计。基于这一动机，我们提出了双PointFlowNet，一种新的双向架构的点云为基础的场景流估计。如图1所示，可以通过从源特征的前向传播和从目标特征的后向传播来学习双向相关性。因此，每一帧都包含来自另一帧的知识，从而使特征产生更强的相关性。此外，建议的Bi-PointFlowNet采用粗到细的方法进行多尺度双向相关提取。我们在两个具有挑战性的基准上评估了所提出的模型，即Flying-ingThings 3D[23] 和 KITTI[26] 数据集，在遮挡和非遮挡条件下。在FlyingThings 3D数据集上，Bi-PointFlowNet优于所有现有方法，在非遮挡情况和遮挡情况下分别减少了44%和32%以上的估计误差。为了评估生成性能，我们在合成（FlyingThings3D）数据集上训练了模型，并在没有微调的情况下在真实世界的LiDAR扫描（KITTI Scene Flow2015）数据集上进行了与现有方法相比，结果表明，Bi-PointFlowNet实现了改进的通用性，在非遮挡和遮挡情况下分别降低了44%和21%的错误我们的双-源点Bi-PointFlowNet源要素目标点目标特征场景流（+源）流量预测器前向传播反向传播+v：mala2255获取更多论文基于点云的场景流估计的双向学习3PointFlowNet在保持高准确性的同时也显示出更好的时间效率。本文的主要贡献归纳如下：– 我们是第一个应用双向学习架构用于基于点云的3D场景流估计任务。该模型可以提取双向相关性，显着提高流量估计性能。– 我们提出了一种双向层的分解形式，优化了加速双向相关性提取的计算计数。– 该模型在遮挡和非遮挡条件下实现了合成FlyingThings3D和真实世界KITTI基准的最先进性能和2相关工作2.1场景流量估计由[39]首次引入的3D场景流表示场景中每个表面上每个点的密集3D运动早期的密集场景流估计方法[10，38，29，44，3，25，23，40]使用立体RGB图像作为输入。随着3D传感器的快速发展和基于点云的网络的出现[31，45，32]，一系列研究提出了使用原始3D点云来估计场景流。FlowNet3D[21]是第一项通过深度神经网络从两个原始点云帧估计场景流的研究。然而，FlowNet3D的性能受到其单一流相关性的限制。为了解决这个缺点，Gu et al.建议HPLFlownet[9]使用双边卷积层[13，34]捕获多尺度相关性。 PointPWC-Net [46]通过以粗到细的方式分层回归场景流，进一步提高了性能和效率。还有其他几种方法利用了所有对所有的相关性，包括通过解决最佳运输问题来学习所有对所有相关性的FLOT [30]，以及基于迭代最近点（ICP）算法迭代对齐点云的FlowStep3D [16][5，2]。然而，当输入点云包含大量点时，学习全对全相关矩阵在计算上是低效的。我们的Bi-PointFlowNet的灵感来自于这些基于点云的方法。它还采用了由粗到细的结构来捕获多层次的相关性，并减少计算开销。然而，所提出的方法与现有的模型不同，因为它利用双向学习，从源和目标特征收集上下文信息，以进行更准确的估计。2.2双向模型双向模型旨在基于当前和未来状态提取特征。他们能够捕获强大的上下文信息，+v：mala2255获取更多论文分层特征提取UP BFE FP UP BFE FP UP BFE FP UP BFE FPN/32，（3+256）N/16，（3+128）N/128，（3+256）N/4，（3+64）N，V分层特征提取N/4，（3+64）N/16、（3+128）N/128、（3+256）N/32、跳过链接N，N/32，（3+256）N/32，（3+256）N/16，（3+128）N/16，N/4，N，N，向前/向后源帧目标帧3D场景局部上采样传播三维坐标3D坐标流矢量特征特征Bidirectional aug-双向流增强特征嵌入4瓦。郑智辉<英>香港实业家。Ko.S不图二、用于场景流估计的Bi-PointFlowNet架构。（UP代表上采样层。BFE FP代表双向流嵌入层和流预测层。它们在同一块中可视化，以便清楚地表示。）首先，我们将两个连续的输入点帧送入共享的分层特征提取模块进行多级特征提取。然后，上采样层将特征从高级别传播到低级别，并将扭曲操作直接应用于上采样点。在每个上采样层之后，采用双向流嵌入层进行双向特征（前向特征和后向特征）传播和流嵌入生成。根据当前级别，将流嵌入立即馈送到流预测层中用于场景流回归这幅图最好用彩色来看。知识，这对许多时间序列处理任务，如自然语言处理（NLP）是有帮助的双向模型首先在双向RNN（BRNN）[33]中提出，它通过两个独立的网络向前和向后学习序列表示。随后，提出了一种更强大的结构，称为双向长短期记忆（BiLSTM）[8]，并成功应用于逐帧音素分类。在这些基础研究的基础上，人们积极探索了各种方法[1，49，28，24]。近年来，双向编码器表示Transformer（BERT）[6]及其变体[22，17]在包括语言理解[48，18，47]在内的各种应用中取得了压倒性的性能。最近，一系列研究表明，二维光流估计也可以光流[11]双向重用对称光流算法来提取前向和后向光流，然后通过双向运动和遮挡一致性来约束前向和后向类似地，Wang et al.[43]还提出了一种生成双向光流的方法，此外，Janai等人[14]提出了一种基于金字塔结构以粗到细的方式提取双向光流的方法。基于双向模型，Hur等人。[12]实现了一种架构，该架构通过使用先前的输出迭代地细化光流估计。翘曲翘曲翘曲+v：mala2255获取更多论文i=1j=1i=1∈{∈}∈基于点云的场景流估计的双向学习5然而，双向学习尚未在3D场景流估计中被探索。据我们所知，我们提出了第一个双向模型的场景流估计的基础上三维点云。与二维光流估计方法不同相反，我们只隐式地编码双向特征，如BRNN，并将它们融合到前向流估计中。因此，该模型可以消除冗余计算。3问题陈述基于点云的场景流估计是对动态场景中的三维逐点运动场进行输入是两个连续的点云帧，源帧S={pi=（xi，fi）}N和目标帧T={qj=（yj，gj）}M，其中eachp由3D坐标xi，yjR3及其对应特征fi，gjRc组成。输出是3D运动场向量N，表示从源帧到目标帧的逐点非刚性变换。我们的目标是估计表示从源帧朝向目标帧的最佳对准的最佳非刚性变换V。注意，N和M分别表示源帧和目标帧中的点数。然而，由于点云中的稀疏性和遮挡，N和M不需要相等。因此，学习两个帧之间的硬对应关系是不可行的。相反，我们直接学习源帧中每个点的流向量，就像最近的大多数方法[21，46，30，9，16，19]一样。4Bi-PointFlowNet提出的Bi-PointFlowNet估计场景流使用一个分层架构与双向流嵌入提取。网络接受两个连续的点云帧S和T作为输入。网络的输出是估计的场景流向量V。如图2、Bi-PointFlowNet由四个组件组成。首先，分层特征提取器在两个输入帧中提取多级局部特征第二，在不同的上采样级别上应用新型的双向流嵌入层，以进行多级双向相关提取。第三，上采样和扭曲层将特征从较高级别传播到较低级别。最后，流量预测器聚合双向相关性和传播特征以获得每个级别的流量估计4.1分层特征提取为了更有效地从点云中提取信息特征，我们采用了点云处理中常用的分层特征提取方案[32，45]。特征提取在L个级别中进行，用于生成+v：mala2255获取更多论文∈N{ } N{}6瓦。郑智辉<英>香港实业家。Ko.图三. 新的双向流嵌入层中的双向特征传播。每个点首先将来自其他点云的最近邻居分组，形成局部区域。（前向分组：源点将来自目标点的点分组。向后分组：目标点将源点的点分组。）每个点然后，将局部区域中的特征与从先前特征上采样传播的其自身局部特征连接。最后，具有共享参数的PointNet层接受局部区域作为输入，并更新每个点的双向增强特征。从密集到稀疏的分层特征。在每个级别l，密集输入点并通过最远点采样对其相应特征进行二次采样，形成稀疏点集。然后，k-最近邻被用来在每个下采样稀疏点周围局部分组密集点。最后，Pointconv[45]层聚合来自分组局部点的特征和坐标，并为每个二次采样点生成局部特征4.2双向流动包埋与传统的相关提取，仅使用两个连续帧之间的单向功能，我们提出了一种新的双向流嵌入（BFE）层，提供丰富的上下文信息。BFE层首先通过双向特征传播（BFP）模块生成双向增强特征表示，如图3所示。然后，一个传统的流嵌入（FE）层之后，提取相关嵌入流回归。设BFP模块的输入为P和Q，其中PS和QT是二次采样点。对于目标帧中的每一点pi P，BFP模块首先从形成群组NQ{pi}的源帧收集最近点。同样地，BFP模块从形成组NP{qj}的源帧t中的目标帧收集点。随后，给出了pi，qj及其群Qpi，Pqj由共享PointNet [31，32]层并行处理，以生成双向增强点表示。因此，双向增强点特征，pi = {xi，fi}1×（3 +Cin）复制{ym − xi，gm，fi}落后F&我K×（3 + CPointNet共享参数PointNet1×C#$t{p}$我在在{xn − yj，fn，gj}G&J向前K×（3 +Cin）K×（3 + C1×C#$tQ = {y，g}在在JJJ1×（3 +Cin）复制目标点Q源点P后向增广点P前向增广点Q+v：mala2255获取更多论文··i=1×−j=1× ××××∈我（ym，Wbgm）∈NQ{pi=（xi，Wrfi）}基于点云的场景流估计的双向学习7对于pi和对于wardaugmentedfeaturegj′，为qj分别表示为：f′=MAX（MLP（[ym−xi，gm，fi]）），（1）我（ym，gm）∈NQ{pi}g′=MAX（MLP（[xn−yj，fn，gj]）），（2）J （xn，fn）∈NP{qj}其中，MLP和MAX分别表示学习的PointNet的共享MLP和最大池化层，并且'[，]'表示信道级联运算符。由于输出估计仅是前向的，因此正常单向流嵌入（FE）相关层在BFP之后捕获从源双向扩增点到目标双向扩增点的相关性。我们将这种相关性称为双向流嵌入，因为它们是从双向特征中提取的。请注意，生成的增强点也被馈送到后续的上采样层，用于分层特征传播，这将在第2节中详细说明四点四4.3双向流嵌入的分解形式上述BFE层直接遵循标准程序（即，分组→−级联→−MLP→−最大-聚合），以将Local融合到for中，如[32]所示。然而，这个过程需要大量的操作，因为它应该为输入点云的每个点执行。让in使BFE模型P={（xi，fi）∈R3+C}N′ 且Q ={（yj，gj）∈R3+ C}M ′，分组点数为K. 为了方便分析，我们假设一个单层MLP，其权重为WR（ 3+C+C ） ×C′. 然后，需要（3+C+C）C′MLP计算（N′+M′）K次。因此，BFE的总运算次数为（N ′+ M ′）K（3 + C+ C）C′。然而，当输入点的总数为（N ′+ M ′）时，每K个相邻点被分组为（N ′+ M ′）组，然后由MLP计算。因此，重复计算至少（N’+M’）（K1）个MLP运算。为了优化这种冗余，我们提出了一种分解形式的BFE。首先，将MLP权值W分解为三个子权值：局部位置权值Wp∈R3×C′，双向传播特征权值Wb∈RC×C′ 以及复制特征Wr∈RC×C′的权值。在分组之前在P和Q处执行W b和W r，从而形成变换特征Wbfi、Wbgj、Wrfi和Wrgj。然后提供这些变换的特征及其对应的坐标用于分组。之后，仅Wp用于分组局部坐标的变换。最后，我们简单地将变换后的局部坐标与变换后的特征相加，并应用激活函数。因此，等式1和等式2可以变换为：f′=MAXσ（Wp（ym−xi）+Wb gm+Wr fi），（3）+v：mala2255获取更多论文我WJ（xn，Wbfn）∈NP{qj=（yj，Wrgj）}J J j=1我i=1fl−1=j=1jij，（5）J我J我j=1J我8瓦。郑智辉<英>香港实业家。Ko.g′=MAXσ（Wp（xn−yj）+Wbfn+Wrgj），（4）其中σ表示激活函数。因此，计算P，Q处的Wb，Wr只需要（N′+M′）×（C+C）×C′运算，而局部坐标变换需要（N′+M′）×（K×3）×C′运算.结果，分解后的BFE的总计算量减少到（N′+M′）×（K×3 +C+C）×C′.4.4上采样和扭曲上采样（UP）层可以将特征（包括流、局部特征和双向增强点）从稀疏级别传播到密集级别。为了减少计算量，我们采用了基于k近邻的距离倒数加权函数的三维插值。设{（x l，f l）}Nl表示来自高级别的坐标和特征，并且{xl−1}Nl−1表示从低层通过超级链路的坐标，其中Nl−1和Nl是点的数量，并且Nl−1> Nl。稠密点的插值特征{xl}定义为：kw（xl，xl−1）fl伊萨克w（xl，xl−1）其中w（xl，xl−1）=1/||xl−xl−1||2，且k=3bydefa ult.上采样的场景流立即累积到源帧为了通过翘曲层这个过程可以简单地表示为xl=xl+vl，源点X1，其中V1表示上采样的流向量。通过翘曲，翘曲的点逐渐变得接近目标帧。因此，随后的BFE层可以容易地将具有高语义相似性的更有价值的点分组，这可以促进更准确的流量估计。此外，当前级别的准确流量估计也增强了下一级别的翘曲。4.5场景流预测我们实现了一个场景流预测器，以回归场景流矢量。对于每个级别，输入是来自上采样层的上采样流和特征，以及来自BFE层的双向流嵌入。首先，预测器使用Pointconv通过局部融合这些特征和每个变形源点周围的流来产生平滑特征。随后，MLP将平滑的高维特征转换为所有点的三维场景流向量。由于预测器仅关注每个扭曲源点周围的小区域，因此最后一个MLP层的输出是逐点流残差，如[41，27]所示。之后，残差进一步与上采样流累加，形成当前水平的输出流估计+v：mala2255获取更多论文我我我∥i=1我i=1我我我L我l=0i=1基于点云的场景流估计的双向学习94.6损失函数训练过程采用先前研究中用于光流估计[7，35]和场景流估计[42，46]的多级监督方式。在在每一层中，估计的流由L2损失监督。设{vl}Nl表示从第l个水平和{v∈l}Nl估计的场景流矢量表示地面第l层的真实场景流向量。训练损失定义为：L−1NL=<$αl<$$>v<$l−vl<$2，（6）其中，αl是损失函数在水平l处的权重。权重设置为α0= 0。16，α1= 0。08，α2= 0. 04，α3= 0. 02默认5实验5.1实验设置我们使用PyTorch在NVIDIA TITAN RTX GPU上进行了实验如图2.实现了一个L=4层的层次模型我们使用N=M=8，192个点作为输入。每个级别的子采样点的数量被定义为N1=2048，N2=512，N3=256，以及N4=64。与之前的方法一样，我们首先在合成的Flying-ingThings3D[23]数据集上训练和评估网络（第二节）。5.3）。然后，为了验证泛化能力，训练后的模型直接在真实世界的KITTI Scene Flow2015 [26]数据集上进行评估，而无需任何微调（第二节）。5.4）。5.2评估指标为了进行公平比较，我们采用了与最近作品中使用的相同的评估指标[9，46，30，16，19]。–EPE3D完整（m）：测量终点误差的主要评估指标在所有的点上都有一个平均值。–EPE 3D（m）：测量end-point-误差的主要评估指标V12对每个未被遮挡的点进行平均。–ACC3DS：EPE3D 0.05m或相对误差的点的百分比<<5个百分点。–ACC3DR：EPE3D 0.1m或相对误差的点的百分比<<百分之十。–Outliers3D：EPE3D> 0.3m或相对误差的点的百分比>10%。– EPE2D（px）：通过将点投影回2D图像平面测量的2D终点误差，这是光流评估的常用度量。–ACC2D：EPE2D 3px或相对误差<<5个百分点。+v：mala2255获取更多论文10瓦。郑智辉<英>香港实业家。Ko.数据集方法EPE3D(m)↓ACC3DS↑ACC3DR↑异常值3D↓EPE2D(px)↓ACC二维↑[21]第二十一话0.1130.4120.7710.6025.9740.569HPLFlowNet[9]0.0800.6140.8550.4294.6720.676[第46话]0.0590.7380.9280.3423.2390.799FT3D系列FLOW[30]0.0520.7320.9270.357--[19]第十九话0.0480.8350.9500.2612.5650.870[16]第十六话0.0450.8160.9610.216--我们0.0280.9180.9780.1431.582 0.929[21]第二十一话0.1770.3740.6680.5277.2140.509HPLFlowNet[9]0.1170.4780.7780.4104.8050.593[第46话]0.0690.7280.8880.2651.9020.866KITTIsFLOW[30]0.0560.7550.9080.242--[19]第十九话0.0530.8630.9440.1792.0700.865[16]第十六话0.0540.8050.9250.149--我们0.030 0.9200.9600.1411.056 0.949表1.所提出的方法与以前的国家的最先进的方法在非闭塞FT3D和KITTI数据集的比较。所有方法都只在FT3D数据集上训练。数据集方法EPE3D完整版(m)↓EPE3D(m)↓ACC3DS↑ACC3DR↑异常值3D↓[21]第二十一话0.2110.1570.2280.5820.804HPLFlowNet[9]0.2010.1680.2620.5740.812FT3DoFLOW[30][第46话]0.2500.1950.1530.1550.3960.4160.6600.6990.6620.638[27]第二十七话0.1630.1210.5510.7760.518[36]第36话第一次见面-0.0640.8370.892-我们0.1020.0730.7910.896 0.274[21]第二十一话0.183-0.0980.3940.799HPLFlowNet[9]0.343-0.1030.3860.814FLOW[30]0.130-0.2780.6670.529KITTIo[第46话]0.118-0.4030.7570.496[27]第二十七话0.075-0.7060.8690.327我们0.065-0.7690.906 0.264表2. 在闭塞的FT 3Do和KITTIo数据集上将所提出的方法与先前最先进的方法进行比较。所有方法仅在FT3Do数据集上训练。5.3FlyingThings3D的训练和评估FlyingThing3D[23]是一个合成数据集，由19，640对用于训练的帧和3，824对用于测试的帧组成每个帧由从场景中渲染的立体和RGB-D图像组成，其中多个移动对象从+v：mala2255获取更多论文基于点云的场景流估计ShapeNet[4]数据集。我们基于由不同预处理方法准备的两个版本的数据集第一个版本是FT3D s，它在将图像数据转换为点后删除遮挡点，如[9，46，30，16]所示。第二个版本，由[21，30，27]引入的FT3Do，仍然是被遮挡的点。N= 8，192的输入点从具有非对应性的每个帧中随机采样对于训练，我们使用Adam优化器[15]，beta1 = 0.9，beta2 =0.999，起始学习率α= 0.0001。学习率降低了每80个时期一半我们训练了560个epoch。结果我们报告了与其他最先进方法相比，所提出模型的性能[21，9，46，30，16，27]。在非遮挡FlyingTh-ings 3D数据集上，所提出的Bi-PointFlowNet在基于点云的所有评估指标上实现了新的最先进记录，如表1所示。它优于所有最近的最先进的方法，估计误差减少了44%以上。与类似的从粗到细PointPWC[46]相比，我们的模型实现了52%的误差减少。另一方面，表2也显示了我们在处理遮挡数据时的出色表现。我们的Bi-PointFlowNet将最先进的性能提高了32%。此外，我们还将我们的方法与基于RGB-D图像的RAFT-3D进行了比较[36]。表2显示，我们的方法在16次迭代中实现了与Raft-3D相当的性能。虽然我们的方法没有实现更好的EPE 3D和ACC 3DS，但它在ACC 3DR指标上优于Raft-3D尽管误差略有根据[36]，我们预计RAFT-3D具有与我们类似的计算，迭代次数较少，精度比我们差得多。5.4KITTI的推广为了评价Bi-PointFlowNet对现实世界数据，我们遵循与最近研究相同的评价策略[21，9，46，30，16，27]。我们直接在现实世界的KITTI [26]数据集上测试了训练模型，其中包括：外微调。KITTI数据集包含200个训练集和200个测试集。然而，由于测试集和部分训练集中未提供的差异，我们使用了来自训练集的142个场景（未遮挡）和150个场景（遮挡），以及可用的原始点云。为了公平地比较我们的方法与以前的方法[21，9，46，30，16，27]，我们遵循了将地面点移除 0.3 m高度的常见步骤。 <根据制备在FlyingThings3D数据集中，创建了未被遮挡的KITTIs和被遮挡的KITTIo数据集。结果表1和表2分别列出了KITTI s和KITTI o的推广结果。我们的方法显着优于其他方法的所有指标的大幅度。表1表示该模型在主要EPE 3D指标上比以前的最先进方法高出44%与以前的粗到细网络PointPWC-Net[46]相比，我们的方法实现了+v：mala2255获取更多论文12瓦。郑智辉<英>香港实业家。Ko.见图4。Bi-PointFlowNet在非闭塞KITTI数据集上的定性结果。点被着色以指示来自源帧、目标帧、单向PointPWCNet估计点（源帧+场景流）或双向Bi-PointFlowNet估计点（源帧+场景流）的点。减少56%的错误。同时，表2显示，我们的模型比以前的最先进的方法减少了21%的错误。此外，我们在图4中展示了KITTI数据集的非闭塞病例的定性结果。结果表明，我们的Bi-PointFlowNet减少了所有点的估计误差相比，单向粗到细PointPWC-Net。此外，Bi-PointFlowNet能够保持比PointPWC-Net更准确的表面和轮廓细节（在图中的黄色圆圈中标记）。4 ）。5.5消融研究双向流动包埋层的烧蚀如SEC所述。4.2，所提出的双向流嵌入层的关键组件是双向特征传播模块，其后面是传统的单向流嵌入层。为了评估BFP的贡献，我们实施了一种消融模型，该模型去除了BFP模块，从而形成单向网络。我们将该消融模型的性能与表3中我们提出的完整模型进行了比较。实验结果表明，BFP模块在所有指标上都有较大幅度的提高。特别是在KITTI数据集上的通用性测试的EPE3D误差减少了43%，这在现实世界的应用中显示了重要的意义。此外，无BFP和原始PointPWC-Net的消融模型都是由粗到细的架构。然而，由于在流量预测器中引入了残差，消融模型的性能仍优于PointPWC-Net，如表1和表3所示。BFE分解形式的消融我们进行了两个对比实验，以评估所提出的分解形式的BFE的有效性和效率。一个是带有原始BFE的Bi-PointFlowNet（第二节）。4.2），另一个是具有分解的BFE的模型（第4.2节）。4.3）。表4显示，使用分解形式的模型显著降低了总+v：mala2255获取更多论文基于点云的场景流估计的双向学习13数据集BFP EPE3D ACC3D ACC3D离群值(m)↓S↑R↑3D↓EPE2D ACC(px) ↓二维↑FT3D系列√×0.0420.0280.8360.9180.9620.9780.2630.1432.2701.5820.8820.929KITTIs√×0.0530.0300.8580.9200.9300.9600.1940.1411.8941.0560.8800.949表3. 双向流动包埋层的烧蚀。BFP指示是否使用BFP模块所有方法都只在FlyingThings3D数据集上训练数据集腐烂EPE3D ACC3D ACC3D离群值(m)↓S↑R↑3D↓EPE2D ACC(px) ↓二维↑GFLOPs（毫秒）FT3D系列√×0.0290.0280.9170.9180.9770.9780.1420.1431.6331.5820.9280.92923.813.361.240.5KITTIs√×0.0300.0300.9250.9200.9650.9600.1330.1411.0791.0560.9510.94923.813.361.240.5表4. 双向流包埋层分解形式的烧蚀。腐烂表示是否使用BFE的分解形式。GFLOPs表示总操作计数。所有方法都只在FT3D数据集上训练。PointPWC0.0590.0697.72MPointPWC +BFP0.0510.0597.98MFlowNet3D0.1570.1731.23M更深层次的FlowNet3D0.1600.1971.33MFlowNet3D +BFP0.1380.1181.33M表5. PointPWC和FlowNet3D上双向特征传播的比较。虽然所选的基线表现强劲，我们提出的BFP仍然大幅减少了误差。与原模型相比，在保持精度的前提下，运算次数减少了44%，推理速度提高了33%消融我们对FlowNet3D和PointPWC的贡献我们通过将BFP模块应用于其他最先进的方法FlowNet3D [21]和PointPWC [46]来验证所提出的双向学习方法的贡献。我们建立了两个模型，直接插入BFP之前的流量相关模块。由于添加BFP需要额外的参数，我们还实现了一个更深层次的FlowNet3D网络，其参数数量与BFP模型的参数数量相等。请注意，与FlowNet3D相关的实验是在闭塞数据集上进行评价的，而基于PointPWC的模型FT3DKITTI参数EPE3D（m）EPE3D（m）尺寸（M）+v：mala2255获取更多论文14瓦。郑智辉<英>香港实业家。Ko.方法[第46话]FLOW[30][16]第十六话我们时间（ms）51.3289.6820.840.5表6. 对比一下。结果在单个TITAN RTX GPU上进行评估。在非遮挡数据集上测试实验。表5表明，拟议的BFP实现了出色的效率和效果。在PointPWC中添加0.2M（仅占总数的3%）的附加参数后，性能得到了改善，误差减少了13%此外，FlowNet3D和BFP的组合此外，更深的FlowNet3D的消融揭示了性能的改善是由于双向策略，而不是参数数量增加的影响。5.6运行时我们在表6中比较了我们提出的方法与其他最先进方法的运行时间。我们在单个NVIDIA TITAN RTX GPU上测量了所有方法的运行时间。该模型在 40.5 ms 内运行，由于使用了 BFE 分解，这比粗到细PointPWC[46]此外，与其他最近的先进方法[30，16]相比，我们的方法在运行时间方面表现出色，同时实现了卓越的准确性和通用性。6结论我们提出了Bi-PointFlowNet，用于准确和快速的场景流量估计。我们提出的网络利用了一种新颖的双向流嵌入模块，该模块与分层特征提取和传播一起工作，以准确地估计流量。为了进一步加速推理，所提出的方法应用了双向流嵌入层的分解形式，去除了冗余计算。在两个具有挑战性的数据集上的实验结果表明，我们的网络在非遮挡和遮挡条件下的性能明显优于以前的最先进的方法。所提出的模型还展示了出色的时间效率，允许模型进一步应用于资源有限的设备，例如可穿戴设备、无人机、物联网边缘设备等。致谢。这项工作部分得到了国家研究基金会（NRF）资助（2022 R1 F1A1074142，2022 R1 A4 A3032913）和信息和通信技术规划评估研究&所（IITP）资助（IITP-2019-0-00421，IITP-2020-0-00821，IITP-2021-0-02052，IITP-2019 - 00421）的支持。2021-0-02068），由韩国科学和信息通信技术部（MSIT）资助。程文灿获得了国家留学基金管理委员会（CSC）的部分资助。+v：mala2255获取更多论文基于点云的场景流估计的双向学习15引用1. Baldi，P.，Brunak，S.，Frasconi，P.，苏打，G.，Pollastri，G.：利用过去以及蛋白质二级结构预测的未来。生物信息学15（11），9372. Besl，P.J.，McKay，N.D.：三维形状的配准方法。传感器融合IV：控制范式和数据结构。第1611卷，第1611页。586-606.国际光学和光子学学会（1992年）3. Ce ch，J.， San c hez-Riera，J.，Horaud，R.：基于梯度校正的场景流估计海绵种子见：CVPR 2011。pp. 3129-3136 IEEE（2011年）4. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.，黄，Q，Li，Z.，Savarese，S.，Savva，M.，宋，S.，苏，H.，等：Shapenet：信息丰富的3D模型库。arXiv预印本arXiv：1512.03012（2015）5. 陈玉，Medioni，G.：通过多个距离图像的配准的对象建模。图像和视觉计算10（3），1456. Devlin，J.，Chang，M.W.，Lee，K.，Toutanova，K.：Bert：用于语言理解的深度双向转换器的预训练arXiv预印本arXiv：1810.04805（2018）7. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazirbas角，Golkov，V.，Van Der Smagt，P.，Cremers，D.，Brox，T.：Flownet：使用卷积网络学习光流在：IEEE计算机视觉国际会议论文集。pp. 27588. 格雷夫斯，A.，Schmidhuber，J.：基于双向lstm和其他神经网络架构的逐帧音素分类。神经网络18（5-6），602-610（2005）9. 顾，X.，王玉，吴，C.，Lee，Y.J.，Wang，P.：Hplflownet：用于大规模点云场景流估计的分层全多面体网格流网。 IEEE/CVF计算机视觉和模式识别会议论文集。pp. 325410. Huguet，F.，Devernay，F.：一种从立体序列中估计场景流的变分方法。2007年IEEE第11届计算机视觉国际会议。pp. 1-7. IEEE（2007年）11. Hur，J.，罗斯，S.：光流：在联合光流和遮挡估计中利用对称性。在：IEEE计算机视觉国际会议论文集。pp. 31212. Hur，J.，罗斯，S.：联合光流和遮挡估计的迭代残差细化。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 575413. Jampani，V.，Kiefel，M.，盖勒，P.V.：学习稀疏高维滤波器：图像滤波，密集crfs和双边神经网络。IEEE计算机视觉与模式识别会议论文集。pp. 445214. Janai，J.，Guney，F.，Ranjan，A.，布莱克，M.，Geiger，A.：有遮挡的多帧光流的无监督学习。在：欧洲计算机视觉会议（ECCV）的会议记录。pp. 69015. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法ArXiv预印本arXiv：1412.6980（2014）16. Kittenplon，Y.，Eldar，Y.C.，Raviv，D.：Flowstep3d：用于自监督场景流估计的模型展开。在：IEEE/CVF会议论文集计算机视觉和模式识别pp.4114+v：mala2255获取更多论文16W.郑智辉<英>香港实业家。Ko.17. Lan，Z.，陈美，古德曼，S.，Gimpel，K.，Sharma，P.，Soricut，R.：Albert：一个用于语言表示的自我监督学习的Lite bert。arXiv预印本arXiv：1909.11942（2019）18. 李，J.，Yoon，W.，Kim，S.，金，D.，Kim，S.，CH Kang，J.：生物观察：a用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学36（4），123419. Li，R.，林，G.，他T刘芳，Shen，C.：Hcrf-flow：从点云生成的场景具有连续高阶CRF和位置感知流嵌入。在：Proceedings的IEEE/CVF会议上的计算机视觉和模式识别。pp. 36420. Liu，P.，（1986 - 1990）

下载后可阅读完整内容，剩余1页未读，立即下载