CamLiFlow：联合光流和场景流估计的端到端框架

12 浏览量更新于2023-10-26 收藏 2.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5791��CamLiFlow：用于联合光流和场景流估计的刘海松*陶陆毅辉徐佳刘文杰李立军陈南京大学软件新技术国家重点实验室{liuhs，taolu，yhxu，wenjielee} @ smail.nju.edu.cn，{jialiu，chenlj} @nju.edu.cn摘要本文研究了从同步的二维和三维数据中联合估计光学流和场景流的问题。先前的方法要么采用将联合任务分成独立阶段的复杂流水线，要么以“早期融合”或“后期融合”的方式融合2D和3D信息。这种“一刀切”的方法面临着一个困境，即不能充分利用每种模态的特点，也不能最大限度地发挥模态间的互补性。为了解决这个问题，我们提出了一个新的端到端的框架，称为CamLiFlow。它由2D和3D分支组成，它们之间在特定层中具有多个双向连接。与以往工作不同的是，我们采用了基于点的3D分支来更好地提取几何特征，并设计了一个对称的可学习算子来融合密集图像特征和稀疏点特征。实验结果表明，CamLiFlow算法在使用较少参数的情况下取得了较好的性能.我们的方法在KITTI Scene Flow基准测试中排名第一，优于之前的技术，具有1/7的参数。代码可在https://github.com/MCG-NJU/CamLiFlow上获得。1. 介绍光学流和场景流分别是二维和三维空间中的运动场。通过它们，我们可以深入了解场景的动态，这对一些高级场景理解任务至关重要。在这项工作中，我们专注于联合估计的光学和场景回波，它解决了单目相机帧与稀疏的深度测量从激光雷达。以前的方法[3，31，55，56]构建了一个模块化网络，该网络将流量估计分解为多个子任务。这些子模块是相互独立的，使得不可能利用它们的互补性。此外，任何子模块的限制都将损害整体性能，因为整个流水线取决于其结果。* 通讯作者（liuhs@smail.nju.edu.cn）。�� 图1. KITTI场景流基准测试的结果。标记尺寸表示模型尺寸。未知尺寸和常规入路的模型我们的方法优于所有现有的方法[3，23，31，33，41，45，46，55，56]，参数少得多。其他方法[42，45]构建端到端架构，由多个阶段组成（包括特征提取，计算相关性，特征解码等）。RAFT-3D[45]将图像和密集深度图连接到RGB-D帧，并将其馈送到统一的2D网络中，以预测像素级的3D运动。这种“早期融合”（图）。2a）使得2D CNN无法使用深度提供的大多数3D结构信息DeepLiDARFlow [42]将图像和LiDAR点云作为输入，其中点被投影到图像平面上进行致密化，并以“后期融合”的第2b段）。然而，在早期阶段产生的一些错误缺乏被其他模态校正的机会因此，这两种模式之间的互补性没有得到充分利用。单阶段融合通常面临着既不能充分利用各模态的特点，又不能最大限度地发挥模态间的互补性的困境。为了解决这个问题，我们提出了一个多级和双向融合流水线（见图2c），它实现了更好的性能与更少的参数。在每个阶段中，这两种模态都是使用特定于模态的架构在单独的分支中学习的。在每个阶段结束时，��5792可学习的双向桥连接两个分支以传递互补信息。此外，最近的基于点的方法[28，29，36这启发我们使用基于点的分支来处理点云，它可以在没有任何体素化或投影的情况下提取精细的3D几何信息。值得注意的是，图像分支和点分支的融合存在两个挑战。首先，图像特征被组织在密集的网格结构中，而点云不符合规则的网格并且稀疏地分布在连续域中。因此，不能保证以下内容之间的一一对应：（a）早期融合（c）我们的融合（b）晚期融合像素和点。其次，LiDAR点云具有密度变化的特性，其中附近区域的密度比较远区域大得多。为了解决第一个问题，我们提出了一个新的可学习的融合运算器，称为双向相机-LiDAR融合模块（Bi-CLFM），它通过可学习的插值和采样融合两个方向的图像/点特征。对于第二个问题，我们提出了一种新的变换算子，称为逆深度缩放（IDS），它通过根据逆深度对点进行非线性缩放来平衡点的分布。实验表明，我们的方法取得了更好的性能与少得多的参数。在Flying-ingThings 3D [32]上，我们仅使用1/6参数就实现了RAFT-3D上终点误差的48.4%降低。在KITTI [33]上，CamLiFlow实现了4.43%的误差，优于之前的技术[56]，只有1/7的参数。排行榜如图所示。1.一、2. 相关工作光流光学光流估计的目的是从一对帧中预测每个像素的密集2D运动。trans-mitting方法[4，6- 8，16，50 ]通常将光学湍流表述为能量最小化问题。FlowNet [12]是第一个端到端可训练的CNN，用于光学光流估计，它采用编码器-解码器架构。 FlowNet2[20]将几个FlowNet堆叠成一个更大的FlowNet。PWC-Net[43]和其他一些方法[18，19，40，54]使用粗到细金字塔应用迭代细化。RAFT [44]为所有像素对构建4D成本体积，并迭代更新流程。尽管RAFT达到了最先进的性能因此，我们的两个分支是建立在PWC架构上的，以实现准确性和速度之间的更好平衡。从RGB-D帧的场景流RGB-D场景图是从一对立体或RGB-D帧中估计每个像素的密集3D运动的问题。与opti- cal优化类似，传统方法[21，22，33，39]探索变分优化和离散优化，并处理图2.功能级融合的架构。与以往采用早/晚融合方式不同，本文提出了一种多级双向融合流水线。将场景分解为能量最小化问题。最近的方法[3，31，55，56]将场景流估计划分为多个子任务，并为每个子任务构建一个具有一个或多个子模块的模块化网络。虽然取得了显著的进展，但它们的子模块是相互独立的，不能发挥不同模态的互补性。RAFT-3D [45]在早期阶段将图像和深度图连接到RGB-D帧，然后是一个统一的2D网络，它迭代地更新像素SE 3运动的密集场。然而，这种“早期融合”使得2DCNN很难利用丰富的3D结构信息。从点云的场景流。最近，研究人员开始研究3D点云（例如LiDAR）中的场景流估计[14，25，28，29，35，48，49，52]。根据[38]，FlowNet3D [28]使用一个嵌入层来表示点的运动。FlowNet3D++ [48]通过添加几何约束实现了更好的性能。受Bilateral Convolutional Layers的启发，HPLFlowNet [14]将点投影到permutohedral lattice上。PointPWC-Net [52]为点云引入了一个可学习的成本量，并以一种由粗到细的方式估计场景流。然而，这些方法不利用图像提供的颜色特征。正如我们在实验中所证明的那样，将点云与图像融合可以带来显着的改进。相机激光雷达融合。相机和LiDAR具有互补的特性，促进了许多计算机视觉任务，例如深度估计[13，30，57]，场景光流估计[2，42]，3D对象检测[10，27，36，47]，一些研究者[2，36，47，57]构建了一个模块化网络并进行结果级融合，而其他研究者[13，27，30，42，53]则探索了特征级融合方案，包括早期融合和晚期融合。相反，我们提出了一个多阶段和双向的融合管道，它不仅充分利用了每一个模态的特点，但最大限度地提高了模态间的互补性。图像深度图像深度融合NNNNNNNN融合NNNNNN预测场景流融合NNNN深度图像融合NNNNNNNNNNNN预测场景流预测光流融合NN联合优化预测场景流5793��3D打印机图像特征公司简介��×��×点要素��×3插值点特征融合图像特征��×点位置��×检索图像特征��3D打印融合点特征图像特征停止渐变{|}{⇒{|}{⇒图3. CamLiFlow的架构。该算法以相机和激光雷达同步帧为输入，分别估计出稠密光学流和稀疏场景流。CamLiFlow是两个分支网络，它们之间具有多个双向融合连接请注意，我们的方法还可以利用其他可靠的深度传感器（如立体相机）。3. CamLiFlow给定一对同步的相机和LiDAR帧，CamLiFlow联合估计相机帧的密集光学光流和LiDAR帧的稀疏场景光流如图3所示，CamLiFlow由两个对称分支组成，分别用于2D和3D数据，称为图像分支和点分支这两个分支都建立在PWC架构[43，52]之上，其中在粗略级别计算的带宽被上采样并扭曲到精细级别。特征在多个级别和阶段以双向方式融合。在以下章节中，我们首先介绍双向相机-LiDAR融合模块以及多级融合管道。接下来，我们引入逆深度缩放，这使得点在不同区域的分布更加均匀。最后，还引入了多任务联合优化损失。3.1. 双向相机-LiDAR融合模块如上所述，相机和Li-DAR之间的融合是具有挑战性的，因为图像特征和点特征的数据结构不匹配。为了克服这一点，我们引入了双向相机-LiDAR融合模块（Bi-CLFM），它可以以双向方式融合密集图像特征和稀疏点特征。如图4所示，Bi-CLFM采用图像特征F∈RH×W×C2D，点特征G={g我|i=1，…N}∈RN×C3D和点位置P={pi|i=1，…N}∈��×点要素图4.双向相机-激光雷达融合模块（Bi-CLFM）的详细信息。来自两种不同模态的特征以双向方式融合，因此两种模态可以彼此受益2D 3D 首先，将点投影到图像平面（表示为X= xii=1，.， NRN×2）检索相应的2D功能：H={F（xi）|i=1，…N}∈RN×C2D，（1）其中，F（x）表示x处的图像特征，并且如果坐标不是整数，则可以通过双线性插值来恢复。接下来，将检索到的特征H与输入的3D特征G连接。最后，1×1卷积是em-RN×3作为输入，其中N表示点数。两个方向的特征融合在一起，使两种模式可以相互受益。请注意，我们在特定位置停止梯度，以防止一种模态占主导地位并稳定训练（请参阅补充材料以了解更多细节）。用于减小融合的3D特征的尺寸。3D2D. 同样，点首先被投影到im，年龄平面（表示为X= xii=1，...， NRN×2）。由于点云是稀疏的，因此我们提出融合感知插值（在以下段落中详细描述）来从稀疏的3Dfea创建密集的特征图D∈RH×W×C 3D。摄像机框架1图像特征金字塔图像特征1l级双线性上采样LiDAR Frame 1点要素金字塔点要素1l级水平1第一相机框架2图像特征金字塔图像特征2l级K-NN上采样LiDAR Frame 2点要素金字塔点特征2l级IDsIDsBi-CLFMBi-CLFM经纱经纱成本量成本量对齐投影Bi-CLFM对齐双线性网格采样融合感知插值场景流解码器光流解码器Bi-CLFM场景流量估算光流估计ConcatConcatConv 1x1Conv 1x15794×N·PXPzXPzXyPzyPzzyPzzzzk-NN搜索2D偏移：��×22D相似度：��×13D功能：100×100%��因子使用最远点采样，然后是点转换[51]来聚合特征。图像金字塔编码纹理信息，而点金字塔编码几何信息。因此，特征通过Bi-CLFM在多个水平上融合以实现互补性。翘曲。在每个金字塔等级l处，两个图像特征图5. Fusion-Aware插值的详细信息。对于每个目标像素，我们找到它周围的k个最近点。一个可学习的MLP后跟MEAN用于聚合特征。真的。接下来，将融合感知插值。为了解决将稀疏点特征融合为密集图像特征的问题，我们提出了一种可学习的融合感知插值算法。如图5所示，对于密集图中的每个目标像素q，我们在图像平面上的投影点中找到它的k个最近邻居。 MLP后跟MEAN用于聚合特征，其可以公式化为：并且使用来自较低级别的上采样的BLOW将点云向参考帧扭曲。由于变形层不引入任何可学习的参数，因此在此阶段之后我们不执行特征融合。成本量。成本量存储参考帧和变形目标帧之间的匹配成本。对于图像分支，我们遵循[43]通过将搜索范围限制为每个像素周围的4个像素来构建部分成本体积对于点分支，我们遵循[52]来构建一个可学习的成本体积层。基于像素的2D成本体积保持固定的邻域范围，而基于点的3D成本体积搜索动态范围。因此，我们将两个成本卷与Bi-CLFM融合。流量估算我们为每个分支建立一个估计器。成本估算器的输入包括成本1D（ q）=Kxi∈Nq MLP（[xi−q，S（q，x（i）、（gi）、（2）体积、参考帧的特征和上采样的流程。我们的光学卷积估计器遵循[43]，它采用多层CNN与DenseNet [17]连接。其中q表示所有邻域点，gi是3D点i的特征和[ ]表示连接。的输入我们的MLP还包括2D相似性测量，q和它的邻居之间，它被定义为：S（q，xi）=F（q）·F（xi）.（三）将2D相似性测量引入插值模块使其在具有重叠对象的复杂场景中更加稳健，因为密集的2D特征可以用于指导稀疏的3D特征的密集化。我们在消融研究中经验性地测试了它（图1）。第9段）。3.2. 多级融合流水线在本节中，我们使用Bi-CLFM构建了一个多级双向融合管道我们的支柱是基于选项。我们的场景流估计器遵循[52]，它被构建为PointConv的多层[51]。两个估计器的第二最后一层的特征被融合。为了清楚起见，我们将最后一层称为“低通估计器”，将其他层称为“低通解码器”。3 .第三章。3.3. 逆深度缩放如上所述，LiDAR点云的分布是不平衡的，其中附近区域的密度比较远区域的密度大得多。在这里，我们提出了一个点云的变换算子来解决这个问题，称为逆深度缩放（IDS）。形式上，让（Px，PY，Pz）和（Px′，PY′，Pz′）是点的坐标分别在改造前后IDS通过深度的倒数1相等地缩放所有三个维度：zPWC架构，它由多个阶段组成，包括特征提取、变形、成本容量和带宽估计。在每一阶段，两种模式是公司简介δPx公司简介=δPy=δPz�δPz=1时。（四）Pz使用特定于模态的架构在不同的分支中学习。在每一级结束时，Bi-CLFM连接两个分支以传递互补信息。功能金字塔。给定一对图像和点云，我们为图像分支生成一个特征金字塔转换后的坐标（Px�，Py�，Pz�）可以通过积分上述公式来推断：�P于我��1dP =Px+C，（5）和点分支（配置详细信息已包含在补充材料中）。为每个级别�P于我��1dP =Py+C，（6）l，图像特征被下采样2倍，使用残差块，而点通过相同的�P于我��1dP =logP+C，（7）123×（3 +��100×100%��1−��$−（…（1$是说1×3%��MLP57952个D×3D3D3D2个D2个D3D3D|·|LΣΣΣΣΣΣǁ·ǁ��4. 实验我们使用PyTorch实现我们的模型[34]。对于所有实验，我们使用Adam优化器[24]，权重衰减设置为10−6。损失权重设置为α0= 8，α1= 4，α 2= 2，α 3= 1，α 4= 0。五、4.1. 主要结果图6.在有/没有IDS的情况下，不同距离上的点云密度。我们通过平均其k个最近邻点的偏移量来测量点周围的局部密度IDS使点在不同地区的分布更加均匀。其中Cx和Cy都设置为0，Cz设置为1以避免零深度。在图6中，我们对FlyingThings 3D和KITTI的原始Velodyne数据进行了统计，以显示在有/没有IDS的情况下不同距离上的点密度。一个点周围的局部密度是通过平均其k个最近邻点（k= 16）的偏移量来测量的。我们可以看到IDS使点的分布更加均匀，不同地区。在本文中，点云被IDS转换之前被发送到神经网络。3.4.多任务损失虽然估计的光学反射波和场景反射波是高度相关的（场景反射波到图像平面上的投影成为光学反射波），我们制定它们作为两个不同的任务。我们分别监督2D和3D分支，并为联合优化设计了多任务损失。设fl和fl分别是第l级的地面真实光学流和场景流。每个分支的回归损失定义如下：L=<$α<$$>fl（x）−f<$l（x）<$，（8）我们在合成数据集FlyingThings3D [32]和真实世界数据集KITTI [33]上评估了我们的方法。FlyingThings3D由立体和RGB-D图像组成，这些图像由ShapeNet [9]中的多个随机移动对象渲染，这是大规模和具有挑战性的。KITTI Scene Flow是自动驾驶的真实基准，由200个训练场景和200个测试场景组成。4.1.1飞行物3D数据预处理。根据以前的工作[14，20，52]，我们使用FlyingThings3D的子集训练集和验证集分别包含19640和3824对相机-LiDAR帧。我们遵循FlowNet3D[28]而不是HPLFlowNet [14]来将深度图像提升到点云，因为HPLFlowNet只保留非遮挡点，这过度简化了问题。训练培训包括两个阶段。首先，我们用L2范数损失函数训练我们的模型600个epoch。初始学习率设置为410−4和减少在400和500个时期减半接下来，我们对模型对于另外800个时期，具有鲁棒损失函数和固定学习率为10- 4。批量大小设置为32。评估指标。在RAFT-3D之后，我们还使用2D和3D端点误差（EPE）来评估我们的网络2D l2Dl=l0xLL3D=αlfll=l0p2D2（p）−f<$l（p）<$2，（9）作为阈值度量（ACC1px和ACC.05），用于测量阈值内的错误部分。定量结果。在选项卡中。1，我们比较了几个国家的最先进的方法，利用不同的输入其中2计算L2范数。对于微调，我们使用以下鲁棒训练损失：L2019 - 02 - 22 01：01：02（|fl（x）−fl （x）|+q）q，（10）l=l0xL03-0|fl（x）−fl （x）|+q）q，（11）l=l0x其中计算L1范数，q= 0。4对离群值的惩罚较小，并且将k设置为0。01. 最终亏损为上文所界定亏损之加权总和L=L2D+λL3D，（12）其中，对于我们所有的实验，λ��5796模式。通过融合相机和李的两种形式-DAR，我们的方法优于所有的图像和激光雷达的方法，由一个很大的利润。我们的方法还优于RAFT-3D，RAFT-3D具有45 M参数并将密集的RGB-D帧作为输入。相比之下，我们的模型更轻量级，有7.7M个参数，只需要稀疏的深度测量。此外，我们的模型将最好的EPE3D从0.062减少到0.032，这证明了点分支的优越性能。定性结果。图7中示出了光学光流和场景光流估计的视觉比较。我们还增加了两个单模态的变化，我们的方法进行比较，它删除了2D分支或3D分支。正如我们所看到的，我们的完整模型可以更好地处理具有重复结构的对象和具有重叠对象的复杂场景。5797×参考框架Ground Truth RAFT RAFT-3D Ours（仅2D分支）Ours（完整模型）输入地面实况RAFT-3D Ours（仅限3D分支）Ours（完整模型）图7.FlyingThings3D子集的“val”分割上的可视化光学光流和场景光流估计异常值标记为红色，用于场景流估计。我们的完整模型可以更好地处理具有重复结构和无纹理区域的对象。方法输入二维平面EPE2D ACC1px3D打印机EPE3D ACC.05参数[20]第二十话PWC-Net [43]汽车旅馆[44]图像图像Image5.056.553.12百分之七十二点八64.3%81.1%------162.5M9.4M5.3M[28]第二十八话[第52话]FLOW [35]LiDAR激光雷达------0.1510.1120.170百分之二十点七百分之五十一点八百分之二十三点四1.2M5.3M0.1M[42]第四十二话[45]第四十五话图像+激光雷达图像+深度6.042.3747.1%87.1%-0.062百分之二十七点二84.5%8.3M45M我们的（无微调）我们图像+激光雷达图像+激光雷达2.1884.3%2.2087.3%0.0330.032百分之九十一点四百分之九十二点六7.7M7.7M表1. FlyingThings3D子集的“val”分割的性能比较。对于2D指标，我们在完整图像上进行评估，排除了带宽> 250 px的极快移动区域。对于3D指标，我们遵循FlowNet3D的设置，其中仅考虑深度为35m的非遮挡点进行评估。4.1.2KITTI训练使用在FlyingTh-ings 3D和Driving [32]上预先训练的权重，我们在KITTI上对模型进行了300个epoch的微调，固定学习率为5 10−5，批量大小为8。我们遵循[55，56]并将200基于4：1的比率将训练图像分割成train，val分割。在训练过程中，我们使用提供的校准参数将地面实况视差图提升到点云中。基本的数据增强策略包括颜色抖动、随机水平平移和随机裁剪.试验. 在测试过程中，由于既没有提供视差图也没有提供点云，我们采用GA-Net [58]来估计立体图像的视差，并生成深度为90m的点云。我们的点分支的稀疏输出被插值以创建密集预测。背景场景流的细化。由于KITTI中的大多数背景对象都5798是刚性的（例如地面，建筑物，ings等），我们可以使用刚性细化步骤来细化背景场景图。具体来说，我们采用DDRNet- Slim [15]，一种轻量级的2D语义分割网络，来确定刚性背景。DDRNet-Slim在Cityscapes上进行了预训练[11]，并在KITTI上进行了微调。接下来，我们通过使用神经引导的RANSAC [ 5 ]从背景流图拟合和分解基本矩阵来估计自我运动。最后，使用第一帧的自我运动和视差来细化背景场景流与现有技术方法的比较。我们将我们的方法提交到KITTI场景流基准点的网站，并在Tab中报告排行榜。二、可视化比较如图8所示。我们的方法优于所有已发表的方法，包括RigidMask [56]（SF-all：4.43% vs.4.89%），其使用超过1.4亿个参数。相比之下，我们的方法更轻量级，只有19.7M参数（6.3M GA-Net+7.7M Cam-5799我们⇒⇐SF-全部：7.53SF-所有：4.88SF-所有：3.09SF-全部：2.73SF-全部：5.21SF-全部：5.54SF-全部：4.02SF-全部：3.72SF-所有：2.20SF-全部：4.43SF-所有：4.08SF-全部：3.42参考框架DRISF RAFT-3D RigidMask Ours0.00- 0.190.19- 0.380.38- 0.750.75- 1.501.50- 三点3.00- 六点6.00- 十二点12：00 - 24：0024.00 -48.00图8. KITTI场景流测试集的定性结果。蓝色表示较低的误差，红色表示较高的误差。我们的方法提高了运动边界附近的精度。方法刚度D1NOC（%）所有D2NOC（%）所有的NOC（%）所有SFNOC（%）所有参数[第23话]背景2.052.223.875.895.987.647.309.5513.4M二进制TTC [1]没有一1.631.812.724.763.896.315.298.50-[55]第五十五话没有一1.631.812.624.253.896.305.218.1218.5MISF [3]全图像4.024.464.955.954.696.226.458.08-ACOSF [26]全图像3.353.584.265.314.515.796.407.90-DRISF [31]全图像2.352.553.144.043.584.734.996.3158.9M[45]第四十五话全图像1.631.812.673.673.234.294.535.7751.3M[第56话]全图像1.701.892.473.232.543.503.734.89145.3M我们的（非刚性）没有一1.631.812.393.192.774.054.035.6214.0M我们背景1.631.812.372.952.403.103.554.4319.7M表2. KITTI Scene Flow基准的排行榜。“D1”、“D2”和“OF”分别由GA-Net、我们的点分支和图像分支预测。我们的方法在排行榜上排名第一，并且可以处理一般的非刚性运动，因为我们只将静态背景视为刚性。LiFlow + 5.7M DDRNet-Slim）。此外，以前的方法通过将刚性运动分配给所有对象来利用更严格的刚体假设，而我们的方法可以处理一般的非刚性运动，因为我们只将刚性运动细化应用于静态背景。如果背景场景的刚性细化步骤被移除（对应于我们2），我们的方法仍然在排行榜上排名第二（SF-all：5.62%）。在这种情况下，我们的方法不需要背景分割标签，可以处理任何非刚性运动（无论前景或背景）。相反，RigidMask无法处理非刚性运动，并且受到运动分割网络的限制，因为整个流水线取决于其结果。4.2. 消融研究在本节中，我们对FlyingTh-ings 3D进行消融研究，以确认每个模块的有效性。所有变量都在第一阶段进行训练，而无需使用鲁棒损失函数进行微调。单向融合与双向融合。凸轮- LiFlow以双向方式融合功能。在这里，我们训练了两种变体，其中特征以单向方式（2D）融合 3D或2D 3D）的平面图。如Tab.所3、单向融合改善2D度量或3D度量。表3.单向融合与双向融合。双向融合为所有指标提供了最佳结果，因为两种模式可以相互受益。RICS，而双向融合为两种模态提供了更好的结果。此外，与单向融合相比，双向融合将最佳EPE2D从2.25至2.18，EPE3D从0.036至0.033，表明一种方式的改善也可以使另一种方式早期/晚期融合与多阶段融合。如上所述，光流估计通常由几个阶段组成，包括特征提取、成本量和特征解码。在这里，我们验证了每个阶段的特征融合的有效性，如表1所示。4.第一章顶行表示两个分支之间不存在融合连接的版本。“早期融合”和“晚期融合”（第2、3、4行）都只能提供次优结果。相比之下，与“早期/晚期融合”相比，所有三个阶段的融合特征都带来了显著的改进融合方向二维平面EPE2D ACC1px3D打印机EPE3D ACC.052D和3D2D和3D2D优惠3D3.41 79.5%2.25 83.9%2.1884.3%0.036 89.6%0.067 74.0%0.03391.4%5800地面实况无2D模拟关于2D SimP阶段CD2DEPE2D度量ACC1px3D打印机EPE3D ACC.05---3.42 百分之七十九点五0.06774.1%√-√-2.69 百分之八十一点五0.047百分之八十七点六--√2.42 百分之八十二点三0.03789.6%组件个人定时总定时印象店24Ms点分部45MsBi-CLFM（用于特征金字塔）Bi-CLFM（用于成本量）17Ms7ms118msBi-CLFM（用于低功耗解码器）11ms别人14ms表4.早期/晚期融合与多阶段融合。P、C、D分别描述了金字塔、成本卷和卷积解码器的特征。在所有三个阶段进行融合可以获得最佳结果。K-NN配置二维相似度SOP二维平面EPE2D ACC1px---2.30百分之八十三点三k= 1-√ -2.2484.3%k= 1√-2.1884.3%k= 3√是说2.19 84.5%k= 3Max2.19百分之八十四点四表5. Bi-CLFM插值模块上的烧蚀。我们只报告2D指标，因为3D指标都是相似的。设置IDs二维平面EPE2D ACC1px3D打印机EPE3D ACC.05C+LC+L-√2.242.1883.2%84.3%0.0360.03388.7%百分之九十一点四LL-√----0.0730.06870.6%74.3%表6. 逆深度标度（IDS）消融。“L”表示我们的方法的仅LiDAR变体，其中图像分支被移除，而“C+L”表示我们的完整模型。IDS提高了仅LiDAR和Camera-LiDAR方法的性能。图9.在融合感知插值中引入2D相似性的效果，可以更好地处理重叠对象。融合感知插值。在选项卡中。5.对不同配置的Bi-CLFM插值模块进行了测试。顶行表示简单地将3D特征投影到图像平面上而不进行插值（空位置用零填充）的朴素实现。通过将可学习的权重引入最近邻插值（第2行），我们将EPE 2D从2.30降低到2.24，并将ACC 1px从83.3%提高到84.3%。将2D相似性测量集成到插值模块（第3行）中进一步将EPE2D从2.24降低到2.18，并且使我们的模型在具有重叠对象的复杂场景中更鲁棒（如图9所示）。我们还进行了两个实验，将k（最近邻的数量）从1增加到3，然后进行对称操作，表7.推理时间的细分。计时结果是使用Tesla V100 GPU在960x540图像上计算的。平均值和最大值然而，没有观察到显著的改善，这表明k= 1对于插值是足够的。逆深度缩放。我们在FlyingThings3D上进行了几个对比实验来验证IDS的效果由于IDS不需要输入图像，我们还测试了我们的方法的变化，其中图像分支被删除。如Tab.所示。在图6中，在相机-LiDAR和仅LiDAR设置下性能都得到改善，这表明点的更均匀分布可以促进学习。4.3. 分析时机在选项卡中。 7 ，我们提供了 FlyingThings3D（960x540图像）上的干扰时间的细分。我们的模型在Tesla V100 GPU上总共需要118毫秒。局限性。CamLiFlow有两个限制。首先，需要同步相机和LiDAR以获得最佳性能。如果某些应用不能满足同步，我们的方法还可以利用其他深度传感器，例如立体相机（但它们不如LiDAR准确和鲁另一个限制是，由于这两种模式紧密耦合，如果其中一种模式不起作用，整个系统就会失败。在未来，我们计划通过将注意力机制引入融合模块来解决这个问题，这样如果模态不起作用，模型就可以5. 结论在本文中，我们介绍了CamLiFlow，这是一种用于联合光学流和场景流估计的深度神经网络。它由2D和3D分支组成，在特定层中它们之间具有多个双向连接。实验表明，CamLiFlow在参数较少的情况下性能优于现有技术.鸣谢。本课题得到了国家自然科学基金项目（No.62076119，No.61921006）、江苏省创新人才计划、江苏省企业家计划、江苏省软件新技术与产业化协同创新中心的资助。5801引用[1] Abhishek Badki，Orazio Gallo，Jan Kautz和Pradeep Sen.Binary TTC：用于自主导航的时间地理围栏在IEEE/CVF计算机视觉和模式识别会议论文集，第12946-12955页，2021年。7[2] RamyBattr a w y，Ren e'Schuster，Ol iv erWasen müller，QingRao，and Didier Stricker.激光雷达-光流：从稀疏激光雷达和立体图像估计密集场景光流。2019年IEEE/RSJ智能机器人和系统国际会议（IROS），第7762-7769页。IEEE，2019。2[3] AseemBehl，OmidHosseiniJafari，SivaKarthik Mustikovela，Hassan Abu Alhaija，CarstenRother，and Andreas Geiger.边界框、分割和对象坐标：识别对于自动驾驶场景中的3D场景流估计有多重要？在IEEE计算机视觉国际会议论文集，第2574-2583页，2017年。一、二、七[4] Michael J Black和Paul Anandan。多运动的鲁棒估计：参数和分段平滑的小波域。计算机视觉与图像理解，63（1）：75- 104，1996. 2[5] EricBrachmann 和 CarstenRother 。 Neural-guidedransac：学习在哪里采样模型假设。在IEEE/CVF计算机视觉国际会议论文集，第4322-4331页，2019年。6[6] Thomas Brox，Christoph Bregler，and Jitendra Malik.大位移光流。2009年IEEE计算机视觉和模式识别会议，第41-48页。IEEE，2009年。2[7] ThomasBrox，Andr e'sBruhn，NilsPapenbe r g，andJoachimWeickert. 基于翘曲理论的高精度光学光流估计。欧洲计算机视觉会议，第25-36页。Springer，2004. 2[8] 这是布鲁恩，约阿希姆·维克特和克里斯托夫·舍诺。Lucas/kanade遇到Horn/Schunck：结合局部和全局光流方法。国际计算机视觉杂志，61（3）：211-231，2005。2[9] Angel X Chang，Thomas Funkhouser，LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. arXiv预印本arXiv：1512.03012，2015。5[10] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。2[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，pages 3213-3223，2016中。6[12] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页，2015年。2[13] 冯紫月，景龙龙，殷鹏，天瑛璃，李冰。使用稀疏激光雷达推进自监督单目深度学习。2021年第五届机器人学习年会2[14] Xiuye Gu，Yijie Wang，Chongruo Wu，Yong Jae Lee，and Panqu Wang.Hpl网格网：用于大规模点云上场景流估计的分层置换面体网格网在IEEE/CVF计算机视觉和模式识别会议论文集，第3254-3263页，2019年。二、五[15] 洪远多，潘慧慧，孙伟超，贾义松，等. Deep dualresolution networks for real-time and accurate semanticsegmentation of road scenes. arXiv预印本arXiv：2101.06085，2021。6[

下载后可阅读完整内容，剩余1页未读，立即下载