最优传输和随机游走的点云自监督场景流估计

19 浏览量更新于2024-01-22 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15577Self-Point-Flow：基于最优传输和随机游走的点云自监督场景流估计李瑞博1，2，林国胜1，2，谢丽华31新加坡南洋理工大学S-Lab2新加坡南洋理工大学计算机科学与工程学院3新加坡南洋理工大学电气与电子工程学院电子邮箱：ruibo001@e. NTU。edu. sg，{gslin，elhxie}@ntu. edu. SG摘要由于带注释的场景流数据的稀缺性，点云中的自监督场景流学习越来越受到关注。在自监督的方式下，建立两点云之间的对应关系以近似场景流是一种有效的方法。先前的方法通常通过应用仅考虑3D点坐标上的距离的逐点匹配来获得对应性，这引入了两个关键问题：（1）它忽略了其他区分性测量，诸如颜色和表面法线，这通常为精确匹配带来富有成效的线索;以及（2）它通常产生低于标准的性能，因为匹配在无约束的情况下操作，其中多个点可以以相同的对应点结束。为了解决这个问题，我们将这个匹配任务作为一个最优运输问题。输出的最优分配矩阵可以用来指导伪地面真值的生成。在这种最优传输中，我们通过考虑多个描述符来设计传输成本，并通过质量相等约束来鼓励一对一匹配同时，在点上构造一个图在FlyingThings3D和KITTI上的综合实验表明，我们的方法在自监督学习方法中达到了最先进的性能。我们的自监督方法甚至可以与一些监督学习方法相提并论，尽管我们不需要任何地面实况流进行训练。1. 介绍场景流估计的目的是获得动态场景中点的三维矢量场，描述每个点的运动状态。最近，随着3D传感器Correspondingauthor：G.是林书（电子邮件：gslin@ ntu。edu.sg）(a)（b）第（1）款Acc02：85.3%Acc02：100%（c）（d）图1.不同方法生成的两点云之间的伪地面实况。绿线表示正确的伪地面实况，其相对误差小于10%。红线代表错误的伪地面实况。(a)通过仅用3D点坐标作为度量的最近邻搜索产生的伪地面实况;（b）通过我们的最优传输模块产生的伪地面实况;（c）通过我们的最优传输模块产生的伪地面实况，然后通过我们的随机游走模块进行细化;（d）地面实况。随着深度学习在3D点云任务中的巨大成功，通过深度神经网络（DNN）直接从点云估计场景流是一个活跃的研究课题。DNN是数据驱动的，DNN的监督训练然而，对于场景流估计任务，没有传感器可以在复杂环境中捕获光流地面实况[19]，这使得难以获得真实世界场景流地面实况。由于地面真实数据的稀缺性，最近基于深度学习的点云场景流估计方法[14，7，38，23]转向合成数据，例如FlyingThings3D数据集[18]，用于监督训练。然而，合成数据和真实数据之间的域差距很可能使训练的模型在真实世界场景中表现不佳。Acc02：26.3%Acc02：61.8%15578为了避免对昂贵的地面实况数据的依赖Mittal等人[21]和Wu等人[38]进行了首次尝试。这些方法在另一点云中搜索最接近的点作为对应点，并且使用每个对应之间的坐标差来近似地面实况场景流。虽然实现了有希望的性能，但这些方法中存在两个问题：(1) 搜索对应关系仅依赖于3D点坐标，但忽略了其它测量，例如颜色和表面法线，这通常为精确匹配带来富有成效的线索;以及（2）无约束搜索可能导致退化的解决方案，其中多个点与其它点云中的相同点匹配，即多对一问题。最近邻搜索的一个例子如图所示。1（a）.本文假定物体的几何结构和外形在运动过程中保持不变，因此，当搜索点对应时，我们采用3D点坐标，表面法线和颜色作为度量，并鼓励每个点与下一帧中的唯一点匹配，即一对一匹配。自然地，搜索问题可以用公式表示为最优运输[22]，其中运输成本根据三个度量来定义，建立质量相等约束以鼓励一对一匹配，并且产生的最优分配矩阵指示两个点云之间的最优去除一些距离较远的无效对应，有效对应之间的坐标差可以被视为用于训练的伪地面实况流向量对象中的相邻点通常共享相似的移动模式。然而，最优传输模型通过逐点匹配生成伪标签，而没有考虑相邻点之间的局部关系，导致每个局部区域中的伪标签冲突，如图1（b）所示。为了解决这个问题，我们引入了一个随机游走模块，以改善伪标签的encour-老化的本地一致性。将每个点视为一个节点，我们在点云上构建一个图来传播和平滑伪标签。具体来说，我们在图中应用随机游走算法[16]利用三维点坐标上的距离作为度量，建立了一个亲和矩阵来描述两个节点之间的相似性。在亲和度矩阵中，距离较近的节点将被分配较高的分数，以确保局部一致性。通过对亲和度矩阵进行归一化处理，得到随机游走转移矩阵来指导节点间的传播。通过在图上的传播，我们获得了局部一致的伪场景流标签，场景流学习我们的主要贡献可归纳如下：• 我们提出了一种新的自监督场景流学习-在点云（Self-Point-Flow）中通过点匹配生成伪标签并通过鼓励伪标签的局部一致性来执行伪标签细化的方法;• 将伪标签生成问题转化为点匹配问题，提出了一种最优的转换算法。端口模块，用于通过考虑多个线索（3D坐标、颜色和表面法线）并明确鼓励一对一匹配来生成伪标签;• 对象中的相邻点通常共享相似的运动模式。在点上构建图形云，我们提出了一个随机游走模块，通过鼓励本地一致性来改进• 我们提出的Self-Point-Flow在自监督学习方法中实现了最先进的性能。我们的自我监督方法甚至可以与使用一些监督学习方法，尽管我们不需要任何地面实况流进行训练。2. 相关工作来自点云的监督场景流场景流在[31]中首次提出，以表示场景中点的3D运动。已经提出了许多工作[5，29，19，17，24，8，30，33，34，35]来从多种类型的数据恢复场景流。近年来，利用深度学习直接从点云数据中估计场景流一些方法[38，23，7，14，1，36]以完全监督的方式学习点云中的场景流。Puy等人[23]首先将最优运输引入这一领域。添加到DNN中，这个最佳传输模块使用学习的功能在完全监控下回归场景流。与[23]不同的是，我们专注于无监督学习，我们的最优传输模块利用低级线索来匹配伪标签生成点。从点云的无监督场景流为了满足对昂贵的地面实况的需要，一些应用程序proaches [38，21] target self-supervised learning. Mit-tal等人[21]介绍了最近邻损失和锚定循环损失。吴等人[38]使用倒角距离[6]作为主要的代理损失。对于最近邻损失和倒角距离，另一点云中的最近邻被视为对应点以提供监督信号。与[21，38]不同，在建立对应关系时，我们利用多个描述符作为线索，并利用全局质量约束来明确鼓励最佳运输中的一对一匹配。来自图像的无监督光学/场景流其他相关主题是来自图像的无监督光学流[25，39，42，13，12]和来自图像的无监督场景流[9，11，37]。在这些范围内，光度consis-15579i=1n s ntIJ场景损失被广泛用作代理流估计训练点云场景流估计的目的是预测场景网络通过惩罚光度差异。 Dif-流F={fi∈R3}n对于点云P，其中每个从这些作品中，直接使用的差异，监督信号，我们的方法产生伪地面实况，这使得我们的自监督方法能够与任何逐点损失函数合作。最优传输最优传输已经在各个领域进行了研究，例如少量学习[41，40]，姿势估计[26]，语义对应[15]等。他们中的大多数将最优传输嵌入DNN以找到正确的传输。具有可学习特征的响应。在本文中，我们将最优传输应用于自监督场景流学习。随机游走随机游走是一种广为人知的图形模型[16]，已用于图像分割[2]和人员重新识别[27]。Bertasius等人。[2]使用像素到像素的关系来正则化像素预测结果。Shen等人。[27]使用图像间关系来改善图像亲和度排名。在本文中，基于局部一致性假设，我们专注于利用点到点关系的伪标签平滑和生成。3. 方法在这一节中，我们首先介绍了光学传输理论，然后我们讨论了场景流标签和点对应之间的关系基于这种关系，我们通过在最优传输框架中找到点对应来解决伪标签生成问题。最后，我们介绍了我们提出的伪标签细化模块的细节，产生密集的和局部一致的伪标签的随机游走理论。我们的方法的概述如图所示。二、3.1. 再论最优运输最优运输问题[32]寻求将源分布μs移动到目标分布元素fi表示点pi从坐标系t到帧t+1。与全监督场景流学习不同，其中场景流标签是可用的，自监督场景流学习应该产生伪标签或设计用于训练的自监督损失。本文研究了如何为场景流学习生成有效的伪标签。通过以下方法提取伪标签点匹配场景流描述了两个连续点云之间的运动。理想地，如果不存在视点移位和遮挡，则在地面实况场景流标签D之后，第一点云P可以被投影到下一帧中并且完全占据第二点云Q：P+D=π Q，（2）其中π∈ {0，1}n×n是表示两个点云之间的点对应关系的置换矩阵。因此，对于一对连续的点云P和Q，如果我们能够精确地匹配两个点云中的点，即精确地计算置换矩阵π，则相应的从π导出的sponences可以帮助我们恢复地面实况场景流标签D。换句话说，我们可以通过找到点对应来解决伪标签生成问题在建立对应关系时，一个简单的方法是直接匹配从P到Q的点。然而，在这方面，对于自监督场景流估计任务，给定预测场景流F，我们提出了一种预变形操作，通过预测场景流F来变形第一点云P，然后通过匹配点来以最低的运输成本。在这个问题的离散版本中，µs和µt被定义为Rn中的离散经验分布。将Kantorovich的公式[ 10 ]适用从预包装的第一点云（表示为P）到第二点云Q。虽然在训练开始时预测的场景流是不准确的，但是随着训练的继续，预测将逐渐改善，这使得从P到Q的匹配比从P到Q的匹配更容易。节中4.3，我们表明，匹配ˆU=argminHijn×nUij从P到Q可以使我们的自监督方法实现更好的性能。U∈R+ij（一）S.T.U1=µ，UT1=µ，其中Hij≥0是从样本i到样本j的运输成本，Uij是最优分配矩阵，每个元素Uij描述了从样本i到样本j运输的质量的最优量。样本i到样本j。3.2. 通过OT生成伪标签构建最优运输问题使用3D点坐标、颜色和表面法线作为度量来计算匹配成本，并将一对一匹配公式化为质量等式约束，我们构建了从P到Q的最优运输问题，Tij=argminCijTij3nT∈Rn×nij给定两个连续的点云，P={pi∈R}i=1+（3）在帧t和Q={qi∈R3}n在帧t+1，任务S.T.T1=μ，TT1=μ。j=1np<$nq15580DIJIJIJC不p，iq，j）kq，j克p，iq，jIJπ+IJǁSij ijij ij伪标签生成模块二点云伪标签细化模块Q第一点云CTOT解算器选择图构建图GDP8成本矩阵最优分配矩阵硬分配矩阵伪标签P随机游走预扭曲的第一点云精化伪标签F预测场景流量图2.我们提出的自监督场景流学习方法的流水线。该方法由两部分组成：伪标签生成模块，通过点匹配生成初始伪标签;伪标签细化模块，通过鼓励局部一致性提高伪标签的质量。T是从P到Q的最优分配矩阵。 Cij是从P中第i个点到Q中第j个点的运输成本. 运输成本Cij通过计算三种情况下pij和qj之间的成对差异获得。算法1最佳运输输入：运输成本矩阵C，超参数ε，迭代次数Lo;输出：最优传输矩阵T;当然。坐标成本Cd定义在高斯函数上：颜色成本Ccp是操作步骤：1：K←exp（−C/ε）;1 1 1Cd= 1 −exp（−Ij2θ2），（4）2：µp←n1n，µq←n1n，a←n1n;c= 1−exp（−cp，iDC2q，j2θ2），（5）3：对于l=1，...，罗度4：b←µq/（Ka）;5：a<$µp<$/（Kb）;其中θd·θ c表示向量的L2范数，θd和θc是用户定义的参数，pi和qj表示坐标第六章：端7：T←diag（a）K diag（b）.第i个点和第j个点的kcKC是一种这两点的或。曲面法线成本使用余弦相似性计算：公式化。详细信息见算法1。Cs= 1−sp，i不q，j、（六）国际新闻社 p，i我的天选择硬对应并生成伪对应其中k和ks是两个曲面的法线点最终运输成本是三项单独成本的总和：来自分配矩阵的标签最佳传输从算法1导出的计划T是软分配算法，其中T ∈[0，1].为了获得硬对应Cij=Cd+Cc+ Cs。（七）为了鼓励一对一匹配，在等式的等式约束中，3，我们设置μp=11n和μq=11n。从P到Q，在T的每一行中，我们将元素设置为最大值为1，其余元素为0，从而选择具有最高运输分数的点作为该行中的唯一对应点。所产生的∗n n硬分配矩阵被赋予Tπ。根据在这种情况下，assign的行和和列和块矩阵T被约束为均匀分布，这将缓解多对一匹配问题。使用Sinkhorn算法有效求解为了有效求解最优运输问题，我们使用熵正则化项对上述问题进行Tij= argmin<$CijTij+εTij（logTij−1）当量在图2中，我们具有伪场景流标签D_n ：D=TQ−P。（九）去除一些具有太大位移（大于3.5m）的无效伪场景流标签，我们获得一组对于可变标记点PM，可变伪标记DM。其余没有有效伪标签的点为T∈Rn×nij（八）表示为PS。C克 -k（k15581npnqS.T.T1=μ，TT1=μ。ε是正则化参数。Sinkhorn算法[4]可以用来求解这个熵正则化的3.3. 基于随机游走的伪标号精化最优传输模块通过逐点匹配生成伪标签，但缺乏捕获本地15582JRIJMMM^一一IJIJM MMIJ节点i和j是，1Wij=exp（−阿尔普岛-p22θ2），（十）标号点PMG1中的无标号点PS无向边其中θr是一个超参数，pi和pj是与节点i和j相关的点坐标。然后，我们将亲和矩阵W1归一化以获得转移矩阵A1，G2中的有向边图3.图G的说明。该图由两个其中每个元素A11被写为：1IJ子图：一个全连通无向子图，用于标记点上的伪标记平滑，一个有向子图，用于新标记点上的伪标记平滑。Aij=J I1 .一、（十一）IJ在未标记的点上生成伪标记。相邻点之间的关系，导致每个局部区域中的伪标签冲突。此外，在伪标签生成模块之后，仍然有一些点没有有效的伪标签。为了解决这些问题，我们提出了一个伪标签细化模块，以鼓励伪标签的局部一致性，并推断新的伪标签为那些未标记的点。在点云上构建图形查看每个点作为一个节点，我们在第一个点云P上建立一个图G（V，E），如图2所示3 .第三章。根据标签伪标签上的随机游走细化的第t次迭代可以表示为：D（t）=αA1D（t−1）+（1−α）D （0），（12）其中，D （0）是从伪标签生成模块导出的初始伪标签，D（t-1）是在t-1个随机游走步骤之后的细化标签，并且α是用于控制随机游走细化与初始值之间的折衷的参数[0，1]当应用随机游走过程直到收敛时，即t=∞，根据[2，27]，最终的随机游走细化可以写为D （∞）=（1−α）（I−αA1）−1D（0），（13）每个点的状态，节点分为两组，M M标记的节点与PM相关联，未标记的节点与PS相关联。Vm={1，2，.，nm}，并且其中I是单位矩阵。在Lr个随机行走步骤之后，我们将产生的随机行走细化处理为Vs={1，2，.，ns}表示标记的节点集，未标记的节点集。nm和ns是标记点的细化伪标记，=D（Lr）.在两个节点中。随后，整个图G（V，E）可以被划分为两个子图：1）标号节点Vm上的全连通无向子图G1（Vm，Em），用于平滑标号点的伪标号2)从标记节点Vm到未标记节点Vs的有向子图G2（V，Es），为未标记点生成新的伪标记在这个过程中，未标记点的伪标签完全依赖于标记点的伪标签。因此，我们可以首先在无向子图上传播伪标签，然后在有向子图上传播伪标签。传播操作可以通过随机游走算法实现[16]。构造了全连通无向子图，以提高标记点集PM的伪标记的局部一致性。在这个子图上的随机游走操作可以用一个nm×nm的转移矩阵A1来建模。构造无向子图，根据标记点集DM的精化伪标号为未标记点集PS推断新的伪标号. 类似于无向子图上的传播过程，我们首先定义一个ns× n的仿射矩阵W2来描述每个点之间的邻近度以及PS中的每一点。然后对仿射矩阵W2进行归一化，得到ns×nm的变换矩阵A2.W2和A2的计算与W1和A1的计算相同，如等式2所示。10、Eq.十一岁基于转移矩阵A2和精化的伪标签D^M，我们获得未标记点的n个伪标签D^S：D^S=A2D^M。（十四）使用伪标签进行训练将精化的伪标签D^M和新的伪标签D^S相结合，我们获得整个点的最终精化伪标签D^1∈[0，1]表示之间第i个和第j个节点，对于所有j，具有约束条件<$j1 = 1。为了提高局部一致性，我们使用节点之间的接近度作为度量来构建转移矩阵，使得距离较近的节点将被分配较高的转移概率。首先，我们表示一个对称的nm×nm仿射矩阵W1，其中每个元素W1描述了WWΣ15583cloudP自监督学习训练损失我们的自监督学习方法可以通过以下方式计算：L〇ss=fl〇ss（D^，F），（15）其中floss是任何每点损失函数，F是预测的场景流。具体来说，我们设置f损失为每点L2范数损失函数的场景流学习。155844. 实验我们首先比较我们的方法与两个国家的最先进的自我监督场景流量估计方法在第二节。4.1.然后，我们将我们的自监督模型与SEC中最先进的全监督模型进行了比较。4.2. 最后，我们进行消融研究，以分析每种成分的有效性。四点三在本节中，我们采用FlowNet3D [14]作为默认场景流量估计模型，仅使用点坐标作为输入。实验将在FlyingThings3D [18]和KITTI2015 [19，20]数据集上进行。两个原始数据集中没有直接提供点云。在[23]之后，我们将[7]提供的两个处理后的点云数据集定义为FT3D和KITTI。我们将[14]提供的两个处理后的数据集表示为FT3Do和KITTIo。评价指标。我们采用[14]，[7]，[23]中使用的四个评价指标。令Y表示预测的场景流，并且D是地面实况场景流。评估度量计算如下。EPE（m）：主要指标，每个点的平均值为Y−Ygt<$2AS（%）：百分比-EPE 0.05m 或相对误差 5% 的点的年龄。 < 0.3m或相对误差>10%的点的百分比。4.1. 与自我监督方法的比较与 PointPWC-Net 比较 [38] 。 Wu 等人。 [38] 介绍了Chamfer距离，平滑约束和Laplacian正则化用于自监督学习。根据[38]的实验设置，我们首先训练用我们的自监督方法在FT3D上进行FlowNet3D建模，然后在FT3D和KITTI 上进行评估。在训练过程中，我们使用FT3D中的整个训练集进行训练。此外，我们还尝试将循环一致性正则化[14]添加到我们的训练损失中。详细的实验设置见附录。其结果示于表1。我们的方法在所有指标上都优于自监督PointPWC-Net [38]，并且具有更好的泛化能力虽然我们使用的 FlowNet 3D 的网络容量比他们的PointPWC-Net差，但KITTI的网络能力仍然很强。通过在损失函数中加入循环一致性正则化，我们的模型得到了进一步的改进。与JGF比较[21]。Mittal等人。[21]提出了一种用于自我监督训练的最近邻损失和锚定周期损失。在[21]中，他们将KITTI o分为两组，100对点云用于训练，表示为KITTI v，其余50对用于测试，表示为KITTIt。此外，他们还提供了一个额外的真实世界户外点云数据集nuScenes [3]，以增强其训练数据。在[21]中，所有网络都使用在FlyingThing3D上预先训练的Flownet3D模型[14表1.使用[7]提供的过程点云数据对FlyingThings3D和KITTI数据集进行评估的结果。Full是指完全监督的训练，Self是指自我监督的训练。†意味着我们将循环一致性正则化[14]添加到训练损失中。在不使用地面实况流的情况下，我们的自监督方法在两个数据集上的性能优于PointPWC-Net，甚至与一些监督方法相当。数据集方法辅助核算EPE↓AS↑AR↑出↓[38]第三十八话自我0.1213 32.39 67.42 68.78我们自我0.1208 36.68 70.22 65.35Ours†自我0.1009 42.31 77.47 60.58FT3D系列[28]第二十八话原始BCL [7]充分充分0.12050.111141.9742.7971.8075.5161.8760.54[14]第十四话充分0.0864 47.89 83.99 54.64HPLFlowNet [7]充分0.0804 61.44 85.55 42.87[38]第三十八话充分0.0588 73.79 92.76 34.24[38]第三十八话自我0.2549 23.79 49.57 68.63我们自我0.1271 45.83 77.77 41.44Ours†自我0.1120 52.76 79.36 40.86KITTIs[28]第二十八话原始BCL [7]充分充分0.19880.172921.7425.1653.9160.1165.7562.15[14]第十四话充分0.1064 50.65 80.11 40.03HPLFlowNet [7]充分0.1169 47.83 77.76 41.03[38]第三十八话充分0.0694 72.81 88.84 26.48在我们的实验中，我们使用KITTI的原始数据来生成点云作为我们的训练数据。由于KITTIo中的点云属于KITTI中的29个场景，为了避免训练数据和测试数据的重叠，我们从剩余的33个场景中生成训练点云。每五帧提取一对点云，我们构建了一个包含6，068对的自监督训练集，表示为KITTIr。为了比较，我们在相同的KITTIt上用50个测试对测试我们的模型。在每个测试中，我们的模型通过处理2，048个随机点进行详细的实验设置见补充说明。结果示于表2中。我们在KITTIr上训练的模型在EPE中的表现优于他们的模型18.3%，EPE是在FT3D上预先训练的，然后在KITTIv上训练，尽管从头开始训练更具挑战性而不是微调一个预先训练好的自我监督学习模型。在KITTIv上进一步微调后，我们的模型实现了与他们的模型相当的性能，该模型在FT3D上进行了预训练，然后在nuScenes和KITTIv上进行了训练。当使用自监督模型的参数作为初始权重并对KITTIv进行全监督训练时，我们的模型在所有指标上都优于他们的模型。图5显示了我们为KITTIv中的一些示例生成的伪地面实况。4.2. 与完全监督方法的在表1中，我们将我们的自监督模型与一些完全监督的方法进行了比较，这些方法也在FT3D上进行了训练，并在FT3D和KITTI上进行了测试。如表1所示，添加循环一致性正则化，15585图4. FlyingThings3D（上）和KITTI（下）的定性结果。蓝色点是第一个点云P。绿点是被正确预测的场景流扭曲属于AR的预测场景流被认为是正确的预测。对于预测不正确的点，我们使用地面实况场景流来扭曲它们，扭曲的结果显示为红色点。表2. 根据Mittal等人[21]的试验设置，对KITTI t的评价结果。这意味着对KITTI v进行全面监督的微调。方法预训练训练数据EPE ↓AS↑AR↑[21日]JFT3Do + KITTIv0.1260 32.00 73.64[21日]JFT3Do + nuScenes + KITTIv46.48 79.42我们KITTIr0.1029 35.68我们KITTIr + KITTIv41.74 75.01[21日]JFT3D o + nuScenes + KITTIv0.0912 47.92我们KITTIr + KITTIv0.0720 50.12自监督方法在FT 3D上优于SPLATFlowNet [28]，并且在KITTI 上比 SPLAT-FlowNet [28] ，原始 BCL [7] 和HPLFlowNet [7]更好地推广，尽管我们不使用任何地面真实流进行训练。定性结果如图所示。四、在表3中，使用KITTIo作为测试集，我们将在KITTIr上训练的自监督模型与在FT3Do上训练的一些完全监督方法进行了比较，遵循FLOT [23]的测试程序。尽管使用了相同的场景流量估计模型，但我们在KITTIr上训练的自监督 FlowNet3D在EPE指标上的表现优于在FT3Do上训练的监督FlowNet3D [14] 39.3%。它表明，对于FlowNet3D模型，使用我们的方法在KITTI上进行自监督学习比在真实场景中在FlyingThings3D上进行监督学习更有效。此外，如表3所示，我们的自监督方法在KITTIo数据集上实现了与最先进的监督方法FLOT[23]图4提供了一些示例结果。4.3. 消融研究在本节中，我们进行消融研究，以分析每个组件的有效性所有模型都在KITTIr上训练，并在KITTIo上进行评估。伪标签生成模块的消融研究。在表3.对KITTIo.在不使用地面实况流的情况下，我们的自监督方法优于监督FlowNet3D [14]，并实现了与最先进的监督方法FLOT [23]相当的性能。方法辅助核算训练数据EPE↓ AS↑ AR↑ 出↓[14]第十四话充分FT3Do0.173 27.6 60.964.9[23]第二十三话充分FT3Do0.107 45.174.046.3我们自我KITTIr0.105 41.7 72.550.1港口成本矩阵，并建立全局约束，以强制一对一的推进。为了验证该模型的有效性，我们设计了一种基线方法，称为贪婪搜索，它直接在另一个点云中找到具有最低传输成本的点作为对应点，而不需要任何约束。首先，我们分析了颜色测度和表面法向测度的影响。如表4所示，对于贪婪搜索方法和最优传输方法，添加颜色和表面法线作为度量可以将AS提高约10到17个点。与仅使用三维点坐标作为度量的原始最优传输相比，我们提出的伪标签生成模块使AS提高了139%，这证明了颜色和表面法线在寻找对应关系时的区分能力。其次，分析了全球性约束的影响。如表4所示，对于所有三种度量组合，添加全局约束可以将AS增加约5到9个点，这意味着解决点匹配中的多对一问题可以大大提高所产生的伪标签的质量。第三，我们比较了不同的匹配策略在我们的模块。在我们的最佳传输中，我们通过匹配从预扭曲的第一个在该模块中，为了良好的点匹配，我们将颜色和点云应用于第二点云，表示为P^→Q，表面法线作为建立trans-and的附加措施，并将具有最高运输分数的点视为15586表4.在我们的伪标签生成模块（PLGM）中，对颜色测量、表面法线测量和匹配约束进行了消融研究。方法坐标颜色范数约束AS↑贪婪搜索（基线）J1.85+彩色JJ11.25+ 颜色+规格JJJ18.89最佳传输JJ10.19+彩色JJJ21.51+ （颜色+标准）/我们的PLGMJJJJ24.36表5.在我们的伪标签生成模块（PLGM）中对不同匹配策略进行消融研究。P→ Q：比赛从第一点云到第二点云。P^→Q：matc h从预扭曲的第一点云到第二点云。软匹配：通过软对应产生标签。硬匹配：通过硬对应产生标签。方法P → QP^ → Q 软匹配硬匹配AS↑基线1JJ12.52基线2JJ13.16我们的PLGMJJ24.36对应点，表示为硬匹配。为了评估我们的匹配策略的有效性，如表5所示，我们设计了两种基线方法：1）基线1从第一个点云到第二个点云进行匹配，表示为P→Q，2）基线2通过使用交通分数作为权重来对所有候选点进行加权求和，从而点这个过程被称为软匹配。如表5所示，我们的方法在AS上比基线1和基线2高出约10个点，这证明了我们的匹配策略的有效性。伪标签消融研究细化module. 该模块采用随机游走操作来提高伪标签的局部一致性。在这个模块中，我们建立了两个子图：一个是无向子图，用于标记光滑性;另一个是有向子图，用于在未标记的点上生成新的标记。为了验证我们的模块的有效性，我们设计了一个朴素平滑单元（NS），通过KNN搜索找到相邻点，并输出相邻点的平均标签作为细化标签。如表6所示，通过对未校正子图（UG）进行随机游走操作来平滑标签将AS从24.36提高到40.88。UG的改进明显大于朴素平滑单元（NS）。通过在有向子图（DG）上进行随机游走操作，为未标记的点进一步生成新的标记，我们实现了AS的0.86的其他改进。这一巨大的改进证明了我们的伪标签精化模块的有效性。不同的随机游走步长对我们的方法的影响如表7所示。伪标签生成过程的时间消耗。要处理包含2，048个点的场景，请执行以下操作图5.伪地面真理的一些例子。蓝色点是第一个点云。黑点是第二个点云。绿线表示由AR测量的正确伪地面真值。红线代表错误的伪地面实况。表6.我们的伪标签细化模块（PLRM）的消融研究。NS：朴素平滑单元。UG：在无向子图上通过随机游走操作平滑标号. DG：在有向子图上通过随机游走操作生成新标签。方法NSUGDGAS↑我们的PLGM+NSC24.3627.53+UGC40.88+ （UG+UG）/我们的PLRMCC41.74表7.随机游走操作的迭代次数对我们的方法的影响。迭代次数151020∞AS↑37.2938.4939.7140.1141.74在单个2080 ti GPU上，伪标签生成模块大约需要3.2ms，伪标签细化模块大约需要75.6ms。因此，场景的总时间消耗为78.8ms。5. 结论本文提出了一种新的点云自监督场景流学习方法，通过点匹配产生伪标签，并通过鼓励局部一致性进行伪标签细化。综合实验表明，我们的方法达到了最先进的性能之间的自监督学习方法。我们的自监督方法甚至可以与一些监督学习方法相提并论，尽管我们不需要任何地面实况流进行训练。6. 确认这项研究是与SenseTime合作进行的。这项工作是由A*STAR通过行业联盟基金-行业合作项目赠款支持的。这项工作还得到了新加坡国家研究基金会在其AI新加坡计划（AISG奖号：AISG-RP-2018-003）下的支持，以及MoE Tier-1研究资助：RG 28/18（S）和RG22/19（S）。15587引用[1] AseemBehl，DespoinaPaschalidou，SimonDonne'，andAn-dreas Geiger.Pointflownet：从点云学习刚性运动估计的表示。在IEEE计算机视觉和模式识别会议论文集，第7962-7971页，2019年。2[2] Gedas Bertasius，Lorenzo Torresani，Stella X Yu，andJianbo Shi.卷积随机游走网络用于语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第858-866页三，五[3] Holger Caesar，Varun Bankiti，Alex H Lang，SourabhVora，Venice Erin Liong，Qiang Xu，Anush Krishnan，YuPan，Gi-ancarloBaldan，andOscarBeijbom.nuscenes：一个用于自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页，2020年。6[4] 马可·库图里Sinkhorn距离：最佳运输的光速计算。神经信息处理系统的进展，第2292-2300页，2013年4[5] Ayush Dewan，Tim Caselitz，Gian Diego Tipaldi，andWol-fram Burgard.三维激光雷达扫描的刚性场景流。2016 年 IEEE/RSJ 智能机器人和系统国际会议（IROS），第1765-1770页。IEEE，2016年。2[6] Haoqiang Fan，Hao Su，and Leonidas J Guibas.一种从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页，2017年。2[7] Xiuye Gu，Yijie Wang，Chongruo Wu，Yong Jae Lee，and Panqu Wang.Hplflownet：用于大规模点云场景流估计的分层置换面体网格流网在IEEE计算机视觉和模式识别会议论文集，第3254-3263页一、二、六、七[8] 弗雷德里克·胡盖和弗雷德里克·德韦尔纳。一种从立体序列中估计场景流的变分2007年IEEE第11届计算机视觉国际会议，第1-7页。IEEE，2007年。2[9] 许俊华和斯特凡·罗斯。自监督单目场景流量估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第7396-7405页2[10] 列昂尼德·康托洛维奇。关于物质的转移。人类科学，5（1）：1-4，1958. 3[11] 刘亮，翟光耀，叶文龙，刘勇融合局部刚性的场景流估计无监督学习。第28届国际人工智能，第876北京大学出版社，2019. 2[12] Pengpeng Liu ， Irwin King ， Michael R Lyu ， Jia Xu.Flow2stereo：光流和立体匹配的有效自监督学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第6648-6657页，2020年。2[13] Pengpeng Liu，Michael Lyu，Irwin King，Jia Xu. Self-low：光流的自我监督学习。在IEEE计算机视觉和模式识别会议论文集，第4571-4580页，2019年。2[14] Xingyu Liu ， Charles R Qi ， and Leonidas J Guibas.Flownet3d：在3d点云中学习场景流。在IEEE计算机视觉和模式识别会议上，第529-537页，2019年。一、二、六、七[15] Yanbin Liu ， Linchao Zhu ， Makoto Yamada ， and YiYang.语义对应作为最优运输问题。在IEEE/CVF计算机视觉和模式识别会议论文集，第4463-4472页，2020年。3[16] La'szl o'L ova'szetal. 图上的随机行走：一个综述。二、三、五[17] Wei-Chiu Ma ， Shenlong Wang ， Rui Hu ， YuwenXiong，and Raquel Urtasun.深度刚性实例场景流。在IEEE计算机视觉和模式识别会议论文集，第3614-3622页，2019年2[18] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.一个大型数据集，用于训练卷积网络进行视差、光流和场景流估计。在IEEE计算机视觉和模式识别会议论文集，第4040-4048页，2016年。第1、6条[19] 莫里茨·门泽和安德烈亚斯·盖格。自动驾驶车辆的目标场景流在IEEE计算机视觉和模式识别会议论文集，第3061- 3070页，2015年。一、二、六[20] Moritz Menze，Christian Heipke，and Andreas Geiger.车辆与场景流联合三维估计。 ISPRS年鉴摄影测量，遥感&空间信息科学，2015年2月。6[21] Himangi Mittal，Brian Okorn和David Held。Just go withthe flow：自我监督场景流量估计。在IEEE/CVF计算机视觉和模式识别会议上，第11177-11185页，2020年二、六、七[22] Gabri e lP e y re'，MarcoCuturi，etal. 计算最优传输：数据科学应用。基金会和Tr结束在Ma c hine学习，11（5-6）：355-

下载后可阅读完整内容，剩余1页未读，立即下载