神经轨迹先验的运行时优化方法及其在非刚性运动恢复和场景流融合中的应用

157 浏览量更新于2023-10-25 收藏 15.77MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

…165320轨迹估计的神经先验0Chaoyang Wang 1 Xueqian Li 2 , 3 Jhony Kaesemodel Pontes 3 Simon Lucey 1201 卡内基梅隆大学 2 阿德莱德大学 3 Argo AI0chaoyanw@cs.cmu.edu { xueqian.li, simon.lucey } @adelaide.edu.au jpontes@argo.ai0摘要0神经先验是捕捉低层次视觉统计信息的有希望的方向，而不依赖于手工制定的正则化器。最近的研究成功地展示了使用神经网络架构偏差来隐式地正则化图像去噪、超分辨率、修复、合成、场景流等任务。它们不依赖于大规模数据集来捕捉先验统计信息，因此对于超出分布的数据具有很好的泛化能力。受到这些进展的启发，我们研究了轨迹表示的神经先验。传统上，轨迹是由一组手工制作的基函数表示的，其表达能力有限。在这里，我们提出了一种神经轨迹先验，以捕捉连续的时空信息，而不需要离线数据。我们演示了我们提出的目标在运行时如何进行优化，以估计两个重要任务的轨迹：非刚性运动恢复（NRSfM）和用于自动驾驶场景的激光雷达场景流融合。我们的结果在这两个任务中与许多最先进的方法竞争。01. 引言0用3D轨迹表示时空信息可以提供关于3D场景动态的长期信息，相比于场景流等成对表示，它还能够为无法对不同对象和场景进行区分的低层次视觉任务提供通用的先验。在这里，我们旨在通过神经运行时优化方法对3D轨迹进行建模，以建立一种通用的、无需数据的先验。大多数研究轨迹先验的工作来自非刚性运动恢复（NRSfM）领域，在该领域中，它们是手工制作的，用于解决将动态2D点提升到3D的逆问题。最直接的轨迹先验假设点随时间平滑移动[56,57]。然而，它并不能提供足够的约束来消除相机和点的运动的歧义。另一方面，从场景中观察到的一组轨迹包含更强的先验统计信息。Akhter等人的开创性工作[3]提出了表示轨迹的方法0�0MLP0应用0� ! � "0（i）空间平滑性（iii）可压缩性神经轨迹先验0�0连续轨迹基函数0（�，�）或（�，�，�，�）0� � # �′ � ! � " � #0权重解码器0（�，�，�，�）0�0�0（�，�）0（ii）时间平滑性0（a）NRSfM0（b）场景流融合0权重0�0�0图1. 我们的神经轨迹先验（NTP）通过连续映射坐标MLPfϕ，使点的运动在空间上平滑。轨迹表示为超完备连续基函数τ1，τ2，...，τK的线性组合。线性权重α被规范为可压缩到较低维度ϕ，基函数由时间坐标MLPfτ生成，隐式地强制时间上的平滑性。我们展示了在NRSfM和激光雷达场景流融合中应用NTP的结果。0通过线性组合一小组离散余弦变换（DCT）基函数来表示。然而，众所周知，这种低秩线性模型不足以表示复杂的运动和密集的数据，其中轨迹的数量远大于序列的长度。最新的NRSfM方法[33, 34,53]将形状和轨迹先验结合起来，或者专门针对特定场景，如变形表面[31, 42,44]。在本文中，我们重新审视了通用轨迹先验的思想。我们的方法与当前方法不同之处在于我们使用神经网络的架构正则化特性。我们受到使用坐标MLP的最新创新的启发[36,38, 40,45]，提出了一种新的通用神经轨迹先验，以模拟动态场景的连续时空运动（见图1）。我们利用坐标MLP的平滑性偏差来强制轨迹在时间上平滑，并鼓励附近的位置共享相似的运动。我们还向模型引入了一个瓶颈层，从而有效地将输出轨迹约束为可压缩到低维度。MLP与瓶颈先前已被用于形状的正则化形状NRSfM方法[10, 53, 59, 60]，显示出Although a 3D trajectory is high-dimensional, a collec-tion of trajectories from real-world scenes tends to havesimpler structure, thus compressible to lower dimensions.Prior works have explored statistical trajectory priors byreasoning about the rank of trajectories. To motivate ourapproach, we go through different scene assumptions, andreview several well-known rank-based trajectory priors.Rigid body. Given a sequence of rigid motions Mt∈R3×4265330与大规模数据上的低秩模型相比，我们的方法在大型数据集上具有更高的表达能力和准确性。据我们所知，我们是第一个提出这种用于建模轨迹的策略。我们的神经轨迹先验可以轻松地集成到NRSfM领域之外的问题中，例如从激光雷达点云估计长期场景流。尽管在给定一对点云的情况下，场景流估计取得了显著的进展[21, 30, 37, 47,62]，但在更长的序列上实现类似的性能仍然具有挑战性。我们有兴趣将稀疏的3D激光雷达点云整合到多个对象存在的动态场景中的单个参考帧中。此外，由于信号的稀疏性和非结构化性质，处理激光雷达点云具有其独特的挑战。这使得基于图像的多帧流方法[16, 26, 27,50]不适用。我们证明了我们提出的神经轨迹先验足以在空间和时间上正则化场景流整合，同时优于最先进的场景流估计器[30,36]提出的朴素欧拉积分方法。贡献。我们提出了一种通用的神经轨迹先验。它使用瓶颈架构来正则化轨迹，并使用坐标MLP来正则化稠密问题中的时空依赖关系。我们通过与同时使用形状和轨迹先验的NRSfM方法取得具有竞争力的结果来验证瓶颈轨迹先验的有效性。接下来，我们展示它可以与现有的神经形状先验配对，以在众所周知的稀疏NRSfM基准上实现最先进的结果。此外，我们展示了我们的方法在稠密NRSfM基准上优于最近提出的基于神经网络的方法[53]，同时速度显著更快。对于激光雷达场景流整合，我们展示了通过建模时空信息比从场景流估计器中朴素地整合成对流得到更好轨迹的可行性。我们通过点云密实化展示了我们场景流整合的适用性。02. 相关工作0非刚性运动结构。我们将重点讨论基于轨迹的方法。读者可以参考Jensen等人的综述文章[28]了解NRSfM方法的全面调查。Akhter等人的开创性工作[3]引入了一种纯轨迹分解方法，该方法假设不同点的轨迹可以表示为少量DCT基函数的线性组合。其他方法探索了轨迹的卷积结构[11,65]以及不同轨迹可以聚类到少量线性子空间的假设[31, 33,34,64]。在第3.1节中，我们将更详细地讨论文献中探索的轨迹先验知识。0激光雷达场景流估计。我们回顾了直接从点云估计场景流的最先进方法。0大多数深度方法都是基于大规模合成数据的全监督学习，然后在小规模真实数据集上进行微调[21, 37, 47,61]。由于缺乏带有激光雷达场景流注释的大规模真实数据，因此提出了自监督方法[30, 39, 55,62]。然而，这些方法仍然依赖于大规模合成数据集来获得足够的数据先验知识。最近，Pontes等人提出了一种无数据方法，通过图拉普拉斯和简单的目标函数在运行时优化场景流的正则化[46]。我们工作的一个特别感兴趣的是最近的神经场景流先验工作[36]，该工作提出了使用基于坐标的网络在运行时隐式地正则化场景流。这种无数据方法在不同的数据上表现出很好的泛化能力和鲁棒性。03. 背景0对于时间索引t∈[1，F]，时间t时刻刚体的第i个点的位置为st，i=Mt˜si，其中˜si∈R4表示规范帧的齐次坐标。第i个点的轨迹表示为矢量τi=[s�1，i，...，s�T，i]�∈R3F。P个轨迹的列连接给出一个矩阵T∈R3F×P，其最大秩为4，因为T=M˜S，其中M∈R3F×4，˜S∈R4×P。0是M t 和 ˜ s i的行连接和列连接。当刚体是平面时，由于rank(˜S)=3，rank(T)进一步减少为3。多刚体。基于对单个刚体的分析，K个刚体的T的最大秩为4K[12]。（多）非刚体。受到多刚体的结果的启发，Bregler等人[8]提出假设非刚体对象的T是低秩的。然而，当非刚体变形复杂或场景包含多个非刚体对象时，低秩假设是不充分的。相反，更现实的假设是具有相似运动的点被聚类到低维子空间中，而整个轨迹空间仍然可以是高维的。换句话说，轨迹来自多个低维线性子空间的并集[34，64]。密集非刚体表面。表面的变形通常保持局部微分结构，如等距性和共形性[6，44]。为了为运动提供额外的条件，通常会使用分段平面性[58]和无穷小平面性。365340对于表面的局部几何，假设轨迹子空间是低维的，并且相邻空间位置的子空间应该相似。基于这一观点，Kumar等人提出将轨迹子空间视为Grassmann流形中的点，并使用投影度量距离来衡量相似性[31]。备注。先前的研究[31，33]将轨迹视为离散变量，并需要复杂的概念来聚类轨迹和强制空间依赖关系。在这项工作中，我们尝试利用神经简单性偏差的概念来建模更简单和连续的轨迹先验。03.2. MLP的简单性偏差0瓶颈MLP的低秩偏差。研究表明，即使过度参数化，深度MLP也倾向于低秩输出[25]。这一观察结果被用作解释神经网络良好泛化能力的证据。引入瓶颈层可以进一步增强这种低秩简单性偏差。因此，瓶颈自编码器和解码器是学习高维数据的紧凑表示的现代选择[24，29]。最近的NRSfM工作使用瓶颈MLP来表示和约束3D形状[53，60]。与使用复杂数学概念（如子空间的并集）的最新技术方法相比，他们展示了有竞争力的结果。然而，当数据密集时，对3D形状空间进行建模是昂贵的，因为形状变得极高维，从而增加了可学习参数的数量。在这项工作中，我们建议改为对轨迹空间进行建模，以利用轨迹与密集3D形状相比较低维的事实，从而更容易进行优化。坐标MLP的平滑偏差。许多现实世界的信号可以看作是连续的矢量场，例如，2D图像可以表示为从2D像素坐标到RGB值的连续映射。最近，多层感知器（MLP）已成功应用于模拟连续矢量场，如有符号距离场[45]、辐射场[38]和场景流场[40]。与体素等离散表示相比，MLP表示具有更低的内存成本，更好的插值质量和更简单的梯度下降优化。此外，通过梯度下降优化MLP会偏向于平滑解决方案，从而使其在传统上需要手工设计的平滑先验的任务上取得成功。在使用激光雷达点云进行场景流估计等任务中，Li等人最近表明，使用MLP的归纳偏差优于基于图拉普拉斯的先验[36]。因此，我们选择将轨迹表示为由MLP参数化的矢量场。04. 神经轨迹先验0所提出的先验被建模为一个连续的轨迹场，它将低维欧几里得坐标映射到连续的轨迹上：0f NT : p ∈ R^d −→ τ ∈ F τ , (1)0其中 F τ 表示由 K 个轨迹基函数 { τ k ( t ) : R → R^3 } K k= 1 张成的函数集。输入坐标 p 的维度 d取决于具体的任务。对于激光雷达点云整合，p是一个物理点的4D时空位置。对于密集的NRSfM，p是参考图像的2D像素坐标。如图1所示，轨迹场被建模为：0f NT (p) =0k = 1 (f α ◦ f ϕ) k (p) τ k , (2)0其中 f ϕ : p ∈ R^d → ϕ ∈ R^L是一个向量场，输出轨迹的低维表示，f α : ϕ ∈ R^L → α∈ R^K 解码 ϕ 为一个高维权重向量 ϕ。然后，输出轨迹是基函数 τ k 与由 (f α ◦ f ϕ)(p)产生的权重的线性组合，其中 ◦表示函数组合。最后，轨迹基函数由单个连续函数 f τ : t ∈R → R^3K 建模，该函数输出每个 τ k 在时间 t的位置的连接。我们将在下面详细解释每个函数的细节。0代码场 f ϕ 。我们使用具有ReLU激活的MLP来建模 f ϕ，从而得到一个分段线性和Lipschitz连续的轨迹代码场[63]。最近在基于坐标的MLP方面的进展表明，使用正弦函数（即位置编码）对输入坐标进行编码有助于提高对高频细节的收敛性[38, 49,54]。在我们的实验中，由于运动自然上是低频的，没有使用位置编码的MLP已经足够。补充材料中提供了不使用位置编码的消融实验。我们将MLP设置为具有4个隐藏层，每个隐藏层有128个隐藏单元。与之前的轨迹重建工作中选择秩或子空间数量类似，轨迹代码的维度是一个基于场景复杂性选择的超参数。我们发现，维度为4已经足够表达本工作中的所有实验。我们遵循确定性自编码器[17]的做法，将 ∥ ϕ∥ 2 2作为正则化项。实验证明，随着代码维度的增加，这种正则化项能够达到与增加代码维度相似的准确性。0轨迹基函数。通过单个时间坐标MLP f τ生成过完备的轨迹基函数 { τ k ( t ) : R → R^3 } K k =1。MLP的时间输入 t 通过余弦位置编码进行嵌入。465350编码的频率在 [1, πF]之间以对数方式采样，以覆盖轨迹的完整频谱，其中输入帧的数量为 F 。我们选择 K =256，这比大多数情况下轨迹的秩要大。我们还注意到，由f τ 产生的轨迹基函数 τ k不是在世界坐标系中定义的，而是平移，使其从原点开始。尽管之前分析的统计特性仍然成立。在实践中，我们将轨迹的起始位置填充为零，并且在 t = 0 时不计算 f τ 。0轨迹权重解码器 f α。我们使用一个128维的4层MLP来从轨迹编码中解码权重。详细信息请参见补充材料。在这里使用解码器的作用与生成模型中的解码器不同。我们利用解码器的非线性表示能力以及瓶颈维度带来的约束。然而，在我们的任务中不需要对代码空间进行采样。因此，在潜在代码上强制施加先验分布[16,51]不会影响我们的性能。在接下来的章节中，我们将在不同的应用中验证NT先验，即在第5节中的非刚性结构运动和第6节中的激光雷达场景流整合。05.非刚性运动结构任务。NRSfM从一个变形物体的一系列2D关键点位置输入，并输出3D关键点位置。形式上，将输入的2D关键点位置表示为2D测量矩阵W∈R2F×P，它是F个矩阵wt∈R2×P的逐行连接，每个矩阵存储目标物体在第t个视图上的2D关键点位置。NRSfM算法求解3D关键点位置st∈R3×P和相机投影矩阵Mt。解决NRSfM的第一个线索是最小化2D重建代价。假设相机投影是弱透视的，2D重建代价的公式如下：0C 2D recon. = ∥W − MS∥F，(3)0其中S∈R3F×P是未知st的逐行连接，W=blockdiag(M1,...,MF)。C 2Drecon.仅提供的约束数量少于未知数的数量（即S，W），因此需要设计额外的约束来解决NRSfM。最后，我们注意到NRSfM不使用对象特定的知识（例如运动约束，形状模板）或监督训练。因此，它与基于学习的任务（例如2D-3D身体姿势估计）不同，后者使用单独的数据进行离线训练。05.1. 方法0我们通过最小化代价来保持解决稀疏和密集NRSfM的统一方法0C 2D recon. + λ1C smooth traj. + λ2∥Φ∥22，(4)0{fz:深度场，fϕ:轨迹代码场}→规范重建0图2.使用NT先验进行密集NRSfM的示意图。我们使用坐标MLPs来建模规范帧上的2D深度图fz和轨迹代码场fϕ。在我们所有的密集NRSfM实验中，我们选择代码维度为3，因此我们可以直接用RGB可视化它。右图显示了通过轨迹代码的RGB可视化着色的重建网格。0表1.稀疏NRSfM结果。结果以标准化的平均3D误差×100报告。是最先进的NRSfM方法。0我们的基准线，我们的提出的方法。粗体和下划线数字表示最佳和次佳结果。0drink pickup yoga stretch dance shark #frames 1102 357 307 370 264240 #points 41 41 41 41 41 910PTA [3] 2.87 19.39 12.43 10.35 24.26 29.330CSF2 [20] 2.27 17.91 11.79 11.36 18.77 11.170PND [35] 0.37 3.72 1.40 1.56 14.54 1.350BMM [14] 2.66 17.31 11.50 10.34 18.64 23.110BMM-v2 [32] 1.19 1.98 1.29 1.44 10.60 5.510PAUL [60] 0.47 2.03 1.71 1.62 10.22 0.370smooth traj. 1.42 7.87 2.13 2.34 13.11 13.540low rank (=12) 1.24 2.11 3.87 1.82 10.25 13.190NTP (=4) 0.34 1.84 2.10 1.51 9.78 9.420PAUL + NTP 0.28 1.16 1.20 1.32 8.53 0.910其中C smooth traj. = � P i =1 ∥� τ i ∥ 2 2 + ∥� 2 τ i ∥ 22鼓励轨迹平滑。τi表示第i个轨迹。0point.Φ=[ϕi,...,ϕP]连接轨迹代码。我们处理稀疏和密集序列的方法的不同之处在于如何构建S。0稀疏NRSfM。我们选择第一个视图作为规范帧，即M1=[I2,0]，表示s1=[w�1,z�]�，其中z∈RP是第一帧中点的未知深度值。然后S=1F�s1+[τ1,...,τP]，其中�表示Kronecker积。在测试时，我们通过对z、M2、...、MF、Φ和θα、θτ进行最小化（4）的代价来优化网络参数fα、fτ。0密集NRSfM。S的构建与稀疏版本几乎相同，只是我们假设z和ϕi的元素来自连续深度场fz和轨迹代码场fϕ（见图2），而不是将它们视为独立的优化变量。fz和fϕ都被建模为基于坐标的MLPs。因此，在测试时，要优化的变量是相机矩阵M2，...，MF和网络权重θz，θϕ，θα和θτ。为了加快优化速度和减少内存成本，我们通过在每次迭代中从连续场中随机选择一组点来执行随机梯度下降。这是traj. A0.1250.0610.0350.0370.0890.0320.0290.0280.0300.0310.0390.045 / 0.032∗0.031traj. B0.1350.0760.0380.0430.0910.0370.0310.0330.0320.0570.0300.049 / 0.039∗0.034565360表2.合成面部序列的密集NRSfM结果。我们的方法在其中排名靠前。特别是，它在运行时间显著减少的情况下优于最近的基于神经网络的方法N-NRSfM [53]。�表示使用不同的超参数得到的结果。结果以归一化的平均3D误差报告。0TB [4] MP [41] VA [15] DSTA [13] CDF [18] CMDR [19] GM [33] JM [31] SMSR [5] PPTA [2] EM-FEM [1] N-NRSfM [53] NTP（我们的方法）0第50帧规范帧0（a）GT（b）无fz，fϕ（c）无fz（d）完整0归一化误差=0.097 归一化误差=0.034 归一化误差=0.0320图3.有无连续场进行密集NRSfM的消融实验。第一列显示了合成面部traj.A序列第1帧和第50帧的地面真实3D网格。其余列显示了有无fz，fϕ的结果。在顶部行，网格被着色以可视化恢复的轨迹代码向量。底部行放大以突出重建的几何差异。它显示了没有来自两个场的空间正则化，重建和轨迹代码都非常嘈杂。只添加fz而没有fϕ仍然会由于轨迹代码中的空间不连续性而出现重建不连续性。最后，完整的方法产生了平滑且更准确的结果。0不适用于基于形状解码器的方法，例如N-NRSfM[53]。详细信息请参见补充材料。05.2.实验数据集。我们在NRSfM文献中报告了标准基准的性能：（i）关节运动序列，drink，pickup，yoga，stretch，dance，shark，每帧由41-91个点组成。（ii）两个合成面部序列，每帧99个和28,000个点，由不同的相机轨迹捕获，分别表示为traj. A和traj.B。[15]。此外，我们还进行了真实世界的密集序列实验，barn owl，真实面部和Kinect序列。0度量。我们使用归一化的平均3D误差，这是NRSfM文献中最常用的度量。为了评估归一化的3D误差，首先将重建的形状S与3D地面真值SGT进行正交Procrustean分析对齐。然后计算误差为∥Salign−SGT∥F / ∥SGT∥F。0稀疏NRSfM结果。在表1中，我们收集了几种经典方法，PTA [3]，CSF2 [20]和BMM[14]，以及当前的最新方法，PND [35]，PAUL[60]和Kumar的修订版本的BMM[32]。其中，PTA使用低秩轨迹先验，该先验是0barn owl真实面部0Kinect 论文 Kinect T恤0图4.实际非刚性序列的定性3D重建结果。网格被着色以可视化轨迹代码。0与我们方法最相关的工作。我们的方法（简称为NT先验）在除鲨鱼序列外明显优于PTA，并且与现有方法相当。此外，受Kumar的发现启发，由于先前工作中使用的算法不足，低秩先验可能被低估，我们使用了从该工作中改编的有效优化过程实现了更强的低秩基线。此外，我们还创建了一个简单的平滑先验基线。这两个基线的详细信息在补充材料中给出。最后，我们发现将我们的方法与基于神经形状的方法PAUL[60]简单组合，可以得到最新的技术成果（技术细节在补充材料中）。0密集NRSfM结果。我们通过去除f z和fϕ来对我们的方法进行了消融实验，如图3所示。我们发现fz和fϕ都有助于提高重建的细节。更多细节请参见图3的标题。0在表2中，我们定量比较了我们的方法与最先进的密集NRSfM方法在合成人脸序列上的表现。我们的方法在排名上位，仅比排名第一的方法JM[31]略低0.002。我们还与N-NRSfM[53]进行了更详细的比较，N-NRSfM也使用了神经先验，但是在形状空间上定义。N-NRSfM对超参数敏感，并且需要针对序列进行特定调整才能得到与我们默认设置相当的结果。更重要的是，由于在轨迹空间中建模的可扩展性，我们的模型比N-NRSfM小得多，并且运行速度更快。我们的方法在单个RTX2080GPU上运行大约15分钟，而N-NRSfM运行时间超过3小时。0最后，我们在图4中展示了真实序列的定性结果。更多细节请参见补充材料。Ccon.(p, t′) = ∥τ − τ ′∥22.(5)F�t=1CCD(Pt±1, Pt�t±1) +�p∈Pt, t′∈[1,F ]Ccon.(p, t′), (6)FlowStep3D [30](KNN Int.)NSFP [36](KNN Int.)NSFP [36](Euler Int.)NTP(Ours)6653706. 激光雷达场景流整合0任务。给定一系列捕捉动态对象的稀疏激光雷达点云，目标是估计每个点在点云中的轨迹。估计点的轨迹可以用于注释和处理激光雷达数据的实际应用。例如，我们可以直接将每个点云注册到特定的时间帧，从而进行点云密集化。这个任务的一个简单解决方案是使用现成的方法来估计成对的场景流进行整合。然而，这种方法面临以下挑战：（i）由于激光雷达点云是稀疏的，跟踪长序列的场景流很可能会导致轨迹漂移；（ii）使用成对的场景流进行场景流整合只能捕捉到场景的空间统计信息，而没有捕捉到时间统计信息。06.1. 方法0轨迹先验f NT被优化用于估计激光雷达输入序列中每个点的完整轨迹。输入点使用4D坐标表示，表示空间位置和捕获的帧编号。将点p=(x, y, z, t)输入到f NT中，得到一个由3D位置序列表示的轨迹，即τ=[τ1, τ2, ...,τF]。我们注意到3D位置τt在轨迹空间中定义，与相机坐标有偏移。因此，在另一个帧t′上，点p的估计位置p′=g t′(p)=(τt′−τt+(x, y, z),t′)。由于p′和p是同一物理点的4D位置，因此τ′=f NT(p′)应该等于τ。这激发了一个循环一致性约束来减少漂移。0在运行时，我们通过一致性代价来优化成对的截断Chamfer距离。0其中P t是帧t上的点集，P t � t ′={g t′ (p) | p ∈P t}是根据fNT给出的轨迹从帧t到t′进行变形的点集。由于稀疏点云的快速变化，我们只在相邻的±1帧之间评估CCD。更长的时间距离对于截断Chamfer距离来说太具有挑战性。06.2. 实验数据集。我们使用了自动驾驶数据集Argo-verse[9]，这是一个具有各种对象类别的具有挑战性动态运动的大规模数据集。我们使用官方的跟踪验证数据集创建了我们自己的轨迹数据集。在每个场景中，我们选择了前25帧。0表3.Argoverse数据集上的轨迹重建结果。我们报告了使用不同整合策略的三种方法的准确性、异常值和Chamfer距离结果。我们使用整个点云场景（full）和仅动态区域（dyn.）来评估这些方法。我们的方法在动态或刚性运动的场景中更准确。请注意，对于Acc0.5、Acc1和Out.，我们报告了24帧间隔的结果。对于Chamfer距离，由于动态区域的点数在帧之间不一致，我们只报告了整个场景的结果。↑表示较高的结果更好，↓表示较低的结果更好。0完整动态完整动态完整动态完整动态0Acc 0.5 (%) ↑ 5.25 62.14 45.18 63.54 45.28 63.56 52.28 69.49 Acc 1 (%) ↑ 6.81 62.49 59.8670.25 59.52 69.70 69.88 73.55 Out. (%) ↓ 87.20 36.19 28.90 23.21 29.33 23.69 20.95 21.77 cd-10(m) ↓ 4.27 — 5.35 — 4.43 — 2.79 — cd-24 (m) ↓ 12.68 — 21.30 — 14.09 — 9.77 —0(a) 严格准确率 (b) 放松准确率0(c) 异常值 (d) Chamfer距离0图5.不同帧间隔下的轨迹准确性。我们的方法在所有帧间隔下都取得了最佳准确性。0以10Hz采样的长轨迹。我们还使用场景中物体的真实姿态和自动驾驶车辆（AV）的真实自我运动创建了伪真实轨迹。0度量标准。在所有实验中，我们报告了以下内容：1）变形点云与原始点云之间的Chamfer距离（cd-n）作为度量标准。我们选择cd-10和cd-24分别表示从第1帧到第11帧、第1帧到第25帧的Chamfer距离。2）严格准确率（Acc0.5）是预测轨迹与真实轨迹之间误差小于0.5米的百分比。3）放松准确率（Acc1）表示误差小于1.0米的百分比。4）异常值（Out.）计算误差大于3.0米的百分比。0基线方法。我们还实现了基于学习的场景流方法FlowStep3D [ 30]和非学习的方法神经场景流先验[ 36]作为我们的基线。1）FlowStep3D是一种学习方法，它使用基于PointNet++ [ 48]的特征来迭代地找到一对点云之间的非刚性运动。我们使用了作者提供的FlyingThings3D数据集上的官方预训练模型。2）神经场景流先验（NSFP）是一种非学习的方法，它使用MLP直接优化原始点云的场景流。我们使用了作者提供的官方实现。cd-24:13.79 cd-24:18.96 cd-24:24.24 765380(a) NTP（我们的方法） (b) NSFP（欧拉积分） (c) FlowStep3D（KNN积分）0图6. Argoverse数据集上的轨迹可视化重建。给定一个以10Hz采样的25个激光雷达帧的动态驾驶序列，我们应用我们的方法来估计每个点的轨迹-从过去（第1帧）到当前（第25帧）帧的长期流动。第一行显示了AV在交叉口停车等待交通的场景。第二行显示了AV进行右转。我们只显示当前第25帧的点云。灰色线表示每个点的估计轨迹。较深的灰色表示最近的运动，较浅的灰色表示较旧的运动。请注意，我们的方法估计的轨迹是平滑的。NSFP使用欧拉积分在大多数动态物体（例如第一行中显示的动态汽车）上丢失了轨迹。因为FlowStep3D只输出稀疏的场景流，其积分导致轨迹噪声和随时间漂移。0(b) NTP（我们的方法） (c) NSFP（欧拉积分） (d) FlowStep3D（KNN积分） (a) 配准之前0图7. Argoverse数据集上点云配准的比较。 (a)紫色点云是参考帧（第25帧），绿色点云是源帧（第1帧）。我们希望使用不同的方法来估计轨迹场将源帧（第1帧）配准到参考帧（第25帧）。请注意，这是两个远离的点云的配准，其中物体发生了剧烈移动。不同方法的配准结果如(b, c,d)所示。右上角显示了Chamfer距离度量（cd-24）。红色圆圈突出显示了我们的方法在具有挑战性的动态物体的配准中取得显著更好的结果。直观上，我们的轨迹场更好地约束了并允许在远离的帧之间进行配准。 (c) 中的红色虚线箭头显示了错配的情况。0使用PointNet++ [ 48]提取的特征来迭代地找到一对点云之间的非刚性运动。我们使用了作者提供的FlyingThings3D数据集上的官方预训练模型。2）神经场景流先验（NSFP）是一种非学习的方法，它使用MLP直接优化原始点云的场景流。我们使用了作者提供的官方实现。0轨迹重建。我们使用三种不同的积分方法使用估计的成对场景流来重建动态激光雷达序列的轨迹：1）我们的方法（Ours）直接从先前帧的估计轨迹场查询轨迹。2）NSFP中使用的欧拉积分（EulerInt.）。因为NSFP是一种连续表示，我们将查询的点云输入到预测的场景流场中以获得当前运动，并使用欧拉积分在整个点云序列上积分长期轨迹。3）KNN积分（KNNInt.）使用k最近邻算法在两个连续帧之间找到对应关系，并根据这些对应关系将每对流积分到长期轨迹中。更多细节请参见补充材料。0（b）NTP（我们的方法）（c）NSFP（欧拉积分）（d）FlowStep3D（KNN积分）（a）稀疏参考帧0我们在Argoverse数据集上将我们的方法与NSFP和FlowStep3D进行了比较，并在图5和表3中总结了结果。请注意，对于NSFP，我们没有报告直接轨迹查询的结果，因为NSFP可以很容易地通过直接优化来过拟合到特定场景，这是不公平的比较。基于深度学习的FlowStep3D是一种离散的流预测，无法拟合流场并进行欧拉积分。度量指标cd-n仅测量变形点云与参考点云之间的距离，对于测量(b) NTP (Ours)(c) NSFP (Euler Int.)(d) FlowStep3D (KNN Int.)(a) Sparse reference frame 865390图8.Argoverse数据集上的点云稠密化。给定一个动态驾驶场景的25个点云帧，任务是将所有帧累积到参考帧上。在我们的情况下，我们将过去的24个帧累积到当前帧（第25帧）上。第一列显示了参考点云（底部）和投影到深度图上的情况（顶部）。请注意，单个激光雷达帧是多么稀疏。其他列显示了不同方法的稠密化结果。红色矩形表示自动驾驶车辆（AV）的位置，虚线表示深度图的视点。红色箭头突出显示了一些稠密化的物体。我们的方法产生了具有更好几何形状的更密集的点云。NSFP存在明显的漂移和轨迹丢失。FlowStep3D产生了嘈杂的结果。03D几何。例如，我们发现尽管FlowStep3D在某些情况下具有较低的cd-24，但预测的变形形状是嘈杂的。我们通过准确性和异常值来补充这些指标，以与伪地面真值标签直接进行比较。我们的方法（NTP）在所有指标上取得了可比较的，甚至更好的结果。我们还发现，我们的方法在处理场景中的刚性区域和非刚性区域时具有令人印象深刻的结果。我们在图6中展示了Argoverse上的视觉比较结果。我们的方法在25个帧的所有示例中产生了可靠、清晰的轨迹。在第一行中，NSFP几乎没有为动态汽车生成任何轨迹。在第二行中，NSFP错误地表示了转向车辆的轨迹。而基于深度学习的FlowStep3D，预测的轨迹对于刚性运动或非刚性运动都是混乱和扭曲的。图6清楚地显示了使用连续轨迹先验相对于连续场景流先验或离散流估计的优势，特别是在处理具有许多动态物体和大旋转的长期轨迹时。0点云稠密化。为了通过长期序列稠密化点云，我们使用了相同的策略（即我们的方法的直接轨迹查询，NSFP的欧拉积分和FlowStep3D的KNN积分）来首先生成查询帧和参考帧对之间的轨迹。例如，我们生成了从第1帧到第25帧的轨迹，从第2帧到第25帧的轨迹，从第3帧到第25帧的轨迹，等等。在生成了所有点云对的轨迹之后，我们可以轻松地获得第25帧之前的所有变形点云，并将所有点云积分以获得第25帧的最终稠密化点云。我们在图7中展示了从第1帧到第25帧的详细配准结果。配准结果与我们的发现一致，即我们的方法在具有挑战性的场景中表现优于NSFP，但NSFP在处理中表现较差0大运动中，FlowStep3D只捕获了稀缺且嘈杂的3D点。图8显示了Argoverse动态场景的密集深度和密集点云的示例。我们的方法提供了干净的深度，以及详细的非刚性移动物体和刚性背景。NSFP的结果比我们的差，FlowStep3D完全无法完成任务。这表明我们方法的一个有用的应用是通过长轨迹进行可靠的点云密度化。该应用可以扩展到生成密集深度或密集激光雷达高清地图。7.限制0我们的工作的局限性是：（i）它需要使用GPU进行运行时优化，因此尚不适用于实时应用；（ii）尽管我们的方法在经过测试的NRSfM基准上表现良好，但我们注意到这仍然是一个极具挑战性的问题。我们的方法可能在相机和物体运动之间存在强烈的歧义的序列中失败；（iii）与其他NRSfM方法一样，我们需要长期的2D对应关系作为输入，这在现实世界中可能难以可靠地获取。基于我们目前的结果，将轨迹重建与多帧2D流的结合是一个潜在的未来工作；请参阅补充材料以获取失败案例的示例。（iv）对于激光雷达场景流整合，我们尝试了多达25帧的场景。更长的序列可能会导致轨迹漂移。（vi）受到Chamfer距离成本的限制，我们的方法在使用极其稀疏的点云时可能会受到影响。08. 结论0我们提出了一种神经轨迹先验，用于解决欠约束的低层次视觉任务，例如NRSfM和激光雷达场景流整合。我们的结果令人鼓舞，并且在NRSfM和激光雷达场景流整合问题上与许多最先进的方法相竞争。我们简单的公式可以潜在地扩展到自监督学习深度估计和运动预测。965400参考文献0[1] Antonio Agudo，JMM Montiel，LourdesAgapito和Bego˜naCalvo。在线密集非刚性3D形状和相机运动恢复。在英国机器视觉会议（BMVC）论文集中，2014年。50[2] Antonio Agudo和FrancescMoreno-Noguer。非刚性结构运动的可扩展，高效和准确解决方案。计算机视觉和图像理解（CVIU），167：121-133，2018年。50[3] Ijaz Akhter，Yaser Sheikh，Sohaib Khan和TakeoKanade。轨迹空间中的非刚性运动结构。在神经信息处理系统（NeurIPS）会议论文集中，页码41-48，2009年。1, 2, 4, 50[4] Ijaz Akhter，Yaser Sheikh，Sohaib Khan和TakeoKanade。轨迹空间：非刚性结构运动的双重表示。IEEE模式分析与机器智能（PAMI），33（7）：1442-1456，2010年。50[5] Mohammad Dawud Ansari，Vladislav Golyanik和DidierStricker。可扩展的单目密集表面重建。页码78-87。IEEE，2017年。50[6] Adrien Bartoli，Yan G´erard，FranccoisChadebecq和TobyCollins。基于模板的单视图重建：可展开，等距和保角表面的

下载后可阅读完整内容，剩余1页未读，立即下载