基于深度嵌入对齐的动态三维点云时间插值问题的IDEA-Net

36 浏览量更新于2023-10-25 收藏 2.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6338IDEA-Net：基于深度嵌入对齐的曾一鸣1 岳倩1张启健1侯俊辉1袁逸轩1何颖21香港城市大学2南洋理工大学ym.zeng@ my.cityu.edu.hk，jh.hou@cityu.edu.hk摘要研究了具有大非刚性变形的动态三维点云的时间插值问题。我们将问题公式化为逐点轨迹的估计平滑曲线），并进一步说明时间不规则性和欠采样是两个主要挑战。为了应对这些挑战，我们提出了IDEA-Net，这是一个端到端的深度学习框架，............在显式学习的时间一致性的帮助下解决问题。具体来说，我们提出了一个时间一致性学习模块来对齐两个连续的点云帧逐点对齐，基于此，我们可以采用线性插值来获得粗略的轨迹/帧之间。为了补偿轨迹的高阶非线性分量，我们应用对齐的特征嵌入，其编码局部几何特性以回归逐点增量，其与粗略估计相结合我们证明了我们的方法在各种点云序列上的有效性，并观察到比最先进的方法在定量和视觉上都有很大的改进。我们的框架可以带来的好处，三维运动数据采集。源代码可在 https://github.com/ZENGYIMING-EAMON/IDEA- Net.git上公开获取。1. 介绍动态3D点云是在时域中采样的3D点云帧序列，用于捕获场景/对象的几何细节或运动的变化，已广泛用于许多应用场景，例如自动驾驶仪[22]，沉浸式通信[6]，计算机动画[27]和虚拟/增强现实[40]。尽管3D传感技术发展迅速 [41] ，但获取具有高时间分辨率（HTR）的3D点云序列仍然困难且昂贵，这阻碍了精细地表示可变形3D1本研究获香港研资局资助城大11202320及11218121。通讯作者：J. 侯图1.说明本文所考虑的问题。可以采用低成本的3D感测设备以低频率对运动进行采样，得到LTR点云序列，然后应用计算方法对点云帧之间进行插值/估计，以获得HTR点云序列，用于精细地表示对象的3D运动（或随着时间变形的3D形状/对象）。我们感兴趣的点云序列与大量的非刚性变形。此外，在实际应用场景中，序列的点云帧在传感器空间中被独立地捕获，从而缺乏逐点的时间一致性。对象[36]。而不是依赖于硬件的发展，我们认为计算方法来构建一个HTR点云序列，从一个低时间分辨率（LTR），如图所示。1.一、尽管所考虑的问题与2D视频帧内插共享类似的特性，2D视频帧内插和2D视频帧内插都旨在内插/预测LTR序列的任何两个连续帧的中间帧照明相对于几何信息）使得将现有的2D视频帧插值方法[13，14，21]扩展到3D点云是不平凡的此外，三维点云数据在空间和时间域上的无序性和不规则性也带来了巨大的挑战。最近，已经提出了几种用于3D点云序列的基于深度学习的插值方法[12，19，29，31]。然而，对于基于流动的Poin-tINet [19]，它主要适用于具有接近刚性变换的形状对于基于自动编码器的方法，如[29，31]，其直接内插全局特征，因为全局特征是抽象的且不充分的计算方法6339(a)(b)（c）第（1）款图2.（a）我们的IDEA-Net，（b）PointINet [19]和（c）Swing序列上的地面实况的视觉比较为了描述运动变化的细节，内插帧往往具有相似的形状外观，并且缺乏时间连续性，从而导致卡住的运动序列。此外，它们在架构上被设计为独立的学习阶段，而不是完全的端到端，这可能会遭受严重的信息丢失。与现有的作品不同，我们试图建立一个解释性的插值框架与一个明确的几何解释。此外，在应用场景方面，我们有兴趣挑战具有大非刚性变形的动态点云数据。从技术上讲，我们将问题公式化为逐点轨迹的估计（即，3D欧几里德空间中的平滑曲线），并且原因在于挑战主要由时间不规则性和欠采样引起，这促使我们解开问题，导致两步学习过程：i）粗略线性插值和ii）轨迹补偿。基于显式公式，我们提出了IDEA-Net，一个端到端的深度插值框架，它具有双分支结构，包括三个步骤：1）提取逐点高维特征，2）学习逐点时间一致性并通过线性插值推导粗略轨迹/中间帧，以及3）利用时间正则化特征来补偿平滑轨迹的非线性分量。对合成数据和真实扫描数据的实验表明，我们的IDEA-Net在定量和视觉上在很大程度上优于最先进的方法，如图2所示。我们还进行了广泛的消融研究，以验证我们设计的合理性。总之，我们做出以下贡献：一个新的公式的时间内插动态三维点云序列的问题一种对称的、由粗到细的网络，用于从具有大的非刚性变形的LTR点云序列端到端地重建HTR点云序列。2. 相关工作深度2D视频帧插值旨在通过生成中间帧来提高现有的方法一般可以分为两类：基于内核的和基于流的。前者[21，24-直接在当地的补丁。后者[2，13，17，18，38]采用估计流来指导输入帧的变形过程。与具有规则网格结构的2D图像/视频不同，3D点云具有空间和时间不规则性，这阻碍了2D视频帧内插模型的直接扩展。深度动态3D点云处理。该任务的关键挑战在于点云序列的时间不规则性和大变形。现有的技术可以大致分为三种类型。(1)将点云序列体素化为4D体积网格[5，20，23]。例如，FaF [20]使用3D CNN来提取特征。MinkowskiNet [5]通过稀疏4D CNN分析体素化的4D张量（2）采用时序模块处理时态信息。例如，Yanget al. [8]提出了PointRNN，PointGRU和PointL-STM来建模动态点云。(3)直接对原始点进行序列处理[9例如，[9，10，16，32]通过查询空间和时间域中的相邻点来执行特征聚合。它们已被应用于几个任务，如动作识别，姿态估计和分割。然而，这样的聚合是不准确的，特别是对于具有大运动的点云序列.为了解决这个问题，Poin-tINet [19]采用场景流估计器来内插两个点云。然而，PointINet无法内插具有大变形的形状，例如，人形深度3D形状插值。受基于深度学习的3D点云处理方法的启发[29，30，34，37]，已经提出了许多采用神经网络进行3D形状插值的工作[1，7，12，19，31，39]，这些工作大致可以分为两类。(1)基于自动编码器（AE）的方法。例如，[1，12，39]直接内插全局特征并将内插的特征向量馈送到解码器中以回归点云帧之间。[31]通过引入用3D网格训练的边缘AE进一步改进了这种方法。然而，如果不考虑局部区域的变形，对全局特征进行插值会导致大量的信息丢失. [7]将法线信息添加到edgeConv [37]中，并计算重新网格化的3D对象的测地线矩阵，以明确约束3D网格模拟的对应性和形状插值的学习。但是，所需的法线和拓扑信息在原始点云中不可用，··6340·→∈·→∈0我 1i=1N×3均p0N×3P0->tN×3O0->tN×3N×d个N×3Ot特征嵌入F0NxN一Δ0->tGT+N×d个F1时间一致性轨迹EMD补偿+的N×3Δ1->tN×3O1->tN×3P1N×3P1->t线性插值：P0->t=（1-t）P0+tAP1不图3.所提出的IDEA-Net的流程图，用于以端到端的方式对LTR点云序列的任意两个连续帧进行时间内插。此外，用户可以在训练后连续地在（0，1）的范围内改变参数t以用于内插帧。我们建议读者参考补充材料了解我们网络的详细配置。对点。pi，一个PN。一般来说，图4.点云序列中典型点的逐点轨迹的图示，其中绿色和红色虚线表示地面实况和线性插值轨迹。将该方法扩展到动态点云插值是很有意义的。此外，可能需要额外的后处理来对齐生成的形状或细化对应性[7，12，31]。(2)基于流程的方法。与2D图像插值类似，[19]采用预先训练的3D点云流估计网络，即，FlowNet3D [15]，以生成双向3D流，然后将其用于扭曲输入帧以生成中间估计。然而，它不能很好地工作，大变形的数据，由于所采用的流量估计的限制。3. 该方法3.1.问题公式化不失一般性，设P0∈RN×3且P1∈每个点在三维欧几里德空间中是一条光滑曲线; 2而且，由于铰接结构、非刚性变形和其它因素，对应于不同点的曲线的波动是不同的，如图4所示。然而，仅用两个端点直接估计这样的曲线可能具有很高的不确定性.因此，我们解开这个具有挑战性的问题，并制定了一个两步粗到精的过程。首先，我们要统一地...通过线性曲线拟合来匹配所有逐点轨迹，并且相应地，表示为P0→t∈RN×3的时间t∈（0，1）处的粗略中间帧可以被插值为：P0→t=（1−t）P0+tAP1。（一）虽然这种简单的线性插值过程是不准确的，但它能够提供合理的初始化以在一定程度上减少模糊性。然后，为了进一步补偿在等式中遗漏的轨迹的高阶非线性分量，（1）引入了弹道补偿过程，修正了由于A估计不准确而引起的误差。特别地，我们可以通过典型的非线性映射函数φ（）：R3Rd将输入点云逐点映射到高维特征空间，然后估计函数f（）：RdRd来融合对齐的特征，最终将其转换回点云用另一个非线性函数R（·）：Rd→R3来获得轨迹补偿的增量R0→tRN×3φ= φ（f（φ（P），φ（P），A，t））.（二）RN×3是LTR点云0→t0 1序列，每个序列具有N个点1，并且pi和pj∈R1×3，我们预计，高阶非线性分量的0 - 1轨迹可以从分别为P0和P1的第i个和第j个假设P0的每个点都可以与P1的点对齐，令矩阵A∈RN×N显式地对这种逐点特征表示，可以嵌入P0和P1的局部和全局形状信息，以及对比度时间一致性，即，如果pi对应于pj，则aij=1;在它们的特征表示之间。预测否则，. 让0 11×N表示最终获得HTR序列的中间帧，aij= 0ai∈R第i行A. 注意A是未知的。获取P0P1相当于估计每个1请注意，点云框架中包含的点随机堆叠以形成矩阵。O0→ t=P0→ t + P0→ t.（三）此外，由于对齐矩阵ATRN×N的转置也描述了从P1到P0的时间一致性信息，因此可以将先前的公式化为粗线性插值点地面实况对应点粗线性轨迹地面实况轨迹o我GTpi0吨p1我pi0JogtPJPJ 0吨p1J0PK0p0tKKogtKp1帧0. . . . . -是的帧t. . . . . -是的框架16341∈≥˜˜˜^ǁ· ǁ^a=（a−µ）/σ，ijij iiΣ^^0∈∈1→t01等价地写为P1→t=（1−t）ATP0+tP1，（4）=f（φ（P），φ（P），AT，1−t），（5）3.4. 学习逐点时序一致性如前所述，实际上，点云序列的每个帧在相机空间中被单独捕获导致时间不规则性。因此，我们提出了一个时间一致性模块来显式地对齐这对输入，O1→ t = P1→ t + P1→ t.（六）将点云逐点放置，即，学习矩阵A。理想情况下，由O0→t 和然而，矩阵A理想地是二元置换矩阵，使得不可能在深度上直接优化它O1→t是相同的。从Eqs（1）-（6），可以看出，动态点云插值问题主要是依赖于逐点时间一致性的学习和轨迹补偿过程的实现。3.2. 我们的框架基于上述公式，我们提出了一个端到端的基于深度学习的框架，称为IDEA-Net，学习框架。为了克服该挑战，我们优化了松弛的比对矩阵，即， a ij0和ai1T= 1，其中1 R1× N是所有条目都是1的向量。请注意，此模块在IDEA-Net框架中进行了端到端优化，无需额外的监督。直觉上，一对对齐的点应该具有相似的语义特征。受此观察的启发，我们采用特征之间的距离来估计A。具体-一个双分支网络，它模仿了两个等效的粗到细过程。如图3、我们的IDEA网络简单地说，我们首先计算Aij是∈RN×N，其第（i，j）个元素i j（7）包括三个模块：特征表示、学习逐点时间一致性和轨迹补偿。具体而言，特征表示模块首先通过探索点云的局部和全局几何形状将3D坐标嵌入到高维特征空间中，从而得到逐点高维特征。将特征作为输入，时间一致性模块然后预测具有对准效应的松弛矩阵A，这自然地通过以下方式引起粗插值：aij=1/f0−f12，其中2返回向量的l2范数。为了进一步鼓励A模仿二进制矩阵，我们将每行中的元素（八）其中μi和σi是A的第i行的平均值和标准差。最后，我们在A上逐行应用softmax运算符来满足放松的约束，生成N等式（1）和（4）。最后，轨迹补偿模块-ule用学习的A回归对齐和插值的高维特征，以生成非线性增量。国际新闻报=eaij/eaij。（九）j=1用于补偿轨迹的高阶分量如果t0，我们凭经验选择O0→t<. 5和O1→t，否则作为最终插值帧。接下来，我们将详细介绍每个模块。3.3. 层次特征表示我们采用DGCNN [37]作为我们的骨干，将输入点云的3D坐标映射到高维特征空间中，其中通过动态图构造机制逐步嵌入局部和全局语义具体而言，该模块由四层EdgeConv组成，其动态选择邻居以聚合局部信息以获得逐点特征。此外，将所有点特征的自适应最大和平均池化形成的全局特征连接到每个局部特征，以获得最终的点特征，分别表示为P0和P1的F0RN× d和F1RN× d。用fi和fjR1× d表示F0和F1的第i行和第j行，它们分别编码P0和P1的第i点和第j点的高维特征。我们建议读者参考[37]以了解DGCNN的更多细节˜6342备注。由于不可微的特性，严格二元矩阵，我们在这种松弛过程下的学习矩阵A不再被期望精确地指示逐点时间一致性关系。事实上，正如之前的研究[9]所揭示的那样，由于点可能在帧之间流入流出，因此在大多数情况下可能不存在“地面实况”逐点一致性。因此，我们可以解释为A在功能上被广义化，以实现点和特征级别的粗匹配，并进一步驱动后续的细化模块。此外，由A的不准确估计引起的误差可以在随后的细化步骤中在一定程度上被固定。有关该模块的详细消融研究，请参见第4.43.5. 轨迹补偿有了3.4节中学习的A，我们可以自然地通过方程得到粗插值（1）和（4）。为了同时补偿轨迹的非线性分量和修正由于A值不准确而引起的插补误差，我们引入了轨迹补偿模块。具体地，作为第10节中的特征嵌入过程，3.3可以同时捕获输入的局部和全局几何结构，我们用它来实现映射6343··GT2GTL··函数φ（·）（2），即F0=φ（P0），F1=φ（P1）。（十）考虑到非线性轨迹在经由数据驱动的方式被投影到高维特征空间中之后可以被认为是线性的，我们简单地实现等式2中的融合函数f（）。（2）具有线性函数，即，0.050.040.030.020.010.00帧（一）0.0050.0040.0030.0020.0010.000帧（b）第（1）款F0→t=（1−t）F0+tAF1，F1→t=（1−t）ATF0+tF1。（十一）图5.在DHB数据集的Swing上重建的中间帧的逐帧质量的比较最后，我们采用一个共享的多层感知器（MLP）来实现用于回归增量的映射，即，f0→t=f 0 （ F0→t ）， f1→t=f 1 （ F1→t ）。（12）备注。通过方程直接回归中间点云框架（2）和（5）似乎是一个可行的解决办法。然而，由于维数灾难，这种方法不能产生令人满意的结果（见第4.4节中的结果）。这也验证了图1中粗插补模块的必要性和合理性。3 .第三章。3.6. 损失函数我们通过同时最小化来自每个分支的重建点云和地面实况点云之间的土方机数据集[3]，用于内在点云插值（PCI）[31]和PointNetAE [29]的合成3D人体运动数据集，以与它们进行公平比较。对于DHB，我们使用八个序列来形成训练集，剩余的六个序列作为测试集。对于DFAUST，在[31]之后，我们使用了11个动作序列来构建训练数据集，并使用了3个序列进行测试。我们在时域中对所获取的序列进行下采样以生成输入LTR点云序列，即，我们在训练阶段期间每k个训练帧均匀地选择一个帧，在测试阶段期间每k个测试有关数据集的更多详细信息，请参见补充材料比较方法。我们比较了名为PointINet [19]的最新工作，PointINet是基于流的，设计用于LiDAR收集的点云序列的时间内插。为了进行公平的比较，我们使用与我们相同的DHB数据集重新训练了我们也L= 1。LEMD.O0→t，Ot+LEMD.O1→t，Ot将我们的方法与两种最先进的基于AE的方法进行了比较，即，内在PCI [31]和PointNet AE [29]。我们其中EMD（，）计算两点之间的EMD云备注。与单分支设计相比，本文提出的具有共享网络参数的双分支设计从两个方向重构中间帧，相当于在训练过程中正则化A。相应地，训练后的模型可以在推断期间生成更可行的A和类似地更好的重建质量。第4.4节通过广泛评价证明了这种双分支设计的优越性。4. 实验4.1. 实验设置数据集。我们首先构建了一个名为动态人体数据集（DHB）的数据集，其中包含来自MITAMA数据集[35]的10个点云序列和来自8IVFB数据集2的4个点云序列。DHB中的序列记录了真实世界中具有大变形和非刚性变形的三维人体运动。此外，我们采用了常用的DFAUST32MITAMA和8IVFB数据集分别包含动态3D网格和真实扫描点云。我们从每帧中均匀采样1024个点。3DFAUST包含动态3D网格。按照与[31]相同的设置，我们从每帧均匀采样1000个点。在DFAUST数据集上采用了他们的预训练模型，并使用与[31]相同的数据训练了我们的方法还值得注意的是，Intrinsic PCI [31]需要模板网格的边缘作为训练期间的额外输入。此外，我们遵循[31]的设置，采用ICP[4]作为后处理，以将来自Intrinsic PCI [31]和PointNetAE [29]的内插帧与输入帧对齐。请注意，我们的方法不需要模板网格和任何后处理。评估指标。为了定量评估插值质量，我们提供了序列的插值帧和地面实况帧之间的平均和逐帧倒角距离（CD）和EMD。此外，我们还进行了主观评价，以全面比较不同的方法。详见第4.3节。4.2. 实验结果DHB数据集上的结果。表1显示了与PointINet [19]的定量比较，其中我们将ktrain和ktest设置为3以生成用于训练和测试的LTR序列。如表1所示，我们的方法在EMD 指标下在很大程度上优于 PointINet 。原因是PointINet很难明确预测准确性，EMD我们的PointINetCD我们的PointINetGT6344我们的内在PCIPointNet AE×联系我们0.06CD0.050.040.030.020.010.00表3.不同培训策略下的定量比较。（1）-（3）：使用k train= 3生成的数据对方法进行训练;（4）-（5）：使用第4.2节中介绍的混合数据训练策略对方法进行训练;除了（ 3 ）PointINet的流量估计模块经过预训练和固定之外，其他网络都是从头开始进行端到端训练的。通过设置ktest= 3生成测试数据。帧（一）帧（b）第（1）款图6.DFAUST数据集的摇臂上重建的中间帧的逐帧质量比较表1. 对DHB数据集进行定量（×10−3）比较。表2. DFAUST数据集上的定量（10−3）比较。方法握手摇摆臀部握手EMD CDEMD CDEMD CD内在PCI [31]103.85 四十三点七十四52.93 二十二点零四分64.70 28.55[29]第二十九话34.23 9.0940.85 十二点三十五分29.18 11.99我们9 .第九条。311.20六、85 0 919 .第九条。19095率流序列与大变形，而我们的方法是免费的这种操作。此外，如图5、该方法在大部分帧内均能获得较低的EMD和CD，且EMD和CD的逐帧波动较小。图2和图7显示了视觉比较，从中可以看出，我们的方法可以生成更接近地面实况的帧，而PointINet [19]倾向于生成离群值和非均匀分布的点。DFAUST数据集上的结果表2列出了与Intrinsic PCI[31]和PointNet AE [29]的定量比较，其中我们将ktrain和ktest设置为3，以生成用于训练和测试的LTR序列。从表 2 中可以看出，我们的方法显著优于 Intrinsic 和PointNet AE。原因是Intrinsic和PointNet AE采用单独的学习阶段来模糊地内插全局特征以生成中间帧，从而导致空间信息的严重丢失，而我们的方法是端到端的并且具有几何意义。从图6中可以看出，我们的方法在几乎所有帧上实现了比Intrinsic和PointNet AE低得多的EMD和CD。图8提供了我们的方法的视觉演示，从中我们可以看到，这两种基于AE的方法无法内插正确的姿势。此外，它们不能忠实地表示原始形状。灵活性的评价。为了证明我们的方法的灵活性，我们用通过将k train设置为3生成的数据训练了单个网络，然后用通过设置各种ktest∈{3，5，7，9，11}生成的数据评估了网络。我们还训练了PointINet[19]，相同的设置进行比较。如图9所示，可以看出，随着k测试值的增加，插值问题变得更具挑战性，因此我们的方法和PointINet的重建误差都逐渐增加。然而，我们的方法总是在很大程度上优于PointINet，特别是对于相对较大的k测试，优势更加明显，证明了其更强的能力。混合数据训练机制的评价在之前的实验中，我们使用了所有中间帧的地面实况进行监督。在这个实验中，我们设置ktrain=4和ktest1，3，5，7来分别生成训练和测试数据。在训练过程中，在每次迭代中，我们随机选择仅一个要插值的中间帧进行优化。将这种训练策略称为混合数据训练。这种训练方式可以加快训练过程，提高网络的鲁棒性，由于不同迭代中的数据的多样性。如图10所示，我们的方法的性能在这种策略下得到了改善，而PointINet [19]遭受了严重的性能下降（见表3）。这一观察结果也证明了我们设计的优势。4.3. 主观评价为了进行主观评价，我们向15名志愿者展示了所有方法的插值序列和相应的地面实况序列，并要求他们投票选择他们认为结果最接近地面实况序列的方法如图11所示，我们的IDEA-Net在所有测试序列上获得了最高票数，特别是与图11中的PointINet相比。11a. 此外，评价结果在图。11b表明Intrinsic和PointNet-AE也获得了良好的主观评价，因为这两种方法可以生成具有均匀分布的点和很少的离群值的形状。然而，如图所8、这些基于全局特征的方法不能生成正确的姿态并且不能保持可信的形状。我们还建议读者访问Github页面以获取视频演示。0.12EMD0.100.080.06我们的内在PCIPointNet AE0.040.020.00摆动朗德里斯EMDCDEMDCD(1)我们7.071.245.920的情况。88(2)PointINet [19]15.031.7010.090.95(3)PointINet [19]（预训练流）15.381.7210.630.96(4)我们的（混合）六、741 .一、21五、840.89方法摆动朗德里斯EMDCDEMDCDPointINet [19]15.031.7010.090.95我们7 .第一次会议。071 .一、24五、920的情况。886345PointINet我们的EMD(a)(b)（c）第（1）款图7.通过（a）我们的和（b）PointINet [19]在DHB数据集的Longdress上插值的中间帧的视觉比较，以及（c）相应的地面实况帧。PointINet插值帧的点是非均匀分布的。(a)（b）第（1）款(c)（d）其他事项图8.通过（a）我们的，（b）内在PCI [31]和（c）PointNet AE [29]对DFAUST数据集序列的插值中间帧进行视觉比较，以及（d）相应的地面实况帧。Intrinsic和PointNet AE插值帧的整体形状明显偏离地面实况。30 43202101总和红黑长裙摇摆我们的PointINet总和Shake_hips握手我们的内在PCIPointNet AE034567891011k检验034567891011k检验0 10 20 30 40 50投票数（一）020406080100投票数（b）第（1）款（一）（b）第（1）款图11.插值序列的主观评价图9.在DHB数据集的深蹲2不同的方法对（a）DHB数据集和（b）DFAUST数据集。“SUM”25201510501 2 3 4 5 6 7k检验（一）5432101 2 3 4 5 6 7k检验（b）第（1）款4.4. 消融研究为了全面深入地了解IDEA-Net的核心模块和架构设计的效果，我们进行了以下消融研究。对于每种情况，我们都使用与完整网络相同的训练策略重新训练了修改后的网络，并在相同的数据集上进行了（a）-（b）逐点时间一致性。我们更换PointINet我们的CDOursOurs（Mix）EMDOursOurs（Mix）CD634601图10.定量评估我们的方法训练与混合数据训练机制。测试序列是DHB数据集的摆动该模块具有两种类型的矩阵，即，一个随机置换矩阵和一个矩阵D∈RN× N，其中di j=1/<$pi− pj<$2。如图12a和12b，没有这个模块中，所产生的帧之间显示更多错误6347×EMD0.03列车（双支线）列车（单支）测试（双分支）测试（单分支）(a)（b）（c）（d）(e)（f）（g）（h）图12.消融研究结果的目视比较。（a）-（f）在第4.4节中介绍的六种消融设置下通过我们的方法插值的帧，以及（g）所提出的完整模型;（h）帧之间的地面实况。我们用红框突出显示了严重形状失真的区域。表4. DHB数据集上消融研究的定量结果（10−3）。（a）-（f）对应于第节中的六个设置。4.4设置摆动朗德里斯EMD CDEMD CD完整模型六、741.21五、840 89（一）23.46 3.1117.82 2.22（b）第（1）款25.02 3.2621.50 2.26（c）第（1）款10.36 2.386.33 0.97（d）其他事项18.28 2.8524.32 2.57（e）11.00 1.786.13 1.40（f）第（1）款25.47 9.0529.85 5.51积分，EMD和CD值均显著增加，证明了该模块的有效性。我们也建议读者参考补充材料，以直观地说明所学的A。(c) 线性插值我们省略了线性插值步骤，直接将P0和P1添加到增量中分别为100→t和101→t我们在Ta中报告结果表4（c）和图12 c，显示损失变得更严重，所生成的形状变得比完整模型的形状更不真实，例如，手和腿的形状。(d) 从特征直接回归中间帧在不采用线性插值来生成粗略估计的情况下，我们直接从由等式导出的插值特征回归中间点云。（十二）、表4（d）和图12d分别提供了定量和视觉结果，其中可以看出CD和EMD值增加了两倍以上，并且所得点云具有相当大的伪影。(e) 弹道补偿。在表4（e）和图12 e中，我们报告了没有补偿模块的IDEA-Net的结果，可以看出，没有这个模块，EMD和CD的值都增加了，并且得到的形状部分塌陷。(f) 双分支设计。为了进行比较，我们训练了一个单分支网络，即，IDEA网中预测O0→t的分支如表4（f）和图4所示如图12f所示，单分支模型产生比双分支模型大得多的EMD和CD（即，完整模型）。是-8e-34e-39e-45e-40 200 400 600 800 1000时代图13.双分支和单分支设计的训练和测试损耗的比较。侧，其视觉结果是嘈杂的并且形状（例如，腿）偏离地面实况，证实了具有共享模块的对称双分支设计在重建质量方面的显著优点。此外，我们在图13中显示了双分支和单分支模型的训练（实线）和测试（虚线）损失。可以看出，双分支模型可以稳定训练过程。而且，它潜在地避免了过拟合并提高了模型的泛化能力虽然这两种设计的训练损失接近于可比较的值，但是双分支设计的测试误差比单分支设计的测试误差小得多5. 结论与讨论我们提出了IDEA-Net，一个端到端的框架，用于对具有大非刚性变形的动态3D点云序列进行时间内插我们将问题表述为逐点轨迹的估计，其可以借助显式学习的时间一致性以粗略到精细的方式通过大量的实验和消融研究，我们证明了所提出的IDEA-Net在定量和可视化方面都优于现有的方法。我们相信，我们的框架可以提供新的见解的获取和处理的动态点云序列。尽管本文揭示了动态3D点云插值问题的本质发现，但我们可以期望通过从不同方面丰富具体的技术路线来进一步提高性能首先，我们可以通过馈送更长的帧组而不是一对来增加时域的感受野。其次，我们可以考虑引入序列建模框架来联合学习多帧之间的时间相关性。第三，考虑到点以不同的速度和加速度运动的事实，我们可以设计高阶轨迹估计方案来增强整个模型。最后，它是非常希望构建一个定量的度量，可靠地评价插值点云序列的质量6348引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。国际机器学习会议，第40-49页。PMLR，2018。2[2] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE/CVF计算机视觉和模式识别会议论文集，第3703-3712页2[3] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态浮士德：登记人体运动。在IEEE会议计算机视觉和模式识别（CVPR），2017年7月。5[4] 杨晨和杰拉德·梅迪奥尼。用多幅深度图像的遥感进行目标建模图像与视觉计算，10（3）：145-155，1992. 5[5] Christopher Choy，JunYoung Gwak，Silvio Savarese. 4dspatio-temporalconvnets ： Minkowskiconvolutionalneural networks.在IEEE/CVF计算机视觉和模式识别会议论文集，第3075- 3084页，2019年。2[6] Alexander Clemm，Maria Torres Vega，Hemanth KumarRavuri，Tim Wauters，and Filip De Turck.走向真正的沉浸式全息通信：挑战和解决方案。IEEE通信杂志，58（1）：93-99，2020。1[7] MarvinEisenberger，DavidNovotny，GaelKerchenbaum ， Patrick Labatut ， Natalia Neverova ，Daniel Cremers ， and An- drea Vedaldi.NeuroMorph ：Unsupervised Shape Interpolation and Correspondence inOne Go.在IEEE/CVF计算机视觉和模式识别会议论文集，第7473-7483页，2021年。二、三[8] 范呵呵和易阳。Pointrnn：用于移动点云处理的点递归神经网络。arXiv预印本arXiv：1910.08287，2019。2[9] 范和合、杨毅、莫汗·坎坎哈利。点云视频时空建模的点4d Transformer网络。在IEEE/CVF计算机视觉和模式识别集，第14204二、四[10] 范和合，于欣，丁宇航，杨毅，莫寒。Pstnet：点云序列上的点时空卷积。2021年，在国际学术会议上发表。2[11] 范呵呵，欣雨，杨毅，莫汗·坎坎哈里。基于时空分解的点云视频深度层次表示IEEE Transactions on PatternAnalysis and Machine Intelligence，第1-1页，2021年。2[12] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。3d编码：通过深度变形的3d对应。在欧洲计算机视觉会议（ECCV）的会议记录中，第230-246页，2018年。一、二、三[13] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz. Superslomo：多个中间帧的高质量估计，视频插值在IEEE计算机视觉和模式识别会议论文集，第9000- 9008页，2018年。一、二[14] Tarun Kadhi，Deepak Pathak，Manmohan Chandraker和Du Tran。Flavr：用于快速帧插值的流无关视频表示。arXiv预印本arXiv：2012.08512，2021。1[15] Xingyu Liu ， Charles R Qi ， and Leonidas J Guibas.Flownet3d：学习3D点云中的场景流。在IEEE/CVF计算机视觉和模式识别会议上，第529-537页，2019年。3[16] Xingyu Liu ， Mengyuan Yan ， and Jeannette Bohg.Meteor-net：动态3D点云序列的深度学习。在IEEE/CVF计算机视觉国际会议论文集，第9246-9255页，2019年。2[17] 刘玉伦，廖一栋，林燕玉，庄永玉。使用循环帧生成的深度视频帧内插。在第33届商业智能会议（AAAI）的会议记录中，2019年。2[18] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深体素流的视频帧合成。在IEEE计算机视觉国际会议论文集，第4463-4471页，2017年。2[19] Fan Lu，Guang Chen，Sanqing Qu，Zhijun Li，YinlongLiu，and Alois Knoll. Pointinet：点云框架插值网络。在AAAI商业智能会议论文集，2021年。一、二、三、五、六、七[20] Wenjie Luo，BinYang，and Raquel Urtasun.快速而狂热：使用单个卷积网络进行实时端到端3D检测、跟踪和运动预测在IEEE计算机视觉和模式识别会议论文集，第3569-3577页2[21] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在IEEE计算机视觉和模式识别会议论文集，第498-507页，2018年。一、二[22] Omar Y. Sajjad MozaffariAl-Jarrah ，Mehrdad Dianati，Paul Jennings，and Alexandros Mouzakitis.基于深度学习的自动驾驶应用车辆行为预测：综述。 IEEETransactions on Intelligent Trans- portation Systems，第1-15页，2020年。1[23] Michael Niemeyer、Lars Mescheder、Michael Oechsle和Andreas Geiger。Occupational Flow：4D Reconstructionby Learning Particle Dynamics. 2019年IEEE/CVF国际计算机视觉会议（ICCV），第5378IEEE，2019。2[24] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。在IEEE计算机视觉和模式识别会议论文集，第1701-1710页2[25] 西蒙·尼克劳斯、龙迈、风流。基于自适应卷积的视频帧内插。在IEEE计算机视觉和模式识别会议集，第670-679页，2017年。2[26] 西蒙·

下载后可阅读完整内容，剩余1页未读，立即下载