基于多尺度卷积核的自适应网格3D重建

73 浏览量更新于2023-10-13 收藏 3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5651基于多尺度卷积核的本杰明·乌门霍费尔·弗拉德伦·科尔通英特尔实验室benjamin. intel.com图1：左：不同比例的场景重建。曲面三角形网格会根据比例进行调整，以捕捉喷泉等细节。右：与表面网格一样，我们的体积离散化适应可用信息，我们的多尺度卷积内核适应网格，使我们能够有效地推断和学习ConvNets表面的隐式表示摘要我们提出了用于从点云使用ConvNets进行 3D重建的广义卷积核我们的方法使用多尺度卷积核，可以应用于自适应网格生成的八叉树。除了标准内核中每个元素相对于中心具有不同的空间位置之外，我们的元素具有不同的相对位置以及相对尺度级别。使我们的内核跨越多个分辨率，使我们能够将ConvNets应用于自适应网格，以解决输入数据稀疏但需要处理整个域的大型问题。我们的ConvNet架构可以预测具有数百万输入点的大型数据集的有符号和无符号距离场，并且比经典的能量最小化或最近的学习方法更快，更准确我们在零拍摄设置中证明了这一点，在该设置中，我们只对合成数据进行训练，并对真实世界大规模3D场景的Tanks和Temples数据集进行评估1. 介绍生成物体表面或整个场景的描述是三维重建中的一个关键问题。虽然图像和扫描的获取变得更容易和更容易，但是随着数据集的大小增加，将该信息组合成全局和一致的3D结构变得更加困难然而，大型数据集特别有趣，因为它们可以数字化我们的3D世界，并实现导航或虚拟观光等应用。许多3D管线的重要部分是体积融合，其将部分观察融合成全局3D描述。在这种方法中，寻找2D表面的问题变成了寻找一个3D标量场，从该标量场中可以提取表面作为水平集。这种方法的一个固有问题是体积的立方增长导致高计算成本。另一个困难来自噪声输入数据，其需要在融合过程中使用良好的先验为了解决这些挑战，许多作品已经提出使用专门的自适应数据结构，如八叉树，以更有效地存储3D网格和适应算法，直接在这些结构上操作。这些类型的算法通常是高度专业化的，因此具有高的工程成本。他们还经常采用偏微分方程，其实现了相当简单的先验，优选具有最小曲率或最小面积的表面与此相反，学习方法可以从数据中学习复杂的先验知识，这使得它们非常适合融合任务。特别是ConvNets已经成为图像处理管道中的标准方法，因为它们对规则2D网格中的数据具有灵活性和效率。虽然ConvNets自然地推广到3D数据，但它们也受到复杂性立方增长的影响。为了利用ConvNets进行体积融合，我们建议将标准卷积核推广到自适应网格。自适应网格不仅允许有效地存储数据，而且还允许捕获不同尺度的信息，如图1所示，这对于重建大型数据集（其中某些区域更复杂）非常重要。5652八叉树生成和聚合自适应网格卷积距离场解码与轮廓绘制图2：我们的方法的输入是一个定向点云。我们将信息聚合在自适应网格中，并使用我们的多尺度卷积核来计算距离函数。在最后一个阶段，我们解码的距离函数和提取零水平集。重要.我们设计了跨越多个尺度的多尺度卷积核。与每个元素相对于中心具有不同空间位置的常规内核相比，我们的内核元素还具有相对于中心元素的相对我们表明，我们可以使用我们的卷积与一个简单的U-Net类似的架构来学习一个端到端的可训练的体积融合管道，计算有符号和无符号的距离场。我们的方法实现了显着更好的reconstrucc，比经典的分析体积融合方法和最近的学习为基础的方法。我们在来自Tanks和Temples [16]和[8]的真实世界数据集上的零射击泛化设置中定性和定量地此外，我们可以证明，我们的方法可以重新构建具有数亿个点的大型数据集，并且比基线快两倍以上。2. 相关工作分析体积融合。早期的方法（如[6]）使用规则的体素网格和简单的平均来融合来自多个扫描仪的信息，以创建表面的隐式表示，然后可以使用移动立方体[19]提取。这个概念已经通过自适应空间数据结构、基于PDE的先验和复杂的优化算法[14，2，18，17，30]和许多其他算法得到了发展。在我们的实验中，我们将泊松表面重建（PSR）[14]（这是最知名的方法）和平滑符号距离重建（SSD）[2这两种方法都使用八叉树作为空间数据结构和简单的基于偏微分方程的先验。在[8，9，27]中已经提出了用于融合具有多个尺度的数据集的方法。这些方法利用输入数据的尺度信息来引导空间数据结构的生成和融合过程。我们采用尺度信息的使用，并在我们的评估中与[27学习曲面重构。学习全局隐式函数来表示曲面已经由[20，21]提出。这两个作品都使用MLP来编码整个对象的形状的隐式MLP允许在任意位置处查询隐式函数的值，从而允许在训练之后以任意分辨率对函数进行采样。[12]和[3]将隐函数网络与规则网格相结合，并学习表示局部形状。Jiang等[12]使用自动编码器学习潜在代码和解码器。Chabra等人[3]直接学习码和解码器参数。我们采用了我们的网络中的局部形状的表示，但不是在推理过程中优化潜在代码，我们的Con- vNet在正向传递中为每个体素生成一个代码，描述到表面的局部距离。这也类似于[22]将[20]中的占用网络与卷积网络相结合。Peng等[22]使用规则的3D ConvNet并在网格内插值特征以评估隐式函数，而我们使用自适应网格并外推局部函数。我们的方法和许多其他的表面重建方法假设每个点的正常信息，以正确地计算符号或占用值的隐式表面表示。最近的例外是[1，7，4]。Atzmon和Lipman[1]表明，可以训练网络从无符号数据中推断距离函数的符号，并在以对象为中心的数据集上证明这一点。Erler等人[7]使用基于补丁的方法，该方法对额外的全局点进行采样以支持正确符号的预测。他们的方法对看不见的和真实的数据集表现出良好的泛化性能。我们使用他们的方法作为评估的基准Chibane等人[4]建议使用无符号距离函数作为隐式表面表示，允许它们表示没有明确定义的内部或外部的开放形状然而，从无符号距离场提取显式表面表示涉及更多，并且计算成本更高我们的方法预测有符号和无符号的我们利用检测的符号变化的符号距离函数的简单性，并使用无符号的距离函数来限制的表面生成，灰预测将接近表面的区域。学习稀疏数据结构。Riegler等人[24]提出使用八叉树来加速稀疏3D网格上的卷积，并在[23]中示出了深度图融合的应用。虽然他们的工作旨在通过避免不同大小的体素之间的冗余计算来加速规则卷积，但我们的方法调整卷积核以考虑不同的体素大小并结合来自多个尺度的几何信息。Klokov和Lempit-sky [15]在kd树上定义了用于分割和分类的网络。它们为kd树中的每个分裂操作分配可学习的权重，以递归地组合子节点的信息。与我们的方法相比，它允许我们在自适应网格中定义卷积，op-random-random5653F2个dKd网络中的节点仅在不同的深度级别之间定义，这更具限制性，因为它将网络架构强耦合到树深度。[11，5]实现用于稀疏N维网格的子流形稀疏卷积网络，这可以避免在空的空间上计算，但不适合我们的任务，其中数据集跨越多个分辨率级别。3. 概述我们的方法是一个具有三个阶段的管道，如图2所示，我们在这里进行总结。八叉树生成和特征聚合。的我们方法的输入是具有每点法线信息的点云。为了有效地处理输入数据，我们在自适应网格中聚合信息。因此，我们通过构建一个面平衡八叉树来开始我们的管道。使用平衡八叉树允许我们为下一阶段定义有效的卷积核。为了引导体积的细分，我们使用与输入点相关联的尺度信息或从点密度估计尺度。构建八叉树后，我们提取网格在多个resolutions开始的叶节点和步行的树层次结构。然后，我们使用连续卷积从网格中的点云中以最高分辨率聚合特征。连续卷积定义了一个连续的核，并允许处理任意位置的点我们将在第4节中对其进行定义。自适应网格卷积。我们的方法的主要阶段应用图3所示的U-Net架构来处理来自点云的聚合信息该阶段的输出是对描述所寻找的表面的局部距离函数整个网络中的卷积在自适应网格上工作，并使用多尺度卷积内核，这些内核包含多个分辨率级别的体素元素。由于所有的网格都是面平衡的，我们的内核是紧凑的，只需要少量的元素。类似于我们的网格适应输入数据，内核适应网格。此外，与标准卷积不同，并非所有内核元素在所有网格位置都是我们在第5节中正式定义了卷积。距离场解码和轮廓。最后一个阶段将ConvNet生成的特征解码为ob-无符号距离值，以将顶点和三角形生成限制在曲面附近的区域我们在第6节中给出了更多细节。4. 八叉树生成和特征聚合我们从输入点云的自适应网格的基础上八叉树聚合信息。为了生成oc树，我们遵循与[27]类似的策略。我们为每个输入点分配足迹大小σ，并使用它来操纵八叉树的细分，使得包含该点的体素的边长l小于σ。点的轮廓尺寸与测量的比例有关。对于从MVS方法生成的点，这通常由相机本质（传感器像素大小）和测量的深度来定义对于针孔相机，我们使用σ=d，其中d是到光学平面的距离，f是焦距。对于轮廓尺寸信息未知的点云，我们定义点的轮廓尺寸i作为以点的位置为中心的球体的半径使得球体封装k个相邻点，即，σi= maxj∈Nk （ xi ）（xi−xj2）.给定足迹大小，我们基于密度阈值丢弃明显的离群值。旧的，并建立一个线性八叉树与位置键[10]。为此，我们为每个点分配一个位置键，并收集所有唯一键。选择每个点的树深度d，使得arg_min_d（σ）>L，其中L作为立方体边界框的边缘长度。为了确保整个域被八叉树覆盖，我们创建所有缺失的父节点直到根节点，并在第二遍中通过创建缺失的子节点来消除混合节点由于我们的卷积核需要面平衡八叉树，我们还细分违反此属性的节点，如图4所示，直到所有节点满足条件。该过程将节点的数量增加1倍。12、我们的评价数据在构建八叉树之后，我们将来自输入点云的信息聚合到叶节点中。我们使用连续卷积[28]，这允许我们在两个点云之间执行卷积，其中点位于任意位置。我们的两个点云是图3中第一阶段所示的具有法向信息的输入点和八叉树的叶节点的体素中心。在[28]之后，我们定义在xj（体素j的中心）处的卷积为为栅格中具有最高分辨率的每个体素保留到曲面的有符号和无符号距离我们利用一个（f*g）（xj）=Σaijfig（Λ（xi−xj））.（一）MLP的解码，使我们能够查询在体素中心附近的任意点的距离值。此外，我们可以使用MLP来查询距离值的梯度，从而为轮廓绘制提供附加信息对于轮廓，我们实现了自适应网格的双重轮廓，它为符号距离场的零级集我们使用ψji∈N（ xj，R）输入点i的特征fi是具有法线信息的向量N（Xj，R）是在Xj周围的半径R内的输入点的集合。半径R取决于体素j及其边缘长度Ij;我们设置R=Ij/2。是标量函数，其定义输入点关于15654CConv4xConv+4xConv共享权重上转换下转换FC1 FC2 FC3FC3TFC2TFC1T聚集4xConvAppend4xConv距离函数Decode下转换上转换3个以上的分辨率级别图3：我们的网络架构示意图。我们在补充材料中给出了有关参数的详细信息。我们使用一个连续的卷积聚合的信息，从定向点集的最好的自适应网格。然后，我们采用了一个U-网的架构来处理自适应网格的层次结构，并生成一个代码，为每个体素编码的局部距离函数，这给我们一个隐式表示的表面。为了评估用于体素的隐式函数u_i和v_i，我们使用相对于体素大小和中心的坐标r以及具有3层的小MLP解码器由于解码器是可微的，我们可以将反向传递的操作添加到网络中，这里将其可视化为转置层，以计算有符号距离u的梯度，从而使我们的解码器总共有6层，其中3对共享权重。我们的网络架构中的聚合步骤，以保留有关密度的信息。对于卷积滤波器g，我们使用4×4×4的分辨率。Λ是球到立方体映射，其将球形滤波器映射到立方体核。图4：左：不平衡四叉树右：平衡后的四叉树。右上角和左下角的单元格已被细分，以使树面平衡。面相邻节点之间的深度差最多为1。到我们想要聚合信息的体素我们基于点与体素之间的尺度的相容性以及点到体素中心的距离来定义样本的重要性假设每个点描述距离函数的小体积，我们将点i和体素j的尺度兼容性计算为体积的比率：5. 自适应网格卷积我们的网格适应输入点云中的分辨率，并以多个尺度表示数据因此，期望在规则间隔的点处表示数据的规则3D卷积不能用于处理。稀疏卷积[11，5]放宽了从密集规则网格到稀疏规则网格的要求，但同样没有考虑自适应网格中发现的不规则间距OctNet [24]加速了八叉树上的卷积，但卷积具有规则的三次内核。相比之下，我们的内核适应网格，就像网格适应国际新闻报.Σ3=min（σi，lj）max（σi，lj）.（二）输入点云。在下文中，我们描述了使用多尺度卷积核的面平衡自适应网格为了说明点到体素中心的空间距离，我们使用窗口函数[28]，其产生重要性aij为。Σǁx −x ǁ2nels。图5（a）示出了所使用的内核的4个示例为在相同网格内的卷积中，我们使用覆盖中心元素以及相同和相邻尺度的面部邻居的内核将卷积限制到人脸邻居会产生具有55个元素的小内核，这aij=cij1−i j22J对于xi−xj2

下载后可阅读完整内容，剩余1页未读，立即下载