FvOR：基于神经网络的少视角物体重建

91 浏览量更新于2023-10-25 收藏 12.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

24970FvOR：用于少视角物体重建的稳健联合形状和姿态优化0Zhenpei Yang 1 Zhile Ren 2 Miguel Angel Bautista 20Zaiwei Zhang 1 Qi Shan 2 Qixing Huang 101 德克萨斯大学奥斯汀分校 2 Apple0摘要0从少量图像观察中重建准确的3D物体模型仍然是计算机视觉中的一个具有挑战性的问题。最先进的方法通常假设准确的相机姿态作为输入，在现实场景中可能难以获得。在本文中，我们提出了FvOR，一种基于学习的物体重建方法，可以在给定具有噪声输入姿态的少量图像的情况下预测准确的3D模型。我们方法的核心是一种快速而稳健的多视图重建算法，使用可学习的神经网络模块共同优化3D几何和相机姿态估计。我们在ShapeNet上对这个问题的最新方法进行了全面的基准测试。我们的方法取得了最佳结果。与最近的基于优化的方法IDR[67]相比，我们的方法速度提高了两个数量级。01. 引言0仅通过未注册的RGB输入从物体中重建3D形状是计算机视觉中一个长期存在的问题。一种常见的流程是将结构从运动（SfM）和多视图立体（MVS）[24,35]集成起来。这个流程的一个共同原则是恢复相对相机姿态，建立像素对应关系（无论是显式还是隐式），并解决三角测量以获得密集重建。这种范式的成功依赖于密集图像覆盖以获得准确的相机姿态和对应关系[1, 18, 19,49]。借助提供关于3D物体形状先验的大规模3D数据集的出现，最近的一系列工作集中在学习单目3D重建[9, 13, 14,21, 59,60]。总体思路是学习不同几何形状区域之间的多尺度相关先验，用于从部分观测中推断完整的几何形状。在当前流程中，获取密集的输入视图对于获得良好的3D重建质量至关重要，但这也是一个非常繁琐和不友好的过程。例如，刚开始使用3D重建应用程序（如创建房屋的3D模型）的普通非专业用户可能会忽视捕获高质量密集视图的严格要求。0* 实验由德克萨斯大学奥斯汀分校的Z. Yang进行。邮箱：yzp@utexas.edu0OccNet† [2, 37] IDR [67] FvOR（我们的方法）0图1. 我们的方法FvOR优于少视角3D重建的最新方法。0例如，一个刚开始使用3D重建应用程序（如创建房屋的3D模型）的普通非专业用户可能会忽视捕获高质量密集视图的严格要求。0在本文中，我们研究了少视角重建[9]的设置，它位于密集视角重建和单视角重建之间。这种设置的优势在于输入视角覆盖了底层对象的大部分，并且只需要填补少量缺失区域，这比单视角重建更容易实现。最终目标是在显著减少输入数量的同时匹配密集重建的质量。虽然少视角重建和单视角重建都属于基于学习的方法，但少视角重建的性能依赖于准确的图像姿态，这在现实场景中从输入图像本身估计可能具有挑战性。在密集视角重建中，SfM流水线通过首先使用特征对应关系预测相对相机姿态，然后执行同步[6,11]来提取绝对相机姿态。然而，这个流水线不适用于少视角重建，因为只有少数图像，这使得24980跨图像注意力0姿态初始化形状更新姿态更新0f 3D f 图像0ˆ g ( x )0ˆ f i f i0Levenberg-Marquardt步骤0图2.我们的方法包括两个阶段。第一个阶段是姿态初始化，为每个输入图像预测初始姿态。第二个阶段在形状更新和姿态更新之间交替进行，以获得具有共同改进的相机姿态的准确重建。0使用对应关系进行准确的姿态预测困难。本文介绍了一种新颖的基于学习的方法，用于联合优化输入图像的形状重建和相机姿态。我们方法的核心包括姿态初始化模块、形状模块和姿态细化模块。姿态初始化模块为每个输入图像计算初始相机姿态。形状和姿态细化模块交替进行，以共同改进形状重建和相机姿态。我们使用几何方法设计姿态初始化模块，旨在减少在姿态细化中难以纠正的异常预测的相机姿态。形状模块结合了每个视图图像特征和3D卷积特征的优势，以获得具有形状细节的准确的隐式3D重建。姿态细化模块在学习的特征空间中执行渲染图像和真实图像之间的几何对齐。形状和姿态模块都可以端到端地进行训练。与现有的基于学习的图像姿态估计技术相比，我们的方法使用了动态变化的3D重建和几何约束，这两者在标准的端到端姿态估计方法中都不可用。我们的方法在ShapeNet上取得了最先进的结果。在已知相机姿态的设置下，形状重建模块也改进了最先进的方法。由于我们神经网络模块的高效性，我们的方法比最近的基于优化的方法IDR快两个数量级。02.相关工作0单视图物体重建典型的单视图方法使用图像编码器来估计潜在代码，然后将其解码为3D形状表示，例如体素[20]，点云[15]，网格[22，56]，骨架[30，61]或隐式函数[37]。尽管这种方法已经显示出有希望的结果，但它们在不可见区域存在较大的不确定性限制。0给定部分可见观测（参见[52]），稠密视图物体重建传统的物体重建方法通常涉及围绕物体的密集扫描，然后使用SfM（运动结构）[11，48，50，58]或SLAM（同时定位和地图构建）[12，66]方法进行重建和相机姿态估计。流行的软件包括COLMAP [46]和OpenMVG[39]。最近几年还提出了一些深度学习对应物，例如DeepV2D[3，53]。[34]提出了一种从姿态视频帧中恢复物体形状的方法，该方法将深度形状先验网络与光度优化相结合。最近，研讨会作品NeRF[38]从图像中学习隐式3D表示，激发了许多研究。一些最近的工作[33，36，67]将不准确的相机姿态作为输入，并联合优化形状重建[67]（或神经辐射场[33，36]）和姿态。这种类型的方法需要最昂贵的捕获工作，但通常具有良好的性能。少视图物体重建这样的任务旨在给定多个图像重建底层物体。一般来说，解决这个任务有两种方法：它们是否在推理过程中明确地建模相机姿态。无姿态方法的开创性工作是3D-R2N2[9]，它使用3D卷积LSTM顺序地聚合多视图信息。这种方法的最新示例是Pix2Vox++[63]。其他方法直接建模相机姿态。其中许多方法假设输入具有地面真实相机姿态[2，29，41，43，57，64，65，68]。例如，[29]使用地面真实相机姿态构建体积特征表示，然后将其解码为离散体素。[65]在训练期间提出了学习形状先验，并在测试期间通过最小化轮廓损失来优化形状代码以恢复形状。[64]直接使用从预训练网络获得的预测相机姿态。最近，NeRS[69]提出了一种使用神经表面表示的NeRF风格少视图重建方法。我们的方法Linit =k−1�i=0h×w−1�j=0wi,j�ˆpi,j −dgti,j(Rgti K−1�ui,jvi,j1�+tgti )��2ˆgt(x) = gΘ f timage(x), f t3D(x) ,f timage(x) = Pooling�Fi(Pi(x, Ti))�,24990通过深度学习创新学习形状重建和姿势估计。因此，我们的方法不需要对象掩码[67,69]或类别特定的网格初始化[69]。此外，我们的方法只需要少量更新，运行时间比IDR [67]和NeRS [69]快得多。03.方法0我们首先介绍问题陈述和我们方法的概述。然后我们详细介绍从技术贡献的第3.2节到第3.5节。03.1.少视角物体重建0问题陈述。给定一组观察单个物体的RGB图像I = {Ii | i = 0,..., k -1}，其中k是观测次数，我们的目标是恢复底层物体的三维网格模型S，只考虑全局相似变换。我们假设相机的内部矩阵K是已知且在所有视图中保持不变的。方法概述。图2是FvOR的概述。它从一个姿势初始化模块开始，为每个图像预测相机姿势。该模块给出了具有可接受精度的初始姿势估计。然后我们在从输入图像重建形状与当前姿势之间进行交替，并执行图像-形状对齐来改进每个输入图像的姿势。对于形状重建模块，我们结合了一个将基于图像的特征与三维特征集成在一起的双流网络。图像-形状对齐是在输入图像和预测形状的相应渲染图像之间的学习特征空间中进行的。这两个模块都是端到端可微分的。我们在形状和姿势模块之间交替进行，从少量视图输入中重建准确的三维模型。训练交替机制的常见方法是将交替的形状、姿势模块拼接在一起，并对最终输出施加损失。我们发现这种策略很难训练，并且不太灵活。本文采用了与交替最小化中的梯度算子相同的思路，将每个模块单独训练，同时强制它们在不同的输入下取得进展。例如，姿势模块被训练以在随机扰动的姿势下恢复潜在的真实值。这种方法在开发训练损失和灌输训练数据方面具有极大的灵活性。03.2.姿势初始化模块0姿势初始化模块的目标是为后续的形状和姿势优化步骤提供初始相机姿势。由于相机姿势可以稍后进行改进，我们设计了一个姿势初始化模块来减少姿势异常值的数量，这些异常值在姿势改进阶段很难纠正。对于每个输入图像的每个像素，我们预测其在世界坐标系中的三维坐标。0（场景坐标）的底层几何[47, 55]。然后通过RANSAC[17]在2D图像像素和相应的3D点之间执行全局匹配来获得姿势。与现有的基于回归和分类的姿势估计方法[16,27]相比，我们的方法具有三个优点。首先，在测试过程中，每个图像的3D坐标重建使用了所有输入图像的信息，这意味着相机姿势是联合预测的。其次，姿势回归强制了对应关系之间的几何约束。第三，RANSAC可以有效地处理不正确的3D坐标。场景坐标预测。我们的模型首先独立地对每个输入图像编码一个2D特征图。然后我们使用一个多图像注意力模块来聚合所有输入图像的特征。受到[31,51]的启发，多图像注意力模块由自注意力和交叉注意力块交替组成。最终输出是每个像素的3D坐标ˆpi,j。网络的详细设计可以在补充材料中找到。网络训练通过最小化预测和真实场景坐标之间的l2距离来进行。一组输入图像的损失如下所示：0其中 ( u i,j , v i,j ) 是第 i 个输入图像的第 j个像素的像素坐标；d gt i,j 是其地面实际深度；T gt i := (R gt i | t gt i ) ∈ SE(3) 是第 i个图像的地面实际相机到世界的姿态；w i,j是一个二进制权重，指示该像素是否具有地面实际深度。姿态回归。在获得场景坐标估计之后，我们使用现成的RANSACPnP方法来恢复每个输入视图的姿态估计（详见补充材料）。这个初始相机姿态作为后续形状优化模块的输入。03.3. 形状优化模块0形状优化模块的输入是输入图像及其姿态估计 { ( I i , ˆ T t i) | i = 0 , . . . , k − 1 }，输出是形状重建。受到隐式形状表示 [7, 42]的成功启发，我们将三维重建编码为一个深度符号距离函数ˆ g t : R 3 → R[42]，该函数输出空间中任意查询点的符号距离。我们的方法通过融合两个来源的特征来计算隐式函数值 ˆ g t ( x ) ：0其中 g Θ 是一个多层全连接网络。类似于 [2, 26, 32, 44,45, 64, 68]，f t image ( x ) 是通过将 x投影到输入图像上提取的特征：ming�xi∈S0��g(xi)−sgti��1+λgrad�xi∈S1�� ∂g∂xi/∥ ∂g∂xi∥−ngti��2min∆ci,∆ti25000其中 P i ( x , T t i ) 是给定当前相机姿态 T t i 的情况下，x在图像 I i 上的投影；F i 是增强的ResNet18[25]，它将每个图像作为输入并输出像素级特征图；Pooling 是平均池化函数。此外，f t 3D ( x )表示从三维特征体积中获得的特征：f t 3D ( x ) = V ( x | f timage , Φ) ，0其中 V ∈ R c × d × d × d 是由可训练参数 Φ的三维卷积U-Net [10] 生成的三维体积。这个3DU-Net的输入是通过评估 f t image ( x )构建的初始体积，其中 x 是 d × d × d网格位置的坐标（详见补充材料）。网络训练。除了使用地面实际签名距离值监督隐式形状重建之外，我们还要求隐式表示的梯度场与相应的地面实际值匹配：0其中 S 0 是在三维空间中采样的点，与DeepSDF [42]中的操作相同；S 1 是在底层物体表面上的点。03.4. 姿态优化模块0我们现在描述根据当前三维重建更新相机姿态估计的模块。具体来说，输入包括输入图像 I ，当前隐式形状表示 ˆ g t和当前相机姿态 { ˆ T t i | i = 0 , . . . , k − 1 }。该模块的输出是相应相机姿态的姿态更新 ∆ ˆ T t = { ∆ ˆT t i } 0 ≤ i

下载后可阅读完整内容，剩余1页未读，立即下载