占用网络：学习3D重建中的高效表示方法

97 浏览量更新于2023-10-18 收藏 12.73MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

44600占用网络：在函数空间中学习3D重建0Lars Mescheder 1 Michael Oechsle 1, 2 Michael Niemeyer 1 Sebastian Nowozin 3 † Andreas Geiger 101 自主视觉组，智能系统和图宾根大学，2 ETAS GmbH，斯图加特，3 Google AIBerlin0{ firstname.lastname } @tue.mpg.de nowozin@gmail.com0摘要0随着深度神经网络的出现，基于学习的3D重建方法越来越受欢迎。然而，与图像不同，3D领域中没有一种既计算和内存效率高，又能够表示任意拓扑结构的高分辨率几何的规范表示。因此，许多最先进的基于学习的3D重建方法只能表示非常粗糙的3D几何或者局限于受限领域。在本文中，我们提出了占用网络（OccupancyNetworks），这是一种新的基于学习的3D重建方法的表示形式。占用网络将3D表面隐式地表示为深度神经网络分类器的连续决策边界。与现有方法相比，我们的表示在无限分辨率下编码了3D输出的描述，而不会占用过多的内存。我们验证了我们的表示可以高效地编码3D结构，并且可以从各种输入中推断出来。我们的实验在从单张图像、噪声点云和粗糙离散体素网格进行3D重建的挑战性任务上展示了有竞争力的结果，无论是定性还是定量。我们相信占用网络将成为各种基于学习的3D任务中的有用工具。01. 引言0最近，基于学习的3D重建方法变得越来越受欢迎[4, 9, 23,58, 75,77]。与传统的多视图立体算法不同，学习模型能够编码关于3D形状空间的丰富先验信息，有助于解决输入中的歧义。虽然生成模型最近在生成逼真的高分辨率图像方面取得了显著成功[36, 47,72]，但这一成功尚未在3D领域复制。与2D领域不同，复杂性-0† 在剑桥微软研究院期间完成了部分工作。0(a) 体素0(b) 点0(c) 网格0(d) 我们的0图1：概述：现有的3D表示以不同方式离散化输出空间：（a）体素表示中的空间离散化，（b）预测点的离散化，（c）网格表示中的顶点离散化。相比之下，（d）我们提出将分类器fθ（例如深度神经网络）的连续决策边界视为3D表面，从而可以在任意分辨率下提取3D网格。0目前，学术界尚未就一种既具有内存效率又能够从数据中高效推断出的3D输出表示达成共识。现有的表示可以大致分为三类：基于体素的表示[4, 19, 43, 58, 64, 69,75]，基于点的表示[1, 17]和基于网格的表示[34, 57,70]，见图1。0体素表示是像素在3D情况下的直接推广。然而，不幸的是，体素表示的内存占用随分辨率的增加而立方增长，因此将朴素实现限制在32^3或64^3个体素。虽然可以通过使用数据自适应表示（如八叉树）来减少内存占用，但这种方法会导致复杂的实现，并且现有的数据自适应算法仍然局限于相对较小的256^3个体素网格。点云[1, 17]和网格[34, 57,70]已被引入作为深度学习的替代表示，使用适当的损失函数。然而，点云缺乏底层网格的连接结构，因此需要额外的后处理步骤来从模型中提取3D几何。either based on variational auto-encoders [39,59] or gener-ative adversarial networks [25]. These two approaches werepursued in [4,58] and [75], respectively.Due to the high memory requirements of voxel repre-sentations, recent works have proposed to reconstruct 3Dobjects in a multi-resolution fashion [28,67]. However, theresulting methods are often complicated to implement andrequire multiple passes over the input to generate the ﬁnal3D model. Furthermore, they are still limited to comparablysmall 2563 voxel grids. For achieving sub-voxel precision,several works [12,42,60] have proposed to predict truncatedsigned distance ﬁelds (TSDF) [11] where each point in a3D grid stores the truncated signed distance to the closest3D surface point. However, this representation is usuallymuch harder to learn compared to occupancy representa-tions as the network must reason about distance functionsin 3D space instead of merely classifying a voxel as occu-pied or not. Moreover, this representation is still limited bythe resolution of the underlying 3D grid.44610现有的网格表示通常基于对模板网格进行变形，因此不允许任意的拓扑结构。此外，这两种方法在使用标准前馈网络可靠地预测的点/顶点数量上存在限制。在本文中，我们提出了一种基于直接学习连续三维占据函数的新方法（图1d）。我们不是预测固定分辨率的体素化表示，而是使用神经网络fθ预测完整的占据函数，该函数可以在任意分辨率下进行评估。这在训练期间大大减少了内存占用。在推理时，我们使用简单的多分辨率等值面提取算法从学习模型中提取网格，该算法在3D位置上可以轻松并行化。总之，我们的贡献如下：•我们引入了一种基于学习连续三维映射的新的三维几何表示。•我们展示了如何使用这种表示来从各种输入类型中重建三维几何。•我们通过实验证明我们的方法能够生成高质量的网格，并且与最先进的方法相比具有优势。02. 相关工作0现有的基于学习的三维重建工作可以根据它们产生的输出表示方式广泛分类为基于体素、基于点或基于网格。0体素表示：由于其简单性，体素是用于判别式[45, 55,63]和生成式[9, 23, 58, 64, 75,77]三维任务的最常用表示。早期的工作考虑了使用三维卷积神经网络在体素网格上从单个图像重建三维几何的问题[9, 68,77]。然而，由于内存需求，这些方法仅限于相对较小的32x32x32体素网格。尽管最近的工作[74, 76,79]将三维卷积神经网络应用于分辨率高达128x128x128的情况，但这仅适用于浅层架构和小批量大小，导致训练速度较慢。从多个输入视图重建三维几何的问题已在[31, 35,52]中进行了研究。Ji等人[31]和Kar等人[35]将相机参数与输入图像一起编码到三维体素表示中，并应用三维卷积来从多个视图重建三维场景。Paschalidou等人[52]引入了一种从多个图像中预测体素占据情况的架构，利用多视角几何约束[69]。其他工作将体素表示应用于学习三维形状的生成模型。其中大多数方法基于变分自编码器[39, 59]或生成对抗网络[25]。这两种方法分别在[4,58]和[75]中得到了追求。由于体素表示的高内存需求，最近的工作提出以多分辨率方式重建三维物体。然而，由此产生的方法通常实现复杂，并且需要多次处理输入才能生成最终的三维模型。此外，它们仍然受限于相对较小的256x256x256体素网格。为了实现亚体素精度，一些工作[12, 42,60]提出了预测截断有符号距离场（TSDF）[11]的方法，其中3D网格中的每个点存储到最近3D表面点的截断有符号距离。然而，与占据表示相比，这种表示通常更难学习，因为网络必须在3D空间中推理距离函数，而不仅仅是对体素进行分类。此外，该表示仍然受限于01 同时也可以参考[8, 48, 51]中提出的类似想法的并行工作。0点表示：一个有趣的替代3D几何表示的方法是3D点云，它被广泛应用于机器人和计算机图形学社区。Qi等人[54,56]首创了点云作为判别式深度学习任务的表示。他们通过对每个点独立应用全连接神经网络，然后进行全局汇聚操作来实现排列不变性。Fan等人[17]引入了点云作为3D重建的输出表示。然而，与其他表示不同，这种方法需要额外的非平凡的后处理步骤[3,6,37,38]来生成最终的3D网格。0网格表示：网格首先被认为是用于判别式3D分类或分割任务的，通过在网格的顶点和边之间应用卷积[5,27,71]。最近，网格也被认为是用于3D重建的输出表示[26,33,41,70]。不幸的是，这些方法中的大多数容易生成自相交的网格。此外，它们只能生成具有简单拓扑的网格[70]，需要来自相同对象类的参考模板[33,41,57]，或者无法保证封闭表面[26]。Liao等人[43]提出了一种可端到端学习的MarchingCubes算法[44]的版本。然而，他们的方法仍然受到底层3D网格的内存需求的限制，因此也仅限于32x32x32体素分辨率。与前述方法不同，我们的方法可以生成高分辨率的封闭表面，避免自相交，并且不需要来自相同对象类的模板网格作为输入。这个想法与经典的水平集[10,14,50]方法与多视图3D重建[18,24,32,40,53,78]相关。然而，我们的方法不是解决44620与微分方程不同，我们的方法使用深度学习来获得更具表现力的表示，可以自然地集成到端到端的学习流程中。03. 方法0在本节中，我们首先介绍占用网络作为3D几何的表示。然后，我们描述了如何从各种形式的输入（如点云、单个图像和低分辨率体素表示）中学习推断这种表示的模型。最后，我们描述了一种在测试时从我们的模型中提取高质量3D网格的技术。03.1. 占用网络0理想情况下，我们希望不仅在固定的离散3D位置（如体素表示）上推理占用情况，而且在每个可能的3D点p∈R3上推理。我们将得到的函数称为0o: R3 → {0,1} (1)03D对象的占用函数。我们的关键洞察力是，我们可以用神经网络来近似这个3D函数，该网络为每个位置p∈R3分配一个介于0和1之间的占用概率。注意，这个网络等效于用于二元分类的神经网络，只是我们对隐含表示对象表面的决策边界感兴趣。当我们使用这样的网络基于对对象的观察（例如图像、点云等）进行3D重建时，我们必须将其与输入条件化。幸运的是，我们可以利用以下简单的函数等价性：一个以观察x∈X为输入并具有从p∈R3到R的函数作为输出的函数可以等效地由一个以(p，x)∈R3×X为输入并输出一个实数的函数描述。后一种表示可以简单地由一个以(p，x)为输入并输出一个表示占用概率的实数的神经网络fθ参数化：0fθ: R3×X → [0, 1] (2)0我们将这个网络称为占用网络。03.2. 训练0为了学习神经网络fθ(p,x)的参数θ，我们在考虑的对象的三维边界体积中随机采样点：对于训练批次中的第i个样本，我们采样K个点pij∈R3，j=1,...,K。然后在这些位置上评估小批量损失LB：0LB(θ) = 10|B|0|B|0i=10j=1 L(fθ(pij, xi), oij) (3)0这里，xi是批次B的第i个观测，oij≡o(pij)表示点pij的真实占用情况，L(∙,∙)是交叉熵分类损失。我们的方法的性能取决于用于训练的位置pij的采样方案。在第4.6节中，我们进行了详细的消融研究，比较了不同的采样方案。实践中，我们发现在对象的边界框内均匀采样，并添加额外的小填充效果最好。我们的三维表示还可以用于学习概率潜变量模型。为了实现这个目标，我们引入了一个编码器网络gψ(∙)，它以位置pij和占用情况oij作为输入，并预测潜变量z∈RL的高斯分布qψ(z|(pij,oij)j=1:K)的均值μψ和标准差σψ。0作为输出。我们优化一个下界[21, 39,59]，使其接近生成模型p((oij)j=1:K|(pij)j=1:K)的负对数似然：0LgenB(θ, ψ) = 10|B|0|B|0i=10j=1 L(fθ(pij, zi), oij)0+ KL(qψ(z|(pij, oij)j=1:K) ∥ p0(z)) (4)0其中KL表示KL散度，p0(z)是潜变量zi的先验分布（通常为高斯分布），并且zi是根据qψ(zi|(pij,oij)j=1:K)进行采样的。03.3. 推断0为了从训练好的占用网络中提取与新观测相对应的等值面，我们引入了多分辨率等值面提取（MISE），这是一种分层等值面提取算法（图2）。通过逐步构建八叉树[30, 46, 66,73]，MISE使我们能够从占用网络中提取高分辨率的网格，而无需密集地评估高维占用网格的所有点。我们首先以初始分辨率对体积空间进行离散化，并对该网格中的所有点p评估占用网络fθ(p, x)。我们将所有满足fθ(p,x)大于或等于某个阈值2τ的网格点p标记为占用。接下来，我们将至少有两个相邻网格点具有不同占用预测的体素标记为活动体素。这些体素在当前分辨率下应用MarchingCubes算法时会与网格相交。我们将所有活动体素细分为8个子体素，并评估通过此细分引入到占用网格中的所有新网格点。我们重复这些步骤，直到达到所需的最终分辨率。在这个最终分辨率下，02阈值τ是我们占用网络的唯一超参数。它决定了提取的三维表面的“厚度”。在我们的实验中，我们在验证集上交叉验证了这个阈值。2(6)44630图2：多分辨率等值面提取：首先，我们标记给定分辨率下已经评估过的所有点，将其标记为占用（红色圆圈）或未占用（青色菱形）。然后，我们确定所有具有占用和未占用角点的体素，并将其标记为活动（浅红色），并将其细分为8个子体素。接下来，我们评估通过细分引入的所有新网格点（空心圆）。前两个步骤重复进行，直到达到所需的输出分辨率。最后，我们使用MarchingCubes算法[44]提取网格，使用一阶和二阶梯度信息简化和优化输出网格。0我们应用Marching Cubes算法[44]来提取近似等值面0{ p ∈ R3 | fθ(p, x) = τ }. (5)0如果初始分辨率的占用网格包含网格的内部和外部的每个连通组件的点，则我们的算法收敛到正确的网格。因此，选择一个足够高的初始分辨率以满足此条件非常重要。在实践中，我们发现初始分辨率为32^3几乎在所有情况下都足够。通过MarchingCubes算法提取的初始网格可以进一步细化。在第一步中，我们使用Fast-Quadric-Mesh-Simplification算法3[20]简化网格。最后，我们使用一阶和二阶（即梯度）信息对输出网格进行细化。为此，我们从输出网格的每个面上采样随机点pk，并最小化损失0k=1 (fθ(pk, x) − τ)^2 + λ �p fθ(pk, x) ∥�p fθ(pk,x)∥ − n(pk)0其中n(pk)表示网格在pk处的法向量。在实践中，我们设置λ=0.01。最小化第二项03 https://github.com/sp4cerat/Fast-Quadric-Mesh-Simpli�cation0在（6）中使用了二阶梯度信息，并且可以使用双反向传播[15]进行高效实现。请注意，这最后一步消除了MarchingCubes逼近的离散化伪影，并且如果我们直接预测基于体素的表示，则不可能实现。此外，我们的方法还允许通过简单地反向传播通过占用网络提取输出网格的所有顶点的法线。总之，我们的推理算法每个网格需要3秒。03.4. 实现细节0我们使用一个具有5个ResNet块[29]的全连接神经网络实现了我们的占用网络，并使用条件批量归一化[13,16]对其进行条件化。我们根据输入的类型使用不同的编码器架构。对于单视图3D重建，我们使用ResNet18架构[29]。对于点云，我们使用PointNet编码器[54]。对于体素化输入，我们使用3D卷积神经网络[45]。对于无条件网格生成，我们使用PointNet [54]作为编码器网络gψ。更多细节请参见补充材料。04. 实验0我们进行了三种类型的实验来验证提出的占用网络。首先，我们通过检查网络能够从学习的潜在嵌入中重建复杂的3D形状的能力来分析占用网络的表示能力。这为我们在将我们的表示条件化为额外输入时可以实现的结果提供了一个上限。其次，我们将我们的占用网络与图像、噪声点云和低分辨率体素表示进行条件化，并将我们的方法的性能与几种最先进的基线进行比较。最后，我们通过向我们的模型添加编码器并从该模型生成无条件样本来检查占用网络的生成能力。40基准线：对于单图像3D重建任务，我们将我们的方法与几种最先进的基线进行比较，这些基线利用各种3D表示方法：我们评估基于体素的方法3D-R2N2 [9]，基于点的方法PointSet Generating Networks (PSGN)[17]，以及基于网格的方法Pixel2Mesh [70]和AtlasNet[26]。对于点云输入，我们通过更改编码器来适应3D-R2N2和PSGN。作为基于网格的基线，我们使用Deep MarchingCubes (DMC)[43]，该方法最近在此任务上报告了最先进的结果。对于体素超分辨率任务，我们评估与输入相比的改进。04 重新复现我们的实验的代码可在https://github.com/LMescheder/Occupancy-Networks 下载。4464016 3 32 3 64 3 128 3 我们的0图3：离散与连续。我们的连续表示（右侧）与不同分辨率的体素化（左侧）的定性比较。请注意，我们的表示能够编码在基于体素的表示中丢失的细节。0数据集：在我们的所有实验中，我们使用ShapeNet[7]的Choy等人[9]的子集。我们还使用与Choy等人相同的体素化、图像渲染和训练/测试划分。此外，我们将训练集分为训练集和验证集，用于跟踪我们的方法和基线的损失，以确定何时停止训练。为了生成完全密封的网格并确定点是否位于网格的内部（例如，用于测量IoU），我们使用Stutz等人[64]提供的代码。为了进行公平比较，我们从完全密封的网格表面而不是原始模型中采样点作为PSGN[17]、Pixel2Mesh[70]和DMC[43]的基准真实值。我们的所有评估都是针对这些完全密封的网格进行的。0评估指标：我们使用体积IoU、Chamfer-L1距离和法线一致性得分进行评估。体积IoU定义为两个网格的并集体积与交集体积之比。我们通过从边界体积中随机采样100k个点，并确定这些点是否位于真实/预测网格内部来获取交集和并集的无偏估计。Chamfer-L1距离定义为准确度和完整度度量的均值。准确度度量定义为输出网格上的点到真实网格上最近邻点的平均距离。完整度度量类似地定义，但方向相反。我们通过从两个网格中随机采样100k个点，并使用KD树估计相应的距离来高效地估计这两个距离。与Fan等人[17]一样，我们使用当前对象边界框的最大边长的1/10倍作为单位1。最后，为了衡量方法对高阶信息的捕捉能力，我们定义了法线一致性得分，即一个网格中的法线与另一个网格中最近邻点处的法线的绝对点积的均值。04.1 表示能力0在我们的第一个实验中，我们研究了占据网络在表示3D几何形状时的表现，独立于输入编码的不准确性。我们试图回答的问题是，我们的网络能否0图4：IoU与分辨率。该图显示了体素化与真实网格的IoU（实线蓝线）与我们的连续表示（实线橙线）之间的比较，以及两种表示所需的模型参数数量（虚线）。请注意，与低分辨率体素表示相比，我们的表示相对于真实网格具有更大的IoU。同时，体素表示的参数数量随分辨率的增加呈立方增长，而占据网络的参数数量与分辨率无关。0在保留尽可能多细节的同时，学习一种内存高效的三维形状表示。这为我们的模型的表示能力和在附加输入条件下期望的性能提供了一个估计。与[67]类似，我们将每个训练样本嵌入到一个512维的潜在空间中，并训练我们的神经网络从这个嵌入中重构三维形状。我们将我们的方法应用于ShapeNet数据集的“椅子”类别的训练集。由于该子集具有高度多样性和许多模型包含高频细节，因此其表示具有挑战性。由于我们只对训练数据进行重构，因此在这个实验中我们不使用单独的验证和测试集。评估时，我们使用体积IoU与真实网格进行比较。定量结果和在不同分辨率下与体素表示的比较结果如图4所示。我们可以看到，占据网络（ONet）能够以高平均IoU0.89的精度忠实地表示整个数据集，而低分辨率的体素表示无法准确地表示网格。同时，占据网络能够使用仅6M参数编码所有4746个训练样本，而不受分辨率的影响。相比之下，体素表示的内存需求随着分辨率的增加呈立方增长。图3展示了定性结果。我们观察到，占据网络使我们能够表示低分辨率体素化中丢失的3D几何细节。44650输入 3D-R2N2 PSGN Pix2Mesh AtlasNet 我们的方法0图5：单图像3D重建。第一列显示输入图像，其他列显示我们的方法与各种基线方法的结果。04.2. 单图像3D重建0在我们的第二个实验中，我们将占用网络与来自随机相机位置的对象的附加视图进行条件约束。这个实验的目标是评估从复杂输入中可以推断出多好的占用函数。虽然我们在ShapeNet数据集上训练和测试我们的方法，但我们也提供了KITTI[22]和在线产品数据集[49]的定性结果。0ShapeNet：在这个实验中，我们使用一个在ImageNet数据集上预训练的ResNet-18图像编码器。为了公平比较，我们对3D-R2N2和PSGN都使用相同的图像编码器。对于PSGN，我们使用一个具有4层和每层512个隐藏单元的全连接解码器。最后一层将隐藏表示投影到一个3072维的向量，我们将其重新整形为1024个3D点。由于我们只使用一个输入视图，我们移除了3D-R2N2中的循环网络。我们使用PyTorch重新实现了[70]的方法，紧密遵循作者提供的Tensorflow实现。对于[26]的方法，我们使用了作者提供的代码和预训练模型。0请参阅补充材料以进行与原始架构的比较。6https://github.com/ThibaultGROUEIX/AtlasNet0对于所有方法，我们在验证集上跟踪损失和其他指标，并在目标指标达到最优值时停止训练。对于3D-R2N2和我们的方法，我们使用与地面真实网格的IoU作为目标指标，对于PSGN和Pixel2Mesh，我们使用与地面真实网格的Chamfer距离作为目标指标。为了提取最终的网格，我们使用了3D-R2N2中建议的阈值0.4。为了选择我们方法的阈值参数τ，我们在验证集上进行了网格搜索（请参见补充材料），发现τ=0.2在准确性和完整性之间取得了良好的平衡。图5显示了我们模型和基线方法的定性结果。我们观察到所有方法都能够捕捉输入图像的3D几何。然而，3D-R2N2产生了一个非常粗糙的表示，因此缺乏细节。相比之下，PSGN产生了高保真度的输出，但缺乏连通性。因此，PSGN需要额外的损失后处理步骤来生成最终的网格。Pixel2Mesh能够创建引人注目的网格，但在更复杂的拓扑结构中往往会错过孔洞。在ShapeNet数据集的“椅子”类别中，这样的拓扑结构是常见的。类似地，AtlasNet捕捉了几何形状，但产生了自相交和重叠补丁的伪影。相比之下，我们的方法能够捕捉复杂的拓扑结构，生成闭合的网格并保留大部分细节。请参阅补充材料以获取更多高分辨率结果和失败案例。表1显示了定量结果。我们观察到我们的方法在IoU和法线一致性方面达到了最高水平。令人惊讶的是，尽管没有针对Chamfer距离进行训练，如PSGN、Pixel2Mesh或AtlasNet，我们的方法在这个指标上也取得了良好的结果。请注意，对于PSGN或AtlasNet，无法评估IoU，因为它们不能产生完全密封的网格。0真实数据：为了测试我们的模型对真实数据的泛化能力，我们将我们的网络应用于KITTI[22]和在线产品数据集[49]。为了捕捉KITTI和在线产品的视点多样性，我们使用随机相机位置重新渲染了所有ShapeNet对象，并为此任务重新训练了我们的网络。对于KITTI数据集，我们还使用[2]中提供的实例掩码来掩盖和裁剪汽车区域。然后，我们将这些图像输入到我们的神经网络中以预测占用函数。图6a显示了一些选择的定性结果。尽管只在合成数据上进行了训练，但我们观察到我们的方法也能够在这个具有挑战性的环境中生成逼真的重建结果。对于在线产品数据集，我们应用相同的预训练模型。图6b显示了一些定性结果。同样，我们观察到我们的方法在真实数据上也具有泛化能力。0请参阅补充材料以获取网格化结果。44660IoU Chamfer-L1法线一致性03D-R2N2 PSGN Pix2Mesh AtlasNet ONet 3D-R2N2 PSGN Pix2Mesh AtlasNet ONet 3D-R2N2 PSGN Pix2Mesh AtlasNet ONet 类别0airplane 0.426 - 0.420 - 0.571 0.227 0.137 0.187 0.104 0.147 0.629 - 0.759 0.836 0.840 bench 0.373 - 0.323 - 0.485 0.194 0.181 0.201 0.138 0.155 0.678 - 0.732 0.779 0.813 cabinet0.667 - 0.664 - 0.733 0.217 0.215 0.196 0.175 0.167 0.782 - 0.834 0.850 0.879 car 0.661 - 0.552 - 0.737 0.213 0.169 0.180 0.141 0.159 0.714 - 0.756 0.836 0.852 chair 0.439 - 0.396- 0.501 0.270 0.247 0.265 0.209 0.228 0.663 - 0.746 0.791 0.823 display 0.440 - 0.490 - 0.471 0.314 0.284 0.239 0.198 0.278 0.720 - 0.830 0.858 0.854 lamp 0.281 - 0.323 - 0.3710.778 0.314 0.308 0.305 0.479 0.560 - 0.666 0.694 0.731 loudspeaker 0.611 - 0.599 - 0.647 0.318 0.316 0.285 0.245 0.300 0.711 - 0.782 0.825 0.832 ri�e 0.375 - 0.402 - 0.474 0.1830.134 0.164 0.115 0.141 0.670 - 0.718 0.725 0.766 sofa 0.626 - 0.613 - 0.680 0.229 0.224 0.212 0.177 0.194 0.731 - 0.820 0.840 0.863 table 0.420 - 0.395 - 0.506 0.239 0.222 0.2180.190 0.189 0.732 - 0.784 0.832 0.858 telephone 0.611 - 0.661 - 0.720 0.195 0.161 0.149 0.128 0.140 0.817 - 0.907 0.923 0.935 vessel 0.482 - 0.397 - 0.530 0.238 0.188 0.212 0.1510.218 0.629 - 0.699 0.756 0.7940平均值0.493 - 0.480 - 0.571 0.278 0.215 0.216 0.175 0.215 0.695 - 0.772 0.811 0.8340表1：单图像3D重建。该表显示了我们的方法和ShapeNet数据集上单图像3D重建基线方法的数值比较。我们测量了与地面真实网格相关的IoU、Chamfer-L1距离和法线一致性。请注意，与之前的工作不同，我们计算的IoU是相对于高分辨率网格而不是粗糙的体素表示。除了AtlasNet[26]之外的所有方法都在Choy等人的测试集[9]上进行评估。由于AtlasNet使用了预训练模型，我们在[9]和[26]的测试集交集上对其进行评估。0输入重建0（a）KITTI0输入重建0（b）在线产品0图6：真实数据的定性结果。我们将训练好的模型应用于KITTI和在线产品数据集。尽管只在合成数据上进行训练，我们的模型对真实数据也有相当好的泛化能力。0尽管仅在合成数据上进行训练，但我们的模型对真实图像也有相当好的泛化能力。附录中还有关于Pix3D数据集[65]的额外定量评估。04.3.点云补全0作为第二个条件任务，我们将我们的方法应用于从噪声点云重建网格的问题。为了实现这个目标，我们从每个（封闭的）ShapeNet模型的表面子采样300个点，并使用均值为零、标准差为0.05的高斯分布对点云施加噪声。同样，我们测量与地面真实网格的IoU和Chamfer-L1距离。结果如表2所示。我们观察到我们的方法达到了最高水平。0IoU Chamfer-L1法线一致性03D-R2N2 0.565 0.169 0.719 PSGN - 0.202 -DMC 0.674 0.117 0.848 ONet 0.778 0.0790.8950表2：从点云中进行3D重建。该表显示了我们的方法与ShapeNet数据集上点云3D重建基线方法的数值比较。我们测量了与地面真实网格相关的IoU、Chamfer-L1距离和法线一致性。0IoU和法线一致性以及最低的Chamfer-L1距离。请注意，所有数字都明显优于单个图像3D重建任务。这可以解释为识别模型对这个任务更容易，因为存在的歧义较少，模型只需填补空白。04.4. 体素超分辨率0作为最后的条件任务，我们将占用网络应用于3D超分辨率[62]。在这里，任务是从粗糙的32x32x32体素网格重建出高分辨率的网格。结果显示在表格3中。我们观察到，与粗糙输入网格相比，我们的模型显著改善了IoU、Chamfer-L1距离和法线一致性。请参阅补充材料获取定性结果。04.5. 无条件网格生成0最后，我们将占用网络应用于无条件的网格生成，以无监督的方式分别在ShapeNet数据集的四个类别上进行训练。我们的目标是探索我们的模型能够如何表示3D模型的能力。44670IoU Chamfer- L 1法线一致性0输入 0.631 0.136 0.810 ONet 0.703 0.1090.8790表格3：体素超分辨率。该表格在ShapeNet数据集上对比了我们方法的输出与输入的数值结果。0图7：无条件的3D样本。我们在ShapeNet数据集的“car”、“airplane”、“sofa”和“chair”类别上训练的无监督模型的随机样本。我们可以看到我们的模型能够捕捉到3D物体的分布并生成引人注目的新样本。03D模型的潜在空间。图7展示了一些样本。事实上，我们发现我们的模型能够生成引人注目的新模型。在补充材料中，我们展示了我们模型在潜在空间中的插值结果。04.6. 消融研究0在本节中，我们测试了我们模型的各个组成部分如何影响其在单张图像3D重建任务上的性能。0采样策略的影响首先，我们检查采样策略如何影响我们最终模型的性能。我们尝试了三种不同的采样策略：（i）在真实网格的边界体积中均匀采样2048个点（均匀采样），（ii）在网格内采样1024个点和网格外采样1024个点（相等采样），以及（iii）均匀采样1024个点和网格表面上的1024个点，再加上标准差为0.1的高斯噪声（表面采样）。我们还通过将采样点数从2048减少到64来检查采样点数的影响。结果显示在表格4a中。令人惊讶的是，我们发现最简单的均匀采样策略效果最好。我们解释这是因为其他采样策略会给模型引入偏差：例如，当在网格内外采样相等数量的点时，我们隐含地告诉模型每个对象的体积为0.5。事实上，当使用这种采样策略时，我们观察到0IoU Chamfer- L 1法线一致性0均匀采样 0.571 0.215 0.834 均匀采样（64） 0.5540.256 0.829 相等采样 0.475 0.291 0.835 表面采样0.536 0.254 0.8220（a）采样策略的影响0IoU Chamfer- L 1法线一致性0完整模型 0.571 0.215 0.834 无ResNet 0.559 0.2430.831 无CBN 0.522 0.301 0.8060（b）占用网络架构的影响0表格4：消融研究。当我们改变采样策略时，我们观察到在边界体积中进行均匀采样效果最好。同样，当我们改变架构时，我们发现我们的带有条件批归一化的ResNet架构获得了最好的结果。0在模型的输出中，服务于增加模型输出的艺术品。此外，我们发现将采样点数从2048减少到64仍然可以获得良好的性能，尽管模型的表现不如使用2048个采样点训练的模型好。0架构的影响为了测试我们架构的各个组成部分对性能的影响，我们测试了两种变体：（i）我们去除了条件批归一化，并在网络开头用线性层代替它，将输入的编码投影到所需的隐藏维度；（ii）我们去除了解码器中的所有ResNet块，并用线性块代替它们。结果呈现在表格4b中。我们发现这两个组成部分都有助于获得良好的性能。05. 结论0在本文中，我们介绍了占据网络，一种新的三维几何表示方法。与现有的表示方法不同，占据网络不受三维空间离散化的限制，因此可以用于表示逼真的高分辨率网格。我们的实验证明，占据网络非常具有表现力，可以有效地用于监督和无监督学习。因此，我们相信占据网络是一种可以应用于各种三维任务的有用工具。0致谢0本工作得到Intel智能系统网络和微软研究通过其博士奖学金计划的支持。44680参考文献0[1] P. Achlioptas，O. Diamanti，I. Mitliagkas和L. J.Guibas。学习3D点云的表示和生成模型。在《国际机器学习会议（ICML）文集》中，2018年。10[2] H. A. Alhaija，S. K. Mustikovela，L. Mescheder，A.Geiger和C.Rother。增强现实与深度学习相结合，用于城市场景中的汽车实例分割。在《英国机器视觉会议（BMVC）文集》中，2017年。60[3] F. Bernardini，J. Mittleman，H. Rushmeier，C. Silva和G.Taubin。用于表面重建的球枢轴算法。《IEEE可视化和计算机图形学（VCG）交易》，第5卷，第4期，349-359页，1999年。20[4] A. Brock，T. Lim，J. M. Ritchie和N.Weston。使用卷积神经网络进行生成和判别体素建模。arXiv.org，1608.04236，2016年。1，20[5] M. M. Bronstein，J. Bruna，Y. LeCun，A. Szlam和P. Van-dergheynst。几何深度学习：超越欧几里得数据。《信号处理杂志》，第34卷，第4期，18-42页，2017年。20[6] F. Calakli和G.Taubin。SSD：平滑有符号距离表面重建。《计算机图形学论坛》，第30卷，第7期，1993-2002页，2011年。20[7] A. X. Chang，T. A. Funkhouser，L. J. Guibas，P. Hanrahan，Q.Huang，Z. Li，S. Savarese，M. Savv

下载后可阅读完整内容，剩余1页未读，立即下载