3D形状重建和补全的隐式特征网络

87 浏览量更新于2023-10-23 收藏 13.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

While many works focus on image-based 3D reconstruc-tion [23], in this paper, we focus on 3D surface recon-struction and shape completion from a variety of 3D in-puts, which are deﬁcient in some respect: low-resolutionvoxel-grids, high-resolution voxel-grids, sparse and densepoint-clouds, complete or incomplete. Such inputs are be-coming ubiquitous as 3D scanning technology is increas-ingly accessible, and they are often an intermediate outputof 3D computer vision algorithms. However, the ﬁnal out-put for most applications should be a renderable continuous69700在特征空间中的隐式函数用于3D形状重建和补全0Julian Chibane 1,2 Thiemo Alldieck 1,3 Gerard Pons-Moll 101 德国马克斯∙普朗克计算机科学研究所，萨尔兰计算机科学校园 2德国维尔茨堡大学 3 德国不伦瑞克工业大学计算机图形学实验室0{ jchibane,gpons } @mpi-inf.mpg.de alldieck@cg.cs.tu-bs.de0图1：使用我们的方法的结果。左：稀疏体素重建，中：密集体素重建，右：3D单视图点云重建（背面遮挡）。我们的方法可以生成连续的输出，处理多种拓扑结构（右图），并且与以前的工作不同，保留了输入中的细节（中间和右图），并且在处理关节人体时表现良好。0摘要0虽然许多工作集中在从图像中进行3D重建，但在本文中，我们专注于从各种3D输入中进行3D形状重建和补全，这些输入在某些方面存在不足：低分辨率和高分辨率体素、稀疏和密集点云、完整或不完整。处理这些3D输入是一个越来越重要的问题，因为它们是3D扫描仪的输出，这些扫描仪变得越来越容易获取，并且是3D计算机视觉算法的中间输出。最近，学习的隐式函数显示出很大的潜力，因为它们可以生成连续的重建结果。然而，我们发现从3D输入进行重建存在两个限制：1）输入数据中存在的细节没有被保留下来；2）关节人体的重建效果较差。为了解决这个问题，我们提出了隐式特征网络（IF-Nets），它可以生成连续的输出，可以处理多种拓扑结构，可以对缺失或稀疏的输入数据进行形状补全，保留了最近学习的隐式函数的良好性质，但关键是它可以在输入数据中保留细节，并且可以重建关节人体。我们的工作与以前的工作在两个关键方面有所不同。首先，我们不是使用单个向量来编码3D形状，而是提取一个可学习的三维多尺度张量特征，该特征与嵌入形状的原始欧几里得空间对齐。其次，我们不是直接对x-y-z点坐标进行分类，而是对从张量中连续查询点处提取的深度特征进行分类。我们展示了这样做的结果是，我们的模型强制基于全局和局部形状结构做出决策，而不是基于点坐标，这些坐标在欧几里得变换下是任意的。实验证明，IF-Nets在ShapeNet的3D对象重建中明显优于以前的工作，并且可以获得更准确的3D人体重建。代码可在https://virtualhumans.mpi-inf.mpg.de/ifnets/上获得。0我们提取了与原始欧几里得空间对齐的可学习的三维多尺度张量特征，而不是使用单个向量来编码3D形状。其次，我们不是直接对x-y-z点坐标进行分类，而是对从张量中连续查询点处提取的深度特征进行分类。我们展示了这样做的结果是，我们的模型强制基于全局和局部形状结构做出决策，而不是基于点坐标，这些坐标在欧几里得变换下是任意的。实验证明，IF-Nets在ShapeNet的3D对象重建中明显优于以前的工作，并且可以获得更准确的3D人体重建。代码可在https://virtualhumans.mpi-inf.mpg.de/ifnets/上获得。01. 引言69710我们的工作重点是完整的表面。对于稀疏网格和（不完整的）点云，基于学习的方法比传统方法更好[6,42]，因为它们可以推理全局对象形状，但受到输出表示的限制。基于网格的方法通常学习将初始凸模板变形[72]，因此无法表示不同的拓扑结构。基于体素的表示[11,39]占用大量内存，严重限制了输出分辨率，只能生成粗糙的形状，没有细节。点云表示[54,55]更高效，但不能直接实现表面的渲染和可视化。最近，隐式函数[48, 43,10]被证明是一种有前途的形状表示方法。关键思想是学习一个函数，给定一个编码为向量的粗糙形状和查询点的x-y-z坐标，决定该点是在形状内部还是外部。学习的隐式函数可以在任意分辨率下对查询3D点进行评估，并且可以应用经典的MarchingCubes算法提取网格/表面。这种输出表示方法可以在任意分辨率下进行形状恢复，是连续的，并且可以处理不同的拓扑结构。虽然这些方法在重建对齐的刚体对象方面效果很好，但我们观察到它们存在两个主要限制：1）它们无法表示复杂的对象，如关节人体（重建通常缺少手臂或腿部）；2）它们无法保留输入数据中的细节。我们假设这是因为1）网络对x-y-z点坐标学习了过于强的先验知识，破坏了对关节的不变性；2）形状编码向量缺乏3D结构，导致解码更像是对形状原型的分类[66]，而不是连续回归。因此，所有现有的基于学习的方法，无论是基于体素、网格、点云还是隐式函数，都在某种程度上存在不足。在本文中，我们提出了隐式特征网络（IF-Nets），与以前的工作不同，IF-Nets在5个不同的方面表现良好，如表1所示：它们是连续的，可以处理多种拓扑结构，可以对稀疏输入进行补全，保留了隐式函数模型的良好性质[48, 43,10]，但关键是它们在输入中保留了细节（密集输入），并且可以重建关节人体。IF-Nets与最近的工作[48, 10,43]在两个关键方面有所不同。首先，我们不是使用单个向量来编码3D形状，而是提取一个与原始欧几里得空间嵌入形状对齐的可学习的三维多尺度张量特征。其次，我们不是直接对x-y-z点坐标进行分类，而是对连续查询点处提取的深度特征进行分类。因此，与以前的工作不同，IF-Nets不会记忆常见的x-y-z位置，这些位置在欧几里得变换下是任意的。相反，它们使模型基于全局和局部形状结构做出决策，而不是基于点坐标，这些坐标在欧几里得变换下是任意的。实验证明，在ShapeNet的3D对象重建中，IF-Nets明显优于以前的工作，并获得更准确的3D人体重建。代码可在https://virtualhumans.mpi-inf.mpg.de/ifnets/上获得。0输出连续多个稀疏密集关节03D表示输出拓扑输入输入计算0体素 � � � � �0点云 � � � � �0网格 � � � � �0隐式 � � � � � �0我们的 � � � � �0表1.根据输出表示对最近的3D重建方法进行分类的优势和劣势概述。体素、点云和网格是非连续的，并且受到离散化的影响。网格还具有固定的拓扑结构，这限制了可表示的3D形状的空间。最近的学习隐式函数�[43, 10,48]缓解了这些限制，但无法保留细节或重建关节。所提出的IF-Nets与隐式函数具有相同的期望特性，可以从3D输入中重建，同时能够保留密集3D输入中存在的细节并重建关节的人体。0基于多尺度特征对点周围的局部和全局物体形状结构进行编码的决策。为了展示IF-Nets的优势，首先，我们展示IF-Nets可以比以前的方法更准确地重建简单的刚性3D物体。在ShapeNet[9]中，IF-Nets的表现超过了最先进的结果。对于关节人体，我们在包含1600个不同姿势、形状和服装的人体数据集上训练IF-Nets和相关方法。与最近的工作[48, 10,43]截然不同，IF-Nets可以全局地重建关节对象而不会丢失肢体，并且可以恢复出衣服褶皱等细节结构。定量和定性实验证实了IF-Nets对关节的鲁棒性，并且能够产生全局一致的形状而不会丢失细粒度的细节。为了鼓励进一步的3D处理、学习和重建研究，我们在https://virtualhumans.mpi-inf.mpg.de/ifnets/上公开了IF-Nets。02. 相关工作03D形状重建的方法可以根据所使用的表示方式进行分类：体素、网格、点云和隐式函数；根据对象类型进行分类：刚性物体与人体。有关最近的综述，请参阅[23]。表1给出了最近3D重建方法的优势和劣势的简要概述。刚性物体的体素：由于体素是图像网格中像素的自然3D扩展，并且允许进行3D卷积，因此它们最常用于生成和重建[29, 26, 57,46]。然而，内存占用随分辨率的立方倍增，这限制了早期的工作[75, 11, 68]在小的323网格中预测形状。较高的分辨率已经被使用[74, 73,81]，但训练批次有限且训练速度慢，或者使用有损的2D投影[63]。多分辨率重建[24, 65,71]减少了内存占用，允许使用更大的网格69720256 3 .然而，这些方法实现起来很复杂，需要多次遍历输入，并且仍然受限于大小为 256 3的网格，这会导致可见的量化伪影。为了平滑噪声，可以将形状表示为截断有符号距离函数[12]进行学习[14, 36, 58,64]。然而，分辨率仍然受限于存储TSDF值的3D网格。生成形状模型通常使用神经网络将1D向量映射到体素表示[18,74]。与我们一样，[40]的作者观察到1D向量对于生成具有全局和局部结构的形状过于限制。他们引入了具有跳跃连接的分层潜变量编码。相反，我们提出了一个更简单的三维多尺度特征张量，与嵌入形状的原始欧几里得空间对齐。使用体素的人类：从图像中，基于CNN的人类重建通常以体素[70, 17, 82]或深度图[16, 62,38]的形式产生比网格或基于模板的表示更多的细节，因为预测与输入像素对齐。不幸的是，这样做的代价是在身体部分缺失。因此，一些方法[70,62]将SMPL[41]模型拟合到重建结果作为后处理步骤。然而，如果原始重建结果过于不完整，这种方法容易失败。所有这些方法都处理图像像素，而我们专注于直接处理3D数据。与我们的IF-Nets不同，这些方法受到体素网格分辨率的限制。刚体物体的网格：大多数基于网格的方法将形状预测为与模板的变形[72,56]，因此受限于单一拓扑。或者，可以直接推断网格（顶点和面）[20, 13] -尽管这个研究方向很有前途，但方法仍然计算成本高昂，并且不能保证没有交叉的闭合网格。可以使用可学习版本[40]的经典MarchingCubes算法[42]直接预测网格，但该方法仅限于323的底层小体素网格。已经提出了有希望的体素和网格的组合[19]，但结果仍然粗糙。人类的网格：自从引入（基于网格的）SMPL人体模型[41]以来，已经有越来越多的论文利用它来从点云、深度数据和图像[28, 32, 33, 47, 69,79]中重建形状和姿势。由于SMPL不模拟服装和细节，最近的方法从SMPL[1, 2, 3, 51, 7]或模板[21,22]中预测变形。不幸的是，基于CNN的网格预测往往过于平滑。可以通过在表面的UV映射/几何图像上预测法线和位移图来获得更多细节[4, 37,53]。然而，所有这些方法都需要不同的模板[7,49]来适应每个新的服装拓扑，或者不能产生高质量的重建结果[53]。0刚体物体的点云：处理点云是一个重要的问题，因为它们是许多传感器（LiDAR、3D扫描仪）和计算机视觉算法的输出。由于它们的重量轻，它们在计算机图形学中也很受欢迎，用于表示和操作形状[50]。基于PointNet的架构[54,55]是第一个直接处理点云进行分类和语义分割的方法。其思想是对每个点应用全连接网络，然后进行全局池化操作以实现置换不变性。最近的架构应用了核点卷积[67]、基于树的图卷积[60]和归一化流[77]。点云也被用作重建[15,25]和生成[77]的形状表示。与体素或网格不同，点云需要使用经典方法[6, 30, 31,8]进行非平凡的后处理才能获得可渲染的表面。人类的点云：很少有研究使用点云来表示人类[5]，可能是因为它们无法渲染。最近的研究采用了PointNet架构[27]或基于点基的架构[52]来将人体网格注册到点云中。刚体物体的隐式函数：最近，神经网络被用于学习表示形状的连续隐式函数[43,48, 10, 44,35]。为此，神经网络可以接收潜在代码和查询点（x-y-z）来预测TSDF值[48]或点的二进制占用[43,10]。最近的一种方法[76]通过将3D查询点特征与局部图像特征相结合，通过近似查询点在2D图像上的投影来实现了从图像进行3D重建的最新结果。这种在隐式函数学习中使用连续点查询的技巧允许在连续空间中进行预测（潜在地在任何分辨率下），打破了基于体素的方法的内存限制。这些工作启发了我们的工作，但我们注意到它们无法从3D数据中重建关节化的人体：[76]无法将点云或体素网格作为3D输入，并依赖于近似的3D到2D投影丢失细节；[43,10]的重建通常会缺失肢体。我们假设[43, 10,76]记忆点坐标而不是推理形状，并且[43,10]的矢量化潜在1D向量表示与输入不对齐，缺乏3D结构。我们通过在与3D输入空间对齐的多尺度特征的3D网格的连续位置查询深层特征来解决这些问题。这种修改易于实现，并且在重建质量方面取得了显著的提升。人体的隐式函数：TSDFs[12]已被用于表示人体形状的深度融合和跟踪[45,61]。这种隐式表示已与SMPL[41]身体模型结合使用，以显著提高跟踪的鲁棒性和准确性[78]。从一个in-�and variable channel dimensionality Fk ∈ N at each stageFk ⊂ RFk. The feature grids Fk at the early stages (startingat k = 1) capture high frequencies (shape detail), whereasfeature grids Fk at the late stages (ending at stage k = n)have a large receptive ﬁelds, which capture the global struc-ture of the data. This enables to reason about missing orsparse data, while retaining detail when is present in the in-put. We denote the encoder as69730使用隐式网络预测穿着衣物的图像，[59]相比先前的隐式函数工作[10]产生了更高质量的结果。重建是基于3D查询点和2D图像特征的逐点占用预测完成的。对于简单的姿势，该方法产生了非常引人注目和详细的结果，但对于更复杂的姿势则有困难。[59]的方法不像我们的方法那样融合了多尺度3D形状表示，并且它是为图像重建而设计的，而我们专注于从稀疏和密集点云和占用栅格进行3D重建。与先前的隐式网络一样，我们的方法可以在任意分辨率下生成连续的曲面。但重要的是，由于我们的3D多尺度形状表示与输入空间对齐，我们的重建保留了全局结构并保留了细节，即使对于复杂的姿势也是如此。03. 方法0为了激发我们隐式特征网络（IF-Nets）设计的动机，我们首先在第3.1节中描述了最近学习的隐式函数的表述，指出了它们的优点和缺点。我们在第3.2节中解释了我们的IF-Nets。IF-Nets的关键思想在图2中有所说明。03.1. 背景：学习隐式表面0虽然最近关于从3D输入中学习的隐式重建的工作[48, 43,10]在推理和输出形状表示（有符号距离或二进制占用）上有所不同，但它们在概念上是相似的。在这里，我们描述了[43]的占用形式。请注意，这些方法的优点和局限性非常相似。它们都使用潜在向量z ∈ Z �Rm对3D形状进行编码。然后通过学习神经函数获得形状的连续表示0f(z, p): Z × R3 → [0, 1]，(1)0给定查询点p ∈R3和潜在编码z，将点分类为内部（分类为1）或外部（分类为0）。因此，表面被隐式地表示为决策边界上的点{p ∈R3 | f(z, p) = t}，其中t是阈值参数（对于IF-Nets，t =0.5）。一旦学习了f(∙)，可以在连续的点位置进行查询，而不受典型体素网格施加的分辨率限制。要构建网格，可以在预测的占用网格上应用MarchingCubes[42]。这种优雅的表述打破了以前表示的障碍，允许对复杂拓扑进行详细重建，并且已被证明对于从图像、占用网格和点云中进行刚性物体重建等多个任务非常有效。然而，我们观察到模型0这种类型的模型存在两个主要限制：1）它们无法表示复杂的物体，如关节物体；2）它们无法保留输入数据中的细节。我们通过IF-Nets解决了这些限制。03.2. 隐式特征网络0我们确定了先前表述的两个潜在问题。首先，直接输入点坐标p给网络提供了绕过对形状结构进行推理的选择，通过记忆对象原型的典型点占用情况。这严重损害了对旋转和平移的重建不变性，而这是成功的2D卷积网络在分割、识别和检测中的基石之一。其次，将完整的形状编码为单个向量z会丢失数据中存在的细节，并且与嵌入形状的原始3D空间失去对齐。在这项工作中，我们提出了一种新颖的编码和解码串联，能够解决上述限制，用于从点云或占用网格进行3D重建的任务。给定这样的对象的3D输入数据X ∈X，其中X表示输入的空间，以及一个3D点p ∈R3，我们想要预测p是在对象内部还是外部。0形状编码：我们不再将形状编码为单个向量z，而是通过使用学习的3D卷积对数据X进行连续卷积来构建丰富的编码。这要求输入数据必须位于离散的体素网格上，即X = R N × N× N，其中N ∈N表示输入分辨率。对于处理点云，我们首先将其离散化。卷积之后，我们对输入进行下采样，创建不断增长的感受野和通道，但分辨率缩小，就像在2D中通常做的那样[34]。将此过程递归地应用于输入数据X，我们创建逐渐降低分辨率的多尺度深度特征网格F1，..，Fn，Fk ∈ FK × K × Kk。0g(X)∙∙=F_1,..,F_n.(2)0形状解码：我们不直接对点坐标p进行分类，而是从位置p的特征网格中提取学习到的深度特征F_1(p),..,F_n(p)。这仅在我们的编码与输入数据对齐的3D结构下才可能。由于特征网格是离散的，我们使用三线性插值来查询连续的3D点。. . .. . .�69740F_10F_20F_n0�0p0�0p0�p0F_1(p)0F_2(p)0F_n(p)0局部0全局f[0,1]0输入重建学习，多尺度点编码学习点占用解码0g0图2.IF-Nets概述：给定一个（不完整或低分辨率）输入，我们计算输入形状的多尺度特征的3D网格。然后，我们从连续点位置p的网格中提取深度特征F_1(p)...F_n(p)。仅基于这些特征，解码器f(∙)决定点p是位于（分类为1）还是位于（分类为0）表面之外。与最近的基于隐式函数的方法不同，我们可以以任意分辨率查询并重建连续表面。与它们不同的是，我们的方法仅基于逐点的深度特征进行推理，而不是点坐标。这使我们能够重建关节结构并保留输入细节。0p∈R^3。为了将局部邻域的信息编码到点编码中，即使在具有小感受野（例如F_1）的早期网格中，我们也在查询点p本身的位置和笛卡尔坐标轴上距离d的周围点处提取特征：0{p + a ∙ e_i ∙ d∈R^3 | a∈{1, 0, -1}, i∈{1, 2, 3}}, (3)0其中d∈R是到中心点p的距离，e_i∈R^3是第i个笛卡尔坐标轴单位向量，请参见补充材料中的示意图。点编码F_1(p),..,F_n(p)，其中F_k(p)∈F_k，然后被输入到点级解码器f(∙)中，由全连接神经网络参数化，以预测点p是否位于形状内部或外部：0f(F_1(p),...,F_n(p)): F_1 × ... × F_n → [0, 1](4)0与方程（1）相比，该公式中的网络根据局部和全局形状特征而不是点坐标对点进行分类，而点坐标在旋转、平移和关节变换下是任意的。此外，由于我们的多尺度编码，可以保留细节，同时仍然可以推理全局形状。03.3. 方法训练0为了训练方程（2）中的多尺度编码器g_w(∙)和方程（4）中的解码器f_w(∙)，需要使用神经权重w对3D输入X_i和相应的3D地面真实物体表面S_i的配对{X_i,S_i}T_i=1进行参数化，其中i∈1,...,T，T∈N表示此类训练示例的数量。符号g_w(X,p)∙∙=F_w1(p),...,F_wn(p)表示在点p处评估多尺度编码。0为了创建训练点样本，对于每个地面真实表面S_i，我们采样一些点p_ji∈R^3，j∈1,...,S。为此，我们首先使地面真实表面S_i密封。然后，我们计算地面真实占用o_i(p_ji)∈{0,1}，对于内部点为1，否则为0。接下来，通过在地面真实表面上采样点p_Si,j∈S_i并添加随机位移n_i,j�N(0,Σ)，即p_ji∙∙=p_Si,j+n_i,j，创建靠近表面的点样本p_ji。为此，我们使用对角协方差矩阵Σ∈R^3×3，其条目Σ_i,i=σ。我们发现通过将50%的点样本采样在距离表面很近的地方，使用较小的σ_1，并将50%的点样本采样在较远的周围地方，使用较大的σ_2，可以获得良好的结果。对于训练，通过最小化小批量损失来优化网络权重w。0LB(w)∙∙= �0j∈R L(fw(gw(Xi, pji)), oi(pji)) (5)0= �0i∈B0j∈R L(fw(Fw1(pji), ..., Fwn(pji)), oi(pji)),0它对给定小批量B和子样本R的点样本j∈R�1,...,S的训练表面i∈B�1,...,T求和。子样本R在每次评估小批量损失LB时重新生成。对于L(∙,∙)，我们使用标准的交叉熵损失。通过最小化LB，我们联合训练编码器gw(∙)和解码器fw(∙)并进行端到端的训练。有关实验中使用的超参数的具体值，请参见补充材料。03.4. 方法推断0在测试时，目标是仅通过离散和不完整的表示来重建连续和完整的表示。69750plete3D输入X。首先，我们使用学习的编码器网络构建多尺度特征网格g(X)=F1,...,Fn。然后，我们使用逐点解码器网络f(g(X,p))在连续点位置p∈R3上创建占据预测（参见第3.2节）。为了构建网格，我们在所需分辨率的网格上评估IF-Net。然后，使用经典的Marching Cubes[42]算法将结果高分辨率占据网格转换为网格。04. 实验0在本节中，我们验证了IF-Net在3D形状重建这一具有挑战性的任务上的有效性。我们展示了我们的IF-Net能够解决最近学习方法在这一任务中的两个局限性：1）IF-Net保留了输入数据中存在的细节，同时也能够推理不完整的数据；2）IF-Net能够重建穿着复杂衣物的关节人体。为此，我们进行了三个复杂度逐渐增加的实验：点云补全（第4.1节），体素超分辨率（第4.2节）和单视图人体重建（第4.3节）。基线：对于点云补全任务，我们将我们的方法与OccupancyNetworks [43]（OccNet），Point Set GenerationNetworks [15]（PSGN）和Deep Marching Cubes[39]（DMC）进行了评估。对于体素超分辨率，我们将其与IMNET[10]进行了比较，同时还与OccNet和DMC进行了比较。对于DMC和PSGN，我们使用了[43]作者提供的在线实现。我们训练所有方法直到达到验证集最小值。对于IMNET和OccNet，我们保留了它们的作者提出的采样策略。对于IMNET，我们按照作者的建议，在训练过程中逐渐增加分辨率。度量标准：为了定量地衡量重建质量，我们考虑了三个已建立的度量标准（见[43]的补充材料中的定义和实现）：体积交并比（IoU），测量定义的体积匹配程度（越高越好），Chamfer-L2，测量表面的准确性和完整性（越低越好），以及法线一致性，测量形状法线的准确性和完整性（越高越好）。数据：我们考虑了两个数据集：1）一个包含人体3D扫描的数据集，用于评估从不完整和关节形状进行重建的具有挑战性的任务；2）已建立的ShapeNet[9]数据集，包含刚性物体类别，具有像汽车、飞机和步枪这样的典型形状。ShapeNet数据已经预先处理，01 数据集将可以从Twindom购买。0输入OccNet PSGN DMC 我们的GT0输入 OccNet IMNET DMC 我们的方法 GT0图3.ShapeNet数据集上两种输入类型（点云和体素）的定性结果。每种类型进一步分为稀疏（前两行）和密集（后两行）。0由[76]的作者进行处理，使其成为无漏洞的，从而可以计算出真实的占据情况，并且按比例缩放，使得每个形状的最大边界框边长为1。我们使用预处理的ShapeNet数据进行所有实验和评估，并使用[11]的常见训练和测试分割。然而，对于一些物体，预处理失败，导致具有大洞的破碎物体。因此，我们删除了508个严重扭曲的物体，以进行有意义的评估。所有使用的物体的筛选列表已经与代码一起发布。我们还在一个具有挑战性的数据集上进行评估，该数据集包含高度变化的人体扫描和复杂的变化的服装拓扑，如外套、裙子或帽子。这些扫描是使用商业3D扫描仪进行捕捉的。该数据集称为“Humans”，包含2183个这样的扫描，分为478个测试样本、1598个训练样本和197个验证样本。这些扫描已经进行了高度标准化和居中处理，但与ShapeNet对象不同，它们具有不同的旋转。04.1. 点云完成0作为第一个任务，我们将IF-Nets应用于稀疏和密集点云的完成问题-我们分别从ShapeNet表面模型中采样300个点（稀疏）和3000个点（密集），并要求我们的方法完成完整的表面。完成点云是具有挑战性的任务。69760IoU ↑ Chamfer-L2 ↓ Normal-Consis. ↑0输入 − − 0.07 0.009 − − OccNet 0.73 0.72 0.03 0.04 0.88 0.88DMC 0.58 0.65 0.03 0.01 0.83 0.86 PSGN − − 0.04 0.04 − −我们的方法 0.79 0.88 0.02 0.002 0.90 0.950表2.ShapeNet上点云重建的结果。左边的数字表示300个点的得分，右边的数字表示3000个点的得分。Chamfer-L2结果×10^-2。0IoU ↑ Chamfer-L2 ↓ Normal-Consis. ↑0输入 0.49 0.79 0.04 0.003 0.81 0.87 DMC 0.59 0.67 0.45 0.450.83 0.84 IMNET 0.49 0.40 0.47 0.40 0.79 0.77 OccNet 0.600.71 0.10 0.05 0.85 0.88 我们的方法 0.73 0.92 0.02 0.002 0.910.980表3.ShapeNet上体素网格重建的结果。对于每个指标，左列表示32^3分辨率的得分，右列表示128^3分辨率的得分。Chamfer-L2结果×10^-2。0IoU ↑ Chamfer-L2 ↓ Normal-Consis. ↑0输入 0.49 0.76 0.04 0.003 0.82 0.86 DMC 0.77 0.85 0.03 0.010.79 0.83 IMNET 0.63 0.64 0.27 0.23 0.79 0.79 OccNet 0.630.65 0.22 0.19 0.79 0.79 我们的方法 0.80 0.96 0.02 0.001 0.860.940表4.Humans数据集上体素网格重建的结果。左边的数字表示32^3分辨率的得分，右边的数字表示128^3分辨率的得分。Chamfer-L2结果×10^-2。IF-Nets在不完整数据设置中始终优于其他方法。IF-Nets在密集数据上显示出大幅提升，而其他方法的性能相似。这表明IF-Nets是我们所知道的第一个能够忠实地重建3D数据中存在的密集信息的学习方法。0由于它需要同时保留输入细节并推理缺失结构，因此这是一个具有挑战性的任务。在图3中，我们展示了与基准方法的比较。我们的方法在保留局部细节和恢复全局结构方面优于所有基准方法。对于密集的点云，我们的方法的优势是无可比拟的。我们的方法是唯一能够重建汽车后视镜和衣柜的附加架子的方法。我们还定量比较了我们的方法，并在表2中报告了数据。我们的方法在所有指标上都大幅领先于现有技术。实际上，使用3000个点作为输入，所有竞争对手产生的结果的Chamfer距离都大于输入本身，这表明它们在保留输入细节方面失败了。只有IF-Nets能够在完成缺失结构的同时保留输入细节。04.2. 体素超分辨率0作为第二个任务，我们将我们的方法应用于3D超分辨率。为了有效地解决这个任务，我们的方法需要在重建输入中保留形状的同时，重建输入中不存在的细节。我们的结果与基准方法进行了并排比较，如图3所示（底部）。0输入 OccNet IMNET DMC Ours GT0图4. Humans数据集上稀疏（32 3，上）和密集（1283，下）3D体素超分辨率的定性结果。0底部）。大多数基准方法要么虚构结构，要么完全失败，而我们的方法始终产生准确且高度详细的结果。这也反映在表3中的数值比较中，我们在所有指标上都优于基准方法。图3中的最后两个示例说明了当前隐式方法的局限性：如果一个形状与训练集差异太大，该方法将失败或似乎返回一个之前见过的类似示例。因此，我们假设当前的方法不适用于那些仅仅进行形状原型分类不足够的任务。这对于人类来说就是这种情况，因为人类有各种各样的形状和关节。为了验证我们的假设，我们还在Humans数据集上进行了3D超分辨率。在这里，优势更加明显：我们的方法是唯一一个能够一致重建所有肢体并产生高度详细结果的方法。基于隐式学习的基准方法会产生截断或完全缺失的肢体。我们在定量上也优于所有基准方法（见表4）。69770图5. 来自点云的3D单视角重建（请注意背面完全被遮挡）。对于四个不同的单视角点云，我们展示了从四个不同视角的重建结果。04.3. 单视角人体重建0最后，为了展示IF-Nets的全部能力，我们将其用于单视角人体重建。在这个任务中，只提供了部分的3D点云作为输入，这是深度相机的典型输出。我们在具有挑战性的Humans数据集上进行了这个实验，通过渲染一个250×250分辨率的深度图像，在主体的可见侧产生了约5000个点。为了成功完成这个任务，我们的模型必须同时重建新的关节、保留细节，并补全遮挡区域的缺失数据——输入只包含底层形状的一侧。尽管面临这些挑战，我们的模型能够重建出合理且高度详细的形状。在图5中，我们展示了来自四个不同角度的输入和结果。请注意，重建的形状中存在着围巾、皱纹或单独的手指等细微结构。虽然背面区域（遮挡部分）的细节比可见部分少，但IF-Nets始终能够生成合理的表面。这也可以从定量上看出。我们的结果：IoU 0.86，Chamfer-L20.011×10^-2，法向一致性0.90。输入点云：Chamfer-L20.252×10^-2。定量结果介于32 3的重建质量之间。0和1283完整主体体素输入（见表4），这再次验证了IF-Nets能够完成单视角数据。在补充视频中，我们展示了在BUFF数据集[80]上从视频中进行单视角重建的额外结果（无需重新训练或微调模型）。05. 讨论和结论0一些人主张使用由深度特征的3D多尺度张量组成的编码，该编码与嵌入形状的欧几里得空间对齐。其次，我们不直接对x-y-z坐标进行分类，而是对其位置处提取的深度特征进行分类。实验证明，IF-Nets能够提供连续的输出，可以重建多种拓扑结构，如穿着不同服装的3D人体和来自ShapeNet的3D物体。定量上，IF-Nets在所有任务中都大幅优于所有最先进的基准方法。我们从单视点云中重建（在可见部分上有详细数据，但在遮挡部分上有缺失数据），展示了IF-Nets的优势：输入中的细节得以保留，同时形状在遮挡部分得到了补全，即使对于关节形状也是如此。0未来的工作将探索将IF-Nets扩展为生成性的，即能够根据部分输入样本详细假设。我们还计划分两个阶段解决基于图像的重建问题：首先预测深度图，然后使用IF-Nets完成形状。0随着越来越多的计算机视觉图像重建方法产生部分3D点云和体素，并且3D扫描仪和深度相机变得可访问，3D（不足和不完整）数据将在未来无处不在，IF-Nets有潜力成为其重建和完成的重要构建模块。0致谢。我们要感谢Verica Lazova帮助制作图表，Bharat LalBhatnagar帮助数据预处理，LarsMescheder分享他们的完整Shapenet网格。这项工作由德国研究基金会（DFG，德国研究基金会）资助-409792180（EmmyNoether计划，项目：真实虚拟人类）。我们要感谢Twindom提供给我们的扫描数据。69780参考文献0[1] Thiemo Alldieck，Marcus Magnor，Bharat LalBhatnagar，Christian Theobalt和GerardPons-Moll。学习从单个RGB相机重建穿着衣物的人物。在《IEEE计算机视觉和模式识别会议》中，2019年。30[2] Thiemo Alldieck，Marcus Magnor，WeipengXu，Christian Theobalt和GerardPons-Moll。来自单目视频的详细人体化身。在《国际3D视觉会议》中，2018年。30[3] Thiemo Alldieck，Marcus Magnor，WeipengXu，Christian Theobalt和GerardPons-Moll。基于视频的3D人体模型重建。在《IEEE计算机视觉和模式识别会议》中，2018年。30[4] Thiemo Alldieck，Gerard Pons-Moll，ChristianTheobalt和MarcusMagnor。Tex2shape：从单个图像获取详细的完整人体几何。在《IEEE国际计算机视觉会议》中。IEEE，2019年。30[5] Tristan Aumentado-Armstrong，Stavros Tsogkas，AllanJepson和SvenDickinson。用于生成潜在形状模型的几何分离。在《IEEE国际计算机视觉会议论文集》中，页码8181-8190，2019年。30[6] Fausto Bernardini，Joshua Mittleman，Holly E.Rushmeier，Cl´audio T. Silva和GabrielTaubin。用于表面重建的球枢轴算法。《IEEE可视化和计算机图形学交易》，5(4)：349-359，1999年。2，30[7] Bharat Lal Bhatnagar，Garvita Tiwari，ChristianTheobalt和Gerard Pons-Moll。Multi-garmentnet：从图像学习给3D人物穿衣。在《IEEE国际计算机视觉会议》中，2019年。30[8] Fatih Calakli和GabrielTaubin。SSD：平滑有符号距离表面重建。《计算机图形学论坛》，30(7)：1993-2002，2011年。30[9] Angel X Chang，Thomas Funkh

下载后可阅读完整内容，剩余1页未读，立即下载