“使用3D编码器-预测器网络和形状合成进行形状补全”

114 浏览量更新于2023-10-16 收藏 13.2MB PDF 举报

3D扫描

数据驱动方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

158680使用3D编码器-预测器CNN和形状合成进行形状补全0Angela Dai 1 Charles Ruizhongtai Qi 1 Matthias Nießner 1 , 201 斯坦福大学 2 慕尼黑工业大学0我们的方法使用一个3D编码器-预测器网络来完成部分的3D扫描，该网络利用了3D分类网络的语义特征。预测结果与形状数据库相关联，我们在多分辨率的3D形状合成步骤中使用它们。我们得到了从部分低分辨率输入扫描中推断出的完成的高分辨率网格。0摘要0我们引入了一种数据驱动的方法，通过体积深度神经网络和3D形状合成的组合来完成部分的3D形状。从部分扫描的输入形状开始，我们的方法首先推断出一个低分辨率但完整的输出。为此，我们引入了一个3D编码器-预测器网络（3D-EPN），它由3D卷积层组成。该网络被训练用于预测和填补缺失的数据，并在编码已知和未知空间的隐式表面表示上操作。这使我们能够以高准确性预测未知区域的全局结构。然后，我们将这些中间结果与测试时从形状数据库中检索到的3D几何相关联。在最后一步中，我们提出了一种基于补丁的3D形状合成方法，该方法将来自这些检索到的形状的3D几何作为对粗略完成的网格的约束。这个合成过程使我们能够重建细节和生成高分辨率的输出，同时保持3D-EPN获得的全局网格结构。尽管我们的3D-EPN在完成方法方面表现优于最先进的方法，但我们的工作的主要贡献在于数据驱动的形状预测器和分析型3D形状合成的组合。在我们的结果中，我们展示了对新引入的形状补全基准数据集的广泛评估，包括真实世界和合成数据。0� 这项研究得到了Google Tango的资助。01. 引言0自从引入了像微软Kinect这样的商品范围传感器以来，RGB-D扫描在离线和实时环境中都取得了巨大的发展势头[26, 3,28, 43, 4,7]。虽然商品RGB-D传感器的最新重建结果在视觉上很吸引人，但它们与艺术家建模的高质量3D图形内容相比还有很大差距，因此在实际的计算机图形应用中并不可用。在这种情况下，最大的挑战之一是获得的3D扫描受到遮挡，从而导致不完整的3D模型。在实践中，由于物理传感器的限制（例如在货架后面扫描或获取椅子模型的细节结构），确保所有表面点都在扫描会话中被覆盖是不可行的。即使将范围缩小到孤立的对象，问题仍然具有挑战性。传统方法可以通过平面拟合、Laplacian填充[39, 25, 48]或Poisson表面重建[14,15]来填补小孔洞，但使用这些几何处理算法来完成高级结构（如椅子腿或飞机机翼）是不切实际的。一种可能的方法是基于最近在机器学习方面的进展，这表明数据驱动的方法可能适用于这个任务。例如，假设有一个部分的3D扫描，人们希望根据先前学习到的先验来完成3D形状几何。在本文中，我们探讨了直接应用深度学习作为预测缺失结构的策略的可行性。58690从部分扫描中恢复。更具体地说，我们提出了基于体积的卷积神经网络（CNN）的3D编码器-预测器网络（3D-EPN）。我们的目标是训练一个网络，它可以编码和推广几何结构，并学习从部分扫描到完整形状的映射，这两者都表示为隐式距离场函数。3D-EPN的一个见解是它利用了分类网络的语义信息。具体而言，我们将3D-CNN的概率类向量作为输入传递给3D-EPN的潜在空间。为了提供监督训练数据，我们从虚拟扫描的3DCAD模型中生成了真实的地面真实扫描模式。在我们的结果中，我们展示了3D-EPN可以成功推断出全局结构；然而，预测局部几何细节仍然具有挑战性。此外，增加输出分辨率会带来显著的计算成本，并使训练过程的优化变得更加困难，因为3D空间的行为是立方的。然而，我们认为，如果我们可以将这些低分辨率的预测与形状数据库中的高分辨率3D几何信号相关联，那么只预测粗略（可能模糊）的3D几何而不包含细节可能已经足够。作为第二个技术组件，我们通过搜索相似形状来学习这种相关性，并提供了一个迭代优化策略，将数据库中的低级几何先验纳入到形状合成过程中。因此，我们提出了一种3D形状合成过程，以获得局部几何细节。因此，输出的分辨率比使用3D深度网络高效处理的分辨率要高得多。我们首先学习我们的3D-EPN的预测与数据库中的CAD模型之间的相关性。为此，我们利用了体积CNN的特征学习能力，该能力提供了一个嵌入，其中3D-EPN的结果与数据库中几何上相似的CAD模型接近。我们将这个嵌入作为一个判别性分类任务的副产品进行学习。在一个迭代的优化过程中，我们从3D-EPN的预测和数据库先验中合成高分辨率的输出。总体而言，我们提出了一种端到端的网格补全方法，即使在非常具有挑战性的场景中也可以完成部分的3D扫描。我们展示了在合成和真实世界扫描数据上这个非常具有挑战性的问题上的令人信服的结果。此外，我们在定性和定量上与最先进的方法进行了有利的比较。总之，我们的贡献是0•一个3D编码器-预测器网络，用于完成部分扫描的3D模型，并利用形状分类网络的语义上下文。•一个3D网格合成过程，以获得高分辨率的输出和局部几何细节。• 将这两个思想结合起来的端到端完成方法0这两个思想，第一步是运行3DConvNet回归器，第二步是迭代优化3D形状合成。02. 之前的工作0形状完成形状完成在几何处理中有着悠久的历史，通常用于清理损坏的3DCAD模型。特别是，填补小孔洞引起了很多关注；例如，可以拟合局部表面基元，如平面或二次曲面，或者用连续能量最小化来解决问题；例如，使用拉普拉斯平滑[39，25，48]。泊松表面重建可以看作是这一类别的一部分[14，15]；它在（潜在的分层）体素网格上定义了一个指示函数，该函数通过泊松方程求解。完成形状的另一个方向是检测3D形状中的结构和规律。例如，许多工作在网格或点云中检测对称性，并利用它们来填充缺失的数据[42，23，30，37，40]。尽管这些方法显示出令人印象深刻的结果，但使用预定义的规律基本上限制了手工设计的形状空间。许多研究利用强大的数据库先验知识。Sung等人[41]将这个想法与对称性检测相结合，并在从数据库获得的基于部件的模型上操作。另一个想法是在给定部分输入形状的情况下，在形状数据库中找到相同的CAD模型并将其与扫描对齐[24，34，16，21，36]。鉴于几何特征匹配的进展，可以找到这些连接；然而，这些方法依赖于数据库包含相同（或至少非常相似）的形状的假设；因此，它们不能轻松地推广到新形状。为了解决这个缺点，一种可能性是首先从数据库中检索相似的形状，然后修改检索结果，使其更好地匹配和解释部分扫描的输入。这样，检索到的模型不必完全匹配，即使在相对较小的数据库中也可以覆盖更广泛的对象范围。例如，Pauly等人[29]通过首先从数据库中检索候选模型，然后执行非刚性网格对齐并将结果与输入扫描混合来完成3D扫描。相同的策略也可以直接应用于范围图像。Rock等人[32]检索相似的深度图像，然后对其进行变形以预测缺失的体素；作为最后一步，他们执行泊松表面重建以获得结果网格。Li等人[20]使用单个RGB-D图像作为输入，并运行类似的流程，首先从数据库中找到并变形最近的模型。作为最后一步，他们执行形状合成步骤，与我们的步骤类似。虽然从数据库中非刚性地变形模型的想法改善了形状覆盖范围，但其主要限制仍然是全局结构不能轻松推广58700（例如，高级结构变化）。在我们的方法中，我们还依赖于测试时从数据库查找的几何信号；然而，其中一个关键的见解是，我们只考虑这些信息来合成局部细节，而不是全局结构。为了推广到任意的新形状，完全数据驱动的方法与现代机器学习技术相结合是一个有前途的方向。这个领域最早的方法之一是 Voxlets[9]。他们训练了一个随机决策森林，用于预测未知的体素邻域；最终的网格是通过预测结果的加权平均和运行Marching Cubes生成的。3D ShapeNets[2]可能与我们的3D编码器-预测器网络最相关。他们也使用卷积神经网络 - 具体来说是深度置信网络 -来获得给定形状数据库的生成模型。这使他们能够根据部分输入预测多个解决方案；然而，正如我们在结果中展示的那样，这种策略比我们的3D-EPN直接训练端到端的预测器要低效得多。Nguyen等人[27]在这项工作的基础上进行了改进，并将其应用于修复网格；他们使用3DShapeNets的输入，并计算距离变换，然后应用马尔可夫随机场。0相关的深度学习工作随着机器学习的进步和3D形状数据库的可用性[46,2]，研究开始关注3D数据上的深度学习方法。Wu等人[46]是最早提出使用3D-CNN进行分类和生成任务的人之一（见上文）。他们在深度置信网络中使用体积表示进行训练，该网络在他们自己的数据库上进行训练；尽管训练是在3D中进行的，但他们的大部分输入来自单个范围图像。此后，已经提出了不同版本的3D-CNN架构，以提高分类准确性[22,31]，获得对象提议[38]，匹配局部3D几何[47]或去噪形状[35]。虽然Sharma等人的去噪方法[35]可以用于形状完成，但他们专注于随机噪声模式而不是部分范围扫描。在这项工作中，我们利用了3D深度学习的进展，并将3D卷积网络应用于形状完成任务。而以前的工作更注重形状分类的判别任务，我们的网络在部分扫描输入的条件下回归缺失数据。最近，深度学习还探索了生成任务的模型；例如，使用生成对抗网络（GANs）[10,19,18,45]。在这里，只通过输入一个随机的潜在向量，就可以从头开始生成一张图像（或者潜在地生成一个3D形状）。这是一个相关且非常有趣的方向（特别是对于建模应用）；然而，众所周知，当前的生成模型面临分辨率限制，并且通常很难训练。在我们的工作中，我们采取了一种更直接的方法来训练卷积0网络直接预测形状的缺失部分，并使用后续的形状合成模块。03. 方法概述0我们的方法的目标是将部分3D扫描的对象作为输入，并预测完成的3D形状作为输出。为了实现这个任务，我们将每个模型表示为一个3D体素网格。我们不仅使用占用网格，还计算所有训练和测试数据的距离变换。为了生成地面真实训练对，我们从ShapeNet数据集[2]中虚拟扫描对象作为输入，并使用3D数字微分分析器[1]获取完整的距离场；参见第4节。一旦我们生成了训练集，我们将训练对输入到一个直接在3D表示上操作的深度神经网络中。网络松散地遵循自动编码器的思想，类似于Dosovitskiy[8]；然而，在我们的情况下，我们过滤了一个体积表示，我们也定义了损失函数；参见第5节。与传统的自动编码器网络不同，传统的自动编码器网络重构原始输入并学习有效的编码，我们的目标是填补部分输入扫描的缺失数据。在我们的情况下，网络在训练时学习部分和完整模型之间的相关性，在测试时通过已知表面或自由空间信息回归一个带有约束的完成模型。从高层次上看，目标是将所有部分扫描映射到一个共享的嵌入空间，我们将其与完整模型相关联。我们设计训练过程以便学习这种映射，以及从中进行重构，即使在大部分缺失数据的情况下也是如此。在这里，主要目标是能够从潜在空间中重构出完整的网格，同时尊重已知数据点的约束。这个过程的主要挑战是生成新的信息，即通过泛化几何结构来填补未见视图中的缺失数据。网络需要编码3D模型设计的一般规则，并在不同形状实例之间进行泛化。为此，我们在输入来自形状分类网络的情况下训练网络，以便尊重和利用形状几何的语义信息。具体而言，我们将3D-CNN分类输出的概率类向量输入到3D-EPN的潜在空间中。3D形状完成的另一个重要挑战是高维度；这里的一个见解是我们使用一个（大部分）连续的距离场表示而不是占用网格；这使我们能够为这个特定任务制定一个合适的损失函数。由于使用深度网络回归高维输出在高分辨率下具有挑战性，特别是在3D空间中，我们期望3D-EPN在相对低的体素分辨率上运行（例如32^3个体素体积）。尽管它缺乏细节的几何细节，但它有助于预测58710（缺失的）部分扫描对象的全局结构（例如，椅子腿，飞机机翼等）。在测试时，我们使用ShapeNet数据库[2]作为强大的几何先验，从中检索尊重先前获得的预测的高分辨率几何。我们通过学习具有体积特征的几何查找来建立低分辨率3D-EPN输出与数据库几何之间的相关性。在这里，我们利用了具有修改版的Qi等人的体积卷积网络的特征学习[31]，其学习到的特征是监督分类网络的副产品。对于给定的3D-EPN预测，我们运行3D特征提取并在数据库中查找三个最相似的形状邻居，这些邻居在底层几何结构方面最相似。作为我们完成流程的最后一步，我们将来自3D-EPN输出的粗略几何预测与检索到的形状模型进行关联。然后，我们通过使用检索到的形状模型找到与我们的预测中的体积块类似的体积块，并使用这些体积块进行迭代优化以获得精细的预测，逐层合成到128^3的高分辨率距离场。这有效地将完整的合成形状的高分辨率细节转移到预测中，同时保持其固有的形状特征。从这个隐式表面表示中，我们从等值面提取最终的网格。04.训练数据生成0对于训练数据生成，我们使用ShapeNet模型数据库[2]，同时在8个类别的子集（参见第8节）和总共25590个对象实例上进行训练（测试集由5384个模型组成）。在训练过程中，我们通过虚拟扫描3D模型来生成部分重建。在这里，我们使用我们自定义的虚拟DirectX渲染器从给定模型周围的随机视图生成深度图。获得的深度图以归一化设备坐标中的范围值存储。我们通过使用Kinect内参将其反投影到度量空间（以米为单位）。外部相机参数定义刚性变换矩阵，为所有生成的视图提供对齐。所有视图都被整合到一个共享的体积网格中，使用Curless和Levoy的体积融合方法[5]，其中体素网格的范围由模型边界框定义。注意，地面真实姿态由用于渲染的虚拟相机参数给出，模型相对于体素网格对齐。因此，我们获得了给定（虚拟）扫描轨迹的截断有符号距离场（TSDF）。该表示还编码了已知的自由空间；即，观察到的表面点前面的所有体素都已知为空。距离场的符号编码了这一点：正符号表示已知的空间，零表示在表面上，负符号表示0未知的值。这些额外的信息对于非常部分的视图非常重要；参见图2。为了训练3D-EPN，我们将符号值与绝对距离值分开，并将它们分别输入到网络的不同通道中；参见第5节。对于每个模型，我们生成一组具有不同部分性/完整性水平的轨迹，以反映手持普通RGB-D传感器进行现实世界扫描。这些部分扫描形成训练输入。通过基于3D扫描线方法的距离场变换生成地面真实对应物[1]；在这里，我们获得了一个完美的（无符号）距离场（DF）。我们选择将地面真实表示为无符号距离场，因为从任意3DCAD模型中稳定地检索符号位是非平凡的（有些是封闭的，有些不是等等）。在我们的训练任务中，我们对每个模型使用六个不同的部分轨迹。这作为数据增强策略，并且导致我们的3D-EPN的总共153,540个训练样本。在本文的背景下，我们以32^3的分辨率生成TSDF和DF的训练对。我们完成过程的最终分辨率是一个存储在128^3体素中的隐式距离场表示，经过形状合成步骤后；参见第7节。05. 3D编码器-预测网络（3D-EPN）用于形状完成0我们提出了一个3D深度网络，它使用从体积融合[5]获得的部分扫描，并预测缺失体素的距离场值。我们的输入和输出都表示为具有两个通道的体积网格，其中第一个通道编码距离场，第二个通道编码已知/未知空间。请参阅第4节。请注意，二进制的已知/未知通道也包含了大量的知识，它会让网络知道它应该关注哪些缺失区域。我们的网络由两部分组成，并在图1中进行了可视化。第一部分是一个3D编码器，它压缩输入的部分扫描。压缩的流通过一系列3D卷积层进行压缩，然后通过两个全连接层将扫描及其语义信息嵌入到潜在空间体积中。这个编码器帮助网络总结输入扫描的全局上下文，包括观察到的距离值、已知空白空间和类别预测。第二部分是一个预测网络，它使用3D上采样卷积将隐藏体积扩展到一个32x3的完整输出，估计距离场值。基于编码器网络总结的全局上下文，预测网络能够推断出缺失的值。此外，我们添加了跳跃连接（类似于U-net架构[33]），连接了58720图1：我们的3D编码器-预测网络的网络架构。0对应的编码器和预测器层在图1底部可视化。这些连接的数据然后与上采样的中间输出连接在一起，从而使特征图的大小加倍。通过这种方式，我们确保了输入数据的局部结构的传播，并确保其在生成的输出预测中得以保留。我们在网络的所有层（最后一层除外）中使用ReLU和批归一化。我们使用掩码L1损失来计算地面真实距离场和预测距离场之间的差异。只计算未知区域的误差；已知占用和已知空白体素被掩盖并强制与输入匹配。我们使用ADAM优化器[17]，学习率为0.001，动量为0.9。学习率每20个时期减半。对于153,540个训练样本，训练模型收敛需要约3天（没有跳跃连接的情况下大约需要一半时间）。06. 形状先验相关性0我们的3D编码器-预测网络从部分扫描的输入中预测出一个32x3的距离场。为了从这个粗糙的预测中生成高分辨率的细节，我们将这些预测与来自形状数据库的3DCAD模型进行相关。为此，我们使用了Qi等人的3D-CNN的修改架构来学习一个形状特征描述符。该网络在ShapeNet的55个类别上进行分类任务训练，提供了一个强大的学习特征描述符。由于该描述符是通过物体分类训练获得的，它还定义了形状相似性的嵌入。这使得我们能够在3D-EPN预测和CAD模型数据库之间执行形状相似性查询。对于形状完成，我们假设我们可以访问ShapeNet的所有训练网格以其完整分辨率；即，我们将形状数据库用作几何先验，而不是在3D深度网络中编码所有细节。基于学习的特征向量，我们从数据库中检索出与3D-EPN输出最相似的三个模型；这是一个基于k最近邻的查询。0几何相似性。在我们的所有实验中，我们排除了测试基准中的5397个模型；因此，无法检索到真实模型，也不是特征学习的一部分。尽管在现实世界的扫描应用中，物理和虚拟对象相同是一个有效的场景（例如，宜家家具），但我们没有在本文的背景下进一步探索这一点，因为我们的目标是推广到以前未见过的形状。07. 形状合成和网格生成0在本节中，我们描述了如何合成最终的高分辨率输出并生成局部几何细节。输入是3D-EPN的预测，如第5节所述，以及从形状先验相关性中获得的最近形状邻居，如第6节所述。然后，我们运行一个迭代的形状合成过程，从最近的形状邻居中复制和粘贴体素，以从低分辨率预测中构建出高分辨率输出。类似于Hertzmann等人[11]，我们的体积合成在k个最近形状邻居的集合中搜索相似的体积块，以改进3D-EPN的体素预测。设P为3D-EPN的低分辨率输出，维度为d0×d0×d0（我们有d0=32）。对于k个形状邻居，计算多尺度金字塔，每个级别l包含维度为2ld0的形状的距离场变换。我们从粗到细的分辨率进行合成，从粗糙的预测P初始化，并计算P'的多尺度表示。对于每个级别，计算每个邻居的体积块特征，{Nl1，...，Nlk}。为了合成P'的级别l，我们计算每个体素v的体积块特征，并使用近似最近邻搜索[12]找到最相似的邻居体素w，并使用Nlx(w)的值更新P'(v)的值。在级别l上，体素v的特征是从级别l的5×5×5邻域的距离场值以及级别l-1的3×3×3邻域的值计算得到的。我们将它们连接在一起，并对特征进行PCA投影，将其降维到100维以加速搜索。此外，我们只考虑邻域中至少包含一个距离场等值面上的体素的特征；即，我们只合成靠近表面的体素。58730图2：使用我们的方法进行的示例形状补全（请注意，我们的方法适用于所有形状类型，使用相同的训练模型）。我们将结果分解为不同的步骤。例如，这显示了当形状合成步骤直接应用于输入时会发生什么；在这里，我们错过了全局结构。0的最终步骤是使用Matlab的isosurface函数从隐式距离场函数中提取网格。0因此，我们可以分层合成到128×128×128体素的输出分辨率，其中每个体素包含一个距离值。0在所有实验中，我们在ImageNet上训练了3D-CNN分类器网络、3D-EPN和3D检索网络。08. 结果0volume is used as a target for the 3D-EPN); (4) in some cases, semantic predictions arewrong (here, a boat is turned into a car); (5) some shapes are just strange (a lamp with anelephant).volume is used as a target for the 3D-EPN); (4) in somecases, semantic predictions are wrong (here, a boat is turnedinto a car); (5) some shapes are just strange (a lamp with anelephant).58740图3：限制条件：（1）在极端部分输入的情况下，我们无法推断出一些结构；（2），（3）低分辨率的真实值中经常缺少细节结构（32 3）。0对于ShapeNet的相同的训练/测试划分[2]，我们使用3D-EPN在八个类别的子集上进行训练，即飞机、桌子、汽车、椅子、沙发、梳妆台、灯和船。我们对一个包含1200个模型的测试集进行定量评估。当存在距离场表示时，我们使用Matlab的isosurface函数提取等值面。然而，有些基线直接预测网格；在这些情况下，我们使用这些网格进行渲染和评估。图2展示了我们方法的测试示例的多样性。在每一列中，我们首先展示部分输入，然后展示仅使用3D合成的结果。在这个实验中，我们发现仅仅使用合成无法完成缺失的几何结构（这不是一个真实的结果）。接下来，我们展示了没有合成的3D-EPN的结果；在这里，我们可以看到结构被完成，但局部几何具有低分辨率。这个问题通过3D-EPN和3D合成的结合得到解决，它提供了全局结构和局部准确性。在每一列的右侧，我们展示了真实值。在图4中，我们与最先进的形状补全方法进行了比较。Poisson表面重建[14,15]主要用于在密集点云上获取完整的表面，但它无法推断出缺失的结构。ShapeRecon[32]的表现稍好一些，但总体上仍然存在问题。0依赖于找到好的最近邻；可用的实现也仅在一部分类上进行了训练。3D ShapeNets[46]与我们的方法最相似，但它是一个完全生成模型，实际上会降低性能，因为它解决了一个更一般的任务。在相同的数据集上进行的定量评估结果如表1所示。总体而言，我们的3D-EPN表现最好，并且它有效地利用了3D-CNN类向量输入。我们的最终结果是通过3D-EPN和3D形状合成的组合获得的，它在1283个体素上输出了一个距离场。0方法ℓ1-Err（323）ℓ1-Err（1283）0Poisson [14, 15] 1.90 8.460ShapeRecon [32] 0.97 4.6303D ShapeNets [46] 0.91 3.70 ��0我们的（仅合成）1.20 6.920我们的（3D-EPN）0.51 2.63 ��0我们的（3D-EPN-class）0.48 2.48 ��0我们的（3D-EPN-unet）0.38 2.29 ��0我们的（3D-EPN-unet-class）0.37 2.29 ��0我们的（3D-EPN + synth）- 2.330我们的（3D-EPN-class + synth）- 2.160我们的（3D-EPN-unet + synth）- 1.910我们的（最终）- 1.8903D-EPN-unet-class + synth0表1：合成地面真实数据的定量形状完成结果。我们测量未知区域与地面真实距离场（在体素空间中，最多截断距离为2.5个体素）的ℓ1误差。��1283的预测是通过上采样网络的低分辨率输出计算得到的。03D-CNN 3D-EPN + 3D-CNN0/w 部分训练 /w 完整训练0分类 90.9% 92.6%0形状检索 90.3% 95.4%0表2：3D-EPN预测对分类和形状检索任务的影响。我们在部分（左）和完整（右）的ShapeNet模型上训练了一个3D-CNN分类网络[31]。检索准确率是根据前3个检索到的邻居的类别计算的。当我们将3D-EPN的预测结果用作中间结果时，性能显著提高。请注意，两种情况下的测试任务是相同的，因为它们使用相同的测试输入。在表2中，我们探讨了是否可以使用3D-EPN来提高分类和检索任务的准确性。对于给定的部分扫描，有两种选择进行分类。在第一种变体中，我们在部分输入上训练了Qi等人的3D-CNN[31]，以反映测试数据的遮挡模式。在第二种变体中，我们首先运行我们的3D-EPN并获得一个完成的3230输出；我们将此结果用作3D-CNN的输入58750现在在完整形状上进行训练。在两种情况下，使用相同的部分测试输入；然而，通过中间完成步骤，无论是分类还是形状检索的性能都显著提高。图3显示了一些限制。最重要的限制是3D-EPN的分辨率相对较低。虽然它成功预测了全局结构，但在推断较小的组件时失败。当几何细节小于一个体素的大小时，这尤为明显；请注意，3D-EPN的地面真实训练对是在32×32的分辨率上进行的。0体素。另一个限制是极端的部分输入，即没有足够的上下文来推断一个合理的完成。然而，需要注意的是，除了占用表面体素之外，测试输入的有符号距离场还编码了已知的空白空间。这在这些情况下至关重要。一个普遍的问题是3D训练数据的可用性。通过ShapeNet[2]的模型，我们可以涵盖一些变化；然而，这显然不足以反映出真实世界场景的所有几何形状。有关更多结果和评估，请参阅补充文档。我们展示了在Kinect扫描上的完成结果，并评估了有符号距离场表示与其他表示（如占用或三态体素网格）的重要性。09. 结论与未来工作0我们提出了一种将新的3D深度学习架构与3D形状合成技术相结合的高效方法来完成部分扫描的输入形状.我们的结果表明，在所有实验中，我们明显优于当前最先进的方法，我们相信将深度学习用于推断全局结构并使用传统的合成方法进行局部改进是一个有前途的方向.一个有趣的未来方向可能是将纯生成模型与条件输入相结合，例如GANs [10].然而，这些网络在3D空间中更高分辨率的训练是具有挑战性的.另一个可能的方向是将RGB信息纳入其中；例如，可以通过借鉴最近的形状从阴影方法[44,49]的思想来强制执行着色约束以获得细节.然而，最实际的下一步是将我们的方法扩展到房间规模的场景，而不是孤立的对象；例如，在ScanNet数据上[6].0致谢0我们衷心感谢Google对该项目的支持. 这项研究由GoogleTango资助，并得到斯坦福研究生奖学金的支持.我们还衷心感谢NVIDIA Corporation的硬件捐赠.我们要感谢Ivan Dryanovski和J¨urgenSturm在该项目中提供的宝贵反馈和帮助，以及WenzelJakob提供的Mitsuba光线追踪器[13].0图4：ShapeNet [2]上的定性评估.我们展示了不同场景的结果，并与[14, 32, 46]进行比较.ShapeRecon仅在一部分类别上进行了训练（顶部行）.我们还展示了仅使用3D-EPN而没有3D形状合成的中间结果.输入以32^3可视化；然而，对于Kazhdan等人[14]和Rock等人[32]，我们使用了128^3的输入.我们取得了良好的比较结果，即使仅使用3D-EPN，但最终的形状合成增加了分辨率并增加了额外的几何细节.858760参考文献0[1] J. Amanatides, A. Woo, 等.用于光线追踪的快速体素遍历算法. 在《Eurographics》中, 卷87,第3-10页, 1987年. 3 , 40[2] A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q.Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su, J. Xiao, L.Yi, and F. Yu. ShapeNet: 一个信息丰富的3D模型库.技术报告arXiv:1512.03012 [cs.GR], 斯坦福大学 - 普林斯顿大学 -芝加哥丰田技术研究所, 2015年. 3 , 4 , 7 ,0[3] J. Chen, D. Bautembach, 和 S. Izadi.可扩展的实时体积表面重建. ACM Transactions on Graphics(TOG), 32(4):113, 2013年. 10[4] S. Choi, Q.-Y. Zhou, and V. Koltun. 室内场景的稳健重建.在《2015年IEEE计算机视觉与模式识别会议（CVPR）》中,2015年, 第5556-5565页. IEEE. 10[5] B. Curless 和 M. Levoy.一种从距离图像构建复杂模型的体积方法.在《第23届计算机图形学与交互技术年会论文集》中,第303-312页. ACM, 1996年. 40[6] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser,and M. Nießner. Scannet: 室内场景的丰富注释的3D重建.arXiv预印本arXiv:1702.04405, 2017年. 80[7] A. Dai, M. Nießner, M. Zoll¨ofer, S. Izadi, 和 C. Theobalt.Bundlefusion: 实时全局一致的3D重建，使用即时表面重新整合.arXiv预印本arXiv:1604.01093, 2016年. 10[8] A. Dosovitskiy, J. Tobias Springenberg, and T. Brox.使用卷积神经网络学习生成椅子.在《计算机视觉与模式识别IEEE会议论文集》中, 2015年,第1538-1546页. 30[9] M. Firman, O. Mac Aodha, S. Julier, 和 G. J. Bros- tow.从单个深度图像中结构化预测未观察到的体素.在《计算机视觉与模式识别IEEE会议论文集》中, 2016年,第5431-5440页. 30[10] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio.生成对抗网络. In Advances in Neural Information ProcessingSystems , pages 2672–2680, 2014. 3 , 80[11] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H.Salesin. 图像类比. In Proceedings of the 28th an- nualconference on Computer graphics and interactive tech-niques , pages 327–340. ACM, 2001. 50[12] P. Indyk and R. Motwani. 近似最近邻: 消除维度诅咒的方法.In Proceed- ings of the thirtieth annual ACM symposium onTheory of computing , pages 604–613. ACM, 1998. 50[13] W. Jakob. Mitsuba渲染器, 2010. URL: http://www.mitsuba-renderer. org , 3, 2015. 80[14] M. Kazhdan, M. Bolitho, and H. Hoppe. 泊松表面重建. InProceedings of the fourth Eurographics symposium onGeometry processing , volume 7, 2006. 1 , 2 , 7 , 80[15] M. Kazhdan and H. Hoppe. 筛选的泊松表面重建. ACMTransactions on Graphics (TOG) , 32(3):29, 2013. 1 , 2 , 70[16] Y. M. Kim, N. J. Mitra, D.-M. Yan, and L. Guibas.采集具有变化和重复的三维室内环境. ACM Transactions onGraphics (TOG) , 31(6):138, 2012. 20[17] D. Kingma and J. Ba. Adam: 一种用于随机优化的方法.arXiv preprint arXiv:1412.6980 , 2014. 50[18] C. Li and M. Wand.结合马尔可夫随机场和卷积神经网络进行图像合成. arXiv preprintarXiv:1601.04589 , 2016. 30[19] C. Li and M. Wand.基于马尔可夫生成对抗网络的预计算实时纹理合成. arXiv preprintarXiv:1604.04382 , 2016. 30[20] D. Li, T. Shao, H. Wu, and K. Zhou.从单个RGBD图像中完成形状. 2016. 20[21] Y. Li, A. Dai, L. Guibas, and M. Nießner.数据库辅助的实时三维重建对象检索. In Computer GraphicsForum , volume 34, pages 435–446. Wiley Online Library,2015. 20[22] D. Maturana and S. Scherer. Voxnet:用于实时物体识别的三维卷积神经网络. In Intelligent Robotsand Systems (IROS), 2015 IEEE/RSJ International Conferenceon , pages 922–928. IEEE, 2015. 30[23] N. J. Mitra, L. J. Guibas, and M. Pauly.用于三维几何的部分和近似对称性检测. In ACM Transac- tionson Graphics (TOG) , volume 25, pages 560–568. ACM, 2006. 20[24] L. Nan, K. Xie, and A. Sharf.用于杂乱室内场景理解的搜索-分类方法. ACM Transactions onGraphics (TOG) , 31(6):137, 2012. 20[25] A. Nealen, T. Igarashi, O. Sorkine, and M. Alexa.拉普拉斯网格优化. In Proceedings of the 4th internationalconference on Computer graphics and interactive techniquesin Australasia and Southeast Asia , pages 381–389. ACM,2006. 1 , 20[26] R. A. Newcombe, S. Izadi, O. Hilliges, D. Molyneaux, D.Kim, A. J. Davison, P. Kohi, J. Shotton, S. Hodges, and A.Fitzgibbon. Kinectfusion: 实时稠密表面映射和跟踪. In Mixedand augmented reality (ISMAR),

下载后可阅读完整内容，剩余1页未读，立即下载