生成式形状建模：使用隐式场学习形状生成模型

140 浏览量更新于2023-10-19 收藏 1.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5939生成式形状建模西蒙菲莎大学zhiqinc@sfu.ca张浩西蒙弗雷泽大学haoz@sfu.ca摘要我们提倡使用隐式场来学习形状的生成模型，并引入了一个隐式场解码器，称为IM-NET，用于形状生成，旨在提高所生成形状的视觉质量。隐式字段为3D空间中的每个点分配一个值，以便可以将形状提取为等值面。IM-NET被训练成通过二元分类器来执行此分配。具体地，它获取点坐标以及对形状进行编码的特征向量，并输出指示该点是否在形状外部的通过用我们的隐式解码器代替传统解码器进行表示学习（通过IM-AE）和形状生成（通过IM-GAN），我们展示了生成形状建模，插值和单视图3D重建等任务的优异结果，特别是在视觉质量方面。代码和补充材料可在https://github.com/czq142857/implicit-decoder上获得。1. 介绍与图像和视频不同，3D形状不限于一种标准表示。到目前为止，已经开发了用于三维形状分析和合成的深度神经网络，用于体素网格[18，45]，多视图图像[39]，点云[1，32]和集成曲面片[16]。具体到3D形状的生成建模，尽管取得了许多进展，但由最先进的方法产生的形状这反映在一系列问题上，包括低分辨率输出、过度平滑或不连续的表面，以及各种拓扑噪声和不规则性。在本文中，我们探索使用隐式字段来学习形状的深度模型，并引入用于形状生成的隐式字段解码器，旨在提高生成的模型的视觉质量，如图1所示。隐式字段为每个点分配一个值（x，y，z）。形状由指定给特定值的所有点表示，通常通过等值面提取（如Marching Cubes）进行渲染。我们的隐式场解-图1：IM-GAN生成的3D形状，我们的隐式场生成对抗网络，它在643或1283体素化形状上进行了训练。输出的形状是采样，pled在512- 3分辨率和渲染后，行军立方体。编码器或简单的隐式编码器通过二进制分类器被训练来执行该分配任务，并且它具有非常简单的架构;参见图2。具体地，它获取点坐标（x，y，z）以及对形状进行编码的特征向量，并输出指示该点是否在形状外部的值在一个典型的应用程序设置中，我们的解码器（称为IM-NET）将跟随一个编码器，该编码器输出形状特征向量，然后返回一个隐式字段以定义输出形状。IM-NET的几个新功能影响所生成的形状的视觉质量。首先，解码器输出可以以任何分辨率被采样，并且不受训练形状的分辨率的限制;见图1更重要的是，我们将点坐标与形状特征连接起来，将两者作为隐式解码器的输入，隐式解码器学习任何点相对于形状的内部/外部状态。相比之下，对体素化形状进行操作的经典的基于卷积/去卷积的神经网络（CNN）这样的网络学习5940图2：隐式解码器IM-NET的网络结构. 该网络将形状编码器提取的特征向量以及3D或2D点坐标作为输入，并返回指示点相对于形状的内部/外部状态的值。编码器可以是CNN或使用PointNET [32]，这取决于应用程序。体素分布在体积上，而IM-NET学习形状边界;这在图3（顶部）中很好地举例说明实验表明，我们的网络生成的形状具有更高的表面质量比以前的方法，如图1所示，结果在第4节。此外，形状演变是将点坐标的分配更改为内部/外部状态的直接结果，而这种分配正是我们的网络IM-NET所学习的相比之下，卷积核将体素计算为加权平均值，其中核窗口不是“形状感知的”。因此，基于CNN的解码器通常通过强度变化来演化形状几何形状;参见图3（底部）。因此，我们的网络产生更清洁的插值结果比以前的作品，即使有拓扑变化;参见图5。我们将IM-NET嵌入到几个当代的分析和合成框架中，包括自动编码器（ AE ），变分自动编码器（VAE）和生成对抗网络（GAN），通过用我们的方法替换当前方法所使用的解码器，导致IM-AE和IM-GAN。这允许评估我们的新型解码器的任务，如形状表示学习，2D或3D形状生成，形状插值，以及单视图3D形状重建的能力。大量的实验和比较研究，无论是定量的还是定性的，都证明了我们的网络比以前的作品的优越性，特别是在视觉质量方面。2. 相关工作已经有各种各样的3D形状表示用于形状的深度学习，例如体素网格[9，14，28，45，46]，八叉树[18，35，40，43，44]，多视图图像[29，39]，点云[1，12，13，32，33，47，48]，几何IM-年龄[37，38]，可变形网格/补丁[16，38，42，47]和基于部件的结构图[27，49]。据我们所知，我们的工作是第一个引入深度网络来学习生成形状建模的隐式字段。图3：基于CNN的解码器与我们的隐式解码器。我们分别用CNN解码器（AE CNN）和隐式解码器（AE IM）在白色背景上的字母A的合成数据集上训练了两个自动编码器。这两个模型具有相同的CNN编码器。(a)以及（b）示出AE训练期间的采样图像。(c)以及（d）示出了由两个训练的AE产生的在补充材料中查看更多随着使用VAE [24]，GAN [3，15，34]，自回归网络[41]和基于流的模型[23]的图像生成建模取得了显着进展，3D形状的生成模型的工作相当少Girdhar等人[14]学习了3D体素形状的嵌入空间，用于从图像和形状生成进行3D形状推断。Wu等人。[45]将GAN从图像扩展到体素，并且他们的3DGAN经过训练以从潜在向量生成3D体素形状。Achlioptas等人[1]提出了一种latent-GAN工作流，首先用紧凑的瓶颈层训练自动编码器以学习点云的潜在表示，然后在潜在代码上训练普通GAN。这些方法的常见问题包括有限的模型分辨率，不均匀和嘈杂的形状表面，以及无法产生平滑的形状插值。最近，Li et al.[27]介绍了一种用于3D形状结构的基于部件的自动编码器，即，部件边界框的分层组织。自动编码器被调整为具有对抗性损失以变得具有生成性。然后训练一个单独的网络来填充零件边界框内的零件几何形状。他们的方法可以产生更清晰的3D形状和插值结果，主要是由于结构和几何生成的解耦。然而，他们的网络必须通过具有结构层次的分段形状来训练相比之下，我们的隐式编码器是在非结构化体素形状上训练的。我们的解码器IM-NET的输出可以以高于训练形状的分辨率进行采样，然而，它不是为了（体素）超分辨率而设计的。已经有关于使用深度网络的单个图像超分辨率的工作，[11，25]，使用低分辨率和高分辨率图像对进行训练。渐进式训练[22]是另一种提高图像质量的技术，我们在工作中采用它来减少训练时间。用于单视图3D重建的大多数基于学习的方法使用深度卷积网络对输入图像进行编码，5941θp工作，然后使用适当的解码器来重建3D形状取决于形状表示。最常用的表示是体素[9，14，46]和点云[12，13]。体素是图像像素的自然扩展，其允许将最先进的技术从图像处理迁移到形状处理。然而，体素表示通常受到GPU内存大小的限制，导致低分辨率结果。八叉树表示试图通过以粗略到精细的方式预测表面来解决内存问题[18，44]。Huang et al.[21]还训练网络执行二进制分类，如IM-NET。然而，关键的区别是我们的网络基于空间点坐标分配内部/外部。因此，它学习形状边界，并且有效地学习在点坐标上Lipschitz连续的隐式函数，即，它将附近的点映射到类似的输出值。此外，IM-NET可以输入一个任意的三维点，学习一个连续的隐式场，而无需离散化。相比之下，他们的网络对离散图像上计算的卷积特征进行操作，并基于点x处的多尺度图像特征学习内部/外部分配。通过产生几千个点，点云在解码器侧可以是轻量的。然而，这些点不提供任何表面或拓扑信息，并且构成重建挑战。在Deep Marching Cubes中，Liao etal.[28]提出了一种可微的移动立方体公式，用于训练端到端的3D CNN模型，用于从点云进行网格重建。然而，所得到的网格仍然与其他基于CNN的网络共享共同的问题，低分辨率（323）和拓扑噪声。其他一些作品[16，38]使表面模板变形（例如，正方形片或球体）上。但是，许多形状不能很好地表示由一个单一的补丁，而从多补丁集成的输出往往包含由于间隙，折叠和重叠的视觉文物。在Pixel2Mesh中，Wang et al.[42]使用基于图形的CNN[36]来逐步变形椭球体模板以适应图像。端到端网络直接生成网格，但结果往往过于平滑，仅捕获低频特征，而仅限于球体拓扑。3. 隐式解码器和形状生成隐式场由2D/3D空间上的连续函数定义然后，可以通过使用Marching Cubes [30]等方法找到场的零等值面来重建网格表面。在我们的工作中，我们考虑使用假设输入输出场被限制在一个单位三维空间中，我们试图找到一个参数化fθ（pθ将点p∈[0，1]3映射到F（p）。这本质上是一个二元分类问题，已经研究过了。很好。具有校正线性单元（ReLU）非线性的多层感知器（MLP）是此类任务的理想在有足够隐单元的情况下，MLP族能够在任意精度内逼近域F 这是普遍近似理论的一个直接结果。rem [20]。请注意，使用MLP也给了我们一个在空间上连续的表示，因此可以通过取近似场的k-等值面来恢复网格，其中k是适当的阈值。3.1. 数据准备这种隐式模型的训练需要点-值对。为了方便和均匀采样，首先对形状进行体素化或栅格化是很自然的。对于3D形状，我们使用与分层表面预测（HSP）[18]相同的技术来获得不同分辨率的体素模型（163，323，643，1283）。我们在每个分辨率上采样点，以便逐步训练模型。一个简单的采样将采取每个体素的中心，并产生n3个点。一个更有效的方法处理形状时，是采样更多的点附近的形状表面和忽略大多数点远，导致大致O（n2）点。为了补偿密度变化，我们为每个采样点p分配一个权重wp，表示p附近的采样密度的倒数。这种采样方法的实施是灵活的，并根据分辨率和形状类别而变化;更多细节可以在补充材料中找到。大多数2D形状已经光栅化为图像。为了简单起见，我们应用朴素采样方法的图像与适当的阈值，以确定是否属于形状的像素。3.2. IM NET我们的模型如图2所示。在实验中，模型中的跳跃连接（复制和连接）可以使学习过程更快。当特征向量较长时，可以将它们移除，以防止模型变得太大。损失函数是每个点的真实标签和预测标签之间的加权均方误差。假设S是从目标形状采样的一组点，我们有：Σ|f（p）−F（p）|2·w神经网络来以这种隐含的方式描述形状对于一个封闭的形状，我们定义的内/外场FL（θ）=p∈SΣp∈Swp（二）通过取其带符号距离场的符号来计算形状：.3.3. 形状生成和其他应用F（p）=0如果点P在形状之外1否则，请执行以下操作。（一）我们的隐式场解码器IM-NET可以嵌入到不同的形状分析和合成框架中，以5942支持各种应用。在本文中，我们演示形状自动编码，2D和3D形状生成，以及单视图3D重建。由于篇幅所限，本文仅对这些模型作简要介绍.详细的结构和超参数可以在补充材料中找到。对于3D形状的自动编码，我们使用3D CNN作为编码器，从643体素中提取128维特征模型我们采用渐进式训练技术，首先在163分辨率的数据上训练我们的模型，然后逐渐增加分辨率。请注意，当在不同分辨率的训练数据之间切换时，模型的结构不会改变，因此可以使用低分辨率数据上的预训练权重来训练更高分辨率的模型。在实验中，渐进式训练可以稳定训练过程，并显着减少训练时间。对于3D形状生成，我们在3D自动编码器学习的特征向量上采用了潜在GAN [1，2我们没有应用在体素网格上训练的传统GAN，因为与输出的大小相比，训练集要小得多。因此，预训练的AE将用作降维的手段，并且潜在GAN在原始形状的高级特征上进行训练我们使用两个隐藏的全连接层用于生成器和子节点，以及具有梯度惩罚的Wasserstein GAN损失[3，17]。在2D形状的生成模型中，我们使用了与3D情况相同的结构，除了编码器是2D CNN，解码器将2D点作为输入。我们没有对2D形状应用渐进式训练，因为当图像很小时，这是不必要的。对于单视图3D重建（SVR），我们使用ResNET [19]编码器从1282个图像中获得128 我们遵循AtlasNET [16]的想法，首先训练自动编码器，然后在训练SVR时固定隐式解码器在我们的实验中我们采用了一种更激进的方法，即只训练ResNET编码器，以最小化预测特征向量和地面实况之间的均方损失。这比直接训练图像到形状的翻译器表现得更好，因为一个形状可以有许多不同的视图，导致歧义。预训练的解码器提供强先验，不仅可以减少这种模糊性，而且还可以缩短训练时间，因为解码器在自动编码器阶段中是在无模糊数据上训练的，而编码器训练在SVR阶段中独立于解码器我们用Marching Cubes重建了3D网格，并通过采样点的网格来重建2D图像，然后可选地应用阈值处理以获得二值化的形状。4. 结果和评价在本节中，我们展示了使用我们的隐式解码器IM-NET进行各种任务的定性和定量结果，并将其与最先进的方法进行比较。我们使用[18]提供的数据集，其中包含256个3-来自ShapeNet Core数据集（v1）[7]的体素化和泛洪填充3D模型，以及相应的渲染视图。为了与其他输出点云的方法进行比较，我们首先使用Marching Cubes从256个3体素化模型中获得网格，然后使用Poisson-diskSampling [10]获得10000个点。这给我们的点云只有网格表面上的点。我们评估了我们的方法和其他方法，在五个代表性的类别：飞机，汽车，椅子，步枪和桌子。这些类别分别包含4，045、7，497、6，778、2，373和8，509个三维形状。4.1. 质量度量在我们的实验中，提供了定性（通过目视检查）和定量评价。具体到形状，用于编码和重构的大多数评估度量是基于逐点距离的，例如，倒角距离（CD）或全局对准，例如，体素上的均方然而，这些可能不是最好的视觉相似性或质量度量。例如，与移除一个形状部分相比，稍微调整椅子腿与其座位之间的角度可能几乎不可接受，但后者可能导致较低的CD或IoU。过去的作品，例如[31]已经表明低频位移（例如，弯曲一条腿）比局部表面特征（例如法线和曲率）上MSE、CD和IoU等检查不考虑物体表面的视觉质量。计算机视觉领域中不太常用的视觉相似性度量，即光场描述符（LFD）[8]，已在计算机图形学中广泛采用。受人类视觉系统的启发，LFD考虑从各种相机角度呈现的3D形状的一组视图。每个投影图像，然后使用泽尔尼克矩和傅立叶描述符进行编码的相似性比较。4.2. 自动编码3D形状我们首先将IM-NET与CNN解码器进行比较。对于每个类别，我们按名称对形状进行排序，并使用前80%作为训练集，其余用于测试。我们用隐式解码器（ IM-AE ）训练了一个模型，用 3D CNN 解码器（CNN-AE）训练了另一个模型。3D CNN解码器与3DCNN编码器对称（细节可以在补充材料中找到）。这两个模型具有相同的编码器结构，并且根据数据集的大小，在200到400之间的相同数量的时期内以64 ×3的表1使用几种常见的评估度量来评估重建结果：MSE、IoU、对称Cham- fer距离（CD）和LFD。MSE和IoU是针对地面实况643体素模型计算的。对于CD和LFD，我们从输出体素模型获得网格通过阈值为0.5的Marching Cubes。我们抽样了2048个5943平面车椅子步枪表CNN64-MSE1.474.377.761.625.80IM64-MSE2.144.9911.431.9110.67CNN64-IoU86.0790.7374.2278.3784.67IM64-IoU78.7789.2665.6572.8871.44CNN64-CD3.515.317.343.487.45IM64-CD4.225.288.963.7812.05IM256-CD4.235.449.053.7711.54CNN64-LFD3,3751,3232,5553,5151,824IM64-LFD3,3711,1902,5153,7142,370IM256-LFD3,2361,1472,4533,6022,201表1：3D重建误差。CNN和IM分别代表CNN-AE和IM-AE，64和256表示采样分辨率。取每个测试类别中的前100个形状的平均值。MSE乘以103，IoU乘以102，CD乘以104。LFD四舍五入为整数。表现较好的数字以粗体显示。图4：3D重建的视觉结果。每一列提供一个类别中的一个示例。IM-AE 64在643分辨率上采样，IM-AE 256在2563分辨率上采样。所有结果都使用相同的“移动立方体”设置进行渲染。点，并与地面实况点云进行比较以计算CD。请注意，CNN-AE具有固定的输出大小（643），但我们的隐式模型可以通过调整采样网格大小来上采样到任意高的分辨率。在表1中，IM 256是相同的IM-AE模型，但是在2563处采样。虽然CNN-AE在几乎所有五只猫中都击败了IM-AE在MSE、IOU和CD方面，目视检查清楚地表明IM-AE产生更好的结果，如图4所示;更多这样的结果可在补充材料中获得。这验证了LFD是3D形状的更好的视觉相似性度量。一方面，某些部件的运动，如台面的运动，可能引起MSE、IOU和CD的显著变化，但带来的视觉变化较小;另一方面，腿通常较细，因此缺失一条腿可能会引起较小的MSE、IOU和CD变化，但会带来显著的视觉变化。如上所述，MSE、IOU和CD不能很好地捕获图5：3D形状插值结果。 3DGAN，CNN-GAN和IM-GAN以64 ×3的分辨率进行采样，以表明表面的平滑度不仅仅是采样分辨率的问题。请注意，IM-GAN的变形序列不仅包括平滑的部分移动（腿，板），而且还处理拓扑变化。表面质量：光滑但不精确对准的表面可能比对准的锯齿状表面具有更差的评估结果。使用LFD时情况更好。然而，由于LFD仅在没有照明的情况下渲染形状的轮廓，因此它只能捕获轮廓边缘上的表面状况。我们期望在未来提出更好的评估指标，并且对于以下实验，我们使用LFD作为我们的主要评估指标。请注意，在图4中的表格示例中，643分辨率表示欠采样，而高达2563则显示更多细节。这表明我们的生成模型能够生成比训练数据的分辨率更薄的桌面，这表明模型从空间中的整个形状学习隐式场，而不仅仅是学习体素分布。4.3. 3D形状生成和插值接下来，我们评估和评估我们的隐式解码器对3D形状的生成建模所做的改进我们在CNN-AE和IM-AE上训练潜伏GAN以获得CNN-GAN和IM-GAN。我们还将我们的结果与两种最先进的方法进行了比较，即3DGAN [45]和[1]中的点云生成模型（PC-GAN）。对于3DGAN，我们使用了作者在线提供的训练模型。PC-GAN使用潜在WGAN [1]进行训练。PC-GAN的自动编码器在我们前面提到的点云数据上针对每个类别进行了400个epoch的训练。PC-GAN、CNN-GAN和IM-GAN在数据集的训练分割上训练了10，000个时期。3DGAN未使用训练/测试分割进行训练[45]。为了比较生成方案，我们采用了[1]中的假设我们有一个测试集G和一个样本集A，对于A中的每个形状，我们使用LFD在G中找到它的最近邻居，比如g，并将g标记为“匹配”。最终我们5944平面车椅子步枪表平均无平面平均COV-LFD（%）3DGAN [45]PC-GAN73.5512.1361.4025.0770.0662.3261.4718.8077.5029.5867.6168.80CNN-GAN69.2273.0077.7361.2683.7373.9372.99IM-GAN70.3369.3375.4465.2686.4374.1273.36MMD-LFD3DGAN [45]PC-GAN3,7371,9931,3604,3653,1434,4763,8915,2082,8224,0102,8042,991CNN-GAN3,7451,2883,0123,8192,5942,6782,892IM-GAN3,6891,2872,8933,7602,5272,6172,831表2：3D形状生成的定量评估。将LFD四舍五入为整数。有关指标的解释，请参见文本图6：3D形状生成结果。对于每个模型，显示了从每个类别生成的一个形状;更多结果载于补充材料。由于3DGAN的训练模型不包括飞机类别，我们用另一辆车来填补球旋转方法[6]用于从PC-GAN结果（b）进行网格重建（c）。计算标记为“匹配”的G然而，随机集合可以具有高覆盖，因为匹配的形状不需要接近。因此，我们将G中的每个形状与A中具有最小距离的形状进行匹配，并计算匹配中的理想地，良好的生成模型将具有较高的COV-LFD和较低的MMD-LFD值。我们首先使用主题生成模型对形状进行采样以获得A，其中采样形状的数量是该类别的测试分割（G）中的形状数量的五倍对于PC-GAN，我们采用球旋转方法[6]来重建形状表面，而对于所有其他生成模型，我们使用Marching Cubes。在定量评价中，IM- GAN在643处定量和定性评价见Ta-表2和图6中分别示出。总的来说，IM-GAN在COV-LFD和MMD-LFD上都表现得更好。更重要的是，IM-GAN生成的形状与其他方法相比具有更好的视觉质量，特别是具有更平滑和更连贯的表面。3DGAN似乎在几个类别上遭受模式崩溃，导致较低的覆盖率。PC-GAN生成的点云是可识别的但缺乏细节特征;仅从2048个生成点进行高质量重建将是具有挑战性的。此外，如图5所示，IM-GAN在3D形状插值中表现出优越的能力。与通常的潜在生成模型一样，插值是通过两个潜在代码之间的线性插值来执行的;然后从中间代码生成中间3D形状。我们用1283分辨率的数据对IM-GAN进行了进一步的训练，这些数据是关于飞机、汽车和步枪的。图1示出了在5123处采样的一些结果。我们还包括，在柔软的材料，视频显示插值结果的IM-GAN采样在2563，和比较插值在IM-AE和IM-GAN潜在空间。4.4. 2D形状生成和插值为了评估用于 2D 形状生成的 IM-GAN ，我们在MNIST数据集上进行了实验，因为手写数字自然是2D形状。我们将我们的结果与DCGAN [34]，VAE [24]和具有梯度惩罚的WGAN [3，17]进行了比较。我们还包括CNN-GAN的2D版本。此外，我们用我们的隐式解码器替换VAE和WGAN的CNN解码器，以获得VAEIM和WGANIM。我们在5,000个二值化图像上训练了所有模型，这些图像来自5945DCGAN [34]CNN-GANIM-GANVAE [24]VAEIMWGAN [17]WGANIMOracleCOV-CD（%）3.982.775.272.174.986.584.788.4MMD-CD0.8460.1550.1510.1450.140.1580.1490.137PWE（nat）-282.83-8.07-6.1617.3930.6-24.54-4.1718.99PWE-nb（天然）-230.47130.93128.38304.57318.0797.3293.1241.19IS [26]3.268.799.369.099.428.99.229.8IS-nb3.268.89.397.588.288.959.229.88表3：2D形状生成的定量评估。Oracle是使用训练集作为样本集得到的结果。使用二值化图像评估没有后缀“-nb”的度量PWE和IS越高越好。每个子组（潜在GAN，VAE，WGAN）中的更好结果用粗体表示，所有模型中的最佳结果用下划线表示。图7：2D形状生成的视觉结果。每行的第一部分呈现9和6之间的插值，除了DCGAN，因为它未能生成数字6或9。每行的第二部分显示了一些生成的示例。采样的图像不被二值化。更多的样本和二值化图像可以在补充材料中找到。MNIST数据集，1,000个epochs。训练集包含的图像数量比通常要少，这样我们就可以更好地观察CNN模型和隐式模型学习的不同特征。IM-GAN和CNN-GAN的自动编码器预先训练了200个epoch。我们在2D图像中用倒角距离代替LFD以获得COV。CD和MMD-CD进行评价。我们还报告了MNIST（IS）[26]和Parzen窗口估计（PWE）[4，5，15]产生的对数似然的接收分数。对于COV-CD和MMD-CD，我们从主题模型中采样了5，000张图像，并与来自测试分割的1，000张地面真实图像进行了比较对于IS和PWE，我们采样了10，000张图像，并使用了整个测试分割。定量和定性评价分别见表3和图7配备了我们的隐式解码器的模型通常表现更好。由于训练样本不相等，DCGAN遭受模式塌陷，这表明WGAN损失是首选的，以提取真正的特征与较小的训练集。当输出图像被二值化时，VAE的性能优于GAN，因为VAE往往会产生模糊的结果。对于插值，基于CNN的方法往往会使旧的部分消失，然后出现新的部分。这种现象在CNN-GAN和VAE中尤为明显。隐式模型通常会扭曲形状，但也可以使用“消失和出现”的技巧。在视觉比较中，IM-GAN和WGANIM输出更清晰且更可识别的人们可以在基于CNN的方法产生的样本中找到缺失或冗余的部分，这是“消失和出现”现象的痕迹表4：使用LFD的SVR的定量评估。平均值取测试集中每个类别的前100个形状的平均值，并四舍五入为整数。RollasNet25是一个包含25个面片的RollasNet（总共有28，900个网格顶点而NasNetO（7，446个顶点）是一个球体。IM-SVR和HSP的重建分辨率均为2563。4.5. 单视图三维重建（SVR）我们将我们的方法与两种最先进的SVR方法进行了比较，HSP [18]是一种基于八叉树的方法，使用3DCNN解码器生成256个3体素，以及将表面补丁扭曲到目标形状上。对于Atlas- Net，我们测试了初始表面的两种设置，25个补丁或一个球体，并分别将它们表示为NosasNet 25和对于所有方法，我们为每个类别训练了单独的模型，并使用灰度图像作为输入。我们使用[18]中的训练/测试分裂来利用HSP的预训练模型，因为HSP需要相当长的时间来收敛。对于HSP，我们使用了作者在线提供的训练模型，并对每个类别继续训练最多2天，并使用测试损失最低的模型对于MPEGASNet，我们训练了400 epochs的自动编码器部分和400 epochs的SVR部分平面车椅子步枪表HSP6,3072,0094,2556,3603,765公司简介4,8771,6673,2446,5072,725PandasNetO 5,2081,7514,1246,1173,909IM-SVR4,7431,6583,3215,0672,9185946图8：单视图3D重建的视觉结果。有关输出模型设置，请参见表4的标题用测试损耗最小的那些对于我们的方法，我们在643个分辨率上训练了200-400个epoch的IM-AE，并训练了1，000 - 2，000个epoch的IM-SVR。epoch的数量取决于数据集的大小。我们没有用这么多的epoch来训练PastasNet，因为它的测试损失已经停止下降。由于IM-SVR被训练为将图像映射到潜在代码，因此我们没有一个很好的评估指标来测试错误。因此，我们测试了最后五个保存的检查点，并报告了最佳结果。定量和定性评价分别见表4和图8IM-SVR输出的采样分辨率为2563，与HSP相同。MixasNet的输出网格设置来自作者的代码。虽然IM-SVR似乎与AtlasNet 25具有类似的定量结果，但请记住，LFD仅捕获形状的轮廓由于形状是由斑块组成的，并且没有防止裂缝、折叠或重叠表面的措施，因此可以很好地代表形状，但可以观察到明显的人为因素。虽然RollasNetO可以生成比RollasNet25更清晰的形状，但是其拓扑被预先指定为等效于球体，因此RollasNetO很难重构具有孔洞的形状。HSP可以产生光滑的表面，但未能恢复大多数细节。我们显示了补充材料中每个类别的测试集中前16个形状的比较，并且还提供了倒角距离的评估结果，以进一步验证CD可能不是视觉质量的理想评估指标。5. 结论、局限性和未来工作我们引入了一个简单而通用的隐式场解码器来学习形状边界。新的解码器IM-NET可以很容易地插入到当代深度神经网络中，用于各种应用，包括形状自动编码，生成，插值和单视图重建。大量的实验表明，IM-NET导致更干净的封闭网格具有优越的视觉质量和更好的处理形状拓扑插值过程中。隐式编码器的一个关键优点是将点坐标作为输入特征的一部分，但这是以更长的训练时间为代价的，因为解码器需要应用于训练集中的每个点。在实践中，CNN-AE通常比IM-AE快30倍，在64 ×3数据上没有渐进训练。即使使用渐进式训练，IM-AE训练也需要一两天，CNN-AE仍然快15倍。当检索生成的形状时，CNN只需要一次拍摄就可以获得体素模型，而我们的方法需要将体素网格中的每个点传递到网络以获得其值，因此生成样本所需的时间取决于采样分辨率。虽然At-lasNet也使用MLP作为解码器，但At-lasNet 25在训练方面比我们快5倍，因为At-lasNet只需要在形状的表面上生成点，而我们需要在整个领域中生成点。我们的隐式解码器确实导致更清洁的表面边界，允许在插值过程中的部分移动和拓扑变化。然而，我们还不知道如何调节这样的拓扑演化以确保高度不相似的形状之间的有意义的变形，例如，不同类别的人。我们重申，目前，我们的网络只按形状类别进行训练;我们将多类别泛化留给未来的工作。最后，虽然我们的方法能够生成比现有替代方案具有更高视觉质量的形状整体变薄/增厚）。在未来的工作中，我们还计划推广IM-NET。首先，使用MLP来解码可能太简单且效率低;可以改进解码器结构以使模型尺寸更小以用于更快的推断。第二，除了内部/外部符号之外，还可以训练我们的解码器输出其他属性，例如，颜色、纹理、表面法线、符号距离或变形场，用于新应用。最后，IM-NET已经显示出理解形状部件的迹象，这表明它在学习部件分割和对应方面具有潜在的实用性。谢谢。我们感谢Matt Fisher、Daniel Cohen- Or和匿名评论者的评论，感谢Kangxue Yin和Ali Mahdavi-Amiri的校对。这项研究得到了NSERC和Adobe礼品基金的支持。5947引用[1] P. Achlioptas、O.迪亚曼蒂岛Mitliagkas和L.吉巴斯三维点云的学习表示与生成模型。在2018年的国际机器学习会议（ICML）上。一二四五六[2] M. Arjovsky和L.博图训练生成对抗网络的原则性方法国际学习表征会议（ICLR），2017年。4[3] M. Arjovsky，S. Chintala和L.博图Wasserstein生成对抗网络。在国际机器学习会议，第214-223页二、四、六[4] Y. Bengio，E.Laufer，G.Alain和J.尤辛斯基可通过反向传播训练的深层在International Conference on MachineLearning（ICML），第2267[5] Y.本吉奥湾Mesnil，Y. Dauphin和S.瑞菲通过深度表示更好地混合国际机器学习会议，第552-560页，2013年7[6] F. Bernardini，J. Mittleman，H.拉什迈尔角席尔瓦，还有G.陶宾曲面重构的球旋转算法。IEEE Transactions onVisualization and Computer Graphics （ TVCG ）， 5（4）：349-359，1999. 6[7]A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。4[8] D.- Y.陈锡铭P. Tian，Y.- T. Shen和M.欧英基于视觉相似性的三维模型检索研究。在计算机图形论坛，第22卷，第223-232页。Wiley Online Library，2003. 4[9] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法欧洲计算机视觉会议（ECCV），2016年。二、三[10] M. 科尔西尼山口Alcohoni和R.斯科皮尼奥三角形网格的蓝噪声特性的有效和灵活的采样IEEE Transactions onVisualization and Computer Graphics （ TVCG ）， 18（6）：914-924，2012。4[11] C.东角，澳-地C. Loy，K.他，还有X。唐学习用于图像超分辨率的深度卷积网络。欧洲计算机视觉会议（ECCV），2014年。2[12] H.范，H. Su和L.吉巴斯一种从单幅图像重建三维物体的点集生成网络。在IEEE计算机视觉和模式识别会议论文集（CVPR），第2卷，第6页，2017年。二、三[13] M. 加代利亚河Wang和S.玛吉三维点云处理的多分辨率树在欧洲计算机视觉会议（ECCV）集，2018。二、三[14] R. Girdhar，D. F. Fouhey，M. Rodriguez和A.古普塔。学习对象的可预测和生成矢量表示。在欧洲计算机视觉会议（ECCV）中，第484施普林格，2016年。二、三[15] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展（NIPS），第2672-2680页，2014年。二、七[16] T. Groueix，M.Fisher，V.G. 金湾，澳-地Russell和M.奥布莉学习3D表面生成的一种方法在IEEE计算机视觉和模式识别会议（CVPR），2018年。一二三四七[17] I. Gulrajani， F.艾哈迈德， M 。阿尔约夫斯基河谷Dumoulin和A.C.考维尔改进的瓦瑟斯坦甘斯训练。神经信息处理系统（NIPS）的进展，第5767-5777页，2017年。四、六、七[18] C. Hane，S. Tulsiani和J. 马利克三维物体重建的层次表面预测在3D视觉国际会议（3DV）上。2017. 一二三四七[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 IEEE 计算机视觉和模式识别会议（CVPR）中，第770-778页4[20] K. 霍尼克多层前馈网络的逼近能力神经网络， 4（2）：251-257，3月。一九九一年3[21] Z. Huang，T.Li，W.Chen，Y.Zhao，J.兴角，澳-地勒让德尔，L.罗角，澳-地Ma和H.李从非常稀疏的多视图性能捕获的深度体积视频。在欧洲计算机视觉会议（ECCV）的论文集，2018。3[22] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁gans的逐步生长，以提高质量、稳定性和多样性。国际学习代表大会（ICLR），2018。2[23] D. P. Kingma和P.达里瓦尔发光：生成具有可逆1x1卷积的流。arXiv预印本arXiv：1807.03039，2018。2[24] D. P.Kingma和M.威林自动编码变分贝叶斯。2014年国际学习代表会议（ICLR）。二六七[25] C.莱迪格湖Theis，F.放大图片作者：J. Caballero，A. P.艾特肯，A. Tejani，J. Totz，Z. Wang和W.石使用生成对抗网络的照片逼真的单图像超分辨率。在

下载后可阅读完整内容，剩余1页未读，立即下载