深度学习方法表示和重建3D形状的新技术

122 浏览量更新于2023-10-12 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1形状表示Gidi Littwin1和Lior Wolf1，21特拉维夫大学2Facebook人工智能研究摘要我们提出了一种从单张图像重建3D形状的新方法，其中深度神经网络直接将图像映射到网络权重向量。由这些权重参数化的网络通过将体积中的每个点分类为形状内或形状外来表示3D形状。新的表示具有几乎无限的容量和分辨率，并且可以具有任意的拓扑结构。我们的实验表明，它导致更准确的形状推断从一个二维投影比现有的方法，包括体素，剪影，和网格为基础的方法。该代码将在：https：//github.com/gidilittwin/Deep-Meta网站。1. 介绍我们提出了一种新的深度学习方法，用于表示形状并从单个输入图像中恢复该表示每个形状被表示为深度神经网络分类器g，其将3D空间中的点作为输入。另外，网络g的参数（权重）由另一网络f从输入图像推断。该方法是优雅的，并实现了端到端的列车-一个简单而直接的损失。作为一种水平集曲面表示，保证得到一个连续流形。由于3D中的每个点都被g赋予一个值，因此可以获得有效的（甚至是可微的）渲染。出于同样的原因，与基于体素或点云的方法不同，3D中的每个点都给出了梯度信息，从而使训练效率更高。然而，这种梯度信息在形状边界附近的信息量更大。因此，我们提出了一种简单的方案，在训练过程中选择性地对3D点进行采样，使得物体边界附近的点被过度表示。与受容量限制的大多数其他方法相比，3D表面的容量在网络g的参数数量中是指数的。即使对于相对较小的网络，它也超过了所有图形应用程序的要求与基于网格的方法相比，所得到的形状的拓扑不限于模板形状，并且它可以具有任意的拓扑复杂度。我们的实验表明，除了这些建模和结构上的优势，该方法也导致更好的基准性能比现有的。2. 以前的工作在ShapeNet [6]等大规模CAD集合可用性和GPU并行计算能力增加的推动下，基于学习的解决方案已成为从单个图像重建3D形状的首选方法。一般来说，当前使用的3D表示分为三个主要类别：（i）基于网格的方法，诸如体素，其是像素的3D扩展，（ii）拓扑保持几何方法，诸如多边形网格，以及（iii）无序几何结构，诸如点云。基于网格的方法形成了目前文献中最大的工作主体然而，由于其立方存储器与分辨率的比率，体素不能很好地缩放。为了解决这个问题，研究人员提出了更有效的神经网络结构。Riegler等人[34]，Tatarchenko etal.[35]和H？neetal. [13]使用嵌套树结构（八叉树）来利用体素表示的固有稀疏性。Richter等人[32]介绍了一种编码器解码器架构，它解码成2D嵌套形状层，使3D形状的重建成为可能。处理数据固有稀疏性的另一种方法是使用点云表示。点云形成有效且可缩放的表示。Fan等人。[10]设计了一个点集生成网络，Jiang等人。[17]通过添加经由重新投影的轮廓的几何一致性损失和基于点的对抗性损失来改进。这种方法的明显缺点是模糊的拓扑结构，需要在后处理中恢复，以使对象得到适当的照明和纹理。另一种特别适用于2D投影的3D表示形式是多边形网格。Kato et18241825我体素点云多边形网格隐函数Meta泛函内存占用高 *低低高低重建分辨率受内存高受模板网格无限无限拓扑受限于分辨率没有拓扑受模板网格无限无限列车时刻长短短长短渲染适合适合非常适合适合适合表1.主要3D表示方法之间的主要特征比较* 体素表示的内存占用已通过更精细的分层数据结构得到一定程度的缓解。al. [21]介绍了一种基于渲染和比较的架构，通过模板网格的2D投影实现梯度的反向传播。为了促进有意义的训练，他们设计了一个可微分网格渲染管道，近似于轮廓比较成本函数的梯度Liu等人[26]扩展了他们的工作，设计了一个更有效的微分渲染引擎，产生了非常引人注目的结果。Wang等人[36]采用了一种创新的基于图的CNN从图像中提取感知特征，在完全监督的情况下利用预训练的有一些作品打破了这些类别。Groueix等人[11]学习通过预测局部2-流形的集合来生成3D形状的表面，并通过应用联合操作来获得全局表面。最近，同时与我们的工作，几个演示的使用连续隐式字段的形状表示。 Chen et al. [7]，Park et al.[31]Mescheder et al.[29]使用一个以形状嵌入为条件的MLP来表示形状。虽然作者使用了略有不同的公式和条件技术来实现形状表示的目标，但所有三种方法的共同属性是充当解码器的大型MLP与这些方法相反，我们的解码器将嵌入向量解码成一组权重，这些权重参数化函数空间，进而形成空间中的样本与形状占用之间的映射。在训练和推断时，模型生成解码器，这些解码器为每个形状唯一定义，因此参数效率非常这些概述的3D表示类别都有不同的缺点，并提出了不同的优点，见表。1.一、基于网格的方法从并行研究主题中进行的大量工作中提取，但不能很好地扩展或需要精心定制的层来处理这些限制。基于点云的方法克服了这一限制，但不重建拓扑连贯的形状或需要后处理来这样做。基于多边形网格的方法本质上更适合于2D监督，但是实施非常限制性的表示，这阻止了表现出与所选模板不同的拓扑的甚至非常简单的形状的重建。最近引入的基于隐式形状的方法[7，31，29]克服了这些问题中的大多数，但付出了非常长的代价。编码器，这在以高分辨率进行评估时是有问题的。目前还不清楚这些方法如何推广到包括多个形状类别的非常大的训练集，因为这些出版物都没有报告常用ShapNet地面实况注释的结果，而是选择对数据子集重新训练基线方法。Mescheder等人[29]是报告多类结果的唯一隐式形状方法，但以imagenet上预训练的形式引入了额外的监督。隐式曲面经典的活动轮廓方法，首先介绍了卡斯等人。[19]已经采用能量最小化迭代来将图像曲线（也称为蛇形曲线）引导向图像特征，例如图像边缘。受限于拓扑结构和无效的演化过程，该方法被重新表述为水平集方法[3，5，28，22]。水平集方法被推广到体积3D数据[25]。文献水平集方法主要用于曲线的演化。这种情况与我们的方法有很大的不同，我们的方法使用自然阈值为0.5的分类器的水平集，并采用直接回归来获得该分类器的参数水平集表示的性质仍然适用于我们的情况。超网络或动态网络指的是其中一个网络f被训练以预测另一个网络g的权重的技术。第一个贡献学习了需要自适应行为的任务的特定层[23，33]。更全面的动态网络随后被用于视频帧预测[16]。术语超网络是由于[12]，并且在[1]中介绍了其在少数学习中的应用3. 方法该方法采用两个网络f，g，参数值分别为θf，θI。网络权重θf在模型中固定，并在训练阶段学习网络g的权重是输入图像I的函数，作为网络f的输出给出。这两个网络代表不同层次的形状抽象。f是从输入图像I到网络g的参数θI的映射，并且g是将3D中具有坐标（x，y，z）的点p映射为（据作者报道），还有一个很大的问题。得分[001-word2nd]1826我我分类器该模型由以下方程正式给出：θI=f（I，θf）（1）sp=g（p，θI）（2）我们将f（I，θf）称为CNN，将g（p，θI）称为多层感知器（MLP）.先验地，g的通用架构是否可以执行建模任务尚不清楚。ShapeNet数据集中的标准化形状表示限制于3D立方体x，y，z∈的闭合2D流形{-1，1}。g（p，θI）应该能够准确地捕获帧间和帧内形状变化。正如我们在实验中所展示的那样-然而，具有少至四个隐藏层和少于5000个可训练参数的完全连接的神经网络确实是适当的选择。训练是在单一损失的情况下完成的，这是交叉熵分类损失。设得分 sp∈R 表示伯努利分布 [1−g （ p ，θI），g（p，θI）]，设y（p）∈{0，1}是表示是否点p在形状的内部（y（p）=1）或外部（y（p）=0）学习参数θf的未加权损失，具有地面真值形状y的图像I由下式给出：∫图1.点采样。左侧是网格顶点，右侧是训练期间采样的点。H（θf，I）=−y（p）log（g（p，f（I，θf）+V（1−y（p））log（1−g（p，f（I，θf）dp （三）其中V是形状所在的3D体积。在训练期间，通过体积V中的采样点来估计积分。与其他分类器的训练类似，决策边界附近的点信息量更大。因此，为了使训练更有效，我们在形状的边界附近采样更多的点该采样发生在地面实况网格的每个顶点附近。一个均匀的高斯与方差为0。1使用。通过使用每个形状的体素占用网格，有效地计算标签。在每个训练批次中，我们从批次中的每个形状样本中抽取固定数量的点。为了覆盖由于形状分布而几乎没有采样的空间区域，我们向每个样本添加10%的均匀分布点。图示见图1架构网络的架构如图所示。二、网络f是一个有五个区块的ResNet;g是完全连通的。网络g（p，θI）是将点p∈R3映射到标量场的MLP我们的默认架构包括四个隐藏层，每个隐藏层有32个神经元为了使这种架构更适合于regres-图2.我们神经网络的结构给定输入图像I，f的输出是网络g的参数θ I的集合。这些参数包括权重、偏倚和尺度参数。网络g将每个输入点分类为对象内部或外部。其中x是层θW（n）是第n层的权矩阵，θb（n）是偏置在这个例子中，我们添加一个与权重I分离的比例因子，我s（n）1827矩阵每个层n执行以下计算：向量，θI是学习的尺度向量。加权输入与标度之间的乘法y=（（θW（n）x）·θs（n））+θb（n）（四）vector是按坐标完成的。我我我1828n0的我S我对于网络g，使用ELU激活函数[9]。然而，实验表明ReLU或tanh几乎同样有效。请注意，网络g的权重实际上是由网络f产生的特征映射，因此表示受g的架构约束的函数空间。所提出的架构包括3394个参数，因此对于训练和推理都非常有效。f（I，θf）是一个结构与He等人提出的ResNet-34模型非常相似的ResNet模型。[15 ]第10段。它从一个卷积层开始，用N（5×5）个内核对I进行操作，然后经过B个连续的块，共享相同的结构。每个块由 3 个残差模组成，所有残差模都使用（3×3）内核。每个块中的第一残差模块通过步幅卷积将空间分辨率降低2，并将特征图的数量增加2. 后续模块保持空间和特征维度。这些模块使用预激活方案（BN-ReLU-Conv）。然后，网络采用平均池化层，产生大小为（16×N）的特征向量。K个全连接层，每个层有（16×N）个神经元，应用于该特征向量（对于K=2，ReLU-Conv-Relu-Conv）。这导致大小为（16×N）的特征向量，我们将其视为形状嵌入e（I，θf）。f网络然后分裂成多个头。g的每一层都有一组头部，索引为n=1，2，. L，每组包含一组线性回归变量为这一层提供权重（矩阵θW（n）），图3.来自ShapeNet-Core V1测试集的13个主要类别的对象嵌入的t-SNE可视化为了理解由g定义的形状的容量，我们考虑等效网络，其中ELU激活被ReLU激活所取代。对于这样的网络，线性区域的数量上限为O（（n）（L−1）n0nn0），对于具有n0个输入，L个隐藏层和n > n0个隐藏层神经元的网络[30]。对于网络g的架构，这相当于1e+4到8之间。6e+19个线性区域，用于我们最小的MLP（三层偏置项（矢量θb（n）I我）和尺度向量（θs（n））。每个有16个隐藏单元）和我们最大的测试MLP（6个64个隐藏单元的层）。虽然只有一个子-除非另有说明，我们使用N=64，B=5，K=2，L=4。然而，正如我们的实验所示，性能在这些参数方面是稳定的渲染由于我们希望使用现成的渲染器，渲染是通过以下过程完成的;参见第2节。6关于未来渲染器的讨论首先，我们评估域p=（等式2）使用点p∈[-1，1]3的网格，每个轴的空间分辨率为128行进中的立方体然后应用算法[27]来获得多边形网格。请注意，渲染分辨率不限于训练中使用的分辨率，实际上仅受计算资源的限制。4. 表示的属性形状由g在0.5水平的等值面定义。由于g使用ELU激活单元，因此它是不同的。因此，通过使用水平集的已知结果，根据隐函数定理，所获得的曲面是光滑流形[24]。与其他方法不同，该属性是在不限于特定网格拓扑的情况下这些区域的集合被包括在决策边界本身中，这表明基于网络的表示可以呈现非常高的形状表示能力，即使对于相对较浅和较窄的网络。该容量在L中以指数方式增加，在n中以多项式方式增加。5. 实验我们证明了我们的方法的有效性，通过比较它与其他国家的最先进的方法。实验在323和2563两种基本分辨率上进行。对于低分辨率实验，我们使用由Choy等人提供的数据集。[8]，其中包括超过40k个对象，跨越13个类别。每个对象都是从24个不同的视图中均匀采样，但具有30°的固定仰角轴视点。图像分辨率设置为（137×137）并且在每个轴上将体素网格分辨率设置为32该分辨率限制了网络输出的分辨率然而，它允许与以前的工作进行直接比较为了进行公平的比较，我们也使用了作者使用的相同的train/test分割。对于高分辨率实验，我们使用了H？ nee等人[13]提供的数据，该数据介绍了在分辨率为1829我我图4. ShapeNet-Core V1测试集同类对象之间的线性形状插值。(row 1）车-车，（第2排）椅-椅，（第3排）桌-桌，（第4排）飞机-飞机（224×224），在-20：30的更宽仰角分布下采样。由作者提供的数据集以323和2563两种网格分辨率生成，并分为训练/验证/测试集。5.1. 培训和质量成果该网络的形状参数为N=64，B=5，K=2和L=4，训练了20个epoch（大约4天），开始时学习率为5e-5，10个epoch后减少10倍，5个epoch后减少2倍额外的时代。一个网络针对所有类进行训练，而不享受类信息。如图3所示，由网络（大小为16N）获得的嵌入e已经学会以无监督的方式在类之间分离。学习的嵌入还呈现了可以被认为是语义空间中这是显而易见的图。其中，从测试集的同一类的两个随机形状的单个图像I1、I2获得的嵌入e1和e2是使用插值权重λ = 0，0线性插值（λε e1+（1−λ）e2）。25，0。5，0。75和1。这种效果并不局限于相同的类对象，如图5所示来自不同类的对象也成功地混合。据我们所知，我们是唯一的方法出的相关工作，提出跨类插值。所得到的标量场Sp以稳定的方式对对象进行编码。当阈值在0.1和0.9之间变化时，我们获得的形状与默认形状相似0.5阈值，如图所示。六、5.2. 定量结果323网格分辨率选项卡2提供了与文献方法的比较，根据Choy等人[8]提供的数据进行每个类和平均结果都被呈现。请注意，所有结果都由捕获所有类的单个模型提供，并且在没有类条件的情况下进行训练，并且无法访问预训练模型形式的可以看出，我们的方法优于-图5. ShapeNet-Core V1测试集的不同类别对象之间的线性形状插值。(row 1）桌台，（第2排）飞机车，（第3排）汽车沙发图6.在sp上用不同的阈值提取形状曲面，对应于隐场的不同水平集。从右下角开始顺时针：0。九比零。七比零。6，0。5，0。3，0。1.一、形成了平均性能的所有文献方法。在13个类别中，我们的方法在12个类别中优于所有方法，PCDI [37]在一个类别（枪支）中领先。为了进一步评估我们的嵌入强度，我们设计了一个简单的多视图测试，其中在测试时间内，对相同形状的多个视图I i的嵌入e（Ii，θf）进行平均。如可见于图 7、性能随着视图数量的增加而提高。以后期融合方式提高性能的能力表明，我们的嵌入行为良好，并且对确切的视点不变。我们的多视图结果也优于3D-R2 N2 [8]，这是我们发现的唯一一种报告我们采用的数据分割的多视图结果的文献方法。我们强调，与基线方法不同，我们没有重新训练我们的模型来处理多视图任务。2563网格分辨率选项卡3提供了与文献方法的比较，该方法是根据H？nee等人[13]提供的数据进行的。为了与以往的工作进行比较，1830图7.仅通过平均嵌入来在测试时添加视图x轴是视图数量，y轴是平均IOU。可以看出，对更多视图进行平均提高了所获得的形状的准确性。我们与3D-R2 N2 [8]的报告结果进行了比较，该结果专门针对多视图场景进行训练。其报告了网格分辨率为32 ×3的结果，将步幅为8的合并应用于在测试时间生成的预测体素网格。在13个类别中，我们的方法在8个类别中优于所有方法，LSM [18]在一个类别中领先，VP3D [20]在4个类别中领先。在这些实验中，网络g被参数化为6个隐藏层，每个隐藏层有32个隐藏单元，每个tanh激活都被激活。网络参数f（I，θf）取N=64，B=5，K=2，L=4。虽然我们相信IOU是一个更适合的三维形状重建任务的度量，我们也评估了我们的模型与倒角距离（CD）度量。为此，我们遵循协议，并在其出版物的第5.2节和表4中报告了EscherasNet [11]提供的结果。结果见表1。4，并在图中显示。115.3. 参数敏感性由于只使用一个损耗项，因此除了网络本身的架构之外，没有太多的参数可供选择该方法似乎对体系结构的选择不敏感。在选项卡中。5.我们评估了该方法对用于表示每个形状的网络g的结构的敏感性这些实验运行了12个时期，直到收敛。可以看出，在测试的三个激活函数（ELU，ReLU和tanh）中，性能相对恒定，并且对于广泛的层数和每层隐藏单元的数量。灵敏度也进行了评估，相对于参数的网络f。为此，我们测试了四种不同的ResNet架构。我们用块的数目（B∈ {4，5}）、基核的数目（N∈ {64，128}）和全连通层数（K∈ {0，2}）。总的来说，似乎没有什么意义--图8. ShapeNet的学习曲线显示平均IOU与测试集上的训练epoch。使用边界采样（蓝色）的训练与使用随机均匀采样（绿色）的训练进行比较。在这些运行中，学习率没有降低，为了不使结果偏向于特定场景的时间图9.从真实世界的图像重建。（左）输入图像。（右）重建结果。对参数的敏感性和对较大数目的块B=5的轻微偏好。5.4. 采样技术我们通过比较使用边界采样训练的网络与在[-1，1]体积立方体中使用随机均匀采样训练的网络在历元上获得的准确性来为了公平比较，两个网络共享相同的相对轻量级的架构（N=64，B=5，K=2），并使用相同的超参数集训练20个时期，而不降低学习率。用边界采样训练的网络达到了平均IOU得分65。8% vs.63. 5%的随机均匀抽样训练的网络。5.5. 真实世界图像我们遵循以前的方法，并使用在ShapeNet数据集上训练的相同模型，在来自互联网的真实世界图像上测试我们的模型如图所示9、我们的模型可以很好地推广到不同的类别。然而，我们注意到，成功的重建取决于视角。由于现有的数据集在这方面非常有偏见，下一步将是渲染一个关于相机参数的更均匀分布的数据集。1831方法3D-R2N2 [8] 51.3 42.1 71.6 79.8 66.1 46.6 62.8 54.4 38.1 46.8 66.2 51.3 51.3 56.0OGN [35] 58.7 48.1 72.9 81.6 70.2 48.3 64.6 59.3 39.8 50.2 63.7 53.6 63.2 59.6PSGN [10] 60.1 55.0 77.1 83.1 74.9 54.4 70.8 60.4 46.2 55.2 73.7 60.6 61.1 64.0VTN [32] 67.1 63.7 76.7 82.1 74.2 55.0 69.0 62.6 43.6 53.4 68.1 57.3 59.9 64.1MTN [32] 64.7 57.7 77.6 85.0 75.6 54.7 68.1 61.6 40.8 53.2 70.1 57.3 59.1 63.5PCDI [37] 61.2 60.9 68.3 83.2 74.4 57.2 69.969.546.4 61.4 69.8 61.5 58.5 64.8我们的71.4 65.9 79.3 87.1 79.1 60.7 74.868.048.6 61.7 73.8 62.8 65.4 69.1表2.形状重建从一个单一的图像在ShapeNet-core在323网格分辨率。报告每个类别的平均IOU（%）以及所有13个类别的平均IOU（%）。数据集由Choy等人提供。[八]《中国日报》方法3D-R2N2 [8] 56.7 43.2 61.8 77.6 65.8 50.9 58.9 56.5 40.0 44.0 56.7 51.6 53.1 55.1最小平均值[18] 61.1 50.8 65.9 79.3 67.7 57.8 67.069.748.1 53.9 63.9 55.6 58.3 61.5VP3D [20] 69.1 59.8 72.4 80.277.560.1 65.6 66.4 50.559.7 68.060.761.365.5我们的71.3 63.4 75.6 81.575.161.4 72.365.752.056.2 64.761.6 60.266.2表3.和Tab一样。2对于H？nee等人[13]提供的数据集HSP [13][第11话] 我们平均CD×10311.69.524.35表4.从ShapeNet上的单个图像重建形状-核心在2563网格分辨率。报告所有13个猫区的平均CD（%）。 H？nee等人提供的数据集[13]。所报告的倒角距离（CD）是在10000个均匀采样点上计算的，乘以103并在所有类上取平均值。ELU ReLUtanh16 32 64 16 32 64 16 32 643 65.2 65.2 66.1 65.4 65.6 66.1 65.1 65.4 65.74 65.4 65.6 65.8 65.1 65.5 66.0 65.8 64.9 66.15 64.8 65.5 66.1 65.2 65.5 65.9 65.6 65.7 65.36 65.5 66.0 64.5 65.1 65.8 64.8 65.4 65.6表5.对g的超参数的敏感性。报告的是使用ELU，ReLU或tanh激活训练的网络在12个时期后的IOU（%）。每一行（列）都有不同数量的层（每层隐藏单元）。5.6. 雅可比范数我们希望计算g相对于p（x，y，z），对应于g的雅可比矩阵。超参数IOUNBK644267.01284067.0645267.31285067.3表6.对网络参数的敏感性。报告的是使用不同超参数设置训练的网络收敛后的IOU（%）。实验进行了15个时期。为了评估形状边界的特性W. e计算。零水平下的雅可比范数. J（θf，I，p）|s（p）= 0。.所获得的范数可以被视为形状的局部灵敏度分数，或者某种置信度。它显示在图中。10在一个规模，其中低规范是黄色和高规范是蓝色。平坦表面比高度弯曲的表面呈现较小的梯度范数。请注意，梯度的方向总是正常的表面，这是一个性质的等值面。6. 扩展我们的方法的简单性与J（θf，I，p）=θ f（g（p，f（I，θf）布吕普（五）替代表示导致直接的扩展。例如，我们可以模拟动态形状，飞机飞机板凳板凳内阁内阁车车手机手机椅子椅子沙发沙发火器火器灯灯监测监测扬声器扬声器表表船只船只是说是说1832..图10.在形状曲面上计算的雅可比范数值图11.单幅图像三维重建。(rows 1、3）输入图像。(rows 2，4）我们的结果。通过使用泛函g，p=（x，y，z，t），其中t表示时间维度，并且使用学习函数f来恢复g的权重，该学习函数f将图像序列作为输入。可以添加损失项S以鼓励g在模型边界附近在时间上是平滑的∫。.图12.从左边的单个数字获得的时间重建结果序列可见于图12，从单个视图（282），该方法学习生成整个序列（针对不同的α值和 10242的更高分辨率渲染）。该方法也可以直接应用于点之外，其他几何图元。例如，函数可以指示一组三个点是否是属于形状边界的三角形网格我们的代表性也开辟了有趣的选择领域的微分渲染。隐式字段长期以来一直用于图形应用程序[2]。设计了几种渲染技术，如光线跟踪[14]和球体跟踪[4]，以处理将这些场投影到2D中以生成图像的任务。由于我们推断的隐式场在任何地方都是可微的，因此应用这些技术能够反向传播由图像-图像比较产生的误差。例如，这可以导致有效的多图像训练。可微分渲染器的POC实现是在使用简单的L2损失与地面实况剪影从剪影学习3D的上下文中进行的，所述地面实况剪影从对象周围的三个规范视点捕获轮廓通过沿相关3D射线的点p的最大池化sigmoid（g（p））每一个图像像素。我们获得的IOU为64.4，而从三个轮廓学习的文献[20]60.0. 然而，所使用的三种观点是不同的。7. 结论学习新的功能表示的形状在这项工作中引入只需要一个单一的损失。所得到的光滑流形具有很高的容量。述的方法S（θf，I）=−. （g（p，f（I，θf）。中文（简体）是优雅的，实现简单，易于扩展。的V × T。不客气。通过该方法学习的嵌入显示出直观的语义行为，并且在该潜在空间中进行平均，其中I是一系列图像，y是基本事实3D形状序列，V是3D体积，T是时间维度。请注意，此扩展只需要对方法的代码进行很少的更改相比之下，如果要使用网格或体素对时间序列进行建模，则表示的增加的复杂性将是显著的，使得高分辨率模型不太容易处理，并且随着时间的推移的平滑性将需要显著的代码。在POC实验中，我们对mnist数据集进行自动编码，其中g将具有坐标（x，y，α）的3D点p映射到[0，1]中的值。α是一个动态参数，它在数字和它的镜像版本之间作为从不同视图获得的多个表示导致更精确的形状。我们的实验表明，新的表示导致更准确的结果比文献中的方法从一个单一的视图的三维重建任务。确认该项目已获得欧洲研究委员会（ERC）在欧盟地平线 2020 研究和创新计划下的资助（授予 ERCCoG725974）。1833引用[1] 卢卡·贝尔蒂内托，约翰·阿托·F·恩里克斯，杰克·V·阿尔马德雷，菲利普·托尔和安德烈·韦达尔迪。学习前馈一次性学习器。神经信息处理系统进展，第523-531页，2016年2[2] 朱尔斯·布卢门撒尔隐式曲面的多边形化。计算机辅助几何设计，5（4）：341-355，1988年。8[3] VicentCaselles ， FrancineCatte' ， TomeuColl ，和Franc.Dibos 。图像处理中活动轮廓的几何模型。Numerische mathematik，66（1）：1-31，1993. 2[4] Vicent Caselles ， Francine Catt ， Bartomeu Coll ， andFranoise Dibos. 图像处理中活动轮廓的几何模型。Numerische Mathematik，66：1-31，01 1993. 8[5] Vicent Caselles Ron Kimmel和Guillermo Sapiro测地线活动等高线。国际计算机视觉，22（1）：61-79，1997。2[6] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.Shapenet：一个信息丰富的3D模型库，2015年。1[7] 陈志勤和张浩。学习隐式场生成形状建模，2018。2[8] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。四、五、六、七[9] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习。 arXiv 预印本 arXiv ： 1511.07289 ，2015。4[10] Haoqiang Fan，Hao Su，and Leonidas J. Guibas从单幅图像重建三维物体的点集生成网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。1、7[11] 放大图片作者：David G. Kim，Bryan C.罗素和马修·奥布里。一种学习 3d 表面生成的纸模方法。 2018IEEE/CVF计算机视觉与模式识别，2018年6月。二六七[12] David Ha，Andrew Dai，and Quoc V Le. 超网络arXiv预印本arXiv：1609.09106，2016。2[13] ChristianH¨ ne，ShubhamTulsiani，andJitendraMalik. 三维物体重建中的高分辨率 2017 年国际 3D 视觉会议（3DV），第412-420页。IEEE，2017年。一、四、五、七[14] 帕特·汉拉汉。光线追踪代数曲面。ACM SIGGRAPHComputer Graphics，第17卷，第83-90页ACM，1983年。8[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平在2015年IEEE计算机视觉国际会议（ICCV）的会议记录中，ICCVIEEE计算机协会。4[16] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。神经信息处理系统进展，第667-675页，2016年。2[17] Li Jiang ， Shaoshuai Shi ， Xiaojuan Qi ， and Jiaya Jia.Gal：单视图3D对象重建的几何对抗损失。在欧洲计算机视觉会议（ECCV），2018年9月。1[18] Abhishek Kar，Christian Hne，and Jitendra Malik.学习多视图立体声机器，2017年。六、七[19] 迈克尔·卡斯安德鲁·维特金和德米特里·特佐普洛斯。Snakes：活动轮廓模型。国际计算机视觉杂志，1（4）：321-331，1988。2[20] 加藤博治和原田达也。学习观小学 OR用于单视图3D重建。arXiv预印本arXiv：1811.10719，2018。六七八[21] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集，第3907- 3916页2[22] Satyanad Kichenassamy ， Arun Kumar ， Peter Olver ，Allen Tannenbaum，and Anthony Yezzi.梯度流和几何活动轮廓模型。在IEEE计算机视觉国际会议，第810IEEE，1995年。2[23] Benjamin Klein，Lior Wolf，and Yehuda Afek.用于短期天气预测的动态卷积层。在IEEE计算机视觉和模式识别会议论文集，第4840-4848页，2015年。2[24] A.A. 科辛斯基差动歧管Dover Book on Math-数学书。Dover Publications，2007. 4[25] 马蒂亚斯·克鲁格，帕特里斯·德尔马斯，乔治·吉梅尔法布。基于活动轮廓的三维曲面分割。在欧洲计算机视觉会议上，第350Springer，2008. 2[26] Shichen Liu，Weikai Chen，Tianye Li，and Hao Li.软光栅化器：无监督单视网格重建的可微分绘制。arXiv预印本arXiv：1901.05567，2019。2[27] William E. Lorensen和Harvey E.克莱恩移动立方体：一种高分辨率三维表面构造算法。SIG-图形计算Graph. ，21（4）：163-169，Aug. 1987. 4[28] Ravi Malladi，James A Sethian，and Baba C Vemuri. 拓扑独立形状建模和恢复的进化前沿。欧洲计算机视觉会议，第1-13页Springer，1994年。2[29] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin，and Andreas Geiger.占用网络：学习函数空间中的3D重建，2018。2[30] Guido F Montufar，Razvan Pascanu，Kyunghyun Cho，and Yoonge Bengio.关于深度神经网络线性区域的数量。神经信息处理系统的进展，第2924-2932页，2014年4[31] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习形状表示的连续符号距离函数，2019。21834[32] 斯蒂芬·里希特和斯特凡·罗斯。Matryoshka网络：通过嵌套形状层预测三维几何图形。在IEEE计算机视觉和模式识别会议论文集，第1936-1944页，2018年1、7[33] G. Riegler，S. Schulter，M. Rther和H.比肖夫非盲单图像超分辨率的条件回归模型。2015年IEEE计算机视觉国际会议（ICCV），第522-530页，2015年12月。2[34] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger。Octnet：以高分辨率学习深度3D表示。2017年IEEE计算机视觉和模式识别会议（CVPR），2017年7月。1[35] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络：用于高分辨率3d输出的高效卷积架构。在IEEE计算机视觉国际会议论文集，第2088-2096页1、7[36] Nanyang Wang ， Yinda Zhang ， Zhuwen Li ， YanweiFu，Wei Liu，and Yu-Gang Jiang. Pixel2mesh：从单个rgb图像生成3d网格模型。在欧洲计算机视觉会议（ECCV）的会议记录中，第522[37] Wei Zeng，Sezer Karaoglu，and Theo Gevers.通过深度交互从单目图像推断五、七

下载后可阅读完整内容，剩余1页未读，立即下载