纹理场：基于神经网络参数化的3D纹理表示

167 浏览量更新于2023-10-16 收藏 13.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

45310纹理场：在函数空间中学习纹理表示0Michael Oechsle 1 , 2 Lars Mescheder 1 Michael Niemeyer 1 Thilo Strauss 2 † Andreas Geiger 101 自主视觉组，智能系统MPI和图宾根大学 2 ETAS GmbH，博世集团，斯图加特01 { 姓.名 } @tue.mpg.de † { 姓.名 } @etas.com0摘要0近年来，在基于学习的3D对象重建方面取得了重要进展。同时，提出了能够生成高度逼真图像的生成模型。然而，尽管在这些密切相关的任务中取得了成功，但3D对象的纹理重建却受到研究界的较少关注，现有的方法要么局限于相对低分辨率，要么受到实验设置的限制。造成这些限制的一个主要原因是常见的纹理表示对于现代深度学习技术来说效率低下或难以接口。在本文中，我们提出了一种新颖的纹理表示方法——纹理场，它基于用神经网络参数化的连续3D函数回归。我们的方法避免了形状离散化和参数化等限制因素，因为所提出的纹理表示与3D对象的形状表示无关。我们展示了纹理场能够表示高频纹理并与现代深度学习技术自然融合。实验结果表明，纹理场在条件纹理重建3D对象方面比现有方法表现更好，并且能够学习用于纹理化未见过的3D模型的概率生成模型。我们相信，纹理场将成为下一代生成式3D模型的重要组成部分。01. 引言03D重建是计算机视觉的重要目标之一。最近，视觉界在单张图像3D重建[6, 7, 9, 13, 23, 25, 43,45]和使用基于学习的技术生成3D对象[4, 32,46]方面取得了令人瞩目的进展，这些技术通过融入先验知识来解决模糊性问题。然而，以往的基于学习的3D重建工作主要集中在几何重建问题上。相比之下，3D对象的纹理重建在学术界受到的关注较少。0纹理场0带纹理的3D模型03D模型02D图像0图1：纹理场接受一个3D形状和（可选）一个物体的单个2D图像作为输入，并学习一个连续函数tθ，将任意3D点p映射到颜色值c，从而能够准确预测纹理化的3D模型。0以往的单张图像纹理重建方法在纹理信息的表示方式上存在差异。最近的一些工作[39,42]提出了用于彩色3D重建的体素体积表示。然而，由于体素表示的计算成本随分辨率的增加呈立方增长，体素化通常限制在较低的分辨率（通常为32^3或64^3），因此无法表示高频细节。另一种纹理表示方法是使用2D纹理图集和参数化网格，通过UV映射将形状流形上的点映射到纹理图集中的像素。然而，基于网格表示的当前方法通常假设已知拓扑结构和预定义的模板网格，这限制了这些方法适用于特定的对象类别，如鸟类[18]或人脸[8,36]。在没有模板网格的情况下，对于任意形状的纹理预测仍然是一个未解决的问题。0贡献：上述方法的主要限制因素是它们的纹理表示，要么不允许高分辨率重建，要么严重依赖于任务特定的形状参数化，限制了这些方法的普适性。相反，理想的纹理表示应该独立于形状表示（体素、点云、网格等），并能够表示高频细节。为了实现这个目标，我们45320提出了纹理场作为纹理的一种新颖表示方法。我们的关键思想是学习一个在3D空间中表示纹理信息的连续函数，见图1。通过通过深度神经网络对这个函数进行参数化，我们能够将这个表示集成到一个端到端的3D纹理重建的深度学习流程中进行训练。10我们在各种3D物体类别上的实验证明，纹理场能够从单个图像中预测高频纹理信息。我们将我们的方法与最先进的3D重建方法[25]结合起来，得到一种同时重建物体的3D形状和纹理的方法。除了条件实验外，我们还将我们的新颖纹理表示扩展到生成设置，并展示了给定3D形状模型和潜在纹理编码的纹理合成的初步结果。我们进行了不同物体之间的纹理转移以及潜在纹理空间中的插值的实验，这些实验表明我们的生成模型学习到了一个有用的纹理表示。02. 相关工作0我们现在简要讨论关于单个图像3D重建、使用3D知识进行生成图像建模和连续表示学习的最相关工作。02.1. 单个图像重建0近年来，从单个图像中重建3D形状取得了很大进展[6, 7, 9,13, 23, 25, 43, 45]。0体素：Tulsiani等人[42]提出了一种基于体素的纹理表示，用于基于射线一致性和多视图监督学习彩色3D重建。最近，Sun等人[39]结合了2D到3D外观流估计和体素颜色回归，以监督的方式学习重建彩色体素化。然而，基于体素的表示由于计算和内存限制而在分辨率上严重受限。相比之下，我们的连续方法不需要离散化，因此能够呈现更多细节，如我们在第4节的实验评估中所展示的。0点云：近年来，新颖视角合成[27, 31, 40,48]已被用于从单个图像重建彩色点云。在[40]中，通过结合新颖视角合成和深度估计，将预测的图像重新投影到彩色点云中。在[27]中，使用多视图立体算法从一组新视图中重建点云。不幸的是，基于点云的表示是稀疏的。虽然可以从点云中提取密集的网格表示，但是01同时参见[35]，该工作提出了类似的想法。0重建形状通常无法与最先进的3D重建方法的质量相匹配，并且推断缺失的纹理信息需要额外的后处理步骤。相反，我们的方法允许推断3D空间中任何位置的外观，并且可以与任意形状表示结合使用。0网格：基于网格的方法依赖于类别特定的模板模型和刚性纹理参数化[8, 18,36]。相比之下，我们的重建方法可以表示任意网格的纹理，而不需要类别特定模板模型的UV纹理映射。需要注意的是，对于任意网格模型确定适当的UV映射是一个非常棘手的问题，通常需要使用各种启发式方法进行图集生成。我们的方法的优势在于通过将纹理与形状表示分离来避免了网格参数化的问题。02.2.生成模型0最近的研究表明，利用对生成的形状的3D知识可以改进图像生成方法[3, 11, 19, 20, 24, 30,47]。Alhaija等人[2]提出了一种模型，该模型学习将内在属性（深度、法线、材质）转化为RGB图像。Zhu等人[49]学习在2D图像中预测3D几何形状以及纹理信息，通过在无监督设置中分离形状、纹理和姿态。与这些基于图像的方法不同，我们直接在3D中预测整个物体的纹理。02.3.连续表示0最近，参数化的连续函数在3D形状重建中变得流行。一些工作[6, 17, 25,28]提出将3D重建形式化为学习3D空间中的连续占用函数或有符号距离场，通过神经网络参数化。此外，在[10]中，使用连续函数来生成2D图像的颜色值。在这项工作中，我们将学习函数空间中的表示的概念扩展到重建和生成3D物体的纹理信息。03.方法0本节描述了提出的纹理场表示，并演示了如何将其应用于条件和无条件纹理合成任务。03.1.纹理场0最近的3D重建方法[6, 25,28]将3D形状表示为占用概率或表面距离的连续函数。与基于点、体素或网格的表示不同，这些方法不依赖于固定的离散化，因此是表示外观信息的理想基础。我们通过将表面纹理嵌入到3D空间中的连续函数中来探索这个想法。结合最先进的3D重建技术，这使我们能够从单个2D图像重建带纹理的3D模型。设t(∙)表示将3D点p∈R3映射为颜色值的函数 Shape EncoderTexture Field Sampling Image Encoder3D Shape2D Image Recon.LossDepth Map3D PointPredicted ImageTrue ImagePoint CloudRendering Unprojection VAE Encoder GAN DiscriminatorAdver-sarialLossConditional ModelGAN ModelVAE ModelColor Legend:KL DivergenceColorrepresenting appearance information. We explore this ideaby embedding surface texture as a continuous function in3D space. In combination with state-of-the-art 3D recon-struction techniques this allows us to reconstruct a textured3D model from a single 2D image.345330图2：模型概述。彩色箭头表示表示条件、GAN和VAE模型的替代路径。蓝色和红色框表示我们模型的可训练组件，分别通过神经网络参数化。物体的3D形状被编码为一个固定长度的向量表示s。此外，我们从随机选择的视点渲染深度图D，并通过将所有N个图像像素ui投影到3D来获得相应的3D点pi。重建损失最小化纹理场tθ(pi, s,z)预测的像素颜色ˆci与真实像素颜色ci之间的差异。对于训练条件模型，潜在变量z编码有关输入图像的信息。在无条件情况下（即GAN和VAE），z从高斯分布中采样。0将颜色值c∈R3表示为一个3D向量场：0t: R3 → R3 (1)0通过将函数t参数化为具有可学习参数θ的神经网络tθ，我们将问题简化为一个简单的回归任务。然而，纹理生成问题在没有进一步约束的情况下仍然是不适定的。因此，为了让tθ了解物体的输入形状，我们将tθ条件化为一个形状嵌入s∈S。这有助于纹理场将其预测引导到物体表面，并允许利用与图像边缘常对齐的上下文几何信息，例如表面不连续性。在本文中，我们探索了3DCAD模型以及使用神经网络进行基于图像的3D重建[25]。不幸的是，即使给定输入的3D形状，仍然存在各种可能的纹理解释。例如，考虑汽车，其中仅凭3D几何形状既不能确定颜色，也不能确定窗户或前灯的确切形状。然而，我们可以通过提供关于物体外观的信息进一步约束任务。0具体来说，我们将tθ条件化为从任意视点拍摄的额外2D图像。请注意，图像只提供了部分外观信息，因为它只从一个视角描绘了物体。此外，我们将图像编码为与视角无关的全局特征表示z。因此，我们的方法不假设相机外参相对于物体是已知的，因此能够使用“野外”图像对未纹理化的3D形状进行纹理处理。重要的是，输入图像不需要描绘与3D模型完全相同形状的物体。这在实践中将是一个很大的限制，因为通常只能从单个图像中获取近似形状。总之，我们将纹理场定义为从3D点p、形状嵌入s和条件z到颜色c的映射：0tθ：R3×S×Z → R3 (2)0接下来，我们将同时考虑条件情况和无条件情况。对于无条件情况，我们利用概率生成网络[11,22]，通过一个随机潜在代码z来捕捉不确定性。0模型：图2显示了我们的纹理场模型的概述。彩色箭头表示代表条件模型、GAN模型和VAE模型的替代路径。蓝色和红色框表示我们模型的可训练组件，其由神经网络参数化，这些参数是联合训练的。现在我们详细介绍我们模型的每个组件。Lcond = 1B∥tθ(pbi, sb, zb) − cbi∥1(4)ˆX = Gθ(zb|Db, sb) = {tθ(pbi, sb, zb)|i ∈ {1, . . . , Nb}}(5)LVAE = 1B�β KL(qφ(z|Xb, sb) ∥ p0(zb))+∥tθ(pbi, sb, zb) − cbi∥1�(6)45340形状编码器：为了向纹理场tθ提供物体的3D形状信息，我们从输入形状中均匀采样3D点（通常以三角网格的形式提供），并将得到的点云传递给PointNet编码器[29]，采用[25]的网络架构。这将得到一个固定维度的形状嵌入s。0图像编码器：对于条件情况（图2中的红色箭头），我们还从输入图像中提取外观信息。具体来说，我们使用一个具有18层的标准预训练残差网络[14]将输入图像编码为一个固定维度的潜在代码z。0纹理场：给定输入形状s和条件z，我们提出的纹理场模型能够预测任意3D点pi的颜色值ci。因此，可以直接为3D网格上的每个点上色。不幸的是，基于网格的外观表示需要额外的UV映射来表示纹理。因此，我们在2D图像空间中训练我们的纹理模型，这提供了一种规则且高效的表示方法。0为了实现这个目标，我们使用OpenGL从任意视点渲染深度图D和对应的彩色图像X。像素ui处的颜色和深度di被预测为：0ˆci = tθ � di RK−1ui + t, s, z � (3)0其中i表示具有有限深度值的像素的索引，i ∈ {1, ...,N}，N是图像中前景像素的数量（即物体可见的像素）。这里，相机的内参和外参分别由K ∈ R3×3和（R ∈ R3×3，t∈R3）表示，并且像素ui用齐次坐标表示。为了训练我们的模型，我们将预测的颜色ˆci与渲染图像X中相应像素ci的颜色进行比较。03.2. 训练0本部分描述了我们如何训练条件模型和无条件模型。有关可视化说明，请参见图2。0条件设置：在条件情况下，我们将输入图像的嵌入z输入到我们的网络中。我们通过最小化预测图像ˆX与渲染图像X之间的ℓ1损失来在监督设置下训练tθ(p, s, z)：0B表示mini-batch的大小。0N b表示mini-batch的大小。0这里， B 表示mini-batch的大小。mini-batch的每个元素表示具有 Nb 个前景像素的图像02注意，这不会对我们的模型造成任何限制。在测试时，我们的模型可以对任意3D点进行评估。3需要注意的是，在训练期间，输入图像和用于监督模型的图像 X不需要相同，因为我们学习的是一个视角不变的表示 z 。0（即物体可见的像素）。注意，形状编码 s b 和输入编码z b隐式地依赖于形状编码器和图像编码器网络的参数。我们联合训练所有三个网络的参数（形状编码器、图像编码器、纹理场）。0无条件生成模型：在无条件设置下，我们只提供3D形状作为输入，没有关于物体外观的其他信息。如上所述，这是一个高度不适定的任务，有许多有效的解释。因此，我们利用概率生成模型来捕捉输出中的不确定性，使用从高斯分布中采样的潜在编码 z（参见图2中的绿色和蓝色模型）。具体而言，我们将两个最近的深度潜变量模型（生成对抗网络（GAN）[ 11]和变分自编码器（VAE）[ 22]）调整到我们的设置中。这两个模型在过去已经应用于各种基于图像的任务中[ 11 , 12 , 19 , 22 , 30 , 33]，因此非常适合我们的基于图像的损失函数的背景。首先考虑对抗训练。给定3D形状，学习纹理信息的生成模型的问题可以使用条件GAN（conditional GAN）[ 26]来解决，其中生成器以3D形状为条件。生成器表示为一个纹理场 t θ : R 3 × S × Z → R 3 ，它将潜在编码 z映射到给定3D位置 p i 条件下的形状嵌入 s 的RGB图像：0如上所述， b 表示mini-batch的一个元素， s b取决于形状编码器的参数。我们使用一个标准的基于图像的判别器 D φ ( X b | D b ) ，它以输入深度图像 D为条件，通过将其与输入图像连接起来来进行条件训练。对于训练模型，我们使用非饱和的GAN损失和 R 1 正则化 [24]。学习潜变量模型的另一种方法是使用条件变分自编码器（cVAE）[ 37]。我们的cVAE模型包括一个编码器网络，将彩色图像 X映射到一个均值 µ 和方差 σ 的各向同性正态分布随机变量z ，该变量遵循分布 q φ ( z | X , s )。我们的纹理场模型用作解码器，通过预测每个像素 u i对应的3D位置 p i 条件下的颜色值 ˆ c i来预测颜色值。根据[ 22 , 33 ]，我们最小化变分下界0B表示mini-batch的大小。0其中KL表示Kullback-Leibler散度，45350p 0 ( z ) = N ( z | 0 , I ) 表示标准正态分布， z b是从后验分布 q φ ( z | X b , s b ) 中采样的样本， β是KL散度和重构损失之间的权衡参数 [ 16 ]。再次说明， b表示mini-batch的一个元素， s b取决于形状分布的参数。在实践中，我们设置 β = 1。在训练过程中，我们使用重参数化技巧 [ 22 , 33 ] 来优化L VAE 。在测试时，我们通过从标准正态分布中采样 z来获得所考虑的3D对象的新纹理样本。03.3. 实现细节0在我们的所有实验中，我们使用来自[25]的全连接ResNet[14]架构实现纹理场tθ(∙, s,z)，详细信息请参见补充材料。对于图像编码器，我们使用在ImageNet上预训练的ResNet-18架构[14]。对于形状编码器，我们采用[25]中的PointNet[29]架构。GAN鉴别器和VAE编码器基于[24]中的鉴别器。我们使用Adam[21]以学习率10^-4来端到端地训练我们的监督模型和VAE模型。我们的GAN使用交替梯度下降法使用相同的学习率使用RMSProp优化器[41]进行训练。04. 实验评估0实验：我们在三个不同的实验中评估我们的方法。在第一部分中，我们通过分析方法在单个3D对象上训练时能够多好地表示高频纹理来研究TextureFields的表示能力。在第二部分中，我们将我们的方法应用于具有挑战性的单视图纹理重建任务，即在只给出3D形状和单个视图的情况下预测3D对象的完整纹理。此外，我们将我们的方法与一种最先进的形状重建方法[25]相结合，用于完整纹理3D重建，该方法还包括重建3D对象的形状。在最后一个实验中，我们探索我们的表示是否也可以在生成设置中使用，其中目标是在只有3D对象的形状而没有其他输入的情况下生成可能纹理的多样分布。0基线：只有少数先前的工作在没有预定义模板网格或有关相机视图的情况下考虑纹理重建。因此，我们通过将输入图像映射到网格上，通过将所有顶点投影到输入视图中来确定它们的颜色，构建了一个简单的基线。虽然这个简单的基线接收了有关输入视图相机的附加信息，但我们相信它仍然可以作为一个很好的健全性检查，以查看我们的方法是否真正学到了一些有用的东西，并且能够正确地填充遮挡区域。作为第二个基线，我们考虑了一种新视图合成（NVS）方法，该方法使用与我们的方法相同的图像编码器。0方法：我们采用了UNet架构4[34]将对象的深度渲染转换为RGB图像。虽然这种方法也可以生成对象的新视图，但它需要额外的（有损）后处理来生成对象的完整纹理映射。特别地，对于这个基线，不能保证新生成的视图在视点变化下是一致的。最后，我们将Im2Avatar[39]作为从单个图像进行完整纹理3D重建的基线。据我们所知，该方法目前在所有基于体素的3D重建方法中实现了最高分辨率（64^3），并且产生了最先进的结果。我们使用Im2Avatar的官方实现5。0数据集：除非另有说明，我们使用ShapeNet数据集[5]中的“汽车”、“椅子”、“飞机”、“桌子”、“长凳”、“柜子”、“沙发”、“灯”和“容器”这些类别，因为这些类别包含丰富的纹理信息，同时提供了大量的形状变化。请注意，数据集中的所有模型都是轴对齐的。对于我们的条件实验，我们使用Choy等人提供的渲染图像作为输入。为了训练我们的模型，我们从上半球的随机视图中渲染了每个对象的额外10个图像和深度图。0度量：为了评估，我们考虑了三个不同的图像空间度量来评估对象的随机视图。首先，为了评估我们的方法和基线对于给定对象类别的外观分布的捕捉能力，我们使用了Fr´echetInception距离（FID）[15]。这是一种常见的图像分布度量，在GAN文献中被广泛使用[3, 15, 19,20]。此外，为了更好地估计预测视图与基准视图之间的距离，我们使用了结构相似性图像度量（SSIM）[44]。由于我们发现SSIM主要捕捉图像的局部特性，我们还引入了一种更全局的感知度量，我们称之为特征-ℓ1-度量。类似于FID，特征-ℓ1-度量通过将考虑方法生成的图像和基准视图嵌入到特征空间中，使用Inception网络计算。然后，特征-ℓ1-度量计算预测图像和基准图像的特征激活之间的平均绝对距离。04.1. 表示能力0这个实验的目标是探索我们的纹理场模型的表示能力。这个“过度拟合”实验有助于将图像编码器的质量与纹理场表示本身分离开，并为我们在将纹理场应用于更困难的任务时可以期望的重建质量提供一个上界。0详细信息请参见补充材料。5https://github.com/syb7573330/im2avatar45360真实纹理场体素化（128x128x128）0图3：表示能力。将适用于猫/人3D模型的纹理场与基于体素的表示和相应的真实模型进行比较。0任务。我们分别在猫和人的3D网格上训练我们的方法，使用500个视角的512x512像素渲染。图3展示了定性结果，将我们的模型与固定分辨率为128x128x128的体素化进行比较。我们观察到，纹理场可以表示高频信息，而体素表示受限于有限粒度的曼哈顿世界。正如我们在补充材料中展示的，纹理场还可以同时表示多个对象的纹理。这些实验证实了纹理场是一种有前途的纹理表示方法。04.2. 单图像纹理重建0现在我们将注意力转向单图像纹理重建这一具有挑战性的任务。为了实现这个目标，我们进行了纹理重建的实验，给定一个3D模型和一个来自随机相机视角的2D对象图像。我们使用第3.2节中描述的条件设置训练我们的方法。在测试时，我们将训练好的模型应用于三种不同的设置。在第一种设置中，我们使用真实的3D形状作为输入，并将我们的模型应用于对象的合成渲染。在第二种设置中，我们将我们的方法与最先进的形状重建方法[25]相结合，以获得形状和纹理的完整3D重建流程。最后，在第三种设置中，我们研究我们的模型是否也适用于真实数据。在这里，我们使用真实汽车的图像以及ShapeNet数据集中类似的3D形状。06 3D模型来自free3d.com和turbosquid.com。0投影NVS纹理场0条件（2D）预测（3D）0图4：纹理重建。展示了我们的方法（纹理场）与基线方法的定性比较。在这个实验中，我们使用GT形状作为输入。0条件（2D）预测（3D）0图5：从真实图像中的纹理重建。在这个实验中，我们的模型将纹理从以前未见过的真实图像转移到未见过的3DCAD模型上。0第三种设置中，我们研究我们的模型是否也适用于真实数据。在这里，我们使用真实汽车的图像以及ShapeNet数据集中类似的3D形状。0GT形状：当使用真实形状时，我们的模型成功地学习从对象的单个图像中提取纹理，如图4所示。特别是，我们的模型可以完成未被看到的纹理的部分。45370FID SSIM 特征-ℓ10投影NVS纹理场投影NVS纹理场投影NVS纹理场0飞机 15.375 17.816 9.236 0.970 0.964 0.968 0.143 0.158 0.136 汽车 70.070 72.209 24.271 0.840 0.887 0.885 0.2360.238 0.192 椅子 8.045 8.788 5.791 0.931 0.947 0.941 0.127 0.125 0.124 桌子 10.254 9.311 8.846 0.934 0.953 0.9430.123 0.117 0.123 长凳 16.527 17.484 12.965 0.921 0.936 0.937 0.144 0.142 0.133 柜子 23.374 44.753 24.251 0.8950.933 0.932 0.158 0.166 0.148 沙发 17.151 20.187 9.618 0.898 0.938 0.938 0.167 0.152 0.135 灯 19.214 20.32416.747 0.954 0.961 0.960 0.162 0.168 0.161 船 30.400 44.461 21.483 0.928 0.935 0.929 0.194 0.209 0.1850平均 23.379 28.370 14.801 0.919 0.939 0.937 0.162 0.164 0.1490表1：单图纹理重建。使用FID、SSIM和特征ℓ1度量进行定量评估。0FID SSIM 特征ℓ10投影 65.745 0.850 0.229 Im2Avatar141.209 0.734 0.281 NVS 73.223 0.8700.228 纹理场 59.424 0.870 0.2170表2：完整流程。使用FID、SSIM和特征ℓ1度量进行定量评估。每个类别的结果在补充材料的第2节中呈现。请注意，Im2Avatar仅应用于汽车、椅子和桌子。0然而，Sun等人仅为我们的训练数据的一个子集提供了训练数据。因此，我们在Sun等人提供的训练和测试集上训练和评估Im2Avatar。由于Sun等人提供的测试集0完整的流程：为了获得完整的单视角纹理三维重建流程，我们将纹理场与占据网络[25]相结合。为了公平比较，我们还将投影基线和NVS基线与[25]的输出相结合。我们在图7和图9中的定性结果表明，我们的方法能够从模型的单个视角重建带有纹理的三维模型。与Im2Avatar 7[39]、NVS和投影基线相比，我们的方法能够在输入视图中成功地转移纹理区域到形状（例如汽车的窗户和轮胎）。相比之下，投影基线和NVS都显示出明显的伪影。表1提供了定量比较。虽然NVS在SSIM方面表现最好，但我们的方法在FID和特征ℓ1距离方面表现最佳。这与图4中的定性结果一致，因为SSIM是局部评分，而FID和特征ℓ1距离是全局评分，更能捕捉视觉相似性和真实性。0真实图像：在图5中，我们最终研究了我们的方法是否也能够将真实输入图像中的纹理信息转移到地面真实CAD模型上。为了实现这个目标，我们将我们的方法应用于[38]和[49]提供的图像，并选择与输入图像中显示的对象相似的CAD模型。我们观察到，尽管只在合成数据上进行训练，但我们的模型在真实数据上也能够合理地推广。0我们的方法实现了更一致和更真实的输出。这也反映在表2的数值结果中：虽然NVS和我们的方法都获得了最佳的SSIM，但我们的方法在FID和特征ℓ1距离方面表现最好。0在本节中，我们进行了无条件实验，以研究纹理场是否也可以以纯生成的方式应用，即我们只向网络提供对象的形状，而不是2D图像。为了实现这个目标，我们在“汽车”类别上同时训练VAE和GAN模型。在训练过程中，我们向网络提供目标图像和深度图，但没有输入视图。在测试过程中，我们从标准正态分布中采样潜在编码z，以获得给定3D对象的随机纹理样本。图8显示了GAN和VAE模型的随机样本。虽然我们的无条件模型成功生成了逼真的纹理，但VAE和GAN样本中包含了与应用VAE和GAN到图像领域时存在的伪影类似的伪影。例如，VAE模型的样本在全局上是一致的，但稍微模糊。相比之下，GAN模型的样本更清晰，但包含伪影。在未来，我们希望探索VAE和GAN的组合以及更多的04.3. 无条件模型0在本节中，我们进行了无条件实验，以研究纹理场是否也可以以纯生成的方式应用，即我们只向网络提供对象的形状，而不是2D图像。为了实现这个目标，我们在“汽车”类别上同时训练VAE和GAN模型。在训练过程中，我们向网络提供目标图像和深度图，但没有输入视图。在测试过程中，我们从标准正态分布中采样潜在编码z，以获得给定3D对象的随机纹理样本。GAN和VAE模型的随机样本如图8所示。虽然我们的无条件模型成功生成了逼真的纹理，但VAE和GAN样本中包含了与应用VAE和GAN到图像领域时存在的伪影类似的伪影。例如，VAE模型的样本在全局上是一致的，但稍微模糊。相比之下，GAN模型的样本更清晰，但包含伪影。在未来，我们希望探索VAE和GAN的组合以及更多的0由于“椅子”和“桌子”类别的训练集和测试集是不相交的，因此我们只能在“汽车”类别上进行定性比较。45380图6：潜在空间插值（VAE）。我们的生成模型学习到了一个有意义的潜在空间嵌入。0投影NVS纹理场0条件（2D）预测（3D）0图7：完整流程。使用Occupancy Networks[25]进行3D重建，并结合投影、NVS和纹理场进行外观估计的结果。0图8：生成模型。使用GAN（前两行）和VAE（后两行）模型生成的纹理。注意，在这种设置下没有提供2D图像作为输入。0先进的模型和训练方法[12，20]以改进这些初步结果。图6显示了VAE模型在潜在空间中的插值。我们可以看到VAE已经学习到了一个有意义的潜在空间，因此可以在不同的纹理样本之间平滑地插值。此外，在图10中，我们展示了我们的模型可以成功地将纹理从一个模型传输到另一个模型。0Im2Avatar [39]纹理场0条件（2D）预测（3D）0图9：体素 vs.函数空间。我们将我们的完整流程与基于体素的重建方法[39]进行了比较。0图10：纹理转移（VAE）。我们的模型将外观信息（顶部）转移到目标模型（左侧）。0我们的VAE模型还可以成功地将纹理从一个模型传输到另一个模型。05. 结论0在本文中，我们介绍了纹理场，一种用于3D形状纹理的新型连续表示方法。我们的实验表明，纹理场可以从单个对象视图中预测高频纹理。此外，我们还证明了纹理场也可以在只给出3D对象形状的无条件设置下使用。因此，我们相信纹理场是3D重建的一种有用表示，并希望它们能成为下一代3D生成模型的重要组成部分。0致谢0本工作得到了微软研究通过其博士奖学金计划的支持，Intel智能系统网络的支持以及NVIDIA的研究赠款的支持。45390参考文献0[1] Hassan Alhaija, Siva Mustikovela, AndreasGeiger和Carsten Rother. 几何图像合成.在亚洲计算机视觉会议（ACCV）的论文集中，2018年. 20[2] Hassan Alhaija, Siva Mustikovela, Lars Mescheder,Andreas Geiger和Carsten Rother.增强现实遇见计算机视觉：用于城市驾驶场景的高效数据生成.计算机视觉国际期刊（IJCV），126（9）：961-972，2018年.20[3] Andrew Brock, Jeff Donahue和Karen Simonyan.大规模GAN训练用于高保真度自然图像合成.在学习表示国际会议（ICLR）的论文集中，2019年. 2 , 50[4] Andr´e Brock, Theodore Lim, James M. Ritchie和NickWeston. 使用卷积神经网络进行生成和判别体素建模.arXiv.org，1608.04236，2016年. 10[5] Angel X. Chang, Thomas A. Funkhouser, Leonidas J.Guibas, Pat Hanrahan, Qi-Xing Huang, Zimo Li, SilvioSavarese, Manolis Savva, Shuran Song, Hao Su, JianxiongXiao, Li Yi和Fisher Yu. Shapenet：一个信息丰富的3D模型库.arXiv.org，1512.03012，2015年. 50[6] Zhiqin Chen和Hao Zhang. 学习隐式场用于生成形状建模.在IEEE计算机视觉和模式识别会议（CVPR）中的论文集中，2019年. 1 , 20[7] Christopher Bongsoo Choy, Danfei Xu, JunYoung Gwak,Kevin Chen和Silvio Savarese.3d-r2n2：一种用于单视角和多视角3D物体重建的统一方法.在欧洲计算机视觉会议（ECCV）的论文集中，2016年. 1 , 2 , 50[8] Jiankang Deng，Shiyang Cheng，Niannan Xue，YuxiangZhou和Stefanos Zafeiriou.UV-GAN：用于姿态不变人脸识别的对抗性面部UV映射补全。在2018年IEEE计算机视觉和模式识别会议（CVPR）中。1，20[9] Haoqiang Fan，Hao Su和Leonidas J. Guibas.用于从单个图像重建3D对象的点集生成网络。在2017年IEEE计算机视觉和模式识别会议（CVPR）中。1，20[10] Marta Garnelo，Jonathan Schwarz，DanRosenbaum，Fabio Viola，Danilo J. Rezende，S. M. AliEslami和Yee Whye Teh.神经过程。在2018年国际机器学习会议（ICML）研讨会中。20[11] Ian J. Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronC. Courville和Yoshua Bengio.生成对抗网络。在2014年神经信息处理系统（NIPS）中。2，3，40[12] Karol Gregor，Ivo Danihelka，Alex Graves，DaniloJimenez Rezende和Daan Wierstra.DRAW：用于图像生成的递归神经网络。在2015年国际机器学习会议（ICML）中。4，80[13] Thibault Groueix，Matthew Fisher，Vladimir G.Kim，Bryan C. Russell和Mathieu Aubry.AtlasNet：学习3D表面生成的纸浆方法。在2018年IEEE计算机视觉和模式识别会议（CVPR）中。1，20[14] Kaiming He，Xiangyu Zhang，Shaoqing Ren和Jian Sun.深度残差学习用于图像识别。在2016年IEEE计算机视觉和模式识别会议（CVPR）中。4，50[15] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在2017年神经信息处理系统（NIPS）中。50[16] Irina Higgins，Loic Matthey，Arka Pal，ChristopherBurgess，Xavier Glorot，Matthew Botvinick，ShakirMohamed和Alexander Lerchner.beta-VAE：使用约束的变分框架学习基本视觉概念。在2017年国际机器学习会议（ICML）中。50[17] Zeng Huang，Tianye Li，Weikai Chen，Yajie Zhao，JunXing，Chloe LeGendre，Linjie Luo，Chongyang Ma和Hao Li.从非常稀疏的多视角性能捕捉中学习深度体积视频。在2018年欧洲计算机视觉会议（ECCV）中。20[18] Angjoo Kanazawa，Shubham Tulsiani，Alexei A.Efros和Jitendra Malik.从图像集合中学习特定类别的网格重建。在2018年欧洲计算机视觉会议（ECCV）中。1，20[19] Tero Karras，Timo Aila，Samuli Laine和Jaakko Lehtinen.渐进增长的GAN用于改进质量、稳定性和变化性。在2018年国际学习表示会议（ICLR）中。2，4，50[20] Tero Karras，Samuli Laine和Timo Aila.用于生成对抗网络的基于样式的生成器架构。在2019年IEEE计算机视觉和模式识别会议（CVPR）中。2，5，80[21] Diederik P. Kingma和Jimmy Ba.Adam：一种随机优化方法。在2015年国际学习表示会议（ICLR）中。50[22] Diederik P. Kingma和Max Welling.自动编码变分贝叶斯。在2014年国际学习表示会议（ICLR）中。3，4，5

下载后可阅读完整内容，剩余1页未读，立即下载