DeepVoxels：学习持久的3D特征嵌入

151 浏览量更新于2023-10-17 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2437DeepVoxels：学习持久的3D特征嵌入Vincent Sitzmann1，Justus Thies2，Felix Heide3，MatthiasNießner2，GordonWezstein1，MichaelZollh？ fer11斯坦福大学、2慕尼黑工业大学、3普林斯顿大学vsitzmann.github.io/deepvoxels/摘要在这项工作中，我们通过引入用于视图合成的持久3D特征嵌入来解决生成神经网络缺乏3D理解的问题。为此，我们提出了DeepVoxels，这是一种学习表示，图像构成培训DeepVoxels3D场景的视图相关外观，而无需以明确地对其几何体建模。在其核心，我们的方法是基于笛卡尔三维网格的持久嵌入式功能，学习利用底层的三维场景结构。我们的方法结合了3D几何计算机视觉的见解和基于对抗损失函数的图像到图像映射学习的最新进展在不需要场景的3D重建的情况下，使用2D重新渲染损失来监督DeepVoxels，我们将我们的持久的3D场景表示的问题，新颖的视图合成展示高品质的结果，为各种具有挑战性的场景。1. 介绍近年来，在将生成机器学习方法应用于合成图像的创建方面取得了重大进展。许多深度神经网络，例如基于（变分）自编码器，能够从头开始进行内绘制，优化甚至生成完整的图像[19，30]。一个非常突出的方向是生成对抗网络[13]，它在图像生成方面取得了令人印象深刻的结果，即使在高分辨率[26]或条件生成任务[20]下也是如此。这些发展使我们能够在各种设置中执行高度逼真的图像合成;例如，在一个实施例中，纯粹生成的、条件的等等。然而，虽然每个生成的图像都具有高质量，但主要的挑战是生成同一场景的一系列连贯视图。这种一致的视图生成将要求网络具有从根本上理解场景的3D布局的潜在空间表示;例如，在一个实施例中，同一把椅子从不同的角度看会是什么样子？不幸的是，这是具有挑战性的学习测试新视图渲染图1：在训练过程中，我们学习了一个持久的DeepVoxels表示，该表示对来自多视图图像数据集的3D场景的视图相关外观进行编码（顶部）。在测试时，DeepVoxels启用新视图合成（底部）。对于现有的基于一系列2D卷积核的生成神经网络架构在这里，真实3D环境的空间布局和变换将需要将3D操作映射到2D卷积核的繁琐学习过程[22]。此外，这些方法中的发电机网络通常基于具有跳跃连接的U-Net架构[47]。尽管跳过连接能够有效地传播低级特征，但是由于跳过连接绕过了更高级的推理，因此所学习的2D到2D映射通常难以推广到大型3D变换。为了解决基于学习的3D重建和语义场景理解的背景下的类似挑战，3D深度学习领域在过去几年中取得了巨大而快速的进展。现有的方法能够以高精度预测表面几何形状。这些技术中的许多技术都基于明确的3D表示，其形式为占用网格[35，43]、符号距离场[46]、点云[42，32]或网格[21]。虽然这些方法很好地处理了几何再现任务，但它们并不直接适用于真实感图像的合成，因为不清楚如何再现图像。全球优化2438以足够高的分辨率重新发送颜色信息。还存在大量关于学习可以解码为新颖视图的图像的低维嵌入的工作[54，61，7，9，60，45]。这些技术中的一些虽然这样的3D技术是有前途的，但它们迄今为止还没有成功地实现用于照片真实感图像合成任务的足够高保真度。在我们的工作中，我们的目标是通过在神经网络架构中引入原生3D操作来我们不是从3D视觉中学习直观的概念，例如透视，而是在网络架构中显式编码这些操作，并直接在3D空间中执行推理。DeepVoxels方法的目标是将场景的输入图像压缩成持久的潜在表示，而无需明确地对其几何形状进行建模（见图10）。①的人。然后，该表示可以应用于新颖视图合成的任务，以生成3D场景的看不见的透视图，而不需要访问输入图像的初始集合。我们的方法是一个混合的2D/3D之一，因为它学会表示一个场景中的笛卡尔3D网格的持久性特征嵌入，投影到目标视图这种存在于3D世界空间中的持久特征体积与结构化的可微分图像形成模型相结合，在训练期间以原则性和可解释的方式强制执行透视和多视图几何形状。所提出的方法学习利用底层的3D场景结构，而不需要在3D域中的监督。我们展示了新的视图合成与高品质的各种场景的基础上，这种新的表示。总之，我们的方法做出了以下技术贡献：• 一种新的持久的三维特征表示的图像合成，利用底层的三维场景信息。• 基于学习的软视点的显式遮挡推理，可获得更高质量的结果，并更好地推广到新视点。• 可区分的图像形成，以在训练期间以原则性和可解释的方式实施透视和多视图几何。• 无需3D监控的培训。范围在本文中，我们提出了第一步对3D结构的神经场景表示。为此，我们限制了我们的调查范围，以便深入讨论这种方法的根本挑战。我们假设朗伯场景，没有镜面高光或其他视景相关效果。虽然所提出的方法可以处理光的镜面反射，但这些没有明确地建模。经典的方法将取得令人印象深刻的结果在所呈现的场景。然而，这些方法依赖于几何的显式重建。神经场景表示对于开发生成模型至关重要，这些生成模型可以在场景中泛化，以解决只有很少观测数据的重建问题。因此，我们只与这些基线进行比较2. 相关工作我们的方法位于多个活跃研究领域的交叉点，即生成神经网络，3D深度学习，基于深度学习的视图合成，以及基于模型和图像的渲染。用于2D图像和视频合成的深度模型最近显示出非常有前途的结果。这些方法中的一些基于（变分）自动编码器（VAE）[19，30]或自回归模型（AM），例如PixelCNN [38]。到目前为止，最有希望的结果是基于条件生成对抗网络（cGAN）[13，44，36，20]。在大多数情况下，生成器网络具有编码器-解码器架构[19]，通常具有跳过连接（U-Net）[47]，这使得能够将低级特征从编码器有效地已经针对人体[64，2]和面部[28]的特殊情况提出了将合成图像转换为照片级逼真图像的方法理论上，类似的架构可以用于回归对应于给定视点的真实世界图像，即，可以从头开始学习基于图像的渲染。不幸的是，这些2D到2D转换方法难以推广到3D空间中的变换，例如旋转和透视投影，因为不能利用底层3D场景结构我们将此基线与SEC进行比较。4并表明DeepVoxels大大优于它。3D深度学习最近，深度学习已经被广泛应用于许多3D几何推理任务。当前的方法能够仅从单个或多个视图预测对象的这些技术中的许多技术利用经典的3D表示，例如，占用网格[35，43]，带符号距离场[46]，3D点云[42，32]或网格[21]。虽然这些方法很好地处理了几何重建任务，但它们不能直接应用于视图合成，因为不清楚如何以足够高的分辨率表示颜色信息。视图一致性可以使用可微分光线投射进行扩展处理[57]。Ren- derNet [37]学习从3D体素网格输入中以不同的风格渲染。Kulkarni等[31]第三十一话2439我我我图像表示相对于各种场景属性，如旋转和照明。空间变换网络[22]可以学习网络中特征图的空间变换。甚至还提出了3D变换的弱监督[62]和无监督[23]学习。我们的工作也与用于3D重建[25，5]和单目深度估计[8]的CNN有关。A “multi-view stereo machine” [ MapNet [18]基于场景特定的2D特征网格表示执行SLAM。与这些专注于几何推理的方法相比，我们的目标是学习一种用于新视图合成的嵌入。为了合成多视图一致的图像，我们在所有可用的2D观察结果上优化了持久的、我们不需要任何三维地面实况，但最小化一个2D光度重投影损失专门。用于视图合成的深度学习最近，一已经提出了一类直接旨在解决新视图合成问题的深度神经网络。一些技术将查找表预测为一组参考视图[39，63]或预测权重以将多视图图像混合到新视图中[11]。分层场景表示[56]可以基于重新渲染损失来学习。大量的工作集中在将场景的2D视图嵌入到学习的低维潜在空间中，然后将其解码为新视图[54，61，7，9，60，45，6]。其中一些方法依赖于将视图嵌入到一个潜在的空间，不强制任何几何约束[54，7，9]，其他强制几何约束，不同程度[60，45，6，10]，例如通过显式旋转潜在空间特征向量来学习旋转等变特征。我们专注于在2D观察的训练语料库上优化特定于场景的嵌入，并明确考虑来自3D视觉的概念，例如，透视投影和遮挡来限制潜在的基于图像的渲染传统的基于图像的渲染技术混合输入图像的变形版本以生成新视图[51]。这个想法最初是作为一种计算效率高的替代经典渲染[33，14，3]提出的。多视图几何可用于获得用于翘曲的几何[17]。在其他情况下，不需要3D重建[11，41]。一些方法依赖于光场[24]。最近，深度学习已经被用于通过学习小的子任务来辅助基于图像的渲染混合权重的计算[16，11]。虽然这可以实现照片真实感，但它取决于在渲染时可用的高分辨率照片我们的方法具有正交目标：（1）我们想要学习用于视图合成的嵌入，以及（2）我们想要通过学习原始像素输出以整体方式解决问题。因此，我们的方法与嵌入技术更相关，这些技术试图学习可以解码为新视图的潜在空间。3. 方法我们的方法的核心是一种新型的3D结构化场景表示，称为DeepVoxels。DeepVoxels是一种视点不变、持久且均匀的3D体素网格特征。底层3D网格在学习的每体素代码向量上实施空间结构。最终输出图像是基于接收该3D体积的透视重采样版本的2D网络形成的，即，目标视图的规范视见体积作为输入。我们的方法的3D部分负责空间推理，而2D部分可以进行精细尺度的特征合成。在下文中，我们首先介绍训练语料库，然后介绍我们的端到端方法，用于在没有显式3D监督的情况下从一组多视图图像中找到场景特定的DeepVoxels表示3.1. 训练语料库我们的场景特定训练语料库C={Si，T0，T1}M空间我们证明了弱结构嵌入在生成高质量的新视图的优势。我我i=1的M个样本是基于源视图Si（图像和摄像头）的。era姿态）和两个目标视图T0、T1，这两个目标视图T0、T1随机地我我基于模型的渲染经典的重建方法，如运动恢复结构，利用多视图几何[15，53]来构建成像场景的密集3D点云[49，50，52，1，12]。三角形表面从一组N个配准的多视图图像中选择;参见图1是一个例子。我们假设相机的内在和外在参数是可用的。例如，可以使用稀疏光束法平差[55]获得为然后，我们随机选择每对目标视图T0、T1我我表示可以使用例如泊松曲面[27]重建技术。然而，重建的几何形状通常是不完美的，粗糙的，包含孔，并且由此产生的渲染因此遭受可见伪影并且不是完全真实的。相比之下，我们的目标是学习一种表示，有效地编码视图相关的外观的3D场景，而不必显式地重建几何模型。来自前5个最近邻的单个源视图Si在与目标视图T0的视图方向角度方面。这种采样启发式使得源视图中的点在目标视图T0中可见的可能性很高。虽然这对于训练不是必不可少的，但它可以确保有意义的梯度流对于每个优化步骤，同时鼓励对随机目标视图T1的多视图一致性。我们在训练过程中动态地对训练语料库C进行2440图2：所有模型组件的概述。我们基于编码器-解码器的架构的核心是一种新颖的视点不变和持久的3D体积场景表示，称为DeepVoxels，它在学习的每体素代码向量上强制执行空间结构3.2. 体系结构概述我们的网络架构总结在Fig.二、在高层次上，它可以被看作是基于编码器-解码器的3D坐标，则从世界空间到规范相机体积的映射被给出为：u架构与持久的3D DeepVoxels表示a-作为其潜在的空间。在训练期间，我们将源视图Si馈送到编码器，并尝试预测目标视图Ti。u=100vDn=K（Rx +t）。（一）我们首先从源中提取一组2D特征图使用2D特征提取网络查看。为了学习与视图无关的3D特征表示，我们基于可微提升层将图像特征显式提升到3D。提升的3D特征体积与我们的持续DeepVoxels场景表示使用门控回流网络架构融合。具体来说，持久的3D特征体积是门控递归单元（GRU）的隐藏状态[4]。在特征融合之后，体积由3D全卷积网络处理。然后通过可微重投影层将体积映射到两个目标视图的相机坐标系，从而产生规范视见体积。一个专用的结构化遮挡网络在标准视见体上操作，以推理体素可见性，并将视见体转换为2D视图特征图（见图2）。（3）第三章。最后，学习的2D渲染网络形成两个最终输出图像。我们的网络是端到端训练的，不需要在3D领域进行监督，通过2D重新渲染损失来强制预测与目标视图匹配。在下文中，我们提供更多细节。相机模型我们遵循透视针孔摄像机相机模型，该模型完全由其外部E=R指定|t∈R3×4和内禀K∈R3×3摄像机矩阵[15]。这里，R∈R3×3是全局摄像机旋转，t∈R3是平移。假设我们给定一个位置x∈R3，这里，u和v指定体素中心在D是屏幕距离摄像机的深度给定一个像素和它的深度，我们可以反转这个映射来计算相应的3D点x=RT（K−1u−t）。特征提取我们基于全卷积特征提取网络从源视图中提取2D特征图。图像首先通过一系列下采样，步长-2卷积，直到达到64×64的分辨率然后，2D U-Net架构[48]提取64×64的特征图，作为后续体积提升的输入。提升2D特征到3D观察提升层将2D特征提升到临时3D体积中，表示单个3D观察，然后将其集成到持久的DeepVoxels表示中。我们在世界空间中定位3D特征体积，使得其中心与场景的重心大致对齐，这可以从稀疏光束平差获得的关键点云廉价地空间范围被设置为使得完整场景在体积内。我们尝试尽可能紧密地绑定场景，以不丢失空间分辨率。提升通过收集操作来实现对于每个体素，其中心的世界空间位置被投影到源视图的图像空间，如下1.一、我们使用双线性采样从特征图中提取特征向量，并将结果存储在相关的代码向量中2441要素网格标准视图网格可见性推理遮挡感知特征投影抗锯齿深度值体素深度6543210.90.5 0.50.6 0.40.6 0.4点积边界概率图3：遮挡感知投影操作的图示。首先通过投影变换和三线性插值将特征体（由特征网格表示）重采样到规范视见体中。然后，遮挡网络预测沿着每个深度射线的每像素softmax权重。然后，通过体素的软最大加权和沿着深度维度折叠规范视图体积，以产生最终的遮挡感知特征图。每体素可见性权重可用于计算深度图。与voxel。请注意，我们的方法仅基于一组注册的多视图图像，并且我们无法访问场景几何或深度图，而是我们的方法基于3D中的门控递归网络自动学习解决深度模糊。将提升的特征集成到DeepVoxels中提升的观测通过基于门控递归单元（ GRU ）的集成网络集成到DeepVoxels表示中[4]。与GRU的标准应用相反，集成网络在整个培训过程中以相同的音量运行，即，隐藏状态在所有训练步骤中是持久的，并且从不重置，从而导致整个训练语料库的几何上一致的表示我们使用一个统一的体积网格大小w×h×d体素，其中每个体素具有f个特征通道，即，所存储的码向量具有大小f。我们雇了一个每个体素的递归单元，使得在每个时间步长，必须联合更新体素中的所有特征。门控递归单元的目标是在训练期间增量地融合门控递归单元实现映射Zt=σ（WzXt+UzHt−1+Bz），（2）Rt=σ（WrXt+UrHt−1+Br），（3 ） St=ReLU （ WsXt+Us （ Rt<$Ht−1 ）+Bs ），（ 4 ） Ht= （ 1 − Zt ） <$Ht−1+ Zt<$St。（五）这里，Xt是当前时间步t的提升的3D特征体积，W·和U·是可训练的3D卷积权重，B·是可训练的偏置张量。我们跟随Cho等人。[4]并采用S形激活σ来计算更新门Zt和重置门Rt的张量的响应。基于先前的隐藏状态Ht-1、每体素重置值Rt和提升的3D特征体积Xt，计算当前时间步长t的新特征提议的张量StU和W是单个3D卷积层。计算新的隐藏状态Ht，即当前时间步的深度体素表示作为旧状态Ht-1和新DeepVoxel提议St的每体素线性组合。GRU对每个提升的观测值执行一个更新步骤。然后，我们应用一个3D修复U-Net来学习填充这个特征表示中的漏洞。在测试时，仅使用最佳学习的持续3D体积特征（DeepVoxels）来形成对应于新目标视图的图像。2D特征提取、提升层和GRU门被丢弃，并且不需要用于推理，参见图。二、投影层投影层实现提升层的逆，即，它将3D代码矢量映射到目标视图的规范坐标系，见图11。3（左）。投影也基于聚集操作来实现。对于规范化视图体积的每个体素，计算其在持久世界空间体素网格中的对应位置。然后，通过三线性插值提取插值的代码向量，并将其存储在规范视见体的特征通道中。遮挡模块遮挡推理对于正确的图像形成和对新观点的概括是必不可少的。为此，我们提出了一个专门的闭塞网络，计算软可见性为每个体素。目标视图中的每个像素由标准视图体积中的一列体素表示，见图1。3（左）。首先，该列与特征列连接，该特征列编码每个体素到相机的距离，与[34]类似。这允许遮挡网络推理体素或- der。然后，通过单个3D卷积层将该规范视图体积中的每个体素的特征向量该压缩体积被输入到3D U-网用于遮挡推理。对于由单像素列表示的每条射线，该网络基于softmax激活来预测标量每体素可见性权重，参见图。3（中间）。然后，使用预测的视见值，利用加权平均沿着深度维度使规范视见体积变平softmax权重可以进一步用于具有像平面的照相机透视变换闭塞网络Σ=10.04+0.03+0.01+0.9+0.02+0.0N/A3.173.53.62.62442计算一个深度图，它提供了对网络的阻塞推理的洞察，见图。3（右）。渲染网络是特征提取网络的镜像版本，具有更高的容量。2D U-Net架构将来自遮挡网络的扁平化规范视图体积作为输入，并在多个转置卷积直接回归新视图的像素值之前提供整个图像的推理。我们基于组合的双1损失和对抗性交叉熵损失来训练我们的持久DeepVoxels表示[13]。我们发现，对抗性损失加速了训练早期高频细节的生成。我们的对抗性算法是一个完全卷积的基于补丁的算法[58]。我们使用ADAM [29]解决了由此产生的极大极小优化问题。4. 分析在本节中，我们将展示DeepVoxels是一种丰富且语义上有意义的3D场景表示，它允许从新颖的视图进行高质量的重新渲染。首先，我们给出了真实世界物体的高质量3D扫描的合成渲染的定性和定量结果，并将其性能与强大的机器学习基线进行了比较，这些基线越来越依赖于几何结构化的潜在空间。接下来，我们证明了DeepVoxels也可以用于在各种真实捕获上生成新颖的视图最后，我们展示了定量和定性的好处，明确推理体素的可见性，通过遮挡模块，以及改进的模型interpretability。请参阅补充资料，了解对训练图像数量、体素体积大小以及噪声相机姿势的敏感性的进一步研究。数据集和数据集我们评估了从渲染4个高质量3D扫描获得的合成数据上的模型性能（见图1）。4）.我们将每个扫描以原点为中心，并将其缩放到单位立方体内。对于训练集，我们从均匀分布在北半球的479个姿势中渲染对象。对于测试集，我们在北半球的阿基米德螺旋上渲染1000个视图。所有图像都以一种分辨率呈现1024×1024 ，然后使用面积平均值调整大小为512×512，以最大限度地减少混叠。我们根据PSNR和SSIM评估重建误差[59]。实现所有模型都在PyTorch中实现[40]。除非另有说明，否则我们使用具有32 ×3体素的立方体体积。我们在图像中的所有像素上平均101对抗性损失和非对抗性损失的权重为200：1。使用ADAM训练模型，直到收敛，学习率为4·10−4。每个场景训练一个模型。所提出的架构有1.7亿个参数。在测试时，渲染单个帧需要71毫秒。基线我们比较了三个强大的基线，增加了对几何感知潜在空间的依赖第一基线是Pix2Pix架构[20]，其接收每像素视图方向作为输入，即，从相机原点到每个像素的归一化的世界空间向量，并被训练以将这些图像转换为相应的彩色图像。该基线代表了2D图像到图像转换的最新成就。第二基线是深度自动编码器，其接收目标视图的前5个最近邻居中的一个作为输入，并且目标和输入视图两者的姿态在深度潜在空间中被级联，如由Tatarchenko等人提出[54 ]第54段。因此，该模型在训练时的输入与我们模型的输入相同。第三基线通过在[60，6]中提出并在[45]中使用的方法学习可解释的旋转等变潜在空间，通过馈送前5个最近邻视图之一，然后用将输入转换为输出姿势的旋转矩阵旋转潜在嵌入。在测试时，前两个基线接收前1个最近邻，为模型提供最相关的信息。我们近似匹配每个网络的参数数量，所有基线的参数都相等或略多于我们的模型。我们训练所有基线以相同的损失函数收敛。有关确切的基线架构和参数数量，请参见补充。我们在四个高质量3D扫描的合成渲染上训练我们的网络和所有基线。表1比较了PSNR和SSIM建议的架构和基线。性能最好的基线是Pix2Pix [20]。这是令人惊讶的，因为没有几何约束的强制执行，而不是由Worrall等人的方法。[60]第一章。建议的archi- tecture与强结构化的潜在空间优于所有基线的平均7dB的宽余量图4示出了定性比较以及从所提出的模型采样的进一步新颖的观点该模型显示了强大的3D推理，即使在具有挑战性的情况下也不会崩溃值得注意的是，其他模型倾向于请查看补充视频，了解此解决方案的演示。我们假设，这种改进的泛化到看不见的意见是由于所提出的潜在空间强制执行的明确的多视图约束。基线模型没有明确地强制执行投影和对极几何，这可能使它们能够参数化不能正确表示低维人类的潜在空间。2443Ground Truth Worrall et al.Pix2PixOurs Ours测试视图图4：左：三个性能最好的模型与地面实况的比较从左到右：地面实况，Worrall et al. [60]，Isola et al.[20]（Pix2Pix）和我们的。我们的输出最接近地面真实，即使在具有挑战性的情况下也表现良好，例如立方体上的强烈透视缩短的字母或花瓶的高频细节右图：我们的模型生成的其他新视图样本花瓶基座椅子立方体是说PSNR /SSIMPSNR /SSIMPSNR /SSIMPSNR /SSIMPSNR /SSIM最近邻23岁26/0。9221岁49比08720块69/0。94十八岁32/0。8320块94比089Tatarchenko等人[五十四]二十二岁28/0。9123岁25/08920块22/0。9519号。百分之十二8421岁22/0。90Worrall等人[60个]23岁41/0。92二十二岁七比零。8919号。52/0。9419号。23/08521岁22/0。90Pix2Pix（Isola等人）[20个]二十六岁36比0 95二十五41/0。9123岁04/0。9619号。69/0。8623岁63/0。92我们二十七岁99/096三十二35/0。97三十三岁。45/0。9928岁42比097三十55/0。97表1：与四个基线的定量比较。我们的方法在所有对象上的PSNR和SSIM方面获得了最好的结果。旋转的倍数。虽然所提出的体素网格的分辨率比图像分辨率小16倍，但我们的模型成功地捕获了比单个体素小得多的细节，例如立方体侧面的字母或花瓶上的细节。这可能是由于在提升和投影步骤中使用三线性插值，这允许学习细粒度的表示。请参阅完整序列的视频，以及两个额外的合成场景的补充材料。体素嵌入与旋转等变嵌入如表1所示。1，我们在质量和数量上都远远优于[60]所提出的模型通过多视图几何约束，而[60]具有更多的自由度。由于缺乏遮挡推理，深度图不会变得显式。因此，模型可以参数化不尊重多视图几何形状的潜在空间。这增加了过度拟合的风险，这是我们根据经验观察到的，因为基线与训练期间看到的最近邻对齐虽然建议的体素嵌入-丁是内存饥饿，它是非常有效的参数。3D卷积的使用意味着参数计数与体素网格大小无关。放弃空间结构意味着Worrell et al.[60]放弃卷积，使用全连接层。然而，要实现同样的潜在32个3×64特征的空间大小将需要4.第一章4·仅在特征变换层之前和之后的完全连接层之间的1012个是不可行的。相比之下，所提出的3D修复网络只有1。7·107个参数，小五个数量级为了解决内存效率低下的问题，密集网格在未来可能遮挡推理和可解释性渲染管道的一个重要部分是深度测试。类似地，渲染网络应该能够在回归输出视图时对遮挡进行推理。一种简单的方法可能会使规范相机体积的深度维度变平，并随后使用一系列2D卷积来减少特征的数量这导致了一个激烈的-2444地面实况与闭塞网。无闭塞网。图6：真实捕获的新颖视图。请参考视频以获得具有最近邻比较的完整序列。图5：遮挡模块对模型性能至关重要。它从23提升性能。26dB至28dB。42 dB（立方），从30。02 dB至32. 35dB（基座）。左：地面实况视图和深度图。中心：使用遮挡模块和学习的深度图（64×64像素）生成的视图。请注意，对象背景在深度图中不受约束，并且可能与地面实况不同。右：没有闭塞模块，闭塞，蓝色的一面的立方体（见图。4）除了减少参数数量和提高性能外，遮挡模块还可以生成完全无监督的深度图，演示3D推理。增加网络参数的数量。在训练时，这进一步允许网络平等地组合来自多个深度的特征，以回归目标视图中的像素颜色。在推理时，这会导致严重的伪像和对象的遮挡部分“闪耀”（见图11）。（五）。我们的遮挡网络迫使学习使用沿着每条射线的体素的softmax加权和，这会惩罚来自多个深度的体素的组合。结果，由具有遮挡模块的网络生成的新视图在测试时表现得更好，如图所5、比没有遮挡模块的网络由遮挡模型生成的深度图进一步证明了所提出的模型确实学习了场景的3D结构我们注意到，深度图是以完全无监督的方式学习的，并且纯粹是出于挑选最相关体素的需要请参阅补充资料了解更多学习深度图的示例。通常忠实地表示，不一致出现在其高度镜面反射的表面上。通常，结果具有高质量，并且只有显著小于单个体素的细节（例如喷泉水槽中的瓷砖）才会显示伪影。有关详细结果以及最近邻基线，请参阅补充视频。5. 限制虽然我们已经证明了高质量的视图合成结果的各种具有挑战性的场景，所提出的方法仍然有局限性，可以在未来解决。通过构造，所采用的3D体积是内存效率低下的，因此我们必须用局部分辨率来换取空间范围。该模型可以训练的体素分辨率为643与8个特征通道，填充一个12GB内存的GPU。稀疏神经网络的未来工作可能会取代核心的密集表示。请注意，令人信服的结果已经可以实现相当小的体积分辨率。从与训练集显著不同的视点合成图像，即，泛化对于所有基于学习的方法来说都是一个挑战。虽然这对于DeepVoxels也是如此，并且当从远离训练姿势的姿势查看场景时会丢失细节，但DeepVoxels通常会优雅地劣化，并且场景的3D结构会被保留。请参考失效案例的补充材料以及姿势外推的示例。6. 结论我们提出了一种新的3D结构化场景表示，称为DeepVoxels，它只使用2D监督来编码3D场景的我们的方法是迈向3D结构神经场景用于真实捕捉的新颖视图合成我们在使用DSLR相机获得的真实捕捉上训练我们的网络。通过稀疏光束法平差获得相机位姿、相机内参数和关键点云体素网格原点设置为相应点云体素网格分辨率设置为64。每个体素存储8个特征通道。测试轨迹通过线性插值两个随机选择的训练姿势获得。场景描绘了一个饮水机，两个半身像，一个地球仪和一袋咖啡。模型输出示例见图6。饮水机和地球仪有明显的镜面，处理得很优雅。当咖啡袋表示和通过将原生3D操作引入网络来克服现有2D生成模型的基本限制的目标鸣谢：我们感谢 Robert Konrad 、 Nitish Padmanaban 和 LudwigSchubert进行了富有成效的讨论，并感谢Robert Konrad的视频配音。文森特 · 西茨曼得到了斯坦福大学研究生奖学金的支持。MichaelZollhofer和VincentSitzmann得到了马克斯·普朗克视觉计算和通信中心（MPC-VCC）的支持Gordon Wetzstein获得了美国国家科学基金会职业奖（IIS 1553333），斯隆奖学金和大川研究基金的支持 Matthias Nießner和Justus Thies得到了Google Research Grant、ERC Starting Grant Scan 2CAD （ 804724 ）、 TUM-IASRudolfMoßbauerFell owship（焦点组视觉计算）和Google Faculty Award。2445引用[1] S. 阿加瓦尔 N. 狡猾 I. 赛门， S. M. 塞茨，和R.塞利斯基一天建成罗马。在Proc. CVPR，第72-79页[2] C.陈，S. Ginosar，T. Zhou和A. A.埃夫罗斯现在大家跳舞。ArXiv电子打印，2018年。[3] S. E. Chen和L.威廉姆斯用于图像合成的视图插值。在proc ACM SIGGRAPH，第279-288页，1993年。[4] K. 乔湾，巴西-地 vanMerrienboe r，C. Gu？l cehre，F. 布加雷斯，H. Schwenk和Y.本吉奥。使用RNN编码器-解码器学习短语CoRR，abs/1406.1078，2014。[5] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法在Proc. ECCV，第628-644页[6] T. S.科恩和M。威林学习视觉表征的转换特性。arXiv预印本arXiv：1412.7659，2014年。[7] A.多索维茨基T. Springenberg，M. 塔塔尔琴科，T.布洛克斯学习用卷积网络生成椅子、桌子和汽车。IEEE Trans. PAMI，39（4）：692-705，2017年。[8] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在Proc. NIPS，第2366-2374页[9] S. A. Eslami，D. J. Rezeland，F. Besse，F. Viola、A. S.Mor- cos，M. Garnelo，A. Ruderman，A. A.鲁苏岛丹妮赫卡K. Gregor等人神经场景表示和渲染。Science，360（6394）：1204[10] L. 法洛尔西山口de Haan，T.R. 戴维森，N.De Cao，M.维勒P. Forre′和T. S. 科恩同胚变分自编码的探索ICML研讨会，2018年。[11] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。在Proc. CVPR，第5515-5524页[12] Y. Furukawa和J.庞塞精确、密集和强大的多视图立体视觉。IEEE Trans. PAMI，32（8）：1362[13] I. J·古德费洛 J. Pouget-Abadie， M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在Proc.NIPS，2014中。[14] N.格林环境测绘和世界预测的其他应用。IEEE CG A，6（11）：21[15] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，第2版，2003年。[16] P. Hedman ， J.Philip ， T.Price ， J. -M. Frahm ，G.Drettakis，以及G.布罗斯托自由视点图像渲染的深度混合。ACM事务处理图表（SIGGRAPH Asia），37（6），2018.[17] P. Hedman，T. Ritschel，G. Drettakis和G.布罗斯托可缩放的由内而外的基于图像的渲染。ACM事务处理图表（SIGGRAPH Asia），35（6）：231，2016年。[18] J. F. Henriques和A.维达尔迪Mapnet：一个用于地图环境的非中心空间存储器。在Proc. CVPR，第8476-8484页[19] G. E. Hinton和R.萨拉赫季诺夫用神经网络对数据进行降Science，313（5786）：504[20] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在Proc. CVPR，第5967-5976页[21] D.杰克，J.K. Pontes，S.斯里德哈兰角Fookes，S. 设拉子，F. Maire和A.埃里克森学习自由变形的三维物体重建。CoRR，abs/1803.10932，2018。[22] M. Jaderberg，K. Simonyan、A. 泽瑟曼，K.卡武克丘奥卢。空间Transformer网络。在Proc.NIPS，第2017-2025页。2015年。[23] D. 希门尼斯·雷扎什，S.M. A. Eslami，S.穆罕默德P. Battaglia，M. Jaderberg和N.海斯图像三维结构的无监督学习。在Proc. NIPS，第4996-5004页。2016年。[24] N. K. Kalantari，T.- C. Wang和R. Ramamoorthi基于学习的光场相机视图合成。ACM事务处理图表（SIGGRAPHAsia），35（6）：193，2016。[25] A. 卡尔角 H a？ne和J. 马利克学习多视角立体声机。在Proc. NIPS，第365-376页[26] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁GAN的逐步增长，以提高质量、稳定性和多样性。InProc. ICLR，2018.[27] M. Kazhdan，M. Bolitho和H.霍普泊松曲面重建在Proc.SGP，第61-70页[28] H. Kim，P.Garrido，A.Tewari，W.徐，J.Thies，N.尼斯纳P. 佩雷斯角里查德，M。 Zollh oüfer和C. 希奥博尔特深度视频肖像。ACM事务处理图表（SIGGRAPH），2018.[29] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[30] D. P.Kingma和M.威林自动编码变分贝叶斯。CoRR，abs/1312.6114，2013。[31] T. D. Kulkarni、W.F. Whitney，P.Kohli和J.特南鲍姆深度卷积逆图形网络。在proc NIPS，第2539-2547页。2015年。[32] C.- H.林角，澳-地Kong和S.露西密集三维物体重建的学习高效点云生成在AAAI，2018。[33] A.利普曼电影地图：光碟在电脑绘图上的应用。在ACM SIGGRAPH，第14卷，第32-42页[34] R. 刘先生，雷曼兄弟，P. Molino，F. P.这样，E.弗兰克A. Sergeev和J.尤辛斯基一个有趣的失败的卷积神经网络和 coordconv 解决方案。 arXiv 预印本 arXiv ：1807.03247，2018。[35] D. Maturana和S.谢勒Voxnet：用于实时对象识别的3D卷积神经网络。在Proc. IROS，第922 - 928页，2015年9月。[36] M. Mirza 和 S. 奥辛德罗条件生成对抗网。 arXiv ：1411.1784，2014。[37] T. H. Nguyen-Phuoc角Li，S. Balaban和Y.杨Rendernet：一个深度卷积网络用于3d形状的可微分渲染。在

下载后可阅读完整内容，剩余1页未读，立即下载