多平面投影：一种神经点云渲染方法

162 浏览量更新于2023-10-25 收藏 12.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

78300通过多平面投影的神经点云渲染0戴鹏 1 � 张银达 2 � 李竹文 3 � 刘帅成 1 † 曾兵 101 中国电子科技大学 2 谷歌研究 3 Nuro公司0摘要0我们提出了一种新的深度点云渲染流程，通过多平面投影。网络的输入是场景的原始点云，输出是来自新视角或沿新相机轨迹的图像或图像序列。与直接将3D点的特征投影到2D图像域的先前方法不同，我们提出将这些特征投影到相机视锥体的分层体积中。通过这种方式，网络可以自动学习3D点的可见性，从而成功避免了由于错误的可见性检查而导致的幽灵效应以及由噪声干扰引起的遮挡。接下来，将3D特征体积输入到3DCNN中，以根据深度方向的空间划分产生多个平面的图像。然后根据学习到的权重混合多平面图像以产生最终的渲染结果。实验证明，与先前的方法相比，我们的网络在渲染边界附近产生更稳定的渲染结果。此外，我们的流程对于嘈杂和相对稀疏的点云在各种具有挑战性的场景中都具有鲁棒性。01. 引言0渲染在许多图形和视觉应用中需求很高。为了产生高质量的渲染，必须建立对场景的各种物理理解，如场景几何[9]、场景纹理[3]、材料[44]、照明[47]，这些都需要巨大的努力来获取。在构建渲染要素之后，通过昂贵的渲染过程（如光线追踪[13]和辐射模拟[45]）生成建模场景的照片级视图。而基于图像的渲染（IBR）技术[16, 29,32]则尝试通过图像变形[30]和图像修复[23]基于给定的图像和其近似的场景几何来渲染新视图。0图1. 我们的方法通过使用神经点云渲染在新视角中合成图像。0结构近似通常采用简化形式，使得渲染过程相对于基于物理的渲染更加便宜。然而，IBR要求新视图与原始视图保持接近，以避免渲染伪影。点云图形（PBG）[28, 18,17]不仅仅基于图像，还通过用点云或surfels[35]替换表面网格来简化场景结构，从而避免了繁重的几何构造。另一方面，许多深度学习方法在修复[31]、细化[36]甚至仅凭几个指示构建图像[34,2]方面显示出强大的能力。这些能力可以被视为对IBR的补充，即神经IBR[20]，以克服图像合成过程中的挑战。例如，通过高质量修复[48]可以补偿由视角变化引起的空白区域。最近，结合简化几何表示和神经能力的优势成为一种新趋势，产生了神经渲染方法[4, 7, 20, 20,33]。它直接学习端到端渲染，绕过了复杂的中间表示。以前的工作主要使用3D体积作为表示[39]。然而，3D体积的内存复杂度是立方的，因此这些方法不可行。78310这些方法不具有可扩展性，通常只适用于小型物体。最近，有一种趋势是从3D点云构建神经渲染流程，这对于相对较大的场景更具可扩展性。然而，3D点云通常由于深度测量[46]和相机校准[49]的原因而包含强噪声，这干扰了当投影到2D图像平面上时的可见性检查，并且如果在给定的3D相机轨迹上生成一系列图像，则会导致抖动伪影。另一方面，这种类型的方法通常需要大量的点来进行可靠的z缓冲区检查，以及对所有相机视点的完全覆盖的要求。即使内存使用量与点数成线性关系，但巨大的点数仍然导致无法承受的内存和存储开销。Aliev等人[1]提出了一种直接将3D几何体投影到2D平面上进行神经描述符编码的神经点云图形方法，它不仅忽略了可见性检查，而且受到噪声干扰，导致幽灵伪影和强烈的时间抖动。在本文中，我们提出了一种新的深度点云渲染流程，通过多平面投影，这对深度噪声更加鲁棒，并且可以处理相对稀疏的点云。特别是，我们提出了将这些特征投影到相机视锥体中的分层体积中，而不是使用透视几何[19]直接将3D点的特征投影到2D图像域中。通过这样做，相机视野中的所有点的特征都被保留，因此有用的特征不会因为噪声干扰而意外地被其他点遮挡。然后，将3D特征体积输入到3DCNN中，以产生多个平面的图像，这些图像对应于不同的空间深度。然后根据学习到的权重逐步混合分层图像。通过这种方式，网络可以在3D空间中修复点云错误，而不是在已经丢失可见性的投影2D图像上工作。此外，网络可以从投影的完整特征体积中准确地提取信息以促进渲染。在流行的数据集（如ScanNet [8]和Matterport 3D[6]）上进行的大量实验证明，我们的模型与先前的方法相比产生了更具时间连贯性的渲染结果，特别是在物体边界附近。此外，该系统可以有效地从更多的点中学习，但在相对稀疏的点云情况下仍能表现出良好的性能。总之，我们提出了一种基于深度学习的方法来从点云中渲染图像。我们的主要贡献总结如下：0•3D点被投影到分层体积中，以便可以适当处理遮挡和噪声。0•渲染的单视图不仅在图像质量上优越，而且渲染的图像序列在时间上更稳定。0• 我们的系统在相对稀疏的点云方面表现得相当好。02. 相关工作02.1. 基于模型的渲染0基于模型的渲染需要构建3D模型，例如多视图结构运动恢复用于点云恢复[19]，表面重建和网格化[43]。当性能优先时，使用光线追踪[13]来模拟空间中的光传输，以更好地与环境交互，例如几何[40]，材料[10]，BRDF[14]，照明[22]，并产生更逼真的渲染。然而，每个估计步骤都容易出现错误，这导致渲染伪影。此外，这些方法不仅需要大量的场景知识，而且速度非常慢。02.2. 基于图像的渲染0基于图像的渲染（IBR）[16，29，32，38]旨在通过变形[30]和混合[10]从给定的图像中产生新视图，与传统的渲染流程相比，这是一种计算效率高的方法。多视图几何[19]用于相机参数估计或一些绕过3D重建[40]的变体，例如采用极线约束[15]。最近，深度学习已被证明在IBR流程中替代传统方法的变形和混合方面更加有效[12，20]。然而，渲染的新视图质量仍然严重依赖于现有视图的分布，稀疏采样或大视点漂移会产生不令人满意的结果。采用光场相机是缓解这些问题的一种解决方案[26]。02.3. 深度图像合成0用于2D图像合成的深度方法取得了非常有希望的结果，例如自动编码器[21]，Pixel-CNN[42]和图像到图像的转换[24]。基于生成对抗网络[51，34]产生了最令人兴奋的结果。大多数生成器采用编码器-解码器架构，并带有跳跃连接以促进特征传播[37]。然而，这些方法不能直接应用于渲染任务，因为无法利用底层的3D结构进行2D图像转换。02.4. 神经渲染0最近，深度学习被用于改进渲染[41]。Nvidia[5]使用深度学习对相对快速的低质量渲染进行去噪。更根本地，神经渲染通过直接学习输入的表示并生成期望的输出取得了许多成功，例如DeepVoxel[39]和神经点基图形（NPG）[1]。其中大部分依赖于3D体积+intermediate representation. The DeepVoxel cannot renderlarge scenes, such as room environment. The most relatedwork is NPG [1]; it also proposes to render images frompoint cloud, by projecting learned features from points tothe 2D image plane according to perspective geometry, andtrain a 2D CNN to produce the color image. The methodlearns complete and view-dependent appearance, however,it suffers from visibility veriﬁcation problem due to directly3D projection, and is also sensitive to point cloud noises.We project 3D points to a layered 3D volume to overcomesuch problems.78320梯度0神经渲染03D卷积0权重求和0输出地面真实值0感知损失0输入0(B • P • H • W • C)0(H • W • 3 )0B •P •H•W• 30体素化和聚合0点云0B •P •H•W•10RGB0混合权重0(H • W • 3 )0相机视图0图2.我们提出的方法概述。我们的方法分为两部分，基于多平面的体素化（左）和多平面渲染（右）。对于第一部分，点云被重新投影到相机坐标系中形成视锥体区域，并采用体素化和聚合操作生成多平面的3D表示，该表示将与归一化的视角方向连接并发送到渲染网络。对于第二部分，连接的输入被输入到一个3D神经渲染网络中，预测具有4个通道（即RGB+混合权重）的产品，最终输出通过混合所有平面生成。训练过程在感知损失的监督下进行，网络参数和点云特征都根据梯度进行优化。03. 方法0我们的深度学习框架接收场景的点云表示，并从任意相机视角生成逼真的图像。框架的概述如图2所示。整个框架由两个模块组成：基于多平面的体素化和基于多平面的渲染。基于多平面的体素化模块将相机视锥体的3D空间划分为体素，根据图像尺寸和预定义的深度平面数量。然后，体素根据几何规则聚合其中的点的特征。然后将3D特征体积输入到基于多平面的渲染模块中，该模块是一个3DCNN，用于在体积的深度维度上生成一个颜色图像和每个平面的混合权重。最终输出是多平面图像的加权混合。值得注意的是，点云特征表示和网络是联合优化的。本节的剩余部分将详细描述这两个模块的细节。03.1. 概述0我们的输入是场景的3D点云表示。为了进行渲染，每个3D点应包含位置和外观特征。位置特征是从3D重建中获得的，收集外观特征的一种简单方法是保留相应图像像素的RGB值。然而，由于视角相关效应（例如反射和高光），同一个点在不同视角下可能显示不同的RGB强度。为了解决这个问题，我们学习一个8维向量作为外观特征，并与网络参数一起更新这个特征。为此，我们通过将梯度传播到输入[1,41]来更新这个特征，以便可以从数据中自动学习外观特征。由于物体的外观通常是视角相关的，我们进一步考虑相机位置和点云在3D空间中的视角方向。因此，我们将点的归一化视角方向作为附加特征向量连接到每个点上，参考[1]。请注意，这个特征与点的位置不可训练。03.2. 可学习的点云特征0相机视锥体上的分层体素。图像尺寸表示为H×W。通过已知的相机投影矩阵，将每个像素提升到3D空间，形成由投影点云的最小和最大深度指定的近平面和远平面的视锥体。进一步，将视锥体沿z轴均匀地划分为P个小视锥体，如图3(a)所示。因此，我们将获得P×H×W个视锥体体素。特征聚合下一步是将点云的特征聚合到相机视锥体体积中。由于一个视锥体体素可能包含多个3D点，我们需要�(a)(b)�P��ParallelVerticalF(p,h,w) =�i wi(p,h,w) × F i(p,h,w)�i wi(p,h,w),(1)wi(p,h,w) = (1 − Di1(p,h,w))a × (11 + Di2(p,h,w))b,(2)I =�pIp · αp,(3)L(Pf, θ) =�λl∥Φl(Ig) − Φl(f(Pf; θ))∥1,(4)78330多平面基础体素化0聚合点0z轴0视锥体-体素0最小深度平面0最大深度平面0深度体素化0图3. 三维空间体素化和聚合。 (a)多平面体素化。相机视图下的点云被限制在由最小和最大深度平面指定的视锥区域内，这样的区域可以根据图像大小（H，W）和预定义的平面数P均匀地分割成小的视锥体素，其中l表示视锥的长度。 (b)聚合。为了说明，我们以一个视锥体素为例。为了聚合一个视锥体素中的点，我们计算了两种距离。D i 1( p,h,w )是点与像素中心在平行方向上的距离，D i 2( p,h,w )计算了点与该体素中最小深度值之间的深度差异。此外，我们可以根据这两个距离定义每个点的混合权重 w i ( p,h,w)。最后，将混合权重应用于将多个点聚合成一个新点。0聚合特征的一种高效有效的方法。Aliev等人 [ 1]提出了通过沿着光线选择最靠近相机的点的特征，然而，这种方法对几何误差不够鲁棒，可能导致时间上的抖动或错误的遮挡。相比之下，我们通过三维体积保留了相机视锥中的所有特征。为了实现亚体素性能，我们根据到体素中心的距离将每个点特征投票给附近的体素。具体来说，体素中的特征的计算如下：0其中 F i 是体素中第 i 个点的特征，w i ( p,h,w ) 是点 i对体素 ( p, h, w ) 的混合权重。02) 是点在图像上的投影到体素 ( p, h, w )对应像素中心的距离，D 2 ∈ (0 , l )是点与该体素中的最小深度点之间的深度差异。参数 a 和 b控制着在图像平面的平行和垂直方向上的混合权重。当 b→ + ∞ 时，它变成了Aliev等人 [ 1]的方法，其中通过z-buffer选择一个点。0激活方程式2的目的是为了给靠近相机或像素中心的点分配更大的权重。我们发现这在实践中效果很好。其他反映类似特性的公式也可以正常工作。03.4. 多平面渲染0我们采用类似U-Net [ 37]的三维卷积神经网络作为骨干网络。三维卷积有效地利用了相邻像素和深度的信息，自然地处理了由几何噪声引起的投影误差。除此之外，我们还在编码器的最后一层（U-Net的左侧部分）采用了扩张卷积来捕捉更多的图像上下文。作为我们网络的输出，我们预测多平面RGB图像以及它们的混合权重。最终的输出图像 I 是通过以下方式获得的：0其中 p 表示一个平面，I p 和 α p是相应的平面预测。有关网络架构的更多详细信息，请参考补充材料。03.5. 损失函数0为了衡量网络预测与地面真实图像之间的差异，我们使用感知损失 [ 7 , 25]，我们发现它在实践中比其他常见的候选方法，如 ℓ 1 ， ℓ2 ，SSIM，效果更好。特别地，我们使用在ImageNet数据集上预训练的VGG-19模型的‘input’，‘conv1-2’，‘conv2-2’，‘conv3-2’，‘conv4-2’，‘conv5-2’层的特征向量。感知损失被定义为每个特征图上 ℓ 1损失的加权和。具体而言，损失函数定义如下：0其中 P f 表示点特征，I g 是真实图像，θ 是网络参数，f是我们的点云渲染器，φ l 是一组VGG-19层，λ l是用于平衡不同层的权重。03.6. 特征优化。0受Thies等人[ 41 ]和Aliev等人[ 1]的启发，每个点上的外观特征可以通过反向传播进行更新。请注意，聚合的体素特征是点特征的加权组合，因此使用链式法则对点特征进行梯度计算为 − l r × w i ( p,h,w ) × g (p,h,w ) ，其中 g ( p,h,w ) 是从损失函数导出的梯度，l r表示学习率。04. 实验0我们在各种数据集上评估我们的框架，并展示定性和定量结果。特别地，我们测试了系统对数据中噪声的鲁棒性，这严重降低了先前方法的性能。783404.1. 数据集。0ScanNet [ 8 ]包含室内环境的RGBD扫描。我们遵循Aliev等人的训练和测试划分[ 1]。具体而言，每100帧选择一帧进行测试（例如，第100帧，第200帧，第300帧...）。其余的帧用于训练。为了避免包含与训练集太相似的帧，将从训练中删除每个测试帧的邻居（在20帧内）。关于场景点云，我们将深度图中的15％像素随机提升到3D空间中创建一个点云，每个场景包含大约5000万个点。然后，我们使用体积采样对其进行简化，平均每个场景有890万个点。0Matterport 3D [ 6 ]包含室内场景中多个位置的RGBD全景图。每个全景图由18个朝不同方向拍摄的常规RGBD图像组成。对于每个场景，我们随机选择1/100的视角进行测试，其余的视角用于训练。请注意，由于稀疏的点云和相机视角的大变化，整体上该数据集更具挑战性。04.2. 数据准备和训练细节0对于每个场景，我们的网络平均训练21个epoch，使用Adam优化器[ 27 ]，训练期间，学习率l r初始化为0.01，每7个epoch减小一次，学习率的减小顺序为 0.01 → 0.005 → 0.001。对于ScanNet数据集，(P, H,W) 设置为(32, 480, 640)，对于Matterport 3D数据集，(P,H, W) 设置为(32, 512,640)，根据数据集提供的图像分辨率。点特征维度设置为11，并初始化为0.5（5个维度）+ RGB（3个维度）+视点方向（3个维度），请注意，只有前8个维度会被更新。方程2中的参数a、b设置为1，方程4中的参数λ l遵循Chen等人[ 7 ]的设置。训练过程在一块GeForce 1080Ti上完成，每个场景平均耗时41.5小时。04.3. 渲染结果0我们首先将我们的方法与两个竞争对手进行比较，神经点云图形（NPG）[ 1 ]和Pix2Pix [ 24]。具体而言，NPG是一种通过z缓冲将3D点特征投影到2D图像平面，并通过2D卷积进行神经渲染的深度渲染方法。他们采用了类似U-Net的结构和门卷积[ 48 ]。由于[ 1]的作者没有发布代码，我们实现了他们的方法，并在相同的测试案例上取得了类似的性能。Pix2Pix是一种图像到图像的转换框架[ 24]。该网络接收投影的彩色点云，并训练以生成地面真实图像。与NPG相比，这个基准方法不保存每个点的特征。0(a) 直接渲染 (b) 我们的结果0图4. 神经描述符的优势。 (a) 显示直接渲染生成的结果。 (b)使用神经描述符的我们的结果。没有神经描述符的辅助，最终的点云渲染结果会模糊。请放大查看细节。04.3.1 定量比较0我们使用标准度量指标峰值信噪比（PSNR）和结构相似性指数（SSIM）来衡量渲染质量。由于这两个指标可能不一定反映视觉质量，我们还采用了一种人类感知度量指标，学习的感知图像块相似性（LPIPS）[50]。表1报告了两个数据集上的比较结果。我们的方法在两个数据集上都明显优于Pix2Pix，并且在所有指标上都有较大的改进空间。与NPG相比，我们的方法在Matterport3D上表现更好，在ScanNet上表现相当，其中NPG实现了更好的PSNR和SSIM，而我们的LPIPS更高。图5显示了两个数据集上的一些示例。请注意，他们自己的论文中已经提到NPG在牺牲时间一致性的代价下优化了像素级颜色准确性。相比之下，我们的结果没有这种抖动，尤其在深度边界处明显。请参考补充视频进行视觉比较。0直接渲染为了验证学习点云特征是否必要。我们训练了只使用点云RGB值作为特征的模型，称为“直接渲染”。结果显示在图4中。可以看到，没有点特征的直接渲染更加模糊（例如沙发）并且缺乏镜面成分（例如球）。这表明点特征有助于编码与材料相关的信息并支持视角相关的组件。我们还在表1中报告了定量数据，称为“我们+直接渲染”。观察到我们的学习特征的方法在所有指标上优于直接渲染方法。ScanNetMatterport 3D78350数据集 ScanNet [8] Matterport 3D [6]0方法 PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓0pix2pix [24] 19.247 0.731 0.429 14.964 0.530 0.675 神经点云图形 [1] 22.911 0.8400.245 17.931 0.622 0.5970我们+直接渲染 22.259 0.818 0.290 17.833 0.601 0.6100我们的方法 22.813 0.835 0.234 18.09 0.649 0.5340表1. 在ScanNet和Matterport 3D数据集上的PSNR、SSIM和LPIPS值。0(a) 点云 (b) NPG (c) pix2pix (d) 我们的结果0图5. 在ScanNet和Matterport3D数据集上的渲染质量。我们将我们提出的方法与pix2pix和神经点云图形在两个室内场景数据集上进行比较。通过分析新视角下生成的图像，我们提出的方法实现了更好的性能。请放大查看细节。04.3.2 定性比较0图5显示了我们的方法与NPG和Pix2Pix在ScanNet和Matterport3D数据集上的一些视觉比较。前两行显示了ScanNet的两个场景，而第三行和第四行显示了Matterport3D的两个场景。图5(a)显示了点云。点云是有噪声和不完整的。图5(b)显示了NPG的结果。对于ScanNet的结果，我们注意到一些不正确的地方，例如第一个场景中笔记本屏幕上的黑色条纹，以及第二个场景的货架细节缺失（请放大查看0细节缺失）。对于Matterport的结果，细节缺失更加严重，例如第四个例子中缺失了地板纹理。图5(c)显示了pix2pix的结果。它在ScanNet上生成了奇怪的曲线，而在Matterport结果中引入了奇怪的纹理。图5(d)显示了我们的结果。可以看到，我们的结果没有这些问题。04.4. 鲁棒性和稳定性0对噪声点云的鲁棒性在实践中，点云通常是有噪声的，渲染模型需要容忍这些噪声以产生稳健的结果。当物体24.42124.4424.19724.14624.15424.13724.08223.78923.67923.66123.623.82424.224.424.60.9010.8980.8960.8950.8920.8970.8940.890.8880.8840.880.8850.890.8950.90.90578360(a) 点云 (c) NPG (d) 我们的结果0(b) pix2pix0图6. 恢复被遮挡的物体。(a) 带有被遮挡物体的噪声点云。(b) pix2pix方法。(c)通过2D点云图像生成的神经点图形方法[1]的结果。无法有效恢复被遮挡的物体。(d) 我们的3D神经渲染生成的结果。恢复被遮挡的物体。(e)真实结果。0PSNR(dB)0我们的方法 NPG0SSIM0我们的方法 NPG06M 5M 4M 3M 2M 1M 6M 5M 4M 3M 2M 1M0(a) SSIM (b) PSNR0图7. 当点云密度降低时，SSIM和PSNR的趋势。0当点云的深度噪声较大时，点云之间的距离较近，可能会导致错误的z缓冲区，从而遮挡了正确的点。这对于依赖于点云的2D投影的方法（如NPG和Pix2Pix）尤其有害。相比之下，我们的方法在相机视锥体积中保持所有相关的点特征，并允许网络进行正确推断。图6显示了两种具有噪声深度的情况的比较。NPG和Pix2Pix要么完全错过了正确的物体，要么产生了前景和背景的混合物。0对不同密度的鲁棒性从理论上讲，我们的方法可以支持任意大的场景，因为点特征可以存储在硬盘上。然而，为了有效渲染，更希望将点特征保持在内存中，并从相对稀疏的点云中进行渲染，以节省内存和点投影的计算成本。不幸的是，稀疏的点云可能导致不完整的z缓冲区，使遮挡的背景出现在图像中。NPG提议为每个点分配一个正方形大小的投影区域，以减轻这个问题，但可能不足够。图8显示了与NPG在相同场景下不同点密度的定性比较。点越少，NPG显示的背景越多，而我们的方法仍然保留了椅子。图7进一步显示了定量比较。可以看到，虽然两种方法在点较少时表现较差，但我们的方法的指标下降得相对较慢，这意味着使用相机视锥对不同点密度更具鲁棒性。0为了缓解这个问题，我们的方法在投影时根据深度为每个点分配一个正方形大小的投影区域，但可能不足够。图8显示了与NPG在相同场景下不同点密度的定性比较。点越少，NPG显示的背景越多，而我们的方法仍然保留了椅子。图7进一步显示了定量比较。可以看到，虽然两种方法在点较少时表现较差，但我们的方法的指标下降得相对较慢，这意味着使用相机视锥对不同点密度更具鲁棒性。0时间一致性3D相机视锥也有助于提高时间一致性。基于2D投影的方法可能会将同一3D位置的点投影到非常接近的相机视点上。这是因为在略微不同的相机视图之间，z缓冲区中的点的顺序可能发生剧烈变化。因此，同一3D位置的渲染可能使用来自不同点的特征，从而导致抖动伪影。020406061136078370(a) 6M (b) 3M (c) 1.5M0点云NPG我们的结果0图8. 不同稀疏度的点云。每列的点云数量不同，不同行显示了不同方法生成的结果。通过分析，我们的方法可以在相对稀疏的点云上工作。0我们进行了一项用户研究，比较了与NPG、Pix2Pix和直接渲染相比的时间一致性。我们针对每种方法渲染了4个不同场景的4个视频。在用户研究中，每次我们呈现4个方法的4个视频，并要求被试选择最好的一个。由于我们有4个场景，每个用户会选择4次。总共邀请了20名用户，共计80次选择。参与者只需要评判时间一致性。统计结果如图9所示。我们的方法获得了61次选择，这表明我们的视频在时间一致性方面明显优于其他方法。请参考补充文件中的这些视频。05. 结论0在这项工作中，我们提出了一种从3D点云合成新视图图像的方法。我们将这些特征投影到相机视锥的分层体积中，而不是直接将3D点的特征投影到2D图像域中，从而可以自然地保持3D点的可见性。通过实验证明，我们的方法对点云噪声具有鲁棒性，并且生成无闪烁的视频。将来，我们将探索从多个视角合成点云的新视图合成。光流可以用于强制实现时间一致性。080 时间一致性0我们的结果 NPG 直接渲染 pix2pix0图9.对不同方法（即我们的方法，NPG，直接渲染和pix2pix）合成的视频的偏好的用户研究结果。0用于强制执行时间一致性的附加观测。通过对共享点的相似预测施加约束，可以消除闪烁。此外，应用不同深度平面的插值可以进一步提高对稀疏点云的鲁棒性。致谢：本研究部分得到了中国国家自然科学基金（NSFC，编号61872067，编号61720106004）和四川省科技研究计划（编号2019YFH0016）的支持。[1] Kara-Ali Aliev,Dmitry Ulyanov,and Victor Lempit-sky.Neural point-based graphics.arXiv preprintarXiv:1906.08240, 2019. 2, 3, 4, 5, 6, 7[3] James F Blinn. Simulation of wrinkled surfaces. In ACMSIGGRAPH computer graphics, volume 12, pages 286–292,1978. 1[5] Chakravarty R Alla Chaitanya,Anton S Kaplanyan,Christoph Schied, Marco Salvi, Aaron Lefohn, DerekNowrouzezahrai, and Timo Aila. Interactive reconstructionof monte carlo image sequences using a recurrent denoisingautoencoder. ACM Trans. Graphics, 36(4):98, 2017. 2[7] Anpei Chen, Minye Wu, Yingliang Zhang, Nianyi Li, Jie Lu,Shenghua Gao, and Jingyi Yu.Deep surface light ﬁelds.Proc. of Computer Graphics and Interactive Techniques,1(1):14, 2018. 1, 4, 5[9] Angela Dai, Matthias Nießner, Michael Zollh¨ofer, ShahramIzadi, and Christian Theobalt.Bundlefusion: Real-timeglobally consistent 3d reconstruction using on-the-ﬂy surfacereintegration. ACM Trans. Graphics, 36(3):24, 2017. 1[11] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In Proc. CVPR, pages 248–255. Ieee, 2009. 478380参考文献0[2] David Bau, Hendrik Strobelt, William Peebles, JonasWulff, Bolei Zhou, Jun-Yan Zhu, and Antonio Torralba.基于生成图像先验的语义照片操作. ACM Trans. Graphics ,38(4):59, 2019. 10[4] Giang Bui, Truc Le, Brittany Morago, and Ye Duan.基于深度学习的基于点的渲染增强. The Visual Computer ,34(6-8):829–841, 2018. 10[6] Angel Chang, Angela Dai, Thomas Funkhouser, MaciejHalber, Matthias Niessner, Manolis Savva, Shuran Song,Andy Zeng, and Yinda Zhang. Matterport3d:室内环境中的RGB-D数据学习. arXiv预印本arXiv:1709.06158 ,2017. 2 , 5 , 60[8] Angela Dai, Angel X Chang, Manolis Savva, Maciej Hal-ber, Thomas Funkhouser, and Matthias Nießner. Scannet:室内场景的丰富注释的3D重建. In Proc. CVPR , pages5828–5839, 2017. 2 , 5 , 60[10] Paul Debevec, Yizhou Yu, and George Borshukov.采用投影纹理映射的高效视角相关的基于图像的渲染. In 渲染技术 ,pages 105–116. 1998. 20[12] John Flynn, Ivan Neulander, James Philbin, and NoahSnavely. Deepstereo: 从世界图像中学习预测新视图. In Proc.CVPR , pages 5515–5524, 2016. 20[13] Andrew S Glassner. 光线追踪导论 . Elsevier, 1989. 1 , 20[14] Dan B Goldman, Brian Curless, Aaron Hertzmann, andSteven M Seitz. 从光度立体中获取形状和空间变化的BRDF.IEEE模式分析与机器智能 , 32(6):1060–1071, 2009. 20[15] Amit Goldstein and Raanan Fattal.使用极线几何进行视频稳定. ACM图形学期刊 , 31(5):126, 2012. 20[16] Steven J Gortler, Radek Grzeszczuk, Richard Szeliski, andMichael F Cohen. 光场. In ACM SIGGRAPH会议论文集 ,volume 96, pages 43–54, 1996. 1 , 20[17] Markus Gross and Hanspeter P�ster. 基于点的图形学 .Elsevier, 2011. 10[18] Jeffrey P Grossman and William J Dally. 点采样渲染. In渲染技术’ 98 , pages 181–192. 1998. 10[19] Richard Hartley and Andrew Zisserman.计算机视觉中的多视图几何 . Cambridge大学出版社, 2003. 20[20] Peter Hedman, Julien Philip, True Price, Jan-MichaelFrahm, George Drettakis, and Gabriel Brostow.用于自由视点图像渲染的深度融合. In SIGGRAPH Asia2018技术论文集 , page 257, 2018. 1 , 20[21] Geoffrey E Hinton and Ruslan R Salakhutdinov.用神经网络降低数据维度. 科学 , 313(5786):504–507, 2006. 20[22] Yannick Hold-Geoffroy, Kalyan Sunkavalli, Sunil Hadap,Emiliano Gambaretto, and Jean-Franc¸ois Lalonde.深度户外照明估计. In CVPR会议论文集 , pages 7312– 7321,2017. 20[23] Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa.全局和局部一致的图像修复. ACM图形学期刊 , 36(4):107, 2017. 10[24] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros. 条件对抗网络进行图像到图像的转换. In CVPR会议论文集 ,pages 1125–1134, 2017. 2 , 5 , 60[25] Justin Johnson, Alexandre Alahi, and Li Fei-Fei.用于实时风格转换和超分辨率的感知损失. In ECCV会议论文集 ,pages 694–711, 2016. 40[26] Nima Khademi Kalantari, Ting-Chun Wang, and Ravi Ra-mamoorthi. 基于学习的光场相机视图合成. ACM图形学期刊 ,35(6):193, 2016. 20[27] Diederik P Kingma and Jimmy Ba. Adam:一种随机优化方法. arXiv预印本 arXiv:1412.6980 , 2014. 50[28] Leif Kobbelt and Mario Botsch.计算机图形学中基于点的技术综述. 计算机与图形学 ,28(6):801–814, 2004. 10[29] Marc Levoy and Pat Hanrahan. 光场渲染. In计算机图形学与交互技术会议论文集 , pages 31–42, 1996. 1 , 20[30] Feng Liu, Michael Gleicher, Hailin Jin, and Aseem Agar-wala. 用于3D视频稳定的内容保持变形. In ACM图形学期刊 ,volume 28, page 44, 2009. 1 , 20[31] Guilin Liu, Fitsum A Reda, Kevin J Shih, Ting-Chun Wang,Andrew Tao, and Bryan Catanzaro. 用于不规则孔洞的图像修复:部分卷积. In ECCV会议论文集 , pages 85–100, 2018. 10[32] Leonard McMillan and Gary Bishop. 全息建模:基于图像的渲染系统. In 计算机图形学与交互技术会议论文集 ,pages 39–46, 1995. 1

下载后可阅读完整内容，剩余1页未读，立即下载