没有合适的资源?快使用搜索试试~ 我知道了~
稀疏深度先验时,才能在少量输入图像的情况下恢复完整房间的神经辐射场
128920从稀疏输入视图中的稠密深度先验生成神经辐射场0Barbara Roessle 1 Jonathan T. Barron 2 Ben Mildenhall 2 Pratul P. Srinivasan 2 Matthias Nießner 101 德国慕尼黑工业大学 2 谷歌研究0图1.当只有少量输入图像可用时,我们利用稠密深度先验来恢复完整房间的神经辐射场。为此,我们首先利用SfM预处理的稀疏点云重建,将其输入深度完成网络。然后,我们根据估计的不确定性将这些深度估计作为约束加入到NeRF优化中。与NeRF相比,这样可以实现具有更高图像质量和更低深度误差的新颖视角合成结果。0摘要0神经辐射场(NeRF)将场景编码为神经表示,从而实现对新视角的逼真渲染。然而,从RGB图像成功重建需要大量在静态条件下拍摄的输入视图 -通常对于房间大小的场景需要几百张图像。我们的方法旨在使用数量级较少的图像合成整个房间的新视角。为此,我们利用稠密深度先验来约束NeRF优化。首先,我们利用结构运动(SfM)预处理步骤中免费提供的稀疏深度数据。其次,我们使用深度完成将这些稀疏点转换为密集深度图和不确定性估计,这些估计用于指导NeRF优化。我们的方法能够在具有挑战性的室内场景上实现高效的新视角合成,仅使用18张图像即可完成整个场景。01. 引言0从不同视角合成逼真的视图对于人与虚拟环境之间的交互至关重要,因此对许多虚拟现实应用程序来说非常重要。新视角合成任务对于室内场景尤其重要,它使得可以通过建筑物、旅游目的地或游戏环境进行虚拟导航。在扩大此类应用程序时,最好将所需的输入数据量、存储和处理时间以及获取成本最小化。此外,对于较长的捕获持续时间,静态场景要求越来越难以满足。因此,我们的目标是使用较少的输入视图在房间尺度上进行新视角合成。NeRF[21]将场景的辐射场和密度分布表示为多层感知器(MLP),并使用体积渲染来合成输出图像。这种方法可以创建具有复杂几何和外观的场景的令人印象深刻的逼真新视角。不幸的是,仅使用十几张图像将NeRF应用于真实世界的房间尺度场景时,无法产生理想的结果。However, in situations where the scene is observed fromvery few sparsely-sampled viewpoints, NeRF’s high capac-ity to model detailed geometry and appearance can result invarious artifacts, such as “floaters”, i.e., artifacts caused bya flawed density distribution. In this work, we directly ad-dress the few-input setting, proposing a strategy that takesadvantage of sparse depth to constrain NeRF’s scene geom-etry and improve rendering quality. This depth data is freelyavailable as a byproduct of running SfM to compute cameraposes from the input images (e.g., by using COLMAP [23]).Our method takes inspiration from techniques that gener-ate complete dense depth maps from sparse depth inputs.These include classic techniques that fuse observed depthsinto a single 3D reconstruction, typically in the form of atruncated signed distance function [5, 15], as well as morerecent techniques that train deep networks to operate overthe sparsely observed geometry in 3D [7,8]. Although thesemethods are effective for dense 3D scene reconstruction, theresulting geometry is not ideal for view synthesis since itsedges frequently do not align with edges in the observedimages.Instead, we leverage recent work on 2D sparsedepth completion that directly completes depth maps in im-age space [3,4] and extend it to also predict uncertainty.128930由于NeRF完全依赖RGB值来确定输入图像之间的对应关系,因此仅当给予足够的图像来克服对应问题的固有歧义时,NeRF才能实现高视觉质量。然而,真实世界的室内场景具有进一步复杂化歧义挑战的特点:首先,与围绕中心对象拍摄的图像的“从外到内”视角相比,房间的视角代表了一个“从内到外”的视角,其中相同数量的图像之间的重叠显著减少。其次,室内场景通常具有大面积的最小纹理区域,例如白色墙壁。第三,真实世界的数据通常在视角之间具有不一致的颜色值,例如由于白平衡或镜头阴影等因素。这些室内场景的特点同样对SfM构建具有挑战性,导致非常稀疏的SfM重建,通常伴有严重的异常值。我们的想法是利用这些嘈杂和不完整的深度数据,并从中生成完整的密集地图以及这些深度的每像素不确定性估计,从而增加其对NeRF的价值 -尤其是在无纹理,很少观察到或颜色不一致的区域。我们提出了一种方法,该方法使用密集深度先验指导NeRF优化,而无需场景的额外深度输入(例如来自RGB-D传感器)。相反,我们利用SfM运行的副产品中免费提供的稀疏重建来计算相机姿态参数。具体而言,我们使用一个网络来完成稀疏深度图,并估计深度的不确定性。考虑到不确定性,我们使用得到的密集深度来约束优化并指导场景采样。我们在Matterport3D [2]和ScanNet[6]数据集上对我们的方法的有效性进行了评估,仅使用少量输入图像即可完成整个房间。我们展示了我们的方法改进了使用SfM或多视图立体(MVS)中的稀疏深度的最新和同时进行的NeRF [10,26]的工作。总之,我们证明了具有不确定性估计的密集深度先验使得使用仅18-36张图像的NeRF在房间大小的场景上实现了新颖的视角合成,这得益于以下贡献:01. 一种在实际场景中对实现室内规模的新视角合成的数据高效方法。02.一种增强来自SfM的嘈杂稀疏深度输入以支持NeRF优化的方法。03.一种在使用深度信息引导NeRF时考虑可变不确定性的技术。02. 相关工作0密集采样场景的图像,可以使用简单的光场插值[12,17]合成新的视角。然而,当场景的观察视角较少时,越来越需要使用关于场景几何的信息来渲染新的视角。基于几何的视角合成的常见范式是使用场景几何的三角网格表示将观察到的图像重新投影到每个新的视角,并使用启发式[1,9,27]或学习的[14,22]混合算法将它们组合起来。最近,这些基于网格的几何模型已被体素网格[18]或多平面图像[11,20,24,29]等体积场景表示所取代。NeRF[21]通过将场景表示为连续体积,并通过优化最小化重新渲染场景的所有观察视角的损失的MLP来避免离散体素表示的陡峭缩放特性。自引入以来,NeRF已成为主导的场景表示方法,许多最新的研究都是基于NeRF的神经体积模型构建的。0最近的一些研究还提出将深度观测融入到NeRF重建中。Nerfing-MVS[26]使用MVS的深度来过度拟合场景的深度预测器。得到的深度先验指导NeRF采样。相比之下,我们的方法在SfM深度上使用深度补全,并额外使用深度损失来监督NeRF恢复的几何形状。这样,我们的新视角在少量输入的情况下实现了显著更好的颜色和深度质量,而不依赖于计算成本更高的MVS预处理。,(2)128940深度监督的NeRF的当前工作[10]直接使用来自SfM的稀疏深度信息进行NeRF优化。为了处理稀疏重建中的不准确性,根据其重投影误差对3D点进行加权。相比之下,我们学习具有不确定性的稠密深度先验,以更有效地引导优化,从而获得更详细的新视角,以及更准确的几何形状和对SfM异常值更高的鲁棒性。03. 方法0我们的方法可以从一小组RGB图像{Ii}N−1i=0,Ii∈[0,1]H×W×3(见图2)中合成室内规模的新视角。作为预处理步骤(例如使用SfM),相机姿态pi∈R6,内参Ki∈R3×3和稀疏深度图Zsparsei∈[0,tf]H×W0对于每个图像计算稀疏深度。稀疏深度的0值表示无效像素,tf是体积渲染的远平面。我们的方法建立在NeRF[21]之上。在NeRF优化之前,网络根据稀疏深度输入(第3.1节)估计深度和不确定性。我们通过添加深度约束和引导采样方法(第3.2节)将得到的密集深度先验融入到NeRF优化中。03.1. 带有不确定性的深度完成0网络架构为了完成来自SfM的稀疏深度,这个输入数据提出的两个挑战在设计深度先验网络时起到了关键作用。首先,稀疏重建是有噪声和异常值的。因此,密集深度预测的准确性在空间上是变化的,这使得在每个像素级别了解不确定性至关重要。其次,SfM点云的密度在空间上变化很大,这取决于图像特征的数量。例如,每个ScanNet场景的18-20张图像的SfM重建导致平均有效像素为0.04%的稀疏深度图。因此,深度完成必须能够从大部分为空的稀疏深度图中预测出密集深度。为了解决第一个挑战,我们构建了我们的深度先验网络Dθ0,用于预测稀疏深度图Zsparsei中的密集深度图Zdensei∈[0,tf]H×W以及像素级标准差Si∈[0,∞)H×W:0�Zdensei,Si�=Dθ0(Ii,Zsparsei),(1)0其中Dθ0是一个具有ResNet[13]下采样和跳跃连接的卷积网络,用于预测深度Zdensei和标准差Si。为了解决极度稀疏输入深度的第二个挑战,我们在每个分支中使用了一个卷积空间传播网络(CSPN)[4]。这个细化块通过由学习到的关联矩阵给出的权重,对输入进行局部和迭代地处理。这样可以改善通常模糊的深度输出,使其变得更加详细和清晰。同样重要的是,这个过程将信息传播到相邻的像素;即,信息在每次迭代中传播得更远。增加深度和不确定性头部的迭代次数有助于处理非常稀疏的输入。0使深度输出变得更加详细和清晰。同样重要的是,这个过程将信息传播到相邻的像素;即,信息在每次迭代中传播得更远。增加深度和不确定性头部的迭代次数有助于处理非常稀疏的输入。0网络训练虽然我们使用SfM对RGB数据进行评估,但我们的模型是使用来自ScanNet [6]和Matterport3D[2]的RGB-D数据进行训练的。为了避免在大型数据集上运行SfM的工作量和训练数据中可能出现的SfM失败的可能性,我们从范围传感器深度中对稀疏深度输入进行采样。因此,关键是以一种方式对传感器中的密集深度进行子采样和扰动,以创建出能够使网络在测试时推广到真实的SfM输入的现实稀疏训练深度。具体来说,我们使用SIFT特征提取器(例如COLMAP[23]中的)来确定在SfM重建中可能存在稀疏深度点的位置。我们在这些点上对传感器深度进行采样,并使用高斯噪声N(0,s noise (z)2)对其进行扰动,其中标准差s noise随深度增加而增加。函数s noise(z)是通过拟合稀疏SfM重建与传感器深度之间的深度偏差来确定的二次多项式。在假设输出服从正态分布的情况下,我们通过最小化高斯分布的负对数似然来监督网络:0Lθ0=10n0log(s2j) + (zj - zsensor,j) 20s2j0其中zj和sj是像素j的预测深度和标准差,zsensor,j是j处的传感器深度,n是密集传感器深度图中有效像素的数量。03.2.具有密集深度先验的辐射场0场景表示根据NeRF[21],我们将场景的辐射场编码为一个MLPFθ1,该MLP从位置x ∈ R3和单位范数的观察方向d ∈S2预测颜色c = [r, g,b]和体积密度σ。γ对位置进行了9个频率的位置编码。由于我们的场景在角度上欠采样,我们通过省略观察方向的位置编码来减小视角相关网络的容量。0[c, σ] = Fθ1(γ(x), d, ℓi),(3)0作为Fθ1的额外输入,我们生成每个图像的图像嵌入向量ℓi∈ Re[19]。这使得网络能够补偿视角特定的现象,如不一致的照明或镜头阴影,这可能会在新视角中引起严重的伪影,特别是在输入图像很少的情况下。0深度约束优化为了优化辐射场,批处理R中每个像素的颜色ˆC(r)σk′δk′,(6),(10)�2(ˆz(128950图2.我们辐射场优化流程的概述。给定一个房间的少量RGB图像,我们运行SfM以获得相机参数和稀疏重建,从中为每个输入视图渲染出稀疏深度图。深度补全网络预测密集深度和标准差,用于将场景采样集中在表面上。射线上的样本、其观察方向和每个相机的潜在编码输入到辐射场中。将输出的颜色和密度积分以获得像素的颜色和射线的预期终止深度。辐射场使用输入的RGB和深度补全输出进行监督。0通过评估体积渲染积分的离散版本(Eq. (4)[21])来计算。具体来说,像素确定了一条射线r(t) = o +td,其起点位于相机的投影中心o。射线沿着体积的遍历进行采样。对于在近平面和远平面内的每个采样位置tk ∈ [tn,tf],查询Fθ1提供局部颜色和密度。0ˆC(r) =0k =1 wk ck,(4)0其中wk = Tk (1 - e(-σkδk)),(50Tk = exp0-0k0δk = tk+1 - tk,(7)0除了射线的预测颜色外,还需要NeRF深度估计ˆz(r)和标准差ˆs(r)来根据学习的深度先验(Sec.3.1)监督辐射场。NeRF深度估计和标准差是从渲染权重wk计算的:0ŷz(r) =0k =1 wk tk,ŷs(r) 2=0k =1 wk (tk - ŷz(r))2,(8)0网络参数θ1使用损失函数Lθ1进行优化,该损失函数由颜色输出的均方误差(MSE)项Lcolor和深度输出的高斯负对数似然(GNLL)项Ldepth组成:0Lθ1 =0λL颜色(r) + λL深度(r),(9)0Lcolor(r) = ||ˆC(r) - C(r)||20L深度(r) =0否则为0,(11)0其中 P = |ˆz(r) - z(r)| > s(r), (12)0Q = ˆs(r) > s(r). (13)0这里 z(r) 和 s(r) 是对应的 Z dense i 和 S i的目标深度和标准差。深度损失应用于满足以下条件之一的光线:1)预测深度与目标深度之间的差异大于目标标准差(公式(12)),或者2)预测标准差大于目标标准差(公式(13))。这种方式,损失鼓励NeRF在深度先验中最可靠的表面观测的一个标准差范围内终止光线。同时,NeRF保留一定的自由度来分配密度以最小化颜色损失。与MSE相比,这种深度损失的有效性在消融研究(第4.4节)中展示出来。0深度引导采样除了深度损失函数外,深度先验还包含有价值的信号来指导沿光线的采样。为了渲染一个房间规模的场景的一个像素,我们需要与原始NeRF相同数量的MLP查询;但是,我们替换了用于分层采样的粗糙网络。在优化过程中,一半的样本分布在近平面和远平面之间,另一半从由深度先验 N(z(r), s(r)^2)确定的高斯分布中抽取。在测试时,当深度未知时,使用前一半样本渲染近似深度 ˆz(r) 和标准差 ˆs(r),然后根据N(ˆz(r), ˆs(r)^2) 抽取第二半样本。1289604.结果0我们在ScanNet [6]和Matterport3D[2]数据集上进行了基准比较(第4.3节)和消融研究(第4.4节)来评估我们的方法。04.1.实验设置0ScanNet我们运行COLMAP SfM[23]来获取相机参数和稀疏深度。具体而言,我们在所有图像上运行SfM以获取相机参数。为了确保训练数据和测试数据之间有清晰的分割,我们在计算用于渲染稀疏深度图的点云时保留测试图像。平均而言,生成的深度图具有0.04%的有效像素。我们使用三个样本场景,每个场景包含18到20个训练图像和8个测试图像。这组图像是通过排除具有运动模糊的视频帧,并确保至少从一个输入视图观察到表面的方式得到的(详见补充材料)。0Matterport3D使用PrimeSense相机的RGB图像,COLMAPSfM在Matterport3D中难以重建完整的房间,因此,我们通过对传感器深度进行采样和扰动来模拟来自SfM的稀疏深度,如第3.1节中所述。从SfM点云渲染的稀疏深度图在3D上是一致的。虽然3D上的一致性对于训练2D深度补全无关紧要,但在优化NeRF的3D场景表示时起着关键作用。因此,我们通过将采样和扰动的3D点投影到所有其他视图来确保用于NeRF的场景具有3D一致的稀疏深度。平均而言,生成的深度图是0.1%完整的。稀疏深度密度的影响在补充材料中进行了研究。我们评估了三个示例房间,每个房间包含24到36个训练图像和8个测试图像。0NeRF优化我们以1024个光线批处理,并使用学习率为0.0005的Adam优化器[16]。为了公平起见,在消融和基准实验中,所有方法都配置为每个像素使用256个MLP评估,与使用的采样方法无关。辐射场经过500k次迭代进行优化。有关NeRF和深度先验的实现细节,请参阅补充材料。0评估指标为了定量比较,我们计算了峰值信噪比(PSNR)、结构相似性指数(SSIM)[25]和学习感知图像块相似性(LPIPS)[28]以及NeRF的预期光线终止深度与传感器深度之间的均方根误差(RMSE)的RGB值。通过直接比较颜色值,PSNR在场景的图像具有不一致颜色时具有有限的表达能力。如图所示0RMSE [m] ↓ 数据集 稀疏深度 密集深度0ScanNet 0.261 0.268 Matterport3D0.041 0.1350表1. 深度先验的准确性。0在第4.4节中,用于表示视角特定外观的潜在代码在产生一致的颜色方面起到了很大的帮助。然而,渲染图像的颜色不一定与评估时的测试视角相似。为了弥补这种差异,我们报告了一个额外的PSNR值,该值是在整个测试视角上优化潜在代码后计算得出的。我们无法使用NeRF-W [ 19]的左/右图像分割评估过程,因为图像的外观变化太大,因此这些数字应该被视为性能的上限。这个额外的度量指标在所有使用潜在代码的方法(表2和表3)中以括号的形式列出。在测试时,所有其他指标以及论文中的所有渲染都是通过将潜在代码设置为零来计算的,因为在测试时这些代码是未知的。04.2. 深度先验0表1显示了用于NeRF的三个ScanNet和三个Matterport3D场景上的深度先验准确性。这些场景是在深度完成训练期间的测试集的一部分。在Matterport3D上生成的质量更高的稀疏深度导致更准确的密集深度先验。然而,网络在ScanNet上插值更嘈杂的SfM稀疏深度时,准确性没有明显下降。04.3. 基准比较0我们将我们的方法与NeRF [ 21]以及最近和同时使用稀疏深度输入的NeRF的相关工作进行比较,即Depth-supervised NeRF(DS-NeRF)[ 10]和NerfingMVS [ 26]。由于DS-NeRF和NerfingMVS分别依赖于SfM和MVS深度,因此它们在ScanNet上运行。NeRF和我们的方法都在两个数据集上运行。定量结果(表2)显示我们的方法在所有指标上优于基准。在具有少量输入视角的情况下,使用具有不确定性的密集深度先验,我们的方法大大减少了“浮动物体”的产生,相比基准方法(示例2图3)减少了这些伪影。这有助于更准确的深度输出和更丰富的颜色细节,例如在书籍和门把手中可见(示例3图3)。我们发现我们的方法对稀疏深度输入中的异常值更具鲁棒性。例如,沙发背部区域的错误SfM点(示例5图3)导致其他方法在几何和颜色方面存在更大的缺陷。这表明具有不确定性的密集深度先验将优化重点放在了123456128970NeRF [ 21 ] DS-NeRF [ 10 ] NerfingMVS [ 26 ] 我们的真实数据0图3. 从三个ScanNet房间的测试视角渲染的RGB和深度误差,与真实的RGB和深度相邻。12345th128980在更确定和准确的视角上,直接将稀疏深度作为DS-NeRF中的一部分,会更容易出错。除了对异常值更具鲁棒性外,密集深度在边界处对NeRF的指导更好,而这些边界在稀疏深度输入中没有被表示出来。这可以在示例6(图3)中观察到,在DS-NeRF中椅子背部的一部分缺失,而使用我们的方法则完整。0NerfingMVS细节在将错误映射计算应用于整个房间而不是局部区域时,NerfingMVS中的错误映射计算失败,导致采样范围无效。该问题在补充材料中详细解决。为了改善这个基准的性能,我们训练其深度预测器比论文中多训练了10个epochs。然而,ScanNet场景上的深度先验仍然保持在RMSE0NeRF [ 21 ] 我们的无完成 无不确定性 无GNLL 无潜在代码 我们的真实数据0图4. 从三个Matterport3D房间的测试视角渲染的RGB和深度误差,与真实的RGB和深度相邻。DS-NeRF [10]20.850.7130.3440.447NerfingMVS [26]16.290.6260.5020.482Ours w/o Completion20.43 (22.10) 0.7070.3660.526Ours w/o Uncertainty20.09 (22.21) 0.7140.3080.279Ours w/o GNLL20.80 (22.23) 0.7330.3120.275Ours w/o Latent Code20.870.7260.2930.243Ours20.96 (22.30) 0.7370.2940.236Ours w/o Completion16.90 (18.84) 0.6150.5210.427Ours w/o Uncertainty17.95 (20.37) 0.6580.4130.115Ours w/o GNLL18.00 (20.65) 0.6690.4230.133Ours w/o Latent Code17.420.6540.4100.110Ours18.33 (20.82) 0.6730.4020.114128990深度方法 PSNR ↑ SSIM ↑ LPIPS ↓ RMSE ↓0表2.ScanNet上的定量结果。括号表示在优化潜在代码后获得的PSNR。00.379m。虽然我们的方法仅使用训练图像来计算稀疏深度输入,但NerfingMVS在训练和测试图像上一起运行COLMAP MVS,这使他们具有优势。04.4. 消融研究0为了验证添加组件的有效性,我们在ScanNet和Matterport3D场景上进行了消融实验。定量结果(表2和表3)表明,我们方法的完整版本在图像质量和深度估计方面取得了最佳性能。这与图4中的定性结果一致。无完成由于没有深度输入区域的“浮动物”,没有深度完成和仅使用稀疏深度进行监督会导致深度和颜色不准确。即使在稀疏深度点的区域,结果也不如使用完成深度的版本锐利。无不确定性从优化中去除不确定性会导致无法解决2D深度先验重叠区域的不一致性问题。这会导致RGB和深度中的错误边缘(图4中的示例2),重复伪影(图4中的示例4)或缺乏细节,例如椅子背面的图案(图4中的示例1)。ScanNet上的定量结果(表2)表明,在使用质量较低的SfM稀疏深度时,考虑不确定性变得更加重要。无GNLL在这个实验中,我们将深度损失(公式(11))中的GNLL替换为MSE,并观察到MSE在约束表面后面的密度方面存在问题。密度分布中缺乏锐利的边缘在新视角中最为明显,例如看向走廊的视角(图4中的示例3)。无潜在代码省略模拟每个相机信息的潜在代码会导致无法在整个场景中产生平滑一致的颜色输出。在渲染新视角时,训练图像的视锥体会明显可见,导致颜色强度严重偏移(图4中的示例2和3)。0深度方法 PSNR ↑ SSIM ↑ LPIPS ↓ RMSE ↓0表3. Matterport3D上的定量结果,使用与表2相同的格式。04.5. 限制0我们的方法允许在基于NeRF的新视角合成中显著减少输入图像的数量,同时将其应用于更大的房间大小的场景。然而,其他NeRF的限制,如长时间的优化和缓慢的渲染仍然存在。由于输入图像数量的大幅减少,表面通常只被其他两个视图观察到,因此视角相关效果有限。虽然我们的方法在仅有18个图像的情况下优化了NeRF,但深度先验网络需要更大的训练数据集。尽管这些先验具有很好的泛化性,并且只需要训练一次,但如果深度重建也可以从稀疏设置中学习将会更有益。05. 结论0我们提出了一种使用神经辐射场(NeRF)进行新视角合成的方法,该方法利用了密集的深度先验,从而仅使用18到36个输入图像就可以对完整的房间进行重建。通过学习适用于各种场景的深度先验,我们的方法利用了深度信息,而无需对场景进行深度传感器输入。相反,深度先验网络依赖于输入图像上的稀疏重建,这在结构运动(SfM)之后可以免费获得。我们展示了仅有少量输入视图时,我们的具有不确定性的密集深度先验可以有效地引导NeRF优化,从而相比于使用SfM或NeRF中的多视图立体输出的其他方法,能够获得更高质量的新视图图像和更准确的深度估计。总体而言,我们相信我们的方法是使NeRF重建在商品设置中可用的重要一步。0致谢0该项目由TUM-IAS Rudolf M¨oßbauer Fellowship、ERCStarting Grant Scan2CAD(804724)和德国研究基金会(DFG)Grant MakingMachine Learning on Static and Dynamic 3D DataPracti- cal资助。我们感谢Angela Dai的视频配音。129000参考文献0[1] Chris Buehler,Michael Bosse,LeonardMcMillan,Steven Gortler和Michael Cohen.无结构的光栅图渲染. 在SIGGRAPH中,页425-432,2001年。 20[2] Angel X. Chang,Angela Dai,Thomas A. Funkhouser,Ma-ciej Halber,Matthias Nießner,Manolis Savva,ShuranSong,Andy Zeng和Yinda Zhang. Matterport3d:室内环境中的RGB-D数据学习. 3DV,2017年。 2,3,50[3] Xinjing Cheng,Peng Wang和Ruigang Yang.通过卷积空间传播网络学习深度估计.在2018年欧洲计算机视觉会议(ECCV)中,页103-119,2018年。 20[4] Xinjing Cheng,Peng Wang和Ruigang Yang.通过卷积空间传播网络学习深度. IEEE TPAMI,42,2020年。2,30[5] Brian Curless和Marc Levoy.一种从距离图像构建复杂模型的体积方法.第23届计算机图形学与交互技术年度会议论文集,1996年。 20[6] Angela Dai,Angel X. Chang,Manolis Savva,MaciejHal- ber,Thomas A. Funkhouser和Matthias Nießner. Scan-net: 室内场景的丰富注释的3D重建. CVPR,2017年。 2,3,50[7] Angela Dai,Christian Diller和Matthias Niessner. Sg-nn:用于自监督场景完成的稀疏生成神经网络.在2020年IEEE/CVF计算机视觉与模式识别会议(CVPR)中,2020年6月。 20[8] Angela Dai,Daniel Ritchie,Martin Bokeloh,ScottReed,J¨urgen Sturm和Matthias Nießner. Scancomplete:大规模场景完成和3D扫描的语义分割.在2018年计算机视觉与模式识别(CVPR)会议论文集中,IEEE,2018年。 20[9] Paul E. Debevec,Camillo J. Taylor和Jitendra Malik.基于照片的建筑物建模和渲染: 一种混合几何和基于图像的方法.在第23届计算机图形学与交互技术年度会议SIGGRAPH'96中,页11-20,1996年。 20[10] Kangle Deng,Andrew Liu,Jun-Yan Zhu和Deva Ra-manan. 深度监督NERF: 更少的视图和更快的训练.ArXiv,abs/2107.02791,2021年。 2,3,5,6,80[11] John Flynn,Michael Broxton,Paul Debevec,MatthewDu- Vall,Graham Fyffe,Ryan Overbeck,NoahSnavely和Richard Tucker. Deepview:通过学习梯度下降进行视图合成.在2019年IEEE/CVF计算机视觉与模式识别会议论文集中,页2367-2376,2019年。 20[12] Steven J Gortler,Radek Grzeszczuk,RichardSzeliski和Michael F Cohen. 光栅图.在SIGGRAPH中,页43-54,1996年。 20[13] Kaiming He,X. Zhang,Shaoqing Ren和Jian Sun.深度残差学习用于图像识别. CVPR,2016年。 30[14] Peter Hedman,Julien Philip,True Price,Jan-MichaelFrahm,George Drettakis和Gabriel Brostow.用于自由视点图像渲染的深度融合. 2018年。 20[15] Shahram Izadi, David Kim, Otmar Hilliges, DavidMolyneaux, Richard Newcombe, Pushmeet Kohli, JamieShotton, Steve Hodges, Dustin Freeman, Andrew Davison,and Andrew Fitzgibbon. Kinectfusion:实时3D重建和使用移动深度相机进行交互.在UIST'11第24届年度ACM用户界面软件和技术研讨会论文集中,页559-568. ACM,2011年10月。 20[16] Diederik P. Kingma和Jimmy Ba. Adam: 一种随机优化方法.CoRR,abs/1412.6980,2015年。 50[17] Marc Levoy和PatHanrahan。光场渲染。在SIGGRAPH,1996年。20[18] Stephen Lombardi,Tomas Simon,JasonSaragih,Gabriel Schwartz,Andreas Lehrmann和YaserSheikh。神经体积:从图像学习动态可渲染体积。ACMTransactions on Graphics(SIGGRAPH),2019年。20[19] Ricardo Martin-Brualla,Noha Radwan,Mehdi S. M.Sajjadi,Jonathan T. Barron,Alexey Dosovitskiy和DanielDuckworth。Nerf in thewild:用于无约束照片集合的神经辐射场。在CVPR,2021年。3,50[20] Ben Mildenhall,Pratul P. Srinivasan,RodrigoOrtiz-Cayon,Nima K. Kalantari,Ravi Ramamoorthi,RenNg和AbhishekKar。局部光场融合:使用预设采样指南进行实用的视图合成。ACM Transactions on Graphics(SIGGRAPH),2019年。20[21] Ben Mildenhall,Pratul P. Srinivasan,MatthewTancik,Jonathan T. Barron,Ravi Ramamoorthi和RenNg。Nerf:将场景表示为神经辐射场以进行视图合成。在ECCV,2020年。1,2,3,4,5,6,7,80[22] Gernot Riegler和VladlenKoltun。自由视图合成。在ECCV,2020年。20[23] Johannes Lutz Schönberger和Jan-MichaelFrahm。重新审视运动结构。在计算机视觉和模式识别(CVPR)会议上,2016年。2,3,50[24] Pratul P. Srinivasan,Richard Tucker,Jonathan T.Barron,Ravi Ramamoorthi,Ren Ng和NoahSnavely。通过多平面图像推动视图外推的边界。在CVPR,2019年。20[25] 周旺,Alan Conrad Bovik,Hamid R. Sheikh和Eero P.Simoncelli。图像质量评估:从误差可见性到结构相似性。IEEETransactions on Image Processing,13:600-612,2004年。50[26] Yi Wei,Shaohui Liu,Yongming Rao,WangZhao,Jiwen Lu和JieZhou。Nerfingmvs:室内多视图立体的神经辐射场引导优化。在ICCV,2021年。2,5,6,80[27] Daniel N Wood,Daniel I Azuma,Ken Aldinger,BrianCurless,Tom Duchamp,David H Salesin和WernerStuetzle。用于3D摄影的表面光场。在第27届计算机图形学和交互技术年会上的论文集,页287-296,2000年。20[28] Richard Zhang,Phillip Isola,Alexei A. Efros,EliShechtman和OliverWang。深度特征作为感知度量的不合理有效性。2018IEEE/CVF计算机视觉和模式识别会议,页586-595,2018年。5129010[29] 周廷辉,Richard Tucker,John Flynn,GrahamFyffe和NoahSnavely。立体放大:使用多平面图像学习视图合成。ACMTransactions on Graphics(SIGGRAPH),2018年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功