没有合适的资源?快使用搜索试试~ 我知道了~
12912InfoNeRF:用于少镜头神经体绘制的光线熵最小化Mijeong Kim1Seonguk Seo1Bohyung Han1,21 ECE1 ASRI1,2 IPAI,首尔国立大学{mijeong.kim,seonguk,bhhan}@ snu.ac.kr图1.InfoNeRF(我们的)与其他基于NeRF的模型[11,20,37]在4视图设置中的Realistic Synthetic 360Rectangle数据集的乐高,材料和Ficus场景上的定性比较现有的作品经常受到噪音(b),颜色失真(c)或模糊效果(d)的影响,而InfoNeRF(我们的)仅用几个输入视图就实现了出色的渲染图像质量。最后一列(f)显示了InfoNeRF(我们的)估计的深度图,它提供了对象的清晰边界和精细细节。摘要提出了一种基于神经隐式表示的信息论正则化方法来合成少镜头新该方法通过对每条射线的密度施加熵约束,最大限度地减少了由于视点不足而导致的潜在重建不一致性此外,为了减轻潜在的退化问题时,所有的训练图像是从几乎冗余的观点,我们进一步将空间平滑度约束到估计的图像,通过限制信息增益从额外的射线略有不同的观点。我们算法的主要思想所提出的正则化器可以以一种简单的方式插入到大多数现有的基于NeRF的神经体绘制技术尽管它的简单性,我们实现considerably改善性能相比,现有的神经视图合成方法的大利润率多个标准的dard基准。我们的代码和模型可在项目网站1.1. 介绍理解自然场景的3D结构是各种高级计算机视觉应用的关键步骤,包括物体识别,真实感绘制,自动识别和三维重建。算法是使重建的场景沿着各个方向紧凑,在邻域中的单个射线和一致的交叉射线1http://cvlab.snu.ac.kr/research/InfoNeRF12913虚拟驾驶,虚拟现实,还有很多其他的。深度学习的最新进展使高保真3D重构和识别成为可能,但由于数据格式的非结构化性质、高存储器要求和缺乏原则性架构,使用3D数据的学习本质上比基于2D图像的对应物更困难因此,许多研究者在标准模型的基础上,研究了合适的训练算法和降低计算代价的方法,并试图解决各种挑战性任务。基于神经隐式表示的新视图合成是自神经辐射场(NeRF)[20]引入以来吸引了大量关注的3D学习任务之一NeRF在不对3D场景结构进行显式建模的情况下提供精确的3D重建结果,但是需要从多个校准的相机捕获许多图像阻碍了该方法的适用性。因此,最近的几种方法旨在降低高计算成本并减轻与数据集相关的约束[7,11,37]。在这条研究路线中,我们探索了少镜头先验自由的新视图合成任务,其中只有有限数量的训练图像是可访问的,而其他先验信息,如目标场景的对象类别和语义结构,是不可用的。存在用于该任务的若干先前工作,但它们要么几乎不使用几个示例[11],要么需要窄基线假设来使用外部模块[7]找到对应关系。其他方法依赖于场景的先验知识,例如对象类或特征。例如,PixelNeRF [37]利用从可见图像中提取的特征来补偿不可见视图中的缺失信息,而[14,23]则专注于特定的对象类,例如,,人类,在小说的观点合成。我们解决了现有的几个镜头的新的视图合成方法的根本缺点:不一致的repricing- tion,这会产生噪声,模糊,或在渲染图像中的文物,和过拟合看到的意见,这会导致退化,erate或平凡的解决方案。所提出的方法,被称为InfoNeRF,通过对估计的场景,这是通过熵最小化在每个射线实现的稀疏性来消除重建不一致。过拟合问题通过相对于视点变化强制重建的平滑性来处理,这通过最小化来自一对稍微不同的视点的信息增益来控制。图1展示了我们的模型所估计的渲染图像和深度图的出色质量,该模型仅使用4个具有宽基线的输入视图来描绘清晰的对象边界和精细结构整体而言,我们的算法的主要贡献及益处概述如下:• 我们提出了一种新的信息理论方法,InfoNeRF,用于体绘制的神经隐式表示的正则化。该方法指出了现有少镜头新视点合成技术的主要缺陷,并引入了两种有效的正则化方法:射线熵最小化和射线信息增益降低。• 由于InfoNeRF是一种通用的正则化技术,并且不需要任何其他外部数据结构,例如体素或网格,或额外的可学习参数,它可以应用于各种有或没有场景先验的神经体• 所提出的正则化技术被证明是有效的,以减轻重建不一致的多个视图,并防止退化的解决方案,尽管其简单。我们展示了几个标准的基准几杆新颖的视图合成InfoNeRF的出色表现• 据我们所知,InfoNeRF是第一个NeRF变体,它在没有先验信息的情况下对宽基线图像数据集执行少量新视图合成。2. 相关工作2.1. 一种新的视图合成方法新颖的视图合成的目的是通过几何和光度的理解,一个3D场景给定的一组训练图像渲染逼真的图像。为了解决这个问题,传统上采用了光场[15,29,35]或基于图像的渲染[3-特别是,NeRF [20]通过将多层感知器应用于可微体绘制来实现照片级真实感渲染结果以下工作试图在各个方面扩展NeRF,例如动态视图合成[16],自校准视图合成[33],实时渲染[21,34,36],重照明[28],抗锯齿[1]。尽管基于NeRF的模型已经取得了令人印象深刻的性能,但它们有一个共同的缺点;它们需要密集的场景采样,使得它们难以应用于现实世界的场景。我们解决了少镜头体绘制任务,以提高适用性,减少需要许多图像捕获的校准相机。2.2. 少镜头新颖视图合成为了在给定稀疏观测的情况下合成场景的新视图,一些算法从图像估计深度图,因为深度对于视图合成和3D重建是有价值的来源。深度信息在深度引导图像插值[9,24]、多平面图像预测[31]和学习几何正则化中起着至关重要的作用。12914Σ··ΣR复杂场景[7],用于少数镜头视图合成。然而,这些方法需要具有深度超视或外部深度估计模块(例如,、多视图立体或COLMAP SfM [25],并且由于不正确的深度预测而容易受到大的投影误差的影响。为了克服该限制,几种方法通过引入NeRF的图像编码器来利用多视图特征语义来估计颜色和不透明度[14,23,37]或实现所看到的图像和渲染的新视图之间的语义一致性[11]。这些策略有助于学习语义先验,并允许我们合成新的视图,只有少数拍摄的图像。与上述作品不同,该算法不依赖于任何先验信息或额外的预训练编码器。我们直到第i个点的射线,由下式i−1Ti=σj δj(2)j=1光线上的点以两阶段分层方式进行采样,以提高渲染效率。在第一阶段中,点被均匀地采样,而在第二阶段中,基于在第一阶段中估计的密度执行重要性采样。由于所有过程都是完全可微的,因此利用以下目标来优化对辐射场进行编码的神经网络:L=1-C(r)-C(r)-2(3)正则化技术与上面讨论的其他方法是正交的,并且可以集成到现有的少炮RGB|R|r∈R?2体绘制方法是直接的。一些显式表示方法[17,36]将稀疏约束用于神经体绘制,这也可能对少数镜头新视图合成有用,尽管它们不直接解决任务。Yu等人。 [36]采用具有稀疏先验损失的八叉树结构的变体,以移除树中对应于未观察区域的节点子集 另一方面,Lombardi et al. [17]通过体素网格进行射线行进以进行体积渲染,并通过实施稀疏空间梯度来正则化体素不透明度的总变化。我们的方法还employ稀疏通过熵约束,但更一般的显式方法,因为我们的算法不需要外部数据结构,并遭受内存绑定存储显式表示。3. 分类:NeRF神经辐射场(NeRF)[20]是一种用神经隐式函数表示3D场景的新型框架,其中神经网络f(,)通常由MLP给出,将3D点x =(x,y,z)和单位观察方向d =(θ,θ)映射到体积密度σ以及发射的RGB颜色c =(r,g,b)。遵循经典的体绘制理论[19],通过沿射线积分颜色和密度来获得目标像素的渲染RGB颜色在实践中,由于所有连续的输出值(c,σ)一条射线上的点是不可观察的,一个点的子集是相同的。pled,并且通过使用如下的求积规则来近似光线的渲染颜色:NC(r)= Ti(1−exp(−σiδi))ci,(1)i=1其中r表示射线,N是样本的数量,δi是第i个点与其相邻样本之间的距离注意,Ti表示沿哪里表示一组光线。 请注意,该位置的en-在MLP之前还采用编码以将输入坐标(x,d)映射到更高维空间,这有助于表示高频场景。虽然NeRF [20]实现了出色的照片级真实感视图合成结果,但它通常需要由校准相机密集捕获的大量图像。为了缓解这个数据采集问题,我们提出了一个简单而有效的少镜头新的视图合成方法。4. 该方法我们的方法学习一个强大的神经体绘制模型只基于几个输入图像,没有任何先验知识的场景。我们重点研究了如何减轻由于输入视图不足而引起的重建不一致性和过拟合引起的退化本节讨论了为实现我们的目标而对基于NeRF的模型施加的拟议信息论正则化。4.1. 动机由于可用视图的数量较少,少镜头3D重建和体绘制固有地易于导致噪声估计和退化解决方案。例如,图2a显示NeRF无法准确地重建3D场景,主要是由于视点不足此外,学习的模型是严重过拟合看到的图像,并收敛到退化的解决方案,特别是当训练图像的视点彼此相似。因此,渲染失败,只有轻微的视图变化,如图2b所示。4.2. 光线熵最小化为了减轻重建的不一致性,我们施加稀疏约束的重建场景,这是通过使用额外的正则化项最小化每个射线密度函数的熵。这种约束是合理的,因为只有一小部分样本12915.Σ≡ −−Σ·⊙JRRJ J|俄.西|+的|Ru|r∈Rs <$RuΣ(a) NeRF [20]在4视图设置中在Realistic Synthetic 360Realtime数据集上估计的渲染RGB和深度图像(b) NeRF [20]在3视图设置中对DTU数据集估计的两个略有不同的视点(左:可见,右:不可见)的渲染RGB图像。图2.NeRF在少镜头体绘制中的典型缺点我们的动机是以下两个观察,并通过在这项工作中添加两个正则化器来减轻限制。(a)少镜头NeRF在3D深度估计中遭受显著噪声,这导致噪声渲染。(b)少镜头NeRF在稍微不同的视点之间提供完全不同的渲染结果,因为它非常过拟合所看到的输入视图。沿着射线的点击中场景中的对象或背景,而其余点可能观察到噪声。在讨论射线熵之前,我们首先定义由p(r)表示的归一化射线密度如下:其基于如下的不透明度:M(r)=1如果Q(r)> Q,(6)0否则哪里Nαi1−exp(−σi δi)(四)Q(r)= 1 −exp(−σi δi)(7)i=1p(ri)=πα=,则1−exp(−σ δ)其中ri(i = 1,. - 是的- 是的 ,N)是射线中的采样点,σ i是在ri处观察到的密度,δ i是在ri周围的采样间隔,并且α i1 exp(σ i δ i)是在ri处的不透明度。的 射线上的点以两阶段的方式进行采样,从均匀分布中提取,然后从基于(5)中计算的射线熵,我们的射线熵最小化损失定义如下:不透明的分布[20]。 注意我们实际上利用不透明度α我在(4)中计算p(ri),而1L熵=(r)(8)密度σi,以考虑不规则采样间隔δi。射线熵遵循香农熵[26],我们定义离散射线密度函数的熵,由下式给出:NH(r)= − p(ri)log p(ri)。(五)i=1因为在(1)中已经计算了σ和δ值以进行体绘制过程,所以射线熵的计算仅引起可忽略的额外成本。射线熵最小化中的一个问题是,一些射线被强制为具有低熵,尽管它们没有击中场景中的任何对象。为了防止由这个问题引起的潜在伪影,我们简单地忽略具有低密度的射线以用于熵最小化。形式上,我们采用掩模变量M()来指示具有场景的足够观测的射线其中,s表示来自训练图像的一组射线,u表示来自随机采样的不可见图像的一组射线,并且指示逐元素乘法。 请注意,基于NeRF的模型由于缺乏像素颜色的地面真实值而无法使用来自不可见图像的光线,而我们的模型可以利用它们,因为熵正则化不需要地面真实值。我们观察到,这是有益的,利用射线,即使从未观察到的观点,更好地重建场景。与现有方法的比较只有少数先前的作品对场景表示或模型施加约束,但它们的目标与我们的[17,36]不同,例如。集中于提高重建质量和/或实现实时处理而不考虑少数激发训练场景。此外,由于它们依赖于基于体素表示的3D体积熵,因此它们必须绘制大量样本来估计3D密度或占用图,导致在空间和时间复杂度方面的沉重计算成本。JJ表示累积射线密度。12916.普 雷纳 普(r)×L|R||R|LL另一方面,InfoNeRF通过1D采样沿着射线采用熵最小化,因此,与基于3D体积熵的方法相比,它运行得非常有效。4.3. 信息增益缩减正则化根据我们的观察,当训练图像具有足够多样的视点时,所提出的熵正则化非常有助于提高渲染图像和3D深度估计的质量然而,如果所有训练图像具有彼此相似的视点,则模型容易过拟合到可见图像,并且无法推广到不可见视图。 这可能是因为缺乏多样的观察结果使得训练的模型找到退化和琐碎的解决方案。为了减轻上述限制,我们引入了一个额外的正则化项,以确保连续的密度分布在附近的射线。给定一条观察到的射线r,我们用a对另一条射线进行略有不同的vie wpoint,用r表示,并最小化这两个密度函数之间的KL发散射线该目的的动机是使来自两个相似视点的观测足够一致,使得模型被推广到附近视点,这通过在空间视图扰动上对反射结果强制平滑来实现。信息增益减少的正则化损失由下式给出:NLKL=DKLP(r)||P(r)=p(r)log i,(9)5. 实验我 们 证 明 了 所 提 出 的 方 法 的 有 效 性 , 称 为InfoNeRF,对标准的基准。本节还讨论了我们的算法的特点的基础上的实验结果。5.1. 数据集我们描述了用于评估我们的算法的三个基准的细节,其中包括Realistic Synthetic 360 [20],ZJU-MoCap[23]和DTU [12]数据集。Realistic Synthetic 360此基准测试常见于神经体渲染,其中包含8个具有视图依赖光传输效果的合成每个场景的中心都有一个物体,400个渲染图像来自不同视角的面向内的虚拟相机。对于少镜头训练,我们从每个场景的100个训练图像中随机抽取4个视点,并使用200个测试图像进行评估。ZJU-MoCap该数据集由从23个校准相机捕获人体运动的多视图视频组成。接下来[23],我们对4个均匀分布的视点进行采样以构建训练集,并使用剩余的图像进行测试。DTU MVS数据集(DTU)该数据集中的图像包含在受控环境中由校准相机捕获的复杂和真实世界场景所有收集的图像具有相似的视点,并且仅面向场景的我们在15个场景中进行实验我i=1p(ri)我们用49个视图中的3个图像优化模型,同时用剩余的46个视图进行测试。式中,λri是射线λr中用于观测的采样点。在我们的实现中,我们通过在-5° C到5° C的范围内稍微旋转r的相机姿态来获得r。4.4.总体目标训练用于少镜头神经体绘制的神经隐式模型的总损失函数由下式给出:L总=LRGB+λ1L熵+λ2LKL,(10)其中λ1和λ2是正则化项的平衡项如(3)中所提到的,由LRGB表示的重建损失由下式给出:L=1-C(r)-C(r)-2,(11)25.2. 执行和评价实现细节我们的实现基于PyTorch [22]。我们使用Adam优化器[13],初始学习率为5 10−4,每250,000次迭代以指数方式衰减10倍平衡项对于KL,在每5,000次迭代时衰减2倍。我们设置来自可见视图和未观察视图的光线的数量,分别用s和u,与1024相同,并且我们的实验使用单个NVIDIA Titan XPGPU进行。我们基于标准图像质量度量、峰值信噪比(PSNR)和结构相似性(SSIM)来评估新视图渲染质量[32]。我们还使用感知度量,学习感知图像RGB|Rs|r∈Rs斑块相似性(LPIPS)[38],Fre`chet接收距离(FID)[10]和内核起始距离(KID)[2]。LPIPS其仅使用来自训练图像的一组射线,像素级地面实况,不像熵和KL,其甚至从未观察到的视点使用射线。估计图像对而FID和KID在Inception representations [30]中计算两组图像之间的距离。12917∗表1. 在4视图设置中,在Realistic Synthetic 360Rectangle数据集上的少量新视图合成的实验结果我们的方法优于所有其他现有的方法在所有图像质量指标的显着利润率。星号()表示模型在具有密集输入视图的外部训练数据集上进行预训练,并在具有4个输入视图的数据集上进行微调我们使用不同的视点样本和相同的超参数运行所有实验五次,并计算平均得分及其标准差。方法PSNR↑ SSIM↑ LPIPS↓ FID↓ KID↓ NeRF,100 views 31.01 0.947 0.081 42.83 0.002PixelNeRF [37] 16.09±0.780.738±0.0120.390±0.030265.25±6.730.127±0.006NeRF [20] 15.93±1.060.780±0.0140.320±0.049215.16±2.320.074±0.012DietNeRF [11] 16.06±1.130.793±0.0190.306±0.050197.02±12.870.065±0.004InfoNeRF(我们的)18.65±0.180.811±0.0080.230±0.008181.47±4.970.062±0.004表2.在4视图设置中,真实合成360全景数据集上各个场景的平均PSNR和标准差方法乐高椅子鼓Ficus热狗材料Mic船Avg.NeRF,100views32.5433.0025.0130.1336.1829.6232.9128.6531.01[37]第三十七话15.14±0.7518.87±1.3815.10±0.6316.60±0.7019.37±1.7812.31±1.0216.35±0.9714.96±0.7516.09±0.78NeRF [20]15.61±4.5318.57±1.6412.50±0.9816.37±2.2419.64±2.2615.65±4.1614.78±2.3714.30±4.0415.93±1.06DietNeRF [11]17.13±4.7719.37±3.1213.74±1.5515.76±3.5618.24±5.2815.00±5.1817.71±1.5511.51±4.2716.06±1.13InfoNeRF(我们的)18.92±0.5120.06±1.1114.33±0.6219.41±0.0721.30±2.3118.34±0.8818.55±1.7118.27±0.7118.65±0.185.3. 结果5.3.1真实合成360◦我 们 将 我 们 的 方 法 与 NeRF [20] , DietNeRF [11] 和PixelNeRF [37]在Realistic Synthetic 360数据集上进行了比较。NeRF,DietNeRF和InfoNeRF(我们的)是用随机采样的4个视图从头开始训练的与其他人不同,Pixel-NeRF在具有密集输入视图的DTU [12]数据集上进行了预训练,我们使用4个采样视图对模型进行了微调,以处理两个数据集之间的域偏移问题。表1给出了总体定量结果,其中In-foNeRF在所有指标方面始终优于基线算法,具有相当大的裕度,同时具有较低的标准差。表2将PSNU分数分解为8个单独的场景,其中InfoNeRF显然在所有场景中都取得了显着的收益。SSIM和LPIPS的结果见我们的补充文件,它们具有相同的趋势。图1展示了新视点的定性结果,其中InfoNeRF与所有比较方法相比,在渲染图像如图1(f)所示,InfoNeRF估计的深度图的质量看起来令人印象深刻,而我们注意到,所有比较的算法往往无法准确重建3D结构,DietNeRF甚至由于其高级语义一致性损失而存在颜色失真。5.3.2ZJU-MoCap对于ZJU-MoCap数据集,InfoNeRF与NeRF [20]、神经体积(NV)[17]和神经体(NB)[23]一起进行评估,其中所有算法都使用4张图像进行训练。请注意,由于NB采用了预训练表3.在4视图设置中对ZJU-MoCap数据集进行定量比较。NB[23]通过利用预训练的人体模型(SMPL)具有几何先验。方法先验PSNR↑ SSIM↑ LPIPS↓美国[23]24.180.8880.182[20] 20.19 0.794 0.309[17] 21.74 0.827 0.253InfoNeRF(我们的)22.88 0.838 0.242以SMPL [18]表示的人体模型作为先验,NB的性能可以被视为所有其他方法的上限。表3总结了ZJU-MoCap数据集上的实验结果图3展示了所有比较方法的定性结果,InfoNeRF给出的重建结果特别准确。5.3.3DTU MVS数据集(DTU)与其他两个数据集相反,DTU具有显著不同的特征,因为每个场景中的图像具有相似的视点。PixelNeRF利用了这一特性,并成功地学习了场景不可知模型,而原始NeRF在这个数据集中表现出较差的泛化性能,只有很少的学习次数。我们比较我们的算法与NeRF和PixelNeRF在这个数据集。我们从头开始训练InfoNeRF和NeRF,而没有事先利用任何场景,因此不可能重新构建场景的不可见部分。因此,在没有场景先验的情况下,对算法的简单评估是不准确的。12918LL(a) (b)NeRF [20](c)NV [17](d)InfoNeRF(ours)(e)NB [23]图3.在4视图设置中对ZJU-MoCap数据集进行定性比较。我们可视化了无先验算法(b-d)(包括我们的算法)和基于先验的算法(e)的渲染结果。虽然现有的无先验算法(b-c)经常遭受不一致的重建和人体的缺失部分,但InfoNeRF设法使人体的大部分与基于先验的算法(e)相当表4.在3视图设置中对DTU数据集进行定量比较。PixelNeRF[37]通过在具有密集输入视图的DTU的其他场景上进行预训练来预先获得数据集。方法先验PSNR↑ SSIM↑ LPIPS↓PixelNeRF [37] 19.55 0.724 0.286NeRF [20]InfoNeRF(我们的)11.23 0.445 0.543sirable,我们使用每个场景的可见部分对应的掩模来评估性能。表4给出了DTU数据集上的实验结果,与NeRF相比,我们的算法实现了出色的性能。请注意,PixelNeRF实现了最高的性能,因为它通过使用密集输入视图对DTU的训练分割进行预训练来利用数据集先验5.4. 分析为了验证从看不见的视点进行采样以实现熵最小化的有效性,我们通过改变来自Realistic的椅子场景上的看不见的视点合成360度全景,图像减少到一半。表5显示,增加来自不可见物体的射线数量,视图通过减轻重建不一致性来实现逐渐改进,但是当光线的数目大于1,024时,其益处饱和。图4显示了对不可见视图的额外光线进行采样的好处;在本示例中,光线的使用有助于降噪正则化的好处我们分析了所提出的正则化方案的影响,射线熵最小化损失,熵,和射线信息增益减少损失,KL。表6显示了InfoNeRF在DTU数据集上的消融结果熵最小化损失成功地提高了PSNR,但SSIM值在该数据集上变得更差这是因为当所有训练图像具有彼此相似 但是,由于我们的信息增益重新-表5. 从看不见的视点采样的光线数量对现实合成360度椅子场景的影响。我们将可见视图的光线数固定为1,024,并改变不可见视图的光线数。粗体和下划线分别表示结果中的第一位和第二位。可见射线数量不可见光线数量PSNR ↑SSIM↑LPIPS ↓020.140.8340.22525620.970.8440.197102451221.110.8510.188102421.370.8530.185204821.330.8550.167(a) 可见视图+不可见视图图4.对不可见视点的光线进行采样的好处。我们在RealisticSynthetic 360数据集的椅子场景上可视化渲染图像,其中背景区域中的噪声在添加来自不可见视点的光线后被完全去除。在空间视图扰动的情况下,我们的完整模型有助于减轻过拟合问题并防止退化解决方案。注意,在具有实质性视点变化的其他两个数据集中,熵最小化损失工作良好,而信息增益减少损失通常贡献较小。图5显示了InfoNeRF的渲染质量与其在DTU数据集上的消融模型的比较。虽然没有信息增益减少损失的InfoNeRF倾向于生成清晰的图像,但是在输出中存在大量噪声并且在深度图中存在不一致性。另一方面,我们的完整算法(a)视景12919(a)地面实况(b)NeRF [20](c)InfoNeRF w/oLKL(d)InfoNeRF图5.定性比较我们的方法与其烧蚀模型的DTU数据集在3视图设置。我们可视化每个算法的图像合成(左)和深度估计(右)结果。虽然NeRF在重建3D结构时会受到噪声、模糊和伪影的影响,但我们的两个损失项L熵和LKL有助于实现出色的渲染质量和精细的深度估计结果。表6. 我们的正则化方案在3视图设置中对DTU数据集的消融结果方法L熵LKL PSNR ↑ SSIM↑LPIPS ↓NeRF✓✓✓✓8.500.4260.611InfoNeRF w/oLentropyInfoNeRF w/oLKLInfoNeRF8.9110.5411.230.4390.4180.4450.5810.5610.543252015102 4 6 8 10 12 14 16培训视图图6. PSNR相对于在Realistic Synthetic 360OpenGL数据集上训练的视图数量。能够更精确地重建场景的整体形状和几何形状。有关Realistic Synthetic 360OCT数据集的更详细消融结果,请参阅补充文档的表C。视 图 数 量 的 鲁 棒 性 图 6 通 过 改 变 Realistic Synthetic360SDK上训练的视图数量来说明InfoNeRF的性能。与NeRF相比,InfoNeRF说明了所有指标的改进结果,直到8次查看,但其优点是饱和的数量的观点增加。这在一定程度上是因为重建场景的不确定性随着训练视图的数量增加而降低,从而削弱了熵规则化的重要性SSIM和LPIPS结果见补充文件表D集成到PixelNeRF中为了证明我们方法的通用性,我们将所提出的正则化方法并入PixelNeRF [37],并将我们模型的此版本称为InfoPixelNeRF。图7说明了定性图7.在现实主义的合成360光谱数据集中的鼓场景的定性比较InfoPixelNeRF(右)与PixelNeRF(左)相比显着减少了模糊,这证明了我们正则化方案的有效性。两种模型之间的比较,其中InfoPixelNeRF显著减少了渲染图像中的模糊我们的补充文件的表E提供了详细的比较。6. 结论提出了一种基于信息论的正则化方法来合成少镜头新视点。现有的少镜头视图合成方法遭受不一致的重建,这通常在渲染图像中产生噪声、模糊或伪影,并且过拟合到所看到的视图,这导致退化的解决方案。为了解决这些问题,我们介绍了两个有效的正则化方案,射线熵最小化和射线信息增益减少。尽管其简单,所提出的方法被证明是有效的,以减轻重建不一致的视图。我们在多个标准基准上展示了我们的方法的出色性能,并且还通过广泛的分析对我们的方法进行了详细的分析。鸣谢本研究部分得到了IITP资助[2021-0-02068,AIInnovationHub;2021-0-01343 , InterdisciplinaryProgram in AI(SNU)]和韩国政府(MSIT)资助的NRF生物医学技术开发计划[2021 M3 A9 E4080782]以及三星高等技术研究所的InfoNeRFNeRF峰值信噪比(dB)12920引用[1] Jonathan T Barron,Ben Mildenhall,Matthew Tancik,Peter Hedman , Ricardo Martin-Brualla , and Pratul PSrinivasan. Mip-nerf:抗混叠神经辐射场的多尺度表示。ICCV,2021。2[2] 我的儿子比尼奥 斯 基,丹尼卡J萨瑟兰,迈克尔阿贝尔,阿瑟格雷顿。揭秘mmd甘斯。在ICLR,2018年。5[3] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。ACM SIGGRAPH,2001年。2[4] Gaurav Chaurasia 、 Sylvain Duchene 、 Olga Sorkine-Hornung和George Drettakis。深度合成和局部扭曲的合理图像为基础的导航。InTOG,2013. 2[5] Gaurav Chaurasia、Olga Sorkine和George Drettakis。基于图像渲染的轮廓感知扭曲。在计算机图形论坛,第30卷,2011年。2[6] Paul E Debevec,Camillo J Taylor,and Jitendra Malik.从照片中建模和渲染建筑:一种基于几何和图像的混合方法 。 在 Proceedings of the 23rd annual conference onComputer graphics and interac-tive techniques,1996中。2[7] Kangle Deng,Andrew Liu,Jun-Yan Zhu,and Deva Ra-manan. 深度监督削弱:更少的视图和更快的训练-ING免费。arXiv预印本arXiv:2107.02791,2021。二、三[8] 约翰·弗林,迈克尔·布罗克斯顿,保罗·德贝维克,马修·杜瓦尔,格雷厄姆·费弗,瑞安·奥弗贝克,诺亚·斯内弗利和理查德·塔克。Deepview:查看合成与学习梯度下降。在CVPR,2019年。2[9] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely. Deepstereo:学习从世界图像中预测新视图。在CVPR,2016年。2[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS,2017。5[11] Ajay Jain Matthew Tancik和Pieter Abbeel。把nerf放在一个饮食:语义一致的少数镜头视图合成。ICCV,2021。一、二、三、六[12] Rasmus Jensen、Anders Dahl、George Vogiatzis、EnginTola和Henrik Aanæs。大比例尺多视立体视觉评价。CVPR,2014。五、六[13] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。5[14] Youngjoong Kwon ,Dahun Kim , Duygu Ceylan , andHenry Fuchs.神经人类表演者:学习人类表演渲染的可推广的辐射场。在NeurIPS,2021年。二、三[15] Marc Levoy和Pat Hanrahan。光场渲染。在ACM SIGGRAPH,1996年。2[16] Zhengqi Li,Simon Niklaus,Noah Snavely,and OliverWang.神经场景流场用于动态场景的时空视图合成在CVPR,2021年。2[17] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。Neural volume- umes : Learning dynamic renderablevolumes from images.ACM事务处理图表三、四、六、七12921[18] Matthew Loper、Naureen Mahmood、Javier Romero、Gerard Pons-Moll和Michael J Black。Smpl:一个有皮肤的多人线性模型。ACM Trans. Graph,2015. 6[19] 尼尔森·马克斯直接体绘制的光学模型IEEE TVCG,1995年。3[20] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron ,Ravi Ramamoorthi ,and Ren Ng.Nerf:将场景表示为用于视图合成的神经辐射场。在ECCV,2020年。一二三四五六七八[21] Thomas Neff , Pascal Stadlbauer , Mathias Parger ,Andreas Kurz , Chakravarty R Alla Chaitanya , AntonKaplanyan , and Markus Steinberger.Donerf : Towardsreal-time rendering of neural radiance fields using depthoracle networks.在EGSR,2021年。2[22] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKilleen , Zeming Lin , Natalia Gimelshein , LucaAntiga,et al.Pytorch:一个操作风格的高性能深度学习库。2019年。5[23] Sida Peng,Yuanqing Zhang,Yinghao Xu,QianqianWang ,Qing Shuai, Hujun Bao , and Xiaowei Zhou.Neural body:隐式神经表征与结构化的潜在代码,用于动态人类的新视图合成。在CVPR,2021年。二三五六七[24] Shunsuke Saito、Zeng Huang、Ryota Natsume、ShigeoMor-ishima、Angjoo Kanazawa和Hao Li。Pifu:Pixel-aligned implicit function for high-resolution clothedhuman digitiza-tion.在ICCV,2019年。2[25] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在CVPR,2016年。3[26] 克劳德·埃尔伍德·香农。一种关于通信的数学理论贝尔系统技术杂志,1948年。4[27] Sudipta Sinha,Drew Steedly,and Rick Szeliski.用于基于图像的渲染的分段平面立体。2009. 2[28] Pratul P Srinivasan,Boyang Deng,Xiuming Zhang,Matthew Tancik , Ben Mildenhall , and Jonathan TBarron.神经反射和可见性领域的重新照明和视图合成。在CVPR,2021年。2[29] Pratul P Srinivasan,Tongzhou Wang,Ashwin Sreelal,Ravi Ramamoorthi,and Ren Ng.学习从单个图像合成4d rgbdInICCV,2017. 2[30] Christian Szegedy、Vincent Vanhoucke、Sergey
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功