没有合适的资源?快使用搜索试试~ 我知道了~
5885让NeRF节食:语义一致的少镜头视图合成加州大学伯克利分校ajayj@berkeley.edu马修·坦西克加州大学伯克利分校tancik@berkeley.edu彼得·阿比尔加州大学伯克利分校pabbeel@cs.berkeley.edu摘要我们提出DietNeRF,一个3D神经场景表示估计从几个图像。神经辐射场(NeRF)通过多视图一致性学习场景的连续体积表示,并且可以通过光线投射从新的视点虽然有一种印象--具有重建几何形状和精细细节的强大能力,给定许多图像,对于具有挑战性的360°场景多达100个,当只有少数输入视图可用时,它可以找到其图像重建目标的退化解决方案。为了提高少镜头质量,我们提出DietNeRF。我们介绍-产生辅助语义一致性损失,其鼓励以新颖姿势进行真实渲染。DietNeRF的培训内容夹ViT夹ViT夹ViTDietNeRF语义一致性丢失夹ViTNeRFMSE损失各个场景以(1)正确地渲染来自相同姿态的给定输入视图,以及(2)匹配跨不同的随机姿态的高级语义属性 。 我 们 的 语 义 损 失 允 许 我 们 从 任 意 姿 势 监 督DietNeRF 。 我 们 使 用 预 先 训 练 的 视 觉 编 码 器 ( 如CLIP)提取这些语义,CLIP是一种视觉Transformer,它在自然语言监督下从网络上挖掘出数亿张不同的单视图2D照片在实验中,DietNeRF在从头开始学习时提高了少数镜头视图合成的感知质量,在多视图数据集上预先训练时,可以使用少至一个观察到的图像渲染新我们的项目网站是www.ajayj.com/dietnerf。1. 介绍在新的视图合成问题中,我们寻求从给定的一组稀疏采样的视点的任意视点重新渲染场景视图合成是一个具有挑战性的问题,除了高频纹理合成之外,还需要一定程度的3D重建。近年来,在多观测数据条件下的高质量视点合成研究取得了很大一种流行的方法是使用神经辐射场(NeRF)[25]来从图像观察估计连续神经场景表示在对特定场景进行训练期间,呈现表示2-Predgt2图1.神经辐射场经过训练,通过监督来自与地面实况观测相同姿势的渲染来表示场景(MSE损失)。然而,当只有几个视图可用时,问题是约束不足的。NeRF经常发现退化的解决方案,除非严重正规化。基于“推土机从任何角度看都是推土机”的原则这是可能的,因为我们在捕获高级场景属性的特征空间中而不是在像素空间中计算语义一致性损失我们使用CLIP Vision Transformer [28]提取渲染的语义表示,然后最大化与地面实况视图表示的相似性实际上,我们使用关于由单视图2D图像编码器学习的场景语义的先验知识来约束3D表示。使用体积射线投射从观察视点计算重建损失。在测试时,NeRF可以通过相同的过程从新的视点渲染。虽然概念上非常简单,但NeRF可以学习高频视图相关的场景外观和精确的几何形状,从而实现高质量的渲染。尽管如此,NeRF是按场景估计的,并且不能受益于从其他图像和对象获取的先验知识。由于缺乏先验知识,NeRF需要夹夹饮食NeRF5886(A) NeRF100次浏览(B) NeRF8次浏览(C) 简化的NeRF 8视图(D) 简化NeRF 14相似视图图2. 少镜头视图合成是神经辐射场的一个具有挑战性的问题。(A)当我们从均匀采样的姿势中对一个物体进行100次观察时,NeRF估计出一个详细而准确的表示,允许纯粹从多视图一致性进行高质量的视图合成。(B)然而,在仅8个视图的情况下,通过将对象放置在训练相机的近场中,相同的NeRF过拟合(C)我们发现NeRF在正则化、简化、调整和手动重新初始化时可以收敛,但不再捕捉细节。(D)最后,在没有关于类似对象的先验知识的情况下,单场景视图合成不能合理地完成未观察到的区域,例如从右侧看到的对象的左侧 在这项工作中,我们发现这些失败的发生是因为NeRF仅从稀疏训练姿势进行监督。大量的输入视图来以高质量重构给定场景。给定8个视图,图2B示出了用完整NeRF模型渲染的新颖视图包含许多伪影,因为优化找到了仅在观察到的姿势处准确的退化解。我们发现,核心问题是,以前的3D重建系统的基础上渲染损失只监督在已知的姿势,所以他们过拟合时,很少的姿势被观察到。通过简化架构来规范化NeRF避免了最糟糕的工件,但代价是细粒度的细节。此外,当场景重构问题是欠定的时,需要先验知识3D重建系统在对象的区域从未被观察时挣扎。当以显著不同的姿势渲染对象时,这尤其成问题。渲染具有极端基线变化的场景时,训练期间未观察到视图合成系统应该生成合理的缺失细节来填补空白。即使是正则化的NeRF也由于缺乏先验知识而学习到对不可见区域的不良外推(图2D)。最近的工作在相似场景的多视图数据集上训练NeRF [44,38,32,37,42]以偏置新场景的重建。不幸的是,由于不确定性,这些模型通常会产生模糊的图像,或者由于具有挑战性而被限制为单个对象类别,例如ShapeNet类以捕获大型、多样化、多视图数据。在这项工作中,我们利用的一致性原则,图像识别模型学习提取许多这样的高级语义特征,包括对象身份。我们将先验知识从预先训练的图像编码器中转移到视图中,这些编码器是在高度多样化的2D单视图图像数据综合问题在单视图设置中,这种编码器经常在数百万张真实图像上进行训练,如ImageNet [7]。CLIP是一种最近的多模态编码器,它经过训练,可以在包含4亿张图像的大规模网络抓取中将图像与字幕匹配[28]。由于其数据的多样性,CLIP显示出有前途的零和少数镜头 传 输 性 能 的 图 像 识 别 任 务 。 我 们 发 现 CLIP 和ImageNet模型也包含对新视图合成有用的先验知识。我们提出了DietNeRF,神经场景表示NeRF的基础上,可以从只有几个pho- tos估计,并可以生成未观察到的区域的意见。除了在像素空间中的已知姿势处最小化NeRF这种损失与CLIP的Vision Transformer [ 9 ]在地面实况图像和不同姿势的渲染图像之间的最终激活相匹配在实验中,我们表明,DietNeRF学习逼真的重建对象与少至8个视图,而不简化underlying体积表示,甚至可以产生合理的重建完全闭塞的地区。为了生成具有少至1个观察的新颖视图,我们微调pixelNeRF[44],一种可推广的场景表示,并提高感知质量。2. 神经辐射场全光函数或光场是五维函数,其描述从诸如有界场景的体积中的每个方向上的每个点辐射的光虽然由于全光函数的维数,以高分辨率显式地存储或估计全光函数是不切实际的58872Ltn22|R|. ∫Σ输入,神经辐射场[25]用连续神经网络(例如多层感知器(MLP))参数化函数神经辐射场(NeRF)模型是空间位置x=(x,y,z)和观看方向(θ,θ)的五维函数fθ(x,d)=(c,σ),表示为3D单位向量d。NeRF根据这些输入预测RGB颜色c和差分体积密度σ。为了确保视图一致性,体积密度仅取决于X,而颜色还取决于观看方向d以捕获视点相关效果,如镜面反射。根据体绘制[18],通过沿着从观察者投射的光线整合颜色,从任何位置的虚拟相机绘制图像∫tf从训练摄像机投射的光线R,NeRF最小化:一个LMSE(R)=C(r)−C(r)(3)r∈R对于许多训练视图,MSE在体积中密集地向fθ相反,MLP恢复允许内插到新视图的准确纹理和占用(图2A)。具有正弦位置嵌入的辐射场在学习高频函数时非常有效[37],这有助于MLP表示精细细节。不幸的是,这种高频代表性的卡-pacity允许NeRF在只有少数可用时过拟合到每个输入视图LMSE可以通过将C(r)=T(t)σ(r(t))c(r(t),d)dt(1)tn训练视图w(I,p)的重建I p靠近相机。从根本上讲,全光函数表示遭受其中在相机原点o处发出的光线遵循路径r(t)=o+td,透射率T(t)= exp−tσ(r(s))ds通过光线从t n处的像平面无阻碍地行进到t的概率来加权辐射率。 为了近似积分,NeRF采用分层采样算法来选择沿着每条射线的物体表面附近的功能评估点。NeRF分别估计两个MLP,粗网络和细网络,并使用粗网络来引导沿着射线的采样,以更准确地估计(1)。这些网络是在每个场景上从头开始训练的,从不同的角度给出了数十到数百张照片。给定观察到的多视图列车-在拍摄场景的图像{Ii}时,NeRF使用COLMAP SfM[31]来估计相机外特性(旋转和原点){pi},从而创建姿势数据集D ={(Ii,pi)}。3. NeRF在少镜头视图合成视图合成是一个具有挑战性的问题,当一个场景仅被稀疏地观察。像NeRF这样在单个场景上训练的系统在没有从类似场景中获得的先验知识的情况下尤其困难。我们发现,NeRF失败在几个设置的几个镜头新颖的视图合成。从概念上讲,NeRF是通过模仿观察姿势的图像形成过程来训练的。辐射场可以被重复地估计,对训练图像和姿态(I,p)进行采样,从而呈现出辐射场。从近场模糊[45],其中每个远距离相机观察到没有其他相机观察到的空间的重要区域。在这种情况下,最佳场景表示是欠定的。退化的解决方案也可以利用辐射场的视图依赖性。图2B示出了来自在8个视图上训练的相同NeRF的新视图虽然来自训练图像附近的姿势的渲染视图具有合理的纹理,但是其被不正确地偏斜并且具有来自不正确的几何结构的浑浊伪影。由于几何形状没有被正确估计,远视图几乎不包含正确的信息。高不透明度区域阻挡相机。在没有来自任何附近相机的监督的情况下,不透明度对随机初始化敏感。正则化修复了几何形状,但损害了精细细节。在某些情况下,可以通过正则化NeRF来避免高频伪影,例如虚假不透明度和快速变化的颜色。我们简化了NeRF架构,删除分层采样和学习只有一个单一的MLP,并减少了最大频率位置嵌入在输入层。这使NeRF偏向于较低频率的解决方案,例如将内容放置在远离训练摄像机的场景中心我们还可以通过降低学习率来改善初始收敛,并在渲染退化时手动重新开始训练,从而解决一些少量优化挑战图2C示出了这些正则化器成功地允许NeRF恢复似然对象几何形状。然而,高频图像i与2A相比丢失了精细细节。通过体积积分(1)从相同的姿态计算Ipi,然后最小化图像之间的均方误差(MSE),这应该逐像素对齐:没有先验知识,没有对看不见的视图的概括由于NeRF是从每个场景的零开始估计的,因此它没有关于自然对象(例如COM)的先验知识。一个L(I,I)=I − I(二)mon对称性和对象部分。在图2D中,我们展示了全pi硬件pi2NeRF训练了14个乐高车辆右半部分的视图,但对左侧的概括很差我们调整了在实践中,NeRF在所有训练图像上对较小批次的光线进行采样,以避免在训练期间渲染完整图像给定子采样NeRF移除原本完全阻挡左侧的高不透明度区域即便如此,本质的挑战是NeRF没有接收到从LMSE到unob的监督信号5888如果%K= 0,则L←LMSE(R,C,C);样本目标图像,姿态(I,p)D;样本源姿态pπ;渲染图像Ifrom posep;端L ← L+LSC(I,I);{∈D}····|R|·D{}LL2L·LL服务区域,而是依赖于MLP的感应偏置我们想介绍的先验知识,允许NeRF利用双边对称性合理的完井。4. 语义一致的辐射场出于这些挑战,我们介绍了饮食NeRF场景表示。DietNeRF使用来自预先训练的图像编码器的先验知识来指导少数拍摄设置中的NeRF优化过程。4.1. 语义一致性损失算法1:在单个场景上训练DietNeRF数据:观察视图=(I,p),语义嵌入函数(),姿态分布π,一致性区间K,权重λ,渲染大小,批量大小,lrηit结果:训练的神经辐射场fθ(,)初始化NeRFfθ(,);预先计算目标嵌入(I):I;forit从1到num itersdo采样光线批次R,地面实况颜色C(·);通过(1)渲染光线C(·)DietNeRF在任意相机姿势下监督fθ语义缺失的训练。虽然地面实况观察图像与具有MSE的渲染图像之间的逐像素比较仅在渲染图像与观察姿势对齐时有用,但人类能够容易地检测两个图像是否是来自地面实况观察图像的相同对象的视图端更新参数:θ←Adam(θ,ηit,θL);精神暗示我们通常可以比较从不同视点捕获的图像的表示λ我们将SC(5)称为语义一致性损失,因为它测量了观察到的视图和渲染的视图之间的高级语义特征的相似性。原则上,语义LSC,2(I,I)=∥ϕ(I)−ϕ(Iˆ)∥2(四)一致性是非常普遍的损失,其可以应用于基于可微分绘制的任何3D重建系统如果(x)=x,则等式(4)减少到满到缩放因子。但是,标识映射与视图相关。我们需要一个表示,是类似的跨视图的同一个对象,并捕捉重要的高层次的语义属性,如对象类。我们评估的效用的两个来源的监督表示学习。首先,我们使用最近的CLIP模型进行了实验,该模型经过了针对多模态语言和视觉推理的对 比 学 习 预 训 练 [28] 。 然 后 , 我 们 评 估 在 标 记 的ImageNet图像上预训练的视觉分类器[9]。在这两种情况下,我们使用类似的Vision Transformer(ViT)架构。Vision Transformer很有吸引力,因为它的性能可以很好地扩展到大量的2D数据。在各种各样的图像上训练允许网络在训练过程中遇到对象类的多个视图,它还允许我们将视觉编码器转移到图形应用程序中感兴趣的不同对象,这与依赖于同构数据集的先前类特定的重构工作不同[3,19]。ViT从其第一层中的非重叠图像块中提取特征,然后基于全局自我注意力[41]用Transformer块聚合越来越抽象的表示,以产生单个全局嵌入向量。在我们早期的实验中,ViT优于CNN编码器。在实践中,CLIP产生归一化的图像嵌入。当()是单位向量时,等式(4)简化为余弦相似性,直到常数和缩放因子,其可以是吸收到损失重量λ中:LSC(I,I¨)=λ(I)T(I¨)(5)4.2. 跨视图我们使用的预训练的CLIP模型是在数百万个具有不同细节的标题的图像上训练的图像字幕为图像表示提供了丰富的监督一方面,短标题表达语义稀疏的学习信号,作为一种灵活的方式来表达标签[8]。例如,标题“热狗的照片”描述了图1。凌晨2语言还通过描述对象属性、关系和外观[8]提供语义密集的学习信号,例如标题为了预测这样的覆盖,图像表示必须捕获跨视点稳定的一些同时[10]发现CLIP表示捕捉图像的视觉属性,如艺术风格和颜色,以及高级语义属性,包括对象标签和类别,面部表情,排版,地理和品牌。在图3中,我们测量了环绕对象的视图的CLIP表示之间的成对余弦相似性。我们发现,对视图具有高度相似的CLIP表示,即使是完全相反的相机。这表明,大的,不同的单视图数据集可以诱导有用的表示多视图应用程序。4.3. 位姿抽样分布我们用SC最小化来增强NeRF训练循环。每次迭代,我们计算从观察数据集采样的随机训练图像之间的SC25889LL·LLLL·DLLI和来自随机姿态p的渲染图像Ipπ。对于像NeRF的Realistic Synthetic场景这样我们对360 ◦视图合成感兴趣的有界场景在上半球上,半径在有界范围内均匀采样。对于无界的前向场景或姿势采样分布难以定义的场景,我们在三个随机采样的已知场景之间插值。位姿p1,p2,p3D,具有成对插值权重α1,α2U(0,1).4.4. 提高效率和质量体绘制是计算密集型的。计算像素为了提高DietNeRF在训练过程中的效率,我们以低分辨率渲染图像以实现语义一致性,仅需要15-20%的光线作为全分辨率训练图像。在图像平面的整个范围内的跨越网格上对光线进行采样,确保对象在每次渲染中大部分可见。我们发现,从连续分布中采样姿势有助于在以低分辨率进行训练时避免混叠伪影。在实验中,我们发现 对于许多场景,SC比MSE更快地收敛。我们假设语义一致性损失鼓励DietNeRF在训练早期恢复令人愉快的场景几何形状,但由于ViT表示的相对低的维度,对于重建细粒度细节的帮助较小。我们利用SC的快速收敛,只有最小化SC每k次迭代。DietNeRF对k的选择是稳健的,但是在我们的实验中,10和16之间的风格-GAN2 [20]使用了类似的策略来提高效率,将定期应用损失称为惰性正则化。由于反向传播通过渲染是内存密集型的反向模式自动微分,我们渲染图像SC与混合精度计算和eval-uate()在半精度。我们在渲染过程中删除中间MLP激活,并在向后传递过程中重新物质化它们[6,15]。所有实验均使用单个16 GB NVIDIA V100或11 GB 2080Ti GPU。由于SC在MSE之前收敛,我们发现单独使用MSE微调DietNeRF以进行20- 70 k次迭代以细化细节是有帮助的。Alg. 1详细介绍了我们的整体培训过程。5. 实验在实验中,我们评估了DietNeRF合成的新视图的质量和合成渲染对象和多对象场景的真实照片的(1)我们在特定场景上从头开始评估培训,有8个视图§5.1。(2)我们表明,DietNeRF提高了仅从单个真实照片合成视图的感知质量§5.2. (3)我们发现DietNeRF可以重建从未观察到的区域§5.3,最后(4)运行消融§5.4。64200.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0CLIP ViT嵌入图3.CLIP我们发现,这些表示转移以及多视图3D设置。我们从NeRF的真实合成对象数据集中对同一场景和不同场景的地面实况视图进行采样,然后计算表示余弦相似性的直方图。即使相机姿势变化很大(视图从上半球采样),场景中的视图也具有类似的表示(绿色)。跨场景,表示具有低相似性(红色)数据集[24]的真实合成基准包括8个真实物体的详细多视图渲染我们还对pixelNeRF [44]使用的DTU多视图立体(MVS)数据集[16]DTU是一个具有挑战性的数据集,包括物理对象的稀疏采样真实照片。过去的工作使用峰值信噪比(PSNR)和结构相似性指数度量(SSIM)从相同的姿势评估关于地面实况的新视图质量[35]。PSNR表示对数空间中的均方误差然而,SSIM经常不同意人类对相似性的判断[46]。深度CNN激活反映了人类感知的各个方面。NeRF使用LPIPS[46]测量感知图像质量,LPIPS [ 46 ]计算来自预训练VGG编码器[33]的所有层的归一化特征之间的MSE。生成模型还使用特征空间距离来测量样本质量Fre´chet InceptionDistance(FID)[12]计算真实图像和假图像的倒数第二个Inception v3 [36]特征的高斯估计之间的Fre´chet距离然而,FID在低样本量下是一个有偏差的 指 标 。 我 们 采 用 概 念 上 类 似 的 内 核 初 始 距 离(KID),它测量初始特征之间的MMD,并且具有无偏估计器[2,26]。所有指标都使用与我们的CLIP ViT编码器不同的架构和数据。5.1. 从头开始的逼真合成场景NeRF为了测试少数镜头的性能,我们随机抽取一个训练子场景内跨场景归一化频率5890LLLLLLL表1.真实合成数据集的二次采样分割上的新视图合成的质量度量[25]。 我们从可用的100个地面实况训练视图中随机抽取8个视图,以评估DietNeRF在有限观察下的表现。方法PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓ KID↓NeRF14.934 0.687 0.318 228.1 0.076表2. DTU数据集上的单视图新视图合成。NeRF和pixelNeRFPSNR、SSIM和LPIPS结果来自[44]。利用我们的语义一致性损失(DietPix-elNeRF)对pixelNeRF进行微调通过深度感知LPIPS、FID和KID评估度量来改善感知质量,但是由于几何缺陷而可能使作为局部像素对准度量的PSNR和SSIM降级。方法PSNR SSIM LPIPSFID KID17.859239.5 0.117简化NeRF 20.092 0.822 0.179189.2 0.047DietNeRF(我们的)23.147 0.866 0.109 74.9 0.005DietNeRF,LMSE ft 23.591 0.874 0.097 72 0.004NeRF,100次浏览31.153 0.954 0.046 50.5 0.001NeRF 8.000 0.286 0.703pixelNeRF 15.550 0.537 0.535266.1 0.166像素NeRF,标准误差ft16.048 0.5640.515265.2 0.159DietPixelNeRF14.242 0.4810.487190.7 0.066表3.外推度量。新颖的视图合成与观察只有一个方面的现实合成乐高场景。查看方法PSNR↑SSIM↑LPIPS ↓14 NeRF19.662 0.799 0.20214简化的NeRF21.5530.8180.16014 DietNeRF(我们的)20.7530.8100.15714 DietNeRF +LMSE ft 22.211 0.824 0.143100 NeRF [25]31.618 0.965 0.033图4.从真实合成数据集中的场景的八个观察合成的新颖视图。每个场景的8张图片。选项卡. 1显示结果。原始NeRF使用8个图像实现的质量比使用完整的100个图像数据集差得多。神经卷[23]表现更好,因为它严格约束场景边界框的大小这避免了最差的伪影,但重建仍然是低质量的。简化NeRF并针对每个单独场景进行调谐还使表示规则化并有助于收敛(在整个NeRF上+5.1 PSNR通过用DietNeRF的SC损失正则化来实现最佳性能 此外,通过MSE进行微调甚至进一步提高了质量,与NeRF相比,总体改善了+8.5 PSNR、-0.2 LPIPS和-156 FID。这示出语义一致性对于高质量少镜头视图合成是有价值的先验图4可视化结果。5.2. 通过微调的NeRF在训练期间仅使用观察,而不是推断,并且不使用辅助数据。从单视图进行精确的3D重建不可能纯粹从MSE进行,因此NeRF在单视图设置中表现不佳(表2)。为了执行单镜头或少镜头视图合成,pix-elNeRF [44]在类似场景的多视图数据集上学习ResNet-34编码器和特征调节的神经辐射场。编码器学习泛化到新的单视角场景。表2示出了给定一张保持场景的照片,pixelNeRF显著优于NeRF。然而,新的观点是模糊和不现实的(图5)。 我们建议微调pixelNeRF 单独使用MSE或使用MSE和SC两者的单个场景。使用MSE对每个场景进行微调,改善了局部图像质量度量,但仅略微有助于感知度量。图6示出了从一个视图进行的像素空间MSE微调大多仅提高了该视图的质量。我们将在短时间段内具有两种损耗的微调称为DietPixelNeRF。定性,DietPixelNeRF有显着更清晰的新 颖 的 观 点 ( 图 。 5 、 6 ) 。 DietPixelNeRF 在 感 知LPIPS、FID和KID指标上优于基线(表1)。2)的情况。对于非常具有挑战性的单视图设置,地面实况小说视图将包含在输入中完全被遮挡的内容。由于不确定性,模糊渲染将优于尖锐但不正确的渲染,平均误差指标,如MSE和PSNR。可以说,感知质量和锐度是比像素误差更好的度量,用于像照片编辑和虚拟现实这样的图形应用,因为强调了合理性。5.3. 重建未观测区域我们评估是否DietNeRF产生合理的complements时,重建问题是undertertertermined。 为了训练,我们对真实合成乐高场景右侧的14个附近视图进行采样(图12)。7,右)。窄基线多视图采集设备的成本低于360°捕捉,支持无限场景。然而,窄基线观测遭受闭塞:NeRF简化神经卷DietNeRF,微调(我们的)5891·LLLLLLDietPixelNeRF的新观点(我们的)图5. 从DTU对象数据集的单个输入图像合成的新颖视图。即使有3个输入视图,NeRF [25]也无法学习准确的几何形状或纹理(转载自[44])。虽然pixelNeRF [44]在相机姿势变化时具有基本一致的对象几何形状,但渲染是模糊的,并且包含伪影,相比之下,微调与DietNeRF(DietPixelNeRF)学习逼真的纹理视觉上与输入图像一致,虽然一些几何缺陷是由于视图合成问题的模糊性。地面实况pixelNeRF微调表4.用于比较图像特征的ViT图像编码器()的消融监督和架构参数。在现实合成乐高场景中测量了M度。语义图像编码器 PSNR ↑SSIM ↑LPIPS↓ImageNet ViT L/16,384221.501 0.809 0.167ImageNet ViT L/32,384220.498 0.801 0.174ImageNet ViT B/32,224222.059 0.836 0.1312LMSE夹子ViT B/32,22423.896 0.863 0.110微调MSE+SC(我们的)图6. 语义一致性提高感知质量。使用LMSE微调pixelNeRF略微改善了渲染效果表5. 改变DietNeRF在真实合成场景上用L MSE微调的迭代次数。所有模型最初使用LMSE和LSC训练200k次迭代。进一步最小化LMSE是有帮助的,但是模型可能过拟合。的输入视图,但并没有消除大多数感知缺陷,如小说中模糊的观点。两者都能微调MSE和SC(DietPixelNeRF,底部)提高了所有视图的清晰度乐高推土机的左侧未被观察到。NeRF无法重建场景的这一面,而我们的简化NeRF学习不切实际的变形和不正确的颜色(图2)。7,左)。值得注意的是,DietNeRF定量学习(Tab. 3)并且在缺失区域中定性地更准确的颜色我们排除了FID和KID,因为单个场景的样本太少,无法进行准确的估计。5.4. 消融选择图像编码器表4显示了不同语义编码器架构和预训练数据集的质量度量。我们在乐高场景上进行评估,有8个视图。大型ViT模型(ViT L)与基础ViT B相比未改善结果。CLIP方法PSNR↑SSIM↑LPIPS↓DietNeRF,无微调23.1470.8660.109DietNeRF,LMSEft 10k iters 23.524 0.872 0.101DietNeRF,LMSEft 50k iters23.591 0.874 0.097DietNeRF,LMSEft 100k iters 23.5210.874 0.097DietNeRF,LMSEft 200k iters 23.443 0.872 0.098多样性和语言监督有助于3D任务。尽管如此,两者都诱导转移到视图合成的有用表示使用CLIP饮食- NeRF在ViTs中表现最好,但CNN也可以提供帮助。使用MSE微调Diet-NeRF可以通过更好地重建精细细节来提高质量。在表5中,我们改变了具有8个视图的真实合成场景的微调的迭代次数最多50k次迭代的微调是有帮助的,但是更长时间的优化会降低性能。模型可能开始过拟合到8个输入视图。输入:1个视图NeRF,3个视图来自pixelNeRF的输入视图和重建新奇的观点5892输入:14 viewsNeRF简化的NeRF饮食NeRFDietNeRF,微调图7. 训练期间遮挡区域的渲染。使用真实合成乐高场景的右半部分的14个图像来估计辐射场。NeRF要么学习阻挡对象左侧的高不透明度遮挡,要么无法正确概括到不可见的左侧。相比之下,DietNeRF为重建填充细节,其与观察到的一半基本一致。6. 相关工作几个工作条件NeRF上的潜在代码描述场景几何形状或外观,而不是估计每个场景的NeRF [32,38,44]。学习了图像编码器和辐射场解码器类似对象或场景的多视图数据集。在测试时,在一个新的场景,新的观点是使用解码器的编码条件下的几个观察到的图像。GRAF在每次迭代中渲染场景的补丁,以使用判别器[32]监督网络。同时,IBRNet [42]还使用NeRF的重建损失对特定场景上的潜在调节辐射场进行微调而不是通过共享的编码器和解码器进行概括[37]元学习辐射场权重,其可以在几个梯度步骤中适应于特定场景。元学习提高了少视图性能。类似地,[34]元学习了形状表示问题的符号距离场。许多文献研究了具有显式3D表示的单视图重建。最近值得注意的例子包括体素[39],网格[13]和点云[43]方法。新颖的视图合成,基于图像的渲染神经卷[23]提出了VAE [21,29]编码器-解码器架构,以根据姿势图像观察来预测场景的体积表示。NV使用先验作为辅助目标,如DietNeRF,但是基于几何直觉而不是RGB图像语义来惩罚不透明度。TBN [27]学习具有3D潜在的自动编码器,可以旋转以渲染单个类别的新视角。SRN[35]适合场景的连续表示,如果在大型多视图数据集上训练,则可以推广到新颖的单类别对象。它可以扩展到预测每点语义分割图[22]。局部光场融合[24]估计并混合每个场景的多个MPI表示。自由视图 合 成 [30] 使 用 几 何 方 法 来 改 善 野 外 无 限 场 景 。NeRF++ [45]还使用多个NeRF模型和改变NeRF语义表示学习使用深度监督和无监督方法的表示学习有着悠久的历史[1]。没有标签,生成模型可以学习有用的表示用于识别[4],但是像CPC [40,11]这样的自监督模型往往更有效。包括CLIP在内的对比方法通过匹配相似的项目对来学习视觉表示,例如标题和图像[28,17],图像的增强变体[5]或跨帧的视频补丁[14]。7. 结论我们的研究结果表明,单视图2D表示有效地转移到欠约束的3D重建问题,如体积新颖的视图合成。虽然预先训练的图像表示在过去肯定已经通过微调转移到3D视觉应用中,但最近出现的在巨大的100M+图像数据集上训练的视觉模型(如CLIP)已经实现了令人惊讶的有效的少数镜头转移。我们利用这种可转移的先验知识来解决优化问题,并处理NeRF系列场景表示中的部分可观测性,感知质量有显着改善在未来,我们相信致 谢 我 们 的 工 作 得 到 了 NSF GRFP ( grant DGE-1752814)和Berkeley Deep Drive的支持。我们感谢Alexei Efros 、 Paras Jain 、 Aditi Jain 、 AngjooKanazawa、Aravind Srinivas和Alex Yu提供的有用反馈。未观察区域的新视图从头顶区域观察到的5893引用[1] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习 : 回 顾 与 新 的 视 角 。 IEEE Transactions on PatternAnalysis and Machine Intelligence , 35 ( 8 ) : 1798-1828,2013. 八个[2] 我知道你是我的儿子。萨瑟兰,迈克尔·阿贝尔,阿瑟·格雷顿。揭秘MMD GANs。在2018年国际学习代表会议上五个[3] Thomas J.作者声明:Andrew W.菲茨吉本海豚是什么从2D图像构建3D可变形模型IEEE Trans.模式分析马赫内特尔,35(1):2324[4] Mark Chen,Alec Radford,Rewon Child,Jeffrey Wu,Heewoo Jun,David Luan,and Ilya Sutskever.从像素生成 预 训 练 。 在 Proceedings of the 37 th InternationalConference on Machine Learning,第119卷,Proceedingsof Machine Learning Research , 第 1691-1703 页 中 。PMLR,2020年7月13日至18日。八个[5] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offreyHinton.视觉表征对比学习的一个简单框架在Proceedingsofthe37thInternationalConferenceonMachineLearning , Volume119ofProceedingsofMachineLearning Research,pages 1597PMLR,2020年7月13日至18日。八个[6] Tianqi Chen , Bing Xu , Chiyuan Zhang , and CarlosGuestrin.使用次线性内存成本训练深度网络,2016年。五个[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.ImageNet:一个大规模的分层图像数据 库 。 在 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)的会议记录中,第248IEEE,2009年。二个[8] Karan Desai 和 Justin Johnson VirTex : Learning VisualRepresentations from Textual Annotations.IEEE/CVF计算机视觉和模式识别会议(CVPR),2021年。四个[9] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器在学习代表国际会议上,2021年。二、四[10] 加布里埃尔·吴、尼克·卡马拉塔、切尔西·沃斯、单·卡特、迈克尔·彼得罗夫、路德维希·舒伯特、亚历克·雷德福和克里斯·奥拉。人工神经网络中的多模态神经元。截 止 到 2021 年 。 https://distill.pub/2021/multimodal-neurons的网站。四个[11] 作 者 : J. J. Hernaff , Aravind Srinivas , Jeffrey DeFauw,Ali Razavi,Carl Doersch ,S. M. Ali Eslami 和Aaron van den Oord具有对比预测编码的数据高效图像识别。在Proceedings of the 37 th International Conferenceon Machine Learning,Proceedings of Machine LearningResearch,第119卷,第4182-4192页中PMLR,2020年7月13日至18日。八个[12] Martin Heusel,Hubert Ramsauer,Thomas Unterthiner,Bern-hard Nessler,and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在第31届神经科学5894信息处理系统,NIPS’17,第6629-6640页,Red Hook,NY,USA,2017. Curran Associates Inc. 五个[13] Ronghang Hu和Deepak Pathak。Worldsheet:将世界包裹在一张3d图纸中,以便从单个图像合成视图。arXiv预印本arXiv:2012.09854,2020。八个[14] Allan Jabri、Andrew Owens和Alexei A Efros。作为对比随机游走的时空对应。神经信息处理系统进展,2020年。八个[15] Paras Jain , Ajay Jain , Aniruddha Nrusimha , AmirGholami , Pieter Abbeel , Joseph Gonzalez , KurtKeutzer , and Ion Stoica.Checkmate : Breaking themem
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功