没有合适的资源?快使用搜索试试~ 我知道了~
CodeNeRF:对象类别的隐式3D神经表示
12949CodeNeRF:对象类别的非纠缠神经辐射场伦敦大学学院计算机科学系{ucabwja,l.agapito} @ ucl.ac.uk图1:CodeNeRF表示对象类中形状和纹理的变化左:在测试时,给定单个输入图像,训练的模型可以用于联合优化相机视点和形状/纹理潜在代码。右:对象的形状,纹理和视点可以在以后简单地通过改变潜在代码进行编辑,提供对合成的完全控制摘要CodeNeRF是一种隐式3D神经表示,它可以学习对象形状和纹理在类别中的变化,并且可以从一组姿势图像中进行训练,以合成看不见的对象的新视图。与原始NeRF不同,它是场景特定的,CodeNeRF通过学习单独的嵌入来学习解开形状和纹理。在测试时,给定未看到的对象的单个未设定的图像,CodeNeRF经由优化联合估计相机看不见的物体可以从单个图像重建,然后从新的视点渲染,或者通过改变潜在代码来编辑它们的形状和纹理。我们在SRN基准上进行实验,结果表明CodeNeRF对看不见的物体很好地进行了生成,并通过在测试时需要已知相机姿态的方法实现了相同的性能我们在真实世界图像上的结果表明,CodeNeRF可以弥合模拟到真实的差距。项目页面:https://github.com/wayne1123/code-nerf1. 介绍在给定稀疏的输入视图集合或甚至单个图像的情况下,合成看不见的对象的新颖视图是计算机视觉和图形学领域中的一个长期存在的问题合成方法需要对象的3D几何形状和外观的准确表示,以及提供对视点、形状或纹理的变化的控制以渲染相同类别的不同对象的能力。传统上,已经使用离散场景表示,例如明确地或通过学习的神经特征存储几何形状和外观信息的网格或体素网格[23]。然而,它们的离散性质限制了它们的表示能力和分辨率。随着最近引入的场景表示网络(SRN),Sitz- mann等人。[24]提出学习将3D位置映射到场景属性特征的连续函数至关重要的是,SRN不需要3D监督,并且可以使用可区分的光线行进器进行端到端的训练,该光线行进器将基于特征的表示呈现为一组2D图像。虽然SRN允许泛化到看不见的对象,但准确的凸轮12950NeRF图2:CodeNeRF通过学习形状和纹理的单独嵌入以及将3D位置和光线方向映射到密度和RGB值的全连接网络F(θ一组构成的输入图像,并同时学习形状和纹理的不同潜在嵌入,以及多层感知器的权重,以通过强制执行多视图光度一致性来预测每个3D点的体积密度和视图相关辐射。在推理中,给定一个未被看到的对象的单个未被设定的参考图像,Co-deNeRF优化形状和纹理代码以及相机姿势。我们的解纠缠表示提供了全面控制的合成任务,使明确的编辑对象的形状和纹理简单地通过修改各自的潜在代码(见图1)。我们展示了单视图重建,新的视图合成和形状/纹理编辑的SRN基准和现实世界的图像。深SDF SRN NeRF像素CodeNeRF虽然我们的工作从其他连续神经场景表示中获得灵感[15,24],但它解决了许多问题。学习经验✓监督3D 2D 2D 2D2D编码器✓姿势优化-✓他们的局限性。与NeRF [15]不同,CodeNeRF不是特定于场景的,并且可以跨对象类对形状和外观的变化进行建模。与SRN [24]相比,Co-deNeRF解开了几何形状和外观,提供了前解缠结形状纹理✗ ✗ ✗ ✗ ✓用于合成任务的形状和纹理的显式控制Un-与两者一样,CodeNeRF不需要在测试时了解相机姿态,而是通过优化来估计它受DeepSDF [17]的启发,我们采用了自动解码器架构,但表1:神经场景表示的相关先前工作在推断时需要姿态估计,并且形状和外观以纠缠的方式表示。Mildenhall等人[15]扩展了神经表示以存储体积密度和与视点相关的辐射值,使得能够对捕捉视点相关效果的复杂真实世界场景进行高度照片真实的新视图合成。新的视图合成是通过查询网络在每个特定的空间位置和查看方向,然后由经典的体积渲染输出图像像素强度。虽然合成图像的质量令人印象深刻,但它需要大量的图像,并且必须针对每个新场景进行独立优化。神经表示也已被用于学习变形先验,其使用直接3D监督跨语义类别对对象形状的变化进行编码[7,2,17,14]。DeepSDF [17]是一种自动解码器架构,它联合学习潜在嵌入和将3D坐标映射到有符号距离值的全连接网络该表示使用测试时间优化来估计与新的不可见对象相关联的形状代码。虽然DeepSDF [17]已经是一种非常流行的表示,成功地用作驱动来自多个图像的对象类别的3D重建之前的形状[21,20],但其训练需要3D监督并且不能仅从2D图像中学习。贡献:我们提出了CodeNeRF,一种新的3D感知表示的对象类别,学习去纠缠的形状和纹理。在培训过程中,CodeNeRF需要显著地偏离,因为我们仅需要2D监督,并且可以在对象类别上解开形状和纹理变化。有关CodeNeRF的概述,请参见图22. 相关工作我们集中我们的文献回顾学习为基础的approaches三维重建和新的视图合成。基于体素的方法是第一批[34,3,32]提出使用3D超视进行3D重建的学习表示的方法。然而,体积表示在表示能力和分辨率方面基本上是有限的,并且不能捕获表面细节。虽然点云是体素的常见替代品,但其非结构化性质和置换不变性使其难以使用cnn架构进行处理。PointNet [18]提供了一个统一的架构,能够通过maxpooling处理无序点集,可用于多个下游学习任务。基于网格的表示也已用于给定3D监督[7]或应用图形卷积[29,6]的3D形状估计。然而,这些方法仍然不能捕捉精细细节。DeepSDF [17]需要一个新的流行方向,通过从3D点到形状的隐式表示的连续映射来DeepSDF联合学习将3D坐标映射到有符号距离值的全连接网络的权重和潜在嵌入。虽然原则上DeepSDF可以在不增加其存储器占用的情况下以任意分辨率表示形状,但其训练需要3D监督。使用的其他并行方法12951i=1V{I }图3:我们通过潜在插值合成新的形状或纹理来说明CodeNeRF解开几何和外观的能力。我们示出了两个参考图像(左和右)。CodeNeRF首先估计这些图像的相机姿势和形状+纹理代码,然后在它们之间进行插值。连续隐式占用网络[14,2],但也需要3D注释。在[35]中使用了基于CNN的编码器来提取局部特征以提供调节先验然而,所有这些方法都需要对训练数据进行大量的预处理以计算查询点的SDF。此外,如果在渲染优化期间需要网格,则必须使用行进立方体,这是不容易区分的[11]。利用3D监督[14,2,35]预先学习的基于网格的SDF或占用表示可以与CNN编码器组合以执行单视图重建。然而,如[27]中所述,这些模型通常执行识别而不是3D重建。从2D监督的3D重建可微分渲染器[8,10,19]的出现允许通过渲染过程获得DeepSDF被用作深度预学习形状,用于从仅需要2D超视的多个图像[21]进行3D形状优化。MeshSDF [20]规避了行进立方体的不可微性,并使用基于轮廓损失的2D在[12]中从2D图像优化了基于网格的表示。这些方法中的许多方法的缺点是形状先验的学习与形状估计解耦。神经3D表示DVR [16]提出了一种用于隐式形状和纹理表示的可区分的渲染公式,其可以仅从多视图图像和对象掩模中学习,而不需要3D监督。Sitzmann等人[24]介绍了SRN(场景表示网络),这是一种3D感知表示,它通过3D空间位置到场景属性特征的连续映射来学习场景先验。与我们的方法类似,一旦经过训练,模型可以通过测试时优化用作学习场景。然而,与CodeNeRF不同,SRN的测试时间优化需要已知的绝对相机摆姿势,这可以看作是强有力的监督。用于新视图合成的神经辐射场(NeRF)NeRF [15]扩展了神经表示,以允许通过存储体积密度和视图相关辐射值来捕获视点变化的图像属性,这使得能够实现复杂现实世界场景的真实感新视图合成。最近提出了许多新的扩展NeRF,一些并发到我们的。GRAF [22]将条件辐射场的想法引入到生成对抗网络框架中除了新的视点合成,类似于我们的,他们的方法允许通过形状和纹理潜在嵌入修改生成的对象的形状和外观然而,与我们不同的是,他们的方法是一个纯粹的生成模型,在补丁上进行对抗性损失训练。因此,它不能在给定输入图像的情况下估计形状、纹理或相机姿态,因此不能用于单视图重建。PixelNeRF [37]可以通过使用图像编码器来调节图像特征上的神经辐射场来推广到多个场景,并且不需要测试时间优化。然而,与我们的方法不同的是,没有解开的几何形状和外观,因此没有控制形状或纹理编辑。iNeRF [36]使用预先训练的NeRF来优化相机姿势,而NeRF- [31]联合估计神经表示和相机内在和外在参数,但两者都是场景特定的。3. 方法给定描绘跨语义类的M个对象的N个图像的训练集,连同它们各自的摄像机本质和姿态参数=i、Ki、 Ti、N,CodeNeRF联合学习封装跨观察到的对象的几何形状和外观的多层感知器F Θ的权重,以及单独的潜在嵌入。12952--ΣΘi=1ΘΘs不j=1S2不 j=1样本和Ti=exp(−i−1σjδj)。这种表达S不ΣV{I }∈图4:CodeNeRF架构。γx(x)和γd(d)分别是3D点坐标和观看方向的位置编码。体密度σ不依赖于纹理码Zt用于编辑/合成。图图1、图3和图9示出了嵌入如何可以用作调节以在潜在空间中的不同形状/纹理之间呈现平滑插值。共同地,形状/纹理嵌入和解码器网络Fθ充当跨语义分类对形状变形和纹理变化进行建模的学习先验。一旦模型被训练,给定单个输入图像,它就可以通过估计相应形状和xture代码zsj、ztj的测试时优化来用于不可见对象的一次性重建以及甚至相机姿态(参见第2节)。3.2)。我们表明,CodeNeRF生成很好地呈现新的观点,证明了学习的先验知识有助于完成未观察到的几何和纹理图案(参见图1A和1B)。10和13)。体绘制我们遵循[15]并使用经典的体绘制技术,通过从近边界到远边界在N个均匀样本处聚合颜色和占用密度来绘制图像像素的颜色。{zj,zj}M∈R256,其解开形状并出现-相机光线r(t)=c+t,d跟踪通过每个像素。的分别的FΘ是解纠缠的神经辐射场,其采用形状和纹理代码作为输入,并且将场景坐标X和观看方向d映射到它们对应的体积密度σ和RGB颜色值c:FΘ:(γx(x),γd(d),zs,zt)→−(σ,c)(1)根据[15],我们使用位置编码γ(·)用于两者NC(r)= Ti(1−exp(−σiδi))ci(3)i=1其中δi=ti+1−ti是相邻j=1要捕获的场景坐标x和观看方向d高频细节我们对x采用10个频率,对d采用4个频率。我们设计解码器的架构以利用体积密度σ仅取决于3D点x和形状代码zs,而RGB颜色另外取决于观看方向x和纹理代码zt的事实。 MLP F的第一层 映射是完全可微的,并简化为传统的α与alpha值合成。NeRF [15]采用2级该方法包括粗网络和细网络,其中细网络使用基于来自粗网络的Ti的值的重要性采样以更靠近表面进行采样3.1. 培训代码NeRF将3D坐标γ(X)和形状代码zs输入到体积密度σ和中间特征向量vR256。网络的第二部分Ft将v和zt作为输入,并输出RGB颜色,如图2所示。4.第一章对于训练集中的每个图像=i,Ki,Ti,N,在每次训练迭代中,我们使用内在和外在参数对一批4094条射线进行采样。然后,我们沿着每条射线对64个点进行采样,并将它们与形状和纹理代码的当前估计一起馈送到MLP FΘ。Θs:(γx(x),zs)→−(σ,v)Θt:(v,γd(d),zt)→−(c)F Θ:F s◦FΘ(二)FΘ提供占用密度σ和RGB颜色c,并且体渲染用于沿着每条射线聚合颜色使用光度损失以及用作潜在向量的先验的正则化损失来监督训练受SRN [24]和DeepSDF [17]的启发,CodeN-eRF采用具有解耦的形状和纹理嵌入空间的自动解码器架构。在训练中,EM-tors(参见Eq.(4))。我们使用AdamW [13]优化器训练模型,网络参数的初始学习率为1 e-4,潜在向量的初始学习率为1 e-3。床向量{zsj,ztj}M与i iM网络的参数FΘ。与DeepSDF不同 [17]形状和纹理嵌入可以被端到端地训练L(Θ,{zs,zt})=r∈R||2||2仅从图像结束,无需任何3D监督锡永与SRN [24]相比,形状和纹理嵌入-minΘ,{zi,zi}Mi i1i2i22)A(||zs||2个以上||zt||(二)S tdinFF像素的估计颜色C(r)可以表示为:不12953gs是解耦的,可以用作单独的控件(四)12954θs第0页,共1页θs− −我zi,zi,ρ,θ,--S不我 我 我ν2S2不 2不−.ΣAdamW优化器。mini i1i2i2L(z ,z,ρ,θ,)+(||z||+的||z||)的方式StI我我(五)图5:相机视点参数化。在测试时,CodeNeRF与潜在代码一起优化相机姿势潜在向量用训练的嵌入的平均向量初始化,并且使用1e-2的初始学习速率。相机参数的初始学习速率分别为1 e-2、1 e-1和1 e-1。强制解缠:为了说明良好的架构选择和解纠缠之间的联系,我们训练了两个替代模型(M1/M2)。在M1中,γd(d)给出为与3D点位置一起输入到F的3.2. 推理优化在推断时间,给定未看到的对象的单个输入图像,训练的模型可以用于通过最小化渲染的像素和观察到的像素之间的光度损失来优化潜在向量(等式2)。5),同时保持神经网络的权重固定。此外,与先前的方法[24,37]不同,我们表明CodeNeRF不需要已知的相机姿势,并且其参数也可以与潜在代码一起优化。相机姿态优化:CodeNeRF使用相机到世界变换矩阵将像素反向投影到3D光线中。与NeRF [15]类似,我们需要已知的相机矩阵来训练模型。然而,一旦模型已经被学习,在推理时间,不像其他人[24,15,37],我们不需要已知的相机视点,并且我们通过以与可微分渲染器类似的方式获得输入点和光线方向上的梯度来优化旋转和平移参数以及潜在嵌入向量。类似于其他对象类别3D重建方法,我们假设简化的相机模型,其中世界坐标系以3D对象为中心,相机面向其原点,并且上向量与z轴对齐。在这种情况下,R和t可以通过方位角θ、仰角θ和到相机的距离ρ来参数化,如图1B所示五、 相机到世界变换矩阵可以被写为Tcw=Rp,其中:sincos0R=sinθcossinθsincosθcosθcos cosθsinsinθp =(ρ cos θ cos,ρ cos θ sin,ρ sin θ)是摄像机位置。在推断时间,给定参考图像i,相机姿态和采样光线γi可以根据相机参数方位角(θ,θ,ρ)来表达,并且经由使用梯度来优化。测试时间优化:我们最大限度地减少光度损失(5)关于形状和纹理代码以及摄像机参数(固定解码器参数Θ),联合地使用γx(x)(类似于PixelNeRF)。在M2中,zs和zt被给出作为到Fs的输入,这相当于使用单个嵌入。然后,我们执行纹理编辑,保持形状代码固定。图图6示出了只有CodeNeRF如何完全消除形状和纹理的歧义。M1无法合成正确的纹理,而M2的形状发生了不必要的变化图6:形状/纹理解缠结:替代的体系结构无法理清形状和纹理。4. 实验评价我们在ShapeNet [ 1 ]渲染的ShapeNet-SRN数据集上训练我们的模型,用于两个对象类别:汽车(3514)和椅子(6591),由Sitzmann等人创建。[24]第10段。我们使用预定义的训练/测试分割为每个类别训练不同的模型,并对新视图合成和少镜头重建任务进行定量4.1. SRN基准ShapeNet-SRN基准[24]在测试集中的每个对象上提供了251个阿基米德螺旋上的测试图像。我们遵循SRN提供的评估方案[24]。基线我们在ShapeNet基准[24]上与SRN [24],ENR [4],PixelNeRF [37]和其他当前最先进的方法进行定量比较,关于单视图和双视图2D监督重建的任务。注意,竞争方法需要在推断时间处已知的相机姿态。我们比较了我们的方法的三个变体:CodeNeRF(GT姿势)假设在测试时已知相机姿势,CodeNeRF是我们的完整方法,具有相机姿势和形状/纹理代码(299次迭代)的联合优化,以及CodeNeRF(离群值),它是CodeNeRF但不计算导致离群值(旋转)误差大于5◦或翻译误差大于3%)。12955表2:对ShapeNet-SRN的定量评价图7:来自具有CodeNeRF(GT姿态)的单个输入图像的不可见对象的最右列显示输入视图。我们使用PSNR(峰值信噪比)和SSIM(结构相似性指数测量)[30]来评估渲染图像的质量。合成结果表2显示了1视图和2视图重建结果的完整比较。CodeN- eRF(GT姿势)– outperforms PixelNeRF for cars and comes very close即使CodeNeRF在测试时估计未知姿态以及潜在代码,性能也不会降低太多。当移除姿态估计异常值时,性能接近PixelNeRF。定性图8:相机姿态和潜在代码的测试时联合优化:估计的渲染从初始化(左),通过中间优化迭代5/10/50,到299次迭代后的最终结果的演变使用CodeNeRF(GT姿态)的单视图重建的结果如图所示。图8示出了具有相机姿态+潜在代码优化的CodeN-eRF的结果。显然,当使用地面实况姿态时,渲染的图像变得更清晰,但如图1B所示。图8示出,即使当姿态和潜在代码被初始化为远离地面实况时,CodeNeRF也收敛到良好的估计。编辑新的形状和纹理在测试时间优化之后,CodeNeRF提供了对合成过程的完全控制,因为对象形状和纹理可以通过改变相应的潜在代码来简单地编辑这是可能的,因为视点,形状和纹理在我们的表示中完全分离如图9,我们可以很容易地修复一个,同时改变另一个。摄像机视点估计的评价:在测试时,CodeNeRF共同优化相机姿势和形状/姿势潜在代码。我们对ShapeNet-SRN数据集上的相机姿态估计的性能进行了定量评估。图11(顶部)示出了具有姿态估计误差的分布的直方图。值得注意的是,我们用于凸轮的初始化era姿势参数(以绿色显示)在100%的情况下具有超过30 ◦的旋转误差,并且平均距离GT 80◦。尽管如此,我们的优化在85%的情况下收敛。 图中的表格11(下)显示数值估计的和地面实况相机姿态之间的误差,以误差低于5◦和10◦的旋转估计的百分比以及平移估计的百分比配对的相对误差小于3%和5%。 图8示出初始化并说明了中间体的演变通过优化(迭代5/10/50)获得的diate结果,以及299次迭代后的最终结果。即使当初始估计远离地面实况时,优化也收敛到良好的解。1视图2视图PSNRSSIMPSNRSSIM椅子GRF [28]21.250.8622.650.88总拥有成本[26]21.270.8821.330.88dGQN [5]21.590.8722.360.89ENR [4]22.83---SRN [24]22.890.8924.480.92PixelNeRF [37]23.720.9126.200.94CodeNeRF(GT姿势) 23.660.9025.630.91CodeNeRF22.390.87--CodeNeRF(−离群值)23.110.89--汽车SRN [24]22.250.8924.840.92ENR [4]22.26---PixelNeRF [37]23.170.9025.660.94CodeNeRF(GT姿势) 23.800.9125.710.93CodeNeRF22.730.89--CodeNeRF(−离群值)23.170.90--12956×个图9:新颖的形状/纹理/姿态合成。突出显示的结果示出了具有对应于参考视图(经由优化获得)的形状和纹理代码的渲染。其他人显示不同的形状和纹理的结果,简单地通过编辑相应的潜在代码。图10:CodeNeRF的真实世界数据集(Stanford-Car [9]和Pix 3D [25])上的定性结果,其中联合优化了相机姿势+潜在代码。从初始化到迭代5/10/50和299次迭代后的最终结果的整个优化过程中估计渲染的最右列显示输入图像。4.2. 定性比较图图12示出了在来自ShapeNet-SRN测试集的对象的新视图合成上比较CodeNeRF与Pix-elNeRF [37]和SRN[24]的示例 由于PixelNeRF使用 预训练的CNN提取特征,当目标视图接近输入视图时,它会呈现更清晰的图像。SRN比PixelNeRF在遮挡区域上工作得更好,因为它学习了作为先验的潜在嵌入。CodeN- eRF实现形状和纹理的解缠保持-图11:姿态估计评估。误差分布直方图:旋转(左上)、平移(右上)。初始化错误为绿色。数值评估(下文)。在遮挡区域中的几何和外观一致性。只有CodeNeRF可以为紫色椅子合成正确的形状和纹理组合。4.3. 真实世界数据集为了了解我们的模型,仅在ShapeNet-SRN的合成渲染上训练,是否可以很好地推广到现实世界的图像,我们对两个数据集进行了评估:Stanford-Car数据集[9]和Pix 3D [25]。我们进行测试时间优化给定一个单一的输入图像联合估计相机姿势+潜在代码。然后,我们从看不见的视点渲染表示。与PixelNeRF [37]类似,我们在Stanford-Car数据集上使用Detec-tron 2 [33]来推断掩模,然后应用高斯模糊并将图像缩小到128 128。对于Pix3D中的真实椅子[25],我们在缩小之前用提供的地面真实掩模雕刻出对象。摄像机位姿和潜在矢量的优化我们展示了给定单个输入的单次重建的结果12957图12:与SRN [24]和Pix-elNeRF [37]的定性比较(结果由A.Yu和V.Sitzmann)。图13:对来自真实世界数据集的图像进行新视图合成的定性评价(Stanford-Car [9]和Pix 3D [25])。输入图像显示在最右边的列- umn。摄像机姿态估计与潜在的代码。放置具有未知相机姿势的图像。由于摄像机的内部参数是未知的,我们假设焦距与ShapeNet-SRN中的焦距相同。图10示出了通过优化的不同迭代的初始化和中间结果。优化提供了令人信服的最终渲染,即使从远处初始化。形状、纹理和视点编辑在一次优化之后,我们展示了从新视点重建的对象的渲染(见图11)。第13段)。图14示出了编辑形状和纹理潜在向量之后的结果。每个物体的独特风格在形状或纹理转移之后被保留。通过CodeNeRF学习的形状和纹理先验有助于完成输入图像中不存在的对象形状和纹理显式网格重建CodeNeRF隐式地表示重建对象的3D结构以获得图14:在Stanford-Cars和Pix 3D数据集的真实图像上进行形状和纹理编辑。显式网格表示,我们将2563体素的中心馈送到MLP,并获得它们的体密度值σ。然后可以使用移动立方体来找到网格顶点。沿着顶点法线投射光线,我们可以将颜色与顶点相关联。图图15示出了来自Stanford-Car数据集的真实图像和来自ShapeNet的合成汽车的输入图像和图15:重建3D网格:CodeNeRF允许从单个输入图像进行网格的3D重建。5. 结论我们已经提出了CodeNeRF,一个神经辐射场,通过共同学习形状和纹理的单独潜在嵌入来学习解开形状和外观,以及将连续输入位置和光线方向映射到密度和颜色信息的MLP。在推断时,给定单个输入图像,CodeNeRF可以估计其相关联的相机姿态和潜在代码。我们展示了SRN基准和真实世界图像(Stanford-Cars和Pix 3D)上的单次重建的广泛结果,这些结果表明CodeNeRF学习了强大的场景pri- ors,可以完全控制合成过程。鸣谢:这里介绍的研究得到了思科向UCL AI中心提供的资金支持。12958引用[1] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[2] 陈志勤。IM-NET:学习隐式字段,用于生成形状建模。博士论文,应用科学:计算科学学院,2019年。[3] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上,第628-644页施普林格,2016年。[4] EmilienDupont 、 MiguelBautistaMartin 、 AlexColburn、Aditya Sankar、Josh Susskind和Qi Shan。等变神 经 渲 染 。 国 际 机 器 学 习 会 议 , 第 2761-2770 页 。PMLR,2020年。[5] SM Ali Eslami , Danilo Jimenez Rezende , FredericBesse ,Fabio Viola,Ari S Morcos ,Marta Garnelo,Avraham Ru- derman,Andrei A Rusu,Ivo Danihelka,Karol Gregor,et al.神经场景表示和渲染。Science,360(6394):1204[6] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。2019 IEEE/CVF计算机视觉国际会议(ICCV),第9784-9794页[7] Thibault Groueix,Matthew Fisher,Vladimir G Kim,BryanCRussell,andMathieuAubry. 一个学习3D表面生成的简单在IEEE计算机视觉和模式识别会议论文集,第216-224页[8] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议(CVPR),2018年。[9] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会,澳大利亚悉尼,2013年。[10] 李子茂、艾塔拉、杜兰德神父、李嘉诚.通过边缘采样的可微蒙特卡罗射线追踪。ACM Transactions on Graphics(TOG),37(6):1[11] Yiyi Liao,Simon Donne,and Andreas Geiger.深行军立方体:学习明确的表面表示。在IEEE计算机视觉和模式识别会议的论文集,第2916-2925页[12] Chen-Hsuan Lin , Oliver Wang ,Bryan C Russell,EliShecht-man , Vladimir G Kim , Matthew Fisher , andSimon Lucey.视频对齐三维物体重建的光度网格优化。在IEEE/CVF计算机视觉和模式识别会议论文集,第969- 978页[13] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv:1711.05101,2017。[14] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se-IEEE/CVF计算机视觉和模式识别会议,第4460-4470页,2019年。[15] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.Nerf:将场景表示为用于视图合成的神经辐射场。arXiv预印本arXiv:2003.08934,2020。[16] Michael Niemeyer、Lars Mescheder、Michael Oechsle和Andreas Geiger。差分体绘制:学习隐式3D表示没有3D监督。在IEEE/CVF计算机视觉和模式识别会议论文集,第3504-3515页[17] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf:学习连续符号距离函数用于形状表示。在IEEE计算机视觉和模式识别会议论文集,第165-174页[18] Charles R Qi, Hao Su ,Kaichun Mo, and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在IEEE计算机视觉和模式识别集,第652[19] Nikhila Ravi、Jeremy Reizenstein、David Novotny、Tay-lor Gordon 、 Wan-Yen Lo 、 Justin Johnson 和 GeorgiaGkioxari。使用pytorch3d加速3d深度学习。arXiv预印本arXiv:2007.08501,2020。[20] 放大图片作者:Edoardo Remelli,Artem Lukoianov,Stephan R.放大图片作者:Richard,BenoitGuillard,T.Ba g autdin ov,P. Baq ue′和P. 呸Meshsdf:微分等值面提取。ArXiv,abs/2006.03997,2020。[21] Martin Runz , Kejie Li , Meng Tang , Lingni Ma ,ChenKong , Tanner Schmidt , Ian Reid , LourdesAgapito,Julian Straub,Steven Lovegrove,et al.佛罗多:从侦测到三维物体。在IEEE/CVF计算机视觉和模式识别集,第14720-14729页,2020年。[22] Katja Schwarz , Yiyi Liao , Michael Niemeyer , andAndreas Geiger. Graf:用于3D感知图像合成的生成辐射场arXiv预印本arXiv:2007.02442,2020。[23] Vincent Sitzmann,Justus Thies,Felix Heide,MatthiasNießner,Gordon Wetzstein,and Michael Zollhofer.深体素:学习持久的3d特征嵌入。在IEEE/CVF计算机视觉和模式识别会议的论文集,第2437-2446页[24] Vince ntSitzmann,MichaelZollh? fer,andGordonWet-zstein.场景表示网络:连续三维结构感知神经场景表示,2020年。[25] Xingyuan Sun,Jiajun Wu,Xiuming Zhang,ZhoutongZhang , Chengkai Zhang , Tianfan Xue , Joshua BTenenbaum,and William T Freeman.Pix3d:单图像3D形状建模的数据集和方法。在IEEE计算机视觉和模式识别会议(CVPR),2018。[26] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。单视图到多视图:用卷积网络重建看不见的视图。CoRR abs/1511.06702,1(2):2,2015。巴斯蒂安·诺沃津和安德烈亚斯·盖格。占用网络:[27] 马克西姆·塔塔琴科 Stephan R Richter,Rene´兰夫特尔学习函数空间中的三维重建在论文集Zhuwen Li,Vladlen Koltun,and Thomas Brox. 什么12959−−单视图三维重建网络学习?在IEEE计算机视觉和模式识别会议论文集,第3405-3414页,2019年[28] 亚历克斯·崔维希克和柏·杨Grf:学习用于3d场景表示和渲染的一般辐射场。arXiv预印本arXiv:2010.04595,2020。[29] Nanyang Wang , Yinda Zhang , Zhuwen Li , YanweiFu,Wei Liu,and Yu-Gang Jiang. Pixel2mesh:从单个rgb图像生成3d网格模型。在欧洲计算机视觉会议(ECCV)的会议记录中,第52[30] Zhou Wang,Alan C Bovik,Hamid R Sheikh,and EeroP Si-moncelli.图像质量评估:从错误可见性到结构相似性。IEEE图像处理学报,13(4):600[31] Zirui Wang,Shangzhe Wu,Weidi Xie,Min Chen,andVictor Adrian Prisacariu.Nerf:没有已知相机参数的 神 经 辐 射 场 。 arXiv 预 印 本 arXiv : 2102.07064 ,2021。[32] 吴佳俊,张承凯,薛天凡,威廉T自由人,和约书亚B特南鲍姆.通过3d生成对抗建模学习物体形状的概率潜在空间。神经信息处理系统进展,第82-90页,2016年[33] Yuxin Wu,Alexander Kirillov,Francisco Massa,Wan-Yen Lo , and Ross Girshick. 探 测 器 2 。 https ://github.com/facebookresearch/detectron2,2019.[34] 吴 志 荣 , 宋 舒 然 , Aditya Khosla , Fisher Yu , Lin-guang Zhang , Xiaoou Tang , and Jianxiong Xiao. 3dshapenets:体积形状的深度表示。在IEEE计算机视觉和模式识别会议论文集,第1912-1920页[35] QianengXu , Weiyue Wang , Duygu Ceylan , RadomirMech,and Ulrich Neumann. Disn:用于高质量单视图3D重建的深层隐式表面网络。神经信息处理系统进展,第492-502页,2019年[36] 林燕辰、皮特·弗洛伦斯、乔纳森·T·巴伦、阿尔贝托·罗德里格斯、菲利普·伊索拉和林宗义。inref:用于姿态估 计 的 反 转 神 经 辐 射 场 。 arXiv 预 印 本 arXiv :2012.05877,2020。[37] Alex Yu , Vickie Ye , Matthew Tancik 和 AngjooKanazawa。pixelnerf:来自一个或几个图像的神经辐射场。arXiv预印本arXiv:2012.02190,2020。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功