没有合适的资源?快使用搜索试试~ 我知道了~
183530NeRF-Editing:神经辐射场的几何编辑0Yu-Jie Yuan 1,2,† Yang-Tian Sun 1,2,† Yu-Kun Lai 30Yuewen Ma 4 Rongfei Jia 4 Lin Gao 1,2*01 北京移动计算与普适设备重点实验室,中国科学院计算技术研究所 2中国科学院大学计算机与控制工程学院 3 卡迪夫大学计算机科学与信息学院 4阿里巴巴集团0{ yuanyujie,sunyangtian,gaolin } @ict.ac.cn LaiY4@cardiff.ac.uk0{ yuewen.my,rongfei.jrf } @alibaba-inc.com0摘要0尤其是神经辐射场(NeRF)的隐式神经渲染已经在场景的新视图合成中展现出巨大的潜力。然而,当前基于NeRF的方法无法使用户在场景中进行用户控制的形状变形。虽然现有的工作已经提出了一些方法来根据用户的约束修改辐射场,但修改仅限于颜色编辑或对象的平移和旋转。在本文中,我们提出了一种方法,允许用户在场景的隐式表示上执行可控的形状变形,并在不重新训练网络的情况下合成编辑后场景的新视图图像。具体而言,我们在提取的显式网格表示和目标场景的隐式神经表示之间建立了对应关系。用户可以首先利用成熟的基于网格的变形方法来变形场景的网格表示。然后,我们的方法利用来自网格表示的用户编辑来引入四面体网格作为代理,通过弯曲相机射线来获得编辑后场景的渲染结果。大量实验证明我们的框架不仅可以在合成数据上实现理想的编辑结果,还可以在用户捕捉的真实场景上实现理想的编辑结果。01. 引言0新视图合成在计算机视觉和计算机图形学中得到了广泛研究。特别是最近提出的神经辐射场(NeRF)[ 43]已经激发了大量的后续工作,旨在实现更好的视觉效果[ 36],更快的渲染速度[ 18 , 77 ],0†:作者贡献相等 *通讯作者是LinGao(gaolin@ict.ac.cn)0对不同场景的泛化[ 78 ],重光[ 4 , 60 ],应用于动态场景[48 ]以及减少输入数量[ 29]。然而,作为一种隐式建模方法,神经辐射场对用户来说很难编辑或修改场景对象,而使用显式表示相对容易。网格表示作为一种显式表示,通常用于形状建模和渲染。有很多关于网格变形或编辑的研究工作[ 80]。然而,获取真实场景的准确显式表示是困难的。从稀疏的图像集合中,可以使用一些多视图立体(MVS)方法[ 52]来重建场景的点云或网格表示,但质量通常较差。在新视图下渲染重建的表示将导致不真实的结果。因此,基于隐式表示(如NeRFs)具有有前景的新视图合成能力,进一步研究如何编辑隐式表示已成为一种新的探索方向。0一些研究已经研究了如何编辑NeRF。例如,EditingNeRF [38 ]是第一个提出在隐式辐射场上进行编辑的方法。他们在相同类别的一组合成模型上进行训练,例如来自ShapeNet [ 5]的椅子和桌子,并引入形状代码和颜色代码来表示不同模型的几何和外观。用户选择所需的颜色,并在指定视图的图像上绘制一些粗略的涂鸦,以指示应该更改的内容。然后,通过基于原始图像和编辑后图像之间的损失更新网络,将局部编辑传播到3D区域。这项工作仅限于颜色修改或删除形状的某些部分,无法对形状进行实质性修改,例如形状变形。最近的一项工作,ObjectNeRF [ 74],提出了学习分解的神经辐射场,将对象和背景分离开来。因此,它可以复制183540图1。我们提出了一种编辑静态神经辐射场(NeRF)的方法。用户只需捕捉多视角图像来构建NeRF表示,然后可以明确直观地编辑场景的隐式表示。我们的方法可以对场景的几何形状进行用户控制的形状变形,其中包含多个对象。0可以移动或旋转对象以进行可编辑场景渲染。然而,它也不支持形状变形。同时,一些工作[48,67]考虑使用NeRF来建模动态场景,并使用多层感知器(MLP)来预测场景变化。然而,它们要么将编辑限制在人体上[46,82],要么只能从记录的视频中学习运动信息,无法进行主动编辑[48]。0在本文中,我们提出了一种编辑神经辐射场的方法,结合了显式表示的优点,以便进行简单的局部编辑,以及隐式表示的优点,以实现逼真的渲染效果。与之前的工作[38,74]不同,我们关注场景的几何内容,如图1所示,支持用户编辑场景的几何形状,并能够从新视角进行逼真的渲染。据我们所知,我们是第一个在一般场景的NeRF上进行用户控制的形状变形的研究者。为此,我们首先从训练好的NeRF中提取出显式的三角网格表示。然后,从三角网格表示构建一个四面体网格,该网格包围着三角网格。我们使用三角网格的变形来驱动四面体网格的变形,从而将场景几何表面的变形传播到空间离散的变形场。最后,我们使用四面体顶点插值完成从离散变形场到连续变形场的传播。穿过四面体网格的光线将根据连续变形场相应地弯曲,使最终的渲染结果符合用户的编辑。我们的方法是通用的,不限于特定的形状,如人体,并且适用于0适用于动物模型和一般的人造物品等任意形状。02. 相关工作0我们的NeRF编辑框架为编辑神经隐式场景表示的新视角合成提供了一种新的范式。在这里,我们总结了有关新视角合成和3D变形/编辑方法的相关工作。新视角合成。为了从给定的输入图像中推断出逼真的新视角合成结果,之前的工作依赖于真实世界场景的显式[6, 20, 21, 56]或隐式[19, 32,62]几何表示。最近,神经渲染作为深度神经网络流水线的组成部分和独立的渲染流水线,取得了巨大的进展,这在[64,65]中得到了全面总结。它采用深度神经网络来合成图像,可以应用于多种表示,如体素[39, 54],点云[1,10],网格[7, 50, 51, 66],多平面图像(MPIs)[34, 42,87]和隐式场[31,55]。作为代表性的作品之一,神经辐射场(NeRF)[43]引起了很多关注,它使用多层感知器(MLP)来模拟场景的几何和外观。NeRF可以实现具有视角依赖效果的逼真合成的新视角图像。然而,NeRF仍然存在缺点,很多工作已经扩展了原始的NeRF,包括更好的合成效果[36, 71,83],适用于动态场景[14, 33, 44-48, 67, 72,82],更快的渲染速度[18, 22, 49, 77],适用于不同场景[8,69],重新照明[4, 60,85]等。与NeRF相关的工作已经在[11]中总结。在这项工作中,我们关注NeRF的几何编辑/变形。正如前面提到的,EditingNeRF[38]提出了在可编辑场景渲染中对对象进行编辑的方法。然而,它也不支持形状变形。同时,一些工作[48,67]考虑使用NeRF来建模动态场景,并使用多层感知器(MLP)来预测场景变化。然而,它们要么将编辑限制在人体上[46,82],要么只能从记录的视频中学习运动信息,无法进行主动编辑[48]。183550渲染图像并使用网络优化实现对整个图像和新视图图像的编辑转移。然而,这些编辑仅限于2D图像,不能改变物体的空间位置,更不能改变物体的形状。ObjectNeRF[74]具有分解网络架构,只能复制、移动或旋转物体。然而,我们的框架支持编辑NeRF中物体的几何形状,然后用于合成逼真的新视图图像进行可视化。3D变形和编辑方法。编辑3D模型意味着在用户给定的一些控制下对模型的形状进行变形。关于显式几何表示的编辑已经有很多工作[9,17],我们将读者引用到最近的一篇综述[80]。传统的网格变形方法基于拉普拉斯坐标[35, 57,58],泊松方程[79]和双拉普拉斯坐标[2]。作为其中的代表性工作,ARAP(尽可能刚性)变形[59]是一种交互式网格编辑方案,通过保持局部变换的刚性来保持细节。驱动网格变形的另一种方法是通过代理,如骨架[27, 41]或笼子[53,76, 86]。这些方法需要计算代理和网格顶点之间的权重[13,28,81],并将代理的变换传播到网格上。随着几何模型的增多[3],数据驱动的变形[15, 16,61]变得可行,它分析数据集中现有形状的变形先验,并产生更逼真的结果。与此同时,大量的数据也使得神经网络可以引入到3D编辑中[37, 63, 73,75]。除了显式网格表示之外,隐式场也可以与神经网络结合进行编辑。Deng等人提出了变形的隐式场[12],它能够根据从对象类别中学到的信息对密集表面对应关系和形状进行建模和编辑。我们的工作也旨在编辑隐式表示,特别是NeRF。不同之处在于我们利用了显式网格编辑的直观和便捷特性。通过建立显式网格表示和隐式神经表示之间的连接,我们使用成熟的网格变形方法来编辑隐式表示的几何形状。03.我们的方法0我们的工作基于神经辐射场(NeRF)[43],在新视图合成方面具有良好的性能。因此,我们的方法使用户能够对场景内容进行形状变形,并在编辑后可以从任意视角生成新的图像。我们首先简要回顾NeRF的流程(第3.1节),然后介绍如何提取显式三角网格0从场景的隐式表示中提取出显式表示,并使用户能够编辑网格表示(第3.2节)。用户编辑场景的三角网格表示后,我们需要将这种变形转移到隐式体积表示中。我们将转移分为两个步骤。第一步是将表面网格变形转移到体积网格上,我们构建一个围绕表面网格的四面体网格,并将用户对表面网格的编辑转移到四面体网格上的离散变形场(第3.3节)。下一步是将离散变形场转换为空间体积中的连续变形场,用于引导光线的弯曲,以生成符合用户编辑的图像(第3.4节)。我们将在第4.3节中展示,直接将变形从表面网格传输到隐式体积中的插值方法与我们的两步策略相比会导致明显的伪影。我们的方法建立了显式网格表示和隐式辐射场之间的连接,使用户能够通过直观的编辑修改辐射场的几何形状。流程如图2所示。03.1. 神经辐射场0神经辐射场或NeRF[43]提出使用多层感知机(MLP)网络从稀疏的图像集合中建模场景的几何和外观。根据已知的相机参数,可以将图像像素转换到世界坐标系,并与相机位置连接以生成指向场景的光线。NeRF在光线上采样点并使用体积渲染[30]获取每个光线的颜色。每个采样点的空间坐标p =(x,y,z)和光线方向d =(θ,φ)将通过位置编码ζ(∙),然后输入到全连接网络中预测体积密度σ和RGB值c:FΘ:(ζ(p),ζ(d)) →(σ,c),其中Θ表示网络权重。预测的密度值σ可以解释为采样点终止的可微概率,图像像素ˆC(r)对应于光线r(t)的颜色可以通过离散积分计算:0ˆC(r) =0i =1 exp(−0j =1 σjδj)(1 − exp( − σiδi))ci,(1)0其中,δ i = t i +1 - t i是相邻样本之间的距离。网络通过RGB损失函数进行监督,该损失函数在生成的颜色ˆC(r)和光线的真实颜色C(r)之间进行计算。03.2. 显式表面网格表示的编辑0在训练完NeRF网络后,可以直接从神经网络中提取出明确的三角网格表示。Original MeshO i il Mh����������������������Canonical SpaceUser EditingDeformed Space⊕Canonical SpaceDeformed MeshResults���������������������view directioncolor�������������������ngDeformed Meshoffsetc⊕MLPMLPInput ImagesRendering Network183560O i i l M h0原始网格0用户编辑0规范空间0用户编辑0结果0变形网格0视角0色0颜色0颜色0n g0变形的0M0e s h0偏移0c ⊕ MLP MLP0输入图像渲染网络0图2. 我们的NeRF编辑框架的流程。用户编辑重建的网格,然后建立一个连续的变形场来相应地弯曲光线。0利用Marching Cubes[40]从神经辐射场中提取出三角网格。然而,从原始NeRF网络中提取的网格通常具有粗糙的表面。为了获得令人满意的编辑表示,我们采用NeuS[68]中提出的重建方法,该方法以无偏差的体积渲染方式学习几何形状作为神经符号距离函数(SDF)表示。从SDF的零级集中提取的网格表示将作为用户的编辑对象,允许用户直观地编辑场景内容。在本文中,我们使用经典的ARAP(尽可能刚性)变形方法[59]使用户能够交互地变形网格。值得注意的是,这里可以使用任何其他网格变形方法,包括基于骨骼和基于笼子的方法。提取的三角网格表示为S,N(i)表示与顶点i相邻的顶点的索引集合。我们进一步将vi ∈R3表示为网格S上顶点i的位置。在用户的编辑之后,网格S被转换为具有相同连接性和不同顶点位置v'i的变形网格S',将用户编辑视为边界条件。整体的ARAP变形能量用于测量整个网格的刚度,它是每个变形单元的畸变能的总和,包括顶点i及其1-环邻居,如公式2所示。0E(S')=0n �0i=10j∈N(i)wij∥(v'i-v'j)-Ri(vi-vj)∥2. (2)02(cotαij+cotβij)是余切权重,αij,βij是与网格边(i,j)相对的角度。Ri是顶点i处的局部旋转。变形后的形状S'0通过交替优化局部旋转Ri和变形位置v'i,可以通过最小化ARAP能量来获得变形后的形状S'。具体的优化过程请参考[59]。03.3. 将变形传递到离散体积0在用户编辑场景的三角网格表示之后,需要将变形传递到隐式体积表示。如前所述,我们将传递分为两个步骤。在第一步中,我们构建0用户编辑体积ARAP0变形约束0TetWild0提取的网格0变形的网格0边界笼子四面体网格0变形的四面体0光线弯曲0图3。我们使用用户指定的离散变形来弯曲光线。0一个四面体网格(离散的体积表示)来覆盖提取的三角网格。从提取的三角网格S开始,我们首先计算一个包围网格S的笼子网格。这可以通过在法线方向上从网格表面偏移一定距离来实现。我们将默认值设置为从相机位置到物体中心的平均距离的5%。笼子网格的内部空间可以被视为隐式体积的“有效空间”,因为场景真实几何表面附近的区域被这个笼子网格包围。在编辑具有多个对象的较大场景时,这种设计还确保其他未被编辑的对象不受影响。我们使用四面体化方法TetWild[25]将笼子网格四面体化以获得四面体网格表示T。应注意的是,提取的三角网格S也包含在四面体网格T中。我们在补充材料中可视化了一些提取的三角网格S和相应的四面体网格T。我们使用三角网格顶点vi的位移来驱动四面体网格T的变形,从而将表面变形传递到四面体网格。变形后的四面体网格表示为T',tk和t'k分别表示变形前后的四面体网格的顶点,其中k是顶点索引。在这里,我们还使用ARAP变形方法在表面网格de-183570形成。方程2可以直接从三角网格扩展到四面体网格。唯一的区别是约束从用户指定的控制点变为三角网格顶点。我们可以找到每个三角网格顶点所在的四面体,并计算其相对于四面体的四个顶点的重心坐标。然后,优化问题是,最小化E(T'),满足At'=v',(3)0其中A是重心权重矩阵。这个优化问题可以通过使用Lagrange乘子法转化为线性方程。具体的推导请参考补充材料。03.4. 光线弯曲0将表面变形传递到四面体网格后,我们可以获得“有效空间”的离散变形场。现在我们利用这些离散变换来弯曲投射光线。为了生成变形辐射场的图像,我们将光线投射到包含变形四面体网格的空间中。对于光线上的每个采样点,我们找到变形四面体网格T'中的哪个四面体。利用T和T'之间的对应关系,可以获得从变形后的顶点到变形前的顶点的位移。通过对采样点所在的四面体的四个顶点的位移进行重心插值,可以获得采样点回到原始“有效空间”的位移∆p。我们将位移∆p添加到采样点的输入坐标中以预测密度和RGB值。(ζ(p+∆p),ζ(d))→(σ,c)。(4)0沿射线采样点的密度和RGB值用于使用公式1计算相应的像素颜色。需要注意的是,不在四面体网格T'内的采样点不会移动,即射线在四面体网格外的部分不会弯曲。建立变形场的过程如图3所示。04.实验和评估0在本节中,我们进行了几个定性和定量实验,包括展示合成数据和捕捉真实场景上的编辑结果,与基准方法的比较以及消融研究。04.1.数据集和指标0我们在几个公共合成数据上演示了我们的方法,包括mixamo中的一些角色[26],NeRF中的乐高推土机和椅子[43]。此外,我们还在自己捕捉的真实场景中测试了我们的方法,包括来自FVS数据集的一只真实捕捉的马雕像。0View1 View2 View3 View40Before0After0Before0After0图4.我们展示了合成数据在不同视角下的编辑结果(行“After”)与NeRF渲染结果(行“Before”)的对比,包括乐高推土机和椅子,这说明我们的方法可以编辑一般模型的NeRF。不同的列显示了不同的视角。View1 View2 View3View40Edit Op.0Before0Edit10Edit20Edit30图5.我们在真实捕捉的长颈鹿玩具上展示了我们的NeRF编辑框架的结果(行“Edit1”,“Edit2”,“Edit3”),并与原始的NeRF结果(行“Before”)进行了比较。不同的列显示了不同的视角。我们可以将对象编辑成不同的姿势,并在不同的视角下渲染它。“Edit Op.”表示“编辑操作”。0FVS数据集[50]和我们自己捕捉的几个真实场景。mixamo中的角色是由我们自己渲染的。我们使用Blender从上半球生成100个随机视角进行训练。对于NeRF数据集的数据,我们使用数据集的默认训练设置。对于我们自己捕捉的真实场景,我们保留一张图像用于验证,其他图像用于BeforeAfterBeforeAfterBeforeAfterBeforeAfter183580训练。关于自己捕捉的数据集的更多信息请参见补充文档。需要注意的是,与动态NeRF方法[48]不同,很难获得用户编辑后的新视图合成结果的真实场景的基准结果,因为这样的编辑场景在物理上并不存在。因此,我们主要定量和定性地评估我们的方法在mixamo角色上的性能。具体来说,我们对mixamo角色模型进行绑定,将变形的角色渲染为基准结果,并将其与我们的NeRF编辑方法的输出进行比较。我们使用结构相似性指数(SSIM)、学习的感知图像块相似性(LPIPS)和峰值信噪比(PSNR)作为评估我们方法性能的指标。我们还在真实场景上评估了Fr´echet InceptionDistance(FID)得分,以衡量编辑前后结果的相似性,因为基准结果并非必需。04.2.编辑结果0不同视角下的形状编辑结果。首先,我们在图4-6中展示了合成数据和真实捕捉对象的不同视角下的NeRF编辑结果。为了比较,我们还展示了编辑前相同视角下的结果。在图4中,第一组是来自NeRF数据集的乐高推土机。我们放下了它的铲子,实现了复杂合成数据的编辑。第二组是NeRF数据集中的合成椅子。我们拉伸了椅子的靠背和腿部,这表明我们的方法可以编辑人造物体的局部部分。在图5中,我们展示了我们在自己捕捉的长颈鹿玩具上的编辑结果。可以看到用户可以将长颈鹿编辑成不同的姿势,同时还可以缩放局部区域,这证明了我们方法的可用性。在图6中,我们展示了来自真实场景的另外四组结果,以说明我们的方法可以应用于不同的对象。玩具龙的翅膀被变形使其展开。这可以进一步实现从不同方向观看时龙扇动翅膀的动画效果。我们还展示了来自FVS数据集的一只马雕像的例子,我们可以变形马的头部并抬起它的蹄子。对于笔记本电脑的例子,我们可以旋转其面板以不同的角度。对于真实捕捉的椅子,我们弯曲了椅子的腿部以呈现另一种设计风格,并同时放大了靠背,使椅子更加舒适。这些结果表明我们的方法能够根据用户的编辑来变形静态神经辐射场。在图1中,我们展示了场景中多个对象的形状变形的例子。我们首先将马雕像的网格从场景中分离出来,然后复制成多个,并将它们放置在不同的位置,并以不同的方式变形。变形传递结果。除了用户编辑后的新视图合成结果很难获得,特别是在真实场景中,因为这样的编辑场景在物理上并不存在。因此,我们主要定量和定性地评估我们的方法在mixamo角色上的性能。具体来说,我们对mixamo角色模型进行绑定,将变形的角色渲染为基准结果,并将其与我们的NeRF编辑方法的输出进行比较。我们使用结构相似性指数(SSIM)、学习的感知图像块相似性(LPIPS)和峰值信噪比(PSNR)作为评估我们方法性能的指标。我们还在真实场景上评估了Fr´echet InceptionDistance(FID)得分,以衡量编辑前后结果的相似性,因为基准结果并非必需。0视图1 视图2 视图3 视图40图6.我们的NeRF编辑框架(行“After”)与原始NeRF结果(行“Before”)在多个真实捕获数据上的结果对比。不同的列显示不同的视角。我们编辑静态神经辐射场并展示在不同视角下的变形结果。0通过控制形状变形,我们还可以使用变形传递方法将变形从现有的变形序列传递到真实捕获的物体上。这可以实现一些有趣的应用。例如,我们可以将人脸的运动从视频剪辑中传递到头部雕塑上。我们在补充材料中展示了一些示例结果。04.3. 比较0由于我们是第一个在NeRF上执行一般几何形状变形的人,我们提出了三个基准方法进行比较。对于第一个基准,我们采用一种简单的方法来建立提取的三角网格与连续体积空间之间的对应关系。我们不再构建四面体网格并将其用作代理,而是直接找到采样点在提取的三角网格表面上的最近点,并使用最近点的位移作为采样点的位移。我们将第一个基准称为“ClosestPoint”。第二个基准与第一个基准类似。不同之处在于,我们线性插值三个最近的三角网格顶点的位移,系数与距离成反比,以获得采样点的位移。我们将这个基准称为“3NN”。最后一个基准是网格渲染。提取的三角网格具有顶点颜色信息,可以在用户控制的形状变形或变形传递之后直接渲染。我们将我们的方法与“ClosestPoint”和“3NN”基准在合成数据mixamo上进行比较,该数据具有真实编辑结果。可视化比较结果如图7所示,定量比较结果如表1所示。我们还在图7的最后一行展示了对真实捕获场景的视觉比较。由于缺乏真实的标准,我们可视化了变形前的NeRF渲染结果和相应的变形结果。可以看出,“ClosestPoint”和“3NN”基准可能会导致不连续性,因此渲染结果具有明显的伪影,而我们的方法采用了两步变形传递,结果在视觉上更加令人满意,并具有定量优势。3NN0.9410.04224.30291.7Ours0.9750.02429.62253.7the extracted triangular mesh surface, and use the displace-ment of the closest point as the displacement of the sampledpoint. We denote the first one as “Closest Point”. The sec-ond baseline is similar to the first one. The difference isthat we linearly interpolate the displacements of three near-est triangular mesh vertices, with the coefficients inverselyrelated to distances, to obtain the displacement of the sam-pled point. We denote this one as “3NN”. The last baselineis mesh rendering. The extracted triangular mesh is withvertex color information, which can be directly rendered af-ter user-controlled shape deformation or deformation trans-fer.We compare our method with the “Closest Point” and“3NN” baselines on the synthetic data mixamo which hasground truth edited results. The visual comparison resultsare shown in Fig. 7, and the quantitative comparison isshown in Table 1. We also show a visual comparison ona real captured scene in the last row of Fig. 7. Due to theabsence of ground truth, we visualize the NeRF renderingresult before deformation and corresponding deformationresults. It can be seen that the “Closest Point” and “3NN”baselines may cause discontinuities, so the rendering resultshave obvious artifacts, while our method adopts two-stepdeformation transfer, and the results are more visually sat-isfactory and has quantitative advantages.GTClosest Point3NNOurs183590方法 SSIM ↑ LPIPS ↓ PSNR ↑ FID (real) ↓0表1. 与“ClosestPoint”和“3NN”基准的定量比较。可以看出我们的框架取得了更好的结果。请注意,前三个指标是在mixamo合成数据上计算的,而最后的FID是在真实数据上计算的。0图7. 与“Closest Point”和“3NN”基准的视觉比较。“ClosestPoint”和“3NN”基准可能会导致不连续性,因此渲染结果具有明显的伪影。请注意,最后一行是一个真实捕获的玩具长颈鹿,因此不存在真实的标准,我们只能可视化变形前的NeRF渲染结果作为参考。然后我们将我们的方法与网格渲染基准进行比较。0来自NeRF的Lego数据上的线。值得注意的是,尽管我们的方法在交互式编辑中使用了显式的三角网格表示,但在网格重建方面具有一定的误差容忍度,并且重建的三角网格不需要完美。这是因为网格仅用作中间表示,我们的最终图像仍然是通过体积渲染获得的。直接网格渲染需要高质量的网格,网格上的所有伪影都会出现在渲染的图像中。如图8所示,Lego中重建的网格质量不好,网格渲染的结果也不理想,而我们的方法仍然可以进行编辑,并借助体积渲染的帮助,仍然可以获得期望的结果。0网格渲染 NeRF 编辑后的网格 我们的编辑0图8.在合成数据上与网格渲染的比较。当网格质量不好时,网格渲染会出现明显的伪影,而这不会影响我们的编辑和图像合成。4.4. 消融研究0我们在合成数据上进行了关于编辑后新视角合成结果的消融研究。首先,由于我们在方法中引入了四面体网格作为三角网格和连续体之间的代理,我们比较了在三角网格上进行编辑和在四面体网格上进行编辑的结果,并验证了在三角网格上进行编辑和通过我们的方法传递变形的必要性。其次,为了评估重建的三角网格对我们的结果的影响,我们比较了原始NeRF提取的三角网格和通过改进重建质量的NeuS提取的三角网格的结果。表2和表3总结了消融研究的定量结果。三角网格上编辑的必要性。表2显示了在四面体网格和三角网格上进行编辑的定量比较,表明在三角网格上进行编辑的效果更好。图9展示了定性结果。在四面体网格上进行编辑的结果由于网格质量差而出现明显的伪影。网格质量的影响。表3评估了重建网格质量对我们方法的影响。可以看到,使用NeuS提取的网格的结果比使用NeRF提取的网格更好,但差异很小。图10显示了视觉比较,其中使用NeRF提取的网格在细节上有一些伪影,但183600方法 SSIM ↑ LPIPS ↓ PSNR ↑0在四面体网格上进行编辑 0.934 0.049 24.37在三角网格上进行编辑 0.975 0.024 29.620表2.对三角网格上编辑的必要性评估。在三角网格上进行编辑比直接在四面体网格上进行编辑会得到更好的结果。总体结果还不错。这说明网格质量对我们的结果影响较小。0GT 四面体 三角0图9.四面体网格或三角网格上的编辑消融研究。可以看到,在四面体网格上的编辑会导致渲染结果中出现伪影。0GT NeRF NeuS0图10.网格质量的消融研究。NeRF重建的网格比NeuS的网格差,导致渲染结果中出现一些伪影。我们展示了渲染结果(第一行)和用顶点法线着色的网格(第二行)。0方法 SSIM ↑ LPIPS ↓ PSNR ↑0NeRF 0.969 0.027 28.95 NeuS 0.9750.024 29.620表3.评估提取的网格质量的影响。NeuS重建的网格比NeRF重建的网格更好,导致更好的编辑结果。4.5. 限制0我们的方法是对NeRF的几何形状变形的第一步,但仍然存在一些限制。首先,最大的限制是我们不能根据编辑结果修改颜色、光照和阴影。如果一个在捕捉过程中处于阴影中的物体部分被变形到面向光源,它的颜色仍然会暗淡而不是明亮,如图11所示。这个问题可以通过结合一些最近的基于NeRF的重新光照工作[4,85]来解决,通过解耦光照来实现正确的颜色渲染。0通过将一些最近的基于NeRF的重新光照工作[4,85]结合到我们的方法中,我们可以实现通过解耦光照来正确渲染颜色。其次,我们的方法不能支持用户实时编辑。用户只能在编辑网格表示后选择一个视角进行图像合成。目前,主要的时间瓶颈仍然在NeRF的渲染部分。最近,有一些关于加速NeRF渲染的工作[18, 22,77]。与这些方法的结合将有助于实时渲染交互式编辑结果。0训练1 训练2 变形0图11.失败案例。我们的方法在几何变形时不会编辑外观。在这个例子中,由于T型姿势在训练过程中臂下部被光线遮挡,即使女性举起手臂,也会一直显得阴暗,这是不合理的。05. 结论0在本文中,我们提出了第一种支持用户控制形状变形的方法,用于神经辐射场网络的几何形状。通过建立显式网格表示和隐式体积表示之间的对应关系,我们的方法可以使用成熟的三角网格变形方法来变形隐式表示。借助NeRF的新颖视图合成能力,用户可以从任意视角可视化编辑结果。我们的方法适用于可以编辑场景对象(包括人体、动物、人造模型等)的一般真实场景。与以前的NeRF编辑方法相比,我们的方法具有更高的自由度,并且可以支持细节的编辑。在未来,我们将进一步探索光照方法的组合。在编辑场景几何形状之后,可以修改相应的颜色,使渲染结果中的光照和阴影更加自然。在未来的工作中,我们将在完全即时(JIT)编译的深度学习框架Jittor [24]中实现我们提出的方法。0致谢0本工作得到了北京市自然科学基金杰出青年学者项目(编号JQ21013),国家自然科学基金(编号62061136007和61872440),英国皇家学会牛顿高级学者项目(编号NAF \ R2\192151),阿里巴巴创新研究(AIR)计划和中国科学院青年创新促进会的支持。[9] Shu-Yu Chen, Lin Gao, Yu-Kun Lai, and Shihong Xia.Rigidity controllable as-rigid-as-possible shape deformation.Graphical Models, 91:13–21, 2017. 3[10] Peng Dai, Yinda Zhang, Zhuwen Li, Shuaicheng Liu, andBing Zeng.Neural point cloud rendering via multi-planeprojection.In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition, pages 7830–7839, 2020. 2[11] Frank Dellaert and Lin Yen-Chen. Neural volume rendering:Nerf and beyond, 2021. 2[12] Yu Deng, Jiaolong Yang, and Xin Tong. Deformed implicitfield: Modeling 3D shapes with learned dense correspon-dence. In Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition, 2021. 3[13] Michael S Floater. Mean value coordinates. Computer AidedGeometric Design, 20(1):19–27, 2003. 3[14] Guy Gafni, Justus Thies, Michael Zollhofer, and MatthiasNießner. Dynamic neural radiance fields for monocular 4Dfacial avatar reconstruction. In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,pages 8649–8658, 2021. 2[15] Lin Gao, Yu-Kun Lai, Dun Liang, Shu-Yu Chen, and Shi-hong Xia.Efficient and flexible deformation representa-tion for data-driven surface modeling.ACM Transactionson Graphics (TOG), 35(5):158:1–158:17, 2016. 3[16] Lin Gao, Yu-Kun Lai, Jie Yang, Zhang Ling-Xiao, ShihongXia, and Leif Kobbelt. Sparse data driven mesh deformation.IEEE Transactions on Visualization and Computer Graphics,27(3):2085–2100, 2019. 3[17] Lin Gao, GuoXin Zhang, and YuKun Lai. L p shape de-formation. Science China Information Sciences, 55(5):983–993, 2012. 3[18] Stephan J Garbin, Marek Kowalski, Matthew Johnson, JamieShotton, and Julien Valentin. FastNeRF: High-fidelity neu-ral rendering at 200fps. In Proceedings of the IEEE/CVFInternational Conference on Computer Vision, pages 14346–14355, 2021. 1, 2, 8[19] S. Gortler, R. Grzeszczuk, R. Szel
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功