没有合适的资源?快使用搜索试试~ 我知道了~
−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11−11186230CoNeRF:可控神经辐射场0Kacper Kania 1,2 Kwang Moo Yi 1 Marek Kowalski 6 Tomasz Trzci´nski 2,3,4 Andrea Tagliasacchi 5,70英属哥伦比亚大学1华沙理工大学2Tooploox30Jagiellonian University 4 Simon Fraser University 5 Microsoft Research 6 Google Research 70(a)注释0(b)新视图0(c)新属性0图1. 概述 -我们从动态3D场景的多个视图中训练一个可控的神经辐射场,在不同的姿势和属性下进行训练;在这个例子中,眼睛睁开/闭合和嘴巴微笑/皱眉。仅给出六个注释(a),我们的方法可以完全控制场景的外观,允许我们合成(b)新视图和(c)新属性,包括训练数据中从未见过的属性组合(绿色框)。0摘要0我们扩展了神经3D表示,以实现直观和可解释的用户控制,超越了新视图渲染(即相机控制)。我们允许用户在训练图像中用少量的掩码注释来注明希望控制场景的哪个部分。我们的关键思想是将属性视为潜在变量,由神经网络根据场景编码进行回归。这导致了一种少样本学习框架,在没有提供注释的情况下自动发现属性。我们将我们的方法应用于具有不同类型可控属性的各种场景(例如人脸表情控制或无生命物体运动状态控制)。总体而言,我们展示了我们所知的首次从单个视频中重新渲染场景的新视图和新属性。01. 引言0神经辐射场(NeRF)[30]方法近来因其渲染逼真的新视图图像的能力而受到欢迎[28,35,36,50]。为了扩大应用范围,例如数字媒体制作,一个自然的问题是这些方法是否可以扩展以实现直接和直观的控制。0数字艺术家或普通用户可以通过数字工具对材质、颜色或物体摆放进行粗粒度控制[53][18][48],或者只能支持特定变化,比如在学习的椅子形状空间上进行形状变形[25],或者仅限于由显式面部模型编码的面部表情[12]。相比之下,我们对不受限于特定对象或属性的细粒度控制感兴趣。例如,给定一个自画像视频,我们希望能够控制个别属性(例如嘴巴是否张开或闭合);参见图1。我们希望在最小用户干预的情况下实现这一目标,而不需要专门的捕捉设置[24]。然而,目前尚不清楚如何实现细粒度控制,因为当前最先进的模型[36]将3D场景的结构编码为单一且不可解释的潜在代码。对于面部操作的例子,可以尝试通过将图像与相应的面部动作编码系统(FACS)[11]动作单元进行匹配,从而解决这个问题。不幸的是,这要求自动注释过程或仔细而广泛的逐帧人工注释,使得该过程昂贵、难以操作,并且最重要的是,领域特定。领域自动化工具186240机器学习中的领域无关潜在解缠是一个非常活跃的研究课题[9,16,17],但目前还没有有效的即插即用解决方案。相反,我们借鉴了3D可塑模型(3DMM)[7]的思想,特别是最近通过控制属性的空间解缠来实现局部控制的扩展[32,46]。我们希望不是通过单一的全局代码来控制整个面部的表情,而是通过一组局部的“属性”来控制相应的局部外观;更具体地说,我们假设属性在空间上具有准条件独立性[46]。对于图1中的例子,我们寻找一个能够控制嘴巴外观的属性,另一个能够控制眼睛外观的属性,等等。因此,我们引入了一个称为CoNeRF(即可控NeRF)的学习框架,它能够在仅提供少量样本的情况下实现这一目标。如图1所示,给定一个单一的一分钟视频,并且每个属性仅有两个注释,CoNeRF允许对属性进行细粒度、直接和可解释的控制。我们的核心思想是在地面真实属性元组之上,提供稀疏的2D掩码注释,指定属性控制图像的哪个区域,类似于交互式数字拼贴[4]和视频精灵[39]的精神。此外,通过将属性视为框架内的潜在变量,掩码注释可以自动传播到整个输入视频。由于属性的准条件独立性,我们的技术允许我们合成在训练时从未见过的表情;例如,输入视频从未包含过同时闭眼并且演员面带微笑的帧;参见图1(绿色框)。0贡献。总结一下,我们的CoNeRF方法1:0•通过少量的监督(例如,只需要一小部分属性值和相应的2D掩码的注释)提供对编码为NeRF的3D神经表示的直接、直观和细粒度的控制; •虽然受到特定领域的面部动画研究的启发[46],但它提供了一种领域无关的技术。02. 相关工作0神经辐射场[30]可以通过手持设备拍摄的少量示例图像从新视角高质量地渲染场景。迄今为止,已经提出了各种扩展。这些扩展包括改进结果质量的扩展[28, 35, 36,50],允许单个模型用于多个场景的扩展[40,44],以及考虑渲染输出的粗略级别的可控性的扩展[14, 25,47-49, 53],我们将在下面详细介绍。01 代码和数据集在此处发布。0更详细地说,现有的工作只能对对象位置进行组合控制[48,49],最近的扩展还允许更精细的全局光照效果再现[14]。NeRFactor[53]显示了可以建模反照率和BRDF以及阴影,可以用于编辑材质,但它们支持的操作受限于通过渲染方程建模的内容。Co-deNeRF [18]和EditNeRF[25]表明可以通过修改形状和外观编码来编辑NeRF模型,但它们需要一个经过策划的数据集,其中包含不同视角和颜色下的对象。另一方面,HyperNeRF[36]可以适应场景中的未见变化,但学习了一个无法受到监督的任意属性(环境),并且如我们在第4节中所示,不能轻松地与场景内的特定局部属性相关联以实现可控性。0显式监督。可以使用预训练的人脸跟踪网络(如Face2Face[42])预测的人脸属性来条件化NeRF表示[12]。类似地,对于人体,A-NeRF [41]和NARF [33]使用SMPL[26]模型生成可解释的姿势参数,并且Neural Actor[24]进一步包括法线和纹理贴图以进行更详细的渲染。尽管这些模型可以实现可控的NeRF,但它们仅限于特定领域的控制和大量工程化控制模型的可用性。0可控的神经隐式表示。研究界也对学习可控的神经3D隐式表示进行了探讨。许多工作仅关注学习人体神经隐式表示,并通过SMPL参数[26]或线性混合蒙皮权重[5, 10, 15, 27, 29,38, 54, 55]实现控制。在A-SDF[31]中也进行了一些关于形状和姿势的学习解耦的初步尝试,允许控制输出几何(例如,门的打开与关闭),同时保持一般形状。然而,该方法仅限于控制对象的SE(3)关节,并需要密集的3D监督。02.1. 神经辐射场(NeRF)0为了完整起见,我们在深入介绍我们的方法之前简要讨论NeRF。神经辐射场在神经网络的权重中捕获了特定场景的体积表示。作为输入,它接收一个样本位置x和一个视图方向v,并输出在位置x处的场景密度σ以及从视图方向v看到的位置x处的颜色c。然后通过体积渲染[19]来渲染图像像素C。更详细地说,x由观察射线r(t)定义,其中x =r(t),t参数化了计算的射线的哪个点。然后通过计算每个像素C(r)的颜色来渲染。C (r) =� tftnT(t)σ (r(t)) c (r(t), v) dt ,(1)T(t) = exp�−� ttnσ(r(s))ds�,(2).(6)Er∼Cc��C(r; βc, θ) − Cgt(r)�22∥βc∥22 .(11)Lattr(·) =�c�aδc,a|αc,a − αgtc,a|2.(12)186250其中v是射线r的视角,tn和tf是渲染体积的近平面和远平面,以及0是累积透射率。在(1)中的积分通常通过数值积分[30]来完成。02.2. HyperNeRF0需要注意的是,在其原始形式中(1)只能对静态场景进行建模。最近的一些研究[35, 36,43]提出了明确考虑场景中可能的外观变化的方法(例如,视频中的时间变化)。为了实现这一点,它们引入了“规范超空间”的概念-更正式地给定一个3D查询点x和描述模型的所有参数的集合θ,它们定义如下:0K ( x ) ≡ K ( x ; β , θ ) , 规范化器 (3)0β ( x ) ≡ H ( x ; β , θ ) , 超图 (4) c ( x ) , σ ( x ) = R ( K( x ) , β ( x ); θ ) . 超NeRF (5)0其中位置通过规范化器K进行规范化,由β表示的外观通过超图H映射到超空间,然后由另一个神经网络R利用这些超空间检索查询位置的颜色c和密度σ。需要注意的是,在本文中,我们用β表示潜在编码,而用β(x)表示超图提升生成的相应字段。通过这种潜在提升,这些方法通过Eq.(1)渲染场景。需要注意的是,原始的NeRF模型可以被认为是K和H是恒等映射的情况。03.可控NeRF(CoNeRF)0给定一组C彩色图像{C c} ∈ [0, 1] W × H ×3,我们通过自动解码优化[34]来训练我们的可控神经辐射场模型,其损失可以分为两个主要子集:0arg min θ = θ , { β c } L rep ( θ ;{ C c } ) 在第3.1节中0+ L ctrl ( θ ; { M gt c,a } , { α gt c,a }) 在第3.2节中0第一组由经典的HyperNeRF[36]自动解码器损失组成,试图优化神经网络参数θ以及潜在编码{β c},以重现相应的输入图像{C c}:0L rep ( ∙ ) = L recon ( θ , { β c } ; { C c } ) + L enc ( { β c } ) . (7)0后者允许我们将显式控制注入到表示中,并且是我们的核心贡献:0L ctrl ( ∙ ) = L mask ( θ , { β c } ; { M gt c,a } ) g.t.掩码 (8)0+ L attr ( θ , { β c } ; { α gt c,a } ) . g.t.属性 (9)0如前文所述,在第1节中,我们的目标是一个由一组属性α ={αa}控制的神经三维外观模型,我们期望每个图像都是不同属性值的表现,也就是说,每个图像C c,因此每个潜在编码βc,将有一个相应的属性αc。潜在编码β与属性α之间的可学习连接,我们通过回归器表示,详细介绍在第3.3节中。03.1. 重建损失0指导NeRF模型训练的主要损失是重建损失,其目标是简单地重建观察结果{C c}。与其他神经辐射场模型[28, 30, 35,36]一样,我们只需最小化与地面真实图像的L2光度重建误差:0L recon ( ∙ ) =重建损失0解码器损失0与自动解码器一样,遵循[34],我们对潜在编码{βc}施加一个零均值的高斯先验:0L enc ( ∙ ) =编码器损失03.2. 控制损失0用户定义了一组离散的 A个属性,他们希望在帧之间进行控制,这些属性在训练过程中只有在有注释时才进行监督,其他属性则通过训练过程自行发现,受 ( 7 ) 的指导。具体来说,对于特定的图像 C c和特定的属性 α a ,用户指定以下数量:0• α c,a ∈ [ − 1 , 1] :指定第 c 张图像中第 a个属性的值;参见图 1 中的滑块;0• M c,a ∈ [0 , 1] W × H :粗略指定第 c张图像中由第 a 个属性控制的图像区域;参见图 1中的掩码;0为了形式化稀疏监督,我们使用一个指示函数 δ c,a,其中如果给出了图像 c 的属性 a 的注释,则 δ c,a = 1,否则 δ c,a = 0 。然后我们将属性监督的损失写为:0对于掩码的少样本监督,我们使用 ( 20 )中的体积渲染将3D体积神经投影到图像空间,然后监督它。xβKHK(x)β(x)Rc(x)σ(x)xβKHK(x)β(x)Haαα(x)M⊙m(x)⊙m0(x)RAc(x)σ(x)Lmask(·)=�c,aδc,a Er�CE�M(r; βc, θ), Mgtc,a(r)��, (13){αa} = A(β; θ),A : RB → [0, 1]A,(14)M(r; θ)=� t186260(b) 可控神经辐射场(我们的方法)图2. 框架 - 我们在(a)中描述了HyperNeRF [ 36]的公式,以及(b)我们的可控NeRF(CoNeRF)。在(a)中,点坐标 x 和潜在表示 β 分别通过规范化器 K 和超图 H 进行处理,然后通过R 转换为辐射和密度场值。在(b)中,我们引入回归器 A 和 M,用于回归属性和相应的掩码,从而实现对NeRF模型的少样本属性控制。详见第 3.3 节。0将掩码字段 m a ( x ) 转换到图像空间,然后监督它如下:0其中 CE ( ∙ , ∙ ) 表示交叉熵,( 20 ) 中的 σ ( x )是通过最小化 ( 10 )学习得到的。重要的是,由于我们不希望 ( 13 ) 干扰通过 (10 ) 学习的底层3D表示的训练,我们在 ( 13 ) 中对 σ ( x )停止梯度。此外,在实践中,由于属性掩码与背景分布可能高度不平衡,这取决于用户试图控制的属性(例如,眼睛只覆盖图像的一小部分),我们使用焦点损失 [ 23 ]替代标准的交叉熵损失。03.3. 控制和渲染图像0接下来,我们省略图像下标 c以简化符号,不会丧失一般性。给定表示图像背后的3D场景的 B 维潜在代码 β ,我们通过具有可学习参数 θ的神经映射 A 推导出与我们的 A 个属性的映射关系:0其中这些对应于图 1 中的滑块。与 ( 4 )的精神一样,为了允许复杂的拓扑变化,这些变化可能不仅仅由单个标量值的变化表示,我们将属性提升到一个超空间。此外,由于每个属性控制场景的不同方面,我们使用每个属性的可学习超图 {H a } ,写为:0αa(x)=Ha(x,αa;θ)Ha:R3×R→Rd,(15)0请注意,虽然αa是一个标量值,αa(x)是一个可以在空间中的任意点x查询的场。这些场被连接起来形成α(x)={αa(x)}。然后,我们提供所有这些信息来生成通过网络M(∙;θ)生成的属性掩码场。该场确定哪个属性关注空间中的哪个位置x:0m0(x)⊕ma(x)=M(K(x),β(x),α(x);θ),(16)0M:R3×RB×RA×d→RA+1+,(17)0其中⊕是连接运算符,m(x)={ma(x)},附加的掩码m0(x)表示不受任何属性影响的空间。请注意,因为掩码位置应受到感兴趣的特定属性(例如所选的眼睛状态)和场景的全局外观(例如头部运动)的影响,M除了K(x)之外,还将β(x)和α(x)作为输入。此外,因为掩码建模了与属性相关的注意力,因此这些掩码满足单位分割性质:0m0(x)+Σa[ma(x)]=1�x∈R3,(18)0最后,与(5)类似,所有这些信息都由一个神经网络处理,该网络生成用于体积渲染中使用的所需辐射和密度场:0c(x)σ(x)0�0=R(K(x),m(x)⊙α(x)� ���属性控制0,m0(x)∙β(x)� ��其他所有内容0;θ)。(19)0特别要注意的是,m(x)=0意味着m0(x)=1,因此我们的解决方案具有恢复到经典HyperNeRF(5)的能力,其中场景中的所有变化都在β(x)中全局编码。最后,这些场可以用于在图像空间中渲染掩码,类似于辐射的体积渲染过程:0tnT(t)∙σ(r(t))∙[m0(r(t))⊕m(r(t))]dt。(20)0我们在图2(b)中描述了我们的推理流程。03.4.实现细节0我们基于HyperNeRF的JAX[8]实现对NeRF进行了方法实现。我们使用了[35]的定时窗口位置编码和权重初始化,以及[36]的粗到细的训练策略。除了新增的网络外,我们遵循了HyperNeRF的相同架构。对于属性网络A,我们使用了一个六层的多层感知器(MLP),每层有32个神经元,在第五层有一个跳跃连接,参考了[35,36]。对于提升网络Ha,我们使用了Synthetic dataset. Since the lack of ground-truth data ren-ders measuring the quality of novel attribute synthesis infea-sible in practice, we leverage Kubric software [13] to gen-erate synthetic dataset, where we know exactly the state ofeach object in the scene. We create a simple scene wherethree 3D objects, the teapot [3], the Stanford bunny [1],and Suzanne [2], are placed within the scene and are ren-dered with varying surface colors, which are our attributes;see Figure 5. We generate 900 frames for training and 900frames for testing. To ensure that the attribute combina-tion during training is not seen in the test scene, we setthe attributes to be synchronized for the training split, anddesynchronized for the test split. We further render the testsplit from different camera positions than the training splitto account for novel views. We randomly sample 5% of theframes with a given attribute for each object to be set as theground-truth attribute. During validation, we use attributevalues directly to predict the image.186270与H相同的架构,除了输入和输出维度大小不同。对于掩码网络M,我们使用了一个四层MLP,每层有128个神经元,后面跟着一个带有跳跃连接的额外的64个神经元层。网络R也与HyperNeRF共享相同的架构,但输入维度大小不同以适应我们的方法引入的变化。02D实现。为了证明我们的想法不仅限于神经辐射场,我们还测试了我们的框架的2D版本,可以直接表示图像,而不需要经过体积渲染。我们使用与NeRF案例相同的架构和训练过程,唯一的区别是我们不预测密度σ,也没有深度的概念——每个射线直接对应像素。我们对每个视频进行中心裁剪,并将每个帧调整大小为128×128。0超参数。我们使用480×270的图像和每条射线128个样本来训练所有的NeRF模型。我们以512个射线的批量大小进行250k次迭代训练。在训练过程中,我们保持10%的射线来自注释图像。我们设置Lattr=10−1,Lmask=10−2和Lenc=10−4。对于超维数,我们设置d=8。对于2D实现实验,我们从场景中随机采样64个图像,并从每个图像中进一步采样1024个像素。对于所有实验,我们使用Adam[20]作为优化器,学习率为10−4,在250k次迭代中指数衰减到10−5。我们在补充材料中提供了更多细节。在NVIDIA V100GPU上训练单个模型大约需要12小时。04.结果04.1.数据集和基线0真实数据集。七个真实序列中的每一个都有1分钟长,并且是使用Google Pixel 3a或Apple iPhone 13Pro拍摄的。其中四个序列包括人们表现出不同的面部表情,包括微笑、皱眉、闭合或睁开眼睛和张嘴。对于其他三个序列,我们捕捉了一个改变形状的玩具车(即变形金刚)、一个单个节拍器和两个以不同速率跳动的节拍器。对于描绘人物的四个视频之一,为了将其用于2D实现案例,我们使用静态相机拍摄了一个正面视图的人物。所有其他序列都具有显示场景中心物体的前方和侧面的相机运动。对于涉及人类主体的视频,受试者签署了参与者同意书,该书获得了研究伦理委员会的批准。我们告知参与者...0合成数据集。由于缺乏真实数据的基准,实际上无法衡量新属性合成的质量,我们利用Kubric软件[13]生成合成数据集,其中我们确切地知道场景中每个对象的状态。我们创建了一个简单的场景,其中包含三个3D对象,即茶壶[3]、斯坦福兔子[1]和苏珊娜[2],并以不同的表面颜色进行渲染,这些颜色是我们的属性;请参见图5。我们生成了900帧用于训练和900帧用于测试。为了确保训练期间的属性组合在测试场景中看不到,我们将属性设置为训练集同步,测试集异步。我们还从不同的摄像机位置渲染测试集,以考虑新视图。我们随机采样给定属性的5%的帧作为地面真实属性。在验证过程中,我们直接使用属性值来预测图像。0我们在两个数据集上评估我们的方法:使用智能手机拍摄的真实视频序列(真实数据集)和合成渲染序列(合成数据集)。在这里,我们介绍这些数据集和我们方法的基线。0基线。为了评估我们的方法CoNeRF的重建质量,我们将其与四种不同的基线进行比较:1�标准NeRF[30];2�NeRF+Latent,这是对NeRF的简单扩展,其中我们将每个坐标x与可学习的潜在代码β连接起来,以支持场景的外观变化;3�Ner�es[35];4�Hyper-NeRF2[36]。此外,由于现有方法不支持用户控制真实场景中的新属性合成,因此他们的数据将通过我们的方法进行修改。我们以15FPS提取帧,每次捕捉大约900帧。由于通过用户控制在真实场景中合成新属性没有一个真实视图,我们的方法的好处在于定性上最为明显。尽管如此,为了定量评估渲染质量,我们在两个帧之间进行插值并评估其质量。更具体地说,为了最小化场景的动态性对此评估的干扰机会,我们将每隔一帧用作插值任务的测试帧。对于所有人类视频,我们定义了三个属性,分别是两只眼睛和嘴巴的状态。在这种情况下,我们仅对每个视频注释六帧,具体来说,这些帧包含每个属性的极端情况(例如,左眼完全张开)。对于玩具车,我们将玩具车的形状设置为一个属性,并注释两个不同视角下的极端情况-当玩具处于机器人模式和车模式时,从其左侧和右侧观察。对于节拍器,我们认为钟摆的状态是属性,并注释了两个极端情况的两个帧,对于两个节拍器的情况,我们注释了七个帧,因为两个节拍器的钟摆经常靠近彼此,并且对于这些特写情况需要特殊注释;请参见图3。02我们使用具有动态平面切片的版本,因为它始终如一地优于gHyperNeRF+π25.9630.8540.158Ours-M27.8680.8980.155Ours32.3940.9720.139186280张开嘴巴 张开右眼 组装 控制左摆0属性值0-110Ours HyperNeR0Ours Ours OursRF+ π HyperNeRF+ π HyperNeRF+ π0Ours- M0Ours- M0Ours- M0Ours- M0图3.在真实数据上进行新视角和新属性合成-我们从新视角合成场景,并使用新的属性组合,这在训练期间没有见过。HyperNeRF的天真扩展,HyperNeRF+ π无法解开属性,结果是场景的修改无论属性的含义如何,例如,张开嘴巴同时会导致闭上眼睛。Ours-M改善了结果,但没有解开属性空间,就像我们的完整方法所成功做的那样。这些方法之间的差异甚至可能导致完全失败的情况,如节拍器和玩具车的情况所示。0(a) 注释0(b) 未注释的视图0图4.注释示例-我们只为每个属性提供了粗略的注释,这足以使方法自动发现所有视图中每个属性的掩码。底部一行显示了覆盖在图像上的掩码。0为了展示基于属性的控制与少量监督的情况,我们通过将HyperNeRF与一个简单的线性回归器π扩展,该回归器根据αc回归βc,创建了另一个基线5�。我们将这个基线称为HyperNeRF+π。为了进一步显示掩码的重要性,我们还将我们的方法与我们的流水线负责掩码的部分禁用的简化版本Ours-M进行了比较。所有利用注释的基线都使用与我们的方法相同的稀疏标签进行训练。04.2. 与基线方法的比较0定性亮点。我们首先在图3中展示了真实数据集上新属性和新视角合成的定性示例。我们的方法允许控制所选属性而不改变图像的其他方面-我们的控制是解开的。这种解开使得我们的方法能够生成在训练时未见过的属性组合的图像。相反,对于Hy-0执行轴对齐策略;更多细节请参见[36]。0方法 PSNR ↑ MS-SSIM ↑ LPIPS ↓0表1.新视角和新属性结果-我们报告了合成数据上新视角和新属性合成的平均PSNR、MS-SSIM和LPIPS值。我们的方法给出了最好的结果。0为了解开perNeRF,HyperNeRF+π的简单回归策略导致了纠缠的控制,当试图关闭/打开嘴巴时,会影响到眼睛。Ours-M也出现了同样的现象。此外,由于场景中运动的复杂性,HyperNeRF+π完全无法渲染玩具车的新视角,而我们的方法只需四个注释帧就能成功提供可控性和高质量的渲染。请参阅补充材料以获取更多定性结果,包括视频演示。请注意,在所有这些序列中,我们提供了非常稀疏的注释,但我们的方法仍然学习到了每个属性如何影响场景的外观。在图4中,我们展示了一个示例注释以及该方法如何找到未注释视图的掩码。0合成数据集上的定量结果。为了完成对我们方法的定性评估,我们提供了使用具有可用真实值的合成数据集的结果。我们测量峰值信噪比(PSNR)、多尺度结构相似性(MS-SSIM)[45]和学习的感知图像块相似性(LPIPS)[51]并报告它们186290摄像头1摄像头20我们的方法 Ours-M HyperNeRF+π0图5.在合成数据上的新视角和新属性合成-我们展示了在合成数据上的新视角和新属性合成的示例。场景由三个对象组成,每个对象的颜色都是它们的属性。我们的方法可以独立地控制每个对象的颜色,而HyperNeRF+π和Ours-M无法提供可控性,并导致渲染场景中的所有三个对象具有相同的属性。0方法 PSNR ↑ MS-SSIM ↑ LPIPS ↓0NeRF 28.795 0.951 0.210 NeRF + Latent [ 30 ]32.653 0.981 0.182 NeRFies [ 35 ] 32.274 0.9810.180 HyperNeRF [ 36 ] 32.520 0.981 0.1690Ours-M 32.061 0.979 0.167 Ours 32.342 0.981 0.1680表2.定量结果(插值)-我们根据PSNR、MS-SSIM和LPIPS报告插值任务的结果。这些结果仅适用于插值视图合成,而不适用于新属性渲染。我们的方法在渲染质量方面提供了类似的性能,但具有可控性。0在表1中。只有5%的注释,我们的方法提供了最好的新视角和新属性合成结果,如图5中的定性示例所证实。如图所示,HyperNeRF+π和Ours-M在这种情况下无法提供良好的结果,因为没有每个属性的解耦控制,无法正确合成每个测试帧的新属性和视角设置。0插值任务。为了进一步验证我们的渲染质量在引入可控性后不会降低,我们在没有任何属性控制的情况下对我们的方法进行了帧插值任务的评估。如表2所示,所有支持动态场景的方法都表现出类似的工作,包括我们的插值方法。请注意,对于插值任务,我们插值每隔一个帧,以最小化属性影响评估的机会。在这里,我们只对来自新视角的渲染质量感兴趣。0属性值 1 -10左眼右眼嘴巴0图6.2D图像生成示例-我们的框架还可以直接生成2D图像。这里我们展示了对一个人进行表情的网络摄像头视频的新属性合成。场景的每个单独部分根据属性值进行正确控制。0真实(插值)合成(新视角和属性)0模型 PSNR ↑ MS-SSIM ↑ LPIPS ↓ PSNR ↑ MS-SSIM ↑ LPIPS ↓0基础(L recon)32.457 0.981 0.168 24.407 0.718 0.173 + L enc 32.478 0.982 0.16727.018 0.871 0.164 + L enc + L attr 32.254 0.981 0.167 27.322 0.873 0.147 + L enc+ L attr + L mask 32.342 0.981 0.168 32.394 0.972 0.1390表3.损失函数的影响-我们报告了随着逐步引入损失项,我们方法的渲染质量如何变化。对于具有新视角和属性(合成数据)的受控渲染,每个损失项都会提高渲染质量,其中Lmask至关重要。对于真实数据的新视角渲染,增加用于可控性的损失函数对渲染质量没有显著影响-它们不会造成任何损害。04.3. 直接2D渲染0为了验证我们的方法如何超越NeRF模型和体积渲染,我们将我们的方法应用于从单一视角拍摄的视频,创建了一个2D渲染任务。我们在图6中展示了一个概念验证,证明了我们的方法在NeRF应用之外的应用,以实现可控的神经生成模型。04.4. 消融研究0损失函数。在表3中,我们展示了每个损失项如何影响网络的性能,对性能改进起到了贡献。当渲染具有新属性的新视角时,完整的公式是必需的,因为没有所有的损失项,性能会显著下降-例如,没有Lmask的结果与表1和图5中的Ours-M结果类似。在插值任务的情况下,用于可控性的额外损失函数对渲染质量没有显著影响。换句话说,我们的可控性损失不会干扰渲染质量,除了赋予框架可控性。0少样本监督的质量。我们测试了我们的方法对注释监督质量的敏感性。在(−, −)(0, 0)(+, +)β1β2186300掩码注释 掩码重建0皱眉 微笑0图7.注释质量的影响-我们的方法对注释质量具有一定的鲁棒性。我们展示了两种表情:皱眉和微笑,同时保持两只眼睛处于中性位置。即使注释差异很大,如图所示,重建结果仍然可以合理地进行控制,除了顶部行,我们展示了一个注释过于严格的情况,导致注释被忽略了一个眼睛。我们还展示了一个有趣的情况,底部行中的掩码足够大,开始捕捉到嘴巴表情和眼睛之间的相关性。0(a) 注释样本0(b) 渲染结果0图8.未注释属性的示例-我们展示了当图像的一部分发生外观变化但未被注释时,我们的方法的性能。使用(a)中的注释,我们在(b)中合成了具有新视角和属性的场景,其中两行具有不同的β配置。我们在(b)的每列顶部标注了属性配置。如图所示,未被注释的变化仅仅被编码在每个图像的编码β中。0图7中,我们演示了每个注释如何影响最终的渲染质量。我们的框架对注释的不准确性具有一定的鲁棒性。然而,当注释过于严格时,掩码可能会崩溃,如顶部行所示。过大的掩码也可能导致属性的中度纠缠,如底部行所示。尽管如此,在所有情况下,我们的方法都可以对注释进行合理的控制。未注释的属性。一个自然的问题是,场景中存在的未注释的变化会发生什么。在图8中,我们展示了当仅注释场景中的部分外观变化时,该方法的性能。场景中未注释的变化被编码为β,就像HyperNeRF [36]的情况一样。05. 结论0我们引入了CoNeRF,这是一个直观的可控NeRF模型,可以通过属性掩码的少量注释进行训练。我们方法的核心贡献在于我们将属性表示为局部掩码,然后将其作为潜在变量在框架内处理。为此,我们使用神经网络回归属性及其对应的掩码。这导致了一种少样本学习的设置,网络学习回归提供的注释,并且如果给定图像没有提供注释,则在训练过程中自动发现适当的属性和掩码。我们已经证明我们的方法允许用户通过注释几帧轻松地注释控制内容和方式,然后可以以高质量从新视角和具有新属性的场景进行渲染。0局限性。虽然我们的方法为NeRF模型提供了可控性,但仍有改进的空间。首先,我们对属性的解缠严格依赖于局部性假设-如果多个属性作用于单个像素,当使用不同的属性进行渲染时,我们的方法可能会产生纠缠的结果。因此,一个有趣的方向是将流形解缠方法[22,52]纳入我们的方法。其次,尽管很少,我们仍需要稀疏的注释。在场景中进行无监督发现可控属性,例如[21]中的方法,仍有待探索。最后,我们依靠用户的直觉来选择应该注释的帧-我们启发式地选择具有极端属性的帧(例如,嘴巴完全张开)。虽然这是一种有效的策略,但未来研究的一个有趣方向是利用主动学习技术来实现这一目的[6,37]。我们在《补充材料》中进一步讨论了我们的工作的潜在社会影响。06. 致谢0我们感谢Thabo Beeler,JP Lewis和Mark J.Matthews进行了有益的讨论,感谢DanielRebain在处理合成数据集方面的帮助。该工作部分得到了加拿大国家科学与工程研究委员会(NSERC),ComputeCanada和Microsoft混合现实与人工智能实验室的支持。这项研究由波兰科学基金会(POIR.04.04.00-00-14DE/18-00号授权)资助,该基金会在欧洲区域发展基金的支持下,通过Team-Net计划进行了共同融资,波兰国家科学中心(2020/39/B/ST6/01511号授权)以及微软研究通过EMEA博士奖学金计划提供了资助。作者已经对由此提交产生的任何作者接受的手稿(AAM)版本应用了CCBY许可证,以符合开放获取条件。[1] Bunny 3d model.https://graphics.stanford.edu/˜mdfisher/Data/Meshes/bunny.obj.Ac-cessed: 2021-11-16. 5[3] Teapot 3d model.https://graphics.stanford.edu/courses/cs148- 10- summer/as3/code/as3/teapot.obj. Accessed: 2021-11-16. 5[4] Aseem Agarwala, Mira Dontcheva, Maneesh Agrawala,Steven Drucker, Alex Colburn, Brian Curless, David Salesin,and Michael Cohen.Interactive digital photomontage.In ACM SIGGRAPH 2004 Papers, SIGGRAPH ’04, page294–302, New York, NY, USA, 2004. Association for Com-puting Machinery. 2[5] Thiemo Alldieck, Hongyi Xu, and Cristian Sminchisescu.imGHUM: Implicit Generative Models of 3D Human Shapeand Articulated Pose.In Conf. on Comput. Vis. PatternRecognit., 2021. 2[6] Soufiane Belharbi, Ismail Ben Ayed, Luke McCaffrey, andEric Granger. Deep Active Learning for Joint Classification& Segmentation with Weak Annotator. In IEEE Winter Conf.on Appl. of Comput. Vis., 2021. 8[7] Volker Blanz and Thomas Vetter. A Morphable Model for theSynthesis of 3D Faces. In Annual
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功