没有合适的资源?快使用搜索试试~ 我知道了~
13779学习对象组合神经辐射场的可编辑场景绘制杨邦邦1韩周1张银达2胡军报1徐英豪3张国峰1李毅进1号崔兆鹏1*1浙江大学CAD/CG国家重点实验室2Google3香港中文大学对象激活代码库场景分支渲染背景代码1代码2操纵对象分支对象对象使用操纵来自ScanNet的原始场景原始姿势操纵图1.我们提出了一种新的对象组成的神经辐射场,支持可编辑的场景渲染现实世界的数据集。为了获得具有对象操作的视图,我们联合渲染来自条件对象分支的变换对象和来自场景分支的摘要隐式神经绘制技术在新的视图合成中表现出了良好的效果。然而,现有方法通常将整个场景作为整体进行编码,这通常不知道对象身份并且将其能力限制于诸如移动或添加家具的高级编辑任务。在本文中,我们提出了一种新的神经场景渲染系统,它学习一个对象组成的神经辐射场,并产生具有编辑能力的集群和现实世界的场景真实感渲染。具体而言,我们设计了一种新的双通道架构,其中场景分支编码场景的几何形状和外观,对象分支编码每个独立的对象条件下学习对象激活代码。为了在严重混乱的场景中生存训练,我们提出了一种场景引导的训练策略来解决遮挡区域中的3D空间模糊性,并学习每个对象的清晰边界。大量的实验表明,我们的系统不仅达到了竞争力的性能,静态场景的新视图合成,但也产生逼真的渲染对象级编辑。1. 介绍现实世界场景中的虚拟游览是虚拟和增强现实最期望的体验之一。虽然早期的作品依赖于费力地捕捉和重建物理世界,例如,几何形状、纹理、材料等,*通讯作者代 码 可 在 项 目 网 页 上 找 到 : https : //zju3dv.github.io/object_nerf/新兴的神经绘制方法打开了很大的机会,通过直接从一组姿态图像中学习来简化该任务,一个常见的后续问题是:我们可以修改场景吗,例如移动或添加家具,同时仍然保持逼真的渲染能力。不幸的是,这没有得到现有神经渲染方法的良好支持早期的方法倾向于将整个可见场景编码到单个神经网络中,例如NeRF [17]和SRN [26]。虽然这些模型可以很好地处理小对象,但由于网络容量固定另一方面,一系列神经渲染方法利用体表示[12]在特定位置密集编码局部信息,这将可扩展性负担从网络参数迁移到场景表示,并根据经验产生更好的渲染质量。然而,场景表示和渲染网络通常对于对象身份是不可知的,其不支持诸如移动家具的高级编辑任务。在本文中,我们提出了一个神经渲染系统,使现实世界的场景编辑。以收集从真实场景中捕获的姿势图像和粗略的2D实例掩码,我们的模型可以渲染整个场景,因为它是在现实中,以及与对象操纵,如移动,旋转,或复制。与我们最相关的是,OSF [7]通过学习每个对象的一个模型,然后执行联合渲染,以自底向上的方式实现可编辑场景渲染。然而,他们的方法不学习真实世界中的对象布置,并且需要预先训练针对每个单独对象捕获的图像。复制对象移动对象13780这在杂乱的场景图像上是不可行的,因此只能在合成数据上进行验证。相比之下,我们的目标是设计一种自上而下的方法,直接学习整个场景的统一神经渲染模型,该模型尊重捕获场景中的对象放置。为了支持对象操作,我们设计了一种新的条件神经渲染架构,该架构能够独立地渲染每个对象,并删除其他所有内容,这些对象可以从新的视点,在新的位置或复制进一步渲染。请注意,为了确保逼真的场景编辑,每个对象都必须在没有背景出血的情况下以清晰的边界进行渲染,这仅用粗略的3D渲染掩模或边界框是不可行的(参见图1B)。6为例)。实际上,即使利用粗糙的2D实例掩模,学习用于集群和真实世界场景的这种对象组成神经辐射场也直观地说,当目标是渲染特定对象时,网络只能从特定对象的实例遮罩内投射的光线中学习。然而,在没有已知几何形状的情况下,不可能识别3D位置是否属于对象但被遮挡,这在杂乱场景中是常见的,或者甚至不是它的一部分,因为这两种情况都没有被实例掩模标记。因此,网络可能会过度删除对象的一部分并产生模糊的结果。为了解决这一挑战,我们学习了一个额外的紧凑场景分支,没有可编辑功能,以在训练过程中在线提供沿光线和密集深度的有偏采样分布,这有助于识别没有梯度的遮挡区域,而不是作为空白空间进行监督。场景分支还渲染未被实例分割标记的内容,以提供无缝的整个场景渲染。本文的主要贡献如下.首先,我们提出了第一个可编辑的神经场景渲染系统,给出了一组姿势图像和2D实例掩码,它支持高质量的新颖视图渲染以及对象操作。其次,我们设计了一种新的双通道架构,以学习对象组成的神经辐射场的集群和现实世界的场景解决遮挡歧义。最后,实验和广泛的消融研究证明了我们的系统和每个组件的设计的有效性。我们的系统执行标准的新颖的视图合成方面的标准,甚至比SoTA方法更好,同时保持高品质的可编辑场景渲染的能力。2. 相关工作神经渲染。在这些工作中,采用深度神经网络以各种方法从2D图像学习新视图合成,诸如体素[25,15]、点云[1,20],纹理网格[27,13,11],多平面IM-年龄[27,31,6]和隐式函数[26,14,18]。作为一个pi- oneer,SRN [26]通过隐式地将空间坐标映射到具有MLP的特征向量来将连续场景表示为不透明表面,并使用可微光线行进算法来渲染用于图像生成的2D特征图。NeRF [17]表示具有体积密度和视图相关颜色的隐式场的场景,并实现照片般逼真的新颖视图合成结果。为了加快渲染速度并扩大网络容量,NSVF [12]提出了NeRF的稀疏体素八叉树变体,其在体素有界表示中隐式编码可见场景的局部属性。然而,由于这些方法倾向于对整个场景进行编码,因此一旦模型已经被训练,渲染单个对象相反,我们提出的对象合成神经辐射场自然支持独立对象渲染。在此基础上,实现了具有自定义对象操作的视图合成。对象分解渲染。早期的方法采用传统的建模[3,2,10,23,24,21,22]和渲染流水线[8]来支持编辑和新颖的视图合成。例如,Karschet al.[8]建议通过估计环境光照条件将合成对象逼真Cossairt等人[4]将真实和合成对象与光场接口合成在一起,而对象光场是用特定的硬件系统捕获的。最近,一些作品采用神经隐式表示对象分解渲染。Guo等[7]提出了一种自下而上的方法,通过学习每个对象的一个散射场,并能够渲染具有移动对象和灯光的场景,但它需要在仅包含单个特定对象的图像上训练每个单独的模型,这对于现实世界的场景是不切实际的。Ost等人[19]提出使用神经场景图来分解街道视图数据集中的动态对象。他们的方法依赖于不能进行室内场景扫描的动态场景。此外,潜在类别编码限制每个模型仅表示具有相似形状和规范坐标的一类对象,这限制了对象变化且不共享相同形状特征的一般情况下的应用。相比之下,我们的方法不依赖于对象的规范坐标,并且还可以同时学习紧凑的对象组合模型,该模型使得能够在现实世界场景扫描中使用多对象操纵进行新颖的视图合成。3. 方法3.1. 概述我们的框架由两条路径组成:场景分支和对象分支,如图所示。二、场景分支旨在对整个场景几何结构进行编码,并且13781场景分支SCN(#)(,)&c((#)场景渲染损失2- g.t.颜色2$%&(#)2016年光线距离体绘制对象分支(#)3D防护面罩(列车)(,))*+对象渲染损失2-g.t.color2对象不透明度日志2-g.t.segSS选择对象激活码$%&)光线距离体绘制objobjobjΣΣΣ- -·objobj+ λ2w(r)k||O(r)k- M(r)||二、obj体素16插值8对象激活代码图书馆图2.我们设计了一个双通道结构的对象组成的神经辐射场。场景分支将空间坐标X、X处的内插场景体素特征fscn和光线方向d作为输入,并输出场景的颜色cscn和不透明度σscn。对象分支采用附加的对象体素特征f〇 bj以及对象激活码l〇 bj,以调节输出仅包含特定对象在其原始位置处的颜色c〇 bj和不透明度〇obj,而其他一切都被移除。外观,其在可编辑场景渲染中渲染周围背景,并帮助对象分支识别遮挡区域。以2D实例掩码作为指导,对象分支以几个可学习对象激活码为条件对每个独立在渲染阶段,当使用对象激活代码调节场景分支时,我们可以自由地渲染单个对象,同时删除其他所有内容。值得关注的是3.3.客体组合学习对象监督。理想地,物体辐射场应该只在物体占据的区域是不透明的,而在其他地方是透明的(即,零不透明度)。为了实现这一目标,我们利用2D实例分割作为对象分支的监督信号 为了简洁起见,我们假设训练过程具有场景中的K个注释对象,以及可学习的对象代码库L={lk}。对于每条射线r我们的框架同时学习编码多个通过分配一堆混洗对象激活来填充对象在批量训练集Nobjr,我们选择一个对象k作为训练光线的训练代码,而不需要为每个对象单独训练。由于该框架是建立在NeRF,我们参考Mildenhall等人。[17]技术背景。训练目标并分配对象激活码Lk到对象分支输入。然后,我们向前移动网络并获取渲染颜色C(r)k,以及渲染的2D对象不透明度O(r)k通过求和的乘积N个采样点的透射率Tk和α值αk我我3.2.对象组合NeRF沿着射线,其遵循[16,17]并且被定义为1:如图2、我们的框架采用场景渲染和对象渲染两个独立的分支。我们利用体素化表示的优势[12]NC(r)obj=Tiαicobji,i=1NOφ(r)obj= Tiαi,i=1和基于坐标的位置编码[17],并提出混合空间嵌入作为网络输入。实际上,对于沿相机射线采样的每个点xTi=exp−i−1j=1σobjjδj,(一)对从8个最近顶点内插的场景体素特征fscn和空间坐标x两者应用位置编码γ()[17]以得到混合空间嵌入。该混合空间嵌入连同嵌入方向γ(d)将被馈送到场景分支和对象分支中。其中α i=1 exp(σ obji δ i),δ i是沿射线相邻点之间的采样距离。 为了使渲染的2D对象不透明O(r)k为了满足2D实例掩码,我们最小化到对应的实例掩码M(r)k。我们还最小化了分公司至此,场景分支函数FSCN可以输出渲染对象颜色之间的平方距离X处场景的不透明度σscn和颜色cscn。为对象分支函数Fobj,我们另外添加嵌入的对象体素特征γ(fobj)和对象激活码lobj以及具有被掩蔽的M(r)k的地面实况颜色C(r)的失去对象监督的定义为:L=ΣΣλM(r)k||C(r)k−C(r)||在这里,学习是一种能力。ing分解,并由所有对象共享,而lobj识别不同对象的特征空间,并具有obj1r ∈ Nr k∈φ 1..K)obj2(二)K2由每个人。 将对象激活代码lobj作为条件,对象分支精确地输出颜色c_obj其中实例掩码M(r)k通过设置1或0来构造。对应像素处的实例标签和不透明度σobj的期望对象,而其他一切仍然是空的。1Forbre vity,weomitkinC(r)k,O(r)k,Tk,αk,ck,σ k.objobj我我 的目标目标i2137822}目标iΣ}遮挡区域的权重将不受“空”监督信号的影响图3. 3D防护遮罩识别对象分支的遮挡区域。我们渲染场景深度dscn(左侧的灰色线条),并将其沿着相机方向向前推进。然后,我们减去可见的实例截头体(左边的黄色区域从比 dscn+ε 更远的3D空间 来构造3D防护 掩模(灰 色区域)。是否属于对象k,w(r)k是实例掩码的0和1信号之间的平衡权重。闭塞问题。上述对象监督对于从简单的以对象为中心的数据(即,360°朝向单个对象捕获而没有任何遮挡)。然而,在现实世界场景扫描中,目标对象经常被其他前景遮挡因此,对于在掩模处具有“空”(或0)信号的像素标签9对象和周围空间的点采样,因此实例监控信号将引导对象分支对目标对象进行编码并消除其它一切否则,如果目标对象被遮挡,则遮挡区域处的“空”信号的梯度3.4. 联合优化我们在训练阶段联合优化场景分支和对象分支。对于场景分支,我们遵循[17]并最小化预测颜色之间的平方误差C(r)scn和真实像素颜色C(r),为:Lscn=||C(r)scn−C(r)||第二条、第三条r∈Nr对于对象分支,我们使用等式中引入的损失(二)、模型的总损失定义为:L=Lobj+ Lscn。(四)3.5. 可编辑场景渲染由于对象组合NeRF,我们可以通过简单地切换应用的优化对象激活代码来读取每个注释对象的辐射场,从而轻松实现可编辑场景渲染。如示于图1、将整个可编辑场景渲染流水线分为背景阶段和对象阶段。在背景阶段,我们获得场景颜色(c))。 同样值得注意的是我们不能简单地忽略空白区域的监督,否则模型将不透明度{cSCNI,σscniNi=1 从场景分支,而在无人监督的区域呈现意外的浮动。场景引导遮挡识别。我们利用几何线索在线从场景分支,以确定遮挡区域。首先,我们利用来自修剪目标区域处的点采样,以便从场景中移除原始对象。在对象阶段,我们将射线照射到K个目标对象上,并按照用户定义的操作进行对象特定的场景分支,以引导ob的偏置采样颜色和不透明度{ckK目标iN Ki=1k=1 到所需的位置-我们称之为场景引导。场景引导显著减少了遮挡区域内的点采样但是,当目标对象是自由的时-第最后,我们通过沿光线方向计算距离来聚合所有不透明度和颜色,并使用求积规则渲染像素颜色[16]:N×(K+1)虽然最近被其他实例遮挡,但学习的对象辐射场仍然受到影响(参见图2)。9(d))。我曾亲C(r)=Σi=1Ti αici,(5)设置3D防护蒙版的姿势以停止应用于闭塞区域,如图所示。3.第三章。实际上,我们通过场景分支在线渲染场景深度dscn,并将其沿着相机方向略微向前推一小段距离。然后,我们利用3D防护掩模来保护被遮挡部分,该被遮挡部分是通过从3D空间减去比推送场景深度dscn+ε更远的可见实例空间来构造的。在对象分支的训练过程中,我们显式地修剪3D防护掩模内的光线样本。直观地说,我们假设两个注释对象之间的距离通常大于ε。因此,如果目标对象可以在没有任何遮挡的情况下被查看,则我们的3D防护掩模将允许足够的其中Ti和αi是透射率,α值为de-在SEC罚款。三点三4. 实验我们评估我们的方法在两个真实世界的数据集。首先,我们定量和定性地比较我们的场景分支与标准场景渲染的SoTA方法。然后,我们展示了不同方式渲染单个对象的可视化,并将我们的可编辑场景渲染与基于点云的渲染方法进行比较[6]。最后,我们进行消融研究,以检查我们的框架的设计。实例分割可见渲染场景深度前景对象闭塞3D防护罩闭塞目标对象,σ13783↑ ↑ ↓ ↑ ↑↓4.1. 数据集ToyDesk。我们创建了一个带有实例注释的数据集来评估我们的框架,该框架包含两组具有目标对象的2D实例分割的姿势图像。具体来说,我们通过放置具有两种不同布局的几个玩具来准备桌子的两个场景,并且通过观察桌子中心来360◦捕获图像,其中玩具经常被图像视图中的其他玩具遮挡。我们使用SfM [21],多视图立体[28]和网格生成技术[9]来恢复相机姿势和网格,并且还手动标记网格上的目标对象通过直接从3D网格投影标注的实例标签来获得2D实例分割扫描网ScanNet [5]数据集包含RGB-D室内场景扫描以及3D实例注释和通过投影的2D实例分割。为了更好地评估场景分支和对象分支两者的我们选择视角小于预设中心对象40°对于对象不透明度监管我们直接使用ScanNet数据集中提供的实例分割,这是相当粗略的(见图2)。10),但可以通过我们的方法充分利用。有关数据集的更多详细信息,请参阅补充材料。4.2. 数据准备和实验详情我们的方法不需要用于训练的传感器深度以及NeRF[17]和NSVF [12]2,而NPCR [6]依赖于深度帧以生成体素聚合(根据作者因此,为了进行公平的比较,我们遵循NSVF中的训练设置,为所有其他竞争者的训练添加深度损失(即,NeRF,NSVF和我们的方法)。然而,由于深度损失是完全可选的,我们将在灵活的材料中展示更多的扫描网络数据集上没有深度监督的结果。此外,由于NSVF在其ScanNet实验中也使用点云进行体素初始化,因此我们使用与NPCR相同的点云来初始化NSVF和我们的方法的体素。对于ToyDesk数据集上的实验,由于缺乏传感器深度,我们排除了NPCR,并使用SfM点云进行体素初始化。4.3. 场景渲染为了评估场景分支的渲染质量,我们首先与基于神经点云的渲染(NPCR)[6]、最先进的隐式表示方法NeRF [17]和体素有界扩展进行比较。2NSVF实际上使用ScanNet数据集的深度。方法ToyDesk ScanNetPSNR SSIM LPIPS PSNR SSIM LPIPSNPCR [6]/25.1770.7540.225表1.为了评估全场景渲染质量,我们将我们的场景分支与ToyDesk数据集和ScanNet数据集上的SoTA神经渲染方法进行了定量比较。NSVF [12].由于NSVF没有发布ScanNet数据集的训练代码,并且由于GPU OOM错误,我们也未能在官方代码库上训练Scan-Net数据,因此我们决定使用我们的体素表示的实现以及自修剪和渐进式训练机制,这将被表示为稀疏体素。我们遵循[12,17,6]中的标准度量,使用PSNR,SSIM和LPIPS来测量渲染质量。如表1所示,我们的方法在评估的指标上与SoTA方法相当或甚至更好。请注意,ToyDesk数据集包含相对较远背景的更大部分(与Scan-Net相比),当查询点远离原点时,这会使位置编码退化[29]。因此,所有基于NeRF的方法在ToyDesk上的表现都较差。同时,我们在图中显示了ToyDesk数据集的渲染示例。 4和图中的ScanNet数据集。五、对于ToyDesk的结果,我们发现NeRF魔方的边缘),而稀疏体素倾向于编码更多的细节,但无法为SfM点云不完整的遥远背景产生合理的纹理由于我们的混合空间嵌入,自动适应不同的采样位置,我们始终显示中心对象和周围环境纹理的细节对于图中ScanNet的结果。5,值得注意的是,NPCR和稀疏体素都未能在第一行产生正确的颜色,并且NPCR甚至省略了椅子把手和腿,如图2中的第二行和第三行所示。5、我们认为这主要是由于点云的不完整性,使得NPCR和Sparse Voxel在没有几何支持的情况下无法存储这些区域的描述符。相反,我们的方法在有体素的地方显示了更细的粒度,并且在体素缺失的地方也正确地渲染了纹理。4.4. 单个对象渲染我们认为,这是不自然的渲染单个对象,一旦整个场景已被编码到模型,即使重建的3D网格或边界框是可用的,可以作为一个3D渲染掩模。为了证明这一点,我们比较了不同的方法来渲染图中的单个对象。图6示出了根据本发明的示例性实施例,其中(b)和(c)分别用靠近网格表面采样的半径为0.05m和0.1m的点来渲染,并且(e)用由边界框裁剪的光线来渲染,并且(f)是来自网格表面的结果。NeRF [17]15.4530.5860.53728.9270.8150.249Sparse Voxel*[12]14.4800.5320.57224.1430.7350.312我们的方法15.6070.5850.52229.0050.8150.24313784(a) NeRF(b)稀疏体素(c)我们的方法(d)地面实况图4.我们在ToyDesk数据集上比较了NeRF [17]和Sparse Voxel [12]的场景渲染质量。我们的方法始终呈现中心对象的细节以及周围的环境纹理。(a) NPCR(b)NeRF(c)稀疏体素(d)我们的方法(e)地面实况图5.我们展示了NPCR [6],NeRF [17],Sparse Voxel [12]的场景渲染示例以及我们在ScanNet数据集上的方法请放大以了解更多详情。对象分支由于重建的网格通常是不完整和不准确的,如图所示。6(a),直接应用严格的3D渲染掩模(即,0.05m半径内)将产生如图1B所示的斑驳渲染结果。6(b) 这是由于在辐射场的主要颜色分量上缺乏精确的点采样。当半径放宽到0.1m时,虽然渲染的对象变得更加生动和逼真,但背景纹理也附带包括在内,如图所示。6(c).此外,将光线样本限制在边界框内甚至会包括更多的背景纹理,如图所示6(e)。相比之下,我们的对象分支可以渲染一个干净的对象,不包括背景,如图所示。6(f).4.5. 场景编辑我们首先在图中的ToyDesk数据集上展示了我们的对象渲染和场景编辑结果。7.第一次会议。如图在图7(c)中,来自对象分支的渲染对象生动地表现出具有尖锐边界的对象,这证明了我们的对象组合设计的有效性。我们通过旋转、移动和复制对象来执行场景编辑,遵循建议的可编辑渲染管道。从图7(b)中,我们可以看到,被操纵的对象被无缝地集成到场景中,同时确保正确的空间关系。然后,我们在ScanNet数据集上将我们的可编辑场景渲染与基于神经点云的渲染方法NPCR [6NPCR采用场景的原始点云的输入并输出新颖视图的图像。在训练期间,NPCR还优化编码场景外观的每个3D点的特征向量。因此,我们通过手动移动点云和目标对象的边界框内的特征向量来执行场景编辑如图8,我们发现对包围盒内点云的操纵也会带来背景纹理的移动(例如,在“0024平移”和“0113旋转”中,椅子下面的窗户和地毯的图案已经移动)在13785Config.ScanNet0033ScanNet 0038PSNR ↑SSIM ↑LPIPS ↓PSNR ↑SSIM ↑LPIPS↓,不带SG、3DGM19.785 0.750 0.111(a) 重建网格(d)图像视图(b)被网格遮挡半径0.05m(e)被边界框掩蔽(c) 被网格遮挡半径0.1m(f)我们的方法表2. 烧蚀我们提出的场景引导,3D保护掩模和对象体素特征学习对象辐射场的有效性。Config.ScanNet0033ScanNet 0038PSNR ↑SSIM ↑LPIPS ↓PSNR ↑SSIM ↑LPIPS↓2019-05 - 24 00:00:00表3. 3D防护罩在学习目标辐射场上的前向距离的定量评估图6.我们比较不同的方法来渲染ScanNet数据集上的单个对象。4.6. 消融研究场景引导和3D防护面罩。我们分析了场景引导和3D保护掩模的有效性,学习- ING对象合成渲染时,目标对象经常被部分遮挡。具体来说,我们选择两个场景(ScanNet 0033和0038),其中目标对象经常被前景家具遮挡。我们首先为每个场景随机选择十个测试视图,并在表2中的渲染对象上定量检查这些策略,其中SG表示场景引导。(a) 图像视图(b) 场景编辑其中,3DGM表示由场景分支提供的偏置采样分布(biased sampling distribution),并且3DGM表示3D防护掩模。实际上,为了在评估期间阻挡背景颜色的影响,我们使用实例分割来掩蔽(c) 渲染对象图7.我们展示了原始图像视图(a),通过在ToyDesk数据集上复制和移动玩具的场景编辑结果(b),以及由对象分支渲染的分解对象(b)。相比之下,我们的方法在保持背景纹理几乎不变的情况下移动对象,这产生了更真实的编辑结果。此外,NPCR在某些情况下也会渲染出带有严重伪影的图像(例如,“0038旋转”中的错误遮挡关系我们猜测它以某种方式用隐式固定的顺序编码3D点的可见性,而不是从3D空间中推断,并且来自对象点和不可见噪声点的混合物顺便说一句,我们还测试了使用稀疏体素的场景编辑,但发现问题类似于基于边界框的方法(图1)。(六)。然而,由于我们独立地输出每个目标对象的辐射场,并且渲染管道还利用了体渲染的优点,因此我们始终产生具有正确空间关系和完整纹理的逼真编辑结果请参阅补充材料,以了解我们编辑结果的更多评估。去除背景并裁剪地面实况和渲染图像以紧密配合对象区域。表2中的结果表明,我们的场景引导和3D防护遮罩显著提高了目标对象的渲染质量此外,我们还在图中显示了视觉比较。9.第九条。由于这些策略,我们可以学习一个完整的对象辐射场,即使目标对象是很少观察到完整的。更多的定性和定量结果见补充材料。在3D防护罩中选择不同的。为了研究3D防护掩模中的不同Φ的影响,我们改变Φ并报告如上所述的对象区域的度量评估从表3中,我们发现ε=0。05实现了更好的渲染质量。因为其他的选择也会产生非常接近的结果,我们相信我们提出的3D防护掩模对ε的选择不敏感。对象体素特征。为了检查图1所示的对象体素特征fobj的有效性。2、我们消融它通过去除在对象分支的输入处的嵌入的FOBJ,并且如我们上面介绍的那样定量地评估对象区域。如表2所示,fobj的设计进一步提高了对象的渲染质量,这表明在3D空间中添加可学习的参数也可以扩展用于合成渲染的网络能力。不含3DGM20.4500.7540.11733.9140.8840.056无对象22.2190.8170.05733.8610.8920.058完成22.6000.8220.04934.4350.8970.056联系我们22.6000.8220.04934.4350.8970.056联系我们22.1720.8180.05334.2990.8960.05613786ScanNet0038旋转ScanNet0113旋转ScanNet0024翻译ScanNet0192翻译ScanNet0113复制图8. 我们通过旋转,平移和复制ScanNet数据集上的对象来比较我们的方法和NPCR [6]的场景编辑(a) 图像视图(b)(c)在没有场景的情况下渲染(d)在没有3D的情况下渲染(e)完整的模型边界框导航和3D防护罩防护罩图9.我们通过在ScanNet数据集的训练过程中消融场景引导和3D防护罩来可视化它们的有效性。注意,(b)由场景分支产生,其中采样光线在边界框内被剪切,并且可以被认为是目标对象的参考完整视图。我们的场景引导和3D防护遮罩有效地防止了遮挡区域的过度破坏,并确保了完整的对象渲染。图中的对象。10个。令我们惊讶的是,即使输入分割是相当粗糙的抖动边缘,我们的方法可以产生一个平滑和准确的分割,一旦训练收敛,同时保留高保真的细节的对象(例如,第一排的椅子把手)。我们相信多视图监督有助于抵抗来自单个视图的掩模噪声,并且从图像中学习的融合3D结构为对象分解提供了几何线索,这也在Zhi的并行工作中观察到等人[30 ]第30段。这揭示了通过所提出的学习管道仅从2D分割网络的知识中5. 结论和未来工作我们提出了第一个神经场景渲染框架,它提供了高保真度的新视图合成,同时支持可编辑的场景渲染在现实世界的场景。通过使用姿势图像和粗略的2D实例掩码进行训练,我们可以自由地利用模型来渲染具有多个对象操作的新颖视图(例如,模型)。移动、旋转或复制)。目前,由于缺乏观察,我们的方法依赖于网络空间平滑度来渲染物体下的不可见纹理,这可以进一步优化。(a)图像视图(b)输入分割(c) 渲染分割(d) 渲染对象采用场景补全方法实现。为了减轻姿态噪声和卷帘快门对图10.我们展示了图像视图(a)、用于监督的输入分割(b)、我们的渲染分割(c)和渲染对象(d)。请放大以了解更多详情。4.7. 渲染分割由于我们的方法仅依赖于2D分割来学习目标对象的分解,因此我们将用于监督的输入分割和我们的渲染分割(2D对象不透明度)以及渲染分割可视化。我们的NPCR编原始视图13787真实世界的数据,我们可以进一步优化相机姿势和光线方向,以便渲染更清晰的背景。此外,为了实现更真实的场景编辑,它也是有希望在未来的工作中集成的场景照明模型的框架。鸣 谢 : 我 们 感 谢 江 汉 青 、 周 立 阳 和 孙 嘉 明 在ToyDesk数据集的场景重建和注释 这项工作得到了中 国 国 家 科 学 基 金 会 ( NSF ) 的 部 分 支 持 。61932003)。13788引用[1] Kara-Ali Aliev , Artem Sevastopolsky , Maria Kolos ,Dmitry Ulyanov,and Victor S. Lempitsky基于神经点的图形。欧洲计算机视觉会议论文集,第696-712页,2020年。2[2] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。PatchMatch Stereo - 支 持 倾 斜 窗 口 的 立 体 匹 配 。 在Proceedings of British Machine Vision Conference,第1-11页2[3] 阿德里安·布罗德赫斯特,汤姆·德拉蒙德,罗伯托·西波拉 。 空 间 雕 刻 的 概 率 框 架 。 在 Proceedings of IEEEInternational Conference On Computer Vision,第388-393页,2001中。2[4] Oliver Cossairt,Shree K. Nayar和Ravi Ramamoorthi。光场转移:真实对象和合成对象之间的全局照明。ACM事务处理图表,27(3):57,2008. 2[5] 戴 安 琪 , 天 使 X. 放 大 图 片 创 作 者 : ThomasA.Funkhouser和Matthias Nießner。ScanNet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第2432-2443页,2017年。5[6] Peng Dai,Yinda Zhang,Zhuwen Li,Shuaicheng Liu,and Bing Zeng.基于多平面投影的神经点云绘制。在IEEE/CVF计算机视觉和模式识别会议论文集,第7827-7836页,2020年。二四五六八[7] Michelle Guo,Alireza Fathi,Jiajun Wu,and ThomasFunkhouser.以对象为中心的神经场景渲染arXiv预印本arXiv:2012.08503,2020。一、二[8] 放大图片作者:David A.福赛斯和德里克·霍伊姆。将合成对象渲染为旧照片。ACM事务处理图表,30(6):157,2011. 2[9] Michael M.Kazhdan , Matthew Bolitho , and HuguesHoppe.泊松曲面重建在2006年欧洲图形学几何处理研讨会,第615[10] 基里亚科斯湾作者:Steven M.塞茨空间雕刻造型理论。国际计算机目视,38(3):199- 218,2000. 2[11] 放 大图 片 作者 : Yiyi Liao , Katja Schwarz ,Lars M.Mescheder和Andreas Geiger。3D可控图像合成生成模型的无监督学习 IEEE/CVF计算机视觉和模式识别会议论文集,第5870-5879页。IEEE,2020年。2[12] Lingjie Liu , Jiatao Gu , Kyaw Zaw Lin , Tat-SengChua , and Christian Theobalt. 神 经 稀 疏 体 素 场 。InProceedingsofAdvancesinNeuralInformationProcessing Systems,Volume 33,2020. 一二三五六[13] Ling jieLiu,WeipengXu,MichaelZoll hoüfer,HyeongwooKim , Florian Bernard , Marc Habermann ,WenpingWang,and Christian Theobalt.人类演员视频的神经渲染和重演。ACM事务处理图表,38(5):139:1- 139:14,2019. 2[14] Shaohui Liu,Yinda Zhang,Songyou Peng,Boxin Shi,Marc Pollefeys,and Zhaopeng Cui.DIST:用可微球追踪在IEEE/CVF计算机视觉和模式识别会议论文集,第2016-2025页,2020年。2[15] 放大图片作者:Stephen Lombardi,Thomas Simon,Jason M.放大图片创作者:Gabriel Schwartz.Lehrmann和Yaser Sheikh。神经体积:从图像中学习动态可渲染体。ACM事务处理图表,38(4):65:1-65:14,2019. 2[16] 纳尔逊湖,加-地最大直接体绘制的光学模型。IEEETrans.Vis. Comput. Graph. , 1 ( 2 ) : 99-108 , 1995.三、四[17] 作者 :Ben Mildenhall,放 大图 片作 者: Jonathan T.Barron,Ravi Ramamoorthi和Ren Ng.NeRF:将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议论文集,第405-421页,2020年一、二、三、四、五、六[18] Michael Niemeyer , Lars M. Mescheder , MichaelOechsle,and Andreas Geiger.可区分的体积渲染:在没有3D监督的情况下学习隐式3D表示。在IEEE/CVF计算机视觉和模式识别会议论文集,第3501-3512页2[19] Julian Ost、Fahim Mannan、Nils Thuerey、Julian Knodt和Felix Heide。动态场景的神经场景图。arXiv预印本arXiv:2011.10379,2020。2[20] Francesco Pittaluga,Sanjeev J.Koppal、Sing Bing Kang和Sudipta N.辛哈通过从运动重构反转结构来揭示场景。在IEEE计算机视觉和模式识别会议论文集,第145-154页2[21] 约翰内斯湖 Schoünbe r ger和Jan-MichaelFrahm. 结构-从运动再访。IEEE计算机视觉和模式识别会议,第4104-4113页。IEEE计算机学会,2016年。二、五[22] 约翰湖Scho¨nber ger,EnliangZheng,Jan-MichaelFrahm,and Marc Pollefeys.非结构化多视图立体的像素视图选择。欧洲计算机视觉会议,第501-518页,2016年2[23] Steven M. Seitz,Brian Curless,James Diebel,DanielScharstein,and Richard Szeliski.多视点立体重建算法的比 较 与 评 价 在 Proceedings of IEEE Computer SocietyConference on Computer Vision and Pattern,第519-528页,2006中。2[24] Steven M. Seitz和Charles R.戴尔基于体素着色的真实感场景重建。IEEE计算机视觉和模式识别会议论文集,第1067-1073页,1997年。2[25] Vincent Sitzmann,Justus Thies,Felix Heide,MatthiasNießne r, GordonWetzstein , andMichaelZoll höfer. 深 度体素:学习持久的3D特征嵌入。在IEEE计算机视觉和模式识别会议论文集,第2437-2446页,2019年。2[26] Vince ntSitzmann,MichaelZollh? fer,andGordonWet-zstein.场景表示网络:连续3D-结构感知神经场景表示 。 在 Proceedings of Advances in Neural InformationProcessing Systems,第1119-1130页一、二13789[27] JustusThies,MichaelZol lhöfer,andMatthiasNießne r. 延迟神经渲染:使用神经纹理的图像合成。ACM事务处理图表,38(4):66:1-66:12,2019. 2[28] 徐青山和陶文兵多尺度几何一致性引导的多视图立体。在IEEE计算机视觉和模式识别会议论文集,第5483-5492页5[29
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功