基于软遮挡多球面图像的高维视图合成

182 浏览量更新于2023-10-26 收藏 2.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15725SOMSI：基于软遮挡多球面图像的Tewodros Habtegebrial*<$ Christiano Gava*<$ Marcel Rogge*< $Didier Stricker*<$Varun Jampani*TU Kaiserlestern<$ DFKI Google Research摘要球面新视图合成（SNVS）是在给定的一组动态新视图上估计360个球面新视图的任务的360个输入视图。现有技术学习多球体图像（MSI）表示，其实现快速渲染时间，但仅限于对低维颜色值进行建模。在MSI中建模高维外观特征可以产生更好的视图合成，但是在大量（> 64）MSI球体中表示高维特征是不可行的。我们提出了一种新的 MSI 表示法，称为软遮挡 MSI（SOMSI），使建模，elling高维外观功能的MSI，同时保留快速渲染时间的标准MSI。我们的关键见解是在一个较小的集合（例如，3）闭塞水平而不是更大数量的MSI水平。在合成场景和真实场景上的实验表明，使用SOMSI可以在准确性和运行时间之间提供良好的平衡。与基于MSI的 MODS [1]相比，SOMSI可以产生相当好的结果SOMSI视图合成质量与最先进的NeRF [24]类模型相当，同时快2个数量级。有关代码、其他结果和数据，请访问https：//tedyhabtegebrial.github.io/somsi网站。1. 介绍低成本360°全景成像设备的出现使球形图像成为3D场景的标准表示选择，而不是使用艺术家或深度传感器进行更昂贵的3D建模球形图像被广泛用于捕获和可视化场景的360°全景视图，在虚拟旅游、导航、广告等中具有若干应用。然而，单独的球形图像仅提供有限的观看体验，仅具有围绕中心的旋转用户导航（平移）通常通过捕获多个球形图像来实现，从而允许用户从一个跳球形新视图合成（SNVS）是估计360个中间视图的任务，使得在场景中无缝连续用户导航成为可能。看到图1（左）是问题设置的示例说明。实际的SNVS系统将具有以下性质：1.在新视图中高质量地合成无遮挡内容和视图相关效果，2.快速使能场景中实时用户导航的合成定时器和，3。低内存消耗，可在VR头显等移动硬件上运行SNVS。满足所有这些属性是相当具有挑战性的。当前SNVS技术基于多球体图像（MSI）表示[1，4]。MSI可以被看作是多平面图像（MPI）[32，37]的球面扩展，其被广泛用于常见透视图像的视图合成。更具体地，MSI将场景表示为以参考点为中心的一组纹理球体使用MSI的一个主要优点是，使用标准渲染软件渲染球体非常有效。渲染的简单性和与图形软件的无缝集成使MSI成为实时渲染应用程序的一个有吸引力的选择。另一方面，当前的基于MSI 的技术，例如MatryODSHkha（MODS）[1]，在合成的新视图中遭受不令人满意的质量。坐标多层感知器（CMLP）的使用正在彻底改变新颖视图合成领域，具有非常高质量的结果，例如NeRF[24]。基于CMLP的技术的一个关键缺点是需要大量的训练视图以及缓慢的渲染。最近的几项工作试图在不同方面改进NeRF类技术：提高渲染速度[13，19，26]，建模反射特性[3]，使用野外图像[23]，重新照明[30]，在场景中泛化[36]等。即使可以将NeRF类技术用于SNVS任务，渲染新的360°全景视图也会非常慢。几种提高NeRF渲染速度的并发技术[13，19，26]要么特定于透视图像，要么没有证明它们在SNVS任务中用于球面图像。在这项工作中，我们提出了一种新的SNVS技术，提供了一个很好的权衡不同的有利属性：高质量的视图合成和快速运行时，低内存要求。在[1]之后，我们还使用MSI表示进行快速渲染。[1]第一章15726O ××O × ×O × ×新奇的观点误差图输入和保持球形视图SOMSI（Ours）MODS S-NeRF图1. 使用SOMSI进行高质量视图合成。（左）场景的示例输入和保持出的目标球面视图的图示。（右）SOMSI（Ours）、MODS [1]和S-NeRF [24]的合成新视图和相应的错误图。学习CNN，该CNN将球形图像作为输入并产生MSI表示，其中每个分层球体中的每个点都具有RGB颜色和与之关联的alpha值最近几个关于视图合成的MPI作品[17，21，34]展示了在MPI平面中使用高维学习在这些方法和坐标MLP之后，我们提出使用坐标MLP来学习从本质上讲，我们结合了坐标MLP与MSI表示的优势，从而实现了高质量和快速的运行时（渲染）。在MSI中表示每个点处的高维特征的关键问题例如，在d中表示f维特征（通常>64）具有m个点的球体，每个点导致存储器复杂度为（米）Df）的方法。由于360°球面图像中的点的数量m通常很高，因此存储器如果我们在每个MSI球体中表示高维特征，复杂性将高得令人望而却步。我们认为，在MSI球体中表示密集的功能是多余的，因为大部分的3D空间是空的。作为一种补救措施，我们提出了一种新的MSI场景表示，场景外观和几何形状被分解为两个独立的数据结构。我们称这种新的 MSI 表示为软闭塞 MSI（SOMSI）。SOMSI用标准MSI数据结构表示场景几何，而场景外观表示为一组分层的2D特征图。SOMSI中的关键是使用一个较小的场景特定遮挡级别集，而不是一个较大的预定义MSI球体集。从本质上讲，SOMSI表示需要（m d k）内存，用于使用软遮挡蒙版的场景几何建模，（米）Kf）用于表示场景外观特征的存储器，其中k表示遮挡级别的数量。这一战略规模更大-在具有增加的特征维度的记忆方面，因为与MSI中的球体（通常d >64）相比，遮挡水平的数量显著更低（在我们的情况下k=3）。我们还提出了一种新的SOMSI渲染公式，lation，允许快速渲染新的意见一样，与标准MSI表示。我们证明了我们的SOMSI技术的有效性与合成和现实世界的场景的结果。图1示出了输入和保持出的球形视图的示例以及不同技术的示例结果。结果表明，我们的方法可以大大优于基于MSI的技术[1]。我们的方法可以产生与NeRF [24]技术（S-NeRF）的球面自适应相当的高质量新颖视图，同时快2个或多个数量级，渲染时间接近MSI技术[1]。我们做出以下贡献：• 我们提出了一种新的软遮挡球面多球体（SOMSI）表示，可以有效地缩放，以编码高维场景外观特征MSI表示使用可学习的遮挡层。• 我们提出了一种有效的方法来呈现新的意见，从学习SOMSI表示。• 我们的方法有效地将不同技术的优势与高质量视图合成结合起来，该视图合成与隐式体积表示[24]相当，同时具有与标准MSI表示类似的快速运行时间[1]。2. 相关工作视图合成研究在计算机视觉和图形学中有着悠久的历史，从Chen和Williams [8]中的图像空间变形、光场渲染[20]、Lumigraphs [5，15]以及随后的多视图的开创性工作？15727i=1我∈×∈联系我们∈ − ∈−D我我J--立体重建技术[6，7，10，14，18]。在这里，我们简要回顾了相关的基于学习的技术。单位球体及其在ERP上的像素位置如下所示：θ ϕ新视图合成。最早的基于学习的IBR技术之一是Flynn等人的DeepStereo方法。[12 ]第10段。DeepStereo训练CNN从输入平面扫描体积中产生新颖的视图。基于学习的IBR研究的一个重要里程碑是由Zhou等人重新引入的多平面图像（MPI）。[37 ]第37段。的u=w（1−2π），v=hπ，（1）其中x轴指向屏幕，y轴向左，z轴向上;笛卡尔点x=[x，y，z]T转换为球面坐标xs=[θ，θ，r]T，如下所示：MPI的视图合成功能已被推向前所未有的高度01 - 02 -2016刘晓波（yz）n=acos（xr ）R=X2+y2 +z2。（二）DeepView [11]技术。 DeepView com-通过学习的基于梯度下降的优化来优化MPI场景表示，以呈现具有挑战性的真实世界场景的高度准确的新颖视图。MPI模型视图依赖效应的最新扩展[35]。最近，神经辐射场（NeRF）[24]技术使用坐标多层感知器对给定场景进行建模，从而产生非常高质量的视图合成结果。NeRF通过执行标准的体积渲染来渲染场景。然而，渲染体中每个点的可见性和颜色信息是通过调用训练的MLP来确定的，这是耗时的。球形视图合成。单球面图像或全景立体不能提供视差，因为头部移动（平移）是不可能的。在几个作品中研究了使用运动视差渲染全景场景[2，22，29]。“按需”合成新视图是通过允许头部移动来增强用户体验的关键。Broxton等人[4]通过将DeepView [11]的MPI公式扩展为多球体图像（MSI）表示，提出了一种轻量级沉浸式光场视频渲染技术此外，使用MSI球体的稀疏集，以创建可以在移动和Web平台上渲染的轻量级分层网格表示与Bronxtonet al. [4]，MODS [1]技术显示了MSI用于360mm视图合成的有效性。MSI是SNVS的一个有吸引力的选择，因为它们支持使用标准渲染软件进行实时渲染。在本文中，我们建立在MSI场景表示，并提出了一种新的MSI representation，可以更有效地建模高维外观特征。3. 预赛球面图像表示。球形图像是从空间中的单个点捕获整个可见场景的环境贴图。换句话说它通过首先用等式2获得xs=[θ，θ，r]T，然后通过等式1将xs映射到ERP位置[u，v]T，可以将3D中的Carnival点x投影到ERP上。多球图像（MSI）。这是SNVS最常用的表示法[1，4]。 MSI可以被视为在视图合成文献中广泛使用的多平面图像（MPI）的球形扩展[32，37]。MSI由一组同心RGBα球体组成。使用球体来表示场景可以实现实时渲染，并且可以轻松与Unity3D [16]和Blender [9]等常见渲染软件集成。这使得MSI非常适合下游VR应用。形式上，MSI是一组半径为rid的同心球体，其中每个球体表示球形图像。通过对预定义的近r近和远r远值之间的逆深度范围进行线性采样来设置ri值。MSI中的每个d球体都具有透明度α[0，1]m×1和颜色C[0，255]m×3，其中m = hw是球面图像的像素分辨率，并且d是球的数量。球体的数量控制场景表示的保真度和计算成本（渲染时间和内存）之间的权衡。增加d会产生更高的保真度，但需要更多的计算能力，并导致渲染速度变慢这些球面图像可以用球面坐标或2D ERP平面以3D表示。MSI渲染。图2示出了以参考视图r为中心的MSI球体的图示。假设我们想从一个新的视图中心t渲染一个球形图像，我们从目标中心发射光线，并沿着交点w.r.t.对颜色进行alpha合成。参考视图MSI球体。具体地，对于样本射线方向（对应于目标ERP中的位置p=[u，v]T），我们首先计算射线交叉点xpR3，i1，.，d与d MSI球体使用标准球体射线相交技术[25]。然后我们记录MSI透明度，◦在这些交叉点上的颜色值：{（αp，Cp）}d。包括360 ×180周围的全景最后的颜色Pi i i=1相机的声音球面图像通常存储在目标射线p的C通过下式计算将Cps与αps以从后到前的方式合成（也作为尺寸为h×w的2D像素图，等矩形投影（Equirradular Projection，ERP）每个ERP像素p=[u，v]T，其中u[0，w1]，v[0，h1]，对应于单位球面[θ，θ，1]T上的一点，球坐标上的一个点与称为α组成）：C p=<$α pC pY（1 − α p）。（三）i=1J I15728∈O × ×联系我们∈∈∈对目标视图中的所有光线方向进行相同的处理，以获得目标位置处的最终新视图球面图像。由于这个过程是可并行的，因此使用GPU来快速渲染新视图是很简单的。还可以将MSI球体导出为纹理网格，以利用标准渲染引擎进行实时新颖视图渲染。4. 方法问题. 我们解决了非结构化球面光场插值问题，也称为球面视图合成：给定一组在场景中不同位置捕获的360个通常，我们方法的输入是一组n个球面图像，I iRm×3;i1、…n每个具有m个像素，以及它们的SE（3）相机姿态，PRn×3×4。给定一组构成的球形图像，我们学习一个场景表示，从中可以动态地渲染新的视图从目标相机构成。图3说明了我们的球形新视图合成（SNVS）技术的概述我们考虑一个输入相机姿势作为参考和优化的坐标MLP网络，学习估计一种新的场景表示称为然后，我们可以使用该表示在目标位置处动态地从该场景表示渲染新颖的视图接下来，我们将描述SOMSI表示以及如何从该表示中呈现新颖的视图。4.1. 软闭塞MSI（SOMSI）动机即使标准MSI表示在渲染速度方面是有效的，但它限于每个MSI球体中的低维RGB外观。最近关于视图合成的工作[17，21，34]表明，用高维深度特征而不是简单的RGB颜色来表示3D场景中的外观是有益的。在每个MSI球体处表示更高维特征是存储器密集型的，因为在每个MSI球体中的每个点处表示f维特征导致（m df）的存储器复杂度，这即使对于f>10的中等值也是不可行的。在这项工作中，我们提出了一种新的MSI表示称为软遮挡MSI（SOMSI）的规模更好地增加外观特征维数。我们的技术的关键是解耦外观功能从场景几何MSI表示。在SOMSI中，我们使用图2. SOMSI渲染。在参考视图中的SOMSI场景表示中的SO-几何和SO-外观平面的插图。渲染目标光线P涉及计算预期目标光线终止和预期遮挡水平，使用其我们可以合成外观特征以估计最终目标光线颜色。遮挡外观特征。SOMSI 代表。如示于图 2 、 SOMSI 表示有两组ERP：SO-几何和SO-外观。SO-外观由软遮挡外观特征SRm× k × f组成，其中f表示颜色/外观描述符的大小，k表示遮挡层的数量。k个ERP中的每一个表示特定遮挡层处第一个ERP表示参考视图中所有可见表面的外观;第二个ERP表示可见表面后面的被遮挡表面的外观，第三个ERP表示进一步被遮挡的表面等。简而言之，SO-外观表示与标准MSI表示中的大量（d > 32）ERPs相比具有小得多的遮挡层集合（k =3）的场景外观特征。另一方面，SO-几何体使用所有d球体表示场景SO-几何由多球折射率αRm×d和软掩模βRm×d ×k组成。正如名字所表明的那样，反括号α表示球面括号，就像标准MSI表示一样。沿着射线/像素1p的第i个球体处的3D点的k维软遮挡掩模βp标准MSI ERP，用于表示几何形状和软occlu-ip并使用一小组遮挡层/ERP来表示表示柔化中该3D点xi的遮挡级别方式例如，βp[0，1，0]表示xp属于厌恶外貌特征。我们的主要观点是，MSI球体中的点是空的，我们可以用一组更小的1注意：我们通常将像素称为射线，因为ERP像素对应于特定的射线方向。SO-几何学p×G←xppD××.D.Xp DX轴Xp 2Gp˜××Gp2×Xp1×G←xp不p1 1R···预计射线终止MSI球好的SO-外观外观组合物目标射线颜色MLP预期闭塞软闭塞多球图像（SOMSI）···15729我O × O×DO × ×∈我联系我们我i=1我i=1pβ=<$α βY（1− α）。（五）--D图3. 方法概述。我们学习了一个MLP，它从多分辨率参考视图图像中获取球形位置和颜色，并估计SOMSI场景在这些位置的表示然后，我们可以有效地渲染新的视图图像从学习的SOMSI。到第二闭塞水平即，被一个可见的表面所遮挡，这些点xp中的每一个都具有对应的2D点，脸上软遮挡掩模β提供以下关联：我SO-带位置的Gp∈R2，trans-SO几何和SO外观中的平面SO-几何参数αp和软咬合βp如图2所示。这些和SO-外观平面的内存复杂度为我点{Gp}d我位于参考视图中的核线上（米）Dk）和（米）Kf）分别。由于k <24。该观察结果与最近关于透视图像的视图合成研究[17，34]一致。这些结果表明，使用高维特征来模拟MSI中的外观细节，而不是常用的RGB值，从而证明了我们需要高效的SOMSI表示。与使用标准MSI表示来表示外观特征相比，使用SOMSI表示使得增加外观特征尺寸而不引起表3示出了具有不同数量的遮挡等级k的视图合成度量。我们注意到，与使用2个级别相比，使用3个级别的性能有所提高。使用更多的闭塞水平并没有显示出任何显着的性能改善。这表明3个遮挡水平通常足以在SOMSI表示中表示场景。MSI中的特征（外观特征或反射系数或两者）与仅RGB颜色值相比。局限性。我们的技术的局限性之一是，场景表示网络是独立优化不同的场景。这假设每个场景有足够数量的训练视图，这在实践中可能对某些场景不可用一个更实用的方法是事先学习一个在不同场景下工作的网络数据集先验等学习中的一个主要挑战是，不存在具有不同场景的大规模球形图像数据集来学习有意义的先验。社会影响。考虑到低成本的球形成像和VR设备的出现，我们设想我们的SNVS技术将用于几个现实世界的应用，如虚拟旅游。由于我们是按场景训练网络的，因此与在大规模数据集上学习的网络相比，我们的方法不太容易出现数据集偏差。k=2k=3k=5场景PSNR ↑SSIM ↑PSNR ↑SSIM ↑PSNR ↑SSIM↑海港27.30 0.809 27.32 0.813 27.44 0.81436.51 0.977 37.13 0.979 36.78表3. 闭塞水平的消融。仿真结果表明，3个遮挡层次足以表示场景，并获得高质量的视图合成结果。由于计算资源有限，这里我们只使用了前3个场景。f=3f=12f=24场景PSNR↑SSIM↑PSNR↑SSIM↑PSNR ↑SSIM↑住宅36.960.94336.820.94437.01 0.946副本38.750.98038.970.98140.230.986咖啡区1，232.330.87332.440.87332.480.872海港27.270.80227.550.82227.670.825表2. 外观特征维度f的消融。Metrics表明，更高的特征尺寸会导致更好的性能，从而证明需要我们的SOMSI技术，可以有效地表示更高维度的外观特征与闭塞层，而不是一套完整的MSI层。查看相关效应。对于Coffee Area中具有镜面反射对象的两个场景，我们尝试在SO外观中学习反射系数，如第4.1节末尾所述。表4示出了具有不同数目的反射系数的两个咖啡区场景上的PSNR和SSIM度量。实验结果表明，反射系数越大，合成效果越好.即使这不是一个令人惊讶的结果，这进一步证明了学习更高维度的用途。表4. 反射系数e的数目对视相关效应的影响。图3展示了使用更高数量的反射系数，进一步强调了在MSI表示中建模更高维特征的必要性6. 结论在这项工作中，我们提出了一种新的多球体表示称为SOMSI，可以有效地模拟高维外观特征MSI表示，通常用于球形新的视图合成。关键是在遮挡层而不是完整的MSI 球体中表示特征我们提出了一种新的SOMSI渲染方案，保留了标准MSI表示的快速渲染，同时产生高质量的视图合成。SOMSI还使用NeRF技术产生同等的结果，同时快2个数量级。确认我们感谢绪方是隆和横田宗一郎准备了住宅区的场景。e=1e=4e=6场景PSNR ↑SSIM↑PSNR ↑SSIM ↑PSNR ↑SSIM ↑咖啡区-333.66 0.89135.860.902咖啡区-430.49 0.86530.610.86915733引用[1] Benjamin Attal ， Selena Ling ， Aaron Gokaslan ，Christian Richardt和James Tompkin。Matryodshka：使用多球体图像的实时在欧洲计算机视觉会议（ECCV），第441- 459页，2020年。一二三六七[2] Tobias Bertel ， Neill DF Campbell ， and ChristianRichardt. Megaparallax：具有运动视差的360°随意视差IEEEtransactionsonvisualizationandcomputergraphics，25（5）：1828-1835，2019。3[3] Mark Boss，Raphael Braun，Varun Jampani，Jonathan TBar- ron，Ce Liu，and Hendrik Lensch.Nerd：来自图像集合的神经反射分解。在IEEE计算机视觉和模式识别会议（CVPR），第12684-12694页1[4] 迈克尔·布罗克斯顿、约翰·弗林、瑞安·奥弗贝克、丹尼尔·埃里克森、彼得·海德曼、马修·杜瓦尔、杰森·杜尔加里安、杰伊·布施、马特·惠伦和保罗·德贝维克。具有分层网格表示的沉浸式光场视频。ACM Trans-actionson Graphics，39（4）：86-1，2020。第1、3条[5] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。ACM SIGGRAPH，2001年。2[6] 高尔河乔拉西a，西尔瓦因公爵，OLG A索金-霍农和乔治·德雷塔基斯。深度合成和局部扭曲的合理图像为基础的导航。ACMTrans- actions on Graphics，2013年。3[7] Gaurav Chaurasia、Olga Sorkine和George Drettakis。基于图像渲染的轮廓感知扭曲。在2011年的Eu-rographicsSymposium on Rendering3[8] 申昌Eric Chen和Lance Williams。视图插值和灰图像合成。ACM SIGGRAPH，1993年。2[9] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。3[10] Martin Eisemann 、 Bert De Decker 、 Marcus Magnor 、Philippe Bekaert、Edilson De Aguiar、Naveed Ahmed、Christian Theobalt和Anita Sellent。浮动纹理。在计算机图形论坛，第 27 卷，第 409-418 页。 Wiley OnlineLibrary，2008. 3[11] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。DeepView：使用学习的梯度下降进行视图合成。在IEEE计算机视觉和模式识别会议（CVPR），2019。3[12] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. Deepstereo：学习从世界图像中预测新视图在IEEE计算机视觉和模式识别会议论文集，第5515-5524页，2016年。3[13] Stephan J Garbin，Marek Kowalski，Matthew Johnson，Jamie Shotton，and Julien Valentin.Fastnerf：200fps的高保真神经渲染。arXiv预印本，2021年。1[14] Michael Goesele、Jens Ackermann、Simon Fuhrmann、Carsten Haubold 、 Ronny Klowsky 、 Drew Steedly 和Richard Szeliski。用于视图插值的环境光点云15734lation. ACM SIGGRAPH 2010论文，第1-6页。2010年。3[15] Steven J Gortler 、 Radek Grzeszczuk 、 RichardSzeliski和Michael F Cohen。光显仪。在Proceedingsof the 23rd annual conference on Computer graphicsand interactive techniques，pages 43-54，1996中。2[16] 约翰·哈斯Unity游戏引擎的历史。2014. 三、七[17] Tewodros Habtegebri

下载后可阅读完整内容，剩余1页未读，立即下载