没有合适的资源?快使用搜索试试~ 我知道了~
1输入图像我们的无BG小说观我们小说观3D照片小说观SLIDE:具有软分层和深度感知修复的Varun Jampani*,Huiwen Chang*,Kyle Sargent,Abhishek Kar,Richard Tucker,MichaelKrainin,Dominik Kaeser,William T.Freeman,David Salesin,Brian Curless,Ce LiuGoogle Research图1:SLIDE的外观细节。视图合成结果显示,与3D-Photo相比,SLIDE(Ours)中的头发结构保留得更好[31]。我们还展示了新颖的视图(我们的无BG),其中背景(BG)层是灰色的,以展示我们的软分层。有关视图合成结果的更好说明,请参阅补充视频。摘要单幅图像3D摄影使得观看者能够从新颖的视点观看静止图像。最近的方法将单眼深度网络与修复网络相结合以实现令人信服的结果。这些技术的缺点是使用硬深度分层,使得它们无法对诸如薄的毛发状结构的复杂外观细节进行建模。我们提出了SLIDE,一个模块化和统一的系统,单图像三维摄影,使用一个简单而有效的软分层策略,以更好地保存外观细节,在新的意见。此外,我们提出了一种新的深度感知的训练策略,我们在绘画模块,更适合于3D摄影任务。由此产生的SLIDE方法是模块化的,使得能够使用其他组件,如分割和垫,丁改进分层。同时,SLIDE采用了高效的分层深度公式,只需通过组件网络进行一次向前传递,即可生成高质量的3D照片。对三个视图合成数据集进行的广泛实验分析,结合对野外图像采集的用户研究,证明了我们的技术与现有强基线相比的卓越 性 能 , 同 时 在 概 念 上 简 单 得 多 。 项 目 页 面 :https://varunjampani.github.io/slide*同等贡献。1. 介绍静止图像仍然是捕获、存储和共享视觉记忆的流行选择,尽管在更丰富的捕获技术(诸如深度和视频感测)方面取得了进步。最近的进展[34,39,26,31,16,17]显示了如何仅通过交互式地改变相机视点,即使没有场景移动,也可以“赋予生命”这样的2D图像,从而创建更吸引人的3D观看体验。在最近的作品之后,我们使用术语“单图像3D摄影”来描述将2D图像转换为3D观看体验的过程。单幅图像3D摄影是相当具有挑战性的,因为它需要从单幅图像估计场景几何形状,以及在移动相机时推断出所分离的场景内容。针对该问题的最新技术可以大致分为两种方法-模块化系统[26,31]和单片网络[34,39]。模块化系统[31,26,16,17]利用最先进的2D网络,如单图像深度估计,2D修复和实例分割。考虑到在大规模2D数据集上通过深度学习推动的单目深度估计[29,21,20]和内绘[40,41]的最新进展,这些模块化方法已被证明在野外图像上工作得非常好这些模块化方法的关键组成部分是基于深度不连续性将场景分解成一组层场景通常被分解为一组具有硬不连续性的层,因此无法对软外观效果(如1251812519作为垫子。参见图1(右),了解来自3D-Photo [31]的示例新视图合成结果,3D-Photo [31]是最先进的单幅图像3D摄影系统。相比之下,单片方法[34,39]试图使用多视图图像数据集上的视图合成损失来学习端到端可训练网络。这些网络通常将单个图像作为输入并产生场景的3D表示,例如点云[39]或多平面图像[34],从中可以从不同的相机视点交互地渲染场景。由于这些网络通常将场景分解为一组软3D层[34]或直接生成3D结构[39],因此它们可以模拟外观效果,例如抠图。尽管是优雅的,这些网络通常表现不佳,同时推断未被遮挡的内容,并且难以推广到训练分布之外的场景,这是一个相当大的限制,因为难以在广泛的场景类型上获得多视图数据集。在这项工作中,我们提出了一个新的3D摄影方法,使用软分层和深度感知修复。我们将我们的方法称为我们的关键技术是一个简单而有效的软分层计划,可以incorpo- rate复杂的外观效果。参见图1 的SLIDE(Ours)的示例视图合成结果,其中薄的毛发结构被保留在新视图中。此外,我们提出了一个RGBD修复网络,在一个新的深度感知的方式进行训练,由此产生的SLIDE框架是模块化的,并且允许容易地并入最先进的组件,例如深度和分割网络。SLIDE使用一个简单的两层分解场景,只需要一个单一的向前通过不同的组件。这与最先进的方法[31,26]形成对比,最先进的方法是模块化的,并且需要通过一些组件网络的几个通道此外,SLIDE框架中的所有组件都是可区分的,并且可以使用深度学习工具箱中的标准GPU层来实现,从而产生统一的系统。这也使我们的SLIDE框架更接近单网络方法。我们在这项工作中做出了以下贡献:• 我们提出了一个简单而有效的软分层公式,使合成复杂的外观细节,如薄的头发状结构在新的视图。• 我们提出了一种新的深度感知技术,用于训练3D摄影任务的修复网络。• 由此产生的SLIDE框架是模块化的和统一的有利的属性,如只需要一个单一的向前计算,有利的运行时间。• 在四个不同的数据集上进行的大量实验证明了SLIDE在定量指标和用户研究方面的卓越性能2. 相关工作经典的优化方法已应用于视图合成任务[13,18,27],但最新的方法是基于学习的。一些作品[8,15]已经独立地预测了新颖的视图,但是为了实现输出视图之间的一致性,优选的是预测可以生成许多输出视图的场景表示。这样的表示包括点云[39,24]、网格[31]、分层表示(诸如分层深度图像[30,35]和多平面图像(MPI)[44,7,32])以及隐式表示(诸如NeRF[25,23,5])。视图合成中的许多研究都集中在多个图像之间的插值任务上,但与我们的工作最相关的是专注于从单个图像外推的非常具有挑战性的任务的方法。单一网络方法。对于窄基线,Srini- vasanet al.直接预测4D光场[33],而Li和Kalantari [19]将光场表示为两个可变深度MPI的混合。对于较大的基线,单视图MPI[34]将MPI表示应用于单个图像情况,并且SynSin [39]使用点云并应用神经渲染阶段,这使得它能够在原始相机截头体之外生成这些基于学习的方法被端到端地训练,其中来自新视点的保持的视图被用于经由重构损失的监督。训练数据可以从光场相机[19,33]或多相机装备[7]获得,或者从照片集[24]或静态场景的视频[44]中获得。这些方法的一个关键缺点是它们对野外图像的泛化能力差深度3D摄影单图像3D摄影的另一种方法是构建将深度预测和修复模块与3D渲染器组合的系统对于来自单个图像的深度估计,存在各种基于学习的方法[6,21,10MiDaS系统[29]通过对来自3D电影[29]以及其他深度数据集的帧进行训练来实现出色的结果。用于修复的非基于学习的方法应用补丁匹配和混合[2,14]或扩散[4,38],但是由于可以简单地通过观察输入图像的随机部分来生成任意量的训练数据最近的方法提出用上下文注意力机制(如DeepFill的门控卷积[41,42]或相干语义注意力层[ 22 ])来增强卷积网络,并将基于补丁的另一个最近的工作,HiFill [40]采用基于残差的方法来修补甚至非常高分辨率的图像。在3D摄影的上下文中,修复通常将对比简单图像更复杂的表示进行操作,并且系统可能需要修复深度以及纹理。Shih等人的方法。[31]介绍12520软最终聚集可见性FG层(RGBDA)我* 不输入图像视差小说观软解除遮挡(Inpaint遮罩)BG层(已修复RGBD)1. 深度估计2.软分层3. 深度感知修复4.分层渲染D~I~SD我DI×A一图2:幻灯片概述。SLIDE是一个用于3D摄影的模块化和统一的框架,由深度估计,软分层,深度感知RGBD修复和分层渲染四个主要组件组成。此外,可以可选地使用前景阿尔法遮罩(在该图中未示出)来改进分层。分层深度图像格式的扩展。该系统,TEM执行多个修补步骤,其中边缘和深度,以及图像,在不同的图像修补。Niklaus等的系统。[26]在渲染的新图像上执行修补,并将修补的内容投影回点云中以增强其表示。后一种系统还增加了额外的网络以细化估计的深度,并结合了实例分割以确保场景中的人和其他重要对象不跨越深度边界。这些系统有些复杂,需要同一网络的多次通过(例如,修补)。如前所述,这些方法的另一个关键缺点是分层是困难的,并且不能在层中结合复杂的外观效果我们的方法遵循的深度加修复范例,但操作上的一个简单而有效的两层表示,使软外观效果的纳入。此外,由于我们简单的两层软公式,我们只需要一个单一的前向通过不同的组件网络;因此,当它是模块化的时,它可以被认为是单个统一网络。3. 方法幻灯片概述。如图2所示,我们的3D摄影方法SLIDE具有四个主要组件:1.单目深度估计,2.软分层,3.深度感知RGBD修复,以及4.分层渲染。 从对于给定的n个像素的静止图像I∈Rn×3,我们首先估计深度D∈Rn。然后,我们通过我们的软分层公式将场景分解为两层,其中我们以软的方式估计前景(FG)像素可见性A∈Rn和绘画中的掩模S∈Rn使用这些,我们用输入图像构建前景RGBDA层年龄I、其对应的视差D和像素可见性图A;以及RGB图像I~和经修复的视差图D~ 。然后,我们从两个视差图构造三角形网格,其中I和A用于前景,I~用于背景,将每个渲染到目标视点中,并且在背景渲染上合成前景渲染此外,我们还可以选择使用前景alpha蒙版来改善分层效果,因为我们的软分层可以轻松地合并alpha蒙版。3.1. 单目深度估计给定具有n个像素的RGB图像I∈Rn×3,我们首先使用CNN估计视差(逆深度)图D∈Rn×1我们使用公开发布的MiDaS v2 [29]网络用于单目逆深度预测的ΦD具体而言,MiDaS模型在大量不同的数据集上进行训练,以实现零激发交叉数据集传输。它提出了一个原则性的数据集混合策略和一个强大的规模和移位不变的损失函数,导致预测的视差映射到一个未知的规模和移位因子。ΦD的最终输出是归一化视差图D∈[0,1]n,然后在幻灯片的后续部分中使用渠道.为了减少丢失的前景像素和分层中的噪声(第3.2节),我们做轻微的高斯模糊和最大池视差图。在我们的框架中可以使用任何其他我们选择MiDaS是因为它在不同类型的图像中具有良好的泛化能力。3.2. 软分层SLIDE的一个关键技术贡献是以软方式估计如图2所示,分层还连接了深度和修复网络,使其成为SLIDE的关键组件。我们的软分层有两个主要组成部分:1.估计前景层的软像素可见性,以及2.估计用于背景RGBD修补的软去遮挡图。12521无最终聚集可见性有最终聚集可见性图3:前景像素可见性。 在没有像素可见性的情况下渲染RGBD层(左)会导致拉伸三角形,而在具有像素可见性的情况下渲染(右)可以看到背景(在这里用黑色像素当摄像机四处移动时,有可能被分离(不)遮挡和视差之间的关系是众所周知的[3,37,36],我们利用这种关系从估计的视差计算软不遮挡。这些现有技术中的视差-遮挡关系是在立体图像设置中导出的,其中我们具有度量视差,并且遮挡是相对于第二相机定义的在我们的情况下,我们只有相对深度(视差),但是我们仍然可以假设一些最大相机移动,并且引入可以相应地缩放视差的标量参数。考虑图4(左)中长颈鹿头部后面的像素位置(x,y)如果存在邻域像素(xi,yj),其相对于(x,y)处的前景像素的视差差大于这些像素的位置之间的距离,则该背景区域具有被前景分离的可能性更具体地说,如果满足以下条件,则(x,y)处的背景像素将被消除:具有视差软遮挡软遮挡的图像(xi,yj).D(x,y)-D(xi,yi)>ρK(xi,yj)Σ、(二)图4:软脱位和闭塞。 在每个点(x,y)在图像中,我们比较视差差异其中ρ是缩放奇偶性差异的标量参数会议。 K(x,y)=(xi−x)2+(yj−y)2是以计算软DIS-ij遮挡和遮挡贴图。软最终聚集像素可见性。我们估计每个图像像素处的可见性,这使我们能够在渲染新视图图像时看到背景层。图3(左)示出了单个RGBD层,由给定(xi,y,j)到中心像素位置(x,y)之间的距离。更简单地说,背景像素更可能是如果该点处的前景视差高于周围区域的前景视差,则消除该点处的前景视差。对于我们的软分层公式,我们将上述阶跃函数转换为软版本,从而产生软解遮挡贴图S∈[0,1]n:RGB图像和相应的估计的视差,作为纹理三角形网格渲染到一个新的观点。S(x,y)=tanh..γmax(xi,yj)D(x,y)−D(xi,yj)拉伸伪影出现在深度不连续处。为了处理这些伪影,我们构造了一个可见性图A,它−ρK(xi,yj)ΣΣ、(3)在深度不连续处- 稍后允许我们通过这些不连续性看到(修复的)背景层。更正式地,给定给定图像I的估计视差图D,我们将FG像素可见性图A∈[0,1]n计算为:A= e − β||D||第二条第一款其中是Sobel梯度算子,β∈R是标量参数。因此,像素可见度与视差梯度幅度成反比地变化。低FG可见性(A≈0)对应于高FG像素透明度。图3(右)示出了像素可见性图A乘以原始渲染的新视图渲染;黑色区域表示前景层中现在透明的区域。请注意,以柔和的方式对该FG可见性进行建模允许SLIDE轻松地将基于分割的柔和alpha蒙版合并到分层中,如我们在第3.3节中所讨论的。软咬合。除了前景可见性之外,我们还需要构造一个遮罩来引导背景层中的修复。直观地说,我们需要对其中γ是控制tanh激活的陡度的另一标量参数。此外,我们在tanh之上应用ReLU激活以使S为正。 用上述等式计算S需要计算图像中的所有像素对之间的成对视差差。由于这在计算上是昂贵的,所以我们将视差差计算约束到固定邻域(m个像素)((xi,yj)∈ N(x,y),其中N是(x,y)的m个像素邻域)。对于m的合理值(>30),这在计算上仍然是昂贵的。因此,我们将视差差计算限制在水平和垂直扫描线,如图4(左)中的红线所示我们实现成对的视差差异,也沿水平和垂直的邻域与有效的卷积运算的视差和像素坐标图的像素距离。这导致使用标准深度学习层的分解图的有效前馈计算。为了效率,我们还可以在下采样的视差图上计算去遮挡图,然后将得到的图上采样到期望的分辨率。图4(中)显示了软分离图12522一FDeCB图像视差仅基于深度的前景Alpha哑光仅软最终聚集可见性基于蒙版软最终聚集可见性深度和蒙版图5:使用Alpha遮罩进行分层。基于深度的FG可见性(c)不能捕获毛发状结构。基于FG阿尔法遮片(d)计算FG可见性(e)并且然后将其并入可见性中可以捕获精细细节(f)。这是用这种技术估计的。以类似的方式,我们通过将等式中的' > '替换为' '来获得如图4(右)所示的软遮挡映射S∈[0,1]n2和modi-fying方程3相应的我们在修复训练中使用遮挡和去遮挡图(第3.4节)。3.3. 使用分段改进分层考虑图5(a)中所示的输入图像,其具有细毛发结构。软FG可见性(等式1)1)纯粹基于深度不连续性将不会在新视图中保留对于该图像,我们可以看到,这些精细结构在视差图中未被捕获,并且因此在可见性图中也被错过(分别为图5(b)和(c))。为了解决这个缺点,我们将FG阿尔法蒙版-我们的软分层可以自然地纳入软磨砂。我们首先使用U2Net显着性网络[28]计算FG分割,然 后 将 其 传 递 到 抠 图 网 络 [9]以 获 得 FG alpha 抠 图M∈[0,1]n,如图5(d)所示。请注意,我们不能直接使用这些阿尔法遮罩作为可见性地图,因为我们希望可见性低(接近于零)。因此,我们对alpha蒙版(表示为M¯)进 行 稀 释 ( 最 大 池 ) ,然后从中减去原始alpha蒙版。图5(e)shows1−(M¯−M).所得到的基于蒙版的FG可见城市贴图仅在最终聚集Alpha蒙版周围具有低可见性然后,我们计算基于深度蒙版的FG可见性图A′∈[0,1]n为:A′=A*(1−(M′−M)(1−S)),其中A表示基于深度的可见性图(等式10)。图1,图5(c))和S(表示遮挡图,示例如图4(右)所示。(1−S)项减少了基于蒙版的可见性贴图泄漏与基于深度的可见性A相乘确保最终可见性图也考虑深度不连续性。图5(f)示出了基于深度遮片的FG可见性图A’,其捕获细的毛发状结构,同时还考虑深度不连续性。3.4. 深度感知RGBD修复为了避免在相机移动时暴露黑色背景像素,如图3所示,我们对disoc- cluded区域S进行补绘,并将结果合并到我们的背景层中。修复这样的非遮挡不同于传统的修复问题,因为模型需要学习忽略每个待修补像素前面的区域。在图6中,我们显示了两种最先进的图像修复方法[42,40]的样本结果,以修复被遮挡的区域。虽然他们合成良好的纹理,甚至能够完成的基础和狗的头,这实际上是不可取的,在我们的管道,因为我们要inpaint的BG,而不是FG。此外,我们执行RGBD修复,这是在对比现有的RGB修复网络。在使用去遮挡掩模(参见图4(中间)的示例掩模)训练我们的修复网络中的关键挑战之一是,我们没有单个图像数据集中这些区域的真实为了克服这一点,我们而是利用闭塞的面具(见图4(右)),围绕对象作为inpaint面具在训练过程中。由于我们有GT背景RGB以及遮挡掩模内的估计背景深度,因此我们可以直接使用这些掩模以及原始图像作为GT进行训练。修复遮挡遮罩背后的直觉是假装FG沿其轮廓大于其实际大小。我们发现在这些遮罩上进行训练有助于模型学习从具有较大深度值的区域中借用换句话说,利用遮挡掩模的这种训练使得绘画内深度感知。然而,仅使用这种类型的遮罩进行训练是不够的,因为模型还没有学会对薄对象进行内绘制或执行常规的修补。我们通过随机添加在Deep-fillv 2 [42]之后的标准修复训练中使用的传统笔划形状修复蒙版来解决这个问题,这使得模型能够学习修复薄或小的对象。因此,我们的数据集由两种类型的绘画蒙版组成:遮挡遮罩和随机笔划。通过这种方式,任何单个图像数据集都可以适用于训练我们的修复模型,而不需要任何注释。我们在补充中展示了自定义训练数据集的示例。请参见图6中的一个示例,在补充材料中有更多的内画结果。我们采用基于补丁的鉴别器D来区分真实结果和生成的结果,并将对抗性损失应用于修复网络,如Deepfillv2 [42]。因此,修复网络的客观损失是重建损失(修复结果与地面实况之间的L1距离)和铰链对抗损失的加权和有关网络培训和12523不不输入视差修补掩码HiFillDeepFillv2 我们的图6:深度感知修复。修复技术(HiFill [40]和DeepFill [42])从FG和BG中借用信息。我们的深度感知修复主要从BG中借用信息,使其更适合3D摄影。在补充材料中讨论了架构。值得将我们的修复方法与3D照片修复方法进行对比[31],后者也是深度感知的,其数据集是无注释的。一个很大的区别是,我们的修复是全局的,而3D-Photo基于深度边缘在局部补丁上进行修复。由于这一点,我们的推断仅需要单遍并且相对较快,而3D照片需要多级处理和迭代泛洪填充类算法来生成每个补丁的修复掩模,这相对耗时。3.5. 分层渲染给定前景和背景图像以及视差图,我们现在可以将每一个渲染成一个新的视图并将它们合成在一起。软分层阶段产生由输入图像I、可见性图A和视差D组成的前景层。我们以标准的方式对视差图进行反向投影,以恢复每个像素的3D点,并连接2D像素网格上彼此相邻的点,以构建三角形网格。然后,我们用I和A对这个网格进行纹理处理,并将其渲染到新视点中;A被重新采样,但在此阶段的渲染期间不用于合成。新视点由来自规范视点的刚性变换T给出,并且该渲染步骤的结果是新的前景RGB图像IT和可见性AT。修复阶段的输出是背景图像I~和视差D~ 。我们同样地从D~ 构造三角形网格,用I~将其表示,并投影到n面上vi_w生成新的背景图像I~T。最后,我们在背景上合成前景以获得最终的新颖视图图像I*:I*=ATIT+(1−AT)I~T。(四)我们使用TensorFlow可微分渲染器[12]来生成IT和I~T,以实现统一的框架工作。4. 实验我 们 在 三 个 多 视 图 数 据 集 上 定 量 评 估 SLIDE :RealEstate 10 k [44](RE 10 K),Dual-Pixels [11]和Mannequin-Challenge(MC)[20],提供静态场景的视频或多视图图像。此外,我们对Unsplash [1]的照片进行了用户研究。基线和指标。 我们定量与最近的三种最先进的技术相比,其代码是公开可用的:SynSin [39]、单图像MPI[34](SMPI)和3D-Photo [31]。SynSin和SMPI是端到端的训练网络,它们将单个图像作为输入并生成新视图图像。另一方面,3D-Photo是一种模块化方法,不可端到端训练。像SLIDE一样,3D-Photo使用视差网络与专门的修复网络相结合来生成新颖的视图图像。为了公平比较,3D照片和SLIDE技术都使用MiDaSv2[29]差异。但是,与SLIDE不同的是,3D-Photo不会在前景轮廓上建模精细结构,如皮毛和头发。我们将不使用Alpha遮罩的模型称为在SMPI [34]之后,我们使用LPIPS [43]、PSNR和SSIM的三个不同度量定量测量了预测目标视图相对于地面实况图像的准确性。由于SLIDE和几个基线不执行显式的外涂(内填充新暴露的边界区域),因此在计算度量时,我们忽略20%的边界关于RealEstate10K RealEstate10K(RE10K)[44]是一个视频剪辑数据集,包含大约10K静态场景的YouTube视频。我们使用测试集中的1K随机采样视频片段进行评估。我们遵循[34]并使用运动恢复结构和SLAM(同时定位和映射)算法来恢复相机内在和外在以及稀疏点云。在[34]中对于评估,我们从每个测试剪辑中随机采样源视图,并将以下第5(t=5)和第10(t=10)帧视为目标视图。我们计算相对于这些目标视图的评估指标。表1示出了SLIDE在所有评估度量方面表现得更好或与当前最先进的技术在LPIPS感知度量方面的改进尤其显著,表明SLIDE视图合成比现有技术更好地保留了整体场景内容。图7示出了样品视觉结果。SMPI[34]生成更模糊的新颖视图; SLIDE通常更 好 地 保留了 咬 合 周 围 的结构12524输入图像GT Target ViewSMPI 3D-PhotoSLIDE(Ours)图7:基准测试的样本目视结果。 不同技术的新颖视图合成结果:来自RE 10 K [44]、MC [20]和双像素[11]数据集的样本图像上的单图像MPI [ 34]、3D-Photo [ 31 ]和SLIDE(我们的)。输入图像3D照片幻灯片幻灯片与磨砂图8:野外图像的视觉结果。 查看我们在用户研究中使用的样本Unsplash数据集[1]图像与3D-Photo相比,SLIDE和SLIDE with Matte方法可以更忠实地表示薄的毛发状结构[31]。有关结果的更好说明,请参见补充视频。当相机移动时,图像上的场景元素相对于彼此移动的边界在所有3个基准数据集上,我们没有看到通过将FG抠图合并到SLIDE(具有抠图的SLIDE)中的进一步改进,因为这些数据集图像没有具有细头发状结构的主要双像素的结果。Dual-Pixels [11]是一个多视图数据集,使用由5部手机组成的定制手持式捕获装置拍摄。也就是说,每个场景用由适度基线分开的5个相机同时我们在684个公开的测试场景中评估了SLIDE和其他基线。对于每个场景,我们将其中一个侧视图视为输入,并将其余4个视图视为目标视图。与RE 10 K相比,双像素数据由更具挑战性的场景构成-在不同的环境中。表2显示了双像素测试数据集的定量结果。结果表明,SLIDE优于所有三个基线。图7显示了一些定性结果。人体模型挑战(MC)的结果。MC是以与RE10K数据集类似的方式收集和处理的视频数据集。它包含了人们表演“人体模型挑战”的视频,在这些视频中,当摄像机在场景中移动时,受试这种(接近)静态设置允许使用标准的运动恢复结构流水线(如RE10K),以获得场景的地面实况相机姿势和粗略的3D点云。MC提供了一个很好的基准视图合成的场景与人。我们随机抽样190 5帧序列从公开的测试集为我们的评估目的。双像素MCMCRE10K12525集合-1→设置-2→设置-2→首选左侧型号滑动滑滑梯哑光首选右绑型号表1:RE10K的结果。 LPIPS [43],不同技术的PSNR和SSIM分数计算w.r.t. 在两个时间步长t=5和t=10处目标视图。LPIPS↓PSNR↑SSIM↑SynSin [39]0.7512.90.31SMPI [34]0.4916.30.423D摄影[31]0.2716.30.42幻灯片(我们的)0.2316.80.44表2:双像素的结果。LPIPS [43],不同技术的PSNR和SSIM分数计算w.r.t. 684个测试数据场景中的四个目标视图。LPIPS↓PSNR↑SSIM↑SynSin [39]0.3316.90.53SMPI [34]0.3117.80.593D摄影[31]0.2218.80.60幻灯片(我们的)0.1820.00.66表3:人体模型激发的结果数据集。LPIPS [43],不同技术的PSNR和SSIM分数四个目标视图。我们将第一帧视为输入,其余四帧视为目标视图。表3示出了不同的单图像3D摄影技术的平均度量我们再次观察到SLIDE优于其他技术。图7示出了一些定性结果。在野外图像的用户研究。 为了评估“野外”照片的不同技术由于我们没有这些图像的GT,我们进行了用户研究,以比较不同技术的视图合成结果。对于第一组(Set-1),我们收集了99张图像,其中包含我们通常在相册中看到的元素:人、动物、车辆和景观;有时具有这些元件的多个实例。对于第二组(组-2),为了展示遮片的使用,我们收集了50幅具有人和具有薄毛发结构的动物的对于两组中的每个图像,我们创建了具有从圆形相机路径合成的视图的短视频(请参考补充视频以查看样本生成的视频)。然后,我们将我们的(SLIDE)方法和基线方法(以随机配对顺序)的并排结果显示给Amazon Mechani- cal Turkers,并要求用户选择更好看的视频。至少有15个用户对每个视频对进行了评分,我们采取多数投票来计算时间用户的百分比图9:用户研究。用户在3D-Photo和SLIDE结果之间首选的结果百分比。在两组野外图像上,SLIDE结果始终是首选。我更喜欢一个结果而不是另一个。用户研究显示,在99%的时间内,SLIDE优于SynSin [39]或SMPI [34这个结果并不奇怪,因为这些方法通常比基于深度的渲染方法(如SLIDE和3D-Photo)产生更模糊的结果[31]。图9示出了将SLIDE和“具有哑光的SLIDE”与3D照片进行比较的结果。在这两种图像集上,用户更喜欢SLIDE而不是3D照片。SLIDE在具有细头发状结构的Set-2图像上更受欢迎,这些结构不能被3D-Photo很好地处理,当向SLIDE管道添加蒙版时(“带有蒙版的SLIDE”)会有额外的增益。图8显示了一些示例视图合成结果,补充材料中包含更多内容。运行时分析。SLIDE框架只需要一个前向传递,将其所有组件传递到生成器。吃的两层表示,然后可以在现代图形芯片上实时渲染,合成新的意见。所有的SLIDE组件都可以使用现代深度学习工具箱中的标准GPU层来实现,从而产生统一且高效的系统。我们在Tensorflow中实现了大部分SLIDE组件,除了深度估计,前景显着性和α抠图网络,我们使用了原始的Py。火炬网络。以下是在Nvidia Titan P100 GPU上处理672× 1008图像时不同SLIDE组件的运行时:深度估计[29]( 0.023s ) , 软 分 层 ( 0.013s ) , 深 度 感 知 修 复(0.037s)。 并且可选地用于铺垫:前景片段对 于 0.07s 或 0.35s 的 总 运 行 时 间 ( 分 别 为 w/o 或 w/matting),FBA-消光[28](0.069s)和FBA-消光[9](0.203s)。相比之下,在质量上最接近的竞争对手,3D照片,需要几秒钟来处理一个单一的图像。5. 结论SLIDE是一种用于3D摄影的模块化但统一的方法,具有几个有利的特性:软层,可以模拟复杂的外观细节;深度感知修复;具有高效运行时间的模块化和统一系统;以及最先进的结果。当深度估计或alpha抠图等组件失败时,我们会观察到伪影我们相信,随着这些组件变得更加成熟和强大,SLIDE 3D照片会变得更好。致谢。我们感谢Forrester Cole和Daniel Vla- sic在可区分渲染方面的帮助。感谢您发送编修。我们会重新检视您的建议。3D照片百分之二十六百分之十八百分之五十六百分之二十二百分之十六62%LPIPS↓PSNR↑SSIM↑方法t= 5t= 10t= 5t= 10t= 5t= 10SynSin [39]0.310.3422.720.60.720.67SMPI [34]0.140.1926.724.10.860.803D摄影[31]0.090.1226.923.70.870.80幻灯片(我们的)0.060.1027.123.70.870.80百分之二十百分之十六百分之六十四12526引用[1] Unsplash数据集。https://unsplash.com/data,2020年。[在线; 2020年3月访问] 六七八[2] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,and Dan B Goldman. PatchMatch:一种用于结构图像编辑 的 随 机 对 应 算 法 。 图 形 上 的 ACM 转 换 ( Proc.SIGGRAPH),28(3),Aug. 2009. 2[3] 彼得·N·贝胡默尔。 双目立体投影的贝叶斯方法。International Journal of Computer Vision,19(3):237-260,1996。四个[4] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和Coloma Ballester。图像修复。在Proceedings of the27thannualconferenceonComputergraphicsandinteractive techniques,pages 417-424,2000中。二个[5] Mark Boss,Raphael Braun,Varun Jampani,Jonathan TBar- ron,Ce Liu,and Hendrik Lensch.NeRD:来自图像集合的神经反射分解。在IEEE国际计算机视觉会议(ICCV),2021年。二个[6] 陈伟峰,赵甫,杨大伟,邓佳。在野外的单一图像深度感知。神经信息处理系统进展(NIPS),第7302016.二个[7] 约翰·弗林,迈克尔·布罗克斯顿,保罗·德贝维克,马修·杜瓦尔,格雷厄姆·费弗,瑞安·奥弗贝克,诺亚·斯内弗利和理查德·塔克。DeepView:使用学习的梯度下降进行视图合成。在IEEE计算机视觉和模式识别会议(CVPR),2019年。二个[8] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely. DeepStereo:学习从世界图像预测新的观点。在IEEE计算机视觉和模式识别会议(CVPR),2016年。二个[9] MarcoForte和Fran coisPiti e´。 F,B,阿尔法抠图。arXiv预印本arXiv:2003.07711,2020。五、八[10] Ravi Garg ,Vijay Kumar BG ,Gustavo Carneiro ,andIan Reid.用于单视图深度估计的无监督CNN:几何学拯救了我们。欧洲计算机视觉会议(ECCV),2016年。二个[11] Rahul Garg , Neal Wadhwa , Sameer Ansari , andJonathan T Barron. 使用双像素学习单相机深度估计在IEEE计算机视觉和模式识别会议,2019。六、七[12] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维可变形模型回归的无监督训练。在IEEE计算机视觉和模式识别会议的论文集,第8377-8386页,2018年。六个[13] Steven J. Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F.科恩光显仪。关于SIG-GRAPH 96,年度会议系列,1996年。二个[14] Jia-Bin Huang,Sing Bing Kang,Narendra Ahuja,andJo- hannes Kopf.使用平面结构引导的图像完成[16] Johannes Kopf,Suhib Alsisan,Francis Ge,YangmingChong , KevinMatzen , OceanQuigley , JoshPatterson,Jossie Tirado,Shu Wu,and Michael F Cohen.实用3D摄影。在CVPR研讨会上,2019年。一个[17] Johannes Kopf,Kevin Matzen ,Suhib Alsisan ,OceanQuigley , FrancisGe , YangmingChong , JoshPatterson,Jan- Michael Frahm,Shu Wu,Matthew Yu,et al. 一 张 3D 照 片 。 ACM Transactions on Graphics(TOG),39(4):76-1,2020。一个[18] Marc Levoy和Pat Hanrahan。光场渲染。在SIGGRAPH96会议录,年度会议系列,1996年。二个[19] Qinbo Li和Nima Khademi Kalantari。利用可变MPI和两个网络融合从单幅图像合成光场ACM Transactions onGraphics,39(6),12 2020。二个[20] Zhengqi Li , Tali Dekel , Forrester Cole , RichardTucker ,Noah Snavely, Ce Liu , and William T.弗里曼。通过观察冷冻人来学习在IEEE计算机视觉和模式识别会议上,2019年6月。一、六、七[21] 李正奇和诺亚·斯内弗利。Megadepth:从互联网照片中学习单视图深度预测。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。一、二[22] Hongyu Liu,Bin Jiang,Yi Xiao,and Chao Yang.图像修复中的相干语义注意。在IEEE计算机视觉国际会议论文集,第4170-4179页,2019年。二个[23] 放 大 图 片 作 者 : Noha Radwan , Mehdi S.M. 作 者 :Jonathan T.巴伦,阿列克谢·多索维斯基,丹尼尔·达克沃斯. NeRF在野外:神经辐射场用于非受控的照片收集。IEEE计算机视觉和模式识别会议,2021。二个[24] Moustafa Mahmoud Meshry , Dan B Goldman , SamehKhamis ,Hugues Hoppe,Rohit Kumar Pandey ,NoahSnavely,and Ricardo Martin Brualla.在野外进行神经再生。在计算机视觉和模式识别(CVPR),2019年。二个[25] 作者 :Ben Mildenhall,放 大图 片作
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功