没有合适的资源?快使用搜索试试~ 我知道了~
8028使用上下文感知分层深度修复的施孟丽12shihsml@gapp.nthu.edu.tw苏世扬shihyang@vt.eduJohannesKopf3jkopf@fb.com黄家斌jbhuang@vt.edu1弗吉尼亚理工大学2国立清华大学3Facebookhttps://shihmengli.github.io/3D-Photo-Inpainting(a) 深度翘曲(孔)(b)深度扭曲(拉伸)(c)Facebook 3D照片(d)我们的结果图1. 从单个RGB-D图像进行3D摄影。简单的方法要么产生洞(a),要么在不遮挡处拉伸内容(b)。使用扩散的颜色和深度修复更好,但提供了过于平滑的外观(c)。我们的方法能够合成新的颜色/深度纹理和结构,从而产生更逼真的新颖视图(d)。摘要我们提出了一种将单个RGB-D输入图像转换为3D照片的方法-用于新颖视图合成的多层表示,其包含原始视图中被遮挡的区域中的幻觉颜色和深度结构。我们使用一个分层的深度图像与显式像素连接作为底层表示,并提出了一个基于学习的修复模型,合成新的本地颜色和深度的内容到闭塞区域在空间上下文感知的方式。由此产生的3D照片可以有效地呈现与运动视差使用标准的图形引擎。我们验证了我们的方法在广泛的具有挑战性的日常场景的有效性,并显示较少的文物相比,最先进的。1. 介绍3D摄影--用照相机捕捉世界的景色,并使用基于图像的渲染技术进行新颖的视图合成--是一种记录和再现视觉感知的迷人方式它提供了比旧的2D摄影更身临其境的体验:在虚拟现实中几乎是逼真的,甚至在具有视差的正常平面显示器上也是如此。经典的基于图像的重建和渲染技术然而,需要涉及具有大基线的许多图像[17,59,26,45,19,12]和/或特殊硬件(例如,Lytro Immerge,Facebook流形相机1).最近,我们已经看到了通过使用手机相机和降低基线要求来使3D摄影的捕获更轻松的工作[17,18]。在最极端的情况下,Facebook 3D Pho- tos2等新技术现在只需要用双镜头相机手机拍摄一张快照,这基本上提供了RGB-D(颜色和深度)输入图像。在这项工作中,我们有兴趣从这样的RGB-D输入渲染新的意见。渲染的新视图中最显著的特征是视差引起的不遮挡:简单的基于深度的扭曲技术要么在这里产生间隙(图1a),要么产生拉伸的内容(图1b)。最近的方法试图提供更好的外推。立体放大[72]和最近的变体[52,39]使用前平行多平面表示(MPI),其由小基线双相机立体输入合成。但是,MPI会在倾斜曲面上产生伪影。此外,在多-1https://facebook360.fb.com/2018/05/01/红色的facebook-6dof-camera/2https://facebook360.fb.com/2018/10/11/3d-photos-now-rolling-out-on-facebook-and-in-vr/8029平面表示使其存储器和存储低效并且渲染成本高。Facebook 3D Photos使用分层深度图像(LDI)表示[48],由于其稀疏性而更加紧凑,并且可以转换为轻量级网格表示进行渲染。被遮挡区域中的颜色和深度是使用为在移动设备上快速运行而优化的几何学来合成的。特别是,它使用各向同性扩散算法来修复颜色,这会产生过于平滑的结果,并且无法推断纹理和结构(图1c)。最近的几种基于学习的方法也使用类似的多层图像表示[7,56]。然而,这些方法使用 在每个像素处,它们将最近的表面存储在第一层中,将第二最近的表面存储在下一层中,等等。这是有问题的,因为跨越深度不连续性,层内的内容突然改变,这破坏了卷积核的感受野中的局部性。在这项工作中,我们提出了一种新的基于学习的方法,从RGB-D输入生成3D照片深度可以来自双摄像头手机立体声,或者从单个RGB图像估计[30,28,13]。我们 使用LDI表示( 类似于Facebook 3D Pho-tos),因为它是紧凑的,并允许我们处理任意深度复杂度的与上面描述的然而,因此,将全局CNN应用于该问题更加困难,因为我们的拓扑比标准张量更复杂相反,我们将问题分解为许多局部修复子问题,我们迭代地解决这些子问题。每个问题都是局部的,所以我们可以应用标准的CNN。我们使用一个修复模型,该模型以空间自适应上下文区域为条件,这些区域是从LDI的局部连通性中提取的。在合成之后,我们将绘制的区域融合回LDI中,从而导致递归算法,该算法继续进行直到所有深度边缘都被处理。我们的算法的结果是3D照片与合成大小的纹理和结构的闭塞地区(图1d)。与以前的大多数方法不同,我们不需要预先确定一个固定的层数。相反,我们的算法通过设计来适应输入的局部深度复杂度,并在图像上生成不同数量的层。我们已经在不同情况下拍摄的各种照片上验证了我们的方法2. 相关工作新视图合成的表示。 不同类型的表示已经探索了新颖的视图合成,包括光场[15,29,2],多平面IM,年龄[72,52,39],和分层深度图像[48,55,7,56,17、18、6、42]。光场能够实现新颖视图的真实感渲染,但通常需要许多输入图像以取得良好的效果。多平面图像表示[72,52,39]在固定深度存储多层RGB-α图像。这种表示的主要优点是它能够捕获半反射或半透明表面。然而,由于固定的深度离散化,倾斜的表面通常不能很好地再现,除非使用过多数量的平面。随着时间的推移,已经使用了分层深度图像表示最近已经使用了到处具有固定层数的表示[7,56],但是它们不能很好地保持局部性,如前一节所述。其他最近的工作[17,18]扩展了Shade等人的原始工作[48]以显式地存储连接性信息。这种表示可以局部适应任何深度复杂度,并且可以很容易地转换为纹理网格以进行高效渲染。我们的工作也使用这种表示法。基于图像的渲染。基于图像的渲染技术使得能够从一系列姿态图像中合成新颖的视图。这些方法在图像具有足够大的基线(以便多视图立体算法可以很好地工作)或使用深度传感器捕获时效果最佳。最近的进展包括基于学习的混合[19],软3D重建[45],处理反射[49,26],重新照明[63]以及重建镜子和玻璃表面[59]。我们在这项工作中的重点在于从一个单一的图像新颖的视图合成。基于学习的视图合成。 基于CNN的方法已被应用于从稀疏光场数据[23]或两个或更多个姿势图像[12,19,4]合成新视图。最近的几种方法探索从单个图像的视图合成然而,这些方法通常集中在特定的领域[53,60],合成3D场景/对象[73,43,54,6,7,11],只产生一个特定视图的幻觉[61,68],或假设分段平面场景[32,34]。许多这些基于学习的视图合成方法需要运行预训练网络的前向传递来合成给定视点的图像。这使得这些方法不太适用于在资源受限的设备上显示。我们的表示,另一方面,可以很容易地转换成一个纹理网格和有效地呈现与标准的图形引擎。图像修复。 图像修复的任务旨在用合理的内容填充图像中缺失的区域。受纹理合成[9,8]的成功启发,基于示例的方法通过从图像的已知区域传输内容来完成缺失区域,无论是通过基于非参数块的合成[58,1,5,20]还是使用置信传播[25]或图切割[46,27,16]求解马尔可夫随机场模型。 驱动 随着卷积神经网络的发展,基于CNN的方法由于其预测在已知区域中不可用的语义上有意义的内容的能力而受到相当大的关注[44,51,21,65,66]。最近的努力包括设计CNN架构,以更好地处理不规则形状的孔[33,67,64]和两个-8030具有结构-内容物解缠结的分级方法,例如,预测结构(例如,轮廓/缺失区域中的边缘),然后是以预测结构为条件的内容完成[41,62,47]。我们的修复模型建立在最近的两阶段方法[41,62,47]的基础上,但有两个关键区别。首先,与现有的图像修复算法不同,在现有的图像修复算法中,孔和可用上下文是静态的(例如,整个输入图像中的已知区域),我们利用自适应洞和上下文区域在每个深度不连续性周围局部地其次,除了对彩色图像进行修补之外,我们还对缺失区域中的深度值以及深度修复。深度修复应用于填充商品级深度相机失效的缺失深度值(例如,透明/反射/远距离表面)[35,70,36]或执行图像编辑任务,如立体图像上的对象移除[57,40]。然而,这些算法的目标是对可见表面的深度进行修补。相比之下,我们的重点是恢复隐藏表面的深度。基于CNN的单深度估计。 最近,基于CNN的方法在从单个图像估计深度方面表现出有希望的结果。 由于收集标记数据集的困难,早期的方法通常集中在特定的视觉领域,如室内场景[10]或街景[14,71]。虽然这些方法的准确性还不能与多视图立体算法竞争,但由于来自相对深度注释[3]、多视图立体[30]、3D电影[28]和合成数据[42]的更大和更多样化的训练数据集的可用性,这一研究路线特别有前途。对于只有一个单色图像可用的情况,我们通过预先训练的深度估计模型获得深度估计[30,28]。消除对立体或多个图像作为输入的依赖性,使我们的方法更广泛地适用于所有现有的照片。3. 方法分层深度图像。我们的方法将RGB- D图像(即,对齐的 颜 色 和 深 度 图 像 对 ) , 并 生 成 分 层 深 度 图 像(LDI,[48]),其中在输入中被遮挡的部分中具有修复的颜色和深度LDI类似于常规的4-连接图像,除了在像素点阵中的每个位置处,它可以容纳从零到多的任意数量的像素每个LDI像素存储颜色和深度值。与最初的LDI工作不同[48],我们显式地表示pix-els的局部连通性:每个像素存储指向四个基本方向(左、右、上、下)中的每一个方向上的零个或至多一个直接相邻像素的指针。LDI像素像平滑区域内的正常图像像素一样是4-连接的,但是在深度不连续性上不具有LDIs是3D摄影的有用表示,因为(1)它们自然地处理任意数量的层,即,可以根据需要适应深度复杂的情况内存和存储效率高,并且可以转换为快速渲染的轻量纹理网格我们的方法的深度输入质量不需要完美,只要不连续性在颜色和深度通道中合理地对齐即可在实践中,我们已经成功地将我们的方法用于双摄像头手机的输入以及基于学习的方法的估计深度图[30,28]。方法概述 。Given an input RGB-D image, our methodproceeds as follows.我们首先初始化一个平凡的LDI,它到处使用一个单层,并且是完全4连接的。在预处理中,我们检测主要的深度不连续性,并将其分组为简单的连接深度边缘(第3.1节)。这些构成了我们下面的主要出租的基本单位。在我们算法的核心部分,我们迭代地选择深度边缘进行修复。然后,我们discon,dispensing整个边缘的LDI像素,只考虑边缘的背景像素进行修补。我们从边缘的“已知”侧提取局部上下文区域合成区域是新像素的连续2D区域,我们使用基于学习的方法从给定的上下文生成其颜色和深度值(第3.3节)。一旦修复,我们将合成的像素合并回LDI(第3.4节)。我们的方法以这种方式迭代进行,直到所有深度边缘都被处理。3.1. 图像预处理我们方法的唯一输入是单个RGB-D图像。下面的算法的每一步都是完全自动进行的。我们通过映射最小和最大视差值(即,1 /深度)分别为0和1。以下与空间维度相关的所有参数均针对较长维度上具有1024像素的图像进行调整,并且应针对不同大小的图像按比例进行调整。我们首先将图像提升到LDI上,即,在各处创建单个层,并将每个LDI像素连接到其四个基本相邻像素。由于我们的目标是修补场景中被遮挡的部分,我们需要找到深度不连续性,因为这些是我们需要扩展现有内容的地方在通过立体方法(双摄像头手机)或深度估计网络生成的大多数深度图中,多个像素之间的不连续性是模糊的(图2c),因此难以精确定位他们因此,我们使用双边中值滤波器[37](图2d)锐化深度图,使用7×7窗口大小,σspatial= 4。0,σ强度=0。5.锐化深度图后,我们发现不连续性通过对相邻像素之间的视差差进行阈值化。这会导致许多虚假的反应,如孤立的斑点和短段悬挂较长的时间8031(c)未加工(a) 颜色(b)原始/滤波深度(d)滤波(e)原始不连续性(f)链接深度边缘图2. 预处理。颜色和深度输入的预处理(a-b)。我们使用双边中值滤波器来锐化输入深度图(c-d),使用视差阈值(e)检测原始不连续性,并清除虚假阈值响应并将不连续性链接到连接的深度边缘(f)。这些链接的深度边缘形成了我们修复过程的基本单元。(a) 初始LDI(完全连接)(b) (c)背景/综合区域(d)补漆图3. LDI修复算法的概念说明。 (a)初始LDI完全连接。 深度边缘(不连续性)用灰色标记。(b)我们首先在深度上切割LDI像素连接,形成前景轮廓(绿色)和背景轮廓(红色)。(c)对于背景轮廓,我们生成一个上下文区域(蓝色)和一个新LDI像素的合成区域(红色)。(d)合成的像素已被合并到LDI中。图4. 背景/综合区域。来自图2(f)的三个示例连接深度边缘(黑色)的上下文区域(蓝色)和合成区域(红色输入上下文/合成w/o膨胀w/膨胀图5。处理不完美的深度边缘。由于检测到的深度边缘可能无法很好地围绕遮挡边界对齐,合成区域5个像素。该策略有助于减少修复区域中的伪影。3.2. 背景和综合区域我们的修复算法一次在一个复杂计算的深度边缘上操作。如果有一个边缘(图2e)。我们将其清理如下:首先,我们通过将深度不连续性标记为1(其他标记为0)来创建二进制映射。接下来,我们使用连通分量分析将相邻的不连续性合并为“链接深度边缘”的集合。为了避免在交汇处合并边,我们基于LDI的本地连接性来分离它们。最后,我们删除短段(10像素),包括孤立和悬挂的。<我们通过进行五重交叉验证来确定阈值10,从RealEstate10K训练集中随机选择的50个样本的LPIPS[69]指标。最后的边缘(图2f)形成了我们迭代修复过程的基本单元,这将在以下部分中进行描述。边缘(图3a),目标是在相邻的遮挡区域合成新的颜色和深度内容。我们首先断开整个不连续的LDI像素(图- ure3 b)。我们将断开连接的像素称为(即,现在缺少相邻像素)轮廓像素。我们在图3b中看到,前景轮廓(标记为绿色)和背景轮廓(标记为红色)形成。只有背景轮廓需要修补.我们感兴趣的是将其周围的内容扩展到被遮挡的区域。我们首先生成一个合成区域,一个新像素的连续区域(图3c,红色像素)。这些基本上只是2D像素坐标在这一点上。我们初始化合成区域中的颜色和深度值8032使用简单的迭代泛洪填充类算法。它从所有轮廓像素开始,向它们断开的方向前进一步。这些像素形成初始合成区域。然后,我们通过向左/右/上/下步进并添加之前未访问过的任何像素来迭代扩展(40次迭代)该区域的所有像素对于每次迭代,我们交替地扩展上下文区域和合成区域,因此像素仅属于两个区域中的任一个。此外,我们不跨轮廓后退,因此合成区域严格地保持在图像的包含部分中。图4显示了几个示例。我们将在下一节中描述用于修补合成区域的基于学习的技术。类似的技术[33,41]以前用于填充图像中的孔我们工作的一个重要区别是,这些图像孔总是被已知内容完全包围,这限制了合成。然而,在我们的情况下,修复是在LDI像素的连接层上执行的,并且它应该只受直接连接到它的周围像素的约束。LDI中的任何其他区域,例如在其他前景或背景层上,对于该合成单元是完全无关的,并且不应该以任何方式约束或影响它。我们通过明确定义合成的上下文区域(图3c,蓝色区域)来实现此行为。我们的修复网络只考虑上下文区域中的内容,看不到LDI的任何其他部分上下文区域使用类似的泛洪填充(flood-fill)(如al-出租m)来生成然而,一个区别是,该算法选择实际的LDI像素并遵循它们的连接链接,因此上下文区域扩展在轮廓处停止我们运行该算法100次迭代,因为我们发现synthe- sis在稍大的上下文区域中执行得更好。在实践中,由于不完美的深度估计,轮廓像素可能不会与实际遮挡边界很好地对齐。为了解决这个问题,我们将深度边缘附近的合成区域扩大5个像素(上下文区域相应地侵蚀图5显示了这种试探法的效果。3.3. 上下文感知的颜色和深度修复模型给定上下文和合成区域,我们的下一个目标是合成颜色和深度值。即使我们在LDI上执行合成,提取的上下文和合成区域也在局部类似于图像,因此我们可以使用为图像设计的标准网络架构具体来说,我们在[41,33,62]中的图像修复方法上构建了我们的颜色和深度修复模型一种直接的方法是独立地对彩色图像和深度图进行修补。然而,经修复的深度图可能未相对于经修复的颜色良好地对准。为了解决这个问题,我们设计了类似于[41,62]的颜色和深度修复网络:我们将修复任务分解为三个子网络:(1)边缘修复网络,(2)颜色修复网络和(3)深度修复网络(图6)。首先,考虑到...文本边缘作为输入,我们使用边缘修复网络来预测合成区域中的深度边缘,产生修复的边缘。首先执行此步骤有助于推断可用于约束内容预测(颜色和深度值)的结构我们将拼接的修复边缘和上下文颜色作为输入,并使用颜色修复网络来产生修复的颜色。我们执行深度修复类似。图7示出了边缘引导修复如何能够准确地扩展深度结构并缓解颜色/深度未对准问题的示例。多层修复。在深度复杂的场景中,应用我们的修补模型一次是不够的,因为我们仍然可以通过由修补的深度边缘创建的不连续性看到孔因此,我们应用我们的修复模型,直到没有进一步的修复深度边缘生成。图8示出了效果的示例。在这里,应用我们的修复模型一次填充丢失的图层。然而,当从某个视点观察时,仍然可以看到几个孔(图8b)。再次应用图像修复模型修复了瑕疵。训练数据生成。对于训练,我们提出的模型可以简单地在任何图像数据集上训练,而不需要注释数据。在这里,我们选择使用MSCOCO数据集[31],因为它在对象类型和场景方面具有广泛的多样性为了生成修复模型的训练数据,我们创建了一个合成数据集,如下所示。首先,我们在COCO数据集上应用预训练的MegaDepth [30]我们提取上下文/合成区域(如第3.2节所述)以形成这些区域的池。然后,我们随机采样并将这些上下文合成区域放置在COCO数据集中的不同因此,我们可以从模拟的遮挡区域获得地面真实3.4. 转换为3D纹理网格我们通过将所有修复的深度和颜色值集成回原始LDI来形成3D纹理网格。使用网格表示渲染允许我们快速渲染新的视图,而不需要执行每个视图的推理步骤。因此,由我们的算法产生的3D表示可以很容易地使用边缘设备上的标准图形引擎渲染4. 实验结果在本节中,我们首先描述实现细节(第4.1节)。然后,我们展示了与最先进的新颖视图合成方法(第4.2节)的视觉比较。我们建议读者参考补充材料,以获得广泛的结果和比较。接下来,我们遵循[72]中的评估方案,并报告RealEstate10K数据集的定量比较(第4.3节)。我们提供了一项消融研究来证明我们的模型设计(第4.4节)。最后,我们证明了我们的方法可以很好地与8033图6. 上下文感知的颜色和深度修复。给定颜色,深度,提取和链接的深度边缘作为输入,我们随机选择一个边缘作为子问题。我们首先使用边缘修复网络修复合成区域(红色)中的深度边缘。然后,我们将修复后的深度边缘与上下文颜色连接在一起,并应用颜色修复网络来生成修复后的颜色。类似地,我们将修复后的深度边缘与上下文深度连接起来,并应用深度修复网络来产生修复后的深度。放大扩散无边缘w/edge0的情况。0001.我们使用MS上的上下文合成区域数据集训练边缘和深度生成器模型,COCO数据集,5个时期。我们分别训练深度生成器和彩色 图像 生成器5 和10 个epoch。修复 模型 架构。对于边缘油漆-在网络中,我们采用[41]提供的架构对于深度和颜色修复网络,我们使用一个stan-图7. 深度修复效果。边缘引导深度修补-ING产生更精确的结构修补,特别是对于深度复杂的区域(例如,T型接头)。蓝框:合成小说视图。(a)(b)一次(c)两次图8. 多层修复。来自不同来源的深度图(第4.5节)。2更多细节和视觉比较可以在我们灵活的材料中找到。4.1. 实现细节训练图像修复模型。 对于边缘生成器, 我们遵循[41]中的超参数。具体来说,我们使用β = 0的ADAM优化器[ 24 ]训练边缘生成器模型。9和初始学习率具有部分卷积的标准U-Net架构[33]。由于由于空间限制,我们将附加的实现细节(特定的网络结构、训练损失和每个网络的权重)留给补充材料。我们将公开源代码和预训练模型,以促进未来的工作。训练数据。我们使用COCO 2017集的118k图像进行训练。我们从每个图像中选择最多3对区域来形成上下文合成池。在训练过程中,我们对每个图像的一对区域进行采样,并将其调整为[ 1]之间的因子。0,1。3]。4.2. 视觉比较与MPI方法的比较表示。 我们将我们提出的模型与RealEstate10K数据集上基于MPI的方法进行了比较。我们使用DPSNet [22]来获得我们方法的输入深度图。我们使用作者提供的预训练权重来呈现基于MPI的方法的新颖观点。图9显示了具有复杂深度结构的两个具有挑战性的示例。我们的方法综合了深度边界周围的合理结构;另一方面,立体放大和PB-MPI在深度不连续性周围产生伪影。LLFF [38]在外推新视图时会出现重影效应。8034[72 ]中国农业机械网[52]中国农业机械网[39]中国农业机械网 与基于MPI的方法进行视觉比较。 我们的方法inpaints合理的结构和颜色的闭塞地区。Facebook 3D照片结果我们的结果图10. 与Facebook 3D照片的视觉对比。 我们的方法填补了合理的纹理和结构在disocclusion。与Facebook 3D照片的对比在这里,我们的目标是评估我们的方法在野外拍摄的照片上的能力。我们从iPhone X(带有双摄像头镜头)中提取彩色图像和相应的深度图。我们为Facebook 3D照片和我们的算法使用相同的RGB-D输入集。图10显示了与Facebook 3D照片相比的视图合成结果。由Facebook扩散的颜色和深度值当在新视图中显示小或薄的遮挡区域时,3D照片算法工作良好然而,这些伪影在较大的遮挡区域中变得清晰可见.另一方面,我们的结果一般填充在synth- sis区域与视觉上合理的内容和结构。8035表1. RealEstate10K数据集上的定量比较方法SSIM↑PSNR↑LPIPS↓[72]第二十二话0.890626.710.0826PB-MPI [52]0.877325.510.0902LFF [39]0.806223.170.1323Xview [4]0.862824.750.0822我们0.888727.290.0724表2.使用深度边缘作为指导改善了结果。蓝色:在未遮挡区域中的结果。方法SSIM↑PSNR↑LPIPS↓输入(c)不带扩张(d)带扩张图11.色彩修复可以带来更好的视觉质量。扩散0.8665(0.6237)25.95(18.91)0.084不带边缘的0.8665(0.6247)25.96(18.94)0.084带边缘的修补(我们的)0.8666(0.6265)25.97(18.98)0.083表3. 使用颜色修复模型可以得到更好的感知质量。我们的扩张启发式算法进一步提高了性能。蓝色:在未遮挡区域中的结果。离子方法SSIM↑PSNR↑ LPIPS↓扩散无扩张的修补0.8661(0.6215)25.90(18.78)0.8643(0.5573)25.56(17.14)0.0880.085输入MegaDepth MiDas Kinect图12. 我们的方法适用于各种深度Inpaint w/ dilation(我们的)0.8666(0.6265)25.97(18.98)0.083地图我们在新视图的左上角显示了深度估计。胺的功效,我们的颜色修补模型遵循相同的程序,上述。我们提出了每-4.3. 定量比较我们评估了与基于MPI的方法相比,我们的模型可以 外 推 视 图 的 程 度 [52 , 72 , 4 , 39] 。 我 们 从RealEstate10K中随机抽取1500个视频序列来生成测试三元组。对于每个三元组,我们为目标视图设置t=10 , 使 得 所 有 方 法 都 需 要 在 源 ( t=0 ) 和 参 考(t=4)帧之间进行外推。我们使用DPSNet [22]来生成模型所需的输入深度图。我们使用SSIM和PSNR指标量化每个模型的性能,合成的目标之间观点和地面真相。由于这些指标不捕获合成视图的感知质量,因此我们包括LPIPS [69]指标来量化生成的视图与人类感知的一致程度。对于PB-MPI,我们将深度层的数量设置为64,因为它会产生最佳结果。我们在表1中报告了评价结果。我们提出的方法在SSIM和PSNR上具有竞争力此外,我们的合成视图表现出更好的感知质量,反映在优越的LPIPS分数。4.4. 消融研究我们进行消融研究,以了解我们提出的每个组件如何对最终性能做出贡献。我们首先验证了边缘引导深度修补的有效性。我们从我们的测试序列中抽取130个三元组,评估整个图像和未遮挡区域上的修复颜色,并在表2中报告数字。结果表明,我们提出的边缘引导修复导致数值指标略有改善。接下来,我们将在整个图像和表3中的遮挡区域中均显示。我们观察到,我们提出的模型产生更好的感知质量。图11显示了一个示例。4.5. 处理不同的深度图我们使用不同方法生成的深度图来测试我们的方法(图12)。我们从Sexual GBD [50]数据集中选择图像,并从三个不同的来源获得相应的深度图:1)使用MegaDepth [30] 估 计 的 深 度 , 2 ) MiDas [28] 和 3 )Kinect深度传感器。我们在图12中展示了生成的3D照片。结果表明,我们的方法可以合理地处理来自不同来源的深度图。5. 结论在本文中,我们提出了一种算法,从一个单一的RGB-D图像创建compelling三维摄影。我们的核心技术创新在于通过上下文感知的颜色和深度修复来创建完整的分层深度图像表示我们验证我们的方法在广泛的各种日常场景。我们的实验结果表明,我们的算法产生相当少的视觉伪影相比,最先进的新颖的视图合成技术。我们相信这种技术可以将3D摄影带到更广泛的社区,让人们可以轻松捕捉场景,进行沉浸式观看。谢谢。该项目得到部分支持 通过NSF(#1755785)和MOST-108-2634-F-007-006和MOST-109-2634-F-007-016。(a)(b)扩散8036引用[1] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,andDanBGoldman.Patchmatch : Arandomizedcorrespondence algorithm for structural image editing. 在ACM Trans-actions on Graphics , 第28 卷 , 第 24 页 ,2009中。2[2] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。2001年第28届计算机图形学和交互技术年会论文集。2[3] 陈伟峰,赵甫,杨大伟,邓佳。在野外的单一图像深度感知。InNeurIPS,2016. 3[4] Inchang Choi,Orazio Gallo,Alejandro Troccoli,Min HKim,and Jan Kautz.极限视角合成。在ICCV,2019年。二七八[5] Soheil Darabi,Eli Shechtman,Connelly Barnes,Dan BGoldman,and Pradeep Sen.图像融合:使用基于块的合成 来 组 合 不 一 致 的 图 像 。 ACM Trans-actions onGraphics,31(4):82-1,2012. 2[6] Helisa Dhamo,Nassir Navab,and Federico Tombari.对象驱动的多层场景分解从一个单一的图像。在ICCV,2019年。2[7] Helisa Dhamo , Keisuke Tateno , Iro Laina , NassirNavab,and Federico Tombari.窥视物体背后:从单个图像进行分层深度预测。在ECCV,2018。2[8] Alexei A Efros和William T Freeman。图像绗缝纹理合成和转移。在Proceedings of the 28th annual conference onComputer graphics and interactive techniques , pages3412[9] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。载于ICCV,1999年。2[10] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV,2015年。3[11] SM Ali Eslami , Danilo Jimenez Rezende , FredericBesse ,Fabio Viola,Ari S Morcos ,Marta Garnelo,Avraham Ru- derman,Andrei A Rusu,Ivo Danihelka,Karol Gregor,et al.神经场景表示和渲染。Science,360(6394):1204-1210,2018. 2[12] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely. Deepstereo:学习从世界图像中预测新视图。在CVPR,2016年。一、二[13] Cle' mentGodard , OisinMacAodha , MichaelFirman ,andGabriel J Brostow.深入研究自我监督的单目深度估计。在ICCV,第3828-3838页,2019年。2[14] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR,2017年。3[15] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在SIGGRAPH,第96卷,第43-54页,1996中。2[16] 何开明和孙健。利用相似块的统计信息完成图像的方法。TPAMI,36(12):24232[17] 彼得·海德曼,苏希布·阿尔西桑,理查德·塞利斯基,和乔·汉内斯·科普夫.休闲3D摄影。ACM Transactions onGraphics,36(6):234,2017。一、二[18] 彼得·海德曼和约翰内斯·科普夫。 即时3D摄影。ACM Transactions on Graphics,37(4):101,2018。一、二8037[19] Peter Hedman,Julien Philip,True Price,Jan-MichaelFrahm,George Drettakis,and Gabriel Brostow.自由视点 图 像 渲 染 的 深 度 混 合 。 ACM Transactions onGraphics,第257页,2018年。一、二[20] Jia-Bin Huang,Sing Bing Kang,Narendra Ahuja,andJo- hannes Kopf.使用平面结构引导的图像完成。ACMTransactions on Graphics,33(4):129,2014。2[21] Satoshi Iizuka , EdgarSimo-Serra , and HiroshiIshikawa. 全 局 和 局 部 一 致的 图 像 完 成 。 TOG ,36(4):107,2017. 2[22] Sunghoon Im , Hae-Gon Jeon , Steve Lin , and In SoKweon.Dpsnet:端到端深度平面扫描立体声。2019. 六、八[23] Nima Khademi Kalantari,Ting-Chun Wang,and RaviRa-mamoorthi.基于学习的光场相机视图合成。ACMTransactions on Graphics,35(6):193,2016。2[24] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。6[25] Nikos Komodakis和Georgios Tavernitas。通过优先级调度和动态修剪使用有效置信传播的TIP,16(11):2649-2661,2007. 2[26] Johannes Kopf,Fabian Langguth,Daniel Scharstein,Richard Szeliski,and Michael Goesele.在梯度域中基于图 像 的 ACM Transactions on Graphics , 32 ( 6 ) :199,2013。一、二[27] VivekKw atra,ArnoSchoüdl,Irf anEssa,Gre gTurk,andAaron Bobick.Graphcut纹理:图像和视频合成。ACM Transactions on Graphics,22(3):277-286,2003。2[28] Katrin Lasinger 、 Rene 'Ranftl 、 Konrad Schindler 和Vladlen Koltun。走向鲁棒的单眼深度估计:混合数据集的零拍摄交叉数据集传输。arXiv预印本arXiv:1907.01341,2019。二、三、八[29] Marc Levoy和Pat Hanrahan。光场渲染。在第23届计算机图形学和交互技术年会的论文集,第31-42页2[30] 李正奇和诺亚·斯内弗利。Megadepth:从互联网照片中学习单视图深度预测。在CVPR,2018年。二、三、五、八[31] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。2014年,在ECCV。5[32] 刘晨,杨集美,杜伊古·锡兰,埃尔辛·尤默,古川雅秀.Planenet:从单个rgb图像进行逐段平面重建。在CVPR,2018年。2[33] Guilin Liu,Fitsum A Reda,Kevin J Shih,Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在ECCV,2018。二、五、六[34] Miaomiao Liu,Xuming He,and Mathieu Salzmann.用于单图像新颖视图合成的几何感知深度网络。在CVPR,2018年。2[35] Wei Liu,Xiaogang Chen,Jie Yang,and Qiang Wu.鲁棒的颜色引导深度图恢复。TIP,26(1):315-327,2017。3[36] 司禄、任晓峰、凤琉。通过低秩矩阵完成的深度增强CVPR,2014。38038[37] 马紫阳,何开明,魏一晨,孙健,吴恩华.用于立体匹配及其他的恒定时间加权中值滤波。Proceedings of the2013IEEEInternationalConferenceonComputerVision,第49-56页,2013年。3[38] 莱纳德·麦克米兰和加里·毕晓普全光建模:一种基于图像的渲染系统。在第22届计算机图形学和交互技术集,第39-46页。ACM,1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功