没有合适的资源?快使用搜索试试~ 我知道了~
1SynSin:从单个图像进行端到端视图合成奥利维亚·怀尔斯1乔治亚·吉基奥萨里2理查德·塞利斯基3贾斯汀·约翰逊2,41牛津大学2Facebook AI Research3 Facebook4密歇根大学图1:端到端视图合成。给定单个RGB图像(红色),SynSin会在新视点(蓝色)生成场景的图像。SynSin预测3D点云,使用我们的可微分渲染器将其投影到新视图上;渲染的点云被传递到GAN以合成输出图像。SynSin是端到端训练的,没有3D监督。摘要视图合成允许在给定一个或多个图像的情况下生成场景的新视图这是具有挑战性的;它需要从图像全面地理解3D场景。因此,当前的方法通常使用多个图像,在地面实况深度上训练,或者限于合成数据。我们提出了一种新的端到端模型,在测试时使用单个图像来完成这项任务;它是在没有任何地面真实3D信息的真实图像上训练的。为此,我们引入了一种新的可微分点云渲染器,用于将潜在的3D点云特征转换为目标视图。投影的特征由我们的细化网络进行解码,以修复丢失的区域并生成逼真的输出图像。我们的生成模型内部的3D组件允许在测试时对潜在特征空间进行可解释的操纵,例如。we can animate动画trajectories轨迹from a single单image图片.此外,我们可以生成高分辨率 图 像 , 并 推 广 到 其 他 输 入 分 辨 率 。 我 们 在Matterport、RealEstate10K数据集上的表现优于基线和先前的工作。1. 介绍给定一个场景的图像,如图1所示。1(左上角),左转或向前走时会看到什么?我们项目页面:www.robots.ox.ac.uk/www/synsin.html。*在Facebook AI Research实习期间完成的工作可以推断出窗户和墙将向左延伸,而更多的椅子将出现在右边。新视图合成的任务解决了这些问题:给定场景的视图,目的是从新的视点生成场景的图像。该任务在图像编辑、动画静态照片或查看3D中的RGB图像中具有广泛的应用。为了解锁这些应用程序的任何输入图像,我们的目标是执行视图合成在复杂的,现实世界的场景中,只使用一个单一的输入图像。视图合成具有挑战性,因为它需要全面的场景理解。具体来说,成功的视图合成需要理解输入图像的3D结构和语义。三维结构建模对于捕获可视对象在视图变换下的相对运动是重要的。例如图1(左下),水槽比淋浴更近,因此随着我们改变视角而移动得更多。理解语义学对于合成部分可见对象的合理完成是必要的,例如。图中的椅子1(左上)。克服这些挑战的方法之一就是放松 单图像约束,并使用多个视图来重建3D场景几何[12,15,51,76]。这也简化了语义建模,因为从所有视图中遮挡的位置较少。最近的方法[56,68,74]即使对于复杂的现实世界场景也非常有效。然而,多视图的假设严重限制了它们的适用性,因为绝大多数图像不是从其他角度看。74677468另一种方法是训练卷积网络来估计图像的深度[13,33],从而在现实场景中实现单图像视图合成[40]。不幸的是,这种方法需要一个具有地面真实深度的图像训练数据集更糟糕的是,深度预测器可能无法概括它们所训练的场景类型(例如,在室内场景上训练的网络在室外图像上将不起作用),因此该方法只能对可以获得地面实况深度的场景类型执行视图合成。为了克服这些缺点,人们对在训练期间不使用任何3D信息的视图合成方法越来越感兴趣。相反,具有3D感知中间表示的端到端生成模型可以仅从图像监督进行训练现有的方法已经显示出对单个对象的合成场景的承诺[31,54,55,60,67],但无法扩展到复杂的现实世界场景。特别地,最近的几种方法使用密集体素网格来表示3D结构的潜在特征[36,54]。对于体素,可以表示的3D信息的保真度与体素尺寸有关,因此限制了输出分辨率。另一方面,点云更灵活,自然地概括为不同的分辨率,并且更有效。在本文中,我们介绍了SynSin,从一个单一的图像在复杂的现实世界场景中的视图合成模型。SynSin是一个端到端的模型,在没有任何地面实况3D监督的情况下进行训练。它使用学习特征的高分辨率点云表示3D场景结构,使用一对卷积网络从输入图像中预测。为了从点云生成新的视图,我们使用高性能的可微分点云渲染器从目标视图渲染它。SynSin通过建立在生成模型[3]的最新进展上来建模场景语义,并对学习的判别器进行逆向训练。由于所有模型组件都是可区分的,SynSin使用图像对及其相对相机姿势进行端到端训练;在测试时,它只接收单个图像和目标视点。我们在三个复杂的真实世界数据集上评估我们的方法 : [10][11][12][13][14][15][16][17][18][19][19]所 有数据集都包括大角度变化和平移,增加了任务的难度。我们证明,我们的方法生成高质量的图像,并优于基线方法,使用基于体素的三维表示。我们还表明,我们的训练模型可以在测试时推广到高分辨率的输出图像,甚至可以推广到具有新场景类型的新数据集。2. 相关工作在计算机视觉领域,新视图合成的研究由来已久。这些作品的不同之处在于它们在测试时是使用多个图像还是单个图像,以及它们是否需要注释的3D或语义信息。查看多个图像的合成。如果可以获得场景的多个图像,则可以使用推断的3D几何结构来重建场景,然后生成新视图。传统上,这是使用深度图[5,47]或多视图几何[11,12,15,30,51,76]完成的。在学习时代,DNN可以用来学习深度。[1,9,23,36,38,41]使用DNN来改进来自一组噪声,不完整或不一致的深度图的视图合成。Given two or moreimages of a scene within a small baseline, [16, 56, 57, 63,68, 74] show impressive resultsat在这个狭窄的基线内综合意见[35,42,54]在给定许多训练视图情况下,学习一个对象的隐式体素表示,并在测试时生成该对象的新视图。[14]不使用隐式3D表示。与这些方法不同,我们假设在测试时只有一个图像。使用地面实况深度或语义从单个图像进行视图合成。第二种工作假设一个大型的图像数据集,具有相应的地面真实3D和语义信息来训练它们的3D表示[40,52,62]。这些方法依赖于大规模的基准和相应的注释工作。深度可以使用深度或激光雷达相机[17,28,53]或SfM [33]获得;然而,这是耗时和费力的,特别是对于室外场景,通常需要使用合成环境。我们的目标是在任何地方进行预测,例如图中的森林场景。5,在现实的设置,没有3D信息或语义标签。从单个图像查看合成。 DNN可以用于以端到端的方式学习视图合成。一个这样的工作线合成新的意见,使用纯粹的图像到图像转换[7,31,43,59,60,75]。随后的工作直接在学习的嵌入[67]或者将潜在空间解释为隐式表面[55]。然而,这些工作考虑每个图像具有单个对象的合成数据集,并为每个对象类训练一个模型与我们最近的工作最相似的是[8]。然而,它们没有考虑导致目标图像中的显著孔和不遮挡的 他们还考虑了一个更受约束的设置;他们认为合成对象类和主要向前运动在KITTI [17],而我们使用各种室内和室外场景。许多作品探索使用DNN来预测3D对象形状[18,20,24,26,64,69]或给定场景的深度图像[6,13,33,73]。这些工作侧重于3D预测的质量,而不是视图合成任务。生成模型。我们基于生成模型的最新进展,使用DNN生成高质量的图像[3,19,27,39,44]。[27]《易经》云:“君子之道,焉可诬也?有始有卒者,其惟圣人乎!一个对象类的不同实例的帐篷代码看似插入姿态,但显式修改姿态是难以控制和评估的。[39]允许明确的姿态控制,但不是从给定的图像;它们还使用我们发现在计算上受到限制的体素表示。7469图2:我们的端到端系统。该系统将场景的图像I和姿态T的变化作为输入。空间特征预测器(f)学习一组特征F(通过使用PCA将特征投影到RGB来可视化)和深度回归量(d)深度图D。F被投影到3D中(为了清楚起见,该图显示了RGB)以给出特征的点云P。P根据T变换并渲染。渲染的特征F通过细化网络(g)以生成最后的图像IG。IG应该匹配目标图像,我们使用一组鉴别器和光度损失来执行。3. 方法在本节中,我们介绍SynSin(图)。2)特别是我们如何克服表示3D场景结构和场景语义的两个主要挑战。为了表示3D场景结构,我们将图像投影到一个潜在的特征空间,该空间又使用可微点云渲染器进行变换。该渲染器将3D先验注入到网络中,因为预测的3D结构必须遵守几何原理。为了满足场景语义,我们将整个端到端系统构建为GAN,并基于最近最先进的生成模型的架构创新。SynSin获取输入图像I和相对姿态T。输入图像经由空间特征预测器(f)被嵌入到特征空间F,并且经由深度回归器(d)被嵌入到深度图D从F和D,创建点云P,其被渲染到新视图中(神经点云渲染器)。细化网络(g)细化渲染的特征以给出最终生成的图像IG。在训练时,我们强制要求IG与目标图像(RGB)相匹配3.1. 空间特征和深度网络两个网络f和d分别负责将原始输入图像映射到更高维的特征图和深度图。空间特征网络以与原始图像相同的分辨率预测特征图。这些特征图应该表示场景语义,即比简单的RGB颜色更高级的表示。 深度网络以相同的分辨率估计输入图像的3D结构。 深度不必(我们也不期望它)完全准确;然而,为了执行该任务,它被明确地学习。f和d的设计遵循分别为这两个任务构建的标准架构:空间特征网络F.我们构建在BigGAN架构[3]上,并使用8个ResNet块来保持图像分辨率;最后一个块预测了一个64维的输入图像的每个像素的特征。深度网络D。我们使用具有8个下采样和上采样层的UNet [48]来给出与输入相同空间分辨率的最终预测接下来是一个sigmoid层和一个重新归一化步骤,因此预测的深度落在每个数据集的最小值和最大值内。请参阅补充资料以了解确切的细节。3.2. 神经点云渲染器我们将空间特征F和预测深度D组合以给出特征向量P的3D点云。 给定输入视图变换T,我们希望在目标视点处查看该点云。这需要渲染点云。渲染器在图形中被广泛使用,如[29,49]中所述,但它们通常专注于前向投影。我们的3D渲染器是端到端系统的一个组件,它是联合优化的,因此需要允许梯度传播;我们希望在没有任何3D监督的情况下进行深度预测训练,但只在最终渲染图像上有损失。此外,与传统的渲染管道不同,我们渲染的不是RGB颜色,而是特征。简单渲染器的局限性。一个简单的渲染器将3D点pi投影到新视图中的一个像素或一个小区域使用z缓冲区对点进行深度排序对于新视图中的所有点,选择深度上最近的点(使用z缓冲区)为该点着色。不可微渲染器不提供关于点云位置(需要训练我们的深度预测器)或特征向量(需要训练我们的空间特征网络)的梯度。简单地使一个朴素的渲染器的操作可区分是有问题的,原因有二(如图2所示)。(3)第三章。(1)小街区:每个点仅投影到所呈现的视图中的一个或几个像素。在这种情况下,对于渲染视图的xy平面中的每个点,只有几个梯度;局部梯度的这个缺点在[25]中在双线性采样器的上下文中讨论。(2)Hard Z-Buffer:每个渲染的像素仅受Z缓冲器中最近的点的影响(例如,如果新的像素在深度上更接近,则输出将突然改变)。7470jmnγ图3:我们的渲染管道与简单版本的比较。给定一组在z缓冲区中排序的点,我们的渲染器使用α合成将点投影到半径为r的区域,而不仅仅是最近的点。当通过渲染器反向传播时,梯度不仅流向最近的点,而且流向z缓冲区中的所有点(为了简单起见,我们显示1D投影。我们的解决方案。我们提出了一个神经点云渲染器,以便通过软化硬决策来解决前两个问题,如图所示3.第三章。这受到[34]的启发,[34]通过类似的软化硬光栅化决策引入了网格的可微分渲染器,[77]通过将点溅射到区域并累积来渲染点云首先,为了解决小邻域的问题,我们将3D点分裂到由超参数r和M控制的不同影响的圆盘上。其次,为了解决硬z缓冲区的问题,我们使用超参数γ来累积K个最近点的影响,而不仅仅是最近点的影响。我们的渲染器首先在给定的变换T下将P投影到2D网格上。将3D点pi投影并溅射到具有中心pic和半径r的区域。3D点pi对像素lxy的影响与距区域中心的欧几里得距离d2(·,·)成N(pi,lxy)=0,如果d2(pi,lxy)>rd2(pi,lxy)使用CUDA进行高性能三角形栅格化[32]。我们使用两个阶段的方法:在第一阶段中,我们将输出图像分解为瓦片,并确定其覆盖区与每个瓦片相交的点的集合。在第二阶段,我们为输出图像中的每个像素确定K个其他办法。该方法与[1,24,70]的点云光栅化器有关。然而,我们的渲染器比[70]更简单,我们将其应用于端到端的框架中。虽然[1]也渲染特征的点云,但它们仅反向传播到特征向量,而不是3D位置。[24]在执行所述投影步骤之前将所述预测点存储在体素网格中;这限制了分辨率。性能在单个V100 GPU上,将一批具有5122=262,144个点的六个点云渲染为一批大小为256×256的六个图像,向前传递需要36 ms,向后传递需要5 ms与此相反,将相同的点云转换为2563体素网格,N(pi,lxy)=1−cM否则,请执行以下操作。从[24]的实现需要 1000ms,虽然N是不可微的,但我们可以用次导数来近似导数。r和M控制3D点的影响的扩散和衰减。然后,投影点被累积在z缓冲器中;它们根据它们与新相机的距离di被排序,并且仅为新视图中的每个像素保留K个最近点。排序后的点使用alpha过度合成(其中γ是超参数)进行累积:ρimn=N(pi,lmn)(1)前向传递和后向传递的20003.3. 优化模块和优化器即使特征被精确地投影,在输入视图中不可见的区域在目标视图中也将是空的。细化模块应该用语义上有意义的(例如,床的缺失部分应该用类似的纹理填充)和几何精确(例如,直线应继续保持直线)的方式。为了解决这个问题,我们采取F<$mn=ΣKi=1imnFiY−1j=1(1−ργ)、(2)从最近的生成模型的灵感[3,27,44]。深度网络以前曾被应用于修补[46,61,66]。在一个典型的修复设置中,我们先验地知道哪些像素是正确的,哪些像素需要被修复。其中F是新视图中的投影特征图,F是原始视图中的投影特征图。γ控制混合;如果γ=0,则这是硬z缓冲。该设置在图1中示出。3.实施.我们的渲染器必须是高性能的,因为我们在训练过程中处理了一批高分辨率的点云。我们使用一系列自定义CUDA内核实现我们的渲染器,合成的。在我们的例子中,精化网络应该执行两个任务。首先,它应该修补没有投影特征的区域,例如。图像边界上的区域或被去除遮挡的区域。细化模块可以发现这些区域,因为这些特征的值接近于零。第二,细化模块应该纠正局部错误(例如,由噪声深度产生的噪声区域)。ρ7471图4:我们的方法和基线方法在房地产上的定性结果。给定输入视图和相机参数,这些方法的任务是产生目标图像。红色方块表示方法之间的有趣差异。在上一行中,我们的模型更好地重建了真实的3D;在下一行中,我们的模型能够更好地保留细节。为了构建精化网络,我们使用8个ResNet [21]块,从[3]中获得灵感。与[3]不同,我们的目标是生成一个新的图像,条件是输入视图而不是随机向量。因此,我们发现,重要的是要保持尽可能多的图像分辨率,以获得高质量的结果。我们修改他们的ResNet块来创建一个下采样块。下采样块用于在上采样到原始图像分辨率之前将图像分辨率降低两个尺寸为了对修复任务中的模糊性进行建模,我们使用注入噪声的批量归一化[3]。我们还在每个卷积层之后应用频谱归一化[71]。所使用的GAN架构和目标是[65]。我们使用2个多层鉴别器在一个较低和较高的分辨率和一个特征匹配损失的边缘。3.4. 培训培训目标。该网络使用生成的图像和目标图像之间的L1损失、内容损失和冗余损失进行训练。 总损失为 L=λGANLGAN+λl1Ll1+ λcLc。培训详情。模型是用亚当训练的优化器使用0.01的学习率为ESTA,0.0001的发电机和动量参数(0,0.9)。 λGAN=1,λc=10,λll= 1。γ=1,r=4个像素,K=128,W=H=256。这些模型经过50K次迭代的训练。我们在PyTorch中实现了我们的模型[45];它们需要1-2天的时间在3个Tesla V100GPU上训练4. 实验我们评估我们的方法上的任务,使用新的真实世界场景的视图合成。我们在第4.3节中通过消融我们的方法并与竞争的端到端视图合成管道进行比较来验证我们的设计选择。我们还比较了其他系统,发现,我们的模型比基于训练的深度预测器的模型表现得更好,后者不能很好地推广到新的领域。我们还评估了SynSin对新领域的推广性能(第4.3节)以及更高的图像分辨率(第4.4节)。最后,我们使用SynSin从第4.6节中的初始图像合成轨迹,证明它可以用于漫游应用程序。补充资料中给出了其他结果4.1. 实验装置数据集。我们专注于使用室内和室外环境的真实数据,而不是合成对象。我们使用的第一个框架是Habitat [50],它允许在各种扫描的室内场景中进行测试。Habi- tat框架可以有效地为输入场景生成图像和我们使用两个室内场景源:Matterport3D [4],由房屋重建组成,以及由室内场景的高保真扫描组成的3D [58]。Matterport3D数据集在场景级别被划分为包含61/11/18个场景的train/val/test。仅在评估时使用数据集来测试通用性。通过在场景中随机选择视点,然后在每个欧几里德方向上在± 20 °的范围内随机修改视角和±0 °的位置,生成图像对。32米我们使用的第二个数据集是RealEstate10K [74],它包括使用SfM获得的属性和相应相机参数(内在和外在)的步行视频该数据集包含室内和室外场景。 它被预先分割成一组不相交的训练和测试场景;我们将train细分为训练和验证集,以在train/val/test中给出大约57K/14 K/7 K的场景。测试集中的场景不可见。我们通过选择一个参考视频帧,然后选择最多相隔30帧的第二个视频帧来对视点进行采样为了采样更具挑战性的帧,我们选择对7472[74]第四届中国国际航空航天博览会[58]PSNR↑SSIM↑Perc Sim↓PSNR↑SSIM↑Perc Sim↓PSNR↑SSIM↑Perc Sim↓两InVisVis两InVisVis两InVisVis1. SynSin(小英尺)21.1420.1921.840.710.700.691.680.450.9821.10美元480.73 0. 14一点三四5522.360.801.642. SynSin(硬z)21.0820.2321.700.700.700.671.820.441.1121.40 4.060.70 0。15一点四五6120.700.761.953. SynSin(rgb)20.6419.8721.210.670.690.652.060.491.2720.92 3.810.68 0. 14一点六七5120.440.752.034. 合成20.9119.8021.620.710.710.701.680.430.9922.31 4.970.74 0. 16一点一八6421.940.811.555. SynSin(带GT)22.6519.6426.190.780.710.821.370.500.64–––23.720.861.226. SynSin(sup.(GT)21.5920.3222.460.720.710.711.600.430.92–––22.540.801.557. Im2Im15.8716.2015.970.530.600.482.990.582.054. 780.56 0. 182.19 1. 2217.420.662.298. Vox w/UNet18.5217.8519.050.570.570.572.980.771.9617.312. 630.53 0. 15两点半4018.690.712.689. Vox w/our20.6219.6421.220.700.690.681.970.471.1921.88 4.390.710。15一点半5519.770.752.24表1:Matterport3D [4],RealEstate10K [74]和RealEstate10K [58]的结果。↑表示越高越好,↓表示越低越好。XXYY表示标准偏差。Y Y。消融证明了我们模型的每个方面的实用性。我们在这两个数据集上的表现都优于所有基线,并且几乎与深度监督的模型一样好(SynSin(sup.(GT))。当考虑输入视图中可见(Vis)和不可见(InVis)区域时,我们的性能也最好角度变化>5°,位置变化大于0 °。15如果可能的话(参见[74]关于公制刻度的讨论)。为了报告结果,我们从测试集中随机生成一组2000对图像。指标.以与人类判断相关的方式确定图像的相似性是具有挑战性的[72]。我们报告多个指标,以获得更强大的估计图像的相对质量。我们报告的PSNR,SSIM,和感知相似性的不同模型生成的图像。感知相似性最近已被证明是比较图像相似性的有效方法[72]。最后,我们通过在Amazon Mechanical Turk(AMT)上执行用户研究来验证这些指标确实与人类判断相关。4.2. 基线我们首先通过与具有小占用空间、硬z缓冲以及直接投影RGB值的变体进行比较,来减少对软可区分渲染器的需求。这些模型使用与SynSin相同的设置、训练时间表和SynSin(小英尺):设K=128,r=0。5在我们的模型,以调查一个大的足迹的效用SynSin(硬z):我们在模型中设置K=1和r=4,以研究软z缓冲区的效用。SynSin(rgb): 我们投影RGB值而不是特征。SynSin在测试时不假设地面实况深度;深度预测器针对给定任务被端到端地训练。我们通过报告我们模型的两个变体来调查地面实况(GT)深度的影响。这些模 型 作 为 上 限 , 只 能 在 Matterport3D ( 而 不 是RealEstate10K)上训练,因为它们使用真实的深度信息。SynSin(w/GT):真实深度用作D。SynSin(sup.由GT):D由真实深度监督。(在所有其他情况下,SynSin我们通过与不使用3D和使用体素的方法进行比较来评估我们的3D表示。因为没有方法存在于我们考虑的具有挑战性的数据集中,我们重新实现基线以进行公平的比较。 基线使用与SynSin相同的设置、训练计划和输入图像/视点序列。Im 2 Im:该基线评估图像到图像方法;我们重新实施[75]。[75]只考虑了一组关于方位角的离散旋转和一组较小的仰角旋转。然而,我们数据集中视点的变化来自于在任何方向上连续旋转和在3D中平移。我们修改了他们的方法,以允许这些更复杂的转换。Vox:这个基线将我们的隐式3D表示交换为基于体素的表示。该模型基于[54]的模型。然而,[54]为每个对象训练一个模型,因此他们的模型有效地学习在>100个训练视图,不像我们的模型,它可以外推到新的真实世界的测试场景,给出一个输入视图。我们考虑两个变体:Vox w/ UNet使用[54]的UNet编码器/解码器,而Vox w/ours使用与SynSin类似的ResNet编码器/解码器设置。这种比较评估了我们的3D方法与基于体素的方法,以及我们的编码器/解码器设置是否更可取。最后,我们比较SynSin现有的管道,执行视图合成。这些系统做出不同的假设,遵循不同的方法。这一比较验证了我们使用的是一个有经验的端到端系统。[74]第七十四话:该系统以两幅图像作为输入 在测试时间。与我们的工作相比,假设两个输入视图简化了3D理解的问题,我们的工作是从单个视图估计3D。3D View: This system trains a single-image depth predictoron images with ground-truth depth (e.g. MegaDepth[33])。预测的深度用于将输入图像转换为纹理化的3D网格,其使用各向同性颜色扩散在遮挡边界附近的空间中延伸[22]。最后,从目标视图渲染网格。这种方法类似于3D照片[37]。7473RealEstate10K系统比较[74]PSNR↑SSIM↑Perc Sim↓向更高分辨率推广。AMT用户研究合成22.31 4.970.74 0.16一点一八64PSNR↑SSIM↑Perc Sim↓我们Vox w/our既不3DView21岁88 8.430的情况。660。221 .一、52103合成22.06 6.300.72 0.18一点零65E-O68.731.3–StereoMag [74]二十五34 9. 480的情况。820 131 .一、19077Vox w/our18.82 2.520.61014两点四七36E-O-N55.627.317.2表 2 : SynSin 比 使 用 GT 深 度(3DView)训练的系统性能更好,并且接近[74]的性能,其在测试时使用2个输入视图。表3:将在256×256图像上训练的模型应用于512×512图像时的结果。表4:被选为最真实的视频的百分比。在E-O中,用户选择较好的方法;在E-O- N中,用户可以说两者都不好。图5:RealEstate10K上的系统比较,说明失败情况。注StereoMag [74]使用两个输入图像(第二个显示为插图)。与[74]不同的是,我们修复了缺失的区域(底行);[74]未能对左侧区域进行建模,并且无法修复缺失的区域。3DView使用一个预先训练好的深度模型,导致他们的系统在某些情况下产生不准确的结果(例如,床在第一排)。4.3. 与其他方法的Matterport3D和RealEstate10K的结果。我们在这些数据集上训练我们的模型,消融和基线。为了更好地分析结果,我们比较了模型对3D场景结构和场景语义的理解程度(在第1节中讨论)。为了实现这一点,我们报告了最终预测(两者)的度量,以及输入图像中可见(Vis)和不可见(InVis)的目标图像区域的度量(Vis)评估所学习的3D场景结构的质量,因为它可以在很大程度上通过准确的深度预测来解决。(InVis)评估模型对场景语义的理解的质量;它需要对语义和几何属性的整体理解,以合理地对缺失区域进行内绘制。为了确定(Vis)和(InVis)区域,我们使用输入视图中的GT深度来获得其像素在目标图像中可见的二进制掩码。这仅在Matterport3D上可用(RealEstate10K没有GT深度)。表1和图4在Matterport3D和RealEstate10K上报告结果。在这两个数据集上,我们在所有指标和所有条件下的表现都优于基线,证明了我们的3D表示和修复模块的实用性。这些结果表明,微分渲染器是重要的训练深度7474型号(第1-4行)。我们的编码器解码器设置被证明是重要的,因为它显著提高了基线质量上,我们的模型保留了精细的细节,并比基线更好地预测3D结构。RealEstate10K系统比较我们将我们的系统与表2和图3中的3DView和StereoMag [74]进行了比较。5.我们的模型比3DView表现得更好,尽管他们的方法已经用数十万张深度图像进行了训练。我们假设这种性能上的差距是由于3DView的该基线表明,当测试域与训练 域 不 同 时 , 使 用 最 后 , 我 们 的 修 复 方 法 优 于3DView,它会产生模糊的结果。[74]不会对生成的图像中未看到的区域与上界的比较。我们将我们的模型与SynSin(w/GT)和SynSin(sup.表1中的GT)。这些模型要么使用GT深度,要么由GT深度监督;它们是性能的上限。虽然在(Vis)条件下SynSin和SynSin(w/ GT)之间存在性能差距,但是对于(InVis)条件,该差距缩小。有趣的是,在没有深度超视的情况下训练的SynSin的表现几乎与SynSin一样好。GT)在(Vis)和(InVis)条件下;我们的模型也更好地推广到了数据集。这个实验表明,在训练过程中拥有真正的深度并不一定会对下游任务产生很大的促进作用,并且可能会损害泛化性能。它验证了我们使用端到端系统的决定(而不是使用自监督方法估计的深度)。一般化为。考虑到在Matterport3D上训练的模型,我们在表1中评估了泛化性能(没有进一步的微调)酒店包含额外类型的房间(例如,办公室和酒店房间),并且比Matterport质量更高(它具有更少的几何和照明人工制品以及更复杂的纹理)。SynSin更好地概括了这个看不见的数据集;定性地,SynSin似乎引入更少的伪影(图1)。(六)。7475图6:SynSin与基线Vox w/ ours的比较,概括为更高分辨率的512×512图像和分辨率[58]。我们的模型更好地概括了更少的伪像。4.4. 推广到更高分辨率的图像我们还在表3和图4中评估了对更高图像分辨率的推广。6. SynSin可以应用于更高分辨率的图像,而无需任何进一步的训练。概括到更高分辨率的能力是由于我们方法中灵活的3D表示:网络是完全卷积的,3D点云可以以任何分辨率进行采样,以保持特征。因此,在测试时可以直接应用在较小图像尺寸上训练的网 络 ( 例 如 , 256×256 ) 到 不 同 尺 寸 ( 例 如 ,512×512)。与我们的方法不同,当应用于更高分辨率的图像时,体素基线的性能会急剧下降。这种性能下降可能是由于将世界表示为粗糙的体素网格而导致的大量下采样和不精确性。4.5. 深度预测我们在图中定性地评估了学习的3D表示的质量在RealEstate10K上训练的SynSin 7我们注意到,深度预测的准确性仅在其改善视图合成任务的结果方面然而,我们假设生成的图像和预测的深度图的质量是相关的,因此查看深度图的质量应该可以了解学习模型的质量。我们的方法预测的深度图是更高的分辨率和更真实的深度图比基线方法预测。此外,我们的可区分点云渲染器似乎可以提高深度质量,而不是使用硬z缓冲区或更小的占用空间。然而,我们注意到,小的对象和更精细的细节没有被准确地重建。这可能是因为这些结构对生成的图像的影响有限。图7:我们的方法和基线的覆盖深度预测。基线预测的深度不太准确,也比较粗糙。使用较小的半径或硬z缓冲区会产生质量相似或更差的深度图。4.6. 用户研究:动画静态图像最 后 , 我们 让 SynSin 沿 着 轨 迹合 成 图 像 。 给 定RealEstate10K中视频的初始输入帧,SynSin在30个后续帧的相机位置生成图像。虽然变化很难在图中看到(例如,图1),补充视频清楚地显示了平滑的运动和3D效果。这些演示表明,SynSin可以生成合理的视频,尽管纯粹是在图像上训练。为了评估生成的视频的质量,我们进行了AMT用户研究。我们随机选择100个轨迹,并使用SynSin和Vox w/ours基线生成视频。五个用户被要求评价哪种方法的视频是最真实的。对于每一个视频,我们采取多数投票,以确定最好的视频。我们在表4中报告了用户选择给定方法的次数百分比Either-or setup(E-O):用户评价基线或我们生成的视频是否更真实。Either-or-Neither设置(E-O-N):用户评价基线或我们生成的视频是否更真实,或者它们是否同样真实/不真实(两者都不真实)。当采取多数票,如果他们是没有多数,没有视频是说是更多/更少的现实在这两种情况下,用户更喜欢我们的方法,大概是因为我们的视频具有更平滑的运动和更少的伪影。5. 结论我们介绍了SynSin,这是一种用于执行单图像视图合成的端到端模型。我们系统的核心是两个关键组件:第一个是可微分神经点云渲染器,第二个是生成细化模块。我们验证了我们的方法可以在多个真实数据集上进行端到端学习,推广到看不见的场景,可以直接应用于更高的图像分辨率,并且可以用于沿着给定的轨迹生成合理的视频。虽然我们已经在视图合成的上下文中介绍了SynSin,但我们注意到在生成模型中使用神经点云渲染器在其他任务中也有应用。7476引用[1] 卡拉-阿里·阿利耶夫,德米特里·乌里扬诺夫,维克多·莱姆皮茨基。基于神经点的图形。arXiv预印本arXiv:1906.08240,2019。[2] MarceloBertalmio , GuillermoSapiro , VincentCaselles,还有科洛马·巴列斯特图像修复。ACM SIGGRAPH,2000年。[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安大用 于 高 保 真 自 然 图 像 合 成 的 尺 度 GAN 训 练 InProc.ICLR,2019.[4] Angel Chang,Angela Dai,Thomas Funkhouser,MaciejHal-ber,Matthias Niessner,Manolis Savva,Shuran Song,Andy Zeng,and Yinda Zhang.Matterport 3D:从室内环境中的RGB- D数据中学习2017年3D视觉国际会议。Matterport3D数据集可在https://niessner.github.io/Matterport/ 上获得。[5] GauravChaurasiaSylvain杜切尼奥尔加·索金Hornung和George Drettakis。 深度合成和局部扭曲的合理图像为基础的导航。ACM Transactions on Graphics(TOG),2013年。[6] 陈伟峰,赵甫,杨大伟,邓佳。单-图像深度感知能力。InNeurIPS,2016.[7] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. InfoGAN:通过信息最 大 化 生 成 对 抗 网 络 进 行 可 解 释 的 表 示 学 习 。InNeurIPS,2016.[8] Xu Chen,Jie Song,and Otmar Hilliges.单眼神经的具有连续视图控制的基于图像的渲染。Proc. ICCV,2019.[9] Inchang Choi,Orazio Gallo,Alejandro Troccoli,Min HKim和Jan Kautz。极限视角合成。Proc. ICCV,2019.[10] A. 克里米尼西山口 Pe'rez和T. 肯塔罗。区域填充和通过基于样本的图像修复去除对象。IEEE Transactionson Image Processing,2004。[11] Paul Debevec,Yizhou Yu和George Borshukov。高效具有投影纹理映射的视图相关的基于图像的绘制。在渲染技术中。一九九八年。[12] P. E. 德贝韦茨角J. Taylor和J.马利克造型与装饰-从照片中提炼建筑:一种基于几何和图像的混合方法。在Proc. ACM SIGGRAPH,第11-20页[13] David Eigen、Christian Puhrsch和Rob Fergus。深度使用多尺度深度网络从单个图像进行地图预测NeurIPS,2014。[14] SM Ali Eslami,Danilo Jimenez Rezende,FredericBesse,法比奥·维奥拉、阿里·S·莫尔科斯、玛尔塔·加内洛、亚伯拉罕·鲁德曼、安德烈·A·鲁苏、伊沃·达尼赫尔卡和卡罗尔·格雷戈尔。神经场景表示和渲染。Science,360(6394),2018.[15] A. W. Fitzgills,Y.Wexler和A.齐瑟曼。基于图像使用基于图像的先验进行渲染。IJCV,63(2):141-151,2005.[16] 约翰·弗林, 迈克尔·布罗克斯顿 保罗·德贝维克DuVall,Graham Fyffe,Ryan Over
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功