没有合适的资源?快使用搜索试试~ 我知道了~
1野生环境中的神经再生Moustafa Meshry1岁,Dan B Goldman2岁,Sameh Khamis2岁,Hugues Hoppe2岁,RohitPandey2岁,Noah Snavely2岁,Ricardo Martin-Brualla2岁1马里兰大学,2谷歌公司。摘要我们将探索整个场景捕捉--在不同的外观下(如季节和一天中的时间)记录、建模和重新渲染场景。从旅游地标的互联网照片开始,我们应用传统的3D重建来注册照片并将场景近似为点云。对于每张照片,我们将场景点渲染到深度帧缓冲区中,并训练神经网络来学习这些初始渲染到实际照片的映射。该重渲染网络还将潜在外观向量和指示行人等瞬态对象的位置的语义掩码作为输入。该模型进行评估的几个数据集的公开可用的图像跨越广泛的照明条件。我们创建了短视频,展示了对图像视点、外观和语义标记的逼真操作我们还比较了结果与以前的工作现场reprofiction-tion从互联网上的照片。1. 介绍想象一下,花一天的时间在罗马观光,体验完全真实的互动体验,而不必踏上飞机。人们可以在早上参观万神殿,欣赏日落俯瞰斗兽场,并在晚上穿过实现该目标涉及捕获场景的完整外观空间,即,- 在所有可能的照明条件和瞬态下记录场景,在所述瞬态中场景可能被遮挡-无论是拥挤的、下雨的、下雪的、日出的、聚光灯照明的等-然后能够在任何这样的条件下唤起场景的任何视点。我们称之为全场景捕捉。这是非常chal-由于外观的绝对多样性,场景可以看起来显着不同的夜间照明,在特殊事件,或在极端天气。在Google实习期间从事的工作(a) 输入深度缓冲区(b)输出渲染图1:我们的神经重新渲染技术使用大规模的互联网照片集合来重建代理3D模型,并训练神经重新渲染网络,该网络将从代理3D模型生成的延迟阴影深度缓冲区(由深度,颜色和语义标签组成)作为输入(左),并输出多个外观下场景的真实渲染(右)。在本文中,我们专注于使用公共可用的社区照片作为唯一输入来捕获世界各地的旅游地标,即,照片在野外。3D重建的最新进展可以从这样的照片集合中生成令人印象深刻的3D模型[1,39,41],但是从所得点云或网格生成的渲染或者,可以使用网络摄像机连续镜头以规则的间隔记录场景,但没有视点多样性,或者使用专门的采集(例如,谷歌街景,航空或卫星图像),以在短时间内拍摄环境,但没有外观多样性。相比之下,社区照片提供了一个丰富的(但具有挑战性的)抽样外观的一个场景多年。我们的整个场景捕捉方法有两个主要组成部分:(1)创建输入图像的分解表示,该分解表示将视点、外观条件和诸如行人之类的瞬态对象分离,以及(2)根据该分解表示来渲染真实图像。与最近提取视点和内容的隐式解纠缠表示的方法不同[31,34,43],我们采用最先进的重建方法以密集但有噪声的点云的形式创建显式中间3D表示,并使用此3D表示作为68786879显式3D表示让我们将渲染问题转换为多模态图像转换[15,25,53]。输入是一个延迟着色帧缓冲区[35],其中每个渲染像素存储深度,深度和其他属性,输出是不同外观下的真实视图。我们通过生成成对的数据集来训练模型,使用每个输入图像的恢复的视点参数来渲染来自相同视图的场景的深缓冲区,即,像素对齐我们的模型有效地学习采取近似的初始场景渲染和重新渲染一个逼真的图像。这类似于最近的神经重渲染框架作品[20,28,44],但使用不受控制的互联网图像,而不是仔细捕捉的镜头。我们探索了一种新的策略来训练多模态图像翻译模型。我们的系统不是联合估计外观和渲染网络的嵌入空间[15,25,53],而是对两者进行分阶段训练。首先,使用基于代理样式的损失[9]预训练外观编码网络,这是捕获图像样式的有效方法。然后,使用来自预训练的编码器的固定外观嵌入来最后,外观编码和重新渲染网络都被联合微调。这种简单而有效的策略可以让我们在大型数据集上训练更简单的网络。我们通过实验演示了以这种方式训练的模型如何更好地捕捉场景外观。我们的系统是解决总场景捕捉的第一步,主要集中在场景的静态部分。瞬态对象(例如,行人和汽车)的处理是通过使重新渲染网络以输出图像的预期语义标记为条件,使得网络可以学习忽略这些对象,而不是试图使它们的位置幻觉化。这种语义标记在丢弃小的或薄的场景特征(例如,灯柱),其几何形状不能鲁棒地重建,但是使用图像分割方法容易地识别。如果需要,将我们的网络设置在语义掩码上也可以渲染没有人的场景。代码将在https://bit.ly/2UzYlWj上提供。总的来说,我们的贡献包括:• 实现完全场景捕捉的第一步,即,记录和重新渲染场景下的任何外观从在野外的照片集。• 将输入图像分解为视点、外观和语义标签,以近似的3D场景代理为条件,我们可以从中重新渲染在不同的外表下的观点。• 一种更有效的方法来学习外观潜在空间,通过使用代理损失预训练外观嵌入网络。• 令人信服的结果,包括在五个大型数据集上的视图 和外 观插 值 ,以 及与 以 前方 法的 直 接比 较[39]。2. 相关工作场景重建场景重建的传统方法首先使用大规模运动恢复 结 构 [1] 生 成 稀 疏 重 建 , 然 后 执 行 多 视 图 立 体(MVS)[7,38]或变分优化[13]以重建密集场景模型。然而,大多数这样的技术假定单个外观,或者简单地重新覆盖场景的平均外观。我们建立在这些技术的基础上,使用从MVS恢复的密集点云作为神经重新渲染的代理几何。在基于图像的渲染[4,10]中,输入图像用于通过使用代理几何将输入像素扭曲到输出中来生成新的视点最近,Hedmanet al.[12]引入神经网络来计算视图相关纹理映射的混合权重然而,基于图像的渲染通常假设捕获的场景具有静态外观,因此它不太适合我们的问题设置,其中外观在图像之间变化。神经场景渲染[6]应用深度神经网络来学习潜在的场景表示,允许生成新的视图,但仅限于简单的合成几何。外观建模一个给定的场景可以在一天中的不同时间、不同的天气条件下具有戏剧性的不同外观,并且还可以随着时间的推移而变化。Garg等人[8]观察到,对于给定的视点,由互联网照片捕获的场景外观的维度相对较低,除了像瞬态对象这样的离群点。人们可以通过使用多云图像[39]估计太阳的亮度来恢复照片集合的照明模型,通过时间戳和地理位置[ 11 ]检索太阳然而,这些方法假设不适用于夜间场景外观的简单照明模型Radenovic等人[33]恢复独立的白天和黑夜重建,但不能在两者之间进行平滑的外观插值。Laffont等人[23]为每个图像分配像“fall”或“sunny”这样的瞬时属性其他作品需要使用360度图像[14]或地面真实物体几何形状[48]估计的照明模型的直接监督。相比之下,我们使用数据驱动的隐式外观表示,它是从输入图像分布中学习的,不需要直接监督。pix2pix [16]的开创性工作训练了一个深度神经网络,使用成对的训练数据将图像从一个域(如语义标签)转换到另一个域(如现实图像)图像到图像(I2I)翻译已经应用于许多任务[5,24,32,49,47,50]。一些作品提出了im-6880我我改进以稳定训练并允许高质量的图像合成[18,46,47]。其他人将I2I框架扩展到来自两个域的图像不对应的未配对设置[21,26,52],输入图像可以映射到多个图像的多模态输出[46,53],或者具有多模态输出的未配对数据集,其中一个域中的图像被转换到另一个域,同时保留内容[2,15,25]。图像平移技术可用于在更逼真的领域中重新渲染场景,以实现面部表情合成[20],修复捕获的3D性能中的伪影[28],或添加视点相关效果[44]。在我们的论文中,我们展示了一种在野外训练神经再现框架的方法,用不受控的数据代替在恒定照明条件下的捕获我们将其转换为多模态图像合成问题,其中给定的视点可以使用潜在外观向量在多个外观下渲染,并且通过将输出调节为输出的所需语义标签来具有可编辑的语义3. 总场景捕获我们定义的问题,总的场景捕捉为创建一个生成模型的所有图像的一个给定的场景。我们希望这样的模型:– 对场景的3D结构进行编码,使得能够从任意视点进行渲染,– 捕捉场景的所有可能的外观,例如,所有照明和天气条件,并允许渲染场景下的任何一个,– 了解场景中瞬态物体的位置和外观,例如,行人和汽车,并允许再现或省略它们。虽然这些目标是雄心勃勃的,我们表明,一个可以创建这样一个生成模型给出足够的图像的场景,如那些获得的热门旅游地标。我们首先描述了一个神经重渲染框架,我们从以前在受控捕获设置[28]中的工作调整到更具挑战性的非结构化照片收集设置(第3.1节)。我们扩展了这个模型,以使不同外观下的渲染的外观捕获和多模式生成(第3.2节)。我们进一步扩展了模型,通过将其输入条件设定在地面实况图像(第3.3节)。3.1. 神经再现框架我们调整了最近的神经重渲染框架[20,28],以处理非结构化的照片集。给定场景的大型互联网照片集合{Ii},我们首先使用COLMAP [36,37,38]生成代理3D重建其应用运动恢复结构(SfM)和多视图立体(MVS)来创建密集的彩色点云。图2:标准图像翻译网络的输出帧[16]在一个包含250张圣马可照片的小数据集中训练神经重新渲染。该网络过度拟合数据集,并学习在场景中接近其近似位置的灯柱(绿色)和虚拟游客(黄色),以及记忆与特定输入照片匹配的每个视点外观。点云的替代方法是生成纹理网格[19,45]。虽然网格生成更完整的渲染,但它们往往也包含未配准的浮动几何体,这可能会遮挡场景的大区域[39]。正如我们稍后所展示的,我们的神经重渲染框架可以产生高度逼真的图像,只要输入点渲染即可。给定代理3D重建,我们通过从每个输入图像Ii的视点Vi渲染3D点云来生成渲染图像和真实图像的对齐数据集,其中Vi由经由SfM恢复的相机本征和外征组成我们为每个图像[35]生成延迟着色深度缓冲区Bi,其可以包含每像素的灰度、法线、深度和任何其他衍生信息。在我们的例子中,我们只使用了深度和深度,并通过使用半径为1像素的z缓冲区的点溅射来渲染点云。然而,[20,28]中使用的图像到图像转换范例不适合我们的用例,因为它假设输入和输出之间的一对一映射。从特定视点观察的场景可能会因天气、光照条件、色彩平衡、后处理滤镜等因素而大不相同。此外,一对一映射无法解释场景中的瞬态对象,例如行人或汽车,其位置和个体外观不可能单独从静态场景几何形状预测。有趣的是,如果一个人在数据集上训练一个足够大的神经网络来完成这个简单的任务,网络就会学会(1)通过记忆将视点与外观联系起来,以及(2)对瞬态对象的位置产生幻觉,如图2所示。3.2. 外观造型为了捕获输入视点(由其深度缓冲区Bi表示)与不同外观下的输出图像Ii之间的一对多关系,我们将重新渲染任务转换为多模态图像转换[53]。在这样的公式化中,目标是学习潜在外观向量Za,其捕获不能从输入域Bi推断出的输出域Ii中的变化。 我们将潜在外观向量计算为z a= E a(I i,B i),其中6881111我伊品 因1通过与第二图像的交叉循环来计算(I2,B2),即 兹扎=Ea(R(B2,za)),B2).我们还应用图3:使用运动结构(SfM)和多视图立体(MVS)创建对齐的数据集。我们的分阶段方法使用三元组损失(左)来预训练外观编码器Ea然后使用标准重建和GAN损失(右)训练重新渲染器R,最后与Ea一起微调。图片来源:Rafael Jimenez(Creative Commons)。Ea是外观编码器,其将输出图像Ii和深度缓冲器Bi两者作为输入。我们认为,使外观编码器Ea观察输入Bi允许它通过将Ii中的照明与Bi中的场景几何形状相关联来学习更复杂的外观模型。最后,重渲染网络R生成以视点Bi和潜在外观向量Za两者为条件的场景渲染。图3显示了整个过程的概述为了训练外观编码器Ea和渲染网络R,我们首先采用了来自多模态合成中的最近方法的元素[15,25,53],以找到在我们的场景中最有效的组合然而,这种组合仍然有缺点,因为它不能很好地模拟不常见的外观。例如,它不能可靠地捕捉我们数据集中场景的夜间外观。我们假设外观编码器(与渲染网络联合训练)没有足够的表现力来捕捉数据中的大变化。为了提高模型的表现力,我们的方法是通过在代理任务上独立地预训练外观网络Ea来稳定R和Ea的联合训练。然后,我们采用分阶段的训练方法,中间外观转移输出R(B2,z a)如[15,25]中所示。舞台表演训练我们舞台表演的关键ing方法是外观预训练阶段,其中我们在代理任务上独立地预训练外观编码器Ea。然后,我们训练渲染网络R,同时固定Ea的权重,允许R找到输出图像与代理任务产生的嵌入之间的最后,我们共同微调Ea和R。这种分阶段的方法简化并稳定了R的训练,使训练具有更少正则化项的更简单的网络成为可能。特别地,我们去除了循环和跨循环一致性损失、潜在向量反射损失和KL发散损失,仅留下直接重建损失和GAN损失。我们在第4节中通过实验证明,这种方法比基线模型有更好的外观预训练为了预训练外观编码器Ea,我们选择一个代理任务,该任务使用输入图像之间的合适距离度量来这种训练鼓励嵌入,使得如果两个图像在距离度量下接近,则它们的外观嵌入在外观潜在空间中也应该接近。理想情况下,我们选择的距离度量应该忽略Ii和Bi的内容或视点,因为我们的目标是编码独立于视点的潜在空间。实验上我们发现神经风格迁移研究中的风格损失具有这样的性质;它在很大程度上忽略了内容并集中于更抽象的属性。为了训练嵌入,我们使用三重损失,其中对于每个图像Ii,我们找到由风格损失给出的k个最近和最远相邻图像的集合,从中我们可以采样正样本Ip和负样本In,分别损失是:渲染网络R首先使用固定的外观嵌入进行训练,最后我们联合微调两个网络。这种分阶段训练制度允许一个更简单的模型,ΣL(Ii,Ip,In)=maxJ.Σgj−gj<$2−捕捉更复杂的外观。我们提出了我们的基线方法,它适应国家的最先进的多模态合成技术,然后我们的分阶段训练策略,它预训练的外观编码器上的代理任务。基线我们的基线使用BicycleGAN [53],有两个主要的调整。首先,我们的外观编码器还将缓冲器Bi作为输入,如上所述。其次,我们添加了类似于[15,25]的跨周期一致性损失,以鼓励跨视点的外观转移。令Za=Ea(I1,B1)是输入图像I1的捕获外观.我们在图像I1之间应用重建损失和交叉-c_(?)重建I_(? ) 1=R( B1 ,z_(?)a),其中z_(?)a其中gj是图像Ii的VGG网络的第j层处的作用的革兰氏矩阵,并且α是分离裕度。3.3. 语义制约为了说明场景中的瞬态对象,我们将重新渲染网络置于图像Ii的语义标记Si上,该语义标记Si描绘了诸如行人的瞬态对象的位置。具体而言,我们将语义标记Si连接到深度缓冲区Bi,无论深度缓冲区先前在何处使用。这阻止了网络对由瞬态对象在外观向量中的位置引起的变化进行编码,或者将这种瞬态对象与特定视点相关联,如图2所示。1 16882输入分段I2I +Sem +Sem+BaseApp +Sem+StagedApp地面实况图4:表1中消融研究的视觉结果示例。从左到右,输入颜色渲染,来自相应的地面实况图像的分割掩模,使用图像到图像基线(I2I)的结果,语义条件(+Sem),以及语义条件和基于[53]的基线外观建模(+Sem+BaseApp),语义条件和分阶段外观训练(+Sem+StagedApp)。照片制作人员名单:Flickr用户Gary Campbell-Hall、Steve Collis和Tahbepet(Creative Commons)。语义标记的另一个好处是,它允许重新渲染网络推理场景中未在3D重建中捕获的静态对象,例如圣马可广场上这可以防止网络随意引入这些对象,而是让它们出现在语义标签中检测到的位置,这是一个非常简单的任务。此外,通过将分割标记添加到深度缓冲区,我们允许外观编码器在计算外观特征向量时推理天空或地面等语义类别我们使用在ADE 20K [ 51 ]上训练的DeepLab [ 3 ]计算ADE20K包含150个类,我们将其映射到3通道彩色图像。我们发现,语义标记的质量是穷人的地标本身,因为他们包含独特的建筑物和功能,但在短暂的对象是使用语义条件反射,重渲染网络将场景的语义标记作为输入。 为了重新渲染虚拟摄像机路径,我们需要合成虚拟摄像机路径中每个帧的语义标记。为此,我们训练了一个单独的语义标记网络,将深度缓冲器B i而不是输出图像Ii作为输入,并且在给定渲染的深度缓冲器B i的情况下估计该视点的“合理的”语义标记S i i。对于sim-为了简单起见,我们在来自对齐数据集的样本(Bi,Si)上训练具有与渲染网络相同架构的网络(减去注入的外观向量),并且我们修改了地面实况图像Si的语义标签,并屏蔽了标记为瞬态的像素上的损失,如ADE 20K中瞬态对象类别的策划列表所定义的4. 评价在这里,我们提供了一个广泛的评估我们的系统。还请参考补充视频,以最好地评价结果的质量,可在项目网站上获得:https://bit.ly/2UzYlWj。实现细节我们的重新渲染网络是一个具有跳过连接的对称编码器-解码器,其中生成器采用[18],而不使用渐 进 式 增 长 。 我 们 使 用 具 有 3 个 尺 度 的 多 尺 度patchGAN判别器[46]并采用LSGAN [27]损失。作为重建损失,我们使用感知损失[17]评估。[1][2][3][4][5][6][7][8][9][10]外观编码器架构采用[25],并且我们使用潜在外观向量za∈R8。我们在8个GPU上训练,使用256×256作物的输入图像,但我们在测试时显示高达600×900的令人信服的结果分级训练网络的生成器运行时间为330 ms对于没有fp16优化的TitanV上的512x512帧。架构和培训细节可在补充材料中找到。数据集我们在用COLMAP [36]从公共图像重建的五个数据集上评估了我们的方法,总结在表1中。为每个数据集训练单独的模型。我们通过渲染重建的点云来创建对齐的数据集,最小尺寸为600像素,并丢弃稀疏渲染(>85%的空像素)和小图像(450像素)。我们随机选择每个数据集100个图像的验证集。烧蚀研究我们对我们的系统进行了烧蚀研究,并比较了图4中提出的方法。的6883I2I +Sem +Sem+BaseApp +Sem+StagedApp数据集图像数量点数VGGL1PSNRVGGL1PSNRVGGL1PSNRVGGL1PSNRSacre Coeur116533M70.7839.9814.3666.1734.7815.6260.0621.5818.9861.2325.2217.81特莱维300635M86.5242.9514.1481.8236.4615.5779.1028.1217.3775.5525.0018.19万神殿49729M68.2839.7714.5067.4736.2715.1364.0628.8516.7660.6623.7717.95杜布罗夫尼克589133M78.4240.6014.2178.5839.8814.5176.6134.5715.3871.6527.4817.01圣马可77117M80.1844.0413.9778.3639.3414.5870.3526.2417.8768.9623.1118.32表1:使用VGG/感知损失(越低越好)、L1损失(越低越好)和PSNR(越高越好)的验证集的数据集统计(配准图像数量和重建点云大小)和平均误差,四种方法:图像到图像基线(I2 I)、语义条件(+Sem)、语义条件和基于[53]的基线外观建模(+Sem+BaseApp),以及语义条件反射和分阶段外观训练(+Sem+StagedApp)。.图5:固定视点的外观插值示例。从真实图像中捕获最左和最右的外观,并且通过在潜在空间中线性插值外观来生成中间帧。请注意,基线方法无法捕捉复杂的场景,如日落和夜景,并且其插值相当线性,如在路灯中可以欣赏到分阶段训练方法表现更好,但在白天和夜晚外观之间进行插值时会在天空中生成黄昏伪影(底部)。图像到图像平移基线方法的结果包含靠近地面的附加模糊伪像,因为它使行人的位置产生幻觉。使用语义条件反射,这些区域的结果略有改善。最后,对输入照片的外观进行编码,使网络能够匹配外观。分阶段训练在San Marco和Pantheon数据集中恢复了更接近的外观(底部两行)。然而,在最小的数据集SacreCoeur(顶行)中,基线外观模型能够更好地捕获图像的一般外观,尽管分阶段训练模型以更高的保真度再现照明的方向性。重建度量我们使用几个度量在验证集中报告图像重建错误:感知损失[17],L1损失和PSNR。我们从源图像中使用地面真值语义掩码,并使用外观编码器提取表观特征潜在向量除了最小的数据集(Sacre Coeur)之外,外观的分阶段训练都比基线更好,其中分阶段训练过度拟合训练数据并且无法泛化。基线方法假设先验分布为潜在的空间,并且不太倾向于以外观的较差建模为代价的过拟合外观插值重新渲染网络允许通过插值两个图像的潜在外观向量来插值两个图像的外观。图5描绘了两个示例,示出了分阶段训练方法能够生成更复杂的外观变化,尽管其生成的插值在白天和黑夜之间转换时缺乏真实感。在下文中,我们只显示了阶段训练模型的结果。外观转移图6演示了我们的完整模型如何将给定照片的外观转移到其他照片。它从五个不同的角度展示了特莱维喷泉的逼真效果图,四种不同的外观来自其他照片。 请注意阳光灿烂的亮点和聚光灯夜间照明外观的状态。然而,当合成平滑的相机路径或平滑地内插潜在空间中的出现时,这些细节可能闪烁,如在补充视频中所见上演基线上演基线6884图6:我们在左列中捕获原始图像的外观,并重新渲染它们下面的几个视点最后一列是前一列的详细信息。最上面一行显示了重新渲染器输入的渲染部分,显示了像雕像中不完整的特征这样的伪像,以及白天和黑夜外观的不一致混合。注意使用最后一次出现的天空中的幻觉黄昏场景。图片来源:Flickr用户William Warby,Neil Rickards,Rafael Jimenez,acme401(Creative Commons)。相框0框20框40框60框80相框100照片图7:来自合成相机路径的帧,通过平滑地内插视点和潜在外观向量,从左侧的照片平滑地过渡到右侧的照片请看补充视频。照片制作人员名单:Allie Caulfield,Tahbepet,Till Westermayer,Elliott Brown(Creative Commons).图像插值图7显示了两个图像的集合以及它们之间的平滑图像插值帧,其中视点和外观在它们之间平滑过渡。请注意场景的照明如何从夜晚平滑过渡到白天。的质量最好在补充视频中了解结果。语义一致性图8显示了具有地面实况和预测分割掩码的分阶段训练模型的输出。使用预测的遮罩,网络在建筑物上产生类似的结果,并渲染一个没有人的场景。然而,请注意,当行人出现在分割掩码中时,网络如何将他们描绘成黑色的幽灵般的人物。(a) (b)具有预测的分割图8:示例语义标记和输出渲染,当使用从对应的真实图像(来自验证集)和预-从相关的深缓冲区中指定一个。请注意右下角的人工制品,其中地面被错误地分类为建筑物。6885(a) 神经伪影(a) [39](b)我们的(c)原始图像图9:[39]和我们方法的比较。第13章:原始照片2002年4月:详细的作物。图片来源:Graeme Churchard,Sarah-Rose(Creative Commons).与3D重建方法的比较我们对Shan等人的技术进行了评估。[39]包含3K图像,10M彩色顶点和48M三角形,由Flickr,Google街景和航拍图像生成。 他们的3D表示是一个密集的顶点着色网格,其中的顶点和顶点法线与一个简单的8维照明模型(漫射,加上定向光)一起共同恢复,用于照片集中的每个图像。图9比较了两种方法和原始地面实况图像。他们的方法在斗兽场的顶部边缘受到浮动的白色几何的影响,并且没有那么详细,尽管它比我们的方法更好地恢复了照明,这要归功于其明确的照明推理。注意,两个模型都访问测试图像以计算照明系数和外观潜在向量,在两种情况下都具有8维,并且我们使用来自Bi的预测分割标记。我们对20组随机输出图像进行了随机用户研究,这些图像不包含人物或汽车的特写镜头,也不在我们的训练集中。对于每一个视角,200名参与者选择“哪张照片看起来最真实?“他们的系统和我们的系统之间的输出(没有看到原始的)。受访者更喜欢我们的系统生成的图像a69. 9%的时间,我们的技术在所有图像上都是首选的,只有一个图像除外我们在补充材料中展示了用户研究的20个5. 讨论我们的系统(b) 稀疏重建(c)分割伪影图10:当前系统的局限性。分割我们的模型在很大程度上依赖于分割掩码来合成代理几何中未建模的图像部分,如地面或天空区域。因此,我们的结果对分割网络中的错误非常敏感,如图10c中的天空区域或圣马可出现的联合训练神经再渲染器和分割网络可以减少这种伪影。已知神经网络会产生屏蔽门模式[30]和其他有趣的伪像[29]。我们在重复的结构中观察到这样的文物,就像圣马可广场地板上的图案,在我们的渲染中,这些图案是错位的,就像是手绘的一样。同样,特莱维喷泉上方的铭文也是用扭曲的字体复制的(见图10a)。不完整的重建有时图像包含3D模型的部分重建部分,在渲染的Bi中产生大的孔。这迫使网络对不完整的区域产生幻觉,通常会导致模糊的输出(见图10 b)。时间伪影当平滑地改变视点时,有时场景的外观可能会出现相当大的闪烁,特别是在复杂的外观下,例如当太阳照射到许愿池时,会产生复杂的高光和阴影。请看补充视频的例子。总之,我们提出了解决总场景捕捉问题的第一次尝试使用非结构化的互联网照片,我们可以训练一个神经重渲染网络,该网络能够在不同的光照条件下生成高度逼真的场景。我们提出了一种新颖的分阶段训练方法,可以更好地捕捉互联网照片中所见的场景外观。最后,我们在五个具有挑战性的数据集上对我们的系统进行了评估,并与最先进的3D重建方法进行了比较。6886引用[1] S. 阿加瓦尔 N. 狡猾 I. 赛门, S. M. 塞茨,和R.塞利斯基 罗马在一天之内建成 ICCV,2009年。一、二[2] A. Almahairi,S. Rajeshwar,A.索尔多尼山口巴赫曼,以及A.考维尔增强循环GAN:从非配对数据学习多对多映射。在ICML,2018。3[3] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。DeepLab:使用深度卷积网络,atrous卷积和完 全连接的 crfs 进行 语义图像 分割。IEEE Trans.PAMI,2018. 5[4] P. E. 德贝韦茨角J. Taylor和J.马利克从照片中建模和渲染 建 筑 : 基 于 几 何 和 图 像 的 混 合 方 法 。 在Proc·SIGGRAPH,1996中。2[5] H. Dong,S.Yu,C.Wu和Y.小郭。通过对抗学习进行语义图像InICCV,2017. 2[6] S. A. Eslami,D. J. Rezeland,F. Besse,F. Viola、A. S.Mor- cos,M. Garnelo,A. Ruderman,A. A.鲁苏岛丹妮赫卡K. Gregor等人神经场景表示和渲染。科学,2018。2[7] Y. Furukawa和J.庞塞精确、密集和强大的多视图立体视觉。IEEE Trans. PAMI,2010年。2[8] R. Garg,H.Du,S.M. Seitz和N.很聪明场景外观的维度。ICCV,2009年。2[9] L. A. Gatys,A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在CVPR,2016年。二、四[10] S. J. 戈特勒河格热什丘克河Szeliski和M.F. 科恩光显仪。在Proc·SIGGRAPH,1996中。2[11] D. 豪格 S. Wehrwein, P·厄普丘奇, K. Bala和N. 很聪明使用户外照明模型对照片集合进行推理InBMVC,2014. 2[12] P. Hedman,J.Philip,T.Price,J. -M. Frahm,G.Drettakis,以及G.布罗斯托自由视点图像渲染的深度混合。在Proc.SIGGRAPH,2018年。2[13] V.H.的希普河Keriven,P. Labatut和J.- P. Pons. 走向高分辨率大规模多视点立体。CVPR,2009。2[14] Y. Hold-Geoffroy , K. Sunkavalli , S. Hadap , E.Gambaretto 和 J. - F. 拉 隆 德 深 度 室 外 照 明 估 计 。 在CVPR,2017年。2[15] X. 黄文Y. Liu,S.Belongie和J.考茨多模态无监督图像到图像翻译。在ECCV,2018。二、三、四[16] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR,2017年。二、三[17] J. Johnson,A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。在ECCV,2016年。五、六[18] T. Karras,T. Aila,S. Laine和J.莱赫蒂宁GAN的逐步增长,以提高质量、稳定性和多样性。在ICLR,2018年。三、五[19] M. Kazhdan,M. Bolitho和H.霍普泊松曲面重建在proc2006年,欧洲图形学研讨会上的岩土工程处理。36887[20] H. Kim,P.Garrido,A.Tewari,W.徐,J.Thies,M.尼斯纳P. 佩雷斯角里查德,M。 Zollh oüfer和C. 希奥博尔特深度视频肖像。在Proc. SIGGRAPH,2018年。二、三[21] T.金,M。Cha,H.金,J. K. Lee和J. Kim。学习发现跨域关系与生成对抗网络。ICML,2017。3[22] P. - Y. Laffont,A.Bousseau,S.Paris,F.Durand和G.恐怖 的 。 来 自 照 片 集 的 连 贯 的 内 在 图 像 。 InProc.SIGGRAPH Asia,2012. 2[23] P. - Y. Laffont,Z.Ren,X.陶角,澳-地Qian和J.海斯瞬态属性,用于户外场景的高级理解和编辑InProc.SIGGRAPH,2014. 2[24] C. 莱迪格湖Theis,F.Husza'r,J.Caballero,A.坎宁安A.阿科斯塔A. P. Aitken,A. Tejani,J. Totz,Z. wang等人使用生成对抗网络的照片级真实感单幅图像超分辨率。在CVPR,2017年。2[25] H.- Y. 李,H.-Y. Tseng,J. -B. Huang,M.K. Singh和M.-H.杨通过解纠缠的表示进行不同的图像到图像的翻译。在ECCV,2018。二三四五[26] M.- Y. Liu,T. Breuel和J.考茨无监督图像到图像翻译网络。NeurIPS,2017。3[27] X.茅角,澳-地Li,H.谢河,巴西-地Y. Lau,Z. Wang和 S.史莫 利。最小 二乘生 成对抗 网络。InICCV,2017.5[28]R. 马丁-布鲁阿拉河 Pandey,S. Yang,P. 皮德利彭斯基,J.泰勒,J. Valentin,S. Khamis,P. Davidson,A. 特卡奇,P. Lincoln,A.Kowdle角Rhemann,D.B. 戈德曼角Ke-skin,S.塞茨河Izadi和S.法内洛LookinGood:通过实时神经重新渲染增强性能捕获。InProc. SIGGRAPH Asia,2018. 二、三[29] A.莫尔德温采夫角Olah和M.泰卡猜想主义:更深入地研究神经网络。Google Research Blog. 2015年6月重新试用。8[30] A. Odena,V. Dumoulin和C.奥拉反卷积和棋盘式伪影。Distill,2016. 8[31] E. Park,J. Yang,E. Yumer,D. Ceylan和A. C. 伯格。基于变换的图像生成网络用于新颖的3D视图合成。在CVPR,2017年。1[32] D.作者:P. Krahenbuhl,J.多纳休,T. Darrell和A. A.埃夫罗斯上下文编码器:通过图像修复进行特征学习。在CVPR,2016年。2[33] F. Raden o v ic',J. L. Schoenbe rge r,D. 吉,吉- M. 弗拉姆O. Chum和J.马塔斯 从黄昏到黎明:在黑暗中建模。在CVPR,2016年。2[34] H. Rhodin,M. Salzmann和P.呸用于3D人体姿态估计的无监督几何感知表示学习。在ECCV,2018。1[35] T. Saito 和 T. 高 桥 3-D 形 状 的 可 理 解 渲 染 在 Proc.SIGGRAPH,1990中。二、三[36] J.L.Schoénberger.科 尔 地 图 。http://colmap.github。 io,2016. 三、五[37] J. L. Schonbe r ger和J. - M. 弗拉姆结构从运动重新审视。在CVPR,2016年。3[38] J. L. Schoenbe rge r,E. Zheng,M.,中国科学院昆虫研究所所长。 Pollef eys和J. - M. 弗拉姆用于非结构化多视图立体的像素视图选择。在ECCV,2016年。二、三6888[39] Q.尚河亚当斯湾,澳-地Curless,Y. Furukawa和S. M.塞茨用于场景重建的视觉图灵测试。在Proc.3DV,2013中。一二三八[40] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。CoRR,2014年。5[41] N. Snavely,S. M. Seitz和R.塞利斯基摄影旅游:在3D中浏览照片集。在Proc. SIGGRAPH,2006年。1[42] K. Sunkavalli,W.马图西克Pfister和S. 鲁辛凯维奇定时拍摄的视频在Proc. SIGGRAPH,2007中。2[43] M. Tatarchenko,A.Dosovitskiy和T.布洛克斯使用卷积网络从单个图像创建多视图在ECCV,2016年。1[44]J. Thies,M. Zollh oüfer,C. Theobal t,M.Stamminger,以及M.尼斯纳IGNOR:图像引导的神经对象渲染。arXiv 2018,2018. 二、三[45] M. Waechter,N. Moehrle和M. Goesele要有颜色!3D重建的大规模纹理化。2014年,在ECCV。3[46] T.- C.王兆国Y.刘杰- Y. Zhu,中国茶青冈A. Tao,J. Kautz和B. 卡坦扎罗基于条件gans的高分辨率图像合成与在CVPR,2018年。三、五[47]T.- C. 王兆国Y. 刘杰-Y. Zhu,N.Yakovenko,A.道:J. Kautz和B.卡坦扎罗 视频到视频合成。 在NeurIPS,2018。二、三[48] T. Y. Wang,T. Ritschel和N. J. Mitra联合材料和照明估计从照片集在野外。在Proc. 3DV,2018中。2[49] X. Wang和A.古普塔。使用样式和结构对抗网络的生成图像建模。在ECCV,2016年。2[50] Z. Zhang, Y. Song和H.气条件对抗自动编码器的年龄进展/回归。在CVPR,2017年。2[51] B. Zhou,H.Zhao,X.普伊格S。菲德勒,A.Barriuso和A.托拉尔巴。通过ADE20K数据集进行场景解析。在CVPR,2017年。5[52] J. - Y. Zhu,T.帕克山口Isola和A.A. 埃夫罗斯使
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功