没有合适的资源?快使用搜索试试~ 我知道了~
11441用于高效3DCG背景创建的青木庆应义塾大学{nakimoto,ymatsuo}@ aoki-medialab.jp,aoki@elec.keio.ac.jp图1.我们从一个狭窄的视野图像生成的合理的环境,使用基于变换的outpainting方法,考虑到360度图像的性质,实现高效的3DCG场景创建。另请参阅补充视频中的演示摘要我们解决的问题,生成一个360度的图像,从一个单一的图像与一个狭窄的视野,通过估计其周围环境。以前的方法遭受过拟合的训练分辨率和确定性generation。 本文提出了一种使用Transformer完成场景建模的方法,并提出了改进输出图像上360度图像特性的新方法。 具体来说,我们使用带有Transformer的CompletionNets 来 执 行 不 同 的 补 全 , 并 使 用 Adjust-mentNet来匹配输入图像的颜色、拼接和分辨率,从而实现任何分辨率的推断。为了改善输出图像上360度图像的属性,我们还提出了WS-感知损失和循环干扰。彻底的实验表明,我们的方法执行国家的最先进的(SOTA)的方法在定性和定量。例如,与SOTA方法相比,我们的方法完成的图像分辨率大16倍,而Frechetinceptiondistance(FID)低1.7倍此外,我们提出了一个管道,使用完成结果的照明和背景的3DCG场景。我们的似是而非的背景完成,使知觉自然的结果,在应用程序中插入虚拟对象与镜面。1. 介绍在最近的三维计算机图形(3DCG)制作中,360度图像有助于有效地创建照明和背景。例如,设计者可能花费大量时间在近场中创建3D对象,并通过使用具有窄视场(NFoV)图像或360度图像的2D图像来然而,通过将2D图像放置在3D对象后面来创建背景的生产方法不能完全表示3D对象的表面上反射的风景。当然,这个问题不会发生如果图像360度环绕物体。然 而 , 360 度 图 像 , 特 别 是 高 动 态 范 围 图 像(HDRI),通常比NFoV图像更昂贵。本文解决了将NFoV图像转换为360度图像的问题,通过补充其表面以获得与作为部分背景给出的图像一致的360度环境(图1)。通过解决这个问题,用户可以仅使用NFoV图像将周围环境反射到对象[1,24],或者在HDRI的情况下,通过基于图像的照明实现自然阴影和全局照明[6,24]。为了供设计者使用,期望推断任何尺寸的NFoV图像并且通过生成多样化的360度图像来进行选择。然而,现有的方法是阻止-11442×××××图2.现有方法的局限性(a)CNN方法[1]和(b)基于变换器的翻译方法[4]在训练期间遭受对分辨率的过拟合(512 256)。此外,委员会认为,(b)两端之间没有连接在他们的估计中是最小的,并且只能正确地推断训练的分辨率。例如,如图2所示,在512 256处训练的360IC [1]在1024 512处产生许多伪像。我们认为这是由于等矩形投影(ERP)造成的失真。基于上述,我们的目标是实现具有以下两个属性的360度图像的外画。(1)采样不同的输出为一个单一的输入和(2)推断任意决议。我们方法的关键思想是将变换器[29]引入到用于不同输出的外画方法中。在以前的作品中,TT [4]是一种图像到图像的转换方法,它具有一个Transformer,可以通过从学习的分布中采样来生成各种然而,如图2(b)所示,单独的TT与输入图像不够一致,并且它只能生成固定大小的图像。因此,我们不能直接将TT引入到我们的任务中,分辨率问题仍然存在。为了解决引入Transformer的技术问题,我们提出了一个附加网络作为第二阶段。具体来说,我们提出了一个框架 , 包 括 CompletionNets 和 Ad-justmentNet 。(1)CompletionNets是一个图像补全模块,它使用与TT相 同 的 网 络 和 两 种 稍 后 提 出 的 新 技 术 。(2)AdjustmentNet改进了CompletionNets的输出结果与输入图像之间的颜色、拼接和分辨率的一致性。由于AdjustmentNet将CompletionNet的固定大小输出调整为输入图像的大小,因此我们可以获得任何图像分辨率的完成结果。此外,由于上述框架还没有充分考虑360度图像的独特属性,我们为此提出了两种新的技术。首先,为了实现图像两端的连续性,这是360度图像的一个属性,我们提出了圆形的作为Transformer的新的自回归阶数。它通过在循环图像的同时进行推理,在像素和语义级别上其次,为了进一步提高感知质量,我们提出了一个WS-感知损失函数来训练CompletionNets。该损失函数反映了360度图像沿纬度方向具有不同的信息内容,并通过专注于计算信息丰富区域中的损失来提高360度图像建模的性能。实验结果表明,该方法不仅可以在任意分辨率下完成不同的补全任务,而且在定性和定量上都优于现有的几种补全方法例如,就FID分数而言,我们的方法显示出比360IC低1.7%的改进,并且对于具有EnvMapNet[24](256 128)的16倍像素(1024 512)的图像实现了合理的完成。此外,我们提出了一个管道来创建一个HDR环境地图从一个单一的NFoV图像,并使用它作为照明和背景在3DCG。实验结果表明,该方法达到了360度全景图像的质量要求,可用于3DCG,有利于背景的高效生成。所提出的方法产生一个合理的360度图像,并提供各种完成的结果,允许设计者选择他们的首选结果。考虑到这些特性,我们最后讨论了潜在的应用。我们的贡献可归纳如下:• 我们提出AdjustmentNet将一个Transformer引入到360度图像外绘中,这使得能够实现不同和任意分辨率的输出。• 我们提出了两种新的技术来获取360度图像的属性:用于训练CompletionNets的WS感知损失和用于Transformer的循环推断。这些使我们能够在定量和定性上优于以前的方法• 我们证明了我们的高分辨率和合理的完成呈现自然的场景,即使镜面虚拟对象接近相机或相机的意见,所有周围的3DCG场景。2. 相关工作图像完成。图像修复是用适当的像素填充缺失区域的任务[2,8]。基于学习的图像修复[10,13,19]是在大型数据集上进行CNN训练的,最近得到了广泛的研究。此外,已经提出了基于注意力的图像修复,并显示出有希望的结果[16,38]。然而,大多数使用GAN训练CNN的方法都会产生确定性的输出。换句话说,这些方法对于输入图像仅输出一个结果。PIC [41],in11443∈∈∈∈∈∈图3. 框架概述。我们的方法包括两个模块 : CompletionNets 和 AdjustmentNet 。CompletionNets可以从固定大小的图像输入中采样各种完成结果。AdjustmentNet提高了CompletionNet输出和输入图像之间的颜色、拼接和分辨率的一致性相反,通过采用CVAE输出多个结果[23]。图像外绘是一个外推问题,它生成输入图像的周围环境。该任务可以包括图像扩展[27,32],新视图合成[34],无限景观生成[15,36]和全景生成[14,22]。与我们的工作类似的任务是生成提供360度视角的摄像机。然而,ERP图像在图像的顶部和底部具有显著的失真,因此,全景图像不能用作ERP图像。使用Transformer完成图像是另一个最近研究的主题[3,4,30],具有以下两个主要优点。(1)非局部注意力可以帮助生成全局结构和上下文一致性。(2)从Transformer学习的分布中采样,导致比CVAE更多样化的完成,如[30]所验证的。相比之下,Transformer的缺点是当处理大图像时需要巨大的计算成本。此外,基于变换器的图像到图像转换(Im2Im)[4,20]对连续输入区域中的像素进行重新采样,导致与原始像素的一致性损失。然而,上述图像完成工作将其方法设计为平面图像。换句话说,生成的结果缺乏360度图像的属性,例如图像两端之间的连接以及投影引起的纬向失真。相比之下,我们的方法可以通过引入一个Transformer到一个图像outpaint- ing,同时考虑360度的属性,可实现完整的360度图像。360度图像外绘。360度图像外绘是完成局部360度图像的外环境绘制的任务逆渲染[21,33]和光照估计[5,6,12,25]执行完成360度图像的任务,作为通过360度图像(环境地图)表示光照的中间任务然而,这些方法不能预测高频纹理,并且图像分辨率小。与我们的工作类似的是专注于像素完成的任务[1,7,24]。这些是考虑360度图像属性的图像完成方法。360IC和SIG-SS [7]采用技术来改善360度图像两端的连续性。EnvMapNet通过加权来像素损失来解释由于投影引起的纬度信息密度的差异。然而,除了SIG-SS使用CVAE对对称性强度进行采样之外,这些方法都是确定性输出。然而,它们在训练过程中会对图像分辨率过度拟合。3. 方法我们通过完成NFoV图像的周围区域来生成360度图像。在这项工作中,360度图像是ERP图像。同样,我们的目标是为单个输入图像获得多个不同的输出,并在不同于训练分辨率的任意分辨率我们的方法是使用Transformer执行场景的各种完成。TT已经表明,不同的完成是可能的,与Im2Im使用变压器。但是,正如在Sec中提到的。如图1和图2所示,基于变换器的Im2Im在过拟合训练分辨率和与输入像素的一致性方面不适合于360度图像因此,我们提出了一个框架扩展AdjustmentNet来解决问题(第二节)。第3.1节)。此外,我们提出了一个新的损失,WS-感知损失(秒。3.2),和一个新的推理方法的Transformer,循环推理(节。3.3),以将360度图像的属性反映到输出。概况. 图3显示了我们提出的框架的概述。整个框架的输入是一个不完整的图像x′RH×W ×3。在训练过程中,我们从ERP图像xRH×W ×3中裁剪一些区域,用灰度值填充剩余区域。输出yRH×W ×3是完整360度场景的恢复图像。我们的方法包括两个模块:CompletionNets 和AdjustmentNet。首先,我们将不完整的输入图像x′缩小到固定大小,并将其用作CompletionNets的输入。CompletionNets完成不完整的图像x′dRh×w ×3使用Transformer。因为com-填充的图像x填充的rh×w×3是固定大小的,我们用放大到输入图像的原始大小接下来,为了在不同于训练分辨率的任意分辨率下进行推理,AdjustmentNet使用完成的图像xRH×W×3和输入图像x′,以根据11444×lu,vΣΣLLLL∈Q||∈LL2HlWlWS-Percwl′u,vLLUV2输入图像x′。它还执行拼接和颜色校正以获得最终输出。3.1. 模型架构CompletionNets。CompletionNets的主要网络结构与TT相同:两个VQGAN [4]和一个Transformer。TT的方法是矢量量化的图像建模,它对一系列量化的图像进行建模。VQGAN是一种在编码器-解码器CNN的瓶颈处使用特征量化机制[28]来获得图像令牌的网络。在我们的CompletionNets中,VQGAN1对不完整的图像进行编码,VQGAN2对完整的特征进行解码。纬度方向。以前的方法[6,24]对像素级差分损失(如L1损失)进行加权,以说明它们在球体上的投影。然而,高层次的功能,如语义,也应该围绕中心区域建模因此,WS-感知损失是感知损失(LPIPS)[40]对单位球体上损失的扩展,如下所示:类似于WS-PSNR[26],我们准备以下权重来考虑到球体上的投影。其中,u和v是特征提取器的第l层中的特征(大小H lW l)上的位置。 我们使用Eq。1至衡量感知损失LPerc=1∥w l⊙将固定大小的图像作为输入和输出,考虑到VQGAN也过拟合训练分辨率问题,这可能是由于ERP表示的固有失真(yuv − xuv)在每种分辨率下为<$2。L=1w′w(yl−xLu,v)2.(二)并使用WS感知损失进行训练和循环推理进行推理。我们的Transformer将360度图像的场景建模为一系列量化特征,并通过从学习的分布中采样来执行不同的图像完成。AdjustmentNet. 为了实现任意图像大小的补全,我们提出了AdjustmentNet,一个改进补全网输出和输入区域之间一致性的网络。在采用两个阶段[30,37]的高分辨率图像完成方法中,第二阶段的主要作用是通过添加高频分量来细化输出然而,如图4、仅应用超分辨率对于我们的方法是不够的。图图4(a)示出了放大的完成图像和输入区域的合成图像图4(b)表明,即使使用超分辨率的SOTA方法[31],单独的细化也是不够的。其中一个原因是Transformer不仅对完成区域而且对输入区域进行重新采样。结果,预测完成的区域以适合重新采样的输入区域,并且不匹配原始输入图像。相比之下,我们调整CompletionNets的输出,以在颜色,拼接和分辨率方面与输入图像相匹配该网络是在与VQGAN相同的CNN结构中实现的U网结构,而没有VQ机制[28]。3.2. 培训WS-感知损失。VQGAN是一种用于获得图像特征的量化向量的网络,其使用CNN对图像的局部区域进行建模。TT提出了一种使用对抗损失GAN、L1损失1、感知损失Perc和VQ损失VQ的自监督方式。相比之下,我们提出了一种新的损失函数,WS-感知损失,适当地模拟ERP表示的局部区域该损失函数反映了ERP表示的性质,即每个区域中的信息量存在差异,VQGAN。 我们训练VQGAN 1和VQGAN 2,它们都有编码器和解码器,LVQGAN = λGANLGAN + λ1L1 + λVQLVQ + λWS-PercLWS-Perc.VQGAN1学习重建缺失的360度图像 区域 到 获得量化 特征 zqRhq×wq×nz。相比之下,VQGAN 2学习重构完整的360度图像以获得解码器,该解码器从量化特征zqRhq×wq×nz获得完整的360度图像。Transformer。我们训练Transformer对360度场景建模并执行补全。使用从zq到zq的变换作为监督,模型学习预测指数s
下载后可阅读完整内容,剩余1页未读,立即下载
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)