高效3DCG背景创建方法

148 浏览量更新于2023-10-25 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11441用于高效3DCG背景创建的青木庆应义塾大学{nakimoto，ymatsuo}@ aoki-medialab.jp，aoki@elec.keio.ac.jp图1.我们从一个狭窄的视野图像生成的合理的环境，使用基于变换的outpainting方法，考虑到360度图像的性质，实现高效的3DCG场景创建。另请参阅补充视频中的演示摘要我们解决的问题，生成一个360度的图像，从一个单一的图像与一个狭窄的视野，通过估计其周围环境。以前的方法遭受过拟合的训练分辨率和确定性generation。本文提出了一种使用Transformer完成场景建模的方法，并提出了改进输出图像上360度图像特性的新方法。具体来说，我们使用带有Transformer的CompletionNets 来执行不同的补全，并使用 Adjust-mentNet来匹配输入图像的颜色、拼接和分辨率，从而实现任何分辨率的推断。为了改善输出图像上360度图像的属性，我们还提出了WS-感知损失和循环干扰。彻底的实验表明，我们的方法执行国家的最先进的（SOTA）的方法在定性和定量。例如，与SOTA方法相比，我们的方法完成的图像分辨率大16倍，而Frechetinceptiondistance（FID）低1.7倍此外，我们提出了一个管道，使用完成结果的照明和背景的3DCG场景。我们的似是而非的背景完成，使知觉自然的结果，在应用程序中插入虚拟对象与镜面。1. 介绍在最近的三维计算机图形（3DCG）制作中，360度图像有助于有效地创建照明和背景。例如，设计者可能花费大量时间在近场中创建3D对象，并通过使用具有窄视场（NFoV）图像或360度图像的2D图像来然而，通过将2D图像放置在3D对象后面来创建背景的生产方法不能完全表示3D对象的表面上反射的风景。当然，这个问题不会发生如果图像360度环绕物体。然而， 360 度图像，特别是高动态范围图像（HDRI），通常比NFoV图像更昂贵。本文解决了将NFoV图像转换为360度图像的问题，通过补充其表面以获得与作为部分背景给出的图像一致的360度环境（图1）。通过解决这个问题，用户可以仅使用NFoV图像将周围环境反射到对象[1，24]，或者在HDRI的情况下，通过基于图像的照明实现自然阴影和全局照明[6，24]。为了供设计者使用，期望推断任何尺寸的NFoV图像并且通过生成多样化的360度图像来进行选择。然而，现有的方法是阻止-11442×××××图2.现有方法的局限性（a）CNN方法[1]和（b）基于变换器的翻译方法[4]在训练期间遭受对分辨率的过拟合（512 256）。此外，委员会认为，(b)两端之间没有连接在他们的估计中是最小的，并且只能正确地推断训练的分辨率。例如，如图2所示，在512 256处训练的360IC [1]在1024 512处产生许多伪像。我们认为这是由于等矩形投影（ERP）造成的失真。基于上述，我们的目标是实现具有以下两个属性的360度图像的外画。(1)采样不同的输出为一个单一的输入和（2）推断任意决议。我们方法的关键思想是将变换器[29]引入到用于不同输出的外画方法中。在以前的作品中，TT [4]是一种图像到图像的转换方法，它具有一个Transformer，可以通过从学习的分布中采样来生成各种然而，如图2（b）所示，单独的TT与输入图像不够一致，并且它只能生成固定大小的图像。因此，我们不能直接将TT引入到我们的任务中，分辨率问题仍然存在。为了解决引入Transformer的技术问题，我们提出了一个附加网络作为第二阶段。具体来说，我们提出了一个框架，包括 CompletionNets 和 Ad-justmentNet 。(1)CompletionNets是一个图像补全模块，它使用与TT相同的网络和两种稍后提出的新技术。(2)AdjustmentNet改进了CompletionNets的输出结果与输入图像之间的颜色、拼接和分辨率的一致性。由于AdjustmentNet将CompletionNet的固定大小输出调整为输入图像的大小，因此我们可以获得任何图像分辨率的完成结果。此外，由于上述框架还没有充分考虑360度图像的独特属性，我们为此提出了两种新的技术。首先，为了实现图像两端的连续性，这是360度图像的一个属性，我们提出了圆形的作为Transformer的新的自回归阶数。它通过在循环图像的同时进行推理，在像素和语义级别上其次，为了进一步提高感知质量，我们提出了一个WS-感知损失函数来训练CompletionNets。该损失函数反映了360度图像沿纬度方向具有不同的信息内容，并通过专注于计算信息丰富区域中的损失来提高360度图像建模的性能。实验结果表明，该方法不仅可以在任意分辨率下完成不同的补全任务，而且在定性和定量上都优于现有的几种补全方法例如，就FID分数而言，我们的方法显示出比360IC低1.7%的改进，并且对于具有EnvMapNet[24]（256 128）的16倍像素（1024 512）的图像实现了合理的完成。此外，我们提出了一个管道来创建一个HDR环境地图从一个单一的NFoV图像，并使用它作为照明和背景在3DCG。实验结果表明，该方法达到了360度全景图像的质量要求，可用于3DCG，有利于背景的高效生成。所提出的方法产生一个合理的360度图像，并提供各种完成的结果，允许设计者选择他们的首选结果。考虑到这些特性，我们最后讨论了潜在的应用。我们的贡献可归纳如下：• 我们提出AdjustmentNet将一个Transformer引入到360度图像外绘中，这使得能够实现不同和任意分辨率的输出。• 我们提出了两种新的技术来获取360度图像的属性：用于训练CompletionNets的WS感知损失和用于Transformer的循环推断。这些使我们能够在定量和定性上优于以前的方法• 我们证明了我们的高分辨率和合理的完成呈现自然的场景，即使镜面虚拟对象接近相机或相机的意见，所有周围的3DCG场景。2. 相关工作图像完成。图像修复是用适当的像素填充缺失区域的任务[2，8]。基于学习的图像修复[10，13，19]是在大型数据集上进行CNN训练的，最近得到了广泛的研究。此外，已经提出了基于注意力的图像修复，并显示出有希望的结果[16，38]。然而，大多数使用GAN训练CNN的方法都会产生确定性的输出。换句话说，这些方法对于输入图像仅输出一个结果。PIC [41]，in11443∈∈∈∈∈∈图3. 框架概述。我们的方法包括两个模块： CompletionNets 和 AdjustmentNet 。CompletionNets可以从固定大小的图像输入中采样各种完成结果。AdjustmentNet提高了CompletionNet输出和输入图像之间的颜色、拼接和分辨率的一致性相反，通过采用CVAE输出多个结果[23]。图像外绘是一个外推问题，它生成输入图像的周围环境。该任务可以包括图像扩展[27，32]，新视图合成[34]，无限景观生成[15，36]和全景生成[14，22]。与我们的工作类似的任务是生成提供360度视角的摄像机。然而，ERP图像在图像的顶部和底部具有显著的失真，因此，全景图像不能用作ERP图像。使用Transformer完成图像是另一个最近研究的主题[3，4，30]，具有以下两个主要优点。(1)非局部注意力可以帮助生成全局结构和上下文一致性。(2)从Transformer学习的分布中采样，导致比CVAE更多样化的完成，如[30]所验证的。相比之下，Transformer的缺点是当处理大图像时需要巨大的计算成本。此外，基于变换器的图像到图像转换（Im2Im）[4，20]对连续输入区域中的像素进行重新采样，导致与原始像素的一致性损失。然而，上述图像完成工作将其方法设计为平面图像。换句话说，生成的结果缺乏360度图像的属性，例如图像两端之间的连接以及投影引起的纬向失真。相比之下，我们的方法可以通过引入一个Transformer到一个图像outpaint- ing，同时考虑360度的属性，可实现完整的360度图像。360度图像外绘。360度图像外绘是完成局部360度图像的外环境绘制的任务逆渲染[21，33]和光照估计[5，6，12，25]执行完成360度图像的任务，作为通过360度图像（环境地图）表示光照的中间任务然而，这些方法不能预测高频纹理，并且图像分辨率小。与我们的工作类似的是专注于像素完成的任务[1，7，24]。这些是考虑360度图像属性的图像完成方法。360IC和SIG-SS [7]采用技术来改善360度图像两端的连续性。EnvMapNet通过加权来像素损失来解释由于投影引起的纬度信息密度的差异。然而，除了SIG-SS使用CVAE对对称性强度进行采样之外，这些方法都是确定性输出。然而，它们在训练过程中会对图像分辨率过度拟合。3. 方法我们通过完成NFoV图像的周围区域来生成360度图像。在这项工作中，360度图像是ERP图像。同样，我们的目标是为单个输入图像获得多个不同的输出，并在不同于训练分辨率的任意分辨率我们的方法是使用Transformer执行场景的各种完成。TT已经表明，不同的完成是可能的，与Im2Im使用变压器。但是，正如在Sec中提到的。如图1和图2所示，基于变换器的Im2Im在过拟合训练分辨率和与输入像素的一致性方面不适合于360度图像因此，我们提出了一个框架扩展AdjustmentNet来解决问题（第二节）。第3.1节）。此外，我们提出了一个新的损失，WS-感知损失（秒。3.2），和一个新的推理方法的Transformer，循环推理（节。3.3），以将360度图像的属性反映到输出。概况. 图3显示了我们提出的框架的概述。整个框架的输入是一个不完整的图像x′RH×W ×3。在训练过程中，我们从ERP图像xRH×W ×3中裁剪一些区域，用灰度值填充剩余区域。输出yRH×W ×3是完整360度场景的恢复图像。我们的方法包括两个模块：CompletionNets 和AdjustmentNet。首先，我们将不完整的输入图像x′缩小到固定大小，并将其用作CompletionNets的输入。CompletionNets完成不完整的图像x′dRh×w ×3使用Transformer。因为com-填充的图像x填充的rh×w×3是固定大小的，我们用放大到输入图像的原始大小接下来，为了在不同于训练分辨率的任意分辨率下进行推理，AdjustmentNet使用完成的图像xRH×W×3和输入图像x′，以根据11444×lu，vΣΣLLLL∈Q||∈LL2HlWlWS-Percwl′u，vLLUV2输入图像x′。它还执行拼接和颜色校正以获得最终输出。3.1. 模型架构CompletionNets。CompletionNets的主要网络结构与TT相同：两个VQGAN [4]和一个Transformer。TT的方法是矢量量化的图像建模，它对一系列量化的图像进行建模。VQGAN是一种在编码器-解码器CNN的瓶颈处使用特征量化机制[28]来获得图像令牌的网络。在我们的CompletionNets中，VQGAN1对不完整的图像进行编码，VQGAN2对完整的特征进行解码。纬度方向。以前的方法[6，24]对像素级差分损失（如L1损失）进行加权，以说明它们在球体上的投影。然而，高层次的功能，如语义，也应该围绕中心区域建模因此，WS-感知损失是感知损失（LPIPS）[40]对单位球体上损失的扩展，如下所示：类似于WS-PSNR[26]，我们准备以下权重来考虑到球体上的投影。其中，u和v是特征提取器的第l层中的特征（大小H lW l）上的位置。我们使用Eq。1至衡量感知损失LPerc=1∥w l⊙将固定大小的图像作为输入和输出，考虑到VQGAN也过拟合训练分辨率问题，这可能是由于ERP表示的固有失真（yuv − xuv）在每种分辨率下为<$2。L=1w′w（yl−xLu，v）2.（二）并使用WS感知损失进行训练和循环推理进行推理。我们的Transformer将360度图像的场景建模为一系列量化特征，并通过从学习的分布中采样来执行不同的图像完成。AdjustmentNet. 为了实现任意图像大小的补全，我们提出了AdjustmentNet，一个改进补全网输出和输入区域之间一致性的网络。在采用两个阶段[30，37]的高分辨率图像完成方法中，第二阶段的主要作用是通过添加高频分量来细化输出然而，如图4、仅应用超分辨率对于我们的方法是不够的。图图4（a）示出了放大的完成图像和输入区域的合成图像图4（b）表明，即使使用超分辨率的SOTA方法[31]，单独的细化也是不够的。其中一个原因是Transformer不仅对完成区域而且对输入区域进行重新采样。结果，预测完成的区域以适合重新采样的输入区域，并且不匹配原始输入图像。相比之下，我们调整CompletionNets的输出，以在颜色，拼接和分辨率方面与输入图像相匹配该网络是在与VQGAN相同的CNN结构中实现的U网结构，而没有VQ机制[28]。3.2. 培训WS-感知损失。VQGAN是一种用于获得图像特征的量化向量的网络，其使用CNN对图像的局部区域进行建模。TT提出了一种使用对抗损失GAN、L1损失1、感知损失Perc和VQ损失VQ的自监督方式。相比之下，我们提出了一种新的损失函数，WS-感知损失，适当地模拟ERP表示的局部区域该损失函数反映了ERP表示的性质，即每个区域中的信息量存在差异，VQGAN。我们训练VQGAN 1和VQGAN 2，它们都有编码器和解码器，LVQGAN = λGANLGAN + λ1L1 + λVQLVQ + λWS-PercLWS-Perc.VQGAN1学习重建缺失的360度图像区域到获得量化特征 zqRhq×wq×nz。相比之下，VQGAN 2学习重构完整的360度图像以获得解码器，该解码器从量化特征zqRhq×wq×nz获得完整的360度图像。Transformer。我们训练Transformer对360度场景建模并执行补全。使用从zq到zq的变换作为监督，模型学习预测指数s

下载后可阅读完整内容，剩余1页未读，立即下载