基于多视点一致生成对抗网络的3D感知图像合成

82 浏览量更新于2023-10-25 收藏 3.49MB PDF 举报

几何约束

图像质量

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18450基于多视点一致生成对抗网络的三维感知图像合成张宣萌1，2*郑哲东1高代恒2张邦2潘攀2杨毅31ReLER，AAII，悉尼2阿里巴巴集团达摩院3浙江大学{zhangxuanmeng.zxm，zdzheng12} @ gmail.com{daiheng.gdh，zhangbang.zb，panpan.pp} @ alibaba-inc.comyangyics@zju.edu.cn摘要3D感知图像合成旨在通过学习3D表示来从多个视图生成对象的图像。然而，一个关键的挑战仍然存在：现有的方法缺乏几何约束，因此通常不能生成多视图一致的图像。为了解决这一挑战，我们提出了多视图一致性生成A对抗网络（MVCGAN）的高质量的3D感知的图像合成与几何约束。通过杠杆化所生成图像的底层3D几何信息深度和相机变换矩阵，我们显式地建立视图之间的立体对应关系，以执行多视图联合优化。特别是，我们加强了视图对之间的光度一致性，并将立体混淆机制集成到训练过程中，鼓励模型对正确的3D形状进行推理。此外，我们设计了一个两阶段的训练策略与特征级多视角联合优化，以提高图像质量。在三个数据集上的大量实验表明，MVCGAN实现了3D感知图像合成的最先进的性能。1. 介绍我们研究了3D感知图像合成的问题，旨在生成图像与显式控制的相机姿势。生成真实感和可编辑的图像内容是计算机视觉和图形学中的一个长期问题。在过去的几年中，生成对抗网络（GAN）[19]在从非结构化图像集合中合成高质量的高分辨率图像方面取得了令人印象深刻的结果[3，8，9，22，24尽管取得了巨大的成功，但大多数方法通常只*本研究是在阿里巴巴实习期间完成的。图1. MVCGAN在CELEBA-HQ [24]数据集上合成的图像。学习2D图像的流形，而忽略场景的3D表示几项工作考虑了3D感知图像合成的任务[1，13，20，29，37，38，66]，其可以通过学习3D感知生成模型从多个视图生成对象的图像。与2D生成对抗网络不同，3D感知图像合成模型从图像中学习3D场景表示，例如体素[37，38]，中间3D图元[29]和神经辐射场（NeRF）[4，13，39，45]。在这些方法中，NeRF-基于的方法[4，13，39，45]由于高保真视图合成的非凡性能然而，一个关键的挑战仍然存在于实验方法[4，39，45]中：它们不能保证视图之间的几何约束，因此通常无法在某些视图中生成多视图一致的图像。在本文中，我们提出了解决这个问题，18451图2. 典型的失败案例以代表性方法GIRAFFE [39]为例，第一行生成的图像在视图之间存在明显的外观不一致伪影，如头发方向（蓝色框）和张开的嘴（绿色框）。此外，我们注意到GIRAFFE [39]在大的姿态变化下会出现崩溃的结果（见第一行中最左边和最右边的图片），这表明模型没有学习适当的3D形状。相比之下，我们的方法生成具有多视图一致性的高质量图像（见第二行）。MVCGAN是一种用于具有几何约束的高质量3D感知图像合成的多视图一致生成模型（见图11）。1）。我们首先在图2中展示了现有方法[39]的典型失败案例。然后，我们确定视图之间不一致现象的原因：先前的方法独立地优化所生成图像的单个视图，而忽略视图之间的几何约束（参见3.2.1）。为了解决这个问题，我们从经典的多视图几何方法[2，6，11，18，46，64]中获得灵感，并联合优化具有几何约束的多视图。通过利用底层的3D几何信息，我们明确地通过投影几何建立视图之间的立体对应。为了鼓励网络推理正确的3D形状，我们通过在重新投影损失的情况下强制视图对之间的光度一致性并将立体混淆机制集成到训练过程中来执行多视图联合因此，生成器不仅学习2D图像的流形，而且还确保底层3D形状的正确性。此外，我们注意到，由于NeRF模型的巨大计算复杂性，基于NeRF的生成方法[4，39，45]通常难以渲染具有精细细节的高分辨率图像[35]。现有的方法[4，39，45]采用不同的策略来合成高分辨率图像。然而，它们都有局限性。GRAF [45]引入了一种基于多尺度分块的判别器，这会导致图像质量不均匀和局部过度拟合到最后一批。pi-GAN [45]通过更密集地采样射线来提高生成器的分辨率，这仍然需要密集的内存消耗。GI-RAFFE [39]将3D表示与神经渲染流水线相结合，这在大姿态变化下会出现塌陷结果。在本文中，我们采用混合MLP-CNN架构来解开从2D外观的细节中提取3D形状。特别是，基于MLP的NeRF模型[35]呈现3D形状的几何学，基于CNN的解码器产生2D外观的精细细节。该结构可以生成逼真的高分辨率图像，同时减轻计算密集型问题。总体而言，我们的贡献总结如下：1. 我们确定了一个具有挑战性的问题，错过了3D感知图像合成中的几何约束，这导致不一致的图像跨视图。2. 我们提出了一个多视图一致性生成模型（MVCGAN）的高质量的三维感知图像合成。通过建立几何约束，对多个视图进行联合优化，保证视图间的几何一致性.此外，我们设计了一个两阶段的训练策略与特征级多视图联合优化，以进一步提高图像质量。3. 我们通过对各种数据集的评估，证明了所提出的方法的有效性，即。[ 24 ]，[25]，[26]，[27]，[29]，大量的实验证明，MVCGAN实现了最先进的性能，三维感知的图像合成。2. 相关工作多视图几何图形。大量方法以多视图几何约束作为监督信号来重建3D结构，例如COLMAP [44]和ORB-SLAM [36]。近年来，一些深度学习技术[18，56，64]也结合传统方法[6，10，48]来解决3D视觉问题。受经典多视图几何方法的启发[2，6，11，18，我们长颈鹿1845246，64]，我们明确地涉及几何约束的训练过程中学习一个合理的3D形状。神经辐射场。近年来，利用体绘制和隐函数来合成新的场景视图引起了人们的极大兴趣。 Milden-hall等人。 [35]通过优化隐式连续体积场景函数，将复杂场景表示为用于新颖视图合成的神经辐射场（NeRF）。由于简单和非凡的性能，NeRF [35]视图1视图2已经扩展到许多变体，例如，，更快的推断[17，31，42，43]，姿态估计[23，30，33，52，57]，泛化[5，7，45，49，58]，视频[16，27，28，40，54]，和深度估计[53]。3D感知图像合成。最近的几项工作研究了如何将3D表示纳入生成模型[1，13，20，29，37，38，66]。Nguyen等人 [37]将关于3D世界的强烈归纳偏见与深度生成模型相结合，以学习3D对象的解纠缠表示。HoloGAN [37]通过学习的3D特征的 Schwarz等 [45]提出GRAF，一种用于从无姿态的2D图像合成3D感知图像的生成模型辐射场模型。pi-GAN [4]采用基于SIREN的神经隐式表示，并将周期性激活函数作为生成器的主干。通过将场景表示为合成生成神经特征场，GIRAFFE [39]将单个对象从背景中分离出来。然而，这些方法独立地优化所生成场景的单个视图，并且忽略视图之间的几何约束。3. 方法我们的目标是生成逼真的高分辨率图像，明确控制相机的姿态，同时保持多视图的一致性。我们现在介绍所提出的方法的主要组成部分。首先，我们简要回顾了基于NeRF的生成对抗网络的背景[4，39，45]，并确定了传统方法的局限性（参见第二节）。第3.1节）。其次，我们分析了多视图不一致问题的原因，并提出了图像级多视图联合优化来解决这个问题（见第二节）。3.2.1）。此外，我们设计了一个两阶段的训练策略，将多视图优化扩展到特征级，以生成具有精细细节的高分辨率图像。(see秒3.2.2）。最后，我们在第二节中描述了训练细节。三点三图4示出了所提出的方法的框架。3.1. 预赛神经辐射场。神经辐射场（NeRF）通过使用一组输入视图优化全连接网络来所述MLP图3. 形状-辐射模糊性的可视化。对于插图，我们假设p（红点）是正确几何的位置，p1（紫色点）和p2（蓝色点）是不正确的几何。在没有几何约束的情况下，模型可以独立地拟合到视图1中的不正确的几何p1和视图2中的p 2，以模拟正确的几何p的效果。网络将连续的5D坐标（3D位置x和2D观察方向d）映射到发射颜色c和体积密度σ[35]：（γ（x），γ（d））→−（c，σ），（1）其中γ指示位置编码映射函数。为了从视点渲染神经辐射场，Mildenhall等人。 [35]使用经典的体绘制将输出颜色c和密度σ累积到图像中。生成辐射场。生成神经辐射场的目标是通过在未设定的2D图像上训练来学习用于合成新场景的模型。Schwarz等 [45]采用对抗框架来训练辐射场生成模型（GRAF）。生成辐射场以形状代码zs和外观代码za为条件：（γ（x），γ（d），zs，za））→−（c，σ）.（二）继GRAF [45]之后，Niemeyer等人。 [39]介绍了一种组合生成神经特征场（GIRAFFE）。受StyleGAN [25]的启发，Chan等人 [4]提出了具有特征线性调制（FiLM）条件的周期隐式生成对抗网络局限性。我们注意到现有方法的两个局限性[4，39，45]。首先，它们不能保证不同视图之间的几何约束因此，它们通常在大的姿态变化下遭受崩溃的结果，或者在视图之间具有明显的不一致的伪影。其次，由于NeRF模型的巨大计算成本，渲染的高分辨率图像通常缺乏真实感和精细细节。3.2. 多视点联合优化3.2.1图像级多视点联合优化形光模糊。在这一部分中，我们分析了基于NeRF的生成模型中多视图不一致问题的原因。我们观察到优化辐射18453我[R，中文]我FD我我我∈我我潜z~∞网络地图n∈ G体绘制图像级重投影损失主要姿势~辅助姿势~生成辐射场Ⅰ期我我不知道经纱我不知道立体声混音RGB相机姿势采样过程第一种姿势Ⅱ期辅助姿势ℱ��其他的姿势经纱立体声混音ℱ��渐进式2D解码器RGBℱℱ��VRVRVR图4.生成器G θ的结构。在训练期间，生成辐射场网络Gs将主姿态角和辅助姿态角作为输入。映射网络G_m将输入潜值z映射到中间潜值w，其调节生成辐射场网络G_s和渐进式2D解码器G_d。在第一阶段，我们直接绘制主图像pri和辅助图像aux的颜色和密度输出从G。然后，我们执行图像级多视图联合优化并输出低分辨率RGB图像（642）。在第二阶段，我们使用体绘制来积累低分辨率（642）的2D特征图，然后在特征级执行多视图优化渐进式2D解码器Gd将2D特征图混合上采样为高分辨率RGB图像（1282，2562，5122）以获得精细2D细节。在推断期间，仅需要主要姿势而不需要辅助姿势（虚线不参与推断）。来自一组2D训练图像的场可能在没有几何约束的情况下遇到临界退化解这种现象被称为形状-辐射不确定性[60]，其中模型可以通过在每个表面点处适当选择辐射场来拟合具有不准确3D形状的训练图像（参见图3）。为了更好地说明形状-辐射模糊性[60]，我们将渲染图像从我不知道我不知道′基于潜在的深度和相机变换矩阵[R，t]（参见图1中的扭曲过程的细节）将视图1转换为视图2。5和Eq。4）.我们发现变形后的图像显示出错误的外观，这验证了去-生成学习的3D形状的解决方案。为了避免形状-辐射模糊性[60]，NeRF [35]需要来自场景的不同输入视图的大量姿势训练图像然而，生成辐射场在训练数据集中既没有注释的相机姿态也没有足够的多视图图像。因此，生成模型可以在某些视图中合成合理的图像，但在其他视图中产生较差的渲染（见图11）。2）。翘曲过程。为了减轻形状-辐射不确定性[60]，我们建议通过视图之间的扭曲过程建立多视图几何约束[2，6，11，18，46，64]。首先，遵循pi-GAN [4]，我们采用基于样式的生成器，其包含合成网络Gs（基于SIREN [4，47]的生成辐射场）和映射网络Gm（具有ReLU的简单MLP网络）（参见图11）。4）.给定输入潜空间Z中的潜码z∈R256，映射网络Gm：Z-→W可以产生中间-中间图5. 整经过程的图解。对于主图像pri中的每个像素vpri，我们首先计算v aux的位置（vpri在辅助图像aux中的对应像素）基于深度值（vpri）和相机变换矩阵[R，t]。然后，我们可以使用像素v aux的值从主视图重建扭曲图像warp的像素vp′ri。我们观察到扭曲的图像具有错误的外观，这验证了模型学习的不正确的几何形状。- 潜在网关wR256，其控制每层的合成网络Gs。其次，我们的目标是联合优化多个视图，而不是仅仅独立地优化单个视图，如图左侧所 4、我们随机抽取了两个摄像机的姿势，e. 从姿态分布p_i中获得主姿态p_i和辅助姿态p_x。将图像p ri和图像paux作为输入，生成模型G s分别合成所生成图像的两个视图：主图像PRI和辅助图像AUX。然后，我们可以通过图像填充来建立主视图和主视图之间的几何约束，图像填充通过从辅助图像Iaux中采样像素来重建主视图。具体地，对于图中的每个点v pri，18454我我我我我我DN我我我我我Σ−D我不知道我不知道主映像我不知道图像级联合优化。在获得扭曲的图像扭曲之后，我们通过强制执行光度一致性并采用立体混合模块来执行图像级多视图联合优化（参见图11）。（六）。为了满足视图之间的几何约束，我们通过最小化主图像pri和扭曲图像扭曲之间的重投影损失来实施视图之间的光度一致性。按照图像重建中的常见做法[18，32，41，51，61，64]，我们将图像级重投影损失公式化为L1 [61]和SSIM [51]的组合图6.图像级多视点联合优化。我们通过最小化图像级重投影损失来加强主图像和扭曲图像之间的光度一致性。此外，我们整合了一个立体混淆模块，以鼓励扭曲的图像类似于一个真实的图像。虚线不参与推理阶段。主视图pri，我们首先通过立体对应在辅助图像aux中找到对应的像素v aux，然后利用v aux的值重建主视图中被包裹的图像 warp 的 pi x elvp′ri （见图 10 ）。（五）。接下来，我们给出了详细的计算过程的翘曲过程。基于主图像的深度图和相机变换i，在从Ripr i到Ripau x 的矩阵上计算立体对应。深度可以以与渲染彩色图像类似的方式渲染[12，35]。给定来自主视图的像素vpri，深度值D（vpri）被公式化为：D（vpri）=<$Ti（1−exp（−σiδi））di，µLir=（1−µ）||Ip ri−Iwa rp||1+2（1−SSIM（Ip ri，Iwa rp）），（五）其中，SSIM是图像结构相似性的感知度量，µ= 0。85经验主义除了与主图像相似之外，变形图像还应该看起来像真实图像。一个简单的方法是引入两个鉴别器。一种是将变形后的图像与从训练数据集中采样的任意真实图像进行比较，另一种是将原始图像的灰度级进行比较。然而，引入额外的模块会增加计算复杂度。受mixup策略[59]的启发，我们提出了一个立体声mixup模块，通过构建虚拟混合图像来优化pri和warpImix=ηIpri+（1−η）Iwarp，（6）其中，η是在每次训练迭代中从[0，1]的范围中随机采样的动态数，并且mix是η的输入。值得注意的是，引入辅助姿势来构造几何约束，因此仅在训练过程中需要在-i=1我（三）在推理阶段，生成模型只起主要作用，其中Ti=exp（−σjδj），j=1其中，N是摄像机光线中的样本数量，δ i=di+1di是相邻样本点之间的距离，σ i是样本i的体积密度（参见[12，35]以查看更多详细信息）。有了深度值（v pri），我们可以通过透视投影获得像素vpri在主相机坐标系中的齐次坐标h pri。然后，辅助视图中的投影坐标h aux可以计算为：haux=K[R，t]D（vpri）K−1hpri，（4）其中，摄像机本征函数K是已知参数，并且摄像机变换矩阵[R，t]可以从主姿态Ripr i和辅助姿态Riau x计算。最后，我们可以使用像素v aux的值（位于I aux的h aux中）来重建来自主视图的包装图像Iwarp中的pixel v p ′ ri。将潜在码ri和潜在码z作为输入以生成主形象直接。3.2.2层次多视图联合优化在实践中，我们也遇到一个实际挑战：由于NeRF [ 35 ]模型的巨大计算量，基于NeRF的生成模型[4，39，45]通常难以渲染具有精细细节的高分辨率图像。为了使图像既具有精细的2D细节又具有正确的3D形状，我们设计了一个两阶段的训练策略，并将多视图优化扩展到特征级。我们在第一阶段以低分辨率（642）开始训练，然后在第二阶段增加到高分辨率（1282，2562，5122）（见图1）。4）.在第一阶段，我们直接渲染主要和辅助图像的颜色和密度输出从生成辐射场网络Gs。在几何约束的指导下，进行图像级多视图联合优化，增强模型的几何推理能力在阶段图像级重投影损失辅助图像翘曲图像立体声混音经纱我不知道[R，18455n∈G512x512256x256128x12864x64tRGB2FN- -FFFFF−FF∈ℱ��图7.渐进式2D解码器G d. 在训练期间，解码器将立体声混音特征Fmix（由Fpri和Fwarp产生）作为低分辨率的输入（64）。然后是中间体la-CELEBA-HQ2562 5122FFHQ2562 5122AFHQv22562格拉芙[45]47.557.767.271.275.8Pi-GAN [4]39.741.838.139.942.0[39]第三十九话36.036.234.637.729.2我们11.812.913.713.417.1表1.定量比较。我们在20，000个生成图像和真实图像之间计算FID。采用渐进增长策略，使生成器增长以获得更高的分辨率[24]。当新的层被添加到Gd时，我们使用跳过连接来平滑地淡入插入的层，以稳定和加速训练过程[24，26]。帐篷W在每一层处调节解码器。这里表示转换高维特征的1x1卷积3.3. 培训详细信息RGB图像，以及denotes the bilinear upsampling opera-我们使用渐进增长卷积鉴别器Dθ来比较生成器Gθ产生的假图像和从训练数据中采样的真实图像I为了减轻渲染高分辨率图像的计算密集型问题，我们通过特征级多视图优化来训练模型，以获得更好的视觉质量。首先，我们采用混合MLP-CNN架构来从2D外观的精细细节中分离3D形状的几何形状。然后我们将体绘制[39]推广到分布pD.我们使用非饱和的具有R1梯度惩罚的GAN目标[34]和提议的几何约束目标Lre作为总损失：V（θ，θ）=Ez<$Z，pri<$p<$，aux<$p <$[f（D<$（Gθ（z，pri，aux））]通过渲染2D主特征图混合来实现特征级别低分辨率（642）：+EI[f（−D<$（I））−λ||陈德铭（一）||2]+Lre，（九）Fpri= Σi=1Ti（1−exp（−σi δi））fi，（7）其中f（t）=log（1+exp（t）），对于阶段I，L re=L ir（参见等式5），对于阶段II，L re=L fr（参见等式8），且λ = 10。更多的实现细节可以在其中，f|R256是在G的最后一层之前的特征，并且在等式（1）中定义其他符号。3 .第三章。以与pri相同的方式渲染辅助特征图aux，并且可以通过变形过程获得变形的特征图warp其次，我们对低分辨率特征图进行多视图特征级联合优化（642）。为了加强特征空间中的几何一致性，我们将隐式多样化马尔可夫随机场（MRF）损失[50]作为特征级重新计算。投影损失：Lfr=Lmrf（Fpri，Fwarp），（8）这可以鼓励模型捕捉高频几何细节[15]。然后，立体声混合机制也被应用于2D特征图：混合=ηpri+（1η）warp。第三，我们使用基于风格的2D解码器[25] G d来提高分辨率，该解码器将混合作为输入，然后上采样为高分辨率RGB图像（见图10）。（七）.2D解码器G d由映射网络G m通过自适应实例归一化（AdaIN）调节[14，22，25]。随着训练的进行，我们花絮4. 实验4.1. 实验设置数据集。我们在三个广泛使用的高分辨率图像数据集上进行实验：[ 24 ][ 25 ][26][27][28][29][29][29][29]我们选择AFHQv2 [9]数据集中的猫脸图像进行实验，以便与以前的作品进行公平比较[4，39，45]。4.2. 与SOTA的为了进行定量比较，我们报告了Frechet起始距离（FID）[21]以评估图像质量。我们将我们的方法与三种最先进的3D感知图像合成方法进行比较：[45]，GIRAFFE [39]和PI-GAN [4]. 如Tab.所示1，我们的方法在所有数据集[9，24，25]上的表现都优于其他方法[4，39，45我们还将FFHQ [25]和AFHQv2 [9]数据集上生成的图像可视化，以进行定性比较。如示于图8，我们从广泛的视角渲染图像我们观察到GRAF [45]，起来起来tRGBtRGBtRGBtRGB起来起来18456(a) FFHQ的结果[25]。(b) AFHQv2的结果[9]。图8.在5122分辨率下与GRAF [45]、GIRAFFE [39]和pi-GAN [4]进行定性比较。GIRAFFE [39]和pi-GAN [4]要么无法在大视图变化下合成合理的结果，要么具有明显的多视图不一致伪影。通过比较，我们的方法在视觉质量和多视图一致性方面都取得了最好的性能更多可视化结果，请参阅参考资料。4.3. 消融研究映像级和备份级优化。我们进行消融研究，以帮助理解图像级和特征级多视图联合优化的个体贡献。从图10（a）中，我们观察到生成我们皮甘长颈鹿我们格拉长颈鹿皮甘格拉18457WW图9. 样式插值。我们在中间潜在空间和相机姿态空间中执行线性插值。(a) 图像级多视图连接优化（FID=22.5）。(b)具有特征级多视图连接优化（FID=13.7）。图10.在2562分辨率下对FFHQ [25图像在姿态变化（FID=22.5）下保持多视点一致性，表明图像级优化可以指导模型学习合理的三维形状。通过功能级优化（见图1），10（b）），我们的方法可以进一步提高具有精细2D细节（FID=13.7）的生成图像的视觉质量。形状细节分解。此外，我们设计了一个风格混合实验，研究生成辐射场Gs和渐进式2D解码器Gd分别学习了什么样的表示。具体地，我们将两个潜在码z A和z B输入到映射网络G m中，并获得空间中相应的中间潜势wA，wB。然后，我们可以通过应用wA和wB来控制生成器的不同部分（Gs和Gd）来生成风格混合图像如图11，我们观察到控制Gs改变3D形状（身份和姿势），而控制Gd改变2D外观细节（皮肤的头发和胡子）。结果验证了混合MLP- CNN架构可以将3D形状的几何形状与2D外观的精细细节分开。样式插值。我们还进行了风格插值实验，以研究映射网络Gm学习的中间潜在w。给定两个生成的图像，我们在中间潜在空间和相机姿态空间中执行线性插值如图所9、姿势和动作的平滑过渡peconet表明，我们的模型学习语义有意义的中间潜在空间W。5. 结论与讨论我们提出了一个多视图一致性生成模型（MVCGAN）的三维感知图像合成。该方法的核心思想是通过引入几何约束来增强生成模型的几何推理能力。大量的实验图11. 风格混合。源A和B图像从它们的输入潜码zA和zB生成。通过将wB（对应于z B的中间潜像）应用于G s并将w A（对应于z A）应用于G d来生成红色框中的图像。绿色框中的图像是通过将wA应用于Gs和将wB应用于Gd而生成的。图12. 故障案例。我们的方法在具有多个对象和复杂背景的场景中表现不佳。例如，我们的模型无法在University-1652数据集上合成高质量的图像[62]。证明MVCGAN实现了3D感知图像合成的最先进性能。局限性和今后的工作。在本文中，我们的方法主要集中在具有简单背景的单目标场景，而在多目标和复杂背景附加场景中效果不佳（见图1）。第12段）。为了扩展到具有复杂背景和多个目标的场景，一种可能的方法是学习可以单独建模前景和背景的合成辐射场[55]。为了绘制整个场景，可以通过结合深度图和遮挡图来建立前景物体和背景之间的几何关系。在未来，我们将纳入额外的图像注释，以处理更复杂的现实世界的情况。源A源B18458引用[1] Hassan Abu Alhaija，Siva Karthik Mustikovela，AndreasGeiger，and Carsten Rother.几何图像合成。在ACCV，2018年。第1、3条[2] 亚历克斯 · 安德鲁计算机视觉中的多视图几何。Kybernetes，2001年。二、四[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练在ICLR，2018年。1[4] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，and Gordon Wetzstein. pi-gan：用于3d感知图像合成的周期性隐式生成对抗网络。在CVPR，2021年。一、二、三、四、五、六、七[5] Anpei Chen ， Zexiang Xu ， Fuqiang Zhao ， XiaoshuaiZhang，Fanbo Xiang，Jingyi Yu，and Hao Su.Mvsnerf：Fast generalizable radiance field reconstruction from multi-view stereo.arXiv预印本arXiv：2103.15595，2021。3[6] 申昌Eric Chen和Lance Williams。视图插值和灰图像合成。计算机图形学与交互技术会议，1993年。二、四[7] Julian Chibane、Aayush Bansal、Verica Lazova和GerardPons-Moll。立体辐射场（SRF）：新场景稀疏视图的学习视图合成。在CVPR，2021年。3[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。1[9] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR，2020年。一、二、六、七[10] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法。在CVPR，1996年。2[11] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中塑造和渲染建筑：一种基于几何和图像的混合方法。计算机图形学与交互技术会议，1996年。二、四[12] Kangle Deng，Andrew Liua，Jun-Yan Zhu，and DevaRa- manan. 深度监督削弱：更少的视图和更快的训练-ING免费。arXiv预印本arXiv：2107.02791，2021。5[13] 放大图片创作者：Robert W.Taylor和Joshua M.苏斯金利用局部条件辐射场的无约束场景生成。ICCV，2021。第1、3条[14] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。在艺术风格的学术代表，2020年。6[15] Yao Feng，Haiwen Feng，Michael J Black，and TimoBolkart.从野外图片中学习可动画化的详细3d人脸模型。 ACM Transactions on Graphics （ TOG ）， 40（4）：1-13，2021。6[16] Chen Gao ，Ayush Saraf ，Johannes Kopf，and Jia-BinHuang.从动态单目视频合成动态视图。arXiv预印本arXiv：2105.06468，2021。3[17] Stephan J Garbin，Marek Kowalski，Matthew Johnson，Jamie Shotton ， and Julien Valentin.Fastnerf ： 200fps 的arXiv预印本arXiv：2103.10380，2021。318459[18] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在ICCV，2019年。二、四、五[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦 · 库维尔和约舒亚 · 本吉奥。生成性对抗网。NeurIPS，2014。1[20] Paul Henderson ， Vagia Tsiminaki ， and Christoph HLampert.利用2d数据学习纹理3d网格生成。在CVPR，2020年。第1、3条[21] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。6[22] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。InICCV，2017. 1、6[23] Yoonwoo Jeong ， Seokjun Ahn ， Christopehr Choy ，Ani- mashree Anandkumar，Minsu Cho，和Jaesik Park.自我校准神经辐射场。ICCV，2021。3[24] Tero Karras ，Timo Aila ，Samuli Laine，and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。一、二、六[25] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。一二三六七八[26] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量。在CVPR，2020年。1、6[27] Tianye Li ， Mira Slavcheva ， Michael Zollhoefer ，Simon Green ， Christoph Lassner ， Changil Kim ，TannerSchmidt ， StevenLovegrove ， MichaelGoesele，and Zhaoyang Lv.Neu- ral 3d视频合成，2021.3[28] Zhengqi Li ， Simon Niklaus ， Noah Snavely ， andOliver Wang.神经场景流场用于动态场景的时空视图合成https://arxiv.org/abs/2011.13084，2020年。3[29] Yiyi Liao ， Katja Schwarz ， Lars Mescheder ， andAndreas Geiger. 三维可控图像合成生成模型的无监督学习在CVPR，2020年。第1、3条[30] 林振轩，马伟秋，安东尼奥·托拉尔巴，西蒙·露西。呕吐：束调节神经辐射场。ICCV，2021。3[31] David B Lindell，Julien NP Martel，Gordon Wetzstein.Autoint：自动集成快速神经体积渲染。在CVPR，2021年。3[32] Xiaoyang Lyu ， Liang Liu ， Mengmeng Wang ， XinKong ， Lina Liu ， Yong Liu ， Xinxin Chen ， and YiYuan.Hr-depth：高分辨率自监督单目深度估计。在AAAI，2021年。5[33] Quan Meng，Anpei Chen，Haimin Luo，Minye Wu，Hao Su，Lan Xu，Xuming He，and Jingyi Yu. Gnerf：基于Gan的神经辐射场，无需设置摄像头。arXiv预印本arXiv：2103.15606，2021。3[34] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans 的哪些训练方法实际上是趋同的？在ICML ，2018。618460[35] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。在ECCV，2020年。二三四五[36] Raul Mur-Artal，Jose Maria Martinez Montiel，and JuanD Tardos. Orb-SLAM：一个多功能和精确的单目SLAM系统。IEEE Transactions on Robotics，31（5）：1147-1163，2015. 2[37] Thu Nguyen-Phuoc，Chuan Li，Lucas Theis，ChristianRichardt，and Yong-Liang Yang. Hologan：从自然图像中进行3D表示的在CVPR，2019年。第1、3条[38] Thu Nguyen-Dahoc ， Christian Richardt ， Long Mai ，Yong-Liang Yang，and Niloy J Mitra. Blockgan：从未标记的图像中学习3d对象感知场景表示。在NeurIPS，2020年。第1、3条[39] Michael Niemeyer和Andreas Geiger。Giraffe：将场景表示为合成生成神经特征场。在CVPR，2021年。一、二、三、五、六、七[40] Sida Peng ， Yuanqing Zhang ， Yinghao Xu ， QianqianWang，Qing Shuai，Hujun Bao，and Xiaowei Zhou.神经体：隐式神经表示与结构化的潜在代码，用于动态人类的新视图合成。在CVPR，2021年。3[41] Sudeep Pillai、Rares Ambrus和Adrien Gaidon。超深度：自我监督，超分辨单眼深度估计。在ICRA，2019年。5[42] Daniel Rebain，Wei Jiang，Soroosh Yazdani，Ke Li，Kwang Moo Yi，and Andrea Tagliasacchi. Derf：分解辐射场。在CVPR，2021年。3[43] Christian Reiser ， Songyou Peng ， Yiyi Liao ， andAndreas Geiger. Kilonerf：用数千个微小的mlps加速神经辐射场。arXiv预印本arXiv：2103.13744，2021。3[44] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在CVPR，2016年。2[45] Katja Schwarz ， Yiyi Liao ， Mich

下载后可阅读完整内容，剩余1页未读，立即下载