2D-3D相互学习实现3D场景风格化

83 浏览量更新于2023-10-26 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18342StylizedNeRF：通过2D-3D相互学习实现与Stylized NeRF一致的3D场景风格化黄怡华1，2何跃1，2袁玉杰1，2赖玉坤3高林1，2 * 1移动计算与普适设备北京市重点实验室，中国科学院计算技术研究所2中国科学3卡迪夫大学计算机科学与信息学院{huangyihua20g，heyue19s，yuanyujie，gaolin} @ ict.ac.cnLaiY4@cardiff.ac.uk图1. 我们的方法一致的3D风格化的结果。给定一组真实照片（a）和风格图像（b），我们的模型能够生成风格化的新颖视图（c），通过学习风格化的NeRF，这些视图在3D空间中是一致的。摘要3D场景风格化的目的是根据给定的一组风格示例从任意新颖的视图生成场景的风格化图像，同时确保从不同视图渲染时的一致性直接将图像或视频风格化方法应用于3D场景无法实现这种一致性。由于最近提出的神经辐射场（NeRF），我们能够表示一个一致的方式在一个3D场景一致的3D场景风格化可以有效地实现通过风格化相应的NeRF。然而，有一个显着的域之间的差距风格的例子，这是2D图像和NeRF，这是一个隐式的体积表示。为了解决这个问题，我们提出了一个新的相互学习框架的三维场景风格化，结合了2D图像风格化网络和NeRF融合的风格化能力的2D风格化网络与NeRF的三维一致性。我们首先预训练要风格化的3D场景的标准NeRF，并将其颜色预测模块替换为风格网络以获得* 通讯作者为高林（gaolin@ict.ac.cn）。程式化的NeRF。其次，通过引入一致性损失，将NeRF的空间一致性先验知识提取到2D风格化网络我们还引入了模仿损失来监督NeRF风格模块的相互学习并微调2D风格化解码器。为了进一步使我们的模型处理2D风格化结果的模糊性，我们引入了可学习的潜在代码，这些代码服从以风格为条件的概率分布。它们被附加到训练样本中作为条件输入，以更好地学习我们新颖的风格化NeRF中的风格模块。实验结果表明，我们的方法是优于现有的方法在视觉质量和长期的一致性。1. 介绍近年来，控制复杂3D真实场景的外观引起了越来越多的关注。大量的工作已经在这方面做出了巨大的努力，例如纹理合成[10，22，55]和语义视图合成[16，18]。18343×图2. 激励我们的相互学习计划。只有在小的训练补丁上训练风格和内容丢失的风格化NeRF才会导致内容维护不佳和风格转移不令人满意（NeRF w/Style）。在NeRF的结果上直接应用2D图像我们的方法相互学习的风格化NeRF和2D风格化方法产生更好的风格和一致性质量的结果本文主要研究复杂三维真实场景的风格化问题，这对虚拟现实和增强现实等应用有重要意义。由于最近先进的3D表示方法，复杂的3D场景可以表示为具有外观特征的点云[39]或通过神经辐射场（NeRF）等深度神经网络的隐式场[35，58]。与点云相比，NeRF可以更可靠地从多视图图像中获得，并且在3D空间中是连续的，使学习更容易。在本文中，我们的目标是造型一个3D场景下面的一组给定的样式的例子。这允许从任意新颖视图生成场景的样式化图像，同时确保来自不同视图的渲染图像是一致的。为了确保一致性，我们将问题表述为使用给定的样式图像集对NeRF进行样式化[35]。我们的NeRF风格化方法的一些例子在图中呈现。1.一、然而，在样式化任务中利用NeRF作为复杂3D场景的表示存在两个首先，NeRF需要沿着光线查询数百个样本点来渲染单个像素。内存限制使得难以一次渲染整个图像或甚至足够大的补丁，这对于计算内容和样式损失很重要[21]。因此，直接在小训练补丁（单个RTX 2080Ti GPU为32 32）上训练风格化的NeRF，感知风格和内容损失会导致风格化结果不佳，如图所示二、其次，直接采用最先进的图像风格化方法来对NeRF中的渲染图像进行风格化将在不同视图中产生不一致的结果[5，19]。这是因为这些样式化方法缺乏3D信息。以代表性的自适应实例归一化（AdaIN）[20]方法为例，其结果可以在图2的第三和第四列中看到。另一方面，训练NeRF，不一致的2D风格化图像将导致结果模糊，这将在第2节中进一步说明。五、为了解决上述问题，我们在NeRF [35]和2D图像风格化方法之间提出了一种新的相互学习框架[60]。首先训练一个普通的NeRF网络来模拟场景的不透明度场。NeRF的不透明度字段具有几何一致性的内在性，并且可以估计渲染像素的3D坐标，其通过在预训练阶段的一致性损失而被提炼为2D风格化方法。为了表示风格化的场景，我们将NeRF中预测颜色的模块替换为风格模块（称为风格化NeRF）。然后，我们将新的风格化NeRF网络（密度预测固定）与预训练的2D风格化网络进行协同微调。引入模仿损失来对齐程式化NeRF和2D方法的输出，旨在共享2D方法的程式化知识和NeRF的固有几何一致性以更新网络。然而，2D风格化方法不能保证严格的一致性，这导致在特定3D场景的多视图帧之间传递给定风格时的歧义，从而导致风格化NeRF的模糊结果。受NeRF-W [31]的启发，我们的风格模块将可学习的潜在代码作为条件输入来处理2D风格化结果的模糊性。与NeRF-W不同的是，我们建立了一种新的基于风格的潜在代码概率模型，使我们的模型能够处理二维结果的不一致性，同时有条件地对场景进行风格化我们首先使用VGG [43]提取样式图像的样式特征，其被定义为沿空间维度的特征图的均值和方差[20]。然后，我们使用预训练的变分自动编码器（VAE）将风格特征编码为潜在分布[23]。编码的分布以编码风格特征为条件。由于不一致的程式化结果产生18344∈∈∈∈s=0·∫，从二维网络可以被认为是不同的样本服从分布条件的风格，我们将二维风格化的结果作为潜在的代码服从相应的风格编码的分布。然后，一个负的对数似然的潜在代码，以约束条件概率建模的潜在代码，并进一步确保条件风格化的鲁棒性。我们的主要技术贡献如下：• 我们提出了一种新的风格化NeRF方法，用于对具有给定风格图像的3D场景进行风格化，在视觉质量和3D一致性方面优于现有方法• 我们提出了一个相互学习策略的风格化NeRF和2D风格化方法，利用风格化能力的2D方法和几何一致性的NeRF。• 提出了一种用于可学习潜在代码的条件概率建模，以在实现条件风格化的同时处理2D风格化结果的歧义2. 相关工作新视图合成。已经提出了各种方法来用给定的一组照片合成场景的新颖视图。传统的光场技术[6，15，26]将密集的输入图像插值为4D函数的2D切片，以渲染新颖的多平面图像（MPI）[34，45，49，53，62]使用不同深度的RGBD层来表示场景的光场。新颖的观点可以渲染，通过扭曲层和合成他们的形象。一些作品利用明确的3D代理，如网格[3，7，50，54]，点云[1，33，37，52]或vox。ELS [9，30，41，44]来重建场景。基于3D代理，现有的工作将几何形状与表示外观的方法相结合，如颜色[41，50]，纹理映射[7]，光场[3，54]或用于神经渲染的深度网络[1，9，30，33，37，44，52]。最近提出的基于图像的作品[38，39]以以下形式估计3D代理：点云和神经渲染新的视图。方案。为了更快的风格化，后续工作转向利用前馈神经网络，如Avatar [42]和AdaIN [20]。Li等[27]提出了一种嵌入白化和着色变换（WCT）生成高分辨率风格化图像的方法。基于它的方法如PhotoWCT [28]，WCT2 [57]。而不是优化像素，[25]直接优化参数化的笔触。当风格图像充满精致的笔触时，效果令人惊叹视频风格化是该领域的另一个主题，因为它要求相邻帧之间的一致性以确保风格化的视频没有闪烁。大多数方法都是基于光流或简单地添加一个时间约束到现有的方法[4，12]。该工作[8]将跨域特征与输入视频对齐，并实现相干结果，[51]基于松弛和正则化动态调整通道间分布这些基于2D的方法缺乏空间一致性约束和3D场景感知，因此不具有在我们的任务中保持长期一致性的能力。Huang等人. [19]将样式化扩展到3D场景，其中3D场景表示为点云。即使在360度无边界的场景中也能确保一致性。[5]首次将NeRF引入三维场景风格化。[5]的NeRF通过子采样补丁来训练风格和内容损失，以应对高复杂性。结果，该方法倾向于丢失精细细节。其他一些工作[11，46，61]专注于转移3D模型或2D人体骨架的姿势风格。3. 预赛NeRF [35]使用MLP将场景建模为不透明度和辐射度的连续体积场。MLP将3D位置xR3和观看方向dR2作为输入，并预测不透明度σ（x）R+和辐射颜色c（x，d）。在渲染过程中，光线r（t）=o+td从相机的中心o R 3沿着穿过像素的方向d投射像素的颜色由积分决定：连续神经表征的最近趋势是用MLP将3D坐标映射到相应位置的属性来取代离散3D代理表征。C（r）=∞σ（o+td）c（o+td，d）e−tt=0σ（o+sd）dsdt（一）选项。隐式函数[36，56]对场景的隐式NeRF [35]进一步将场景的辐射场建模为发射和阻挡光线的粒子。以下工作将NeRF 扩展到八叉树结构[29]，无界场景[58]，反射分解[2]和未控制的真实世界图像[31]。关于神经渲染的最新发展，请参阅[48风格转换方法。风格迁移是计算机视觉领域的一个长期研究课题Gatys等人[14]是这一领域的一项开创性工作，侧重于基于优化的为了促进模型的拟合能力，NeRF使用位置编码γ（）将网络x和d的输入映射到包含多尺度频率信号的傅立叶特征[47]：γ（x）=[sin（x），cos（x），.，sin（2L−1x），cos（2L−1x）]T（二）其中L是控制光谱带宽的超参数。18345JC--我CJ图3. 我们的相互学习模型的架构。我们的方法使用预先训练和固定的NeRF来渲染许多视图{Ii}作为用于相互学习的增强数据。VGG提取的风格图像{S j }的风格特征{Fs}通过预训练的VAE的编码器嵌入到潜在分布中。所提取的内容特征{Fc}与样式特征{Fs}一起被馈送进入AdaIN层和解码器以获得风格化颜色a.另一方面，风格模块采用可学习的潜在代码li，j和坐标x的输入来预测风格化的辐射颜色cs，其形成风格化的NeRF。通过将采样点沿光线与原始不透明度σ组合，可以获得渲染的风格化颜色n。目标函数Ld、Lmimic、Ls、Lc和Lco用于相互学习优化（详见正文）。4. 方法我们现在说明我们的框架，用于使用给定的样式图像样式化3D给定一个集合的图像从一个场景与相应的相机参数，我们的目标是生成风格化的图像，同时保持几何一致性，从指定的新颖的意见，根据为了实现这一目标，我们提出了一个相互学习的计划，优化新引入的风格化NeRF和2D风格化网络相互通过一致性和模仿损失。即使相互学习的风格化NeRF是内在一致的，2D风格化网络也不能保证结果的严格一致性，这仍然会导致风格化NeRF的结果模糊。因此，我们建议将不一致的2D风格化结果视为服从由风格限定的分布的不同样本，并引入服从这种限定分布的潜码来处理不一致性。我们通过负对数似然损失的条件概率模型可学习的潜在代码。接下来，我们将首先介绍我们在第二章中采用的2D风格化网络。4.1，然后在第二节讨论我们的程式化NeRF。四点二。最后，我们描述了我们如何建立基于两个网络的相互学习框架。四点三。4.1. 2D风格化网络我们采用AdaIN [20]作为我们的2D风格化方法，它由VGG [43]编码器，自适应实例归一化层和基于CNN的解码器组成应该注意的是，AdaIN是一种代表性的方法，但可以用其他高级图像风格化方法来代替特征图首先由编码器从给定的输入样式和内容图像中提取[13]，然后自适应输入-站姿规范化层将内容特征映射的均值和方差与样式特征映射对齐。最后，解码器解码对齐的特征图，并生成具有目标样式的输出结果。在训练过程中，只有AdaIN的解码器是可学习的。我们使用从NeRF中提取的3D一致性知识预训练解码器，除了样式和内容损失之外，还通过一致性损失Lco。Lco是通过根据NeRF的几何先验Lco=||Oi，s−Mi，jWi，j（Oj，s）||第二章（三）其中Oi，s表示视图i和样式s的风格化结果。Wi，j表示根据NeRF估计的深度从视图j到视图i的扭曲操作，并且Mi，j表示扭曲和遮挡4.2. 程式化NeRF训练普通NeRF [35]以对不透明度场σ（x）和原始辐射颜色场co（x，d）建模，其在以下相互学习过程中固定。为了实现NeRF的风格化能力，将MLP网络作为风格模块添加到NeRF中以代替原始颜色模块，对场景的风格化辐射颜色进行建模。当在训练阶段查询场景的风格化辐射颜色时，除了位置坐标之外，模块还输入可学习的潜码。与NeRF-W中对场景的随机出现和瞬变进行建模的潜在代码不同，这里的潜在代码既学习2D风格化结果的风格和模糊性，又避免风格化NeRF的结果中的模糊，并使其能够有条件地风格化的重新-18346JΣΣCJ{I}{S}CISn我i、j二维方法在具有指定样式的不同视图上的结果可被视为条件分布的样本。这些样本因其不一致性而不同我们通过预训练的VAE [23]参数化2D风格化结果的条件分布 VAE编码由VGG提取的风格特征{Fs}为高斯分布{N（μj，σj）}。2D的条件分布KCn（r，l）=Tk（1−exp（−σk δk））cs（rk，l），k=1k−1其中Tk=exp（−σk'δk'）k’=1（五）程式化的结果被参数化为嵌入的高斯-sian分布，这是与风格特征的条件对于第i个视图和第j个样式的2D风格化结果，通过对N（μ j，σ j）进行采样而初始化的潜在代码li，j为：其中n（r，l）是像素r的预测风格化颜色，δk是第k个样本点和第（k+1）个样本点之间的欧拉距离模仿损失被定义为来自NeRF的风格化结果C（r，l）与来自NeRF的风格化结果C（l）之间的L2距离。真实的学习过程。为了约束潜在码li，j服从分布{N（μj，σj）}，负对数似然来自2D风格化方法的Ca（Ii，Sj）riΣL模拟=i，j，rLd（li，j）=（li，j−µj）22πσ2（四）引入模拟损失以最好地交换NeRF和2D风格化方法之间的不同强度的知识。感知内容损失Lc （ Ca（Ii，Sj），Ii）和风格损失Ls（Ca（Ii，Sj），Sj）[20]其中i和j分别是训练视图和样式图像的索引。µj和σj表示第j个样式图像嵌入的分布的均值和方差。因此，我们参数化的条件分布的二维风格化的结果，约束可学习的潜在代码服从的分布条件的风格。在推理时，嵌入分布的平均值μ被用作对场景进行风格化的输入。损失Ld约束潜在代码以获得更好的聚类和泛化，从而导致更好的结果，如我们稍后将在图中所示。9 .第九条。style模块接受嵌入的µ和3D位置坐标以获得风格化的颜色cs（x，l）。预训练NeRF的样式模块和不透明度预测模块形成了我们的风格化NeRF。渲染过程遵循Eq.1，使用原始不透明度字段。4.3. 互鉴如4.1中所述，相互学习开始于通过Lco将空间一致性先验知识从NeRF提取到2D风格化网络。接下来是可学习风格模块的协作训练，这是AdaIN的预训练解码器，用于微调和潜在代码。为了增强训练数据集，普通NeRF渲染了一系列视图i我们将样式图像表示为j。训练视图和给定风格一起形成训练实例，在第5.2节中描述的潜在代码li，j被施加到训练实例。4.2已分配使用原始的不透明度，风格化的NeRF的图像通过沿着射线的采样点和近似方程来渲染1通过数值积分，如[32]中所讨论的：由解码器A（i，j）的结果确定，这允许在有限的GPU存储器内使用更大的补丁NeRF风格模块和潜在代码的相互学习过程的目标函数是：（7）用于微调2D风格化解码器的目标函数LC=λm Lmimic+λs Ls+Lc（8）其中λp、λc、λs是控制项的影响的超参数。5. 实验我们进行实验，定性和定量地评估我们的方法，包括我们的方法和最先进的风格化方法的视频和3D场景分别比较在定量评估中，还进行了用户研究，收集用户评价，以箱形图的形式呈现。我们还进行了消融研究的影响，成分在我们的方法和培训程序的效果。λd、λs和λm的超参数设定为1 e-5，1和分别为10。样式模块、潜在代码和基于CNN的解码器在单个RTX2080 Ti GPU上协作训练50k次迭代。2D风格化方法的解码器是用一致性损失（等式1）预训练的。3）在相互学习过程之前进行1k次迭代并固定在前20k次迭代之后进行协同训练。我们在两种类型的数据集上测试我们的方法：面向前[34]和360个无限坦克模板（T T）数据集[24]。2签名。潜在的代码是优化的过程中，多-使用LossLd：||（六）||(6)18347图4. 与LSNV的定性比较。我们比较了坦克和寺庙数据集中4个场景的风格化结果[24]。我们的方法风格化场景更精确的几何和竞争力的风格化质量。图5. 视频风格化方法的定性比较。我们比较了NeRF在LLFF [34]和Tanks and Temples数据集[24]上生成的新视图视频的风格化结果。基于视频的方法的结果存在长距离不一致（第1和第2行），甚至出现几何误差（第3和第4行）。5.1. 定性结果LSNV。在图4中，我们定性地比较了LSNV [19]和我们的方法生成的新视图的风格化结果。LSNV的几何表示来自于COLMAP运动结构（SfM）重建的体素化点云[40]。离散表示导致精细几何的缺乏和精度的损失，这进一步损害了风格化结果。如带边框的黄色框所示，18348↓↓图6. 与Chianget al. [5]的文件。我们比较了Tanks和Temples数据集的程式化结果[24]。我们的结果保持更好的风格化的细节质量。不规则的壁、细长的杆、细链等。断裂，卡车上的裂缝丢失并填充在LSNV的几何代理中。相比之下，我们的方法提供了竞争力的结果，由于其更好的保存几何形状。视频风格化。图5，我们将我们的结果与两种最先进的视频风格化方法MCCNet [8]和ReReVST [51]进行了多视图由于缺乏空间意识，视频风格化方法不能保证长期的一致性，甚至违反几何的场景。第1和第2行中的蕨类植物的结果给出了2D方法的长期不一致性的示例，其中框架区域中的其他两种方法的风格化颜色在长期视图中明显变化。在第3行和第4与视频风格化方法相比，我们的结果在视觉上更加一致。基于NeRF的风格化。在图6中，我们将我们的结果与[5]进行了比较，[5 ]是将NeRF引入风格化的开创性工作。[5]计算风格和内容损失在近似大补丁的小的子采样补丁上。然而，这种近似降低了内容细节的保存，如我们的比较所示由于基本的技术改进，我们的方法产生的结果具有更好的细节保留5.2. 定量结果一致性测量。在[19]中的测量之后，我们使用扭曲的LPIPS度量[59]测量短期和长期一致性。视图v用NeRF估计的深度期望分数公式为：E（Oi，Oj）=LPIPS（Oi，Mi，j，Wi，j（Oj））（9）其中W是扭曲函数，M是扭曲掩码。当在[59]中计算空间维度上的平均距离时，仅取掩模Mi，j内的像素。我们计算4个场景的评估值表1. 短程一致性。我们使用翘曲误差（）来比较短期一致性。最佳和第二佳结果突出显示。方法M60卡车操场火车平均NeRF →AdaIN0.2340.4450.1840.3080.293NeRF →MCCNetNeRF →ReReVST0.1690.1380.1670.1410.1340.1090.2610.2480.1830.159LSNV0.1390.1380.1040.1510.133我们0.0630.0690.0480.1150.074表2. 长期一致性。我们使用翘曲误差（）来比较长期一致性。最佳和第二佳结果突出显示。方法M60卡车操场火车平均NeRF →AdaIN0.3550.6030.3460.5940.474NeRF →MCCNetNeRF →ReReVST0.3070.2550.3170.2650.2900.2490.5670.5790.3700.337LSNV0.2060.2390.1930.4590.274我们0.1390.1260.1180.2050.147方法.我们使用gap 5（Oi，Oi+5）和35（Oi，Oi+35）的视图对来进行短距离和长距离一致性计算。短期和长期一致性的比较见表1。1和Tab。2所示的序列。我们的方法优于其他方法的显着保证金。图7. 用户研究。我们以箱形图的形式记录用户的偏好。我们的结果赢得了更多的喜好，无论是在风格化和一致性质量。用户研究。进行用户研究，比较我们的方法与其他国家的最先进的方法的风格化和一致性质量。我们使用不同的方法[8]，[51]，[19]对T T数据集中的3D场景的一系列视图进行了建模，并邀请了50名参与者（包括28名男性，22名女性，年龄从18到45岁）。首先，我们向参与者展示了风格图像和两个风格化的视频在T T数据集中，每个场景使用20对视图。对于每一对，我们分别用10个风格图像对图像进行风格化，从而总共获得200个数据对来评估。测试视图是训练视图的三倍上采样，以确保基于视频的帧密度通过我们的方法和随机比较的方法。然后，我们要求参与者在两个评价指标，风格化结果的质量和是否保持一致性的视频投票我们为每个评价指标收集了1000张选票，并将结果显示在图中。7在18349CNBoxplot的形式。我们的分数在风格化质量和一致性方面都从其他方法中脱颖而出。5.3. 消融研究可学习代码设计和交互训练方案对可学习2D方法的影响。与选择共享和固定样式的潜码（w/o LC）相比，应用可学习的潜码（w/ LC）有助于处理来自2D方法的提取知识a（r，（S））的不一致性。另一方面，在相互学习过程中训练解码器（MD）是我们采取的另一种操作，以提高2D方法输出的一致性水平，从而使训练潜码变得更可以明显看出，在没有上述这些设计中的一个或两个的情况下，伪像和模糊出现在如图8所示的结果中。结果表明，该设计的目标轮廓更加清晰，风格更加合理，体现了设计的必要性和稳健性。图8. 可学习码设计（LC）和相互学习解码器（MD）的影响。交互训练二维方法和使用可学习的潜在代码都提高了风格化结果的质量。D的影响。在推理时，编码分布（μ，σ）的平均码μ被用作NeRF的样式模块的输入。图9比较了有无Ld的推理结果。我们在第三列中使用绿色框框来框出没有Ld的结果中的明显伪影，而第二列中的完整网络的结果很好地处理了这一点。这种分布损失限制了可学习的潜在代码，以在预训练分布的平均值周围获得更好的聚类，并有助于避免推理过程中的伪影输出的选择。我们的方法产生两个结果的2D方法和程式化NeRF在每一个迭代在一个相互学习的方式。我们比较了两个获得的结果，如图10所示。虽然相互学习过程使得2D方法（第2列和第3列）朝向更一致的趋势迭代，但是其一致性不够严格并且遇到长距离视图之间的闪烁问题。与此相反，由于采用了物理体绘制方案，风格化NeRF（第4列）的绘制结果保持了良好的一致性。因此我们图9. 消融研究L d的影响。Ld对相同风格的潜在代码进行聚类，避免了测试结果中的伪影。图10. 消融研究结果的选择。我们比较了程式化NeRF的结果与2D方法的结果（MD）和没有（W/O MD）相互学习。程式化NeRF的结果保持了最好的一致性。选择程式化NeRF的输出作为我们的最终结果。6. 结论我们提出了StylizedNeRF，一种新的方法风格化的3D场景。提出了一种新的相互学习框架，以最好地利用2D方法的风格化能力和NeRF的空间一致性。从NeRF到2D网络的一致性损失提取空间一致性先验，介绍了一种2D网络输出的模拟损失对齐方法和程式化NeRF为了进一步抑制2D方法的不一致性并使条件风格化成为可能，我们将不一致的2D风格化结果参数化为服从以风格为条件的分布的潜码。我们的StylizedNeRF在视觉质量和一致性方面都优于最先进的方法。在未来的工作中，我们将在Jittor [17]中实现我们提出的方法，这是一个完全即时（JIT）编译的深度学习框架。确认本研究得到了北京市杰出青年自然科学基金（No.JQ21013）、国家自然科学基金（No.62061136007和No.61872440 ）、英国皇家学会牛顿高级院士（ No.62061136007 和 No.61872440 ）。 NAF\ R2\192151）和青年创新促进协会CAS。18350引用[1] Kara-Ali Aliev ， Artem Sevastopolsky ， Maria Kolos ，Dmitry Ulyanov，and Victor Lempitsky.基于神经点的图形学。在欧洲计算机视觉会议（ECCV）的会议记录中，第696-712页。Springer，2020年。3[2] Mark Boss，Raphael Braun，Varun Jampani，Jonathan TBar- ron，Ce Liu，and Hendrik Lensch.NeRD：来自图像集合的神经反射分解。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第12684-12694页，2021年。3[3] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。在Proceedings of the 28th annual conference on Computergraphics and interactive techniques ， pages 425- 432 ，2001中。3[4] 陈东东，廖静，卢远，余能海，华刚。连贯的在线视频风格转移。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第1105-1114页，2017年。3[5] 蒋培泽、蔡孟雄、曾宏宇、赖伟胜、邱伟臣。通过隐式表示和超网络对3D场景进行风格化。在IEEE/CVF计算机视觉应用冬季会议（WACV）论文集，第1475-1484页，2022年。二、三、七[6] Abe Davis Marc Levoy和Fredo Durand非结构化光场。Computer Graphics Forum，31（2pt1）：305-314，2012.3[7] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中建模和渲染建筑：一种基于几何和图像的混合方法。在 Proceedings of the 23rd annual conference onComputer graphics and interactive techniques，pages 11-20，1996中。3[8] Yingying Deng ， Fan Tang ， Weiming Dong ， HaibinHuang，Ma chongyang，and Changsheng Xu.通过多通道相关实现任意视频风格传输。在AAAI，2021年。三、七[9] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。DeepView：使用学习的梯度下降进行视图合成。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR）中，第2367-2376页，2019年。3[10] Lin Gao，Tong Wu，Yu-Jie Yuan，Ming-Xian Lin，Yu-Kun Lai，Hao Zhang. TM-NET：纹理网格的深度生成网络。 ACM Transactions on Graphics （ TOG ）， 40（6）：263：1-263：15，2021。1[11] Lin Gao，Jie Yang，Yi-Ling Qiao，Yu-Kun Lai，Paul LRosin，Weiwei Xu，and Shihong Xia.自动不成对形状变形转移 .ACM Transactions on Graphics （ TOG ）， 37（6）：1-15，2018。3[12] Wei Gao，Yijun Li，Yihang Yin，and Ming-Hsuan Yang.快速视频多风格传输。在IEEE/CVF计算机视觉应用冬季会议（WACV）论文集，第3222-3230页，2020年。3[13] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法。Nature Communications，2015. 4[14] 利昂·A Gatys，Alexander S. Ecker和M. 贝丝使用卷积神经网络进行纹理合成。神经信息处理系统进展（NeurIPS），第262-270页，2015年3[15] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在Proceedings of the 23rdannual conference on Computer graphics and interactivetechniques，pages 43-54，1996中。3[16] Tewodros Habtegebrial、Varun Jampani、Orazio Gallo和Didier Stricker。生成视图合成：从单视图语义到新视图图像。神经信息处理系统进展，2020年。1[17] Shi-Min Hu ， Dun Liang ， Guo-Ye Yang ， Guo-WeiYang，and Wen-Yang Zhou.Jittor：一个具有元运算符和统一图形执行的新型深度学习框架。科学中国信息科学，63（222103）：1-21，2020. 8[18] 黄新平，曾宏宇，李新英，黄家斌。语义视图合成。在欧洲计算机视觉会议（ECCV）的会议记录中，第592-608页。Springer，2020年。1[19] Hsin-Ping Huang ， Hung-Yu Tseng ， Saurabh Saini ，Maneesh Singh，and Ming-Hsuan Yang.学习设计新颖的观点。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第13869-13878页，2021年。二三六七[20] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第1501-1510页，2017年。二三四五[21] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议（ECCV）的会议记录中，第694-711页。施普林格，2016年。2[22] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和Jitendra Malik。从图像集合学习特定类别的网格在欧洲计算机视觉会议（ECCV）的会议记录中，第371- 386页，2018年。1[23] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。二、五[24] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准ACM Transactions on Graphics（TOG），36（4）：1-13，2017。五、六、七[25] DmytroKotovenko，MatthiasWright，ArthurHeimbrecht，and Bjorn Ommer.重新思考风格转换：从像素到参数化笔触。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第12196-12205页，2021年。3[26] Marc Levoy和Pat Hanrahan。光场渲染。在第23届计算机图形学和交互技术年会的论文集，第31-42页3[27] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。神经信息处理系统进展（NeurIPS），第386-396页，2017年。3[28] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.真实感图像18351程式化在欧洲计算机视觉会议（ECCV）的会议记录中，第453-468页，2018年。3[29] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。神经信息处理系统进展（NeurIPS），2020年。3[30] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。Neural volume- umes ： Learning dynamic renderablevolumes from images.ACM Transactions on Graphics（TOG），2019年。3[31] Ricardo Martin-Brualla 、 Noha Radwan 、 Mehdi SMSajjadi、Jonathan T Barron、Alexey Dosovitskiy和DanielDuck-worth。NeRF在野外：神经辐射场的非约束紧张的照片集。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第7210-7219页，2021年。二、三[32] 尼尔森 · 马克斯直接体绘制的光学模型。 IEEETransactions on Visualization and Computer Graphics（TVCG），1（2）：99-108，1995. 5[33] Moustafa Meshry 、Dan B Goldman 、Sameh Khamis、Hugues Hoppe、Rohit Pandey、Noah Snavely和RicardoMartin- Brualla。在野外进行神经再生。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第6878-6887页，2019年。3[34] Ben Mildenhall ， Pratul P Srinivasan ， Rodrigo Ortiz-Cayon，Nima Khademi Kalantari，Ravi Ramamoorthi，Ren Ng，and Abhishek Kar.局部光场融合：具有规定采样指南的实用视图合成。ACM Transactions on Graphics（TOG），38（4）：1-14，2019。三五六[35] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.NeRF：将场景表示为用于视图合成的神经辐射场。在欧洲计算机视觉会议（ECCV）的会议记录中，第405-421页。Springer，2020年。二、三、四[36] Michael Niemeyer、Lars Mescheder、Michael Oechsle和Andreas Geiger。差分体绘制：学习隐式3D表示，而无需3D监督。在IEEE

下载后可阅读完整内容，剩余1页未读，立即下载