三维场景风格化的点云聚合模块的直接解决方案

66 浏览量更新于2023-10-15 收藏 5.59MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13869学习将小说观点Hsin-Ping Huang1，Hung-Yu Tseng1，Saurabh Saini2，Maneesh Singh2，Ming-HsuanYang1，3，41 UC Merced2 Verisk Analytics3 Google Research4延世大学https://hhsinping.github.io/3d_scene_stylization输入视图样式图像样式化的新颖视图图1. 3D场景风格化。给定3D场景的一组图像（左）以及期望样式的参考图像（中），我们的方法能够修改3D场景的样式，并且合成任意新颖视图的图像（右）。新颖的视图合成结果1) 包含所需的风格和2）在各种新颖的视图中是一致的，例如，黄色盒子里的纹理摘要我们解决了一个三维场景风格化问题-生成风格化的图像的场景从任意的新颖的观点给出了一组图像的相同的场景和所需的风格作为输入的参考图像。结合新颖的视图合成和风格化方法的直接解决方案导致在不同视图之间的结果是模糊的或不一致提出了一种基于点云的三维场景风格化方法。首先，我们通过将图像特征反向投影到3D空间来构建点云。其次，我们开发了点云聚合模块来收集三维场景的样式信息，然后使用线性变换矩阵来调制点云中的特征。最后，我们将变换后的特征投影到2D空间，以获得新的视图。两个不同的数据集的真实世界场景的实验结果验证，我们的方法产生一致的风格化的新的视图合成结果对其他替代方法。1. 介绍3D空间中的视觉内容创建最近吸引了越来越多的关注。在3D场景表示方法[38，46，64]的成功驱动下，最近的方法使得在3D场景的各种内容创建任务上取得了重大进展，例如语义视图合成[16，19]和场景外推[34]。在这项工作中，我们专注于三维场景风格化问题。如图1所示，给定目标场景的一组图像和期望风格的参考图像，我们的目标是从任意新颖视图渲染场景的风格化图像3D场景风格化使得能够实现各种有趣的虚拟现实（VR）和增强现实（AR）应用，例如虚拟现实（VR）和增强现实（AR）。将用户位置处的街道场景增强到梵高的夜间咖啡厅露台风格由于两个原因，学习修改现有3D场景的样式具有挑战性。首先，合成新的视图（即风格化的3D场景的样式（例如，2D图像）必须包含由参考图像提供的期望样式。其次，由于我们的目标是使整体3D场景风格化，因此所生成的新颖视图需要在相同场景的不同视点之间是一致的，诸如图1中所示的黄色框中的纹理。为了应对这些挑战，一种合理的解决方案是将现有的新颖视图合成[46，64]和图像风格化方法[30，53]相结合。然而，这样的直接方法导致有问题的结果，因为图像风格化方案没有被设计为考虑同一场景的不同视图之间的一致性问题13870第个视图（+ 1）个视图第三视图（+8）次视图[46][46]查看合成[46]模糊结果图像风格化[30]短程不一致性视频风格化[56]长程不一致性图2. 动机虽然现有方法可以用于3D场景风格化任务，但是这些方法产生模糊（图像风格化→新视图合成）、短程不一致（新视图合成→图像风格化）或长程不一致（新视图合成→视频风格化）结果。我们呈现了图2中的示例，其中如果目标场景的输入图像在进行新颖视图合成之前被风格化，则结果可能是模糊的。另一方面，如果我们在新视图合成之后应用图像风格化，则结果在不同视图之间不一致。另一种可能的解决方案是将一系列新颖的视图合成结果视为视频，并使用视频风格化框架[9，11，56]来获得时间上一致的结果。然而，如图2所示，这些方法不能强制执行长范围一致性（即在两个远距离视图之间），因为视频风格化方案仅保证短期一致性。在本文中，我们提出了一个基于点云的方法一致的三维场景风格化。为了合成新颖的视图，1）匹配任意风格的图像和2）在不同视图之间呈现具有一致外观的图像，核心思想是对3D场景表示进行操作，即：目标场景的点云。给定目标场景的一组输入图像，我们首先通过根据预先计算的3D代理几何结构将图像特征反向投影到3D空间来构建点云。为了实现三维场景整体风格的转换，我们开发了点云转换模块。具体来说，我们使用一系列的点云聚合模块来收集的三维场景的样式信息。然后，我们使用根据点云和参考图像的样式信息计算的线性变换矩阵[30]来最后将变换后的特征点投影到二维空间，得到新的视点合成结果。由于我们的方法从相同的风格化点云合成新的视图图像，渲染结果不仅展示了所需的风格，而且在不同的视点是一致的。我们通过大量的定性和定量研究评估所提出的三维场景风格化方法。实验在真实世界场景的两个不同数据集上进行：[25]和[45]。我们进行了一个用户偏好的研究来评估风格化的质量，即所述新视图合成结果是否匹配所述参考图像的风格。此外，我们使用学习感知图像块相似性（LPIPS）[65]度量来衡量合成结果的一致性不同的小说观点。本文主要做了以下贡献• 我们提出了一个基于点云的三维场景风格化任务的框架• 我们设计了一个点云转换模块，学习从任意的2D参考图像的点云的3D场景的风格转移。• 我们验证，我们的方法产生高品质和一致的风格化的新的视图合成结果的坦克和寺庙，以及FVS数据集。2. 相关工作新视图合成。给定场景的一组图像，新颖的视图合成的目的是在任意视点生成高质量的图像。它可以通过覆盖场景的输入图像的数量来分类。一条工作线将单个图像或立体图像作为输入这些方法使用多平面图像[52，54，58，67]、层深度[52，54，58，67]和层深度[52，54，58，67图像[27，50]或点云[40，57]表示，以在输入视图附近的新视图处合成图像，例如，3D照片。为了使得能够在任意新颖视图处进行图像合成，若干最近的框架将场景的数百个输入这些框架利用不同的3D表示来完成任务。基于图像的渲染方法[45，46]计算场景的3D代理神经辐射场方案[35，38，63，64]使用多层感知器来隐式地编码场景以用于新颖的视图合成。基于点云的方法[37，1]解决了不同的优化问题，以构建特定3D场景的点云。与这些框架不同，我们的目标是生成3D场景的风格化的新颖视图图像如图2所示，虽然现有算法可以用于3D场景风格化任务，但它们无法生成具有所需风格的高质量新颖视图合成结果。图像和视频风格化。图像风格化[12]旨在将参考图像的风格转移到单个输入图像。现有方法[5，22，32，49，55]是基于前馈网络设计的，用于传输一组预定义的样式。对于任意图像风格转移，13871n=1风格形象输入图像{}点云{}调制点云{}风格化新颖视图=1=1=1点云构建（第3.1节）点云变换（第3.2节）一种新的视图合成方法（第3.3节）图3. 算法概述。该方法由三个步骤组成：1）从输入点云集合中构造三维点云2）根据具有期望样式的参考图像S来变换点云，以及3）合成样式化的点云。在任意新颖视图v处图像0v。点云的着色仅用于可视化目的。在我们的方法中，点云存储的功能，而不是RGB值。点态线性变换图4. 点云变换。我们将三维场景风格化过程建模为构造点云和风格化点云之间的线性变换。具体地，使用预测的线性变换矩阵T来调制所构建的点云，如⑴中所述。我们使用一系列的点云聚集模块来收集点云信息，并使用卷积层来处理参考图像特征Fs以计算矩阵T。Huang和Belongie [20]使用一阶统计来编码样式信息，并通过AdaIN归一化层转换图像样式。WCT [33]方法使用白化和着色变换来将输入图像的二阶统计量与参考图像的二阶统计量相匹配。此外，LST [30]方案利用卷积神经网络来降低WCT方法中求解变换矩阵的计算成本，以实现实时通用风格转换。最近，TPFR方法[53]提出了一个正则化层，以促进图像风格化模型的泛化。视频风格化旨在将参考图像的风格转换为视频帧序列。为了解决由图像风格化方法产生的时间闪烁问题，许多方法[4，7，10，15，18]包括光流模块来训练前馈网络以用于将特定风格转移到视频。几个最近的框架[9，11，56]使视频风格跨任意风格。虽然已经取得了显著的进步，但是现有的方法被专门设计用于传输2D图像或视频序列的风格。如图2所示，简单地将这些方案应用于3D场景风格化任务会导致有问题的结果，诸如跨不同新颖视图的模糊或短/长范围不一致的图像已经做出了若干努力来在3D空间中执行样式化。然而，这些方法仅适用于单个对象[23]、窄基线立体图像[6，13]或光场图像[17]。相比之下，我们的方法风格化复杂的3D场景，并在任意视点产生一致的结果。点云的深度神经网络将点云作为输入的各种基于深度神经网络（DNN）的模型[24，28，29，31，41，42，59，61，66]被广泛研究用于视觉识别任务，包括3D语义分割[2]，3D形状分类或正常估计[60]和3D对象部分分割[62]。最近，Mallya等人[36]提出了用于视频到视频合成任务的点云着色方法。在这项工作中，我们提出了一个基于DNN的点云转换模型的三维场景风格化任务。我们注意到，PSNet [3]模型旨在传递点云的样式。然而，对于要应用的PSNet方法存在两个问题到3D场景样式化任务。首先，它不支持在新视图下合成高质量的风格化图像，这使得PSNet框架局限于现实世界（例如，PSNet框架）。AR）应用。其次，由于PSNet方案需要针对每个特定场景的优化过程，因此它是耗时的，并且无法处理现实世界中具有超过60M个点的大规模场景，例如坦克和寺庙数据集中的场景[25]。相比之下，我们提出了一个前馈点云模型，是有效的，能够处理大规模的三维场景，并在各种新颖的视图生成具有任意风格的图像。联系我们=1联系我们=1变换矩阵计算联系我们=1点聚合联系我们′′′′′′′′=1({ })=1FC孔夫��′��(��′)FC13872n=1n=1n=1p p=1p p=1pp=1n n=1p p=1ppp p=1----pp=1--p p=1Lp p=13. 方法我们在图3中呈现所提出的3D场景样式化框架的概述。一组N个输入im-静态场景的年龄{In}N，以及参考图像S其中，f¯c是点云中要素的平均值{f c}P，fs是风格特征图F s的平均值。线性变换矩阵T。变换矩阵T是根据样式特征图Fs和context计算的。}n=1我们的目标是合成图像在具有相机姿态（Rv，tv）的新视图v处的Ov，以及固有Kv. 具体地，所生成的新颖视点图像〇v需要1）匹配参考图像S的样式，以及2) 对不同的观点保持一致为了处理这样的（特别是一致性）要求，我们的核心思想是：1）构造一个单一的3D表示，即点云，用于整体场景，以及2）变换表示以产生不仅风格化而且一致的新颖视图合成结果。拟议的方法包括三个步骤：点云创建、点云变换和新颖视图合成，在以下部分中描述。3.1. 点云构建fpp=1. 如图4所示，我们采用类似于LST [30]方法的策略，该方法使用卷积层、协方差计算和全连接层来从风格特征图Fs计算矩阵Ts。另一方面，我们开发了一系列的点云聚合模块来处理点云fcP，并使用协方差计算，其次是全连接层来计算矩阵Tc。最后得到变换矩阵T=TsTc。点云聚合。由于稀疏性和非均匀性，收集包含在所构建的点云fcP我们注意到，如果输入图像覆盖3D场景的特定区域，则构造的点云是不均匀的。在这项工作中，我们利用集合抽象[43]概念来聚合预处理。我们的方法利用相机姿势和点云点云聚合的输入{fc}P模块是具有特征维度c的P个点的集合，并且代理几何体以构建3D点云。鉴于输入图像{In}N，我们首先使用一个从运动结构输出{fc'}P'是一组P′点，维数为c′。'n=1我们首先对P′点{fc}P使用IT-算法[47]估计相机姿态{Rn，tn}n=1p p=1和内参数KnN。对于每个图像In，我们使用COLMAP[47，48]和基于Delaunay的重建[21，26]方案来获得深度图Dn，其可以将点从图像平面适当地反向投影到3D空间。迭代最远点采样算法[14，39]。将采样点视为三维空间中的质心，我们使用半径参数r来找到附近的点以形成点组。通过使用MLP层和最大池运算符将每个点组映射到向量，我们获得了ag-pooling。聚合点云{fc'}P'。则输出{fc'}P'为特征提取和反投影。由于我们的目标p p=1pp=1为了实现3D场景的风格化，需要对点云表示进行变换，对点云表示中的风格信息进行编码。因此，我们使用在ImageNet [8]上预训练的VGG-19模型[51]数据集以提取输入图像 {In} N 的 relu 31 特征图{Fc}N。每个特征图的宽度和高度为H和W。根据深度图{Dn}N，用作下一个模块的输入。我们在流水线中顺序使用三个点云聚合模块。3.3. 新的视图合成与模型训练我们的目标是在任意新颖的视图v处合成风格化图像Ov。给定目标相机姿态（Rv，tv）和固有Kv，我们使用Pytorch3D [44，57]来渲染变换后的2D特征图Fd。然后我们使用解码器网络我们反向投影每个特征图中的所有点以构建v三维点云{fc}P，其中P=NHW是总以从2D特征图Fd生成风格化的新颖视图图像Ov。构建的点云中的点数。3.2.点云变换我们将3D场景风格化过程建模为构造的点云和风格化的点云之间的线性变换[30]。直观地，目标是匹配程式化点云的协方差统计和参考图像S的协方差统计。为了实现这一点，我们使用预先训练的VGG-19网络从参考图像S中提取relu31特征图作为风格特征图Fs。给定所构造的点云{fc}P，我们使用预测的v模特训练我们在整个训练阶段保持预训练的VGG-19特征提取器固定不变。我们首先训练解码器网络来执行非风格化的新颖视图合成。由于地面实况（非程式化）新视图图像在训练集中可用，因此我们使用l1重建损失来优化解码器网络。然后，我们保持解码器网络固定，并使用以下损失函数训练所提出的• 内容丢失c通过测量线性变换矩阵T，以计算所生成的样式的经调制的预训练的VGG-19特征。点云{fd}P，即化图像0v和地面实况（非风格化）图像Iv。f d=T（f c−f¯c）+f¯sp∈[1，···，P]，（1）·风格损失Ls鼓励合成图像Ov13873输入视图样式图像我们的LST→SVS模糊SVS→LST不一致SVS→TPFR不一致图5. 与基于图像风格化的方法进行视觉比较。我们比较了由三种图像风格化替代方案生成的风格化新视图图像以及我们在Tanks和Temples数据集上的模型[25]。输入视图样式图像我们的SVS→化合物平淡风格/不一致SVS→FMVST失去内容SVS→MCC不一致图6. 与基于视频风格化的方法的视觉比较。我们比较了由三个视频风格化替代方案生成的风格化新视图图像和我们在Tanks和Temples数据集上的模型[25]。13874转n=1转--转输入视图样式图像风格化的新颖视图图7. FVS数据集的定性结果。我们通过在Tanks和Temples数据集上进行训练，然后在FVS数据集上进行测试，证明了所提出的方法的泛化性。以匹配参考图像S的风格。类似于最近的风格转移方法[22，30]，我们提取预训练VGG-19模型的不同层的特征，并计算gram矩阵差异。用于训练点云变换模块的总体损失函数为L=Lc（Ov，Iv）+λLs（Ov，S），（2）其中λ控制每个损失项的重要性。4. 实验结果我们在两个真实世界的数据集上进行了广泛的实验，以验证所提出的3D场景风格化模型的有效性。数据集。我们使用Tanks和Temples [25]数据集进行定量评估。与FVS [45]中的设置类似，我们使用21个场景中的17个进行训练。其余四个场景（卡车、火车、M60和游乐场）用于测试。我们还提出了定性结果FVS [45]数据集，由6个场景组成：自行车，鲜花，海盗，挖掘机，沙盒和足球。请注意，这两个数据集都是由手持摄像机收集的。约束运动评价方法。由于3D场景样式化任务是一个相对较新的问题，我们评估了我们的方法与基于最先进的新颖视图合成NeRF++ [64]，SVS [46]和图像/视频风格化方案的替代方法：• 图像风格化新颖视图合成：我们首先使用图像风格化方案LST [30]或TPFR [53]将风格转移到输入图像InN，然后执行新颖的视图合成。• 新颖的视图合成图像风格化：我们将图像风格化应用于新颖的视图合成结果。• 新颖的视图合成视频风格化：我们使用一系列新颖的视图合成结果来创建视频，然后应用视频风格化方法 Compound [56] ， FMVST [11] 或 MCC[9]。4.1. 定性结果图像风格化。图5呈现了由三种图像风格化替代方案和所提出的方法生成的风格化的新视图图像之间的定性比较。由于图像是风格化的inde-13875百分百十七点八十九点四40.644.463.9百分之五十82.280.659.455.636.10%的百分比--↓转转转转--↓转转百分百百分之五十0%的百分比(a) 一致性表1. 短程一致性。我们使用Tanks和Temples数据集[25]中的第（tl）个和第t个我们报告了15种不同风格的平均错误最佳性能用粗体表示，次佳性能用下划线表示。方法卡车操场火车M60平均NeRF++→化合物0.1880.1660.3420.3430.2500.2420.1690.1560.3000.3040.2010.1980.2290.1990.4050.4120.2690.2600.2080.1600.3480.3370.2550.2240.2020.1720.3540.3540.2460.232SVS→化合物NeRF++→ FMVSTSVS→ FMVSTNeRF++→ MCCSVS→ MCC我们0.1840.1580.1700.1720.170图8. 用户偏好研究。我们进行用户研究，并要求受试者选择以下结果：（a）在不同视频帧（例如：较少闪烁），（b）更好地匹配示例图像的风格。数字表示优先级的百分比。在不考虑跨不同视点的一致性问题的情况下，我们观察到基于图像风格化的方法中的两个问题。首先，LST SVS通常产生模糊的新颖视图图像。由于风格化的输入图像是不一致的，所以新颖的视图合成方法倾向于混合这种不一致，这导致模糊的结果。第二，如果我们以相反的顺序操作，新的视图合成结果不一致，即SVS LST。我们使用黄色框在图5中。请注意，如果我们用NeRF++替换SVS，我们会观察到相同的问题。视频风格化。我们通过所提出的方法和图6中的三种视频风格化替代方法定性地评估结果。具体来说，我们使用一系列新颖的视图合成结果来创建视频。所有替代方法在两个相对较远的视点之间生成不一致的结果，因为视频风格化方法仅保证视频中的短期一致性。尽管SVS复合生成较少的不一致结果，但是新视图图像的风格是平淡的并且与参考图像的风格不一致。另一方面，SVS FMVST创建更好地匹配所需样式的图像，但无法保留原始场景的内容与图像和视频风格化替代方法相比，我们的方法1）生成具有正确场景内容和期望风格的清晰新颖视图图像，并且2)保证了短/远程一致性。此外，我们证明了所提出的推广表2. 长期一致性。我们使用Tanks和Temples数据集[25]中的第（t）个和第t个我们报告了15种不同风格的平均错误最佳性能用粗体表示，次佳性能用下划线表示。方法卡车操场火车M60平均NeRF++→ LSTSVS→ LSTNeRF++→TPFR SVS→TPFR0.5700.5670.5790.6050.3490.3270.4360.4300.5200.4700.5030.4700.6390.6030.6550.5810.5210.4890.5410.513NeRF++→化合物0.5860.5730.7420.7320.6910.6930.3980.3880.5250.5190.4500.4470.4770.4220.6360.6200.5350.5160.5570.4600.6950.6620.6460.5840.4980.4490.6440.6260.5710.548SVS→化合物NeRF++→ FMVSTSVS→ FMVSTNeRF++→ MCCSVS→ MCC我们0.5590.3370.4120.4580.431框架，其中我们使用在Tanks和Temples数据集上训练的模型来执行FVS数据集上的3D场景样式化任务。4.2. 定量结果风格化质量。我们进行了一项用户研究，以了解建议和替代方法之间的用户偏好。对于Tanks和Temples数据集中的每个测试场景，我们使用一系列风格化的新颖视图合成结果创建视频通过呈现针对相同场景由不同方法生成的两个视频，我们要求参与者选择（1）在不同视频帧上具有更一致内容的视频（例如，较少闪烁），以及（2）更好地匹配参考图像的风格。如图8中所示的结果，通过所提出的方法合成的图像是一致的并且接近参考风格。我们观察到用户稍微喜欢SVSFMVST生成的样式。然而，如第4.1节和图6所示，SVS FMVST无法保留原始场景的内容。短程一致性。我们使用扭曲的LPIPS度量[65]来测量不同观点之间结果的一致性以新颖的视角赋予程式化的形象我们SVS→FMVSTSVS→MCCSVS→TPFRSVS→化合物 SVS→LST百分百17.819.440.644.463.9百分之五十82.280.659.455.636.10%的百分比(b)程式化7.26.76.110.646.192.893.393.989.453.9NeRF++→ LSTSVS→ LSTNeRF++→TPFR SVS→TPFR0.2150.1920.2160.2350.1680.1590.2140.2370.2500.2200.2990.2910.2740.2410.2790.2760.2310.2060.2580.26413876转转----不带点云聚合杂乱着色1点云聚合不平衡3点云聚合5点云聚合低对比度图9. 点云聚合模块数目的消融研究。我们比较了使用0/1/3/5模块的视觉结果。我们根据经验决定使用3个模块以获得更好的视觉质量。无点云聚合图10. 点聚合的作用。我们可视化点聚集之前和之后的点分布。我们的点聚集模块获得更均匀分布的点集以公平地估计变换矩阵T，从而实现更好的3D场景风格化结果。v，我们根据3.1节中描述的3D代理几何结构将在另一个视图wv’处生成的结果写入视图v。然后，我们计算得分为Ewarp（Ov ，O′v）=LP IPS（Ov ，W（O′v），Mv′v），（三）其中W是扭曲函数，并且Mv’v是从视图v’到v’扭曲的有效像素的掩码。请注意，我们仅使用掩码中有效像素的值进行[ 65 ]中的对于Tanks和Temples数据集中的每个测试场景，我们使用15个样式图像[11]来计算平均扭曲误差。我们首先在表1中给出了短期一致性比较。在这个实验中，我们使用一个特定的新的视图附近的视图来计算扭曲误差。1一般来说，图像风格化替代方法会产生短期不一致的结果，因为它们独立地处理每个新视图。相比之下，所提出的方法相对于考虑视频中的短期一致性的基于视频样式化的方法SVS Compound执行。然而，SVS Compound合成了与所需样式不匹配的平淡样式，如图6和图8所示。长期一致性。我们还考虑了远程1我们使用第（t1）个和第t个测试视频帧的视点作为v′和v′的视点。我们实验中的一致性问题在该实验中，我们计算两个（相对地）遥远视图的结果之间的扭曲误差。2如表2所示，所提出的方法与替代方法相比表现良好尽管基于视频风格化的方案能够确保短距离一致性，但不能保持长距离一致性。点云聚合模块的数量。我们进行了消融研究，以确定第3.2节中描述的点云聚合模块的数量。结果示于图9中。我们根据经验选择使用三个模块以获得更好的视觉质量。此外，我们可视化了图10中聚合前后的点分布，以了解聚合模块的作用。聚合之前的点密度在3D场景的区域周围更高，其中更多输入图像覆盖。结果，变换矩阵T的预测由这样的区域主导，这导致低质量风格化结果（图9中的第2列）。通过使用点云聚合模块，我们获得了一个更均匀分布的点集，它公平地估计了3D场景风格化任务的矩阵T5. 结论在这项工作中，我们介绍了一个3D场景风格化问题，旨在修改的风格的3D场景和synn- thesize图像在任意新颖的意见。我们构造一个单一的三维表示，即。点云，并设计了一个点云转换模块，将参考图像的风格转换为三维表示。定性和定量评估验证了我们的方法合成的图像，1）包含所需的风格和2）在各种新的观点是一致的。确认这项工作得到了NSF CAREER Grant #1149783和Verisk的部分支持。2.我们使用第（t7）个和第t个测试视频帧的视点作为v′和v′的视点。13877引用[1] Kara-Ali Aliev ， Artem Sevastopolsky ， Maria Kolos ，Dmitry Ulyanov，and Victor Lempitsky.基于神经点的图形学。在ECCV，2020年。二个[2] Iro Armeni ， Sasha Sax ， Amir R Zamir ， and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv：1702.01105，2017。三个[3] 曹旭，王为民，长尾胜，中村良介.Psnet：一个用于几何和颜色点云样式化的样式传递网络。在WACV，2020年。三个[4] 陈东东，廖静，卢远，余能海，华刚。连贯的在线视频风格转移。InICCV，2017. 三个[5] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在CVPR，2017年。二个[6] 陈冬冬、卢远、廖静、余能海、华刚。立体神经风格转移。在CVPR，2018年。三个[7] 陈兴浩，张伊曼，王云鹤，韩舒，徐春静，徐昌.光流蒸馏：实现高效稳定的视频风格传输。在ECCV，2020年。三个[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。四个[9] Yingying Deng ， Fan Tang ， Weiming Dong ， HaibinHuang，Ma chongyang，and Changsheng Xu.通过多通道相关实现任意视频风格传输。在AAAI，2021年。二、三、六[10] Chang Gao ， Derun Gu ， Fangjun Zhang ， and Y.Yu.Reconet：实时相干视频格式传输网络。在ACCV，2018年。三个[11] Wei Gao，Yijun Li，Yihang Yin，and Ming-Hsuan Yang.快速视频多风格传输。在WACV，2020年。二三六八[12] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。二个[13] Xinyu Gong，Haozhi Huang，Lin Ma，Fumin Shen，Wei Liu，and Tong Zhang.神经立体图像风格转移。在ECCV，2018。三个[14] Teofilo F Gonzalez聚类以最小化最大聚类间距离。理论计算机科学，38：293四个[15] 阿格里姆·古普塔，贾斯汀·约翰逊，亚历山大·阿拉希，李菲菲.表征和提高神经风格转移的稳定性。InICCV，2017. 三个[16] Tewodros Habtegebrial、Varun Jampani、Orazio Gallo和Didier Stricker。生成视图合成：从单视图语义到新视图图像。在NeurIPS，2020年。 1[17] 大卫·哈特布莱恩·莫尔斯和杰西卡·格林兰。用于光场摄影的风格转移。在WACV，2020年。三个[18] Haozhi Huang ， Hao Wang ， Wenhan Luo ， Lin Ma ，Wenhao Jiang，Xiaolong Zhu，Zhifeng Li，and Wei Liu.视频的实时神经风格传输。在CVPR，2017年。三个[19] 黄新平、曾宏宇、李新英、贾黄斌。语义视图合成。在ECCV，2020年。一个[20] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。InICCV，2017. 三个[21] Michal Jancosek和Tomas Pajdla。多视图重建保留弱支撑表面。CVPR，2011。4[22] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。二、六[23] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在CVPR，2018年。三个[24] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。InICCV，2017. 三个[25] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun. 坦克和寺庙：大规模场景重建的基准。ACM TOG（Proc. SIGGRAPH），36（4），2017。二三五六七[26] Johannes Kopf，Michael Cohen，and Richard Szeliski. 第一人称超延时视频。ACM TOG（Proc. SIGGRAPH），33：1-10，072014。四个[27] Johannes Kopf，Kevin Matzen ，Suhib Alsisan ，OceanQuigley ， FrancisGe ， YangmingChong ， JoshPatterson，Jan- Michael Frahm，Shu Wu，Matthew Yu，et al.一张3D照片。ACM TOG（Proc. SIGGRAPH），39（4）：76-1，2020. 二个[28] 特吕克·勒和叶端。Pointgrid：用于3D形状理解的深度网络。在CVPR，2018年。三个[29] Jiaxin Li，Ben M Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络在CVPR，2018年。3[30] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换快速任意风格转移。在CVPR，2019年。一二三四六[31] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换点上的卷积在NIPS，2018年。三个[32] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.用前馈网络实现多样化纹理合成。在CVPR，2017年。二个[33] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。在NIPS，2017年。三个[34] Andrew Liu、Richard Tucker、Varun Jampani、AmeeshMakadia、Noah Snavely 和Angjoo Kanazawa 。无限自然：从单个图像生成自然场景的永久视图。arXiv预印本arXiv：2012.09855，2020。一个[35] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua ， and Christian Theobalt. 神经稀疏体素场。在NeurIPS，2020年。二个[36] Arun Mallya ， Ting-Chun Wang ， Karan Sapra ， andMing-Yu Liu.全球一致的视频到视频合成。在ECCV，2020年。三个[37] Moustafa Meshry ， Dan B.Goldman 、 Sameh Khamis 、Hugues Hoppe、Rohit Pandey、Noah Snavely和RicardoMartin- Brualla。在野外进行神经再生。在CVPR，2019年。 2[38] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。在13878ECCV，2020年。一、二13879[39] 卡斯滕·莫宁和尼尔·A·道奇森。快速行进最远点采样。技术报告，剑桥大学，计算机实验室，2003。四个[40] 西蒙·尼克劳斯、龙迈、杨继美、刘峰。3D肯烧伤效果从一个单一的形象. ACM TOG（Proc. SIG-GRAPH），38（6）：1-15，2019。二个[41] Charles R Qi， Hao Su ，Kaichun Mo ， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。三个[42] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。在NIPS，2017年。三个[43] Charles R Qi，Li Yi，Hao Su，and Leonidas J Guibas.Point- net++：度量空间中点集上的深度层次特征学习。在NIPS，2017年。四个[44] Nikhila Ravi、Jeremy Reizenstein、David Novotny、Tay-lor Gordon 、 Wan-Yen Lo 、 Justin Johnson 和 GeorgiaGkioxari。使用pytorch3d加速3d深度学习。arXiv预印本arXiv：2007.08501，2020。四个[45] Gernot Riegler和Vladlen Koltun。自由视图合成。在ECCV，2020年。二、六[46] Gernot Riegler和Vladlen Koltun。稳定的视图合成。在CVPR，2021年。一、二、六[47] 约翰内斯湖Schonberger和Jan-Michael Frahm.结构-从运动重新审视。在CVPR，2016年。四个[48] JohannesSchoünber ger，EnliangZheng，MarcPollefe ys，andJan-Michael Frahm.用于非结构化多视图立体的像素视图选择。在ECCV，2016年。四个[49] 沈发龙，严水城，曾刚。通过Meta网络的神经风格转移。在CVPR，2018年。二个[50] 施梦丽，苏世扬，约翰内斯·科普夫，黄家斌。使用上下文感知分层深度修复的3d摄影。在CVPR，2020年。二个[51] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。四个[52] 放大图片作者：Richard Tucker，Jonathan T. Barron，Ravi Ramamoorthi，Ren Ng，and Noah Snavely.用多平面图像推进视图外推的边界在CVPR，2019年。二个[53] Jan Svoboda、Asha Anoosheh、 Christian Osendorfer和Jonathan Masci。用于任意图像风格转移的两阶段对等正则化特征重组。在CVPR，2020年。一、三、六[54] Richa

下载后可阅读完整内容，剩余1页未读，立即下载