室内三维场景重建中基于风格转移的纹理合成及优化方法

103 浏览量更新于2023-10-25 收藏 5.5MB PDF 举报

3D重建

视觉应用

身份认证购VIP最低享 7 折!

30元优惠券

6198StyleMesh：用于室内三维场景重建的卢卡斯·霍莱1贾斯汀·约翰逊2马蒂亚斯·尼斯内1慕尼黑工业大学2密歇根大学图1.我们进行风格转移重建的三维网格合成风格化的纹理。我们计算场景的视图上的风格转移损失和反向传播梯度的纹理。来自网格的深度和曲面法线数据支持3D感知样式化，防止标准2D丢失引起的伪影我们的风格化网格可以使用传统的图形管道渲染该领域的新用例：重建的摘要我们将风格转移应用于室内场景的网格重建.这使得VR应用程序，如体验3D环境绘制在一个最喜欢的艺术家的风格样式转移通常在2D图像上操作，使得网格的样式化具有挑战性。当在各种姿势上进行优化时，风格化模式变得伸展并且大小不一致。另一方面，存在基于模型的3D样式转换方法，其允许从稀疏图像集合进行样式化，但是它们在推断时需要网络。为此，我们优化了一个明确的纹理重建网格的场景和风格化它联合从所有可用的输入图像。我们的深度和角度感知优化利用表面法线和底层网格的深度数据，为整个场景创建统一和一致的风格。我们的实验表明，我们的方法创建清晰和详细的结果，为完整的场景没有视图相关的文物。通过广泛的消融研究，我们表明，所提出的3D意识，使风格转移被应用到3D域的网格。我们的方法1可以用来渲染一个风格化的网格在实时与传统的渲染管道。1. 介绍从RGB-D扫描创建3D内容是计算机视觉中的一个热门话题[1，12，29，43，44]。我们解决了1https://lukashoel.github.io/stylemesh/网格与显式RGB纹理。神经风格转换（NST）在图像或视频的风格化方面表现出了很好的效果，但是像网格这样的3D内容的风格化还没有得到充分的探索。我们合成一个纹理的网格，这是一个观察到的RGB颜色和绘画的艺术风格的组合风格化后，人们可以在VR中探索空间，并看到它以梵高的风格绘制。我们的用例类似于先前的纹理映射方法[2，16，26，27，29，53，57]，其从一组设定的RGB图像构造纹理，但是我们产生风格化的纹理而不是直接匹配输入图像。这是困难的，因为样式传递损失通常在2D图像特征上定义[20]，所以NST不会立即推广到3D网格。最近，风格转移已经与新颖的视图合成相结合，以使用神经渲染器从稀疏的输入图像集合中对任意场景进行风格化[7，25，35]。这些基于模型的方法在推理期间需要向前传递，并且不能直接应用于网格。Kato等人。[32]和Mordvintsev等人。[42]使用可微分渲染来弥合图像风格转换和纹理映射之间的差距：将图像损失反向传播到纹理表示，从而实现一致的网格风格化。然而，将这些方法应用于房间规模的几何建模是具有挑战性的，因为所得到的风格化模式是嘈杂的，并且可以包含视图相关的拉伸和大小伪影。例如，从小的掠射角优化表面会在图像平面中为该姿势创建图案。从正交角度观察同一表面，6199k=1- -示出了由于透视变形而伸展的图案。类似地，从近距离和远距离的视点观看物体会在同一表面上混合小图案和大图案。由于风格化尺寸不一致，因此感知深度变得更加困难。出现这些问题是因为2D样式传递损失不包含3D数据，如曲面法线和深度。相反，纹理在每个姿势的图像平面中被单独风格化为此，我们在纹理上制定了一个能量最小化问题，该问题将纹理映射与样式传递相结合（类似于[42]），并以3D感知的方式最小化每个姿势的样式传递损失，以避免视图相关的伪影。首先，我们利用深度来呈现图像补丁在越来越大的屏幕空间分辨率。通过将样式损失计算拆分到这些补丁上，我们在前景中创建了比背景更大的样式化模式。因此，图案在世界空间中具有相同的大小，并且以与视图无关的方式进行优化。其次，我们使用表面法线和视图方向之间的角度来确定每个像素的风格化程度。通过从不同风格的图像分辨率（类似于[39]）计算Gram矩阵，从小掠射角看到的区域被粗略的细节风格化，如果从更好的角度看到这些细节，则稍后进行细化。第三，我们通过在反向传播期间使用每像素角度和深度权重缩放梯度来避免离散化伪影。与最先进的3D风格转换方法相比，我们的实验表明，在定性和定量方面的3D一致风格化此外，我们的显式纹理表示允许的di-rect使用与传统的渲染管道。概括起来，我们的贡献是：• 通过新的纹理优化实现房间级室内场景网格的样式转换，从而生成3D一致性纹理并减轻视图相关伪影。• 在不同的屏幕空间分辨率下进行深度感知优化，在网格的世界空间中创建相同大小的风格化图案。• 在不同的样式化细节处进行角度感知优化，在网格的世界空间中创建未拉伸的样式化图案。2. 相关工作我们的方法是一个NST方法上的纹理参数化的网格。它涉及到最近的工作风格转移的视频和3D对象，以及纹理生成从RGB-D图像。纹理贴图。许多方法从多个RGB图像纹理化重建的网格，即，它们将纹理映射到结合所有图像的颜色信息的几何结构上[2，16，26，27，29，53，57]。这些方法必须处理在姿势，几何，颜色和失真的不准确性，以找到场景的最佳纹理。相比之下，我们的目标是创建一个纹理，也是一个特定的图像风格，并通过引入深度和角度意识的优化，避免视图相关的风格化文物。图像样式传输。NST，首先介绍了Gatys等人。[20]，可以是基于优化的[8，20，21]或模型-根据[15，28，30，52]。它在图像域中通过全局或局部基于块的方式匹配CNN特征来固有地定义[20，31，34，36，41]。因此，它不能直接利用3D数据，如网格的深度或表面法线。当通过多个姿势优化纹理时，这可能会导致视图相关的样式化人为因素我们通过在不同的图像段上分割损失计算，将3D感知引入到基于优化的NST中视频风格转换。视频风格转换（VST）方法一致地以给定的风格对RGB视频帧进行风格转换。这些方法是基于优化的[46，47]或基于模型的[5，6，18，19，22，54，55]，并采用时间一致性或光流约束。其他方法以时间上一致的方式组合特征，而不直接使用最佳流量或深度约束[15，37]。VST方法可以与纹理映射相结合，以实现一致的风格化的室内场景。然而，由于VST优化不知道底层的3D结构，因此产生的纹理通常是模糊的或低细节的。三维样式转换。提升样式转换到3D已经被探索用于纹理化单个对象[32，42，56]或面[23]。但是，它们专注于孤立的对象（而不是房间规模的场景），并且不使用3D数据。相比之下，我们的方法以3D感知的方式风格化完整的室内场景。另一种工作将基于范例的NST应用于3D模型[24，49]，从（手工制作的）范例中明确指导风格化过程。相比之下，我们遵循原始的NST风格化的3D场景模型从艺术绘画和相机图像。Cao等人[3]使用不能直接用于网格纹理的点云来设计室内场景。其他方法结合了新颖的视图合成和NST，以便仅从少数输入图像进行一致的风格化[7，25，35]。相比之下，我们在推理过程中不需要网络来产生风格化结果;我们的结果可以通过标准图形管道渲染。3. 方法我们的目标是对室内场景的网格进行样式化：我们希望创建一个纹理，该纹理是原始RGB颜色和样式图像的混合为了避免视图相关的伪影，我们在所有图像上制定了一个深度和角度感知的我们需要一组在不同姿势下捕获的N个图像IkN。我们还需要场景的网格重建，我们为此创建纹理参数化，即，我们需要每个顶点的UV坐标6200k=1TL L LTL×- -不图2.我们使用多个RGB图像和样式图像优化场景的网格重建纹理。我们用不同分辨率的uv贴图对纹理进行采样，为每个姿势生成一个渲染金字塔。使用深度，我们将屏幕空间划分为多个部分，每个部分对应于不同的金字塔级别。每一个都被单独编码，并与内容丢失中的RGB图像部分进行比较。使用法线，样式损失进一步分为精细和粗糙分支。我们丢弃从小掠射角看到的特征，以实现精细的风格化。最后，在反向传播到纹理之前，我们用连续的角度和深度权重缩放得到的图像梯度对于每一个姿势，我们用多个分辨率的对应uv贴图对纹理进行采样，得到一个渲染金字塔。根据每个像素的深度，我们将图像分割成多个渲染部分，每个部分属于一个金字塔分辨率。每个部分都用于内容和风格损失，我们只使用从好角度看到的细节来设计像素。最后，在反向传播到纹理之前，我们平滑每个像素的梯度。完整的方法如图所示。二、3.1. 纹理优化我们从所有RGB图像I k N中优化一个风格化的RGB纹理矩阵以及单独的样式图像Is。类似于[42]，我们用公式和风格损失Lc，Ls，并添加正则化项Lr：Nn=argmin（λcc（Ii，P<$i）+λss（Is，P<$i）+λrr（））不在多个姿势上进行模仿。风格化图案可以在前景和背景中同样大地出现，例如，当一个表面的一部分被看到远处和特写（见图3）。因此，从多个姿势观察同一表面会将小图案和大图案混合在一起。因此，使用优化纹理的渲染无法令人信服地捕捉深度。Liu等人[38]在具有深度损失网络的图像平面中使样式相比之下，我们通过在多个屏幕空间分辨率下进行优化来实现深度感知。在图像的前景中出现的图案比背景中出现的图案大，最终导致世界空间中的样式同样大。我们利用屏幕空间中的面积与深度成反比的关系，即，当深度增加因子p时，给定的投影面积减少因子p2。另一方面，样式转移与其所应用的图像分辨率无关当分辨率增加P2时，风格化图案按比例地变小（be-i=0时（一）因为感受野相对于周围区域变小其中，Pi是当前姿势的渲染p金字塔，从具有相应uv贴图的纹理中采样，λ、λ、λ是损失权重。采样操作是相同的-解决方案）[21]。我们结合这两种关系来优化在世界空间中具有相同大小的样式化模式：深度增加p，图像分辨率增加p2。c sr与传统的图形和微分，即，我们从四个相邻的像素中双线性地内插每个像素。类似于Thies等人。[51]，我们使用拉普拉斯金字塔来定义我们的纹理，以使用r正则化每层中的纹理。这有助于避免放大和缩小伪影，并减少纹理中的可见噪波。对于每个姿势，我们优化观察到的纹理元素的子集因此，在本发明中，我们应用该关系将图像划分为多个部分，从渲染金字塔中以越来越大的分辨率采样。内容和风格的损失，然后计算独立的每一部分。为了离散成部分，我们定义一个最小深度值θd，使关系绝对化。我们计算每个像素的最佳图像高度为dxy我们需要一个覆盖大部分场景的姿态集来完全优化纹理相比之下，Rxy=θmin·θ（二）空间直接[56]对于可能包含许多接缝的房间尺度纹理参数化是有问题的。3.2. 深度级别渲染部件风格转移对图像的CNN特征进行操作[20]。这导致了一个有限的深度感时，操作-其中dxy是像素（x，y）处的深度，θmin是最小分辨率。我们将分辨率Rxy表示为像素高度，并相应地缩放宽度。然后，我们将Rxy映射到渲染金字塔中的最近邻居，生成其索引作为每个像素的深度级别。最后，我们应用一个3 - 3ero- sion内核，以平滑的深度级别地图的所有像素。D6201F--XYL-|（6）L，L我≤SSLCC FFF FΣ|Σ我们计算归一化的加权因子w_l为：w=vlltl和W-1WLθlw（四）(a) 投影几何（b）世界空间图3.在2D（屏幕空间）中样式化网格面取决于投影几何体的角度和大小。从一个小的掠射角优化墙面会导致世界空间中的拉伸相似大小的区域可以接收更多或更少的图案，这取决于它们的投影大小（绿色和红色）。我们将风格化模式表示为从屏幕空间优化到纹理空间的圆形。3.3. 角度过滤器屏幕空间中的风格转移可以创建拉伸的风格化模式（见图3）。图案从一个视图看起来可能是圆形的，但是在世界空间中是拉伸的椭圆（例如，当从小的掠射角优化时）。为了防止这种情况，我们结合了粗糙和精细的风格损失，并仅对从良好角度看到的区域进行精细细节优化。与以前的工作类似[21，39]，我们利用高分辨率图像的感受野仍然很小的事实[40]。因此，当从更大的样式图像优化时，样式化模式显得更粗糙和更少细节。我们发现，粗糙的图案是不太容易拉伸文物。对于每个像素，我们计算其法线视角αxy=α（αnxy，αv），其中αnxy是pi x el（x，y）处的插值表面法线，αv是视图方向。只有αxy≤θa的像素用于具有α的样式损失。其中Vl是可见的，而Tl是深度级别L中的像素的总数。类似地，内容损失被定义为θlLc（I，P）= wl·||Fl−Fl||二（五）L其中F1是以类似方式分割的内容图像I为了简洁起见，我们从符号中省略了不同的VGG层正如Gatys等人提出的那样。[20]，我们使用层relu 1-5 1用于样式丢失，使用层relu 4 2用于内容丢失。我们独立地计算每个VGG层的损耗，并相应地将它们3.5.逐像素梯度缩放深度等级（第3.2）和角度过滤（第3.3）在每个姿态的图像上施加硬阈值。为了避免决策边界处的离散化伪影，我们在将其反向传播到纹理之前缩放每像素梯度首先，我们从法线视角αxy计算加权因子wa=cos（αxy）。这通过优选正交而不是小掠射角来控制姿态对每个像素的影响。与Gatys等人[21]类似的缩放功能反而会导致过饱和伪影。其次，我们采用了三线性Mipmap插值的思想[17]。每个像素都对其最近的两个金字塔层的渲染部分做出贡献，从而产生两个每像素的gra-ratio。我们计算到最近层的距离为Rxy−L1W=D产生精细样式的低分辨率样式图像我们总是使用所有像素和高分辨率样式图像来优化粗略的样式化模式。这就形成了一个COM--XYxy1 2xy xy其中Rxy是像素（x，y）的最佳分辨率，没有拉伸伪像的粗糙和精细图案的组合1 2xyxy是最近的和第二近的分辨率3.4.多分辨率基于部分的损耗金字塔层。最后，我们在每像素梯度之间进行线性插值，多个内容和风格损失结合深度层次L=0.01L1·wd·w+L2·（1−wd）·wa（七）（第二节）3.2）和角度过滤（第3.3）优化tex-没有视图相关的伪影。我们把基因编码-IxyIxyxy xyIxyxy xyderpyramidP_n与预训练的VGG网络[48]一起工作到特征pyramidF_n中。利用深度层图，我们只保留了每一层的特征。我们从每一层的特征中计算出一个粗的Gram矩阵G_c和一个角度滤波的细的Gram矩阵G_f。同样，Gc和Gf对应于高分辨率和低分辨率样式图像。我们将样式丢失定义为θlL（I，P）=2016年10月28日，||G−Gl||2个以上||G−Gl||（2）（3）L其中L1是最近金字塔层的损失项，pixel（x，y）和L2分别为第二最近的3.6.数据预处理我们使用ScanNet [10]和Matterport 3D [4]数据集，它们提供RGB-D图像和重建网格（我们使用Matterport3D的每个区域网格[4]）。我们使用RGB图像进行优化，但使用Laplacian内核过滤它们以去除模糊图像。我们减少每个网格然后，我们生成一个纹理参数化，其在所有深度级别上独立地求和（基于部分）并且组合粗略和精细风格化（多分辨率）。=L一我6202Blender我们为每个估计的姿势预先计算uv6203×--4. 结果实施详情。我们以4096 4096的分辨率优化纹理，作为具有 4 层和正则化强度 λr=5000 的拉普拉斯金字塔[ 51 ]。我们使用λc=70和λs=0。0001内容和风格的损失权重。我们优化了7个时期，并重复每帧10次。我们设置θmin=32，使用θl=4渲染金字塔层，高度为256，432，608，784像素。我们设θa=30°，θd=0。ScanNet [10]为25米，θa=40μ m，θd=0。对于Mat-terport3D，2米 [4]。我们逐渐减半原来的风格im-年龄分辨率，直到宽度或高度达到256像素的大小。我们使用由此产生的图像的风格化的精细细节和两个步骤更大的图像粗糙的细节。我们使用Adam [33]，批量大小为1，初始学习率为1，以0的倍数衰减。每3个时期1次。我们尝试了L-BFGS [58]，结果相似。优化后，我们将拉普拉斯金字塔导出为单个纹理图像，并使用带有Mipmaps和着色的标准光栅化器[17]进行渲染。评估指标。我们进行了一项用户研究，以显示深度和角度感知的优势（图10）。此外，我们还通过“圆”图像的风格化对其进行量化我们计算了屏幕空间（Corr.2D）和世界空间（Corr.2D）中圆大小和深度之间的相关性。3D），以及圆形拉伸作为世界空间中水平和垂直半径的比例（表1）。2）。为了量化3D一致性，我们计算源帧和重新投影的目标帧之间的L11）。有关指标的更多详细信息，请参阅补充材料4.1. 场景风格转换我们的方法与3D风格转移方法，通过显式或隐式的表示风格的场景竞争。具体来说，我们比较我们的方法与 DIP Mordvintsev 等人。 [42] 和 Kato 等人的NMR[32]：像我们一样，他们也优化纹理，但他们不利用角度或深度数据。此外，我们与Huang等人的LSNV进行了比较。[25]使用神经渲染器对点云进行样式化。我们在图5中显示了Matterport3D [4]数据集的结果，在图6中显示了ScanNet [10]数据集的结果。纹理网格的可视化如图所示4.第一章更多示例请参见补充材料。我们的研究结果表明，我们能够styphiles的场景，出视图相关的大小或拉伸文物。与其他方法相比，我们的方法为整个场景创建了清晰和详细的效果。优化完整的纹理对于DIP [42]和NMR [32]来说尤其困难，它们都包含噪声纹理元素。LSNV [25]风格化完整的图像，但他们的结果不太详细。为了定量地评估我们的方法和相关的方法，我们计算源帧和重新投影的目标帧之间的平均L1结果列在选项卡中。1.一、[32]第四十二话：我的世界图4.自上而下的看法风格化的网格相比，以前的工作。方法短程↓长距离↓LSNV [25]4.8737.207核磁共振[32]1.5652.165中文（简体）1.3961.723我们1.2251.566表1. L1源帧和重新投影的目标帧之间的距离. 我们在10个不同的ScanNet [10]场景中报告了短距离（下一帧第2帧）和长距离（下一帧第20帧）的平均值4.2. 消融研究定性比较。我们的方法使用每像素的角度和深度作为输入，以3D感知的方式优化纹理。这有助于避免视图相关的拉伸和大小工件被优化到不同姿势的纹理中。我们仅使用角度输入（无渲染金字塔）进行比较，而不使用角度/深度（仅使用拉普拉斯金字塔表示的2D纹理优化）。在图7中，我们可以看到，使用角度可以更容易地区分第2行中的墙壁和沙发等表面。增加深度在背景中产生更小和详细的图案（例如，第1行背景中的笔划更多示例请参见补充材料。我们优化了所有消融模式，使得风格化模式同样强大，即，风格应该是相似的公平比较。太低的风格化程度将减少视图相关的伪影，因为原始RGB颜色变得更占主导地位。类似地，过高的程度会丢弃太多的内容特征，这会增加伪像。定量比较。我们测量角度意识和深度意识的效果如下。我们只使用样式丢失来为一个具有“圆形”图像的场景进行样式化然后，我们检测得到的图像中的椭圆，并测量其水平和垂直轴的长度。自然，NST创建不同形状的椭圆，但它们的总体分布揭示了完整场景的3D感知程度每像素深度与屏幕空间中椭圆尺寸之间的逆相关性（Corr.2D）表明风格化特征在背景中较小。弱相关性6204[32]第25话我的世界，我的世界图5.比较我们的方法和Matterport3D [4]数据集上的相关工作的风格化结果。我们用每种方法对网格进行纹理处理（Huang等人的点云[25]分别），并渲染也在RGB图像中捕获的单个姿势[32]第25话我的世界，我的世界图6.比较我们的方法和ScanNet [10]数据集上的相关工作的风格化结果。我们用每种方法对网格进行纹理处理（Huang等人的点云[25]分别），并渲染也在RGB图像中捕获的单个姿势在世界空间（Corr.3D）的绝对大小是独立的观察姿势。这两个度量一起对深度感知进行分类。如果椭圆的水平轴和垂直轴的长度不同，则视图相关拉伸较大。如果拉伸减少，则风格化是角度感知的。我们不以这种方式测量粗略和精细的风格化，因为“圆”图像包含的有关度量计算的更多详细信息，请参阅补充材料。可以在Tab中看到。2、利用角度和深度改进了我们的方法。深度缩放。我们的方法的一个关键部分是不同图像分辨率的渲染金字塔。通过调整θd的值，我们改变了从方法Corr. 2D ↑Corr. 3D ↓拉伸↓只有2D0.1720.1263.512角度0.1260.1103.396角度/深度0.5380.1253.391表2.定量结果风格化的一个场景与“圆”的对于深度感知（角度/深度），深度和大小在屏幕空间（2D）中强烈相关，但在世界空间（3D）中不相关。也就是说，风格化的圆尺寸在图像的背景中较小添加角度感知可减少圆拉伸（角度）。相比之下，圆形示出了更多的视图相关伪影，而没有深度/角度（仅2D）。6205→(a) RGB和样式（b）仅2D（c）有角度（d）有角度和深度图7.我们的方法的定性消融研究。我们将我们的（d）与仅使用角度（c）而不使用角度和深度（b）进行比较。使用角度可以更好地区分表面，使用深度可以在背景中创建更小/更详细的风格化。RGB（a）仅2D（b）我们的样式（c）仅2D（d）我们的图8.用“圆形”图像进行风格化可以在没有角度意识的情况下，圆形在沙发上变成椭圆形（a）;使用角度，它们的扭曲程度较小（b）。使用深度，圆圈在后面（d）较小;没有（c），它们同样大。更高的分辨率。这增加（较高的θd）或减少（较低的θd）了绝对风格化尺寸，同时仍然保持了尺寸的相对变化（见图9）。这允许微调整个场景，直到获得所需的外观用户研究。我们进行了一项用户研究，我们提出的深度和角度意识的有效性。用户通过偏好两张图像中的一张，分别将我们的方法与每个基线进行比较。他们判断哪些图像风格化模式（a）具有较少的可见拉伸，以及（b）在背景中较小。总共有20名用户回答了70个问题，与NMR [32]，DIP [42]和我们的无角度和深度意识（只有2D）进行了比较从图10中可以看出，我们的方法在这两个类别中都是优选的。4.3. 视频风格转换（Video Style作为优化风格化纹理的另一种方法，可以将视频风格转换（VST）方法和RGB纹理映射结合起来，以两个步骤生成风格化场景（见图11）。我们可以从场景的所有图像中获得RGB纹理并渲染任意轨迹，我们使用VST方法（Tex VST）进行造型然而，我们从来没有获得一个风格化的纹理，因此需要在推理过程中的每个新的姿态的VST方法。由于RGB纹理和重建几何体中缺少细节，样式化细节也要低得多。通过直接从相机图像进行优化，我们获得了更清晰的细节。或者，我们可以设计一个摄像头的轨迹-6206→θd= 0。θd= 0. 1θd=0。15 θd=0。2图9.最小深度θ d从0. 05到0。两米。增加其值会导致整体更大的样式化，同时仍保留场景内的相对大小差异这可以用来微调风格化到一个令人满意的外观。(a) 拉伸（b）尺寸图10. 我们进行了一项用户研究，并要求受试者选择风格化模式（a）具有较少可见拉伸和（b）在背景中较小的结果。数字表示我们的方法的偏好百分比。年龄与VST方法和优化RGB纹理从这些图像（VST纹理）。然而，在某些情况下，我们可能只能访问稀疏的图像集。由于风格化帧之间的不一致（例如，由照明变化引起），优化的纹理也更模糊。我们的方法是3D一致的风格化和纹理优化相结合，直接在所有可用的图像4.4. 运行时比较我们提出了一种基于优化的NST方法，该方法在单个RTX 3090 GPU上大约3小时内收敛。优化后，我们可以在传统的图形管道中使用纹理，并实现实时渲染，类似于[32，42]。相比之下，基于模型的NST[25，32，35]可能需要几天的时间来训练，并且在推断时需要向前传递。然而，这些方法可以在场景中推广，而我们需要优化每个场景的单独纹理。RGB（a）VST → Tex （b）Tex → VSTOurs图11.视频风格转换（VST）可以与RGB纹理映射相结合或者，我们从VST的输出优化纹理（a），或者我们从RGB纹理渲染轨迹，然后应用VST（b）。第一行分别使用Wang等人[54]和Deng等人[15]的VST。相比之下，我们产生更清晰的细节和更少的噪音。4.5. 限制通过设计，我们的方法是按场景/按风格的NST算法，即，我们分别优化每个显式纹理图像。最近在隐式纹理表示[45]方面的工作可以为我们的任务训练生成模型。我们不解开照明和照明，即，相机图像中的视相关效果在风格化纹理中可见。人们可以利用神经渲染技术来训练一个可重分类的风格化模型[50]。不完整的网格重建会导致渲染姿势中的漏洞，可以通过首先采用网格完成技术来减少[11，13，14]。类似地，姿势的数量不足我们不会产生纹理的幻觉修复技术[50]可以用来完成这些纹理。5. 结论我们已经展示了一种方法来风格化的室内场景重建的网格。我们通过仅通过2D图像优化纹理来将风格转移到3D域。我们的方法利用网格的深度和表面法线来实现统一的世界空间风格化，而不会产生视图相关的伪影。为此，我们将损失计算分为图像部分和风格粗细节和细细节。显式纹理表示允许在优化后实时渲染场景。确认本项目由 TUM-IASRudolfMoßbauer 奖学金、 ERCStarting Grant Scan 2CAD（804724）和德国研究基金会（DFG）资助，用于静态和动态3D数据的机器学习实践。我们也感谢Angela Dai的视频旁白。6207引用[1] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2cad ：学习 rgb-d 扫描中的 cad 模型对齐。在IEEE/CVF计算机视觉和模式识别会议上，第2614-2623页，2019年。1[2] Sai Bi、Nima Khademi Kalantari和Ravi Ramamoorthi。基于图像的纹理映射的基于块的优化。ACM事务处理图表，36（4）：106-1，2017. 一、二[3] 曹旭，王为民，长尾胜，中村良介.Psnet：一个用于几何和颜色点云样式化的样式传输网络。在IEEE/CVF计算机视觉应用冬季会议论文集，第3337-3345页，2020年。2[4] Angel Chang，Angela Dai，Thomas Funkhouser，MaciejHalber ， Matthias Niessner ， Manolis Savva ， ShuranSong，Andy Zeng，and Yinda Zhang. Matterport 3d：从室内环境中的rgb-d数据中学习。arXiv预印本arXiv：1709.06158，2017。四五六[5] 陈东东，廖静，卢远，余能海，华刚。连贯的在线视频风格转移。在IEEE计算机视觉国际会议论文集，第1105-1114页，2017年。2[6] 陈兴浩，张伊曼，王云鹤，韩舒，徐春静，徐昌.光流蒸馏：实现高效稳定的视频风格传输。在欧洲计算机视觉上，第614Springer，2020年。2[7] 蒋培泽、蔡孟雄、曾宏宇、赖伟胜、邱伟臣。通过隐式表示和超网络风格化3d场景，2021年。一、二[8] Tai-Yin Chiu和Danna Gurari。迭代特征转换，实现快速和多功能的通用样式转换。欧洲计算机视觉会议，第169Springer，2020年。2[9] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。4[10] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。四五六[11] Angela Dai，Christian Diller，and Matthias Nießner. Sg-nn：用于rgb-d扫描的自监督场景完成的稀疏生成神经网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第849-858页，2020年。8[12] AngelaDai ， Mat thiasNießner ， MichaelZoll oüfer ，ShahramIzadi，and Christian Theobalt.Bundlefusion：使用动态表面重新整合的实时全局一致3D重建ACMTransactions on Graphics 2017（TOG），2017年。1[13] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießner.Scancomplete：大规模场景完成和3D语义分割扫描在IEEE计算机视觉和模式识别会议论文集，第4578-4587页，2018年。8[14] Angela Dai ， Yawar Siddiqui ， Justus Thies ， JulienValentin，and Matthias Nießner. Spsg：从rgb-d扫描生成自监督摄影测量场景。在IEEE/CVF计算机视觉和模式识别会议论文集，第1747-1756页，2021年。8[15] Yingying Deng ， Fan Tang ， Weiming Dong ， HaibinHuang，Chongyang Ma，and Changsheng Xu. 通过多通道相关实现任意视频风格传输。arXiv预印本arXiv：2009.08003，2020。二、八[16] Arnaud Dessein，William AP Smith，Richard C Wilson和Edwin R Hancock。基于泊松混合的3d网格纹理无缝拼接。2014年IEEE图像处理国际会议（ICIP），第2031IEEE，2014。一、二[17] James D Foley ， Foley Dan Van ，Andries Van Dam ，Steven K Feiner，John F Hughes，and J Hughes.计算机图形学：原理与实践，卷 12110 。 Addison-WesleyProfessional，1996年。四、五[18] 高常、顾德润、张方军、余益州。Reconet：实时相干视频格式传输网络。亚洲计算机视觉会议，第637Springer，2018. 2[19] Wei Gao，Yijun Li，Yihang Yin，and Ming-Hsuan Yang.快速视频多风格传输。在IEEE/CVF计算机视觉应用冬季会议论文集，第3222-3230页，2020年。2[20] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。一、二、三、四[21] Leon A Gatys，Alexander S Ecker，Matthias Bethge，Aaron Hertzmann，and Eli Shechtman.神经风格迁移中知觉因素的控制在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第3985-3993页二、三、四[22] 阿格里姆·古普塔，贾斯汀·约翰逊，亚历山大·阿拉希，李菲菲.表征和提高神经风格转移的稳定性。IEEEInternational Conference on Computer Vision，2017。2[23] Fangzhou Han ，Shuquan Ye，Mingming He，MengleiChai，and Jing Liao.基于范例的三维肖像风格化。arXiv预印本arXiv：2104.14559，2021。2[24] Filip Hauptfleisch ，Ond Zarrej Texler ，Aneta Texler，JaroslavK riva' nek，和丹尼尔·赛科拉StyleProp：基于实例的3d模型实时风格化计算机图形论坛，39（7）：575-586，2020。2[25] Hsin-Ping Huang ， Hung-Yu Tseng ， Saurabh Saini ，Maneesh Singh，and Ming-Hsuan Yang.学习设计新颖的观点。arXiv预印本arXiv：2105.13509，2021。一、二、五、六、八[26] Jingwei Huang ， Angela Dai ， Leonidas J Guibas ， andMatthias Nießner. 3dlite：面向内容创建的商品3d扫描。ACM Trans. Graph. ，36（6）：203一、二[27] Jingwei Huang ， Justus Thies ， Angela Dai ， AbhijitKundu ， Chiyu Jiang ， Leonidas J Guibas ， MatthiasNießner，Thomas6208Funkhouser等人，rgb-d扫描的对抗性纹理优化。在IEEE/CVF计算机视觉和模式识别会议论文集，第1559-1568页，2020年。一、二[28] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。2[29] Shahram Izadi ， David Kim ， Otmar Hilliges ， DavidMolyneaux ， Richard Newcombe ， Pushmeet Kohli ，Jamie Shotton，Steve Hodges，Dustin Freeman，AndrewDavison等人Kinectfusion：real-time 3d reconstruction andinter-action using a moving depth camera.在Proceedings ofthe 24th annual ACM symposium on User interfacesoftware and technology，pages 559-568，2011中。一、二[30] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。2[31] Nikolai Kalischek，Jan D Wegner，and Konrad Schindler.基于特征分布的神经风格迁移的矩匹配。在IEEE/CVF计算机视觉和模式识别会议论文集，第9382-9391页2[32] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集，第3907- 3916页一、二、五、六、七、八[33] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[34] NicholasKolkinJasonSalavon和GregoryShakhnarovich。通过松弛的最优传输和自相似性实现风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第10051-10060页2[35] Geor giosKopa

下载后可阅读完整内容，剩余1页未读，立即下载