没有合适的资源?快使用搜索试试~ 我知道了~
1627303D照片风格化:学习从单个图像生成风格化的新视图0Fangzhou Mu 1 * Jian Wang 2 † Yicheng Wu 2 † Yin Li 1 †01 威斯康星大学麦迪逊分校 2 Snap研究 1 { fmu2, yin.li } @wisc.edu 2 { jwang4,yicheng.wu } @snap.com0单个内容图像 + 风格 风格化视图1 风格化视图20图1. 3D照片风格化。给定单个内容图像,我们的方法以任意风格合成场景的新视图。通过这样做,我们的方法在现有照片中提供了一个沉浸式的观看体验,让人回忆起一个难忘的时刻。0摘要0视觉内容创作在移动摄影和AR/VR应用方面引起了极大的兴趣。风格转移和单图像3D摄影作为两个典型的任务迄今为止发展独立。在本文中,我们将两者联系起来,解决了3D照片风格化这一具有挑战性的任务——在给定任意风格的情况下,从单个图像生成风格化的新视图。我们的关键直觉是风格转移和视图合成必须共同建模。为此,我们提出了一个深度模型,该模型从场景的点云表示中学习具有几何感知的内容特征,从而生成在视图之间一致的高质量风格化图像。此外,我们引入了一种新的训练协议,以便只使用2D图像进行学习。通过广泛的定性和定量研究,我们展示了我们方法的优越性,并展示了我们方法在从2D图像资产创建3D内容的不断增长的需求下的关键应用。10* 方舟在Snap研究实习期间完成了部分工作 † 共同通讯作者 1项目页面:http://pages.cs.wisc.edu/˜fmu/style3d01. 引言0给定输入的内容图像和参考风格图像,神经风格转移[4, 13,14, 16, 22, 24, 32, 35, 42,50]创建了一幅“以风格为画笔”的内容图像。尽管得到了高质量的风格化图像,但结果仅限于内容图像的相同视角。如果我们可以从不同的视角渲染风格化图像呢?见图1中的两个例子。当与视差一起显示时,这种能力将为2D图像提供更加沉浸式的视觉体验,并支持在移动和AR/VR设备上交互浏览3D照片的应用。在本文中,我们解决了这一新任务,即从单个输入图像和任意参考风格图像生成风格化的新视图,如图1所示。我们将这个任务称为3D照片风格化——风格转移和新视图合成的结合。03D照片风格化存在几个主要的技术障碍。正如[21]所观察到的那样,直接将现有的风格转移方法和新颖的视图合成方法结合起来,即使使用了通过运动结构和多视图立体测量获得的密集的3D几何,也会产生模糊或不一致的风格化图像。当输入为单个内容图像时,这个挑战进一步表现出来,方法必须依赖于单目视觉。162740使用不完整和嘈杂的3D几何进行深度估计,导致合成风格化图像的时候出现空洞和伪影。此外,为了训练这个任务的深度模型,需要一个包含丰富几何注释的多样化场景的大规模数据集,而目前缺乏这样的数据集。为了弥补这一差距,我们从一次性3D摄影中汲取灵感[28, 41,51],采用基于点云的场景表示[21, 41,58]。我们的关键创新是一个深度模型,它在点云上学习具有几何感知的特征,而不使用内容图像的2D特征,从而以一致的风格渲染新视图。我们的方法考虑了深度图中的输入噪声,并共同建模风格转移和视图合成。此外,我们提出了一种新的训练方案,可以使用标准图像数据集(如MS-COCO[33])学习我们的模型,而无需多视图图像或地面真实深度图。我们的贡献总结为三个方面:(1)我们提出了第一种方法来解决3D照片风格化这一新任务——从单个内容图像生成具有任意风格的风格化新视图。(2)与以前的方法不同,我们的方法在点云上学习具有几何感知的特征,而不使用2D内容图像特征,并且仅使用2D图像数据集。(3)我们的方法展示了优越的定性和定量结果,并实现了一些有趣的应用。02. 相关工作0神经风格迁移。神经风格迁移受到了广泛关注。图像风格迁移[12,13]将一个图像的内容渲染成另一个图像的风格。视频风格迁移[49]将风格注入到一系列视频帧中以产生时间上一致的风格化,通常通过对光流[3, 20, 49, 56]或特征空间[9,35]施加平滑约束来实现。我们的方法面临与视频风格迁移相同的挑战,即风格必须在所有视角上保持一致。然而,我们的3D照片风格化任务更具挑战性,因为它需要合成新的视角并在所有视角上保持一致的风格。从技术上讲,早期的方法将风格迁移形式化为一个缓慢的迭代优化过程[12,13]。后来的快速前向模型可以在单次前向传递中进行风格化,但只能容纳一个[24, 55]或少数几个风格[4,10]。与我们的工作最相关的是允许在保持前向模型效率的同时进行任意风格转移的方法[6, 22,32]。我们的风格迁移模块基于Liu等人[35]的工作,将一种基于注意力的方法扩展为支持任意3D风格化。从单个图像合成新视角,也称为一次性3D摄影,由于深度学习的进展而取得了近期的进展。现有的方法可以广泛分类为端到端模型[7,18, 30, 47, 53, 54, 58, 61]和模块化系统[23, 28, 41,51]。端到端方法通常0无法恢复准确的场景几何并且难以推广到训练中存在的场景类别之外。因此,我们的方法基于模块化系统。一次性3D摄影的模块化系统结合了深度估计[45, 46,60]和修复模型[34],并且在野外图像中展示了强大的结果。Niklaus等人[41]维护并栅格化场景的点云表示以合成3DKen Burns效果。后续方法[28,51]通过对场景的分层深度图像(LDI)进行局部内容和深度修复来提高合成质量。Jampani等人[23]进一步引入了软场景分层以更好地保留外观细节。我们的工作与Shih等人[51]密切相关。我们扩展了他们的LDI修复方法以适用于点云,并利用他们的系统在训练过程中生成“伪”视图。我们的方法还使用了[41]中的可微栅格化器。3D风格化。对于创意形状编辑[2, 59]、视觉效果模拟[17]、立体图像编辑[5,15]和新视角合成[8,21],对3D内容的风格化越来越受到关注。我们的方法属于这个类别,并且与风格化的新视角合成[8,21]最相关。关键区别在于我们的方法从单个图像生成风格化的新视角,而之前的方法需要数百个校准视角作为输入。另一个区别在于我们的模型在点云上学习了3D几何感知特征。相反,StyleScene[21]将2D图像特征反投影到3D空间,而不考虑场景几何。虽然他们的点聚合模块可以对基于图像的特征进行事后处理,但点特征仍然是2D的,导致渲染中出现视觉伪影和不足的风格化。我们的工作还与点云风格化相关,例如PSNet[2]和3DStyleNet[59]。我们的方法和[2,59]都使用点云作为表示。不同之处在于点云在我们的方法中是风格化和视角合成的一种实现方式,而不像[2,59]中那样是最终产品。点云处理的深度模型。已经开发了许多用于点云处理的深度模型。流行的架构包括基于集合的模型[36, 37, 43, 44]、基于图卷积的模型[29,57]和基于点卷积的模型[19,52]。我们的模型扩展了基于图的模型[57]以处理密集点云(一百万个点)以实现高质量的风格化。03. 3D照片风格化0给定单个输入内容图像和任意风格图像,3D照片风格化的目标是生成内容图像的风格化新视角。我们方法的关键是直接从场景的点云表示中学习具有3D几何感知的内容特征,以实现一致的高质量风格化效果。在本节中,我们描述了我们在推理时的工作流程。方法概述。图2展示了我们方法的概述。…++--162750内容0深度0点云构建0(第3.1节)0具有几何感知的特征编码0(第3.2节)03DPhoto 编码0风格0风格化0点特征风格化0(第3.3节)0渲染0视角 10视角 N0风格化神经渲染0(第3.4节)0基于点云的场景表示0图2.方法概述。我们方法的核心是基于点云的场景表示,它能够实现几何感知的特征学习、基于注意力的特征风格化以及在不同视角下的一致风格化渲染。具体而言,我们首先从内容图像和其估计的深度图中构建一个RGB点云。然后直接从点云中提取内容特征,并在参考风格图像的基础上进行风格化。最后,将风格化的点特征渲染到新视角,并解码为风格化图像。0方法。我们的方法首先通过将输入内容图像反投影到RGB点云中来开始。然后对点云进行“修复”,以覆盖场景中的不连续部分,然后进行“归一化”(第3.1节)。我们设计了一个高效的图卷积网络来处理点云,并从点云中提取具有3D几何感知的特征,从而得到适用于3D风格化的逐点特征(第3.2节)。然后,我们进一步调整一个风格转移模块,使用输入的风格图像来调制这些逐点特征(第3.3节)。最后,一个可微分的光栅化器将特征化的点投影到新视角,用于合成一致的风格化图像(第3.4节)。03.1. 点云构建0我们的方法首先将内容图像转换为RGB点云,然后对点云进行归一化,以解决尺度模糊和点密度不均匀的问题。深度估计和隐藏几何的合成。我们的方法首先使用现成的深度估计模型(LeReS[60])对内容图像进行密集深度估计。单张图像的新视角合成的一个关键挑战是场景中的遮挡。当深度图像投影到不同视角时,可能会出现许多“空洞”。因此,修复被遮挡的几何是视角合成的关键。为此,我们进一步采用了Shih等人的方法[51]来合成分层深度图像(LDI)上的被遮挡几何。由于点云和LDI之间的对偶性,我们通过透视反投影将LDI像素映射到RGB点云上。点云归一化。鉴于图像导出的点云具有尺度模糊和点密度不均匀的特点,我们在进一步处理之前将其转换为归一化设备坐标(NDC)[39]。得到的点在[-1,1]的立方体内,密度相应调整以考虑透视性。如图3所示,这个简单的过程对于我们的方法在不同场景类别中的泛化至关重要,并且允许我们切换0内容+风格0LeReSDPT0图3.点云归一化的效果。没有归一化的模型(-)由于深度估计中的尺度模糊和点分布的不均匀性而表现不佳。相比之下,归一化的模型(+)捕捉到了细节的外观,并且无论使用哪种深度估计器,都能产生强烈的风格化效果。0以便将模型应用于不同的深度估计器而无需重新训练。03.2. 对点云进行特征编码0我们的下一步是学习适合风格化的特征。虽然几乎所有现有的风格转移算法都使用ImageNet预训练的VGG特征,但我们发现将3D点与反投影的VGG特征(例如StyleScene[21]中的方法)关联起来对于风格化的新视图合成是次优的,会导致几何失真和结构伪影,如我们的消融实验所示。我们认为,从在2D图像上预训练的网络中提取的特征无法描述3D几何的复杂性。这促使我们设计了一种高效的图卷积网络(GCN),它直接从RGB点云中学习具有几何感知性的特征,而不是使用2D图像特征。高效的GCN。GCN架构的一个普遍缺点在于其可扩展性。现有的GCN设计用于具有几千个点的点云[29],而1K分辨率的图像在修复后会产生一百万个点。为了弥合这个差距,我们提出了一种高度高效的GCN编码器,借鉴了多个基于点的网络架构的优点。我们的GCN编码器采用最大相对卷积[29],具有计算和内存效率。为了MRConv× 1MRConv× 2MRConv× 2UpProject25625625612812864641×1 Conv1×1 Conv64rPoint cloud encoder (Sec 3.2)Stylizer(Sec 3.3)Neural renderer (Sec 3.4)AdaAttN162760风格0RGB点云2D特征图 特征化的点云 特征化的点云 输出0图4.我们深度模型的组成部分。我们的模型包括三个模块——点云编码器、风格化器和神经渲染器。编码器应用MRConvs[29]以及最远点采样来嵌入和子采样输入的RGB点云。风格化器计算嵌入的内容和风格特征之间的注意力,并使用注意力加权的仿射变换来调节内容特征以进行风格化。神经渲染器包括一个光栅化器,对调节后的点特征进行反锯齿处理并将其投影到新视图上,以及一个U-Net[48],对生成的2D特征图进行细化并将其解码为风格化图像。0为了进一步提高效率,我们用基于半径的球查询[44]替换了昂贵的动态k-NN图,用于点聚合。此外,我们遵循VGG网络的分层设计,通过最远点采样反复对点云进行子采样,而不是在整个模型中保持完整的点集[29]。我们在图4中说明了我们的编码器设计。我们的编码器的输出是一个子采样的、特征化的点云。03.3. 对点云进行风格化0进一步地,我们的模型将风格注入到内容特征中。这里的技术障碍是内容特征和风格特征的不匹配,因为前者定义在3D点云上,而后者(来自预训练的VGG网络)位于2D平面上。为了解决这个差异,我们利用学习的特征映射和自适应注意力归一化(AdaAttN)[35]来匹配和组合内容和风格特征。设Fc为逐点内容特征,Fs为2D网格上的风格特征。我们的风格转移操作如下所示:0Fcs = ψ(AdaAttN(ϕ(Fc), Fs)), (1)0其中,ϕ和ψ是实现为逐点多层感知器(MLPs)的学习映射,它们在内容和风格特征空间之间进行映射,而AdaAttN是来自[35]的注意力加权自适应实例归一化。AdaAttN计算每个内容特征(一个点)和每个风格特征(一个像素)之间的注意力,并使用注意力图来调节应用于内容特征的实例归一化中的仿射参数。因此,Fcs同时包含内容和风格,并将进一步用于渲染风格化图像。03.4. 风格化神经渲染0我们的最后一步是将风格化的点特征F cs渲染成具有指定视点的风格化图像。如图4所示,这是通过以下步骤完成的:(1)根据相机姿态和内参将点特征投影到图像平面;(2)使用2D卷积网络将投影特征解码成风格化图像。0特征光栅化。我们的光栅化器遵循Niklaus等人的方法[41],将点云特征F cs 投影到单视图2D特征图F 2 d中。有一个重要的区别:我们使用逆距离加权插值[44]对Fcs进行上采样,然后进行光栅化。这类似于超采样——图形学中的经典抗锯齿技术。我们发现这样的设计有助于解码高保真度的风格化图像。图像解码。我们的解码器进一步将2D特征图F 2 d映射到输入分辨率的风格化RGB图像。解码器使用2D卷积网络实现,遵循U-Net[48]的架构,在每个阶段的入口处使用转置卷积进行上采样。04. 从2D图像中学习0现在我们介绍我们的训练方案。我们的模型使用2D图像进行训练,采用两阶段方法。为训练生成多视图图像。训练我们的模型需要同一场景的多个视图的图像。不幸的是,缺乏一个具有多样化场景集合的大规模多视图图像数据集。为了弥补这一差距,我们提出从现有的一次性3D摄影方法的结果中学习。具体而言,我们使用3DPhoto[51]将来自标准数据集(MS-COCO)的图像转换为高质量的3D网格,从中合成任意的伪目标视图来训练我们的模型。通过这样做,我们的模型从MS-COCO中存在的各种场景的多样化集合中学习。从合成图像中学习会导致3DPhoto结果中存在的不可避免的偏差,以换取数据集的多样性。通过我们的实验证明,我们的模型在推理时能够很好地泛化到大量的野外图像集合。04.1. 两阶段训练0我们的模型的训练分为视图合成阶段和风格化阶段。视图合成阶段中,模型学习具有3D几何感知特征的新视图合成,风格化阶段中,模型进一步训练以进行新视图的风格化。强制多视图一致性。我们工作的一个关键技术贡献是多视图一致性损失。输入内容图像的点云表示允许我们对渲染图像的像素值施加额外的约束。关键思想是,点云P中的场景点p在可见的视图中(在Lambertian假设下)应该产生相同的像素颜色。为此,我们定义了一致性损失如下:Figure 5. Depth estimation fails on stylized images.Strong depth estimators such as DPT [45] and LeReS [60] fail on image styletransfer outputs from AdaIN [20], LST [31], and AdaAttN [35], because stylized images do not follow natural image statistics.Input viewNovel viewus to impose additional constraint on pixel values of the ren-dered images.2 The key idea is that a scene point p in thepoint cloud P should produce same pixel colors in the viewsto which it is visible (with the Lambertian assumption). Tothis end, we define our consistency loss asiV(p; i, j) · ∥Ii(πi(p)) − Ij(πj(p))∥1,(2)162770内容 + 风格 AdaIN LST AdaAttN0p ∈ P0深度0i,j ∈ V V ( p ; i, j ) ∙ ∥ I i ( π i ( p )) − I j ( π j ( p )) ∥ 1 , (2)0输入视图0AdaAttN 内容 + 风格 我们的0图6.一个风格化的内容图像的3D照片显示了普遍存在的视觉伪影。最明显的是,在修复后,风格效果会在深度不连续处渗透,这会在渲染的新视图中带来令人不安的视觉伪影(红色箭头)。0L cns =空格0空格0其中V是采样视图的集合,Ii是来自视图i的渲染图像,πi(∙)是到视图i的投影,V(p;∙,∙)是一个可见性函数,如果p对两个视图可见,则评估为1,否则为0。计算损失的开销很小,因为π和V的评估是光栅化的一部分。正如我们的消融研究所证明的那样,我们提出的损失显著改善了风格化渲染的一致性。视图合成阶段。我们首先训练模型进行视图合成,这是一个推动几何感知内容特征学习的替代任务。给定一个输入图像,我们随机采样场景的新视图,并通过最小化L1损失Lrgb(定义在像素值上)、VGG感知损失Lfeat(定义在VGG特征上)和我们的多视图一致性损失Lcns来重构它们0Lview = Lrgb + Lfeat + Lcns. (3)0风格化阶段。我们的模型在第二阶段学习对新视图进行风格化。我们冻结编码器以进行内容特征提取,训练风格化器,并微调神经网络02虽然共享特征化的点云意味着光栅化的特征图的多视图一致性,但特征经过可学习的解码过程,其中会引入不一致性。0渲染器。这是通过从WikiArt[40]随机采样场景的新视图和风格图像,并通过最小化来训练我们的模型0Lstyle = Ladaattn + Lcns. (4)0其中L adaattn是来自[35]的相同AdaAttN损失,Lcns仍然是我们的多视图一致性损失。训练细节。对于视图合成,我们在MS-COCO上进行了20K次迭代(2个epoch)的训练,批量大小为8,使用Adam[25],学习率设置为1e-4。我们对风格化应用相同的训练计划。05. 实验0现在我们介绍论文的主要结果,将其他结果放在补充材料中。05.1. 定性结果0我们考虑两种结合现有风格转换和3D摄影方法的替代基线。第一种工作流程是先进行风格化,然后将输入图像转换为3D照片[51]以进行新视图合成。Stylize-then-3D自然地强制风格化的多视图一致性,因为渲染主要是对输入像素进行重新采样。我们使用AdaIN [22]、LST [31]和AdaAttN[35]对输入图像进行风格化,并进一步尝试使用风格化或原始输入图像进行深度估计。在风格化图像上进行深度估计会导致灾难性失败,因为它们不遵循Warp (1→2)(2)🗸⨯🗸⨯🗸⨯⨯🗸🗸🗸162780内容+风格LST AdaAttN(图像)ReReVST AdaAttN(视频)我们的0输入视图(1)0新视图(2)0风格化一致性0放大0图7.在渲染的视频片段上进行图像/视频风格转换时,3D照片存在风格不一致的问题。可以从原始内容图像构建3D照片,然后逐帧对渲染的视频片段进行风格化处理(例如使用LST [31]或AdaAttN [35])或使用专门的视频风格化方法进行集体处理(例如ReReVST[56]或AdaAttN的视频变体)。结果在风格化方面存在不一致性(黄色箭头)。更多比较请参见补充材料。0自然图像统计数据(图5)。尽管在从原始输入图像获取深度的情况下可以更好地进行3D重建,但由于颜色渗透和颜色分布偏移引起的修复错误,修复仍然存在问题(图6)。0第二个工作流程,3D然后风格化,首先创建输入图像的3D照片,然后在渲染的视频片段上进行图像或视频风格化。我们使用MCC [ 56 ],ReReVST [ 9 ]和AdaAttN [ 35]的视频变体进行视频风格转换。如图7所示,3D然后风格化在视角变化较小的情况下产生不一致的风格化。这是因为对于图像风格化方法,风格转换在视角上是独立的,对于视频风格化方法,风格转换对底层场景几何是不可知的。0相比之下,我们的方法能够生成高质量的风格化渲染图像,没有视觉伪影和不一致性。第二个基线在3D照片浏览时产生轻微的不一致性,这比第一个基线产生的视觉伪影更加温和。我们进一步通过定量实验和用户研究将我们的方法与第二个基线进行比较。05.2. 定量结果0鉴于风格质量的评估高度主观,我们将其推迟到用户研究中,并专注于我们的定量实验中一致性的评估。评估协议和指标。我们在网络上选择了十个不同内容的图像和从Gao等人的编译中随机选择的40种风格来运行我们的方法和基线。如前所述,基线运行3DPhoto来合成普通的新视角图像,然后使用六种风格转换算法对其进行风格化。最终,每种候选方法都会产生400个风格化的3D照片。为了量化一对风格化视角之间的不一致性,我们根据基于点云的场景几何将一个视角变形到另一个视角,并计算RMSE和StyleScene [ 21]中定义的掩码LPIPS指标。我们对每个风格化的3D照片的400对视角的结果进行平均,并报告所有可用照片的平均值。结果。我们的结果总结在表1中。我们的方法在RMSE和LPIPS两个指标上都显著优于基线的六个实例。3DPhoto [51] →28.0%51.3%47.4%39.7%37.9%45.7%72.0%48.7%52.6%60.3%62.1%54.3%3.9%3.0%3.0%16.4%4.3%17.2%96.1%97.0%97.0%83.6%95.7%82.8%8.2%15.5%7.3%35.8%10.3%22.4%91.8%84.5%92.7%64.2%89.7%77.6%AdaAttN(img)AdaAttN(vid)AdaAttN(img)AdaAttN(vid)AdaAttN(img)AdaAttN(vid)162790方法 RMSE LPIPS0AdaIN [ 22 ] 0.222 0.304 LST [ 31 ] 0.1950.287 AdaAttN (图像) [ 35 ] 0.187 0.3290ReReVST [ 56 ] 0.115 0.213 MCC [ 9 ]0.092 0.200 AdaAttN (视频) [ 35 ] 0.1350.2090我们的方法 0.086 0.1330表1. 一致性结果。我们使用RMSE ( ↓ )和LPIPS ( ↓)对将3DPhoto和图像/视频风格转换依次组合的基线与我们的模型进行一致性比较。0(a) 风格化0(b) 一致性0(c) 整体0AdaIN0LST0ReReVST0MCC0AdaIN0LST0ReReVST0MCC0AdaIN0LST0ReReVST0MCC0图8.用户研究。我们进行了一项用户研究,将我们的方法与依次组合3DPhoto和图像/视频风格转换的基线进行比较。方法在风格质量、多视角一致性和整体合成质量上进行评估。结果显示了投票给算法的用户百分比。0毫不奇怪,视频风格转换方法比图像风格转换方法产生更一致的结果,这归功于它们额外的平滑约束。我们的方法在没有这种约束的情况下表现得更好,这表明了保持中心特征化点云用于3D照片风格化的有效性。05.3. 用户研究0展望未来,我们进行了一项用户研究,以更好地了解我们的方法和基线产生的风格化图像的感知质量。我们的研究包括三个部分,用于评估风格质量、多视角一致性和整体合成质量。我们的分析基于30名参与者的5400次投票。我们在补充材料中详细说明了我们的研究设计。结果。我们在图8中展示了结果。在风格质量方面,我们的方法始终被评为优于其他方法,唯一的例外是LST,我们的方法与之相当。不巧的是,我们的方法在多视角一致性方面表现出色,获得了压倒性的95%的投票。0内容 + 风格 GCN VGG0图9. 几何感知特征学习的效果。使用反投影的2DVGG特征进行3D照片风格化会导致几何失真(黄色箭头)和视觉伪影(红色框)。相比之下,我们的几何感知学习方案更好地保持了内容结构并产生了更加美观的纹理。0训练阶段 RMSE LPIPS ViewSynStylize0- - 0.113 0.199 + - 0.109 0.190 -+ 0.081 0.132 + + 0.086 0.1280表2.一致性损失的影响。我们使用RMSE(↓)和LPIPS(↓)比较使用(+)或不使用(-)该损失训练的模型。0在六个测试中,我们的方法在四个测试中获得了最高票数。最后,我们的方法在整体合成质量上仍然是最受欢迎的,击败了所有其他方法。综上所述,我们的结果充分验证了我们的方法在产生高质量风格化效果方面的优势,并且在不同视角下保持一致性。05.4. 割舍研究0几何感知特征学习的效果。我们研究了几何感知特征学习的优势。具体而言,我们构建了一个变体模型,唯一的区别是内容特征不是在点云上学习的,而是来自预训练的VGG网络,就像2D风格转换方法一样。特别是,我们通过将RGB点云投影到由边界体积定义的八个极端视图上,运行VGG编码器进行特征提取,并将2D特征反投影到点云中,然后进行风格化和渲染。如图9所示,这种基于VGG的变体在风格化图像中产生了几何失真和视觉伪影,而不是我们使用几何感知特征学习的模型。一致性损失的影响。我们在表2中评估了一致性损失的贡献。尽管共享了一个点云,但在没有一致性损失的约束下,训练模型产生的渲染结果在RMSE和LPIPS方面不够一致。我们将这归因于可学习的特征解码步骤过于灵活,无法在没有约束的情况下保持输出图像的一致性。在这方面,我们的一致性损失,特别是在训练的风格化阶段应用时,作为解码器的强正则化器。(a) Layered stylizatio(b) Historical photos162800卡车M600内容 + 风格 StyleScene(全局) StyleScene(局部) 我们的方法(局部)0图10. 对多视图输入的扩展。与StyleScene[21]相比,我们的方法更接近参考风格,更好地保留了内容几何(红色框),并且对视点分布的变化更具鲁棒性(第二行)。0方法0短程一致性 长程一致性0卡车 游乐场 列车 M60 卡车 游乐场 列车 M600RMSE LPIPS RMSE LPIPS RMSE LPIPS RMSE LPIPS RMSE LPIPS RMSE LPIPS RMSE LPIPS RMSE LPIPS0StyleScene(全局) 0.124 0.143 0.108 0.142 0.121 0.157 0.120 0.143 0.163 0.188 0.146 0.189 0.159 0.213 0.160 0.192 StyleScene(局部) 0.119 0.168 0.127 0.169 0.161 0.169N/A N/A 0.152 0.203 0.166 0.205 0.204 0.220 N/A N/A0我们的方法(局部)0.099 0.107 0.093 0.111 0.104 0.112 0.117 0.112 0.113 0.128 0.110 0.127 0.120 0.145 0.136 0.1360表3. 多视图情况下的一致性。在Tanks andTemples数据集[27]上,我们使用RMSE(↓)和LPIPS(↓)比较我们的方法与StyleScene在短程和长程一致性上的表现,如[21]所定义。05.5. 对多视图输入的扩展0我们的方法可以很容易地扩展为给定多视图输入的风格化新视图合成。我们将我们的扩展与StyleScene[21]进行比较,后者同样在点云上操作,但需要多个输入视图。我们在Tanks andTemples数据集[27]上进行实验,使用两种协议。全局协议使用所有可用视图(最多300个)进行点云重建,与[21]中的方法相同;而更具挑战性的局部协议在相机轨迹上使用稀疏的6-8个视图进行新视图合成。在图10和表3中,我们展示了我们的方法在风格质量、短程和长程一致性以及对输入视图分布的鲁棒性方面的优势。05.6. 应用0用于AR应用的分层风格化.以人为中心的摄影是移动AR应用的核心兴趣。作为证明我们方法在AR中潜力的概念验证实验,我们应用PointRend[26]对来自Unsplash[1]的图像中的前景人物进行分割,并使用我们的方法对背景场景进行风格化处理,同时保持前景人物不变(图11a)。在渲染时,最终风格化的3D照片启动了对艺术风格的3D环境的虚拟导览。0对风格化历史照片的3D探索.历史照片占现有图像资产的很大比例,在计算机视觉和图形学领域仍然未被充分探索。正如我们在Keystone数据集[38](图11b)上展示的那样,我们的方法可以轻松应用于以艺术风格浏览历史照片的3D,以意想不到的方式将过去的时刻重新带回生活。0图11. 应用演示.用于AR的分层风格化(顶部)和风格化历史照片的3D浏览(底部)-“一个小拱门欢迎总统来到阿拉斯加的Met- lakatla,由D. L.Hollandy 1923年创作。”06. 讨论0在本文中,我们首次将神经风格转换和一次性3D摄影相连接,并引入了3D照片风格化的新任务-在给定任意风格的情况下,从单个图像生成风格化的新视图。我们展示了两个领域解决方案的简单组合效果不佳,并提出了一个深度模型,同时考虑风格转换和视图合成,用于高质量的3D照片风格化。我们通过广泛的定性和定量研究展示了我们方法的优势,并展示了我们方法在3D内容创建方面的有趣应用。我们希望我们的方法能够为神经风格转换提供启示,并为从2D照片创建3D内容开辟新的可能性。0致谢. 作者感谢Shree Nayar,Hsin-Ying Lee,MengleiChai,Kyle Olszewski和JianRen进行了富有成果的讨论。作者感谢用户研究的匿名参与者。FM和YL感谢UWVCRGE的支持,该支持来自WARF的资金。162810参考文献0[1] Unsplash数据集. https://unsplash.com/data,2020年. 80[2] Xu Cao,Weimin Wang,Katashi Nagao和Ryosuke Naka-mura. PSNet:用于几何和颜色的点云风格化的风格转换网络.在WACV,2020年. 20[3] 陈东东,廖静,袁璐,余能海和华刚.一致的在线视频风格转换. 在ICCV,页1105-1114,2017年. 20[4] 陈东东,袁璐,廖静,余能海和华刚.StyleBank:神经图像风格转换的显式表示. 在CVPR,2017年.1,20[5] 陈东东,袁璐,廖静,余能海和华刚. 立体神经风格转换.在CVPR,2018年. 20[6] 陈天琪和Mark Schmidt. 任意风格的快速基于补丁的风格转换.构造性机器学习研讨会,NeurIPS,2016年. 20[7] 陈旭,宋杰和Otmar Hilliges.单目神经图像渲染与连续视图控制. 在ICCV,2019年. 20[8] 江佩泽,蔡孟勋,曾宏宇,赖伟胜和邱伟辰.通过隐式表示和超网络进行3D场景风格化. 在WACV,2022年. 20[9] 邓颖颖,唐凡,董维明,黄海斌,马冲阳和徐昌盛.多通道相关的任意视频风格转换. 在AAAI,2021年. 2,6,70[10] Vincent Dumoulin,Jonathon Shlens和Manjunath Kudlur.用于艺术风格的学习表示. 在ICLR,2017年. 20[11] 高伟,李一军,尹义航和杨明焕. 快速视频多风格转换.在WACV,2020年. 60[12] Leon A Gatys,Alexander S Ecker和MatthiasBethge。艺术风格的神经算法。arXiv预印本arXiv:1508.06576,2015年。20[13] Leon A Gatys,Alexander S Ecker和MatthiasBethge。使用卷积神经网络的图像风格转移。在CVPR,2016年。1,20[14] Golnaz Ghiasi,Honglak Lee,ManjunathKudlur,Vincent Dumoulin和JonathonShlens。探索实时任意神经艺术风格化网络的结构。在BMVC,2017年。10[15] Xinyu Gong,Haozhi Huang,Lin Ma,Fumin Shen,WeiLiu和TongZhang。神经立体图像风格转移。在ECCV,2018年。20[16]顾舒阳,陈聪亮,廖静和袁路。具有深度特征重排的任意风格转移。在CVPR,2018年。10[17]郭杰,李梦天,宗子靖,刘云涛,何静武,郭彦文和领琪燕。具有风格化内核预测网络的体积外观风格化。TOG,2021年。20[18] Ronghang Hu,Nikhila Ravi,Alexander C Berg和DeepakPathak。Worldsheet:用于从单幅图像进行视图合成的3D表面。在ICCV,2021年。20[19] Binh-Son Hua,Minh-Khoi Tran和Sai-KitYeung。逐点卷积神经网络。在CVPR,2018年。20[20]黄浩智,王浩,罗文涵,马林,姜文豪,朱晓龙,李志峰和刘伟。用于视频的实时神经风格转移。在CVPR,2017年。2,50[21] 黄心平,Hung-Yu Tseng,Saurabh Saini,ManeeshSingh和Ming-HsuanYang。学习风格化新视图。在ICCV,2021年。1,2,3,6,80[22] Xun Huang和SergeBelongie。实时任意风格转移与自适应实例归一化。在ICCV,2017年。1,2,5,70[23] Varun Jampani,Huiwen Chang,Kyle Sargent,AbhishekKar,Richard Tucker,Michael Krainin,Dominik Kaeser,WilliamT Freeman,David Salesin,BrianCurless等。SLIDE:具有软层和深度感知修复的单幅图像3D摄影。在ICCV,2021年。20[24] Justin Johnson,Alexandre Alahi和LiFei-Fei。感知损失用于实时风格转移和超分辨率。在ECCV,2016年。1,20[25] Diederik P Kingma和JimmyBa。Adam:一种随机优化方法。在ICLR,2015年。50[26] Alexander Kirillov,Yuxin Wu,Kaiming He和Ross Gir-shick。PointRend:图像分割作为渲染。在CVPR,2020年。80[27] Arno Knapitsch,Jaesik Park,Qian-Yi Zhou和VladlenKoltun。坦克和寺庙:大规模场景重建基准。TOG,2017年。80[28] Johannes Kopf,Kevin Matzen,Suhib Alsisan,OceanQuigley,Francis Ge,Yan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功