没有合适的资源?快使用搜索试试~ 我知道了~
1内阁椅子灯椅子表内阁沙发表平面灯三维场景Chiyu1加州大学伯克利分校2谷歌研究3斯坦福大学4慕尼黑工业大学(a)ShapeNet的训练部件。 (b)部分嵌入的t-SNE图。(c)用局部隐式网格图1:我们使用带有隐式解码器的部分自动编码器学习ShapeNet [ 3 ]中对象的部分嵌入。我们表明,这种表示的部分是概括的对象类别,并很容易扩展到大型场景。通过在网格中局部化隐函数,我们能够通过优化潜在网格从点重建整个场景。摘要从数据学习的形状先验通常用于从部分或噪声数据重建3D对象然而,没有这样的形状先验可用于室内场景,因为典型的3D自动编码器无法处理其规模,复杂性或多样性。在本文中,我们介绍了本地隐式网格表示,一个新的3D形状表示设计的可扩展性和通用性。激励的想法是,大多数3D表面在某种程度上共享几何细节-即,以小于整个对象且大于小块的尺度我们训练一个自动编码器来学习一个嵌入的3D形状的本地作物在该大小。然后,我们使用解码器作为形状优化中的组件,该形状优化求解重叠作物的规则网格上的一组潜在代码,使得解码的局部形状的插值匹配我们证明了该方法的价值,从稀疏点观测三维表面重建,显示显着优于其他方法的结果。1. 介绍场景的几何表示已经成为计算机视觉和图形学中各种任务的核心,包括几何重建、压缩和更高级别的任务,例如场景理解、对象检测和分割。有效的表示应该在广泛的语义类别中很好地泛化,有效地扩展到大型场景,表现出丰富的表达能力来表示尖锐的特征和复杂的拓扑结构,同时利用从数据中获得的几何先验知识。在过去的几年中,一些作品提出了新的网络架构,以允许传统的几何表示,如点云[31,13,43],网格[37,15]和体素网格[9,40]来利用数据先验。最近,神经隐式表示[4,28,29]已经被提出作为这些方法的替代方案,因为它具有表示精细几何细节的表达能力。然而,上述工作集中于学习一个或几个类别内的整个对象的表示,并且尚未在推广到其他类别或缩放到大场景的上下文中对其进行研究。60016002在本文中,我们提出了一个学习的3D形状表示,概括和缩放到任意场景。我们的关键观察是,尽管不同类别和场景中的不同形状在全球范围内具有非常不同的例如,沙发座椅和汽车挡风玻璃都有类似的弯曲部分,桌面和飞机机翼都有薄而锋利的边缘等。虽然没有两个形状在宏观尺度上是相同的,并且微观尺度上的所有形状都可以通过成角度的平面局部近似,但存在一个中间尺度(“部分尺度”),其中可以通过单个深度神经网络学习所有几何形状的有意义的共享抽象。我们的目标是在该规模下学习形状先验,然后在可扩展和通用的3D重建算法中利用它们。为此,我们提出了局部隐式网格(LIG)表示,重叠的局部大小的区域,每个编码与隐式特征向量的规则网格。我们学习编码/解码物体的几何部分,通过在ShapeNet [3]的13个对象类别上训练隐式函数自动编码器来实现部分规模。然后,配备了预训练的解码器,我们提出了一种机制,以优化潜在的隐式网格表示,匹配部分或嘈杂的场景观察。我们的表示包括一个新的重叠潜在的网格机制的信任加权插值的学习局部特征无缝地表示大型场景。我们说明了这种方法的有效性,通过针对场景重建稀疏点样本,在那里我们能够忠实地重建整个场景给定的稀疏点样本和形状特征从ShapeNet对象学习的应用程序。这种方法不需要在场景级数据上进行训练,其中数据获取成本高。与用于从点样本任务(泊松表面重建[23,24]或PSR等方法)进行场景重建的最先进的重建算法总之,这项工作的主要贡献是:• 我们提出了几何图形的局部隐式网格表示,在此我们学习和利用零件级别的几何特征,以及相关方法,例如作为用于以高保真度表示和重构场景的重叠潜在网格机制和潜在网格优化方法。• 我们说明了与学习整个对象的先验知识的相关方法相比,我们基于部分的方法的泛化能力得到我们可以在仅在椅子上训练后从新的对象类重建形状,或者在仅在ShapeNet部件上训练后构建整个场景• 我们应用我们的新的形状表示方法对具有挑战性的任务,场景重建从稀疏点样本,并显示出显着的改进,超过国家的最先进的方法(对于垫-端口重建从100/m2的输入点,F-得分为0.889对0.455。2. 相关工作2.1. 对象的几何表示在计算机视觉和图形学中,诸如单纯形复合体(点云、线网格、三角形网格、四面体网格)的几何表示由于其灵活性和紧凑性而长期用于表示几何形状。近年来,已经提出了各种神经架构用于分析或生成这样的表示。例如,[31,38]已经提出用于分析点云表示,[13,43]用于生成点云。[27,17,20,19]已经提出用于分析网格上的信号,[37,15,7]用于生成网格表示。[21]提出了一种分析基于任意单纯复形的几何信号的通用框架。与3D卷积神经网络(CNN)自然配对,体素网格也被广泛用作3D表示[41,8,5]。最近,在形状生成的背景下提出了替代表示与我们的方法最相关的是[28,29,4],其中使用全连接神经网络将几何的隐式曲面表示为空间函数。连续的空间坐标作为输入特征被馈送到网络,该网络直接产生隐函数的值,然而这些方法使用全局潜在代码对整个形状进行编码。[33]使用这种隐式网络来表示神经功能,而不是可以与一种可微分的光线行进算法,用于生成对象的神经渲染。而不是学习一个全局隐式网络来表示整个形状,[32]使用隐式网络学习连续的每像素占用和颜色表示。在形状重建的背景下,其他新颖的几何表示包括用作学习的局部形状模板的结构隐式函数[14],以及将空间表示为局部化在空间中的半平面的凸组合的CvxNet [10这些方法使用单个全局特征向量来表示整个形状,该全局特征向量可以通过相关的隐式网络解码为连续输出。2.2. 局部几何表示虽然使用单个全局潜在代码来表示整个几何形状和场景因其简单性而吸引人,但它无法捕获局部细节,并且难以扩展到复杂性增加的大场景。[42]建议在图像到3D的上下文中解决定位问题6003通过首先估计图像的相机姿态,然后投影局部2D特征以与全局潜在项连接用于解码来进行重建。然而,这种混合表示超出单一ob-boundary的可扩展性尚未显示。与我们的方法类似,[39]使用基于局部补丁的表示。然而,它没有在任何数据上进行[30]结合了直接从一组示例中提取的形状补丁,这限制了形状的可表达性。类似于我们将几何图形空间划分为部分网格,[36]使用基于PCA的分解来学习固定比例的TSDF网格内几何部分的简化表示,以应用于实时几何压缩。这些方法不支持使用学习的深度隐式函数进行可伸缩重构。2.3. 场景级几何重建大多数深度学习研究都研究了对象重建,输入为RGB/D图像[5,37,28,4,13,10,14]或3D点[29,26,22],但很少有人考虑学习重建完整场景。场景级几何重建是一个更具挑战性的任务相比,单个对象。[34]在单个深度图像的平截头体内执行语义场景完成。[8]使用具有粗到细推理策略的3D卷积网络,从不完整的输入TSDF直接回归网格截断符号距离函数(TSDF)输出[1]通过CAD模型检索来解决场景重建问题,该模型检索以几何不准确为代价产生有吸引力的表面然而,所有这些方法都需要在可靠和高质量的场景数据上进行训练。虽然存在几个真实和合成场景数据集,如SunCG [35],SceneNet [16],Matterport3D[2]和ScanNet [6],但它们是特定于领域的,并且获取新场景的数据可能成本高昂。与上述需要在场景数据集上训练的方法相比,我们的方法自然地概括了从对象数据集学习的形状先验,并且不需要在场景上进行额外的训练。3. 方法3.1. 方法概述我们在图1中给出了我们的方法的示意图。我们首先使用部分自动编码器从合成数据集中的对象中学习以固定比例嵌入形状部分(参见第二节)。3.2)。我们展示了这种潜在嵌入的两个有趣特性:(1)来自不同类别的对象共享相似的部分几何形状,验证了这种学习表示的可推广性,以及(2)形状相似的部分在潜在空间中很接近。为了缩放到任意大小的场景,我们引入了一个重叠的网格表示,可以在场景中布局这些局部表示(第二节)。3.3)。使用该部件培训零件自动编码器3D Conv[l]隐式网络零件TSDF部分潜伏重组子测试[l]隐式网络形状TSDF定向点优化[l]最小重建损失图2:零件自动编码器的原理图。在训练时,来自ShapeNet数据集的TSDF网格的裁剪用于训练具有3D CNN编码器和隐式网络解码器的零件自动编码器。在训练过程中,对网络的内部和外部点进行采样以监督网络在推理时,预先训练的隐式网络被附加到局部隐式网格,并且通过观察到的内部/外部点上的梯度下降来优化相应的潜在值。嵌入可以使用局部隐式网络在空间上连续解码,我们能够通过使用基于梯度下降的优化来搜索对应的潜在代码以匹配给定的观测,从而仅从稀疏定向的点样本忠实地重建几何形状(第二节)。3.4),从而有效地利用从ShapeNet数据集的部分中学习的几何3.2. 学习零件数据我们的部件嵌入模型是从ShapeNet的13类子集3D-R2N2 [5]中挑选的2000万个对象部件中学习的作为预处理,我们将水密网格(使用[28]中的工具生成)规范化为[0,1]单位立方体,每边留出0.1的边距。为了保持零件的保真度,我们计算一个有符号的距离函数(SDF)在网格分辨率为2563。从原点开始,步长为16,所有32个3块,其中至少有一个点在3/255的形状表面被提取为部分用于训练。部分自动编码器我们使用一个用残差块装饰的3D CNN来编码这种局部TSDF网格,并使用一个简化的IM-NET [4]解码器来重建部分(见图1)。2)。IM-NET解码器是具有内部跳跃连接的简单全连接神经网络,其接收与3D点坐标级联的潜在代码,并输出该点处的相应隐式函数值。我们使用带有二进制输入/输出标签的点样本来训练网络,以便网络学习二进制分类器的连续决策边界作为编码表面。由于解码一部分是一个更简单的任务比解码整个形状,我们减少了数量6004部件比例以xi为中心的单元,隐式值被解码为:f(x,c)=D(c,2(x-x))(2)i θd isi图3:用重叠的潜在网格表示几何形状的2D示意图。任何点处的隐式值是通过查询关于每个单元中心的4/8(2D/3D)邻居而获取的隐式值的双线性/三线性插值。其中ci是对应于单元i中的部分的潜在代码,并且s是部分比例。在对解码器查询之前,坐标首先被转换为单元内的归一化局部坐标[-1,1]虽然直接将空间划分为体素网格,每个单元内的潜在通道提供了不错的性能,但是在体素边界上将存在不连续性因此,我们提出了重叠潜在网格计划,其中每个网格单元的一部分,其相邻的细胞重叠的一半部分比例(见图)(3)第三章。当针对重叠的潜在网格查询任意位置x处的隐式函数值时,该值被计算为对在该位置处重叠的所有单元格的独立查询的三线性插值,其在2维中为4,在3维中为8在IM-NET的每个隐藏层中的特征通道的4Σf(x,{c |j ∈ N})= wD(c,2(x-x))(3)折叠,获得更精简和更有效的解码器。 为-求出零件的紧凑潜在表示,我们进一步Jj∈NJθdjsj将每个部分的潜在通道数减少到32。我们用2048个随机点样本训练部分自动编码器,这些随机点样本采样点的正负号是从原始SDF栅格的正负号内插的。此外,我们将输入SDF网格截断为3/255的值,并将网格重新归一化为[0,1],以获得边界附近的更强梯度。我们在点样本上使用二进制交叉熵损失训练部分自动编码器,并使用额外的潜在正则化损失来约束学习嵌入的潜在空间。损失如下:其中Nj是点x的所有相邻单元的集合,并且wj是对应于单元j的三线性插值权重。在这种插值方案下,由隐式网格表示的函数保证是C0连续的。高阶连续性可以类似地获得较高的次数多项式插值,虽然我们不探讨它在本研究的范围。为了提高效率,由于大多数网格单元没有落入其中的任何点,我们使用稀疏数据结构来存储潜在的网格值,优化和解码重建的表面,其中空的空间被假设为外部空间。3.4.通过潜在优化的L(θ,θ)= 1ed| P||B|ΣΣi∈Pj∈BLc(Dθd(xi,j,Eθe(gi)),sign(xi,j))在推理时,当提供内部/外部样本的稀疏点云作为输入时,我们分解+λ||Eθe(gi)||第二章(一)其中P是给定小批量中的所有训练部分的集合,B是每个部分采样的点样本的集合,Lc(·,·)是具有logits的二进制交叉熵损失,Eθe是由可训练参数θe参数化的卷积编码器,Dθd是由可训练参数θd参数化的隐式解码器,gi是第i部分的输入TSDF网格,sig n(·)表示对应点xi,j 的 符 号.3.3.局部隐式网格然后对与网格单元相关联的潜在向量执行优化,以最小化用于分类采样的内部/外部点的成本函数。潜在网格内的初始值被初始化为随机正态,标准偏差为10- 2如果我们将有效潜在网格单元的集合表示为G,每个网格单元中的对应潜在代码cj,并且将所有采样的内部/外部输入点的集合表示为B,则我们优化潜在代码以使分类损失最小在采样点上:Σ Σ为了使用学习到的部分表示来表示整个对象和场景,我们布局了一个稀疏的潜在argminc∈Gi∈Bj∈NiLc(f(xi,{cj|j∈N}),sign(xi))+λ||CJ||2(四)网格结构,其中在每个局部网格单元内,表面从单元内的局部潜在代码连续解码。在世界坐标中,当针对单个体素网格查询位置x处的隐式函数值时我们如何获得有符号的点样本来执行这种潜在的网格优化?为了用潜在网格自动编码几何体,在给定形状的表面附近密集地采样带符号的点样本,以6005曲面上的给定点给定点法线平均值 * 0.435 0.666 0.2740.114 0.898 0.692表1:仅在上训练的自动编码器的形状自动编码采样外点采样内点估测形状主持并对所有13个类别进行评估。平均值对应于所有训练外对象类别的类平均值。图4:基于稀疏矩阵重建形状的示意图定向点样本。给定具有法线的表面上的原始点样本,我们沿着每个法向量的两侧随机采样k个样本,并相应地为这些样本分配符号。这些点以高斯衰减概率采样,具有给定的标准偏差σ。重叠的潜在网格内的潜在代码4.第一章通过密集查询隐网格和提取输出logits的零轮廓来重建编码.然而,对于从稀疏定向点样本恢复表面几何形状的应用,我们沿着给定的法线方向对每个点样本的内部和外部点进行随机采样,其中高斯衰减概率由标准偏差σ参数化。详见图4。 假设不包含输入点云中任何点的所有网格单元是空的外部体积。对于不包含大型封闭体积但在封闭内部创建人造背面的场景,此操作非常有效。我们详细介绍了一个简单的后处理算法,以消除这样的artifacts造成的外部空的空间假设。我们在附录中提供了有关附加后处理算法的更多细节。由于我们的方法需要在学习的潜在空间上进行优化,因此有理由怀疑诸如变分自动编码器[25]或自动解码器[29]等替代模型是否是更合适的选择,因为这两种公式都包含潜在分布先验。然而,[29]观察到VAE的随机性使训练变得困难。此外,自动解码器从根本上无法在训练时扩展到大量部分,因为它需要在训练期间快速存储和随机访问所有潜在嵌入。这些问题促使我们决定采用带有正则化损失的自动编码器公式来约束潜在空间。4. 实验我们进行了一系列的实验来测试所提出的LIG方法。我们专注于我们的方法的两个属性:我们学习的部分表示的泛化,以及我们学习的形状表示对大场景的可扩展性。我们的目标应用是从稀疏的定向点样本集重建场景在我们所有的实验中,我们使用倒角距离(CD)、正常对齐(Normal)和F-Score来评估几何重建质量。对于倒角距离和法线对齐,我们的实现基于[28],差异很小。对于对象级自动编码实验,我们遵循[13,28]并将单位距离归一化为当前对象边界框的最大边长的1/10我们估计CD和法线对齐使用地面真实和重建网格上的100,000个随机采样点对于两个场景级实验,我们在估计CD和法线对齐时在每个网格上随机采样200万个点。在评估场景重建时,我们使用世界坐标尺度(米)来计算CD,因为数据是以物理上有意义的尺度提供的。此外,在所有实验中,我们在阈值τ处计算F分数,因为F分数是对离群值不太敏感的度量。F-Score是召回率(τ下重建到目标距离的百分比)和精确度(反之亦然)的调和平均值。对于对象重建(第3.2)我们使用τ=0。对于场景重建,我们使用τ=0。025(即,2.5cm)。类别IM-NETCD(↓) 正常F评分(↑)(↑)我们CD(↓) 正常F-score(↑)(↑)椅子0.1810.8200.5050.0990.9200.710飞机0.6980.5500.1510.1500.8170.564板凳0.2290.7190.4330.0540.9050.857内阁0.3430.7000.2300.1180.9480.733车0.3540.6460.2400.1520.8250.472显示0.6010.5740.1300.1700.9260.551灯0.8360.5920.1200.1140.8820.624扬声器0.3770.7020.2460.1390.9370.711步枪0.9020.4000.0800.1130.8240.693沙发0.1990.8120.4840.0770.9440.822表0.4250.6810.2420.0660.9360.844电话0.6230.5470.1200.0370.9840.962容器0.5910.5740.1470.1780.8470.4676006度量CD(↓)正常(↑)F评分(↑)IM-NET0.1830.8270.647我们0.0070.9450.985表2:IM-NET与我们的方法的场景表征性能的定性比较。4.1. 学习部分表示任务为了研究学习嵌入的推广,通过减少学习嵌入的规模,为了从物体尺度到部分尺度的形状,我们构建了一个调查实验,训练模型在单个物体类别上学习形状自动编 码 器 ( 在 这 种 情 况 下 , ShapeNet 训 练 集 中 的 椅子),并从所有13个物体类别中重建示例,包括其他12个看不见的类别。基线由于我们的主要目标是探索从学习部分尺度的嵌入中获得的可推广性,因此我们将我们的方法与原始的IM-NET解码器进行基准测试,该解码器具有类似的基于3D卷积的编码器,IM-NET我们的地面实况编码器的一部分,我们的一部分autoencoder。为了实现我们的方法的自动编码,我们在ShapeNet中从椅子类别的训练分割中提取的所有部分上训练我们的自动编码器。然后,我们使用第二节中描述的潜在优化方法对看不见的形状的几何形状进行“编码”。三点四分。结果讨论我们分别在表1和图5中定量和定性地比较了重建性能 给定一个被训练来学习对象(在这种情况下,椅子)的潜在表示的IM-NET,学习的表示不会泛化到源类之外的类。在视觉上,IM-NET在源类以及相关类上实现了良好的重构(例如,沙发),但是在语义上不同的类上表现不佳(例如,飞机)。相比之下,我们的本地隐式网络学习的部分表示可以在完全不同的对象类别之间转移4.2. 场景表征能力的可扩展性任务作为第二个实验,我们研究了我们从学习基于部分的形状嵌入中获得的增强的表示能力和可扩展性。任务的定义是:给定一个场景,我们可以从用于记忆和过拟合到场景的任一表示中获得的最佳反射性能是什么。基线与之前的实验类似,我们直接与IM-NET比较对场景的表示能力,因为它是我们的方法的解码器骨干。Figure 5: Qualitative comparison of autoencoded shape from in-category (chair) and out-of-category shapes.经过训练以学习一个对象类别的嵌入的IM-NET不能很好地转移到看不见的类别,而由我们的本地隐式网络学习的部分嵌入在看不见的类别之间的转移性要大得多。图6:场景表征性能的定性比较:从左到右:地面实况现场,我们的reprofilc- tion使用采样密度500点/m2,和IM-NET。前两行来自Matterport,最后一行来自SceneNet。的基础上,调查可扩展性的改善,我们能够获得分布几何信息,类超出类别6007GT+输入PC(a)我们的(b)PSR-10 [24](c)Alpha Cmplx [11](d)球轴[12](e)DGP [39]图7:稀疏定向点样本场景重建性能的定性比较。与基线方法相比,我们的方法在从稀疏点云重建场景方面明显更好,特别是在尖锐边缘和薄结构方面。空间局部网格单元与单个全局表示。对于这项任务,由于目标是对一个场景进行对于我们的方法,我们对预训练的解码器使用潜在优化来编码场景,使用来自场景的100k个表面点样本,沿着法线方向每个点的采样因子k=10数据我们评估了这两种方法在来自Matterport 3D [2]场景数据集的验证集的网格上的代表性质量。我们在数据集的区域级别执行评估,要求模型一次编码一个区域。此外,我们还提供了一个来自SceneNet的示例,用于图1中的视觉比较。六、结果讨论定量(表2)和定性(图2)(6)给出了结果。虽然IM-NET能够重建室内场景的一般结构,如光滑的墙壁和地板,但由于难以将单个隐式网络扩展到整个场景,因此无法捕获对象的精细细节。我们的局部隐式网格能够捕获全局结构以及局部细节。4.3. 基于稀疏点的场景重建任务作为最后一项任务和我们的主要应用程序,我们将我们的重建方法应用于计算机图形学中的经典任务,从稀疏点重建几何图形这是一个重要的应用,因为从点的表面rebraction c- tion是在数字化的三维世界的过程中的一个关键步骤重建的输入流水线是我们从场景数据集的表面网格中随机采样的稀疏点样本。我们研究了不同数量的输入点样本和点密度的重建性能。基线我们主要将我们的方法与具有高八叉树深度值(深度=10)的传统泊松表面重建(PSR)方法[23,24]进行比较,用于场景重建实验,其仍然是用于场景的表面重建任务的最先进方法。由于在所有场景中评估所有方法的高计算成本,我们还在一个代表性场景(见表3中的100pts/m2)上与其他经典(深度8和9处的PSR、α复合体[11]、球旋转[12])和深度(深度几何先验[39])重建方法虽然已经提出了各种其他基于深度学习的方法[29,26,22],用于从类似设置中的点进行表面重建,但所有基于深度学习的方法都是特定于对象的,在ShapeNet中的特定对象类别上进行训练和测试4.1.此外,由于PSR和我们的方法都不需要在场景级数据集上进行训练/微调,因此该任务是基于高质量3D训练数据获取成本高或无法用于场景的前提。对于我们的方法,我们自适应地使用不同的部分大小为不同的点密度。我们使用25 cm(1000 pts/m2)、35 cm( 500 pts/m2 ) 、 50 cm ( 100 pts/m2 ) 和 75 cm ( 20pts/m2)对应于不同的点密度以获得最佳性能。数据我们在合成数据集上评估了这些方法的重建性能:[16 ]第16话 ,600820PSR10 0.077 0.802我们的0.3170.85920PSR10 0.167 0.655我国0.2760.6911000PSR10 0.026 0.975我们的0.9840.986点/m2方法CD(↓)正常(↑)F-评分(↑)点/m2方法CD(↓)正常(↑)F-评分(↑)1005001000我们0.007 0.9450.985500表3:SceneNet数据集上的重建性能。high quality scanned dataset: Matterport 3D [2] (valida-tion split).由于SceneNet和Matterport 3D数据集都不是水密的,除此之外,SceneNet数据集具有各种伪影,例如产生冲突正常样本的双面,我们使用[18]中描述的水密流形算法对两个数据集进行预处理对于这两个数据集,由于场景大小不同,我们在网格表面上采样恒定密度的点(每平方米20,100,500和1000个点)。由于预处理会为SceneNet产生大量的空体积,因此我们会丢弃体积与表面积之比低于0.13的场景。结果讨论我们比较了表3和表4中的重建性能,以及图4。7 .第一次会议。在大量输入点样本的情况下,PSR10和我们的方法都能够以高保真度重建原始场景。然而,在少量点样本的情况下,我们的方法能够利用几何先验来执行比PSR好得多的重建。此外,我们的方法能够很好地重建薄结构,而PSR不能做到这一点。然而,由于我们的方法仅重建由有限部件尺寸确定的有限厚度表面,因此它在封闭的不可见内部上创建双面表面,导致表3中500和1000 pts/m2场景的F分数性能下降。5. 消融研究此外,我们研究了我们方法的两个重要方面的影响:我们为重建每个场景选择的部分比例,以及重叠的潜在网格。我们选择SceneNet重建从100点样本/m2作为消融研究的代表性案例。比较见表5。从结果可以看出,重构结果受局部尺度选择的影响,但影响不是很大。重叠的隐网格显著地提高了整体重建的质量表5:选择潜在代码长度(CL)、部分比例(PS)和重叠潜在网格设计对场景重建性能影响的消融研究。第当潜在代码大小为8时,由于零件几何形状的表现力更有限,性能略有下降。6. 讨论和未来工作3D场景的局部隐式网格(LIG)表示是重叠的局部区域的规则网格,每个区域用隐式特征向量编码。实验表明,LIG能够从训练中看不到的类重建物体的此外,据我们所知,它是第一个学习的3D表示重建场景从稀疏点集在一个可伸缩的方式。未来工作的主题包括约束LIG优化以在训练示例附近产生潜在代码的方法,探索替代隐函数表示(例如,OccNet),并研究使用LIG从图像进行3D重建的最佳方法。确认我们要感谢Kyle Genova、Fangyin Wei、Ab- hijitKundu 、 Alireza Fathi 、 Caroline Pantofaru 、 DavidRoss、Yue Wang、Mahyar Najibi和Chris Bregler提供的有益讨论,感谢Angela Dai提供的补充视频,感谢JPLewis提供的论文评审帮助,以及匿名评审员提供的有益反馈。这项工作得到了ERC Starting GrantScan2CAD(804724)的支持。100我们0.012 0.9610.957PSR100.0240.9590.957表4:Matterport数据集上的重建性能。我们0.0100.9760.972PSR100.0350.8900.725阿尔法0.0210.7090.736BallPvt0.0150.8800.839DGP0.0370.8520.571CLPS重叠CD(↓)正常(↑)F评分(↑)3225cm是的0.0130.9480.9213250cm是的0.0120.9610.9573275cm是的0.0130.9450.9293250cm没有0.0230.8860.857850cm是的0.0160.9250.879PSR100.1030.8710.778我们0.0080.9280.970PSR100.1020.9100.862PSR80.0310.8910.721PSR90.0350.8900.721PSR100.1060.7570.455我们0.0130.8830.8896009引用[1] Armen Avetisyan , Manuel Dahnert , Angela Dai ,Manolis Savva,Angel X Chang,and Matthias Nießner.Scan 2cad:学习rgb-d扫描中的cad模型对齐。在IEEE计算机视觉和模式识别会议论文集,第2614-2623页,2019年。3[2] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d:从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议(3DV)。三、七、八[3] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。一、二[4] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议论文集,第5939-5948页一、二、三[5] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上,第628-644页施普林格,2016年。二、三[6] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第5828-5839页,2017年。3[7] 安吉拉·戴和马蒂亚斯·尼斯纳Scan2mesh:从非结构化范围扫描到三维网格。在IEEE计算机视觉和模式识别会议集,第5574-5583页,2019年。2[8] Angela Dai , Daniel Ritchie , Martin Bokeloh , ScottReed,JürgenSturm,andMatthiasNießner.Scancomplete:用于3D扫描的大在IEEE计算机视觉和模式识别会议论文集,第4578-4587页,2018年。二、三[9] Angela Dai , Charles Ruzhongtai Qi , and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在IEEE计算机视觉和模式识别会议论文集,第5868- 5877页,2017年。1[10] Boyang Deng、Kyle Genova、Soroosh Yazdani、SofienBouaziz 、 Geoffrey Hinton 和 Andrea Tagliasacchi 。Cvxnets : 可 学 习 的 凸 分 解 。 arXiv 预 印 本 arXiv :1909.05736,2019。二、三[11] 埃德尔的布鲁纳和穆凯。 三维阿尔法形状。ACM TOG,13(1):43-72,1994. 7[12] Bernardini等人曲面重构的球旋转算法。IEEE VCG,5(4):349-359,1999年。7[13] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络IEEE计算机会议论文集视觉和模式识别,第605-613页,2017年。 一二三、五[14] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。arXiv预印本arXiv:1904.06447,2019。二、三[15] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。学习3D表面生成的纸模型方法。arXiv预印本arXiv:1802.05384,2018。一、二[16] AnkurHanda、VioricaPatraucean、VijayBadrinarayanan、Si-mon Stent和Roberto Cipolla。通过合成数据了解真实世界的室内场景。在IEEE计算机视觉和模式识别会议论文集,第4077-4085页,2016年。三、七[17] Rana Hanocka、Amir Hertz、Noa Fish、Raja Giryes、Shachar Fleishman和Daniel Cohen-Or。Meshcnn:一个有 边 缘 的 网 络 。 ACM Transactions on Graphics(TOG),38(4):90,2019。2[18] Jingwei Huang,Hao Su,and Leonidas Guibas.shapenet模型的鲁棒arXiv预印本arXiv:1802.01698,2018。8[19] Jingwei Huang , Haotian Zhang , Li Yi , ThomasFunkhouser , MatthiasNießner , andLeonidasJGuibas.Texturenet:从网格上的高分辨率信号学习的一致局部参数化。在IEEE计算机视觉和模式识别会议论文集,第4440-4449页,2019年。2[20] 蒋奇宇,黄经纬,卡提克·卡希纳,菲利普·普拉布-哈特,马库斯,马蒂亚斯·尼斯纳.非结构网格上的球形cnn。在2019年国际学习代表会议上。2[21] Chiyu Jiang,Dana Lynn Ona Lansigan,Philip Marcus,Matthias Nießner,et al.深度可微层:用于学习几何信号的 深 度 可 微 层 。 arXiv 预 印 本 arXiv : 1901.11082 ,2019。2[22] Chiyu Jiang , Dequan Wang , Jingwei Huang , PhilipMarcus,Matthias Nießner,et al.利用欧几里德谱变换的非均匀几何信号卷积神经网络。arXiv预印本arXiv:1901.02070,2019。三、七[23] Michael Kazhdan,Matthew Bolitho,and Hugues Hoppe.泊松曲面重建在Proceedings of the fourth Eurographicssymposium on Geometry processing,第7卷,2006中。二、七[24] Michael Kazhdan和Hugues Hoppe筛选泊松曲面重建。ACM Transactions on Graphics ( ToG ) , 32 ( 3 ) :29,2013. 二、七[25] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。InProc. ICLR,2014. 5[26] Yiyi Liao,Simon Donne,and Andreas Geiger.深行军立方体:学习明确的表面表示。在IEEE计算机视觉和模式识别会议的论文集,第2916-2925页三、七[27] Jonathan Masci、Davide Boscaini、Michael Bronstein和Pierre Vandergheynst。测地线卷积神经网络-工作在黎曼流形上。InProceedings of the6010IEEE计算机视觉工作室国际会议,第37-45页,2015年。2[28] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se- bastian Nowozin , and Andreas Geiger.Occupancynetworks:Learning 3d reconstruction in function space.在IEEE计算机视觉和模式识别会议论文集,第4460-4470页,2019年。一、二、三、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功