没有合适的资源?快使用搜索试试~ 我知道了~
基于变换器的稀疏表示形状补全
6239形状成形器:基于变换器的稀疏表示形状补全严星光1林立强1Niloy J.Mitra2,3 Dani Lischinski4 Daniel Cohen-Or1,5 Hui Huang11深圳大学2伦敦大学学院3Adobe Research4耶路撒冷希伯来大学5特拉维夫大学摘要我们提出了ShapeFormer,一个基于transformer的网络,它可以产生对象完成的分布,条件是不完整的,可能有噪声的点云。然后,可以对所得分布进行采样以生成可能的完成,每个完成都表现出合理的形状细节,同时忠实于输入。为了便于使用3D变换器,我们介绍了一个紧凑的3D表示,矢量量化深隐函数(VQDIF),利用空间稀疏表示一个紧密近似的3D形状的一个短序列的离散变量。实验表明,ShapeFormer优于现有技术的形状从模糊的部分输入的复杂性,在复杂的质量和多样性。我们还表明,我们的方法有效地处理各种形状类型,不完整的pat,paths,和现实世界的扫描。1. 介绍通常使用探测和采样表面的相机来获取这些图像。该过程依赖于视线,最多只能从物体的可见部分获得部分信息因此,采样复杂的现实世界的几何不可避免地是不完美的,导致不同的采样密度和丢失的部分。几十年来,人们对表面完井的问题进行了广泛的研究[5]。核心挑战是通过检查观察到的数据中的非局部提示来补偿不完整的数据,以使用各种形式的先验来推断缺失的部分。最近,深度隐函数(DIF)已经成为学习高质量曲面补全的有效表示为了学习形状先验,早期的DIF[13,41,48]使用单个全局潜在向量对每个形状进行编码。将全局代码与特定区域的局部潜在代码[14,15,22,27,35,50]相结合,可以忠实地保留完成时输入的几何细节。然而,当呈现有歧义的部分输入时,* 通讯作者:Hui Huang(hhzhiyan@gmail.com)项目页面:https://shapeformer.github.io图1. ShapeFormer预测了跑车(左列)、缺少零件的椅子(中列)和人类小腿的部分点云(右列)的真实世界扫描的多个输入点云与生成的形状叠加,以强调完成对输入点云的忠实性。合理的完成是可能的(见图)。1),地方DIF的决定性性质通常无法为看不见的地区产生有意义的完成。一个可行的替代方案是结合生成模型来处理输入的不确定性。ShapeFormer6240肮脏然而,对于包含大量统计冗余的表示,如在当前局部方法的情况下,这种组合[57]过度地将模型容量分配给感知无关的细节[21,25]。我们提出了ShapeFormer,一个基于transformer的自回归模型,它可以学习可能的形状完成的分布我们使用本地代码来形成一系列离散的,矢量量化的功能,大大减少了representation大小,同时保持底层结构。针对此类离散变量序列应用基于变换器的生成模型已被证明对图像域中的生成预训练[3,11],生成[23,53]和完成[64然而,直接部署transformers到3D特征网格导致特征解析中的序列长度立方。由于transformers在序列长度上具有固有的二次复杂性,因此仅使用过于粗糙的特征分辨率虽然可行,但几乎不能表示有意义的形状。为了减轻复杂性,我们首先引入矢量量化深隐函数(VQDIF),这是一种新颖的3D表示,其既紧凑又结构化,可以以可接受的精度表示复杂的3D形状,同时尺寸相当小。其核心思想是将形状稀疏编码为离散2元组的序列,每个元组表示非空局部特征的位置和内容。这些序列可以被解码为深度隐式函数,随后可以从中提取高质量的由于3D形状的稀疏性质,这种编码在特征分辨率上将序列长度从三次减少到二次,从而实现与生成模型的有效组合。ShapeFormer通过生成完整的序列来完成形状,条件是部分观察的序列它是通过顺序预测下一个元素的位置和内容的条件分布来训练的。 与图像完成[64]不同,其中模型使用BERT [3,20]目标进行训练,仅预测不可见的区域,在3D形状完成设置中,输入特征也可能来自噪声和不完整的观察,并且保持它们完整必然会产生噪声结果。因此,为了从零开始生成完整的序列,同时忠实于部分观测值,我们调整自回归目标,并将部分序列前置到完整序列以实现条件化。这种策略已被证明对文本[39]和图像[23]的条件合成有效。我们证明了ShapeFormer能够为各种形状类型(包括CAD模型和人体)以及各种不完整来源(如缺少零件的真实世界扫描)的模糊部分观测产生各种高质量的完成。总的来说,我们的贡献包括:(i)基于离散变量序列的新DIF表示,表示3D形状的令人满意的近似;(ii)基于变换的自回归模型,其使用我们的新表示来预测以部分输入为条件的多个高质量完成形状;以及(iii)在完井质量和多样性方面的多模态形状完井的最新结果。与先前的多模态方法cGAN [67]相比,PartNet上的FPD评分最多提高了1.72. 相关工作形状重建和完成。三维重建是计算机视觉和图形学中一个长期存在的不适定问题。传统方法可以从完整的输入(如点云[5]或图像[26])中产生忠实的重建。最近,基于神经网络的方法已经证明了从部分输入重建的令人印象深刻的性能[30],其中在数据先验的帮助下完成了不可见的区域。它们可以根据其输出表示进行分类,例如体素、网格、点云和深层隐式函数。由于体素的规则性,可以通过3D卷积轻松处理或生成体素,因此它们通常用于早期作品[17,19,31,56]。然而,由于它们的立方复杂性对分辨率,预测的形状要么太粗糙,要么太重的大小为以后的应用程序。虽然网格数据效率更高,但由于处理网格拓扑的困难,基于网格的方法必须使用形状模板[38,54,65],限制为单个拓扑,或产生自相交网格[29]。相比之下,点云没有这样的问题,最近被广泛用于生成[1,24]和完成[59,68,69,71]。然而,由于点云的稀疏性,需要使用经典方法[6,34,36,37将形状表示为深度隐式函数的最新工作已被证明对于高质量3D重建是有效的[13,41,48]。利用当地的前科,后续工作[15,22,27,40,50]可以进一步提高几何细节的保真度。然而,由于模糊输入的确定性,目前大多数方法对模糊输入都不有效。其他方法通过利用生成模型来处理这样的输入。他们学习完整形状的条件分布,表示为单一的全局代码[2,67],由于缺乏空间结构,导致与输入不对齐的完成,或原始点云[73],由于其统计冗余,仅对完成具有有限数量点的简单形状有效。在本文中,我们将展示如何在新的紧凑结构化表示基础上构建生成模型,从而实现复杂形状的多模态高质量重建。6241294332...1204变平43270...822量化特征VQDIF编码器ShapeFormerVQDIF解码器采样294332… …...43270… …0 1V-2V-1字典MS| SssMMSP∈M|PS|Sss图2.我们的形状完成方法概述 给定可能来自深度图像的部分点云P作为输入,我们的VQDIF编码器首先将其转换为稀疏特征序列z0. K-1,用它们在学习字典D中的最近邻ej的索引替换它们,形成由坐标(粉红色)和量化特征索引(蓝色)组成的离散二元组序列。 我们把这个部分序列称为SP(用虚线画出)。然后,ShapeFormer将SP作为输入,并对条件分布进行建模p(CP)。 自回归抽样产生一个可能的完整序列C. 最后,VQDIF解码器将序列C至一个深隐函数,从中可以提取表面重建。为了显示我们重建的忠实性,我们将输入点云叠加在它们上面。请参阅补充材料了解更多建筑细节。自回归模型和变压器。自回归模型是一种生成模型,旨在通过链式规则将联合概率分布分解为一系列条件分布来对高维数据的分布进行建模[4]。使用神经网络对条件分布进行参数化已被证明是有效的[28,60],特别是对于图像生成[12,47,62]。Transformers [63]以其通过自我关注对远程依赖性进行建模的能力而闻名,已经在自然语言[8,51],图像生成[11,49]中显示了自回归模型的强大功能。与确定性掩蔽自动编码器[32]相反,变换器可以通过采用BERT [20]训练目标产生在掩蔽区域中清晰的各种图像完成[64在3D域中,自回归模型已用于学习点云[57,66]和网格[44]的分布然而,这些模型只能生成小的点云或网格限制在1024顶点,由于缺乏有效的表示。相比之下,通过消除统计冗余,压缩的离散表示使生成模型能够在更显著的水平上关注数据依赖性[53,61],并且最近允许高分辨率图像合成[23,52]。后续工作利用数据稀疏性来获得更紧凑的表示[21,45]。我们在表面完成的背景下探索这个方向。与我们的工作同时,AutoSDF [42]训练Transformers完成并生成具有密集网格的形状。Point-BERT [70]采用生成式训练来完成分类等下游任务3. 方法我们将形状完成问题建模为将部分点云RN×3映射到与云匹配由于这是一个不适定的问题,我们试图估计的概率分布,这样的网格p()利用功率变换器。我们不直接处理点云、网格或特征网格,而是将形状近似为短的离散序列(见第二节)。3.1),以大大减少变量的数量和可变位的大小,这使得变压器,以完成复杂的3D形状(见节。3.2)。利用这种紧凑表示,条件离散变为p(CP),其中P和C分别是部分点云和完整形状的序列编码。一旦这样的分布被建模,我们就可以采样多个完整序列C,通过解码可以从其获得不同的表面重建。该过程如图1所示。二、3.1. 用于3D形状的我们提出了VQDIF,其目标是用形状字典来近似3D形状,每个条目描述分辨率为R的体网格G的单元内的特定类型的局部形状部分。使用这样的字典,形状可以被编码为条目索引的短序列,描述所有非空网格单元内的局部形状,使transformers能够有效地对全局依赖性进行建模。我们设计了一个自动编码器架构来实现这一点。编码器E首先将输入点云映射到具有本地池化PointNet的64分辨率特征网格,然后将其下采样到分辨率R。与之前的图像合成策略[23]不同,编码器参数为......6242Pi=0时--j=0i=0时S{}|YSSS我S|Si=0时VQDIF不我我承诺Σ仔细地设置为具有最小的感受野,将非空特征的数量减少到分辨率R下的体素化输入点云的稀疏体素的数量。然后,这些非空的功能是扁平的行优先顺序的长度为K的序列。 由于这些特征是稀疏的,我们用它们的扁平化索引c iK−1记录它们的位置。其他排序也是可能的,但对于生成来说,它们不如行优先排序有效[23]。遵循神经离散表征学习的思想[61], 我们压缩特征序列{z}K-1通过矢量量化,即,将其夹在V个嵌入式{ej}V的字典D中的其最近的条目,并且我们保存这些条目的索引:图3. ShapeFormer的架构。部分序列SP(虚线框)和完整序列SC(实线框)v i= argmin j∈[0,V).(一)因此,我们得到一个表示3D形状=(c i,v i)K−1的离散2元组的紧凑序列。最后,解码器将该序列投影回特征网格,并通过3D-Unet [18]将其解码为局部深度隐式函数f [50],其等值面是重建M。训练我们通过同时最小化重建损失和使用指数移动平均值更新字典来训练VQDIF [61],其中字典在发送之前将附加有结束令牌的两者连接起来将它们的位置ci(粉色)和值vi(蓝色)输入坐标变换器Transformer,以预测下一个位置ci+1。 值转换器采用Ci+1和前Transformer的输出嵌入来预测下一个值V i +1。在以前的元素。 我们还分解出每个元素的元组discount:p(c i,v i)=p(c i)p(v i c i).最终因子化序列分布如下:K−1嵌入被逐渐拉向编码特征。我们也采用承诺损失L承诺[61],以en-p(SC| SP;θ)=pci·pvii=0时勇气编码特征zi以保持靠近它们最近的字典中的条目evi,索引为vi,从而保持嵌入的范围有界。我们将损失定义为,K−1pci=p(ci|c
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功