没有合适的资源?快使用搜索试试~ 我知道了~
1基于点-体素扩散的三维形状生成与完成周林琪斯坦福大学杜一伦MIT斯坦福大学-u/*+0-o1#/Sh#$%2o3$/%*+o(图1:提出的点体素扩散(PVD)是一个新的框架,用于生成3D形状建模。左图:由我们的PVD生成的桌子、汽车和飞机。它学习从高斯先验中采样,并逐步去除噪声以获得清晰的形状。右图:从真实RGB-D图像完成的两个可能形状,每个都在输入和规范视图中可视化。摘要我们提出了一种新的方法,概率生成建模的三维形状。与大多数现有的模型,学习确定性地翻译一个潜在 的 向 量 的 形 状 , 我 们 的 模 型 , 点 体 素 扩 散(PVD),是一个统一的,概率公式无条件的形状生成和有条件的,多模态的形状完成。PVD将去噪扩散模型与3D形状的混合点-体素表示相结合。它可以被视为一系列去噪步骤,将从观察到的点云数据到高斯噪声的扩散过程反转,并且通过优化(连续)似然函数的变分下限实验表明,PVD是能够合成高保真的形状,完成部分点云,并产生多个完成结果从单视图的深度扫描的真实对象。1. 介绍3D形状的生成式建模在视觉、图形和机器人技术中具有广泛的应用。执行项目页面https://alexzhou907.github.io/pvd在这些下游应用中,好的3D生成模型应该是可信的和概率性的。可信模型生成对人类来说现实的形状,并且在诸如深度图的条件输入可用的情况下,尊重这样的部分观察。概率模型捕获生成和完成问题的欠定、多模态性质:它可以从零开始或从部分观察采样并生成不同的形状如图1所示,当只有椅背可见时,好的生成模型应该能够生成多个可能的完整椅子,包括有扶手和没有扶手的椅子。现有的形状生成模型可以大致分为两类。第一个操作3D vox-els [43,14,45,2],2D像素的自然扩展。虽然使用简单,但是体素在缩放到高维度时需要过大的存储器,并且因此不太可能产生具有高保真度的结果。第二类模型研究点云的生成[1,11,48,46,16,17],并产生了有前途的结果。虽然更忠实,但这些方法通常将点云生成视为以形状编码为条件的点生成过程,形状编码由确定性编码器获得。当执行形状完成时,582601-025827因此,这些方法不能捕获完成问题的多模态性质。最近,一类新的生成模型(称为概率扩散模型)在2D图像生成方面取得了令人印象深刻的性能[35,13,36]。这些方法在去噪过程中学习概率模型。对扩散进行监督,以将高斯噪声逐渐降噪到目标输出,诸如图像。沿着这条线的方法,例如DDPM [13],本质上是概率性的,并且产生高度逼真的2D图像。然而,将扩散模型扩展到3D在技术上是非常重要的:在体素和点表示上直接应用扩散模型导致较差的生成质量。这是因为,第一,纯体素是二元的,因此不适合扩散模型的概率性质;其次,点云需要置换不变性,这对模型施加了不可行约束。第4.1节中的实验也验证了直接扩展不会导致合理的结果。我们提出了点体素扩散(PVD),这是一种概率和灵活的形状生成模型,通过将去噪扩散模型与3D形状的混合点体素表示相结合来解决上述挑战[24]。点体素表示将结构化局部性构建到点云处理中;与去噪扩散模型集成,PVD提出了一种新颖的概率方法,通过对高斯噪声进行去噪来生成高质量的形状,并从部分观察中产生多个完成结果,如图1所示。PVD的独特优势在于它是用于无条件形状生成和有条件多模态形状完成的统一的概率公式。虽然多模态形状完成在诸如数字设计或机器人之类的应用中是非常期望的特征,但是过去关于形状生成的工作主要使用确定性形状编码器和解码器来输出体素或点云中的单个可能完成。相比之下,PVD可以在集成框架中执行无条件形状生成和有条件形状完成,仅需要对训练目标进行最小修改。因此,能够根据扩散初始化对多个完井结果进行采样。实验证明PVD能够合成高保真形状,优于多种现有技术方法。PVD还可通过部分观察(如部分点云或深度图)提供高质量的多模态形状完成特别是,我们表明PVD在多个合成和真实数据集上的多模态完成方面表现良好,包括ShapeNet [4],PartNet [27]和Redwood数据集中真实对象的单视图深度扫描[5]。2. 相关作品点云生成模型。 许多先前的工作已经在自动编码[1,11,47]、单视图重构[12,10,15]、多视图重构[16,17]和多视图重构[17,18]方面探索了点云生成。18,17],和对抗一代[34,48,40]。它们中的许多依赖于直接优化启发式损失函数,如倒角距离(CD)和土方机最近的一些作品采取了不同的方法,查看- ING的3D点云在光的概率分布。例如,Sunet al. [37]从概率角度观察点云,并引入自回归生成,但这样做需要点云的排序。基于GAN的模型和基于流的模型[21,1,46,16,17]也采用概率观点,但将形状级分布与点级分布分开。在这些模型中,PointFlow将归一化流[29]应用于3D点云,离散PointFlow随后使用具有仿射耦合层的离散归一化流[8]。形状梯度场[3],不像基于流的作品,直接学习一个梯度场,使用朗之万动力学对点云进行采样。我们的模型与这些模型不同,因为我们不区分点和形状分布,并且我们直接从随机噪声开始生成点体素表示。3D形状通常被光栅化为体素网格,并使用3D卷积进行处理[6,42]。由于体素和2D像素之间的对应关系,许多工作已经探索了使用体积卷积的基于体素的分类和分割[26,31,19,39,42,7]。基于体素的生成模型同样的,他们也是成功的[43,45]。然而,体素网格是内存密集型的,并且它们随着维度的增加而立方地增长,因此它们不能被缩放到高分辨率。另一方面,点云是来自光滑表面的详细样本,并且不受通常低分辨率体素的网格效应的影响,并且不需要那么多的存储器来进行处理。研究人员已经探索了点云分类和分割[30,30,41],并且大多数假设点云处理网络是排列不变的。置换不变性是一个强有力的条件施加在架构上,我们凭经验发现,直接扩展的2D方法,无论是置换不变的点云或体素不工作。因此,我们探索了一种单独的点体素表示[22,33],并且我们的工作与点体素CNN [24]最相关,它提出了对点云进行体素化以进行3D卷积。我们使用它作为我们的生成模型的骨干,由于它利用了点云数据中固有的强空间相关性。5828|||||不Y|√不不q(x0)θ0q(x0:T)q(x1:T|x0)−图2:扩散和生成过程的可视化 为了生成,从p(xT)采样高斯噪声,并且通过pθ(xtxt+1)来逐步消除噪声。 对称地,扩散过程通过q(xt+1 xt)逐渐增加噪声。 我们对每个q(xt+1xt)利用封闭形式的表达式,所有pθ(xtxt+1)通过简单地匹配相应的前向转移概率的后验q(xtxt+1,x0)来学习。基于能量的模型和去噪扩散模型。基于能量的模型(EBM)和去噪扩散模型被参数化为单点体素CNN [24]。3.1. 制剂去噪扩散概率模型是一种生成模型,其中生成被建模为去噪过程。从高斯噪声开始,执行去噪直到形成尖锐形状。特别地,去噪过程产生一系列具有递减噪声水平的形状变量,表示为xT,xT-1,…,其中,从高斯先验中采样,并且x0是最终输出。为了学习我们的生成模型,我们定义了一个基本事实扩散分布q(x0:T)(通过逐渐将高斯噪声添加到地面真实形状来定义),并学习扩散模型pθ(x0:T),其目的是反转噪声校正过程。我们将这两种概率分布分解为马尔可夫转移概率的乘积:q(x0:T)=q(x0)Yq(xt|xt−1),模型是将生成公式化为迭代精化过程的两类生成模型。基于能量的模型[20,9,28]在输入数据上学习能量景观,其中局部最小值对应于高保真度样品,这是由朗之万动力学[9,28]。t=1Tpθ(x0:T)=p(xT) pθ(xt−1|xt),t=1(一)相比之下,去噪扩散模型[35,13,36]在输入的去噪过程中学习概率模型差分融合被监督以逐渐将高斯噪声去噪到目标输出。 这种形式的监督可以被视为对对数概率分布[36]的梯度的监督,如在分数匹配EBM[15,38]中。我们的工作建立在这些相关的现有方法,我们探索3D域,这是具有挑战性的,从根本上不同于2D图像。点云扩散模型[25]的并行工作将点云生成视为一个连续生成问题,并使用额外的形状潜在编码器。然而,我们的国家采取了无条件的其中q(x0)是数据分布,p(xT)是标准高斯先验。这里,q(xt|xt−1)称为前向过程,将数据分解为噪声;因此, q (xt−1|Xt)被命名为reve_se_roces 。 pθ(xt−1xt)被命名为生成过程,我们知道,它生成实数,tic采样近似于逆过程。为了实现封闭形式的评估,转移概率也被参数化为高斯分布。我们在图2中说明了过程。给定高斯噪声值β1,… β T,1每个转移概率可以定义为该方法,摆脱了额外的形状编码器的需要,并使用不同的混合,点体素表示处理形状。除了生成高质量的q(xt|1)=N(1−βtxt−1,βtI),pθ(xt−1|xt):=N(μθ(xt,t),σ2I)。(二)3D形状,我们还表明,我们的模型可以修改,没有架构上的变化,以执行有条件的生成任务,如形状完成。我们还演示了它的有效性在现实世界的扫描。3. 点体素扩散在本节中,我们将介绍点体素扩散(PVD),这是一种用于3D点云的去噪扩散概率模型。我们首先描述我们的配方,其次是形状生成的训练目标,并与修改后的目标,我们提出了形状com结束。其中,μθ(xt,t)表示在时间步t1时来自我们的生成模型的预测形状。根据经验,我们发现设置σ2=βt效果很好。直观地说,前向过程可以看作是逐渐注入更多的随机生成过程学习逐步去除噪声,以通过模仿反向过程来获得真实的样本。培训目标。为了学习边际似然p θ(x),我们最大化对数数据似然的变分下界,该变分下界涉及所有x0,…, xT:1E[logp(x)] ≥ EΣlogpθ(x0:T)Σ。(三)用xyz坐标表示,记为x∈RN×3。 我们1我们将推导和实现细节留在附录中。部分观察的结果我们所有的讨论-低,我们假设我们的每个数据点是一组N点5829|ΣΣθ||||L2|t=1在上述目标中,前向过程q(xtxt−1)是固定的,p(xT)被定义为高斯先验,因此它们不会影响θ的学习。因此,最终目标可以被简化为最大似然,给定具有联合后验q(x1:T)的完整数据似然。|x0):请注意,上面的等式现在给出了自由点x t的前向/生成转移概率,而z0在所有时间步保持不变。直观地说,这个过程与无条件生成相同,而我们保持局部形状z0固定并且仅扩散丢失的部分。maxEx0 q(x0),x1:T q(x1:T |x0)不t=1logpθ(xt−1|xt)Σ.(四)修改后的训练目标还最大化以局部形状z0为条件的相似性:联合 后验q(xt=1t−1不01:T|x0) 可以 被 因式分解成ΣΣTΣQTq(x|x , x ).每个因子化地面真实后验E(x~0,z0)q(x0),x1:Tq(x1:T|x~0,z0)logpθ(x~t−1|x~t,z0),表示为q(xt−1xt,x0),并且可以解析处理。可以表明,它也是高斯参数化的分布:q(xt−1|xt,x0)=α~β√α(1−α~) (1−α~ )0不不(九)其中,每个后验q(x~t-1,x~t,x~0,z~ 0)是已知的,并且其派生类似于无条件生成模型。用同样的推理,我们可以得出一个简单的结论--ilarL2损失:N.√t−1tx+tt−1x,t−1βIΣ。1−α~t1−α~t1−α~tL=−(x,z,t)2,(10)(五)tθt0其中αt=1−βt,α~t=Qtαs。1这个道具-其中N(0,I).此外,由于部分形状是ERTY允许每个时间步长独立地学习,即,每个pθ(xt−1|xt)只需要匹配q(xt−1|xt,x0)。由于pθ(xt−1xt)和q(xt−1xt,x0)都是高斯分布,sian,我们可以重新参数化模型以输出噪声和最终损失可以减少到L2之间的损失在正向和生成过程中总是固定的我们可以屏蔽掉模型输出的子集z0和最小化 2~(x~t,z0,t)和ran之间的距离dom噪声,其中仅影响x~t。实际上,我们输入z和xt到模型中,并获得xt−1,其中只有子模型输出θ(xt,t)和噪声:1集合xt−1 用于L2损失在形状完成中,x~t-1为∥ϵ−ϵθ(xt, t)∥,ϵ∼ N(0,I),(6)直观地,该模型寻求预测噪声向量nec。这对于去破坏3D形状是必要的。点云可以通过渐进式sam生成从pθ(xt−1xt)代入t=T,...,1使用以下机翼方程式:s=15830.X=-t∈N√不与z0连接,再次作为模型的输入这使得完全相同的训练架构可以同时生成和形状完成,只需更改培养目标4. 实验我们在这里证明,我们的模型优于前-1t−1√αt1αxt−1−αθ(xt,t)Σ+√βtz, (7)4.1节中的视点生成模型能够中完成从单个视图采样的部分形状不5831第4.2节,并可以生成不同的形状给定的部分5832其中z(0,I),对应于逐渐去噪从噪音中得到一个形状。158333.2. 形状完成我们的目标可以简单地修改为学习条件-5834给定部分形状的函数生成模型,我们在-在本节中介绍。5835将点云样本表示为x0=(z0,x~0),其中z0RM×3是固定的部分形状,并且任何中间形状为自由点xt=(z0,x~t)。然后可以定义条件前向过程,其中部分形状在所有时间固定在z〇我们的条件向前和生成过程,以及每个转移概率,然后可以参数化为58364.3节中的形状约束。 建筑与超参数详情见附录。58374.1. 形状生成数据我们选择ShapeNet [4]飞机、椅子和汽车5838是我们的主要数据集生成,以下大多数前-[46]17、3、16。 我们使用提供的数据集5839在[46]中,每个包含15,000个采样点形状 我们抽取了2,048个点进行训练和测试,重新-5840,并按照程序处理我们的数据,在PointFlow中显示[46]。5841评估指标。以前的作品,如[46,17,3,16]已使用倒角距离(CD)和地球移动器5842距离(EMD)作为它们在计算5843q(x)t|1)x~t−1,z0):=N(1−βtxt−1,βtI),5844pθ(x~t−1|x~t,z0):=N(μθ(xt,z0,t),σ2I)。5845(八)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功