没有合适的资源?快使用搜索试试~ 我知道了~
无监督基元发现的3D生成式建模方法
1基于无监督基元发现的3D生成式建模萨尔曼·H汗·郭玉兰(YulanGuo)<$穆纳瓦尔·哈亚特(MunawarHayat)阿联酋人工智能初始研究所;中国国防科技大学;澳大利亚国立大学;中国中山大学;澳大利亚堪培拉大学salman. inceptioniai.org摘要三维形状生成是一个具有挑战性的问题,由于高维的输出空间和复杂的零件配置的现实世界的物体。因此,现有的算法在3D形状的精确生成建模中遇到困难。在这里,我们提出了一种新的因式分解生成模型的3D形状生成,依次从粗过渡到细尺度的形状生成。为此,我们介绍了一种基于高阶条件随机场模型的无监督原语发现算法在第一阶段中,使用形状的基本部分作为属性,对参数化的在下一阶段,通过在形状中添加精细的比例细节,进一步完善这种表示。我们的研究结果表明,改进的表示能力的生成模型和新生成的3D形状更好的质量样本此外,我们的原语生成方法可以准确地解析到一个简化的表示常见的对象。1. 介绍‘TheL.G. 罗伯茨计算机视觉在其发展初期基于部件的表示用于对象表示和场景理解[23]。早在1963年,Roberts [27]就提出了一种使用一组3D多面体形状来表示对象的方法随后,Guzman [10]介绍了一系列出现在通用线条图中的部件,并演示了如何使用它们来识别2D弯曲形状。Binford [3]提出的基于广义柱面的曲面表示方法是一个重大突破。它得到了进一步的发展,包括Biederman的开创性贡献,他引入了一组基本原语(称为'geons',意为几何),并将其与人类认知系统中的对象识别联系起来最近,自动发现的早期研究图1:与直接生成3D形状的传统3D生成建模方法(顶部)相比,我们的方法(底部)从简单的基于图元的表示逐渐过渡到完整的3D形状。这种分层方法为生成网络提供了更好的控制和可解释性此外,这项工作的一个主要新颖之处是一个无监督的原始发现方法,支持所提出的生成管道。在文献中已经报道了使用深度网络的形状基元Tulsiani等人[39]提出了一种CNN模型来预测组合在一起以表示通用3D形状的基元的大小和变换参数。它们的主要缺点是无法使用单个模型联合表示不同的对象类别这需要一个特定于类的CNN训练过程,这既耗时又难以扩展到大量的类别。Zou等人[47]提出了一种基于RNN的生成模型,用于从输入深度图像中恢复由图元定义的3D形状然而,他们的模型需要连续级形状标记用于训练,需要准确的深度图作为输入,并且仅适用于一组三个相关类(即,椅子、桌子和床头柜)。在这项工作中,我们建议在3D生成建模过程中纳入一个通用的基于知识的表示,以提高学习模型的可扩展性。我们的第一个主要贡献是自动原始发现97399740在3D形状中。这样的形状表示可以提供几个关键优点,例如:(a)它将3D生成过程分解为一组更简单的步骤,其在现有的自下而上的生成流水线中定义了自然的自上而下的流程。(b)与诸如体素或TSDF的体积表示相比,它提供了高度紧凑的(c)形状基元在生成过程中提供了一定程度的抽象,这使得易于理解和操纵生成模型的输出。(d)由几个基元编码的形状的全局表示允许关于对象部分、它们的物理属性(例如,稳定性和坚固性)以及它们的相互关系(例如,支持和联系)[11]。(e)这种形状描述提供了姿势变化的不变性-通过使用我们提出的原始生成对抗网络(GAN)明确估计对象大小和变换,网络将视点变化与实际形状变化分离。简而言之,我们在现有的生成管道中引入了模块化的原则。我们的主要贡献是总结如下:• 一种因子分解生成模型,通过引入专注于学习图元表示的更简单的辅助任务来改进3D• 一种基于高阶条件随机场(CRF)模型的完全无监督方法,用于在密切相关的3D模型子集上联合优化形状抽象。我们的模型考虑了图元的外观、稳定性和物理属性以及它们之间的相互关系,如重叠和同现。• 所提出的模型在所有对象类别上进行联合训练,避免了早期方法所采用的昂贵的类别特定所提出的方法可用于合并中间级别的用户输入,并可在此基础上呈现更复杂的输出。从另一个角度来看,它可以用来分析GAN学习的基于中间部件的表示,提供更好的可解释性和透明的生成过程。2. 相关工作3D生成模型:Wu等[41]是第一个扩展2D GAN框架[8]以生成3D形状的人。他们证明,由神经网络学习的表示是可推广的,并且优于其他未监督的分类方法。在 [38] 中 提 出 了 另 一 种 类 似 的 方 法 , 该 方 法 将Wasserstein损失[1]用于3D GAN。然而,[38,41]没有解决用于分层形状生成流水线的基于图元的形状建模值得注意的是,最近在2D图像生成方面的一些努力建立了堆叠GAN的层次结构,以生成阶段式输出[13,40,44]。Huang等人. [13]部署了多项编码器、生成器和解码器块,以执行联合的自顶向下和自底向上的信息交换,以改进图像生成。然而,它们对学习的特征表示进行操作此外,上述方法的一个共同的局限性是缺乏对潜在表示的控制,并且导致难以生成具有期望属性的数据原始发现:长方体由于其简单的形式在以前的文献中被广泛用于表示对象,部件和场景结构元素[32,18,15,23]。在共同分割和无监督学习的问题下,也研究了重复出现的部分和对象的识别[28,34,29]。在3D形状中,一些努力旨在发现部件并在大规模形状数据 集 中 对 其 相 互 排 列 进 行 建 模 [45 , 6] 。 最 近 ,Tulsianiet al.[39]提出了一种基于深度他们的方法需要为属于同一类别的每组形状学习一个单独的模型因此,他们的模型不是完全无监督的,难以扩展到大量的对象类别。在这项工作中,我们解决了这些限制,并进一步提出了一个因式分解生成模型,以改进形状生成。基于模型的3D重建:Roberts [27]的开创性工作导致了从单个图像恢复场景的3D布局的几项努力。然而,从单个图像的3D重建仍然是一个未解决的问题。鉴于深度网络的成功,最近的方法已经提出了这些模型的几种体现,用于3D重建。Izadinia等人[14]通过使用深度CNN检测对象类及其姿态,然后使用ShapeNet库中的CAD模型合成场景,从单个室内场景生成3D CAD模型[4]。然而,与这些工作相反,我们没有关于一组指定图元的先验知识,而是我们的目标是自动学习3D形状之间的共享部分。3. 3D图形在第一阶段,我们自动发现3D图元从通用对象形状。我们的目标是以无监督的方式学习3D形状中常见的重复出现的图元我们引入了一个高阶CRF模型,它结合了几个物理和体积属性的图元,以确定一个一致的形状描述。我们提出了一种多视图原始发现方法,该方法在不丢失太多形状信息的情况下离散化3D空间,并允许直接3D原始拟合的计算有效的替代方案。此外,由于我们的目标是发现各种模型之间的共享原语,在原始3D空间中的直接长方体拟合导致更多的实例特定性和更少的类别泛化原语。下面解释我们的CRF模型9741我我我我我我图2:拟议方法概述。我们的模型由一个原始GAN组成,它生成一个简约的表示,3D VAE GAN在下一阶段使用该表示来恢复完整的3D形状。3.1. 拟议的通用报告格式模型我们的目标是自动发现3D图元来表示通用的3D形状,而无需任何监督。为此,我们设计了一个CRF模型,它允许有效的推理,并充分结合了丰富的关系之间的图元和完整的形状。假设,我们有一个(a) 紧凑性(b) 凸性(c) 长方体支架数据集D ={x1. . . xM},由M个3D形状组成。对于每个形状xm,假设通过自下而上分组生成的候选框提案集(参见第2节)。3.3),表示图3:成本的直观说明。noc/nt,其中noc和nt是空的数量,我我我如B={b1. . . bN},其中N是盒子提案通过分组获得的分割区域由R={r,1}表示。. .rR}。我们还使用一组二元变量V ={v1. . . vN}和S={s1. . . sR},其中每个vi和sr与盒子提议和分段相关联。区,分别。变量vi表示是否选择长方体作为代表性基元。我们开发了一个CRF模型来封装本地以及全球的原语之间的的总体素分别。形状均匀性:该成本(csu)测量沿着用于提出候选基元的基元侧的形状的均匀性。它是通过取相关初始分割区域的表面法线方向分布的平均熵来计算的原始紧性:cost(cpc)估计3D形状被图元包围的紧密程度。它是钙-使用上的空存储器空间区域之间的平均比率来计算CRF的吉布斯能公式由下式给出:每个面和实际面面积(af):cpc=f∈Faf−vfaFE(V|D)=Σu(vi)+我ΣI jn(vi,vj)+Σh(V,T),其中F是图元的可见面的集合(图(3)第三章。支持成本:一个有效的基本体很可能由附近的形状部分支持此成本计算附近的支持,考虑5%放大的盒子,并取比率:式中,u、p和h表示一元、两两和高阶sci其中 ,nex和nsc表示序势,T表示nex−nsci i我我相似形状的基元。接下来,我们将详细介绍这三种潜力。3.1.1一元势每个基元候选的一元势表示其对于该基元候选的有效简化表示的可能性。分别是扩展的和原始的盒基元形状凸度:该成本决定了形状部分的凸度。对于与每个原始建议相关联的区域,我们首先获得仅覆盖来自单个视图的可见3D点的3D正面然后,我们获得3D点和正面凸包之间的距离的平均值。它由以下公式给出:cco=3D形状。这种潜力编码的物理和几何ΣΣ浏览次数kd(xk,Conv(X))N我,其中,xk∈X,Conv(X)是每个盒子的属性我们解释个别成本条款在下面的一元势中。体积占用率:此成本(coc)估计第i个图元内的空体积。 它被定义为coc=X的前凸包,d表示最短距离在xk和Conv(X)之间(见图3)。形状凸度成本(cco)的大值表示形状是凹的,而小值表示凸的形状。为凸凸部分(凹部分正面凸包面部区域(刘伟)(刘伟)扩展长方体、9742H我KHIJHXKK我我形状在室内场景中更常见,基于凸度的软成本是有帮助的。形状对称:对于每个图元,我们测量成本[39]第39话该约束被公式化为最大化由基元包围的表面积:Σ(css)表示其封闭的3D形状的反射对称性为此,我们执行SVD分解以校准-θcov(V,S)=µcovc覆盖sk,K Σ计算三个主轴并测量平均重叠在原始点和它们的反射版本之间这种重叠被测量为相邻点的位置和法线方向之间的距离给定最大变化的三个主要正交方向X={a,b,c}和由πx表示的对应本征值,以下关系用于测量对称性:S.T.µcov<0,sk≤vi.(二)i:rk∈bi这里,μcov表示权重,并且成本ccov被设置为等于分割区域rk的面积。共生势:我们假设所有顶点vi∈ V的匹配基元的集合T。每个元素ti=1π。ΣiiiiΣ{v}1. . . v<$J}∈T包含布尔变量v<$j,对所有Jcss=<$x<$pPx−pPx′<$+(1−qPx·qPx′),J以相似形状识别的图元,nπxl xjXjnj原始的共现可能性定义为:Σ其中,x∈X,j∈|Pi|,P i表示第i个的点云prim-θcoc(V,T)=µcocccocuij,其中,Px′表示沿x方向的翻转点云,pj和qj表示第j个点及其法线方向,lx表示沿x方向的基元长度,nj是Px ′中第j个点的最近邻.IJS. t.,uij=vivj,µcoc0,vi≤Σ中文(简体)J将上面列出的各个成本融合在一起,以获得每个原始一元成本,如下所示:u(vi)=其中ci=[coc,csu,cpc,csc,cco,css]。(一)这里,μ·,·μ·,μ·表示内积和Hadamard乘积,μu是成本权重向量,w是在验证集上计算的归一化向量,以获得相互可比的成本。3.1.2成对势和高阶势原始重叠:成对势考虑原始对之间的相交关系。由于有效的原语不会明显地彼此重叠,因此目标是惩罚违反此物理约束的配置。 该成本cpw被测量为由较小长方体的体积归一化的两个长方体之间的交点:p(vi,vj)=µpwcpwvivj,其中µpw>0是加权参数。在实践中,我们引入一个辅助布尔变量yij来线性化两两相交成本,通过替换上述成本中的vi,vj原始简约:受最小描述长度原则的启发,我们的目标是获得3D形状的简约表示。换句话说,我们不鼓励变量uij和µcoc表示辅助布尔值变 量 和 权 重 。 成 本 ccoc被 定 义 为 vi 和 vj 之 间 的 交 集(IoU)度量。我们接下来描述用于找到每个3D形状的集合T的过程首先,对于每个3D体积对象,通过特征空间中的k-最近邻找到特征映射是通过获取单个2D渲染图像并通过在ImageNet数据集上预先训练的现成深度网络[37]向前馈送 来执行的然 后,我们形 成一个完 全二部图G={N,E},其中节点N和边E。假设连接节点p和q的每条边e的容量表示为wp,q=−ce。成本ce由为二分图中的每条边计算的IoU定义在计算原始IoU之前,通过对齐它们的主轴和匹配空间尺寸来获得3D形状目标是计算在第m个形状上定义的不相交分区P和Q与其最近邻居之间的最大权重匹配M因此,3D形状内的图元将具有最佳匹配,其将优选地共同出现在类似的3D形状中。该问题可以表示为一个可编程问题,但其解是NP难的。为此,我们交替地求解原始IP的以下原始-对偶线性松弛:如果数量足够,则使用额外的原始词来代表一个物体。对活跃人数的惩罚在此将本原函数作为高阶势引入,初始值:最小值Σp,qwp,qyp,q,s.t.Σp∈Pyp,q= 1,θpar(V)=µparNi=1 vi,s.t.,µpar>0,其中µpar为Σyp,q=1,yp,q≥0,p∈ P,q∈ Q.(四)潜力的重量覆盖潜力:上面定义的成本最小化将导致空原语分配。一个重要的必要条件是获得一个最大限度地IJ我J9743q∈Q由于松弛LP不能保证最优解,我们还构造了原始LP的对偶,其中9744交替求解以找到最佳匹配。以下下限在对偶公式中最大化位于同一位置的3D点具有相似的外观,并且其法线指向相同的方向。伪分段-Dual:max Σp∈Pzp+ Σzqq∈Q通过丢弃具有少量3D点的区域来移除分割区域。然后,我们计算所有紧密的区域对,这可能会形成两个可见的S.T.zp+zq≤wp,q, (p,q)∈E(5)该算法在几次迭代中运行,保持对偶问题的可行解,并试图找到满足互补松弛的原始问题只有紧边的完美匹配M[31]。注意,如果匹配不完美,则图中的暴露节点在最终优化期间不具有对应的3.2. 模型推理对于给定的3D形状数据集D,所提出的CRF模型用一组原始形状来表示每个形状xmCRF推理被公式化为混合线性规划(MILP):V= argmin E(V| D)VS.T.vi={0,1},yi,j≥0,yij≤vi,yij≤vj,包围3D形状的一部分的边界框的表面对于每一对,边界框被紧密拟合以生成候选基元。4. 形状生成的生成式建模以无监督方式发现的基元允许我们将形状生成过程分解为两个阶段。第一个GAN学习生成表示3D形状的新颖的原始配置。第二个GAN建立在这个初始表示的基础上,并填充局部细节以生成完整的3D形状。变分自动编码器(VAE)连接两个生成模型。因此,整个流水线从简单的形状参数化过渡通过在生成式建模中引入更简单的辅助任务,我们实现了三个关键优势:(a)与现有的针对每个对象类别单独训练的3D生成模型相比,我们的模型在所有形状类别上进行联合训练,Yij ≥vi +vj -1,skΣ≤i:rk∈bivi,sk≤1,µpar>0,它提供了生成器潜在空间的更好的可解释性µpar>0,µpar> 0,µcov 0,µcoc 0,<
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功