几何增强稀疏3D模型集合的生成问题

42 浏览量更新于2023-10-25 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18552GLASS：几何潜在的形状空间增强1，Siddhartha Chaudhuri2，3，Noam Aigerman2，Vladimir G. Kim2、Matthew Fisher2和Niloy J.米特拉1，21伦敦大学学院，2Adobe Research，3孟买IIT图1.从10个形状（更大）开始，我们的方法通过在训练VAE和探索由纯几何变形能量引导的低维潜在空间中的随机扰动之间交替来迭代地增加集合在这里，我们展示了我们的方法发现的前5 K中1000个最多样化的形状，根据它们的潜在嵌入（通过t-SNE投影到2D）进行定位图块根据它们追溯到的初始地标着色，在后面的迭代中添加的形状颜色更浅（更灰）。增强有效地填充了稀疏的初始地标之间的空间，甚至外推到它们之外。它还设法为背面样本附近的样本插入全局旋转，并产生具有较大脚步幅（最左边）和交叉手臂或脚（前，左和中心）的形状，即使没有这样的初始地标。摘要我们研究了在非常稀疏的3D模型集合上训练生成模型的问题。特别是，而不是使用难以获得的大型3D模型集，我们证明了几何激励的能量函数可以用于有效地增强和提升仅稀疏的示例（训练）模型集。从技术上讲，我们分析了尽可能刚性（ ARAP ）能量的Hessian，以自适应地从底层（局部）形状空间采样并投影到底层（局部）形状空间，并使用增强数据集来训练变分自动编码器（VAE）。我们重新构建VAE的潜在空间并增强相关数据集的过程，以逐步揭示更丰富，更有表现力的生成空间，用于创建几何和语义有效的样本。我们评估我们的方法对一组强大的基线，提供消融研究，并证明应用建立形状对应。G LASS产生多种有趣和有意义的形状变化，即使从3-10个训练形状开始。我们的代码可从https：//sanjeevmk.github.io/glass_webpage/网站。1. 介绍本文关注的是从一组非常稀疏的示例中生成3D形状的合理图1示出了不同姿势的10个人类3D网格的输入，以及由我们的方法生成的附加变形3D变形具有很强的语义元素-例如，人的四肢应该只在关节处弯曲，然后，在正常情况下，不超过一定的角度范围。可以说，这只能通过从数据集中学习示例来推断。不幸的是，与2D图像相比，3D域对数据驱动框架提出了一些挑战。其中最重要的一个问题可能是数据采集复杂而繁琐，使得数据集既稀少又稀疏。鉴于这种数据匮乏，我们解决了从给定的（非常）稀疏的地标变形集生成额外的有意义的变形的挑战。我们的方法有意义地增强了稀疏集，以创建更大的数据集，反过来，这些数据集可以被其他无法在稀疏数据集上操作的技术所利用。从几个地标产生合理的变形线性插值两个陆地的顶点-18553马克产生了非常难以置信的中间体。一个关键的观点是，虽然有意义的变形是语义的，但它们通常具有非常强的纯几何元素，例如，它们是平滑的（即，保留局部细节）并且保持局部距离然而，简单地扰动顶点同时最小化几何能量（例如，平滑度或度量失真）会产生诸如平滑全局弯曲或表面波纹之类的伪像，因为能量本身不是足够的约束。内插地标对，同时保持能量，票价更好，但产生有限的变化[1，25]。我们的论文，像其他最近的方法一样[12，20]，提倡学习一个低维生成潜在空间，它映射出由地标共同定义的底层流形，同时最小化变形能量。然而，这些先前的方法仍然需要大的数据集来学习丰富的变化集。我们的核心贡献是通过一种新的数据增强方法来解决这一难题，这种方法在潜在空间训练和能量引导探索之间交替进行。我们从训练数据集（一个非常稀疏的数据集）中对生成空间进行监督学习，但以无监督的几何感知方式增强该集合。具体来说，我们在给定的数据集上训练变分自动编码器（VAE）在训练之后，我们使用变形能量的然后，我们在增强的数据集上重新训练VAE，并迭代地重复这个过程，直到空间被密集采样。除了减少虚假变形之外，低维联合训练的潜在空间的使用允许一个地标的低能量扰动受到其他地标的影响，从而产生更丰富的变化。我们称这个方法为GLASS。我们在几个已建立的数据集上评估GLASS，并使用多个指标将性能与基线进行实验结果表明，GLASS的有效性，恢复有意义的额外的变形，从一个只有少数的例子。我们还在形状对应的上下文中评估了该方法，证明我们的采样过程可以用作数据增强技术来改进现有的强监督对应算法（例如，3D编码[18]）。2. 相关工作几何形状变形。参数化变形方法将2D或3D形状表示为一组公共参数的已知函数，并将模型变形表示为这些参数的变化。这类方法包括笼[24]、融合变形[29]、蒙皮变形[23]和拉普拉斯特征函数[32]。相反，变分法将变形模型化为最小变形。能量泛函的混合器-例如，狄利克雷[19]，等距[25]，共形[28]，拉普拉斯[7]，尽可能刚性（ARAP）[36]或尽可能一致（ACAP）[15] -受用户约束。在我们的工作中，我们专注于最小化ARAP能量，虽然我们的方法支持任何二次可微的能量函数。参数方法和变分方法之间有很强的联系，例如双调和蒙皮权重[22]（参数）相当于最小化拉普拉斯能量（变分）。请参阅调查[27，42]以获得完整的讨论。我们也受到模态分析工作的启发[21]，模态分析根据一些能量泛函的Hessian的最低有效特征向量线性化形状的变形空间。在本文中，我们有效地执行学习的非线性模态分析：从变分公式开始-几个地标形状的低能量扰动的我们的工作，从一个稀疏的地标形状集的数据增强有关的插值/变形之间，外推，集的形状。在我们的场景中，该集合通常包括共同模板的关节。参见例如[39]对经典（非基于学习的）形状插值方法的调查。在古典文献中，合理外移的定义较少，研究也较少。Kilian等人[25]在变形空间中扩展等距能量的测地线，尽管它仅限于探索（和外推）形状之间的路径，而不是整个变形空间。学习变形模型。已经开发了基于图形模型、GAN、VAE等的各种类型的生成模型以概率地合成形状变化。完整的处理超出了本文的范围，请参见[11]等调查。在这里，我们专注于捕捉给定形状的平滑变形空间的模型。研究得最多的领域是，虚拟人的研究，从以数据驱动的方式从扫描样本中捕获面部[4]、体型[2]和姿势[3]变化的开创性工作开始。这些作品，像随后的几个，依赖于主成分分析（PCA）的变化，参数化的变形空间。Yumer等人[43]学习数据集的一组常见最近的工作使用深度神经网络从训练集中学习形状变形模型[13，16，31，37，40]，并将其用于非刚性对应等应用[18]。Tan et al. [38] and Huang et al.[20]用基于能量的损失来规范VAE。我们使用后者[20]作为我们的能源选择。然而，在我们的方法中，能量的主要作用是指导勘探数据增强。关键是，所有上述方法都依赖于广泛的训练-1855422！N⇠！Ning数据。相比之下，我们的具体目标是在极端稀疏性约束下学习有意义的数据驱动变形模型，仅从少数指示分布模式的地标虽然这是广泛相关的几杆学习的情况下，只有少数其他论文考虑到这些要求的背景下，几何形状合成，或没有任何辅助数据从其他领域。LIMP [12]是最近的一项重要工作，其试图通过要求在两个潜在代码之间的线段上采样的点来规则化3D形状VAE的潜在空间，以最小化相对于端点的几何失真不像我们的方法，LIMP不探索包围训练地标的船体的全部体积，或者在它之外外推我们修改了LIMP以使用ARAP能量，并证明我们的方法在各种指标上显着优于无监督数据增强。我们的工作是广泛的方法的一部分，用于综合增加数据饥饿机器学习的训练数据集的大小，而无需额外的监督。对于广泛的覆盖范围，我们建议读者参考图像[35]，时间序列[41]和NLP [10]的调查。一个特别相关的最近技术是深度马尔可夫链蒙特卡罗[33]，它使用MCMC对能量函数对训练数据的扰动进行采样，在这些样本上训练自动编码器，并将所得的潜在空间用于低维（因此更快）MCMC。我们观察到，在非常稀疏和高维的数据集（只有几个标志性的3D形状），深度MCMC的初始样本没有捕获有意义的变化，因此它没有充分增强数据集。还相关的是用沿着损失函数梯度的对抗性扰动来增强分类数据集的方法[17，34]。相比之下，我们寻求保留基于能量的损失，因此从考虑中排除3. 方法3.1. 问题设置我们假设一个特定的输入数据集中的所有形状都是具有一致拓扑的网格。给定具有N个顶点V的网格RN3和三角形面T，网格变形只是为每个顶点分配一个新位置，记为WRN3。我们认为输入数据集本身作为变形的基础拓扑结构，我们给出了一个稀疏的一组n变形的“例子”，W 1，. .. Wn. 我们假设获得变形能f（W，W0），其测量- 候选变形W相对于示例变形W0的变形，其中较高的值指示由候选引起的更严重的变形。为了简洁起见，我们省略W0，简单地写f（W）来表示相对于相关基础形状的能量。我们使用As-输入形状变形感知VAE（Sec. 3.2）输出形状潜在空间增强形状形变感知投影潜在空间增强（第二节）3.3）数据驱动修剪形变感知探索图2.我们提出GLASS迭代地建立一个变形感知的VAE潜在空间，并分析它以生成新的训练样本来扩充原始训练集。这使得能够从非常少的输入示例开始生成多样但合理的形状变化。尽可能刚性（ARAP）能量[36]及其潜在空间近似ARAPReg [20]，用于测量变形与等距的偏差，即，测地线的长度相对于静止姿态V的变化是多少。我们设计了一个子空间采样策略，坚持两个属性：（i）它应该是数据驱动的，并且包含来自给定稀疏集的变形;以及（ii）它应该是几何意义的，即，对于给定的变形能f（W），变形应具有低能量。我们的主要贡献是一种在变分自动编码器（VAE）训练期间在线数据增强的方法[26]。也就是说，在训练期间，我们的方法在变形能f（W）的指导下探索当前样本空间，以发现额外的有意义的变形样本。这些被逐渐用作额外的样本点，以形成用于重新训练VAE的增强数据集，并且该过程迭代直到收敛。3.2. 变形感知VAE令E：RN3RK是标准VAE架构中的编码器，将变形W映射到均值μ和方差μ的向量中，并映射到分布E（W）（μ，μ）。这些向量定义了- 多变量高斯分布，从该多变量高斯分布采样维度K的潜在码zz（μ，μ）。类似地，令D：RKRN= 3是解码器映射变形的潜在代码，D（z）= W。我们将稍微滥用符号，并使用D（E（W））来表示W的完整自动编码过程，包括从高斯采样的步骤。我们定义了三种损失用于训练。(i) 重建损失：我们要求对于任何样品变形，VAE还原为恒等映射，L重建：= kD（E（W））-Wk2。（一）(ii) 高斯正则化器损失：代替VAE中使用的标准KL散度正则化器，我们将小批量的样本均值和协方差约束为单位高斯的均值和协方差，如[14]中所提出的。我们发现，18555布雷尔河P←[联系我们2XB我9：=/Pk2我i2i2i=1我i=1我算法1用于搜索潜在空间的伪代码，从变形W开始，寻找新的增强形状。1：程序LATENTAUGMENT（W，E，D，f，R）dE =编码器，D=解码器dW =初始变形，f =能量dR =所有以前输入或生成的形状第二章：l= E（W）d潜在代码3：HIIf（D（I））d近似Hessian4：λ，U“（H）=特征分解（H）第五章：λk，Uk“（H）←λ，U“（H）d保留k个组件第六章：Wd=;第七章：对于j2 [1，s]：do8：N（0，I）2 Rkd样本N，k kkqi=1i强化训练（算法1）。简单地优化（4）不足以覆盖变形空间。相反，我们不断地向训练集中引入新的低能量变形，通过这种方式，我们使数据项意识到变形能量。我们通过三个步骤实现这一目标(i) 在局部最少修改变形能量的方向上的潜在代码的变形感知扰动(ii) 数据驱动的扰动代码的修剪，其不向当前数据集引入方差;以及（iii）新代码的变形感知投影，以进一步降低它们的变形能量，可选的高分辨率投影将变形从低分辨率网格转移到更高分辨率网格。图3说明了如何用新的变形逐步填充潜在空间在迭代中，颜色表示基本形状。10：λ=26/Pi=kλλ2λi十一：i=1iWj=D（l+k“（H））(i) 潜在空间中的变形感知扰动。我们的目标是创建一个潜在的给定代码的变体12：WdWdWjd添加到候选人十三：端十四：W_d=MMR（W，R，W_d）d修剪候选15：WProjected=arg min f（W）d项目16：RRW预计d增强训练集17：结束程序与标准KL发散相比，小样本量的这种基于批次的损失导致更快的收敛。我们把这个损失记为，B空间，而不改变其变形能的意义，cantly：设W为变形，且l=E（W）RK是通过编码得到的潜在代码。我们的目标是找到低能量微扰模式的l。简而言之，我们的目标是在不太改变变形能量的情况下扰动变形，或者换句话说为了实现这一点，我们可以将自己限制在能量水平集的局部切向空间上的微扰该切空间简单地包括与梯度rlf （D（l））正交的所有方向。L高斯：=1X。kµ k2+ k-Ik2，（2）i=1在切空间中，我们可以使用二阶分析设H表示de的Hessian，其中，b为小批量，µi、µ mi为预测平均值和小批量中第i个样本的协方差，以及是单位矩阵。（iii）变形能：最后，我们要求所产生的变形具有低的变形能，L变形：= f（D（E（W）。（3）综上所述，我们的网络训练损失是其中σ是应用于能量函数的标量权重。3.3. 通过潜在空间探索相对于潜码的形成能量，H：= rlrlf（D（1））。（五）设λi和Ui“（H）分别表示H的特征值和特征向量，按特征值的升序排列由于较小的本征值对应于能量变化较小的方向，因此我们仅保留k（k<0.1。这种差异有助于随后的投影步骤更快地收敛到我们所需的阈值10- 5。最后，我们来看看投影步骤（第3.3节iii）。我们将其添加到具有扰动的两种基线技术中，并在表4.5，4.6中报告结果，其中第（6）列对应于我们的最终方法。添加投影步骤提高平滑度和ARAP分数。投影后，我们的形状具有非常低的ARAP，大约为10- 5。由于这些被添加回训练集，我们观察到未来迭代中的扰动步骤会找到较低的能量形状。这进一步提高了投影的收敛性在未来迭代中的步骤。总体L变形有助于扰动和投影步骤更快地收敛到低能量形状，并且由于投影形状通过训练再次编码，因此扰动和投影步骤都需要更少的迭代。5. 结论GLASS被证明是一种有效的生成技术的3D形状变形，仅依赖于少数的例子和给定的变形能量。我们的方法的主要限制是它依赖于一个给定的网格与顶点对应，防止其使用的例子与不同的三角剖分，我们设定的目标是推广到任意几何形状作为重要的未来工作。我们相信我们提出的技术开辟了许多未来的方向。还有许多其他的变形能可以探索;例如，在一个实施例中，从给定稀疏集合密集采样共形（或准共形）变形可以是非常有趣的后续工作。更广泛地说，用学习到的能量（例如，图像处理器的输出）替换变形能量可以使得能够在给定非常稀疏的一组示例的情况下生成合理的图像。鸣谢本项目已收到来自UCL AI中心的资金，AdobeResearch的礼物，以及欧盟玛丽·斯科洛多夫斯卡-居里资助协议编号956585。18561引用[1] Marc Alexa，Daniel Cohen-Or和David Levin。尽可能刚性的形状插值。SIGGRAPH，2000年。[2] 布雷特·艾伦，布莱恩·库利斯和佐兰·波普。人体形状的空间：距离扫描的重建和SIGGRAPH，2003年。[3] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：形状完成和动画的人。SIGGRAPH，2005年。[4] Volker Blanz和Thomas Vetter。用于合成3D面的可变形模型SIGGRAPH，1999年。[5] Federica Bogo ， Javier Romero ， Matthew Loper ， andMichael J.黑色. FAUST：3D网格配准的数据集和评估。CVPR，2014。[6] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J. 黑色 . 动态浮士德：登记人体运动。在CVPR，2017年。[7] Mario Botsch 和 Olga Sorkine 线性变分曲面变形法。TVCG，14（1），2008年。[8] Alexander M Bronstein ， Michael M Bronstein 和 RonKimmel 。非刚性形状的数值几何。Springer ScienceBusiness Media，2008.[9] 杰米·卡本内尔和杰德·戈尔茨坦使用MMR，基于多样性的重新排序，用于重新排序文档和生成摘要。载于SIGIR，1998年。[10] 阿米特·乔杜里NLP中数据增强的视觉调查，2020年。https://amitness.com/2020/05/data-augmentation-for-nlp.[11] Siddhartha Chaudhuri，Daniel Ritchie，Jiajun Wu，KaiXu，and Hao Zhang.学习3D结构的生成模型。Comput.Graph. For.（Eurographics STAR），2020年。[12] Luca Cosmo ， Antonio Norelli ， Oshri Halimi ， RonKimmel和EmanueleRodol a`。LIMP：学习具有度量保留先验的潜在形状表示ECCV，2020年。[13] Matheus Gadelha ， Giorgio Gori ， Duygu Ceylan ，RadomirMech ， NathanCarr ， TamyBoubekeur ，RuiWang，and Subhransu Maji.学习形状手柄的生成模型。在CVPR，2020年。[14] Matheus Gadelha，Rui Wang，and Subhransu Maji.用于三维点云处理的多分辨率树网络。 CoRR ，abs/1807.03520，2018。[15] Lin Gao，Yu-Kun Lai，Jie Yang，Ling-Xiao Zhang，Shihong Xia，and Leif Kobbelt.稀疏数据驱动的网格变形。TVCG，27（3），2021.[16] Lin Gao，Jie Yang，Tong Wu，Yu-Jie Yuan，HongboFu，Yu-Kun Lai，and Hao Zhang.SDM-NET：结构化变形网格的深度生成网络。 ACM 事务处理图表，38（6），2019.[17] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。2015年，国际会议。[18] 放大图片作者：David G. Kim，Bryan C.罗素和马修·奥布里。3D-CODED：通过深度变形的3DECCV，2018年。[19] F re'd e'ricHe'lein和JohnC. 很好。《全球分析手册》，谐波映射一章。2008年18562[20] 黄启兴，黄相如，孙波，张再伟，姜俊峰，昌德拉吉.ARAPReg：一个尽可能刚性的正则化损失，用于学习可变形形状生成器。 CoRR ， abs/2108.09432 ，2021。[21] 黄其兴，马丁·威克，巴特·亚当斯，列奥尼达斯·古巴斯。使用模态分析的形状分解。计算机图形论坛，28（2），2009年。[22] 亚历克·雅各布森，伊利亚·巴兰，乔·沃·波普

下载后可阅读完整内容，剩余1页未读，立即下载