几何粒度感知的像素到网格:一个高重建fidelity的方法

121 浏览量更新于2023-10-07 收藏 1.04MB PDF 举报

输入图像

几何图形

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13097(a)地面实况(b)深网格(c)我们几何粒度感知的像素到网格岳石冰冰倪†进贤刘定一荣晔钱文俊张上海市数字媒体处理与传输上海交通大学，上海200240{shiyue001，nibingbing，liujinxian，r892546826，qianye001，zhangwenjun} @ sjtu.edu.cn摘要像素到网格有着广泛的应用，尤其是在虚拟现实、增强现实、动画和游戏等领域。然而，现有的网格重建模型在学习过程中忽略了网格拓扑信息，导致局部几何细节表现不理想。此外，大多数方法受初始模板的约束，不能重构各种亏格的网格. 在这项工作中，我们提出了一个几何粒度感知的像素到网格的框架，一个fidelity-selection-and-guarantee策略，明确地解决了这两个挑战。首先，提出了一种几何结构提取器，用于检测局部高结构化部分并捕获局部空间特征。秒-(d) 输入图像(e) Pixel2Mesh(f) 几何图形其次，我们应用它来促进像素到网格的映射，并重新解决在以前的实践中忽略结构信息所造成的粗糙细节问题。最后，提出了一个网格编辑模块，通过细粒度的拓扑修改来鼓励非零亏格拓扑的出现，并引入修补算法来修复非闭合边界。大量的实验结果，无论是定量和视觉上都证明了所提出的框架实现的高重建fidelity。1. 介绍网格是一种广泛应用的三维表示方法，特别是在虚拟/增强现实、动画和游戏行业，因为它能够建模几何细节。作为传统手工网格的替代或辅助手段，基于像素级的三维重建技术受到了越来越多的关注，并取得了可喜的成果。根据格式对于生成的3D模型，现有的重建方法可以分为图像到体素、图像到点云、图像到网格等[22]。最近，隐式表示[41，8，58]已用于3D重建，并且还出现了一些新的重建形式，例如NeRF [37]。在这些方法中，三维网格重建引起了人们的广泛关注，因为它是游戏和电影行业中最流行的形状表示。单视图网格重建的最新进展提出通过基于模板模型的变形来重建3D网格。†通讯作者图1：现有技术的基于变形的学习方法的单眼重建结果。(a)地面真相;（b）Deep Mesh [40]，绿线和三角形相应地标记非闭合边界;（d）投入形象; Pixel2Mesh [51];（f）GEOMetrics [46]。相对而言，该方法能较好地处理物体的拓扑细节，且能重建出物体的孔洞，且不存在非闭合边界。从输入图像中提取的感知特征[51]。虽然已经取得了可喜的成果，重建的结果是不令人满意的局部细节和非零亏格的对象。重建的第一个挑战是生成精确而丰富的细节。现有的方法主要是利用两个点云之间的chamfer距离，这是从预测网格和地面真相分别采样，以限制重建。尽管添加了一些其他约束，例如法线损失[27]，其强制表面法线和边长正则化的一致性以防止离群值[45]。这些方法都只关注点云，没有考虑网格的拓扑结构。用点云代替网格平滑了局部结构细节和相应的局部结构信息，导致粗糙的重建细节。此外，由于网格上信息分布的不均匀性，对网格的各个部分进行同等处理是不合理的，这意味着需要对网格中的高精度部分进行额外的关注。将网格视为点云并在13098···变形变形+网格编辑现有方法的区别性整体处理在具有大曲率变化和丰富细节的部分（如桌角和椅腿）上表现为在重建的网格上异常平滑甚至无序连接的缺点。由于细节信息的缺乏，使得重建的网格与人工生成的网格存在明显的差距，影响了实际应用。另一个障碍是重建非零亏格对象，其中需要再现孔。这个问题在像素到网格重建中尤其明显，其中初始模板被导入并且网络被训练以引导顶点的移动。根据拓扑变形理论[52，2]，同属的对象是同胚的，可以通过变形相互转化，而不同属的对象不能。这表明初始模板限制了重建结果，如图2所示。那么，如何实现亏格的变化是精确网格重构的关键问题。网格编辑为属的改变提供了一种出路，但是修剪区域的细化和随之而来的开放边界问题也在相关尝试中显示[40]。虽然其他方法，如点/体素和SDF重建[14，11，41]似乎可以避免这个问题，但当使用Marching Cubes算法[4]转换为网格因此图2：不同亏格拓扑之间的转换关系。在本文中，我们的目标是通过引入几何粒度感知的像素到网格框架，并采用一种fidelity-selection-and-guarantee策略来解决上述限制。该模型选取高逼真度部分，实现部分重采样，用于指导后续变形，保证再现结果的逼真度。该框架由多尺度几何结构提取器（GSE）、几何感知变形网络和细粒度网格编辑模块组成。首先，为了捕捉重要的局部几何特征，我们提出了多尺度几何提取器。它通过检测周围具有丰富细节和复杂结构的语义关键点来定位视觉上可感知的高保真区域。然后捕捉关键区域的几何结构通过形成以关键点为根的子图。利用给定网格的子图集，几何提取器使用加权图核[50]测量网格的局部结构相似性。为了提高再-在现有方法的基础上，将几何结构提取器引入到单目三维网格重建中。请注意，GSE是通用的，可以扩展到与网格数据相关的其他任务，例如分类和检索。在变形阶段，由提取器捕获的多尺度局部几何特征限制和引导模板网格上的顶点的移动。 Af-即变形，突破属的限制0初始模板的基础上，引入了细粒度编辑模块。为了实现细粒度编辑，根据估计的误差程度自适应地细分面。然后在第二误差估计之后，进行修剪操作。最后，编辑模块细化边界，并提供修补算法来修复非闭合边界。通过GSE和Fine-grained Edit模块，我们的框架实现了几何粒度感知的重建，并重新制定了像素到网格的流水线。据我们所知，我们的框架是第一个实现整体重建的框架，同时关注重建中的两个核心问题。它本文的贡献可以概括为：提出了一种网格数据几何结构提取器（GSE），用于定位网格数据的关键区域，并显式地提取局部几何信息，从而在Hilbert高维空间中保留图形数据的结构信息。我们设计了一个多尺度的形状保持约束，以促进像素到网格映射，然后验证其有效性基于变形的重建网络。本文提出了一种细粒度网格编辑模块，该模块由自适应剪枝模块和修补修复算法组成，打破了模板网格的限制，提高了网格的生成效率。允许各种种类的物体出现。2. 相关工作2.1. 基于像素的基于像素点的网格重建可以分为间接重建和直接重建两种方法。前者以点云、体素等格式重建三维模型，然后将其转换为网格。点云重建[14，13]和体素重建[17，18]是常见的显式3D重建。3D R2N2[11]提出了体素重建框架，这是使用深度学习技术的单眼3D形状生成的表示。此外，基于参数表示的AtlasNet[19]也出现了。但它需要解决如何将多个网格紧密缝合在一起。最近，隐式表示被广泛应用于重构[60，10，41，9，36，10]。他们是典型的cre-利用耦合同时定位、基于映射的姿态估计和使用符号距离函数（SDF）的深度图像积分的流水线来实现。虽然使用上述方法可以产生精确的形状，但由于Marching Cube算法[34，15]将模型转换为网格，因此模型可能会丢失部分和孔。13099与间接方法相比，直接重建网格可以避免后处理过程中的信息丢失.大多数现有的直接网格重建方法是基于变形的[49，56]，其回归以协调来自图像特征和地面真实模型的运动。Pixel2mesh [51]提出了最早的端到端深度学习架构，该架构可以从单个彩色图像中生成三角形网格中的3D形状。Pixel2mesh++ [53，25]引入了多视图图像，并利用图像之间的距离和重建模型在不同角度的投影来细化重建。但有两个核心问题阻碍了重建工作的进一步开展。一是初始模板的限制。另一个是几何的细粒度重构。第一个挑战是Kanazawa et. [24，16]建议通过重新检索来找到更可能的模板，这很难概括。潘等[40]通过修剪具有较大错误可能性的面来重建网格上的孔。然而，修剪是粗糙的，它也会导致非封闭的边界，使网格异常。对于第二个问题，Smith et.等人[46]利用自适应分裂以允许细节显现，这在一定程度上缓解了粗糙细节问题。但它没有特别考虑局部几何结构，对网格的每一部分都一视同仁。Tang等人[48] roundbreakingly通过骨架桥接方法实现了直接网格重建。但它不能端到端地训练。2.2. 几何结构相似性几何结构之间的相似性度量是网格重建的关键。现有的重建方法将网格之间的相似性近似等同于采样点云之间的相似性，这导致了形状信息的丢失。实际上，网格是一个完全连通的图，它的局部结构是可以描述的局部子图然后通过子图的相似性来度量几何相似性。图相似度的计算主要采用核方法，可以归纳为两类，图嵌入和图核算法[38]。前者将图向量化，结构化并利用矢量核，如RBF核和Sigmoid核，由广泛应用于像素到网格重建[30，50]的GCN [6，12，35]表示。但这类方法将结构数据降维到向量空间，丢失了大量的结构信息，从而影响了数据的质量。真实信息图核算法[50]直接利用图结构数据，既保留了核函数计算高效的优点，又包含了Hilbert高维空间中图数据的结构信息。根据核函数的不同，常见的图核算法可以分为 Graphlet 核、Weisfeiler-Lehman子树核和最短路径核[30]。我们导入WassersteinWeisfeiler-Lehman 图核，它集成了Wasserstein距离，保留了节点的特征，并提出了一种图嵌入方案。2.3. 网格编辑大多数关于像素到网格的研究使用亏格0的3D模型，如球体和椭圆作为其初始模型[24，1，42，49，59]，而另一些则通过检索找到合适的初始模板[31，49]。然而，它们都不能处理模板和目标之间的属差异。潘等等人[40]提出通过估计面部误差并修剪不正确的部分来重建孔。然而，它有两个缺点。首先，模板上的面的数量是有限的，因此很可能修剪比真正错误的部分更大的部分。为了实现细粒度修剪，我们采用网格细分的主要思想[33，26，43，21]，Smith等人也利用了这一思想。[46]第46话要注意细节。其次，剪枝会导致网格边界不闭合，网格结构异常，影响其应用。这个问题可以通过修复边界来解决。已经有一些网格修复方法[3，23，44]，可以通过修补来恢复正常网格。但是，它们不适合于天生有孔的物体。采用现有的填孔方法直接进行填孔，而不是巧妙地进行边界修补。因此，受上述方法的启发，我们在3.2节中提出了一种新的修复算法。3. 方法现有的网格重建模型主要利用预测网格与真实网格之间的倒角距离（CD）来约束初始模板的变形，有时还伴随着法向损失、拉普拉斯损失、边缘损失等约束。所有这些指标仅描述两个点集之间的相似性，这两个点集是从预测网格和地面实况网格的面采样的。由于忽略了拓扑结构，这两种方法在复杂形状上都没有很好的表现.此外，基于变形的重建受初始模板的限制，一般亏格为0的球不能准确地重建非零拓扑。针对这两个问题，我们提出了一个增强的深度像素到网格框架，该框架明确地解决了细粒度细节重建的挑战。图3概述了我们的框架。该框架由三个模块组成：1.多尺度几何结构提取器2.几何感知的网格变形3.细粒度网格编辑模块。每个模块的细节描述如下。3.1. 几何结构提取器物体的网格可以看作是一个大规模的无向图。然而，它的连接信息和拓扑结构很少被以前的方法使用。虽然基于变形的方法将椭球体放入GCN或CNN [32]并利用Laplician损失等损失来限制预测网格的边缘，但它们从未学习地面真实网格的几何结构。为了充分利用网格数据的几何结构，我们提出了一个提取器，可以检测语义关键点和解释局部几何。与嵌入方法相比13100几何结构提取器保持面保持面的超级局部几何结构损失超分辨率边界输入.Σ······我我我我修剪PointconvReResnetetet产品展展展示示示误差估估估计器计器计器（b）第（1）款SuperRRR essolutsolutionn火车推理爬虫EdiiitErr rrrr这是提提提马Pruneee dMMeshsh保持面的（一）（c）第（1）款KeypointNet修复G（d）其他事项Lgs1Lgs2Lgs3几何结构提取器几何感知网格变形细粒度网格编辑局部几何结构损失计算计算计算超分辨率输入Meshshsh保持面子类型2-修理输出网格检测未闭合边界类型1-修理Prr uneFaceeFaceeFaces边界参考参考参考编辑编辑DDe formNetetetDeDeforforformNetetet预训练的PointConv图3：我们的框架概述。当地面实况网格（a）被输入到预训练的几何结构提取器时，其关键区域被定位，其在（b）中由红色区域标记。然后，在（c）中捕获描述局部形状的子图，然后将其转换为矢量（d），矢量（d）为网格变形提供几何约束。变形模块逐步移动网格顶点，编辑模块分层修改拓扑以近似目标对象模型。经过两轮变形和编辑，边界被细化，非闭合网格被修复。它将整个结构编码到向量空间中，使GSE具有更好的灵活性和敏锐性。该方法注重局部细节，在Hilbert高维空间中保留了更多的几何结构信息.定位重点区域根据人的感知规律，我们首先关注整体造型，其次关注一些直观的重点区域。整体形状已经通过现有的重建方法得到[51，53，40，46]。我们主要关注关键领域。根据我们的经验性视觉习惯，我们倾向于将感官上重要的区域定义为关键区域，例如椅腿和桌角。为了描述这些关键区域的形状，我们利用关键点，这些关键点近似于关键区域的中心。以关键点为根，在其周围导出预定大小的子图，以定位关键区域。为了检测语义关键点，我们使用KeypointNet [57]提供的手动标记数据来训练关键点检测器。该网络基于Pointconv [54]。虽然由于数据类别有限导致的泛化不足，导致一些关键点并不绝对准确，但这不会给3.1节损失计算方法的后续模块带来负面收益。为了学习网格数据的局部几何结构，我们将局部结构与整体图解耦。以检测到的语义关键点为根，我们导出由其最近邻居组成的子图。子图的边由两端顶点之间的距离的降函数加权。然后，我们通过深度行走探索子图的几何结构[5，55]，它编码了结构信息。以图3中的网格M为例，我们检测一组η个关键点K（η）=[k1，k2，…k n]。那么，tak-设ki为根，m为局部标度，我们得到一组n个子图G（m，n）=[g1，g2，...，其中gi包含顶点和它们的连接边的坐标gi=V=[v1，v2，…，v m]、E.以g1为例，以k1为根，它是M的子图，并捕获区域1中的局部几何结构。作为子图gi的集合，G包含语义和结构信息丰富的区域的所有特征几何相似性计算两个或多个网格的相似性广泛应用于分类、检测和重建任务。然而，大部分网格相似性计算都是在采样点上进行的，浪费了拓扑信息。为了进一步挖掘网格数据，引入了一种几何相似度计算方法。给定两个网格M1和M2，我们首先使用3.1中的方法来定位它们的关键区域A=[a1，a2，ann]和B=[b1，b2，，bn]。然后根据3.1 节，在G1和G2中捕获两组几何结构。对于G1和G2的子图，我们分别用g1和g2来表示。然后用加权图核计算它们的相似度，用S表示。首先，我们需要确定两个子图g1和g2的对应点。这里导入了Node2vec[20]以学习每个点的嵌入。具体地，Node2vec算法将每个顶点的坐标和连接关系编码到向量e中。F或G中的gj，使用Node2v ec，我们解决其积分几何结构向量gsj=[el，e2，… em]。（一）这里的em是顶点m的嵌入。归功于解决似然问题的过程，向量e极大地保留了几何结构信息。然后，根据特征向量之间的距离，对g1和g2的顶点进行一一对应的我我13101SM我我.ΣM我我我我.Σ对应的格式。对于每一对顶点，欧几里德距离被用来表示它们特征之间的差异。每对节点的欧氏距离被组合以构造距离矩阵D。欧氏距离计算如下：小，我们不能捕捉完整的结构。但如果太大，对局部的关注就会减弱。为了获得不同层次的特征，我们采用了多尺度几何提取器.局部几何结构限制可以描述如下：d E（e，e′）=e − e′2。（二）Lgs（s）=Σαk L（mk，n），（7）随后，我们利用加权图核来计算G1和G2的相似性k=1其中s是尺度数，α的重量是i ikS（g1，g2）=e−λD，λ> 0.（三）不同的尺度。我我最后，利用所有子图的相似度，可以得到两个网格G1和G2S（G1，G2）=1ΣS（g1，g2）.（四）i=13.3.细粒度网格编辑基于变形的重建方法是目前唯一能直接从像素级获得网格的方法。然而，它受到初始模板的限制，因为只有ob-同属的对象可以相互转化3.2.几何感知的网格重建在本节中，我们将第3.1节中由GSE提取的几何结构应用于3D网格重建。现有的三维网格重建方法主要关注二维图像与网格上采样点的对应关系，而忽略了网格的几何结构，导致网格细节缺失甚至拓扑异常。我们的变形网络遵循Deep Mesh [40]中的架构。该方法首先利用resnet提取图像的特征，然后将特征输入到CNN中，引导模板椭球的顶点移动。除了在网格重建中广泛存在的现有约束[53，40]之外，GSE优先重新采样局部形状特征，这使得网络能够学习网格数据的更多几何结构。首先，我们可以通过GSE在地面真实网格上检测n个关键点。对于它们中的每一个，GSE在预测网格上找到最近的顶点，并将它们保存为预测网格的n个关键然后，GSE提取一个图，其大小在每个关键点周围预定义m地面实况网格上的图的所有m个顶点形成集合Ggt（m，n），而预测网格上的顶点是 Gpred（m，n）。地面实况网格的几何结构可以表示为GSGt（m，n）=[gs1，gs2，...，gs2]。GS_n]T，而预测网格的几何结构是 GS_pred （ m ， n ） =GS_pred （ m ， n ） = GS_pred（m，n）。[gs1'，gs2'，… gsn']T. 因此，我们有vvi和v'ingsi和gs'。在这个几何向量空间中，用ci表示v i的对应顶点。ci=v'|i=a rgmin L（ei，e’）， i=l，2，… n个，其中L是距离函数。根据等式5，通过变形，这在拓扑理论中得到了证明[2，52]。最通用的模板是亏格为0的球或椭球，因为它们具有更好的泛化能力，这就注定了它们不可能重建非零亏格的物体。虽然采用模板进行检索已经有实践[31，49]，但对属的变化仍然无能为力。受深度网格的启发，为了从亏格0模板生成各种亏格的对象，我们引入了一个细粒度网格编辑模块，如图3所示。误差估计网络将顶点划分为不同的误差水平，根据这些误差水平进行不同程度的超分辨率。然后，我们重新判断精细的面孔和修剪错误。最后，修补算法的实施，以修复细节。与深度网格相比，我们的网格编辑模块不仅能够以细粒度的方式执行面修剪，而且还可以修复具有非闭合边界的异常网格。特别地，如果目标网格为亏格0，则面的估计误差通常较低。因此，编辑模块将不影响亏格0对象的重建。误差估计和局部超分辨率不同亏格网格之间的最大差距是孔的数量。我们跨越不同属的主要思路是在适当的区域挖洞。为此，训练一个分类网络来估计每张脸的误差属性。但由于该误差是采样点的平均误差，直接整面裁剪会导致过度删除、边界粗糙和不必要的误差。因此，与深网格中的判别问题不同[40]，我们建立了一个错误分类和分层超分辨率机制。图3中的编辑模块的上部描述了超分辨率的分支当误差我们可以重新排列矩阵G中的顶点它作为pred（m，n）并保存在τ_1和τ_2的区间内，我们认为误差性质是更低，误差区域相应更小然后Gpred-ordered（m，n）.最后，预测网格上的局部几何结构与地面实况可以被测量。L（m，n）=LGgt（m，n），Gpred-ordered（m，n），（6）这里的η由检测到的关键点的数量确定，并且m是局部区域的范围如果m太13102我们做两次超分辨率，之后一张脸被分成60张脸。如果误差大于τ2，我们只做一次超分辨率，然后将一个面分成四个面。剪枝与修复作为拓扑变换方法之一，剪枝是突破亏格为0的初始模板限制的关键。出错后13103----Σ关于我们LL∈∈估计和局部超分辨的方法，对误差特性大于τ的顶点的邻域面进行剪枝。剪枝操作通过强制网格改变其亏格来促使孔洞生成。然而，在deepmesh [40]中提到，删除面会导致非闭合边界，这使得网格异常，不适合一般渲染，装配和其他后续应用程序。为了解决这个问题，我们提出了以下修补算法。通过检测非闭合边界并将其分类为两类，我们可以填充漏洞以修复网格。算法的详细证明和解释在补充材料中提供。算法1修补算法输入：具有非闭合边界输出量：闭合的网检测一组圆C =C1，C2，…Cl，其中Cl由非闭合边界边缘形成forCiinCdo如果dist（Ci，Ci）<γ，则连接Ci、Cj上的相应点并对新曲面进行end if如果对于任意j，dist（Ci，Cj）γ，则连接转折点P1，P2，...，Pn，并生成新的圆S = S1，S2，…SMf或SjinSdo求Sj的中心vj，并将vj与Sj的每个顶点x连接生成三角形曲面3.4.培养目标我们的网络受到三部分损耗的限制。对于整体形状，我们扩展了常用的Charmfer Distance，以支持多个GPU上的更大批量。为了完成局部细节，我们在第3.1节中提出利用GSE的多尺度设置几何结构损失。此外，为了避免顶点的异常移动和保证重建的三维几何的高质量，我们还应用了一系列的正则化损失。Charmfer距离Charmfer距离（CD）是监督3D重建中常用的限制[51，53，40]。它通过计算两个点集之间的距离来测量两个形状的相似性，通常定义为：LCD=最小值x−y2+最小值y−x2，（8）2表面光滑度。边缘损失Ledge对重叠的顶点和过长的边缘进行惩罚，以保证恢复的3D几何的高质量。误差估计损失。我们采用Deep Mesh [40]中的误差估计损失来训练误差估计网络。对于预测网格M上的每个面，我们在其上采样点集x M。fe是网络的估计误差，ex是相应的地面真实误差。L误差=|f e（x）−e x|第二条，第（九）项x∈M我们系统的最终培训目标定义为：L= λ1Lgs +λ2LCD +λ3L正常+λ4L平滑+λ5L误差。4. 实验4.1. 实验装置在GSE模块中，我们使用You et提供的数据集。[57]以训练关键点发现网络。该数据集包含ShapeNet [7]的16个类别上的手动标记的3D关键点数据集，这是3D CAD模型的集合。在3D网格重建中，我们使用ShapeNet [7]数据集的五个类别来训练变形网络。在品类选择上，我们重点关注室内场景中常见的物体，这些物体对日常应用更有价值。我们使用的渲染图像提供的Choy等。”[11]《明史》：“。为了公平的比较，我们使用了与Choy et.al. [11]第10段。评估指标我们使用标准评估指标来生成3D形状。Fanet al.[13]中，我们计算从地面实况均匀采样的点云和我们的预测之间的倒角距离（CD），以测量表面精度。我们还使用F1评分，遵循Wang et al.[51]以测量所生成形状的完整性和精确度。这两个度量都是在地面实况点云和从生成的网格中均匀采样的10000个点之间计算的。对于CD来说，越小越好。对于F分数，越大越好。GSE模块中的关键点发现网络是一个基于pointconv[54]的分类器，它首先在NVIDIA 2080Ti上训练了4个小时。在Pytorch中实现了包括变形模块和编辑模块在内的重建网络，并对每个子模块分别进行了训练我们使用的批量大小为32和x∈M y∈S2y∈S x∈MAdam [28]优化器，学习率为1e-3（下降到200个epochs后的1e−4），400个epochs。整个模型其中，x M和y S分别是从所生成的网格M的顶点下采样的点集和地面实况点集。正则化损失我们采用了[51，27]中定义的三种正则化技术。法线损失法线测量生成的网格和地面实况之间的法线一致性平滑度损失平滑使三角形面和支撑的相交角变平在NVIDIA 2080Ti上训练72小时。上述超参数的值为τ1= 0。001，τ2=0。01，τ=0。01，γ=0。1，λ1=0。1，λ2=1，λ3=1e-3，λ4= 5e-7，λ5= 0。1 .一、4.2. 结果和比较我们首先将我们的方法与三种最先进的方法进行了量化比较，包括（13104−表1：ShapeNet测试集上的CD和F1。对于CD来说，越小越好。对于F分数，越大越好。类别P2mCD几何图形DeepMesh我们P2mF1几何图形DeepMesh我们椅子0.6100.8230.5140.38954.3856.6159.1974.32表0.4980.7970.4040.31666.3066.3373.4276.54板凳0.6240.6900.5160.42757.5772.1171.5574.82监测0.7550.7930.6290.51751.3959.5057.6471.20灯1.2950.8131.0430.79848.1558.6556.7559.13是说0.75640.78320.62120.489455.55862.6463.7171.202(a) 图像(b) Pixel2Mesh（c）GEO（d）DeepMesh（e）Ours（f）地面实况图4：定性结果。(a)输入图像;（b）Pixel2Mesh [51];（c）地球观测[46];（d）Deep Mesh [40]，绿线和三角形相应地标记非闭合边界;（e）我们的;（f）地面实况。[51]，GEOMetrics [46]和Deep Mesh [40]。我们采用广泛使用的倒角距离（CD）和F1评分[29]来定量评估重建精度。结果显示在表1中，其中CD和F1的单位为1e2。我们的方法在大多数类别中优于其他方法，并达到了最好的平均得分。最明显的类别是椅子，比之前的最佳方法提高了24%，其次是桌子，提高了22%。虽然灯具有最小的改进，可能是因为类内的大的变化削弱了形状约束和编辑模块，我们的方法仍然实现了相对于别人的改进。GEOMetrics在F1得分上表现较好，而CD得分最差。这可能是由其稀疏顶点策略引起的。为了进行全面的分析，我们还比较了定量结果。视觉重建结果如图4所示。虽然Pixel2Mesh可以重建粗略的形状，但它失败了以捕捉几何体的精细细节，例如细长的椅腿、正方形的桌角和平滑的曲面，这是由于缺乏局部形状约束。得益于局部面切割操作，GEOMetrics可重建相对精细的几何体。但是重叠和相交会使结果出现毛刺。此外，由于初始亏格为0的球模板的限制，Pixel2Mesh和GEOMetrics都不能在椅子把手或桌子下生成孔洞，这严重影响了重建的准确性，因为非零亏格的物体在自然界中广泛存在.相比之下，我们的基线Deep Mesh利用拓扑修改模块来打破初始模块的约束。结果显示相应部件中存在孔。然而，修剪带来两个问题。一个是非闭合边界和面，在DeepMesh的结果中相应地用绿色线和浅绿色三角形标记。另一个是修剪的规模大，这带来了不精确的裁剪轮廓。相比之下，我们13105表2：评估GSE和细粒度编辑模块对框架性能的贡献的消融研究。表3：评估GSE和Pixel2Mesh编辑模块有效性的消融研究。P2mP2M+GSEP2M+编辑CD0.7560.6590.603F155.5657.9459.87）在全局形状和局部细节方面都具有高度精确的重建。我们能够生成具有复杂几何结构的网格，显示在角和边等高分辨率区域。此外，我们的方法能够用闭合的立体修复面重建具有细粒度边界的孔，这特别显示在图4的右侧。我们还在真实数据集Pix 3D [47]上验证了我们方法的先进性，并与To-tal 3DUnderstanding [39]进行了比较。结果显示在补充材料中。4.3. 消融研究组件分析现在，我们进行受控实验来分析我们框架中提出的几何结构提取器和细粒度编辑模块的有效性。表2通过从完整模型中删除一个组件报告了每个模块的性能。我们首先移除几何结构提取器。观察到，对于每一个类别，与基线相比，CD上仍有10%这反映了细粒度编辑模块的性能明显优于Deep Mesh中的简单拓扑修改。然后我们删除编辑模块。结果表明，与基线相比，监控器和灯具仍有14.3%和11.6%的改善，验证了GSE的有效性。但是对于椅子和桌子，结果略差于基线，这是因为两个类别中孔的较大比例导致对编辑模块的较大敏感性。为了证明这两个模块的广泛适用性，我们还在逐步细化的Pixel2Mesh重构框架上进行了实验。五个类别的平均结果见表3。在这些结果中，GSE取得了很大的改善，而编辑模块相对较低。这可能是因为Pixel2Mesh的图卷积网络不支持修剪后的变形，这阻碍了修剪后边界的拉伸。为了确定GSE的合适设置，我们首先研究了子图的大小对GSE的影响其中，倒角距离（CD）被用作GT网格和重建网格的度量。为了探索几何提取器如何受到考虑到相关因素，采用了无网格编辑模块的体系结构。图5绘制了结果，表明当每个子图中的点数为8时可以实现最佳性能。结果也暗示了太小或者在计算量不断增加的情况下，大型子图不能很好地描述局部几何。(a)（b）第（1）款图5：子图的大小和点数的影响关键点的数量在第一次调查的相同设置下，我们探索了关键点数量的影响。通过随机增加非语义点或删除语义关键点来改变关键点的数量。根据图5中的趋势，结果将随着点数的增加而改善。但考虑到计算量的大幅增加和有限的计算资源，我们为每个模型选择了10个关键点。补充资料中提供了超分辨率和修剪阈值的消融研究。5. 结论在本文中，我们提出了一个几何粒度感知的像素到网格框架。该框架包含一个几何结构提取器，它可以选择高分辨率区域并有倾向地捕获局部形状信息。GSE有利于像素到网格的映射，并解决了粗糙的细节问题所造成的忽视结构信息在以前的实践。此外，我们通过细粒度网格编辑来解决初始网格对象所规定的限制性常数拓扑，这鼓励非零亏格拓扑的出现和修复异常网格。大量的实验结果表明，我们的框架实现了高重建质量。未来的研究方向包括挖掘图像中的类属信息以重建物体上的微小孔洞，融合多视点二维信息以便于三维重建。6. 确认本工作得到了国家自然科学基金项目（U20B2072，61976137）的资助。CDF1类别我们(full型号）我们的（不含GSE）我们的（无编辑）我们）（完整模型）我们的（不含GSE）我们的（无编辑）椅子0.3890.4240.57374.3272.6758.01表0.3160.3510.43276.5475.2271.76板凳0.4270.4330.49874.8274.1373.64监测0.5170.5600.53971.2059.8970.35灯0.7980.8710.92259.1358.1657.08是说0.48940.52780.592871.20268.01466.16813106引用[1] Oladapo Afolabi，Allen Y Yang，and S Shankar Sastry.自动三维形状检索和相似性变换估计的扩展深度arXiv电子印刷品，第arXiv-2004页，2020年。[2] 奥尔加·阿诺索娃和维塔利·库林周期几何与拓扑学导论，2021。[3] Marco Attene、Marcel Campen和Leif Kobbelt。多边形网格修复：应用前景。 ACM Computing Surveys（CSUR），45（2）：1[4] F. Bernardini，J. Mittleman，H.拉什迈尔角席尔瓦，还有G.陶宾曲面重构的球旋转算法。IEEE Transactions onVisualization and Computer Graphics，5（4）：349[5] AleksandarBojch e vski ， OleksandrShchu r ， DanielZügner ，andStephanGünnemann.Netgan：通过随机游走生成图。国际机器学习会议，第610-619页。PMLR，2018。[6] Michael M. Bronstein ， Joan Bruna ， Yann LeCun ，Arthur Szlam ， and Pierre Vandergheynst. 几何深度学习：超越欧几里得数据。 IEEE Signal ProcessingMagazine，34（4）：18[7] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。[8] Zhiqin Chen ， Andrea Tagliasacchi ， and Hao Zhang.Bsp- net：通过二进制空间划分生成紧凑网格，2020。[9] Zhiqin Chen，Andrea Tagliasacchi，and Hao Zhang.Bsp-net：通过二进制空间划分生成紧凑的网格在IEEE/CVF计算机视觉和模式识别会议论文集，第45-54页[10] 陈志勤和张浩。学习隐式场生成形状建模。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页[11] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。[12] Micha eülDef ferrard， Xa vierBresson，和皮埃尔·范德恩斯特。图上的卷积神经网络与快速局部谱滤波，2017年。[13] H.范，S。Hao和L. Guibas一种从单幅图像重建三维物体的IEEE，2017年。[14] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别集，第605[15] Kui Fu ， Jiansheng Peng ， Qiwen He ， and HanxiaoZhang.基于深度学习的单图像三维物体重建：综述。Multimedia Tools and Applications，80（1）：463[16] David Fuentes-Jimenez ， David Casillas-Perez ， DanielPizarro ， Toby Collins 和 Adrien Bartoli 。深度模板形状：宽基线、密集和快速配准和去从单个图像可形成重建 arXiv 预印本 arXiv ：1811.07791，2018。[17] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示在欧洲计算机视觉会议上，第484-499页施普林格，2016年。[18] Georgia Gkioxari Jitendra Malik 和Justin Johnson 网格 r-cnn。在IEEE/CVF计算机视觉集，第9785[19] ThibaultGroueix ， Matthew Fisher ， Vladimir G Kim ，Bryan CRussell，andMathieuAubry.学习3D表面生成的papie r-m ch e´方法。在IEEE计算机视觉和模式识别会议集，第216-224页[20] Aditya Grover和Jure Leskovec。node2vec：Scalable fea-ture le

下载后可阅读完整内容，剩余1页未读，立即下载