没有合适的资源?快使用搜索试试~ 我知道了~
185720神经模板:拓扑感知的3D网格重建和解耦生成0许家熙1* 李瑞辉2,1� 胡靖宇1 傅志荣101 香港中文大学 2 湖南大学0{ khhui,jyhu,cwfu } @cse.cuhk.edu.hk liruihui@hnu.edu.cn0摘要0本文介绍了一种称为DT-Net的新型框架,用于通过解耦的拓扑进行3D网格重建和生成。与以前的工作不同,我们学习了一种针对每个输入特定的拓扑感知神经模板,然后将模板变形以重建详细的网格,同时保留学习到的拓扑。一个关键的见解是将复杂的网格重建分解为两个子任务:拓扑形成和形状变形。由于解耦,DT-Net在潜在空间中隐式学习了拓扑和形状的解耦表示。因此,它可以实现新颖的解耦控制,以支持各种形状生成应用,例如重新组合3D对象的拓扑。广泛的实验结果表明,与最先进的方法相比,我们的方法能够产生高质量的网格,特别是具有多样化拓扑的网格。01. 引言0多边形网格作为一种紧凑的3D形状表示,在建模、渲染和动画等许多应用中被广泛使用。近年来,3D网格的生成建模和重建引起了越来越多的关注,我们还可以通过使用各种形式的输入来指导生成过程,例如图像[22, 43, 63]和点集[10,14,25]。然而,仍然存在一些典型的挑战,如如何处理3D网格的多样化拓扑,以及如何以拓扑感知的方式有效地提供高级控制以进行新的形状生成。直接重建3D网格的一种常见方案是学习将初始模板[5, 37, 43, 52, 56, 62,63](例如手动定义的骨架或通用球体)的顶点变形为目标网格。然而,最终重建网格的拓扑通常受到模板模型的限制。为了解决这个问题,其他工作学习使用平面或曲面片段覆盖3D网格;然而,由于片段不匹配,视觉质量通常会受到破坏。0* 共同第一作者 1 代码可在 https://github.com/edward1997104/Neural-Template 找到。0图1.我们的DT-Net学习构建了一个针对拓扑感知的神经模板(b),并将其变形为准确的3D网格,同时保留初始(学习到的)拓扑(a)。这种解耦设计实现了拓扑(ZT)和形状(ZS)的解耦潜在表示,促进了可控的3D网格生成,例如通过重新合成对象的代码进行拓扑重组。0对齐问题,因此生成的网格通常具有粗糙的表面外观。虽然已经探索了其他3D表示方法,如体素[20, 61, 65, 66, 71,72],点云[2, 16, 28]和隐式函数[3, 21, 39, 44,55],但这些表示方法通常需要通过后处理步骤将其转换为网格以支持视觉应用。另一个缺点是大多数研究都集中在直接捕捉网格几何形状的单一步骤中,而没有提供高级的可解释性,例如结构或拓扑。因此,控制网格生成过程特别困难。最近的一些研究尝试通过使用部分和部分组合来解决这个问题,例如使用体素[68]、点云[40,67]和网格[17]。虽然这种方法允许某种程度的部分感知生成,但这些工作高度依赖额外部分注释的可用性和质量。在本文中,我们提出了一种新颖的框架,即DT-Net,用于通过解耦的拓扑(DT)进行3D网格重建和生成。与以往的工作不同,DT-Net能够重建具有多样化拓扑的高质量3D网格,并能够很好地适应输入,例如图像或体素。此外,我们的新颖设计有助于在生成过程中实现可控性,因为DT-Net隐式学习了用于拓扑和形状的解耦潜在表示。因此,我们可以通过分别控制拓扑和形状进行解耦的网格生成。185730图1展示了DT-Net的流程。与以前的工作不同,我们学习了一个拓扑感知的神经模板(例如椅子的属种),该模板适应每个输入,然后变形模板以重建详细的网格。我们设计的一个关键洞察是将网格重建分解为两个子任务:(i)拓扑形成,以适应不同的拓扑结构;(ii)形状变形,以重建准确的对象并保持其初始拓扑结构。我们的分解方案简化了学习过程,并考虑了拓扑结构,同时提高了重建质量并丰富了具有多样拓扑结构的网格生成。另一个重要的设计是从输入中提取拓扑代码(蓝色)和形状代码(红色),分别指导两个解耦的子任务的学习。通过这样做,可以共同学习3D对象的两个关键方面,即拓扑和形状,以确保重建的合理性,同时在潜在空间中解耦,以实现网格生成过程中的新颖解耦控制;参见图1(右)。请参阅第3.2节,以进一步阐述我们的框架。在方法方面,我们设计了一个端到端的框架,其中包括拓扑学习模块,首先学习生成由凸多面体组成的拓扑感知的神经模板。为了解耦拓扑学习和形状学习,我们学习了一族可逆映射[23,73],以保持神经模板与最终重建对象之间的拓扑关系。此外,我们提出使用神经模板的双重(隐式和显式)表示,因此它可以通过隐式函数进行训练,并在推理时提取为多边形网格。重要的是,我们的方法可以直接学习拓扑感知的神经模板,而无需中间拓扑注释,同时与地面实况网格的反向变形版本很好地对齐。定量和定性结果都表明,DT-Net能够以多样的拓扑结构重建高质量的网格,表现优于现有技术。此外,我们的方法通过解耦控制支持各种生成应用,这是现有基于重建的方法无法实现的。02. 相关工作0基于学习的形状合成和分析近来引起了越来越多的研究兴趣,得益于大型形状集合[6,41]的可用性和生成性神经网络设计的进展。在本节中,我们简要回顾了3D重建和生成建模的最新进展。我们首先关注显式或隐式学习的物体表面的网格表示,然后讨论相关的形状抽象和解耦表示学习的工作。0对于3D体素,已经广泛研究了显式表面表示[20, 61, 65, 66,71, 72, 78],八叉树[24,0然而,这些表示通常受到低分辨率的限制,并且缺乏详细形状重建的显式拓扑。相反,多边形网格是一种高效且连续的表面表示,其局部拓扑信息由顶点之间的连接明确定义。由于学习连接关系具有挑战性,大多数基于网格的方法努力学习初始网格模板的基于顶点的变形,使用图卷积[63]、MLP[22,59]或神经ODE[23]。这些初始网格可以从一组CAD模型[26,32, 47, 53]、定制的基于类别的模板[31,80]或类别不可知的网格[22, 43, 51, 52, 56,63]中搜索得到,例如零属种椭球体或2D平面补丁。虽然这些基于网格的方法实现了更精细的重建,但生成的对象的拓扑受到它们变形自的模板模型的限制。我们不是手动或显式定义模板,而是学习生成适应输入的拓扑感知的神经模板,促进具有不同拓扑的高质量重建。特别是,解耦的拓扑还使我们的方法能够支持可控的形状生成,这是现有方法无法实现的。0隐式表面表示将3D形状表示为离散体积或连续场的等值集,通过这些方法可以提取出表面网格,例如通过等值面提取[36]。这些方法从输入图像中提取上下文向量,然后训练神经网络来预测有符号距离场[3, 21, 39, 44,55]或3D重建的占据概率[12,38]。一些最近的工作尝试采用额外的信息,例如相机姿态[34, 69, 70]和形状骨架[56,57],以增强3D重建。虽然这些方法提高了重建质量,但它们缺乏对3D结构或拓扑的可解释性。在这项工作中,我们提出了隐式学习拓扑和形状的解耦表示,促进了对3D网格生成过程的新型控制。0形状抽象旨在用少量基本形状(如长方体[42, 54, 60,79],超椭球体[46, 48,50]和球体[25])粗略近似形状。最近的工作[10, 14, 18, 19,45]还利用结构化的隐式基本形状集合来组合形状。这些方法通过明确定义的基本形状,实现了对3D网格的直接提取。我们从中汲取灵感,设计了我们的框架。0解耦表示在图像生成中得到了广泛研究,允许在不同方面分别进行操作,例如纹理风格[27, 33],面部属性[9,30]等。对于3D形状的解耦[1, 4,77],一些现有的工作集中在特定类别,如人脸和动物身体。或者,通过使用额外的零件注释[41],一些最近的工作[17, 40, 67, 68, 74]尝试通过编码实现某种基于零件的解耦。185740图2显示了我们的DT-Net框架的概述。给定一个输入,可以是单视图图像或3D体素,编码器预测出两个独立的特征向量:拓扑编码ZT和形状编码ZS。然后,从ZT中,我们通过拓扑形成模块中的f生成具有隐式表示TI和显式表示TE的神经模板T。在推理过程中,我们通过形状变形模块中的函数g在给定ZS的条件下逐步变形TE,以获得最终重建的形状M。我们通过使用从地面真实网格ˆM中在形状空间中采样的占据对ˆMI进行训练。此外,我们通过逆函数g-1将ˆMI逆映射到拓扑空间,产生ˆTI,以评估隐式模板表示TI上的相应占据,通过损失L促进学习到的拓扑TI与逆变形形状ˆTI之间的正确对齐。0然而,上述工作在很大程度上依赖于零件或结构注释的可用性和质量。相比之下,我们的新方法将重构过程分解为拓扑形成和形状变形两个部分,自动促进拓扑和形状的解耦,无需这些注释作为监督。0其他相关工作。我们的工作与神经笼[75]有一些概念上的相似之处,因为两者都预测一个输入自适应的网格(模板(我们的)或笼子[75])进行进一步变形。然而,我们的目标和应用非常不同。此外,我们注意到最近的一些工作[15,76]学习了每个类别的共享隐式场模板,用于建模形状之间的密集对应关系。与它们不同的是,我们学习了一个适应每个输入的拓扑模板,以增强具有多样拓扑的3D重建。03. 方法03.1. DT-Net框架0图2显示了我们的DT-Net框架的概述,它由两个模块组成,拓扑形成模块和形状变形模块。给定输入I,可以是2D图像或3D体素数据,DT-Net首先对其进行编码,产生两个独立的特征向量,拓扑编码ZT和形状编码ZS。为了匹配给定的输入,拓扑形成模块将ZT用于生成拓扑感知的神经模板T,而形状变形模块则以ZS作为指导,通过细化T来产生具有几何细节的最终输出M。在拓扑形成模块中,我们学习函数f来组合T =f(ZT),使用一组学习到的凸面体。然后在形状变形模块中,我们学习一个可逆的同胚流函数g,逐步变形T以逼近0M = g(ZS,T)。注意,f和g都被实现为神经网络;详见第3.3节中的详细信息。非常重要的是,我们设计T具有双重表示;再次参见图2。显式表示TE是3D网格的形式(即对象表面上的顶点和面),而隐式表示TI是隐式场的形式(即指示任何给定查询点是否在对象内部/外部的占据函数)。通过这种设计,DT-Net的训练(本质上是f和g)可以通过隐式表示进行微分(参见图2中的顶部分支);稍后在本节中将详细介绍更多细节。另一方面,在推断过程中(参见底部分支),TE和M可以使用训练的f和g直接提取为显式网格。此外,我们将T的3D空间称为拓扑空间,将M的3D空间称为形状空间。为了获得两个空间之间的连续梯度,我们学习了从形状空间到拓扑空间的逆函数g-1,即ˆTI = g-1(ZS, ˆMI)。如图2所示0(右上角),在训练过程中,我们从形状空间中的真实网格ˆM中采样占据场ˆMI(即点坐标和占据值)。使用ˆMI,我们可以使用g-1构建ˆTI,并在拓扑空间中制定规则化,即L(ˆTI, TI):0min f,g L(g-1(ZS, ˆMI), f(ZT)). (1)0这个优化函数定义了逆变换的隐式形状ˆTI(来自g-1)与组合的隐式神经模板TI(来自f)对齐的程度。0隐式表示TI可以通过拓扑空间和形状空间之间的双射映射g得到。由于g:R3�R3是逐点连续的函数,T,或者更具体地说TI,可以通过使用0O(TI, ˆTI) = O(TI, g-1(ZS, p)) (2)L( ˆTI, TI) = Lalign + LB,(3)185750其中{p}是ˆMI中的采样点。要评估点p相对于ˆM的位置,只需找到经过逆变换的点g-1(ZS,p)在T的表面内部还是外部,通过占据函数O(∙)计算。换句话说,原本在ˆM内部(外部)的点,在逆变换后,也应该在T内部(外部)。0显式表示TE和M是具有相同面集F但具有不同顶点集VT和VM = g(ZS,VT)的3D网格。这里,函数g和g-10映射V T 和V M中对应的顶点之间的映射。因此,最终重建的对象M可以通过从模板网格TE进行变形(函数g)获得。我们可以通过组合一组学习到的基元来提取TE,以便灵活表示各种拓扑的3D对象。详见第3.3节。03.2. 框架设计0在详细介绍DT-Net框架的细节之前,我们首先讨论框架设计中的关键思想。0(i)拓扑感知学习。我们学习生成神经模板T,其拓扑结构特别遵循输入I,而不是手动定义一个模板,如之前的工作。为了适应不同的拓扑结构,我们通过组合几何原语来生成它,这些原语基于明确定义的隐式和显式表示[10,14]。因此,T可以通过隐式函数进行训练,并且可以直接提取为显式网格。0(ii)保留拓扑的变形。为了解耦拓扑学习和形状学习,我们保持神经模板T的拓扑结构不变,同时对其进行变形以形成输出网格。特别地,我们学习了一族可逆映射[23,73],将拓扑空间和形状空间之间进行映射,以便我们可以从ˆM对T施加各种约束,以有效地计算其隐式和显式表示。0(iii)无需拓扑注释。DT-Net直接从输入I和地面实况网格ˆM学习生成拓扑感知的神经模板T,而无需拓扑注释作为中间监督。我们通过将ˆM从形状空间逆向映射到拓扑空间来实现,即通过将样本点ˆM I逆向变形为ˆTI。因此,DT-Net可以通过将ˆTI与学习到的T精确对齐来无监督地学习生成TI,如公式(1)。0(iv) 拓扑和形状解耦。此外,我们通过将拓扑编码ZT和形状编码ZS注入f和g的训练中,为生成提供可控性。通过这种方式,拓扑和形状同时学习以确保合理的重建,同时在潜在空间中尽可能解耦。这种设计提供了一系列新颖的高级控制,例如通过修改形状编码来操纵网格。0在保持其拓扑编码的同时改变其形状编码;示例将在第3.5节中介绍。03.3. 网络架构0拓扑形成模块。我们学习函数f将拓扑编码ZT映射到神经模板T = f(Z T)。受[10, 14, 45, 46,60]的启发,我们提出通过几何基元的并集组合拓扑感知的神经模板。根据第3.2节中的关键思想(i),我们采用[10]中的公式来组合一组凸多面体以组装神经模板的隐式场。具体来说,给定ZT,我们使用多层感知器实现f,首先预测定义各种超平面H∈ R N h � 4(即,ax + by + cz + d =0)的参数,然后使用可学习的二进制矩阵B ∈ R N h � Nc(一种选择性掩码)将这些平面分组形成一组凸多面体C,其中N h和Nc分别表示超平面和凸多面体的数量。最后,这些凸多面体被组装成神经模板T。这种公式使得可以进行显式表示TE(即凸多面体的并集),同时也可以进行隐式表示TI(即用于指示占用情况的标量函数O(∙)在方程(2)中:给定点在这些凸多面体的内部/外部)。0形状变形模块。我们学习保持输出对象与学习到的神经模板之间的拓扑关系的可逆变形函数g;参见上述关键思想(ii)。给定Z S,它学习将神经模板T逐渐变形为详细的表面M =g(Z S, T)。具体来说,我们采用[23,73]中的神经常微分方程模块(NODE)来实现拓扑的连续变形。它通过参数化的ODE p T = g(Z S, p 0) = p 0 + ∫T0ˆg(Z S, p t) dt 来定义可逆变换g:R3 � R3,其中p 0和pT是输入和输出神经网络ˆg(即[x, y,z])的输入和输出,T是一个超参数,表示从p 0到pT的变形步数。这个积分是用数值求解器近似计算的,而它的梯度可以通过使用[8]中提出的伴随方法来计算。由于g的微分同胚性质,我们可以在变形过程中保持T的一般拓扑。03.4. 网络训练0如第3.1节所述,无需拓扑注释,我们建议通过L(ˆT I, TI)来训练DT-Net。联合优化函数由两个项组成:0其中L align 鼓励学习到的拓扑T I = f(Z T)与逆变形形状ˆT I= g^(-1)(Z S, ˆMI)正确对齐。此外,我们采用[10]中的稀疏项LB来鼓励学习到的拓扑由一组稀疏的凸多面体组成。185760图3.我们的DT-Net框架学习了一种解耦表示,用于拓扑和形状,从而通过对拓扑编码ZT和/或形状编码ZS进行解耦操作,实现了新颖的生成应用,例如(a)混合两个不同物体的形状和拓扑;(b)通过操纵拓扑/形状编码进行物体插值;以及(c)在潜在空间中进行算术运算。0具体来说,ˆMI = {pi',oi}Npi=1表示从地面真实网格形状空间采样的Np个占用对,pi'是第i个采样点的坐标,oi=1(oi=0)表示pi'在物体内(外)。通过将pi'逆映射到拓扑空间得到pi = g^(-1)(ZS,pi'),我们得到ˆTI = {pi,oi}Npi=1作为优化拓扑学习函数f的中间信号。对于每个查询点pi ∈ ˆTI和相关的真实占用值oi,Lalign衡量了O(T,pi)和oi之间的差异,促使网络预测正确的占用值。为了简化梯度流动,我们采用了[10]中的两阶段训练策略:阶段1(连续)从TI到ˆTI计算松弛近似Lcon(ˆTI,TI),然后阶段2(离散)促进TI和ˆTI之间的准确对齐Ldis(ˆTI, TI)。具体而言,Lconalign采用最小二乘模型来近似真实占用值oi,而Ldisalign采用二元交叉熵来鼓励输出占用值与oi离散化:0Lcon align = 1 Np0i =1 ( O ( T I , pi ) − oi ) 20and Ldis align = 1 Np0Np�0� oi � max( O ( T I , pi ), 0)0+(1 − oi) � (1 − min(O(TI, pi), 1)) � .03.5. 具有可控性的形状生成0通过解耦表示,即拓扑编码ZT和形状编码ZS,DT-Net实现了新颖的3D物体操作形式,为高级物体生成和再合成开辟了新的可能性:0•物体混合。ZT和ZS共同贡献于重建一个3D物体,因此我们可以在物体之间混合它们以操纵形状(拓扑),同时保持其原始拓扑(形状);如图3(a)所示,两个重新合成的咖啡桌。图4展示了通过混合不同桌子作为ZT(最左列)和ZS(顶行)的源生成的更多结果。0• 物体插值。此外,我们可以在ZT上进行解耦插值。0图4.形状和拓扑的混合。顶部的物体提供形状编码,左侧的物体提供拓扑编码。0图5.在拓扑(顶部)和形状(底部)上分别进行物体插值。注意DT-Net实现的平滑过渡。0或者ZS,如图3(b)所示。从左到右,椅子(顶部)向目标形状变形,但保持其矩形状,而汽车(底部)变高,变成具有相同拓扑结构的卡车。图5展示了我们在拓扑(顶部)和形状(底部)上的解耦插值的更多结果。0•潜在编码算术。借助学习到的平滑潜在空间,我们可以在潜在空间中进行算术运算。图3(c)显示了我们可以进行减法运算。185770图6.展示我们的DT-Net生成的结果的画廊。每一对图像展示了学习到的拓扑感知神经模板(左)和相应的重建物体(右)。生成的物体涵盖了各种形状和多样化的拓扑结构,从光滑表面(如汽车和灯)到复杂几何体(如椅子和飞机)。观察到即使在没有规范化变形模块振幅的情况下,神经模板在视觉上看起来像是最终形状的粗糙版本。0两个桌子的拓扑代码,即带有和不带有存储板的代码,并将差异添加到另一个桌子的拓扑代码中,以增加带有板的桌子。图7展示了潜在代码算术的更多结果。0更多结果请参见补充材料。04. 结果和评估04.1. 数据集和度量数据集。我们在ShapeNet[6]中使用13个类别进行网格重建,如[10-12]所述,并直接使用来自[24]的输入体素和来自[13]的输入图像。对于每个重建任务(体素/图像),我们在所有类别上训练一个模型,并使用与之前的工作相同的训练-测试划分。在推断过程中,我们直接获得拓扑感知神经模板的网格,作为凸多面体的并集,并对其进行变形以获得最终的网格。有关训练、测试、网络架构等的详细信息,请参见补充材料。0评估指标。为了定量评估预测的网格M相对于地面真实网格ˆM的性能,我们采用以下指标:(i)光场距离(LFD);受人类视觉系统[7,10]启发,LFD测量了M和ˆM在不同视角下渲染图像的视觉相似性;(ii)点到表面距离(P2F)测量了M的采样点到ˆM表面的最小距离;(iii)Chamfer距离(CD)测量了M和ˆM之间点样本的双向最短距离。重要的是,LFD衡量了对象表面的视觉质量,而P2F和CD仅考虑点间距离。对于所有指标,较低的值表示更好的性能。04.2.从3D体素进行网格重建。图6展示了我们学习到的神经模板(奇数列)与重建的对象(偶数列)的配对结果。这些结果表明我们的DT-Net能够产生具有各种连接性的拓扑感知模板。0图7. 不同对象之间的算术运算。0并且适用于目标对象的种类和属。最终的网格覆盖了各种全局形状和局部结构。0定量评估。除了实现可控的拓扑感知3D网格生成之外,我们还进一步评估了我们生成的网格与最先进模型IM-Net[12]和BSP-Net[10]生成的网格的质量。使用与[22]相同的训练-测试划分,我们直接利用它们在原始实现中提供的预训练模型。BSP-Net和我们的DT-Net可以通过从分辨率为64^3的输入体素中的基元进行并集操作来提取网格。对于IM-Net,我们通过[36]从更高分辨率的输入(256^3)中提取最终的网格。表1报告了定量评估结果,显示DT-Net在大多数类别上具有良好的性能,并且其整体性能在所有指标上也优于其他模型。特别是,受益于我们的拓扑感知神经模板,DT-Net在具有高拓扑多样性的对象类别(例如椅子)上有很大的改进。0定性评估。图8显示了视觉比较结果,揭示了其他方法倾向于产生缺失部分(例如,桌子的梁)和较少的细节(例如,椅子的滑轮)。相比之下,我们的方法可以产生更完整的对象,视觉上最接近目标,并且我们重建的对象展示了更多微小的局部结构(例如,飞机和枪)并展示了各种对象拓扑。更多结果请参见补充材料。LFD(↓)els.185780表1. 从3D体素进行网格重建的定量评估。LFD、P2F和CD的单位分别为1.0、10^-2和10^-3。0度量方法类别0平均平面长凳柜子汽车椅子展示灯音箱步枪沙发桌子手机容器0IM-NET(256 3) 2918.9 4065.3 3452.7 1542.6 2069.7 2479.1 2606.2 6073.9 1763.0 5466.9 2110.7 2374.4 2109.1 4366.50BSP-NET 3026.0 4287.0 3599. 1489.7 2101.1 2643.1 2602.8 6384.3 1769.8 5545.1 2170.1 2471.9 2187.7 4495.20我们的方法 2835.0 3955.1 3329.9 1509.1 2070.4 2368.7 2460.2 5899.3 1707.1 5333.1 2043.5 2257.6 2078.6 4366.90P2F(↓)0IM-NET(256 3) 0.820 0.597 0.739 0.749 0.584 0.876 0.821 1.543 1.045 0.794 0.768 0.930 0.564 0.8640BSP-NET 0.899 0.677 0.826 0.755 0.654 1.016 0.889 1.859 0.985 0.830 0.793 0.946 0.632 1.0620我们的方法 0.796 0.542 0.677 0.751 0.674 0.847 0.769 1.422 0.978 0.651 0.854 0.851 0.567 0.8430CD(↓)0IM-NET(256 3) 0.648 0.322 0.499 0.727 0.526 0.663 0.641 1.351 1.012 0.374 0.611 0.781 0.384 0.6280BSP-NET 0.750 0.377 0.595 0.764 0.583 0.807 0.741 1.727 1.099 0.414 0.672 0.874 0.524 0.7700我们的方法 0.573 0.259 0.434 0.651 0.460 0.581 0.479 1.442 0.849 0.268 0.576 0.674 0.313 0.5500图8. 从体素进行网格重建的视觉比较。04.3. 从单视图图像进行网格重建0对于单视图重建任务,我们将我们的方法与两类工作进行比较:(i)显式方法:Pixel2Mesh [63],AtlasNet[22]和TMNet[43],它们直接将模板变形到最终网格;和(ii)隐式方法:IM-Net [12],BSP-Net [10]和DI2M-Net[34],它们生成隐式表面。对于DI2M-Net,他们的作者友好地帮助我们生成了视觉结果。对于其他方法,我们使用它们发布的实现,采用相同的训练-测试分割(即80%-20%),输入为灰度图像。我们还注意到最近的一项工作[51],它是从TMNet[43]改进而来的,将来如果源代码可用,我们将进行适当的比较。0定量评估。表2列出了总体结果,显示我们的方法在LFD,P2F和CD方面始终优于其他隐式方法。请注意,我们没有包括DI2M-Net,因为它需要额外的相机姿态作为训练输入。另一方面,与显式方法相比,我们的方法在LFD上表现更好,在基于距离的度量CD和P2F上与之相当;这可能归因于它们在训练中的CD-wise正则化。此外,基于距离的度量可能不是衡量重建网格质量的理想指标(参见[10,29]),这在图9的视觉比较结果中得到了证明。我们还在补充材料中展示了各个类别的详细结果。0表2.从2D图像重建的定量结果。总体而言,我们的方法在LFD上表现更好,在P2F和CD上与其他方法相当。详细信息如下所示。0方法度量0LFD(↓) P2F(↓) CD(↓)0显式0Pixel2Mesh 4056.2 1.903 1.8550AtlasNet 3880.9 1.289 1.0410TMNet 3765.5 1.285 1.1490隐式0IM-NET(256 3) 3559.2 1.422 1.4970BSP-NET 3426.5 1.354 1.4780我们的方法 3388.3 1.294 1.3960相机姿态作为训练输入。另一方面,与显式方法相比,我们的方法在LFD上表现更好,在基于距离的度量CD和P2F上与之相当;这可能归因于它们在训练中的CD-wise正则化。此外,基于距离的度量可能不是衡量重建网格质量的理想指标(参见[10,29]),这在图9的视觉比较结果中得到了证明。我们还在补充材料中展示了各个类别的详细结果。0定性评估。图9显示了视觉比较结果。参考地面真实网格(a),显式方法(b-d)通常难以适应不同种属的对象,从而进一步证实了我们对拓扑感知模板制定的动机。另一方面,隐式方法(e-g)可以灵活地描述拓扑,但往往会产生过度平滑或噪声较多的表面,例如椅子的扶手和船的船体。相比之下,我们的方法(h)可以产生高质量的网格,其中表面同时呈现出平滑和锐利的特征。更多的视觉结果在补充材料中。04.4. 模型分析与讨论0框架分析. 我们首先验证了DT-Net的框架设计. 在图10中,我们比较了其他基元[46, 60]的使用方式,例如超椭球体(b)和长方体(c),与我们的凸多面体(e)用于组成具有拓扑感知的神经模板.图10(d)显示了使用另一个可逆神经网络(INN)[45]实现时的结果.We presented a novel framework called DT-Net that en-ables a topology-aware mesh reconstruction and promotesmesh generation with disentangled controls. A key designis to learn to form a topology-aware neural template specificto each input then deform it to reconstruct a detailed 3D ob-ject. This scheme decouples the 3D reconstruction processinto two sub-tasks, effectively accommodating for the vari-ations in topology. Importantly, our new design provides adisentangled representation of topology and shape in the la-tent space, enabling controllable object generations by ma-nipulating the learned topology code and shape code, whichare not achievable by the existing reconstruction methods.Extensive experiments also manifest that our method pro-duces high-quality meshes with diverse topologies and finedetails, performing favorably over the state of the arts.185790图9. 从2D图像中重建的3D网格的视觉比较.0图10. 给定参考网格(a),我们可以使用替代表示(b-c)来组成神经模板或使用INN(d)进行形状变形. 我们的方法(e)显示出更好的结果.0形状变形模块; 详细信息和评估结果请参见补充材料.通常情况下,我们采用通用设计来形成拓扑和形状变形模块(参见第3.2节),这意味着我们可以使用替代实现,但我们目前的选择提供了更好的拓扑近似和更好的重建结果.拓扑空间的可视化. 为了展示学习到的拓扑空间的平滑性和意义,我们在椅子上生成了ZT的TSNE嵌入的可视化结果.从补充材料中的图8中的可视化结果中,我们可以看到DT-Net可以学习到一个平滑的嵌入空间,适用于具有不同拓扑结构的对象,并且具有相似拓扑的对象紧密聚集. 跨类别操作.由于我们的模型是在多个对象类别上进行训练的,我们可以在不同类别之间进行对象混合; 请参见图11中的结果.有趣的是, 我们可以获得类似椅子的汽车,它遵循汽车的拓扑和椅子的形状.我们在补充材料中展示了更多的跨类别结果. 局限性和讨论.首先, 像大多数先前的3D网格生成方法一样,生成极其复杂和精细结构的对象仍然非常具有挑战性;请参见补充材料. 在未来,我们的目标是进一步以分层方式构建拓扑感知的神经模板,并以部件方式进行形状变形, 以实现更精细的重建和控制. 此外,由于DT-Net是基于重建任务构建的,生成的新对象仍然受限于给定对象的多样性.我们希望将其扩展为一种无监督生成框架,并考虑语音、文本或其他输入模态以实现更直观的对象操作.0图11. 不同类别之间的跨类别对象混合.0我们提出了一种名为DT-Net的新型框架,它实现了拓扑感知的网格重建并促进了具有解耦控制的网格生成.其关键设计是学习形成特定于每个输入的拓扑感知的神经模板,然后对其进行变形以重建详细的3D对象. 这种方案将3D重建过程分解为两个子任务,有效地适应了拓扑的变化. 重要的是,我们的新设计在潜在空间中提供了拓扑和形状的解耦表示,通过操纵学习到的拓扑代码和形状代码实现可控的对象生成,这是现有重建方法所无法实现的.大量的实验证明我们的方法能够产生具有多样的拓扑和精细细节的高质量网格,在性能上优于现有技术.05. 结论0致谢. 我们感谢匿名审稿人的宝贵意见.本工作得到香港特别行政区研究资助局的支持 (项目编号:CUHK 14206320 & 14201921).185800参考文献0[1] Victoria Fernández Abrevaya, Adnane Boukhayma,Stefanie Wuhrer, and Edmond Boyer.通过对抗训练实现解耦的3D人脸形状模型. 在ICCV上,页码9419-9428, 2019年. 20[2] Panos Achlioptas, Olga Diamanti, Ioannis Mitliagkas, andLeonidas J. Guibas. 学习3D点云的表示和生成模型. 在ICML中,2018年, 第40-49页. 1, 20[3] Matan Atzmon and Yaron Lipman. SAL:从原始数据中学习形状的无符号学习. 在CVPR中, 2020年,第2565-2574页. 1, 20[4] Tristan Aumentado-Armstrong, Stavros Tsogkas, AllanJep- son, and Sven Dickinson.用于生成潜在形状模型的几何解缠结. 在ICCV中, 2019年,第8181-8190页. 20[5] Heli Ben-Hamu, Haggai Maron, Itay Kezurer, Gal Avineri,and Yaron Lipman. 多图表生成表面建模. 在ACM Transactionson Graphics (SIGGRAPH Asia)中, 2018年, 第37卷第6期,第215:1-215:15页. 10[6] Angel X. Chang, Thomas A. Funkhouser, Leonidas J.Guibas, Pat Hanrahan, QiXing Huang, Zimo Li, SilvioSavarese, Manolis Savva, Shuran Song, Hao Su, JianxiongXiao, Li Yi, and Fisher Yu. ShapeNet: 一个信息丰富的3D模型库.在arXiv预印本arXiv:1512.03012中, 2015年. 2, 60[7] Ding-Yun Chen, Xiao-Pei Tian, Yu-Te Shen, and MingOuhyoung. 基于视觉相似性的3D模型检索. 在ComputerGraphics Forum中, 第22卷, 第223-232页, 2003年. 60[8] Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, andDavid Duvenaud. 神经常微分方程. 在NeurIPS中, 2018年,第6571-6583页. 40[9] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, IlyaSutskever, and Pieter Abbeel. InfoGAN:通过信息最大化生成对抗网络进行可解释的表示学习.在NeurIPS中, 2016年, 第2180-2188页. 20[10] Zhiqin Chen, Andrea Tagliasacchi, and Hao Zhang.BSP-Net: 通过二进制空间分割生成紧凑网格. 在CVPR中, 2020年,第45-54页. 1, 2, 4, 5, 6, 70[11] Zhiqin Chen, Kangxue Yin, Matthew Fisher, SiddharthaChaudhuri, and Hao Zhang. BAE-Net:用于形状共分割的分支自编码器. 在ICCV中, 2019年,第8490-8499页. 60[12] Zhiqin Chen and Hao Zhang. 学习隐式场进行生成形状建模.在CVPR中, 2019年, 第5939-5948页. 2, 6, 70[13] Christopher B. Choy, Danfei Xu, JunYoung Gwak, KevinChen, and Silvio Savarese. 3D-R2N2:单视角和多视角3D物体重建的统一方法. 在ECCV中, 201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功