没有合适的资源?快使用搜索试试~ 我知道了~
1RGB图像深度图部分形状PQ-NET:一种面向三维形状的零件生成Seq 2Seq网络吴润娣1庄 义新1徐凯2张浩3陈宝泉11北京大学计算前沿研究中心2国防科技大学3西蒙弗雷泽大学“由成分识别(RBC)提供的对象感知的特征与当前关于如何感知语音的一些观点非常相似。”- 欧文·比德曼[5]摘要我们介绍了PQ-NET,这是一种深度神经网络,它通过顺序零件装配来表示和生成3D形状。我们网络的输入是一个分割成部分的3D形状,每个部分首先使用部分自动编码器编码成特征表示。PQ-NET的核心组件是一个序列到序列或Seq 2Seq自动编码器,它将一系列零件特征编码为固定大小的潜在向量,解码器每次重建 一 个 零 件 的 3D 形 状 , 从 而 产 生 一 个 顺 序 的 as-sample。Seq2Seq编码器形成的潜在空间对零件结构和精细零件几何结构进行编码。 解码器可以适于执行若干生成任务,包括形状自动编码、插值、新颖形状生成和单视图3D重建,其中生成的形状都由有意义的部分组成。1. 介绍三维形状生成模型的学习是计算机视觉和计算机图形学的一个关键问题。 虽然图形主要涉及3D形状建模,但在逆图形[23]中,计算机视觉中的主要工作线,人们的目标是通常从单个图像推断关于3D形状和场景结构的分解表示[29]。最近,已经有稳定的工作流开发深度神经网络,用于使 用 不同 的形 状 表示 生 成 3D 形 状 ,例 如 ,体素网格[54]、点云[15,1]、网格[20,51]以及大多数最近,隐函数[35,41,10,56]。然而,这些作品中的大多数产生非结构化的3D形状,尽管物体感知通常被认为是结构理解的过程,即,以推断形状部分,它们的组成和部分间的关系[24,5]。输入顺序生成随机Z噪声图1.我们的网络PQ-NET将3D形状表示学习为连续部件装配。它可以适用于生成任务,如随机3D形状生成,单视图3D反射(从RGB或深度图像)和形状完成。在本文中,我们介绍了一种深度神经网络,它通过顺序部分表示和生成3D形状,如图1和图2所示。 在某种程度上,我们把装配序列看作是一个“句子”,它组织和描述了构成3D形状的零件。 我们的方法部分受到语音和形状感知之间的相似性的启发,正如Bie-derman [5]关于组件识别(RBC)的开创性工作所建议的那样。另一个相关的观察是,首先由NoamChomsky引入的语言解析的阶段结构规则认为句子既是一个线性的单词串,也是一个层次结构,短语嵌套在短语中[7]。 在形状结构呈现的背景下,我们的网络坚持线性零件顺序,而其他作品[53,31,36]选择了分层零件组织。我们网络的输入是一个分割成部分的3D形状,每个部分首 先使 用部 分自动 编码 器编 码成特 征表 示 ;见图 2(a)。我们网络的核心组件是一个序列到序列或Seq2Seq自动编码器,它将部分特征序列编码为固定大小的潜在向量,解码器829830a) 零件几何编码b) 顺序零件装配和生成初始向量(x,y,z)CNN编码器隐式译码器零件数量(一热)停车标志图2.PQ-NET的架构:我们的Seq 2Seq生成网络用于3D形状。重建3D形状,一次一个零件,导致顺序装配;见图2(b)。凭借其部分Seq 2Seq架构,我们的网络被称为PQ-NET。Seq2Seq编码器形成的潜在空间使我们能够调整解码器来执行几个生成任务,包括形状自动编码、插值、新形状生成和单视图3D重建,其中所有生成的形状都由有意义的部分组成。作为训练数据,我们从PartNet [37]中获取分割的3D形状,PartNet是在ShapeNet [8]上构建 形状部分总是在数据集中遵循某种线性顺序的文件中指定;我们的网络采用形状文件中的部分顺序。 我们分别训练PQ-NET的part和Seq 2Seq自动编码器,无论是按形状类别还是跨PartNet的所有类别。我们的部分自动编码器适应IM-NET [10]来编码形状部分 , 而 不 是 整 个 形 状 , 解 码 器 产 生 一 个 隐 式 字 段 。Seq2Seq自动编码器部分遵循与为机器翻译开发的原始Seq2Seq网络类似的架构[47]。具体来说,编码器是一个双向堆叠递归神经网络(RNN)[45],它以相反的顺序输入两个零件特征序列,并输出一个潜在向量。解码器也是一个堆叠的RNN,它将表示整个形状的潜在向量解码成一个顺序的部分组件。PQ-NET是第一个完全生成的网络,它以连续部件装配的形式学习3D形状表示。之前唯一的部件序列模型是3D-PRNN [58],它生成部件盒,而不是它们的几何形状-我们的网络联合编码和解码部件结构和几何形状。PQ-NET可以很容易地适应各种生成任务,包括形状自动编码,新颖的形状生成、从RGB和深度图像的结构化单视图3D重建以及形状完成。 通过广泛的实验,我们证明了我们的网络的性能 和 输 出 质 量 与 最 先 进 的 生 成 模 型 ( 包 括 3D-PRNN[58], IM-NET [10] 和 StructureNet [36] ) 相 当 或 更好。2. 相关工作3D形状的结构分析。对3D形状可变性的研究可以追溯到人脸[6]和身体[2]的统计建模,例如,使用PCA。学习人造形状的结构变化是一项更困难的任务。来自图形的早期作品通常从形状集合中推断一个或多个零件布置的参数模板[40,27,17]。 这些方法通常需要输入形状的部分对应。 概率图模型可用于将形状可变性建模为形状部分之间的因果关系[26],但需要预先分割和部分标记的形状来学习此类模型。3D形状的“整体”生成模型。3D形状的深层生成模型已经开发用于体积网格[54,19,52,43],点云[15,1,57],表面面网格[20,51],多视图图像[46]和隐式函数[11,41]。这些作品的共同之处在于,形状可变性以整体的、结构无关的方式建模。 这主要是因为很少有适合深度学习的基于零件的形状表示。基于零件的生成模型。近年来,学习用于部分或结构感知形状合成的深度生成模型越来越受到关注。Huang等人[25日]逆序GRUGRUGRUGRUGRU GRUEE EHzGRUGRUGRU应用转换零件箱参数零件几何特征EDDE831提出了一种基于先验学习的基于零件的模板的深度生成模型。 Nash和Williams [38]提出了一种Shapevae来生成分割的3D对象,并且使用具有密集点对应的形状来训练模型。Li等人 [31]提出了GRASS,一个端到端的部分结构的深层生成模型。 他们采用递归神经网络(RvNN)实现分层编码和解码的部分和关系。他们基于二叉树的RvNN后来被StructureNet扩展到N元情况[36]。Wu等人[55]耦合部件内几何形状和部件间结构的合成 在G2L [50]中,3D形状是基于生成对抗网络(GAN)的部分标记生成的,然后使用预先训练的部分细化器进行细化。最近,Gao etal.[18]训练自动编码器以生成关于形状类别的全局部件结构的封闭的可变形网格部件的空间布置其他最近的作品基于部分生成采用生成和组装计划。CompoNet [44]是一个在固定数量的部件上运行的部件组合网络每个零件生成器和合成网络被训练以产生具有给定零件结构的形状。 Dubrovina等人[14]提出了一种分解器-合成器网络,用于学习基于部件的建模的分解形状嵌入空间。新的形状是通过随机抽样和组装嵌入在因子化的潜在空 间 中 的 预 先 存 在 的 部 分 来 合 成 的 Li 等 人 [30] 提 出PAGENet,它由每个部件的VAE-GAN阵列组成,后面是一个部件组装模块,该模块估计每个部件的转换,以将它们组装成一个合理的结构。Seq2Seq. Se q 2Seq是一个用于机器翻译的通用编码器-解码器框架。它由两个RNN组成,它们将单词序列作为输入,并将其映射到具有标签和注意力值的输出序列[47]。到目前为止,Seq2Seq已被用于各种不同的应用,如图像字幕,会话模型,文本摘要,以及3D表示学习的一些作品例如,Liu等人[32]采用Seq2Seq来学习具有多尺度上下文的3D点云的特征 PQ-NET是第一个深度神经网络,它通过学习组成形状部分序列中的结构上下文,利用序列到序列转换的能力进行生成3D形状建模。3D-PRNN:部件序列装配。与我们的工作最密切相关的是3D-PRNN [58],据我们所知,这是唯一一个学习3D形状的零件序列模型的先前工作。具体来说,3D-PRNN被训练为在给定单个深度图像的情况下将3D形状重建为框序列相比之下,我们的网络学习了形状部件的线性排列和各个部件的几何形状的深度生成模型。从技术上讲,虽然这两个网络都使用RNN,但PQ-NET学习了形状潜在空间,共同编码结构和遗传信息。通过使用Seq2Seq方法,另一方面,3D-PRNN使用RNN作为递归生成器,该递归生成器基于深度输入和先前生成的单个基元顺序地输出框基元。 他们的网络是在分割的形状上训练的,这些形状的部分是沿着垂直方向排列的。为了允许新的形状生成,3D-PRNN需要由从训练集中采样的原始参数启动,而PQ-NET遵循使用潜在GAN的标准生成程序[1,10]。单视图三维重建(SVR)。大多数方法训练卷积网络,使用直接3D监督将2D图像映射到3D形状其中3D形状的体素[13,19,48,42,28]和点云[16,34]表示已被广泛使用。一些方法[33,4]学习生成多视图深度图,这些深度融合在一起形成3D点云。 Tulsiani等人[49]从单视图图像推断3D形状长方体抽象扩展GRASS的基于RvNN的架构[31],Niu等人。 [39]提出Im2Struct,它将单视图图像映射到零件盒的层次结构中。不同的是,从这项工作中,我们的方法产生的零件盒和相应的零件几何形状联合,通过利用结构和几何形状之间的耦合在一个连续的零件生成模型。3. 方法在本节中,我们将介绍基于Seq 2Seq Autoencoder或Seq 2SeqAE的PQ-NET,用于顺序零件装配和基于零件的形状表示。 给定一个由多个部分组成的3D形状,我们首先将其表示为一个序列,每个向量对应于一个单独的部分,该部分由一个几何特征向量和一个6 DoF边界框组成,该边界框指示根据全局坐标系平移和缩放局部框架。每个部分的几何形状被投影到一个低维的特征空间的基础上的混合结构的自编码器使用自监督训练。 由于部分序列的数目是未知的,我们寻求一种基于递归神经网络的编码器来将整个序列转换到一个统一形状的潜在空间。然后从形状特征向量解码零件序列,其中每个零件包含几何特征以及空间位置和尺寸。图2显示了我们的Seq2SeqAE模型的轮廓 我们学习的形状潜在空间促进了随机生成,单视图重建和形状完成等应用。 我们将在接下来的部分中解释模型的两个主要组成部分,并在补充材料中提供更多细节。3.1. 零件几何自动编码零件几何和拓扑比原始形状简单得多因此,通过将形状分解成一组部件,我们能够执行高分辨率和832××我我我SS我2我我22高质量的跨类别几何学习我们的部件几何自动编码器使用与[10]类似的设计,其中基于CNN的编码器将体素化部件投影到部件潜在空间,并且基于MLP的解码器将潜在向量重新投影到体积符号距离场(SDF)。 在SDF为零的地方使用行进立方体检索对象的表面。我们首先将每个部分缩放到固定的分辨率6464 64在其边界框和饲料缩放的部分体积,如-结构几何GRU细胞HS 0hShS12HG0HG1HG2I0停止标志零件框参数零件几何特征将其放入CNN编码器以获得表示零件几何形状的输出特征向量g。 MLP解码器接受该特征向量g和3D点(x,y,z),并输出单个值,该值告知该点在输入几何形状的表面内部或外部。 由于体积SDF在任何地方都是连续的,因此输出几何体是平滑的,可以以任何分辨率进行采样。请注意,此特征表示没有关于零件比例和全局位置的信息 对于具有n个部分的形状,我们可以提取几何特征g 1,g 2,.,gn对应于每个部分。3.2. Seq2Seq AE我们的神经网络的核心是一个序列-图3.我们的堆栈RNN解码器的结构在每个时间步,分别预测几何特征和结构特征,以及指示迭代是否结束的停止符号。RNN在每个时间步有两个隐藏状态,即h G和h S。我们使用hG通过MLP网络进行几何特征重构,而hS则使用相 同 的 技 术 进 行 结 构 特 征 重 构 我 们 还 增 加 了一 个 -OtherMLP网络来预测是否停止迭代的停止符号si。 将初始隐藏状态集作为编码器RNN的最终输出h z,我们的堆栈RNN解码器通过以下方式迭代生成各个部分:[hS; hG]= hz序列(Seq2Seq)自动编码器。顺序编码器是一个双向堆叠的RNN [45],它将零件特征序列及其反向版本作为输入,并输出固定大小的潜在向量hz这个潜伏的病毒0 0gi′=MLPG(hG)b′i=MLPS(hS)s′=Sigsmoid(MLP(hS))(二)tor然后被传递到堆叠的RNN解码器,该解码器在每个时间步输出部分特征直觉上,Seq2Seq编码器学习将部件组装成完整的形状,而解码器学习将其分解为有意义的部分。在我们所有的实验中,我们使用GRU [12]作为RNN单元,并为每个RNN使用两个隐藏层。更具体地,设Fi=[gi;bi]表示零件特征向量,与两个分量连接,零件几何特征gi和6DoF边界框bi=[xi,yi,zi,li,mi,ni],其中[xi,yi,zi]和[li,mi,ni]分别表示框的位置和大小。零件编号的附加信息用于调整形状分布,因为我们根据经验发现它可以提高性能。 有了零件编号的额外独热向量t i,零件的完整向量最终符号化为Si=[Fi;ti]。我们输入序列S=[S1,S2,...,Sn]以及它的逆Sreverse发送到双向编码器,并从输出中获得两个隐藏状态h1 =[h1; h2]=编码1(S)我是 我如果s′i>0,迭代将停止。五、图3示出了RNN解码器的结构 与香草RNN相比,其中所有属性都连接到单个特征向量中,我们在堆叠设计中解开几何和边界框可以产生更好的结果,而无需使用更深的网络。3.3. 培训和损失给定一个包含多个类别形状的数据集,我们描述了我们的PQ-NET的训练过程由于整个流水线的复杂性和计算能力的限制,我们将训练分为两个步骤。步骤1. 我们的部分几何自动编码器由基于3D-CNN的编码器e和表示解码器d的隐式函数组成。 Givena3Ddatasetwith each shape partitioned into several parts, we scaleall parts to an unit cube, and collect a 3D parts dataset P.请注意,P是从S导出的。11 我们使用带符号距离场来生成3D几何图形,h2=[h1;h2]=encode2(Sreverse)hz =[h1; h1; h2; h2](一)[10]。 我们的目标是训练一个网络来预测数据集P中每个部分P的符号距离场。设TP是一个集合1 2 1 2最终状态hz是3D形状的潜在表示与vanilla RNN不同,堆叠RNN为每个时间步输出多个向量,这允许我们的部分更复杂的表示。具体来说,我们的堆叠对于从形状P采样的点,我们将损失函数定义为所有点的地面真值和预测值L(P)=E p∈TP|d(e(P),p)−F(p)|(833三)834FLLKK我我2我我1Σ2i=1我爱你其中是地面真值符号距离函数。在训练完成之后,编码器e可以用于将每个部分P映射到在下一步骤中用作输入的本征向量g=e(P)步骤2. 基于部分序列表示,我们使用Seq2Seq模型对每个形状S执行几何和结构的联合分析。 我们使用由两部分组成的损失函数,Ltotal=ES∈S[Lr(S)+αLstop(S)],(4)其中加权因子α根据经验设定为0.01。重建损失r惩罚了重建的几何形状和结构特征与地面实况的分离。 我们使用均方误差作为距离度量,并将重建损失定义为:KLr(S)=[β||g′−g||+的||b′−b||]、(5)i=1潜在的空间,我们的顺序解码器生成新的形状与几何形状和分割。对于从单个RGB图像或深度图进行3D重建,我们使用独立的CNN编码器将输入图像映射到我们预先学习的形状潜在空间。通常,我们使用四个卷积层CNN作为深度图像嵌入的编码器,并使用典型的ResNet18 [22]作为RGB输入嵌入。 我们遵循与[20,10,36]类似的想法来训练CNN编码器,同时固定我们的顺序解码器的参数。4. 结果、评价和应用在本节中,我们展示了我们的模型在几个任务上的定性和定量结果,包括形状自动编码,形状生成和单视图重建。在我们的论文中,我们使用PartNet [37],一个具有语义分割的大规模3D形状数据集。我们主要使用他们的三大类,即椅子,桌子和灯,删除包含10个以上部分的形状,其中k是形状S的部件的数量,并且β被设置为1 .一、在我们的实验0。F或第i部分,g′和b′表示6305把椅子,7357张桌子和1188盏灯,这些椅子和灯进一步分为培训,验证和测试集,使用官方的i iPartNet的数据分割原始形状是网格表示-几何和结构特征的重建结果,而gi和bi是相应的地面真值。停止损失停止鼓励RNN解码器生成正确数量的部分,这些部分完全填充形状。 类似于3D-PRNN [58],我们给RNN解码器的每个时间步长一个二进制标签si,指示是否在步骤i停止。止损使用二进制交叉熵定义:Lstop ( S ) =1<$[−slogs′− ( 1−s ) lo g(1−s′)](6)其中s′i是预测的停车标志。3.4. ShapeGenerationandotherapplicationsPQ-NET学习的潜在空间支持各种应用。 我们将在下一节中展示形状自动编码、3D形状生成、插值和RGB或深度图像的单视图重建的结果。对于形状自动编码,我们在[10]的工作形状的每个部分都缩放到64 × 3体积,SDF回归的点集从内部和外部均匀地围绕曲面进行采样。 然后按照第3.3节中的描述训练模型。对于3D形状生成,我们使用顺序自动编码器在预先学习的潜在空间采用潜在GAN [1,10]。具体来说,我们使用了一个简单的MLP,其中三个隐藏的全连接层用于生成器和判别器,并应用了带有梯度惩罚的Wasserstein-GAN(WGAN)训练策略[3,21]。 训练完成后,GAN生成器将从标准高斯分布N(0,1)中采样的随机向量映射到我们的形状representation,我们体素化成643立方体的特征嵌入。我们遵循[11]中的采样方法来收集数千个3D点和相应的SDF值,用于隐式场生成。有关数据处理的更多详细信息,请参阅我们的补充材料4.1. 3D形状自动编码我们比较了我们的顺序自动编码器与IM-NET [11].这两种方法都使用相同的数据集进行训练。 表4.1和图4显示了两种方法在不同分辨率下的结果,具体为64 3和256 3。对于定量评估,我们使用交集(IoU),对称倒角距离(CD)和光场距离(LFD)[9]作为测量值。IoU的计算分辨率为643,与我们的训练模型的分辨率相同 在Chair类别中,我们的方法优于IM-NET,而在几何结构更简单的其他两个类别中,IM-NET的IoU优于我们。请注意,由于其简单性,我们的方法生成的形状部分优于IM-NET,并且我们生成的形状在视觉上也更好。然而,部件位置的小扰动可以显著降低IoU的得分对于CD和LFD,我们的方法优于IM-NET。由于LFD是在网格域中计算的,因此我们使用Marching Cubes算法将SDF解码器的输出转换为网格。对于CD度量,我们在网格表面上采样10K个点,并与地面实况点云进行比较总的来说,我们的模型在定性和定量评估方面都优于IM-NET 我们承认,这种组合对IM-NET可能有点不公平,因为我们的输入是分段的部分,这提供了结构信息,835类别方法盖MMDJSD椅子我们54.918.340.0083IM-NET52.357.440.0084结构网29.519.670.0477表我们56.517.560.0057IM-NET56.676.900.0047结构网16.0414.980.0725灯我们87.9510.010.0215IM-NET81.2510.450.0230结构网35.2717.290.1719表1.定量形状重建结果。IoU乘以102,CD乘以103。LFD四舍五入为整数。“Ours-Cross”指的是我们在所有三个类别中训练的模型。表2.形状生成的定量评估 我们为每种方法随机生成2000个形状,然后与测试数据集进行比较。 COV和MMD使用倒角距离作为距离度量。MMD乘以103。图4.形状自动编码的可视化结果 使用相同的移动立方体设置获得输出网格。这不是整个形状所能提供的但评价结果仍然表明,我们的模型可以正确地表示三维形状的结构和几何形状一个值得注意的事实是,我们的跨类别训练模型击败了每类别训练模型。 这表明我们的序列模型可以处理不同类别的零件的不同排列,并受益于零件几何形状的简单性。4.2. 形状生成和插值我们比较了两种最先进的3D形状生成模型,IM-NET[10]和StructureNet [36],用于3D形状生成任务。我们使用这两种方法发布的代码对于IM-NET,我们在所有三个类别上重新训练他们的模型 对于StructureNet,我们使用椅子和桌子上的预训练模型,并重新训练Lamp类别的模型。我们采用覆盖率(COV)、最小匹配距离(MMD)和詹森-香农散度(JSD)[1]来评估生成结果的真实性和多样性图5. 3D形状生成结果与IM-NET和StructureNET获得的结果进行比较。虽然COV和JSD大致代表了生成的形状的多样性,但MMD通常用于保真度评估。 我们通过随机生成2K个样本获得了每种方法生成的形状集,并使用倒角距离与测试集进行比较。有关评估指标的更多详细信息,请参阅补充材料。PQ-NET和IM-NET的结果分别以256 3和64 3的分辨率进行取样,以进行目视比较和定量评价。我们重建网格并采样2K点来计算倒角距离。 由于StructureNet为每个生成的部分输出1K个点,因此整个形状可能包含大于2K的点。 我们进行下采样过程以提取2K个点进行评估。表 4.2 和 图 5 显 示 了 我 们 的 PQ-NET 、 IM-NET 和StructureNet的结果 我们的方法可以产生光滑的几何形状,同时保持整个结构的保留。 对于薄结构和复杂拓扑结构,建模整体形状是非常困难的,而我们的分解策略可以在这样的困难的情况下非常有帮助。然而,另一方面,我们的序列模型可能会产生重复的(一)地面实况(b)IM-NET-(c)我国-(a)(b)IM-c)结构网度量方法椅子表灯IOU我们的-6467.2947.3939.56IM-NET-6462.9356.1441.29CD我们的-643.385.4911.49我们的-2562.865.6910.32十字架-2562.464.504.87IM-NET-643.646.7512.43IM-NET-2563.596.3112.19LFD我们的-64273428246254我们的-256244126095941十字架-256250124154875IM-NET-64283034466262IM-NET-256279433976622836图6.潜在空间插值结果。插值后的序列不仅具有光滑的几何变形,而且保持了形状结构。表3. 从单一深度图像对三个类别(椅子、桌子、灯)进行结构化3D形状再现的形状IoU评估。 我们在两种顺序上测试每种方法:PartNet自然顺序(A)和预排序的自上而下顺序(B)。(a)我b)3D-图7.从单一深度图像重建结构化3D形状的视觉比较三个类别:椅子,桌子,灯。有时候会漏掉部分 为了得到足够的生成模型,平衡几何生成和结构恢复的难度是很重要的。除了随机生成,我们还在图6中显示了插值结果。特征向量间的插值是一种表示学习形状特征空间连续性的方法从我们的潜在空间的线性插值产生平滑过渡形状的几何和结构。4.3. 与3D-PRNN的比较由于3D-PRNN [58]是最相关的工作,我们与它们进行了全面的比较。 我们首先通过仅评估形状的结构来从单个深度图像中计算重建任务,因为3D-PRNN不能恢复形状几何。对于数据集中的每个3D形状,我们通过642的分辨率获得5个深度图。我们统一采样5个视图,并使用地面真实网格渲染深度图像 对于3D-PRNN和我们的模型,我们使用部分轴对齐的边界框(AABB)作为结构表示。此外,3D-PRNN使用来自输入部件的预排序顺序因此,除了使用PartNet注释中的自然顺序外,我们还根据3D-PRNN使用的顶级顺序训练模型。图7显示了我们的PQ-NET和3D-PRNN之间的视觉比较 我们的方法可以重建出许多合理的盒子。对于定量评估,我们通过完全填充每个部分框将输出和地面实况框转换为体积模型,并计算生成的模型和相应的地面实况体积之间的IoU因此,我们重建的结构更准确,图8.随机生成的3D图元的视觉比较 3D-PRNN遭受不真实,重复或缺失的部分,而我们的模型可以产生更合理的结果。如表4.3所示。在顺序效应方面,我们对PartNet自然顺序的模型产生了最好的结果。3D-PRNN采用自上而下的顺序时,质量下降了一小部分,但仍优于它们。我们还比较了3D形状生成任务与3D-PRNN,如图8所示。 定量评估和更多细节可在补充材料中找到。4.4. 单视图三维重建我们将我们的方法与IM-NET [11]在从RGB图像进行单视图重建的任务 我们在PartNet数据集上按类别训练了IM-NET。图9显示了结果。 可以看出,我们的方法可以重新覆盖更完整和详细的几何比IM-NET。该模型的优点是,我们还获得分割除了重建的几何。然而,依赖于结构信息可能会导致问题,例如重复或错位的部分,参见图9(c)中的第一个表。我们承认我们的方法在定量评价上并不优于IM-NET。 这可能是由于我们的潜空间与几何和结构纠缠在一起,这使得潜空间不那么均匀。4.5. 应用通过改变应用于我们的网络的训练过程,我们表明,PQ-NET可以服务于两个更多的应用程序,受益于顺序部件组装。形状完成。我们可以通过输入构成部分形状的部分序列来训练我们的网络,并迫使网络重建完整的序列,从而方法秩序椅子表灯平均我们一61.4753.6752.9456.03B58.6848.5852.1753.143D-PRNN一37.2651.3047.2645.27B36.4651.9343.8344.07a)输入深度图b)3D-(c)我d)837−→→输入顺序输出顺序输出形状图9.单视图重建结果。 我们的结果来自在所有三个类别中训练的模型。请注意,我们的方法还恢复了形状结构。完成形状。 我们在椅子上测试了这个想法,通过从零件序列中随机删除k1个零件,k是给定形状的零件总数。图1显示了一个结果,补充材料中提供了更多信息。阶次去噪和部分对应。 我们可以通过对零件订单进行置乱来添加“噪声”,将产生的噪声订单馈送到我们的网络,并强制它重建原始(干净)订单。 我们称这个过程为部分顺序去噪-它允许网络学习给定对象类别的一致部分顺序,例如,椅子,只要我们提供一致的地面实况命令。 例如,我们可以强制执行“后座腿”的顺序,对于腿,我们按顺时针顺序排列它们。 如果所有的零件顺序都遵循这一点,那么就可以直接暗示零件对应关系,这反过来又可以促进零件关系(如对称性)的推断;见图10。 对于结构变量,仍然需要一些工作来从所有可能的(一致的)线性部分序列推断部分对应;这超出了我们当前工作的范围。然而,值得注意的是,如果零件被组织成高-[53,31,36]而不是线性的。5. 结论、局限性和未来工作我们提出了PQ-NET,这是一种深度神经网络,它表示并生成3D形状作为零件的装配序列。该生成可以从随机噪声中获得新的形状,或者以单视图深度扫描或RGB图像为条件进行3D重建。在各种应用中证明了有希望的结果,并与最先进的3D形状生成模型(包括IM-NET [10],StructureNet [36]和3D-PRNN [58])进行了比较。图10.部分顺序去噪结果。 我们的方法可以unscram-ble随机输入顺序到一个一致的输出顺序,以促进部分对应。请注意,颜色对应关系仅用于插图,而不是我们网络输出的一部分其中后者的工作还生成部件组件。PQ-NET的一个关键限制是它不学习部件关系,如对称性;它只输出形状部件的空间排列。 更有表现力的结构表示,如对称层次[53,31]和图形[36]可以很容易地编码这种关系。然而,要学习这样的表示,需要准备足够的训练数据,这是一个不平凡的任务。第4.5节中所示的零件对应应用突出了顺序表示的优点,但一般来说对顺序与 学习生成式形状模型的方法是值得的。另一个限制是PQ-NET不产生拓扑改变插值,特别是在具有不同数量部件的形状之间。序列模型形成的潜在空间有待进一步研究。我们还想更仔细地研究我们的网络学习到的潜在空间,它似乎以一种纠缠和不可预测的方式编码零件结构和几何形状。 这可以部分解释为什么PQ-NET的3D重建质量仍然不完全匹配最先进的隐式模型,如IM-NET。最后,如表4 - 3所示,零件顺序似乎确实影响网络学习. 因此,不是坚持固定的零件顺序,网络可以针对不同的形状类别学习良好的(如果不是最佳的)零件顺序,即,最佳装配顺序。 一个有趣的问题是,什么样的损失才能量化最好的零件订单。确认我们感谢匿名评论者的宝贵意见。 这项工作得到了中国国家重点&研发计划(2019YFF0302902),NSFC(61902007),NSERC Canada(611370)和Adobe礼品 的 部 分 支 持 。 徐 凯 获 国 家 重 点 & 研 发 计 划(2018AAA0102200)资助。a)输入图像(b)IM-(c)我(一)Ground838引用[1] P. Achlioptas,奥氏海鲶O.迪亚曼蒂岛Mitliagkas和L.Guibas 三维点云的学习表示与生成模型。arXiv预印本arXiv:1707.02392,2018。一二三五六[2] B. 艾伦湾Curless和Z. 我的天人体形状的空间:距离扫描的重建和参数化. ACM Trans. Graph. ,22(3),2003.2[3] M. Arjovsky,S.Chintala和L.博图Wasserstein生成对抗网络。In D.Precup和Y.W. Teh,编辑,第34届国际机器学习会议论文集,机器学习研究论文集第70卷,第214 -223页,国际会议中心,澳大利亚悉尼,2017年8月6日至11日。PMLR。5[4] A. Arsalan Soltani,H.黄,J.Wu,T.D. Kulkarni和J. B. 特南鲍姆利用深度生成网络通过建模多视图深度图和轮廓来合成3d形状 在proc CVPR,第1511-1519页,2017年。3[5] I. 比德曼组件解释:人类图像理解的理论PsychologicalReview,94(2):1151[6] 诉Blanz和T.维特 用于合成3D面的可变形模型。 在proc的SIGGRAPH,第187-194页,1999。2[7] R. D. 波斯利现代短语结构语法。一九九六年。1[8]A. X. 张氏T.芬克豪泽湖J. 吉巴斯山口汉拉汉Q. Huang,Z.Li,S.Savarese,M.Savva,S.宋,H.苏J. 肖湖,加-地Yi和F.Yu. ShapeNet:一个信息丰富的3D模型库。(arXiv:1512.03012 [cs.GR]),2015年。2[9] D.- Y. 陈锡铭P. 天,Y。T. Shen和M.欧英基于视觉相似性的三维模型检索研究。 计算机图形学论坛,22(3):223 -232,2003. 5[10] Z. Chen和H.张某 学习用于生成形状建模的隐式场。IEEE计算机视觉与模式识别会议论文集(CVPR),2019年。一二三四五六八[11] Z. Chen和H.张某 学习隐式场生成形状建模。在CVPR,2019年。二、五、七[12] K. 乔湾,巴西-地vanMerrienboer,C.Gu?lcehre,F.布加雷斯,H. Schwenk和Y.本吉奥。 使用RNN编码器-解码器学习短语表示用于统计机器翻译。CoRR,abs/1406.1078,2014。4[13] C. B. Choy,D.徐,J.Gwak,K.Chen和S.Savarese 3d-r2 n2:用于单视图和多视图3d对象重建的统一方法。在欧洲计算机视觉会议上,第628施普林格,2016年。3[14] A. Dubrovnik , F.Xia , 山 核 桃 P.Achlioptas ,M.Shalah,L. Guibas 通过潜在空间因子化的复合形状建模。arXiv预印本arXiv:1803.10932,2019。3[15] H. 范,H.Su和L.Guibas 一种从单幅图像重建三维物体的点集生成网络。 arXiv预印本arXiv:1612.00603,2016年。一、二[16] H. 范,H.Su和L.J. Guibas 一种从单幅图像重建三维物体的点集生成网络 在proc CVPR,第605-613页,2017年。3[17]N. 鱼,M.阿韦尔基乌岛Van Kaick,O.索尔金-霍农,D. Cohen-Or和N.J. 米特拉形状的元表示家 庭 ACM Transactions on Graphics ( TOG ) , 33(4):34,2014。2[18] L. 高,J.Yang,T.吴玉-J. Yuan,H.傅,YK. 赖,以及H. 张某Sdm-net:结构化可变形网格的深度生成网络。arXiv预印本arXiv:1908.04520,2019。3[19] R. Girdhar,D.F. Fouhey,M.Rodriguez和A.古普塔。学习对象的可预测和生成矢量表示欧洲计算机视觉会议,第484施普林格,2016年。二、三[20] T. Groueix,M.Fisher,V.G. 金湾,澳-地C. 罗素和M. 奥布里本文介绍了一种学习三维表面生成的方法 在procCVPR,第216-224页,2018年。一、二、五[21] I. Gulrajani , F. 艾 哈 迈 德 , M 。 阿 尔 约 夫 斯 基 河 谷Dumoulin,以及A. 考维尔改进的瓦瑟斯坦甘斯训练。 在第31届神经信息处理系统国际会议的序言中,NIPS '17,第5769-5779页,USA,2017.Curran Associates Inc.5[22] K. 他,X。Zhang,S.Ren和J.太阳用于图像识别的深度残 差 学 习 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 7705[23] G. Hinton,A.Krizhevsky,N.Jaitly,T.Tieleman和Y. 唐大脑会做逆图形吗?在脑和认知科学秋季学术讨论会,2012年。1[24] D. D. 霍夫曼和W.A. 理查兹承认的一部分认知,第651[25] H. Huang,E.Kalogerakis和B.马林通过深度学习的曲面生成模型分析和合成 3d 形状 族。计算机图形论坛,34(5),2015年。2[26] E. Kalogerakis,S.Chaudhuri,D.Koller和V.科尔顿。一种基于概率的形状合成模型。ACM Transactions on Graphics,31(4),2012。2[27] 诉 G. 金 , W 。 Li, N.J. 米 特 拉 , S 。 Chaudhuri 、S.DiVerdi和T. 放克豪瑟 从大量3D形状中学习基于零件的模板 。ACMTransactionsonGraphic
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功