没有合适的资源?快使用搜索试试~ 我知道了~
1语义部件感知嵌入空间分解器编写器基于部件的形状形状嵌入合成未标记形状全形状座椅靠背、腿、扶手等腿部交换基于潜在空间分解的Anastasia Dubrovina1Fei Xia1Panos Achlioptas1MiraShalah1Raphae¨ lGroscot2 LeonidasGuibas11斯坦福大学2PSL研究型大学摘要我们提出了一种新的神经网络架构,称为分解器,作曲家,语义结构感知的三维形状建模。我们的方法利用自动编码器为基础的流水线,并产生一个新的因式分解的形状潜在空间,其中的形状集合的语义结构转化为数据相关的子空间因式分解,并在形状的组成和分解成为简单的线性运算的嵌入坐标。我们进一步提出使用明确的学习部件变形模块来建模形状组件,该模块利用3D空间Transformer网络来执行网络内体积网格变形,并且允许我们端到端地训练整个系统。由此产生的网络工作,使我们能够执行部分级别的形状操纵,现有的方法无法实现。我们广泛的烧蚀研究,与基线方法的比较和定性分析表明,所提出的方法的性能改善1. 介绍理解、建模和操纵3D对象是视觉和图形社区非常感兴趣的领域,并且近年来已经越来越流行。相关应用的示例包括语义分割[47]、形状合成[41,2]、3D重建[41,4]、三维重建[41,5]、[41,6]构造[8,9],视图合成[45]和细粒度形状分类[3],仅举几例。深度学习技术的进步和大规模3D形状数据集的创建[6]使研究人员能够直接从现有数据中学习特定于任务的表示,并在所有上述领域取得了重大进展。有一个不断增长的兴趣,学习形状建模和合成的结构感知的方式,例如,在语义形状部件的水平。与将形状作为整体考虑的方法相比,这提出了几个挑战。语义形状结构和形状部件几何学通常是相互依赖的,并且语义形状结构和形状部件几何学之间的关系是相互依赖的。图1:给定未标记的形状,分解器将它们映射到分解的潜在空间中。Composer可以用语义部分标签重建形状,或者创建新的形状,例如,通过交换椅子腿。两个必须由系统隐式地或显式地建模和学习。这种结构感知形状表示学习的示例是[24,20,39,43]。然而,用于形状建模的现有方法虽然在系统的中间阶段是部件感知的,但最终仍对整个形状的低维表示进 行 操 作 。 例 如 , [24 , 39] 使 用 变 分 自 动 编 码 器(VAE)[16]来学习人造形状的生成部分感知模型,但VAE的潜在空间对应于完整的形状,其中纠缠的潜在因素对应于不同的语义部分。因此,这些和其他现有方法不能执行部件级形状操纵,诸如单个部件替换、部件插值或部件级形状合成。受最近在图像建模中分离不同图像形成因素的努力的启发,为了更好地控制图像生成过程并简化编辑任务[29,35,36],我们提出了一种新的语义结构-8140重建8141感知形状建模系统。该系统采用了基于自动编码器的流水线,生成了一个既能反映数据集中形状的语义部分结构,又能对不同语义部分的几何形状进行压缩编码的因式分解潜空间。在该潜空间中,不同语义的部件嵌入坐标位于不同的线性子空间中,通过部件嵌入坐标的求和,自然地完成形状合成潜在空间因式分解是数据相关的,并且使用学习的线性投影算子来此外,所提出的系统操作的未标记的输入形状,并在测试时,它同时推断形状为此,我们提出了一个分解器-合成器管道,如图1所示。分解器将由占用网格表示的输入形状映射到上述分解的潜在空间中。Composer从一组部件嵌入坐标中用语义部件标签重建形状。它显式地学习要应用于零件的变换集,以便它们一起形成语义和几何上合理的形状。为了学习和应用这些部分变换,我们采用了空间变换器网络(STN)的3D变体[12]。3D STN先前用于缩放和平移[11]中表示为3D占用网格的对象,但据我们所知,我们的方法是第一种提出占用网格的网络内仿射变形的方法。最后,为了促进基于零件的形状操作,例如零件替换、零件插值或从任意零件进行形状合成,我们采用了循环一致性约束[48,29,25,38]。我们利用的事实是,De- composer将输入形状映射到分解的嵌入空间中,从而可以控制哪些部分被传递到Composer进行重建。给定一批输入形状,我们应用我们的分解器-合成器网络两次,同时在第一个合成器应用程序之前随机混合部分嵌入坐标,然后在第二个合成器应用程序之前将它们解混到它们的原始位置。使用循环一致性损失,要求所得形状尽可能类似于原始形状。主要贡献我们的主要贡献是:(1)一种新的潜在空间分解方法,其使得能够直接在学习的潜在空间中使用线性操作来执行形状结构操纵;(2)应用3D STN来执行网络内仿射形状变形,用于端到端训练和改进的重建精度;(3)结合循环一致性损失以提高重建质量。2. 相关工作基于学习的形状合成基于学习的方法已经被用于从复杂的现实世界领域自动合成形状;在一项开创性的工作[13]中,Kalogerakis et al. 使用了一个概率模型,它学习了连续的几何特征和离散的组件结构,基于组件的形状合成和新的形状生成。深度神经网络的发展使学习高维特征变得更加容易; 3DGAN [41]使用3D解码器和GAN来生成体素化形状。类似的方法已应用于3D点云,并在形状合成中实现了高保真度和多样性[2]。除了使用潜在表示生成形状之外,一些方法从具有结构的潜在表示生成形状。SSGAN [40]以2阶段的方式生成3D场景的形状和纹理。GRASS [20]分两个阶段生成形状:首先,通过生成定向的边界框,然后在这些边界框内生成详细的几何形状。Nash和Williams [24]使用点云形状表示和VAE来学习形状的概率潜在空间;然而,他们要求所有训练数据都是点对点对应的。在相关的工作[39]中,Wanget al.介绍了一种用于3D形状的基于3D GAN的生成模型,该模型产生分割并标记成零件形状。与后一种方法不同,我们的网络不使用预定义的子空间进行部分嵌入,而是学习将整个形状的潜在代码投影到与不同部分的代码对应的子空间。在同时的努力中,提出了几种基于零件的形状合成的深度架构[32,19,44,23]。Schor等人[32]利用基于点的形状表示,同时对具有已知的每点零件标签的输入模型进行操作。Li等[19]和[44]提出了两种用于基于部件的形状合成的生成网络,对标记的体素化形状进行操作。Mo等人[23]介绍了一种用于学习结构感知形状生成的分层图形网络。空间Transformer网络空间变换器网络(STN)[12]允许轻松地将变形纳入学习管道。Kurenkov等人[17]从一个RGB图像检索3D模型并生成变形场以修改它。Kanazawa等人[14]使用模板形状和变形对铰接或柔软的对象进行建模。Lin等[21]迭代地使用STNs,将前景扭曲到背景上,并使用GAN将合成结果约束到自然图像流形。Hu等人[11]使用3D STN来缩放和平移作为体积网格给出的对象,作为场景生成网络的一部分。受这一工作的启发,我们将仿射变换模块纳入我们的网络。这样,生成模块只需要生成规格化的零件,而变形模块只需要生成规格化的零件。8142i=1i=1图2:建议的分解器-合成器架构。转换模块转换并将部件组装在一起。深层潜在空间分解建议的几种方法来学习解纠缠的潜在空间的图像表示和操作。β-VAE [10]引入了可调节的超参数β,其平衡潜在信道容量和独立性约束与重建精度。InfoGAN [7]通过最大化潜在代码和图像标签的某些通道之间的互信息来一些方法使用内在分解来解开图像生成过程,例如反照率和阴影[36],或标准化形状和变形网格[29,35]。所提出的方法与[29,35,36]的不同之处在于,它将完整和部分形状映射到相同的低维嵌入空间中,而在[29,35,36]中,不同的组件具有它们自己的分离的嵌入空间。神经网络中的投影投影广泛应用于表征学习。它可以用于从一个域到另一个域的转换[4,27,28],这对于自然语言处理中的翻译等任务例如,Senelet al. [33]使用投影将词向量映射到语义类别。在这项工作中,我们使用不同的语义因素。我们建议将该嵌入空间V建模为子空间{Vi}K的直和,其中K是语义部分的数量,并且每个子空间{Vi}对应于语义部分i,从而满足因子分解一致性性质。第二属性每个向量v∈V都由唯一的vi∈ Vi的和给出,使得V =V1... ,并且可以通过部分嵌入求和来执行部分合成。第这也意味着嵌入空间中的分解和合成操作是完全可逆的。用于这种因式分解的简单方法是将η维嵌入空间的维度分成K个坐标组,每个组表示某个语义部分嵌入。在这种情况下,完整形状嵌入是部分嵌入的串联,这是[39]中探索的方法。然而,这对部分嵌入的维数提出了严格的约束,并且因此也对每个部分嵌入子空间的表示能力提出了严格的约束假定不同的语义部分可能具有不同的几何由于复杂性,这种因式分解可能是次优的。相反,我们执行数据驱动的学习分解的嵌入空间到语义子空间。 我们使用学习的特定于部件的投影矩阵,表示为一个投影层,用于将整个形状嵌入{Pi}K∈Rn×n。为确保上述两项语义部分嵌入。3. 我们的模型3.1. 分解器网络因式分解性质成立,投影矩阵必须形成恒等式的一个划分,并满足以下三个性质(1)P2=P,i,我我分解器网络被训练为将未标记的形状嵌入到分解的嵌入空间中,反映形状集合的共享语义结构。为了允许合成形状合成,嵌入空间必须满足以下两个性质:因子分解一致性跨输入形状,并存在一个简单的形状组合运算符来组合的潜在表示(2)当i=j时,PiPj=0(3)P1+…+PK=I,⑴其中0和I分别是全零矩阵和大小为n×n在实践中,我们有效地实现了投影操作-使用完全连接的层而不增加偏置的发生器(B)投影矩阵(C)部分解码器部分解码器(A)二进制形状编码器部分解码器二进制体积N-D编码部分解码器堆叠解码部分卡菲内变换参数堆叠变形零件重构标示体积空间Transformer网络n维部分编码缩放和中心解码部分分解器作曲家投影PK投影P1零件重采样投影P0…………(D)本地化网络8143输入量分解器各组分搅拌编码作曲家卷与混合部分周期一致性损失i=1总共有K*n2个变量,如等式1所示。投影层接收由3D卷积形状产生的整体形状编码作为输入编码器形状编码器和投影层的参数同时学习。分解器网络的所得架构在图2中示意性地描述,并且形状编码器和投影层架构的详细描述在补充材料中给出3.2. 作曲家网络我二进制输出音量作曲家去混合部分编码分解器合成器网络被训练为从语义部分嵌入坐标的集合重构具有语义部分标签的形状。最简单的作曲家实现将包括一个单一的解码器镜像整个二进制形状编码器(见图2),产生一个语义标记的重建输出形状。例如,在[39]中使用了这种方法。然而,已知这种直接方法在重建薄的体积形状部分和其他精细形状细节时失败。为了解决这个问题,我们使用不同的方法,其中我们首先使用共享部分解码器分别重建缩放和居中的形状部分。然后,我们产生每个部分的变形参数,并使用它们以连贯的方式变形的部分,以获得一个完整的重建形状。在我们的模型中,我们做了一个简化的假设,它是可能的组合成一个合理的形状,通过将它们与每部分仿射变换和平移。虽然产生合理形状的真实变换集明显更大更复杂,但我们的实验表明,所提出的简化模型成功地产生了几何和视觉上合理的结果。该网络内部分变换使用3D空间变换器网络(STN)来实现[12]。它包括一个本地化网络,它产生一组12维仿射变换(包括平移)的所有部分,和一个重新采样单元,它变换和放置重建的部分体积在其正确的位置在完整的形状。SNT接收来自部分解码器的重构部分和部分编码的总和作为输入,图2中示意性地描述了生成的Composer架构;补充材料中给出了详细描述。我们注意到,所提出的方法与[20]的两阶段形状合成方法有关,其中首先使用GAN来合成不同部件的定向边界框,然后使用单独的部件解码器来创建每个边界框的部件几何我们的方法是类似的,但它以相反的顺序工作。也就是说,我们首先重建零件几何形状,然后计算每个零件的仿射变换参数,这些参数是[20]中定向零件边界框的12维等价物。类似地图3:循环一致性约束的示意性描述。详情见第3.3到[20],这种两阶段方法改进了精细几何细节的重建。然而,与GAN和部分解码器分别训练的[20]不同,在我们的方法中,这两个阶段属于同一个重建管道,同时进行端到端训练。3.3. 循环一致性我们的训练集是由三维形状与地面真实语义部分分解;它不包括合成复合形状的任何训练示例。用于这种形状组装任务的现有方法在具有非常精确的分割的3D网格上操作,并且通常具有关于部件连接性的附加知识[46,34,13]。这些方法不能应用于像我们这样的数据集以产生足够大的一组合理的新形状(从现有部分构造),以用于训练用于复合形状建模的深度网络。为了cir- cumvent这一困难,并训练网络产生非平凡的部分变换的几何和semanti- cally合理的部分安排,我们使用一个循环consis- tency约束。它以前已用于几何处理[25],图像分割[38],最近用于神经图像变换[29,48]。具体地,给定一批M个训练形状{X}M,我们使用分解器将它们映射到分解后的潜在空间,从而产生每个输入的K个语义部分编码把形状。 我们随机混合批次中的形状的部分编码,同时确保在混合之后,新的M个编码集合中的每一个包括每个语义部分的恰好一个嵌入坐标。然后,我们重建结构的形状与相应的混合部分使用作曲家。之后,这些新的形状再次被传递到分解器-合成器流水线,同时对由第二分解器应用产生的部分编码进行循环一致性要求意味着最终形状尽可能类似于原始M个训练形状。 我们使用循环一致性来8144F下一节中描述的损失。图3中示意性地描述了所提出的具有部分编码混合和解混合的网络的双重应用。3.4. 损失函数我们的损失函数定义为以下几个损失项L=w PI L PI +w 部 分L 部 分+w 反 式L反 式+w 循 环L循 环。(2)权重补偿了损失项的不同尺度,并反映了它们的相对重要性。如等式1所给出的,同一性损失LP1的划分测量预测投影矩阵与最优投影的偏差。图4:针对椅子和桌子形状的建议管线的重建结果。灰色形状是输入测试形状;根据部件标签对结果进行着色。4. 实验ΣK22ΣK2数据集在我们的实验中,我们使用了来自L proj(P1,…Pk)=i=1Pi−Pii,j=l,i/=jPiPjShapeNet 3D数据收集[6],带有Yi等人制作的部分注释。[47 ]第47段。形状被转换为P1+... PK-我是200万(三)使用binvox的32×32×32占用网格[26]。塞曼-TIC部分标签首先被分配给所占用的体素AC。部分重建损失L部分是重建的居中和缩放部分体积与它们各自的地面实况部分指示体积之间的二进制交叉熵损失在K个部分上求和变换参数损失Ltrans是预测值和真实值12维变换参数向量之间的L2回归损失,求和K部分。与原始STN方法[12]不同,我们发现对转换参数的直接监督对于我们的网络收敛至关重要。循环一致性损失L循环是地面实况输入卷及其重建之间的二进制交叉熵损失,使用所提出的网络的两个应用程序获得。工作,如第3.3节所述。3.5. 培训详情该网络在TensorFlow [1]中实现,并以批量大小32训练了500个epoch。我们使用Adam优化器[15],学习率为0。0001,衰减率为0。8,衰减步长为40个历元。我们发现必须首先分别预训练二进制形状编码器、投影层和部分解码器参数150个历元,通过最小化部分重建和身份损失的分区,并使用wtrans=wcycle≈0,以改善部分重建结果。然后,我们再训练空间Transformer网络的参数100个epoch,同时保持其余参数固定。之后我们恢复具有所有参数和循环一致性损失的训练以微调网络参数。最优损失组合权重的经验检测使用验证集,并设置为wPI=0。1,w部分=100,w反式=0。1,w周期= 0。1.一、网络分别在每个形状类别上进行训练根据与标记的3D点的接近度,使用体素域中的图形切割获得最终体素标记[5]。我们使用官方ShapeNet训练、验证所有实验中的测试数据都是分裂的64×64 ×64占位格网的其他结果可在补充材料中找到。4.1. 形状重建图4呈现了使用所提出的网络从未标记的输入形状重构语义标记的形状的结果。注意,由于我们的方法使用部分解码器执行单独的部分重建,并且使用STN执行部分放置,因此与分割方法(例如,图4中重建的最右边椅子的把手)相比,它可能产生不太准确的部分重建。但是,正如我们在4.4节中的定量研究所示,这使我们能够更好地执行基于零件的形状操作。4.2. 复合材料形状合成通过部分交换的形状合成在该实验中,我们使用我们的结构化潜在空间来随机交换输入形状对的相应嵌入坐标(例如,嵌入两把椅子的腿或座位的坐标),并使用Composer重建新的形状结果在图5中示出,并且证明了我们的系统执行准确的部件交换的能力,同时使新部件和现有部件的几何形状变形以获得合理的结果。有关使用四个形状类别的其他结果,请参见通过随机部件组装的形状组合在该实验中,我们测试了所提出的网络使用我们的因子分解la从随机部件组装形状的能力8145GT1REC1SWAP1SWAP2REC2GT2图5:单个部分交换实验。GT1/2描述地面真实形状,REC1/2重建结果,SWAP1/2部分交换结果。未标记的形状用作输入。图6:通过随机部件组装的形状组成顶行示出了地面实况(GT)形状,并且底行示出了使用所提出的方法组装的形状(参见第4.2节)。未标记的形状用作输入。帐篷空间具体来说,我们使用分解器将输入形状的批次映射到潜在空间中,并通过随机混合批次中形状的部分嵌入坐标来创建新形状图6中示出了椅子和桌子的结果,并且示出了所提出的方法组合来自不同形状的部分、缩放和平移它们以使得所得到的形状看起来真实的能力。有关其他形状组合结果,请参见补充材料。嵌入空间中的全插值和部分插值在这个实验中,我们测试了重建从线性插值嵌入坐标的完整形状,以及一个单一的语义部分。对于后者,我们执行了上述的部分交换实验,并且内插该部分的坐标,同时保持其余部分嵌入坐标固定。结果如图7所示。参见补充材料附加插值结果。4.3. 潜在空间和投影矩阵分析使用所提出的方法获得的潜在空间表现出明确的分离成对应于不同的子空间。不同的语义成分。投影矩阵虽然不是严格正交的,但如恒等式(1)的划分所要求参见潜在空间和投影矩阵可视化的补充资料。4.4. 消融研究和与现有方法的比较4.4.1消融研究为了突出我们方法的不同元素的重要性,我们进行了一项消融研究,其中我们使用了所提出的方法的几个变体,如下所示。代替在分解器中使用学习的投影矩阵,n维形状编码被分成K个连续的相等大小的分段,其对应于不同的部分嵌入子空间。这等同于使用恒定投影矩阵,其中对应于特定嵌入空间维度的行的元素为1,其余元素为0。作曲家没有STN我们取代了建议的作曲家,组成的部分解码器和STN,与一个单一的解码器产生一个标记的形状。解码器接收部分编码的总和作为输入,用两个FC层对其进行处理以组合来自不同部分的信息,然后使用一系列去卷积步骤用部分标签重建形状,类似于所提出的架构中的部分解码器。在网络训练过程中,我们去除了循环损失分量。4.4.2与现有方法的比较大多数现有的复合材料形状建模方法都是在精确的零件分割三角网格上进行的。因此,它们不直接适用于具有较不精确分割的大规模ShapeNet数据集,妨碍了公平比较。因此,我们增加了以下与现代基于神经网络的技术的比较:我们将最先进的ComplementMe方法[37]与3D-CNN分割网络[30]相结合。从前者,我们使用的组件放置网络,其中,给定的部分形状和互补的组件,产生一个3-D的翻译,以正确地放置组件w.r.t.部分形状。为了产生这两个网络一起取代了我们提出的分解器-合成器。两个网络都使用组合GT回来腿81469GT1REC1α=1α=29α=39α=49α=59α=69α=79α=89REC2GT2图7:整体(顶部)和部分(底部)形状插值的示例。GT1/2表示原始模型,REC1/2表示它们的重建,线性插值结果位于中间。未标记的形状用作输入。度量方法MiouMiou(部分)连接分类器精度对称评分Rec.Rec.Rec.交换混合Rec.交换混合Rec.交换混合我们的方法0.640.650.820.710.650.950.890.830.950.950.95无循环损失0.630.660.740.620.540.930.840.800.960.960.95固定放映0.630.650.720.610.580.940.860.770.940.950.95Composer w/o STN0.750.80.690.480.230.950.90.710.950.910.85朴素放置---0.680.620.610.470.21-0.960.96补体---0.710.47-0.660.43-0.660.43分割+STN---0.410.64-0.640.36-0.770.77表1:消融研究结果。评估指标是平均交集超过并集(mIoU),每部分平均IoU(mIoU(parts)),形状连接性度量,二进制形状分类器准确性和形状对称性得分。建议:Swap和Mix分别代表形状重建、部件交换和随机部件组装实验结果(参见第4.2节)。有关比较方法和评价指标的详细描述,请参见第4.4与所提出的方法相同的训练数据该方法在表1中由ComplementMe表示。为了额外的比较,我们利用空间变换器网络代替ComplementMe的放置网络。这里,使用地面实况形状部分来训练STN,并且在测试时,将其应用于上述分割网络的结果。该方法由表1中的分段+STN表示。最后,我们比较了所提出的方法,一个基线形状组成网络。给定地面实况形状部分,它通过将这些部分放置在它们被提取的源形状中的原始位置来从这些部分组成新形状。 我们的数据集中的所有形状的中心和均匀缩放,以填补单位体积,存在集群的几何和语义相似的形状。因此,我们可以预期,即使这种没有部分转换的天真方法在某些情况下也会产生令人满意的结果。该方法由表1中的朴素放置表示。参见补充材料,了解与3D-GAN [42]和G2 LGAN[39]的附加定性比较使用64×64 ×64体素化形状。4.4.3评估指标并集上的平均交点(mIoU)为通常用于评估分割算法的性能[22]。在这里,我们使用它作为重建质量的度量。我们计算了实际大小的重建部分以及缩放和居中部分(适用时)的mIoU。我们在表1中用mIoU和mIoU(部分)表示这两个度量。连接性在基于零件的形状合成中,一个病理问题是零件通常是断开的,或者彼此隔开。在这里,我们想从零件连接性的角度对零件放置对于每个32×32×32体积,我们计算形成单个连接组件的形状的频率,并在表1中将其报告为连接性。分类精度为了衡量不同方法的形状组成质量,我们训练了一个二进制神经分类器来区分地面真实整体回来整个8147椅子(作为正例)和通过简单地将随机椅子部件放置在一起而产生的椅子为了构建否定示例,我们随机组合地面实况形状部分,只添加一次特定的语义部分,并将这些部分放置在它们所显示的源形状中的原始位置。此外,我们删除了从几何形状和语义相似的椅子的部件组装的负例,因为这样的部件的安排可能会产生似是而非的形状错误地放置在负例集。 在测试集上获得的分类精度为88%。对于给定的一组椅子,我们报告平均分类得分。网络的详细信息可以找到在补充材料中。 结果报告为表1中的分类器精度。对称ShapeNet中的椅子形状主要是两侧对称的,具有垂直对称平面。因此,类似于[39],我们评估了重建形状的对称性,并将对称性评分定义为重建体积中匹配体素(填充或空)的百分比及其相对于垂直对称平面的反射我们使用二值化重建结果进行了此评估,有效地测量了形状的全局对称性 为了评估,我们使用测试集中的形状(690个形状),并进行了三种类型的实验:形状重构、一对随机形状之间的单个随机部分交换、通过随机部分组装的形状组合。在第4.1和4.2节中更详细地描述了实验。4.4.4评价结果讨论根据所有的指标,我们的方法优于或表现与所有的基线,并显着优于其他现有的方法。这表明,我们的设计选择-循环损失、学习的投影矩阵和STN的使用,有助于在重建形状时以及在执行复合形状合成时实现合理的结果这在连通性测试结果中尤其明显,说明这些设计选择对于实现良好的组装质量是必要的在分类器准确性测试和对称性测试中,所提出的方法表现稍好或与消融研究中考虑的所有基线相当。这两个测试似乎对断开的形状分量不太敏感,并且所提出的方法在基线上实现的最大优点在于其组合稳健性。正如预期的那样,朴素放置也实现了高对称性得分,因为它保留了地面的对称性在形状装配过程中的真实零件。根据mIoU和每个部件的mIoU指标,所提出的方法与所有基线一样,除了使用Composer的简单版本时,STN.这是因为所提出的系统在重建更好的精细几何特征的同时,将问题分解为两个推理问题,即几何和变换,因此不会像简单解码器那样产生原始模型的忠实重建值得注意的是,这个版本的架构实现了所有比较方法的最差连通性得分,这是因为这样的分解器无法忠实地重建精细的形状细节。所有比较方法结果的定性比较见补充资料。5. 结论和今后的工作我们提出了一个分解器-合成器网络的结构感知三维形状建模。它能够生成分解的潜在形状表示,其中不同的语义部分嵌入坐标位于单独的线性子空间中。子空间分解允许我们通过部分嵌入坐标来执行形状操作,在形状之间交换部分,或者通过从随机部分组装形状来合成新的形状。定性结果表明,该系统可以生成高逼真度的三维形状和有意义的部分操作。定量结果表明,我们在mIOU,连接性,对称性和分类基准的竞争力虽然所提出的方法向自动化零件成形组装迈出了一步,但它具有几个限制。首先,虽然我们可以以相对较低的分辨率生成高保真形状,但内存限制不允许我们使用更高分辨率的体素化形状。内存高效的架构,如OctNet [31]和PointGrid [18],可以帮助缓解这种限制。或者,使用基于点的形状表示和兼容的深度网络架构,例如[30],也可以降低存储器要求并提高输出分辨率。其次,我们做了一个简化的假设,一个plausible形状可以组装从部分使用每部分仿射变换,这只代表一个子集的可能的转换。虽然这个假设简化了训练,但就我们可以执行的变形而言,它是相当有限的。在以后的工作中,我们将考虑具有更高自由度的一般变换,例如3D薄板样条或一般变形场。为了促进更好的部件连接性,我们将探索额外的形状连接性保留损失,类似于[39]。最后,我们一直使用交叉熵损失来衡量形状重建质量;研究在这种结构感知形状生成环境中使用GAN型损失将是有趣的。8148引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,第16卷,第265-283页,2016中。5[2] Panos Achlioptas,Olga Diamanti,Ioannis Mitliagkas,and Leonidas Guibas.三维点云的表示学习和对抗生成。arXiv预印本arXiv:1707.02392,2017。一、二[3] Panos Achlioptas , Judy Fan , X.D.Robert Hawkins ,D.Noah Goodman和J.列奥尼达·吉巴斯ShapeGlot:学习形状区分的语言。CoRR,abs/1905.02925,2019。1[4] 杰里米·巴恩斯罗曼·克林格和萨宾·舒尔特。投影用于域适配的嵌入:不同领域情感分析的联合建模。arXiv预印本arXiv:1806.04381,2018。3[5] Yuri Boykov Olga Veksler和Ramin Zabih通过图割的快速近似能量最小化IEEE Transactions on pattern analysisand machine intelligence,23(11):1222- 1239,2001.5[6] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。一、五[7] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大化生成式对抗网络进行可解释的表示学习神经信息处理系统的进展,第2172-2180页,2016年3[8] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上,第628-644页施普林格,2016年。1[9] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在CVPR,第2卷,第6页,2017年。1[10] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae:使用受约束的变分框架学习基本视觉概念。2016. 3[11] Ruizhen Hu , Zihao Yan , Jingwen Zhang , Oliver vanKaick,Ariel Shamir,Hao Zhang,and Hui Huang.用于对象功能的预测和生成神经网络。在Computer GraphicsForum ( Eurographics State-of-the-art report ) , 第 37卷,第603-624页2[12] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统的进展,第2017-2025页,2015年。 二、四、五[13] Evangelos Kalogerakis ,Siddhartha Chaudhuri,DaphneKoller,and Vladlen Koltun.基于构件的形状合成的概率模 型 。 ACM Transactions on Graphics ( TOG ) , 31(4):55,2012。二、四[14] Angjoo Kanazawa 、 Shahar Kovalsky 、 Ronen Basri 和David Jacobs 。 从 2d 图 像 学 习 动 物 的 3d 变 形 。 在Computer Graphics Forum,第35卷,第365-374页中。Wiley Online Library,2016. 2[15] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[16] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。1[17] Andrey Kurenkov , Jingwei Ji , Animesh Garg , VirajMehta,JunYoung Gwak,Christopher Choy,and SilvioSavarese. Deformnet:自由变形网络,用于从单个图像重建3D形状。在2018年IEEE计算机视觉应用冬季上,第858-866页IEEE,2018年。2[18] 特吕克·勒和叶端。Pointgrid:用于3D形状理解的深度网络。在IEEE计算机视觉和模式识别会议论文集,第9204- 9214页8[19] 李俊,牛成杰,徐凯。结构感知形状合成的学习零件生成和装配arXiv预印本arXiv:1906.06693,2019。2[20] Jun Li,Kai Xu,Siddhartha Chaudhuri,Ersin Yumer,Hao Zhang,and Leonidas Guibas. Grass:用于形状结构的生成递归自动编码器。ACM Transactions on Graphics(TOG),36(4):52,2017。一、二、四[21] Chen-Hsuan Lin , Ersin Yumer , Oliver Wang , EliShechtman,and Simon Lucey.St-gan:用于图像合成的空间Transformer生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第9455-9464页,2018年。2[22] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页,2015年。7[23] Kaichun Mo , Paul Guerrero , Li Yi , Hao Su , PeterWonka,Niloy Mitra,and Leonidas Guibas.结构网:用于三维形状生成的层次图形网络。arXiv预印本arXiv:1908.00575,2019。2[24] 查理·纳什和克里斯·凯·威廉姆斯。形状变分自动编码器 : 部 分 分 割 3D对 象 的 深 度 生 成 模 型 在 ComputerGraphics Forum,第36卷,第1-12页中。Wiley OnlineLibrary,2017. 一、二[25] Andy Nguyen、Mirela Ben-Chen、Katarzyna Welnicka、Yinyu Ye和Leonidas Guibas。一种改进形状图集合在Computer Graphics Forum,第30卷,第1481-1491页中Wiley Online Library,2011. 二、四[26] 法基尔Nooruddin和Greg Turk使用体积技术简化和修复多 边 形 模 型 。 IEEE Transactions on Visualization andComputer Graphics,9(2):191-205,2003. 5[27] 克里斯蒂安·波利茨基于投影的迁移学习。在ECML研讨会,2014年。3[28] Dominic V Poerio和Steven D Brown。使用正交投影的双域校准传递。应用光谱学,72(3):378-391,2018。38149[29] Albert Pumarola、Antonio Agudo、Aleix M Martinez、AlbertoSanfeliu和FrancescMoreno-Noguer。Ganimation:从单个图像中获得解剖感知面部动画在欧洲计算机视觉会议(ECCV)的会议记录中,第818-833页,2018年。一、二、三、四[30] Charles R Qi, Hao Su ,Kaichun Mo , and Leonidas JGuibas.Pointnet:用于3D分类和分割的点集深度学习。Proc.ComputerVisionandPatternRecognition(CVPR),IE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功