3D形状分割的同步谱CNN

194 浏览量更新于2023-10-16 收藏 2.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2282SyncSpecCNN：用于3D形状分割的同步谱CNN李毅1郝苏1郭兴文2 LeonidasGuibas11斯坦福大学2香港大学摘要在本文中，我们研究的问题，语义标注的3D模型表示为形状图。采用功能视图来表示图形上的本地化信息，因此诸如零件段或关键点之类的注释只不过是0-1指示符顶点函数。与二维网格图像相比，形状图是不规则的、非同构的数据结构。为了能够通过卷积来形状图SyncSpecCNN部分分割关键点预测神经网络，我们求助于谱CNN方法，该方法通过在图拉普拉斯特征基所跨越的谱域中参数化核来实现权重共享。在这种情况下，我们的网络，名为SyncSpecCNN，努力克服两个关键挑战：如何共享系数并在图形的不同部分对单个形状进行多尺度分析，以及如何在可能由非常不同的图形表示的相关但不同的形状之间共享信息。为了实现这些目标，我们引入了一个频谱参数化的扩张卷积核和频谱Transformer网络。在实验中，我们测试了SyncSpecCNN的各种任务，包括3D形状部分分割和关键点预测。在所有基准数据集上都实现了最先进的性能。1. 介绍正如在图像领域已经发生的那样，3D模型的广泛可用性带来了将语义信息与3D数据相关联的需求在这项工作中，我们专注于注释的问题，由2D网格表示的3D模型与部分信息。理解物体的各个部分（例如，椅子的靠背、座位和腿）对它的几何结构、风格和功能都是必不可少的。最近在3D模型的大规模零件注释方面取得了重大进展[29]（例如，为ShapeNet [4]模型的子集）-我们的目标是利用这一丰富的数据集来推断新的3D对象模型的部分。我们的技术还可以用于推断3D模型中的关键点和其他子结构。应用传统的深度学习并不简单图1.我们的SyncSpecCNN采用配备有顶点函数（即，空间坐标函数）作为输入，并预测每顶点标签。该框架是通用的，不限于特定类型的产出。我们在这里展示了3D零件分割和3D关键点预测作为示例输出这是3D模型的最佳方法，因为网格表示可以是组合不规则的，并且不允许卷积方法所利用的优化，例如权重共享，其取决于规则的网格结构。在本文中，我们采取功能的方法来表示形状的信息，从观察到的形状部分本身只是一个0-1的指示功能定义的形状。我们的基本问题是学习形状上的函数。我们从训练集中给定形状集合上提供的示例函数开始，并构建一个神经网络，当给定一个新的3D模型时，该神经网络可以推断出相同的函数。这表明使用的频谱制定，基于一个对偶图表示的形状，产生基地的功能空间建立在网格上。使用这种图形表示，我们在构建卷积神经架构时面临多个挑战。一个是如何共享系数，并在图形的不同部分进行多尺度另一个是如何在相关但不同的形状之间共享信息，这些形状可能由非常不同的图形表示我们引入了一种新的架构，同步频谱 CNN（SyncSpecCNN）来解决这些问题。我们的神经网络的基本架构类似于[17]的全卷积分割网络，即，我们重复通过内核卷积顶点函数并应用非线性变换的操作。2283第然而，我们的网络将处理结合在可以用不同的碱基表示，即，f=Σiai bi原始和对偶（谱）域。我们处理通过在谱域中执行卷积，在原始域中不同尺度的卷积核之间进行权重共享的问题，其中它们只是通过核函数进行逐点乘法。我们的关键构建块包括传递到对偶，执行逐点乘法，然后返回到原始表示，以执行适当的非线性步骤（这样的操作不容易对偶）。跨形状的信息共享问题更具挑战性。由于不同的形状在其点云上产生不同的最近邻图，因此我们得到的图拉普拉斯算子的特征基是不可直接比较的。我们通过在谱域中应用函数映射来同步所有这些拉普拉斯算子，一个共同的规范空间。对齐的功能地图成功地编码所有的双重信息的一组共同的基函数，其中发生全局学习地图的初始版本直接从几何图形计算，并在训练期间以数据依赖的空间Transformer网络的方式进一步细化。我们已经在各种任务上测试了我们的SyncSpecCNN，包括3D形状部分分割和3D关键点预测。我们在所有这些任务上都实现了最先进的性能。我们的方法的主要贡献如下：• 我们是光谱CNN家族中第一个针对非等距形状的• 为了允许在不同的非等距形状之间共享权重，我们学习了一个光谱Transformer网络。• 我们介绍了一种有效的谱多尺度核构造方案。2. 背景3D形状分割我们的框架的一个重要应用是以监督的方式获得3D形状的语义部分分割。沿着这条轨道，大多数以前的方法[12，28，18，7]采用传统的机器学习技术，并基于几何特征构建分类器。在无监督形状分割领域，有一系列方法[15，16]强调频谱分析对3D形状分割的有效性。受此启发，我们的框架旨在将深度神经网络和频谱分析的力量结合起来，用于3D形状分割。图的谱分析我们将一个三维形状S建模为一个图G=（V，E），其顶点V是R3中的点，边E连接附近的点。在每个顶点我们可以指定一个向量这样，我们在G上定义了一个向量值点函数。例如，形状上的线段可以表示为指示符顶点函数。定义在G上的函数空间F对于f∈ F. 构造F的基的一种方法是通过频谱分析的LaplacianL形成一个正交基B={bi}。一类图的拉普拉斯算子可以构造为L=I-D-1/2WD-1/2，其中I是单位矩阵，D是度矩阵，W是G的邻接权矩阵。在这种构造下，对应于B的特征值λ ={λ i}满足0 ≤ λ i≤ 2。谱分解还引入了频率的概念。对于每个基函数bi，分解中的特征值λi定义了它的频率，描述了它的平滑性。通过将f投影到每个基函数bi上，可以获得系数αi α={αi}是谱f的表示，类似于傅立叶系数in flat平坦space空间.根据傅立叶分析的卷积定理，形状图上的核和函数之间的卷积等价于它们的谱表示的逐点乘法[3，22]。函数图不同形状的图具有不同的Laplacian特征基和谱域，这导致了图的顶点函数不相容，在许多应用中阻碍了调和分析的进行。受最近关于同步的工作的启发[23，25，26，9]，我们建议使用函数映射[21]来对齐这些不同的谱域。功能图最初是为了这个目的而引入的形状。具体地说，g i是一对形图Gi和Gj ，从Fi到Fj的函数映射由矩阵Xij给出，它将系数向量为α的函数f ∈ Fi映射到系数向量为α′= Xij α的函数f ′ ∈ Fj. α和α′是根据一对基计算的。我们请读者[21 ]第21话：一个人的直觉和直觉。我们将这样的CNN称为“graph CNN”。图CNN将具有顶点函数的图作为输入。传统的图像CNN可以被视为2D规则像素网格上的图CNN，其中RGB值作为顶点函数。以前有一些研究更一般的图而不是2D规则网格[3，6，8，5]上的图CNN的作品，[19，1，2]特别关注人体等3D形状图。深度神经网络的构造通常分为两种类型：空间结构和光谱结构。我们提出的方法属于频谱构建家族，但有两个关键区别：明确设计了一种有效的多尺度信息聚合方案;我们同步不同的频谱域，以允许在非常不同的形状图之间共享参数，从而增加我们的SyncSpecCNN的通用性。3. 问题给定表示为形状图G=（V，E）的3D形状S，我们寻找每顶点标签l，诸如segmen。2284站或关键点。这些标签被表示为G上的顶点函数f，即，f：V →RK。我们为每个顶点v∈ V预先计算一组3D特征，并将它们用作输入顶点函数。这些特征捕捉位置，曲率，和每个顶点v的局部上下文属性，并且我们使用公开可用的实现[13]。为了表示形状图G上的函数空间，我们还构造了每个形状S的图LaplacianL，计算了谱频率λ={λ}和相应的基B={b}层1234567 8 910扩张（γ）114416166464 11SpecTN没有没有没有没有没有没有是是否否没有#内核参数7171714545 71#输出通道CCCC2c2c2c2c 2c2c表1.在该架构的不同层中使用的参数，包括控制卷积核大小的膨胀参数γ、是否使用谱Transformer网络（SpecTN）、卷积核中可学习参数的数量、卷积核中可学习参数的数量、卷积核中可学习参数的数量、卷积核中可学习参数的数量以及卷积核中可学习参数的数量。在每个卷积操作之后输出通道的i i通过特征分解我们注意到基bi也是一个顶点函数。因此，我们的神经网络将图G的拉普拉斯算子L和局部几何特征的顶点函数作为输入，并预测顶点函数f，例如分割或关键点指示函数。4. 方法4.1. 概述我们的SyncSpecCNN的基本架构类似于[17]中的全卷积分割网络，即我们重复通过内核卷积顶点函数并应用非线性变换的操作。然而，我们有几个关键的区别。首先，我们通过在谱域中的多通道调制来实现多通道卷积。其次，我们参数化内核在频谱域以下的扩张的方式，使内核的大小可以有效地扩大，以捕捉大的上下文信息，而不增加参数的数量。这本质上是[17]中空间池化的光谱对应物。最后，我们设计了一个频谱Transformer网络来同步不同形状的频谱域，允许更好的参数共享。4.2. 网络架构与传统的 CNN 类似，我们的 SyncSpecCNN 包含ReLU，DropOut，1×1卷积[24]和BatchNormalization等层，这些层都在空间域中对图形顶点函数进行操作。不同的ence来自我们的图卷积运算，它引入了以下模块：前向变换、后向变换、频谱乘法和频谱Transformer网络，如图2所示，并汇总在表1中。我们提供更多关于新引入的模块的细节如下。在一个基本卷积块中，定义在G上的顶点函数f首先通过前向变换α=BTf变换成它的谱表示α。然后，频谱Transformer网络预测的函数映射C将应用于α，并输出α′=Cα，以实现频谱域同步（第4.4节）。一个频谱乘法器-在第二层中， α′ 与一组乘子逐点相乘，得到α′=W α′，其中W是一个对角矩阵，其对角线是乘子的集合，α′用来表示相乘结果。我们就是这样在谱域中进行卷积，其中谱扩张核用于捕获多尺度信息（第4.3节）。然后将逆函数映射Cinv应用于απ′ ，得到了正规化前原谱域上的谱表示απ=Cinvαπ′. α˜然后通过后向T变换fα=Bαβ 将其转换回图的顶点函数。这座建筑经过多次翻新，形成了我们深层建筑的支柱。我们还在SyncSpecCNN中添加了跳过链接，以更好地促进信息在早期和后期层之间的流动。有一个有趣的观察值得一提：小的卷积核对应于频谱域中的平滑过渡乘数（参见图3），因此对特定频谱范围内的形状图之间的碱基未对准不太敏感，并且在整个图中更通用。因此，当卷积核很小时，我们省略了频谱Transformer网络。4.3. 谱扩张核参数化Yu等人。[30]已经证明了多尺度内核在图像分割中以不同尺度聚合上下文信息的有效性。他们建议使用扩张核来增加核大小，而不增加参数的数量。我们以类似的方式参数化我们的卷积核，但在谱域中，这被证明是直接和有效的。从本质上讲，我们发现，多分辨率分析的图可以实现没有复杂的层次图聚类。在解释确切的参数化是什么之前，我们首先讨论设计背后的直觉。光谱倍增层调制光谱表示α={αi}，由来自核的一组乘数，其中αi是顶点函数在基比岛注意，λi可以被解释为它对应的本征基函数bi的频率，而bi本身是一个顶点函数，它捕捉了形状的内在几何形状我们假设λi乘子是卷积核的谱表示。将乘法器的集合表示为m ={m i}，每个乘法器对应于一个λ i。把m看作λi的函数。同样，从传统的傅立叶分析2285ωe图2. 我们的SyncSpecCNN的架构。谱卷积是通过首先将图顶点函数转换为它们的谱表示，然后用一组乘法器逐点调制它来完成的。将相乘的信号变换回空间域以执行非线性运算。我们引入频谱Transformer网络来同步不同的频谱域，并允许更好的参数共享频谱卷积。卷积核以膨胀的方式参数化，以实现有效的多尺度信息聚合。[3]，如果m集中在谱的低端，则对应的空间核函数是光滑的;相反，如果对应的空间函数是局部的，则m是光滑的。因此，为了像[ 30 ]中那样获得更平滑的核函数，我们限制了m的带宽，使我们能够学习更少数量的参数;此外，改变m的平滑度将控制核大小。具体来说，我们将每个谱乘法0.70.60.50.40.30.20.10-0.1-0.2-0.30.70.60.50.40.3卷积核参数化0 0.1 0.2 0.3 0.4 0.5λ层，并将mi参数化为一些调制指数窗口函数的组合，即0.20.10-0.1-0.2-0.30 0.1 0.2 0.3 0.4 0.5λ调制指数窗调制指数窗Σnmi=ω2j+1e−jγλΣnicos（jγλi π）+−jγλ2Jisin（jγλiπ）频谱表示空间表示j=0j=1图3.调制指数窗函数的可视化在谱域和频域中具有不同的膨胀参数，这里ω是一组2n+1个可学习参数，n是控制可学习参数数量的超参数。大γ对应于具有小带宽的快速变化的乘数，因此具有大空间支持的平滑核。小γ对应于带宽大的缓慢变化的乘数，对应于空间支持小的内核。而不是只使用指数窗口，我们添加了sin/ cos调制，以增加内核的表达能力图3示出了具有不同膨胀参数的调制指数窗函数的可视化。我们的参数化有三个主要优点：首先，它允许聚合多尺度信息，因为卷积核的大小在不同层中变化;第二，大的内核可以很容易地获得一个紧凑的参数集，这有效地增加了感受野，同时减轻过拟合;第三，减少参数允许更有效的计算。4.4. 谱Transformer网络如图3所示，当底层谱域不同时，内核的相同谱参数化可能导致非常不同的顶点函数。当内核大小很大时，这个问题尤其突出。因此，能够同步不同的空间域相同的谱表示可能导致空间上不同的核函数，特别是当核尺寸很大时。还请注意，一般来说，平滑过渡的乘数对应于小卷积核，而急剧过渡的乘数对应于大卷积核。谱域是允许大核在不同形状的图上共享参数的关键。4.4.1基本思想根据[21]和[25]，同步一组形状的谱域的一种方法是通过名为功能图的工具。在函数映射的框架中，人们可以找到一个线性映射，将每个形状的谱域拉到一个规范空间中，这样各个谱域中的表示就可以在一组规范基下进行比较。事实上，给定每个形状S，这个线性映射就像矩阵C一样简单，它将一个形状上的谱表示α线性变换为典范空间中的对应物α′。注意，从谱域中的同步，人们在图上诱导空间对应，反之亦然。将谱域看作对偶空间，图上的空间域看作原空间，卷积核参数化MM2286F是功能地图背后的关键思想。受此启发，我们设计了一个频谱Transformer网络（SpecTN）的频谱域同步任务。我们的SpecTN将形状S作为输入，并为其预测矩阵C（见图2），因此α′=Cα。因此，如果没有SpecTN，α将被直接传递给我们网络的后续模块;如果使用SpecTN，α'将被传递。我们的 SpectTN 从空间 Transformer 网络（ SpatialTransformer Network，简称SPNN）[11]中汲取灵感从高层次上讲，SpectTN和Spectron都学会了将数据与规范形式对齐。4.4.2SpecTN的输入需要形状S的适当表示作为我们SpecTN的输入。为了允许SpecTN预测不同谱域之间的变换，关于底层谱域的某些描述非常有帮助，即，图拉普拉斯特征基此外，由于光谱同步与图形对齐耦合，因此提供形状图形对应可以促进良好的预测。基于这些，我们使用从拉普拉斯特征基计算的体素函数Bv作为SpecTN的输入：C= SpecTN（B v; Θ）。具体地，Bv是在3D体积空间中逐体素定义的图形拉普拉斯特征基B的体积重新参数化体积通过以直接的方式将图形顶点函数B转换为体素函数Bv来进行重新参数化-我们简单地将顶点函数值分配给顶点所在的体素。由于所有的Bv都存在于相同的3D体积空间中，因此它们之间的对应关系相应地被关联。4.4.3优化SpecTN理想情况下，SpectTN应该自动学习，同时最小化预测损失，就像在P2P中一样;然而，在实践中，我们发现这种优化是非常具有挑战性的。这是因为SpecTN中的C的参数是关于频谱数的二次图4. 频谱同步前后低频本征基函数的可视化。在同步之前，不同形状上的本征基函数不对齐。在应用从SpecTN预测的变换之后，不同的谱域可以被同步并且特征基函数对齐。在该部分中同步是足够的。在实践中，我们同步按频率排序的前15个基函数。这一观点已被[21]所证实。正则化培训期间使用正规化以强制函数映射是单射的，并防止它们退化。具体地说，我们强制SpecTN的输出C接近正交映射，即在总损失函数中添加一个项T-CCT-I<$2。通过这种正则化，CT可以用来近似逆映射。这样的机动更有利于差异化，易于培训。初始化通过预先计算功能地图考虑到巨大的优化空间和非凸目标，一个好的起点有助于避免优化陷入糟糕的局部极小值。如上所述，我们的线性变换C可以被解释为函数映射;因此，我们自然会相应地初始化C，然后优化它以更好地服务于最终任务。为此，我们首先通过外部例程为每个形状预先计算一组函数映射Cpre，该函数映射将S的每个单独的谱域粗略地对齐到规范域。然后我们以监督的方式单独预训练SpecTN：Σ基函数，比仿射函数多几百倍变换矩阵我们从三个方面应对这一挑战：限制我们尽量减少ΘSpecTN（Bv，i; Θ）−Cpre，i<$2我将范围缩小到一组显著的谱基以缩减C的参数;添加正则化以约束优化空间;以良好的起点智能地初始化SpecTN。减少基地同步整个频谱可能是一个艰巨的任务，因为它的高维。特别地，C中的自由参数随谱域维数的增加而二次增长.为了有利于优化，我们采用了一种自然的策略，只覆盖频谱的突出部分。在我们的例子中，大核的谱参数化主要由谱的低频端决定，这表明其中 i 索引形状。这个预训练的 SpecTN 被插入到SyncSpecCNN管道中，并在优化特定任务（如形状分割）时进行微调。通过我们的实验验证，预训练步骤是至关重要的。接下来我们介绍外部例程如何进行预计算一个函数图，它将S的谱域与一个典型的“平均”形状S '对齐。我们从构造S的几何体不是明确生成的。相反地，S<$由它的度量邻接矩阵W<$v表示，其描绘了体积中的体素的连通性2287所有形状都被选中。通过对所有形状的体积邻接矩阵W v进行检查来获得W v。每个形状S的Wv是对应体积图的邻接矩阵，其顶点是所有体素，并且边缘指示体积空间中被占用体素的邻接从S到S<$的功能图C可以从S和S<$的空间对应关系中归纳出来，原始对偶关系[21]。具体来说，我们已经有了S和S′的基，以及粗略的空间对应，从体积占有率来看它们之间的频率。然后可以通过[21]中提出有关我们架构的更多实施细节，请参阅我们的补充质询。在图4中，我们显示了在应用从我们的SpecTN预测的功能图之后不同的光谱域如何同步的示例。5. 实验我们提出的SyncSpecCNN将一个图顶点函数作为输入，并预测另一个作为输出。作为一个通用框架，预测不限于特定类型的图顶点函数，并且可以针对不同的目标进行定制。为了评估我们的框架的有效性，我们将实验分为四个部分.首先，我们在3D形状分割的基准上进行评估[4，29]。其次，我们使用一个新的大规模关键点标注数据集来评估关键点预测任务。第三，我们进行控制实验，比较不同的设计选择的框架。最后，我们展示了定性结果并分析了错误模式。我们还分析了我们的系统在输入采样密度变化下的稳定性，我们请读者参考补充资料了解详细信息。值得一提的是，在我们的大多数实验中，输入形状表示为点云而不是网格。我们将每个点云转换为k-最近邻图（k=6，所有实验），这将被用作我们的形状图G。5.1. 数据集对于3D形状分割任务，我们使用[29]引入的大规模形状部件注释数据集，该数据集使用语义部件注释来增强ShapeNet模型的子集。该数据集包含16个类别的人造形状，每个类别有2到6个部分。总共有16，881个模型具有专家验证的部件注释。此外，我们使用ShapeNet模型提供的官方训练/测试分割。对于关键点预测任务，我们构建了一个大规模的关键点注释数据集，包含1，337个椅子模型，每个形状有10个关键点，而传统的小规模数据集[14]每个类别最多有100个形状注释。这些关键点都是由专家手动注释的，在不同的形状之间保持一致。5.2. 形状零件分割按类别形状部分分割我们首先进行部分分割，假设每个形状的类别标签是已知的，如[29]中的设置。任务是为形状上的每个采样点预测零件标签我们比较我们的框架采用传统的基于学习的技术[27，29]，利用局部几何特征和形状对齐线索，以及最近的基于深度学习的方法[2]，这些方法也属于图CNN家族此外，我们使用3D体积CNN架构设计了一个额外的基线，表示为Voxel CNN，它概括了VoxNet [20]用于分割任务。该网络有10个卷积层，没有下采样，并保持19的感受野，空间分辨率为32. 我们在预处理步骤中计算每个点的特征，如[29]所示，并对除Voxel CNN之外的所有基线使用相同的输入集。使用[4]中描述的分层联合对准算法来预对准输入形状的集合点交联（IoU）被用作评估指标，在所有零件类中取平均值。交叉熵损失在训练期间被最小化。我们在两种设置中评估我们的框架，有或没有SpecTN，并在表2中比较结果。请注意，在大多数类别上，我们的方法实现了最佳性能，并且平均性能大大优于最先进的技术。与图CNN家族的最新技术[2]相比，我们的方法引入了谱扩张核参数化，这提高了谱CNN框架的有效性。此外，从SpecTN的性能增益表明，同步频谱域将大大提高跨不同拓扑和几何形状的跨类别形状部分分割接下来，我们评估我们的方法在跨类别设置的部分分割任务。在这个任务中，形状类别标签在测试阶段是未知的，对于每个点，网络需要从所有类别中的所有可能的零件标签中选择一个零件标签。跨类别设置在形状之间引入了更大的几何和拓扑变化，因此可以帮助检查谱CNN与此同时，谱域失调的影响由于该实验是为了验证谱CNN的设计选择而提出的，因此我们主要与[2]进行比较。我们混合了[29]中的16种形状类别，并为所有类别训练了一个单一的网络在预测点分割标签之后，可以通过逐点多数投票方案对形状进行分类。点IoU和分类精度（Acc）被选为评价指标的部分分割和对象分类，分别。结果示于表3的第2和第3列中。我们的方法在分割和分类方面都比基线ACNN有很大的注意2288类别是说平面袋帽车椅子耳-电话吉他刀灯笔记本电动马克杯自行车手枪火箭滑冰-板表Wu 14 [27]-63.20 ---73.47 ---74.42 ------74.76[29]第二十九话81.4380.96 78.37 77.68 75.67 87.64 61.89 91.79 85.36 80.59 95.58 70.59 91.85 85.94 53.13 69.81 75.33美国有线电视新闻网[2]79.6376.35 72.89 70.80 72.72 86.12 71.14 87.84 81.98 77.43 95.49 45.68 89.49 77.41 49.23 82.05 76.71体素CNN79.3775.14 72.80 73.28 70.00 87.17 63.50 88.35 79.58 74.43 93.92 58.67 91.79 76.41 51.16 65.25 77.08我们的183.4880.61 81.62 76.92 73.86 88.65 74.48 89.03 85.34 83.47 95.53 62.74 92.01 80.88 62.10 82.23 81.36我们的284.7481.55 81.74 81.94 75.16 90.24 74.88 92.97 86.10 84.65 95.61 66.66 92.73 81.61 60.61 82.86 82.13表2.IoU用于16个类别的部件分割为了计算平均IoU，每个类别的IoU由相应的形状加权数，然后平均。Ours1代表了我们框架的一个变体，没有SpecTN，Ours2对应于我们的完整管道，有SpecTN。平均而言，我们的方法优于所有基线，包括传统的机器学习和基于深度学习的方法。我们还在大多数类别中实现了最高的IoU。交叉猫IoUACC部分完成ACNN69.2293.9969.2179.63我们的179.6599.5976.1983.48我们的281.9799.7178.0284.74表3.表的第2列和第3列报告跨类别部件分割的IoU表的第4和第5列相应地报告部分形状和完整形状上的部分分段的IoUOur1和Our2分别对应于不带和带SpecTN的框架。在所有的实验中，我们都大大超过了基线。ACNN [2]没有明确进行多尺度分析，也不是为具有大的非等距变化的3D形状设计的，因此在不同的集合中概括性较差因为该步骤在确定其局部框架中起着至关重要的作用;而我们的方法对底层形状的质量做了较少的假设5.3. 关键点预测我们的框架不仅限于部分分割，还可以在图上学习更一般的函数。在本节中，我们将评估我们的关键点预测任务框架。我们将每个关键点关联到一个单独的标签，并为所有非关键点分配一个背景类标签。关键点预测问题可以被视为多类分类问题，并且在训练期间优化交叉熵损失。我们评估我们的AP-的形状。相比之下，我们的框架可以有效地捕获多尺度上下文信息，这是一个对分割和分类都非常重要的特征。SpecTN的谱域同步能力进一步提高了我们的泛化能力，从而带来了额外的性能增益，如表3所示。部分数据部分分割为了评估我们的方法对不完整数据的鲁棒性，我们从单个视点对3D形状的模拟扫描进行部分分割具体来说，我们从随机视点为零件注释数据集[29]中的每个3D形状生成N=6个模拟扫描，然后使用这些带有零件注释的部分所有的部分点云被归一化以适合于一个单位立方体。按照[4]提供的训练/测试分割，我们训练我们的网络来分割每个类别的形状零件我们再次将我们的方法与ACNN[2]进行比较。使用IoU作为评估指标，结果显示在表3的第4列和第5列中。我们的方法优于基线的部分数据部分分割的大幅度。特别是，从完整形状到部分形状设置，我们的方法的性能下降不如基线显著，这反映在完整数据设置和部分设置之间的平均IoU的差距上验证了该方法对数据不完备性的鲁棒性。我们推测，ACNN的性能严重影响噪声和敏感的主曲率估计的部分扫描与以前的最先进的方法相比[10]。[10]首先通过自由变形联合对齐3D空间中的所有形状，然后将关键点标签传播到其K个最近的训练形状中的测试形状。我们手动调整K并报告该方法的最佳性能。在评估过程中采用了五重交叉验证，并使用PCK（正确关键点百分比）作为评估指标。我们在图5中显示了两种方法的PCK曲线。曲线上的每个点指示对于给定欧几里得误差阈值正确预测的关键点的分数。我们的方法优于[10]，特别是，我们的方法可以获得更精确的预测（参见靠近y轴的区域）。5.4. 诊断谱扩张核参数化从两个方面评估我们的扩张核参数化：基函数的选择和核尺度的选择。表4总结了所有比较结果，如下所述我们探讨了不同的内核基础的表达能力。在谱CNN家族中，卷积核由基函数的线性组合即在我们的情况下的调制指数窗口。以前的方法已经提出使用不同的基函数，如三次样条基[3]和指数窗口基[2]。表4的每一行对应于一个基础选择。我们还通过改变卷积核的空间大小来评估多尺度分析的有效性我们228910.90.80.70.60.50.40.30.20.10 0.02 0.04 0.06 0.08 0.1欧氏距离图5. 关键点预测比较。在改变误差阈值的情况下，我们绘制了两种方法的PCK曲线。我们的方法平均优于[10]，并且当误差阈值较小时具有特别高的局部精度，即。我们的方法达到pck= 0。当错误阈值等于0时为29。01，而[10]达到pck=0。16与两个基线选择进行比较：将所有内核大小设置为当前网络中最小的一个;设置为最大的一个。表4的每一列对应一个选项。通过IoU在跨类别部分分割任务中报告所有数字我们只将图顶点的XYZ坐标函数作为网络输入，而不是手工制作的几何特征，这些特征可能已经捕获了一些多尺度信息。此外，我们从涉及SpecTN的网络中删除了第7层和第8层并且被设计用于非常大的卷积核。可以看出，调制指数窗口基与我们的分割任务的基线相比具有更好的表达能力。使用多尺度内核还可以聚合多尺度信息，从而产生更好的性能。小大多尺度三次样条0.5369--Exp窗口0.62850.72230.7386调制的Exp窗口0.69970.73410.7524表4.我们比较了不同的内核基础和内核大小的选择，使用跨类别部分分割任务进行评估。IoU在表中报告。特别地，我们比较了三次样条基[3]，指数窗基[2]和我们的调制指数窗。所有卷积核都由相同数量的参数进行参数化，我们调整了不同基函数的超参数，以便它们的空间大小是可比的。我们还比较了三种不同的内核大小选择。“小”表示仅使用小卷积核;“大”表示仅使用大卷积核;“多尺度”在不同的层中使用不同大小的内核，就像我们目前的设计一样。如何用三次样条基函数对多尺度卷积核进行参数化并不明显，因此我们只对小尺度卷积核的三次样条基进行了5.5. 定性结果和误差分析图6显示了我们的网络在两个类别上生成的细分结果，椅子和灯。第一块显示了代表性的良好结果，第二块至第四块总结了典型的错误模式。我们的大多数分割都非常接近地面实况图6. 我们可视化一些分割结果从我们的网络预测。第一个块显示了典型的正确分割，注意我们可以覆盖的巨大形状变化第二至第四块总结了我们在结果中观察到的不同错误模式如第一块所示。我们可以准确地分割具有较大几何或拓扑变化的形状，如宽板凳与宽板凳。普通椅子、吊灯台灯第一排上的灯座和第二排上的灯罩在它们的局部几何形状方面非常相似;然而，由于我们的网络能够捕获大规模的上下文信息，因此它仍然可以区分两者并正确地分割形状。我们观察到几个典型的错误模式在我们的结果。大多数分割错误发生在零件边界。还有一些情况下，零件的语义定义具有内在的模糊性。我们还观察到第三种类型的错误模式，其中我们的预测可能完全错过某个部分，如第四块所示。6. 结论非等距空间之间的谱域不兼容性是图上深度学习的一个重要问题，阻碍了有效的参数共享。我们的解决方案是在图的函数空间中加入端到端的可学习映射，以同步它们的谱域。此外，我们提出了一个谱域扩张核参数化，使有效的多尺度信息聚合。其他分析3D形状以外的一般图形的应用程序也可以从我们的框架中受益在未来，探索如何提高SpecTN在一般图上的鲁棒性将是有趣的，在一般图上可能不容易获得良好的初始化一个可能的方向是收紧函数映射正则化器家族。鸣谢本工作得到了NSF资助DMS-1228304和DMS-1546206，ONR资助MURI N 00014-13-1-0341，还有奥多比公司的礼物。我们还要感谢NVIDIA的GPU捐赠。Huang等人2013我们正确分割模糊零件边界语义歧义部分缺失地面实况预测地面实况预测地面实况预测地面实况预测对应性%2290引用[1] D. Boscaini，J.Masci，S.Melzi，M.M. 布朗斯坦大学Castel-lani，和P.范德海恩斯使用局部谱卷积网络学习可变形形状的类特定描述符。在计算机图形论坛，第34卷，第13-23页。Wiley Online Library，2015. 2[2] D. Boscaini，J. Masci、E. Rodol a`和M. 布朗斯坦用各向异性卷积神经网络学习形状对应。神经信息处理系统的进展，第3189-3197页，2016年。二、六、七、八[3] J. Bruna，W. Zaremba、A. Szlam和Y.乐存。图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。二、四、七、八[4]A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，2015。一、六、七[5] M. Defferrard，X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。arXiv预印本arXiv：1606.09375，2016年。2[6] D. K. Duvenaud，D. Maclaurin，J.伊帕拉吉雷河Bom-barell，T. Hirzel、A. Aspuru-Guzik和R. P·亚当斯用于分子指纹学习的图上卷积网络。神经信息处理系统进展，2224-2232页，2015年。2[7] K. Guo，L.Zou和X.尘通过深度卷积神经网络的3D网格标记 ACM Transactions on Graphics （ TOG ）， 35（1）：3，2015. 2[8] M. Henaff，J. Bruna，and Y. 乐存。图结构数据上的深度卷积网络。 arXiv 预印本 arXiv ： 1506.05163 ，2015。2[9] Q. Huang，F.Wang和L.Guibas 用于分析和探索大型形状集合的功能图ACM Transactions on Graphics（TOG），33（4）：36，2014. 2[10] 问：X. Huang，H. Su和L. Guibas大型形状集合的细粒度半监督标记。 ACM Trans-actions on Graphics（TOG），32（6）：190，2013. 七、八[11] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统进展，2017-2025页，2015年。5[12] E. Kalogerakis，A. Hertzmann和K.辛格. 学习3d网格分割和标记。ACM Transactions on Graphics（TOG），29（4）：102，2010。2[13] V. G. Kim ， S. 乔杜里湖 Guibas 和 T. 放克豪瑟Shape2pose ：以人为中心的形状分析。 ACMTransactions on Graphics（TOG），33（4）：120，2014. 3[14] V. G.金，W。Li，N. J. Mitra，S. Chaudhuri、S. DiVerdi和T.放克豪瑟从大量的3d形状中学习基于零件的模板ACM Transactions on Graphics（TOG），32（4）：70，2013。6[15] R. Liu和H.张某基于谱聚类的三维网格分割。计算机图形学与应用，2004年。PG 2004。诉讼第12届太平洋会议，第298-305页。IEEE，2004年。2[16] R. Liu和H.张某基于谱嵌入和轮廓分析的网格分割.在计算机图形论坛，第26 卷，第 385-394页 Wiley OnlineLibrary，2007. 22291[17] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集（ Proceedings of the IEEEConference on ComputerVision and PatternRecognition ），第 3431-3440 页，2015年。第1、3条[18] A. Makadia和M. E.好极了从稀疏标记数据中学习3d零件检测。2014年第二届3D视觉国际会议，第1卷，第311IEEE，2014。2[19] J. Masci，D. Boscaini，M. Bronstein和P.范德海恩斯黎曼流形上的测地线卷积神经网络在IEEE计算机视觉研讨会国际会议论文集，第37-45页2[20] D. Maturana和S.谢勒Voxnet：用于

下载后可阅读完整内容，剩余1页未读，立即下载