无监督多任务模型学习点云特征的方法及其在形状分类和分割任务中的表现

95 浏览量更新于2023-10-13 收藏 4.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8160基于点云的Kaveh HassaniAutodesk AILab加拿大多伦多kaveh. autodesk.comMike HaleyAutodesk AI Lab美国mike. autodesk.com摘要我们引入了一个无监督的多任务模型来共同学习点云上的点和形状特征。我们定义了三个无监督的任务，包括聚类，重建，和自我监督分类，以训练一个多尺度的基于图形的编码器。我们评估我们的模型的形状分类和分割基准。结果表明，它优于现有的最先进的无监督模型：在ModelNet40分类任务中，它实现了89.1%的准确率，在ShapeNet分割任务中，它实现了68.2的mIoU和88.6%的准确率。1. 介绍点云是定义在坐标空间中的相互作用点的稀疏的顺序不变的集合，并且从对象的表面采样以捕获其空间语义信息。它们是LiDAR扫描仪和RGB-D相机等3D传感器的输出，并用于人机交互[21]，自动驾驶汽车[51]和机器人[60]等应用它们的稀疏性质使它们在计算上高效，并且对体积和多视图表示的噪声比较不敏感。经典方法在点云上制作突出的几何特征内在特征，如波核签名（WKS）[6]、热核签名（HKS）[7]、多尺度高斯曲线[66]和全局点签名[57];而诸如持久点特征直方图[59]和快速点特征直方图[58]的外部特征是这种特征的示例。这些功能不能解决现代应用程序所需的语义任务，因此被深度模型无与伦比的表示能力所取代。然而，将点云馈送到深度模型并不是微不足道的。标准深度模型在规则结构的输入上操作，例如网格（图像和体积数据）和序列（语音和文本），而点云本质上是置换不变和不规则的。人们可以将点云光栅化为体素[81，43，53]，但它会被分解为需要过多的时间和内存，并遭受信息丢失和量化伪影[78]。一些最近的深度模型可以直接消耗点云并学习执行各种任务，例如分类[78]，语义分割[89，17]，部分分割[78]，图像点云转换[19]，对象检测和区域建议[97]，合并和表面重建[92，45，47]，配准[16，74]，34]，gener-[68]和上采样[93]。这些模型取得了可喜的成果，由于他们的特征学习能力。然而，为了成功地学习这些特征，它们需要大量的标记数据。一些作品使用自动编码器[88，13，39，96，2，16]和生成模型探索了点集上的无监督特征学习，例如，生成对抗网络（GAN）[68，67，2]，变分自编码器（VAE）[20]和高斯混合模型（GMM）[2]。尽管它们具有良好的特征学习能力，但它们无法访问监督信号并以单一任务为目标。这些缺点可以分别通过自监督学习和多任务学习来解决。自我监督学习仅使用数据中存在的信息来定义借口任务，以提供替代的超级信号，而多任务学习通过联合学习任务来使用任务之间的共同性[95]。我们引入了一个多任务模型，三个制度的无监督学习，包括自我监督，自动编码，聚类作为其目标任务，共同学习点和形状的特点。受[9，22]的启发，我们表明，利用联合聚类和自监督分类以及强制重建实现了有希望的结果，同时避免了琐碎的解决方案。我们工作的主要贡献如下：• 我们为点云引入了一个基于多尺度图的编码器，并在无监督的多任务学习环境中对其进行训练。• 我们在ModelNet40形状分类和ShapeNetPart分割任务的各种学习设置下详尽地评估了我们的模型。8161JJJ1 2Mj j jj• 我们表明，我们的模型实现了最先进的结果w.r.t以前的无监督模型，并缩小了无监督和监督模型之间的差距。2. 相关工作2.1. 点云上的深度学习PointNet [52]是一种独立学习点特征并将其聚合为形状特征的MLP。Point- Net++ [54]定义了多尺度区域，并使用PointNet来学习它们的特征，然后分层聚合它们。基于KD树[37，94，20]的模型使用KD树对点进行空间划分，然后递归地对其进行聚集。RNN [31，89，17，41]通过假设“顺序重要”[72]应用于点云，并在语义分割任务上取得了有希望的CNN模型引入非欧几里德卷积来对点集进行操作。一些模型，如 RGCNN [70] ， SyncSpecCNN [91] 和Local Spectral GCNN [75]在谱域上运行。这些模型往往是计算昂贵的。空间CNN通过聚集相邻点的贡献来学习点特征逐点卷积[30]、边缘卷积[78]、蜘蛛卷积[84]、稀疏卷积[65，25]、蒙特卡罗卷积[27]、参数连续卷积[76]、特征导向图卷积[71]、点集卷积[63]、X卷积[40]和球面卷积[38]是这些模型的示例。空间模型提供了强大的局部化过滤器，但难以学习全局结构[70]。一些作品在点集上训练生成模型多分辨率VAE [20]引入了具有多分辨率卷积和去卷积层的 VAE 。PointGrow [68]是一种自回归模型，可以从头开始生成点云或以给定的语义上下文为条件。结果表明，与GANs相比，在PointNet特征上训练的GMM实现了更好的性能[2]。一些最近的作品探索表示学习使用自动编码器。一个简单的基于点网的自动编码器在各种任务上都取得了很好的效果[2]。FoldingNet [88]使用具有图池和MLP层的编码器，并引入折叠操作的解码器，将2D网格变形到底层对象表面上。PPF-FoldNet [13]将点投影到点对特征（PPF）空间中，然后应用PointNet编码器和Fold-ingNet解码器来重建该空间。MogasNet [26]将FoldingNet扩展到多个网格块，而SO-Net [39]将点特征聚合到 SOM 节点特征中以编码空间分布。PointCapsNet [96]引入了一种基于动态路由的自动编码器，以提取潜在胶囊和一些MLP，这些MLP从具有不同网格的潜在胶囊生成多个点补丁。2.2. 自我监督学习自监督学习在未标记的数据上定义代理任务，并使用该任务的伪标记来为模型提供监督信号。它用于机器视觉，具有代理任务，例如预测时间箭头[79]，丢失像素[50]，补丁位置[14]，图像旋转[23]，合成伪影[33]，图像集群[9]，连续帧中的相机变换[3]，重新排列混洗补丁[48]，视频着色[73]，和跟踪图像块[77]，并已证明在学习和转移视觉特征方面有希望的结果。自我监督学习的主要挑战是定义与使用学习特征的下游任务最相关的任务无监督学习，例如，另一方面，密度估计和聚类不是特定于主域的[9]。最近提出了深度聚类[4，44，86，28，83，22，61，87，29]模型，通过联合优化聚类损失与网络特定损失来学习集群友好特征最近的一些工作结合了这两种方法，并将深度聚类定义为自监督学习的代理任务。结果表明，聚类潜在表示和预测聚类分配之间的交替在视觉特征学习中实现了最先进的结果[9，22]。2.3. 多任务学习多任务学习利用相关任务之间的共性来提高这些任务的性能[95，18]。它学习具有足够表达能力的共享特征，以捕获跨任务的有用信息。多任务学习已成功用于机器视觉应用，如图像分类[42]，图像分割[12]，视频字幕[49]和活动识别[85]。一些研究探索了自我监督多任务学习以学习高级视觉特征[15，55]。我们的方法与这些模型相关，除了我们使用自监督任务以及其他非监督任务，如聚类和自动编码。3. 方法假设训练集S=[s1，s2，…其中点集si={pi，pi，.，pi}是M个点的序不变集，且每个点pi ∈ Rd. 在最简单的情况下，p i=（x i，y i，z i）仅包含坐标，但可以扩展以携带其他特征，例如，正常人我们定义了一个编码器E θ：S −→ Z，它将输入点集从RM×din映射到潜在空间Z ∈Rdz，使得d z≠ d in。对于每个点pi，编码器首先学习点（局部）特征z i∈Rdz，然后将它们聚合成形状（全局）特征Z i∈Rdz。它基本上将输入点投影到具有更高维度的特征子空间以编码比原始空间更丰富的局部信息8162nn任何由θ参数化的参数化非线性函数都可以用作编码器。为了以无监督的多任务方式学习θ，我们对潜在变量Z定义了三个参数函数，如下所示：聚类函数Γc：Z-→ Y将潜在变量映射到K个类别Y=[y1，y2，...，yn]使得yi ∈{0，1}K且yT1k=1。此函数鼓励编码器生成聚类友好的要素通过将特征空间中的相似样本推得更近而将不相似的样本推得更远。它还为模型提供了伪标签，用于通过其其中yn=Γc（zn）和y（n=fψ（zn）分别是聚类分配和预测的聚类分配。我们使用倒角距离来度量原始点云与重建点云之间的差异。Cham- fer距离相对于点是可微的，并且在计算上是有效的。它是通过在重构空间中找到原始空间的每个点的最近邻居来计算的，反之亦然，并将它们的欧几里得距离相加。因此，我们优化解码损失如下。硬集群分配。min1ΣN ΣM minpn−p2+ minpn−p2分类器函数fψ：Z−→Y预测聚类潜在变量的赋值使得预测{θ，φ}2NMn=1m=1n2p∈snm2（三）对应于Γc的硬簇分配。换句词，f ψ将潜在变量映射到K个预测类别[001 pdf 1st-31files] ，其中， [001 pdf 1st-31files] ， [001pdf1st-31files] ， [001pdf1st-31files] 。该函数使用由聚类函数生成的伪标签，即，集群分配，作为其代理训练数据。集群分配和预测的集群分配之间的差异提供了监控信号。解码器函数gφ：Z −→S重构原始从潜在变量，即，将潜变量 Z ∈Rdz 映射到点集S∈RM×din。训练具有聚类损失的深度模型会使特征崩溃[9]一个简单的例子。引入了一些策略我们引入解码器功能，以防止模型收敛到平凡的解决方案。3.1. 培训该模型在聚类潜在变量Z以生成用于自监督学习的伪标签Y和通过联合预处理来指定伪标签Y*，并重建输入点集S*。假设K均值聚类，该模型通过优化以下目标聚类来学习质心矩阵C∈Rdz×K和聚类分配yn[9]：其中sn=gφ（zn），sn和sn分别是原始点集和N和M分别表示训练集中的点集的数量和每个点集中的点的数量让我们分别用Lr、Lf和Lg来表示聚类、分类和解码目标。我们将多任务目标定义为这些目标的线性组合：L = αLΓ+ βLf+ γLg，并基于此训练模型。训练过程如算法1所示我们首先随机初始化模型参数，并作为一个任意的上限的集群的数量。我们通过实验表明，该模型收敛到一个固定数量的集群清空一些集群。这是特别有利的，当真正的数量categories是未知的。然后，我们从训练数据中随机选择K个点集，并将它们馈送到随机初始化的编码器，并将提取的特征设置为初始质心。然后对模型参数进行w.r.t的多任务目标使用小批量随机梯度下降。用与网络参数相同的频率更新质心可能会使训练不稳定。因此，我们聚合每个时期内的学习特征和聚类分配，并在一个时期完成后更新质心。min 1ΣNminn−Cy n2（一）3.2. 架构灵感来自Inception[69]和Dynamic Graph CNN{C，θ}Nn=1 yn∈{0，1}K2（DGCNN）[78]架构，我们引入了一个基于图的其中zn=Eθ（sn）和yT1k=1。质心矩阵被随机初始化。值得注意的是：（i）当分配聚类标签时，质心矩阵是固定的，以及（ii）质心矩阵是逐时期而不是逐批更新的，以防止学习过程发散。对于分类函数，我们如下最小化聚类分配和预测的聚类分配之间的交叉熵损失。−1ΣN图1示出了一种由编码器和三个任务特定解码器组成的架构。编码器使用一系列的图形卷积，卷积和池层，在多尺度的方式来学习点和形状的特征，从输入点云抖动的高斯噪声。对于每个点，通过在三个邻域半径上应用图卷积来提取三个中间特征前三个特征编码了相互作用，min{θ，ψ}Nn=1nnlogn（2）每个点和它的邻居之间的关系，两个特征对关于每个点的信息进行编码。的8163算法一：无监督多任务训练算法正确1θ，φ，φ←−Random（）初始参数2 K←−KUB上界3 C←−Eθ（Choice（S，K））初始质心4forepoch in epochsdo5当epoch未完成时，6向前传球7Sx←−样品（S）小批量8Zx←−Eθ（Sx）编码9Yx←−Γc（Zx）群集分配10Yx←−fψ（Zx）聚类预测11Sx←−gφ（Zx）译码12（Z，Y）←−Aggregate（Zx，Y）13向后传球14<$θ，φ，<$（αLΓ（Zx，C;θ）+计算梯度15βLf（Yx，Y<$x;θ，θ）+16γLg（Sx，S（x;θ，φ））17更新（θ，φ，ψ）用梯度月18日结束19C←−Update（Z，Y）更新质心20end中间特征的连接然后通过几个卷积和池化层以学习另一级中间特征。这些逐点特征然后被汇集并馈送到MLP以学习最终的形状特征。它们还与形状特征连接以表示最终的点特征。类似于[78]，我们定义图卷积如下：Σzi=hθ（[pipk−pi]）（4）pk∈N（pi）其中zi是点pi的基于其邻居贡献的学习特征，pk∈ N（pi）是欧几里得空间中距离pi最近的k个点，hθ是由θ参数化的非线性函数，并且h θ是级联算子。对于hθ，我们使用共享MLP。同时使用pi和pk−pi的原因是对全局信息（pi）和局部信息（p k − p i）每个点的相互作用（pk−pi为了执行目标任务，即，聚类、分类和自动编码，我们使用以下方法。对于聚类，我们使用K-均值的标准实现来聚类形状特征。对于自监督分类，我们将形状特征馈送到MLP以预测形状的类别（即，由聚类模块进行聚类分配）。对于自动编码任务，我们使用MLP从形状特征重建原始点云。该MLP在添加高斯噪声之前对原始点云进行去噪和重建。所有这些模型与编码器一起被联合地并且端到端地训练。请注意，所有这些任务都是在形状特征上定义的。因为形状特征是其对应的点特征的聚合，所以学习好的形状特征也会推动模型学习好的点特征4. 实验4.1. 实现细节我们使用 Adam [36] 优化网络，初始学习率为0.003，批量大小为40。学习率被安排为每50个epoch降低0.8。我们对每个层应用批量归一化[32]和ReLU激活，并使用dropout [64]，p=0。五、为了将任务权重归一化到相同的尺度，我们将聚类（α）、分类（β）和重建（γ）的权重分别设置为0.005、1.0、500。对于图卷积，我们使用邻居-hood半径为15，20和25（如[78]中所建议的），对于正常卷积，我们使用1×1内核。我们将簇的上限数（KUB）设置为500。我们还将预测和重建任务中的MLP的大小分别设置为[2048，1024，500]和[2048，1024，6144]。注意，最后层的大小对应于簇的上限数目（500）和重构大小（6144：2048×3）。在[2]之后，我们将形状和点特征大小分别设置为512和1024。对于预处理和增强，我们遵循[52，78]并均匀采样2048个点，并将其归一化为单位球体。我们还应用逐点高斯噪声的N（0，0。01），并且沿着z轴在[-180，180]度之间的形状随机旋转和沿着z轴在[-180，180]度之间的形状随机旋转是沿x轴和y轴的范围[-20，+20]度。该模型在具有8个Volta V100 GPU的Nvidia DGX-1服务器上使用Tensorflow [1]实现。我们使用同步并行训练，将训练小批量分布在所有GPU上，并对梯度进行平均以更新模型参数。在这种情况下，我们的模型在ShapeNet上训练一个epoch平均需要830秒（即大小为2048×3 的约55k个样本）。我们训练模型 500个epoch。在测试时，在大小为2048×3的输入点云上花费8ms。4.2. 迁移学习遵循[2]中介绍的实验协议，我们在ShapeNet数据集的所有类别[10]中预训练模型55个类别的57，000个模型），然后将训练好的模型转移到两个下游任务，包括形状分类和零件分割。在对模型进行预训练后，我们冻结了它的权重，并且不对下游任务进行微调。在[9]之后，我们使用归一化互信息（NMI）来测量聚类分配和类别之间的相关性，而不会泄漏类别。8164图1.点云上无监督多任务特征学习的拟议架构。它包括一个多尺度的基于图形的编码器，生成点和形状特征的输入点云和三个任务解码器，共同提供的架构与多任务的损失。模式的形成。该措施提供了洞察模型在预测类别级别信息而不观察地面实况标签的能力。该模型在训练集和验证集上分别达到了0.68和0.62的NMI，这表明学习的特征正在逐步编码类别信息。我们还观察到，该模型收敛到88个聚类（从最初的500个聚类），与ShapeNet类别的数量相比，多了33个这与“一定量的过分割是有益的”的观察结果一致该模型清空了超过80%的集群，但不收敛到一个集群的平凡的解决方案。我们还在10个最大的ShapeNet类别上训练了我们的模型，以研究模型收敛到17个聚类的聚类行为。这证实了模型收敛到一个固定数量的聚类，该数量小于初始上限假设，并且大于数据中的实际类别数量。为了研究学习特征的动态，我们选择了10个最大的ShapeNet类别，并从每个类别中随机抽取了200个形状。使用t-SNE（图2）可视化的采样形状的特征的演变表明，学习的特征沿着训练时期逐渐表现出聚类友好的行为。4.3. 形状分类为了评估模型在形状特征学习上的性能，我们遵循[2]和[3]中的实验协议。报告从ShapeNet数据集[10]到ModelNet40数据集[82]的转移学习的分类准确性（即，40个类别的13，834个模型，分别分为9，843个和3，991个训练和测试样本）。与 [2] 类似，我们从预训练模型中提取ModelNet40样本的形状特征，而无需任何微调，在其上训练线性SVM，并报告分类精度。这种方法是评估无监督视觉特征学习[9]的常见做法，并提供了有关分类任务中学习特征有效性的见解。表1所示的结果表明，与其他无监督特征学习模型相比，我们的模型在ModelNet40形状分类任务值得注意的是，报告的结果没有任何超参数调整。利用随机超参数搜索，我们观察到准确度的绝对增加0.4（即，89.5%）。结果还表明，非监督模型是有监督模型的竞争力。错误分析表明，错误分类发生在几何相似的形状之间。例如，三个最常见的错误分类是在（桌子，书桌），（床头柜，梳妆台）和（花盆，植物）类别之间。在[2]中报告了类似的观察结果，并且建议可能需要更强的监督信号来学习区分这些类别的微妙细节。为了进一步研究学习的形状特征的质量，我们在零拍摄设置中对其进行了评估。为此，我们使用agglomera对学习到的特征进行聚类-共享多尺度图编码器1x1Conv64点要素ConcatKNN图K=15转换1x1Conv64Max1x1Conv64形状特征是说1x1Conv2561x1Conv512Max是说MLP(1024、ΣKNN图K=20转换1x1Conv64Max是说1x1Conv64KNN图1x1K=25ConvConv 64Max是说1x1Conv64重建任务群集任务预测任务MLPK-Means交叉熵损失MLPΣ多任务损失K均值损失倒角损失点云高斯噪声ConcatConcatConcatConcatConcat81653D GAN [80]Latent-GAN [2][20]第二十话FoldingNet [88][96]第96话83.385.786.488.488.989.1KCNet [63]KDNet [37]MRTNet [20]SpecGCN [75]91.091.891.791.5时代1时代100时代250时代500图2.学习特征沿训练时期的演变（使用t-SNE可视化），显示渐进式聚类友好行为无监督迁移学习有监督学习模型1%的训练数据5%的训练数据模型精度模型精度精度IOU精度IOUSPH [35]68.2PointNet [52]89.2SO-Net[39]78.064.084.069.0LFD [11]75.5[54]第五十四话90.7[96]第96话85.067.086.070.0[24]第二十四话74.4[30]第三十话86.1我们88.668.293.777.7VConv-DAE [62]75.5美国有线电视新闻网[78]92.2表2.半监督ShapeNetPart分割的结果任务表1. 左：通过ShapeNet对ModelNet40数据的迁移学习获得的分类准确性。右：监督学习对ModelNet40数据的分类我们的模型缩小了与监督模型的差距。在一个实施例中，该方法可以包括使用分层聚类（AHC）[46]，然后基于每个集群内的多数投票将分配的集群标签与地面实况标签（Mod_elNet40类别）对齐。结果表明，该模型在零监督的形状分类任务上达到了68.88%的该结果与ShapeNet数据集中观察到的聚类分配和地面实况标签之间的NMI一致。4.4. 部分分割零件分割是一个细粒度的逐点分类任务，其目标是预测给定形状中每个点的零件类别标签我们在ShapeNetPart数据集上评估了学习的每个对象由2至6个部分组成，所有类别中共有50个不同的部分。在[52]之后，我们使用平均交集大于并集（mIoU）作为通过对形状中出现的不同部分的IoU求平均而计算的评估度量。我们还报告了零件分类精度。在[96]之后，我们随机抽取1%和5%的ShapeNetPart训练集，以评估半监督设置中的点特征。我们使用相同的预训练模型来提取采样训练数据的点特征，以及验证和测试样本，而无需任何微调。然后，我们在采样的训练集上训练一个4层MLP [2048，4096，1024，50]，并在所有测试数据上对其进行评估。表2中所示的结果表明，与其他无监督特征学习模型相比，我们的模型在ShapeNet-Part分割任务上我们的模型（在5%的训练数据上训练）和完全监督模型之间的比较结果表明，我们的模型实现了mIoU，仅比最佳监督模型低8%，因此缩小了与监督模型的差距。我们还进行了内在评估，以调查每个类别内的学习点特征的一致性。我们从每个类别中采样了一些形状，堆叠了它们的点特征，并使用PCA将特征维数从1024减少到512然后，我们使用AHC方法对特征进行共聚类图3显示了飞机类别的共聚类结果我们在所有类别中观察到类似的一致行为。我们还使用了AHC和基于层次密度的空间聚类（HDBSCAN）[8]方法来聚类每个形状的点特征。我们根据每个集群内的多数投票将分配的集群标签与地面真实标签对齐。一些示例形状及其地面实况8166模型%列车数据目录插入。mIoU mIoU航空袋帽汽车座椅耳朵吉他刀灯笔记本电脑电机杯手枪火箭溜冰桌电话板PointNet [52]80.4 83.7 83.4 78.7 82.5 74.9 89.6 73.091.585.9 80.895.365.2 93.0 81.257.972.8 80.6[54]第五十四话81.9 85.1 82.4 79.0 87.7 77.3 90.8 71.891.085.9 83.795.371.6 94.1 81.358.776.4 82.6美国有线电视新闻网[78]82.3 85.1 84.2 83.7 84.4 77.1 90.978.591.587.3 82.996.067.8 93.3 82.659.775.5 82.0KCNet [63]82.2 84.7 82.8 81.5 86.4 77.6 90.3 76.891.087.2 84.595.569.2 94.4 81.660.175.2 81.3RSNet [31]81.4 84.9 82.7 86.484.1 78.2 90.4 69.391.487.0 83.595.466.0 92.6 81.856.175.8 82.2[91]第91话82.0 84.7 81.6 81.7 81.9 75.2 90.2 74.993.086.1 84.795.666.7 92.7 81.660.682.9 82.1RGCNN [70]79.5 84.3 80.2 82.892.675.3 89.2 73.791.388.4 83.396.063.9 95.7 60.944.672.9 80.4[第84话]82.4 85.3 83.5 81.0 87.2 77.5 90.7 76.891.187.3 83.395.870.2 93.5 82.759.775.8 82.8SPLATNet [65]83.7 85.4 83.2 84.3 89.1 80.3 90.7 75.592.187.1 83.996.375.6 95.8 83.864.075.5 81.8FCPN [56]84.084.0 84.0 82.8 86.488.3 83.3 73.693.487.4 77.497.781.4 95.8 87.768.483.6 73.4我们百分之五72.1 77.7 78.4 67.7 78.2 66.2 85.5 52.687.781.6 76.393.756.1 80.1 70.944.760.7 73.0表3.我们的半监督模型和监督模型在ShapeNetPart分割任务上的比较实例上的平均mIoU类别（Cat.）本文报告编码器解码器精度PointNet重建85.7PointNet多任务86.2我们重建86.7我们多任务89.1表4.编码器和多任务学习对ModelNet40准确性的影响。图3.使用分层聚类对航空-飞机类别内的学习点特征进行联合聚类，其展示了类别内的学习点特征的一致性部分标签，由训练的MLP、AHC和HDBSCAN聚类预测的部分标签如图4所示。如图所示，HDBSCAN聚类导致在完全无监督的设置中对学习的特征进行适当的4.5. 消融研究我们首先研究基于图形的编码器在形状分类任务上的有效性。在第一个实验中，我们用PointNet [52]编码器替换编码器，并保留多任务解码器。我们使用相同的迁移学习协议对网络进行训练和测试，结果分类准确率为86.2%。与基于图形的编码器相比，准确率为89.1%，这表明我们的编码器学习更好的功能，因此有助于我们实现的最先进的结果。为了研究多任务学习的有效性，我们将我们的结果与PointNet上报告的结果进行了比较。自动编码器（即，单个重构解码器）[2]，其实现了85.7%的分类准确度。这表明使用多任务学习可以提高学习特征的质量。结果总结见表4。我们还研究了不同任务对学习功能质量的影响，方法是掩盖任务损失，并在每个配置上训练和测试模型。表5中所示的结果表明重构任务对表现具有最高的影响这是因为与[9]相反，我们没有应用任何启发式方法来避免平凡的解决方案，因此当重建任务被屏蔽时，聚类和分类任务都倾向于将特征折叠到一个聚类，这导致降级的特征学习。此外，结果表明，掩蔽交叉熵损失将准确度降低到87.6%（绝对降低1.5%），而掩蔽k均值损失具有较小的不利影响（降低损失88.3%，即，下降0.8%）。这意味着交叉熵损失（分类器）比聚类损失起着更重要的作用。此外，结果表明，具有K-均值和交叉熵损失以及重建任务产生最佳结果（即，准确率为89.1%。这似乎是违反直觉的，因为人们可能会假设使用聚类伪标签来学习分类函数将推动分类器复制K均值行为，因此k均值损失将是冗余的。8167图4.一些样本形状及其地面真实部分标签，由训练的MLP在1%的训练数据上预测的部分标签，以及由AHC和HDBSCAN方法预测的部分标签。分类重构聚类总体任务准确性2019 -10 - 18 00：00：00×√×86.7所以我们把它们分离出来。• 与[78]类似，我们尝试堆叠更多的图卷积层，并重新计算输入邻接√×√×√6.988.3×88.3每一层基于其前一层的特征空间分选层。我们观察到这有一个不利的影响√×√√×√ √15.287.689.1在分类和分割任务上。5. 结论表5.任务对ModelNet40分类准确性的影响。然而，我们认为情况并非如此，因为分类器通过学习非线性边界来近似线性K-means模型的预测另一方面，K-均值损失将同一聚类中的特征推到更近的空间，同时将其他聚类的特征推离。最后，我们报告一些失败的实验：• 我们尝试K-Means++[5]来热启动集群质心。与随机选择的质心相比，我们没有观察到任何显著改善。• 我们尝试了解码器和分类器模型之间的软参数共享。我们观察到，这种破坏性-我们提出了一种无监督的多任务学习方法来学习点云上的点和形状特征，该方法使用三个无监督任务，包括聚类，自动编码和自监督分类来训练多尺度基于图的编码器。我们在点云分类和分割基准上详尽地评估了我们的模型。结果表明，在无监督表示学习中，学习到的特征优于现有的最先进模型。例如，在ModelNet40形状分类任务中，我们的模型达到了最先进的（在无监督模型中）89.1%的准确率，这也与监督模型竞争。在ShapeNetPart分割任务中，它实现了77.7的mIoU，仅比最先进的监督模型低8%。在未来的发展方向上，我们计划：（i）引入更强大的解码器以增强所学习的特征的质量，（ii）研究诸如法线和测地线的其他特征的效果，以及（iii）也使模型适应于执行语义分割任务。凝聚聚类HDBSCAN聚类MLP在1%的数据地面实况8168引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。[2] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。2018年。[3] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在 IEEE 计算机视觉国际会议（ICCV），第37-45页[4] Elie Aljalbout，Vladimir Golkov，Yawar Siddiqui，andDaniel Cremers.集群与深度学习：分类学和新方法。arXiv预印本arXiv：1801.07648，2018。[5] 大卫·亚瑟和谢尔盖·瓦西里茨基。K-means++：谨慎播种的优势。在Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algo- rithms，pages 1027[6] Mathieu Aubry，Ulrich Schlickewei，and Daniel Cremers.波核签名：形状分析的量子力学2011年IEEE计算机视觉研讨会国际会议（ICCV研讨会），第1626-1633页[7] Michael M.布朗斯坦和伊索纳斯·科基诺斯。用于非刚性形状识别的尺度不变热核特征。2010年IEEE计算机协会计算机视觉和模式识别会议，第1704[8] RicardoJGBCampello ， D av oudMoul a vi ， andJ o¨rgSander. 基于层次密度估计的基于密度的聚类。在关于知识发现和数据挖掘的太平洋-亚洲会议中，第160-172页。Springer，2013.[9] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议，第132-149页[10] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。[11] Ding-Yun Chen，Xiao-Pei Tian，Yu-Te Shen，and MingOuhyoung.基于视觉相似性的三维模型检索研究。在计算机图形论坛，第22卷，第223-232页。Wi- ley在线图书馆，2003年。[12] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在IEEE计算机视觉和模式识别会议论文集，第3150-3158页[13] Haowen Deng，Tolga Birdal，and Slobodan Ilic.Ppf折叠网：旋转不变三维局部描述子的无监督学习。在欧洲计算机视觉会议（ECCV），2018年9月。[14] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习在IEEE国际计算机视觉会议（ICCV），第1422-1430页[15] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在IEEE国际计算机视觉会议论文集，第2051[16] Gil Elbaz，Tamar Avraham，and Anath Fischer.使用深度神经网络自动编码器进行定位的3D点云配准。在IEEE计算机视觉和模式识别会议（CVPR）中，第4631-4640页[17] Francis Engelmann ， Theodora Kontogianni ， AlexanderHer- mans，and Bastian Leibe.探索空间情境以进行点云的三维语意分割。在 IEEE 国际计算机视觉会议（ICCV）研讨会上，第716-724页[18] Andreas Argyriou Theodoros Evgeniou 和 MassimilianoPontil。多任务特征学习。在神经信息处理系统的进展19：2006年会议记录，第19卷，第41页。MIT Press，2007.[19] Haoqiang Fan，Hao Su，and Leonidas J. Guibas从单幅图像重建三维物体的点集生成网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第605[20] Matheus Gadelha，Rui Wang，and Subhransu Maji.三维点云处理的多分辨率树网络。在欧洲计算机视觉会议（ECCV），第103-118页[21] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第8417-8426页[22] Kamran Ghasedi Dizaji ， Amirhossein Herandi ， ChengDeng，Weidong Cai，and Heng Huang.通过联合卷积自动编码器嵌入和相对熵最小化进行深度聚类。在IEEE计算机视觉国际会议（ICCV），第5736-5745页[23] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在国际学习代表会议（ICLR），2018年。[24] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示在欧洲计算机视觉会议上，第484-499页施普林格，2016年。[25] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在IEEE计算机

下载后可阅读完整内容，剩余1页未读，立即下载