真实世界点云数据集：ScanObjectNN

4 浏览量更新于2023-10-12 收藏 1.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1重温点云分类：一种新的基准数据集和真实世界数据的Mikaela Angelina Uy1范光晓2华彬3阮德成4杨世杰11香港科技大学2新加坡科技设计3东京大学4迪肯大学摘要点云数据的深度学习技术在解决3D计算机视觉中的经典问题（如3D对象分类和分割）方面表现出巨大的潜力最近的几种3D对象分类方法在CAD模型数据集（如ModelNet40）上具有最先进的性能，具有高精度（92%）。尽管有这样令人印象深刻的结果，在本文中，我们认为，对象分类仍然是一个具有挑战性的任务，使用真实世界的设置框定对象。为了证明这一点，我们引入了ScanObjectNN，这是一种基于扫描室内场景数据的新的真实世界点云对象数据集。从我们的综合基准，我们表明，我们的数据集构成了巨大的挑战，现有的点云分类技术，从现实世界的扫描对象往往是杂散的背景和/或部分由于闭塞。我们确定了点云对象分类的三个关键开放问题，并提出了新的点云分类神经网络，在对具有杂乱背景的对象进行分类时实现了最先进的性能我们的数据集和代码在我们的项目页面1中公开。1. 介绍近年来，认识我们的真实世界的任务取得了巨大的飞跃。GPU等强大计算资源的兴起以及深度传感器提供的3D数据加速了3D深度学习领域的快速发展。在各种三维数据表示方法中，点云由于其简单性而被广泛应用于计算机图形学和计算机视觉最近的工作在解决经典的场景理解问题，如3D对象分类和分割的点云显示了很大的希望。然而，目前的三维点云分类的进展已经见证了性能饱和的趋势。例如，许多最近的对象分类方法在2018年报告了非常高的准确率，并且将准确率推向完美的趋势仍在继续。1https://hkust-vgd.github.io/scanobjectnn/这一现象启发我们提出一个问题，即3D物体分类等问题是否已经完全解决，并思考如何向前迈进。为了回答这个问题，我们执行一个基准的前点云对象分类技术与合成和真实世界的数据。对于合成对象，我们使用ModelNet40 [43]，这是点云对象分类中最流行的数据集，包含约10，000个CAD模型。为了支持对真实世界数据的对象分类方法的研究，我们引入了ScanObjectNN，这是一种来自最先进的场景网格数据集SceneNN [19]和ScanNet [9]的新点云对象数据集。基于场景数据集的初始实例分割，我们手动过滤和选择15个常见类别的对象，并通过考虑额外的对象扰动来进一步丰富数据集。我们的研究表明，虽然CAD数据的准确性正在达到完美，但学习对真实世界的对象数据集进行分类仍然是一项非常具有挑战性的任务。通过分析基准测试结果，我们确定了三个开放的问题，值得进一步探讨，为未来的研究。首先，在合成数据上训练的分类模型通常不能很好地推广到真实世界的数据，例如从RGB-D扫描重建的点云[19，9]，反之亦然。其次，由于遮挡和重建错误，现实世界对象的具有挑战性的上下文和部分观察是常见的;例如，它们可以在许多机器人或自动驾驶汽车应用中的基于窗口的对象检测器中找到最后，如何有效地处理背景时，他们出现在一起的对象，由于在现实世界的场景杂乱。由于我们的数据集为解决现实世界对象分类中的此类开放性问题提供了机会，因此我们还提出了一种点云对象分类的新方法，该方法可以通过在单个神经网络中联合学习分类和分割任务来改善我们数据集的最新结果。总之，我们做出以下贡献：• 一个新的对象数据集从网格扫描现实世界的场景，用于训练和测试点云分类，15881589• 现有对象分类技术在合成和真实世界点云数据上的综合基准• 一种新的网络架构，能够通过分类和分割的联合学习对现实世界中观察到的对象进行分类2. 相关作品在本文中，我们专注于点云数据的对象分类，这在过去几年中取得了很大的进展下面我们简要讨论相关的工作及其数据集点云上的对象分类。对点云进行分类的早期尝试是通过改编图像深度学习的想法来开发的，例如，使用多视图图像[39，48，46，22]，或在3D体素网格上应用卷积[27，43]。虽然将卷积操作从2D扩展到3D似乎很自然，但表明在点云上执行卷积不是一项微不足道的任务[30，49]。困难源于这样一个事实，即点云没有明确定义的可以执行卷积的点的顺序。Qi等人[30]通过使用对点的顺序不变的对称函数来学习点云的全局特征来解决这个问题或者，提出了从卷积中学习局部特征的一些其他方法，[32，25，20，42，44，18，2，24，33，11]或来自自动编码器[45]。还有一些方法可以从点云和多视图投影中联合学习特征[47]。也可以将点云和视图视为序列[26，17，15]，或者使用无监督学习[16]。最近的工作在标准数据集上表现出非常有竞争力和竞争力的性能例如，SpecGCN [41]，SpiderCNN [44]，DGCNN [42]，PointCNN [25]等最先进的方法之间的差距在ModelNet40数据集上小于1%[43]。在ModelNet40作者维护的在线排行榜中，对象分类任务的准确性达到完美，点云方法的准确率为92%[25，42，44，26]。对象数据集。可用于训练和测试3D对象分类方法的数据集数量有限。ModelNet40最初由Wu等人开发。[43]用于学习卷积深度信念网络对体素网格中表示的3D形状进行建模。对象在ModelNet40中有40个常见类别的CAD模型，例如飞机，摩托车，椅子和桌子。该数据集是点云对象分类的常见基准[30]。ShapeNet [7]是一个替代的3D CAD形状的大规模数据集，包含55个类别的大约51，000个对象然而，这组通常用于基准部件分割。到目前为止，ModelNet40上的对象分类是在假设对象干净、完整并且没有任何背景噪音的情况下完成的不幸的是，这个假设在实践中并不经常发生由于3D重建的不完美性，通常会看到不完整（部分）的对象此外，现实世界中的对象通常在被放置在场景中时被扫描，这使得它们看起来杂乱，因此可能会附加背景元素。一种潜在的处理方法是使用人类注释器来移除这样的背景[28]。然而，这种解决方案是乏味的，容易出错，并且对注释者的经验是主观的。其他作品通过引入高斯模拟的噪声[4，12]或使用参数模型[6]创建以模拟真实世界场景来综合CAD数据的挑战。最近，sim2real [3]的趋势也旨在弥合合成数据和真实数据之间的差距。在我们的工作之前，也有一些真实世界对象扫描的数据集[10，8，5]，但大多数规模都很小，不适合训练对象分类网络，这些网络通常有数千个参数。例如，在机器人技术中，悉尼城市对象数据集[10]仅包含由LiDAR相机捕获的26个类别的631个对象，其主要用于评估[27，2]而不是用于训练。一些数据集[36，5]是在受控环境中捕获的Choi等人[8]提出了一个真实世界中超过10，000个对象扫描的数据集然而，并不是所有的扫描都能成功重建;作者的在线存储库也只提供了大约400个重建对象。RGB-D和3D场景网格数据集[19，9，1，37，34]具有更多与场景一起重建的对象，但这些对象通常在场景分割或对象检测任务中考虑，而不是在对象分类设置下。RGBD到CAD对象分类挑战[21，29]提供了混合CAD模型和真实世界扫描的对象数据集。它的目标是对RGB-D对象进行分类，以便可以进行检索以找到相似的CAD模型。然而，有几个类别是模糊的，对象应该在分类之前被很好地分割ScanNet [9]有一个关于部分扫描对象的3D对象分类的然而，该数据集是为基于体积的对象分类而设计的[31]，并且很少有技术使用该数据报告其结果。3. 基准数据我们的目标是定量分析现有的点云目标分类方法的性能我们将任务分为两部分：用合成数据和真实数据进行基准测试。3.1. 综合数据模型Net40对于合成数据，我们使用著名的ModelNet40数据集进行实验[43]。此集合是包含40个对象类别的CAD模型集合。该数据集包括9,840个用于训练的对象和2,468个用于测试的对象。ModelNet40中的对象是合成的，因此是完整的，1590框柜椅子袋书桌枕头货架水槽表厕所图1.从我们的数据集的样本对象。分割良好，无噪音。在这个实验中，我们使用了Qi等人预处理的均匀稠密点云变体。[30 ]第30段。除非另有说明，否则每个点云随机采样为1024个点作为网络的输入点云以零为中心，我们使用局部共-坐标（x，y，z）归一化为[−1，1]作为点属性。我们遵循默认的train/test拆分，并使用默认的参数如在方法的原始实现中那样。我们的基准测试使用 NVIDIA Tesla P100 GPU 执行。我们重新训练了PointNet [30]，PointNet++ [32]，PointCNN [25]，动态图 CNN （ DGCNN ） [42] ， 3D 修改的 Fisher 向量（3DmFV）[2]和SpiderCNN [44]。对于其余的方法，我们提供了原始论文中报告的结果。我们还报告每种方法结果示于表1中。可以观察到，最近的方法的性能正在逐渐增加，并且在92%左右波动。这个饱和的分数激励我们重新审视对象分类问题：在ModelNet40上训练的分类方法能否还是还有更多的研究问题有待探索？3.2. 真实世界数据ScanObjectNN从真实世界3D扫描获得的对象与CAD模型显著不同，这是由于背景噪声的存在以及由于来自不完整扫描/重建和遮挡的孔而导致的不均匀密度。这种情况经常出现在基于滑动窗口的对象检测中。方法Avg. 类精度整体精度[35]第三十五话83.287.4PointNet [30]86.289.2[49]第四十九话-90.0[14]第十四话-90.2Kd-Net [23]88.590.6（91.8*）[32]第三十二话87.890.7（91.9 w/正常）SO-Net [24]87.390.9（93.4 w/正常）KCNet [33]-913DmFV [2]86.391.4SpecGCN [41]-91.5（92.1 w/正常）SpiderCNN [44]86.890.0（92.4 w/正常）DGCNN [42]90.292.2[25]第二十五话88.892.5表1.点云分类的ModelNet40数据集的基线结果。除非另有说明，否则输入为点坐标* 表示使用更多输入点（32K）。其中窗口可以部分地包围感兴趣的对象由于这些属性，将现有的点云分类方法应用于真实世界数据可能不会产生与CAD模型相同的良好结果。3.2.1数据收集为了研究这个潜在的问题，我们基于两个流行的场景床斌门显示沙发1591网格数据集构建了一个真实世界的对象数据集：[19]和ScanNet [9]。SceneNN有100个注释1592类袋床斌框内阁椅子书桌显示门枕头架水槽沙发表厕所对象数7813520112734739514918122110526711825424282表2.数据集中的类和对象。ScanNet收集了1513个室内场景，而ScanNet收集了1513个室内场景。从SceneNN和ScanNet的1600多个场景中，我们选择了700个独特的场景。然后，我们手动检查每个对象，修复不一致的标签，并丢弃模糊的对象，重建质量低，标签未知，太稀疏，实例太少，无法形成训练类别。在分类过程中，我们还考虑了类间平衡，以避免任何可能来自样本较多的类的偏见。结果是2902个对象，分为15类类别原始对象由具有全局和局部坐标、法线、颜色属性和语义标签的点列表表示。其他作品通过引入高斯模拟的噪声[4，12]或使用参数化模型[6]创建来合成CAD数据上的挑战。最近，sim2real [3]的趋势也旨在弥合合成数据和真实数据之间的差距。与使用合成数据的实验一样，我们将所有原始对象采样到1024个点作为网络的输入，所有方法都只使用局部（x，y，z）坐标进行训练。我们将公开我们的数据集，以供未来研究使用。表2总结了我们数据集中的类和对象。3.2.2数据丰富化基于选定的对象，我们构建了几个变量，代表我们数据集的不同难度这使我们能够探索现有分类方法在更极端的现实世界场景中的鲁棒性香草味第一种变体被称为OBJ ONLY，其仅包括来自场景网格数据集的地面实况分割对象。该变体具有与其CAD对应物类似的最接近的形式，并且用于研究分类方法对具有变形几何形状和非均匀表面密度的噪声对象的鲁棒性。图2（a）显示了该变体的示例对象。背景前面的变体假设对象在被分类之前可以被准确地分段。然而，在现实世界的扫描中，对象通常呈现在分割不足的情况下，即，包括背景元素或附近对象的部分，并且对于这种欠分割的精确注释也不总是可用的。这些背景元素可以提供对象所属的上下文，因此将成为对象分类的良好提示，笔记本电脑经常放在桌子上然而，它们也可能引入干扰，(a) 只有物品（b）有背景的物体。图2.来自我们数据集的示例对象。分类，例如，笔可以与其所处的桌子欠分段，因此可以被认为是桌子的一部分而不是单独的对象。为了研究这些因素，我们引入了一个变体的数据集，其中对象与背景数据（OBJ BG）相连。我们确定这样的背景，通过使用地面实况轴对齐的对象边界框。具体地，给定边界框，提取框中的所有点以形成对象。具有背景的样本对象如图2（b）所示。心烦意乱。来自地面实况的给定边界框紧密地包围对象。然而，在现实世界的场景中，边界框可能会覆盖或覆盖，甚至分割对象。例如，在R-CNN [13]等对象检测技术中，必须从定位候选对象的粗略边界框预测对象类别。为了模拟这一挑战，我们在提取框中的几何体之前，通过平移、旋转（围绕重力轴）和缩放地面实况边界框来我们用一个共同的前缀PB命名这些扰动的变体。微扰给物体引入了不同程度的背景和扰动在这项工作中，我们使用了四个扰动变量的难度递增顺序：PB T25，PB T25 R，PB T50 R和PB T50 RS。后缀T25和T50表示随机移位边界框从其大小的25%和50%沿每个世界轴的长方体质心。后缀R和S表示旋转和缩放。每个扰动变量包含每个原始对象的五个随机样本，总共产生多达14，510个扰动对象因为微扰可能引入无效对象，例如，对于几乎完全在感兴趣的边界框之外的对象，我们在扰动之后通过确保至少50%的原始对象点保留在边界框中来执行附加检查。不满足此条件的对象将被丢弃。这些变体的样本点云如图3所示。关于扰动物体的更多细节可以在我们的补充材料中找到。1593(a)OBJ_BG(b)PB_T25 (c)PB_T25_R (d)PB_T50_R (e)PB_T50_RS图3.一个物体在不同的扰动变量中。4. ScanObjectNN上的基准测试为了更清楚地了解基于点云的对象分类的成熟度我们的目标是确定当前工作的现实世界的数据的局限性。我们选择3DmFV [2]，PointNet [30]，SpiderCNN[44]，PointNet++ [32]，DGCNN[42]和PointCNN[25]作为我们的代表作品。4.1. 关于ModelNet40我们首先研究了在Model-Net 40上进行训练并在ScanObjectNN上进行测试的情况。由于对象表3.在ModelNet40上进行训练时，我们数据集的总体准确率（%）请注意，为了公平比较，所有变体中的背景都已删除结果表明，在CAD模型上进行训练大多数方法在这个测试中不能很好地推广。在ModelNet40中是独立的，没有背景对象，3DmFV [2]73.868.267.167.463.563.0我们还删除了所有变体的背景，以进行公平评估-PointNet [30]79.273.373.572.768.268.2评估此外，我们只评估了现有的方法，SpiderCNN [44]79.577.178.177.773.873.7在ModelNet40和[32]第三十二话84.382.382.781.479.177.9我们的数据集。请参阅补充材料这些常见类的详细信息。DGCNN [42][25]第二十五话86.285.582.886.183.383.681.582.580.078.578.178.5评价结果见表3。这些结果表明，目前在CAD模型上训练的技术不能推广到真实世界的数据;所有技术都达到了小于50%的准确度。这是预期的，因为现实世界的对象和CAD对象在其几何形状上有很大的不同。由于构造错误和遮挡，现实世界的物体往往是不完整和局部的;它们的表面具有低频噪声;对象边界不准确。这些与CAD对象形成我们还发现，数据越难（即，噪声和噪声越多），性能越低，并且这对于所有技术都是换句话说，从ModelNet 40中的合成对象中学习的知识不能很好地转移和/或适用于现实世界的数据。4.2. 在ScanObjectNN上训练在这个实验中，我们在ScanObjectNN上训练和测试了这些技术，以证明在具有真实世界属性的数据集上进行训练我们还分析了不同的扰动如何影响分类性能。我们将数据集随机分为两个子集：训练集（80%）和测试集（20%）。我们确保训练集和测试集包含来自不同场景的对象，以便类似的对象不会出现在同一集中，例如。在同一个房间里可以找到相同类型的椅子我们在表4中报告了所有技术在最难分割上的性能。我们的补充材料中提供了所有劈叉的完整表4.在ScanObjectNN上进行训练和测试时的总体准确率（%）训练和测试是在同一个变体上完成的。对于真实世界的数据，引入的背景和干扰越多，分类任务就越具有挑战性。为了公平比较，我们在所有方法中保持相同的数据扩充过程（例如，随机旋转和每点抖动）。我们训练方法收敛，而不是选择测试集上的最佳性能。香草味表4中的第二列显示了现有方法在我们数据集最简单的变体上训练时的整体性能（仅限OBJ）。这清楚地表明，与使用ModelNet 40 进行训练相比，使用ScanOb-jectNN进行训练和测试时，分类准确性显著提高（表3第2列）。然而，我们也注意到与表1中的纯合成设置相比，可观察到的性能下降。这给出了一个重要的信息：真实世界数据的点云分类仍然是开放的，具有真实世界属性的数据集可以提供帮助，但需要进一步研究以重新获得合成设置中的高性能。在下文中，我们研究了数据集中不同类型扰动的性能变化。背景如表4第3-7列所示，背景对所有方法的分类性能产生强烈影响。具体而言，除PointCNN [25]外，所有方法在OBJ BG上的表现都比仅OBJ差。这可以解释为，3DmFV [2]30.928.427.224.524.9PointNet [30]42.337.635.332.131.1SpiderCNN [44]44.237.734.531.730.9[32]第三十二话43.637.837.233.332.0DGCNN [42]49.342.440.336.636.8[25]第二十五话32.228.728.126.424.615943DmFV [2]69.863.054.151.5PointNet [30]74.468.260.450.9SpiderCNN [44]76.973.752.746.6[32]第三十二话80.277.955.047.4DGCNN [42]81.578.158.754.7[25]第二十五话80.878.538.149.2表5.在我们最难的变体PB T50 RS上进行训练时，有和没有背景（BG）点时的总体准确率（%）测试是在我们的数据集的同一变体和ModelNet40上完成的。第二报头指示对应于训练集的结果。结果表明：（1）背景对分类性能有负面影响;（2）对真实世界对象的训练比相反的情况更好地推广到CAD评估（a）（b）（c）（（（图4.（a）3DmFV [2]，（b）PointNet [30]，（c）SpiderCNN [44]，（d）PointNet++[32]，（e）DGCNN[42]和（f）PointCNN [25]在我们最硬的PB T50 RS上。这表明，在我们的数据集中，对象类之间没有重大的歧义问题背景元素可能通过混淆前景和背景点而分散现有方法中的学习。为了进一步证实具有背景物体的负面影响，我们使用最难的扰动变量进行控制实验，即，PBT50 RS。表5显示了在存在背景的情况下进行训练和测试时，所有现有模型的总体准确性都会降低。扰动。表4还显示了扰动对分类性能的影响（与第2列相比）。在这个结果中，我们观察到平移和旋转都使分类性能显着下降，特别是在引入更多背景和干扰的较大扰动的情况下。规模进一步降低性能的一个小差距。图4展示了我们最难的变体PB T50 RS上所有方法的混淆矩阵可以看出，我们的类别中没有重大的模糊性问题，并且由于真实世界数据的高度变化，我们的数据集具有挑战性。一般化到CAD数据。虽然已经表明，在合成数据上训练的网络对我们的数据集的泛化能力很差（表3），但反过来却不正确。在这里，我们测试了现有方法在训练图5.椅子分类上的零件分割。从上到下：零件预测、2048点的地面实况和来自原始点云的高分辨率地面实况。在ScanObjectNN上。在这个实验中，所有方法都在我们的PB T50 RS（有背景和没有背景）上训练，并在ModelNet40上测试。表5中最后两列的结果清楚地表明，现有方法在真实世界数据上训练时可以更好地推广（与表3中的结果相比）。表6中列出了各个类别的性能。如表6所示，床、橱柜和桌子等类别的精度较低，因为这些对象通常位于墙壁附近或房间角落附近，因此在实际扫描中从未观察到完整的因此，我们提倡在训练对象分类时使用真实世界的数据，因为泛化效果要好得多。4.3. 真实世界数据上的零件注释我们进一步支持在我们的数据集中基于部件的注释。到目前为止，点云分类方法仅评估ShapeNet上的部分分割任务[40]。然而，尽管场景网格数据集可用，但没有公开可用的数据集用于真实世界数据的部分分割[19，9]。我们用我们的数据集缩小了这一差距，该数据集将被发布用于未来的研究。图5显示了我们的数据上的部分分割的可视化表7和表8提供了对我们数据的基线部件分割评价使用这些部分注释还可以在将来改进部分4.4. 讨论我们的定量评估表明，对真实世界的数据进行对象分类是具有挑战性的。我们的基准测试中最先进的方法在我们最难的变体（PB T50 RS）上的准确率高达78.5%基准测试还帮助我们认识到以下开放问题：背景被期望提供上下文信息，但也引入噪声。希望有一种方法，可以区分前景和背景，以有效地利用上下文信息的分类任务。物体变形，由重建质量低或我们ModelNet40无血糖无血糖无血糖地面实况Ground truth（原创）预测1595内阁椅子书桌显示门架表床水槽沙发厕所3DmFV [2]20.867.18.175.075.086.097.010.050.021.064.0PointNet [30]2.872.143.083.0100.098.093.04.035.023.026.0SpiderCNN [44]17.954.317.486.090.090.088.07.040.032.014.0[32]第三十二话18.971.412.894.045.079.088.02.045.014.035.0DGCNN [42]47.275.711.694.085.083.0100.09.045.042.012.0[25]第二十五话42.577.924.476.020.092.076.04.035.024.019.0表6.当在我们的PB T50 RS上进行训练时，ModelNet40上的每类平均准确率（%）低准确性被强调。PointNet [30]81.383.182.279.978.8[32]第三十二话80.385.484.181.382.8表7.在ScanObjectNN的不同变体中，椅子部分分割的总体准确率%分支预测一个将前景与背景分开的对象遮罩。请注意，掩码可以很容易地从我们的训练数据中获得，因为我们的对象最初来自场景实例分割数据集[19，9]。5.1. 网络架构我们的背景感知（BGA）模型建立在PointNet++ [32]（BGA-PN++）之上。我们的网络描述在图6.特别地，我们使用三个层次的集合抽象从PointNet++中提取点云全局特征。然后，全局特征通过三个完全连接的层来产生对象分类分数。Dropout也以与原始PointNet++表8.每部分平均准确率%的椅子在我们最难的变体PB T50 RS。不准确的目标提案也需要解决。部分分割技术[30，25]可以帮助描述部分对象。CAD模型和真实世界扫描之间的泛化需要更多的调查。总的来说，我们发现在真实世界的数据上进行训练和在CAD上进行测试比相反的情况更能推广可以解释的是，真实世界数据具有更多的变化，包括如上所述的背景和部分。然而，CAD模型仍然很重要，因为真实世界的扫描很少是完整的，也很少是无噪声的。弥合这一领域的差距可能是一个重要的研究方向。为了方便将来的工作，在接下来的部分中，我们将提出一些想法和基线解决方案。5. 背景感知分类网络我们在这里提出了一个简单的深度网络来处理从真实扫描中获得的点云中背景的出现;这是我们在上一节中提出的一个未决问题。现有点云分类网络的一个问题是缺乏区分前景点和背景点的能力换句话说，现有方法将点云作为一个整体，直接计算特征进行分类。这个问题源于这些网络的设计，也源于可用训练数据集的简单性，例如，ModelNet40.为了解决这个问题，我们的想法是通过在分类网络中添加分割引导分支来使网络段-架构三个PointNet特征传播模块，然后计算对象的分割掩模分类得分的最后一个全连接层之前的特征向量用作第一个PointNet特征传播模块的输入，使预测对象掩码由分类输出驱动。我们两个部门联合训练。损失函数是分类和分割损失的总和，可以写成Ltotal=Lclass+λLseg，其中Lclass和Lseg均为预测值和地面实况之间的交叉熵损失类标签和对象掩码。我们设置λ= 0。5在我们的实验中。使用对象掩码进行分类和分割的联合学习允许网络知道相关点（即，确认背景点的存在）。此外，在分割之前使用分类预测引导网络学习与所需对象类的真实形状一致的对象掩模。在我们的实验中，联合学习分类和掩码预测在嘈杂的场景中有更好的分类精度。此外，我们还介绍了BGA-DGCNN，这是一种基于DGCNN的背景感知网络[42]。我们采用与BGA-PN++相同的概念，分类和分割，其中分类分支的最后一个全连接层用作分割分支的输入我们的实验结果表明，我们的bga模型是适应不同的网络架构。5.2. 评价我们在我们的数据集和Model-Net 40上评估我们的网络表9显示了我们的网络背景座椅回来基地臂PointNet [30]81.481.886.752.540.5[32]第三十二话81.987.789.262.364.61596表9.在PB T50 RS和ModelNet40上的总体和平均分类准确率（%）培训在我们的PB T50 RS上完成。输入输出输入输出图6.我们提议的网络。图7.通过我们的BGA-PN++从PB T50 RS的测试集中提取样本对象及其相应的预测请注意，点云上的颜色是出于可视化目的，但网络的输入仅为（x，y，z）坐标。和现有的最难的变体PB T50 RS和ModelNet40分别。我们的BGA型号BGA-PN++和BGA-DGCNN都优于其同类产品，其中BGA-PN++在我们的PB T50 RS上实现了最佳性能。在ModelNet 40上，我们的BGA-PN++比PointNet++提高了近5%（准确率为52.6%），而我们的BGA-DGCNN达到了56.5%的最高性能。请注意，在此评估中，所有方法都是在我们的i.e.上训练的。PB T50RS。如图所示，我们的BGA模型在ModelNet40和我们的数据集中都得到了改进。此外，我们还评估了我们的网络的分割性能。实验结果表明，我们的BGA-PN++在PB T50 RS和ModelNet40上的分割准确率分别为77.6%和71.0%，而我们的BGA-DGCNN分别为78.5%和74.3%。我们在图7中可视化了BGA-PN++预测的一些对象掩码。可以看出，我们提出的网络能够相当准确地掩盖背景(a) 分类错误的病床（b）分类正确的显示图8.我们的BGA-PN++在Mod-elNet 40上的分割结果示例背景和前景分别用橙色和蓝色标记。5.3. 讨论与局限性虽然两种BGA模型都表现出良好的性能，但我们发现基于DGCNN的网络在真实数据和CAD数据之间具有良好的泛化能力，例如，当在真实数据上训练和在CAD数据上测试时（表9），反之亦然（表3）。此外，表3还表明，基于DGCNN的模型在合成到真实情况下也是如此。对DGCNN架构的更多研究可能会导致模型更好地泛化，并弥合合成数据和真实数据之间的差距。我们提出的BGA并非没有限制。一般来说，它需要在数据中包含对象遮罩和背景。图8-（a）显示了我们的方法在无背景ModelNet 40对象上评估时的失败情况。6. 结论本文回顾了点云数据的最先进的对象分类方法。我们发现，现有的方法是成功的合成数据，但失败的现实数据。为了证明这一点，我们构建了一个新的真实世界对象数据集，包含15个类别的15，000件与现有的数据集相比，我们的数据集提供了更实际的挑战，包括背景发生、对象变形和不同变形变体的变形。我们在新的数据集上对现有的方法进行了基准测试，讨论了问题，确定了开放的问题，并提出了可能的解决方案。我们还提出了一种新的点云网络分类对象与背景。实验结果表明，我们的方法在合成和真实世界的对象数据集的进步。确认该研究项目部分由...由香港科技大学内部资助（R9429）。分段分支FC 2FC 128特征传播3特征传播2特征传播1掩模预测掩码向量分类分支FC 256FC 512类别预测足球俱乐部类向量特征向量OA我们MACCModelNet40OAMACC输入云⊕集合抽象1集合抽象2集合抽象33DmFV [2]63.058.151.552.2PointNet [30]68.263.450.952.7SpiderCNN [44]73.769.846.648.8[32]第三十二话77.975.447.445.9DGCNN [42]78.173.654.754.9[25]第二十五话78.575.149.244.6BGA-PN++（我们的）80.277.552.650.6BGA-DGCNN（我们的）79.975.756.557.61597引用[1] 放大图片创作者： Iro Armeni ， Ozan Sener ， AmirR.Zamir ， Helen Jiang ， Ioannis Brilakis ， MartinFischer，and Silvio Savarese.大规模室内空间的三维语义解析。在CVPR，2016年。2[2] YizhakBen-Shabat ， MichaelLindenbaum 和 AnathFischer。3dmfv：使用卷积神经网络实时进行三维点云分类。 IEEE Robotics and Automation Letters ， 2018 。二、三、五、六、七、八[3] Alex Bewley ， Jessica Rigley ， Yuxuan Liu ， JeffreyHawke，Richard Shen，Vinh-Dieu Lam和Alex Kendall。学习从模拟驾驶没有现实世界的标签。2019年国际机器人与自动化会议（ICRA）二、四[4] Dmytro Bobkov，Sili Chen，Ruiqing Jian，Muhammad Z.伊克巴尔和埃克哈德·斯坦巴赫。使用点对描述符在三维点云中进行对象分类的抗噪深度IEEE Robotics andAutomation Letters，2018。二、四[5] Berk Calli ， Arjun Singh ， James Bruce ， AaronWalsman，Kurt Konolige，Siddhartha Srinivasa，PieterAbbeel和Aaron M Dollar。用于机器人操作研究的耶鲁-卡内基梅隆大学数据集。 International Journal ofRobotics Research，2017。2[6] 本·钱德勒和恩尼奥·明戈拉通过低级图像完成，利用深度神经网络减轻遮挡对对象识别的影响。在对比中Int.和Neu- rosc。，2016年。二、四[7] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012，斯坦福大学- 普林斯顿大学-芝加哥丰田技术学院2[8] Sungjoon Choi ， Qian-Yi Zhou ， Stephen Miller ， andVladlen Koltun. 对象扫描的大型数据集。 arXiv ：1602.02481，2016。2[9] Angela Dai ， Angel X Chang ， Manolis Savva ， MaciejHalber，Thomas Funkhouser，and Matthias Niessner.扫描网：丰富的注释三维重建的室内场景。在CVPR，2017年。一二三六七[10] Mark De Deuge，Alastair Quadros，Calvin Hung，andBertrand Douillard.用于室外3d扫描分类的无监督特征学习在2013年的澳大拉西亚机器人与自动化会议上。2[11] Miguel Dominguez 、 Rohan Dhamdhere 、 Atir Petkar 、Saloni Jain、Shagan Sah和Raymond Ptucha。通用深度点云特征提取器。在WACV，2018。2[12] Alberto Garcia-Garcia ， Jose Rodriguez ， Sergio Orts ，Sergiu Oprea ， Francisco Gomez-Donoso ， and MiguelCazorla.噪声和遮挡对卷积神经网络应用于三维物体识别准确性影响的研究。计算机视觉和图像理解，2017年。二、四[13] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。41598[14] Fabian Groh ， Patrick Wieschollek 和 Hendrik P.A.伦施Flex-convolution（网格世界之外的百万级点云学习）。在ACCV，2018年。3[15] Zhizhong Han ，Honglei Lu ，Zhenbao Liu ，Chi-Man Vong ， Yu-Shen Liua ， Matthias Zwicker ，Junwei Han，and C.L.菲利普·陈。3d2seqviews：基于cnn和层次注意力聚合的3d全局特征学习序列视图聚合。 IEEETransactionsonImageProcessing，2019。2[16] Zhizhong Han，Mingyang Shang，Yu-Shen Liu，and Matthias Zwicker.查看帧间预测GAN：通过学习全局形状记忆以支持局部视图预测来对3D形状进行无监督表示学习。在AAAI，2018。2[17] Zhizhong Han，Mingyang Shang，Xiyang Wang，Yu-Shen Liu，and Matthias Zwicker.Y 2seq2seq：通过视图和单词序列的联合重建和预测，对3D形状和文本进行跨模态表示学习在AA

下载后可阅读完整内容，剩余1页未读，立即下载