没有合适的资源?快使用搜索试试~ 我知道了~
基于密度的聚类在点云中的3D物体检测的应用
e0020829@u.nus.educhewcm@nus.edu.sg106080基于密度的聚类在点云中的3D物体检测中的应用0Syeda Mariam Ahmed Chew Chee Meng新加坡国立大学0摘要0当前的3D检测网络要么依赖于2D物体提议,要么尝试直接从场景中的每个点预测边界框参数。前一种方法依赖于2D检测器的性能,而后一种方法由于点云的稀疏性和遮挡而具有挑战性,难以回归出准确的参数。在这项工作中,我们引入了一种新颖的3D物体检测方法,它在两个主要方面具有重要意义:a)级联模块化方法,将每个模块的感受野集中在点云中的特定点上,以改进特征学习;b)使用无监督聚类初始化的类别不可知实例分割模块。级联方法的目标是依次减少通过网络的点的数量。虽然三个不同的模块分别执行背景-前景分割、类别不可知实例分割和物体检测的任务,通过单独训练的基于点的网络。我们还评估了模块中的贝叶斯不确定性,展示了我们预测结果的整体置信水平。网络的性能在SUNRGB-D基准数据集上进行评估,与最先进的方法相比,取得了改进。01. 引言0尽管在3D物体检测方面取得了最新的突破,但区域提议的任务仍然严重依赖于2D物体检测器。遵循基于图像的检测的惯例,候选的3D提议通常是通过滑动窗口[35, 16, 31,4]或者通过3D区域提议网络(如[27,28])生成的。然而,3D搜索的计算复杂度随着分辨率的增加而呈立方增长,在大场景或实时应用中计算代价很高。或者,将点投影到2D图像的方法[3,35]在严重杂乱和遮挡的环境中可能会损失几何和表面特性。虽然有一些工作尝试直接学习从0对于处理3D点云的点特征,最成功的网络之一是PointNet[20,22],它可以用于对点云进行物体检测和语义分割。他们最初的完整3D物体检测流程的工作[19]集成了一个2D区域提议网络,从RGB图像中生成边界框提议,并将其提升到3D视锥体中。然后使用PointNet对提议的视锥体内的点云进行分割,并用于在3D中回归物体的非模态边界框。虽然他们的方法显示出了改进的准确性,但该方法的性能受到2D物体检测器性能的限制。0最近,一种使用Hough投票来预测物体可能实例的3D网络对这种方法进行了更新,然后进行边界框检测[18]。虽然该网络直接在20-40k个点的输入点云上操作,但在特征学习之后,它只采样1024个点作为投票的种子,生成唯一实例的物体位置。由于点云中物体的点密度可能会有所不同,因此在这么少的种子中很难很好地表示较小或严重遮挡的物体。0通过最先进的网络处理无组织的点云时,最大的瓶颈之一是可以作为输入的点的数量。这个点的数量直接影响网络的大小和计算复杂度,从而影响特征学习的质量。因此,本文着重于通过实现具有不同目标的较小模块来逐步减少点云的大小,其中每个任务输出一组减少的点供后续模块处理。0为了实现这一目标,我们引入了一种新颖的级联网络,为以下任务提供了单独的模块:a) 背景-前景分割,b)类别不可知的实例分割,c)3D物体检测,如图1所示。所提出的网络使用PointNet++[22]作为分割模块的骨干进行模块化训练,而通过最近提出的Edge-Aware PointNet[1]推断出分割的聚类,用于3D物体检测任务。106090图1.对象检测的提议流程概述。给定一个3D场景,首先将点云分割为背景-前景点。接下来,只有前景点使用DBSCAN进行聚类,DBSCAN是一种无监督的基于密度的区域生长算法。聚类中的每个点被分配一个质心位置,该位置通过第二个基础网络进行微调。该模块的输出是通过Edge-Aware PointNet (EPN)推断出的K个聚类,用于预测每个聚类的类别和回归3D非模态边界框。0具体而言,我们做出了以下贡献:0•提出了一种新颖的级联框架用于3D物体检测,可以直接实现点云的类别不可知分割,然后预测边界框。与通过多任务学习训练网络不同,我们提出单独训练更简单的模块,并利用不确定性预测生成对最终任务的自信提议。0•第一个模块执行背景-前景分割,其中背景类包括墙壁和地板,而前景类包括所有其他对象。目标是从点云中删除可能在后续任务中产生误报的所有点。这一步自动减小了点云的大小,而不会影响对象的可观察性。0•下一个模块是一种基于聚类的新颖实例分割模块,前一阶段的前景点使用无监督算法DBSCAN[5]进行聚类。编码器-解码器框架通过回归所提议聚类质心和真实值之间的偏移向量共同预测实例。因此,每个点都为偏移距离投票,指示实例质心的真实位置。0• 最后一个模块是Edge-Aware PointNet(EPN),它预测了包括个体对象实例的大小、位置和方向在内的边界参数。02. 相关工作02.1. 实例分割0尽管在改进3D深度学习网络方面付出了大量努力,但3D实例分割的文献落后于其2D对应物。在这方面的第一个重要尝试是引入了相似性群组提议网络(SGPN)[32],它通过学习表示形式的相似性矩阵生成对象实例的群组提议。因此,属于同一实例的点在矩阵中具有相似的特征,而不同对象实例的点则不同。另一种最近的方法是3D语义实例分割(3D-SIS)[9],它利用多视图RGB图像学习2D特征,然后将其反投影到相关的3D体素上。他们利用2D特征学习到3D,用于对象检测和实例分割任务。联合语义-实例分割(JSIS)[17]是唯一一个将语义和实例分割作为联合任务学习点云的工作。他们不直接处理完整的点云,而是扫描重叠的3D窗口,然后将其传递给点网络,以预测窗口内顶点的语义类别,并将顶点嵌入高维向量中。然后使用条件随机场对最终结果进行优化。他们使用“推-拉”嵌入定义实例分割,其中“拉”将嵌入吸引到质心,而“推”将这些质心彼此分开。正则化损失“reg”是一个小力,将所有质心吸引到原点。这种方法的一个主要问题是需要对从原始点云生成的所有3D窗口运行网络。106100因此,对于密集的大规模点云,这种方法可能计算成本很高。受到SGPN和JSIS的启发,我们通过直接从点云中学习来解决3D实例分割任务。然而,与这两种方法不同的是,我们利用3D对象的几何属性使用DBSCAN[5]这种无监督聚类算法来初始化这个任务。因此,我们的网络的训练从DBSCAN的实例预测开始,而PointNet++[22]对实例进行微调,以实现改进的实例分割性能,同时使用一个浅层网络。02.2. 3D物体检测0处理体积数据的三种最流行的方法是3DCNNs、2D多视图CNNs和点云网络。目前最先进的3DCNN方法[4, 16, 24, 27, 28, 31,33]主要是基于体积量化的方法,因为它们能够整合完整的点云并直接利用3D信息。Song等人[28]和Zhou等人[35]提出了对每个非空体素进行编码,编码方式是使用每个体素内包含的点的统计量,例如截断有符号距离或二进制编码[15]。类似地,多视图CNNs[3, 11, 21, 29,30]使用3D点云的2D渲染图像,大大减少了网络的计算复杂度。PointPillars[14]是另一种方法,它通过使用一种新颖的编码器,在点云的柱状结构(垂直列)上学习特征,从而只使用2D卷积层进行端到端学习,用于预测物体的3D定向框。MV3D[3]通过在鸟瞰图中计算多通道特征图和在前视图中计算柱面坐标,为LI-DAR点云引入了多视图表示。虽然观察到基于多视图CNN的识别[34, 26,12]是一种更好的方法,因为该网络经过训练可以识别遮挡下的3D物体。然而,鸟瞰图投影和体素化方法都会由于数据量化而导致信息丢失,而且3DCNN既占用内存又计算效率低下。点云网络最早由[20,22]提出,用于对完整的3DCAD模型进行对象分类、语义分割和场景中的3D对象检测[19]。基于这个网络,Shi等人[25]提出了PointRCNN,一种新颖的基于点云的自底向上的点云网络,可以直接从原始点云中生成稳健的3D提议,既高效又无需量化。该网络的基本假设是所需的对象在3D空间中是自然分离的,这在KITTI数据集中是成立的,但在室内点云中可能无法达到高性能,因为存在大量的杂乱和遮挡,物体经常重叠。0在本文中,我们提出使用级联模块化方法,允许为每个子任务修改网络架构的灵活性。因此,我们在背景-前景和实例分割中使用PointNet++,但在物体检测中使用Edge-Aware PointNet (EPN)[1]。EPN将PointNet++与一个并行的基于2D二进制图像的卷积神经网络(CNN)流集成在一起。所提出的框架的PointNet++层以3D点云的单个实例作为输入,而网络的补充CNN层则提供2D二进制图像。这种方法通过结合点云网络和传统的CNN,实现了特征学习,从而提高了性能。03. 网络架构0我们引入了一个级联模块化网络,用于背景/前景分割,然后进行类别无关分割和3D物体检测,如图1所示。使用多个级联模块进行分割的主要原因是对点云进行有原则的缩减。这种缩减点云的方法非常关键,因为原始的原始点云可能包含数百万个点,而基于点云的网络的计算复杂度直接受到正在处理的点的数量的影响。因此,我们观察到,目前最先进的基于点云的方法[18, 19,17]通常处理1024-5000个点。假设语义分割直接在完整的点云上实现,没有背景-前景分割,那么网络只能处理M个点,结果较少的点将有助于每个对象的特征学习。由于所提出的级联模块,点云的大小显著减小,一旦从场景中删除了背景点。因此,后续的模块将由对于特定任务而言有意义的点组成,从而形成一个更集中的感受野。03.1.背景/前景分割0分割流程从背景/前景分割开始,其中背景包括墙壁、地板和天花板,而前景包括所有其他物体。输入点云的大小为Nˆ6,其中每个点N与3D坐标tx, y, zu和RGB tR, G,Bu值相关联。分割模块的主干是基于点的编码器-解码器框架,如Qi等人提出的[22]。编码器由集合抽象层(SA)组成,从云中采样最近的邻近点,并使用多层感知器(MLPs)学习特征向量。SA层从上一层Nl中采样Nl`i个点,其中Nl`iĂNl,并为子采样组中的每个点生成特征向量。类似地,解码器106110图2.实例分割模块的详细信息。该模块使用初始聚类进行初始化,其中每个点与表示CiDB和Ci之间偏移量的向量△Ci相关联。0由特征传播层(FP)组成,将子采样点Nl的特征值f插值到Nl´i。从一层到下一层的特征插值使用逆距离加权平均值进行,定义如下[22]:0fpjqpxq“řki“1wipxqf(pjqiřki“1wipxq)(1)0dpx,xiqp表示k个最近邻点的逆距离加权平均值。与传统上用于处理完整点云的滑动窗口方法不同,我们从点云中随机采样N个点。当网络处理N个点时,原始点云可能要大得多,大小为TˆN。为了在整个点云中传播前景/背景语义标签,我们提出了“最近邻 - 上采样(NN-Ups)”,定义如下。0Spˆypq“argmaxtSp(y1q...Spykqu (2)0其中Spy1q,...Spykq是通过网络推断得到的k个最近邻点的预测标签,而Spˆypq是原始点云中的点。使用这种方法,我们可以将语义标签插值到原始点云中。03.2.类别无关的实例分割0一旦获得前景点,引入了一种新的实例分割模块,可以预测类别无关的实例。直接回归物体质心以生成单个物体实例通常很难收敛,因为3D点云中物体的尺度、大小和密度变化很大。因此,我们提出使用无监督的方法将点分组成聚类。0图3.使用DBSCAN的密度聚类概念解释。该算法依赖于两个参数,ε指定每个点的邻域范围,μ给出可以形成聚类的最小点数。0聚类算法DBSCAN[5],其结果是将聚类中的每个点与其所属的质心CiDB相关联,如图2所示。因此,网络的目标是预测质心CiDB与从地面真实数据中获得的实际质心Ci之间的偏移△Ci“t△cxi,△cyi,△cziu。DBSCAN算法依赖于两个参数,ε指定每个点的邻域范围,μ给出可以形成聚类的最小点数,如图3所示。该算法首先识别数据中的核心点,然后在邻居图中搜索核心点的连通分量,并从这些点中形成聚类。最后,如果非核心点是ε邻居,则将其分配给最近的聚类。这种方法不需要关于聚类数量的先验信息,并且对异常值具有鲁棒性。网络架构使用与前景/背景分割模块相同的主干。然而,网络执行实例回归任务。网络的损失函数是Lins,定义如下:0Lins“10N0i || △ C i ´ △ C i ˚ ||(3)0其中△Ci是CiDB和Ci之间的真实偏移量,而△Ci˚是点云中每个点i的预测偏移向量。初始聚类的概念相对于直接回归实例质心,如Deep Hough Voting[18]所提出的方法,具有两个基本优点。首先,密集点云的初始聚类生成了关于物体的基于几何的估计。这改善了从密集点云中采样点的方式,现在将考虑从所有聚类中采样点,而不考虑它们的大小和密度。与最远点采样算法或随机采样不同,这种方法直接确保从可能包含一个物体的所有重要区域中采样点。Lr “$’&’%12py ´ fpxqq2for|y ´ fpxq| ď δδ|y ´ fpxq| ´ 12δ2otherwise(4)L “ Lctlcu ` λ1Lctacu ` λ2Lctocu ` λ3Lrtcenu`λ4Lrt△acu ` λ5Lrt△ocuu(5)106120物体。第二个优点在于训练网络的更快收敛,能够以更高的准确性预测较小的质心偏移△Ci,而不是直接回归质心位置。这个概念在图2中得到了证明,其中所有点最初都与CiDB相关联,用红点表示,表示它们所属的聚类实例。由于真实质心位置是Ci,用黄点表示,网络被训练来学习预测质心和真实质心之间的真实偏移量。一旦预测出真实实例,每个实例都会通过以下模块进行采样,以预测模态边界框和类别标签。与前一个模块类似,通过公式(2)将实例的预测质心传播到所有前景点。03.3. EPN:边缘感知PointNet0Edge-AwarePointNet(EPN)是我们最近提出的一种用于从3D点云中进行物体识别的新型深度学习网络[1]。EPN的架构包括两个并行通道用于特征学习,这是对最初提出的PointNet++[22]的扩展。所提出网络的新颖之处在于将PointNet++特征提取器和边缘感知CNN分支集成在一起,明确使用3D边界点作为几何先验来增强特征学习。更正式地说,网络以矩阵XPRNˆ4作为输入,其中N是从第二模块的输出中随机采样的固定点数,而四个通道表示欧几里得坐标和指示给定点是否为边缘或非边缘的逻辑值。所使用的边缘检测算法也基于我们之前的工作[2]。网络由三个主要部分组成:a)二进制投影,b)PointNet特征提取器和c)ECNN特征提取器。二进制投影模块使用映射函数S将3D矩阵X转换为一系列2D二进制图[1]。这些图基本上表示给定对象的几何形状,同时具有低分辨率,这可以防止网络过于计算密集。我们将此网络用作我们的最终模块,它接受K个聚类并预测每个对象的类别标签和边界框参数。03.4. EPN的损失函数0EPN旨在通过六个分类和回归任务来预测物体的类别标签和模态边界框,这些任务被定义为y“tylc,yac,yoc,ycen,y△ac,y△ocu。分类任务包括ylc表示标签分类,yac表示锚框分类,yoc表示方向分bin类。类似地,回归任务包括ycen,y△ac,y△oc表示回归。0从锚框和方向分bin中预测边界框质心和偏移量的扩展。我们将3D边界框参数化为BBi“txi,yi,zi,li,wi,hi,θiu,其中txi,yi,ziu表示质心位置,tli,wi,hiu表示边界框的长度、宽度和高度,θi是绕Z轴的偏航旋转角度,对于给定的点云实例i。我们根据[19]制定了边界框预测的公式,首先预定义了一组具有特定尺寸的锚框,然后回归每个对象与最近锚框之间的偏移量。分类模块接受来自PointNet和ECNN分支的联合特征向量F“tFPN,FECNNu作为输入,并通过一系列全连接(FC)和dropout层进行处理。使用softmax函数生成C个类别概率,而交叉熵损失函数用于训练所有分类任务。所有回归任务tycen,y△ac,y△oc使用Huber损失[10]进行训练,定义如下。0其中 y 是真实值,f p x q 是网络的预测值,δ是预先定义的阈值,当损失低于该阈值时,损失变为二次型。EPN网络的综合损失为:0其中 λ 1 ,...,λ 5 是描述每个任务权重的可变参数。03.5. 贝叶斯不确定性估计0贝叶斯神经网络将确定性权重替换为权重的概率分布,在神经网络中[6]。因此,目标不再是直接优化权重,而是优化先验分布的参数。最近,[7]提出使用Dropout层来计算不确定性,其中在神经网络的权重上放置了先验伯努利分布,当进行推断时,可以用于计算预测的不确定性。在所提出的网络中,所有的PointNet++模块至少包含一个Dropout层,用于计算相应模块的方差。该方差用于过滤与不确定决策相关的点,并提高整体预测准确性。Background75.9mAcc75.8BM79.1V arpyq “ 1TTÿt“1f ˜wipxqf ˜wipxtq ´ EpyqT Epyq(6)106130图4.在不同贝叶斯均值阈值下进行背景-前景分割的精确率-召回率曲线。图表显示,当选择较低的贝叶斯均值阈值来过滤掉非决策点预测时,精确率和召回率值会增加。因此,右下角的不确定性图显示,具有较高不确定性的点(浅色点)属于背景类别,表明该类别的标注错误。04. 实验结果04.1. 实现细节0我们的网络在SUN-RGBD数据集的密集室内点云上运行,每个场景包含超过100k个点。第一个分割模块从点云中采样10K个点,随后的实例分割采样5k个点,而EPN从每个S个对象提议中采样的点数为1024。这些点是在运行时随机采样的,如果一个点云的点数较少,则重复使用相同的点以达到指定的数量。骨干网络PointNet++包括四个集合抽象(SA)层和四个特征传播(FP)层,用于分割模块。SA层使用可变半径0.1到0.8进行最近邻采样。四个FP层将点数重新采样回原始数量,前两个层具有256维特征,后两个层具有128维特征。接下来是两个全连接层(FC),其中包含一个p为0.5的Dropout层。EPN中的PointNet分支包括三个SA层,其中前两个层执行多尺度分组以对N个点进行子采样,其中N为512,k为64个最近邻,使用基于半径的搜索,半径为0.2到0.4。每个SA层后面是一个带有MLP的PointNet层,大小为64、64、128和128、128、256。最后一个SA层不进行子采样,而是累积所有特征图,然后是一个大小为256、512、1024的MLP。网络的ECNN分支与PointNet分支并行训练,具有两个CNN层。0类别准确率0前景 75.80表1. SUN-RGBD数据集上背景/前景分割的平均准确率。0这两个卷积层的卷积滤波器为 f “ t 64 , 128 u,卷积的核大小为 k “ t 5 , 5 u 。每个2DCNN层后面跟随一个最大池化层,核大小为 k “ t 2 , 2 u,步长为2。在第二个最大池化层之后,特征图被转换为一个向量,通过两个大小为 t 2048 , 1024 u的全连接层进行处理,其中每个FC层后面跟随一个dropout层,dropout概率为 0 . 5 。04.2. 评估和比较0我们在SUN-RGBD数据集上评估了这三个模块。第一个模块从点云中分割出背景和前景。通过使用物体的质心生成真实分割,并找到边界框内的所有点,将其标记为前景。其余的点被标记为背景。该分割的评估指标是平均类别准确率(mAcc)和贝叶斯均值(BM)。BM被定义为在具有低贝叶斯方差的点上的mAcc,计算公式如下:0BM滤除了具有Var ą λ的点,其中 λ为决定丢弃点的截断阈值。图4、图5显示了第一个分割模块的真实分割和预测的详细信息。从图中可以看出,标记有些错误。然而,使用贝叶斯不确定性估计,可以通过较高的方差识别出不正确的点,并在最终预测中忽略它们。因此,实例分割只处理方差 ă λ 的点,其中 λ 为 0 . 2。表1列出了该分割的结果,显示贝叶斯均值在整体分割任务中提高了准确性。为了评估实例分割的结果,我们使用标准的AP r[8],计算预测分割和真实分割之间不同IoU得分下的平均精度(mAP)(代替边界框之间的IoU)。该模块生成一个偏移量 △ C i “ t △ c x i , △ c y i , △ c z i u,该偏移量是由DBSCAN聚类预测的聚类质心 C i DB和从真实分割中获得的实际质心 C i之间的差异。一旦预测出新的质心,它们将使用基于距离的方法进行聚类,该方法结合了质心。mAP/0.2568.7153.5559.3424.5831.0464.1738.9152.4644.1393.48mAP/0.3569.3254.2860.1224.5931.3964.4938.9252.9944.3293.67mAP/0.4569.3854.8360.4224.6731.7664.7138.1753.7344.7793.86mAP/0.5568.9056.2061.2324.9132.5665.1538.6054.5845.8993.96mAP/0.9583.2964.3968.8422.5738.0168.1136.2364.1554.7791.94measure beyond 0.02 which is not significant enough tobring an impact in the overall results. Consequently, themain impact of uncertainty estimation comes from the firstsegmentation module. The instances predicted by the in-stance segmentation module serves as input for EPN, wherewe use ǫ “ 0.95. In addition, we concatenate the origi-nal points with predicted instances to determine K clusters,where K “ 15. The results for this network are tabulatedin Table 3 where EPN is able to achieve mAP comparablewith the state-of-the-art methods. While there is significantimprovement in some categories, the particular poor perfor-mance for the category chair is a reflection of the issuesidentified in the instance segmentation module. Anotherfactor that impacts the chair category is the fixed numberof proposals K “ 15, while many scenes consist of up to35 ´ 40 instances of chairs. This restriction comes from theGTX 1070 GPU that we use, due to which many clustersare not processed by the network. Thus our results show106140图5。从左到右:原始点云,真实分割,预测分割和不确定性图。这些图例展示了通过去除方差较大的点来实现改进分割结果的模块和不确定性预测的示例。对于预测的不确定性,较暗的颜色表示方差最小,而较亮的颜色表示方差较大。0指标 浴缸 床 书架 椅子 桌子 梳妆台 床头柜 沙发 桌子 厕所0表2。在SUN-RGBD扫描中的3D实例分割。我们评估了10个类别上的不同 � 下的mAP,使用IoU@0.25作为阈值。0在由 � 定义的特定范围内,表2显示了不同 �的实例分割结果。可以看到,与较低的 � 相比,较高的 �下较大物体的mAP显著增加。0尽管该模块能够对较大的物体实现准确的结果,但是观察到较小的物体(如椅子和床头柜)的mAP明显较低。图6也验证了这些结果,可以看到较小的椅子聚类经常被错误地认为是桌子的一部分。还观察到DBSCAN算法将同一物体的断开部分丢弃为噪声,这经常导致输出中的不完整物体。我们假设通过考虑更多的点(当前该模块处理5000个点),可以解决这些问题,从而减少将物体标记为噪声的情况。0106150浴缸 床 书架 椅子 桌子 梳妆台 床头柜 沙发 桌子 厕所 mAP0DSS [28] 44.2 78.8 11.9 61.2 20.5 6.4 15.4 53.5 50.3 78.9 42.10COG [23] 58.3 63.7 31.8 62.2 45.2 15.5 27.4 51.0 51.3 70.1 47.602D驱动[13] 43.5 64.5 31.4 48.3 27.9 25.9 41.9 50.4 37.0 80.4 45.10FPN [19] 43.3 81.1 33.3 64.2 24.7 32.0 58.1 61.1 51.1 90.9 54.00我们的(λ=10)79.4 88.2 32.1 17.0 37.4 53.7 50.0 65.3 53.3 95.8 57.20多尺度EPN(独立)72.0 90.5 62.2 66.9 43.7 47.0 62.6 62.3 47.2 94.6 64.90表3. 在SUN-RGBD测试数据集上,与最先进的算法相比,使用IoU阈值0.25进行3D非模态物体检测的平均精度。0图6.类别不可知实例分割模块的定性结果。我们观察到,较小的物体,如椅子,经常与较大的物体,如桌子,错误地合并在一起,导致显著的性能下降。0准确的ROI生成和减少点数仍然是限制3D物体检测器性能的关键因素。04.3. 多尺度EPN0由于参数λ直接影响EPN的性能,我们评估了一个多尺度EPN,它将不同尺度的输出组合起来,并在输入处连接二进制地图。然而,对于这个实验,我们使用直接使用真实数据生成的理想聚类。因此,目标是评估多尺度EPN作为一个独立模块,并确定它对预测准确性的影响。因此,网络的ECNN分支的输入张量现在被定义为X Ñ R M x M x S λ x3,其中M是2D二进制地图的分辨率,Sλ定义了使用的不同尺度的数量。因此,由不同λ生成的映射被连接在一起,而其余的架构保持不变。这个实验的结果在表3中列出。0其中λ=t 5, 8,10。我们的结果显示,在床、书架、椅子、桌子和床头柜这些类别中,性能有所提高,分别为t2.3%、30.1%、49.9%、6.3%、12.6%,而对于其他所有类别,AP相当。这个实验的结果表明,通过正确聚类的物体,EPN可以实现更高的检测准确性。04.4. 执行时间0每个单独模块的训练时间在单个GTX 1070GPU上几乎需要48小时。背景/前景分割和实例分割模块的推理时间分别为0.58秒和0.45秒,对于一个大小为10000x3和5000x3的点云来说。EPN网络的推理时间为0.21秒,用于15个提议(属于同一场景),每个对象提议有1024个点和一个32x32x3的二进制图像。总体而言,网络在单个点云上的推理时间为1.24秒。虽然与Frustum PointNet[19]和VoteNet[18]相比,推理时间要长得多,它们分别需要0.09秒和0.1秒,但直接比较是困难的,因为我们使用的是GTX1070,而[18, 19]中的作者使用的是GTX 1080。05. 结论0本文提出了一种级联的多个深度网络框架,用于基于实例分割的聚类和三维无模态物体检测。鉴于基于点的网络受到能够处理的点数的限制,我们提出了一种模块化方法,其主要目标是过滤掉不相关的点,使得后续模块将感受野集中在所需的物体上。通过这种方法,我们提出了一个能够区分前景和背景的分割模块。然后,通过无监督聚类算法启动类别不可知的实例分割,学习预测每个点与实际质心到提议质心的偏移量。最后,使用EPN模块评估所有提议,以预测无模态物体的边界框。我们展示了背景/前景分割中的不确定性估计如何提高任务的准确性。我们的结果还表明,所提出的方法在SUN-RGBD数据集上达到了与最先进方法相当的结果。106160参考文献0[1] S. M. Ahmed和C. M. Chew. EPN:基于多视角2.5D点云的边缘感知点云网络用于物体识别. 在2019IEEE/RSJ国际智能机器人与系统大会(IROS)上, 2019. [2] S. M.Ahmed, Y. Z. Tan, C. M. Chew, A. Al Mamun和F. S. Wong.用于无组织3D点云的边缘和角点检测及其在机器人焊接中的应用.在2018 IEEE/RSJ国际智能机器人与系统大会(IROS)上,页码7350-7355. IEEE, 2018. [3] X. Chen, H. Ma, J. Wan, B. Li和T.Xia. 用于自动驾驶的多视角3D物体检测网络. 在IEEE CVPR上, 卷1,页码3, 2017. [4] M. Engelcke, D. Rao, D. Z. Wang, C. H.Tong和I. Posner. Vote3Deep:使用高效卷积神经网络在3D点云中进行快速物体检测.在机器人与自动化(ICRA)上, 2017 IEEE国际会议上,页码1355-1361. IEEE, 2017. [5] M. Ester, H.-P. Kriegel, J.Sander, X. Xu等.一种基于密度的大规模空间数据库中发现聚类的算法. 在KDD上,卷96, 页码226-231, 1996. [6] Y. Gal. 深度学习中的不确定性.博士论文, 剑桥大学, 2016. [7] Y. Gal和Z. Ghahramani.Dropout作为贝叶斯近似: 在深度学习中表示模型的不确定性.在国际机器学习会议上, 页码1050-1059, 2016. [8] B. Hariharan,P. Arbel´aez, R. Girshick和J. Malik. 同时检测和分割.在欧洲计算机视觉会议上, 页码297-312. Springer, 2014. [9] J.Hou, A. Dai和M. Nießner. 3D-SIS:RGB-D扫描的3D语义实例分割.在IEEE计算机视觉和模式识别会议上, 页码4421-4430, 2019. [10]P. J. Huber. 位置参数的鲁棒估计. 在统计学突破中, 页码492-518.Springer, 1992. [11] A. Kanezaki, Y. Matsushita和Y. Nishida.RotationNet: 使用无监督视点的多视角联合物体分类和姿态估计.在IEEE国际计算机视觉和模式识别会议(CVPR)上, 2018. [12] J. Ku,M. Mozi�an, J. Lee, A. Harakeh和S. L. Waslan- der.从视图聚合中生成联合3D提议和物体检测. 在2018IEEE/RSJ国际智能机器人与系统大会(IROS)上, 页码1-8. IEEE,2018. [13] J. Lahoud和B. Ghanem.在RGB-D图像中基于2D的3D物体检测. 在计算机视觉(ICCV)上,2017 IEEE国际会议上, 页码4632-4640. IEEE, 2017. [14] A. H.Lang, S. Vora, H. Caesar, L. Zhou, J. Yang和O. Bei- jbom.PointPillars: 用于点云物体检测的快速编码器.arXiv预印本arXiv:1812.05784, 2018. [15] B. Li.用于点云中车辆检测的3D全卷积网络. 在2017IEEE/RSJ国际智能机器人与系统大会(IROS)上, 页码1513-1518.IEEE, 2017.0[16] D. Maturana和S.Scherer。Voxnet:用于实时物体识别的三维卷积神经网络。在智能机器人和系统(IROS),2015年IEEE/RSJ国际会议上,页码922-928。IEEE,2015年。[17] Q.-H. Pham,D. T. Nguyen,B.-S.Hua,G. Roig和S.-K.Yeung。Jsis3d:使用多任务点网络和多值条件随机场对三维点云进行联合语义-实例分割。arXiv预印本arXiv:1904.00699,2019年。[18] C. R. Qi,O. Litany,K. He和L. J.Guibas。用于点云中三维物体检测的深度Hough投票。arXiv预印本arXiv:1904.09664,2019年。[19] C. R. Qi,W. Liu,C.Wu,H. Su和L. J.Guibas。用于从RGB-D数据中检测三维物体的锥形PointNet。arXiv预印本arXiv:1711.08488,2017年。[20] C. R. Qi,H. Su,K.Mo和L. J.Guibas。Pointnet:用于三维分类和分割的点集深度学习。计算机视觉和模式识别(CVPR)的会议记录,IEEE,1(2):4,2017年。[21] C. R. Qi,H. Su,M. Nießner,A. Dai,M. Yan和L. J.Guibas。用于三维数据上的物体分类的体积和多视角CNN。在计算机视觉和模式识别的IEEE会议记录中,页码5648-5656,2016年。[22] C. R. Qi,L. Yi,H. Su和L. J.Guibas。Pointnet++:度量空间中点集的深度分层特征学习。在神经信息处理系统的进展中,页码5099-5108,2017年。[23] Z.Ren和E. B.Sudderth。使用梯度云的三维物体检测和布局预测。在计算机视觉和模式识别的IEEE会议记录中,页码1525-1533,2016年。[24] G.Riegler,A. O. Ulusoy和A.Geiger。Octnet:在高分辨率下学习深度三维表示。在计算机视觉和模式识别的IEEE会议记录中,卷3,2017年。[25] S. Shi,X.Wang和H.Li。Pointrcnn:基于点云的三维物体提议生成和检测。arXiv预印本arXiv:1812.04244,2018年。[26] M. Simon,S. Milz,K.Amende和H.-M.Gross。Complex-yolo:用于实时三维物体检测的欧拉区域提议。在欧洲计算机视觉会议上,页码197-209。Springer,2018年。[27] S. Song和J.Xiao。用于深度图像中三维物体检测的滑动形状。在欧洲计算机视觉会议上,页码634-651。Springer,2014年。[28] S. Song和J.Xiao。用于RGB-D图像中的非模态三维物体检测的深度滑动形状。在计算机视觉和模式识别的IEEE会议记录中,页码808-816,2016年。[29] H. Su,S. Maji,E. Kalogerakis和E.Learned-Miller。用于三维形状识别的多视角卷积神经网络。在计算机视觉的IEEE国际会议记录中,页码945-953,2015年。[30] H.Su,C. R. Qi,Y. Li和L. J.Guibas。使用渲染的CNN:使用渲染的三维模型视图训练的图像视点估计。在IEEE国际会议记录中,页码2686-2694,2015年。106170[31] D. Z. Wang和I.Posner
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功