没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊28(2022)101027完整文章2DLaserNet:基于2D激光扫描的深度学习架构,用于移动机器人位置Burak KaleciBagh,Kaya Turgut,Helin DutagaciEskisehir Osmangazi大学电气和电子工程系,Eskisehir,土耳其阿提奇莱因福奥文章历史记录:收到2020年2021年5月17日修订2021年6月15日接受2021年7月14日在线提供保留字:地点分 类门道检 测2D激光深度学习移动机器人A B S T R A C T在这项工作中,我们处理的分类移动机器人的位置到语义类别,如房间,走廊,门口使用二维激光数据。以前的研究一般能够区分房间和走廊类,然而,门口位置的分类并不令人满意。为了提高门口类的分类准确率,我们提出了一种新的基于点的深度学习架构,即2DLaserNet。与众所周知的基于点的深度学习技术相比,2DLaserNet利用了从2D激光读取生成的点云中连续点之间的有序关系。通过这种方式,2DLaserNet能够学习与房间、走廊和门口类相对应的激光扫描的几何特征我们使用公开的Freiburg 79数据集来验证所提出的方法的有效性,特别是对于门口类。此外,我们结合了合成数据来解释门口位置的类内变化。我们还在Freiburg 52测试数据集上进行了实验,以检查使用Freiburg 79数据集训练的所提出的架构的泛化能力我们观察到,2DLaserNet在门口类中的表现优于最先进的方法和众所周知的基于点的深度学习技术。©2021 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍近年来,移动机器人已经开始被用于诸如在博物馆中引导人们、将物体从一个位置运送到另一个位置以及在室内环境中帮助人们进行日常工作等任务。然而,移动机器人执行的任务仍然非常有限,特别是在非结构化环境中,例如办公室、医院和学校,因为这些任务中的大多数需要对所感测的环境的结构进行语义理解,识别人和识别物体。为了增加移动机器人执行任务的数量和多样性,语义信息的自动生成是必不可少的。此外,这些任务的性能可以提高与语义信息的援助。例如,关于机器人位置的语义信息的感知可以有助于基本任务的有效性,诸如定位、导航和其他复杂任务,其示例在上面提到。在室内环境中,移动机器人的位置通常可以分为房间,走廊和门口语义类之一(图1)。①的人。*通讯作者。电子邮件地址:burakaleci@gmail.com(B. Kaleci)。通过机器人的传感器确定机器人位置的语义类别被称为在以前的研究中,提出了基于2D相机捕获的视觉数据[2,3]或融合数据[4,5]的分类方法,其中包括从2D激光测距仪在这些研究中,通常从图像中提取尺度不变特征变换(SIFT)和加速鲁棒特征(SURF)(首字母缩略词请参见表1)等特征,或者从激光测距数据中计算手工特征。然后,这些特征进行处理,以分类机器人的位置。采用视觉数据的研究的主要缺点是性能依赖于对应于不同照明条件的照明变化出于这个原因,在这项研究中,我们特别专注于使用2D激光数据对移动机器人位置进行分类。在以前的研究中,各种方法,如监督机器学习[6],基于图的[7]和基于聚类的[8]通过2D激光数据提出了机器人位置的语义分类方法。虽然这些方法中的每一种都有其优点和缺点,但对这些方法的共同观察是,它们能够区分房间和走廊位置,但门口位置的分类仍然存在问题。然而,关于它是否在门口位置的信息对于移动通信系统来说是有价值的。https://doi.org/10.1016/j.jestch.2021.06.0072215-0986/©2021 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestchB. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)1010272Fig. 1.弗莱堡大学,79号楼和52号楼。蓝色、红色和黄色分别表示房间、走廊和门口语义类。表1缩略语表首字母缩略词含义SIFT尺度不变特征变换SURF加速了强大的功能PRL概率松弛标记SVM支持向量机动态贝叶斯混合模型LVQ学习向量聚类自组织神经网络广义Voronoi图CNN卷积神经网络SLAM同时定位和地图构建GMap网格映射DGSM深度生成空间模型SPN和积网络MLP多层感知器SA集合抽象ACC总体分类准确度因为门道对应于房间到走廊或房间到房间之间的过渡。在过去的二十年里,深度神经网络的应用在语音识别[9]、计算机视觉[10]和自然语言处理[11]方面取得了显着的性能提升。类似的趋势也出现在机器人[12]、控制[13]、无线网络[14,15]、网络流量分析[16]、网络安全[17]和许多其他领域。多层网络的成功可以通过它们同时学习分层特征和从原始数据映射到所需输出的能力来解释。这种代数表示对于每个应用程序都是特定的,并且通过应用程序定义的损失函数来学习。 深度学习方法的端到端学习管道将它们与经典的机器学习技术区分开来,在经典的机器学习技术中,输入数据的特征是手动设计的。设计合适的特征需要领域专业知识,并且可能并不总是产生对数据中的自然变化进行建模的表示[18]。对于通过2D激光扫描进行语义位置分类,classi-具有手动设计的几何和统计特征的CAL机器学习方法[6,19,20]不能提取用于识别门口位置的表示。深度学习方法可以直接从原始数据中提取门口的区别特征。在本文中,我们的目标是利用深度学习方法的表示能力,门口位置的回忆率。我们提出了一种新的基于点的深度学习架构,即2DLaserNet,用于使用原始2D激光扫描对移动机器人位置进行分类。通过这种方式,我们的目标是对激光扫描的区别几何特征进行建模,并提高门口类的分类精度。我们首先将机器人位置处的2D激光读数转换为一组2D点,输入到2DLaserNet。2D激光读数本身是有序的,并且对应的2D点云中的点的顺序与它们的空间连接性有关。2DLaserNet的优势与诸如Point-Net和PointNet++的公知的基于点的体系结构相比,它利用了这种空间结构。Point-Net和PointNet++努力实现输入的顺序不变性,并且不直接编码相邻点的空间关系。出于这个原因,这些架构学习单个点的特征并丢失重要的局部几何信息。然而,2DLaserNet涉及相邻点在连续尺度上的卷积,因此编码局部几何信息。它可以成功地对激光扫描的区别特征进行建模,例如走廊扫描的细长结构与房间扫描的各向同性性质,而不是仅对相应类别的物理大小进行编码。最重要的是,它可以从门口扫描中提取显著特征,这是以前基于手工特征的学习方法无法成功的。我们在Freiburg 79数据集上进行了比较实验,使 用 最 先 进 的 地 点 分 类 方 法 以 及 PointNet 、 PointNet++ 验 证2DLaserNet的有效性通过检查,我们认识到Freiburg 79训练数据集不包含与测试数据集中的一些门口位置类似的我们生成合成门口扫描来模拟这些未表示的实例,并通过具有随机角度值的圆形移位来应用数据最后,我们通过使用Freiburg 79数据集对其进行训练并将其应用于Freiburg 52测试数据集,展示了2DLaserNet的泛化能力。本文的主要贡献如下:我们提出了一种新的基于点的深度学习架构,即2DLaserNet,用于使用原始2D激光扫描对移动机器人位置进行分类。我 们 应 用 两 种 著 名 的 基 于 点 的 深 度 学 习 技 术 PointNet 和PointNet++来展示深度学习方法解决该问题的潜力我们证明了在训练数据中引入合成门口扫描在平衡代表性样本的稀缺性和提高门口类的召回率本文的其余部分组织如下:在第2节中,我们回顾了基于点的深度技术 和 使 用 2D 范 围 数 据 的 语 义 位 置 分 类 的 相 关 工 作 。 PointNet 、PointNet++和2DLaserNet方法在第3节中解释。我们在第4节中介绍了实验装置和结果。最后,在第5中给出了结论。●●●B. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)10102732. 相关作品在本节中,我们将相关的作品分为三个子类别。第一节总结了基于无监督和有监督机器学习技术、基于聚类和基于图的方法对机器人位置的语义位置分类的研究。然后,研究使用2D激光数据作为语义地点分类输入的深度学习技术。最后,简要讨论了基于点的深度学习架构。2.1. 语义地点分类Mozos等人[6]提出了通过2D激光数据解决语义位置分类问题他们在两个集合下引入了特征:集合B和集合P。作者使用这些特征作为AdaBoost监督机器学习方法的输入。然后在随后的研究中使用不同的监督机器学习方法来使用集合B和P中的特征扩展了特征的范围,并应用特征选择方案来探索每个特征的鉴别能力。还考虑了相邻扫描之间的局部依赖性例如,Mozos和Bur- gard[21]引入了六个新特征来加强分类器,并通过概率松弛标记(PRL)利用相邻机器人位置之间的关系。通过这种方式,使用AdaBoost获得的分类结果被平滑。Sousa等人。[22]训练了一种基于支持向量机(SVM)的监督学习方法,该方法具有集合B和P中的特征,以分类房间和走廊位置。Premebida等人[19]计算的类条件概率与集合B和P特征的子集。然后,他们执行动态贝叶斯混合模型(DBMM),聚合计算的概率和过去的输出,以提高分类器的性能。Soares等人[20]使用Set B和P中的特征来训练Gentle AdaBoost ,Modest AdaBoost 和 GeneralizedAdaBoost分类器,并比较这些Adaboost变体的性能。此外,他们通过用PRL平滑预测来减少Shi等人。[23]从集合B和P中选择了150个单值特征,并使用逻辑回归确定了三个最具鉴别力的特征Shi等人[24]扩展了他们的工作,以处理更细粒度的类,如办公室和教室。除了采用手工制作特征的方法Kaleci等人[8]在原始激光测量上应用聚类方法,即K均值和学习向量聚类(LVQ),以数据依赖的方式探索样本的组特征。除了这些聚类方法之外,他们还提供了与基于模糊C均值的聚类和自组织神经网络(SONN)的性能比较[25]。史和Kodagoda[7]提出了一种基于图的方法来分类走廊和两种不同类型的房间位置。他们将广义Vor- onoi图(GVG)、SVM和条件随机场相结合,提高了方法的推广性.上述研究提供的结果的一个观察结果是,虽然分类方法对于房间和走廊位置是有效的,但是门口位置没有被完全识别。门口位置出现在房间和走廊之间,并且在门口位置处捕获的激光扫描通常在其几何结构特征中具有类似于在房间和走廊位置处获取的扫描的特征。出于这个原因,在一些研究中,一个单独的门口识别方法被集成到语义的地方分类方案。 比如说,Pronobis等人[5]提出了一种基于激光的方法来检测机器人可以通过的相同宽度的开口。Vasudevan等人[26]结合他们基于视觉的语义地点分类方案与基于激光的门检测方法。他们将分割和合并方法应用于激光数据,以检测门框。Goerke和Braun[27]使用一组预定义的规则来识别门口位置。Kaleci等人。[25]观察到,当机器人位于门口时,激光扫描具有瓶颈特征。他们定义了一组规则,以姿态不变的方式检测原始激光数据中瓶颈的发生。他们将基于规则的门检测算法与语义位置分类方案相结合。2.2. 深度学习技术应用于2D激光数据最近,深度学习方法已开始用于机器人位置的语义分类。Liao等人[28]用正则化的深度架构扩展了Shi和Koda-goda [7]提出的基于图的结构。将信息用Voronoi图表示后,构成了一个使用完全连接的层从多层输入中提取局部特征,并且决策基于从每个输入中获得的分类结果与置信树。Goeddel和Olson[29]采用了一种不同的分类方法,使用卷积神经网络(CNN)层。在Goeddel和Olson从具有CNN层的网格中提取的特征用于将网格分类为房间、走廊和门口类别。Nikdel和Vaughan[30]进行了一项类似的研究,其中选择SLAMGmap数据、激光数据及其组合作为CNN的输入,以计算机器人位置的语义类别的Hiller等人。[31]使用CNN架构仅检测门口,因为门口是可以从合成占用网格中提取的独特结构在这项工作中,网格被认为是一个图像和局部图像补丁处理的CNN检测门口。Probonis和Rao[32] 提 出 了 基 于 和 积 网 络 ( SPN ) 的 深 度 生 成 空 间 模 型(DGSM),该模型首次用于机器人应用。提取机器人位置的低层特征及其在语义类别上的分布,将机器人位置分类为走廊、小型和大型办公室以及门口。Turgut和Kaleci[33]提出了一种简单的深度学习架构,该架构仅由完全连接的层组成,旨在对移动机器人位置进行分类。作者还研究了姿态不变性和过采样和欠采样方法对处理他们使用的不平衡数据集的影响。2.3. 基于3D点的深度学习技术过去使用深度学习进行机器人位置分类的方法主要是将数据转换为类似图像的网格地图或图形结构。我们断言,有意义的信息可以直接从对应于原始2D激光扫描的激光束的坐标导出。为了探索这一论断,我们考虑应用直接消费点集的深度学习方法。近年来,对用于处理非结构化点云的深度学习方法的研究取得了进展[34,35]。Zhang等人,在他们的调查[34]中,将这些方法分为两类:直接或间接。间接方法需要将点云转换为结构化格式,而直接方法接受原始点云数据作为输入,而无需任何数据结构转换。在另一项调查中,Guo等人[35]根据他们执行的任务对3D深度学习方法进行了分类,例如形状分类,对象检测和分割。他们将物体分类方法B. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)1010274···--···--直接使用点云作为逐点、基于卷积、基于图形和基于数据索引的方法。开创性的基于点的深度学习架构PointNet[36] 以逐点处理方式设计该架构独立考虑每个点,并使用连续权重共享的多层感知器(MLP)学习逐点由于该架构不捕获点之间的空间为了克服这个缺点,他们推出了PointNet++[37] 通过将PointNet应用于越来越广泛的本地区域,由于点集的非结构化和不规则性Hua等人。[38]将卷积核表示为以每个点为中心的3D网格,对于固定邻域具有相同的权重引入了由MLP组成的X-Conv[39]运算符来预测卷积核中权重的排列在基于图的网络中,从中心点到相邻点生成有向边,并且在空间域[40]或谱域[41]中定义核。八叉树和kd树数据表示用于索引点云数据,而不将其转换为体积结构,以降低计算成本[42,43]。虽然出现了许多新颖的架构,但其中大多数都受到了PointNet的启发,而PointNet仍然是这些架构的基础这些研究通过基于聚类、基于图、有监督和无监督的机器学习技术解决了移动机器人位置的语义位置分类,但对于门口位置没有产生令人满意的结果。然后,基于CNN的深度学习技术通常应用于2D网格;换句话说,从激光扫描获得的灰度图像。然而,门口类的准确性仍然不足。除了之前的研究之外,我们还使用了原始激光测量和基于点的深度学习方法。由于PointNet和PointNet++架构不直接对点之间的空间关系建模 , 因 此 我 们 提 出 了 一 种 新 的 基 于 点 的 深 度 学 习 架 构 , 即2DLaserNet。3. 方法在这项工作中,首先,将2D激光扫描转换为一组2D点,因为基于点的深度学习网络接受点云作为输入。点云被定义为一组点,通常表示空间坐标,并且可以包括点的全局和局部特征2D激光扫描由基于激光的距离测量组成,该距离测量是与固定方向的角度的函数将扫描转换为点设置,我们假设的每个读取l i;i 0; 1; 2;;N 2;N 1在扫描中,是从激光测距仪的原点开始并在命中点结束P i;i 0; 1; 2;;N2;N1 .一、 使用读数和相应的角度值计算击球点的x和y坐标。图中给出了一个示例激光扫描及其相应的点集。 二、从2D激光扫描生成的点云固有地是有序的,因为连续的激光读数彼此空间相关并且以规范顺序组织。移动机器人在室内环境中的位置可以分为三个基本的语义类别:房间,走廊和门口。图3中给出了来自Freiburg 79数据集的与这些语义类别相对应的样本激光读数。梁的几何结构具有指示其语义类别的独特性质。例如,来自房间位置的扫描通常是各向同性的(图3a),而来自走廊的扫描是细长的(图3c)。从门口位置扫描具有瓶颈(图。 3 e)。样本2D点云表示从图二、示例激光扫描及其对应的点集。机器人站在环境的中间,机器人上的黑点代表激光测距仪的原点。此外,箭头指示机器人的前进方向从激光测距仪中出现的虚线结束了命中点。这些点按规范顺序排列图三.样品激光扫描和相应的二维点云表示获得的房间,走廊和门的位置。(a)用于房间位置的样本激光扫描,(b)用于(a)中的激光扫描的对应2D点云,(c)用于走廊位置的样本激光扫描,(d)用于(c)中的激光扫描的对应2D点云,(e)用于门口位置的样本激光扫描,(f)用于(e)中的激光扫描的对应2D点云。图3b、d、f分别给出了房间、走廊和门口位置的激光测量值在这 项工作中 ,我们 引入了一 种新的 基于点的 深度学 习架构2DLaserNet,以充分捕捉这些区别特征。2DLaserNet利用2D激光数据的有序结构,从各种大小的B. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)1010275感受野我们选择将PointNet和PointNet++架构应用于问题以进行比较,因为它们是广泛采用的基线方法。3.1. PointNet架构PointNet架构是第一个直接处理无序点云的深度学习架构在这种架构中,点通过网络层相互独立高维特征的提取,只有通过权重共享MLP从低维特征通道的每个点分别。每个MLP由N个具有共享权重的全连接层组成PointNet架构还包括经过训练的T网络,以预测将输入坐标和中间特征对齐为空间和特征空间中的规范姿势的变换,从而减少由于旋转引起的可变性的影响在特征被提升到高维空间之后,最大池被用来概括所提取的特征并且用作保证对输入点的点排列的不变性的对称函数为分类任务设计的PointNet体系结构如图所示。 四、3.2. PointNet++架构除了PointNet之外,PointNet++体系结构在提取局部特征时还利用了PointNet++首先根据预定义的半径(R)或最近邻参数(K)构建局部区域。最远点采样算法选择这些局部区域在点云中的中心。将局部区域内的点定义为局部邻域,应用PointNet结构分别提取局部区域内每个点的特征。最后,每个点的几何特征总结与最大池,以确定描述局部区域的功能。在PointNet++中,形成局部区域、特征提取和汇总阶段被称为集合抽象(SA)层。图5展示了对应于2D激光扫描的点集的SA层。用于分类的PointNet++架构采用三个连续的SA层,如图6所示。这种将特征提取和抽象应用于越来越宽的局部区域的方法模仿了传统的卷积网络,后者在不同大小的感受野上运行。在SA层之后,通过MLP来建模点云的3.3. 2DLaserNet架构2DLaserNet架构使用邻近点进行特征提取,类似于PointNet++。在图7a中,给出了来自样本激光扫描的2D点集。在扫描中,每个点通过 基 于 相 应 激 光 束 的 角 度 的 有 序 结 构 与 其 相 邻 点 相 关 。 因 此 ,2DLaserNet 不 需 要 任 何 搜 索 方 法 来 构 建 局 部 区 域 , 这 可 以 减 少2DLaserNet的计算复杂度。此外,2DLaserNet中使用的局部区域与PointNet++构造的局部区域不同。由于2DLaserNet中的局部区域由连续的点组成,因此它们更能代表类的几何特征。与PointNet和PointNet++相比,2DLaserNet在特征提取过程中考虑了连续的点,而不是单独考虑点。有序结构允许将1D卷积应用于集合。在图7b中,我们演示了使用1x3滤波器内核和步长为2,在对应于激光扫描的2D点云上。由于点集本身是有序的,PointNet++中使用的置换不变性的对称函数是不需要的,代价是丢弃判别信息。图8给出了所提出的2DLaserNet架构。端到端架构接受有序的2D点集作为输入,并提供每个类别的分数作为输出。该架构由三个连续的1D卷积层组成,其中两个是最大池和三个完全连接的层,将特征映射到机器人位置的语义类。该架构的超参数是通过系统搜索过程在实验上选择的。从第一层开始,系统地改变核的大小、每层的通道(特征)的数量以及最大池化的核大小,以获得产生最高门口召回率的参数集,同时保持总体准确率超过96%。对全连接层的神经元数量进行类似的搜索。卷积的步幅固定为1,以允许激光读数上的感受野之间的最大重叠。增加卷积层的数量,三个没有导致性能增益。4. 实验结果为了评估PointNet、PointNet++和2DLaserNet,我们对分别在弗莱堡大学79号楼和52号楼[44]收集的两个公开数据集进行了实验。深度学习方法使用TensorFlow库在Python编程语言我们将批量大小设置为图四、PointNet架构接受由2D空间中的N个点组成的点云作为输入。在通过T-Net对点云坐标进行仿射变换之后,使用在第一和第二MLP中学习的64个不同的滤波器来提取然后,另一个T-Net网络预测特征空间中的变换矩阵在下面的3个MLP中,从对齐的特征中提取64、128和1024维特征通过最大池化得到了整个点云的置换不变全局特征1024维的全局特征通过包含512、256和3个神经元的完全连接层与三个类别(房间、走廊和门口)相关联。在除最后一层之外的所有层中,都使用了ReLU和批量归一化此外,在最后一层之前应用dropoutB. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)1010276图五. 设置抽象层。图六、PointNet++的第一个SA层的输入是带有空间坐标的点云从云中选择256个采样点,通过找到每个点的12个最近邻来识别局部区域从每个这样的局部区域,使用类似于PointNet的权重共享MLP(8,8,8)来提取特征然后,使用最大池化对每个区域(256x8)的特征进行汇总在第二SA层中,从48个局部区域中提取16个特征在最后一个SA层中,所有剩余的点都作为单个局部区域进行评估。用MLP(32,32,32)提取全局特征(1 × 32),并通过最大池化来汇总然后,将全局特征映射到具有全连接层的类(512,256,128,3)。见图7。对应于激光扫描和卷积过程的2D点云的结构。512,学习率为0.001,我们对所有架构都使用了Adam优化。PointNet和PointNet++的历元大小选择为100,2DLaserNet的历元大小选择为20。实验是在 具 有 Intel Xeon 处 理 器 、 125 GiB RAM 、 NVI-DIA QUADROP5000 GPU和操作系统Ubuntu 18.04的PC上进行。我们使用了五个指标来评估该体系结构的性能:(1)总体分类准确率(ACC),即正确分类的样本数与样本总数的比率;(2)基于类的查全率(R房间;Rcorr和R门),每个定义为类别的正确分类的样本的数量与属于该类别的样本的总数的比率;(3)基于类的精度值(P 房间;Pcorr和P门),每个定义为一个类的正确分类的样本数与标记为属于该类的样本数的比率;(4)基于类的F1分数(F1房间; F1corr和F1门),每个定义为召回率和精度值的调和平均值;(5)召回率,精度和类的F1分数的平均值(Rave;Pave和F1ave)。我们根据数据集首先,我们使用Freiburg 79数据集的训练部分训练架构,而不应用任何数据增强,并评估Freiburg 79测试部分的性能(第4.1.1节)。然后,我们通过引入合成门口实例来增强Freiburg 79的训练样本,并在Freiburg 79测试数据上重复实验(第4.1.2节)。在第4.1.3节中,我们比较了我们的2DLaserNet方法与应用于Freiburg 79测试数据集的先前方法的性能。我们在4.1.4节中评估了运行时性能。为了证明我们的方法在一个看不见的数据集上的有效性,我们在Freiburg 52上评估了这些方法的性能,其中架构由Freiburg 79的未增强训练集(第4.2.1节)训练,并由Freiburg 79的增强训练集(第4.2.2节)训练。在第4.2.3节中,我们提供了与Freiburg 52测试数据集上以前工作的比较。B. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)1010277见图8。2DLaserNet接收有序的2D点集。第一卷积层由32个大小为11的滤波器组成。在第二卷积层中,通过将大小为5的滤波器应用于前一层的特征来提取64个特征。在下一步中,通过应用最大池化来选择活跃和主导神经元。第三卷积层通过大小为5的滤波器计算256个特征,然后进行另一个最大池化操作。全局特征被映射到具有全连接层的类空间在除最后一层之外的所有层中,都使用了ReLU和批量归一化。步幅被选择为1,并且在最大池化操作期间,特征以因子2进行下采样。4.1. 弗赖堡79Freiburg 79数据集的训练部分包含43624个房间,16687个走廊和1449个门口位置。在Freiburg79数据集的测试部分中,有50180个房间,15516个走廊和701个门口位置可用. 图图9 a和b分别示出了环境的训练和测试部分。这些位置均匀分布在环境中,每个维度上的间隔为5cm。机器人的方向是随机产生的。对于每个机器人位置,提供机器人4.1.1. 未扩充数据表 2 和 图 10 分 别 给 出 了 使 用 Freiburg 79 的 训 练 部 分 训 练 的PointNet、PointNet++和2DLaserNet架构如表2所示,对于所有架构,房间和走廊类的召回率、精确度和F1在门口类的情况下,PointNet和2D Laser- Net架构产生68%的类准确度,而PointNet++的性能保持在50% 。PointNet、PointNet++和2DLaserNet的精度值分别约为21%、12%和23%。低精度值对应于如图10所示的门口位置的假阳性。尽管三种架构的查全率、查准率和F1得分相似,但我们可以从图10中观察到误报的发生在不同的地方PointNet架构假设点云数据中的点彼此独立;因此,它单独提取每个点的点式特征是和-图9.第九条。Freiburg University,Building 79,房间、走廊和门口位置的地面实况标签分别用蓝色、红色和黄色表示通过最大池化,将其转化为全局特征,使得对类特征有重要贡献的点特征成为主要特征。例如,与激光扫描中的较长射束相反,短射束的出现变得指示门口类,而不管射束的局部组织。这种情况会导致房间位置被错误地归类为门道,特别是在杂乱的房间中(图10a中的椭圆1)。类似地,点云中对应于拐角位置(如椭圆2中给出的)的大多数点对应于具有类似尺寸的波束,指示各向同性结构。与穿过走廊的梁相对应的逐点特征被抑制,然后它们被错误地分类为房间位置。PointNet++架构总结了局部邻域中的逐点特征,以进一步在更大的区域中组织这些聚合特征。再次,通过最大池化提取主导特征,并且这些特征表示底层区域。从图10b中可以观察到,PointNet++架构减少了PointNet 在 图 10a 中 椭 圆 所 示 的 问 题 区 域 中 产 生 的 分 类 错 误 。PointNet++考虑了点的空间组织,因此在一定程度上考虑了激光束的顺序。PointNet++架构错误分类的位置在图10b中以白色椭圆表示。这些位置大多在门口附近或由类似门口的间隙隔开的物体之间。2DLaserNet利用激光读数生成的点云的有序结构,因此能够完全整合数据的空间结构。2DLaserNet的可视化结果如图10c所示。如图所示,与PointNet和PointNet++体系结构相比,由于房间杂乱而导致的错误分类位置显著减少,因为2DLaserNet体系结构不仅根据主导逐点特征而且根据点的几何组织来建模类特征。此外,由 于2DLaserNet 减少了错误分类 位置的数量,因此2DLaserNet的房间和走廊类的召回率、精度和F1值高于PointNet和PointNet++架构导致门道类的低精度值的大多数误报发生在非常靠近门道的房间位置,如图中的白色椭圆所示。 10 c. 从这些位置进行的激光扫描在几何上与从实际门口进行的扫描将靠近门口的房间位置分类为门口是可以接受的,特别是在移动机器人应用中。B. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)101027表88Freiburg 79测试数据集与未增强的Freiburg 79训练数据集的性能结果房间走廊门方法R室P室F1房间R校正P校正F1校正R门P门F1门ACCRav ePAV EF1avePointNet96.3899.4597.8997.7598.3298.0369.7521.2432.5696.4887.9473.0076.16PointNet++95.1999.4097.2597.2597.9897.6150.8112.0719.5195.1981.0669.8271.462DLaserNet96.9499.7798.3398.7598.6098.6768.1923.2234.6497.1287.9473.8677.21见图10。Freiburg 79测试数据集与未增强的Freiburg 79训练数据集的视觉结果。蓝色、红色和黄色表示房间、走廊和门口语义类。4.1.2. 使用扩充数据的图10中用绿色椭圆包围的门口位置被错误地归类为走廊位置。主要原因是Freiburg 79训练数据集不包含面向走廊方向的门道我们生成了合成激光扫描,为这些门道提供数据合成激光扫描和相应的点云的例子在图中给出。 十一岁我们将具有随机角度的循环移位操作应用于这些激光扫描,以增加由于机器人航向引起的可变性我们总共向Freiburg 79训练数据集添加了300个新的激光扫描样本表3和图12描述了数据增强后的定量和目视结果。对于PointNet体系结构,房间类的查全率、查准率和F1值对于见图11。合成激光扫描的例子。(a)示例1,(b)示例1的对应2D点云,(c)示例2,(d)示例2的对应2D点云。未增强和增强的训练数据。然而,走廊和门口类的召回值下降了约1%,而准确率几乎保持不变。添加合成数据有助于PointNet捕获一些在未增强数据的情况下遗漏的门口位置;然而,引入进一步的类内变异性对门口召回率产生了负面影响。图12a中的白色椭圆指向一些被误分类为房间或走廊位置的门口位置。 使用PointNet++,房间回忆值增加了1%,而精确度几乎保持不变。走廊类的查全率、查准率和F1对于门口类,召回率、精确率和F1值增加了约2%.主要原因是,虽然PointNet++架构(图12b)无法对绿色椭圆中的点进行分类,在图10b中,正确分类的门道的数量在其他位置增加,并且在杂乱的房间区域中的错误减少。使用2DLaserNet后,门口类的召回率从68.2%提高到77.6%,而准确率下降了约2%.房间和走廊类的回忆值也略有下降。然而,当数据增强涉及2DLaserNet的训练时,门口类的召回值显着增加。从图12c中可以看出,主要贡献是对最左端通向走廊的门口处的位置进行了正确分类。在这个门口没有一个位置是用未增强的训练数据正确分类的(图10c)。完全错过门口对移动机器人的操作是有害的。通过数据增强,我们能够引入人工激光扫描来表示原始训练数据中不存在的门口配置。门口类的精度下降2%,房间和走廊类的召回率略有下降,这是由于门口类的新误报,其中大部分发生在新检测到的门口附近。正如我们前面提到的,将靠近门的房间位置识别为门道对于移动机器人是可以接受的。由于杂乱,大房间中的误报数量也会增加;然而,其中大多数是孤立的误报,并且可以使用相邻位置的预测类轻松消除。B. Kaleci,K. Turgut和H. 杜塔加奇工程科学与技术,国际期刊28(2022)1010279表3Freiburg 79测试数据集与增强的Freiburg 79训练数据集的性能结果房间走廊门方法R室P室F1房间R校正P校正F1校正R门P门F1门ACCRav ePAV EF1avePointNet96.1999.2697.7096.9498.5797.7568.4419.1129.8896.0787.1972.3175.11PointNet++95.8199.3997.5797.2598.1097.6752.9114.1122.2895.7182.0070.5372.512DLaserNet96.1999.7897.9598.5698.6998.6377.4421.0433.0996.4790.7573.1776.56图12个。Freiburg 79测试数据集与增强的Freiburg 79训练数据集的可视化结果蓝色、红色和黄色表示房间、走廊和门口语义类。4.1.3. 与以往作品的在表4中,我们将2DLaserNet方法的性能与应用于Freiburg 79测试数据集的先前语义位置分类方法的性能进行了个别类别的召回相反,仅提供了总体准确率(ACC)。在Freiburg 79数据的情况下,由于房间/走廊类和门口类的样本数量之间的巨大不平衡,ACC受到房间和走廊类性能的高度高ACC并不表示算法我们的2DLaserNet给出了与最先进方法接近的ACC结果,同时与大多数方法相比,显著提高了门口的召回率和平均与我们新的基于深度学习的方法相比,使用[25]获得的门道的召回值低2%。 走廊的召回率也比新的2DLaserNet。然而,与[25]相比,2DLaserNet的房间召回率下降了3%,这使得两种方法的类平均召回率相当。然而,在这方面,在[25]中使用的基于规则的门口检测方案是手动设计的,并且在关于门口处的扫描的几何形状的一组假设下操作,这应当针对新的环境进行修改。2DLaserNet能够在没有关于门口几何形状的先验知识的情况下对门口扫描的区别特征进行建模,即使训练数据集中存在巨大的类别不平衡。此外,如前所述,与其他方法相比,2DLaserNet产生的大多数假阳性导致房间召回率下降,发生在门口附近(图12c)。请注意,表4中引用的一些方法涉及对相邻位置的空间平滑推断,例如概率松弛标记,从而减少房间和走廊中的孤立噪声。另一方面,我们的2DLaserNet方法将每个位置的激光扫描数据独立于从附近位置收集的激光扫描数据进行处理。对机器人位置的类推断进行平滑操作,提升2DLaserNet的ACC的潜力。表4与Freiburg 79测试数据集以前的作品比较方法ACCRav eR室R校正R门连续Adaboost[6]93.94––––[21]第二十一话97.27––––维奥拉·琼斯[20]98.71––––[20]第二十话98.87––––[21]第21话98.95––––[20]第二十话99.16––––[20]第20话99.07––––SVM[19]98.6667.85100.098.564.99DBMM[19]98.8672.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功