城市3D建模：基于移动激光扫描的综述2020年研究进展

92 浏览量更新于2024-01-24 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：王成，温承璐，戴玉娣，俞尚书，刘明浩。使用移动激光扫描的城市3D建模：综述。虚拟现实智能硬件，2020，2（3）：175-212DOI：10.1016/j.vrih.2020.05.003虚拟现实智能硬件2020年12月第3·回顾·基于移动激光扫描的城市三维建模研究进展陈万根*，陈陆文，余达一，余尚树，李明哈福建省重点实验室厦门大学信息学院，智慧城市传感与计算研究中心，厦门361005*通讯作者，cwang@xmu.edu.cn投稿时间：2020年3月6日修订日期：2020年5月7日接受日期：2020年5月8日摘要移动激光扫描系统主要包括激光扫描仪和移动测绘平台。典型的MLS系统可以在街道或室内环境中以正常的驾驶或步行速度获取具有1- 10 cm点间距的三维点云。这些系统的效率和稳定性使它们在三维城市建模中的应用非常有用。本文综述了基于LiDAR的移动测绘系统（MMS）点云在三维建模领域的最新进展，包括LiDAR同步定位和测绘、点云配准、特征提取、对象提取、语义分割以及使用深度学习进行处理。最后，讨论了基于MMS的城市建模的典型应用。关键词三维建模; MMS;激光雷达;城市1引言城市3D建模用于建立地球表面和其上存在的对象的2.5D或3D数字表示，例如城市区域中的建筑物，道路，植被和其他人造属性。这种方法有三大类：（1）传统的大地测绘技术，（2）基于二维图像摄影测量的方法，和（3）基于三维测量的方法，如激光扫描。虽然获得的数据密集，精度高，但传统的大地测绘技术耗时，流动性差。因此，这种方法不适合大规模的移动测绘任务。2D图像摄影测量方法易于设置且成本低，各种深度学习方法可以方便地与这些方法集成，以提取和可视化语义信息。然而，这些方法对环境变化（例如环境光、天气和黑暗）过于敏感。此外，仅使用图像构建的3D模型不能直接用于导航。基于LiDAR的建模方法精度高、可靠性高、不易受环境变化的影响。与基于图像构建的3D模型不同，使用LiDAR构建的3D模型在自动驾驶领域有应用。因此，本文讨论的方法主要是基于LiDAR或其他三维测量设备。城市大面积三维建模任务对数据采集效率提出了更高的要求。MLS系统包括配备有激光扫描仪的MMS。MMS技术为高效的三维建模提供了便利。移动测图是一种系统技术，能够实现摄影测量传感器的安装2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2020年12月第3在移动平台上，具有高精度、高效率的地理定位功能。当平台处于运动中时，MMS可以有效地收集环境的地理参考三维测量结果。成功的MMS包括加拿大卡尔加里大学的VISAT[1]系统，俄亥俄州立大学开发的GPSVan[2]和武汉大学开发的LD 2000[3]。目前，典型的MLS每秒可以采集100万个点，这意味着它可以覆盖道路及其周围表面，点密度为2000个点/平方米，点间距为1- 10 cm，移动速度为10- 1 - 10 km/h。MLS点云体积大，冗余度高，分布不规则[4]。此外，如果存在噪声和遮挡，则点云的质量会降低。因此，MLS点云处理是城市三维建模中一项具有挑战性的任务。标准点云处理涉及诸如特征点提取、匹配和配准、对象检测、语义分割以及同步定位和映射（SLAM）等方面。本文回顾了城市三维建模中的MLS解决方案，如图1所示。本文的其余部分组织如下。第2节回顾了MLS技术。第三章讨论了MLS点云的处理方法，第四章介绍了基于MLS的典型城市建模应用。图1介绍了基于MLS的城市三维建模各组成部分之间的逻辑关系。2MLS系统在这一部分中，我们首先介绍了系统设计和MLS的重要传感器。在MLS传感器中，全球导航卫星系统（GNSS）和惯性测量单元（IMU）是MLS导航的关键部件。然而，LiDAR在拒绝GNSS的环境中发挥着重要作用2.1系统设计MLS系统是一种配备激光扫描仪的MMS。如图2所示，MLS系统通常由GNSS接收机、激光扫描仪、数码相机、IMU和其他设备组成。同步176Cheng WANG et al：Urban 3D modeling using mobile laser scanning：a review通过精确的时间戳[5]实现从上述传感器到参考时间帧的数据。计算激光扫描系统中物体地面坐标的方法已被各种研究充分报道[6]。一种这样的方法涉及组合从集成GNSS/INS导航系统、激光扫描仪和传感器校准参数获得的测量结果。2.2GNSS和IMUMLS系统通过地面车辆执行测量。在MLS中，导航系统包括全球导航卫星系统（GNSS）和惯性测量单元（IMU），提供车辆的轨迹和姿态，用于生成地理参考3D点云（图3）[4]。该点的相对精度可以低于亚厘米量级，并且其绝对精度取决于上述GNSS-IMU组合导航解决方案。2.2.1GNSS/IMU组合导航GNSS通过采用轨道卫星星座来提供GNSS接收器天线的地理位置和速度数据。最流行的GNSS系统包括全球定位系统（GPS）（美国）、全球导航卫星系统（GLONASS）（俄罗斯）、北斗导航系统（BDS）（中国）和伽利略（欧盟）。通过在接收器天线的清晰视野内对卫星信号进行三角测量来计算位置测量。一般来说，必须有四颗卫星可用于定位，如图4所示，并且GNSS的精度理想地随着更多卫星变得可用而增加。然而，存在一些常见的误差源，例如接收机噪声、大气延迟、多径和卫星时钟定时，这导致GNSS接收机通常具有1- 2 m的定位精度。建筑物或树木等障碍物会阻挡卫星信号，导致导航不可靠。已经提出了一些方法，例如后处理、精密单点定位（PPP）和实时动态（RTK）[7]，以提高GNSS的精度。图2MLS系统的设置[5]。图3用于MLS点云直接地理参考的GNSS/IMU定位[4]。图4GNSS/IMU组合导航[8]。惯性导航系统（INS）利用旋转计算物体随时间的相对位置177虚拟现实智能硬件2020年12月第3以及来自IMU的加速度测量，其可以测量3D空间中的相对运动。IMU包含六个互补的传感器，它们排列在三个正交轴上。分别测量线性和旋转加速度的加速度计和陀螺仪耦合在三个轴中的每一个上。基于线加速度和旋转加速度测量，INS可以计算所有三个轴的位置和速度。除此之外，IMU还可以提供角度解，该解可以转换为INS中的局部姿态（滚转、俯仰和方位角）解[8]。当使用IMU在3D空间中导航时，每秒采集数百/数千个样本，因此，积累了许多误差。因此，在没有外部参考的情况下，未校正的INS系统可以快速地从真实位置漂移。如果GNSS提供外部参考，则INS可以使用数学滤波器来估计IMU测量的误差。GNSS提供一组绝对坐标，用作起点和连续位置和速度，用于更新INS滤波器估计。因此，GNSS和INS的集成提高了提供更强大的导航解决方案的总体性能。例如，当GNSS由于信号障碍而不可靠时，INS系统可以有效地用于导航更长的时间段。2.3激光扫描仪在MLS系统中，点云是由激光扫描仪（也称为LiDAR）生成的，它可以通过发射激光并测量光返回传感器所需的时间来估计物体的距离。3D激光雷达可用于平面测绘、导航过程中的避障以及城市区域建模。LiDAR主要应用于户外环境，特别是在大地测量、气象、地质和军事等领域。通常，光脉冲或波只能用于测量特定方向上的距离。LiDAR通常包括振荡镜，其可以在多个方向上执行扫描。根据特定的振荡机制，LiDAR可以在2D和3D两种情况下扫描周围环境。旋转LiDAR具有360°视图。随着每次旋转，它可以沿着源自传感器的圆锥扫描点，从而产生单个圆形扫描线。该锥角在每次完整旋转之后以预定义的量变化，具有最大绝对角度，使得传感器不能扫描其正上方或正下方的区域。Velodyne VLP-16和HDL-32是最经济实惠的商用多光束传感器，其主要规格见表1。与HDL-32相比，VLP-16更加紧凑和轻便，HDL-32具有相对较高的成本和更好的扫描效果。LiDAR的主要优点如下：(1) 不同类型的激光雷达可以提供不同的测量范围，从几厘米到100多米。因此，它可以用于室内和室外环境。(2) LiDAR的水平孔径通常在90到360度之间。(3) LiDAR的角度分辨率通常小于1度。(4) LiDAR的测量误差很低，通常是常数（对于短距离）或与测量距离呈线性关系。(5) LiDAR可以提供中等和高采样率，这对于动态环境中的应用至关重要;采样率通常在10 Hz至20Hz之间可调。LiDAR的主要缺点是价格昂贵。此外，LiDAR的功耗是178Cheng WANG et al：Urban 3D modeling using mobile laser scanning：a review表1制造商规格（VLP-16和HDL-32传感器）[9]VLP-16高密度脂蛋白32激光器/探测器对1632范围1米至100米1米至70米精度±3cm±2cm数据距离/校准反射率距离/校准反射率数据速率300000点/秒700000点/秒垂直FOV30°：[−15°，+15°]41.3°：[-30.67 °，+10.67°]垂直分辨率2.0°1.33°水平FOV360°360°水平分辨率0.1°至0.4°（可编程）0.08°至0.35°（可编程）大小103mm×72mm85.3mm×149.9mm重量0.83Kg1.3Kg高（超过相机的十倍），在有雾、暴雨或灰尘的情况下，其扫描性能会下降。2.3.1SLAM导航地面接收器对全球导航卫星系统卫星的可见性是全球导航卫星系统定位实现高精度的主要原因。然而，GNSS信号容易受到外部干扰，并且当平台处于复杂环境中时，例如在高层建筑、陡坡或室内环境的情况下，可能导致故障。定位的准确性也将因此降低。因此，必须开发替代技术来解决上述问题。SLAM可以说是机器人和3D视觉中最重要的算法之一，也适用于拒绝GNSS的环境。激光雷达SLAM激光雷达已成为机器人避障和路径规划的重要传感器。同时，已经提出了基于LiDAR的SLAM方法，例如基于特征的配准方法[10]，迭代最近点[11]（ICP）和正态分布变换[12]（NDT），用于估计两组重叠点云之间的变换。基于特征的配准方法通常用于两个点云之间的初始变换估计。这种类型的方法首先在两个点云中找到关键特征。接下来，它计算这些关键特征的描述符以执行图像匹配。最后，计算对应的关键特征之间的变换矩阵。ICP通过最小化平方误差收敛到局部最小值，因此可以分类为：点到点、点到平面和平面到平面ICP。对于点对点ICP，通过将第一点云中的每个点与第二点云中的最近点配对来构建对应对。随后，在每个对应对中，通过最小化两个点之间的平方距离之和来计算两个点云之间的变换。NDT采用点的统计模型来估计两个点云之间可能的对齐。LiDAR SLAM可能无法在LiDAR点云稀疏的情况下有效地工作。相机和LiDAR的集成可以提高性能[10，13]。基于摄像机的视觉里程计可以提供ICP的初始估计，并校正由于点云的不同接收时间而引起的点云运动失真。Scherer等人通过整合图像和IMU数据来估计系统的自我运动，然后通过LiDAR数据改进自我运动估计[14]。179虚拟现实智能硬件2020年12月第3Droeschel等人通过将LiDAR数据与3D地图融合，开发了用于机器人导航的3D多分辨率地图[15]。当传感器扫描其周围环境时，平台可以移动和旋转。让我们考虑如下的极值示例：如果平台以与其扫描器相同的角速度反向旋转，则所有点将位于世界坐标系中的同一垂直平面上。从传感器坐标系到世界坐标系的全扫描不能通过单一的仿射变换精确地映射。这是因为每个点都是在不同的时刻拍摄的，因此，每个点都有自己相对于世界坐标系的坐标系。在扫描过程期间的不同时间的精确机器人姿势允许通过针对所获取的每组点将从传感器坐标系到世界坐标系的不同仿射映射相关联来校正失真。多传感器SLAM单目视觉里程计（VO）在该领域已经开发了好几年，并且存在一些稳健和成熟的解决方案，例如MonoSLAM[16]，ORB-SLAM[17]和SVO[18]。例如，基于图的优化和循环闭合可以应用于视觉SLAM方法，例如RTAB-Map方法[19，20]。然而，视觉SLAM方法在动态天气和光照不足的条件下受到限制。为了提高在这种条件下的准确性和鲁棒性，一些研究已经提出了将额外的相机组合到该系统中。还有一些视觉解决方案已经与惯性测量单元（ IMU ）集成，例如 Geneva 的工作[21] ，AbolDeepIO[22]，VINS[23]以及其高级版本-VINS-Fusion[24]。VINS-Fusion融合本地状态（相机、IMU、LiDAR等）全球传感器（GPS、磁力计、气压计等）并且实现全局无漂移和局部精确的姿态估计。图5中描绘了来自现有VO/VIO方法和全局传感器的局部估计的融合。图5[24]第二十四话由于自动驾驶对地图精度要求高、动态环境下方法鲁棒性强、点云数据密集等特点，基于LiDAR的SLAM一直是自动驾驶领域研究的热点。此外，近年来，多光束LiDAR的价格已经显著下降。一些研究人员还研究了LiDAR与其他传感器（例如相机，IMU等）的集成。（见图6）。图6V-LOAM系统的框图[13]。180Cheng WANG et al：Urban 3D modeling using mobile laser scanning：a review激光器与相机集成的一个直接解决方案是使用VO结果作为ICP或GICP[25]管道的初始猜测，如Pandey[26]和Zhang[13]的工作所示。Zhang将视觉里程计和LiDAR里程计结合起来进行测绘任务。还存在将颜色信息视为后续ICP管线的3D点的第四通道的一些方法[27-29]。另一种融合相机和激光信息的方法是使用LiDAR信息来增强视觉特征。Graeter等人提出了LIMO，它可以跟踪相机特征并基于LIDAR点云估计相机运动[30]。此外，还有一些研究集中在LiDAR-IMU融合上，这是一个有待充分研究的主题[10，31]。Ye等人介绍了一种紧密耦合的LiDAR-IMU融合方法，通过联合最小化从LiDAR和IMU测量中得出的成本[32]。Geneva等人提出了LIPS，这是一种利用最近点平面的无奇点平面因子，通过在基于图形的优化框架中与IMU融合[21]。3点云数据一些研究集中在点云数据的处理上。这些方法有五类，即，特征提取，注册，完成，语义分割和对象/实例提取。我们将在本节中详细讨论这些方法。3.1点云完成随着激光扫描仪和RGB-D相机等数据采集设备的普及，即使是复杂的物体也可以以令人印象深刻的精度进行数字化。考虑到不同的数字化技术，仍然存在与环境条件、对象间遮挡和传感器能力有关的若干限制，这些限制限制了由移动激光扫描仪捕获的场景深度的全部有效性。不完整的数据会给后续处理带来不确定性。为了避免这种情况，我们必须有一个相应的完整版本的数据。对于简单的数据采集，我们可以重新扫描以获得nre数据。然而，有时，由于物体造成的遮挡或扫描设备无法到达观察区域，通过重新扫描获得完整版本的3D数据可能具有挑战性，因此，我们需要手动或自动完成数据。这已经创建了一个完成MLS数据或其他形式的3D数据的缺失3D信息的区域。现有的3D数据补全方法分为基于几何的、数据驱动的和基于学习的方法。3.1.1基于几何的方法基于几何的方法使用来自输入的几何线索来估计形状，其中缺失区域从观察区域推断。这些方法在合理的时间成本内完成小孔和规则形状是有效的。曲面重构方法许多以前的工作表面重建的光滑插值，以填补局部不完整的扫描孔的生成。其优越的表面重建性能总是依赖于MLS数据所代表的环境类型。最常见的场景是交通场景，也很容易重建路面。提出了一种路面重建方法来处理原始数据并生成3D模型，同时确保保留细节[33]。另一种方法[34]用于识别路缘，181虚拟现实智能硬件2020年12月第3在重建路缘石缺失信息的同时，还重建了厘米级精度的路面和人行道。对于室内映射，提出了一种基于增量表面生长的方法[35]来创建三角网格，并使用来自室内环境的大量噪声LiDAR数据填充孔洞。提出了一些其他方法以各种方式重建表面;一些重建了表面近似的算子[36，37];其他人提供了填充表面上的孔的算法[38-40]。然而，当物体表面由于遮挡而严重损坏时，道路表面重建方法失败。基于对称的方法对称性是建筑物等现实世界物体的共同特征。对称性通常用于分析和处理来自现实世界的大多数3D对象的计算表示。基于对称的方法识别重复结构和对称轴，以将零件复制到不完整区域。一些研究集中在小型物体上，如家用物体[41-43]，另一些研究则集中在大型物体上，如建筑物[44]。这些物体中的大多数是不对称的，只有部分是对称的。对于这些类型的3D对象，已经提出了一些方法[45-47]来实现整个对象的基于语义的完成。Thrun等人描述了一种用于将对象分割成具有不同对称性的部分的技术，并使用这些部分将部分3D形状模型映射到闭塞空间中[45]。提出了另一种通用方法[46]，以有效地提取对象的欧几里德对称性的紧凑表示，以捕获有关对象的基本和高级信息，从而实现进一步处理，包括形状对称化和分割。基于经常性的办法规则的几何结构在自然界和人造世界中普遍存在，重复的几何结构在认识和理解世界中起着至关重要的作用，因为许多物体都具有这种模式的特征。基于规则的完成方法被广泛用于完成3D建筑模型[48-50]，因为它们是现实世界中最规则的对象之一。这些方法可以使用各种规律性原理来完成数据，例如通过对每条扫描线进行傅立叶分析来填充孔并生成网格[49]，或者仅仅利用在构建扫描中发现的大规模重复并随后使用它来重新建模输入[48]。3.1.2数据驱动方法考虑到生成完全精确和完整的数据可能具有挑战性，数据驱动的方法可以通过将不完整的对象与模板形状数据库中存在的模板模型进行匹配来处理完整的形状。这类方法的主要原理是检索与输入查询最相似的3D模型，这可以在单个对象（例如车辆和家具）的情况下完成，但不包括大型对象（例如建筑物）。基于检索的完全对象大多数基于检索的方法可以从数据库中检索完整的形状，并使用它来直接替换不完整的形状[51-53]。提供了两种方法[51，52]以及数千个模型的数据集用于3D形状检索，其中有缺陷的扫描数据被检索到的模型替换。通过对场景中的每个对象进行分类并将残缺的对象替换为来自数据集的完整对象，通过3D室内重建完成替换[53]。182Cheng WANG et al：Urban 3D modeling using mobile laser scanning：a review装配零件以获得完整形状一些研究还认为，简单地用完整的3D物体替换不完整的3D物体会导致最终重建模型的不准确性，他们建议通过检索和组装所有物体部分来完成3D形状[51，54 -56]。3.2要素提取（线、平面和超体素）如何高效地处理海量复杂点云数据是一个挑战。有两种主要的方法可以达到这个目的。第一种方法将高密度点云数据投影到2D图像中，然后实施图像处理技术[57-59]。在其他方法中，在特征空间中处理点云数据。线、面特征包含了点云数据丰富的几何信息，特别是在人工环境中。这些特征通常是平行的，正交的，或共面的，这可以有效地降低点云的复杂性，而不丢失其主要的几何信息。因此，直线和平面提取广泛用于目标识别[60]，点云配准[61]，重建[10，13]等。直线提取可以分为两类。在第一类中，将真实世界的物体投影到2D图像中，然后使用LSD[62]或EDLines[63]从这些图像中提取线条，最后将这些线条反向投影到3D空间中以获得3D线条。Jain等人从同一场景的多视图图像中提取出场景的直线，然后基于视觉信息将这些直线返回到3D空间，最终获得3D直线[64]。Lin等人提出了一种线半平面（LHP）模型，通过将3D点云投影到多视图图像上来提取2D线，然后通过将2D线投影回3D空间来获得3D线[58]。将点云投影到图像中的优点是可以充分利用现有的二维直线提取算法。此外，缺点是大规模的点云需要相当多的时间来处理。有几个研究，可以直接提取点云上的线特征。Daniels等人使用鲁棒移动最小二乘法局部拟合表面，然后计算一组沿边缘对齐的光滑曲线，以识别点云中的线特征;最后，他们能够产生一组完整的光滑特征曲线[65]。Kim等人使用移动最小二乘近似来估计使用近似表面的点处的局部曲率及其导数[66]。Lin等人提出了一种基于小平面分割的线分割方法，该方法可直接用于点云[67]。与上述方法[58]相比，该方法可以提取更完整和更精确的线段。已经提出了几种不同的算法从3D点云提取平面。传统的平面提取技术通常可以分为区域生长[68-70]、霍夫变换[71，72]和模型拟合方法[73-75]。然而，这些方法没有充分利用点云的几何约束。Lin等人提出了一种基于能量最小的方法来重建平面，从而利用需要最少先验知识的约束模型来隐式地建立平面之间的关系[76]。为了平衡高精度和高效率，El-Sayed等人提出了一种基于八叉树平衡密度下采样和自适应平面提取的平面检测方法[77]。Nguyen等人利用扫描轮廓模式和不同相邻扫描轮廓之间的平面度值来检测和分割稀疏和异构MLS点云中的平面特征[78]。Kwon等人提出了一种涉及分解、扩展和合并等多个阶段的平面提取算法;此外，该算法即使在低密度点云的情况下也有效，扩展阶段包括在传统的分解和合并阶段之间[79]。直线和平面提取基于逐点处理。为了更快地处理点云，183虚拟现实智能硬件2020年12月第3被求婚了超体素是3D域中超像素的模拟物，是一种有前途的替代方案，通过它可以显着减少信息中的冗余，从而实现全自动操作的计算效率，同时信息损失最小。使用超体素，将点云划分为若干块，然后以块方式而不是逐点方式处理。体素云连通性分割（VCCS）是一种常用的超体素生成方法[80，81]。 Lin等人将超体素分割问题形式化为通过利用每个点的局部信息的启发式方法有效优化的子集选择问题[82]。Zai等人。[83]提出了一种改进的超体素算法，以生成具有自适应大小的超体素，其灵感来自点云分割方法[67]。Wang等人通过将超体素算法与Hough森林框架集成提出了一种有效的3D对象检测方法[84]。3.3匹配和配准三维点云配准是三维数据处理中的一个关键问题，通常被认为是刚体配准和城市三维重建的问题，可以采用六自由度（6DoF）变换参数来解决。为此，已经提出了具有各种应用的许多相关方法。ICP[11]算法在点对应性估计和变换矩阵估计之间交替（图7）。在文献中已经提出了这种方法的许多变化[85-88]。然而，ICP具有某些限制，例如（1）对最近点对应的显式估计，这导致点的二次复杂度缩放，（2）对初始化的敏感性，以及（3）由于可微性问题而难以与深度学习框架集成。上述方法不能保证解的全局最优性。因此，一些研究人员专注于优化算法来估计相对变换[89-91]。图7比较方案概览计划。关于手工制作的3D特征描述符的开创性研究大多受到2D对应物的启发。许多方法，包括SHOT[92]，RoPS[93]，TOLDI[94]，FPFH[95]和ACOV[96]，估计唯一的局部参考系（LRF），这对噪声不鲁棒。因此，MLS大规模点云并不适合采用。随着深度学习方法在3D数据几何表示领域的发展，基于学习的3D局部特征描述符经常被应用于点云配准。一些研究[97-104]集中于学习具有鲁棒性的局部特征，然后使用RANSAC等策略提取匹配对应关系;最后，提取的对应关系用于估计变换矩阵。其他一些研究[105-108]专注于构建一种端到端和基于网络的局部特征学习方法，以实现点云配准。然而，其他研究提出了使用全局信息来回归旋转变换矩阵和平移向量[109，110]。继RANSAC之后，Aiger等人提出了一种随机对齐方法，该方法使用平面全等集来计算最佳全局刚性变换[111，112]。然而，这些类似于RANSAC的方法是点级操作，在计算变换时可能很容易是次优的。184Cheng WANG et al：Urban 3D modeling using mobile laser scanning：a review3.4语义标记和分割点云的语义标记和分割需要通过将每个点分配给实体来理解和识别场景中有意义的实体。城市场景中的实体的示例可以包括天空、建筑物、立面、道路、窗户、门杆和行人。在本节中，我们回顾了分类和语义分割方法，重点是地面激光扫描（TLS）和MLS的点云。值得注意的是，可以找到关于地面移动激光扫描处理的全面文献，涵盖了Che工作中的语义分割，特征提取和对象识别[113]。3.4.1基于特征的方法基于特征的方法通过提取和连接特征以形成向量来标记点云中的每个点。然后采用经过训练的分类器来执行标记。Hackel等人减少了计算时间，并通过处理TLS点的强变化密度来解决点云中密度变化的挑战[114]。TLS和MLS点云由数百万个点组成，因此，标记每个点是计算密集型的。Weinmann等人在特征提取过程中选择优化特征时，通过使用五种不同的邻域定义来改进分类结果[115]。Hu等人使用网格分割来解决计算挑战，并在不依赖于计算昂贵的场景表示的情况下实现了良好的分割结果[116]。在Zhao的工作[117]中，分割和分类同时进行，其中每个片段使用其几何属性进行分类，每个片段的同质性使用对象类进行评估。相邻元素的空间平滑可以导致分割结果的改善。概率模型，例如马尔可夫随机场（MRF）和条件随机场（CRF），用于此目的。Lu等人通过使用点之间的距离计算节点势和边缘势来为每个点分配语义标签，并且点之间的上下文关系由MRF给出[118]。另一个网络[119]提出了采用CRF在相邻实体之间传播上下文信息。他们通过学习CRF的高维参数来进行离散的多标签分类，并且发现高阶模型在保留显着标签方面具有鲁棒性。以前，手工制作的功能主要用于可视化任务。手工制作的功能被设计成与某些转换不同;然而，它们通常面向特定的任务，需要大量的人工干预。这类基于人工智能的方法严重依赖于手工制作的功能，这些功能已经被语义功能所超越。3.4.2深度学习方法深度学习技术学习可以应用于多个任务的特征，并且学习以端到端的方式进行，因此几乎不需要人工干预。卷积神经网络（CNN）已被证明在具有规则格式的数据格式（如2D图像中像素的网格状结构）中有效。然而，直接在点云上部署CNN是一个挑战。因此，它是一个活跃和正在进行的研究领域。点云是不规则的，因此，点的分割采取了以下方向。一般来说，3D深度学习方法可以分为体积CNN，多视图CNN和基于点的方法，分别对应于体积，多视图图像和点云的流行3D数据表示。体积CNN体积CNN对体积数据进行操作，体积数据通常表示为3D二进制体素网格。三维-185虚拟现实智能硬件2020年12月第3ShapeNets[120]将shapeNets上的3D形状表示为3D网格上二进制变量的概率分布。体素网格使得可以应用3D卷积操作。在Charles的工作[121]中，他们提出了一种通过使用辅助训练任务解决过拟合问题来从部分子体积预测对象的模型，并且他们还提出了另一种用于将3D形状与各向异性探测内核进行卷积的模型。此外，VoxelNet[122]被用作体素上的3D CNN，用于实时对象识别。VoxelNet将物体表面的法向矢量合并到体素中，以提高辨别能力。虽然基于体积CNN的技术具有可靠的性能，但由于占用网格的稀疏性，它们受到诸如引入量化伪影、高存储器消耗和计算成本的限制。多视图cnn将3D点云投影到2D网格是为了通过在2D中渲染3D数据来利用2D分割算法的高性能。这些技术是基于传统的CNN，对2D图像进行操作。这些技术可以将3D对象映射到从不同角度拍摄的对象的2D图像的集合中。与它们的体积对应物相比，多视图CNN具有优越的性能，因为与它们的3D体素对应物相比，多视图图像包含更丰富的信息。Su等人进行了第一项关于用于对象识别的多视图CNN的研究，并实现了最先进的准确性[123]。Leng等人提出了一种用于3D对象检索任务的堆叠局部卷积自动编码器（SLCAE）[124]。在Tosteberg的工作[125]中，3D点云被投影到2D图像上，并且使用2D语义分类器对图像进行语义分割。这种操作导致在3D到2D的变换中丢失有价值的信息，因为前者在内容（或深度信息）上更丰富。在Wu的工作[126]中，球面投影用于包含2D CNN和CRF的管道中，以将点云投影到2D网格中。管道的CNN执行分割，CRF对其进行细化。“自动标记”是一种将高质量的基于图像的语义分割从参考相机转移到点云的方法[127]。全卷积神经（FCN）网络用于从点云的顶视图图像中对道路进行逐像素语义分割[128]。Lawin等人采用了类似的方法，甚至进一步研究了表面法线，深度和颜色对结构的重要性[129]。上述方法的主要缺点在于在3D到2D投影过程期间发生的信息损失。基于点3D点云的直接处理[130，131]也非常流行。基于点的方法由PointNet开创[132]。由于点云是非结构化的、不规则的和无序的，因此它通常被转换成体积形状和多视图图像，然后分别使用体积CNN和多视图CNN来处理这些图像。然而，存在许多可以使用对称函数的组合以端到端的方式直接应用于点云的方法。这些对称函数由所有输入点共享的多层感知器组成，并且使用最大池化函数提取全局特征，该函数也是对称函数。PointNet++[133]通过在局部区域上分层应用PointNet来扩展PointNet以包括局部依赖性。引入了几种其他方法[134-136]来改进局部依赖计算。PointCNN[135]在应用类似PointNet的MLP之前对局部区域应用X变换。VoxelNet[134]直接处理点云，通过将提供的输入划分为体素，并使用每个体素中的点来计算体素的特征向量来实现对象检测;该过程在堆叠的体素特征编码层中分层应用。值得注意的是，区域建议也用于对象检测。DGCNN[136]以图形的形式呈现了一个点云，其中每个点都表示为通过有向图连接到其相邻点的节点，并且在186Cheng WANG et al：Urban 3D modeling using mobile laser scanning：a review相邻的点对来利用局部几何形状。Huang等人提出了一种多尺度特征提取方法，该方法将局部特征嵌入到低维和鲁棒的子空间中[137]。SEGCloud[138]将点云转换为体素，因为前者具有规则的结构，因此可以在其上部署CNN。该架构结合了3D-FCN、三线性插值和CRF来标记3D点云。城市尺度体素的处理是计算密集型的。语义3D网络[139]是标记TLS点的大规模基准，在城市规模分类和分割任务中至关重要。OctNet[140]在不同分辨率的体素上训练了一个网络，以解决分辨率和计算挑战，将RueMonge 2014数据集[141]中的3D彩色点云分割成窗户，墙壁，阳台，门，屋顶，天空和商店。Engelmann等人[142]在PointNet[132]的基础上建立了它的框架，扩大了它的接收域，以满足城市规模的场景。Landrieu等人提出了一种架构，该架构通过对3D点云中对象部分之间的上下文关系进行编码，直接解决了城市规模场景的语义分割挑战[143]。该网络首先将点云划分为称为“超级点”的简单形状，然后使用PointNet[132]进行嵌入以进行后续分割。超点使得能够分割大规模场景。Xu等人提出了一种用于LiDAR点云语义标记的监督分类方法[144]。很少有带注释的大规模数据集，因为手动逐点标记点是耗时的，需要很大的努力。这是点云的大规模分类和语义分割的主要挑战，因为任务大多是监督的。这是一个活跃和正在进行的研究领域。标记和分割城市场景的任务是一个活跃的研究领域，特别是随着深度学习技术的出现。它的主要挑战是扩展现有算法或生成新的管道以满足大规模场景，以及缺乏详细的注释数据集作为分类和分割任务的基准。目前，由于激光扫描仪的普及以及与多视图和体积CNN相比，它们需要更少的预处理，点云上的深度学习技术变得越来越流行。基于点的3D深度学习方法和适用于其他非结构化数据（如社交网络）的其他深度学习方法在LeCun的工作中引入的“几何深度学习”一词下变得越来越流行[145]。3.5对象/实例提取3D物体检测对于机器人、自动驾驶和增强/虚拟现实等多种现实应用至关重要。它通过从点云数据中估计目标的有向三维包围盒和语义标签来定位和识别三维场景中的目标。范围扫描涉及使用3D点云的空间坐标，因此，它们在定位检测到的对象方面具有优于相机图像的优势。此外，点云对照明的变化是鲁棒的。此外，与图像检测相比，点云中的对象检测自然地定位3D中的对象，并为后续任务（例如导航）提供关键信息。然而，与图像不同，3D点云是稀疏的，并且由于3D空间中的非均匀采样、有限的传感器范围和遮挡的存在而具有不一致的点密度。因此，从点云中检测物体仍然是一个巨大的挑战。现有的点云目标检测方法主要分为以下三类(1)基于投影的方法，将点云投影到多个透视图中，然后应用基于图像的对象检测方法。（2）基于体素化的方法，187虚拟现实智能硬件2020年12月第3云到3D体素网格，然后将它们转换为常规张量。(3)直接方法，直接投影点云并预测边界框，无需进一步处理。基于投影的方法基于投影的方法将点云投影到透视图中，并应用基于图像的技术，这可能会牺牲关键的几何细节[146]。Alejandro等人开发了一种用于行人检测的多线索，多模式和多视图框架，具有手工制作的功能和随机森林分类器，这使得准确性提高了相对较大的幅度[147]。Li等人在2D点图中呈现了3D点云，然后使用完全卷积网络同时预测检测到的对象和边界框的置信度[148]。Chen等人将目标检测问题表述为最小化能量函数编码目标尺寸先验、地平面和几个深度信息特征，如点云密度和到地面的距离等[149]。Yang等人提出了一种无建议的单级3D对象检测器，称为PIXOR，它通过点云上的像素神经网络预测来估计定向3D对象[150]。体素化方法基于体素化的方法将不规则点云网格化为3D体素，然后应用3D CNN进行对象检测。这些方法无法利用数据稀疏性，并且由于3D卷积操作而遭受高时间成本。Dominic等人提出了一种高效且有效的框架，用于在3D点云上应用滑动窗口方法进行对象检测[151]。他们证明了3D中的穷举窗口搜索可以有效地利用稀疏性问题。他们证明了稀疏卷积和投票之间的数学等价性。Martin等人使用从稀疏卷积层构建的CNN检测点云中的3D对象[152]。Chen等人通过使用LiDAR点云和图像来预测定向3D边界框[153]，提出了多视图3D网络（MV3D）。Li等人提出了一种用于点云中对象检测的3D全卷积网络[154]。Zhou等人提出了一种名为VoxelNet的3D检测网络，通过将特征提取和边界框预测集成到端到端深度网络中[134]。Daniel等人提出了一种在植被覆盖的地形中检测小型和潜在模糊障碍物的方法[155]。该方法的新颖之处在于将体积占用图与3D CNN相结合，这允许从原始占用数据中训练用于检测任务的高效且高度准确的框架。直接方法最近，已经设计了许多方法来对原始点云进行操作并直接预测边界框而无需其他处理。Shi等人通过使用自下而上的3D建议生成和规范坐标中的细化，提出了PointRCNN用于从点云进行3D对象检测[156]。Charles等人介绍了VoteNet，它直接从点云中“投票”对象质心，并聚合投票以通过局部几何生成高质量的对象提案[157]。Alex等人提出了PointPillars，这是一种用于3D对象检测的方法，可以仅使用2D卷积层进行端到端学习[158]。PointPillars使用了一种新的编码器，它可以学习点云垂直列（柱子）上的特征，以预

下载后可阅读完整内容，剩余1页未读，立即下载