LiDARsim:基于真实数据的逼真LiDAR模拟

191 浏览量更新于2023-10-25 收藏 13.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Sivabalan Manivasagam1,2Shenlong Wang1,2Kelvin Wong1,2Wenyuan Zeng1,2Mikita Sazanovich1Shuhan Tan1Bin Yang1,2Wei-Chiu Ma1,3Raquel Urtasun1,2{manivasagam, slwang, kelvin.wong, wenyuan, sazanovich, shuhan, byang10, weichiu, urtasun}@uber.com1111670LiDARsim: 通过利用真实世界进行逼真的LiDAR模拟01 Uber先进技术集团 2 多伦多大学 3 麻省理工学院0摘要0我们解决了生成LiDAR点云的逼真模拟问题，这是大多数自动驾驶车辆首选的传感器。我们认为，通过利用真实数据，我们可以比使用基于CAD/程序模型构建的虚拟世界更逼真地模拟复杂的世界。为了实现这个目标，我们首先通过使用我们的自动驾驶车队在几个城市周围行驶来构建一个大型的3D静态地图和3D动态物体目录。然后，我们可以通过从目录中选择一个场景并在场景中“虚拟地”放置自动驾驶车辆（SDV）和一组目录中的动态物体来生成场景。为了产生逼真的模拟，我们开发了一种新颖的模拟器，它既具有基于物理的模拟的能力，又具有基于学习的模拟的能力。我们首先利用对3D场景的光线投射，然后使用深度神经网络产生与基于物理模拟的偏差，从而产生逼真的LiDAR点云。我们展示了LiDARsim在长尾事件的感知算法测试和安全关键场景的端到端闭环评估中的有用性。原文链接：https://arxiv.org/pdf/2108.01967.pdf01. 引言0在一个寒冷的冬夜，你正在为朋友和家人举办一个节日聚会。随着庆祝活动的结束，你注意到你最好的朋友没有车接送，所以你请求一辆自动驾驶汽车送她回家。你告别后回到屋里睡觉，放心地知道你的朋友在安全的手中，并将安全返回。要使自动驾驶车辆（SDVs）成为一种安全可靠的选择，仍然有许多未解答的问题。我们如何验证SDV能够正确检测和处理它从未见过的物体（图1，右侧）？我们如何保证SDV在危险和安全关键场景中具有稳健性并能够安全操纵（图1，左侧）？更一般地说，您需要什么证据才能放心地让您的亲人乘坐自动驾驶汽车？原文链接：https://arxiv.org/pdf/2108.01967.pdf0图1：左：如果一辆被公共汽车遮挡的汽车转向我们的车道，我们能避免碰撞吗？右：如果路上有一只鹅，我们能检测到它吗？请参见图11的结果。原文链接：https://arxiv.org/pdf/2108.01967.pdf0为了使自动驾驶车辆（SDVs）更接近实现，我们需要提高自主系统的安全性，证明安全性，并赢得公众的信任。自动驾驶行业通常使用三种主要方法来改进和测试安全性：（1）在受控环境中进行真实可重复的结构化测试，（2）评估预先记录的真实世界数据，（3）在模拟中运行实验。尽管这些方法都很有用和有效，但它们都有局限性。在结构化环境中进行真实世界测试，例如测试赛道，可以对自主系统进行全面的端到端测试，但由于非常昂贵且耗时，它只能进行非常有限数量的测试用例。此外，安全关键场景（例如，高速下卡车上的床垫掉落，动物穿越马路）很难进行安全和道德测试。评估预先记录的真实世界数据可以利用真实世界场景的高多样性，但我们只能收集到我们观察到的数据。因此，收集足够数量的长尾事件所需的里程数太大。此外，获得标签是昂贵的。与测试赛道评估类似，我们永远无法完全测试系统在从未遇到过的情况下的行为方式以及系统的安全限制，这对于证明安全性并获得公众的信任至关重要。此外，由于数据是预先录制的，这种方法阻止了代理与环境进行交互，因为如果执行的计划与实际发生的情况不同，传感器数据将会有所不同，因此无法用于完全测试系统性能。原文链接：https://arxiv.org/pdf/2108.01967.pdfScene CompositionRenderingLearning to Drop Rays1116803D地图06自由度传感器姿态0生成的场景03D对象库组合场景射线投射的LiDAR点云最终模拟 LiDAR0资源创建场景模拟0图2：LiDARsim概述架构0上述限制：闭环模拟可以测试机器人在具有挑战性和安全关键情况下的反应，我们可以使用模拟来生成额外的长尾事件数据。不幸的是，大多数现有的模拟系统主要关注模拟行为和轨迹，而不是模拟传感器输入，绕过了感知模块。因此，无法测试完整的自主系统，限制了这些测试的有用性。0然而，如果我们能够真实地模拟传感器数据，我们就可以对完整的自主系统进行端到端的测试。我们并不是第一个意识到传感器模拟的重要性的人；模拟原始传感器数据的历史可以追溯到NASA和JPL支持机器人探索月球和火星表面的努力。广泛使用的机器人模拟器，如Gazebo和OpenRave[22,7]，也通过物理和图形引擎支持传感器模拟。最近，先进的实时渲染技术已经在自动驾驶模拟器中得到应用，如CARLA和AirSim[8,33]。然而，它们的虚拟世界使用手工制作的3D资源和简化的物理假设，导致模拟不能很好地代表真实世界传感器数据的统计特性，从而产生了很大的模拟到真实领域的差距。0缩小模拟和现实世界之间的差距需要我们更好地建模真实世界环境和传感过程的物理。在本文中，我们以LiDAR为重点，因为它是大多数自动驾驶车辆的首选传感器，因为它可以从中产生3D点云，从而使3D估计相对于仅使用摄像头更简单和更准确。为了实现这个目标，我们提出了一种新颖、高效和逼真的LiDAR模拟系统LiDARsim。我们认为利用真实数据可以更真实地模拟LiDAR。LiDARsim有两个阶段：资源创建和传感器模拟（见图2）。在资源创建阶段，我们通过车队在几个城市周围行驶并随着时间的推移积累信息，建立了一个大型的3D静态地图和动态物体网格目录，以获得更密集的表示。与由艺术家设计的虚拟世界相比，这有助于更真实地模拟复杂的世界。在传感器模拟阶段，我们的方法结合了0物理和学习相结合的模拟的能力。我们首先利用对3D场景的射线投射来获取初始的物理渲染。然后，一个深度神经网络学习如何偏离基于物理的模拟，通过学习近似更复杂的物理和传感器噪声来产生逼真的LiDAR点云。LiDARsim传感器模拟器具有非常小的领域差距。这使我们能够更有信心地测试完整的自主堆栈。我们在实验中展示了我们的感知算法在LiDARsim中检测场景中的未知对象的能力。我们还使用LiDARsim来更好地了解自主系统在安全关键场景下在闭环设置中的表现，这是在没有逼真的传感器模拟的情况下很难测试的。这些实验展示了逼真的传感器模拟对自动驾驶的价值。我们相信这只是向无麻烦测试和无注释训练自动驾驶自主系统迈出的第一步。02. 相关工作0虚拟环境：虚拟模拟环境在机器人学和强化学习中被广泛使用。[29]的开创性工作通过在真实数据和模拟数据上训练神经网络来学习驾驶。另一个流行的方向是利用游戏环境，如Atari游戏[25]、Minecraft[18]和Doom[20]。然而，由于这些类型的环境中评估的场景和任务不真实，并且在简单的设置中缺乏变化或噪声，这些环境无法很好地推广到现实世界。在导航[50]和操作[38,6]的背景下，3D虚拟场景在机器人学中被广泛使用。对于在模拟中训练的智能体来说，能够推广到现实世界是很重要的。为了实现这个目标，物理引擎[36]被用来模拟机器人与真实世界的物理交互，如多关节动力学[38]和车辆动力学[41]。虚拟环境模拟的另一个关键组成部分是传感器模拟的质量。过去十年间，实时图形引擎（如Unreal[12]和Unity3D[9]）取得了显著的改进。基于这些图形引擎，开发了模拟器来提供虚拟传感器模拟，如CARLA和Blensor[8, 14,39, 16, 47]。然而，111690带有语义的点云0对齐物体移除0跨多通道对齐帧的帧0Meshify0强度网格0图3：地图构建过程0模拟器的输出与真实世界之间仍然存在很大的领域差距。我们认为造成这种领域差距的一个原因是由艺术家生成的环境不够多样化，使用的简化物理模型也没有考虑到传感器模拟的重要属性，如材料反射率或传感器观测的入射角，这些属性会影响输出点云。例如，在大多数入射角下，激光雷达射线将穿透窗玻璃，不会产生可以被接收器检测到的返回值。0虚拟标签转移：模拟数据具有巨大的潜力，因为可以大规模生成标签，而几乎不需要费用。这对于获取困难的任务（如光流和语义分割[3, 24, 32, 30,11]）非常有吸引力。研究人员已经开始研究如何将在模拟数据上训练的代理转移到执行真实世界任务[35,30]。已经表明，在虚拟标记数据上进行预训练可以提高真实世界感知性能，特别是当几乎没有真实世界标签可用时[24, 30, 34, 17]。0点云生成：生成模型在点云生成方面取得了最新进展。[45]通过正态流将高斯-3D样本转换为通过类别条件的点云形状，[4]使用VAEs和GANs从噪声样本中重构LiDAR。在这项工作中，我们不直接应用深度学习进行点云生成，也不仅使用基于图形的模拟，而是采用深度学习技术增强图形生成的LiDAR数据，使其更加逼真。0真实世界中的传感器模拟：尽管过去的模拟器在模拟真实世界方面具有有限的能力，限制了它们改善机器人真实世界感知的成功。这是因为虚拟场景、图形引擎和物理引擎是对真实世界的简化。受此启发，最近的研究开始将真实世界的数据引入模拟器中。[1]将图形渲染的动态对象添加到真实相机图像中。Gibson环境[43,42]创建了一个交互式模拟器，其渲染的图像来自真实世界室内环境的RGBD扫描。深度学习已被采用，使模拟图像更加逼真。我们的工作与Gibson环境相关，但我们的重点是0关于驾驶场景中的LiDAR传感器模拟。最近，在同时进行的工作中，[10]展示了通过对由3D测量映射数据和CAD模型组成的3D场景进行射线投射的LiDAR模拟。我们的方法在几个组成部分上有所不同：1）我们使用单个标准LiDAR构建地图，而不是全面的3D测量映射，这样可以以成本效益的方式进行大规模地图制作（因为我们的LiDAR至少便宜10倍）；2）我们从真实数据中构建3D对象，比CAD模型更具多样性和真实性（如第5节所示）；3）我们利用学习系统对图形渲染未捕获的残余物理进行建模，以进一步提高真实性，而不是标准渲染+随机噪声。03. 重建用于模拟的世界0我们的目标是构建一个能够模拟具有许多参与者的复杂场景并生成具有真实几何形状的点云的LiDAR模拟器。我们认为通过利用真实数据，我们可以比仅使用CAD/程序模型构建的虚拟世界更真实地模拟世界。为了实现这样的模拟，我们首先需要生成静态环境和动态对象的目录。为此，我们使用自动驾驶车队在几个城市中行驶，生成高清晰度的3D背景和动态对象网格。我们首先描述如何生成静态环境的3D网格。然后，我们描述如何构建动态对象的库。在第4节中，我们将讨论如何对构建的场景进行逼真的LiDAR点云模拟。03.1. 用于模拟的3D地图0为了模拟真实世界的场景，我们首先利用传感器数据扫描来构建静态3D世界的表示。我们希望我们的表示能够提供关于世界的高度逼真性，并描述场景的材料和几何属性。为了实现这个目标，我们多次驾驶在同一场景上收集数据。平均而言，一个静态场景由3次通过创建。然后，使用离线图形SLAM[37]和多传感器融合（包括轮式编码器、IMU、LiDAR和GPS）将多个LiDAR扫描与公共坐标系（地图框架）关联起来。这为我们提供了厘米级精确的LiDAR扫描对齐。我们使用LiDAR分割[49]自动移除移动物体（例如车辆、骑车者、行人）。然后，通过体素下采样和法线估计，将多次驾驶的聚合LiDAR点云转换为基于surfel的3D场景网格。我们使用surfel是因为它们的简单构造、有效的遮挡推理和高效的碰撞检测[28]。具体而言，我们首先对点云进行下采样，确保在每个4×4×4cm³的空间中只采样一个点。对于每个这样的点，通过对邻近点（20cm半径和最多200个邻居）进行主成分分析来进行法线估计。然后，生成一个以输入点为中心、法线方向为其法线方向的圆盘surfel。除了几何信息，我们还记录了关于surfel的其他元数据，以后可以用来增强模拟LiDAR点云的逼真性。我们记录每个surfel的（1）强度值，（2）到传感器的距离，（3）和入射角（LiDAR传感器射线与圆盘表面法线之间的角度）。图3描述了我们的地图构建过程，最后一个面板显示了用记录的强度着色的重建地图。请注意，与使用3D艺术家的方法相比，这个地图生成过程更加廉价，成本是每个城市街区数千美元。To create realistic scenes, we also need to simulate dy-namic objects, such as vehicles, cyclists, and pedestrians.Similar to our maps in Sec. 3.1, we leverage the real worldto construct dynamic objects, where we can encode compli-cated physical phenomena not accounted for by raycastingvia the recorded geometry and intensity metadata. We builda large-scale collection of dynamic objects using data col-lected from our self-driving ﬂeet. We focus here on generat-ing rigid objects such as vehicles, and in the future we willexpand our method to deformable objects such as cyclistsand pedestrians. It is difﬁcult to build full 3D mesh repre-sentations from sparse LiDAR scans due to the motion ofobjects and the partial observations captured by the LiDARdue to occlusion. We therefore develop a dynamic objectgeneration process that leverages (1) inexpensive human-annotated labels, and (2) the symmetry of vehicles.We exploit 3D bounding box annotations of objectsover short 25 second snippets.Note that these annota-tions are prevalent in existing benchmarks such as KITTIor Nuscenes[13, 5]. We then accumulate the LiDAR pointsinside the bounding box and determine the object relativecoordinates for the LiDAR points based on the bounding111700图4：从左到右：单个扫描，累积点云，对称补全，异常值去除和surfel网格化0为了创建逼真的场景，我们还需要模拟动态物体，如车辆、骑车者和行人。与第3.1节中的地图类似，我们利用真实世界来构建动态物体，通过记录的几何和强度元数据，我们可以编码未被射线投射考虑到的复杂物理现象。我们使用我们的自动驾驶车队收集的数据构建了大规模的动态物体集合。我们在这里重点生成刚体物体，如车辆，未来我们将扩展到可变形物体，如骑车者和行人。由于物体的运动和LiDAR捕获到的部分观测由于遮挡而导致的稀疏LiDAR扫描，很难构建完整的3D网格表示。因此，我们开发了一种动态物体生成过程，利用了（1）廉价的人工标注标签和（2）车辆的对称性。我们利用短25秒的视频片段中的3D边界框注释。请注意，这些注释在现有的基准数据集（如KITTI或Nuscenes[13,5]）中很常见。然后，我们累积边界框内的LiDAR点并根据边界框确定LiDAR点的相对坐标。03.2. 用于模拟的物体的3D重建0盒子中心（见图4，第二帧）。这不足以产生完整的形状，因为部分观测会导致形状不完整。受到车辆对称性的启发，我们沿着车辆的朝向轴镜像点云，并将其与原始点云连接起来。如图4的第三帧所示，这样可以得到更完整的形状。为了进一步改善形状并纠正移动物体点云对齐中的错误，我们应用了迭代的颜色ICP算法，其中我们使用记录的强度作为颜色特征[27]。然后，我们通过surfel-disk重建将物体转换为网格，生成图4的最后一帧。与我们处理静态场景的方法类似，我们记录了surfel的强度值、原始范围和入射角度。通过这个过程，我们生成了超过25,000个动态物体的集合。图5展示了一些有趣的物体。我们计划将生成的资源发布给社区。04.自动驾驶的逼真模拟0给定一个交通场景，我们将在第3.2节中创建的动态物体网格放置在第3.1节中的3D静态环境上，从而组成虚拟世界场景。我们现在解释用于模拟LiDAR点云的几何形状和强度的基于物理的模拟，输入为传感器位置、3D资源和交通场景。然后，我们介绍提供给神经网络的特征和数据，通过估计哪些LiDAR射线不会返回到传感器来增强基于物理的LiDAR点云的逼真度，我们称之为“射线丢失”。04.1.基于物理的模拟0我们的方法利用基于物理的模拟来创建生成点云的几何形状的估计。我们专注于模拟扫描式LiDAR，即常用于许多自动驾驶汽车和基准测试（如KITTI [13]）的VelodyneHDL-64E。该系统具有64个发射器-接收器对，每个对使用光脉冲测量距离。基本概念是每个发射器发射光脉冲，直到击中目标，一部分光能被反射回来并被接收器接收。距离通过计算传播时间来测量。整个光学装配在基座上旋转，以每秒约10Hz的速度提供360度方位视野，每次完整的“扫描”提供约110,000个返回值。请注意，本文描述的技术都不限于此传感器类型。我们使用图形引擎模拟我们的LiDAR传感器，给定所需的6个自由度姿态和速度。111710图5：左：我们车辆库的规模（显示25000辆车中的几百辆），右：我们车辆库的多样性，按强度着色，叠加在车辆尺寸散点图上；示例（从左到右）：敞开的引擎盖，车顶上的自行车，敞开的后备箱，带斗的皮卡，强度显示文本，卡车上的交通锥，带拖车的货车，卡车上的拖拉机0图6：左：Raydrop物理解释：多个真实世界因素和传感器偏差决定信号是否被LiDAR接收器检测到。右：Raydrop网络：使用机器学习和真实数据来近似射线丢失过程。0基于LiDAR传感器的内部参数（有关传感器配置，请参见[23]），从虚拟LiDAR中心向场景中进行一组射线投射。我们通过补偿LiDAR扫描期间自车的相对运动来模拟滚动快门效应。因此，对于从LiDAR传感器发射的每个射线，垂直角θ和水平角φ，我们用源位置c和射线方向n表示射线：c = c0 + (t1 - t0) v0，n = R0 [cosθ cosφ，cosθ sinφ，sinθ] T0其中c0是传感器激光的3D位置，R0是扫描开始时相对于地图坐标的3D旋转，v0是速度，t1-t0是模拟LiDAR射线的时间变化。除了来自自车的滚动快门效应外，我们还模拟了在LiDAR扫描期间场景中移动的其他车辆的运动模糊。为了在计算成本和逼真度之间取得平衡，我们在LiDAR扫描中以360个等间隔的时间间隔更新物体姿态。使用IntelEmbree射线投射引擎（使用Moller-Trumbore相交算法[26]），我们计算射线与场景中所有surfels的射线-三角形碰撞，并找到与传感器相交的最近的surfels。将此应用于LiDAR扫描中的所有射线，我们得到了一个基于物理的点云。此外，我们应用一个掩码来删除击中SDV的射线。04.2.学习模拟射线丢失0动机：到目前为止，所描述的LiDAR模拟方法在视觉上产生了逼真的LiDAR点云几何形状。然而，我们观察到真实的LiDAR通常比生成的射线投射版本少约10％的LiDAR点，而某些车辆的模拟LiDAR点比真实的多得多。上述基于物理的方法的一个假设是，每个投射到虚拟世界的射线都会返回，如果它与之相交。0然而，由真实LiDAR传感器发射的射线可能不会返回（丢失射线），如果返回信号的强度（强度值）不足以被接收器检测到（见图6，左侧）[19]。建模丢失射线是强度模拟的二进制版本 -它是一个复杂且随机的现象，受到材料反射率、入射角、距离值、光束偏差和其他环境因素等因素的影响。许多这些因素在艺术家设计的模拟环境中是不可用的，但利用真实世界的数据可以获取关于这些因素的信息，尽管有噪声。我们将LiDAR丢失射线视为二进制分类问题。我们应用神经网络来学习传感器的丢失射线特性，利用机器学习来弥合模拟和真实世界LiDAR数据之间的差距。图6，右侧，总结了整体架构。接下来我们将介绍模型设计和学习过程。0模型和学习：为了预测LiDAR的射线丢失，我们将3DLiDAR点云转换为64 x2048的2D极坐标图像网格，这样我们可以编码哪些射线没有从LiDAR传感器返回，同时提供真实LiDAR扫描和模拟扫描之间的映射关系（见图6，右侧）。我们将一组通道作为网络的输入，表示可能影响每个射线返回机会的可观察因素。我们的网络架构是一个标准的8层U-Net[31]。我们网络的输出是数组中每个元素返回与否的概率。为了模拟LiDAR噪声，我们从概率掩模中采样生成输出的LiDAR点。01我们使用实值通道：距离、原始记录的强度、入射角、击中表面的原始范围和原始入射角。注意，我们从第3.1节和第3.2节记录的元数据中获取了原始值。整数值通道：激光ID、语义类别（道路、车辆、背景）。二进制通道：初始占用掩码。111720图7：Raydrop的定性示例0云。我们采样概率掩模而不是直接进行阈值处理有两个原因：（1）我们使用交叉熵损失学习丢失射线，意味着估计的概率可能不会被很好地校准[15] -与阈值处理相比，采样有助于缓解这个问题。（2）真实的LiDAR数据是非确定性的，因为存在额外的噪声（大气透射率、传感器偏差），我们当前的方法可能无法完全建模。如图7所示，学习丢失射线可以创建更符合真实数据的点云。05. 实验评估0在本节中，我们首先介绍我们所应用的城市驾驶数据集以及LiDARsim的实现细节。然后我们通过在KITTI数据集上与流行的LiDAR模拟系统CARLA进行公开评估，来证明它是一个高保真度的模拟器，用于分割和检测任务。我们还将LiDARsim与真实LiDAR和模拟基线进行分割和车辆检测的评估。我们将LiDARsim数据与真实数据相结合，进一步提高感知任务的性能。我们展示了使用LiDARsim来测试未知对象的实例分割以及在安全关键场景中进行端到端的自主系统测试。05.1. 实验设置0我们在一个新的大规模城市数据集以及KITTI[13,2]上评估了我们的LiDAR模拟流程。我们的城市数据集包含5500个25秒的片段和140万个在一年中不同季节捕获的LiDAR扫描。它们涵盖了北美的多个大都市城市，包括各种场景。通过离线过程进行厘米级定位。我们将城市数据集分为两个主要集合：地图构建（约87%）和下游感知（训练约7%，验证约1%，测试约5%）。为了准确比较LiDARsim与真实数据，我们使用SDV的地面真值姿态和基于该扫描的地面真值场景布局的动态物体姿态来模拟每个真实LiDAR扫描示例。然后对于每个要模拟的动态物体，我们根据边界框标签尺寸和相对于SDV的初始相对方向计算每个对象在我们的库中的适应度分数，并从得分最高的对象中随机选择一个进行模拟。然后我们将射线投射的LiDAR扫描作为输入来训练我们的丢失射线网络，相应的真实LiDAR扫描作为标签。为了训练丢失射线网络，我们使用地图构建中的6%的片段和0CARLA [ 46 ]（基准） 0.65 0.36 0.94LiDARsim（我们的） 0.89 0.79 0.98SemanticKITTI（Oracle） 0.90 0.81 0.990表1：LiDAR车辆分割（mIOU）；SemanticKITTI验证集0训练集IoU 0.5 IoU 0.70CARLA-默认（基准） 20.0 11.5CARLA-修改（基准） 57.4 42.2LiDARsim（我们的） 84.6 73.7 KITTI（Oracle）88.1 80.00表2：LiDAR车辆检测（mAP）；KITTI困难验证集0IoU 0.7 训练集（100k） ≥ 1个点 ≥10个点0真实 75.2 80.2 GT raydrop 72.378.50ML raydrop 71.6 78.6随机raydrop 69.4 77.5 无raydrop69.2 77.40表3：Raydrop分析；车辆检测（mAP）；真实评估0IoU 0.7 训练集（100k） ≥ 1个点 ≥ 10个点0真实 75.2 80.2 真实数据对象（我们的）71.6 78.6 CAD对象 65.9 74.30表4：CAD与我们的比较；车辆检测（mAP）；真实评估0分割（mIOU）训练集整体车辆背景道路0真实10k 90.2 87.0 92.8 90.8 真实100k 96.1 95.7 97.0 95.70Sim100k 91.9 91.3 93.5 90.9 Sim100k Real10k 94.6 93.995.8 94.0 Sim100k Real100k 96.3 95.9 97.1 95.80表5：数据增强；分割；真实评估0IoU 0.7 训练集 ≥ 1个点 ≥ 10个点0真实10k 60.0 65.9 真实100k 75.2 80.20Sim 100k 71.1 78.1 真实 10k +Sim100k 73.5 79.8 真实 100k + Sim100k 77.6 82.20表6：数据增强；车辆检测；真实评估0使用Adam [ 21]进行反向传播，学习率为1e-4。感知下游任务的视图区域为车辆前进方向上80m到80m，垂直于前进方向上-40m到40m。05.2. 与现有模拟的比较0simulation system CARLA. We train perception modelswith simulation data and evaluate on KITTI. To compensatefor the domain gap due to labeling policy and sensor conﬁg-urations between KITTI and our dataset, we make the fol-lowing modiﬁcations to LiDARsim: (1) adjust sensor heightto be at KITTI vehicle height, (2) adjust azimuth resolutionto match KITTI data, and (3) utilize KITTI labeled data togenerate a KITTI dynamic object bank. Adjustments (1)and (2) are also applied to adapt CARLA under the KITTIsetting (CARLA-Default). The original CARLA LiDARsimulation uses the collision hull to render dynamic objects,resulting in simplistic and unrealistic LiDAR. To improveCARLA’s realism, we generate LiDAR data by samplingfrom the depth-image according to the Velodyne HDL-64Esetting (CARLA-Modiﬁed). The depth-image uses the 3DCAD model geometry, generating more realistic LiDAR.Table 1 shows vehicle and background segmentationevaluation on the SemanticKITTI dataset [2] using the Li-DAR segmentation network from [49]. We train on 5k ex-amples using either CARLA motion-distorted LiDAR [46],LiDARsim using scene layouts from our dataset, or Se-manticKITTI LiDAR, the oracle for our task. LiDARsim isvery close to SemanticKITTI performance and signiﬁcantlyoutperforms CARLA 5k. We also evaluate the performanceon the birds-eye-view (BEV) vehicle detection task. Specif-ically, we simulate 100k frames of LiDAR training datausing either LiDARsim or CARLA, train a BEV detector[44], and evaluate over KITTI validation set. For KITTIReal data, we use standard train/val splits and data augmen-tation techniques [44]. As shown in Table 2 (evaluated at”hard” setting), LiDARsim outperforms CARLA and hasclose performance with the real KITTI data, despite beingfrom different geographic domains.111730图8：真实LiDAR分割。左：LiDARsim训练；右：真实训练。道路，汽车，背景05.3. 消融研究0我们进行了两项消融研究，评估了真实世界资产和射线丢弃网络的使用。我们在模拟数据或真实数据上进行训练，然后在不同的LiDAR车载点阈值（点数越少越困难）下评估IoU为0.7的平均精度(mAP)。0射线丢弃：我们将我们提出的射线丢弃网络与三个基准进行比较：“无射线丢弃”，即没有射线丢弃的射线投射；将场景中返回的所有射线都包含在点云中。“GT射线丢弃”，射线投射0图9：真实LiDAR检测。左：LiDARsim训练；右：真实训练。预测，真值0仅使用真实LiDAR扫描返回的射线。这是我们射线丢弃方法的理想性能。”随机射线丢弃”随机丢弃10%的射线投射的LiDAR点，因为这是真实LiDAR和无射线丢弃LiDAR之间返回点的平均差异。如表3所示，使用“ML射线丢弃”相对于射线投射或随机射线丢弃提高了2%的AP检测性能，并接近理想的“GT射线丢弃”性能。0真实资产与CAD模型：除了评估不同的数据生成基线外，我们还评估了使用真实数据生成动态物体的效果。使用相同的LiDARsim流程，我们用140个车辆CAD模型替换了我们的动态物体库。基于点云尺寸，CAD模型的边界框标签是根据我们的库中最接近的物体的边界框生成的。如表4所示，与真实数据相比，使用CAD模型的LiDARsim存在较大差距（9%的mAP差距），而使用基于真实数据的物体的LiDARsim存在较小差距（3.6%的差距）。05.4. 结合真实数据和LiDARsim数据0我们现在将真实数据与从地面真值场景生成的LiDARsim数据相结合，以查看模拟数据在训练时是否能进一步提高性能。如表5所示，使用少量真实训练样本时，网络的性能下降。然而，借助模拟数据的帮助，即使只有约10%的真实数据，我们也能够实现与100%真实数据相似的性能，mIOU差异小于1%，凸显了LiDARsim降低注释成本的潜力。当我们拥有大规模的训练数据时，模拟数据对车辆分割的性能提供了较小的提升。表6显示了使用模拟训练数据进行目标检测的mAP。与使用10万个训练数据相比，使用模拟数据进行增强有助于进一步提高性能。05.5. 用于安全和边缘情况测试的LiDARsim0我们进行了三个实验，以展示LiDARsim用于边缘情况测试和安全评估。首先，我们评估了当LiDARsim用作仅使用真实数据训练的模型的测试协议时，LiDARsim与真实数据的一致性。然后，我们在LiDARsim上测试感知算法以识别未见过的稀有物体。最后，我们展示了111740指标 IoU 0.5 IoU 0.70在真实数据上评估（AP） 91.5 75.2在LiDARsim上评估（AP） 90.2 77.90检测一致性 94.7 86.50表7：仅在真实数据上训练的模型的模拟与真实评估性能差距（≥1个点）0LiDARsim如何使我们能够评估运动规划器在闭环环境中如何安全地操纵关键场景。0Real2Sim评估：为了证明LiDARsim可以直接用于评估仅在真实数据上训练的模型，我们在表7中报告了一个在100k真实数据上训练的检测模型在真实测试集或LiDARsim测试集上评估的结果。我们还报告了一个名为ground-truth检测一致性的新指标：κ det = | R + ∩S + | + | R − ∩ S − |0| R + ∪ R − | ，其中 R + 和 R −是在真实数据上评估模型时检测到和漏检的真实标签集合，而 S + 和 S −是在模拟数据上评估模型时检测到和漏检的标签集合。对于一组配对的真实标签和检测结果，我们理想情况下希望 κdet =1，即模型在模拟数据或真实数据上产生相同的检测结果和漏检结果。在IoU=0.5时，真实数据和LiDARsim数据中近95%的真实检测结果和漏检结果匹配。0罕见物体测试：我们现在使用LiDARsim来分析用于开放式全景分割任务的感知算法：在场景中识别已知和未知实例，以及没有实例的语义类别，如背景或道路。我们评估OSIS [40]来检测未知对象。我们利用动物和建筑构件的CAD模型放置在场景中，生成20,000个未知对象评估的LiDAR扫描。我们注意到，我们在这里使用CAD模型，因为我们希望评估OSIS检测车辆从未观察过的未知对象的能力。我们利用场景的车道图创建不同类型的场景：动物穿过道路，建筑物阻挡车道，以及街道上散落的随机物体。表8显示了仅在真实数据上训练的OSIS模型的报告的未知和全景质量（UQ/PQ）。我们在图11中的定性示例显示了OSIS在真实和LiDARsim上的性能非常接近：OSIS检测到了鹅。我们还能够识别出OSIS可以改进的情况，例如在图10中：一个穿过的犀牛被错误地分割为车辆。0安全关键测试：我们现在评估自主系统的端度性能：安全性。我们评估增强的神经运动规划器（NMP）[ 48]在处理安全关键场景时的能力。我们采用图11中描述的安全关键测试案例，并在不同城市和交通配置的地理区域

下载后可阅读完整内容，剩余1页未读，立即下载