LiDAR距离像生成模型的研究及应用

129 浏览量更新于2023-10-16 收藏 3.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1256激光雷达距离像远Ne射线降概率1.00.0全深度1×2×4×生成式距离成像用于三维LiDAR数据场景先验学习Kazuto Nakashima1Yumi Iwashita2Ryo Kurazimi11九州大学，福冈，日本2喷气推进实验室，加州理工学院，帕萨迪纳，加利福尼亚州，美国knakashima@irvs.ait.kyushu-u.ac.jpyumi. jpl.nasa.govkurazume@ait.kyushu-u.ac.jp摘要3D LiDAR传感器对于自主移动机器人的鲁棒视觉是不可或缺的。然而，部署基于LiDAR的感知算法通常由于与训练环境的主要差距而失败，例如不一致的角分辨率和丢失的现有的研究已经通过学习域间映射来解决这个问题，而可转移性受到训练配置的约束，并且训练容易受到称为射线下降的特殊有损噪声的影响。针对这一问题，提出了一种适用于数据级域转换的LiDAR距离像生成模型。受LiDAR测量基于逐点距离成像的事实的启发，我们训练了一个基于隐式图像表示的生成对抗网络以及可区分的光线下降效应。我们证明了我们的模型与基于点和基于图像的最先进的生成模型相比的保真度和多样性。我们还展示了上采样和恢复应用程序。此外，我们介绍了一个Sim2Real应用激光雷达语义分割。我们证明，我们的方法是有效的，作为一个现实的射线下降模拟器，并优于国家的最先进的方法。1. 介绍LiDAR传感器是一种基于激光的距离传感器，可以将周围的几何形状测量为3D点云。与其他深度相机和雷达相比，LiDAR传感器覆盖的视野范围更广，并且由于其基于脉冲激光的主动感测，因此对照明条件也很稳健因此，基于LiDAR的3D感知已成为自主移动机器人和车辆不可或缺的组成部分。特别是，LiDAR点云上的语义分割[33，34，46，47，49，52，29]是自主导航中最重要的任务之一，其在点级别识别对于一般点云，最新的分割方法ar决议图1. LiDAR距离成像（顶部）涉及不均匀分布的缺失点，称为射线滴。我们的方法使我们能够在连续图像表示（底部）上推断光线下降概率和底层完整场景（中间）。是基于 PointNet [33]和 PointNet++[34]，神经网络架构，旨在处理点云的无序性质。然而，它们在计算速度[49]和大规模点云的内存要求[3]方面存在限制，并且通常在减小的尺寸上执行。为了进一步提高训练和推理的效率，在激光雷达分割中采用了球面投影的方法.在这种方法中，点云被表示为双射2D网格，即所谓的范围图像（例如，参见图1）。到目前为止，许多研究[46，47，49，52，29]提出了2D卷积神经网络，可以在这种范围图像表示上执行点云分割。虽然距离图像表示提高了处理效率，但存在降低部署训练模型性能的域间隙问题。在本文中，我们讨论了两个问题有关的光线投射和光线下降。光线投射问题是从发射激光的角度配置导出的。由于硬件条件的限制，LiDAR传感器的角分辨率变化很大，这可能会给分割模型的训练带来空间偏差。光线下降问题源于我们的前科1257激光反射现象。虽然LiDAR传感器对昼夜照明变化具有鲁棒性，但是如果由于场景衍生的光谱和漫反射以及光吸收而导致反射激光强度过低，则所产生的距离图像涉及相当多的缺失点。该伪影在模拟到真实（Sim2Real）分割任务中是有问题的，因为该现象对于在模拟器中一些研究提出了LiDAR主要的适应方法来解决光线投射[23，51]和光线下降问题[47，46，52，27]。在这项工作中，我们提出了一种基于生成模型的方法，用于LiDAR域自适应。我们的方法基于生成对抗网络（GAN），以端到端的方式学习LiDAR距离图像的生成过程以及光线投射和光线下降效果[12]。学习的数据先验可以用于映射不同的域。我们的模型建立在最近提出的生成模型的两种范式之上：隐式神经表示[40，2]和有损测量模型[6，17，30]。隐式神经表示是一种连续的、可微的、由神经网络参数化的信号表示。例如，图像由基于坐标的函数表示，并且其分辨率由坐标查询确定。受此方案的启发，我们的目标是建立可编辑的光线投射过程的Li-DAR距离图像。有损测量模型是一个可逆函数，它模拟了沿数据生成的随机信号破坏。我们的目标是以无监督的方式对场景相关的光线下降进行建模。在第4.1节中，我们首先评估我们的模型，与基于点和基于图像的最新生成模型相比，生成保真度和多样性。我们的模型在大多数标准图像/点云指标中显示出最佳结果。我们还检查了LiDAR点云上基于特征的度量的有效性，其动机是自然图像领域中的事实上的标准评估[14]。然后，我们展示了我们的模型的应用程序，如事后上采样和稀疏深度观测的数据恢复。最后，在第4.2节中，我们使用我们的模型作为噪声模拟器进行Sim2Real语义分割。我们证明，我们的方法产生逼真的光线下降噪声，并优于最先进的激光雷达Sim2Real方法。概括而言，我们的贡献如下：• 我们提出了一种新的GAN激光雷达距离图像模拟光线投射和光线下降的过程。• 我们展示了我们的模型在事后上采样和数据恢复上的实用性。• 我们将我们的模型应用于Sim2Real语义分割。我们的经验表明，我们的模型产生现实的射线降噪声的模拟数据和perform-形式的国家的最先进的方法。2. 相关工作2.1. LiDAR域自适应与自然图像领域一样，Li-DAR感知任务的性能也受到训练和测试环境之间的域转移问题的影响[43]，例如不同的传感器配置，地理，天气条件和模拟。我们强调以下两个案件集中在这项工作。角度分辨率。采样角分辨率是LiDAR传感器的一个不可忽略的属性，它决定了3D点云的密度。为了缩小差距，Langer et al. [23]使用从顺序叠加的点云或网格采样的伪LiDAR距离图像。然而，合成质量可能取决于扫描的顺序密度。Yi等人。 [51]提出了基于体素的完成来弥合扫描差异，而这种方法是为基于点的感知方法而设计的。本文提出了一种基于GAN的数据先验的扫描传输，并给出了一些定性的结果。光滴噪声如果脉冲激光不能从被测物体反射，则会发生光线下降。这种现象是由复杂的物理因素引起的，例如镜面扩散、镜面扩散、光吸收和范围限制。在感知任务方面，射线降噪声是真实数据的重要属性之一[46，47，52，27]。一些研究解决了模拟光线下降噪声，使激光雷达模拟器逼真。SqueezeSeg [46]提出基于从真实数据计算然而，平均噪声不能产生对象方面的效果，因此它们可能远离实际分布。为了从LiDAR范围图像中估计射线降噪声，Zhao等人[52]训练了Cycle- GAN [53]和Manivasagam等人。[27]第二十七话：然而，这些方法将任务转换为基于交叉熵目标的二进制分类。如Manivasagam等人所述，[27]，交叉熵训练不保证估计的概率被校准。我们假设，这种近似的噪声模拟可能是次优性能的Sim2Real任务。2.2. 深度生成式建模近年来，基于深度神经网络的生成模型研究取得了很大进展特别是，生成对抗网络（GAN）[12]由于其采样质量和效率[5]而在图像领域吸引了大量关注。作为最近研究的一个例子，Karras等人。 [18]提出了ProGAN用于合成百万像素自然图像，并且生成质量在几年内得到了显著改善[20，21，19]。此外，经过良好训练的GAN可以用作生成图像先验，用于语义操作和数据恢复[13，36]。1258范围d角度ΦLiDAR场景表面）×------内隐神经表征。GAN也在隐式神经表征方面向前迈出了另一步[2，40]。隐式神经表示是一种使用基于坐标的神经网络表示连续信号的方法。典型的架构采用MLP，激光雷达测量我们的生成模型场景优先级z范围d角度Φ射线降函数）*概率=接收任意坐标点并预测值，口罩退回/丢失作为3D形状的有符号距离[31]，颜色[2，40]，返回失踪>~伯努利=2D图像和颜色/密度[38]用于体积渲染。这种隐式方案允许模型学习与分辨率无关的表示，即使使用离散数据（如图像）进行训练。CIPS [2]和INR-GAN [40]将这个想法融入图像GAN中。他们证明，这些模型可以控制分辨率，以执行空间内插和外推。本文讨论了光线投射建模的有效性。有损测量模型。训练数据集并不总是干净的，在训练GAN时可能会有问题由于GAN的目标是模仿数据集的分布为了解决这个问题，一些研究[6，17，30]在生成过程中引入了一个概率可逆函数，以便仅从噪声数据集中学习干净的信号。例如，在乘性二进制噪声，Bora等人。[6]提出了Ambi-entGAN和Li等人[24]提出了MisGAN。它们的噪声模型都是以信号无关的概率表示的，不满足LiDARKaneko和Harada [17]提出了NR-GAN，可以估计信号相关的噪声分布;然而，二进制噪声没有被覆盖。LiDAR应用尽管大多数生成模型都集中在自然图像数据集上，但一些研究[7，30]已经开始将其应用于LiDAR数据。Cac- cia等人 [7]首次提出了LiDAR数据的深层生成模型应用。他们在距离图像表示上训练了变分自动编码器（VAE）[22]。他们还报告了香草GAN的视觉结果[35]。然而，由于随机光降噪声的存在，激光雷达距离像的分布是离散的，很难用神经网络表示为连续函数。受有损测量模型概念的启发，Nakashima和Kurazhima [30]提出了DUSty将可微射线降效应纳入GAN中，以稳健地训练LiDAR距离图像。他们采用直通Gumbel-Sigmoid分布[26，16]对LiDAR噪声进行建模，以便模型将离散数据分布学习为两种模态的组合：潜在的完整深度和相应的测量不确定性。这两项研究经验性地表明了生成模型在LiDAR距离图像上的可用性相比之下，本文提高了生成质量，并对Sim2Real语义分割进行了图2.激光雷达测量原理图和我们提出的三维激光雷达数据生成模型。根据场景的具体概率假设激光投放是随机发生的.3. 方法图2描绘了LiDAR测量和我们的具有深度生成模型的公式。我们的目标是学习独立于角分辨率的LiDAR场景先验，并利用它们进行数据级域传输。为此，第3.1节首先介绍了一个无分辨率的距离图像隐式表示。在第3.2节中，我们然后提出了我们的GAN基于隐式表示和可扩展的光线下降效应。最后，第3.3节介绍了一个推理步骤，它使用我们学习的GAN作为生成场景先验。我们在补充材料中提供了实施细节。我们的代码可从https：//github.com/kazuto1011/dusty-gan-v2网站。3.1. 深度图像激光雷达范围图像。虽然点云的一般表示是一组笛卡尔坐标点（p x，p y，p z）[1，33，50]，但由于测量机制，距离成像，LiDAR点云也可以表示为双射2D网格[30，7，44，52，46，47]。假设针对H个仰角发射水平W脉冲激光的LiDAR传感器测量每个角位置的距离d然后，所有的距离值可以被分配到一个H-W角网格的球面投影，其中所得到的表示被称为距离图像。每个像素具有一组依赖于传感器的方位角和仰角Φ =（θ，θ）以及对应的距离d。因此，任意LiDAR场景（px，py，pz）可以被视为投影在2D网格上的一组球坐标（θ，θ，d）。场景作为一种功能。本文的核心思想是通过将球面角集映射到距离的函数F来表示3D场景：d=F（Φ）。如果场景可以在连续函数空间F中表示，我们可以用任意分辨率的查询来重建场景。此外，可以通过引入调节函数F的参数z来表达多个场景。为此，我们的目标是将函数d=F（Φ，z）构建为深度生成模型，其中场景由传感器不可知场景先验z实例化并由传感器特定角度集合Φ查询以生成LiDAR范围图像。1259∼∈∈∼∈ −∈∈z7“科8千克Φ7zMLP“科8B.G.5Vanilla GAN DUSty generator我们的发电机+ 有损测量模型+内隐表征图3.对比一下我们的GAN和基线GAN。vanilla GAN [7]由生成器G和BND组成，并直接学习原始范围图像xR的分布。DUSty生成器[30]将生成器空间分解为具有自调节测量模型M的范围xd和可测量性xn（射线下降概率）。我们的生成器进一步引入了隐式神经表示[40]，使得空间分辨率不由生成器固定，而是由外部查询Φ控制。3.2. 生成距离成像生成对抗网络。为了引入控制场景的潜变量z，我们构建函数F作为生成模型。我们采用了一个生成对抗网络（GAN）[12]，类似于之前的工作[30，7]。GAN通常由两个网络组成：生成器G和判别器D。在图像合成任务中，G将潜在变量z N（0，I）映射到图像xG=G（z），而D从采样的真实图像xR中得出生成的图像xG。通过最小化对抗目标，例如，以交替方式训练网络。，以下非饱和损耗[12]：LD=−Ex[logD（xR）]−Ez[log（1−D（G（z）]，（1）LG= −Ez[log D（G（z））]。（二）本文将生成元G等价于上述函数F，并将x G的结构用场景条件z和给定坐标Φ来表示。我们的GAN建立在INR-GAN [40]的基础上，这在自然图像上得到了证明。INR-GAN首先通过MLP将潜在变量z转换到解纠缠的风格空间w，并调制网络权重以合成图像。有损测量模型。LiDAR距离图像中存在大量由光线衰减引起的缺失点。在训练GAN方面，缺失点会影响深度表面的稳定性和保真度。为了解决这个问题，我们将我们的模型与DUSty [30]中提出的光线下降他们假设光线下降现象是随机的，并使用具有自适应概率的伯努利采样。作为生成器G的输出，DUSty首先假设一个完整的距离像xdRH×W和相应的射线降概率图xnRH×W。然后，根据有损测量掩码mBernoulli（xn）从完整的xd中采样最终的LiDAR测量 xG 。由于采样 m 是不可微的，因此使用直通Gumbel-Sigmoid分布[16]重新参数化m以估计梯度。注意，生成器空间xd和xn不必是离散分布，而xG可以产生由光线下降引起的离散噪声与DUSty一样，我们将每个距离值xd转换为深度的倒数，以进行进一步的稳定训练。在图3中，我们比较了vanilla GAN[7]，DUSty [30]和我们提出的模型。圆形网格的位置编码。在隐式神经表示领域[40，2]，位置编码是表示输出图像的高频细节的不可或缺的技术特别地，傅立叶特征[42]是图像域中最流行的编码方案，其中坐标Φ =（θ，θ）通过以下正弦函数进行变换：PE（θ，θ）= sin（[bθ，bθ][θ，θ]sin），（3）其中bθRD和bθRD是控制编码空间中的频率的权重向量，并且θ，θ[π，π]是由LiDAR确定的角度值在自然图像应用中，权重可以通过各种公式设置，例如2的幂[28]，高斯样本[42]和可学习参数[2，40]。在我们的例子中，应该仔细地初始化权重，以便编码保留角度输入的圆柱形结构。首先，我们为方位角和仰角输入设置输出频率的限制值。然后，我们在确定的极限内对bθ进行均匀采样，并从一组2的幂中对bθ进行次网格训练。位置编码中的采样频率在水平方向上是稀疏的。如果使用少量固定采样点对子块进行过拟合，则角度输入中的事后更改或上采样可能会这与我们根据传感器规格控制生成格式的目的不兼容。为此，我们在训练过程中通过水平随机相移来增加角度输入，并针对相应像素的数量在相反方向上对输出图像进行3.3. 领域不可知推理本节描述了使用 GAN 反演 [48]重建和补偿任意LiDAR测量GAN反演是一种推理任务，用于找到给定数据的潜在表示。GAN反演的标准方法有两个阵营：自动解码[36，21]，其优化潜在代码以匹配数据，以及训练附加编码器[32]以直接估计潜在代码。在本文中，我们采用了最新的自动解码之一的正交调谐反转（PTI）[36]。z7B.G.&;$/%1260LL××步骤1：GAN反演步骤2：半导体调谐<巴尔Φ75“科<巴尔Φ75“科图4.我们基于PTI的推理方法概述[36]。步骤1优化潜在码w，步骤2微调生成器G的权重w。副产品xn可用于Sim2Real应用。方法。本节简要介绍其步骤以及我们设计的优化目标。图4示出了我们的方法的概述。步骤1：GAN反演。作为潜在表示，我们使用前面提到的样式代码w而不是z。设x和m是一个深度图和对应的光线下降遮罩。我们首先定义以下目标来评估深度误差：由KITTI Odometry定义[11]1.所提供的数据是按角度排序的笛卡尔坐标点我们首先将有序序列分成64个子序列，每个子序列代表一个仰角。然后，我们为每个子序列子采样512个点，并将它们堆叠，形成64 ×512距离图像。基线。我们将我们的模型与基于点的生成模型的两个流行基线进行比较：r-GAN [1]和l-WGAN [1]。r-GAN是一种基于点集合表示，它由一个MLP生成器和一个PointNet [33]表示。I-WGAN首先学习PointNet-MLP自动编码器，然后用附加的MLP执行对抗训练以生成瓶颈特征。我们通过测量输入点云和记录点云之间的地球移动器LiDAR点云的大小比基于点的方法的典型基准大得多，并且EMD距离计算在训练和评估中都需要极高的计算成本为为了提高效率和公平性，我们首先通过以下方式将LiDAR点云下采样到传统的点数量2048，L记录=m（1−xd（w，Φ;）/x）1，（4）∥mˆ ∥1最远点采样（FPS）。我们还比较了两种类型的基于图像的生成模型：香草GAN [7][30]《易经》香草甘和灰尘分享其中xd（w，Φ; n）是由潜在代码w、解析查询Φ和生成器权重调节的生成的深度图Ω。目标rec测量由m中的valid点归一化的相对绝对误差。在这一步中，我们通过w*=argminwLre c计算匹配码。第二步：全调谐。利用优化后的距离，我们可以生成一个与目标距离xG相似的距离图像x G。这步骤进一步通过微调生成器权重k，同时冻结预优化的代码w，以在基本结构上执行，来最小化微小的外观差异。我们最小化同一个对象ive关于：argminrec.由于我们的掩蔽客观rec仅依赖于可测量的点，因此我们还可以应用推断来恢复部分观察到的图像。此外，我们可以通过重建模拟数据得到副积xn，它可以用来模拟射线降噪声。4. 评价4.1. 世代保真度和多样性在对生成式模型的相关研究之后，我们首先评估了生成样本的保真度和多样性数据集。我们使用KITTI原始数据集[11]，因为其他流行版本（如KITTI Odometry [11]）包括通过自我运动校正[44]丢失的伪影。该数据集提供了由VelodyneHDL-64 E LiDAR测量的22条扫描轨迹，其中每条扫描垂直方向有64对于未来的衍生工作，我们使用标准分割骨干设计基于4 4转置卷积，而DUSty采用第3.2节中解释的光线下降测量模型。这些模型无法更改训练配置的输出分辨率。基于点的度量。在基于点的生成模型[1，50，30]的相关工作之后，我们测量了Yang等人[50]定义的参考和生成点云集之间的四种类型的分布相似性：用于保真度的 Jensen-Shannon散度（JSD），用于多样性的覆盖（COV），用于保真度的最小匹配距离（MMD），以及用于两者的1-最近邻精度（1-NNA）保真度和多样性评估。为了计算COV、MMD和1- NNA的点云之间的距离，我们使用EMD。基于图像的度量。此外，我们计算了切片Wasserstein距离（SWD）[18]来测量基于块的图像相似性，以评估逆深度图的质量。SWD是基于从三个层次的图像金字塔中提取的77块来计算的。对于所有指标，我们报告了使用不同种子的三次运行的平均得分。基于数据的度量。由于样本到样本距离计算（如EMD）的可扩展性有限，合成点云的现有评估指标[50]对于大量点是不切实际的中岛1我们使用18，329次扫描进行训练（序列3不可用），4，071次扫描用于“城市”，“道路”和“住宅”类别的验证。我们通过剩余的18，755次扫描定义了一个测试集，因为对应关系不是公开的。1261×× ×1007550250Fréchet距离（FPD）预训练E随机DC一B0.00 0.25 0.50 0.751.00干扰系数× 102平方MMD64200.00 0.25 0.50 0.75 1.00干扰系数× 102表1.通过PointNet特征的分布相似性进行定量比较：FPD和MMD2。2048点64×512（满）方法FPD↓MMD2↓ FPD↓MMD2↓R-GAN [1] 787.45 45.02表2.通过分布相似性进行定量比较图5. 对LiDAR点云的特征表示进行Fre' chet距离（FPD[39]）和平方MMD [4]的健全性检查我们将系数为λ的加性高斯噪声应用于KITTI点云（参见所有点云都由PointNet [33]使用预先训练或随机权重进行编码。al. [30]通过在评估中对真实和生成的点云进行子采样来解决LiDAR点云的问题。作为替代度量，Shuetal.[39]提出了Fre'chet点云距离（FPD）作为FID [14]的类比，FID是图像领域事实上的标准度量。FPD首先通过在ShapeNet[8]上预先训练的PointNet将任意数量的点映射到低维特征空间，然后测量特征空间中真实数据分布和生成数据分布之间的Fre'chet距离与上述点云度量不同，即使是LiDAR数据等大规模点云也可以在不进行下采样的情况下进行计算。在Heusel等人 [14]评估了FID在各种图像干扰下的灵敏度之后，我们首先确认了现成PointNet在LiDAR点云上的有效性。我们将系数为λ的加性高斯噪声应用于KITTI训练集，并针对干净的原始训练集计算FPD。在PointNet特征上，我们还计算平方最大均值差异（平方MMD）[4]，它也用于图像域中作为KID。图5示出了随着扰动的强度增加，两个度量都反映了不同。在各种扰动作用下的进一步结果在我们的补充材料中提供。定量比较。表1报告了FPD和平方MMD。我们可以看到，我们的方法优于基于点的基线和基于图像的基线，具有较大的利润率。表2报告了基于图像的方法的SWD。即使在这种2D水平评估中，我们的方法也表现出最好的性能。最后，表3报告了JSD、COV、MMD和1-NNA。除JSD和MMD外，本文方法的得分最高.至于I-WGAN在MMD中表现最好，我们认为这是由于它在自动编码器的训练中直接优化EMD的我们在补充材料中提供了所有方法的生成样本。垂直深度图：切片Wasserstein距离（SWD ↓）。方法16× 12832× 25664× 512是说香草GAN [7]0.3970.3710.7460.505DUSTY [30]0.3530.3530.7680.491我们0.3780.2780.6110.422训练集0.2570.2070.7650.410表3.通过点云的分布相似性进行定量比较：JSD ×102、COV、MMD ×102和1-NNA。方法r-GAN [1]JSD↓21.73COV↑0.013MMD↓17.511-NNA↓1.000L-WGAN [1]4.910.3248.620.896香草GAN [7]10.310.29012.340.986DUSTY [30]3.000.3759.410.898我们3.040.3889.120.892训练集2.800.3620.7650.890Tar getx1×2×4×图6. LiDAR数据上采样。从左到右，目标距离图像xd和我们的重建结果xd在1 、2得双曲正弦值.4项决议。底部行显示了相应点云的鸟瞰64行中原有8行10%积分图7. LiDAR数据恢复。从上到下，目标范围图像xxx，我们的重建结果xd，以及渲染的光线下降xG。应用. 图图6和图7分别示出了上采样和去采样结果。两者都是通过3.3节中介绍的自动解码方法获得的。从合理的结果来看，我们认为我们的模型成功地学习了LiDAR距离图像的场景先验。一BCDEPret跑下雨DomEL-WGAN [1]129.3510.65––D香草GAN [7]3629.36671.143648.68675.24DUSTY [30]232.9039.62241.3242.66ABC我们96.113.6693.853.841262表4.Sim2Real语义分割结果的定量比较我们在GTA-LIDAR [47]（模拟域）上训练SqueezeSegV 2 [47]，然后在KITTI-正面[47]（真实域）上评估精度（%，↑），召回率（%，↑）和IoU（%，↑■汽车■行人ConfigTraining域名+ 光线下降先验精度召回IOU精度召回IOUMiou一仿真54.21.11.127.72.52.41.7B仿真+ 全局频率66.277.055.229.961.025.140.2C仿真+ 像素频率[47]72.975.559.026.162.022.540.7D仿真+ 自动解码（带DUSty）72.076.859.134.559.628.043.5E仿真+ 自动解码w/ours74.887.067.328.867.125.246.3F房78.786.570.166.518.016.543.3输入深度地面实况Config-A Config-C [47] Config-E（我们的）0米20米40米60米80米背景车行人图8. Sim2Real语义分割结果的定性比较。我们可以看到，我们的（配置E）减少了汽车区域的假阴性，如表4中的召回改进所支持的。4.2. Sim2Real语义分割基于模型的LiDAR模拟器[46，10]可以产生大量的注释训练数据，而由于忽略或近似了射线降噪声，因此与真实域存在外观差距。一些研究通过利用射线下降频率[46]或学习推理网络[52，27]来解决这个问题。如第3.3节中所述，我们的自动解码过程还可以通过重建g iv en范围图像xn中的有效点来生成光线下降概率图x n。这就要求我们在模拟的距离像上再现伪射线降噪声。在本节中，我们展示了我们的方法在Sim2Real语义分割上的有效性。数据集。我们遵循Wu等人的实验方案。[47]其中分割模型在GTA-LiDAR数据集[47]上训练，并在KITTI数据集[11]的90个前额叶子集[47]上评估，下文称为KITTI-额叶。GTA-LiDAR由120 k游戏中的LiDAR范围图像组成，并为汽车和行人类别标注了像素级标签。KITTI-正面由从KITTI二次采样的10 k幅实距图像组成，KITTI也被标记为相同的类。KITTI-frontal包含8，057张用于训练的图像和2，791张用于测试的图像。我们的方法。在训练分割模型之前，我们对GTA-LiDAR的每个样本执行自动解码，并获得相应的光线下降概率图 xn。在训练阶段，我们从xn中采样Bernoulli噪声，并动态渲染光线下降噪声。基线。我们的实验由两部分组成。第一个实验比较了具有不同射线下降先验的五种方法，如表4所列配置-A是没有渲染光线下降噪声的在KITTI-B中，我们从KITTI-frontal中的所有像素计算的全局频率中采样Bernoulli噪声。配置-C是Wu等人 [47]使用的方法，其中噪声从KITTI正面的像素频率采样。最后，GAN-D和GAN-E是基于GAN的自动解码方法。Config-D使用DUSty [30]，而Config-E使用我们提出的GAN。这两个模型都在第4.1节的KITTI上进行了预训练。为了进行比较，我们还提供了在KITTI-正面（KITTI-F）上训练的oracle结果。我们使用Squeeze-SegV 2 [47]用于语义分割的架构。为了证明噪声渲染的独特效果，我们没有使用在Squeeze-SegV 2中使用的任何其他自适应技术，例如学习强度渲染、测地线相关对齐和渐进域校准。在第二个实验中，我们将我们的模型（EST-E）与最先进的域自适应方法进行比较：[25]，[26]，[27]，[28]，[29]ePointDA [52]. ePointDA 是一种基于 CycleGAN 的方法，与我们密切相关的是在距离图像上模拟射线降噪声。结果表4报告了每个类别的交叉-愈合（IoU）和平均评分（mIoU）。图8提供了无噪声的AZ-A、AZ-C [47]和我们的AZ-E的视觉比较尽管SqueezeSegV2已经被...1263↑ ↑↑表5.Sim2Real性能与最先进的域自适应（DA）方法的比较在之前的工作之后，我们报告了每个类的精确度（%，），召回率（%，）和IoU（%，）。[25]，CORAL [41]，HoMM [9]，ADDA [45]和CyCADA [15]的评分来自Zhao等人的报告。[52]。DA†输入模态■ 车■ 行人方法DF公司简介精度召回IOU精度召回IOUMiou[47]第四十七话✓✓✓ ✓ ✓✓––57.4––23.540.5DAN [25]✓✓56.376.447.820.868.919.033.4珊瑚[41]✓✓56.582.150.226.050.320.735.5[9]第九话✓✓59.485.253.926.266.823.238.6ADDA [45]✓✓56.783.550.724.758.521.035.9CyCADA [15]✓ ✓ ✓40.972.135.317.852.415.325.3ePointDA [52]§✓ ✓ ✓73.481.963.429.456.023.943.7[52]第五十二话✓✓✓75.284.766.228.765.224.845.5我们的（英）§✓✓✓74.887.067.328.867.125.246.3域适配（DA）的类别：D：数据级DA和/或F：特征级DA。C：笛卡尔坐标，R：深度，I：估计强度[47]，M：指示测量点或缺失点的二进制掩码§相同的模型架构（SqueezeSegV2 [47]），但不同的DA方法和输入模态。Tar getxxxdxGxGTar getxxG答：模拟距离图像[47]■ 汽车/行人标签B：全球频率丙：像素频率[46]D：带DUSty的自动解码[30] E：自动解码w/oursKITTI-正面GTA-LiDAR（实域）（模拟域）图9.自动解码的例子，我们的方法。我们展示了ta r getsx，中间输出xd，以及最终输出xG。签名以降低光线下降敏感度，性能极低，没有噪声渲染（ARM-A）。令人惊讶的是，即使是使用全局频率（B-B）的简单渲染也提高了所有指标，并且通过B-C[46]进行的空间扩展带来了微妙的改进。基于GAN的方法（GAN-D和GAN-E）进一步改善了结果。特别是，我们的模型（EQ-E）显示了最好的mIoU，并超过了实域（EQ-F）的结果。图9示出了自动解码的示例，而图10示出了自动解码的示例。10比较渲染的噪音。我们可以看到，我们的方法成功-完全模拟实例级的光线下降，如车身和自我车辆阴影。相比之下，通过全局频率和逐像素频率的结果是近似的。最后，表5将我们的结果（配置- E）与最先进的域自适应方法进行了比较。尽管除了渲染噪声之外没有应用任何域自适应技术，但我们的模型显示了最好的IoU。5. 结论在本文中，我们介绍了一种新的方法，学习数据先验的三维激光雷达数据领域自适应应用。我们的核心理念是将激光雷达0米20米40米60米80米图10. GTA-LiDAR上噪声渲染方法的定性比较[47]。通过基于坐标的生成模型学习距离图像，并通过伪测量模型学习干净的数据空间。我们基于最先进的GAN设计了我们的模型，并在LiDAR领域证明了其有效性首先，我们评估了采样数据的生成保真度和多样性。我们的模型显示出优于基于图像和基于点的基线的结果。我们还使用我们学习的ray-drop先验进行了Sim 2Real语义分割。我们的实例级噪声模拟带来了显着的改进，定性和定量和优于国家的最先进的方法。结果表明，渲染光线下降噪声是重要的，以减轻真实和模拟域之间的差距。我们认为我们的传感器不可知的场景表示具有跨数据集任务的潜力。未来的工作包括不同LiDAR之间的域适应和混合可访问的数据集以进行进一步的训练。确认这项工作得到了JSPS研究员资助金（资助号：JP 19J12159）、JSPS KAKENHI资助金（资助号：JP 20H00230）和 JST [Moonshot R D] [资助号： JPMJMS2032]的部分支持。1264引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。在国际机器学习会议（ICML）的会议记录中，第40- 49页[2] Ivan Anokhin 、 Kirill Demochkin 、 Taras Khakhulin 、Gleb Sterkin 、 Victor Lempitsky 和 Denis Korzhenkov 。图像生成器与条件独立的像素合成。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR）中，第14278[3] J. Behley，M. Garbade，A. Milioto，J. Quenzel，S.本克C. Stachniss和J.胆语义：用于LiDAR序列语义场景理解的数据集。IEEE/CVF计算机视觉国际会议（ICCV），2019年。[4] 我知道你在想什么。萨瑟兰，迈克尔·阿贝尔，阿瑟·格雷顿。揭秘MMD GANs。在2018年国际学习代表会议（ICLR）的开幕式上[5] Sam Bond-Taylor，Adam Leach，Yang Long，and ChrisG.威尔科克斯深度生成建模：vae、gans、标准化流量、基于能量和自回归模型的比较回顾。 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），44（11）：7327-7347，2022.[6] Ashish Bora ， Eric Price ， and Alexandros G Dimakis.Ambi-entGAN：从有损测量生成模型。在2018年国际学习表征会议（ICLR）的会议记录中[7] 卢卡斯·卡夏，赫克·范霍夫，亚伦·库维尔，和乔埃尔·皮诺。激光雷达数据的深层生成建模。在IEEE/RSJ智能机器人和系统国际会议（IROS）上，第5034-5040页，2019年[8] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的3D模型存储库。技术报告，2015年。[9] Chao Chen，Zhihang Fu，Zhihong Chen，Sheng Jin，Zhaowei Cheng，Xinyu Jin，and Xian-Sheng Hua.高阶矩匹配无监督域自适应.在AAAI人工智能会议论文集，第34卷，第3422-3429页[10] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在机器人学习年会（CoRL）的会议记录中，第1-16页[11] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. 视觉与机器人技术的结合：KITTI数据集。国际机器人研究杂志（IJRR），32（11）：1231[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。法律程序的 Advances in Neural Information Processing Sy

下载后可阅读完整内容，剩余1页未读，立即下载