激光雷达数据压缩中的距离像深度三角编码方法

16 浏览量更新于2023-10-25 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17212RIDDLE：基于距离像深度三角编码的激光雷达数据压缩Xuanyu Zhou周轩宇QiYin Zhou Dragomir AnguelovWaymo LLC摘要激光雷达是广泛用于自动驾驶和增强现实的深度测量传感器。然而，激光雷达产生的大量数据可能导致数据存储和传输的虽然激光雷达数据可以表示为两种可互换的表示：3D点云和范围图像，但大多数以前的工作都集中在压缩通用3D点云上。在这项工作中，我们表明，直接压缩的距离图像可以杠杆年龄的激光雷达扫描模式，压缩未投影的点云相比。提出了一种基于数据驱动的深度图像压缩算法RID-DLE（RangeImage Deep DeLta Encoding）.其核心是一个深度模型，该模型基于当前和过去扫描的上下文激光拍摄（表示为球坐标和时间的4D点云预测和原始值之间的增量，然后可以通过熵编码压缩在 Waymo OpenDataset和KITTI上进行了评估，与广泛使用的点云和范围图像压缩算法以及最近的深度方法相比，我们的方法在压缩率（相同失真下）方面有显着提高1. 介绍激光雷达（或LiDAR，光检测和测距的缩写）传感器通常用于需要3D场景理解的应用，例如自动驾驶和增强现实。然而，随着激光雷达分辨率的不断提高，存储和传输大量的连续激光雷达数据成为一个挑战。有一个强烈的需要，开发有效的算法，激光雷达数据压缩。虽然激光雷达扫描的测量结果通常用作3D点云，但原始激光雷达数据可以表示为更结构化的格式：距离图像，其中每个像素对应于激光发射，每行表示来自同一激光器的发射，每列表示在特定方位旋转角的发射。鉴于激光雷达扫描机制平等贡献通过将距离图像与其对应的点云（激光器的方向）和传感器姿态（在每次拍摄的时间戳处的全局坐标中的6D姿态）进行比较，可以互换地并且有损地转换距离图像及其对应的点云。通过在范围图像中组织点，而不是存储点的三维坐标，我们可以只存储一维范围（大约3倍的存储量）。鉴于此观察结果，与之前专注于压缩3D点云的工作[9，16，23]相比，我们建议直接压缩距离图像以利用激光雷达扫描模式。由于距离图像是图像格式，因此我们自然可以将现有的压缩方法应用于光学图像（RGB或灰度）;然而，这些方法有其局限性。例如，PNG格式通常用于压缩室内数据集中的深度图像[4，11，25]，其中深度值被归一化和量化为16位整数和压缩损失。虽然PNG也适用于压缩激光雷达距离图像，但它不是数据驱动的，也不使用时间信息。也有人尝试使用自动编码器网络[31]通过存储瓶颈层输出来有损压缩范围图像。然而，由于范围值通常具有比RGB颜色更宽的分布，因此学习准确的重建是具有挑战性的，特别是在对象边界处。在这项工作中，我们提出了RIDDLE（范围图像深度DeLta编码），这是一种数据驱动的算法，用于使用预测神经网络压缩范围图像（图1）。2）。我们的方法的灵感来自于PNG图像压缩中delta编码的使用然而，我们不是简单地计算附近像素之间的差异，而是采用深度模型来从上下文像素预测像素值。深度模型采用解码的范围图像的局部补丁，并以光栅扫描顺序预测下一个像素的属性（与顺序图像解码器PixelCNN[33]类似的过程）。然后，我们可以对预测值和原始值之间的残差进行熵编码，以在选定的量化率下实现无损压缩。在该方案中，预测越准确，残差的熵越小-我们模型设计的独特之处在于，17213∈∈局部图像块作为球面坐标中的点云通过使用时间戳通道将3D点进一步提升到4D，我们可以统一表示来自当前和历史扫描的上下文像素/点的方式。由于我们的模型直接接受点云，因此既不需要插值（到图像网格）也不需要图像裁剪（来自历史帧的投影点可能跨越不同的图像区域）。另一方面，至于模型输出公式，而不是直接回归像素值（这通常是多模态的），我们将输入补丁中的每个像素视为锚点，并预测置信度得分以及每个锚点的残差值在大规模Waymo开放数据集（WOD）[ 26 ]上进行评估，我们表明，与MPEG标准压缩方法G-PCC [ 14 ]相比，我们的方法在相同失真（使用点对点倒角距离测量）的情况下将比特率降低了65%以上，或者在相同比特率下降低了85%以上的失真，同时也显著优于Draco [ 1 ]等其他基线。PNG的。在KITTI数据集[13]上，我们与现有技术的深度压缩方法（使用八叉树）进行了比较，并表明我们的方法具有明显的优势，这要归功于它使用了范围图像表示和准确的预测模型。我们还评估了压缩对下游感知任务（如3D物体检测）的影响，并提供了广泛的消融研究来验证我们的设计选择。2. 相关工作点云压缩随着3D应用的兴起，近年来出现了越来越多的点云压缩算法。其中一种方法使用八叉树来表示和压缩量化点云 [10 ， 12 ， 24] 。运动图像专家组（MPEG）发布了一个相关的点云压缩（PCC）标准，称为基于几何的PCC（G-PCC）[14]，使用八叉树结构和各种方法来预测下一级内容。最近，Octsqueeze[16]被提出使用神经网络作为条件熵模型来估计八叉树占用符号，并且MuS-CLE [9]通过包括来自先前帧的时间先验来扩展它。VoxelContextNet [23]进一步利用体素上下文进行八叉树结构预测。这些基于神经网络的方法一致地显示出对使用手工制作的熵模型的G-PCC的改进。虽然基于八叉树的方法可以灵活地对任意点云进行建模（来自激光雷达传感器或多视图重建），但它们没有利用激光雷达距离图像中的点由于激光雷达点云可表示为距离图像，因此基于图像的压缩方法可适用于压缩。例如，[3，7，15]应用传统的图像压缩方法，如JPEG，PNG和TIFF来压缩范围图像。距离图像序列可视为视频，基于视频的压缩方法（如H.264）可用于压缩激光雷达序列[20]。MPEG还提出了经由HEVC视频编码压缩动态点云的PCC（V-PCC）标准[14]。我们的工作扩展了它们，以利用深度模型和delta编码来压缩范围图像。自动编码器已被用来实现有损压缩的点云。[34，35]提出了训练编码器-解码器点云重构网络并将瓶颈层熵编码为压缩数据。同样地，[31]训练了一个自动编码器来重建范围图像并压缩瓶颈向量。虽然这些方法可以实现高压缩率，但是重建的点云可能具有强伪影，特别是在对象边界处，导致有损压缩方案中的无限误差学习图像和视频压缩图像和视频压缩是经过充分研究的领域，有许多标准（例如：PNG、JPEG、TIFF用于图像，H.264和HEVC用于视频）。其中，PNG与我们的工作高度相关，因为它使用delta编码进行无损图像压缩。随着用于图像理解的深度卷积神经网络的普及，基于深度模型的图像和视频压缩也得到了广泛的研究[5，6，18，19，29，30]。他们中的许多人利用编码器-解码器神经网络（例如，变分自动编码器[5]）进行压缩（将图像编码为潜在向量）和解压缩（从向量解码/生成图像）。对于解码架构，PixelCNN [21]和PixelRNN [33]等序列模型启发了我们的预测模型设计。3. 问题公式化对于大多数激光雷达传感器，一次扫描可以互换地表示为点云PRN×C或距离图像IRH×W×C，其中N是点的数量，H和W是距离图像的高度和宽度（H是激光雷达中激光束的数量，W是每帧激光的发射次数），C是每个点的特征尺寸。距离图像中的每个有效像素表示对应于点云中的一个点的激光照射。通道包括范围值和其他属性，如反射强度。点云和距离图像之间的转换规则取决于激光扫描机制（激光射击方位角和仰角）以及传感器姿态（每次激光射击时激光传感器的6D姿态），如图所示。1.一、具体地，在距离图像I中，给定像素位置（i，j）（其映射到特定激光发射角度）及其17214|∈原始距离像T1T2T3传感器轨迹比特流图1. 激光射击的插图。左：一个单一的激光射击。右图：激光拍摄的时间（鸟瞰图）。我们展示了四个连续的激光射击（具有δ方位角ω），其测量从（移动）传感器到对象的距离要将距离值转换为点云，我们需要知道每次拍摄的距离、距离值，我们得到激光测量值（r，θ，α），其中r是距离值，θ（方位角或偏航角）和α（仰角或俯仰角）是相对于激光雷达传感器坐标的发射角测量值可以通过以下方式转换为传感器坐标中的点p：p=（x，y，z）=（rcosαcosθ，rcosαsinθ，rsinα）（1）在每次激光发射时，传感器位姿[R t]（在全局坐标中的旋转和平移）可以是不同（图1）。要将这些快照聚合为点云，我们需要将这些点转换为共享的全局坐标系统得到点集P ={R i p T+ t i}，i = 1，.，N图2. 用于激光雷达距离像压缩的深度增量编码流水线。给定一幅激光雷达距离图像，我们首先对属性值进行量化，然后对量化后的距离图像进行预测模型的推理，得到残差。最后，我们使用熵编码器将残差压缩到比特流中。定位），我们也不需要存储传感器姿态。只有范围图像需要被压缩。4. 深度图像深度增量编码我们首先在第二节中描述我们的整体压缩管道。4.1，然后深入研究我们的预测模型的设计。4.2，最后描述我们如何熵编码的残差在第4.2节。四点三。4.1. 产品线概述如图2、压缩管道的输入首先，我们以一定的量化精度对距离图像进行量化（这允许我们将增量存储为离散符号）。接下来，哪里我i是扫描/测距图像中激光发射的索引。pipeline是deep delta encoding。我们训练一个深度模型然而，给定扫描的点云P（在全局坐标中），为了将其转换为距离图像，我们首先需要将每个点转换为对应于其拍摄时间的传感器坐标然后，我们可以很容易地得到（r，θ，α）的逆过程方程。1，然后映射回行和列索引。对于我们的激光雷达距离图像压缩，我们首先通过将距离图像I的像素值四舍五入到预定的量化精度来对距离图像I进行然后，我们的目标是将量化的距离图像I'压缩到比特流b [0，1]n（n尽可能小），稍后可以将其解压缩为精确的量化距离图像I'。相对于原始距离图像，它是有损的，但对于量化的距离图像是无损的。请注意，对于校准的激光雷达，例如Waymo OpenDataset [26]中使用的激光雷达，距离图像中的每个像素对应于同一激光雷达的固定拍摄角度（θ，α），因此不需要为压缩1存储角度。此外，由于传感器姿态通常与距离图像分开存储，并且与其他模块（例如，1对于WOD中使用的主要激光雷达，像素仰角由激光束倾角（64个数字）确定，方位角可以基于均匀的方位角旋转计算。对于其他激光雷达，如Velodyne HDL-64，方位角旋转角度是不均匀的，需要存储（每列一个数字，成本仅为100美元）。1Kb per frame）[32].以光栅扫描顺序预测下一个像素值。然后，我们保存预测（量化）和原始（量化）像素值之间的增量，而不是保存原始像素值。由于增量比原始像素值更小且分布更集中，因此可以更有效地压缩它们。在最后一步，增量（或残差图）被熵编码为压缩比特流。4.2. 深度增量编码常用的delta编码采用线性预测模型来估计像素值。在其最简单的形式中，为了预测第i行和第j列处的像素Ii，j，其左侧像素Ii，j-1被用作预测。也可以使用左、上和附近像素的其他线性滤波器。预测值和原始像素值之间的增量被存储以进行压缩。在我们的工作中，我们提出训练一个深度神经网络来预测像素值，并证明它可以在预测精度和压缩率方面实现显着提高接下来，我们首先以帧内预测格式介绍我们的模型（仅使用来自当前帧/扫描的信息进行预测），然后描述我们如何扩展它以从历史扫描中获取时间输入有关模型架构、损失和训练过程的更多详细信息，请参见补充资料ZYx y z对象利达尔河X量化距离像残差图量化深度增量编码熵编码对象T417215×−|联系我们−×−形式上，网络对以k之前的量化的pix el值为条件的第k个像素值（按光栅扫描顺序）的条件概率进行建模：p（Ik;Θ）=p（IkIk′1、…I1′ ;Θ），其中Θ是网络权重，I'是量化的范围图像，并且I是未量化的原始范围图像。经验上，如图所示。3、不使用整个过去的上下文（例如，使用RNN模型），我们可以使用形状为h w的局部图像块作为上下文来预测块的右下角像素，类似于顺序图像解码器PixelCNN的想法[21]。虽然我们网络的输入是一个图像补丁，但它与典型的RGB补丁有很大的不同。由于激光发射角的非均匀分布，距离像像素之间的关系依赖于光斑的位置，甚至依赖于特定激光雷达的标定当我们将来自历史扫描的点重新投影到当前镜头的坐标时，这在帧间预测中甚至更加突出。因此，我们用两个额外的通道来增强距离图像：相对于要预测的像素的角度的Δ方位角和Δ仰角，这将2D像素提升到3D球面坐标。此外，由于范围预测是一个几何估计问题，我们发现，根据经验，使用PointNet [22]等3D深度学习模型与使用2D卷积网络相比，可以实现更如图3、给定激光雷达校准数据，我们首先将距离图像块转换为最小点云（最大hw1点）。该方法不是直接对像素范围值进行回归，而是直接对像素范围值进行回归，因为像素范围值受属性的多峰分布（特别是多峰分布）所引起的不确定性的影响在对象边界上），我们将预测公式化为基于锚的分类和锚残差回归问题，其中范围图像块中的有效像素是锚。深度网络预测哪个像素在值上最接近右下角像素，并回归一个残差（这里是重载词;它不同于增量编码中的残差图）。时间模型时间模型通过利用来自当前扫描和过去扫描两者的上下文来扩展帧内预测模型。点云表示（与2D像素表示相比）使我们能够统一过去和当前扫描的输入，因为我们可以在4D（球面加时间）坐标中表示所有激光发射。Giv en当前扫描（量化）范围图像IT′ 和IT′1，并将其与当前帧图像补丁连接。然而，这种方法没有考虑激光雷达传感器的自我运动随着激光雷达随时间的推移而移动，具有相同行和列的距离图像块可以对应于非常不同的物理空间。为了将传感器姿态考虑在内，我们应该使用全局坐标中的3D点来查询邻居，而不是使用行和列索引来查询最后一帧的像素（图1）。（3）第三章。然而，由于我们不知道像素（i，j）的真实范围值，因此我们必须通过使用预测范围（例如，使用左像素范围或来自帧内模型的预测值）。给定像素（i，j）3 .第三章。然后给定全局坐标中最后一帧的点，我们可以直接在3D空间中查询邻居（使用KD树来加速查询）。然后，可以将来自最后帧的那些相邻点投影到激光发射（i，j）2这相当于假设来自最后一帧的点是静态的，并且我们在激光发射时（i，j）在传感器位置处重新扫描场景。为了区分上一帧和当前帧的点，我们用额外的时间通道来增加点（1表示上一帧，0表示当前帧）。注意，来自最后帧的重新投影的点不直接对应于当前帧范围图像的行和列。将这样的输入视为点云是方便的，因为我们不需要任何插值来将点转换为图像网格或任何预定义的邻域大小来进行图像裁剪。推理。在推理时（用于压缩），我们从范围图像的左上角开始预测pix elI1' 或I1′，1，并存储残差。该过程以光栅扫描顺序继续，以预测像素。el1，2，.， I1，W，I2，1，...，Ii，j，. I H，W. 大小为H W的残差图（预测值与量化值之间的增量）将由熵编码器压缩。在解压缩时，我们以相同的光栅扫描顺序运行预测模型，它将输入作为已重建的像素{I1′，.，Ik′−1}，预测ne xt个pixel值Ik，然后从sav ed残差重构pix el为Ik′ =Ik +δk，其中δk是存储的pix elk =（i−1）W +j的增量。这个过程可以通过divide来实现过去扫描距离图像IT′假设我们想预测当前扫描中像素（i，j）的范围值（光栅扫描顺序中的第k个一种简单的基线方法，使用时态数据是在同一个邻域中，将输入范围图像分成块并运行推理2严格地说，甚至来自当前帧的像素/点也需要在拍摄时（i，j）重新投影到传感器坐标。我们在帧内模型中有这种重投影，但影响很小，因为IT′ （按照像素行和列）传感器在几个像素之间移动很小。17216−·iii我--J210∥ −∥Σ∥ −∥在每个区块中并行（在补充资料中讨论）。4.3. 熵编码在预测增量编码之后，我们得到距离图像的残差图/阵列。熵编码器用于利用残差图中的稀疏模式来压缩残差图。给定一个准确的预测模型，大多数残差将为零。我们采用两种方法对残差进行熵编码。在实践中，我们根据量化率和预测器选择具有最高压缩率的熵编码器。第一种方法是使用稀疏表示来表示残差，其中非零残差的值及其在数组中的索引，然后可以对数组进行算术编码以进一步减小其大小。第二种方法是使用游程编码来表示残差，当残差不是非常稀疏时，即，当量化步长较小时。在得到游程表示后，我们使用LZMA压缩器进一步减小其尺寸。5. 实验在本节中，我们首先介绍第二节中的数据集和指标。第5.1条然后，我们报告压缩结果与强基线和现有技术的方法相比，在第二节。5.2定量和定性。我们进一步评估了压缩数据对下游感知任务（车辆和行人的3D检测）的影响五点三。最后，我们提供了广泛的分析实验，以验证我们的设计选择。5.45.1. 数据集和指标Waymo开放数据集（WOD）[26]WOD是我们实验的主要数据集，因为它提供了丰富的激光雷达校准数据和完整的传感器姿态。WOD总共包括1,150个序列，其中798个用于训练，202个用于验证。每个序列持续约20秒，采样频率为10 Hz。使用64光束激光雷达，提供64行和2，650列的距离图像，并提供激光雷达校准元数据（光束倾斜角）。范围通道被裁剪为75米，每个原始范围值默认存储为32位浮点数。我们使用训练集来训练我们的深度模型，并在验证集上进行评估在我们的实验中只使用了第一次返回的距离图像。SemanticKITTI [8]我们还评估了我们在SemanticKITTI上的方法（其用语义标签增强了KITTI [13]），以与现有技术方法OctSqueeze [16]和MuSCLE [9]进行比较（因为它们不发布代码，所以我们不能在WOD上与它们进行比较我们直接将 WOD 训练模型应用于SemanticKITTI测试分割（序列11-21）。然而，由于KITTI只发布了点云数据，而没有发布原始距离图像和传感器姿态，因此我们必须参考KITTI使用的Velodyne激光雷达[2]的手册，将点云转换为球面坐标，以获得具有64行和2，088列的伪对于我们的方法，我们压缩伪距离图像，并且不额外存储像素的方位角和仰角，因为它们在实际Velodyne距离图像中的存储是可以忽略的（仰角是已知的，方位角可以压缩到每帧小于1Kb[32]）。在之前的工作[9，14，16]之后，我们使用两个几何度量来评估压缩点云数据的重建质量：点到点Cham- fer距离和点到平面峰值信噪比（PSNR）。我们将这些指标报告为比特率的函数，即，存储一个激光雷达点的平均位数。点到点倒角距离CDsym测量两个点云之间的平均点距离（越小越好）。For a given point cloud P={pi}i=1，. N和重建的点云P为{pj}j =1，.男：CD（P，P）=1minpp（2）|P|IjCDsym（P，P）=max{ CD（P，P）， CD（P，P）}（3）第二个指标，峰值信噪比（PSNR）[28]（越大越好），测量点云r的“分辨率”与原始点云P和重建点云P之间的平均点到平面误差之间的比率PSNR（P，P<0）=10logr最大MSE（P，P），MSE（P，P）（四）其中MSE（P，P）=1（（pp）n）2是点-|P|我到平面的距离， pi 是 P 中距离 pi 最近的点，r=maxpi∈PminjipiPj2是原始点云的固有分辨率。我们使用Open3D [ 36 ]估计正常的n i，k = 12，k最近邻。5.2. 压缩结果在本节中，我们将我们的方法与竞争性基线以及现有技术激光雷达数据压缩方法进行比较。我们专注于压缩范围通道或点的3D坐标，因为它是其他属性（强度，伸长率）中研究最多的属性，并且比较中的一些方法不支持压缩其他属性。有关压缩其他通道的更多结果，请参见补充材料。我们调整距离图像的量化精度，以实现不同的压缩率（每点的比特数），我们的方法。217217查询点j-2j-1 j重投影到球坐标…激光雷达定标I-2i-1深度预测模型我46.146.3…46.247.20…46.246.346.5……………×帧T处的量化距离图像帧T-1处的解码点云距离图像补丁h xw帧内点（高x宽-1）x 3帧内和时间点（h x w-1 +m）x 4锚点分类与回归图3. 深层预测模型。给定来自帧T的具有量化属性值（例如，范围），我们将像素提升到具有来自激光雷达校准的方位角和仰角的球面坐标为了利用来自过去帧T-1的上下文点，生成查询点以找到帧T-1处的点之间的邻居然后将这些相邻点投影到要预测的像素的球面我们的预测器采用帧内和时间上下文点的联合，并使用锚分类和回归（每个输入点作为锚）预测像素（i，j）基线：G-PCC[14]是MPEG提出的一种点云压缩方法，使用八叉树。Draco[1]是Google提出的基于Kdtree的点云压缩算法。我们还与两种现有技术的基于深度模型的方法3进行比较：OctSqueeze [16]是一种基于八叉树的方法，其使用神经网络来预测八叉树的下一级符号;MuSCLE [9]通过利用多扫描（节奏）数据进行八叉树预测来进一步加强OctSqueeze。在距离图像表示方面，我们比较了PNG（帧内）以及HEVC（一种视频压缩标准）在PNG之上的时间距离图像压缩。对于PNG compres- sion，范围是用16位编码的，具有不同的缩放因子来控制失真 / 压缩率。我们还比较了Cluster[27]，这是一种基于距离图像的激光雷达数据压缩算法，具有分割，聚类，3D-HEVC编码和地面预测的管道。此外，补充提供了一个进一步的实验，与基于自动编码器的方法在距离图像（不包括在这里，由于其性能差）。实现细节我们的帧内预测模型RIDDLE采用大小为10 10（右下角的像素被屏蔽），并使用PointNet [22]类似的架构进行预测（没有T-Net结构，调整输出以预测锚分类和回归）。网络的输入是球面坐标中的3D点云，其具有方位角、相对于右下像素的仰角以及相对于有效上下文点的平均范围的我们3还有另一个基于深度网络的工作VoxelContextNet [23]，但由于他们没有发布代码，也没有详细定义评估标准，我们无法与他们进行比较。时间模型RIDDLE-T使用与帧内模型相同的网络架构，但从最后一次扫描（投影到下一个像素的球坐标）中额外获取100个点。详情请参阅补充资料。Waymo Open Dataset 结果我们报告了竞争方法在Waymo Open Dataset验证集中序列的所有帧上的比特率与重建质量指标（PSNR，Chamfer distance）。如图4、我们的方法明显优于现有的方法。在大约0.005的相同倒角距离在比特率为4左右时，我们的方法将失真（通过倒角距离测量）减少了85%以上当重建质量较高时，我们的方法也比以前的方法有更大的比特率改进这表明当数据质量要求较高时，我们的方法比基线更具优势。SemanticKITTI结果由于现有技术方法[9，16]尚未发布代码或压缩模型，因此我们转向SemanticKITTI数据集以与它们进行比较（我们从作者那里获得了MuS-CLE [9]论文中报告的曲线的原始值）。我们将在Waymo Open Dataset 上训练的模型直接应用于 Se-manticKITTI激光雷达点云（通过创建伪距离图像）。如图5，与所有现有技术的方法相比，我们的方法在比特率（大约4.3bpp）上降低了50%以上，具有大约0.005的相同倒角距离，显示出显著的优点。这种强大的领导属性（高x宽- 1 + m）x217218| −|图4. 在Waymo Open Dataset val set上使用几何度量评估压缩方法。左：倒角距离V.S. 比特每点（bbp）;右：PSNR与bpp。在一定的码率下，倒角距离越小或PSNR越高，重建质量越好图5.在SemanticKITTI测试集上使用几何度量评估压缩方法。我们在这里只呈现帧内模型，因为SemanticKITTI中无法提供每像素传感器姿势。图6. 激光雷达数据压缩对Waymo Open Dataset val set上3D物体检测质量的影响。我们使用来自WOD训练集的原始点云（无压缩）训练点柱[ 17 ]检测器，并使用WOD验证集上的压缩点云（或来自压缩范围图像的点云）对其进行评估。我们选择直接压缩范围图像以及有效的深度模型。定性结果。在图7中，我们显示了我们的方法Draco和G-PCC重建的激光雷达点云我们可以看到，从我们的方法由于直接对距离图像进行压缩以保持点分布模式，即使当比特率被雄心勃勃地设置得非常低时，5.3. 影响下游感知任务对于自动驾驶等应用，我们希望了解激光雷达数据压缩对下游感知任务（如三维物体检测）的影响。为了理解这种影响，我们使用Waymo Open Dataset训练集在未压缩的点云上训练了一个广泛使用的PointPillars检测器[17]，分别用于车辆类别和行人类别检测质量通过平均精度（mAP）来衡量。如图6，我们的方法在保持相同比特率的最佳mAP方面优于其他计算基线。在比特率约为2时，我们的方法在车辆检测上领先第二好的方法（G-PCC）超过1个点，在行人检测上领先3个点。我们还可以看到，行人检测对数据失真更敏感，这可能是由于与车辆相比，行人检测的平均物体尺寸较小。5.4. 分析实验在本节中，我们从体系结构选择、损失设计和时间背景等方面对我们的深层模型进行了阐述。为了比较独立于熵编码器的预测质量，我们使用预测准确度作为消融研究的指标。预测精度（acc.）定义为零增量的百分比（即，在特定量化精度（例如，δ=0。1m4）。如果q p′δ/2，则量化范围值p′的预测q被计数为正确。<补充提供了更多与熵编码器和模型延迟相关的分析。4注0。1 m并不那么粗糙，因为量化后的平均点位移仅为2。5厘米17219×模型acc.@0.1m先前有效值54.35线性插值54.6412层CNN 64.62PointNet（已更新）65.75损失函数acc.@0.1m MSE59.83MAE 61.64多仓损失59.66锚cls。+ reg.65.75时间上下文acc.@0.1m无（帧内）65.7510 10图像67.34100knn点69.23表1.预测模型的影响。表2.损失函数的影响。表3.时间输入的影响。Groundtruth（32bpp）G-PCC（4.02bpp）Draco（4.02bpp）PNG（4.02bpp）Ours（4.02bpp）26.4652.9179.37105.83132.29158.74185.20211.66238.11 mm图7. 重建点云的可视化，按每个点的倒角距离着色（底部的误差条色图）。从左至右：raw、G-PCC、Draco、PNG和RIDDLE（我们的）。很明显，在相同的比特率下，我们的方法具有更小的失真。最佳的彩色观看放大。预测因素选择的影响。表1比较了几种体系结构选择。最简单的选择是使用左时间背景的影响。表3显示了向预测模型添加时间上下文的好处。我们看到有效像素作为对当前像素的预测Ii，j=即使是天真的拼接图像补丁的Ii′，j−1. 另一个扩展是使用线性插值具有相同行和列的最后一帧（第二行）邻近像素xels：Ii，j=Ii′，j−1+Ii′1，j−Ii′1，j-1。注意已经可以帮助。更仔细地处理时间对于这两种情况，第一个值pix el用于计算附近的值。是一个空像素。我们看到，深度模型可以显著优于线性模型，而基于点云的架构在图像表示上显示出比ConvNet更强的经验结果。损失函数的影响。表2比较了我们模型监督的几种损失选择。将直接属性预测作为回归问题，我们可以看到使用平均绝对误差（MAE，L1损失）优于使用均方误差（MSE，L2损失），因为它受对象边界上的大误差将深度回归问题转换为多箱分类和回归问题（对于大小为1m的每个深度箱具有分类和箱内回归）也没有多大帮助，如第三行所示。我们提出的公式（锚分类与回归）导致4.11点的预测精度增加相比，使用平均绝对误差的第二个最佳选择。通过考虑传感器姿势（如第4.2）导致使用时间数据的更多增益。6. 结论随着激光雷达传感器分辨率的提高和数据量的增长为了应对这一挑战，我们提出了一种新的激光雷达数据压缩算法 RIDDLE （ Range Image Deep DeLtaEncoding），它结合了trans-delta编码的简洁性和深层神经网络的表达性在Waymo Open Dataset和KITTI上的实验表明，与以往的方法相比，在相同压缩率下，该方法在点云重构质量和下游感知模型性能上都有显著提高.17220引用[1] 德拉科 https://github.com/google/draco 网站。访问时间：2021-09-28。二、六[2] Velodyne hdl-64e。 https：//gpsolution. 中国新闻网北京站。aliyuncs。com/manual/LiDAR/MATERIAL%2CHERS%2CHDL-64E_S3.pdf。访问时间：2021-10-04。5[3] 安在均，李奎烈，沈在英，金昌洙。混合坐标域中使用自适应径向距离预测的大规模三维点云压缩。IEEEJournal of Selected Topics in Signal Processing ， 9（3）：422-434，2015。2[4] I. Armeni，A. Sax，A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。ArXiv电子印刷品，2017年2月。1[5] JohannesBall e'，ValeroLaparra，andEeroPSimoncelli. 端到端优化的图像压缩。arXiv预印本arXiv：1611.01704，2016。2[6] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。arXiv预印本arXiv：1802.01436，2018。2[7] 彼得·凡·贝克。基于图像的激光雷达传感器数据压缩。电子成像，2019（15）：43-1，2019。2[8] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuenzel ， Sven Behnke ， Cyrill Stachniss ， and JurgenGall. Se-mantickitti：激光雷达序列语义场景理解数据集。在IEEE计算机视觉国际会议论文集，第9297-9307页，2019年。5[9] Sourav Biswas ， Jerry Liu ， Kelvin Wong ， ShenlongWang，and Raquel Urtasun. Muscle：使用深度熵模型的激光雷达多扫描压缩。 arXiv 预印本 arXiv ：2011.07590，2020。一、二、五、六[10] Mario Botsch，Andreas Wiratanaya，and Leif Kobbelt.高效的点采样几何体的高质量渲染中国建筑技术，2002：第13期. 2[11] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在CVPR，2017年。1[12] 奥利维耶·德维莱尔和P·M·甘多因交互传输的几何压缩。在 Proceedings Visualiza- tion 2000 中。 VIS 2000（Cat.号00 CH 37145），第319-326页。IEEE，2000年。2[13] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013. 二、五[14] D Graziosi ， O Nakagami ， S Kuma ， A Zaghetto ， TSuzuki和A Tabatabai。正在进行的点云压缩标准化活动概述：基于视频的（ V-PCC ）和基于几何的（ G-PCC）。APSIPA信号和信息处理交易，2020年9月。二、五、六[15] Ham i drezaHoushiarandAndreasNüchter. 使用传统图像压缩的3D点云压缩用于有效的数据传输。2015年第二十五届国际会议-17221信息、通信和自动化技术（ ICAT ），第 1-8 页。IEEE，2015年。2[16] Lila Huang ， Shenlong Wang ， Kelvin Wong ， JerryLiu，and Raquel Urtasun. Octsqueeze：用于激光雷达压缩的八叉树结构熵模型。在IEEE/CVF计算机视觉和模式识别会议论文集，第1313-1323页，2020年。一、二、五、六[17] Alex H Lang，Sourabh Vora，Holger Caesar，LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在CVPR，2019年。7[18] Siwei Ma，Xinfeng Zhang，Chuanmin Jia ，ZhenghuiZhao，Shiqi Wang，and Shanshe Wang.使用神经网络进行图像和视频压缩：审查. IEEE Transactions onCircuits and Systems for Video Technology，30（6）：1683- 1698，2019。2[19] FabianMentzer，EirikurAgustsson， MichaelTschannen，Radu Timofte，and Luc Van Gool.实用的全分辨率学习无损图像压缩。在IEEE/CVF计算机视觉和模式识别会议论文集，第10629-10638页，2019年。2[20] Fabrizio Nenci，Luciano Spinello和Cyrill Stachniss。基于h.264的远程机器人操作距离数据流的有效压缩。2014年IEEE/RSJ智能机器人和系统国际会议，第3794-3799页，2014年。2[21] Aaron van den Oord 、 Nal Kalchbrenner 、 OriolVinyals 、 Lasse Espeholt 、 Alex Graves 和 KorayKavukcuoglu。用pixelcnn解码器生成图像。arXiv预印本arXiv：1606.05328，2016年。二、四[22] Charles R Qi，Hao Su，Kaichun Mo，and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别集，第652四、六[23] 子正缺、郭鲁、东旭。Voxelcontext-net：基于八叉树的点云压缩框架。在IEEE/CVF计算机视觉和模式识别会议上，第6042-6051页，2021年一、二、六[24] Ruwen Schnabel和Reinhard Klein。基于八叉树的点云压缩。在PBG@ SIG

下载后可阅读完整内容，剩余1页未读，立即下载