LiDAR压缩算法降低比特率，并适用于自动驾驶汽车等应用

44 浏览量更新于2023-10-23 收藏 3.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1313OctSqueeze：用于LiDAR压缩的Lila Huang1，2Shenlong Wang1，3Kelvin Wong1，3Jerry Liu1Raquel Urtasun1，31Uber Advanced Technologies Group 2滑铁卢大学3多伦多大学{lila.huang，shenlong.wang，kelvin.wong，jerryl，urtasun}@ uber.com摘要提出了一种新的深度压缩算法来减少LiDAR点云的内存占用。我们的方法利用点之间的稀疏性和结构冗余来降低比特率。为了实现这一目标，我们首先将LiDAR点编码为八叉树，这是一种适用于稀疏点云的数据高效结构。然后，我们设计了一个树结构的条件熵模型，该模型对八叉树符号的概率进行建模，以将八叉树编码成紧凑的比特流。我们验证了我们的方法在两个大规模数据集的有效性。结果表明，我们的方法减少了10- 20%的比特率在相同的重建质量，与以前的国家的最先进的。重要的是，我们还表明，对于相同的比特率，当使用压缩表示执行下游3D分割和检测任务时，我们的方法优于其他压缩算法。我们的算法可用于减少自动驾驶汽车等应用中LiDAR点的车载和车外存储，其中一辆汽车每天捕获840亿点。1. 介绍在过去的几十年里，我们目睹了人工智能革命性地改变了机器人的感知能力。由这些人工智能算法驱动的机器人通常利用大量不同的传感器来感知世界并与世界互动。特别是，LiDAR和结构光相机等3D传感器已被证明对许多类型的机器人至关重要，例如自动驾驶汽车、室内漫游车、机器人手臂和无人机，这要归功于它们准确捕获场景的3D几何形状的能力这些传感器产生大量数据：单个Velodyne HDL-64 LiDAR传感器每次扫描产生超过100，000个点，每天产生超过840亿个点。如此庞大的原始传感器数据量给车载和车外存储以及实时通信带来了挑战因此，有必要开发一种高效的三维点云压缩方法。原始3D点云表示为非结构化n× 3矩阵，浮点精度。这些未压缩的数据这种表示没有利用场景的几何形状通常结构良好的事实先前的工作已经通过使用诸如KD树[4]和八叉树[19]的数据结构来对点云的结构进行编码来实现点云压缩。利用量化来进一步减少存储。然而，在这些表示中仍然隐藏着大量的冗余信息，如重复的局部结构、平面或具有较强形状先验的对象类别，如汽车和人。理论上，在压缩过程中可以利用这些冗余信息来进一步降低比特率。然而，这还没有被充分利用其潜力在点云压缩。深度神经网络最近在图像和视频压缩方面的成功为这些方法通常包含三个步骤：1）通过卷积神经网络将数据编码为隐藏表示;2)隐藏的特征;以及3）学习熵模型以通过熵编码进一步减少比特流。学习熵模型的关键是对上下文信息进行编码，以提高符号出现的可预测性然而，直接在LiDAR点云上应用这些深度压缩算法是不平凡的，因为它是稀疏和非网格结构的。因此，我们需要应对两大挑战：1）在利用其稀疏性的同时，什么是用于表示LiDAR的存储器高效的数据结构？2)我们如何训练深度熵模型来有效地将表示编码为比特流？在这项工作中，我们提出了一种用于LiDAR点云压缩的新型深度学习模型。该方法首先利用高效的自适应八叉树结构对原始点云进行初始编码。然后，我们在树的每个中间节点上学习树结构的深度条件熵模型，同时结合场景的先验和上下文来帮助预测节点符号。然后将来自我们学习的熵模型的预测概率传递到熵编码器，以将序列化符号编码到最终比特流中。我们评估我们的方法的性能超过两个1314输入LiDAR点云八叉树结构树结构熵模型MLP（0）MLP（1）Cond. ProbMLP（2）估计.....····位置：（x，y，z）八分仪：7水平：1.....熵编码八叉树构造最终位流图1：用于LiDAR点云压缩的八叉树结构熵模型概述作为n×3浮点数组接收的输入点云通过缩放到[0，2k）并向下舍入来量化为k从量化的点云构造八叉树。每个节点由8位占用符号表示。我们在八叉树的顶部应用树结构的条件熵模型来估计每个符号在先前上下文条件下的概率最后，我们使用估计的概率编码的串行化符号到最终的压缩比特流。具有挑战性的LiDAR点云数据集，包括复杂的城市交通场景，即KITTI [3]和北美数据集。我们的研究结果表明，该模型优于所有国家的最先进的方法在重建质量和下游任务性能。在相同的重建质量，我们的比特率是10-20%低于以前的国家的最先进的。2. 相关工作2.1. 点云压缩树结构是现有点云压缩算法中使用的主要方法。许多方法将数据存储在八叉树中，并使用手工制作的熵模型执行熵编码，例如自适应直方图，父上下文[6]以及基于平面近似[31]或相邻邻近[13]的估计。为了利用点云流中的时间冗余，Kammerlet al. [14]对连续的八叉树表示和Mekuria等之间的异或差异进行编码。[20]使用ICP对具有刚性变换的块进行编码。这两种方法都使用范围编码和经验直方图进行熵编码。八叉树结构的优点是可以对任意的点云进行分层结构的建模，这就提供了一种自然的渐进式编码--如果八叉树是按照宽度优先顺序遍历的，那么解码可以随时停止;解码时间越长，点云重建的精度越高。Google的开源压缩软件Draco [ 8 ]使用了一种相关的结构所有上述方法不利用深度学习。除了树结构，点云可以表示为规则的体素网格[27，12]。这些方法使用基于体素的卷积自动编码器，它可以学习点云的表面表示，但要处理大规模稀疏数据。此外，由于Li-DAR扫描的几何形状可以由具有一个距离通道的全景图像表示，所以点云也可以表示为距离图像，并且经由图像压缩技术压缩。例如，Houshiaretal. [11]使用传统的图像压缩器，如JPEG，PNG和TIFF来压缩LiDAR范围图像。2.2. 点云上的深度学习受图像领域最近成功的启发，研究人员开发了一系列新的点云数据深度学习方法。一类方法使用深度卷积神经网络来处理3D点云的体素表示[47，18，25，51，50，49]。然而，这些方法需要大的存储器占用，从而引起输入分辨率和模型容量之间的权衡。为了解决这个缺点，[28，9]建议在点云的体素表示上使用稀疏运算符另一种工作是通过直接在点云上操作来解决这个问题，从而利用其稀疏性来避开这种权衡。PointNet [24]使用多层感知器从单个点中提取特征，然后将它们汇集成全局特征。正如PointNet可以-1315图2：构建八叉树结构来表示点云。八叉树的最大深度（从左到右）：八十十二十四不捕获点云中的局部结构，许多后续工作已经提出分层地聚集局部信息[26，42，46，48，35]。这些方法可以被看作是图神经网络，其对由每个点的局部邻域定义的图进行操作;例如，k-最近邻图其他可能的图包括KD树[15]和八叉树[29，41]。受这些图结构网络成功的启发，我们设计了一个熵模型，该模型对八叉树的序列化字节流进行操作2.3. 深度图像和视频压缩图像和视频压缩的领域是广泛的，并且在过去几十年中已经得到了很好的探索，范围从无损图像格式（ PNG 、 TIFF ）到有损图像编解码器（ JPEG 、BPG ），再到视频编解码器（ AVC/H.264 、HEVC/H.265）。近年来，学习图像和视频压缩方法[37，1，2，21，34，45，30，17，10]迅速增加，这些方法利用了传统编解码器的概念和深度神经网络的力量。这些方法通常使用深度卷积自动编码器将非线性变换应用于压缩管道的传统组件，从JPEG中使用的变换编码到视频编解码器中使用的运动补偿此外，许多方法使用单独的神经网络来将图像/视频潜码的熵建模为比特率的严格下限;然后在熵编码期间使用该模型来将这些方法包括完全因子分解模型[1，34]，将“边信息”编码为熵预测的潜在变量[2，22，17]以及使用自回归模型（例如，PixelCNN [40]）对像素级条件分布进行建模[21，37，10，45]。受这些熵建模方法的启发，我们的目标是将这些见解应用于点云的压缩。3. 八叉树结构熵模型在这项工作中，我们解决了3D激光雷达点云的有损压缩问题我们的目标是尽可能地减少编码的存储空间，同时保持重建质量。为了实现这一目标，我们提出了一种新的，八叉树结构的压缩方法，使用的深度熵模型。具体来说，我们首先将LiDAR点云转换并编码为八叉树。树的每个节点使用8位符号来编码其子节点的占用我们然后将八叉树串行化为中间的、未压缩的符号字节流。对于每个节点，我们选择一组在解码时可用的上下文特征。然后，我们将这些上下文特征馈送到我们的树结构深度熵模型中，该模型经过训练以预测给定上下文输入的每个符号存在的概率然后，这些概率被直接馈送到与符号字节流的算术编码中以产生最终比特流，其中比特率通过这些概率与实际符号分布的交叉熵来近似测量。我们的总体方法如图所示。1.一、3.1. 八叉树结构LiDAR点云压缩的两个难点是原始点云数据的稀疏性和缺乏结构。空间分区数据结构（诸如，α-树和KD-树）有效地提供了3D空间数据的表示，同时牢记稀疏性，因为与随云的包围体缩放的体素表示相比，它们的存储器使用随云中的点的数量缩放此外，树结构给出了可用于渐进解码的隐含细节级别。我们选择使用八叉树作为量化的基本数据结构，因为它的内存效率和易于构建和序列化。位表示：八叉树[19]通过递归地将输入空间划分为相等的八分块并将占用存储在树结构中来存储点云。八叉树的每个中间节点包含一个8位符号来存储其八个子节点的占用率，每个位对应于一个特定的子节点。每个叶包含一个点，并存储额外的信息，以表示点的位置相对于单元角。叶信息的大小是自适应的，并且取决于水平。一个具有k层的八叉树可以通过将孩子的每个（x，y，z）坐标的最后k-i位保持在八叉树的第i层上来存储k位的精度。分辨率随着八叉树中的层级数的增加而增加这种表示的优点是双重的：首先，只有非空单元进一步细分和编码，这使得数据结构适应不同的稀疏程度;其次，每个节点的占用符号是一个紧比特表示。图图2显示了从KITTI点云[7]在不同层次上构建八叉树结构的部分1316我序列化：使用宽度优先或深度优先遍历，八叉树可以被串行化为占用码和叶节点偏移的两个中间未压缩字节流。原始树可以从这些流中完全重建。我们注意到，序列化是一个无损的方案，在这个意义上，偏移量和占用信息都是完全保留的。因此，唯一的有损过程是由于在构造八叉树期间的量化。因此，基于八叉树的压缩方案是有损的，直到这个量化误差，这给出了失真率的上限。我们使用的占用序列化格式在我们的熵编码阶段，在第二节详细介绍。3.2和第二节三点三持续时间根据香农因此，我们进行训练以最小化模型预测分布q和训练数据分布之间的交叉熵损失。熵模型：我们现在描述八叉树结构x上的熵模型的公式。我们将q（x）分解为每个单独占用符号xi的条件概率的乘积，如下所示：通过对给定占用码进行范围解码，我们注意到诸如节点深度、父占用和当前八分区的空间位置等信息已经已知，Yq（x）=qi（xi我| xan(i) ，ci; w）。（二）遍历格式的先验知识因此，我们将该信息合并为我们可以在熵编码期间使用的每个节点的上下文3.2. 一种用于熵编码的深度熵模型八叉树的序列化占用字节流可以通过熵编码进一步被有损压缩编码成更短的比特流。熵编码的理论基础是信息论。具体而言，熵模型估计给定符号出现的概率;在给定可用上下文信息的情况下，概率可以是自适应的。熵编码背后的一个关键直觉是，以较高概率预测的符号可以用较少的比特编码，从而实现较高的压缩率。八叉树结构上的现有熵模型往往缺乏在自适应直方图[31，14]的情况下准确表示数据的能力，或者在几何预测[13]的情况下需要非常长的解码时间。此外，这些熵模型没有充分利用层次八叉树结构来编码场景的几何先验以便于熵预测。受在图像和视频压缩中成功使用深度熵模型的启发，我们提出了一种深度网络，该深度网络在熵编码期间对我们的方法扩展了先前的方法，在这个意义上，我们更好地利用上下文信息通过一个端到端的可学习的密度估计网络的预测的oc树结构配方：给定占用8比特符号的序列x =[x1，x2. - 是的-是的 x n]，熵模型的目标是学习估计的分布q（x），使得它最小化与符号p（x）的实际分布的交叉熵：其中xan（i）={xpa（i），xpa（pa（i）），.，xpa（.（pa（i）}与|x an（i）|≤ K是给定节点i的祖先节点的集合，直到给定的阶数K，w是参数化我们的熵模型的权重。这里，ci是在编码/解码期间可用作先验知识的上下文信息诸如八分圆索引、八分圆的空间位置、八叉树中的级别、父占用等。这些模型利用树结构来收集来自较粗级别的节点的信息和当前节点处可用的上下文信息。直观地，对祖先节点的条件化可以帮助减少当前节点预测的熵，因为当祖先节点所表示的粗略结构已知时，更容易预测当前节点处的更精细几何结构。诸如位置信息之类的上下文信息有助于通过捕获场景的先前结构来进一步减少熵。例如，在自动驾驶场景中使用LiDAR的设置中，LiDAR传感器上方0.5米的占用节点不太可能被占用。体系结构：我们提出的熵结构模型q i（x i|xan（i），ci; w），这是通过首先为每个xi提取独立的上下文嵌入，然后执行上下文嵌入的渐进聚合以合并给定节点的祖先信息xan（i）来实现的。对于给定的中间八叉树节点xi，输入con-文本特征ci包括节点的位置、八分圆、级别和父节点（见图11）。1）。具体来说，“location”是节点的3D位置，编码为R3中的向量，“octant”是其八分圆索引，编码为{0，. - 是的- 是的，7}，“level”是其深度，编码为{0，. - 是的- 是的，tree-depth}，而“parent”是其父节点的8位占用，编码为{0，. - 是的- 是的，255}。我们通过多层感知器（MLP）为每个节点提取一个独立的深度特征，并将上下文特征ci作为输入：H（p，q）=Exp[−log2q（x）]（1）h（0）= MLP（0）（ci）（3）1317德拉科深度MPEG锚我们的占用IOU（10cm）我pa（i）我i ipa（i）我比特率与PSNR（北美）80706050400 5 1015每点位数（BPP）1.00.90.80.70.60.50.40.30.2比特率与IOU（北美）0 5 1015每点位数（BPP）比特率与倒角距离（北美）0.300.250.200.150.100.050.000 5 10 15每点位数（BPP）比特率与PSNR（KITTI）751.0比特率与IOU（KITTI）比特率与倒角距离（KITTI）700.9650.80.20605550454035电话：+86-021 - 88888888传真：+86-021 -8888888812.515.0每点位数（BPP）0.70.60.50.40.30.2电话：+86-021 - 88888888传真：+86-021 -8888888812.515.0每点位数（BPP）0.150.100.050.00电话：+86-021 - 88888888传真：+86-021 -8888888812.515.0每点位数（BPP）图3：北美和KITTI的定量结果从左到右：点到平面PSNR、IOU和倒角距离。然后，从每个节点的特征h（0）开始，我们在当前节点特征和其父节点特征之间执行K个聚合。在迭代k处，聚合也可以被建模为MLP：h（k）= MLP（k）（[h（k−1），h（k−1）]）（4）其中h（k-1）是节点i对于根节点，为了模型的一致性，我们将其父特征视为全零特征。我们模型是在第K个聚合特征h（k）之上的线性层，产生给定节点的8比特占用符号的概率的256维softmax：详细架构：在这里，我们讨论了我们的堆叠熵模型的每个子模块的详细架构。第一MLP是具有128维隐藏特征的5层MLP。所有后续的MLP都是具有128维隐藏特征的3层MLP（具有残留层）。最后一个线性层和一个softmax用于进行256路预测。每个MLP都是线性+ReLU，没有归一化层。学习：在训练时，全熵模型是端到端训练的，每个节点上都有交叉熵损失ΣΣq i（·|Xan（i），ci;w）=g（h（k））（5）=−我yi，jlogqi，j（6）J请注意，这些聚合仅聚合节点要素与父母的关系，而不是与孩子的关系;子输入上下文在顺序解码期间不可用。此外，每增加一个聚合，祖先特征的感受野就增加1，因此第k个聚合具有k个祖先的感受野。图1描述了我们提出的K=3的堆叠熵模型。在此图中，一个具有K个聚合级别的模型通过考虑节点特征本身以及祖先特征的K-1代来预测当前节点xi从这个意义上说，我们可以将我们的聚合视为与其他自回归模型在概念上相似，例如PixelCNN [ 39 ]中使用的“掩蔽卷积”和Wavenet [ 38 ]中提出的与以前的工作，无论是在2D网格或1D序列，我们的自回归模型应用沿八叉树遍历路径从根到每个节点。其中yi是在节点i处的地面实况符号的独热编码，而qi，j是符号j在节点i处出现的预测概率3.3. 熵编码器编码：在编码阶段，我们将模型按顺序应用于不同的级别，从根到叶。我们提出的熵模型不会在同一级别的节点之间传播信息。因此，在每个级别内，我们能够并行计算概率估计。然后，我们使用熵编码算法（如算术编码）对八叉树原始比特流进行我们的网络通过预测序列中每个字节x i的熵分布（0到255）来确定算术编码器德拉科深度MPEG锚我们的德拉科深度MPEG锚我们的德拉科深度MPEG锚我们的德拉科深度MPEG锚我们的深海天龙我们的MPEG锚点到面PSNR点到面PSNR占用IOU（10cm）对称倒角距离（m）对称倒角距离（m）1318下游感知任务的评价。表1：输入上下文特征的消融研究。L、P、O和LL分别代表节点比特率#聚合深度= 12深度= 14深度= 1603.488.9114.9713.398.7814.8423.318.5914.6433.258.4714.5143.178.3214.33表2：聚集体数量的消融研究。解码：为了解码，在算术编码器然后从解压缩的比特流构建八叉树由于熵模型的自回归特性，每个节点的概率估计仅依赖于其自身和八叉树高层的解码节点特征。此外，八叉树以宽度优先搜索方式序列化。因此，给定一个节点xi，它在八叉树中的祖先在xi之前被解码，使得解码器也可以解码xi。4. 实验KITTI：为了评估我们方法由于Se-manticKITTI还包含来自25个类的密集逐点标签请注意，从我们的内部数据到KITTI，在场景布局和传感器配置方面存在显著的域转移，例如传感器高度，自我遮挡，光线角度等。4.2.实验细节基线：我们的基线包括两种最好的现成点云压缩方法，即Google的基于八叉树的算法[20]，其用作MPEG锚点（“MPEG锚点”）。此外，我们将我们的方法与使用点云的范围图像表示（“深度范围”）的深基线模型进行比较。对于距离图像表示，我们利用卷帘快门特性将每个LiDAR扫描从欧几里德坐标转换为极坐标，并将其存储为2.5D距离图像。然后，我们在这些图像上训练Balle 'hyperprior模型[2]，这是一种最先进的图像压缩模型在解码过程中，我们重建了2.5D范围图像，并将其转换回欧氏点云。实施详情：我们在完整的16级八叉树上训练熵模型。在完整的16级八叉树上训练单个模型允许在在本节中，我们验证了我们提出的方法在两个具有巨大变化场景的具有挑战性的现实世界LiDAR数据集上的有效性。我们比较我们的方法对几个国家的最先进的点云压缩算法的重建质量和它们对下游感知任务的影响。4.1.数据集北美：我们收集了一个新的内部数据集，包括来自北美多个城市/州的各种城市和高速公路环境的驾驶场景。从这个数据集中，我们采样了Velodyne HDL-64传感器收集的500 K原始LiDAR扫描，以训练我们的熵模型。没有额外的过滤或处理应用于这些LiDAR点云。为了评估重建质量，我们收集了472个片段，每个片段包含250个LiDAR扫描。此外，我们还为车辆、行人和摩托车类使用2D鸟瞰视图边界框注释这些帧相同的模型，因为在测试期间，我们可以在不同的级别上截断相同的八叉树，以在不同的量化级别上评估我们的模型。具体来说，我们评估我们的八叉树模型，深度范围从11到16，以衡量比特率质量的权衡。量化误差范围为0.3 ~ 9.75cm，树高每减少一点，量化误差就增加一倍。我们的熵模型在PyTorch中实现，并使用Adam优化器在16个GPU上进行了训练。我们使用50万次迭代的学习率为1 e-44.3. 压缩机重建质量：为了评估重建质量，我们使用两个度量系列：距离和机会。一个常用的基于距离的度量来评估点云相似性是对称点到点倒角距离CD sym。对于给定的GT点云P={pi}i=1，.，N和重建的点云P：车辆、行人、机动车的逐点语义标签，CD（P，P）=1Σ最小值-p2（七）自行车，道路和背景类。我们使用这些标签|j i j 2| jij 2我比特率L P O LL深度= 12深度= 14深度= 16C3.913.869.999.7916.2115.91CC3.629.3315.41CCC3.599.2715.35CCCC3.488.9114.971319p∈P2GT（北美）Ours：PSNR 80.06，Bitrate 11.36Draco：PSNR 79.38，比特率12.53范围：PSNR 50.35，比特率13.99GT（北美）我们的：PSNR 58.54，码率2.06 Draco：PSNR 51.52，码率2.17 Range：PSNR 46.50，码率5.58图4：北美和KITTI的定性结果从左到右：地面真理，我们的，德拉科，和深范围。CDsym（P，P）= CD（P，P）+ CD（P，P）（8）第二个基于距离的度量，点到平面PSNR，[36]解释了点云分辨率：p24.4. 压缩结果北美的定量结果：我们报告了NorthAmer上所有竞争算法的比特率与重建质量指标（ PSNR ， IOU ，Chamfer）。PSNR（P，P<0）=10log10MSEsym（P，P）（九）ICA数据集。如图3.我们的方法优于所有以前的国家的最先进的算法，与10-20%的双，其中p=maxp-p2，MSE（P，P）是sym-与Draco和MPEG Anchor相比，i i i2公制点到平面距离：sym重建质量这三种方法都有很大的不同-执行深度范围图像压缩方法。注意MSE（P，P）=1Σ （（p-p）·n）2（10）由于我们使用相同的八叉树数据结构，我们的AP-|P|我我我我方法具有与MPEG An相同的重建质量chor 然而，我们的比特率要低得多，MSEsym（P，P）= MSE（P，P）+ MSE（P，P）（11）其中pi=argminpi− p职业素质：通常使用Li-用于感知任务的体素化形式的DAR点云[16，51，49]。为了反映这一点，我们计算了基于占用率的指标。特别是，我们使用0报告了交叉联合（IOU）。2×0。2×0。1米体素：TPGT（KITTI）Ours：PSNR 71.59，Bitrate 13.59Draco：PSNR 68.85，比特率13.65范围：PSNR 34.43，比特率13.27GT（KITTI）Ours：PSNR 54.81，Bitrate 2.02Draco：PSNR 51.16，比特率2.35范围：PSNR 33.30，比特率3.611320熵模型这些结果验证了我们提出的深度熵模型和我们选择的八叉树数据结构来压缩稀疏LiDAR点云。KITTI的定量结果：图3、我们显示KITTI上的比特率与重建质量度量。虽然我们的模型只使用来自北美的数据进行训练，但它仍然可以显著优于所有的计算算法，特别是在较低的比特率下。定性结果：图4显示了点云反射率。IOU= TP+ FP+ FN（十二）关于KITTI和北美的评论，操作错误。为了公平比较，我们从其中TP、FP、FN是在体素占用方面的真阳性、假阳性和假阴性已经以类似比特率压缩的竞争算法。所有的案例都表明我们的方法和德拉科1321Oracle：IOU 38.02，比特率：96.00我们的：IOU 31.94，比特率：4.18Oracle：AP@70：100，比特率：96.00 我们的：AP@70：100，比特率：6.1135.030.025.020.015.010.0比特率与IOU（KITTI）0 5 1015每点位数（BPP）80.060.040.020.0比特率与IOU（北美）天龙座我们的MPEG锚0 5 1015每点位数（BPP）75.074.073.072.0比特率与AP（北美）0 5 1015每点位数（BPP）70.069.569.068.568.0比特率与AP（北美）0 5 1015每点位数（BPP）82.882.682.482.2比特率与AP（北美）我们的天龙MPEG锚点0 5 1015每点位数（BPP）图5：下游感知任务的定量结果。最左边的两个图分别显示了KITTI和北美在语义分割方面的IOU性能。最右边的三个图显示了AP在北美的对象检测性能。图6：语义分割（右）和对象检测（左）的定性结果在可比的比特率下给出比距离图像压缩更忠实的重建，因为距离图像重建在对象边界以及下/上LiDAR光束处遭受噪声和误差。在相同的比特率下，我们的重建质量也优于Draco。消融研究：我们在熵模型上进行消融研究，包括上下文特征ci以及聚合数K。在选项卡中。1、我们通过逐步合并我们用途：使用的四个特征来消除上下文特征：节点的八叉树级别、其父占用符号、其八分区索引以及其空间位置。请注意，这些消融是在没有任何聚集的情况下进行的（K=0），证明了单独的上下文特征的预测能力。如表所示，我们可以看到，逐渐添加更多的上下文信息会不断降低编码的熵。接下来，我们评估高阶祖先信息如何帮助预测概率。我们评估了不同聚集水平的熵模型，K=0，...，4，结合K级的“祖先”上下文。选项卡. 2表明，一般来说，进行更多的聚合一致地提高了我们模型的熵。4.5. 对下游感知任务的影响压缩的另一个重要度量是其对相关下游任务的性能的我们量化这些影响的两个基本的感知任务：语义分割和对象检测。在我们的实验中，我们在从各种压缩方案重建的点云上评估了[44]中描述的语义分割和对象检测模型。请注意，我们在带有检测和分割标签的未压缩点云上训练这些感知模型-对于北美，我们使用训练数据集在[44]中描述，对于KITTI，我们使用官方训练数据集[3]。对于语义分割，我们报告使用体素化地面真值标签计算的平均交集（IOU）。对于物体检测，我们报告平均精度（AP）在50% IOU阈值行人和摩托车，和70%的车辆。如图5和图6，我们的方法在北美和KITTI上都优于所有竞争基线。我们的方法例如，在5比特每点，我们的方法实现了5-10%的改进Draco和MPEG北美。在目标检测中，我们的方法始终优于基线，尽管比分割略好;这是由于对象检测模型对于比特率范围已经是鲁棒的这一事实。总的来说，这些结果证明了我们的方法的性能，并有助于说明其对许多机器人应用相关任务的影响。5. 结论提出了一种新的LiDAR点云压缩算法。我们的方法使用一个深树结构的熵模型上的八叉树表示的点，杠杆年龄可用的上下文信息，以减少每个中间节点的熵。该熵模型利用点之间的稀疏性和结构冗余来降低整体比特率。我们验证了我们的方法在两个大规模数据集的有效性。结果表明，我们的方法显着降低了比特率的竞争对手在相同的重建质量的算法。此外，我们证明了我们的压缩表示实现了较低的错误比以前的国家的最先进的工作在我们的天龙MPEG锚点我们的天龙MPEG锚点平均IOU我们的天龙MPEG锚点平均IOUAP@50（行人）AP@50（摩托车）AP@70（溶剂）1322引用[1] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利端到端优化的图像压缩。在第五届国际学习表征会议上，ICLR 2017，法国土伦，2017年4月24日至26日，会议跟踪程序。OpenReview.net，2017年。3[2] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。在第六届国际会议上学习表示，ICLR2018，温哥华，不列颠哥伦比亚省，加拿大，2018年4月30日至5月 3日，会议跟踪进行。OpenReview.net，2018年。三、六[3] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuen-zel，S v enBehn k e，CyrillStachniss，andJürgenGall.Se-mantickitti：激光雷达序列语义场景理解数据集。在2019年IEEE/CVF国际计算机视觉会议，ICCV 2019，韩国首尔（南），2019年10月27日至11月2日，第9296-9306页。IEEE，2019。二、六、八[4] 乔恩·路易斯·本特利。用于关联搜索的多维二叉搜索树。Commun. ACM，18（9）：509- 517，1975. 1[5] 奥利维尔·德维莱尔和皮埃尔·玛丽·甘杜安。用于交互传输的几何压缩。在IEEE Visualization 2000，2000年10月8-13日，美国犹他州盐湖城希尔顿酒店，Proceedings，第319-326页中。IEEE计算机协会和ACM，2000年。2[6] 迪奥戈角Garcia和Ricardo L.德奎罗斯。基于帧内上下文的点云几何八叉树编码。在2018年IEEE图像处理国际会议上，ICIP 2018，希腊雅典，2018年10月7日至10日，第1807-1811页。IEEE，2018年。2[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。在2012年IEEE计算机视觉和模式识别会议上，Providence，RI，USA，2012年6月16-21日，第3354-3361页。IEEE计算机学会，2012年。3[8] Google.德拉科三维数据压缩。https：//github.com/google/draco，2017. 二、六[9] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第9224-9232页。IEEE计算机学会，2018年。2[10] 放大图片作者： AmirHossein Habibian ， Ties vanRozendaal，Jakub M.汤姆扎克和塔可科恩。使用率失真自动编码器的视频压缩。在2019年IEEE/CVF计算机视觉国际会议上，ICCV 2019，韩国首尔，2019年10月27日至11月2日，第7032IEEE，2019。3[11] Ham i drezaHoushiarandAndreasNüchter. 使用传统图像压缩的3D点云压缩用于有效的数据传输。在XXV信息，通信和自动化技术国际会议，ICAT2015，萨拉热窝，波斯尼亚和黑塞哥维那，2015年10月日，第1-8页IEEE计算机学会，2015年。2[12] 黄天心和刘勇。基于深度学习的3d点云几何压缩。作者：Laurent Amsaleg，Benoit Huet，Martha A. Larson，Guillaume Gravier ， Hayley Hung ， Chong-Wah Ngo 和Wei Tsang Ooi，编辑，第27届ACM国际多媒体会议论文集，MM 2019，法国尼斯，2019年10月21日至25日，第890- 898页。ACM，2019年。2[13] 黄燕，彭景良，C.- C. Jay Kuo和M.戈比渐进式点云编码的通用方案。IEEE Trans.Vis. Comput. Graph. ，14（2）：440-453，2008. 二、四[14] Julius Kammerl ， Nico Blodow ， Radu Bogdan Rusu ，Suat Gedikli，Michael Beetz，and Eckehard G.斯坦巴赫点云流的实时压缩。在IEEE机器人与自动化国际会议上，ICRA 2012，2012年5月14日至18日，St. Paul，Minnesota，USA，第778-785页。IEEE，2012。二、四[15] Roman Klokov和Victor S. Lempitsky逃离细胞：用于识别3D点云模型的深度kd网络在IEEE国际计算机视觉会议，ICCV 2017，意大利威尼斯，2017年10月22日至29日，第863- 872页。IEEE计算机学会，2017年。3[16] 亚历克斯 ·H Lang ， Sourabh Vora ， Holger Caesar ，Lubing Zhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第12697- 12705页。计算机视觉基金会/ IEEE，2019年。7[17] 郭璐，欧阳万里，徐东，张晓云，蔡春雷，高志勇.DVC：端到端深度视频压缩框架。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第11006-11015页。计算机视觉基金会/ IEEE，2019年。3[18] Daniel Maturana和Sebastian A.谢勒Voxnet：用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议，IROS 2015，德国汉堡，2015年9月28日至10月2日，第922-928页。IEEE，2015年。2[19] 唐纳德·米格。使用八叉树编码的几何建模。计算机图形与图像处理，19（1）：85，1982。第1、3条[20] Ru f a e lMekuria，KeesBlom，andPabloC e'sar. 设计、实现和评估用于远程沉浸式视频的点云编解码器IEEE传输电路系统视频技术，27（4）：828-842，2017.二、六[21] FabianMentzer，EirikurAgustsson，MichaelTschannen，Radu Timofte，and Luc Van Gool.深度图像压缩的条件概率模型。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第4394-4402页。IEEE计算机学会，2018年。3[22] FabianMentzer，EirikurAgustsson，MichaelTschannen，Radu Timofte，and Luc Van Gool.实用的全分辨率学习无损图像压缩。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第10629- 10638页。计算机视觉基金会/ IEEE，2019年。31323[23] Gregory P.Meyer ， Ankit Laddha ， Eric Kee ， CarlosVallespi- Gonzalez，and Carl K.威灵顿Lasernet：一个用于自动驾驶的高效概率3D物体检测器。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日日，第12677-12686页。计算机视觉基金会/ IEEE，2019年。2[24] Charles Ruzhongtai Qi ， Hao S

下载后可阅读完整内容，剩余1页未读，立即下载