基于图像的端到端伪激光雷达三维目标检测

153 浏览量更新于2023-10-24 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于图像的端到端伪激光雷达三维目标检测钱睿1，2DivyanshGarg1王岩1游玉荣1塞尔日贝隆吉1，2巴拉特哈里哈兰1马克坎贝尔1基利安Q。温伯格1赵伟伦3康奈尔大学2康奈尔理工大学3俄亥俄州立大学{rq49，dg595，yw763，yy785，sjb344，bh497，mc288，kqw4}@ cornell.eduosu.edu摘要可靠和准确的3D物体检测是安全自动驾驶的必要条件。虽然LiDAR传感器可以提供对环境的精确3D点云估计，但是它们对于许多设置来说也是极其昂贵的。最近，伪LiDAR（PL）的引入导致了基于LiDAR传感器的方法和基于廉价立体相机的方法之间的精度差距的急剧减少。PL通过将2D深度图输出转换为3D点云输入，将用于3D深度估计的最先进的深度神经网络与用于3D对象检测的深度神经网络相结合。然而，到目前为止，这两个网络必须单独训练。在本文中，我们介绍了一个新的框架，该框架基于可微表示变化（CoR）模块，允许端到端地训练整个PL管道。由此产生的框架与大多数最先进的网络兼容，并与PointRCNN相结合，在所有基准测试中始终优于PL-在提交时获得KITTI基于图像的3D对象检测排行榜上的最高我们的代码将在https://github.com/mileyan/pseudo-LiDAR_e2 e提供。1. 介绍自动驾驶中最关键的组件之一是3D物体检测：自动驾驶汽车必须准确地检测和定位诸如汽车和行人之类的物体，以便安全地规划路径并避免碰撞。为此，现有算法主要依赖于LiDAR（光检测和测距）作为输入信号，其提供周围环境的精确3D点云。然而，LiDAR非常昂贵。一个64梁的模型很容易比单独的汽车成本更高，这使得自动驾驶汽车对普通大众来说贵得令人望而却步一个解决方案是探索替代传感器，如com-*平等捐款图1：我们的端到端管道的有效性说明。绿色边界框是汽车的地面实况检测。黄色点是来自LiDAR的点。粉色点云是从独立训练的深度估计器生成的，其不准确并且位于绿色框之外通过进行深度估计和3D对象检测端到端，我们获得了更好的蓝色点云。在此基础上，对象检测器可以产生最先进的性能。modity（stereo）cameras.虽然激光雷达仍然存在明显的差距，但在过去的一年里，这是一个取得非凡进展的领域[14，20，29，36，46，45]。例如，伪LiDAR（PL）[36，45]将从立体图像估计的深度图转换为3D点云，然后应用（任何）现有的基于LiDAR的检测器。伪激光雷达从两端[2，15，30，34，45]获得了最先进算法的优势，实现了最高的基于图像的3D检测精度（34. 1%，42。4%在中度情况下）在KITTI排行榜上[10，11]。虽然伪激光雷达的模块化在概念上很吸引人，但两个独立训练的组件的组合可能会产生不期望的性能影响。特别地，伪LiDAR需要两个系统：深度估计器，通常在通用深度估计（立体）图像语料库上训练;以及对象检测器，在从所得到的深度估计转换的点云数据上训练。两个训练目标不太可能针对最终目标最佳地对准，以最大化最终检测精度。例如，深度估计器通常是58815882卡利训练的损失，惩罚所有像素的错误平等，而不是集中在感兴趣的对象。因此，它可能会过度强调附近或非对象像素，因为它们在数据中被过度表示。此外，如果训练深度网络来估计视差，则其固有误差将针对遥远的对象而加剧[45]。为了解决这些问题，我们建议设计一个端到端训练的3D对象检测框架，同时保留伪激光雷达的模块化和兼容性为了在最终损失上实现基于反向传播的端到端训练，深度估计器和对象检测器之间的表示变化（CoR）必须相对于估计的深度是可区分的图2：像素分布：90%的像素对应于我们专注于两种类型的CoR模块-子采样和量化-这是兼容不同的基于激光雷达的对象检测器类型。我们详细研究了如何使每个模块有效的反向传播。具体而言，对于量化，我们引入了一种新的可微分软量化CoR模块，以克服其固有的不可微性。由此产生的框架是很容易兼容大多数现有的（希望未来）基于激光雷达的探测器和3D深度估计。我们使用两个代表性的对象检测器-PIXOR [43]（量化输入）和PointRCNN [34]（子采样点输入）-在广泛使用的KITTI ob上验证了我们提出的端到端伪LiDAR（E2 E-PL）方法。背景与汽车和人相关的10%像素（<1%的人）主要在20米的深度内。前视图检测流水线[12，23，33]，但它们中的大多数在3D中定位对象方面不再与现有技术竞争[1，4，5，3，27，18，28，37，38，39]。伪激光雷达最近提出的伪激光雷达框架大大缩小了这一差距[36，45]。与先前的基于图像的3D对象检测模型不同，伪LiDAR首先利用基于图像的深度估计模型来获得每个图像像素（u，v）的预测深度Z（u，v）。然后通过以下方式将所得深度Z（u，v）投影到3D中的物体检测数据集[10，11]。我们的结果很有希望：我们在所有评估集中改进了基准伪LiDAR管道和改进的PL++管道[45]-z=Z（u，v），x=（u-cU）·zfU，y= （v−cV）·zfV、（1）它的性能显著优于其他基于图像的3D物体探测器。在提交时，我们的E2 E-PL与PointRCNN在基于KITTI图像的3D物体检测排行榜上获得了最佳结果我们的定性结果进一步证实，端到端训练可以有效地引导深度估计器围绕对象边界细化其估计，这对于准确定位对象至关重要（参见图1）。2. 相关工作3D物体检测。关于3D物体检测的大多数工作都基于3DLiDAR点云[7，8，9，16，17，19]。26、34、35、41、42、44]。其中，在点云处理方面存在两个流：1）直接在3D中的无序点云上操作[16，30，34，47]，主要是通过应用PointNet [31，32]或/和在邻居上应用3D卷积; 2）对量化的3D/4D张量数据进行操作，这些数据是通过将点云的位置离散化到一些固定网格中而生成的[6，15，22，43]。图像可以包括在两种类型的方法中，但主要是为了补充LiDAR信号[6，8，15，21，22，25，30，40]。除了基于LiDAR的模型之外，还有基于图像的模型，这些模型大多是从2D模型开发的。其中（cU，cV）是相机中心，fU和fV是水平和垂直焦距。然后，通过利用来自两端的单独训练的最先进的算法[2，15，30，34，45]，伪LiDAR在KITTI基准上实现了最高的基于图像的性能[10，11]。我们的工作建立在这个框架之上。3. 端到端伪激光雷达伪LiDAR流水线[36，45]的一个关键优势是其即插即用模块化，这允许其结合3D深度估计或基于LiDAR的3D对象检测中的任何进步。然而，它也缺乏两个组件的端到端训练的概念，以最终最大限度地提高检测精度。特别地，伪LiDAR流水线在两个步骤中训练，具有不同的目标。首先，学习深度估计器以估计立体图像中的所有像素的通用深度;然后，训练基于LiDAR的检测器以根据由冻结深度网络生成的深度估计来预测对象边界框。如第1节所述，以这种方式学习伪LiDAR并不能很好地对齐两个组件一5883深度估计*右图像目标检测损失*3D对象检测代表权变更--联系我们∈L∈单位面积（m）单位面积（m）N单位面积（m）||左图像检测结果深度损失深度图点云/体素单元被离散化为固定网格，并且只有单元（即，0，1）或密度（即，[0，1]）记录在结果张量1中。这种方法的优点是可以直接应用2D和3D卷积来从张量中提取特征然而，这样的离散化过程使得反向传播困难。让我们考虑一个例子，其中我们给出一个点云P={p1，. . .，p，N}，目标是生成M个仓的3D占用张量T，其中每个仓m∈1，，M与固定的中心位置p_m相关联。所得张量T定义如下，当p∈Ps.t.m=argminp−pm′2图3：端到端基于图像的3D物体检测：我们引入了表示变化（CoR）层来连接深度估计网络的输出作为3D ob-i的输入。T（m）=m′0，否则。（二）目标探测网络其结果是一个端到端的管道，直接从立体图像中产生对象边界框，并允许在所有层中进行反向传播。黑色实线箭头代表向前传球;蓝色和红色虚线箭头表示对象检测损失和深度损失的反向传递。* 表示我们的CoR层能够反向传播不同表示之间的梯度。换句话说，如果一个点P落在binm中，则T（m）=1;否则，为0。生成T的前向传递也很简单。反向通过梯度信号获得检测损失然而，相对于p P或深度图Z的det（等式1）是不平凡的。具体地说，我们可以通过取梯度来获得ΔTLdetLdet相对于T. 直觉，如果不确定<0，最后，基于LiDAR的物体检测器严重依赖于物体表面上或物体表面附近的精确3D点来检测和定位物体。特别是对于由相对较少的点呈现的另一方面，学习预测所有像素深度的深度估计器可能会过度强调背景和附近的例如，在KITTI数据集[13]中，只有大约10%的像素对应于汽车和行人/骑自行车的人（图2）。在训练对象检测器时固定深度估计器会加剧这种未对准：对象检测器不知道输入中的固有深度误差，因此几乎不能正确地检测远处的对象。图3展示了我们提出的解决这些缺点的端到端管道。这里，来自误检测或误定位对象的误差信号为了能够从最终检测损失反向传播误差信号，深度估计器和对象检测器之间的表示变化（CoR）必须相对于估计深度是可微的。在下文中，我们确定两种主要类型的CoR-子采样和量化这意味着T（m）应该增加;即，应该有落入仓M的点。相比之下，如果Δ Ldet>0，则意味着T（m）应该通过将点从仓m中推出而减小。但我们如何将这些信息传递回去输入点云P？更具体地说，我们如何将每个bin的单个数字的det转换为3D中的有用信息，以便调整点云P？作为补救措施，我们建议通过引入可微分软量化模块来修改前向传递（见图4）。我们引入了一个径向基函数（RBF）周围的一个givenbinm的中心p m。代替二进制占用计数器2，我们保持箱内的点的“软”计数，由RBF加权。此外，我们允许任何给定的binm受到附近bin的局部邻域m的然后，我们相应地修改T的定义令Pm表示落入binm的点的集合，Pm={p∈P，s.t. m=argmin<$p− p<$m′<$2}。我们定义T（m，m′）来表示bin m ′ w中点的平均RBF权重。r. t. binm（更具体地，y，pm），0如果Pm′ =0;′Σǁp−pˆmǁ2- 将现有的基于LiDAR的探测器纳入伪LiDAR管道。T（m，m）=1|Pm′|e−σ2p∈Pm′如果|Pm′|>0。（三）3.1. 量化几个基于LiDAR的物体检测器将体素化的3D或4D张量作为输入[6，15，22，43]。三维点定位张量T在binm处的最终值是1对于LiDAR数据，反射强度通常也被记录。2我们注意到，反向传播的问题不能简单地通过计算等式2中的实值密度来解决。m′5884LN中国单位面积（m）∇单位面积（m）L单位面积（m）ΔT（m，m′）x伊L相对于坐标;即，（，，）。伊茨图4：量化：我们使用软或硬量化对输入的伪LiDAR（PL）点云进行体素化。绿色体素是受PL点影响的体素。具有检测损失det的正梯度的蓝色体素施加力以将点从其中心推到其他体素，而具有负梯度的红色体素施加力以将其他体素的点拉到其中心。这些力如果PL点影响红色和蓝色体素，则红色和蓝色体素处的参数只能影响PL点。软量化增加了PL点的影响区域，从而增加了力，允许来自其他体素的点被推开或拉向。因此，更新的PL点可以变得更接近地面实况LiDAR点云。从它自己的和邻近的箱子，天空的软占领。此外，我们可以通过子-T（m）=T（m，m）+1ΣT（m，m′）。（四）取样. 第二步是可选的，但在[45]中建议，因为生成的点数量要大得多|Nm|m′∈Nm我们注意到，当σ20和m= 0时，等式4恢复等式2。在本文中，我们将邻域m设置为26个相邻箱（考虑3x3x3立方体中心的bin）和σ2=0。01.在[43]之后，我们将箱的总数设置为M=700×800×35。我们的软量化模块是完全可微的。的比LiDAR的深度图：平均300，000个点在伪LiDAR信号中，而18，000个点在LiDAR信号中（在汽车的前视图中）。虽然更密集的表示在准确性方面可能是有利的，但是它们确实减慢了对象检测网络。我们采用基于角度的稀疏化方法。我们通过离散球坐标（r，θ，φ）来定义三维多面元。具体来说，我们离散θ（极角）和φ偏导数微分方程直接影响面元中的点（方位角）来模拟LiDAR光束。然后我们m（即，Pm）及其相邻仓，并实现端到端训练。例如，为了将偏导数传递到bin m ′中的点p，我们计算×T（m）×pT（m，m′）. 更重要的是，即使binm错误地不包含任何点， >0允许它将点从其他仓（比如仓m′）拖到更靠近pm的位置，更有效地校正深度误差3.2. 子采样作为体素化的替代方案，一些基于LiDAR的对象检测器将原始3D点作为输入（作为整体[34]或根据度量位置[16，41，47]或潜在对象位置[30]对其进行分组）。对于这些，我们可以直接使用由等式1获得的3D点云;然而，需要一些子采样与体素化不同，子采样更适合于端到端训练：在向后通过期间，可以简单地忽略被滤除的点;保留的点保持不变。首先，我们移除高于LiDAR信号可以覆盖的正常高度的所有3D点，例如从球面坐标落入同一bin的那些点中保留单个3D点（x，y，z）。因此，生成的点云模拟真实的LiDAR点。在反向传播方面，由于这些3D对象检测器直接处理点的3D坐标（x，y，z），因此我们可以获得最终检测损失的梯度LdetLdetLdetdet只要我们适当地记录哪些点在正向传递中被子采样或者它们如何被分组，则将梯度从对象检测器反向传播到深度估计Z（在稀疏像素位置处）可以是直接的。在这里，我们利用等式1关于z可不同的事实。然而，由于Zdet中梯度信息的高稀疏性，我们发现需要用于训练传统深度估计器的初始深度损失来联合优化深度估计器。本小节与第3.1小节一起介绍了适用于各种对象检测器的通用端到端框架。我们并不认为这一小节是一个技术贡献，但它提供了使基于点云的检测器的端到端训练成功的细节。5885L3.3. 损失为了端到端地学习伪LiDAR框架，我们将等式2替换为等式4，用于将3D或4D张量作为输入的对象检测器。对于将原始点作为输入的对象检测器，不需要特定的修改我们学习对象检测器和深度估计器，并有以下损失，L=λdetL det+λ depthL depth，其中Ldet是来自3D对象检测的损失，Ldepth是深度估计的损失。λdepth和λdet是相应的系数。检测损失检测器是组合-分类损失和回归损失，Ldet=λ clsL cls+λ regL reg，其中分类损失旨在分配正确的类别（例如，汽车）到检测到的边界框;回归损失的目的是细化框的大小、中心和旋转。假设Z是预测深度，Z是地面实况，我们应用以下深度估计损失表1：预测深度图上不同损失的梯度的统计。Ratio：渐变像素的百分比。深度损失P-RCNN损失PIXOR损失比百分之三百分之四百分之七十是说10−510−310−5总和0.1101对应的64束Velodyne LiDAR点云、立体的右图像和相机校准矩阵。公制。我们专注于3D和鸟瞰我们专注于我们报告了IoU阈值为0.5和0.7的平均精度（AP）。我们将3D和BEV任务的AP表示为AP3D和APBEV。KITTI定义了简单、中等和困难设置，在这些设置中，2D框高度小于或遮挡/截断水平大于特定阈值的对象将被忽略。硬（中等）设置包含中等和易（容易）设置中的所有对象。基线。我们比较七个基于立体的3D物体检测器：[36 ]第36话：我的世界，我的世界1L深度=Σ（Z（u，v）−ZL I DAR ++（PL++）[45]、3DOP [4]、S-RCNN [20]、RT3DS TEREO[14]、 OC-S TEREO [29]和MLF-|（u，v）∈ A|(u,v)∈A其中A是具有地面实况深度的像素的集合（x）是平滑L1损失，定义为.0的情况。5x2，如果|X| 1<个;立体声[39]。对于PSEUDO-LIDAR ++，我们仅与其仅图像方法进行比较。4.2.我们的方法我们的端到端管道有两个部分：立体深度估计和3D物体检测。在训练中，我们首先学习（x）=|-0。|− 0. 5、否则（五）只有立体深度估计网络得到一个深度估计先验，然后我们固定深度网络，并使用其我们发现，深度损失与对象检测可能仅影响部分像素（由于量化或子采样）。毕竟，我们希望更准确地估计（遥远）物体周围的深度，但不要牺牲背景和附近物体的深度精度。4. 实验4.1. 设置数据集。我们在KITTI对象检测基准[10，11]上评估了我们的端到端（E2 E-PL）方法，该基准包含3，712，3，769和7，518张图像用于训练，验证和测试。KITTI为每个图像提供3深度损失可以被看作是一个正则化器，以保持深度估计器的输出在物理上有意义。我们注意到，3D物体检测器设计有感应偏置：输入是精确的3D点云。然而，由于神经网络的容量很大，仅用检测损失端到端地训练深度估计器和对象检测器可能会导致它们之间的任意表示，这会打破归纳偏差，但实现较低的训练损失。因此，所得到的模型将具有比与深度损失一起训练的模型更差的测试损失。输出以从头开始训练3D对象检测器。最后，我们联合训练的两个部分与平衡的损失重量。深度估计。我们应用SDN [45]作为骨干，估计密集深度图Z。我们遵循[45]预先训练SDN在合成场景流数据集[24]上，并在KITTI的3，712个训练图像上对其进行微调。我们通过将相应的LiDAR点投影到图像上来获得深度地面实况Z目标检测。我们应用两种基于LiDAR的算法：PIXOR[43] （基于体素，具有量化）和 PointR-CNN （ P-RCNN）[34]（基于点云）。我们使用P-RCNN的发布代码。我们从[45]的作者那里获得了PIXOR的代码，它有轻微的修改以包括视觉信息（表示为PIXOR）。联合训练。我们将深度估计和对象检测网络设置为可训练的，并允许检测丢失的梯度反向传播到深度网络。我们研究了梯度的检测和深度损失w.r.t.预测深度图Z以确定超参数λdepth和λdet。对于每一个损失，我们计算整个深度图上具有梯度的像素的百分比，5886−表2：KITTI验证集上的3D物体检测结果。我们报告了汽车类别的AP BEV/ AP 3D（%），对应于鸟瞰图和3D对象检测的平均精度。我们根据输入信号排列方法：S用于立体图像，L用于64光束LiDAR，M用于单目图像。PL代表PSEUDO-LIDAR。我们的端到端PSEUDO-LIDAR结果显示为蓝色。使用64波束LiDAR的方法是灰色的。最好用彩色观看。检测算法输入IoU = 0.5IoU = 0.7容易中度硬容易中度硬3DOP [4][20]第20话我的世界OC-S TEREO [29日]SSss55.0/46.0-87.1/85.890.0/89.741.3/34.653.7/47.474.1/66.380.6/80.034.6/30.1-58.9/57.271.1/70.312.6/6.6-68.5/54.177.7/64.19.5/5.119.5/9.848.3/36.766.0/48.37.6/4.1-41.5/31.151.2/40.4PL：P-RCNN [36]PL++：P-RCNN[45]E2E-PL：P-RCNNSSS88.4/88.089.8/89.790.5/90.476.6/73.783.8/78.684.4/79.269.0/67.877.5/75.178.4/75.973.4/62.382.0/67.982.7/71.156.0/44.964.0/50.165.7/51.752.7/41.657.3/45.358.4/46.7[36]第三十六话PL++：PIXOR[45]E2E-PL：PIXORSSS89.0/-89.9/-94.6/-75.2/-78.4/-84.8/-67.3/-74.7/-77.1/-73.9/-79.7/-80.4/-54.0/-61.1/-64.3/-46.9/-54.5/-56.7/-P-RCNN [34][43]第四十三话LL + M97.3/97.394.2/-89.9/89.886.7/-89.4/89.386.1/-90.2/89.285.2/-87.9/78.981.2/-85.5/77.976.1/-配料在训练过程中，我们进一步收集深度图上梯度的平均值和总和，如表1所示。深度损失仅影响深度图的3%，因为从LiDAR获得的地面实况是稀疏的。由于密集PL点云上的子采样，P-RCNN损失只能影响4%的深度图。对于PIXOR损失，我们的软量化模块可以将梯度反向传播在我们的实验中，我们发现平衡检测和深度损失之间的梯度之和对于使联合训练稳定至关重要。我们仔细地设置了λdepth和λdet，以确保在训练开始时总和在相同的尺度上对于 P-RCNN ，我们设置λdepth=1和λdet=0。01;对于PIXOR，我们λdepth=1且λdet=0。1.一、4.3. 结果在KITTI验证集上。KITTI验证集的主要结果总结见表2。可以看出，1）所提出的E2 E-PL框架一致地改进了使用二次采样点输入（P-RCNN）的模型和使用量化输入（PIXOR卷积）的模型上的对象检测性能。2）虽然当以非端到端的方式训练时，基于量化的模型（PIXOR）的性能比基于点云的模型（P-RCNN）差，但端到端的训练大大减少了这两种类型的模型之间的性能差距，特别是对于0的IoU。5：在中度病例中，这两种模型之间关于AP BEV的差距从5减小。4%至0。百分之四如表1所示，在深度图上，从PIXOR卷积检测器的损失中流出的梯度比从P-RCNN检测器的损失中流出的梯度要密集得多，这表明更多的梯度信息是有益的。3）对于IoU为0.5的轻中度病例，E2 E-PL：PIXOR雷达的性能与使用LiDAR的PIXOR雷达表3：KITTI测试集上的3D物体（汽车）检测结果。我们将E2 E-PL（蓝色）与从KITTI排行榜检索的现有结果进行比较，并在IoU=0.7时报告APBEV/AP3D。方法容易中度硬S-RCNN [20]61.9/47.641.3/30.233.4/23.7[14]第十四话58.8/29.946.8/23.338.4/19.0OC-S TEREO [29日]68.9/55.251.5/37.643.0/30.3PL [36]67.3/54.545.0/34.138.4/28.3PL++：P-RCNN [45] 78.3/61.158.0/42.451.3/37.0E2E-PL：P-RCNN79.6/64.858.8/43.952.1/38.1PL++：PIXOR [45]70.7/-48.3/-41.0/-E2 E-PL：PIXOR键71.9/-51.7/-43.3/-在KITTI测试设备上。表3显示了KITTI测试集的结果。通过在每种检测器类型上应用我们的E2 E-PL框架，我们观察到相同的一致性能在提交时，E2 E-PL：P-RCNN在基于图像的模型上实现了最先进的结果。4.4. 消融研究我们使用表4中的P-RCNN对基于点云的管道进行消融研究。我们将管道分为三个子网：深度估计网络（ Depth ）、区域提议网络（ RPN ）和区域 CNN（RCNN）。我们在最后的联合训练阶段将子网（及其相应的损失）设置为可训练，从而尝试子网的各种组合第一行用作基线。在第二行到第四行中，结果表明，简单地用更多的迭代独立地训练每个子网络并不能提高准确性。在第五行中，联合训练RPN和RCNN（即，P-RCNN）没有显著的改进，因为深度的点云没有更新，仍然有噪音。在第六5887||Bev表4：使用P-RCNN对基于点云的管道进行消融研究。我们报告了汽车类别的AP BEV/ AP 3D（%），对应于鸟瞰图和3D检测的平均精度。我们将P-RCNN的管道分为三个子网络：深度、RPN和RCNN。这意味着我们将子网络设置为可训练的，并在联合训练中使用其相应的损失。我们注意到后面的子网络的梯度也将反向传播到前面的子网络。例如，如果我们选择Depth和RPN，RPN的梯度也会反向传播到Depth网络。每列的最佳结果显示为蓝色。最好用彩色观看IoU = 0.5IoU = 0.7深度RPNRCNN容易中度硬容易中度硬√89.8/89.783.8/78.677.5/75.182.0/67.964.0/50.157.3/45.3√89.7/89.583.6/78.577.4/74.982.2/67.864.5/50.557.4/45.4√89.3/89.083.7/78.377.5/75.081.1/66.563.9/50.057.1/45.2√√89.6/89.483.9/78.277.6/75.281.7/68.263.4/50.457.2/45.9√√90.2/90.184.2/78.878.0/75.781.9/69.164.0/51.257.7/46.1√√89.3/89.183.9/78.577.7/75.281.3/69.464.7/50.757.7/45.7√√√89.8/89.784.2/79.178.2/76.584.2/69.965.5/51.058.1/46.290.5/90.484.4/79.278.4/75.982.7/71.165.7/51.758.4/46.7我们用RPN联合训练深度，但结果也没有多大改善。我们怀疑RPN的损失不足以指导深度估计的改进通过将三个子网络组合在一起，并使用RCNN，RPN和深度损失来细化三个子网络，我们得到了最好的结果（除了两种情况）。对于具有软量化的基于量化的管道，我们也进行了类似的消融研究，如表5所示。由于PIXOR是一个单级检测器，我们将管道分为两个部分：深度和检测器。类似于基于点云的管道（表4），简单地用更多的迭代独立地训练每个组件并没有改进。然而，当我们联合训练这两个组件时，我们看到了显着的改进（最后一行）。这证明了我们的软量化模块的有效性，该模块可以反向传播检测器损失以影响预测深度图上的70%像素。更有趣的是，单独应用软量化模块而不进行联合训练（第一行和第二行）不会比PL++改进，甚至优于PL++：采用硬量化的PIXOR插值（其结果为89。9/79。778 4/61。一百七十四。7/54。5，表2）。但随着通过软量化实现的联合端到端训练，E2 E-PL ： PIXOR迭代始终优于单独训练的 PL++ ：PIXOR迭代。4.5. 定性结果我们展示了基于点云和基于量化的管道的定性结果深度可视化。我们将预测的深度图和通过图5中的基于量化的流水线从深度图转换的对应点云可视化。对于第一行中所示的原始深度网络，由于地面实况非常稀疏，因此深度预测不准确，并且我们在汽车顶部表5：基于量化的管道上的消融研究（使用PIXOR？？）我们在IoU = 0时报告AP。5/0。7（%）汽车类。我们将管道分为两个子网络：深度和探测器这意味着我们将子网络设置为可训练并在联合训练中使用其相应的损失。每列的最佳结果显示为蓝色。最好用彩色观看。深度检测器容易中度硬√89.8/77.078.3/57.769.5/53.8√89.9/76.978.7/58.069.7/53.9√√90.2/78.179.2/58.969.6/54.294.6/80.484.8/64.377.1/56.7全景放大点云PL++E2E-PL输入图5：深度估计的定性结果。PL++（仅图像）在顶部有许多错误估计的像素，车通过应用端到端训练，汽车周围的深度估计得到了改善，相应的伪LiDAR点云具有更好的质量。（请放大以获得更好的视图。在汽车顶部的点。通过应用端到端的联合训练，汽车上的检测损失加强了深度网络，以减少错误估计，并指导它生成更准确的点云。如第二行所示，深度预测质量和点云质量都大大提高。最后一行是输入图像5888图6：鸟瞰图的定性结果。红色边界框是地面实况，绿色边界框是检测结果。PL++（仅图像）错过了许多遥远的汽车，并且边界框定位很差。通过应用端到端训练，我们得到了更准确的预测（第一列和第二列），并减少了假阳性预测（第三列）。到深度网络，特定汽车的放大补丁，及其相应的激光雷达地面实况点云。检测可视化。我们还显示了检测结果的定性比较，如图6所示。在BEV中，地面实况边界框标记为红色，预测标记为绿色。在第一示例（列）中，伪LiDAR ++（PL++）错过了中间的一辆汽车，并且给出了远处汽车的差的定位。我们的E2 E-PL可以检测到所有的汽车，并对最远的汽车进行准确的预测。对于第二个示例，结果对于远处的汽车是一致的，其中E2 E-PL检测到更多的汽车并更准确地定位它们。即使对于附近的汽车，E2 E-PL也提供了更好的结果。第三示例指示仅存在一个地面实况汽车的情况我们的E2 E-PL没有任何假阳性预测。4.6. 其他结果速度我们的方法的推理时间类似于伪激光雷达，并由立体和检测网络决定。软量化模块（具有26个相邻的仓）仅计算点和27个仓（每个场景大约N=300，000个点）之间的RBF权重复杂度为O（N），并且两个步骤都可以并行。使用带有PyTorch实现的单个GPU，E2E-PL：P-RCNN需要0.49秒/帧，E2 E-PL：PIXOR解码需要0.55秒/帧，其中SDN（立体声网络）需要0.39秒/帧，并且值得进一步研究以加速它（例如，通过代码优化、网络修剪等）。他人更多详情和结果见补充材料。5. 结论与讨论在本文中，我们介绍了伪LiDAR的端到端训练框架[36，45]。我们提出的框架可以用于直接点云输入或量化结构化输入的3D对象检测器。由此产生的模型在基于图像的3D物体检测方面开创了新的技术水平，并进一步缩小了基于立体和LiDAR的传感器之间的精度差距。虽然除了被动相机外，还包括像LiDAR这样的主动传感器可能总是有益的[45]，但这种好处可能很快就会太小而无法证明巨额费用的合理性。考虑到KITTI基准，值得注意的是，立体图像具有相对低的分辨率，并且只有很少的图像包含（标记的）远处的对象。相当合理的是，具有更高比率的远处车辆的更高分辨率图像将导致进一步的检测改进，特别是在硬（远处和严重遮挡）类别中。致谢这项研究得到了国家科学基金会NSF（III-1618134，III-1526012，IIS-1149882，IIS-1724282和TRIPODS-1740822）、国防部海军研究办公室（N 00014 -17-1-2175）、比尔和梅林达盖茨基金会（Billand Melinda Gates Foundation ）和康奈尔材料研究中心（Cornell Center for Materials Research），由NSF MRSEC计划（DMR-1719875）资助。我们感谢Zillow和SAP AmericaInc.的慷慨支持。5889引用[1] FlorianChabot、MohamedChaouch、JaonaryRabarisoa 、 Ce'lineTeulie`re 和 ThierryChateau 。Deepmanta：一个从粗到细的多任务网络，用于从单目图像进行联合2D和3D车辆分析。在CVPR，2017年。2[2] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。一、二[3] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR，2016年。2[4] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun.用于精确对象类别检测的3D对象建议。2015年，在NIPS中。二、五、六[5] Xiaozhi Chen ， Kaustav Kundu ， Yukun Zhu ， HuiminMa，Sanja Fidler，and Raquel Urtasun.使用立体图像进行精确对象类检测的3D对象建议。TPAMI。2[6] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。二三五[7] Yilun Chen，Shu Liu，Xiaoyong Shen，and Jiaya Jia.快点r-cnn.在ICCV，2019年。2[8] Xinxin Du ， Marcelo H Ang Jr ，Sertac Karaman ， andDaniela Rus.车辆三维检测通用流水线。在ICRA，2018年。2[9] Martin Engelcke、Dushyant Rao、Dominic Zeng Wang、Chi Hay Tong和Ingmar Posner。Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测在ICRA，2017年。2[10] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013. 一、二、五[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。一、二、五[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 2[13] Jinyong Jeong 、 Younggun Cho 、 Young-Sik Shin 、Hyunchul Roh和Ayoung Kim。复杂的城市数据集，具有来自高度多样化城市环境的多层次传感器。TheInternational Journal of Robotics Research，38（6）：6423[14] HendrikKo¨nigshof、NielsOleSalscheider和ChristophhStiller。使用立体视觉和语义信息的自动驾驶实时3d 目标检测。 2019 年 IEEE 智能交通系统会议（ITSC），2019年。一、五、六[15] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven Waslander。从视图聚合的联合3d建议生成和在IROS，2018年。一、二、三[16] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在CVPR，2019年。二、四[17] 波丽用于点云中车辆检测的3D全卷积网络。在IROS，2017年。25890[18] 李步宇，欧阳万里，卢胜，曾星宇，王晓刚.Gs3d：一个用于自动驾驶的高效三维物体检测框架。在CVPR，2019年。2[19] 李波，张天磊，田霞。使用全卷积网络的3d激光雷达车辆检测。机器人：科学与系统，2016年。2[20] Peiang Li，Xiaozhi Chen，and Shaojie Shen.

下载后可阅读完整内容，剩余1页未读，立即下载