伪激光雷达的单目3D物体检测方法缺乏可靠性的分析和改进措施

19 浏览量更新于2023-10-13 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3225单目3D物体检测的伪激光雷达方法是否缺乏可信度AndreaSimonelli1SamuelRotaBulo`2LorenzoPorzi2PeterKontschieder2ElisaRicci11University of Trento，Fondazione Bruno Kessler2Facebook Reality Labs摘要基于伪激光雷达的单目3D物体检测方法由于在KITTI3D基准测试中表现出的性能增益，特别是在通常报告的验证分割上，在社区中受到了相当大的关注。这产生了一种扭曲的印象，对伪激光雷达为基础的（PL为基础的）方法的优越性，在方法与RGB图像只工作。我们的第一个贡献在于纠正这一观点，指出并表明实验验证结果公布的 PL 为基础的方法是substantially偏置。偏差的来源在于KITTI 3D对象检测验证集和用于训练深度预测器的训练/验证集之间的重叠，所述深度预测器馈送基于PL的方法。令人惊讶的是，在地理上消除重叠之后这使得测试集成为唯一可靠的比较集，其中已发布的基于PL的方法并不出色。我们的第二个贡献带来了PL为基础的方法备份的排名与一个新的深度架构，介绍了一个3D的信心预测模块的设计。我们表明，来自RGB的3D检测方法的3D置信度估计技术可以成功地集成到我们的框架中，更重要的是，改进的性能，可以得到一个新设计的3D置信度措施，导致国家的最先进的性能KITTI3D基准测试。1. 介绍通过提供关于3D空间中的对象的姿态、位置和类别的信息，3D对象检测构成了用于如自动驾驶或增强现实的应用的使能技术。为了获得准确的定位性能，现有的解决方案依赖于从立体相机推断或从光检测和测距（LiDAR）传感器导出的深度信息。两种变型的缺点是成本增加、所涉及的重新校准例程的必要性以及由于制造约束而对产品设计形状因子的抑制。图1：KITTI3D确认和测试集1上最先进的3D检测方法的性能。基于RGB的方法（橙色圆圈）在两组之间表现出低的性能差异，而基于伪LiDAR的方法（绿色三角形）在验证上比在测试上表现好得多（高达10AP）。这表明偏置，我们通过蓝色色调的色图显示这些结果还表明，性能最佳的基于RGB的方法通常受益于利用3D置信度（圈出的橙色圆圈），这是尚未在任何基于PL的方法中引入的组件为了克服这些问题，3D物体检测方法的新兴分支完全基于单目相机[1，9，19，20，25，27，29]。单目相机是昂贵的LiDAR或立体设置的廉价替代品，但同时，由于缺乏深度观察，导致算法复杂性大幅增加。事实上，准确估计物体1我们以中等难度的Car级的表现作为参考，用AP计算|R40公制即在官方KITTI3D基准测试中用作参考的一个。3226基于3D对象检测，使其成为不适定问题。尽管开发了专注于增加关于距离的泛化的方法[1，27]，但基于单目图像的方法仍然远远落后于其LiDAR或基于立体的对应物。最近的一系列工作 [20 ， 31]利用卷积神经网络（CNN）进行基于图像的深度预测，作为单目3D对象检测算法中的深度替代。伪激光雷达（PL）[29，32]被推广为特别有效的深度表示，在具有挑战性的KITTI3D基准测试中报告了令人印象深刻的结果[8]。它基本上通过将每个2D像素从其对应的估计深度图投影到3D空间中来模拟RGB图像的LiDAR信号。利用所得到的3D点云，3D检测任务通常通过应用最先进的基于LiDAR（并且因此基于3D点）的检测算法来实现。PatchNet [18]最近通过提供基于将3D世界坐标堆叠为2D地图的等效执行实现，驳斥了3D点作为PL有效性的来源虽然这消除了PL由于其基于3D点的表示而具有优势的声明，但它们的消融证实了在结合相机本质（焦距和主点）的变换的2D图像坐标上操作的重要性在本文中，我们认为，PL为基础的方法，更一般的方法，以深度作为输入，介绍了扭曲的看法，在研究界对他们的表现在单眼设置方面的其他国家的最先进的方法，仅使用我们确定了这个问题背后的两个主要原因，这构成了本文的两个主要贡献。第一次捐款。最新的基于PL的方法在KITTI3D验证集上报告了优异的性能，但在测试集上没有显示出相同的增益。在这项工作中，我们进行了深入的实验研究，以分析这种不一致背后的原因，并证明，表现最好的PL为基础的方法采用的训练协议，人为地导致高平均精度的验证集。问题在图中是明显的。1，其中基于PL的方法（绿色三角形）的KITTI3D验证和测试集性能之间的差异比基于RGB的方法（橙色圆圈）明显得多。实际上，基于PL的方法严重依赖的深度估计算法通常通过包括用于3D对象检测的约30%的验证集数据来训练。尽管这个问题在[29，28]中被简要提及，但这个有偏差的训练协议后来被用于许多后续的基于PL的方法中。这清楚地表明了更详细的分析，我们在本文中提供的社会的必要性和相关性。第二贡献。公平比较的结果基于PL的方法与仅基于RGB的方法的测试集KITTI3D基准上的方法目前更倾向于后者。在另一方面，我们发现，已公布的基于PL的方法由于完全缺乏适当的3D置信度得分而受到惩罚，如图所示。1（圈出的橙色圆圈），正在成为最先进的仅RGB方法的基本组成部分。在本文中，我们提出，第一次，赋予PL为基础的方法与预测的3D信心的机制，表现出显着的性能增益。特别是，我们表明，在之前仅基于RGB的方法[25]之后，在PL的情况下，也可以通过直接回归预期损失来训练3D置信度。虽然这在实践中工作得很好，但它对损失的规模很敏感，因此需要一些超参数调整。此外，随着训练向过度拟合的方向发展，它会变得过于自信。本着解决这两个问题的精神，我们开辟了一个新的方向，并成功地探索了以相对术语表达3D置信度的可能性。我们的新发现提高了性能，并在KITTI3D基准上设置了新的最先进水平。2. 相关作品用于单目3D对象检测的当前方法可以大致分为两类：直接解决对象距离估计的不适定问题的仅RGB方法，以及利用自动估计的深度图或点云来恢复距离信息的基于PL的方法。单目仅RGB 3D探测器。用于单目仅RGB 3D检测的早期方法（诸如SSD-6D [10]和Deep3DBox [21]）建立在用于2D检测的现有技术深度架构之上，并且利用来自投影几何的信息来估计场景中的对象的3D姿态和位置。Mono3D [2]从生成3D建议并根据几个线索（如语义分割特征、对象轮廓和位置先验）对其进行评分的想法发展而来。OFT-Net [24]通过考虑正交特征变换来操作，以将2D特征图映射到鸟瞰图。Mono-GRNet [23]同时估计2D边界框，实例深度，对象的3D位置和局部角点。GS3D [13]利用现成的2D对象检测器，并有效地为每个预测的2D框计算粗长方体，然后对其进行细化以估计3D边界框。MonoPSR[11]联合利用3D提案以及尺度和形状估计来准确地从2D边界框预测3D边界框。最近，很少有人提出单级深度架构[1，27]。M3 D-RPN [1]同时生成2D和3D对象建议，并开发后处理优化和深度感知网络以提高定位精度。MoVi-3D [27]3227轻量级体系结构，其利用自动生成的虚拟视图，其中对象外观相对于距离被标准化以便于检测任务。Liu等[17]提出了SMOKE，这是一种深度架构，它通过依赖关键点估计作为中间任务来预测3D边界框。MonoDIS[25]表明，通过考虑损耗分离，可以提高3D检测网络的训练收敛性和检测精度。在[25]中，还引入了用于检测的3D置信度以提高性能。在本文中，我们将展示如何将这一概念扩展到PL，并进一步改进引入一个相对的置信度。伪激光雷达3D探测器第二类工作利用外部数据和网络模型来从RGB输入生成深度图，作为用于3D检测的中间步骤。例如，R 0 I-10 D [20]引入损失以最小化3D边界框的未对准，并利用利用SuperDepth [22]推断的深度图。视差预测模块在[ 31 ]中被考虑并且被集成到由两个部分组成的网络中：一个生成2D区域建议，另一个预测3D对象位置、大小和方向。伪激光雷达[29]代表了第一种PL方法，引入了将深度图解释为3D点云的想法，然后将其馈送到最先进的基于LiDAR的3D对象检测器。在[29]也有人提出可能存在绩效偏差，但缺乏深入的实验研究。伪激光雷达++ [32]通过调整立体网络架构并导出直接深度估计的损失函数，提高了远处物体定位的准确性。AM3D [19]提出将补充RGB特征集成到PL流水线中，并引入特定模块以将2D图像数据映射到3D点云。PatchNet [18]分析了深度数据表示对性能的影响，并通过将3D坐标集成为输入数据的附加通道来改进先前的PL模型。然而，所有这些工作都缺乏最先进的仅基于RGB的检测器的基本组件[25]，即3D置信度的估计。3. 预赛我们首先回顾单目3D对象检测任务，并介绍KITTI数据集[8]-我们还报告了KITTI的实验分析结果，强调了深度估计对最先进的基于PL的方法的性能的关键作用。3.1. 单目3D目标检测单目3D对象检测任务包括检测和定位所有感兴趣的可见对象（例如，目标对象）。汽车），通过给定单个RGB图像作为输入的3D边界框。定位必须在3D空间中完成适当地估计对象的中心的3D坐标（以米为单位）Oi=（Xi，Yi，Zi），其中Xi，Yi分别与水平和垂直平移有关，并且Zi是对象的中心距相机的距离。定位还包括估计表示对象的高度、宽度和长度的对象的度量形状Si =（Hi，Wi，Li）以及对象的旋转Riw.r.t. 相机参考系统。检测还需要估计置信度值C1，置信度值C1通常反映质量并且确定检测器关于特定3D检测的置信度。在这种单目设置中，通常假设具有校准的相机并且知道对应的固有相机参数。3.2. KITTI数据集KITTI数据集包括来自街道级序列的广泛数据集，这些数据是2011年在卡尔斯鲁厄市（德国）通过多传感器装置捕获的。传感器的显著多样性实现了许多基准，包括与这项工作最相关的3D对象检测和深度估计KITTI 3D物体检测基准测试（KITTI3D）。据我们所知，所有的3D物体检测方法，特别是基于单目图像的方法，都采用KITTI3D作为其主要的，通常是唯一的测试领域。KITTI3D基准测试由官方训练和测试部分组成，分别包括7481和7518张图像。Chen et al. [3]，通常将训练集分为非官方的训练和验证部分，分别为3712和3769张图像。KITTI为汽车、行人和骑自行车的人提供了2D和3D边界框注释，每个框都被分配到容易、中等或困难的难度级别之一，这取决于对象KITTI3D采用了两个主要的评价指标，即，3D平均精度（3D AP）和鸟瞰据报道[26]，AP |R40是唯一合法的3D检测AP分数，不赞成以前使用的AP |R11评分。深度预测基准。KITTI深度预测基准提供了官方的训练和测试分割，但通常将训练数据分割[6]为非官方的训练和验证集，分别为23488和697张图像。深度预测方法推断像素特定距离估计w.r.t.用几个度量，如绝对相对误差（AbsRel）、平方相对误差（SqRel）等来评估照相机。3.3. 深度的关键作用我们还提供了一个预言分析的结果，证明深度是最有影响力的因素，在单目3D物体检测性能。根据第二节中的定义3.1，我们使用KITTI3D预测3228类别Oracle子任务M3D-RPN容易Mod.[1]第一章硬Monodis [26]容易Mod.硬-12.7814.7113.4722.6334.5310.3611.7810.5217.4728.358.079.268.2613.4822.5116.7117.2716.7529.5945.9912.3212.7612.5622.1738.0210.5811.4511.2919.3133.48R基于rgbHWLX YZ类别Oracle子任务Wang等人容易Mod.[29日]硬PatchNet [18]容易Mod.硬-23.7124.0425.7333.7653.7112.4013.3914.5020.3735.1510.6111.1311.6417.2229.3831.1531.6034.1944.2359.8116.2317.4319.0125.6241.9313.4914.5815.5821.7635.94R基于伪激光雷达HWLX YZ表1：Oracle分析。我们计算了物体检测结果（Car 3DAP |R40）的最先进的方法，通过取代选定的预测组件（Oracle）与其相应的地面实况值（例如 Z）。3D对象检测器深度估计器确认集3D AP↑容易Mod.硬测试集3D AP↑容易Mod. 硬Wang等人[29]BTS Eigen24.4713.4010.929.876.405.46PatchNet [18]BTS Eigen31.6018.2215.1014.008.707.39Wang等人[29]BTS GeoSep17.209.357.5710.766.865.93PatchNet [18]BTS GeoSep20.7910.558.9010.887.426.51表2：KITTI3D验证和官方基准测试的伪激光雷达结果，Car级，官方AP |R40公制。列车组验证集d1↑AbsRel↓RMSE↓SILog↓本征特征验证0.9080.0844.00316.577本征探测培训0.9260.0673.80615.250本征检测确认0.9200.0723.83816.063GeoSepGeoSep验证0.9040.0933.62714.019GeoSep探测培训0.8580.1114.83015.960GeoSep检测确认0.8720.1054.42915.872表3：在KITTI上使用BTS的深度估计结果，计算w.r.t.从激光雷达扫描获得的地面实况深度的状态的最先进的单目3D物体检测方法[1，18，25，29]，并通过替换子任务预测（例如，深度）与其对应的地面实况值。在选项卡中。1，我们表明，某些子任务，如旋转（R）和形状（W，H，L）预测，尽管用地面实况值替代，并没有显着提高性能。相比之下，用地面实况替换预测的深度估计（Z）大大改善，这意味着深度是迄今为止3D对象检测的最关键的分量。值得注意的是，该观察结果对于所有不同的测试方法是一致的4. 伪激光雷达实验随着深度被识别为单目3D检测工作中最关键的组成部分，很明显，基于PL的方法对以有偏的方式训练的深度估计器的输入特别敏感。4.1. 偏见的来源据我们所知，到目前为止发表的所有基于PL的方法都是在KITTI3D [8]数据集上进行评估的，如第2节所述。3.2，在几个基准之间共享数据，如3D对象检测和深度预测。然而，随着PL的出现，在特定于任务的数据集分割中识别交叉授粉的潜在来源至关重要。我们的调查表明，以前，PL为基础的作品 [29，32，18]在DORN的顶部[7]，I.E.最先进的深度估计器，然而，其又在其训练期间包括来自检测验证集的大多数图像具体来说，我们找到了1226/3769（32.5%）图像将在广泛采用的Eigen等人训练分割[6]用于深度估计和常用Chenet al. [3]用于3D对象检测的验证分割。当还添加属于相同捕获序列的图像时，数量略微增加到1258/3769（33.4%）。我们在图中说明了污染的全部范围。2，绘制GPS位置并因此绘制不同分裂的重叠（Eigen et al.深度训练分割为黑色; Chen等人用于3D对象检测的验证分割为红色）。在选项卡中。在图2中，我们显示了污染对两种现有技术PL方法的验证和测试分数的影响[29，18]。对应于Eigen的行基于作为输入的偏置深度，其使用在Eigen等人上训练的BTS [12]生成。分裂我们依赖BTS[12]，因为它代表了一种新颖的最先进的深度估计器1。获得的验证和测试分数之间的巨大性能下降（高达17.6 AP）清楚地表明了这里讨论的偏差问题的相关性。4.2. 偏见可以消除吗？如上所述，在基于PL的方法所使用的深度训练和检测验证集之间存在污染。为了进一步支持我们的假设，即这种污染会导致KITTI3D验证分数的偏差，我们引入了两个数据集之间的地理分离。我们创建了一个新的深度训练集GeoSep，在用于深度估计和检测的数据集之间执行显著的空间分离利用包含在可用KITTI基准数据中的GPS信息，我们通过从任何检测图像中选择超过200 m捕获的图像来创建两个新的列车/列车深度分割（更多详细信息见参考资料）。我们新的GeoSep数据分割在图中可视化。2（绿色标记），显示深度训练之间的明显安全裕度（Eigen et al. [6]，黑色标记）和对象检测验证（红色标记）分割。1与PL方法通常使用的深度估计器不同I.E. DORN [7]，其官方培训代码尚未公开，BTS提供了完整的开源代码（https://github.com/ cogaplex-bts/bts）3229图2：有偏训练（黑色）、检测验证（红色）和地理上分开的（绿色）深度训练分割的地理分布。方形框突出显示了偏置深度训练集和检测验证集之间的重叠特别明显的部分。为了验证我们的新分裂是否解决了偏差问题，我们使用它来训练深度估计模型。我们使用BTS [12]作为深度预测网络，并且再次考虑[29]和[18]中最先进的PL方法我们的分析结果显示在Tab.3和Tab。2，仍然指示在深度估计和3D检测结果两者中存在偏差令我们非常惊讶的是，尽管训练分割之间缺乏地理交叉，但与使用仅RGB输入的方法通常产生的差距（≈3-5 AP）相比，验证和测试结果之间的差距这表明了一种更结构化的污染形式，它超出了数据的简单地理分布，可能与内在因素有关，如场景的视觉外观和语义相似性（例如类似的街道）。图3：我们的方法的定性结果与每个检测的置信度得分上图：我们报告了基于PL的方法通常使用的2D底部：我们报告了通过我们的方法预测的学习的3D置信度。使用两种深度训练分割（Eigen或GeoSep）的偏倚持续性使我们得出结论，至少在这些设置中，不应对KITTI3D验证集进行公平比较。另一方面，已公布的基于PL的方法不能超过最先进的仅基于RGB的方法的事实5第一块）是测试集本身不遭受相同类型的偏差的指示，因此为了公平比较而保持其有效性。根据这些结论，与我们的第二个贡献相关的所有比较将在官方测试集上进行，而确认集将用于消融研究。尽管我们的研究仅部分确定了偏见的来源，但这项工作提供了对该问题的第一次分析，揭示了潜在的不公平比较，我们鼓励社区在未来的工作中考虑到这一点。5. 基于PL的方法如前一节所述，基于PL的方法的性能深受上游深度估计任务的影响。我们现在将证明3D置信度的估计具有同样相关的作用。3D置信度可以被认为是对3D检测的质量的估计，如在第12节中所描述的。3.1，必须与每个3D边界框相关联。在诸如KITTI3D之类的数据集中，这种置信度在度量的计算中起着积极的作用（例如：平均精度）。鉴于这一事实，我们观察到现有的伪LiDAR方法不以任何方式执行3D置信度估计通过这样做，当前基于PL的方法所采用的置信度实际上对于3D预测的质量是不可知的，因此对于它应该发挥的作用是无效的。除此之外，如图所示3，我们观察到2D探测器通常过于自信，因此对3D置信度的需求似乎是必不可少的。出于这个原因，我们建议赋予基于PL的方法以估计3D置信度。5.1. 建议的体系结构为了描述如何估计置信度，我们首先提供了我们采用的一般架构的概述，类似于其他基于PL的方法[29，18]，随后详细介绍了我们的贡献。基于PL的3D检测架构。通常采用的架构由国家的最先进的PL为基础的方法，我们也在这项工作中使用，是描绘在图。4（不包括红色块，即我们的贡献）。它可以分为三个主要分支，即二维检测，伪激光雷达和三维检测。2D检测和伪LiDAR组件通常利用预先训练的架构，并且具有理解目标在哪里的目的。3230伪激光雷达分支3D检测分支RGB图像二维检测分支3D置信度分支3D盒子2D检测器2D盒Confidence 3D头部自信β我我我我我我我我深度伪点对象3D3D3D输入估计器LiDAR选择点骨干特征头输出图4：集成所提出的3D置信度分量的基于伪激光雷达的通用方法的架构感兴趣的是图像，以及估计每像素深度。然后将每像素深度图转换为伪LiDAR 3D点云，最后，选择并过滤属于每个对象的点以丢弃对应于例如道路堵塞。下面在多个对象类别的情况下，我们假设每个类别具有独立的3D置信度预测。绝对的3D信心。受[25]的启发，绝对3D置信度通过直接回归预测. 这归结为设置Tabs=e−1（Bi，Bi）3D检测块负责估计- 输出3D边界框，将所选择的PL点作为输入，以借助于初始3D主干和随后的3D头部来执行基于点的3D检测。3D置信头。在下文中，我们描述了我们的主要贡献，即一种赋予所考虑的基于PL的方法以预测自我监督的3D置信度的能力的方法。为了可靠和准确地估计边界框的3D置信度，需要计算适当的3D相关特征表示出于这个原因，在这项工作中，我们在架构中引入了一个额外的分支，即3D置信度分支，如图所示4（红色块），将由3D主干计算的3D特征集作为输入，并输出单个值Ci，即每个对象的3D置信度。在存在K >1个类的情况下，输出是K个置信度Ck的集合，每个类k一个置信度C k。请注意，我们提出的3D置信度分支不依赖于任何特定的架构，并且需要对现有PL方法进行最小的修改。简单实现的示例是通过镜像3D头部的架构，从而导致有限的计算复杂度和推理时间方面的最小5.2. 学习3D自信在本文中，我们提出了两种不同的方法进行三维置信度预测。我们表示为绝对3D置信度估计的第一种方法受到先前仅基于RGB的方法的启发[26]，而第二种策略是基于RGB的方法[ 26 ]。作为目标置信度，其中（Bi，Bi）是发生的损失并且β >0是温度参数。由于该方法导致3D置信度，该置信度反映了3D检测的绝对质量。我们称之为绝对3D信心。相对3D置信度。我们还提出了一种新的方法，其目的是克服一对夫妇的问题，影响基于损失的信心，如上述之一。第一个是它们对损失值的规模敏感，这需要调整缩放因子。第二个问题是，随着训练朝着过度拟合的方向发展，他们也不能幸免于网络变得过于自信我们通过将网络为每个预测提供的分数的语义从绝对置信度转变为相对置信度来解决这两个问题一个典型的置信度分数应该是预测的绝对质量的代表。相反，我们要求网络学习的分数代表了预测相对于网络完成的因此，该新置信度被视为相对3D置信度。考虑包含n个3D对象的训练集，其中i，（Bi，B（i）表示模型在第i个对象的预测3D边界框上产生的损失。我们支持-作为预测Bi的置信度C3D回归的姿势，训练集中模型表现等于或差于对象i的3D对象的比例，即我们的目标置信度预测由下式给出本文介绍了相对三维置信度估计方法在这两种情况下，给定一个三维边界-ingboxBi和相应的ground truthBi，损失Trel=1 Σnj=1j/=i1j≥i，对于3D置信度预测C，3D采用以下交叉熵形式：L配置（C3 D|Bi，B（i）=−TilogC3D−（1−Ti）log（1−C3 D），其中Ti是目标置信度值，其对于绝对置信度和相对置信度取不同的值，如所描述的其中1P表示谓词P的指示符向量。建议的置信度本质上是相对的，因为它确实不取决于损失的实际绝对值，而是取决于它们的排序。为了训练模型以回归新的置信度，我们需要计算小批量中每个3D对象i的Trel的值然而，为了计算n−13231我我我1.00.80.60.41.00.80.60.40.20.00.0 0.2 0.4 0.6 0.81.0三维回归损失0.20.00.0 0.2 0.4 0.6 0.8 1.0排名w.r.t. 3D回归损失表4：KITTI3D确认和测试集AP|R40结果。例如，一个近乎完美的预测可能会得到零置信度图5：训练（绿色）和验证（红色）分割的绝对（左）和相对（右）3D置信度由于x轴表示置信度应该回归的值，因此理想曲线位于对角线上在训练集上，绝对和相对置信度都遵循预期曲线。然而，在验证集上，只有相对置信度与预期曲线对齐，而绝对置信度始终高估它，表明过度自信的问题为了获得这样的目标值，我们需要访问训练集中每个3D对象上发生的损失，这在计算上是替代解决方案在于跟踪训练集中的每个3D对象的过去损失值这是可行的，但鉴于模型的频繁更新，过去的损失很快就会过时。此外，还存在增强策略，对于这些增强策略，可能难以跨时代匹配预测。有趣的是，有一个非常简单的随机过程，允许我们通过仅访问至少2个元素的小批量中的损失值来训练所需的置信度。具体地，我们将小批量中的3D对象i的边界框预测与同一集合中的另一个不同的3D对象πi获得的预测随机给定这个赋值，我们计算一个二进制tar获取用于训练置信度的值Ti，Ti=1i≤π 、把它代入我们用的交叉熵损失来培养信心。要了解为什么会这样，请在训练集中修复一个3D对象i。那么变量Ti是一个随机变量，其中πi是在训练集中的其他n-1个3D对象。因此，T i的期望值E[Ti]精确地产生Tre l。这也是预测置信度C3D将趋向的值如果用交叉熵损失L_conf训练，假设损失将在训练期间最终收敛。如果存在多个类，则我们具有每个类的独立置信度预测，并且仅在具有相同类的小批量中的3D对象如果3D对象是小批量中给定类的唯一一个，则不计算损失。相对信任的利弊。我们的分数相对置信度的作用，其不以绝对值给出作为一个极端的前-如果这是在训练集中引起最高误差的预测。同样，如果一个糟糕的预测是网络有史以来最好的预测，那么它可以获得高置信度分数我们的置信度得分的一个有趣的属性是损失的保序变换的不变性这使得分数对于损失随时间变化的场景更加稳健，这是在训练时遇到的设置此外，我们的置信度得分不会受到网络变得过于自信的问题的影响，因为我们的得分具有相对性（见图10）。（五）。缺点是，绝对置信度通常有助于基于阈值过滤预测。相对自信地做同样的事情可能会很尴尬。这就是为什么我们实际上将来自3D检测头的相对置信度分数与来自2D检测的2D绝对置信度分数相结合实际上，2D检测置信度对于去除质量差的预测效果很好，但是对于区分留下的预测的质量缺乏分辨率这就是我们的相对自信发挥作用的地方，因为它不会受到过度自信的问题的影响。6. 实验我们测试我们提出的3D置信度措施的有效性，通过考虑在两个常见的PL方法，即实现的深层架构。第一种PL方法，Wang等人。[29]，以及当前性能最好的最先进方法PatchNet [18]。我们修改他们的架构，包括我们提出的3D置信头，这在我们所有的实验中实现镜像现有的3D头。详细地，它被实现为[29]的一组全连接层和[18]的三个距离特定的全连接模块。我们遵循[18]和[29]的时间表和超参数选择，仅添加3D置信度损失，其权重为1.0。补充材料中提供了其他实施细节。我们遵循所有基于 PL 的作品的实验方案，并在KITTI3D [8]基准上评估我们的方法。所有的结果提出和报告，在这项工作中已计算与官方AP|R40公制。试验结果在选项卡中。4我们研究了3D置信度对PL-LiDAR方法的影响[29]预期列车验证预期列车验证绝对3D会议相对3D配置方法确认3D容易Mod.AP硬容易测试3D APMod.硬Wang等人24.4713.4010.9214.178.477.29+ 绝对3D会议32.4420.8417.2618.5610.999.31+ 相对3D配置34.5622.0418.8718.7411.049.41PatchNet30.5317.3312.8015.7010.158.79+ 绝对3D会议37.0423.2618.7822.2112.5110.46+ 相对3D配置38.6023.6819.5122.4012.5310.643232方法汽车3D AP简易模块硬方法深度估计器验证3D容易Mod.AP硬测试3DAP容易Mod.硬PatchNetBTS GeoSep20.7910.558.9010.887.426.51+ ABS. 3D会议BTS GeoSep23.3715.4912.7017.3810.308.78+ Rel. 3D会议BTS GeoSep24.5117.0313.2517.6910.859.37表7：验证和测试设置 AP|R40结果使用GeoSep深度训练分割获得的KITTI3D。因此对深度图质量具有负面影响在选项卡中。7我们还报告了PatchNet + 3D Confidence的结果，该结果是通过依赖在GeoSep深度训练集上训练的深度估计器获得的该表再次说明了我们在3D置信度估计方面的贡献。此外，相对于我们的第一个贡献，我们注意到验证和测试集结果之间的差距仍然存在，表明偏差问题。然而，这并不能否定我们对建议的3D置信度的有效性表5：测试集SOTA AP |R40在 K I T T I 3 D 上的官方结果。最好成绩用粗体，亚军用下划线。A=使用附加数据训练，并且仅在类Car上训练。方法Cyclist 3D AP容易Mod. 硬行人3D AP容易Mod. 硬M3D-RPN [1]0.940.650.474.923.482.94[27]第二十七话1.080.630.708.995.444.57Monodis [26]1.170.540.487.795.144.42D4LCN [5]2.451.671.364.553.422.83SS3D [9]2.801.451.352.311.781.48MonoPair [4]3.792.121.8310.026.685.53我们的-PatchNet7.794.323.983.001.811.59表6：测试集SOTA AP |R40官方结果KITTI 3D的多类方法的自行车和Pedes-trian。最好成绩用粗体，亚军用下划线。”[18]。特别是，我们使用基线方法以及添加用绝对和相对学习程序训练的3D置信度头（+ 3D置信度）来计算KITTI3D的验证和测试集上的3D对象检测度量。如表中所示，我们观察到3D AP的重大改进。这验证了我们关于在基于PL的方法中具有3D置信度预测组件相对的3D信心也始终优于绝对的，证明了我们提出的相对配方的有效性在选项卡中。5，6我们将我们的结果与KITTI3D测试集上的最新方法进行了比较。我们的方法基于PatchNet结构实现了最先进的性能的类汽车和骑自行车的，而它并没有超过以前的方法对行人。我们将这种行为归因于这样一个事实，即行人类的实例在本征深度训练中是极其罕见的7. 结论在本文中，我们已经表明，表现最好的伪激光雷达为基础的作品遭受的偏见，在报告的验证分数的KITTI3D基准。该问题的来源部分地是由于在用于训练上游深度估计器的训练集与用于3D对象检测的验证集之间存在的重叠，所述训练集向基于PL的方法提供输入中的深度。为了验证这一假设，我们通过确保检测验证集的地理分离，为深度估计器构建了一个地理分离的训练集。然而，我们发现这不足以消除验证集中的偏差，这表明存在更结构化的问题。因此，未来涉及基于PL的KITTI3D方法的工作应避免与使用验证集的其他方法进行比较分析，而是依赖于测试集。在我们工作的第二部分中，我们提供了对基于PL的方法的架构改变，旨在赋予它们预测3D置信度的能力。我们表明，通过这种简单的改变，基于PL的方法在KITTI3D基准测试上得到了显著的改进，从而建立了一种新的最新技术水平。确认我们要感谢Andreas Geiger支持我们在KITTI3D基准上的实验。我们也感谢马新柱、欧阳万里和加里克巴西分享他们的发现和有益的讨论。E. 利玛窦感谢H2020欧盟项目MARVEL -智能城市环境的多模式极端规模数据分析的财政支持OFTNet [24]1.611.321.00[第15话]2.771.511.01ROI-10D [20]4.322.021.46GS3D [13]4.472.902.47MonoGRNet [23]9.615.744.25Wang等人[29日]9.876.405.46Monodis [25]10.377.946.40MonoPSR [11]10.767.255.85Mono3D-PL [30]10.767.506.10SS3D [9]10.787.686.51MonoPair [4]13.049.998.65吸烟[17]14.039.767.84RTDM3DA [4]14.4110.348.77M3D-RPN [1]14.769.717.42[27]第二十七话15.1910.909.26PatchNet [18]15.6811.1210.17AM3D [19]16.5010.749.52Monodis [26]16.5012.2010.30D4LCN [5]16.6511.729.51Liu等人A[16]21.6513.259.91我们的PatchNet22.4012.5310.643233引用[1] 加里克巴西和刘晓明。M3 D-RPN：用于对象检测的单目3D区域建议网络。在ICCV，第9287-9296页，2019年。一、二、四、八[2] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR，2016年。2[3] 小智陈先生，考斯塔夫昆都玉坤 Zhu，AndrewG. Berneshawi，Huimin Ma，Sanja Fidler，and RaquelUrta- sun.用于精确对象类别检测的3D对象建议。2015年，在NIPS中。三、四[4] Yongjian Chen，Lei Tai，Kai Sun，and Mingyang Li.Monopair：使用成对空间关系的单目3d对象检测。在CVPR中，第12093-12102页，2020年。8[5] Mingyu Ding，Yuqi Huo，Hongwei Yi，Zhe Wang，Jianping Shi，Zhiwu Lu，and Ping Luo.用于单目3d目标检测的学习深度引导在CVPR中，第11672-11681页，2020年。8[6] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV，第2650-2658页，2015中。三、四[7] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归网络。在CVPR，2018年。4[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。二、三、四、七[9] Eskil Jorgensen，Christopher Zach，and Fredrik Kahl.单目3d物体检测和盒拟合训练端到端使用交叉-联合损失。在CVPR，2019年。1、8[10] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobodan Ilic，and Nassir Navab.SSD-6D：使基于RGB的3D检测和6D姿态估计再次变得强大在ICCV，2017年10月。2[11] 作者：Alex D.Pon，and Steven L.瓦斯兰德单目3d物体检测利用精确的建议和形状重建。在CVPR，2019年。二、八[12] Jin Han Lee，Myung-Kyu Han，Dong Wook Ko，and IlHong Suh.从大到小：用于单目深度估计的多尺度局部平面引导。arXiv：1907.10326，2019.四、五[13] 李步宇，欧阳万里，卢胜，曾星宇，王晓刚.Gs3d：一个用

下载后可阅读完整内容，剩余1页未读，立即下载