立体R-CNN：基于稀疏和密集信息的自动驾驶三维目标检测

93 浏览量更新于2023-10-18 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7644基于立体R-CNN的自动驾驶三维目标检测李培良1，陈晓志2，沈少杰11香港科技大学，2大疆pliap@connect.ust.hk，cxz. gmail.com，eeshaojie@ust.hk摘要本文提出了一种基于稀疏和密集信息、语义信息和几何信息的立体图像目标检测方法。我们的方法称为Stereo R-CNN，它扩展了Faster R-CNN用于立体输入，以同时检测和关联左右图像中的对象。我们在立体区域建议网络（RPN）之后添加额外的分支来预测稀疏关键点，视点和对象尺寸，这些关键点，视点和对象尺寸与2D左右框相结合来计算粗略的3D对象边界框。然后，我们恢复准确的3D边界框的区域为基础的光度对齐使用左，右ROI。我们的方法不需要深度输入和3D位置监督，但是，优于所有现有的完全监督的基于图像的方法。在具有挑战性的KITTI数据集上的实验表明，我们的方法在3D检测和3D定位任务上都比最先进的基于立体的方法高出约30%AP。代码将公开提供。1. 介绍3D目标检测是视觉感知、运动预测和自动驾驶规划的重要基础。目前，大多数3D对象检测方法[5，23，31，13，18]严重依赖LiDAR数据，以提供自主的精确深度信息。驾驶场景然而，LiDAR具有成本高、相对短的感知距离（约100 m）和稀疏信息（与>720p图像相比为32、64行）的缺点另一方面，单目相机提供了改变-用于3D对象检测的本地低成本解决方案[3，21，27]深度信息可以通过场景中的语义特征和物体大小等来预测。然而，推断的深度不能保证准确性，特别是对于看不见的场景。为此，我们提出了一种基于立体视觉的三维目标检测方法。与单目摄像机相比，立体摄像机能提供更精确的深度信息1我们使用粗略的3D框来表示具有精确的2D投影但不一定具有精确的3D位置的框通过左右测光对齐。与Li-DAR相比，立体相机成本低，但对具有非平凡视差的物体的深度精度相当。立体摄像机的感知距离取决于焦距和基线.因此，立体视觉具有通过组合具有不同焦距和基线的不同立体模块来提供更大范围感知的潜在能力在这项工作中，我们通过充分利用立体图像中的语义和几何信息，研究了3D对象的稀疏和密集约束，并提出了一种基于立体R-CNN的精确3D对象检测方法。我们的方法使用提出的Stereo R-CNN同时检测和关联左右图像的对象。网络架构可以在图1中概述，它可以分为三个主要部分。第一个是立体声RPN模块（第3.1），其输出相应的左RoI建议和右RoI建议。在分别对左和右特征图应用RoIAlign [8]之后，我们连接左右RoI特征以对对象类别进行分类，并在立体回归中回归准确的2D立体框、视点和尺寸（第11节）。3.2）分支。一个关键点（节。3.2）分支用于仅使用左RoI特征来预测对象关键点。这些输出形成用于3D框估计的稀疏约束（2D框、关键点）（Sect. 4），其中我们用2D左右框和关键点来表达3D框角之间的投影关系。确保我们的3D定位性能的关键组件是密集的3D框对齐（Sect.（五）。我们认为3D对象定位是一个学习辅助的几何问题，而不是一个端到端的回归问题。代替直接使用深度输入[4，27]，其不显式地利用对象属性，我们将对象RoI视为整体而不是独立像素。对于规则形状的对象，给定粗略的3D边界框，可以推断每个像素与3D中心之间的深度关系我们扭曲密集的像素在左ROI的权利，根据他们的深度关系的3D对象的中心，找到最佳的中心深度，最小化整个光度误差。整个对象RoI由此形成用于3D对象深度估计的密集约束7645图1.提出的立体R-CNN的网络架构（第二节）3），其输出立体框、关键点、尺寸和视角，随后是3D框估计（Sect. 4）和密集3D框对齐模块（Sect. （五）。mation使用3D框估计进一步校正3D框（Sect.4）根据对准深度和2D测量。我们将主要贡献总结如下：• 一种立体R-CNN方法，它同时检测和关联立体图像中的对象。• 利用关键点和立体声框约束的3D框估计器。• 一种基于密集区域的光度对齐方法，可确保我们的3D对象定位精度。• 对KITTI数据集的评估表明，我们的性能优于所有最先进的基于图像的方法，甚至与基于LiDAR的方法相当[16]。2. 相关工作本文分别对基于LiDAR数据、单目图像和立体图像的三维目标检测方法进行了综述。基于LiDAR的3D物体检测。大多数最先进的3D对象检测方法依赖于LiDAR来提供准确的3D信息，同时以不同的表示来处理原始LiDAR输入[5，16，28，18，13]将点云投影到2D鸟瞰[6，26，15，20，31]利用结构化体素网格表示来对原始点云数据进行建模，然后使用2D或3D CNN来检测3D对象，而[20]将多个帧作为输入并同时生成3D检测，跟踪和运动预测。此外，本发明还不是量化点云，[23]直接将原始点云作为输入，以基于从2D检测和PointNet [24]推断的frustum区域定位3D对象基于单眼的3D目标检测。 [3]侧重于使用地平面投影、形状先验、上下文特征和来自单目图像的实例分割的3D对象建议生成[21]提出了一种利用2D盒子边缘和3D盒子角点之间的几何关系来估计3D盒子的方法[30，1，22]通过预测规则形状车辆的一系列关键点来明确地三维物体的姿态可以通过线框模板拟合来约束。[27]提出了一种端到端的多层次融合方法，通过连接RGB图像和单眼生成的深度图来检测3D对象。最近提出了一种逆图形框架[14]，通过图形渲染和比较来预测3D对象姿态和实例级分割。然而，基于单眼的方法不可避免地遭受缺乏准确的深度信息。基于立体的3D目标检测。令人惊讶的是，只有少数工作利用立体视觉进行3D目标检测。3DOP [4]专注于通过编码对象尺寸先验、地平面先验和深度信息（例如，自由空间、点云密度）转换成能量函数。然后使用3D建议来使用R-CNN方法回归对象姿势和2D框。[17]将运动恢复结构（SfM）方法扩展到动态对象情况，并通过融合空间和时间信息来连续然而，上述方法都没有利用原始立体图像中的密集对象约束7646&ODVViIIFDWiRQ7DUJHW/HIW5HJUHVV7DUJHW5iJKW5HJUHVV7DUJHW图2. RPN分类和回归的不同目标分配。3. 立体R-CNN网络在本节中，我们将描述Stereo R-CNN网络架构。与Faster R-CNN [25]等单帧检测器相比，Stereo R-CNN可以同时检测和关联左图像和右图像的2D边界框，只需进行微小修改。我们使用权重共享ResNet-101 [9]和FPN [19]作为我们的骨干网络来提取左右图像的一致特征。受益于我们的培训目标设计图。2、不需要额外的数据关联计算。3.1. 立体声RPN区域建议网络（RPN）[25]是一个基于滑动窗口的前景检测器。在特征提取之后，使用3×3卷积层来减少通道，随后使用两个兄弟全连接层来分类对象并回归每个输入位置的框偏移它是用预定义的多尺度框锚定的。与FPN [19]类似，我们通过评估多尺度特征图上的锚来修改金字塔特征的原始RPN。不同之处在于，我们在每个尺度上连接左右特征图，然后将连接的特征输入立体RPN网络。使我们能够同时进行目标检测和关联的关键设计是为目标分类器和立体盒回归器分配不同的地面实况（GT）盒。如示于图2、将左右GT盒的并集（简称并集GT盒）作为目标进行分类。如果锚点与并集GT框之一的交集对并集（IoU）比率高于0.7，则锚点被分配正标签，如果锚点与任何并集框的IoU低于0.3，则锚点被分配负标签受益于这种设计，积极的锚往往包含左和右对象区域。我们计算正锚点相对于目标联合GT盒中包含的左GT盒和右GT盒的偏移量，然后将偏移量分别分配给左回归和右回归。对于立体回归器有六个回归项：[Uu，Uw，Uu′，Uw′，Uv，Uh]，其中我们使用u，v表示图像空间中2D框中心的水平和垂直坐标，w，h表示宽度，框的高度，以及右图中对应项的超级脚本（ ·）“注意，我们使用相同的v，h图3.目标方位角θ、方位角β与视点θ+β的关系。只有相同的观点才能导致相同的预测。因为我们使用了校正的立体图像，所以左框和右框的偏移量是Δv，Δ h因此，我们有六个输出通道，nels立体RPN回归，而不是四个在原始RPN实现。由于左提议和右提议是从相同的锚点生成的，并且共享对象性得分，因此它们可以自然地一个接一个地关联。我们使用非最大值抑制（NMS）的左，右ROI分别减少冗余，然后选择前2000名候选人从条目，这是保持在左，右NMS的训练。为了测试，我们只选择前300名候选人。3.2. 立体声R CNN立体回归。在立体RPN之后，我们有相应的左右提案对。我们在适当的金字塔级别分别对左右特征图应用RoI Align [8]。左右RoI特征被连接并馈送到两个顺序的全连接层（每个层后面都有一个ReLU层）以提取语义信息。我们使用四个子分支来预测物体类别、立体包围盒、尺寸和视角恢复。箱回归项与第3.1节中定义的相同注意，视点角度不等于从裁剪图像RoI中不可观察到的对象取向。一个例子如图所示。其中，我们使用θ来表示相对于摄像机框架的车辆取向，并且使用β来表示相对于摄像机中心的对象方位角。三辆车具有不同的方向，然而，它们在裁剪的ROI图像上的投影完全相同因此，我们将视角α回归为：α=θ+β。为了避免不连续性，训练目标是[sinα，cosα]对而不是原始角度值。通过立体盒和物体维度，可以直观地恢复深度信息，并通过解耦视点角度与三维位置之间的关系来求解车辆方位当对ROI进行采样时，我们考虑左右ROIpair作为前景，如果左边&阿托%zO&O%zOz$阿托$%=0zO76472 2 222 2 22][%RXQGDU\KH\SRiQWV3D6HPDQWiFKH\SRiQWV%RXQGDU\KH\SRiQWV3HUVSHFWiYHKH\SRiQWV3HUVSHFWiYHKH\SRiQWV图4.3D语义关键点、2D透视关键点和边界关键点的插图具有左GT盒的RoI高于0.5，同时右RoI与对应的右GT盒之间的IoU也高于0.5。如果左RoI或右RoI的最大IoU位于[0.1，0.5）区间内，则将左-右RoI对对于前景RoI对，我们通过计算左RoI与左GT框之间的偏移以及右RoI与对应的右GT框之间的偏移来分配回归目标。我们仍然使用相同的左和右ROI的Bvv，Bvh。对于维度预测，我们简单地回归地面真实维度与预设维度先验之间的偏移关键点预测。除了立体盒和视角外，我们注意到投影在盒中间的3D盒角可以为3D盒估计提供更严格的约束。如图4提出，我们定义了四个3D语义关键点，它们表示3D边界框底部的四个只有一个3D语义关键点可以被可视地投影到框中，发送四个语义关键点中的每一个被投影到对应的u位置的概率。另外两个通道分别表示每个u位于左边界和右边界的概率。注意，四个3D关键点可以明显地投影到2D框中间，因此softmax应用于4×28输出，以鼓励将一个专有的语义关键点投影到单个位置。该策略避免了透视关键点类型（对应于语义关键点类型）的可能混淆关键点）。对于左右边界关键点，我们分别在1 ×28在训练过程中，我们最小化了4×28softmax输出的交叉熵损失，用于透视关键点预测。4×28输出中只有一个位置被标记为透视关键点目标。我们忽略了没有3D se-in的情况Mantic关键点可视地投影在框中间（例如，截断和正交投影情况）。对于边界关键点，我们独立地最小化两个1×28softmax输出上的交叉熵损失每个前景RoI将被分配左右边界关键点根据GT盒之间的遮挡关系，确定GT盒的位置。4. 3D框估计在本节中，我们通过利用稀疏关键点和2D框信息来解决粗略的3D边界框。3D边界框的状态可以由x={x，y，z，θ}，其表示3D中心位置和hor-分别为水平方向。考虑到左右2D框、透视关键点和回归尺寸，可以通过最小化2D框和关键点的重投影误差来求解3D框。如图所示。5，我们从立体声盒和透视中提取七个测量值，tiv ekey点：z={ul，vt，ur，vb，u′，u′，up}，表示Lrdle（而不是左边缘或右边缘）。我们定义投影这个语义关键点作为透视关键点。我们展示了透视关键点如何有助于3D框估计在节。4、桌子五、我们还预测了两个绑定关键点，它们可以作为规则形状对象的实例掩码的简单替代品只有两个边界关键点之间的区域属于当前对象，并将用于进一步的密集对齐（参见第（五）。我们预测Mask R-CNN [8]中提出的关键点。只有左侧特征图用于关键点预测。第我们将14×14RoI对齐的特征图馈送到六个重新发送左2D框的左、上、右、底边，左，右侧2D框的右边缘和透视关键点的u坐标。为了简化表示，每个测量被归一化为相机固有的。给定透视关键点，可以推断出3D框角和2D框边缘之间的对应关系（参见图中的虚线）。（五）。受[17]的启发，我们通过投影变换来表达3D-2D关系。在这样的观点图。第五章：vt=（y−h）/（z−wsinθ−lcosθ），2 2 2顺序的256-d3×3卷积层，如图所示。1，每个层后面都是ReLU层。使用2×2去卷积层将输出比例上采样至28×28。我们注意到，只有关键点的u坐标提供了除了2D盒子之外的其他信息放宽任务中，我们对6×28×28输出中的高度通道ul=（x−wcosθ−lsinθ）/（z+wsinθ−lcosθ），up=（x+wcosθ−lsinθ）/（z−wsinθ−lcosθ），. . .u′=（x−b+wcosθ+lsinθ）/（z−wsinθ+lcosθ）。R6×28预测因此，每一个col-2 2 22（一）RoI特性中的umn将被聚合并贡献到关键点预测。前四个通道代表-我们用b来表示立体摄像机的基线长度era和w、h、l表示回归尺寸。有以─7648¨z边界框解决了从节。4.为了排除属于背景或其他对象的像素，我们定义了一个有效的ROI，因为该区域位于左右边界关键点之间，并且位于3D框的下半部分，因为车辆的下半部分更紧密地适合3D框（见图10）。①的人。对于位于左图像的有效RoI中的归一化坐标（ui，vi）处的像素，光度量误差可以定义为：¨e=I（u，v）−I（u¨-贝（三）图5. 3D盒估计的稀疏约束（Sect. 4）.伊里我r i z+zi，vi）<$，七个方程对应七个测量值，其中{w，l}的符号应适当改变其中，我们使用Il、Ir分别表示左图像和右图像的3通道RGB向量;zi=zi−z是像素i与3D框中心的深度差;b是基值。22线长。z是我们唯一想解决的目标变量基于对应的3D盒子角。截断边上都落在了七个方程上用高斯-牛顿法求解多元方程组。与[17]不同，在解决问题之前使用单个2D框和大小我们使用双线性插值来获得右图像上的亚像素值。总匹配成本定义为有效ROI中所有像素的平方差之和（SSD）3D位置和方向，我们恢复的3D深度信息更强大的联合利用立体盒E=Ni=0时 ei.（四）回归的维度在可以完全观察到少于两个侧表面并且没有透视关键点的一些情况下（例如，截断、正交投影），则取向和尺寸不能从纯几何约束观察到。我们使用视角α来补偿不可观测的状态（见图1）。（3）说明：α= θ + arctan（−x）。（二）从2D框和透视关键点中求解，粗略的3D框具有准确的投影，并且与图像对齐良好，这使得我们能够进一步进行密集对齐。5. 密集3D框对齐左右边界框提供对象级视差信息，使得我们可以粗略地求解3D然而，通过在7×7RoI特征图中聚合高级信息来回归立体框。像素级信息（例如，角落边缘）由于多个卷积滤波器而丢失。为了实现亚像素匹配精度，我们检索原始图像，以利用像素级的高分辨率信息。请注意，我们的任务与逐像素视差估计问题不同，其中结果可能会遇到不适定区域的不连续性（SGM [10]）或边缘区域的过平滑（基于CNN的方法[29，12，2]）。我们只解决了3D边界框中心的视差，同时使用密集的对象补丁，即，我们使用大量的像素测量来解决一个单一的变量。将物体看作一个规则形状的立方体，我们知道每个像素点与3D中心深度z可以通过最小化总匹配成本E来求解，我们可以有效地枚举深度以找到最小化成本的深度我们首先以0.5m的间隔在初始值周围枚举50个深度值以获得粗略深度，最后以0.05m的间隔在粗略深度周围枚举20个深度值以获得精确对齐的深度。然后，我们使用我们的3D盒子估计器通过固定对齐的深度来校正整个3D盒子（见表）。（六）。考虑对象的ROI作为一个几何约束的整体，我们的密集对齐方法自然避免了立体深度估计中的不连续性和不适定问题，并且对强度变化和亮度占主导地位是鲁棒的，因为有效ROI中的每个像素都将有助于对象深度估计。注意，该方法是有效的，并且可以是用于任何基于图像的3D检测的轻量级插件模块，以实现深度校正。虽然3D对象不严格地适合3D立方体，但由形状变化引起的相对深度误差比全局深度小得多。因此，我们的几何约束密集对齐提供了准确的深度估计对象中心。6. 实现细节网络如[25]中所实现的，我们使用五个尺度锚{32，64，128，126，512}，三个比率为{0.5，1，2}。原始图像的短边尺寸调整为600像素对于立体声RPN，我们在最终分类和回归层，而不是实现[19]中的512同样，我们在R-CNN回归头中有512个输入通道。在Titan XpGPU上，Stereo R-CNN对一个立体声对的推理时间约为0.28秒。L-ℎ3D（ul，v&）yzXu3D %RXQGiQJ %R[）/HIW，PDJH（u*，v+）U（LU（）5iJKW，PDJH7649+ wL+wL++w L ，方法AR（300提案）AP2d（IoU=0.7）左权立体声左右立体声容易模式硬容易模式硬容易模式硬更快的R-CNN[25]86.08--98.5789.0171.54------立体R-CNN均值85.50八十五点五六74.6090.5888.4271.2490.5988.4771.2890.5388.2471.12立体R-CNNconcat86.20八十六点二七75.5198.7388.4871.2698.7188.5071.2898.5388.2771.14表1. RPN的平均召回率（AR）（%）和2D检测的平均精度（AP）（%），在KITTI验证中进行评估集我们比较了Stereo-RCNN与Faster R-CNN的两种融合方法，它们使用相同的骨干网络，超参数和增强。平均召回率在中等集合上进行评估。方法传感器APbv（IoU=0.5）APbv（IoU=0.7）AP3d（IoU=0.5）AP3d（IoU=0.7）容易模式硬容易模式硬容易模式硬容易模式硬Mono3D[3]单30.5022.3919.165.225.194.1325.1918.2015.522.532.312.31[21]第二十一话单30.0223.7718.839.997.715.3027.0420.5515.885.854.103.84多融合[27]单55.0236.7331.2722.0313.6311.6047.8829.4826.4410.535.695.39VELOFCN[16]LiDAR79.6863.8262.8040.1432.0830.4767.9257.5752.5615.2013.6615.98多融合[27]立体声-53.56--19.54--47.42--9.80-3DOP[4]立体声55.0441.2534.5512.639.497.5946.0434.6330.096.555.074.10我们立体声87.1374.1158.9368.5048.3041.4785.8466.2857.2454.1136.6931.07表2.鸟瞰图（AP bv）和3D框（AP 3d）比较的平均精度训练我们将多任务损失定义为：立体声召回和立体声检测。我们的Stereo R-CNN旨在同时检测和关联对象，pCLSpCLS预注册预注册rclsrclsr框r框（五）左右图像。除了计算2D平均值外，RRrrαα暗淡R r关键关键左侧的call（AR）和2D平均精度（AP2d）和右图像，我们还定义了立体AR和立体其中，我们使用（ ·） p ，（ ·）r分别表示RPN和R-CNN，并使用下标框α，dim，key表示损失立体盒，视点，尺寸，和keypoin分别。每个人都有自己的不确定性[11]。我们翻转和交换左右图像，同时镜像视点角度和关键点，以形成新的立体图像。因此，原始在训练过程中，我们在每个小批次中保留1个立体声对和512个采样ROI。我们使用SGD训练网络，权重衰减为0.0005，动量为0.9。学习率最初设置为0.001，每5个时期减少0.1我们总共训练了20个epoch，总共2天。7. 实验我们在具有挑战性的KITTI对象检测基准上评估了我们的方法[7]。在[4]之后，我们将7481个训练图像分成训练集和验证集，其数量大致相同。为了充分评估我们基于StereoR-CNN的方法的性能，我们通过与最先进的和自消融进行比较，使用2D立体召回，2D检测，立体关联，3D检测和3D定位度量进行实验对象分为三个难度体系：根据KITTI设置的2D盒高度、遮挡和截断水平，选择简单、中等和坚硬。AP度量，其中仅查询立体声盒满足以下条件可以被认为是真阳性（TP）：1. 具有左GT盒的左盒的最大IoU高于给定阈值;2. 具有右GT盒的右盒的最大IoU高于给定阈值;3. 选定的左GT框和右GT框属于同一对象。立体声AR和立体声AP度量共同评估2D检测和关联性能。就像泰伯一样。1显示，与Faster R-CNN相比，我们的Stereo R-CNN在单个图像上具有类似的建议召回率和检测精度，同时在左图像和右图像中产生高质量的数据关联，而无需额外的计算。虽然RPN中的立体AR略小于左AR，但我们在R-CNN后观察到几乎相同的左、右和立体AP，这表明左图像和右图像上的检测性能一致，并且左图像中几乎所有的真阳性框都有对应的真阳性右框。我们还测试了左右特征融合的两种策略：逐元素均值和信道级联。如表所示。1，信道级联显示更好的性能，因为它保持了所有的信息。准确L=wL+WL+WL+WL7650图6.定性结果。从上到下：左图像、右图像和鸟瞰图像上的检测立体检测和关联为3D盒估计提供了足够的4）.3D检测和3D定位。我们使用鸟瞰21.510.505 15 25 3545 55321065 75结果见表。2，我们的方法超过-形成了最先进的基于单眼的方法[3，21，27]和立体方法[4]。具体而言，我们在简单和中等设置中的APbv和AP3d的对于硬集，我们实现了25%的改善。尽管Multi-Fusion [27]在立体声输入方面获得了显著的改进，但它仍然在中度组中，APbv和AP3d由于将我们的方法与基于LiDAR的方法进行比较是不公平的，因此我们只列出一种基于LiDAR的方法VeloFCN [16]作为参考，其中我们在中等设置中使用IoU = 0.5，通过10% APbv和AP3d我们还在表中报告了KITTI测试集的评估结果3.第三章。详细的性能可以在网上找到。2注意，KITTI 3D检测基准对于基于图像的方法是困难的，对于该方法，3D性能倾向于随着对象距离的增加而降低。这一现象可以在图1中直观地观察到7，尽管我们的方法实现了子像素视差估计（小于0.5像素），由于视差和深度之间的反比关系，深度误差随着物体距离的增加而对于具有显式视差的对象，我们实现了基于严格几何约束的高精度深度估计。这解释了为什么较高的IoU阈值，对象所属的较容易的政权，我们获得了更多的改进与其他方法相比。Keypoint的好处我们利用3D盒估计-2http://www.cvlibs.net/datasets/kitti/eval_object.php? obj_benchmark=3d距离[m]图7.视差和深度误差与物距之间的关系（最佳颜色）。对于每个距离范围（±5 m），我们收集2DIoU≥0.7。方法APbv（IoU=0.7）AP3d（IoU=0.7）容易模式硬容易模式硬我们61.6743.8736.4449.2334.0528.39表3.KITTI测试集上的3D检测和定位AP。tor（第4节）计算粗略的3D框，并在密集对齐后校正实际的3D框。因此，准确的3D盒估计器对于最终的3D检测是重要的。为了研究关键点对3D盒估计器的益处，我们在不使用关键点的情况下评估3D检测和3D定位性能，其中我们使用回归视点来确定3D盒角点和2D盒边缘之间的关系，并采用等式Eq. 2来约束所有对象的3D方向。如表所示。5、关键点的使用在所有难度范围内以非平凡的余量改进APbv和AP3D由于关键点除了提供2D框级测量外，还提供对3D框角的像素级约束，因此可确保更准确的定位性能。密集对齐的好处。这个实验显示了密集对齐带来的显著改进。我们评估了粗略3D框（w/o对齐）的3D性能，其中深度信息是视差误差[像素]视差深度深度误差[m]7651翻转不确定AP 0. 72dAPbv（IoU=0.5）APbv（IoU=0.7）AP3d（IoU=0.5）AP3d（IoU=0.7）容易模式硬容易模式硬容易模式硬容易模式硬79.0376.8264.7554.7254.3836.4529.7475.0560.8347.6932.3021.5217.61C79.7878.2465.9456.0160.9340.3333.8976.8761.4548.1840.2228.7423.96C88.5284.8967.0257.5760.9340.9134.4878.7664.9955.7247.5330.3625.25CC88.8287.1374.1158.9368.5048.3041.4785.8466.2857.2454.1136.6931.07表4.使用翻转增强和不确定性权重的消融研究，在KITTI验证集上进行评价。度量W/O关键点w/ 关键点容易模式硬容易模式硬APbv（IoU=0.5）87.1067.4258.4187.1374.1158.93APbv（IoU=0.7）59.4540.4434.1468.5048.3041.47AP3d（IoU=0.5）85.2165.2355.7585.8466.2857.24AP3d（IoU=0.7）46.5830.2925.0754.1136.6931.07表5.比较无关键点和无关键点的3D检测和定位AP，在KITTI验证集上进行评价。Config设置AP 0. 5BVAP 0. 7BVAP 0. 53DAP 0. 73D容易45.5916.8741.8811.37无对齐模式33.8210.4027.997.75硬28.9610.0322.805.74不带3D校正的对齐容易模式86.1573.5466.9347.3583.0565.4548.9532.00硬58.6636.2956.5030.12带对齐和3D校正容易模式87.1374.1168.5048.3085.8466.2854.1136.69硬58.9341.4757.2431.07表6.使用我们的密集对齐和3D框纠正的改进，在KITTI验证集上进行了评估。从框级视差和2D框大小计算。即使是1像素视差或2D框误差也会导致远距离物体的大因此，虽然粗略的3D框在图像上具有我们期望的精确投影，但对于3D定位来说，它不够精确。详细统计数据见表。6.在我们使用密集对齐和简单地缩放x，y（w/对齐，w/o 3D校正）恢复对象深度后，我们在所有度量上都得到了重大改进。此外，当我们使用箱估计（节。4）通过固定对齐深度来校正整个3D框，3D定位和3D检测性能进一步提高了几个点。我们已经超越了所有最先进的基于图像的方法。每种策略都进一步提高了我们的网络性能。详细贡献见表。4.第一章使用不确定性权重来平衡多任务损失在3D检测和定位任务两者中产生了重要的改进通过立体翻转增强，实现了图像的左右翻转和交换，并分别改变了透视关键点和视点的训练目标因此，在不同的输入和训练目标下，训练集加倍。将两种策略结合在一起，我们的方法在3D检测和3D定位任务中都获得了非常有前途的性能（表1）。2）的情况。定性结果。我们展示了一些定量的结果图6，其中我们在左图像和右图像上可视化对应的立体框将3D框分别投影到左视图和鸟瞰我们的联合稀疏和密集约束确保检测到的盒子在图像和LiDAR点云上都很好地对齐8. 结论和未来工作在本文中，我们提出了一种基于立体R-CNN的自动驾驶场景中的3D对象检测方法。将3D对象定位作为一个学习辅助的几何问题，我们的方法利用了对象的语义属性和密集约束。在没有3D监督的情况下，我们在3D检测和3D定位任务上的表现优于所有现有的基于图像的方法，甚至优于基线LiDAR方法[16]。我们的3D目标检测框架是灵活和实用的，其中每个模块都可以扩展和进一步改进。例如，Stereo R-CNN可以扩展用于多个对象检测和跟踪。我们可以用实例分割替换边界关键点，消融研究。我们采用两种策略来提高我们的模型性能。为了验证每种策略的贡献，我们进行了不同的组合实验，并评估检测和定位性能。作为表。4显示，我们使用Flip和Uncert来表示所提出的立体翻转增强和多个损失的不确定性权重[11]。没有铃铛，更精确的有效ROI选择。通过学习物体形状，我们的3D检测方法可以进一步应用于一般物体。谢谢。这项工作得到了香港研究资助局早期职业计划项目26201616的支持。7652引用[1] F. 沙博湾Chaouch，J. 拉巴里索阿角你好，还有T.城堡。Deep manta：一个从粗到细的多任务网络，用于从单目图像进行联合2D和3D车辆分析。正在进行IEEE会议Comput.目视模式识别。（CVPR），第2040-2049页，2017年。[2] J. - R. Chang和Y. S.尘金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集，第5410-5418页[3] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。在欧洲计算机视觉会议上，第2147- 2156页[4] X. Chen，K.Kundu，Y.Zhu，H.马，S.Fidler和R.乌塔松使用立体图像进行精确对象类检测的3D对象建议。InTPAMI，2017.[5] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在IEEE CVPR，第1卷，第3页，2017年。[6] M. Engelcke，D.拉奥，D.Z. Wang，C.H. 唐和我。波斯纳Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测。在机器人和自动化（ICRA），2017年IEEE国际会议上，第1355-1361页IEEE，2017年。[7] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在计算机视觉和模式识别（CVPR），2012 IEEE会议，第3354-3361页中IEEE，2012。[8] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[10] H.赫什穆勒利用半全局匹配和互信息进行立体处理。IEEE Transactions on pattern analysis and machineintelligence，30（2）：328[11] A. Kendall，Y.Gal和R.西波拉使用不确定性来权衡场景几何和语义损失的多任务学习在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。[12] A.肯德尔H.Martirosyan，S.达斯古普塔P.亨利，R. Kennedy，A. Bachrach，和A.小布深度立体回归的几何和上下文的端到端学习。 CoRR ， vol.abs/1703.04309，2017。[13] J. Ku，M. Mozifian，J. Lee，A. Harakeh和S.瓦斯兰德从视图聚合联合生成3d建议和对象检测。arXiv预印本arXiv：1712.02294，2017。[14] A. Kundu，Y. Li和J.M.瑞格3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议上，第3559-3568页，2018年[15] B. 李用于点云中车辆检测的3D全卷积网络在智能机器人和系统（IROS），2017年IEEE/RSJ国际会议上，第1513-1518页。IEEE，2017年。[16] B. Li，T. Zhang和T.夏使用全卷积网络的3d激光雷达车辆检测。在机器人领域：科学与系统，2016。[17] P. Li，T. Qin和S.沈基于立体视觉的自动驾驶语义3d物体和自我运动跟踪。欧洲计算机视觉会议，第664-679页。Springer，2018.[18] M. 梁湾，澳-地Yang，S.Wang和R.乌塔松多传感器三维目标检测的深度在IEEE计算机视觉和模式识别会议论文集中，第663-678页，2018年[19] T.- Y. Lin，P.多尔河B. 格希克角他，B.Hariharan和S. J· 贝隆吉用于目标检测的特征金字塔网络。在CVPR，第1卷，第4页，2017年。[20] W.洛湾，巴西-地Yang和R.乌塔松又快又怒：实时端到端的三维检测，跟踪和运动预测与一个单一的卷积网络。在IEEE计算机视觉和模式识别会议集，第3569-3577页[21] A. Mous a vian，D. Anzelo v，J. Flynn和J。好的，检查一下。使用深度学习和几何学的3D边界框估计。在计算机视觉和模式识别（CVPR），2017年IEEE会议上，第5632-5640页。IEEE，2017年。[22] J. K. Murthy，G. S. Krishna，F. Chhaya和K. M.克里希纳从单个图像重建车辆：用于道路场景理解的形状先验。2017年IEEE机器人与自动化国际会议（ICRA），第724IEEE，2017年。[23] C. R.齐，W. Liu，C. Wu，H. Su和L.吉巴斯基于rgb-d数据的Frus- tum点网三维目标检测。arXiv预印本arXiv：1711.08488，2017。[24] C. R. Qi，H. Su，K. Mo和L.吉巴斯Pointnet：对点集进行深度学习，用于3D分类和分割。Proc. ComputerVision and Pattern Recognition （ CVPR ）， IEEE ， 1（2）：4，2017.[25] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91-99页[26] D. Z.王和我。波斯纳在线点云目标检测中的投票。机器人：科学与系统，第1卷，2015年。[27] B. Xu和Z.尘基于多层次融合的单目图像三维目标检测。在IEEE CVPR，2018年。[28] B.杨，W. Luo和R.乌塔松Pixor：从点云中实时检测3D物体在IEEE计算机视觉和模式识别会议论文集，第7652-7660页[29] J. Zbontar和Y.乐存。通过训练卷积神经网络来比较图像块的立体匹配Journal of Machine Learning Research，17

下载后可阅读完整内容，剩余1页未读，立即下载