没有合适的资源?快使用搜索试试~ 我知道了~
多变量概率建模的单目3D目标检测方法
42815多变量概率单目3D目标检测施学鹏1陈志祥1金泰均1,21伦敦帝国理工学院2KAIST摘要在自动驾驶中,单目3D目标检测是一项重要但具有挑战性的任务。为了精确的单目3D对象检测,一些最近的方法从对象的物理高度和视觉高度重新覆盖对象的距离。这种分解框架可以在距离预测上引入显式约束,从而提高其准确性和鲁棒性。然而,不准确的物理高度和视觉高度预测仍然可能加剧距离预测的不准确性。在本文中,我们改进的框架,多变量概率建模。我们明确地模拟物理高度和视觉高度的联合概率分布。这是通过学习一个完整的协方差矩阵来实现的。现有方法���ℎ(一)(b)第(1)款我们在多变量似然法的指导下,对训练过程中的物理高度和视觉高度进行了预测。这种显式联合概率分布建模不仅在预测的物理高度和视觉高度都不准确时导致鲁棒的距离预测,而且还带来了具有预期行为的学习协方差矩阵。在具有挑战性的Waymo Open和KITTI数据集上的实验结果表明了我们的框架1的有效性。1. 介绍3D物体检测的目的是定位具有3D边界框的物体。它在自动驾驶中有着广泛的应用和重要的意义。LiDAR和RGB图像传感器通常用于此任务。与基于LiDAR的3D对象检测[54,41,56,23]相比,基于图像的单眼3D对象检测[46,5,40]具有低计算和能量成本,因为对象的3D空间位置是从单眼图像推断的。尽管计算成本的优势,单目3D目标检测是挑战性的,因为它本质上是一个不适定的问题,从2D图像的对象的距离。为了推断物体的空间位置,当考虑成像几何的逆过程时,可以利用物体的视觉外观[14]。因此,1https://github.com/Rock-100/MonoDet图1:a)如果两个预测误差不能相互抵消,例如,如果预测的物理高度增加到1。5倍,预测的视觉高度,增加到3倍,预测距离将增加到2。5次 b)现有方法[43]模拟物理高度和视觉高度作为两个独立变量。相比之下,我们的方法对这两个变量的联合概率分布进行建模,以显式地学习相关性。在单目三维目标检测中,目标物理尺寸的先验、场景布局和摄像机在单目3D目标检测中,已经利用不同的几何先验来间接地恢复距离。Deep3Dbox [33]通过物理大小和2D边界框恢复距离。基于关键点的方法[18,24]通过物理大小和预测的八个投影角恢复距离。基于形状的方法[4,28]通过物体的物理大小和预测形状来恢复距离。MonoRCNN [43],GUP-Net [29]和DEVIANT [21]通过物理高度和投影视觉高度恢复距离,这改善了距离预测。2.5公斤0.6公斤ℎ1.5公斤ℎ4282虽然这种分解框架[43,29,21]可以对距离预测引入明确的约束,但它们会受到不准确的物理高度和视觉高度预测的影响。如图1a中,物理高度和视觉高度预测的不准确可能导致距离预测的不准确。为了提高物理高度和视觉高度预测的准确性,使用不确定性建模[19]来预测[43,29,21]中的不确定性建模可以使物理高度和视觉高度的预测更加准确,因为它可以减轻噪声训练样本的负面影响。GUP-Net [29]进一步引入了可学习的深度偏差来校正距离预测误差。然而,现有的工作并没有明确的物理高度和视觉高度的联合概率分布模型,这可能会阻碍模型捕捉两个高度之间的相关性。为了解决上述差距,我们提出了一个多元概率框架。如图1b,我们显式地对物理高度和视觉高度的联合概率分布进行建模,而不是像[43]中那样独立地对这两个变量进行建模。这是通过在训练过程中学习物理高度和视觉高度的完整协方差矩阵来实现的,并以多变量似然为指导。这种显式建模不仅导致准确的物理高度和视觉高度预测,而且还使模型显式地学习两个高度之间的相关性当预测的物理高度和视觉高度都不准确时,捕获相关性可以帮助模型实现鲁棒的距离预测,因为两个高度的预测误差可以彼此抵消。此外,我们建立了物理尺寸、偏航角和投影中心的不确定性模型。这导致更好的物理尺寸、偏航角和投影中心预测,并且还提高了3D对象检测精度。为了更好地评估我们的方法,我们在广泛使用的KITTI数据集[13]和最近的Waymo Open数据集[47]上进行了实验。Waymo Open数据集[47]比KITTI数据集[13]更加多样化和具有挑战性。实验结果表明,该方法能够有效地预测协方差,支持了该方法的优越性。本文的贡献有三个方面:1. 最初明确建模物理高度和视觉高度的联合概率分布,以提高3D对象检测的准确性,在训练过程中以多变量似然为指导。2. 一个准确和强大的单目3D物体检测框架,具有所有3D变量的概率输出。3. 在具有挑战性的Waymo Open数据集的单目3D对象检测任务中实现最先进的(SOTA)精度[47]。2. 相关工作2.1. 单目3D目标检测单目3D目标检测已经引起了人们的广泛关注。基于学习的方法[55,7,44,32]通过向2D对象检测器添加距离分支来直接回归对象的距离。这些方法简单有效,但在距离预测上没有明确的约束条件.基于伪LiDAR的方法[52,31,49,48,58]首先使用外部单目深度估计器预测输入图像的深度图,然后借助于估计的深度图预测对象的距离。单目3D目标检测的准确性受到单目深度估计的准确性的限制。基于3D锚的方法[2,3,22]预测从3D锚框到地面实况3D边界框的转换,这可以缓解具有挑战性的远程学习。基于BEV的方法[40,38]首先将特征图从透视图转换为正交视图,然后直接在3D空间中进行3D对象检测基于等方差的方法[21]设计了用于单目3D对象检测的深度等变主干基于集成的方法[25]集成了来自不同线索的多个距离预测,这可以提高距离预测的准确性。基于视频的方法[3,50]利用时间信息来提高3D对象检测精度。近年来,在单目三维目标检测中,许多工作都是通过分解目标距离来间接地恢复目标距离。由于引入了显 式 约 束 , 这 些 方 法 可 以 提 高 距 离 预 测 的 精 度Deep3Dbox [33]通过最小化投影的3D边界框和2D边界框的四个边界之间的重新投影误差来恢复距离。基于关键点的方法[18,24]通过最小化3D边界框的八个投影角与预测的八个投影角之间的重新投影误差来恢复距离。基于形状的方法[57,35,34,4,28]通过最小化对象的密集形状与预测的投影关键点之间的重新投影误差来恢复距离。MonoJSG [26]提出了语义和几何成本体积,以更好地恢复对象的距离。DID-M3 D [37]将对象的实例深度分解为视觉深度和属性深度。MonoRCNN [43]和GUP- Net [29]通过物理高度和投影视觉高度恢复距离然而,这些现有的方法没有明确地建模多个分解变量的联合概率分布。相比之下,我们的方法示例性地模拟了物理高度和视觉高度的联合概率分布我们使用MonoRCNN [43]作为基线来说明对联合概率分布建模的有效性4283HResNet RoIAlign图2:MonoRCNN++的主要架构。我们的MonoRCNN++明确地对物理高度和视觉高度的联合概率分布进行建模。这种显式建模不仅可以准确预测物理高度和视觉高度,还可以使模型显式学习两个高度之间的相关性。2.2. 不确定性和协方差估计不确定性感知回归损失[19]已在许多计算机视觉任务中使用在2D对象检测中,[17,8]使用边界框回归的损失。在3D行人定位中,MonoLoco [1]使用3D位置回归的损失。在LiDAR 3D物体检测中,[12,11]引入损失来对3D变量的不确定性进行建模。在单目3D物体检测中,[42,32,43,29]使用距离相关变量的损失来提高距离预测的准确性。然而,当将损失引入多个变量时,这些现有的工作简单地将损失独立地应用于这些变量。相比之下,我们的方法显式地对训练期间不同变量的联合概率分布和协方差进行SUPN [10]是研究计算机视觉中的协方差估计的开创性工作它使用具有完整协方差矩阵的似然模型扩展了变分自动编码器(VAE)[20]。通过编码完整的协方差矩阵,从这样的模型获得的样本捕获像素级我们展示了学习协方差和不确定性的表现。我们将我们的方法称为MonoRCNN++,主要架构如图所示。二、3.1. 基本框架单目3D目标检测的目的是从单目图像中预测目标的3D边界框遵循MonoRCNN [43],MonoRCNN++基于成像几何结构直接预测RGB图像中对象的3D边界框[14]。我们在Faster R-CNN [39]上构建基本框架,使用带有FPN [27]的ResNet [16]作为主干,并使用RoIAlign[15]来提取对象特征的作物。我们介绍了两个3D检测头,即,三维距离头和三维属性头,以适应单目三维物体检测。3D距离头恢复对象的距离,并基于基于几何的距离分解[43]。具体地,对象Z的距离被分解为物理高度H和投影视觉高度的倒数hrec=1,其被公式化为在图像域中的相关性,并从盐和胡椒(独立)噪声。SUPN [10]在[45]中被进一步采用用于单目深度估计以捕获像素。fHZ==fHh hrec、(1)水平协方差相比之下,我们的方法专注于monocular三维物体检测,并考虑预测物体距离的协方差。3. MonoRCNN ++我们首先介绍基本框架。然后详细介绍了三维探测头的概率建模。最后,其中f表示相机的焦距。 3D距离头回归d =[H,hrec]T,并通过等式2恢复Z。(一).3D属性头部预测物理尺寸、偏航角和物体的投影中心。物理尺寸表示为m=[W,H,L]T。 偏航角表示为α=[sin(θ),cos(θ)]T,其中θ是3D边界框的非同心姿态。在[13,47]之后,仅考虑3D边界框的偏航角,并且滚动和俯仰角物理尺寸,3D属性头部投影中心偏航角,,3D距离头22你好,���������,���������ℎ���������22ℎ���������协方差矩阵ℎ2D股骨头4284y−−22E22(2 π)2|Σ|2| |1假设角度为零。3D边界框的2D投影中心表示为p=[px,py]T。MonoRCNN++预测3D中心[px,py,Z]T,像素坐标,并将其转换为相机坐标,在推理期间,对投影矩阵P进行运算,公式化为:方程中的协方差矩阵的行列式(3)通过Σ=1 为1= e−2(l0,0+l1,1)。(七)|LLT||LLT|当量(3)然后可以使用Eq. (5)和等式(七)、px·Zpy·ZZPx=P·z1C.(二)3.3. 3D属性头部为了提高物理尺寸,偏航角和投影中心的预测精度,我们的MonoRCNN++使用拉普拉斯不确定性回归损失[19]在[13,47]之后,每图像投影矩阵如下-假设在训练和推理期间都可用。3.2. 3D距离头为了提高物理假设。因此,MonoRCNN [43]对这些变量使用L1回归损失。物理尺寸m和偏航角的损失函数a可以表示为L1(m)高度和视觉高度,我们的MonoRCNN++模型d=[H,hrec]T使用具有完整协方差的多变量分布。L尺寸=+ log(bm),(8)BM方差矩阵因此,MonoRCNN [43]简单地将不确定性感知回归损失[19]应用于H,hrec独立。L=L1(a,a)+log(b),(9)yawbaa设d为预测值,d为地面实况,d为预测协方差矩阵。设E表示(dd)T−1(d d)。对于d的回归,多变量Laplace分布是√(ππ−2E其中m和a是基础事实,m和a是预测,bm和ba是不确定性的可学习变量拉普拉斯分布的尺度参数(Laplace distribution)。对于投影中心预测,训练目标-中心的get由其建议大小标准化。让(x1,y1,x2,y2)表示提案的左上角和右下角,并且p=[px,py]T和p=[px,py]Tde-ˆ22)2e2Ep(d |d,m)=N1.N−1,(3)注意地面实况中心和预测中心,我也是。令t和t表示归一化的地面实况中心和归一化的预测中心,其中t其中N是d的长度。在我们的例子中,N=2。然后,3D距离头的损失函数可以用公式表示为:Ldis= −lo g(p(d))|d,n))。(四)被定义为C=(px−x1,x2−x1py−y1y2−y1)的情况。(十)协方差矩阵包含var和covari。预测的中心损失函数可以用公式表示为:安斯 b H=.100,0而BHrec =.Σ1,1是规模L=L1(t,t)+log(b),(11)多变量拉普拉斯分布的参数,可分别解释为H和hrec的预测不确定度kH,hrec=10,1是H和hrec的预测协方差。协方差矩阵是正定的,因此很难直接预测Δ或Δ−1。 在[10]之后,我们通过其Cholesky分解表示精度矩阵−1−1=LLT,(5)其中L是具有正对角元素的下三角矩阵。L可以表示为:el0,00L=[l1,0el1,1]中。(六)我们的模型明确地预测l0,0,l1,0,l1,1形成L,然后我们可以通过等式得到ε−1(五)、我们可以进一步获得4285kptbtt其中bt是不确定性的可学习变量(拉普拉斯分布的尺度参数)。在推断期间,归一化的预测中心t被变换为预测中心p。两个3D检测头的总体训练损失函数为L3D = Ldis + Lsize + Lyaw + Lkpt.(十二)3.4. 学习协方差如何表现对于单目3D对象检测,对象的物理高度越大,该对象的平均投影视觉高度越大。因此,H和hrec负相关。我们在图中显示了预测的协方差。4.第一章4286××}联系我们× ××图3:KITTI val分割[6]的val子集上汽车类别的预测不确定性。我们将距离范围均匀地划分为8个区间,并显示每个区间的平均不确定度对于附近的截断物体和遥远的小物体,预测的不确定性较大图4:汽车类在值上的预测协方差1.59/1.63203.22/209.54-2。95×10−5KITTI val split的子集[6]。 我们将所有的距离范围分为8个区间,并显示平均covari-每个间隔的时间。预测的协方差为负,其大小随距离Z的增加而增加。我们可以看到我们的模型可以有效地预测协方差。对协方差进行显式建模可以使模型实现d=[H,hrec]T的准确预测,并显式学习H和hrec之间的相关性。在选项卡中。1中,我们展示了一些具有挑战性的情况,如远处的物体(第一行),被遮挡的物体(第二行)和截断的物体(底部两行)。我们可以看到,在负协方差的情况下,在推理过程中恢复距离时,两个高度的预测误差可以相互抵消我们还在图中显示了预测的不确定性。3.我们可以看到,对于所有变量,它们的不确定性对于附近的截断对象和遥远的小对象都更大。3.5. 实现细节MonoRCNN++的主干是ResNet-50 [16]和FPN [27],并在ImageNet [9]上进行了预训练 我们提取ROI特征(大小:25677)来自主链的P2、P3、P4和P5,如[27]中所定义。我们使用32,64,128,126,512五个尺度的锚,三个比率为0.5,1,二、每个探测头由两个隐藏的全连接层(大小:1024)和一个全连接的输出端表1:KITTI val分割[6]的val子集上的预测协方差和两个高度。在重新覆盖距离时,两个高度的预测误差可以相互抵消。层.对于KITTI数据集[13]上的实验,图像缩放到512像素的固定高度,对于Waymo Open数据集[47]上的实验,图像缩放到640像素。训练批量大小为8。总迭代次数为6十四,一。2105和1。8105训练子集KITTI val split [6]的KITTI训练子集测试分裂[13]和Waymo Open数据集的训练子集[47]。在训练过程中,随机镜像和光度失真被用作增强,而在推理过程中不使用增强。我们使用PyTorch [36]和Detectron 2 [53]实现了我们的方法。所有的实验运行在一个服务器上,2。2GHz CPU和GTX Titan X。4. 实验我们首先描述我们使用的数据集,即,KITTI数据集[13]和Waymo Open数据集[47]。然后我们在KITTI数据集上展示消融研究[13]。最后H(米)[P/G]h(像素)[P/G]Z(米)[P/G]kH,hrec[P]1.43/1.5125.56/27.0140.29/40.34 -6。67× 10−51.52/1.6538.86/43.2828.11/27.40 -6。50× 10−51.40/1.38183.31/173.09 5.51/5.75-4。24× 10−54287我们在Waymo Open数据集[47]和KITTI数据集[13]上对MonoRCNN++进行了全面的我们还可视化定性的例子。4.1. 数据集KITTI数据集[13]为自动驾驶中的计算机视觉问题提供了多个基准。3D目标检测任务用于评估3D目标检测性能。该任务提供了7481个带有2D和3D边界框注释的训练图像,以及7518个没有注释的测试图像。每个对象被分配一个难度级别,即,简单、中等或困难。我们只使用左侧摄像机的图像进行训练。我们用汽车、行人和骑自行车的类来训练和评估我们的模型Waymo Open数据集[47]是一个大规模、多样化且具有挑战性的自动驾驶数据集。它提供了来自不同场景的798个训练序列和202个在[49]之后,我们只使用来自前置摄像头的RGB图像,考虑前面的对象标签相机的视野,并评估验证序列的结果。在[49]之后,我们通过从798个训练序列中每三个帧中采样一个帧来形成我们的训练集(52 386个图像),并使用来自202个验证序列的所有帧来形成我们的验证集(39 848个图像 ) 。 我 们 采 用 官 方 评 估 [47] 来 计 算 平 均 精 度(AP)。评估按难度等级(1级、2级)和与传感器的距离在[49,26,21]之后,我们使用车辆类评估4.2. 消融研究我们进行消融研究,以显示联合概率分布建模的有效性,如表1所示。2.我们展示了汽车类在KITTI val分裂的val子集上的结果[6]。我们首先设置基线“B”,预测对角协方差矩阵。从Tab。2、我们可以看到:1) 三维距离头中物理高度和视觉高度的协方差建模是有效的。通过对“B+U+C”和“B+ U”的比较,可以看出引入协方差建模可以提高三维目标检测的精度。具体来说,“B+U+C”比“B+U”高9倍。百分之九十八91%/5。36%在AP 3D和6。百分之五十八45%/3。23%的APBEV。这支持用全协方差矩阵显式地建模联合概率分布可以实现物理高度和视觉高度的准确预测,并显式地学习相关性,从而实现准确和鲁棒的单目3D对象检测。2) 对三维属性头中的不确定性进行建模是有益的。比较我们假设不确定性模-AP |R40[简易/改装/硬] ↑AP3DAPBEVB 17.29 / 13.94/11.85 24.41 / 18.52 /16.83B+U 17.34 / 14.04/11.95B+U+C 19.07 / 14.87/12.59 26.41 / 20.80 /17.27表2:KITTI阀分裂阀子集的消融研究[6]。“B”是指基线 。 ‘U’ means using the uncertainty-aware regressionloss [19] instead ofeling可以减轻训练过程中噪声训练样本的负面影响,并使模型专注于更可实现的训练样本,这导致更准确的物理尺寸,偏航角和投影中心预测。4.3. Waymo开放数据集在[49,26,21]之后,我们使用Waymo Open数据集[47] 的 val 集 上 的 车 辆 类 全 面 基 准 测 试 了 我 们 的MonoRCNN++,3.请注意,GUPNet [29]和DEVIANT[21]在训练期间使用规模数据增强来提高其准确性。尽管我们的MonoRCNN++在训练过程中没有使用这种增强,但我们可以看到MonoRCNN++仍然达到了最佳的准确性。1)当IoU阈值为0时。7,我们的方法实现了最好的整体3D AP,并大大超过了第二个[21]具体来说 , MonoRCNN++ 在 第 1 级 中 超 过 DEVIANT [21]59.11%/60.71%/Level 2,分别。 这表明我们的MonoRCNN++在严格评估(IoU> 0)下明显优于GUPNet [29],DEVIANT [21]和MonoJSG [26]。(七).我们的方法对于30米以内的附近物体也达到了最好的精度,对于物体超过30米。2)当IoU阈值为0时。5、我们的方法实现了最佳的整体3D AP。对于30米内的邻近物体对于50米以外的遥远物体,我们的方法达到了第二好的精度。我们还在图中可视化一些定性的例子。五、4.4. KITTI数据集我们在Tab中的KITTI测试数据集[13]上全面基准MonoRCNN++ 。 4. 我 们 可 以 看 到 1 ) 比 较MonoRCNN++ 与 MonoRCNN [43] , 我 们 可 以 看 到MonoRCNN++ 更 好 。 首 先 , MonoRCNN++ 超 过MonoRCNN [43] 9。37%/8。46%/13。06%在AP3D汽车类的容易/中等/硬子集,分别-活泼地其次,我们的MonoRCNN++是一个多类模型,而MonoRCNN [43]是一个单类模型。2)与─4288方法输入Level 1(IoU> 0.5)↑Level 2(IoU> 0.5)↑整体0 - 30米30 - 50米50米-∞整体0 - 30米30 - 50米50米-∞PatchNet(ECCV 20)[30]I+D2.9210.031.090.232.4210.011.070.22[49]第49话:一个女人I+D4.2014.701.780.394.0314.671.740.36GUPNet(ICCV 21)[29]我10.0224.784.840.229.3924.694.670.19美国(公告牌另类歌曲榜)[26]我5.6520.863.910.975.3420.793.790.85[21]第二十二话我10.9826.855.130.1810.2926.754.950.16MonoRCNN++(我们的)我11.3727.954.070.4210.7927.883.980.39方法输入Level 1(IoU> 0.7)↑Level 2(IoU> 0.7)↑整体0 - 30米30 - 50米50米-∞整体0 - 30米30 - 50米50米-∞PatchNet(ECCV 20)[30]I+D0.391.670.130.030.381.670.130.03[49]第49话:一个女人I+D0.893.180.270.070.663.180.270.07GUPNet(ICCV 21)[29]我2.286.150.810.032.146.130.780.02美国(公告牌另类歌曲榜)[26]我0.974.650.550.100.914.640.550.09[21]第二十二话我2.696.950.990.022.526.930.950.02MonoRCNN++(我们的)我4.289.840.910.094.059.810.890.08表3:Waymo Open val集的比较[47]。我们对车辆类别进行评估,并使用3D AP(IoU>0。5和0。(7)公制。“输入”是指在训练和推理期间使用的输入数据模态。“I”表示图像,“D”表示深度。红色/蓝色分别表示最佳/第二[30]和[29]的结果分别来自[49]和[21]方法输入AP3D [简易/改装/硬]↑汽车行人骑自行车AM3D(ICCV 19)[31]I + D16.50 / 10.74 /9.52--PatchNet(ECCV 20)[30]I + D15.68 / 11.12 /10.17--[48]第48话第48话I + D19.71 / 12.78 /9.804.93/ 3.55 /3.014.18/ 2.50 /2.32[49]第49话:一个女人I + D21.00 / 13.37 /11.31--Kinematic3D(ECCV 20)[3]I + V19.07 / 12.72 /9.17--M3D-RPN(ICCV 19)[2]我14.76 / 9.71 /7.424.92/ 3.48 /2.940.94/ 0.65 /0.47MonoPair(CVPR 20)[7]我13.04 / 9.99 /8.6510.02 / 6.68 /5.533.79/ 2.12 /1.83RTM3D(ECCV 20)[24]我14.41 / 10.34 /8.77--[22]第二十二话我18.10 / 12.32 /9.65--美国(公告牌热门单曲榜)[32]我17.23 / 12.26 /10.299.64/ 6.55 /5.444.59/ 2.66 /2.45MonoRUn(CVPR 21)[4]我19.65 / 12.30 /10.5810.88 / 6.78 /5.831.01/ 0.61 /0.48PGD(CoRL 21)[51]我19.05 / 11.76 /9.392.28/ 1.49 /1.382.81/ 1.38 /1.20GUPNet(ICCV 21)[29]我20.11 / 14.20 /11.7714.72 / 9.53 /7.874.18/ 2.65 /2.09[21]第二十二话我21.88 / 14.46 /11.8913.43 / 8.65 /7.695.05/ 3.13 /2.59MonoRCNN(ICCV 21)[43]我18.36 / 12.65 /10.03--MonoRCNN++(我们的)我20.08 / 13.72 /11.3412.26 / 7.90 /6.623.17/ 1.81 /1.75表4:KITTI测试基准的比较[13]。“输入”是指在训练和推理期间使用的输入数据模态。“I”、“D”和“V”分别表示图像、深度和视频。‘-’ denotes that results are not available for single-class使用额外的数据模态,MonoRCNN++优于PGD [51],MonoRUn [4],MonoDLE [32],PCT [49],3D [38]和Kinematic3D [39]。3)虽然GUP- Net [29]和DEVIANT [21]在KITTI数据集[13]上的表现优于我们的MonoRCNN++,但我们的表现在更大、更具挑战性的Waymo Open数据集上更好[47]。我们认为这是由于协方差建模和不确定性建模的概率学习性质。这种概率学习框架需要大量的训练样本来发现内在分布4289图5:MonoRCNN++在KITTI测试分割[13](顶行)和Waymo Open数据集[47](底三行)的测试集上的3D检测结果。MonoRCNN++为各种具有挑战性的情况预测准确的3D边界框图像平面中的红色框表示预测的3D边界框的2D投影。鸟瞰图结果中的黄/绿两个相邻的白色圆圈之间的半径差为5米。如 [19]中 所 讨 论 的 目 标 变 量 。 这 与 我 们 观 察 到 的Waymo Open数据集[47]相吻合。在我们的实验中,它比KITTI数据集大7倍[13]。KITTI [13]上存在差距的另一个原因可能是GUPNet [29]和DEVIANT [21]使用比例数据增强来提高其准确性([21]的表7),而我们没有使用。最后,我们在图中可视化一些定性的例子。五、5. 结论在本文中,我们提出了MonoRCNN++,一个概率单目3D对象检测框架。MonoRCNN++最初明确地对物理高度和视觉高度的联合概率分布进行建模,这导致了准确和可解释的单目3D物体检测。MonoRCNN++可以有效地预测协方差矩阵具有挑战性的Waymo Open [47]和KITTI [13]数据集的单目3D对象检测任务的实验结果表明了我们框架的有效性。致谢这项工作部分由KAIA资助(22 CTAP-C163793 -02,MOLIT),NST资助(CRC 21011,MSIT),KOCCA资助(R2022020028,MCST)和三星显示器公司。4290引用[1] Lorenzo Bertoni , Sven Kreiss , and Alexandre Alahi.Monoloco:单目三维行人定位和不确定性估计。在ICCV,2019年。[2] 加里克巴西和刘晓明M3 D-RPN:用于对象检测的单目3D区域建议网络在ICCV,2019年。[3] Garrick Brazil,Gerard Pons-Moll,Xiaoming Liu,andBernt Schiele.单目视频中的运动三维目标检测。在ECCV,2020年。[4] Hansheng Chen , Yuyao Huang , Wei Tian , ZhongGao,and Lu Xiong. Monorun:通过重建和不确定性传播进行单目3D对象检测。在CVPR,2021年。[5] Xiaozhi Chen , Kaustav Kundu , Ziyu Zhang , HuiminMa,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR,2016年。[6] 陈 晓 志 , Kaustav Kundu , 朱 玉 坤 , Andrew G.Berneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun. 用 于 精 确 对 象 类 别 检 测 的 3D 对 象 建 议 。InNeurIPS,2015.[7] Yongjian Chen,Lei Tai,Kai Sun,and Mingyang Li.Monopair:使用成对空间关系的单目3d对象检测。在CVPR,2020年。[8] Jiwoong Choi、Dayoung Chun、Hyun Kim和Hyuk-JaeLee。高斯yolov 3:一个准确和快速的对象detector- tor使用定位不确定性的自动驾驶。在ICCV,2019年。[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Fei-Fei Li. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[10] 放大图片作者:Carrie D. F.坎贝尔和艾弗·辛普森结构化不确定性预测网络。在CVPR,2018年。[11] Di Feng,Lars Rosenbaum,and Klaus Dietmayer.实现安全自动驾驶:在激光雷达3d车辆检测的深度神经网络中捕获不确定性。在ITSC,2018年。[12] 冯迪,罗森鲍姆,蒂姆,梅耶尔. 利用异方差任意不确定性进行鲁棒实时激光雷达3d目标检测。2019年第四[13] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?KITTI视觉基准套件。CVPR,2012。[14] R. I. Hartley和A.齐瑟曼。 计算机视觉中的多视图几何。剑桥大学出版社,ISBN:0521623049,2000。[15] Kaim i ngHe , Geo r giaGkioxari , PiotrDol la'r ,andRossB. 娘娘腔。面罩R-CNN。InICCV,2017.[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[17] Yihui He , Chenchen Zhu , Jianren Wang , MariosSavvides,and Xiangyu Zhang.具有不确定性的边界盒回归用于精确的对象检测。在CVPR,2019年。[18] EskilJ o¨r gensen,ChristopherZach,andFredrikKahl. 单目3d物体检测和盒拟合训练端到端使用交叉-联合损失。CoRR,2019。[19] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性?NeurIPS,2017。[20] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。[21] Abhinav Kumar , Garrick Brazil , Enrique Corona ,Armin Par- chami,and Xiaoming Liu.DEVIANT:用于单目3D目标检测的深度等变网络.在ECCV,2022年。[22] Abhinav Kumar , Garrick Brazil , and Xiaoming Liu.Groomed-nms:用于单眼3D对象检测的分组数学可微在CVPR,2021年。[23] 亚 历 克 斯 ·H Lang , Sourabh Vora , Holger Caesar ,Lubing Zhou,Jiong Yang,and Oscar Beijbom.点柱:用于从点云中检测物体的快速编码器。在CVPR,2019年。[24] Peixuan Li,Huaici Zhao,Pengfei Liu,and Feidao Cao.RTM3D:自动驾驶的目标关键点实时单目3D检测。在ECCV,2020年。[25] Zhuoling Li,Zhan Qu,Yang Zhou,Jianzhuang Liu,Haoqian Wang,and Lihui Jiang.多样性问题:充分利用深度线索进行可靠的单目3d物体检测。在CVPR,2022年。[26] 卿莲,李培良,陈晓芝。Monojsg:联合语义和几何成本体积为单目3d物体检测。在CVPR,2022年。[27] 放 大 图 片 作 者 : 林 宗 毅 , 彼 得 · 多 尔 , 罗 斯 ·B.Girshick,KaimingHe,Bharath Hariharan,and Serge J.贝隆吉用于对象检测的特征金字塔网络。在CVPR,2017年。[28] 刘 宗 岱 , 周 定 福 , 卢 飞 翔 , 方 进 , 张 良 军 。Autoshape:实时形状感知monocular三维物体检测。ICCV,2021。[29] Yan Lu , Xinzhu Ma , Lei Yang , Tianzhu Zhang ,Yating Liu,Qi Chu,Junjie Yan,and Wanli Ouyang.几何不确定投影网络用于单目三维目标检测。ICCV,2021。[30] Xinzhu Ma,Shinan Liu,Zhiyi Xia,Hongwen Zhang,Xingyu Zeng,and Wanli Ouyang.重新考虑伪激光雷达表示。在ECCV,2020年。[31] Xinzhu Ma,Zhihui Wang,Haojie Li,Pengbo Zhang,Wanli Ouyang,and Xin Fan.用于自动驾驶的通过彩色嵌入式3d重建的精确单目3d物体检测。在ICCV,2019年。[32] Xinzhu Ma,Yinmin Zhang,Dan Xu,Dongzhan Zhou,Shuai Yi,Haojie Li,and Wanli Ouyang.单目3d目标检测定位误差研究。在CVPR,2021年。[33] Arsalan Mousavian、Dragomir Anguelov、John Flynn和Jana Kosecka。使用深度学习和几何学的3D边界框估计在CVPR,2017年。[34] J. Krishna Murthy,G. V. Sai Krishna,Falak Chhaya,andK.玛达瓦·奎师那从单个图像重建车辆:用于道路场景理解的形状先验。在ICRA,2017年。[35] J. Krishna Murthy,Sarthak Sharma和K.玛德哈瓦·克-伊什娜.动态环境中实时单目目标定位的形状先验。在IROS,2017年。4291[36
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功