没有合适的资源?快使用搜索试试~ 我知道了~
5452ApolloCar3D:一个用于自动驾驶的大型3D汽车实例理解基准宋喜斌1、2、王鹏1、2、周定福1、2、朱瑞3、管晨业1、2、戴玉超4、苏浩3、李红东5、6、杨瑞刚1、21百度研究院2深度学习技术及应用国家工程实验室3美国加州大学圣地亚哥分校4西北工业大学西安{宋喜斌,王鹏54,周定富,关晨业,杨瑞刚}@ baidu.com,{rzhu,haosu}@daiyuchao@gmail.com@hongdong.li anu.edu.au eng.ucsd.edu摘要自动驾驶引起了工业界和学术界的极大关注。一项重要的任务是估计道路上移动或停放的车辆的3D属性(例如平移,旋转和形状)。这项任务虽然至关重要,但在计算机视觉领域仍然研究不足-部分原因是缺乏适合自动驾驶研究的大规模和完全注释的3D汽车数据库。在本文中,我们贡献了第一个适合于3D汽车实例理解的大规模数据库– 该数据集包含5,277个驾驶图像和超过60K个汽车实例,其中每辆汽车都配有一个具有绝对模型大小和语义标记关键点的行业级3D CAD模型。该数据集比PASCAL3D + [65]和KITTI [21]大20倍最先进的技术为了实现有效的标签在3D中,我们通过考虑单个实例2D-3D关键点对应关系和多个实例之间的3D关系来构建流水线。配备了这样的数据集,我们使用最先进的深度卷积神经网络构建了各种基线算法。具体来说,我们首先使用预先训练的Mask R-CNN [22]对每辆汽车进行分段,然后根据 使用或不使用语义关键点的可变形3D汽车模型。我们表明,使用关键点显着提高拟合性能。最后,我们开发了一个新的三维度量,共同考虑三维姿态和三维形状,允许全面的评估和消融研究。1. 介绍从图像中理解对象的3D属性即恢复物体1.一、此任务(一)(b)第(1)款(c)第(1)款图1:我们数据集的一个例子,其中(a)是输入彩色图像,(b)说明了标记的2D关键点,(c)显示了3D模型与标记的2D关键点的拟合结果。也被称为“逆图形”[27],解决这一问题将使视觉和机器人技术中的广泛应用成为可能,例如机器人导航[30],视觉识别[15]和人机交互[2]。其中,自动驾驶技术是一个具有巨大应用潜力的重要课题.然而,在AD的背景下,目前用于3D对象理解的领先技术主要依赖于高分辨率LiDAR传感器[34],而不是常规相机或图像传感器。然而,我们认为使用LiDAR存在许多缺点,阻碍了其进一步发展。最5453数据集图像源3D特性汽车关键点(#)图像(#)Average cars/image Maximum cars/image 汽车型号#立体声3DObject [52]控制完整3D没有3501110没有瑞士洛桑联邦理工学院汽车[47]控制完整3D没有20001120没有[65]第六十五话自然完整3D没有67041.191410没有ObjectNet3D [64]自然完整3D有(14)73451.75210没有KITTI [21]自动驾驶3D bbox ori。&没有74814.81416是的ApolloCar3D自动驾驶工业3D有(66)527711.73779是的表1:我们的数据集和现有的3D汽车标签数据集之间的比较严重的一个是,记录的3D LiDAR点最多是从前视图[21]的场景的稀疏覆盖,特别是对于远处和吸收区域。由于自动驾驶汽车保持安全的制动距离至关重要,因此从常规相机进行3D理解仍然是一种有前途和可行的方法,吸引了视觉社区的大量研究[6,56]。最近深度卷积网络[22]在解决各种计算机视觉任务方面取得的巨大成功是建立在大量精心标注的训练数据集的基础上的,例如ImageNet [11]和MSCOCO [36]。然而,获取大规模的训练数据集是一个极其费力和昂贵的工程,并且社区特别缺乏完全注释的3D性质的数据集。 例如,对于任务在自动驾驶的3D汽车理解中,数据集的可用性受到严重限制。以KITTI为例[21]。尽管它是最受欢迎的自动驾驶数据集,但它只有大约200辆标记的3D汽车,而且只有边界框的形式,没有详细的3D形状信息流[41]。深度学习方法通常需要大量标记的训练数据,但目前可用的3D汽车数据集的大小远远不够以捕获各种外观变化,例如遮挡、截断和照明。对于其他数据集,如PAS-CAL 3D + [65]和ObjectNet 3D[64],虽然它们包含更多的图像,但其中的汽车实例大多是孤立的,在受控的实验室环境中成像,因此不适合自动驾驶。为了纠正这种情况,我们提出了一个大规模的3D实例汽车数据集,该数据集是从多个城市中复杂的真实驾驶场景中捕获的真实图像和视频构建的。我们的新数据集 名 为 ApolloCar3D , 是 建 立 在 公 开 可 用 的ApolloScape数据集[23]上的,目标是在自动驾驶场景中进行3D汽车理解研究。具体来说,我们在ApolloScape的语义分割任务中从大约20万张发布的图像中选择了5,277张图像,遵循几个原则,例如(1)包含足够数量的街道上行驶的汽车,(2)表现出较大的外观变化,(3)覆盖高速公路,本地和交叉路口的多个驾驶案例。此外,对于每幅图像,我们提供了一个立体对来获得立体视差;对于每辆车,我们提供了3D关键点,如车门拐角和大灯,以及具有绝对比例的逼真3D CAD模型。一个例子显示在图。第1段(b)分段。我们将提供有关如何定义这些关键点并在Sec中标记数据集的详细信息。二、配备了ApolloCar 3D,我们能够直接应用监督学习来从图像中训练3D汽车理解系统,而不是像大多数以前的作品那样进行不必要的妥协,例如3D-RCNN [28]或单个对象3D恢复[60]。为了促进未来基于ApolloCar3D数据集的研究,我们还开发了两种3D汽车理解算法,作为新的基线,以基准测试未来贡献的算法。 我们的基线算法的细节将在以下章节中描述。本文的另一个重要贡献是,我们提出了一个新的评价指标,这项任务,以共同衡量的质量的3D姿态估计和形状 恢 复 。 我 们 将 我 们 的 新 指 标 称 为 “ 平 均 3D 精 度(A3DP)”,因为它受到PASCAL 3D + [65]的AVP指标(平均视点精度)的启发,但仅考虑3D姿势。此外,我们还提供多个与MS COCO类似的真阳性阈值[36]。本文的贡献概括为:• 用于自动驾驶的大规模和不断增长的3D汽车理解数据集,即ApolloCar3D,它补充了现有的公共3D对象数据集。• 一种新的评价指标,即A3DP,它联合考虑了3D形状和3D姿态,因此更适合于3D实例理解的任务。• 两种用于3D汽车理解的基线算法,其性能优于几种最先进的3D对象再加工方法。• 指出了未来的研究方向。2. ApolloCar3D数据集包含3D对象实例的现有数据集。 以前用于3D对象理解的数据集通常在规模上非常有限,或者仅具有部分3D属性,或者每个图像包含很少的对象[29,55,52,44,47,37]。比如说,5454(c)模型(e)对象(a) 位置(b)方向(d)闭塞图2:ApolloCar3D中的汽车出现和对象几何统计。(a)和(b)示出了所有车辆的平移和定向分布(c)-(e)描述每幅图像的车辆类型、遮挡率和车辆数量的分布具体而言,所有图表中的Y轴代表车辆的出现。3DObject [52]只有10个汽车实例。 洛桑联邦理工学院的赛车[47]有20辆不同视角的赛车,但被拍摄在一个受控的转盘上,而不是在真实的场景中。为了处理来自非受控场景的更真实的情况,从Flickr[40]或Kinect室内场景[10]收集的自然图像的数据集[35]被扩展到3D对象[51]。宜家数据集[35]用3D家具模型标记了数百张室内图像。PAS-CAL 3D + [65]使用CAD模型标记PAS- CAL VOC 2012 [16]图像中的12个刚性类别。Object-Net 3D [64]提出了一个更大的3D对象数据集,其中包含ImageNet [11]中的图像,具有100个类别。这些数据集虽然有用,但并不是为自动驾驶场景设计的。据我们所知,唯一部分满足我们要求的真实世界数据集是KITTI数据集[21]。尽管如此,KITTI仅通过矩形边界框来标记每辆车,并且缺乏细粒度的语义关键点标签(例如窗口,前灯)。一个例外是[42]的工作,但它在200个标记图像的数量上有所不足,并且它们的汽车参数没有公开。在本文中,如图所示。首先,我们为社区提供了第一个大规模的全3D形状标记数据集,其中包含60K+汽车实例,来自5,277个真实世界图像,基于34个行业级3D CAD汽车模型。此外,我们还提供了相应的立体图像和准确的2D关键点注释。选项卡. 1给出了我们的数据集与现有数据集的关键属性的组合,用于3D对象实例理解。2.1. 数据采集我们从ApolloScape数据集[23]中获取图像,因为它具有高分辨率(3384 ×2710)、大规模(≥140K语义标记图像)和复杂的驱动条件。 从数据集中,我们仔细选择图像满足我们在第二节中所述的要求。1. 特别是,我们从4个不同城市的标记视频中选择图像,这些视频满足(1)相对复杂的环境,(2)所选图像之间的间隔≥10帧。在使用语义标签从整个数据集中为了具有更大的多样性,我们手动修剪所有图像,并进一步选择包含更好的汽车比例,形状,方向变化以及实例之间的相互遮挡的图像,产生5,277幅图像供我们标记。对于3D汽车模型,我们寻找高度精确的形状模型,即重新投影模型的边界与手动标记的掩模之间的偏移平均小于3px。然而,ShapeNet [4]中的3D汽车网格对我们来说仍然不够准确,并且在存在严重遮挡的情况下拟合每个3D模型的成本太高,如图所示如图1所示。 因此,为了保证质量(准确性), 3D模型时,我们聘请在线模型制作师根据特定车型的绝对形状和比例参数手动构建相应的3D模型。总体而言,我们建立了34个真实模型,包括轿车,轿跑,面包车,SUV和MPV,其中涵盖了市场上的大多数车型和类型。2.2. 数据统计在图2中,我们提供了标记汽车的统计数据。平移、方 向 、 遮 挡 和 模 型 形 状 。 与 KITTI [21] 相 似 ,ApolloCar3D包含大量远距离、严重遮挡的汽车,这些汽车在空间中分布不均匀。根据图2(b),取向遵循类似的分布,其中道路上的大多数汽车正朝向数据采集汽车或向后行驶。在图2(c)中,我们显示了分布w.r.t.汽车类型,其中轿车最常见。图中每幅图像的对象分布。图2(e)显示了大多数图像包含10个以上的标记对象。5455KKKKK图3:汽车模型的3D关键点定义66个关键点如:EN(p,S,pn,Sn)=[(αp−αpn)2+(βp−βpn)2+((yp−hS)−(ypn−hSn))2],(2)其中n是空间相邻汽车,α p和β p是p的侧倾和俯仰分量,h S是给定其形状S的汽车的高度。用于在图像I中找到汽车姿态和形状的待最小化的总能量被定义为:ΣC定义为每个模型。EI=c=1{EP(pc,Sc)+Σ3. 上下文感知3D关键点注释B(Kc)n∈NcEN(pc,Sc,pn,Sn)},(3)凭借我们创建的高品质3D模型,我们开发了一个高效的机器辅助半自动关键点注释过程。具体来说,我们只要求人类注释者点击一组预先定义的关键点在每个图像中的感兴趣的对象上。然后,采用EPRECT算法[31]通过最小化重新投影误差来自动恢复3D汽车实例的姿态和模型。RANSAC [19]用于处理离群值或错误注释。虽然只有少数关键点可以足够解决EPP4问题,但我们在数据集中定义了66个关键点,如图所示。3,其密度比大多数以前的汽车数据集高得多[57,43]。冗余实现了更准确和鲁棒的形状和姿态配准。上下文感知注释。在存在严重的闭塞,其中RANSAC也失败了,我们开发了一个上下文感知的注释过程,通过强制执行一辆车和它的相邻汽车之间的共面约束。通过这样做,我们能够在相邻的汽车之间传播信息,这样我们就可以通过上下文感知的约束来共同解决它们的姿势。形式上,单个汽车姿态估计的目标其中c是图像中的汽车的索引,B(Kc)是指示汽车c是否需要从相邻汽车借用姿态信息的二元函数,并且K={x2}是汽车的标记的2D关键点的集合。Nc=N(c,M,κ)是使用实例的c的掩码M,κ是我们使用的最大邻居数。 我们列出了函数B(Kc)的定义细节,由于篇幅限制,补充资料中的N(c,M,κ)如示于图4、最小化Eq.(3),我们首先通过穷尽所有汽车类型来求解具有密集关键点注释的那些汽车。为了保证精度,我们标记了每辆车的地面点,并使用ApolloScape数据集中相应的深度图来获得每辆车的精确距离。我们要求平均重投影误差必须小于5个像素,并且所获得的位姿与相应地面点的距离误差最小。然后,我们通过使用其相邻汽车提供的上下文信息来解决具有较少关键点注释的汽车,并且精度设置与具有密集关键点注释的那些汽车相同。在大多数汽车对齐之后,我们要求人工注释者在提交到数据库之前对结果进行视觉验证和调整。是ΣEP(p, S)=vk<$π(K,p,x3)−xk<$2,(1)4. 两种基线算法基于ApolloCar 3D,我们的目标是开发强大的基础-[x3,k]∈S哪里p=[α,β,γ,x,y,z]∈SE(3),S ∈{S1,···,Sm}分别指示汽车实例的姿态和形状。v是指示汽车的第k个关键点是否已被标记的向量。 xk是图像上标记的2D关键点坐标。π(p,x3)是在给定p和相机固有K的情况下将对应的3D关键点x3投影到汽车模型上的透视投影函数。我们的上下文感知共面约束公式化线算法,以促进基准和未来的研究。我们首先回顾最新的文献,然后实现两个可能最强的基线算法。3D实例的现有工作恢复从图像. 3D对象通常从多帧,3D范围传感器[26]或基于学习的方法[67,13]中恢复。然而,在不受控制的环境中从单个图像中解决3D实例理解是病态的和具有挑战性的,因此吸引了越来越多的关注。随着深度CNN的发展,研究人员能够实现5456X图4:基于带注释的2D和3D关键点生成地面实况姿态标签的流水线令人印象深刻的结果与监督[18,69,43,46,57,54,63,70,6,32,49,38,3,66]或弱监督策略[28,48,24]。现有的工作考虑将对象表示为参数化的3D边界框[18,54,57,49],粗线框骨架[14,32,62,69,68],vox- els [9],从一小组样本模型中进行one-hot选择[3,45,1],以及点云[17]。类别特定的可变形模型也用于简单几何形状[25,24]。为 了 处 理 多 个 实 例 的 情 况 , 3D-RCNN [28] 和DeepMANTA [3]可能是通过将3D形状模型与更快的R-CNN [50]检测相结合的最先进的技术。然而,由于缺乏高质量的数据集,这些方法不得不依赖于2D掩模或线框,这是用于监督的粗糙信息。 回到ApolloCar3D,在本文中,我们调整了他们的算法并进行了监督训练,以获得基准测试的强大结果。具体来说,3D-RCNN不考虑汽车关键点,我们称之为直接方法,而DeepMANTA考虑关键点进行训练和推理,我们称之为基于关键点的方法。然而,这两种算法都不是开源的。因此,我们必须开发我们的内部实现他们的方法,在本文中作为基线。此外,我们还提出了改进基线的新想法,如图所示。5、我们以后会详细说明。具体来说,类似于3D-RCNN [28],我们假设给定了预测的2D汽车遮罩,例如通过遮罩- RCNN [22]学习,我们主要关注3D形状和姿态恢复。4.1. 直接的办法当只提供汽车姿势和形状时,遵循3D-RCNN [28]中提到的直接监督策略,我们从具有RoI池的完全卷积特征提取器中裁剪出每个汽车实例的相应特征,并构建独立的完全连接层以回归其2D非模态中心,allocentric旋转和基于PCA的形状参数。按照同样的策略,对旋转和形状的回归输出空间进行离散化.然而,为了估计深度,我们使用地面真实深度作为监督,而不是使用amodal框和枚举深度,使得投影的掩码最适合[28]中提到的框。因此,对于我们的im-在这种实现中,我们使用与[20]中提出的类似的深度离散化策略将非模态盒回归替换为深度回归,这提供了来自单个图像的最先进的深度估计。针对细节形状理解,我们在原流水线上进一步做了两处改进,如图所示。第五条(a)款。首先,如[28]中所述,估计对象3D形状和姿态是失真敏感的,RoI池相当于使图像中的实例透视失真,这会对估计产生负面影响。3D-RCNN [28]引入无限单应性来处理这个问题。在我们的例子中,我们将RoI池化替换为完全卷积的架构,并对我们的姿势和形状目标执行逐像素回归,这更简单但更有效。然后,我们将给定实例掩码中的所有预测与“自我注意”聚合在一起一般用于选择特征的策略[59]。例如,设X∈Rh×w×c为特征图,汽车实例i的输出计算为:Σoi= Mi(κo<$X+bo)xAx(4)X其中oi是离散化3D表示的对数,x是图像中的一个像素,Mi是对象i的二进制掩码,κo∈Rkl×k×c×b是用于预测输出的k核,A∈Rh×w×1是注意力图。b是用于离散化的bin的数量[28]。我们称之为特征聚集-gation作为掩码池,因为它选择每个对象掩码中最重要的信息。其次,如我们的流水线中所示,为了估计汽车平移,即其非模态中心ca=[cx,cy]和深度dc,我们提出在每个像素w.r. t处输出3D偏移,而不是对汽车掩模中的每个像素使用相同的目标3D汽车中心,提供更强的监督,帮助学习更强大的网络。以前,诱导对象实例的相对位置也被证明在实例分割中是有效的[58,33]。形式上,让c=[dc(cx−ux)/fx,dc(cy−uy)/fy,dc]是3D汽车中心,像素x=[x,y]的3D偏移量定义为f3= x3−c,其中x3 =[d(x−ux)/fx,d(y−uy)/fy,d],d是x处的估计深度。原则上,3D偏移估计等效于联合计算相对于非模态中心的每像素2D偏移,即, x− ca=[u,v]T和与中心深度的相对深度,即 d-d c.我们5457x为ohD图5:3D汽车理解的训练管道上图(a):直接进场。底部(b):基于关键点的方法。采用这种分解表示进行模型中心估计,然后可以通过以下步骤恢复3D模型中心:5. 实验本节提供了实现细节,ca=ΣAx(x+ f3X),dc=ΣAx(dx+ f3)(5)X提出的评价指标和实验结果。 总的来说我们在5,277张图片上进行了实验,其中4,036张用于训练,200张用于验证,1,041张用于测试。其中,veAx是x处的注意力,其用于等式2中(四)、在SEC的实验中。5、我们表明这两种策略提供了对原始基线结果的改进。4.2. 基于关键点的方法当来自每辆车的足够的2D关键点可用时(例如,如图5(b)所示),我们开发了一种简单的基线算法,其灵感来自DeepMANTA [3],以通过2D-3D匹配来对准3D汽车姿态。与[3]不同的是,我们的3D汽车模型具有更多的几何细节,并且具有绝对比例,我们的2D关键点具有更精确的注释。在这里,我们采用CPM [61] -一种最先进的2d关键点检测器,尽管该算法最初是为人体姿势估计而开发的。我们将其扩展到2D汽车关键点检测,并发现它工作得很好。使用2d关键点预测优于我们的基线-1的一个优点是,“直接的方法”在SEC。4.1,我们不必回归全球深度或规模-网络的估计通常不是很可靠。我们没有将完整的图像输入网络,而是裁剪出图像中的每个汽车区域进行2d关键点检测。这对于ApolloScape [23]中的图像特别有用,因为它有大量的小尺寸汽车。从我们的注释过程中借用上下文感知的约束,一旦我们有足够的检测到的关键点,我们首先使用EPRECT[31]解决汽车较少遮挡的简单情况,然后我们将信息传播到相邻的汽车,直到发现所有汽车姿势和形状彼此一致。共面约束通过实作详细数据。由于缺乏公开的源代码,我们重新实现了3D-RCNN [28],用于不使用关键点的3D汽车理解,以及需要关键点注释的DeepMANTA [3]。为了训练Mask-RCNN,我们从GitHub下载了由自动驾驶公司实现的代码1。我们采用了DeepLabv3 [5]和Xception65 [8]网络的完全卷积特征,并遵循相同的训练策略。对于DeepMANTA,我们使用了CPM的关键点预测方法[7]。通过4,036张训练图像,我们获得了约40,000辆带有2D关键点的标记车辆,用于训练CPM [7](具有5个阶段的CPM和VGG-16初始化)。评估指标。平均精度(AP)[16]通常用于评估3D对象理解。并且,使用具有方向的3D边界框IoU [21](平均方向相似性(AOS)[21])或具有视点的2D边界框(平均视点精度(AVP)[65])来测量相似性。这些度量仅测量粗略的3D属性,而不考虑对象形状的影响。网格距离[53]和体素IoU [12]通常用于评估3D形状重建。在我们的情况下,汽车模型大多是紧凑的,因此我们考虑按照视觉外壳表示的思想比较两个模型的投影掩码[39]。具体来说,我们在偏航角方向上采样100个方向,并投影每个视图。将模型转换为分辨率为1280×1280的图像。我们使用所有视图的平均IoU,因为汽车形状相似性满足-Ric.为了评估旋转和平移,我们遵循通常用于相机姿态估计的度量[21]。在优化方程(三)、我们将汽车姿态求解器与共面约束作为上下文感知求解器。1https://github.com/TuSimple/mx-maskrcnn5458我我不i it方法掩模WKPA3DP抗体A3DP-Rel时间(s)是说C-LC-S是说C-LC-S3D-RCNN电视台 [28]+ MP+ MP + OF+ MP + OFGTgtgt捕食----十六岁44十六岁73十七岁52十五岁1529岁7029岁70三十6928岁7119号。80十八岁8120块79十七岁8210个。7910个。10十三岁6611个国家。49十七岁82十八岁8119号。80十七岁8211个国家。8811个国家。88十三岁8611个国家。880.29s0.32s0.34s0.34sDeepMANTA[3]第一章GTC20块1021 57.20块40三十69三十二6231岁6823岁76二十六岁73二十四岁75十六岁0417 52.十六岁5323岁7626 73.二十四岁7519号。8020 79.19号。803.38s+ CA-solverGTC7.41s+ CA-solver捕食C8.5s人类GTC三十八岁。22五十六44四十九50三十三岁。2751岁4941岁58607.41s表2:基线算法之间的比较。这意味着内部实施。“Mask” means the provided mask for 3D under- standing 表示Mask-RCNN掩码)。 “CA-solver”总之,给定一组阈值,判断真阳性的标准定义为1Σc=IoU(P(s),P(s))≥δ,显示了比较结果。对于直接回归方法,我们的基线算法形状|V|v∈V我我V S形状参数我们进一步扩展了基线法ct rans=|ti−t|2≤δt,Crot=arccos(|q(ri)·q(ri)|)≤δr,(6)其中s、t、r是预测的3D汽车实例的形状ID、平移和旋转。此外,AOS或AVP使用的单组真阳性阈值,例如IoU≥0。5,旋转≤π/6,不足以彻底评价检测结果[21]。在这里,根据MS COCO [36]的度量,我们建议使用从宽松到严格的多组阈值用于评估。具体而言,我们的结果中使用的所有阈值难度等级为{δs}=[0. 五比零05:0。95],{δt}=[2. 八比零三比零。1],{δr}=[π/6:π/60:π/60],其中[a:i:b]指示在从a到b的线空间中以i的间隔采样的离散阈值的集合。 与MSCOCO类似,我们选择一个宽松的标准c−l =[0. 五二8,π/6]和一个严格的标准c−l=[0. 75,1。4,π/12]来诊断不同算法的性能请注意,在我们的指标中,我们只评估深度小于100m的实例,因为我们希望专注于与我们的自动驾驶任务更直接相关的汽车。最后,在对安全至关重要的自动驾驶场景中,我们通常关心附近的汽车,而不是远处的汽车。因此,我们进一步建议使用相对误差标准来评估翻译,遵循仅用于深度评价[21]。在形式上,我们将ct rans的标准改为|ti−t|/t<δ0,并且将阈值设置为{δ0}=[0. 十比零01:0。01]。我们将具有绝对翻译阈值的评估度量称为以及具有相对翻译阈值的一个为“A3 DP-Rel”。5.1. 定量结果在本节中,我们将使用第二节中介绍的方法与我们的基线算法进行比较。4通过逐步增加我们提出的组件和损失。选项卡. 25459通过添加掩码池化(MP)和偏移量流(OF)。我们...从表中可以看出,将RoI池交换为掩码池可以适度改善结果,而偏移量降低可以显著提高结果。它们共同有助于避免常规ROI池的地理扭曲,并将注意力机制集中在相关区域。对于基于关键点的方法,“+CA-solver”意味着对于没有足够检测到关键点的汽车,我们使用我们的上下文感知求解器进行推理,其提供约1。5%的改善。对于这两种方法,从Mask R-CNN切换地面真值掩码到分段几乎没有性能下降,证明了Mask R-CNN结果的高质量。最后,我们训练了一组新的标注器,并要求他们重新标注验证集上的关键点,这些关键点将通过我们的上下文感知3D求解器传递。我们表示这些结果是“人类”的表现。我们可以看到算法与人类之间存在明显的差距(约10%)。然而,即使是人类的准确性仍然不能令人满意。在检查结果后,我们发现这主要是因为人类无法准确记住所有66个关键点的语义,从而产生错误的姿势。我们推测这可以通过重新检查和改进来修复,可能会提高性能。5.2. 定性结果一些定性结果见图。7.从这两个例子中,我们可以发现,由于使用了几何约束和车厢间关系约束,额外的关键点预测比直接方法提供了更准确的3D估计。特别地,对于直接方法,大多数误差发生在深度预测中。可以通过该方法的性质来解释,该方法纯粹基于对象来546088(一)(b)第(1)款(c)第(1)款(d)其他事项0.70.60.50.40.30.20.10绝对误差测量<10米10-15米15-20米>20米距离范围[m]0.70.60.50.40.30.20.10相对误差测量<10米10-15米15-20米>20米距离范围[m]0.70.60.50.40.30.20.10图6:各种算法的3D理解结果w.r.t.造成错误估计的各种因素(a)A3 DP-Abs对s距离,(b)A3 DP-Rel对s距离,(c)A3DP-Abs对s闭塞,(d)A3 DP-Abs对s闭塞。图7:不同方法的可视化结果,其中(a)输入图像,(b)和(c)是直接回归方法和具有上下文约束的基于关键点的方法的结果(d)给出地面实况结果。在2D中的外观,这是不适定和容易出错。然而,由于使用了可靠的掩码,该方法比基于关键点的方法发现了更多的汽车。对于基于关键点的方法,我们能够表明,正确检测到的关键点在约束汽车姿势方面非常成功,而失败或缺失的关键点估计,特别是对于外观不寻常的汽车,将导致汽车的缺失检测或姿势的错误解决方案。5.3. 结果分析为了分析不同方法的性能,我们分别在不同的距离和遮挡率下对它们进行了评估。详细结果如图所示。6.检查图如图6(a,b)所示,我们可以发现,估计精度随着距离的增加而降低,并且人类和算法之间的差距随着距离的增加而缩小。此外,在检查图。6(c,d)对于遮挡,我们发现性能也随着遮挡比的增加而下降。然而,我们观察到,在所有遮挡模式中,非遮挡汽车的性能平均最差。这是因为大多数经历很少遮挡的汽车来自大距离和小规模,而附近的汽车更经常被遮挡。6. 结论本文介绍了迄今为止最大和不断增长的数据集(即ApolloCar3D),用于在自动驾驶的背景它是建立基于工业级高精度3D汽车模型,适合在现实世界场景中捕获的汽车实例。为了补充现有的相关数据集,例如[21],我们希望这个新的数据集可以作为一个长期的基准,促进未来对3D姿态和形状恢复的研究。为了有效地注释完整的3D对象属性,我们开发了一个上下文感知的3D注释管道,以及两个用于评估的基线算法。我们还进行了精心设计的人类性能研究,这表明机器性能与人类性能之间仍存在明显差距,并提出了有希 望 的 未 来 方 向 。更 重 要 的 是 , 基 于 公 开 可 用 的ApolloScape数据集[23],我们的ApolloCar3D数据集包含多个数据源,包括立体声、相机姿势、语义实例标签、每像素深度地面实况和移动视频。使用我们的数据可以训练和评估各种其他视觉任务,例如立体视觉、无模型深度估计和光学成像等,在真实的场景下。7. 确认作者感谢百度研究院的何江在汽车可视化方面的帮助,感谢百度研究院的黄新宇在关键点定义方面的帮助,感谢百度的赵世超在2D关键点检测方面的帮助。绝对误差测量相对误差测量0.70.60.50.43D-RCNN + gtMaks+MP+gt MaksMP+OF+gtMaksMP+OF+preMaksDeepMANTA+gtMaksCA求解器+gtMaksCA求解器+preMaksHuman0.30.2(c)第(1)款0.1(d)其他事项3D-RCNN + gtMaks+MP+gt MaksMP+OF+gtMaksMP+OF+preMaksDeepMANTA+gtMaksCA求解器+gtMaksCA求解器+preMaksHuman<0.490.49 - 0.66 0.66 -0.78可见光比率0.78比0。<0.75>0.75可见光比率3D-RCNN + gtMaks+MP+gt MaksMP+OF+gtMaksMP+OF+preMaksDeepMANTA+gtMaksCA求解器+gtMaksCA求解器+preMaksHuman(一)3D-RCNN + gtMaks+MP+gt MaksMP+OF+gtMaksMP+OF+preMaksDeepMANTA+gtMaksCA求解器+gtMaksCA求解器+preMaksHuman(b)第(1)款平均前后平均前后平均前后平均前后5461引用[1] M. Aubry,D. Maturana,A. A.埃夫罗斯湾C.罗素和J. 西维克看到3d椅子:使用cad模型的大数据集的基于示例部件的2d-3d对齐在IEEE计算机视觉和模式识别会议论文集,第3762-3769页[2] G.运河,S. Escalera和C.安古洛基于手势的实时人机交互辅助系统。计算机视觉和图像理解,149:65[3] F. 沙博湾Chaouch,J. 拉巴里索阿角你好,还有T.城堡。Deep manta:一个从粗到细的多任务网络,用于从单目图像进行联合2D和3D车辆分析。在procIEEE会议Comp. 目视帕特识别,第2040-2049页[4] A. X. 张氏T. 芬克豪泽湖 Guibas,P. Hanrahan,Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. Su等人Shapenet:一个信息丰富的3d模型库。arXiv预印本arXiv:1512.03012,2015。[5] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和 完 全 连 接 的 crfs 进 行 语 义 图 像 分 割 。 IEEEtransactionsonpatternanalysisandmachineintelligence,40(4):834[6] X. Chen,K.昆杜Z.Zhang,H.马,S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测在IEEE计算机视觉和模式识别会议论文集,第2147-2156页[7] Y. Chen,Z.Wang,Y.彭,Z.Zhang和G.Y. J. 太阳用于多人姿态估计的Cascaded金字塔网络[8] F. 胆Xception:使用深度可分离卷积的深度学习arXiv预印本,第1610[9] C. B. Choy,D. Xu,J. Gwak,K. Chen和S. Savarese3d-r2 n2:用于单视图和多视图3d对象重建的统一方法在proc EUR. Conf. Comp. 目视,2016年。[10] A. Dai , A. X. 张 , M 。 Savva , M. Halber , T. A.Funkhouser和M.尼斯纳Scannet:室内场景的丰富注释3D重建 在proc IEEE会议对比可见光帕特识别[11] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 在proc IEEE会议Comp. 目视帕特识别,第248Ieee,2009年。[12] X. Di和P. Yu。 从单视图轮廓图像进行简单物体的3D重建。arXiv预印本arXiv:1701.04752,2017。[13] N. Dinesh Reddy,M.Vo和S.G. 纳拉希姆汉Carfusion:结合点跟踪和部件检测,用于车辆的动态正在进行IEEE会议Comp. 目视帕特识别,2018年6月。[14] W. Ding,S. Li,G. Zhang,X. Lei,H. Qian和Y.徐通过多个单目视觉进行车辆姿态和形状估计[15] F. Engelmann ,J. S tu?kle r和B. Leibe 基于三维形状先验的城市街道场景联合物体姿态估计与形状重建。德国模式识别会议,第219-230页。施普林格,2016年。[16] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J. Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object ClassesChallenge2012(VOC2012)http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊[17] H. 范,H.Su和L.J. Guibas 一种从单幅图像重建三维物体的点集生成正在进行IEEE会议对比可见光帕特识别[18] S. Fidler,S. Dickinson和R.乌塔松利用可变形的3D长方体模型的3D目标检测和视点估计。 在proc Adv. 神经信息过程系统第611- 619页[19] M. A. Fischler和R. C.波尔斯随机样本同意:一个范例模 型 拟 合 与 应 用 程 序 的 图 像 分 析 和 自 动 制 图 。Communications of the ACM,24(6):381[20] H.傅,M。贡角,澳-地Wang,K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在IEEE计算机视觉和模式识别会议论文集,第2002[21] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?Kitti Vision基准套件。正在进行IEEE会议对比可见光帕特识别第3354- 3361页。IEEE,2012。[22] K. 他,G. Gkioxari,P. Dol la'r 和R. 娘娘腔。 面具r-cnn。 在proc IEEE国际Conf. Comp. 目视第2980-2988页IEEE,2017年。[23] X. Huang,X.成角,澳-地耿湾,澳-地Cao,中国粘蝇D.Zhou,P. 小王,Y. Lin和R.杨自动驾驶的apolloscape数据集在IEEE计算机视觉和模式识别研讨会会议集,第954[24] A. Kanazawa,S.Tulsiani,A.A. Efros和J.马利克从图像集合中学习特定类别的网格重建。欧洲药典配置文件可见,2018年。[25] A. Kar,S. Tulsiani,J. Carreira和J.马利克从单个图像重建特定类别的对象 正在进行IEEE会议对比可见光
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功